CN111814816A - 一种目标检测方法、装置及其存储介质 - Google Patents
一种目标检测方法、装置及其存储介质 Download PDFInfo
- Publication number
- CN111814816A CN111814816A CN201910295156.XA CN201910295156A CN111814816A CN 111814816 A CN111814816 A CN 111814816A CN 201910295156 A CN201910295156 A CN 201910295156A CN 111814816 A CN111814816 A CN 111814816A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- training
- loss
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 20
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000002372 labelling Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测方法、装置及其存储介质,该方法包括接收标注模型图像和未标注模型图像,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;根据所述标注模型图像损失和未标注模型图像损失得到训练模型;接收待识别图像;利用所述训练模型对所述待识别图像进行检测。本申请通过神经网络按照平均教师策略对标注模型图像和未标注模型图像进行训练得到训练模型,利用所述训练模型对图像进行检测,可以大幅提高识别检测的准确度。
Description
技术领域
本发明涉及计算机领域,尤其是指一种目标检测方法、装置及其存储介质。
背景技术
近年来,对基于深度学习模型通过合成数据生成预测标签的视觉研究越来越备受关注。比如,在一些图像中需要识别里面的车、人等目标对象,并利用标签在目标对象外部进行适当范围的定位和标注。虽然深度神经网络已被证明是在大数据集下学习视觉模型高效方法,然而简单的利用深度神经网络得到的学习模型进行图像合成生成预测标签时仍然普遍存在错误。
所以发明人发现现有技术中至少存在如下问题,对于简单利用深度神经网络得到的学习模型生成预测标签对识别对象进行识别时,仍然存在普遍错误的技术问题。
发明内容
本申请提供了一种目标检测方法,采用了平均教师策略对标注模型图像和未标注模型进行训练,最终生成训练模型,以达到克服简单利用深度神经网络得到的学习模型生成预测标签对识别对象进行识别时,仍然存在普遍错误的目的。
该方法具体包括:
接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
接收待识别图像;
利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
可选地,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括:
将所述标注模型图像输入学生网络训练得到标注模型图像损失;
将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域;
将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
根据所述第一相似度特征和所述第二相似度特征计算得到未标注模型图像损失。
可选地,所述学生网络和所述教师网络为Faster-R-CNN网络;
所述Faster-R-CNN网络具有Base CNN网络和RCNN网络,以及RPN网络;
可选地,所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后,该方法还包括:
调整所述未标注模型图像损失的权重;
根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
可选地,所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括通过随机梯度下降算法优化学生网络的训练步骤。
本申请还提供了一种目标检测装置,该装置包括:
接收模块,用于接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像集,所述未标注模型图像为未预建识别对象分类数据集的图像集;
训练模块,用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
计算模块,用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
所述接收模块,还用于接收待识别图像;
识别模块,用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
可选地,该装置包括:
所述训练模块,还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失;
噪声模块,用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
所述训练模块,还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
所述计算模块,还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
可选地,该装置包括:
调整模块,用于调整所述未标注模型图像损失的权重;
所述计算模块,还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
本申请提供了一种目标检测装置,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行所述的目标检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述的目标检测方法的步骤。
如上可见,基于上述实施例,本申请符合了半监督学习方法,可以实现自适应的标注训练结果。标注模型图像损失和未标注模型图像损失计算出的训练模型,通过训练模型对接收到的待识别图像可以大幅提高检测的预测精度。
附图说明
图1为本申请一个实施例中目标检测方法流程100的示意图;
图2为本申请一个实施例中目标检测方法流程200的示意图;
图3为本申请一个实施例中目标检测方法流程300的示意图;
图4为本申请一个实施例中目标检测方法流程400的示意图;
图5为本申请一个实施例中目标检测方法流程500的示意图;
图6为本申请一个实施例中权重系数改变后目标检测准确率的比较示意图;
图7为本申请一个实施例中平滑系数改变后目标检测准确率的比较示意图;
图8为权重系数和平滑系数改变后对不同方法目标检测准确率的比较示意图;
图9为一个不同方法下目标检测的实验比较示意图;
图10为另一个不同方法下目标检测准确率的实验比较示意图;
图11为本申请一个实施例中目标检测装置架构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
在本申请的一些实施例中,为了解决背景技术中提出的问题,对于变换场景后目标检测,并对识别的目标对象进行预测标注引入平均教师的解决方案,即建立教师网络和学生网络进行图像处理,并将预适应改为半监督学习。无监督学习是指训练样本的标注信息未知,目标是通过对无标注训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。半监督学习是指训练集同时包含有标注样本数据和未标注样本数据,不需要人工干预,让机器学习不依赖外界交互、自动地利用未标注样本来提升学习性能。从上述无监督学习和半监督学习的描述可以看出,无监督学习需要人为进行干预导致成本的增加,而本申请的半监督学习则不需要人工干预。
通过教师网络和学生网络的一致化损失可以自然弥合变换场景带来的问题。在本申请中将改进的平均教师方案应用于场景变换的目标检测。本申请特别创造性的提供了基于Faster R-CNN框架下融合学生网络和教师网络一致化量度的目标检测方法。
从理论上说,上述的目标检测方法,首先通过教师网络和学生网络各自对两幅不同场景下相关图像中捕捉的相似性进行学习,本申请的整体架构是对三项一致性规则进行优化。
其中,第一项是对教师网络和学生网络场景提供的待识别图像场景之间的预测结果进行一致化,简称区域间一致;
第二项是对教师网络和学生网络匹配的待识别图像结构进行一致化,简称图之间一致;
第三项是对学生网络中同类场景中同类区域增强相似性进行一致化,简称图中一致。
图1为本申请一个实施例中目标检测方法流程100的示意图,如图1所示,在一实施例中,本申请提供了一种目标检测方法,该方法包括:
S101,接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
本步骤中标注模型图像可以理解为通过标签进行标注的识别对象图像,如图4所示,其中,左侧下方的图像可以理解为标注模型图像,即植物、车、人等已经通过不同的标签进行标注,对应的右侧下方的图像可以理解为未标注模型图像,因为图像中并没有任何的标签。需要指出的是分类数据集的概念可以理解为通过签进行标注,数据集可以这样设定:红色标签(即图中的方框)分类为人,以此来定义创建数据集。
S102,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
本步骤中需要指出的是平均教师策略(即Mean Teacher)。具体来说,平均教师策略会提供一个学生网络和一个教师网络(两者的神经网络结构相同,因此根据参数更新的方式定义学生网络或是教师网络),学生网络用于处理标注模型图像,教师网络用于处理未标注模型图像,然后教师网络会指导学生网络达到具有共同属性的作用。所以在此需要特别指出的是本申请中按照平均教师策略训练得到的未标注模型图像损失之间存在着共同属性,此处的共同属性可以用于提高识别的预测准确度,具体的内容后文会有详细的说明,在此就不再赘述了。
图2为本申请一个实施例中的目标检测方法流程200示意图。如图2所示,目标探测器对一幅真实的待识别图像(左下角)直接应用神经网络通过对3D CAD模型合成图像(左上角)训练得到的训练模型进行目标检测标注(右上角,即现有技术)和利用本申请方法(即平均教师策略)进行目标检测标注(右下角)的流程结果对比图。
现有技术情况,简单基于3D CAD合成数据的训练模型无法准确的对待识别图像中的人和车等目标进行定位。本申请的情况,则是在本申请提供的方法下得到了准确的结果。
S103,根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
本步骤我们可以用公式进行解释说明:
将标注模型图像定义为:
将未标注模型图像定义为:
训练模型公式为:
其中,L即为训练模型,公式中:
可以理解为标注模型图像损失,对应公式中:
可以理解为未标注模型图像损失。公式中的每一项的具体算法在后续文中进行详述。
S104,接收待识别图像;
本步骤接收需要进行目标检测的待识别图像。
S105,利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
本步骤即通过训练模型对待识别图像进行分类识别,在本步骤后可以对分类识别后的识别对象附加标签进行标注。
在本步骤中提供了一种目标检测方法,利用预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失。此种方式符合了半监督学习方法,可以实现自适应的标注训练结果。标注模型图像损失和未标注模型图像损失计算出的训练模型,通过训练模型对接收到的待识别图像可以大幅提高识别的预测精度。
图3为本申请一个实施例中目标检测方法流程300的示意图。图4为本申请一个实施例中目标检测方法流程400的示意图。如图3和图4所示,在一实施例中,所述对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括:
S201,将所述标注模型图像输入学生网络训练得到标注模型图像损失;
本步骤中提供了采用学生网络进行训练得到标注模型图像损失的具体实施方式。
S202,将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
本步骤是为了让位标注模型图像在场景切换时具备进行后续识别处理的能力,此处的场景切换可以理解为本领域技术人员域的概念(即Domain的概念)。通过噪声的干扰使未标注模型图像中的Domain发生偏移。
下面通过公式对后续步骤进行说明:
S203,将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域;
S204,将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
S205,根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
在步骤中主要就是建立第一相似度特征和第二相似度特征的联系,将其作为未标注模型图像损失用于后续的计算。
在本实施例中,首先接收标注模型图像和未标注模型图像,然后分别通过学生网络和教师网络进行分别的训练,未标注模型图像对通过一个随机的放大(即上述步骤中的干扰)得到两张不同的未标注模型图像,分别放到不同的神经网络中进行训练。与此同时,在教师网络中进行训练的其中一张未标注模型图像会训练出候选区域和第,将候选区域与分配给学生网络其中一张未标注模型图像共同训练,得到第二相似度特征,教师网络通过自己分配的未标注模型图像训练得到第一相似度特征。将第一相似度特征和第二相似度特征构建关系,然后将构建的关系作为未标注模型图像损失用于后续的计算。
为了更好的说明本实施例,以下用公式来表示上述步骤的实施方法:
针对两张未标注模型图像:
由上述说明可得到:
本实施例可以在域进行切换时,依然确保识别的准确性,原因在于对于未标注模型图像损失的物理量其实可以包括三个要素,即上面说的一致性的问题,区域之间的一致性和图之间的一致性,以及图内的一致性。
为了更加具体的提供上面关于一致性的说明,我们依然采用公式的方式进行详细说明:
如图4所示,在一实施例中,所述学生网络和所述教师网络为Faster-R-CNN网络;
所述Faster-R-CNN网络具有Base CNN网络和RCNN网络,以及RPN网络;
所述Base CNN网络用于提取图像特征,RCNN网络用于根据所述图像特征提取对应的相似度特征,所述RPN网络用于提取图像的候选区域。
本实施例中提供了一种学生网络和教师网络的具体实施方式,即均采用Faster-R-CNN网络。另外,还对Faster-R-CNN网络的具体配置也进行了公开。
如图4所示,可以根据本实施例的配置通过公式继续进行解释说明:
域之间的关系可以表示为:
上面的方法即是对域等级一致化的计算。
图间的一致化计算方法如下:
综上可以得到:
图间的一致性可表达为:
最后,讨论下学生网络中图内一致性的问题:
利用上面的公式最终图内一致性的表达式为:
可以将原先的公式:
进一步扩展为:
根据公式中的域间一致性、图间一致性和图内一致性,以及标注模型图像损失共同架构出训练模型。
图5为本申请一个实施例中目标检测方法流程500的示意图,图6为本申请一个实施例中权重系数改变后目标检测准确率的比较示意图。如图5和图6所示,在一实施例中,所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后,该方法还包括:
S301,调整所述未标注模型图像损失的权重;
本步骤中;
根据前文中下面的公式:
只要调节其中的λ为权重系数的数值,即未标注模型图像损失的权重系数就可以进行调节。
S302,根据所述标注模型图像损失和调整后的所述未标注模型图像损失得到训练模型。
本步骤中将调整过权重的未标注模型图像损失计算入训练模型中,并进行后续的目标检测步骤。
本步骤中提供了一种通过调整未标注模型图像损失,在应用中未标注模型图像损失在训练模型可以影响最终的识别精度,因此可以通过调整未标注模型图像损失调整最后的识别结果。另外,从图6中也可以看出权重系数改变对目标检测最终结果的影响。
图7为本申请一个实施例中平滑系数改变后目标检测准确率的比较示意图;图8为权重系数和平滑系数改变后对不同方法目标检测准确率的比较示意图。
如图7和图8所示,在一实施例中,所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括:
将所述标注模型图像输入学生网络采用随机梯度下降算法训练得到标注模型图像。
在本实施例中,以下面的公式更加容易理解(上面有推导过程,在此不再赘述了),其中的α为平滑系数。
实验描述:
上表1是不同方法雾天的城市场景验证集的性能比较,纵向上是采用的不同方法,横坐标设置person(行人)、rider(骑自行的人)、car(汽车)、bus(公交车)、train(火车)、bicycle(自行车)等,下方对应的数据是识别的准确率。
纵向上的Source-only是现有技术中的方法,该方法只是简单通过CNN对标注模型图像进行训练,通过训练模型对图像进行识别,后面DA为利用50层ResNet重新架构而成。DA下方的方法均是本申请保护的方法,只是里面的配置不同。从表1中可以看出本申请的方法在各个层面准确率都由于现有技术的简单训练和DA的方法。另外,图9为一个不同方法下目标检测的实验比较示意图,如图9所示也能看出不同方法的目标检测结果。
上表2是不同方法汽车在城市中的平均准确率。
Table 3.The mean Average Precision(mAP)of different models onSyn2Real detection dataset for S→O/Y transfers.
上表3是不同方法其他配置的平均准确率
图10为另一个不同方法下目标检测准确率的实验比较示意图,如图10所示,不同的方法对于识别的结果影响极大。
图11为本申请一个实施例中目标检测装置架构示意图。如图11所示,本申请还提供了一种目标检测装置,该装置包括:
接收模块101,用于接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
训练模块102,用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
计算模块103,用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
所述接收模块101,还用于接收待识别图像;
识别模块104,用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
在一实施例中,该装置包括:
所述训练模块102,还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失;
噪声模块105,用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
所述训练模块102,还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
在一实施例中,该装置包括:
调整模块106,用于调整所述未标注模型图像损失的权重;
所述计算模块103,还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
本申请还提供了一种目标检测装置,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行所述的目标检测方法的步骤。
在一实施例中,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的目标检测方法步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种目标检测方法,其特征在于,该方法包括:
接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
接收待识别图像;
利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
2.根据权利要求1所述的目标检测方法,其特征在于,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括:
将所述标注模型图像输入学生网络训练得到标注模型图像损失;
将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域;
将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
根据所述第一相似度特征和所述第二相似度特征计算得到未标注模型图像损失。
3.根据权利要求2所述的目标检测方法,其特征在于,所述学生网络和所述教师网络为Faster-R-CNN网络;
所述Faster-R-CNN网络具有Base CNN网络和RCNN网络,以及RPN网络;
所述Base CNN网络用于提取图像特征,RCNN网络用于根据所述图像特征提取对应的视觉特征,所述RPN网络用于提取图像的候选区域。
4.根据权利要求1所述的目标检测方法,其特征在于,所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后,该方法还包括:
调整所述未标注模型图像损失的权重;
根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
5.根据权利要求2所述的目标检测方法,其特征在于,所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括:
将所述标注模型图像输入学生网络采用随机梯度下降算法训练得到标注模型图像。
6.一种目标检测装置,其特征在于,该装置包括:
接收模块,用于接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像集,所述未标注模型图像为未预建识别对象分类数据集的图像集;
训练模块,用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
计算模块,用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
所述接收模块,还用于接收待识别图像;
识别模块,用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
7.根据权利要求6所述的目标检测装置,其特征在于,该装置包括:
所述训练模块,还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失;
噪声模块,用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
所述训练模块,还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
所述计算模块,还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
8.根据权利要求6所述的时序数据流分割装置,其特征在于,该装置包括:
调整模块,用于调整所述未标注模型图像损失的权重;
所述计算模块,还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
9.一种目标检测装置,其特征在于,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至5中任一项所述的目标检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一项所述的目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910295156.XA CN111814816A (zh) | 2019-04-12 | 2019-04-12 | 一种目标检测方法、装置及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910295156.XA CN111814816A (zh) | 2019-04-12 | 2019-04-12 | 一种目标检测方法、装置及其存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814816A true CN111814816A (zh) | 2020-10-23 |
Family
ID=72843935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910295156.XA Pending CN111814816A (zh) | 2019-04-12 | 2019-04-12 | 一种目标检测方法、装置及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814816A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257726A (zh) * | 2020-10-29 | 2021-01-22 | 上海明略人工智能(集团)有限公司 | 目标检测训练方法、系统、电子设备及计算机可读存储介质 |
CN112396923A (zh) * | 2020-11-25 | 2021-02-23 | 贵州轻工职业技术学院 | 一种市场营销的教学模拟系统 |
CN113256639A (zh) * | 2021-05-27 | 2021-08-13 | 燕山大学 | 基于半监督平均教师模型的冠脉造影血管图像分割方法 |
CN113536920A (zh) * | 2021-06-11 | 2021-10-22 | 复旦大学 | 一种半监督三维点云目标检测方法 |
CN113762393A (zh) * | 2021-09-08 | 2021-12-07 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN114330592A (zh) * | 2022-01-06 | 2022-04-12 | 北京百度网讯科技有限公司 | 模型生成方法、装置、电子设备及计算机存储介质 |
CN114943868A (zh) * | 2021-05-31 | 2022-08-26 | 阿里巴巴新加坡控股有限公司 | 图像处理方法、装置、存储介质及处理器 |
CN115116147A (zh) * | 2022-06-06 | 2022-09-27 | 马上消费金融股份有限公司 | 图像识别、模型训练、活体检测方法及相关装置 |
CN115527083A (zh) * | 2022-09-27 | 2022-12-27 | 中电金信软件有限公司 | 图像标注方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN108830813A (zh) * | 2018-06-12 | 2018-11-16 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的图像超分辨率增强方法 |
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
US20190051290A1 (en) * | 2017-08-11 | 2019-02-14 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
-
2019
- 2019-04-12 CN CN201910295156.XA patent/CN111814816A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US20190051290A1 (en) * | 2017-08-11 | 2019-02-14 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
CN108830813A (zh) * | 2018-06-12 | 2018-11-16 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的图像超分辨率增强方法 |
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257726A (zh) * | 2020-10-29 | 2021-01-22 | 上海明略人工智能(集团)有限公司 | 目标检测训练方法、系统、电子设备及计算机可读存储介质 |
CN112257726B (zh) * | 2020-10-29 | 2023-12-15 | 上海明略人工智能(集团)有限公司 | 目标检测训练方法、系统、电子设备及计算机可读存储介质 |
CN112396923B (zh) * | 2020-11-25 | 2023-09-19 | 贵州轻工职业技术学院 | 一种市场营销的教学模拟系统 |
CN112396923A (zh) * | 2020-11-25 | 2021-02-23 | 贵州轻工职业技术学院 | 一种市场营销的教学模拟系统 |
CN113256639A (zh) * | 2021-05-27 | 2021-08-13 | 燕山大学 | 基于半监督平均教师模型的冠脉造影血管图像分割方法 |
CN114943868B (zh) * | 2021-05-31 | 2023-11-14 | 阿里巴巴新加坡控股有限公司 | 图像处理方法、装置、存储介质及处理器 |
CN114943868A (zh) * | 2021-05-31 | 2022-08-26 | 阿里巴巴新加坡控股有限公司 | 图像处理方法、装置、存储介质及处理器 |
CN113536920A (zh) * | 2021-06-11 | 2021-10-22 | 复旦大学 | 一种半监督三维点云目标检测方法 |
CN113762393A (zh) * | 2021-09-08 | 2021-12-07 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN113762393B (zh) * | 2021-09-08 | 2024-04-30 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN114330592A (zh) * | 2022-01-06 | 2022-04-12 | 北京百度网讯科技有限公司 | 模型生成方法、装置、电子设备及计算机存储介质 |
CN115116147B (zh) * | 2022-06-06 | 2023-08-08 | 马上消费金融股份有限公司 | 图像识别、模型训练、活体检测方法及相关装置 |
CN115116147A (zh) * | 2022-06-06 | 2022-09-27 | 马上消费金融股份有限公司 | 图像识别、模型训练、活体检测方法及相关装置 |
CN115527083A (zh) * | 2022-09-27 | 2022-12-27 | 中电金信软件有限公司 | 图像标注方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814816A (zh) | 一种目标检测方法、装置及其存储介质 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
CN111915650B (zh) | 基于改进孪生网络的目标跟踪方法及系统 | |
CN109740537B (zh) | 人群视频图像中行人图像属性的精确标注方法及系统 | |
Zhai | [Retracted] Dance Movement Recognition Based on Feature Expression and Attribute Mining | |
US20210224646A1 (en) | Method for generating labeled data, in particular for training a neural network, by improving initial labels | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN108898623A (zh) | 目标跟踪方法及设备 | |
Hu et al. | A video streaming vehicle detection algorithm based on YOLOv4 | |
CN116342942A (zh) | 基于多级域适应弱监督学习的跨域目标检测方法 | |
Li | Image semantic segmentation method based on GAN network and ENet model | |
Lv et al. | Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle | |
US11915419B1 (en) | Auto-normalization for machine learning | |
Rajagopal et al. | A hybrid Cycle GAN-based lightweight road perception pipeline for road dataset generation for Urban mobility | |
Ren et al. | DCW-YOLO: Road Object Detection Algorithms for Autonomous Driving | |
CN117037102A (zh) | 对象跟随方法、装置、计算机设备和存储介质 | |
CN116704511A (zh) | 设备清单文字识别方法和装置 | |
Qiu et al. | A moving vehicle tracking algorithm based on deep learning | |
CN115116128B (zh) | 一种自约束优化的人体姿态估计方法及系统 | |
Tan et al. | 3D detection transformer: Set prediction of objects using point clouds | |
Ciamarra et al. | Forecasting future instance segmentation with learned optical flow and warping | |
Paramanandam et al. | A review on deep learning techniques for saliency detection | |
Zhang | [Retracted] An Intelligent and Fast Dance Action Recognition Model Using Two‐Dimensional Convolution Network Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |