CN111814816A - 一种目标检测方法、装置及其存储介质 - Google Patents

一种目标检测方法、装置及其存储介质 Download PDF

Info

Publication number
CN111814816A
CN111814816A CN201910295156.XA CN201910295156A CN111814816A CN 111814816 A CN111814816 A CN 111814816A CN 201910295156 A CN201910295156 A CN 201910295156A CN 111814816 A CN111814816 A CN 111814816A
Authority
CN
China
Prior art keywords
image
model
training
loss
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910295156.XA
Other languages
English (en)
Inventor
潘滢炜
姚霆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910295156.XA priority Critical patent/CN111814816A/zh
Publication of CN111814816A publication Critical patent/CN111814816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测方法、装置及其存储介质,该方法包括接收标注模型图像和未标注模型图像,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;根据所述标注模型图像损失和未标注模型图像损失得到训练模型;接收待识别图像;利用所述训练模型对所述待识别图像进行检测。本申请通过神经网络按照平均教师策略对标注模型图像和未标注模型图像进行训练得到训练模型,利用所述训练模型对图像进行检测,可以大幅提高识别检测的准确度。

Description

一种目标检测方法、装置及其存储介质
技术领域
本发明涉及计算机领域,尤其是指一种目标检测方法、装置及其存储介质。
背景技术
近年来,对基于深度学习模型通过合成数据生成预测标签的视觉研究越来越备受关注。比如,在一些图像中需要识别里面的车、人等目标对象,并利用标签在目标对象外部进行适当范围的定位和标注。虽然深度神经网络已被证明是在大数据集下学习视觉模型高效方法,然而简单的利用深度神经网络得到的学习模型进行图像合成生成预测标签时仍然普遍存在错误。
所以发明人发现现有技术中至少存在如下问题,对于简单利用深度神经网络得到的学习模型生成预测标签对识别对象进行识别时,仍然存在普遍错误的技术问题。
发明内容
本申请提供了一种目标检测方法,采用了平均教师策略对标注模型图像和未标注模型进行训练,最终生成训练模型,以达到克服简单利用深度神经网络得到的学习模型生成预测标签对识别对象进行识别时,仍然存在普遍错误的目的。
该方法具体包括:
接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
接收待识别图像;
利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
可选地,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括:
将所述标注模型图像输入学生网络训练得到标注模型图像损失;
将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域;
将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
根据所述第一相似度特征和所述第二相似度特征计算得到未标注模型图像损失。
可选地,所述学生网络和所述教师网络为Faster-R-CNN网络;
所述Faster-R-CNN网络具有Base CNN网络和RCNN网络,以及RPN网络;
可选地,所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后,该方法还包括:
调整所述未标注模型图像损失的权重;
根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
可选地,所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括通过随机梯度下降算法优化学生网络的训练步骤。
本申请还提供了一种目标检测装置,该装置包括:
接收模块,用于接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像集,所述未标注模型图像为未预建识别对象分类数据集的图像集;
训练模块,用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
计算模块,用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
所述接收模块,还用于接收待识别图像;
识别模块,用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
可选地,该装置包括:
所述训练模块,还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失;
噪声模块,用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
所述训练模块,还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
所述计算模块,还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
可选地,该装置包括:
调整模块,用于调整所述未标注模型图像损失的权重;
所述计算模块,还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
本申请提供了一种目标检测装置,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行所述的目标检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述的目标检测方法的步骤。
如上可见,基于上述实施例,本申请符合了半监督学习方法,可以实现自适应的标注训练结果。标注模型图像损失和未标注模型图像损失计算出的训练模型,通过训练模型对接收到的待识别图像可以大幅提高检测的预测精度。
附图说明
图1为本申请一个实施例中目标检测方法流程100的示意图;
图2为本申请一个实施例中目标检测方法流程200的示意图;
图3为本申请一个实施例中目标检测方法流程300的示意图;
图4为本申请一个实施例中目标检测方法流程400的示意图;
图5为本申请一个实施例中目标检测方法流程500的示意图;
图6为本申请一个实施例中权重系数改变后目标检测准确率的比较示意图;
图7为本申请一个实施例中平滑系数改变后目标检测准确率的比较示意图;
图8为权重系数和平滑系数改变后对不同方法目标检测准确率的比较示意图;
图9为一个不同方法下目标检测的实验比较示意图;
图10为另一个不同方法下目标检测准确率的实验比较示意图;
图11为本申请一个实施例中目标检测装置架构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
在本申请的一些实施例中,为了解决背景技术中提出的问题,对于变换场景后目标检测,并对识别的目标对象进行预测标注引入平均教师的解决方案,即建立教师网络和学生网络进行图像处理,并将预适应改为半监督学习。无监督学习是指训练样本的标注信息未知,目标是通过对无标注训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。半监督学习是指训练集同时包含有标注样本数据和未标注样本数据,不需要人工干预,让机器学习不依赖外界交互、自动地利用未标注样本来提升学习性能。从上述无监督学习和半监督学习的描述可以看出,无监督学习需要人为进行干预导致成本的增加,而本申请的半监督学习则不需要人工干预。
通过教师网络和学生网络的一致化损失可以自然弥合变换场景带来的问题。在本申请中将改进的平均教师方案应用于场景变换的目标检测。本申请特别创造性的提供了基于Faster R-CNN框架下融合学生网络和教师网络一致化量度的目标检测方法。
从理论上说,上述的目标检测方法,首先通过教师网络和学生网络各自对两幅不同场景下相关图像中捕捉的相似性进行学习,本申请的整体架构是对三项一致性规则进行优化。
其中,第一项是对教师网络和学生网络场景提供的待识别图像场景之间的预测结果进行一致化,简称区域间一致;
第二项是对教师网络和学生网络匹配的待识别图像结构进行一致化,简称图之间一致;
第三项是对学生网络中同类场景中同类区域增强相似性进行一致化,简称图中一致。
图1为本申请一个实施例中目标检测方法流程100的示意图,如图1所示,在一实施例中,本申请提供了一种目标检测方法,该方法包括:
S101,接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
本步骤中标注模型图像可以理解为通过标签进行标注的识别对象图像,如图4所示,其中,左侧下方的图像可以理解为标注模型图像,即植物、车、人等已经通过不同的标签进行标注,对应的右侧下方的图像可以理解为未标注模型图像,因为图像中并没有任何的标签。需要指出的是分类数据集的概念可以理解为通过签进行标注,数据集可以这样设定:红色标签(即图中的方框)分类为人,以此来定义创建数据集。
S102,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
本步骤中需要指出的是平均教师策略(即Mean Teacher)。具体来说,平均教师策略会提供一个学生网络和一个教师网络(两者的神经网络结构相同,因此根据参数更新的方式定义学生网络或是教师网络),学生网络用于处理标注模型图像,教师网络用于处理未标注模型图像,然后教师网络会指导学生网络达到具有共同属性的作用。所以在此需要特别指出的是本申请中按照平均教师策略训练得到的未标注模型图像损失之间存在着共同属性,此处的共同属性可以用于提高识别的预测准确度,具体的内容后文会有详细的说明,在此就不再赘述了。
图2为本申请一个实施例中的目标检测方法流程200示意图。如图2所示,目标探测器对一幅真实的待识别图像(左下角)直接应用神经网络通过对3D CAD模型合成图像(左上角)训练得到的训练模型进行目标检测标注(右上角,即现有技术)和利用本申请方法(即平均教师策略)进行目标检测标注(右下角)的流程结果对比图。
现有技术情况,简单基于3D CAD合成数据的训练模型无法准确的对待识别图像中的人和车等目标进行定位。本申请的情况,则是在本申请提供的方法下得到了准确的结果。
S103,根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
本步骤我们可以用公式进行解释说明:
将标注模型图像定义为:
Figure BDA0002026241590000051
将未标注模型图像定义为:
Figure BDA0002026241590000052
训练模型公式为:
Figure BDA0002026241590000053
其中,L即为训练模型,公式中:
Figure BDA0002026241590000054
可以理解为标注模型图像损失,对应公式中:
Figure BDA0002026241590000055
可以理解为未标注模型图像损失。公式中的每一项的具体算法在后续文中进行详述。
S104,接收待识别图像;
本步骤接收需要进行目标检测的待识别图像。
S105,利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
本步骤即通过训练模型对待识别图像进行分类识别,在本步骤后可以对分类识别后的识别对象附加标签进行标注。
在本步骤中提供了一种目标检测方法,利用预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失。此种方式符合了半监督学习方法,可以实现自适应的标注训练结果。标注模型图像损失和未标注模型图像损失计算出的训练模型,通过训练模型对接收到的待识别图像可以大幅提高识别的预测精度。
图3为本申请一个实施例中目标检测方法流程300的示意图。图4为本申请一个实施例中目标检测方法流程400的示意图。如图3和图4所示,在一实施例中,所述对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括:
S201,将所述标注模型图像输入学生网络训练得到标注模型图像损失;
本步骤中提供了采用学生网络进行训练得到标注模型图像损失的具体实施方式。
S202,将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
本步骤是为了让位标注模型图像在场景切换时具备进行后续识别处理的能力,此处的场景切换可以理解为本领域技术人员域的概念(即Domain的概念)。通过噪声的干扰使未标注模型图像中的Domain发生偏移。
下面通过公式对后续步骤进行说明:
将第一噪声干扰图像定义为:
Figure BDA0002026241590000061
将第二噪声干扰图像定义为:
Figure BDA0002026241590000062
S203,将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域;
在本步骤中教师网络训练得到的第一相似度特征,即图4中的
Figure BDA0002026241590000063
候选区域,即图4中的
Figure BDA0002026241590000064
另外,教师网络训练可以理解为教师网络。
S204,将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
在本步骤中学生网络训练得到第二相似度特征,即图4中的
Figure BDA0002026241590000065
S205,根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
在步骤中主要就是建立第一相似度特征和第二相似度特征的联系,将其作为未标注模型图像损失用于后续的计算。
在本实施例中,首先接收标注模型图像和未标注模型图像,然后分别通过学生网络和教师网络进行分别的训练,未标注模型图像对通过一个随机的放大(即上述步骤中的干扰)得到两张不同的未标注模型图像,分别放到不同的神经网络中进行训练。与此同时,在教师网络中进行训练的其中一张未标注模型图像会训练出候选区域和第,将候选区域与分配给学生网络其中一张未标注模型图像共同训练,得到第二相似度特征,教师网络通过自己分配的未标注模型图像训练得到第一相似度特征。将第一相似度特征和第二相似度特征构建关系,然后将构建的关系作为未标注模型图像损失用于后续的计算。
为了更好的说明本实施例,以下用公式来表示上述步骤的实施方法:
针对两张未标注模型图像:
学生网络,利用
Figure BDA0002026241590000071
Figure BDA0002026241590000072
参数化,得到学生网络的预测函数
Figure BDA0002026241590000073
教师网络,利用
Figure BDA0002026241590000074
Figure BDA0002026241590000075
参数化,得到教师网络的预测函数
Figure BDA0002026241590000076
由上述说明可得到:
Figure BDA0002026241590000077
本实施例可以在域进行切换时,依然确保识别的准确性,原因在于对于未标注模型图像损失的物理量其实可以包括三个要素,即上面说的一致性的问题,区域之间的一致性和图之间的一致性,以及图内的一致性。
为了更加具体的提供上面关于一致性的说明,我们依然采用公式的方式进行详细说明:
首先,定义标注模型图像
Figure BDA0002026241590000078
Figure BDA0002026241590000079
Figure BDA00020262415900000710
的线性回归标注;
定义未标注模型图像
Figure BDA00020262415900000711
最终对域偏移后的预测标注准确性,取决于
Figure BDA00020262415900000712
Figure BDA00020262415900000713
与此同时,对于xt随机放大干扰后得到
Figure BDA00020262415900000714
Figure BDA00020262415900000715
上面步骤中的候选区域为
Figure BDA00020262415900000716
第一相似度特征和第二相似度特征分别为
Figure BDA00020262415900000717
Figure BDA00020262415900000718
那么
Figure BDA00020262415900000719
可以理解为未标注模型图像损失,其本质是具有共建关系的映射。
对于
Figure BDA00020262415900000720
进一步可以通过
Figure BDA00020262415900000721
进行构建。
Figure BDA00020262415900000722
为在学生网络和教师网络中对所有候选区域的检测结果,
Figure BDA00020262415900000723
为表达式为
Figure BDA00020262415900000724
的矩阵。
如图4所示,在一实施例中,所述学生网络和所述教师网络为Faster-R-CNN网络;
所述Faster-R-CNN网络具有Base CNN网络和RCNN网络,以及RPN网络;
所述Base CNN网络用于提取图像特征,RCNN网络用于根据所述图像特征提取对应的相似度特征,所述RPN网络用于提取图像的候选区域。
本实施例中提供了一种学生网络和教师网络的具体实施方式,即均采用Faster-R-CNN网络。另外,还对Faster-R-CNN网络的具体配置也进行了公开。
如图4所示,可以根据本实施例的配置通过公式继续进行解释说明:
对于输入为
Figure BDA0002026241590000089
,Base CNN网络输出的图像特征为
Figure BDA00020262415900000810
,其中,
Figure BDA00020262415900000811
可以理解为Base CNN网络的输出函数;
RPN网络的输出函数为
Figure BDA00020262415900000812
,在根据之前的配置可以得到:
Figure BDA0002026241590000081
ROI pooling层可以从图像特征中
Figure BDA00020262415900000813
提取固定向量
Figure BDA00020262415900000814
另外还有
Figure BDA00020262415900000815
Figure BDA00020262415900000816
对于学生网络,与上述的Faster-R-CNN网络架构相同,不同的是学生网络会得到一个来自于教师网络的
Figure BDA00020262415900000817
,于是得到:
Figure BDA0002026241590000082
同理,有
Figure BDA0002026241590000083
Figure BDA0002026241590000084
定义一个计算系数,
Figure BDA0002026241590000085
其中C的是预设分类数据集的数据配置,
Figure BDA0002026241590000086
为第j个预设分类数据集的预测概率。
域之间的关系可以表示为:
Figure BDA0002026241590000087
上面的方法即是对域等级一致化的计算。
图间的一致化计算方法如下:
定义两个候选区域,记为
Figure BDA0002026241590000088
综上可以得到:
Figure BDA0002026241590000091
图间的一致性可表达为:
Figure BDA0002026241590000092
最后,讨论下学生网络中图内一致性的问题:
Figure BDA0002026241590000093
其中的矩阵:
Figure BDA0002026241590000094
利用上面的公式最终图内一致性的表达式为:
Figure BDA0002026241590000095
可以将原先的公式:
Figure BDA0002026241590000096
进一步扩展为:
Figure BDA0002026241590000097
根据公式中的域间一致性、图间一致性和图内一致性,以及标注模型图像损失共同架构出训练模型。
图5为本申请一个实施例中目标检测方法流程500的示意图,图6为本申请一个实施例中权重系数改变后目标检测准确率的比较示意图。如图5和图6所示,在一实施例中,所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后,该方法还包括:
S301,调整所述未标注模型图像损失的权重;
本步骤中;
根据前文中下面的公式:
Figure BDA0002026241590000101
只要调节其中的λ为权重系数的数值,即未标注模型图像损失的权重系数就可以进行调节。
S302,根据所述标注模型图像损失和调整后的所述未标注模型图像损失得到训练模型。
本步骤中将调整过权重的未标注模型图像损失计算入训练模型中,并进行后续的目标检测步骤。
本步骤中提供了一种通过调整未标注模型图像损失,在应用中未标注模型图像损失在训练模型可以影响最终的识别精度,因此可以通过调整未标注模型图像损失调整最后的识别结果。另外,从图6中也可以看出权重系数改变对目标检测最终结果的影响。
图7为本申请一个实施例中平滑系数改变后目标检测准确率的比较示意图;图8为权重系数和平滑系数改变后对不同方法目标检测准确率的比较示意图。
如图7和图8所示,在一实施例中,所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括:
将所述标注模型图像输入学生网络采用随机梯度下降算法训练得到标注模型图像。
在本实施例中,以下面的公式更加容易理解(上面有推导过程,在此不再赘述了),其中的α为平滑系数。
Figure BDA0002026241590000102
实验描述:
Figure BDA0002026241590000103
上表1是不同方法雾天的城市场景验证集的性能比较,纵向上是采用的不同方法,横坐标设置person(行人)、rider(骑自行的人)、car(汽车)、bus(公交车)、train(火车)、bicycle(自行车)等,下方对应的数据是识别的准确率。
纵向上的Source-only是现有技术中的方法,该方法只是简单通过CNN对标注模型图像进行训练,通过训练模型对图像进行识别,后面DA为利用50层ResNet重新架构而成。DA下方的方法均是本申请保护的方法,只是里面的配置不同。从表1中可以看出本申请的方法在各个层面准确率都由于现有技术的简单训练和DA的方法。另外,图9为一个不同方法下目标检测的实验比较示意图,如图9所示也能看出不同方法的目标检测结果。
Figure BDA0002026241590000111
上表2是不同方法汽车在城市中的平均准确率。
Table 3.The mean Average Precision(mAP)of different models onSyn2Real detection dataset for S→O/Y transfers.
Figure BDA0002026241590000112
上表3是不同方法其他配置的平均准确率
图10为另一个不同方法下目标检测准确率的实验比较示意图,如图10所示,不同的方法对于识别的结果影响极大。
图11为本申请一个实施例中目标检测装置架构示意图。如图11所示,本申请还提供了一种目标检测装置,该装置包括:
接收模块101,用于接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
训练模块102,用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
计算模块103,用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
所述接收模块101,还用于接收待识别图像;
识别模块104,用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
在一实施例中,该装置包括:
所述训练模块102,还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失;
噪声模块105,用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
所述训练模块102,还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
在一实施例中,该装置包括:
调整模块106,用于调整所述未标注模型图像损失的权重;
所述计算模块103,还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
本申请还提供了一种目标检测装置,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行所述的目标检测方法的步骤。
在一实施例中,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的目标检测方法步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,该方法包括:
接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像,所述未标注模型图像为未预建识别对象分类数据集的图像;
对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
接收待识别图像;
利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
2.根据权利要求1所述的目标检测方法,其特征在于,对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括:
将所述标注模型图像输入学生网络训练得到标注模型图像损失;
将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域;
将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
根据所述第一相似度特征和所述第二相似度特征计算得到未标注模型图像损失。
3.根据权利要求2所述的目标检测方法,其特征在于,所述学生网络和所述教师网络为Faster-R-CNN网络;
所述Faster-R-CNN网络具有Base CNN网络和RCNN网络,以及RPN网络;
所述Base CNN网络用于提取图像特征,RCNN网络用于根据所述图像特征提取对应的视觉特征,所述RPN网络用于提取图像的候选区域。
4.根据权利要求1所述的目标检测方法,其特征在于,所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后,该方法还包括:
调整所述未标注模型图像损失的权重;
根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
5.根据权利要求2所述的目标检测方法,其特征在于,所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括:
将所述标注模型图像输入学生网络采用随机梯度下降算法训练得到标注模型图像。
6.一种目标检测装置,其特征在于,该装置包括:
接收模块,用于接收标注模型图像和未标注模型图像,其中,所述标注模型图像为预建有识别对象分类数据集的图像集,所述未标注模型图像为未预建识别对象分类数据集的图像集;
训练模块,用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失;
计算模块,用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型;
所述接收模块,还用于接收待识别图像;
识别模块,用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。
7.根据权利要求6所述的目标检测装置,其特征在于,该装置包括:
所述训练模块,还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失;
噪声模块,用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;
所述训练模块,还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像;还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征;
所述计算模块,还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。
8.根据权利要求6所述的时序数据流分割装置,其特征在于,该装置包括:
调整模块,用于调整所述未标注模型图像损失的权重;
所述计算模块,还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。
9.一种目标检测装置,其特征在于,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至5中任一项所述的目标检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一项所述的目标检测方法的步骤。
CN201910295156.XA 2019-04-12 2019-04-12 一种目标检测方法、装置及其存储介质 Pending CN111814816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910295156.XA CN111814816A (zh) 2019-04-12 2019-04-12 一种目标检测方法、装置及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910295156.XA CN111814816A (zh) 2019-04-12 2019-04-12 一种目标检测方法、装置及其存储介质

Publications (1)

Publication Number Publication Date
CN111814816A true CN111814816A (zh) 2020-10-23

Family

ID=72843935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910295156.XA Pending CN111814816A (zh) 2019-04-12 2019-04-12 一种目标检测方法、装置及其存储介质

Country Status (1)

Country Link
CN (1) CN111814816A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257726A (zh) * 2020-10-29 2021-01-22 上海明略人工智能(集团)有限公司 目标检测训练方法、系统、电子设备及计算机可读存储介质
CN112396923A (zh) * 2020-11-25 2021-02-23 贵州轻工职业技术学院 一种市场营销的教学模拟系统
CN113256639A (zh) * 2021-05-27 2021-08-13 燕山大学 基于半监督平均教师模型的冠脉造影血管图像分割方法
CN113536920A (zh) * 2021-06-11 2021-10-22 复旦大学 一种半监督三维点云目标检测方法
CN113762393A (zh) * 2021-09-08 2021-12-07 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN114330592A (zh) * 2022-01-06 2022-04-12 北京百度网讯科技有限公司 模型生成方法、装置、电子设备及计算机存储介质
CN114943868A (zh) * 2021-05-31 2022-08-26 阿里巴巴新加坡控股有限公司 图像处理方法、装置、存储介质及处理器
CN115116147A (zh) * 2022-06-06 2022-09-27 马上消费金融股份有限公司 图像识别、模型训练、活体检测方法及相关装置
CN115527083A (zh) * 2022-09-27 2022-12-27 中电金信软件有限公司 图像标注方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN108830813A (zh) * 2018-06-12 2018-11-16 福建帝视信息科技有限公司 一种基于知识蒸馏的图像超分辨率增强方法
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架
US20190051290A1 (en) * 2017-08-11 2019-02-14 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US20190051290A1 (en) * 2017-08-11 2019-02-14 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN108830813A (zh) * 2018-06-12 2018-11-16 福建帝视信息科技有限公司 一种基于知识蒸馏的图像超分辨率增强方法
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257726A (zh) * 2020-10-29 2021-01-22 上海明略人工智能(集团)有限公司 目标检测训练方法、系统、电子设备及计算机可读存储介质
CN112257726B (zh) * 2020-10-29 2023-12-15 上海明略人工智能(集团)有限公司 目标检测训练方法、系统、电子设备及计算机可读存储介质
CN112396923B (zh) * 2020-11-25 2023-09-19 贵州轻工职业技术学院 一种市场营销的教学模拟系统
CN112396923A (zh) * 2020-11-25 2021-02-23 贵州轻工职业技术学院 一种市场营销的教学模拟系统
CN113256639A (zh) * 2021-05-27 2021-08-13 燕山大学 基于半监督平均教师模型的冠脉造影血管图像分割方法
CN114943868B (zh) * 2021-05-31 2023-11-14 阿里巴巴新加坡控股有限公司 图像处理方法、装置、存储介质及处理器
CN114943868A (zh) * 2021-05-31 2022-08-26 阿里巴巴新加坡控股有限公司 图像处理方法、装置、存储介质及处理器
CN113536920A (zh) * 2021-06-11 2021-10-22 复旦大学 一种半监督三维点云目标检测方法
CN113762393A (zh) * 2021-09-08 2021-12-07 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN113762393B (zh) * 2021-09-08 2024-04-30 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN114330592A (zh) * 2022-01-06 2022-04-12 北京百度网讯科技有限公司 模型生成方法、装置、电子设备及计算机存储介质
CN115116147B (zh) * 2022-06-06 2023-08-08 马上消费金融股份有限公司 图像识别、模型训练、活体检测方法及相关装置
CN115116147A (zh) * 2022-06-06 2022-09-27 马上消费金融股份有限公司 图像识别、模型训练、活体检测方法及相关装置
CN115527083A (zh) * 2022-09-27 2022-12-27 中电金信软件有限公司 图像标注方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN111814816A (zh) 一种目标检测方法、装置及其存储介质
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN111915650B (zh) 基于改进孪生网络的目标跟踪方法及系统
CN109740537B (zh) 人群视频图像中行人图像属性的精确标注方法及系统
Zhai [Retracted] Dance Movement Recognition Based on Feature Expression and Attribute Mining
US20210224646A1 (en) Method for generating labeled data, in particular for training a neural network, by improving initial labels
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN108898623A (zh) 目标跟踪方法及设备
Hu et al. A video streaming vehicle detection algorithm based on YOLOv4
CN116342942A (zh) 基于多级域适应弱监督学习的跨域目标检测方法
Li Image semantic segmentation method based on GAN network and ENet model
Lv et al. Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle
US11915419B1 (en) Auto-normalization for machine learning
Rajagopal et al. A hybrid Cycle GAN-based lightweight road perception pipeline for road dataset generation for Urban mobility
Ren et al. DCW-YOLO: Road Object Detection Algorithms for Autonomous Driving
CN117037102A (zh) 对象跟随方法、装置、计算机设备和存储介质
CN116704511A (zh) 设备清单文字识别方法和装置
Qiu et al. A moving vehicle tracking algorithm based on deep learning
CN115116128B (zh) 一种自约束优化的人体姿态估计方法及系统
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
Ciamarra et al. Forecasting future instance segmentation with learned optical flow and warping
Paramanandam et al. A review on deep learning techniques for saliency detection
Zhang [Retracted] An Intelligent and Fast Dance Action Recognition Model Using Two‐Dimensional Convolution Network Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination