CN111814816A

CN111814816A - 一种目标检测方法、装置及其存储介质

Info

Publication number: CN111814816A
Application number: CN201910295156.XA
Authority: CN
Inventors: 潘滢炜; 姚霆
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-10-23

Abstract

本发明公开了一种目标检测方法、装置及其存储介质，该方法包括接收标注模型图像和未标注模型图像，对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失；根据所述标注模型图像损失和未标注模型图像损失得到训练模型；接收待识别图像；利用所述训练模型对所述待识别图像进行检测。本申请通过神经网络按照平均教师策略对标注模型图像和未标注模型图像进行训练得到训练模型，利用所述训练模型对图像进行检测，可以大幅提高识别检测的准确度。

Description

一种目标检测方法、装置及其存储介质

技术领域

本发明涉及计算机领域，尤其是指一种目标检测方法、装置及其存储介质。

背景技术

近年来，对基于深度学习模型通过合成数据生成预测标签的视觉研究越来越备受关注。比如，在一些图像中需要识别里面的车、人等目标对象，并利用标签在目标对象外部进行适当范围的定位和标注。虽然深度神经网络已被证明是在大数据集下学习视觉模型高效方法，然而简单的利用深度神经网络得到的学习模型进行图像合成生成预测标签时仍然普遍存在错误。

所以发明人发现现有技术中至少存在如下问题，对于简单利用深度神经网络得到的学习模型生成预测标签对识别对象进行识别时，仍然存在普遍错误的技术问题。

发明内容

本申请提供了一种目标检测方法，采用了平均教师策略对标注模型图像和未标注模型进行训练，最终生成训练模型，以达到克服简单利用深度神经网络得到的学习模型生成预测标签对识别对象进行识别时，仍然存在普遍错误的目的。

该方法具体包括：

接收标注模型图像和未标注模型图像，其中，所述标注模型图像为预建有识别对象分类数据集的图像，所述未标注模型图像为未预建识别对象分类数据集的图像；

对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失；

根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型；

接收待识别图像；

利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。

可选地，对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括：

将所述标注模型图像输入学生网络训练得到标注模型图像损失；

将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像；

将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域；

将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征；

根据所述第一相似度特征和所述第二相似度特征计算得到未标注模型图像损失。

可选地，所述学生网络和所述教师网络为Faster-R-CNN网络；

所述Faster-R-CNN网络具有Base CNN网络和RCNN网络，以及RPN网络；

可选地，所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后，该方法还包括：

调整所述未标注模型图像损失的权重；

根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。

可选地，所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括通过随机梯度下降算法优化学生网络的训练步骤。

本申请还提供了一种目标检测装置，该装置包括：

接收模块，用于接收标注模型图像和未标注模型图像，其中，所述标注模型图像为预建有识别对象分类数据集的图像集，所述未标注模型图像为未预建识别对象分类数据集的图像集；

训练模块，用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失；

计算模块，用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型；

所述接收模块，还用于接收待识别图像；

识别模块，用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。

可选地，该装置包括：

所述训练模块，还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失；

噪声模块，用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像；

所述训练模块，还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像；还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征；

所述计算模块，还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。

可选地，该装置包括：

调整模块，用于调整所述未标注模型图像损失的权重；

所述计算模块，还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。

本申请提供了一种目标检测装置，所述装置包括：处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行所述的目标检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述的目标检测方法的步骤。

如上可见，基于上述实施例，本申请符合了半监督学习方法，可以实现自适应的标注训练结果。标注模型图像损失和未标注模型图像损失计算出的训练模型，通过训练模型对接收到的待识别图像可以大幅提高检测的预测精度。

附图说明

图1为本申请一个实施例中目标检测方法流程100的示意图；

图2为本申请一个实施例中目标检测方法流程200的示意图；

图3为本申请一个实施例中目标检测方法流程300的示意图；

图4为本申请一个实施例中目标检测方法流程400的示意图；

图5为本申请一个实施例中目标检测方法流程500的示意图；

图6为本申请一个实施例中权重系数改变后目标检测准确率的比较示意图；

图7为本申请一个实施例中平滑系数改变后目标检测准确率的比较示意图；

图8为权重系数和平滑系数改变后对不同方法目标检测准确率的比较示意图；

图9为一个不同方法下目标检测的实验比较示意图；

图10为另一个不同方法下目标检测准确率的实验比较示意图；

图11为本申请一个实施例中目标检测装置架构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

在本申请的一些实施例中，为了解决背景技术中提出的问题，对于变换场景后目标检测，并对识别的目标对象进行预测标注引入平均教师的解决方案，即建立教师网络和学生网络进行图像处理，并将预适应改为半监督学习。无监督学习是指训练样本的标注信息未知，目标是通过对无标注训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。半监督学习是指训练集同时包含有标注样本数据和未标注样本数据，不需要人工干预，让机器学习不依赖外界交互、自动地利用未标注样本来提升学习性能。从上述无监督学习和半监督学习的描述可以看出，无监督学习需要人为进行干预导致成本的增加，而本申请的半监督学习则不需要人工干预。

通过教师网络和学生网络的一致化损失可以自然弥合变换场景带来的问题。在本申请中将改进的平均教师方案应用于场景变换的目标检测。本申请特别创造性的提供了基于Faster R-CNN框架下融合学生网络和教师网络一致化量度的目标检测方法。

从理论上说，上述的目标检测方法，首先通过教师网络和学生网络各自对两幅不同场景下相关图像中捕捉的相似性进行学习，本申请的整体架构是对三项一致性规则进行优化。

其中，第一项是对教师网络和学生网络场景提供的待识别图像场景之间的预测结果进行一致化，简称区域间一致；

第二项是对教师网络和学生网络匹配的待识别图像结构进行一致化，简称图之间一致；

第三项是对学生网络中同类场景中同类区域增强相似性进行一致化，简称图中一致。

图1为本申请一个实施例中目标检测方法流程100的示意图，如图1所示，在一实施例中，本申请提供了一种目标检测方法，该方法包括：

S101，接收标注模型图像和未标注模型图像，其中，所述标注模型图像为预建有识别对象分类数据集的图像，所述未标注模型图像为未预建识别对象分类数据集的图像；

本步骤中标注模型图像可以理解为通过标签进行标注的识别对象图像，如图4所示，其中，左侧下方的图像可以理解为标注模型图像，即植物、车、人等已经通过不同的标签进行标注，对应的右侧下方的图像可以理解为未标注模型图像，因为图像中并没有任何的标签。需要指出的是分类数据集的概念可以理解为通过签进行标注，数据集可以这样设定：红色标签(即图中的方框)分类为人，以此来定义创建数据集。

S102，对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失；

本步骤中需要指出的是平均教师策略(即Mean Teacher)。具体来说，平均教师策略会提供一个学生网络和一个教师网络(两者的神经网络结构相同，因此根据参数更新的方式定义学生网络或是教师网络)，学生网络用于处理标注模型图像，教师网络用于处理未标注模型图像，然后教师网络会指导学生网络达到具有共同属性的作用。所以在此需要特别指出的是本申请中按照平均教师策略训练得到的未标注模型图像损失之间存在着共同属性，此处的共同属性可以用于提高识别的预测准确度，具体的内容后文会有详细的说明，在此就不再赘述了。

图2为本申请一个实施例中的目标检测方法流程200示意图。如图2所示，目标探测器对一幅真实的待识别图像(左下角)直接应用神经网络通过对3D CAD模型合成图像(左上角)训练得到的训练模型进行目标检测标注(右上角，即现有技术)和利用本申请方法(即平均教师策略)进行目标检测标注(右下角)的流程结果对比图。

现有技术情况，简单基于3D CAD合成数据的训练模型无法准确的对待识别图像中的人和车等目标进行定位。本申请的情况，则是在本申请提供的方法下得到了准确的结果。

S103，根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型；

本步骤我们可以用公式进行解释说明：

将标注模型图像定义为：

将未标注模型图像定义为：

训练模型公式为：

其中，L即为训练模型，公式中：

可以理解为标注模型图像损失，对应公式中：

可以理解为未标注模型图像损失。公式中的每一项的具体算法在后续文中进行详述。

S104，接收待识别图像；

本步骤接收需要进行目标检测的待识别图像。

S105，利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。

本步骤即通过训练模型对待识别图像进行分类识别，在本步骤后可以对分类识别后的识别对象附加标签进行标注。

在本步骤中提供了一种目标检测方法，利用预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失。此种方式符合了半监督学习方法，可以实现自适应的标注训练结果。标注模型图像损失和未标注模型图像损失计算出的训练模型，通过训练模型对接收到的待识别图像可以大幅提高识别的预测精度。

图3为本申请一个实施例中目标检测方法流程300的示意图。图4为本申请一个实施例中目标检测方法流程400的示意图。如图3和图4所示，在一实施例中，所述对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括：

S201，将所述标注模型图像输入学生网络训练得到标注模型图像损失；

本步骤中提供了采用学生网络进行训练得到标注模型图像损失的具体实施方式。

S202，将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像；

本步骤是为了让位标注模型图像在场景切换时具备进行后续识别处理的能力，此处的场景切换可以理解为本领域技术人员域的概念(即Domain的概念)。通过噪声的干扰使未标注模型图像中的Domain发生偏移。

下面通过公式对后续步骤进行说明：

将第一噪声干扰图像定义为：

将第二噪声干扰图像定义为：

S203，将所述第一噪声干扰图像输入教师网络训练得到第一相似度特征和教师网络的候选区域；

在本步骤中教师网络训练得到的第一相似度特征，即图4中的

候选区域，即图4中的

另外，教师网络训练可以理解为教师网络。

S204，将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征；

在本步骤中学生网络训练得到第二相似度特征，即图4中的

S205，根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。

在步骤中主要就是建立第一相似度特征和第二相似度特征的联系，将其作为未标注模型图像损失用于后续的计算。

在本实施例中，首先接收标注模型图像和未标注模型图像，然后分别通过学生网络和教师网络进行分别的训练，未标注模型图像对通过一个随机的放大(即上述步骤中的干扰)得到两张不同的未标注模型图像，分别放到不同的神经网络中进行训练。与此同时，在教师网络中进行训练的其中一张未标注模型图像会训练出候选区域和第，将候选区域与分配给学生网络其中一张未标注模型图像共同训练，得到第二相似度特征，教师网络通过自己分配的未标注模型图像训练得到第一相似度特征。将第一相似度特征和第二相似度特征构建关系，然后将构建的关系作为未标注模型图像损失用于后续的计算。

为了更好的说明本实施例，以下用公式来表示上述步骤的实施方法：

针对两张未标注模型图像：

学生网络，利用

将

参数化，得到学生网络的预测函数

教师网络，利用

将

参数化，得到教师网络的预测函数

由上述说明可得到：

本实施例可以在域进行切换时，依然确保识别的准确性，原因在于对于未标注模型图像损失的物理量其实可以包括三个要素，即上面说的一致性的问题，区域之间的一致性和图之间的一致性，以及图内的一致性。

为了更加具体的提供上面关于一致性的说明，我们依然采用公式的方式进行详细说明：

首先，定义标注模型图像

为

的线性回归标注；

定义未标注模型图像

最终对域偏移后的预测标注准确性，取决于

和

与此同时，对于x_t随机放大干扰后得到

和

上面步骤中的候选区域为

第一相似度特征和第二相似度特征分别为

和

那么

可以理解为未标注模型图像损失，其本质是具有共建关系的映射。

对于

进一步可以通过

进行构建。

为在学生网络和教师网络中对所有候选区域的检测结果，

为表达式为

的矩阵。

如图4所示，在一实施例中，所述学生网络和所述教师网络为Faster-R-CNN网络；

所述Faster-R-CNN网络具有Base CNN网络和RCNN网络，以及RPN网络；

所述Base CNN网络用于提取图像特征，RCNN网络用于根据所述图像特征提取对应的相似度特征，所述RPN网络用于提取图像的候选区域。

本实施例中提供了一种学生网络和教师网络的具体实施方式，即均采用Faster-R-CNN网络。另外，还对Faster-R-CNN网络的具体配置也进行了公开。

如图4所示，可以根据本实施例的配置通过公式继续进行解释说明：

对于输入为

，Base CNN网络输出的图像特征为

，其中，

可以理解为Base CNN网络的输出函数；

RPN网络的输出函数为

，在根据之前的配置可以得到：

ROI pooling层可以从图像特征中

提取固定向量

；

另外还有

和

。

对于学生网络，与上述的Faster-R-CNN网络架构相同，不同的是学生网络会得到一个来自于教师网络的

，于是得到：

同理，有

和

定义一个计算系数，

其中C的是预设分类数据集的数据配置，

为第j个预设分类数据集的预测概率。

域之间的关系可以表示为：

上面的方法即是对域等级一致化的计算。

图间的一致化计算方法如下：

定义两个候选区域，记为

综上可以得到：

图间的一致性可表达为：

最后，讨论下学生网络中图内一致性的问题：

其中的矩阵：

利用上面的公式最终图内一致性的表达式为：

可以将原先的公式：

进一步扩展为：

根据公式中的域间一致性、图间一致性和图内一致性，以及标注模型图像损失共同架构出训练模型。

图5为本申请一个实施例中目标检测方法流程500的示意图，图6为本申请一个实施例中权重系数改变后目标检测准确率的比较示意图。如图5和图6所示，在一实施例中，所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后，该方法还包括：

S301，调整所述未标注模型图像损失的权重；

本步骤中；

根据前文中下面的公式：

只要调节其中的λ为权重系数的数值，即未标注模型图像损失的权重系数就可以进行调节。

S302，根据所述标注模型图像损失和调整后的所述未标注模型图像损失得到训练模型。

本步骤中将调整过权重的未标注模型图像损失计算入训练模型中，并进行后续的目标检测步骤。

本步骤中提供了一种通过调整未标注模型图像损失，在应用中未标注模型图像损失在训练模型可以影响最终的识别精度，因此可以通过调整未标注模型图像损失调整最后的识别结果。另外，从图6中也可以看出权重系数改变对目标检测最终结果的影响。

图7为本申请一个实施例中平滑系数改变后目标检测准确率的比较示意图；图8为权重系数和平滑系数改变后对不同方法目标检测准确率的比较示意图。

如图7和图8所示，在一实施例中，所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括：

将所述标注模型图像输入学生网络采用随机梯度下降算法训练得到标注模型图像。

在本实施例中，以下面的公式更加容易理解(上面有推导过程，在此不再赘述了)，其中的α为平滑系数。

实验描述：

上表1是不同方法雾天的城市场景验证集的性能比较，纵向上是采用的不同方法，横坐标设置person(行人)、rider(骑自行的人)、car(汽车)、bus(公交车)、train(火车)、bicycle(自行车)等，下方对应的数据是识别的准确率。

纵向上的Source-only是现有技术中的方法，该方法只是简单通过CNN对标注模型图像进行训练，通过训练模型对图像进行识别，后面DA为利用50层ResNet重新架构而成。DA下方的方法均是本申请保护的方法，只是里面的配置不同。从表1中可以看出本申请的方法在各个层面准确率都由于现有技术的简单训练和DA的方法。另外，图9为一个不同方法下目标检测的实验比较示意图，如图9所示也能看出不同方法的目标检测结果。

上表2是不同方法汽车在城市中的平均准确率。

Table 3.The mean Average Precision(mAP)of different models onSyn2Real detection dataset for S→O/Y transfers.

上表3是不同方法其他配置的平均准确率

图10为另一个不同方法下目标检测准确率的实验比较示意图，如图10所示，不同的方法对于识别的结果影响极大。

图11为本申请一个实施例中目标检测装置架构示意图。如图11所示，本申请还提供了一种目标检测装置，该装置包括：

接收模块101，用于接收标注模型图像和未标注模型图像，其中，所述标注模型图像为预建有识别对象分类数据集的图像，所述未标注模型图像为未预建识别对象分类数据集的图像；

训练模块102，用于对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失和未标注模型图像损失；

计算模块103，用于根据所述标注模型图像损失和未标注模型图像损失计算得到训练模型；

所述接收模块101，还用于接收待识别图像；

识别模块104，用于利用所述训练模型对所述待识别图像进行检测得到识别对象的检测结果。

在一实施例中，该装置包括：

所述训练模块102，还用于将所述标注模型图像输入学生网络训练得到标注模型图像损失；

噪声模块105，用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像；

所述训练模块102，还用于将所述未标注模型图像进行两次不同的噪声干扰得到第一噪声干扰图像和第二噪声干扰图像；还用于将候选区域和第二噪声干扰图像输入学生网络训练得到第二相似度特征；还用于根据所述第一相似度特征和所述第二相似度特征训练得到未标注模型图像损失。

在一实施例中，该装置包括：

调整模块106，用于调整所述未标注模型图像损失的权重；

所述计算模块103，还用于根据所述标注模型图像损失和调整后的所述未标注模型图像损失计算得到训练模型。

本申请还提供了一种目标检测装置，所述装置包括：处理器和存储器；

在一实施例中，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的目标检测方法步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种目标检测方法，其特征在于，该方法包括：

接收待识别图像；

2.根据权利要求1所述的目标检测方法，其特征在于，对所述标注模型图像和未标注模型图像通过预建的学生网络和教师网络按照平均教师策略进行训练得到标注模型图像损失值和未标注模型图像损失值包括：

3.根据权利要求2所述的目标检测方法，其特征在于，所述学生网络和所述教师网络为Faster-R-CNN网络；

所述Faster-R-CNN网络具有Base CNN网络和RCNN网络，以及RPN网络；

所述Base CNN网络用于提取图像特征，RCNN网络用于根据所述图像特征提取对应的视觉特征，所述RPN网络用于提取图像的候选区域。

4.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述标注模型图像损失值和未标注模型图像损失值计算得到训练模型步骤后，该方法还包括：

调整所述未标注模型图像损失的权重；

5.根据权利要求2所述的目标检测方法，其特征在于，所述将所述标注模型图像输入学生网络训练得到标注模型图像损失包括：

6.一种目标检测装置，其特征在于，该装置包括：

所述接收模块，还用于接收待识别图像；

7.根据权利要求6所述的目标检测装置，其特征在于，该装置包括：

8.根据权利要求6所述的时序数据流分割装置，其特征在于，该装置包括：

调整模块，用于调整所述未标注模型图像损失的权重；

9.一种目标检测装置，其特征在于，所述装置包括：处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至5中任一项所述的目标检测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任一项所述的目标检测方法的步骤。