CN110222704A

CN110222704A - 一种弱监督目标检测方法及装置

Info

Publication number: CN110222704A
Application number: CN201910507821.7A
Authority: CN
Inventors: 张海涛; 杜沛伦; 马华东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-10
Anticipated expiration: 2039-06-12
Also published as: CN110222704B

Abstract

本发明实施例提供了一种弱监督目标检测方法及装置，提取待检测图像的图像特征；待检测图像中包含至少一个待检测物体；基于提取的图像特征，确定针对每个待检测物体的初始检测结果，每个初始检测结果为包含一个待检测物体的初始检测框；基于提取的图像特征，确定每个待检测物体的显著区域；基于每个显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。相比于现有的若监督目标检测方法中，本发明不需要额外训练分割模型，而是将显著区域作为对检测结果优化的辅助信息，从而减少了目标检测任务的训练复杂度，且使用显著区域作为优化过程的辅助信息，能够避免优化方向出现错误，从而提高了训练效率。

Description

一种弱监督目标检测方法及装置

技术领域

本发明涉及目标检测技术领域，特别是涉及一种弱监督目标检测方法及装置。

背景技术

近年来随着智慧城市和摄像技术的发展，目标检测任务越来越得到重视。目标检测指的是将图片中的不同物体均用矩形框框出来。

卷积神经网络作为深度神经网络的一个重要部分，能够有效的对图像特征进行提取，满足高精度目标检测的需求。然而，训练一个高准确率的检测模型需要大量的以包围框形式精细标注的图片数据作为模型监督条件，进行标注时需要花费大量的人力成本。随着近年来大数据的迅速发展，面对海量的视觉数据和越来越高的精度需求，基于人工标注的训练方法已经很难应用到实际的目标检测任务中。

为了减少人工标注，出现了弱监督目标检测技术。在弱监督条件下，仅需提供图片类别标注，不需要人为标注包围框，即可进行目标检测。

然而，现有的弱监督目标检测存在两个问题：

一：弱监督目标检测在迭代优化训练时需要较为精细的辅助特征信息，现有的弱监督目标检测中，需要额外训练一个图像的分割模型，用于为迭代优化提供辅助特征信息。因此，目标检测任务的训练复杂度较高。

二、现有的弱监督目标检测，在迭代优化训练时，会随机选择一个优化方向计算误差，错误的优化方向会使迭代训练失败，因此训练效率较低。

发明内容

本发明实施例的目的在于提供一种弱监督目标检测方法及装置，以实现降低目标检测任务的训练复杂度，并提高训练效率。具体技术方案如下：

为实现上述目的，本发明实施例提供了一种弱监督目标检测方法，所述方法包括：

提取待检测图像的图像特征；所述待检测图像中包含至少一个待检测物体；

基于提取的图像特征，确定针对每个待检测物体的初始检测结果，所述每个初始检测结果为包含一个待检测物体的初始检测框；

基于提取的图像特征，确定每个所述待检测物体的显著区域；

基于每个所述显著区域，对每个所述初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。

可选的，所述基于提取的图像特征，确定每个所述待检测物体的显著区域的步骤，包括：

基于所述图像特征，确定针对每个待检测物体的特征激活图；

针对每个待检测物体，将该待检测物体的特征激活图中像素点大于预设阈值的区域，确定为显著区域。

可选的，所述基于每个所述显著区域，对每个所述初始检测结果进行优化，得到针对每个待检测物体的目标检测结果的步骤，包括：

将每个所述初始检测结果输入优化网络，得到针对每个待检测物体的目标检测结果，所述优化网络是根据样本数据训练得到的，所述样本数据包括：多个包含至少一个样本物体的样本图像，每个样本图像针对该样本图像中每个样本物体的初始样本检测结果，以及每个样本图像针对该样本图像中每个样本物体的样本显著区域。

可选的，所述优化网络按照如下方法训练：

获取预设的神经网络模型和所述训练集；

将所述初始样本检测结果输入所述神经网络模型，计算所述初始样本检测框内物体属于该初始样本检测框对应的样本物体的概率；

基于所述概率确定损失值；

基于所述损失值确定所述神经网络模型是否收敛；

若所述神经网络模型未收敛，则调整所述神经网络模型中的参数，并基于调整后的参数生成样本检测框；

判断新生成的样本检测框是否包含对应的样本显著区域，若是，则返回计算所述样本检测框内物体属于该样本检测框对应的样本物体的概率；若否，则返回调整所述神经网络模型中的参数；

若所述神经网络模型已收敛，则将收敛的神经网络模型确定为所述优化网络。

为了实现上述目的，本发明实施例还提供了一种弱监督目标检测装置，所述装置包括：

提取模块，用于提取待检测图像的图像特征；所述待检测图像中包含至少一个待检测物体；

第一确定模块，用于基于提取的图像特征，确定针对每个待检测物体的初始检测结果，所述每个初始检测结果为包含一个待检测物体的初始检测框；

第二确定模块，用于基于提取的图像特征，确定每个所述待检测物体的显著区域；

优化模块，用于基于每个所述显著区域，对每个所述初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。

可选的，所述第二确定模块，具体用于：

可选的，所述优化模块，具体用于：

可选的，所述装置还包括：训练模块，所述训练模块用于训练优化网络；所述训练模块具体用于：

获取预设的神经网络模型和所述训练集；

基于所述概率确定损失值；

基于所述损失值确定所述神经网络模型是否收敛；

为实现上述目的，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一方法步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法步骤。

可见，应用本发明实施例提供的弱监督目标检测方法及装置，能够提取待检测图像的图像特征，基于提取的图像特征，确定针对每个待检测物体的初始检测结果和每个待检测物体的显著区域，基于显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。相比于现有的弱监督目标检测方法中，需要在训练过程中额外训练一个图像的分割模型为优化过程提供信息，本发明实施例中不需要额外训练分割模型，而是确定待检测物体的显著区域，并将显著区域作为对检测结果优化的辅助信息，从而减少了目标检测任务的训练复杂度，且使用显著区域作为优化过程的辅助信息，能够避免优化方向出现错误，从而提高了训练效率。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的弱监督目标检测方法的一种流程图；

图2为本发明实施例提供的弱监督目标检测方法中优化网络的训练流程图；

图3为本发明实施例提供的弱监督目标检测方法的一种流程示意图；

图4为本发明实施例提供的弱监督目标检测装置的一种结构示意图；

图5为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有的弱监督目标检测技术中，训练复杂度较高，且效率较低的技术问题，本发明实施例提供了一种弱监督目标检测方法、装置、电子设备及计算机可读存储介质，下面先对本发明实施例提供的弱监督目标检测方法进行介绍，该方法可以应用于电子设备。

参见图1，本发明实施例提供的弱监督目标检测方法包括以下步骤：

S101：提取待检测图像的图像特征，待检测图像中包含至少一个待检测物体；

目标检测方法是指检测出物体在图像中的位置，并将每个物体均用方形的检测框框出来。本发明实施例中，待检测图像中可以包含一个或多个物体，例如，人物，汽车等。若有多个物体，则目标检测结果中包含每个物体的检测框。其中，检测框可以用坐标值和长宽值来表示，例如用检测框左下角的坐标值和检测框的长宽值来表示。

在本步骤中，可以采用神经网络来提取待检测图像的图像特征。具体的，电子设备获取待检测图像，并将待检测图像输入特征提取神经网络，即可提取待检测图像的颜色特征，纹理特征以及深层的语义特征等。

S102：基于提取的图像特征，确定针对每个待检测物体的初始检测结果，每个初始检测结果为包含一个待检测物体的初始检测框；

在本发明实施例中，在提取到图像特征后，图像特征数据会提供一系列大小不等的子区域，每个子区域均为方形的，且每个子区域可以对应一个初始检测框。

在步骤中，需要确定每个待检测物体的初始检测结果，也即确定每个待检测物体属于哪个子区域，子区域的边界框即为初始检测结果。

在本发明的一种实施例中，可以采用神经网络来确定初始检测结果。具体的，电子设备将提取的图像特征输入初始检测神经网络，该初始检测神经网络可以包括两个子网络，分别为特征定位网络和特征分类网络。

具体的，特征定位网络可以依次计算每个待检测物体出现在各个子区域的概率；特征分类网络可以依次计算每个子区域属于各个待检测物体的概率。可以基于上述两个概率的乘积，确定每个待检测物体属于哪个子区域。

为了便于理解，下面举例进行说明。

若待检测图像中包含两个待检测物体，分别为人物和汽车，图像特征提取后生成了三个子区域，分别为第一子区域，第二子区域和第三子区域。若特征定位网络计算人物出现在第一、第二及第三子区域的概率分别为0.7,0.2,0.1，汽车出现在第一、第二及第三子区域的概率分别为0.1,0.2,0.7；特征分类网络计算的第一区域属于人物和汽车的概率分别为0.8和0.2，特征分类网络计算第二区域属于人物和汽车的概率分别为0.4,0.3，特征分类网络计算第三区域属于人物和汽车的概率分别为0.2,0.7。将各个概率对应相乘，即可得到人物属于第一子区域的概率最高，而汽车属于第三子区域的概率最高。进而，可以确定人物的初始检测结果为第一子区域的边界框，汽车的初始检测结果为第三子区域的边界框。

S103：基于提取的图像特征，确定每个待检测物体的显著区域。

本发明实施例中，S102中确定的初始检测结果仅为粗略的检测结果，需要对该初始检测结果进行优化，得到最终的目标检测结果。对检测结果进行优化时，可以考虑待检测物体的显著区域。

本步骤中，电子设备可以基于提取的图像特征，确定待检测物体的显著区域。

在本发明的一种实现方式中，基于提取的图像特征，确定每个待检测物体的显著区域的步骤，具体可以包括以下细化步骤：

步骤11：基于图像特征，确定针对每个待检测物体的特征激活图。

本发明实施例中，在图像特征提取后，能够得到针对每个待检测物体的特征激活图。特征激活图可以表示待检测物体的大致轮廓，且越靠近待检测物体的中心像素点值越大。

步骤12：针对每个待检测物体，将该待检测物体的特征激活图中像素点大于预设阈值的区域，确定为显著区域。

本发明实施例中，针对每个待检测物体，可以将该待检测物体对应的特征激活图中像素点大于预设阈值的区域，确定为显著区域。

其中，阈值可以根据实际需求进行设置。显著区域可以理解为待检测物体的中心区域，也可以理解为针对待检测物体的可以确定的区域，即待检测物体的范围必定包括该显著区域。

S104：基于每个显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。

本发明实施例中，在得到针对每个待检测物体的初始检测结果后，由于该初始检测结果为粗略的检测结果，并不准确，因此可以基于所确定的每个待检测物体的显著区域，对每个初始检测结果进行优化，得到最终的目标检测结果。

可见，应用本发明实施例提供的弱监督目标检测方法，能够提取待检测图像的图像特征，基于提取的图像特征，确定针对每个待检测物体的初始检测结果和每个待检测物体的显著区域，基于显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。相比于现有的弱监督目标检测方法中，需要在训练过程中额外训练一个图像的分割模型为优化过程提供信息，本发明实施例中不需要额外训练分割模型，而是确定待检测物体的显著区域，并将显著区域作为对检测结果优化的辅助信息，从而减少了目标检测任务的训练复杂度，且使用显著区域作为优化过程的辅助信息，能够避免优化方向出现错误，从而提高了训练效率。

在本发明的一种实施例中，可以将每个初始检测结果输入优化网络，得到针对每个待检测物体的目标检测结果，其中，优化网络是根据样本数据预先训练完成的，样本数据包括：多个包含至少一个样本物体的样本图像，每个样本图像针对该样本图像中每个样本物体的初始样本检测结果，以及每个样本图像针对该样本图像中每个样本物体的样本显著区域。

由于优化网络是预先训练好的，因此，电子设备将初始检测结果输入优化网络，即可得到优化后的目标检测结果。

在本发明的一种实施例中，参见图2，优化网络的训练过程可以包括以下细化步骤：

S201：获取预设的神经网络模型和训练集；

训练集包括：多个包含至少一个样本物体的样本图像，每个样本图像针对该样本图像中每个样本物体的初始样本检测结果，以及每个样本图像针对该样本图像中每个样本物体的样本显著区域。

S202：计算初始样本检测框内物体属于该初始样本检测框对应的样本物体的概率；

在第一次执行本步骤时，可以将初始样本检测框输入预设的神经网络模型，计算初始样本检测框内物体属于该初始样本检测框对应的样本物体的概率；

在后续迭代过程中，可以将新生成的样本检测框输入更新参数后的神经网络模型，计算新生成的样本检测框内物体属于对应的样本物体的概率；

容易理解的，计算的概率越大，则本次的参与计算的样本检测框越准确。

S203：基于概率确定损失值；

本发明实施例中，包括但不限于使用均方误差(Mean Squared Error，MSE)公式作为损失函数，得到损失值。

S204：基于损失值确定神经网络模型是否收敛；若未收敛，则执行步骤S205，若已收敛，则执行步骤S207；

S205：调整神经网络模型中的参数，并基于调整后的参数生成样本检测框；

当神经网络模型未收敛，可以调整神经网络模型中的参数，并基于调整好的参数生成新的样本检测框。

S206：判断新生成的样本检测框是否包含对应的样本显著区域，若是，则返回步骤S202，若否，则返回步骤S205。

本发明实施例中，可以判断新生成的样本检测框是否包含对应的样本显著区域，若是，说明新生成的样本检测框是合理的，可以基于新生成的样本检测框计算损失值；若否，则说明新生成的样本检测框是不合理的，则返回调整神经网络模型中参数的步骤。

S207：将收敛的神经网络模型确定为优化网络。

收敛的神经网络模型即训练完成的神经网络模型，可将其作为优化网络，用于对初始的目标检测结果进行优化，得到优化后的目标检测结果。

为了便于理解，下面再结合图3对本发明实施例提供的弱监督目标检测方法简要介绍，图3为本发明实施例提供的弱监督目标检测方法的一种流程示意图。如图3所示，待检测图像经过图像特征提取网络后，得到图像特征，特征定位网络和特征分类网络基于图像特征确定待检测物体所在的子区域，将子区域的边界框作为初始目标检测结果；另外，从图像特征中提取待检测物体的显著区域，作为目标检测优化的辅助信息。基于显著区域对目标检测结果进行优化，得到最终的目标检测结果。

可见，本发明实施例中，基于图像特征，确定特征激活图，从而确定每个待检测物体的显著区域，并将显著区域作为对检测结果进行优化。具体的，在训练网络的每次迭代后，都判断新生成的检测框是否包含显著区域，若包含则说明优化方向正确，可以基于新生成的检测框计算损失值；若不包含则说明优化方向出错，则直接舍去该检测框，并重新挑选新的检测框，从而避免优化方向错误，提高训练效率。此外，由于使用显著区域作为优化的辅助信息，即不需要同现有技术那样额外训练一个图像的分割模型以获取辅助信息，从而降低了训练复杂度。

相应于本发明实施例提供的弱监督目标检测方法，本发明实施例还提供了一种弱监督目标检测装置，参见图4，包括以下模块：

提取模块401，用于提取待检测图像的图像特征；待检测图像中包含至少一个待检测物体；

第一确定模块402，用于基于提取的图像特征，确定针对每个待检测物体的初始检测结果，每个初始检测结果为包含一个待检测物体的初始检测框；

第二确定模块403，用于基于提取的图像特征，确定每个待检测物体的显著区域；

优化模块404，用于基于每个显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。

在本发明的一种实施例中，第二确定模块403，具体可以用于：

基于图像特征，确定针对每个待检测物体的特征激活图；

在本发明的一种实施例中，优化模块404，具体可以用于：

将每个初始检测结果输入优化网络，得到针对每个待检测物体的目标检测结果，优化网络是根据样本数据训练得到的，样本数据包括：多个包含至少一个样本物体的样本图像，每个样本图像针对该样本图像中每个样本物体的初始样本检测结果，以及每个样本图像针对该样本图像中每个样本物体的样本显著区域。

在本发明的一种实施例中，在图4所示的装置基础上，还可以包括训练模块，训练模块用于训练优化网络，具体可以用于：

获取预设的神经网络模型和训练集；

将初始样本检测结果输入神经网络模型，计算初始样本检测框内物体属于该初始样本检测框对应的样本物体的概率；

基于概率确定损失值；

基于损失值确定神经网络模型是否收敛；

若神经网络模型未收敛，则调整神经网络模型中的参数，并基于调整后的参数生成样本检测框；

判断新生成的样本检测框是否包含对应的样本显著区域，若是，则返回计算样本检测框内物体属于该样本检测框对应的样本物体的概率；若否，则返回调整神经网络模型中的参数；

若神经网络模型已收敛，则将收敛的神经网络模型确定为优化网络。

可见，应用本发明实施例提供的弱监督目标检测装置，能够提取待检测图像的图像特征，基于提取的图像特征，确定针对每个待检测物体的初始检测结果和每个待检测物体的显著区域，基于显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。相比于现有的弱监督目标检测方法中，需要在训练过程中额外训练一个图像的分割模型为优化过程提供信息，本发明实施例中不需要额外训练分割模型，而是确定待检测物体的显著区域，并将显著区域作为对检测结果优化的辅助信息，从而减少了目标检测任务的训练复杂度，且使用显著区域作为优化过程的辅助信息，能够避免优化方向出现错误，从而提高了训练效率。

相应于本发明实施例提供的弱监督检测方法，本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

提取待检测图像的图像特征；待检测图像中包含至少一个待检测物体；

基于提取的图像特征，确定针对每个待检测物体的初始检测结果，每个初始检测结果为包含一个待检测物体的初始检测框；

基于提取的图像特征，确定每个待检测物体的显著区域；

基于每个显著区域，对每个初始检测结果进行优化，得到针对每个待检测物体的目标检测结果。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有机器可执行指令，机器可执行指令在被处理器加载并执行时，实现本发明实施例所提供的弱监督目标检测方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于弱监督目标检测装置、电子设备以及计算机可读存储介质实施例而言，由于其基本相似于弱监督目标检测方法实施例，所以描述的比较简单，相关之处参见弱监督目标检测方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种弱监督目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于提取的图像特征，确定每个所述待检测物体的显著区域的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于每个所述显著区域，对每个所述初始检测结果进行优化，得到针对每个待检测物体的目标检测结果的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述优化网络按照如下方法训练：

获取预设的神经网络模型和所述训练集；

基于所述概率确定损失值；

基于所述损失值确定所述神经网络模型是否收敛；

5.一种弱监督目标检测装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述第二确定模块，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述优化模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：训练模块，所述训练模块用于训练优化网络；所述训练模块具体用于：

获取预设的神经网络模型和所述训练集；

基于所述概率确定损失值；

基于所述损失值确定所述神经网络模型是否收敛；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。