CN112949630B

CN112949630B - 基于边框分级筛选的弱监督目标检测方法

Info

Publication number: CN112949630B
Application number: CN202110224888.7A
Authority: CN
Inventors: 韦世奎; 贾麒霏; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2024-03-19
Anticipated expiration: 2041-03-01
Also published as: CN112949630A

Abstract

本发明提供了一种基于边框分级筛选的弱监督目标检测方法，包括：对训练集中所有图片中分别加入两种不同的噪声；采用弱监督目标检测算法进行检测生成检测框，并采用NMS方法将检测框的得分高于第一阈值的检测框作为初筛后的检测框；计算出每个初筛后的检测框的稳定度，利用NMS方法将所有检测框中稳定度大于第二阈值的检测框作为稳定框；计算所有检测框的评分和等级，利用NMS方法对所有初筛后的检测框进行筛选，将评分大于第三阈值的检测框作为二筛后的检测框；计算可靠性，用脚本对二筛后的检测框的信息制作成像素级标签；采用改进的基于Faster R‑CNN人工神经网络对像素级标签训练来定位识别检测，本方法可以减少检测时间。

Description

基于边框分级筛选的弱监督目标检测方法

技术领域

本发明涉及图像处理、目标检测和计算机视觉技术领域，尤其涉及一种基于边框分级筛选的弱监督目标检测方法。

背景技术

人工神经网络(Artificial Neural Network)是一种通过模仿人脑神经网络行为特征，进行分布式并行信息处理的算法数学模型。随着人工神经网的发展以及多种人工智能技术的出现，将人工神经网络应用于通用目标检测成为了人们关注的焦点。一个设计良好的人工神经网络能准确地定位并识别通用目标，这种基于人工神经网络的通用目标检测技术广泛的应用于人脸识别，交通标志检测，自动驾驶以及医学图像检测等多个重要领域。

基于人工神经网络的通用目标检测技术主要包含特征提取和分类器训练两个关键步骤。其中，特征提取不同于传统方法中人工提取特征，人工神经网络能自动的提取图像标签中所含目标的特征，即利用多层卷积神经网络模拟目标物体的特征，并在训练的过程中使用反向传播算法进行各层网络参数的更新；分类器训练指的是神经网络在提取特征的基础上，分析寻找特征规律，用来判断图像中物体的类别和位置。

虽然人工神经网络技术在通用目标检测上有着良好的应用，但是其需要大量的像素级标注的标签(图像中目标的种类，位置均要标注)，故而此技术也被称作全监督通用目标检测。而标注数据的多少直接影响训练出模型的检测准确率，往往只有利用卷积神经网络拟合大量的数据才能训练出令人满意的检测效果。然而这种像素级标注过程无疑会耗费大量的人力物力，也阻碍了基于人工神经网络的通用目标检测技术的推广。因此，设计一种只需图像级标注(只需要标注图像中目标的种类)的标签就能训练的人工神经网络成为了人们迫切的需要。

目前，上述提及的只使用图像级标注的标签训练神经网络以检测目标被称为弱监督通用目标检测，已有科研团队进行多实例学习应用于弱监督检测以及通过隐变量学习定位目标相关的研究，但是目前仍存在忽略了检测框的筛选与再利用；对伪标签信息挖掘不充分且利用不合理、检测精度低以及耗时长的缺点。

发明内容

本发明提供了一种基于边框分级筛选的弱监督目标检测方法，以解决现有技术问题中存在的缺陷。

为了实现上述目的，本发明采取了如下技术方案。

一种基于边框分级筛选的弱监督目标检测方法，包括：

对训练集中所有图片中分别加入两种不同的噪声，得到包括原始训练集的3组训练集；

采用弱监督目标检测算法对所述的3组训练集进行检测，生成3组训练集上的检测框，并采用非极大值抑制NMS方法将检测框的得分高于第一阈值的检测框作为初筛后的检测框；

计算出每个初筛后的检测框的稳定度，利用NMS方法将所有检测框中稳定度大于第二阈值的检测框作为稳定框；

根据初筛后的检测框与稳定框之间的位置关系计算所有检测框的评分和等级，利用NMS方法对所有初筛后的检测框进行筛选，将评分大于第三阈值的检测框作为二筛后的检测框；

根据检测框的等级计算可靠性，用脚本对二筛后的检测框的信息制作成像素级标签；

根据可靠性采用改进的基于Faster R-CNN人工神经网络对所述的像素级标签训练来进行定位识别检测。

优选地，两种不同的噪声为像素点小于或等于1％的像素点的噪声。

优选地，第一阈值为0.3，第二阈值为0.8，第三阈值为0.3。

优选地，计算出每个初筛后的检测框的稳定度，包括：对于所有图片中同一图片对应的三组检测框中，一组检测框中的一个检测框与其他两组检测框中每组中的一个检测框相互之间的交并比计算每个初筛后的检测框的稳定度，所述稳定度根据下式(1)计算：

ST_A＝λ₁IoU(A,B)+λ₂IoU(A,C) (1)

其中，λ₁和λ₂表示对应检测框B和检测框C的权重参数，IoU(A，B)表示检测框A和B的交并比，IoU(A，C)表示检测框A和C的交并比，A、B和C表示从同一图片的三组检测框中分别选取的一个检测框，选取方法为：对于某一组检测框中的单个检测框A，分别计算其与另外两组检测框中所有检测框的交并比，在另外两组检测框中与检测框A有最大交并比的检测框，作选出的为与检测框A最接近的框，此处的检测框B和C。

优选地，λ₁和λ₂均为0.5。

优选地，根据所有初筛后的检测框与稳定框之间的位置关系计算所有检测框的评分和等级，包括：

S61将每个稳定框的得分S置为0.2，将其他剩余检测框的得分S置为0.1；将稳定框的等级grade置为1，并将其他剩余检测框的等级grade置为0，在剩余的检测框中，寻找同一类别中包含grade＝1检测框的检测框，并根据下式(2)计算检测框的包含程度：

S62当IoS(A,B)＞T_IoS，则定义为检测框A包含检测框B，其中，T_IoS是衡量包含程度的参数；优选值为0.8；如果检测框A包含检测框B，则将检测框A的等级重置为2，并使用下式(3)更新检测框A的得分，如果不包含，则不更新检测框A的得分：

Score_A＝Score_A+Score_BIoS(A,B) (3)

S63重复S61-S62，如果检测框A包含grade＝1,2,3,4...的检测框，则将检测框A的等级重置为2,3,4,5…，并使用上式(3)更新检测框A的分数；其中，需要将分数更新的次数限制为1，即如果检测框C和检测框D都为grade＝i的检测框，对于检测框A,同时满足IoS(A,C)＞T_IoS和IoS(A,D)＞T_IoS，则根据得分计算公式，分数只更新一次。

优选地，根据检测框的等级计算可靠性，包括根据下式(4)计算可靠性：

其中，m表示所有图像中每个类别的检测框的总数，grade表示检测框的等级，grade_A表示检测框A的等级，grade_avg表示单个类别所有检测框grade的平均值。

优选地，根据可靠性采用改进的基于Faster R-CNN人工神经网络对所述的像素级标签训练来进行定位识别检测，具体包括如下步骤：

S81利用ResNet骨干神经网络提取输入图像的特征，生成特征图；

S82采用改进的锚框生成方式生成锚框，并用二分支的结构生成检测框，上分支使用1*1卷积神经网络，并且调整特征图大小，输入Softmax对锚框进行初步分类,下分支直接使用1*1卷积神经网络提取特征，辅助目标定位；

S83将特征图和检测框同时输入ROIPooling模块，生成初步检测框；

S84采用回归损失函数将ROIPooling模块输出的初步检测框进行二次目标定位和识别。

由上述本发明的基于边框分级筛选的弱监督目标检测方法提供的技术方案可以看出，本发明利用分级筛选后的检测框训练新的全监督网络，深入挖掘了检测框所包含的信息，使定位与识别效果更加客观准确，并且采用精心设计的轻量级全监督网络，只使用图像级标注的标签及图像作为输入信息，这种图像级标注仅需要标注图像中目标的种类，而不需要标注目标的位置，这种标注方式极大的节约了人力物力，可以明显减少检测消耗的时间。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例的基于边框分级筛选的弱监督目标检测方法流程图；

图2为实际检测并计算筛选出的稳定框示例图；

图3为实施例锚框的生成方式示意图；

图4为本实施例的实际通用目标检测结果示例图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且并不构成对本发明实施例的限定。

实施例

图1为本实施例的基于边框分级筛选的弱监督目标检测方法流程图，参照图1，该方法包括：

S1对训练集中所有图片中分别加入两种不同的噪声，得到包括原始训练集的3组训练集。

需要说明的是两种不同的噪声为像素点小于或等于1％的像素点的噪声。具体地，在所有训练集图像中分别加入0.5％和1％的随机噪声，得到三组数据集，分别为原始训练集，噪声一训练集和噪声二训练集。加入随机噪声后图像PSNR(Peak Signal to NoiseRatio，峰值信噪比)依然保持PSNR>30dB的值，这代表图像中的信息未被破坏，但是这些随机噪声却对检测器的检测结果有较大影响。

S2采用弱监督目标检测算法对3组训练集进行检测，生成3组训练集上的检测框，并采用非极大值抑制(NMS，Non-Maximum Suppression)方法将检测框的得分高于第一阈值的检测框作为初筛后的检测框。

NMS方法就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。NMS经常用于目标检测中提取分数最高的窗口的。例如在通用目标检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是目标的概率最大)，并且抑制那些分数低的窗口。

由于扩充数据集后图像表达能力得到了增强，在一定程度上解决了漏检测的问题，现有检测系统产生的检测框质量更高，后续利用这些检测框生成像素级标签更加精确。

优选地，第一阈值为0.3。由于采用的该阈值，更多的检测框能被显示出来，在一定程度上缓解了漏检的问题。

S3计算出每个初筛后的检测框的稳定度，利用NMS方法将所有检测框中稳定度大于第二阈值的检测框作为稳定框。

首先，对于某部分数组集(原始训练集、噪声一训练集或噪声二训练集)中的某个检测框，根据IoU(Intersection Over Union，交并比)值分别从其余两个数据集中找到与其最接近的两个检测框。

对于所有图片中同一图片对应的三组检测框中，一组检测框中的一个检测框与其他两组检测框中每组中的一个检测框相互之间的交并比计算每个初筛后的检测框的稳定度，所述稳定度根据下式(1)计算：

ST_A＝λ₁IoU(A,B)+λ₂IoU(A,C) (1)

其中，λ₁和λ₂表示对应检测框B和检测框C的权重参数，IoU(A，B)表示检测框A和B的交并比，IoU(A，C)表示检测框A和C的交并比，A、B和C表示同一图片的三组检测框中分别选取的一个检测框。选取方法为：对于某一组检测框中的单个检测框A，分别计算其与另外两组检测框中所有检测框的交并比，在另外两组检测框中与检测框A有最大交并比的检测框，作选出的为与检测框A最接近的框，此处的检测框B和C。本实施例中优选λ₁和λ₂均为0.5。由于采用稳定度作为其中之一重要的评判标准，能灵活的帮助筛选检测框，和一些机械的筛选方式相比，有着更加鲁棒的优势。

优选地，第二阈值为0.8。

在噪声干扰下，弱监督检测器能够稳定定位的区域即为稳定框。根据弱监督检测特点，稳定框是物体最具辨别力的部分。对于有代表部分的物体(如人)，稳定框只能覆盖代表部分；对于没有代表部分的物体(如电视)，稳定框可以覆盖整个物体。

如图2所示，为实际检测并计算筛选出的稳定框示例图。从图中能很好地发现，对于猫、狗、人、马等有代表部分的物体，稳定框一般只能覆盖其头部；而对于汽车、电视机、火车等没有代表部分的物体，稳定框只能覆盖其一部分。

S4根据初筛后的检测框与稳定框之间的位置关系计算所有检测框的评分和等级，利用NMS方法对所有初筛后的检测框进行筛选，将评分大于第三阈值的检测框作为二筛后的检测框。

根据初筛后的检测框与稳定框之间的位置关系计算所有检测框的评分和等级，包括：

Score_A＝Score_A+Score_BIoS(A,B) (3)

S63重复S61-S62，如果检测框A包含grade＝1,2,3,4...的检测框，则将检测框A的等级重置为2,3,4,5…，并使用上式(3)更新检测框A的分数；由于人体包含人体上半身，人体上半身包含头部(稳定框)。因此，我通过把小部分的分数增加到包含其的更大部分的分数中，分数的增加百分比取决于目标小部分和目标大部分之间的包含程度(IoS)。此外，考虑到图像中可能包含较大区域的框，它可能包含许多具有相同类别的目标。如果使用得分计算公式更新得分，这些框的分数将变得更高。为了抑制这种现象，需要将分数更新的次数限制为1，即如果检测框C和检测框D都为grade＝i的检测框，对于检测框A,同时满足IoS(A,C)＞T_IoS和IoS(A,D)＞T_IoS，则根据得分计算公式，分数只更新一次。最终得分和等级越高代表着检测框质量越好。

优选地，第三阈值为0.3。

S5根据检测框的等级计算可靠性，用脚本对二筛后的检测框的信息制作成像素级标签。

考虑到不同类别的对象具有不同的等级分布，根据下式(4)计算可靠性：

S6根据可靠性采用改进的基于Faster R-CNN人工神经网络对所述的像素级标签训练来进行定位识别检测。

根据可靠性采用改进的基于Faster R-CNN人工神经网络对所述的像素级标

签训练来进行定位识别检测具体包括如下步骤：

由于脚本生成的像素级标签中的检测框信息是不完整的，如果采用Faster R-CNN中在整张特征图上生成检测锚框的方法，会导致一些锚框的错误分类。因此，本申请预测锚框的中心点的位置，以生成围绕分级标签的特定锚框。如图3所示，为实施例锚框的生成方式示意图，具体地说，对特征映射执行二维卷积运算并分割以获得两个新的单通道映射F1和F2，然后通过sigmoid函数将它们转换为中心点概率矩阵FC1和FC2。FC1中每个点的值表示该点是正样本锚框的中心点的概率，FC2中每个点的值表示该点是负样本锚框的中心点的概率。

为了分别训练正样本锚框和负样本锚框的中心点概率矩阵，本实施例定义两个二值标记映射，其中，1表示正/负样本锚框的中心点的有效位置，0表示其他区域。

定义(x_g,y_g,w_g,h_g)表示以w_g为宽，h_g为高，(x_g,y_g)为中心点的锚框。首先，利用(x_g,y_g,w_g,h_g)映射得到(x’_g,y’_g,w’_g,h’_g)。其次，对于正样本锚框，生成中心框(x’_g,y’_g,Kw’_g,Kh’_g)，并且在中心框内部生成正样本锚框的中心点。对于负样本锚框，生成边缘框1(x’_g,y’_g,(K+1)w’_g,(K+1)h’_g)和边缘框2(x’_g,y’_g,Lw’_g,Lh’_g)，并且在边缘框1和边缘框2之间生成负样本锚框中心点。

确定中心点后，在中心点上以3种面积生成完整锚框，锚框面积定义别为128平方、256平方和512平方像素。训练时，在正/负样本锚框中心点区域，每个点选择一个具有最大或最小IoU的锚框进行训练。测试时，选择所有锚框进行测试。

最后一个问题是选择参数K和L的适当值。因为本实施例生成锚框的方式，正/负样本锚框的数量直接由中心点区域的面积决定。由于Rel越高，边界框越精确，并且在其附近生成的正/负样本锚框具有更高的质量，因此，设置K＝Rel。

这样，在Rel较高的边界框附近，正/负样本锚框中心点区域的面积较大，可以得到更多的高质量锚框。

而根据历史数据，人工神经网络训练所需正、负样本比例为1:3，得到如下式(5)所示方程：

化简后可得下式(6)：

S84采用回归损失函数将ROIPooling模块输出的初步检测框进行二次目标定位和识别。经过两次检测框调整，检测准确率更高。

本实施例使用多任务损失函数来训练人工神经网络。将损失函数分为三个部分：传统分类损失函数L_cls、回归损失函数L_reg和用于预测锚框定位的损失函数L_loc，如下式(7)所示：

L_multi＝λ_cL_cls+λ_rL_reg+λ_lL_loc (7)

其中，λ_c、λ_r和λ_l分别代表传统分类损失函数L_cls、回归损失函数L_reg和用于预测锚框定位的损失函数L_loc的权重，是优选值。

对于分类损失函数，使用两类(目标或非目标)的log函数作为损失函数，如下式(8)所示：

其中，p_i为锚框是正样本目标的概率，L_log是对数损失函数公式，表示标签中锚框是否为正样本目标，如果是正样本目标/>则取值为1，不是正样本目标，这/>取值为0。

对于回归损失函数，由于标签中的检测框是不准确的，本实施例使用参数Rel来衡量检测框的质量，使用低Rel值的边界框来训练模型会导致定位不准确。将回归损失函数与参数Rel相联系，分别计算每个检测框的回归损失函数值，并将其相加得到如下公式：

其中，t_i表示预测锚框的4个坐标的向量，表示与正样本锚框相关联的像素级标签中检测框的坐标，L_r表示平滑的L₁损失函数。这种损失函数使得可靠性较低的检测框对回归损失函数的影响较小。

使用两类(正样本与非正样本；负样本与非负样本)对数损失之和，用于预测锚框定位的损失函数，如下式(10)所示：

其中，p_i为锚框是正样本目标的概率，L_log是对数损失函数公式，表示标签中锚框是否为正样本目标，如果是正样本目标/>则取值为1，不是正样本目标，这/>取值为0，N_j为锚框是负样本目标的概率，/>表示标签中锚框是否为负样本目标，如果是负样本目标/>则取值为1，不是负样本目标，这/>取值为0。

如图4所示，为本实施例的实际通用目标检测结果示例图。从可视化检测结果能明显看出，本方法在1080Ti显卡下检测时间能达到10FPS(Frame Per Second，每秒帧率)，而现有技术MELM只能达到1FPS。有了明显地提高。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于边框分级筛选的弱监督目标检测方法，其特征在于，包括：

计算出每个初筛后的检测框的稳定度，利用NMS方法将所有检测框中稳定度大于第二阈值的检测框作为稳定框；所述的计算出每个初筛后的检测框的稳定度，包括：对于所有图片中同一图片对应的三组检测框中，一组检测框中的一个检测框与其他两组检测框中每组中的一个检测框相互之间的交并比计算每个初筛后的检测框的稳定度，所述稳定度根据下式(1)计算：

ST_A＝λ₁IoU(A,B)+λ₂IoU(A,C) (1)

其中，λ₁和λ₂表示对应检测框B和检测框C的权重参数，IoU(A，B)表示检测框A和B的交并比，IoU(A，C)表示检测框A和C的交并比，A、B和C表示从同一图片的三组检测框中分别选取的一个检测框，选取方法为：对于某一组检测框中的单个检测框A，分别计算其与另外两组检测框中所有检测框的交并比，在另外两组检测框中与检测框A有最大交并比的检测框，作选出的为与检测框A最接近的框，此处的检测框B和C；

根据初筛后的检测框与稳定框之间的位置关系计算所有检测框的评分和等级，利用NMS方法对所有初筛后的检测框进行筛选，将评分大于第三阈值的检测框作为二筛后的检测框；所述的根据所有初筛后的检测框与稳定框之间的位置关系计算所有检测框的评分和等级，包括：

S61将每个稳定框的得分S置为0.2，将其他剩余检测框的得分S置为0.1；将稳定框的等级grade置为1，并将其他剩余检测框的等级grade置为0，在剩余的检测框中，寻找与检测框A或检测框B同一类别的包含grade＝1检测框的检测框，并根据下式(2)计算检测框的包含程度：

S62当IoS(A,B)>T_IoS，则定义为检测框A包含检测框B，其中，T_IoS是衡量包含程度的参数，值为0.8；如果检测框A包含检测框B，则将检测框A的等级重置为2，并使用下式(3)更新检测框A的得分，如果不包含，则不更新检测框A的得分：

Score_A＝Score_A+Score_BIoS(A,B) (3)

S63重复S61-S62，如果检测框A包含grade＝1,2,3,4...的检测框，则将检测框A的等级重置为2,3,4,5…，并使用上式(3)更新检测框A的分数；其中，需要将分数更新的次数限制为1，即如果检测框C和检测框D都为grade＝i的检测框，对于检测框A,同时满足IoS(A,C)>T_IoS和IoS(A,D)>T_IoS，则根据得分计算公式，分数只更新一次；

根据检测框的等级计算可靠性，用脚本对二筛后的检测框的信息制作成像素级标签；所述的根据检测框的等级计算可靠性，包括根据下式(4)计算可靠性：

其中，m表示所有图像中每个类别的检测框的总数，grade表示检测框的等级，grade_A表示检测框A的等级，grade_avg表示单个类别所有检测框grade的平均值；

2.根据权利要求1所述的基于边框分级筛选的弱监督目标检测方法，其特征在于，所述的两种不同的噪声为像素点小于或等于1％的像素点的噪声。

3.根据权利要求1所述的基于边框分级筛选的弱监督目标检测方法，其特征在于，所述的第一阈值为0.3，第二阈值为0.8，第三阈值为0.3。

4.根据权利要求1所述的基于边框分级筛选的弱监督目标检测方法，其特征在于，所述的λ₁和λ₂均为0.5。

5.根据权利要求1所述的基于边框分级筛选的弱监督目标检测方法，其特征在于，所述的根据可靠性采用改进的基于Faster R-CNN人工神经网络对所述的像素级标签训练来进行定位识别检测，具体包括如下步骤：