CN110245620B

CN110245620B - 一种基于注意力的非最大化抑制方法

Info

Publication number: CN110245620B
Application number: CN201910524163.2A
Authority: CN
Inventors: 郭春生; 蔡蒙; 陈华华; 章坚武
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2021-08-20
Anticipated expiration: 2039-06-18
Also published as: CN110245620A

Abstract

本发明提供一种基于注意力的非最大化抑制方法，包括：步骤S1、将测试图像输入预先训练好的Faster RCNN网络，提取所述图像的特征信息，Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度；步骤S2、将所述分类置信度作为注意力驱动信号进行自上而下的反向传播，生成目标注意力地图；步骤S3、根据所述注意力地图计算每一检测边界框的感兴趣概率，并将所述感兴趣概率与所述分类置信度的加权和作为感兴趣分数，优化NMS边界框检测。本发明能够充分利用网络中图像的特征信息，以有效解决目标分类置信度的空间信息缺失问题，调节分类置信度与定位精度的不一致性；并且在不用修改网络或者额外的网络训练情况下，改进了NMS，提高了目标检测的精度。

Description

一种基于注意力的非最大化抑制方法

技术领域

本发明涉及目标检测的技术领域，具体涉及一种基于注意力的非最大化抑制方法。

背景技术

目标检测是计算机视觉中的一个基本问题，它根据预定义目标的类别信息并以带有置信度的边界框形式，检测和定位图像中所有目标实例。

非最大化抑制(Non-Maximum-Suppression，NMS)作为目标检测流程的重要组成部分。首先，它根据检测边界框的分类置信度对所有边界框进行排序，并选择具有最大置信度的检测边界框作为目标边界框；然后，计算它与其余检测边界框的重叠区域面积比例，并去除比例值大于预设定阈值的边界框；最后，重复以上步骤直至结束。为提高NMS的结果，软化非最大化抑制(Soft Non-Maximum-Suppression,Soft-NMS)提出将所有相邻的边界框置信度衰减为与置信度较高的边界框重叠的连续函数，而不是消除所有置信度较低的边界框，并且它依然是采用分类置信度作为NMS的依据，没有考虑到定位置信度。对此，现有技术提出了以学习预测边界框和匹配的目标真实框之间的交并比，并将它作为一种定位置信度来代替分类置信度完成目标检测任务。Softer-NMS则提出一种新的边界框回归损失函数，用来同时学习边界框变换和定位置信度。

公开号为CN107679469 A的发明专利公开了一种基于深度学习的非极大值抑制方法，针对深度学习目标检测算法预测窗口的特点，定义了一种新的置信度指数。提出了改进的窗口筛选准则和依据置信度指数对窗口参数进行加权平均的方法。本方法首先找到每个目标对应的置信度最高的窗口为主窗口，然后在每个窗口附近找到置信度大于阈值且与主窗口的交叠率大于阈值的一批窗口作为子窗口。根据子窗口的位置参数和置信度调整主窗口的位置参数，得到新的窗口。尽管其考虑到了分类置信度与定位精度，但是并没有很好地解决分类置信度与定位精度之间的不一致性问题，此外它们都对网络结构进行了修改，这增加了方法的复杂度。

故，针对现有技术的缺陷，如何实现高效率的目标检测、调节分类置信度与定位精度的不一致性是本领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于注意力的非最大化抑制方法。在目标检测网络中对传统的非最大化抑制方法进行优化，通过目标注意力图与分类置信度的结合完成NMS过程中合适检测边界框的选择。

为了实现以上目的，本发明采用以下技术方案：

一种基于注意力的非最大化抑制方法，包括以下步骤：

步骤S1、将测试图像输入预先训练好的Faster RCNN网络，提取所述图像的特征信息，Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度；

步骤S2、将所述分类置信度作为注意力驱动信号进行自上而下的反向传播，生成目标注意力地图；

步骤S3、根据所述注意力地图计算每一检测边界框的感兴趣概率，并将所述感兴趣概率与所述分类置信度的加权和作为感兴趣分数，优化NMS边界框检测。

进一步地，在所述步骤S1之前，对图像进行预处理，包括：对所述图像进行格式转换、归一化处理、将图像的数据格式Numpy转换成Tensor。

进一步地，所述目标注意力地图在目标网络的输入端生成。

进一步地所述步骤S2为：

输入特征的第i个像素感兴趣概率为：

其中，所述Region of Interest网络部分输入特征为矩阵A_CN,其中通道数为C，特征像素数为N；所述分类置信度为B_KM，目标类别数为K，目标数量为M,k类中第m个目标的置信度表示为

p(a_i|b_j)是条件概率，

表示c通道中第i个像素的值，

表示第k类中第j个目标的置信度；

所述条件概率为：

其中，

表示c通道中第i个像素到输出第k类中第j个目标置信度的等价权系数，

是归一化因子以使输入像素

条件概率之和为1；

根据输入特征到输出置信度的函数关系，将输出的目标分类置信度进行反向传播，得到输入特征值的变化量：

因此，所述等价权系数为：

当输出置信度变化

恒定情况下，所述等价权系数

所述目标注意力图M中第i个像素m_i为：

其中，ReLU(·)是非线性修正单元。

进一步地，当目标网络最后输出层为Softmax层时，网络的输出

为

进一步地，检测边界框R的所述感兴趣分数为：

其中，

和

分别表示边界框的感兴趣概率与分类置信度的影响因子，w₁+w₂＝1，(x₁,y₁)是R的左上角坐标，其中(x₂,y₂)是R的右下角坐标，b是R的分类置信度。

本发明在目标检测网络中对传统的非最大化抑制方法进行优化，通过反向传播目标的高层语义信息来构建目标注意力图，并基于注意力图定义了检测边界框的感兴趣概率；通过整合检测边界框的分类置信度和感兴趣概率，调节NMS过程中分类置信度和定位精度之间的不一致性。其优点是能够充分利用网络中图像的特征信息，以有效解决目标分类置信度的空间信息缺失问题，调节分类置信度与定位精度的不一致性；并且在不用修改网络或者额外的网络训练情况下，改进了NMS提高了目标检测的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于注意力的非最大化抑制方法的方法流程；

图2是基于目标注意力图的检测边界框优化示意图；

图3是检测边界框的优化示例图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1所示，本实施例提出了一种基于注意力的非最大化抑制方法，包括：

步骤S1、将测试图像输入预先训练好的Faster RCNN网络，提取所述图像的特征信息并输出各个建议区域上不同类别目标的分类置信度；

给定任意一幅图像，将它作为测试图像送入预先训练好的Faster RCNN网络，网络以自下而上的方式逐层提取图像的特征信息，并经其中的Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度。

具体地，输入任意尺寸的图像，首先对它进行格式转换，即从原来的RGB格式转成网络需要的BGR格式；其次，对图片进行归一化处理，根据网络预设的图片尺寸范围计算图像宽高的缩放比，并按最小缩放比将图像缩放到合适尺寸，最后对将图像的数据格式Numpy转换成Tensor。图像预处理结束后，将它送入训练好的Faster RCNN网络进行特征提取，并从其中的Region of Interest网络部分得到各个建议区域上不同类别目标的分类置信度以及目标的位置等输出结果。

将分类置信度作为注意力驱动信号进行自上而下的反向传播，用以重构目标的空间信息，并在网络中间层生成目标注意力地图。

假设Faster RCNN的Region of Interest网络部分(包含ROI Pooling layer、Fully Connected layer等)输入特征表示为矩阵A_CN,其中通道数为C，特征像素数为N；输出目标的分类置信度表示为B_KM，目标类别数为K，目标数量为M,于是k类中第m个目标的置信度表示为

满足关系式：

目标注意力图在目标网络的输入端生成，其中输入特征的第i个像素感兴趣概率为：

这里p(a_i|b_j)是条件概率，

表示c通道中第i个像素的值，

表示第k类中第j个目标的置信度。因为我们只需关注对输出结果起到积极影响的信息，所以条件概率定义为：

其中

表示c通道中第i个像素到输出第k类中第j个目标置信度的等价权系数，如果权系数大于零，则权系数越大输入像素值越大，也就是给定输出

条件下输入像素的概率越大。

是归一化因子以使输入像素

条件概率之和为1。由于目标网络最后输出层为Softmax层，故网络的输出

可视为

根据输入特征到输出置信度的函数关系，可以将输出的目标分类置信度进行反向传播，以得到输入特征值的变化量：

这意味着权系数

当输出置信度变化

恒定情况下，于是权系数

因此，将权系数的表达式代入公式1，可以得到

其中，

通过反向传播获得。此外，考虑到条件概率的计算需要权系数大于零以及为简化计算，我们将非负约束条件移至求和后再处理，于是得到目标注意力图M中第i个像素m_i的计算表达式为：

其中，ReLU(·)是非线性修正单元。

本发明通过将根据注意力地图计算的每一检测边界框的感兴趣概率与分类置信度的加权和定义为感兴趣分数，然后应用到NMS以实现目标检测定位精度的提升。

具体地，由于注意力地图可以反映图像中目标的空间信息，因此将它恢复到原图大小并进行归一化操作后，图中每一像素的值便可以被视为单位区域上检测到的目标概率。检测检测边界框内各像素点概率的累加值，我们定义为边界框的感兴趣概率。

假设得到的目标注意力图可以被描述为一个二维的矩阵M，以及存在一个坐标为{(x₁,y₁),(x₂,y₂)}的检测边界框R，其中(x₁,y₁)是R的左上角坐标，其中(x₂,y₂)是R的右下角坐标，b是R的分类置信度，所以检测边界框R的感兴趣分数为：

其中，

和

分别表示边界框的感兴趣概率与分类置信度的影响因子，它们满足w₁+w₂＝1关系。新的排序参数充分利用了网络自上而下和自下而上的图像特征信息，有效反映了分类置信度与被检测目标定位精度之间的相关性，并且提升了目标检测的精度。

本发明以Faster RCNN网络为基础框架提取图像的特征，经其中的输出端网络得到目标类的高层语义信息即目标分类置信度。其次，将所得分类置信度归一化并按指定类别执行反向传播以在网络层中构建目标注意力图。然后，根据目标注意力图进行NMS中检测边界框的优化。由于，不用对网络进行修改以及进行额外的训练，因此减少了算法的复杂度。

如图2所示为注意力图优化边界框的方案。注意力图不仅反映了目标的空间位置信息，而且关联了目标的分类置信度。因此，基于注意力图计算得到的检测边界框的感兴趣分数，可以被作为NMS中边界框的新排序参数，以调节目标分类置信度与定位精度之间的不一致性。

如图3所示为边界框优化案例。图中cls_conf为检测边界框的分类置信度，pro_conf为检测边界框的感兴趣概率，int_score为检测边界框感兴趣概率与分类置信度结合的新的感兴趣分数。可以看出包含了部分目标的黄色边界框分类置信度高于完整包含目标的绿色边界框，此时依据分类置信度无法选择出最佳的边界框。而绿色边界框的感性趣分数高于黄色边界框，这表明了感兴趣分数是与定位精度更一致的。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。