CN110245620B - 一种基于注意力的非最大化抑制方法 - Google Patents
一种基于注意力的非最大化抑制方法 Download PDFInfo
- Publication number
- CN110245620B CN110245620B CN201910524163.2A CN201910524163A CN110245620B CN 110245620 B CN110245620 B CN 110245620B CN 201910524163 A CN201910524163 A CN 201910524163A CN 110245620 B CN110245620 B CN 110245620B
- Authority
- CN
- China
- Prior art keywords
- target
- confidence
- interest
- classification confidence
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000005764 inhibitory process Effects 0.000 title abstract description 8
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 230000001629 suppression Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 4
- 230000004807 localization Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于注意力的非最大化抑制方法,包括:步骤S1、将测试图像输入预先训练好的Faster RCNN网络,提取所述图像的特征信息,Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度;步骤S2、将所述分类置信度作为注意力驱动信号进行自上而下的反向传播,生成目标注意力地图;步骤S3、根据所述注意力地图计算每一检测边界框的感兴趣概率,并将所述感兴趣概率与所述分类置信度的加权和作为感兴趣分数,优化NMS边界框检测。本发明能够充分利用网络中图像的特征信息,以有效解决目标分类置信度的空间信息缺失问题,调节分类置信度与定位精度的不一致性;并且在不用修改网络或者额外的网络训练情况下,改进了NMS,提高了目标检测的精度。
Description
技术领域
本发明涉及目标检测的技术领域,具体涉及一种基于注意力的非最大化抑制方法。
背景技术
目标检测是计算机视觉中的一个基本问题,它根据预定义目标的类别信息并以带有置信度的边界框形式,检测和定位图像中所有目标实例。
非最大化抑制(Non-Maximum-Suppression,NMS)作为目标检测流程的重要组成部分。首先,它根据检测边界框的分类置信度对所有边界框进行排序,并选择具有最大置信度的检测边界框作为目标边界框;然后,计算它与其余检测边界框的重叠区域面积比例,并去除比例值大于预设定阈值的边界框;最后,重复以上步骤直至结束。为提高NMS的结果,软化非最大化抑制(Soft Non-Maximum-Suppression,Soft-NMS)提出将所有相邻的边界框置信度衰减为与置信度较高的边界框重叠的连续函数,而不是消除所有置信度较低的边界框,并且它依然是采用分类置信度作为NMS的依据,没有考虑到定位置信度。对此,现有技术提出了以学习预测边界框和匹配的目标真实框之间的交并比,并将它作为一种定位置信度来代替分类置信度完成目标检测任务。Softer-NMS则提出一种新的边界框回归损失函数,用来同时学习边界框变换和定位置信度。
公开号为CN107679469 A的发明专利公开了一种基于深度学习的非极大值抑制方法,针对深度学习目标检测算法预测窗口的特点,定义了一种新的置信度指数。提出了改进的窗口筛选准则和依据置信度指数对窗口参数进行加权平均的方法。本方法首先找到每个目标对应的置信度最高的窗口为主窗口,然后在每个窗口附近找到置信度大于阈值且与主窗口的交叠率大于阈值的一批窗口作为子窗口。根据子窗口的位置参数和置信度调整主窗口的位置参数,得到新的窗口。尽管其考虑到了分类置信度与定位精度,但是并没有很好地解决分类置信度与定位精度之间的不一致性问题,此外它们都对网络结构进行了修改,这增加了方法的复杂度。
故,针对现有技术的缺陷,如何实现高效率的目标检测、调节分类置信度与定位精度的不一致性是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于注意力的非最大化抑制方法。在目标检测网络中对传统的非最大化抑制方法进行优化,通过目标注意力图与分类置信度的结合完成NMS过程中合适检测边界框的选择。
为了实现以上目的,本发明采用以下技术方案:
一种基于注意力的非最大化抑制方法,包括以下步骤:
步骤S1、将测试图像输入预先训练好的Faster RCNN网络,提取所述图像的特征信息,Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度;
步骤S2、将所述分类置信度作为注意力驱动信号进行自上而下的反向传播,生成目标注意力地图;
步骤S3、根据所述注意力地图计算每一检测边界框的感兴趣概率,并将所述感兴趣概率与所述分类置信度的加权和作为感兴趣分数,优化NMS边界框检测。
进一步地,在所述步骤S1之前,对图像进行预处理,包括:对所述图像进行格式转换、归一化处理、将图像的数据格式Numpy转换成Tensor。
进一步地,所述目标注意力地图在目标网络的输入端生成。
进一步地所述步骤S2为:
输入特征的第i个像素感兴趣概率为:
其中,所述Region of Interest网络部分输入特征为矩阵ACN,其中通道数为C,特征像素数为N;所述分类置信度为BKM,目标类别数为K,目标数量为M,k类中第m个目标的置信度表示为p(ai|bj)是条件概率,表示c通道中第i个像素的值,表示第k类中第j个目标的置信度;
所述条件概率为:
根据输入特征到输出置信度的函数关系,将输出的目标分类置信度进行反向传播,得到输入特征值的变化量:
因此,所述等价权系数为:
所述目标注意力图M中第i个像素mi为:
其中,ReLU(·)是非线性修正单元。
进一步地,检测边界框R的所述感兴趣分数为:
本发明在目标检测网络中对传统的非最大化抑制方法进行优化,通过反向传播目标的高层语义信息来构建目标注意力图,并基于注意力图定义了检测边界框的感兴趣概率;通过整合检测边界框的分类置信度和感兴趣概率,调节NMS过程中分类置信度和定位精度之间的不一致性。其优点是能够充分利用网络中图像的特征信息,以有效解决目标分类置信度的空间信息缺失问题,调节分类置信度与定位精度的不一致性;并且在不用修改网络或者额外的网络训练情况下,改进了NMS提高了目标检测的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于注意力的非最大化抑制方法的方法流程;
图2是基于目标注意力图的检测边界框优化示意图;
图3是检测边界框的优化示例图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,本实施例提出了一种基于注意力的非最大化抑制方法,包括:
步骤S1、将测试图像输入预先训练好的Faster RCNN网络,提取所述图像的特征信息并输出各个建议区域上不同类别目标的分类置信度;
给定任意一幅图像,将它作为测试图像送入预先训练好的Faster RCNN网络,网络以自下而上的方式逐层提取图像的特征信息,并经其中的Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度。
具体地,输入任意尺寸的图像,首先对它进行格式转换,即从原来的RGB格式转成网络需要的BGR格式;其次,对图片进行归一化处理,根据网络预设的图片尺寸范围计算图像宽高的缩放比,并按最小缩放比将图像缩放到合适尺寸,最后对将图像的数据格式Numpy转换成Tensor。图像预处理结束后,将它送入训练好的Faster RCNN网络进行特征提取,并从其中的Region of Interest网络部分得到各个建议区域上不同类别目标的分类置信度以及目标的位置等输出结果。
步骤S2、将所述分类置信度作为注意力驱动信号进行自上而下的反向传播,生成目标注意力地图;
将分类置信度作为注意力驱动信号进行自上而下的反向传播,用以重构目标的空间信息,并在网络中间层生成目标注意力地图。
假设Faster RCNN的Region of Interest网络部分(包含ROI Pooling layer、Fully Connected layer等)输入特征表示为矩阵ACN,其中通道数为C,特征像素数为N;输出目标的分类置信度表示为BKM,目标类别数为K,目标数量为M,于是k类中第m个目标的置信度表示为满足关系式:目标注意力图在目标网络的输入端生成,其中输入特征的第i个像素感兴趣概率为:
其中表示c通道中第i个像素到输出第k类中第j个目标置信度的等价权系数,如果权系数大于零,则权系数越大输入像素值越大,也就是给定输出条件下输入像素的概率越大。是归一化因子以使输入像素条件概率之和为1。由于目标网络最后输出层为Softmax层,故网络的输出可视为
根据输入特征到输出置信度的函数关系,可以将输出的目标分类置信度进行反向传播,以得到输入特征值的变化量:
其中,ReLU(·)是非线性修正单元。
步骤S3、根据所述注意力地图计算每一检测边界框的感兴趣概率,并将所述感兴趣概率与所述分类置信度的加权和作为感兴趣分数,优化NMS边界框检测。
本发明通过将根据注意力地图计算的每一检测边界框的感兴趣概率与分类置信度的加权和定义为感兴趣分数,然后应用到NMS以实现目标检测定位精度的提升。
具体地,由于注意力地图可以反映图像中目标的空间信息,因此将它恢复到原图大小并进行归一化操作后,图中每一像素的值便可以被视为单位区域上检测到的目标概率。检测检测边界框内各像素点概率的累加值,我们定义为边界框的感兴趣概率。
假设得到的目标注意力图可以被描述为一个二维的矩阵M,以及存在一个坐标为{(x1,y1),(x2,y2)}的检测边界框R,其中(x1,y1)是R的左上角坐标,其中(x2,y2)是R的右下角坐标,b是R的分类置信度,所以检测边界框R的感兴趣分数为:
其中,和分别表示边界框的感兴趣概率与分类置信度的影响因子,它们满足w1+w2=1关系。新的排序参数充分利用了网络自上而下和自下而上的图像特征信息,有效反映了分类置信度与被检测目标定位精度之间的相关性,并且提升了目标检测的精度。
本发明以Faster RCNN网络为基础框架提取图像的特征,经其中的输出端网络得到目标类的高层语义信息即目标分类置信度。其次,将所得分类置信度归一化并按指定类别执行反向传播以在网络层中构建目标注意力图。然后,根据目标注意力图进行NMS中检测边界框的优化。由于,不用对网络进行修改以及进行额外的训练,因此减少了算法的复杂度。
如图2所示为注意力图优化边界框的方案。注意力图不仅反映了目标的空间位置信息,而且关联了目标的分类置信度。因此,基于注意力图计算得到的检测边界框的感兴趣分数,可以被作为NMS中边界框的新排序参数,以调节目标分类置信度与定位精度之间的不一致性。
如图3所示为边界框优化案例。图中cls_conf为检测边界框的分类置信度,pro_conf为检测边界框的感兴趣概率,int_score为检测边界框感兴趣概率与分类置信度结合的新的感兴趣分数。可以看出包含了部分目标的黄色边界框分类置信度高于完整包含目标的绿色边界框,此时依据分类置信度无法选择出最佳的边界框。而绿色边界框的感性趣分数高于黄色边界框,这表明了感兴趣分数是与定位精度更一致的。
本发明在目标检测网络中对传统的非最大化抑制方法进行优化,通过反向传播目标的高层语义信息来构建目标注意力图,并基于注意力图定义了检测边界框的感兴趣概率;通过整合检测边界框的分类置信度和感兴趣概率,调节NMS过程中分类置信度和定位精度之间的不一致性。其优点是能够充分利用网络中图像的特征信息,以有效解决目标分类置信度的空间信息缺失问题,调节分类置信度与定位精度的不一致性;并且在不用修改网络或者额外的网络训练情况下,改进了NMS提高了目标检测的精度。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (4)
1.一种基于注意力的非最大化抑制方法,其特征在于,包括以下步骤:
步骤S1、将测试图像输入预先训练好的Faster RCNN网络,提取所述图像的特征信息,Region of Interest网络部分输出各个建议区域上不同类别目标的分类置信度;
步骤S2、将所述分类置信度作为注意力驱动信号进行自上而下的反向传播,生成目标注意力地图;
步骤S3、根据所述注意力地图计算每一检测边界框的感兴趣概率,并将所述感兴趣概率与所述分类置信度的加权和作为感兴趣分数,优化NMS边界框检测;
所述目标注意力地图在目标网络的输入端生成;
所述步骤S2为:
输入特征的第i个像素感兴趣概率为:
其中,所述Region of Interest网络部分输入特征为矩阵ACN,其中通道数为C,特征像素数为N;所述分类置信度为BKM,目标类别数为K,目标数量为M,k类中第m个目标的置信度表示为 p(ai|bj)是条件概率,表示c通道中第i个像素的值,表示第k类中第j个目标的置信度;所述条件概率为:
根据输入特征到输出置信度的函数关系,将输出的目标分类置信度进行反向传播,得到输入特征值的变化量:
因此,所述等价权系数为:
所述目标注意力图M中第i个像素mi为:
其中,ReLU(·)是非线性修正单元。
2.如权利要求1所述的非最大化抑制方法,其特征在于:在所述步骤S1之前,对图像进行预处理,包括:对所述图像进行格式转换、归一化处理、将图像的数据格式Numpy转换成Tensor。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524163.2A CN110245620B (zh) | 2019-06-18 | 2019-06-18 | 一种基于注意力的非最大化抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524163.2A CN110245620B (zh) | 2019-06-18 | 2019-06-18 | 一种基于注意力的非最大化抑制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245620A CN110245620A (zh) | 2019-09-17 |
CN110245620B true CN110245620B (zh) | 2021-08-20 |
Family
ID=67887725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524163.2A Expired - Fee Related CN110245620B (zh) | 2019-06-18 | 2019-06-18 | 一种基于注意力的非最大化抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245620B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339895B (zh) * | 2020-02-21 | 2023-03-24 | 魔视智能科技(上海)有限公司 | 大类非极大值抑制方法及其系统 |
CN113469172B (zh) * | 2020-03-30 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN111881907B (zh) * | 2020-06-22 | 2021-07-27 | 浙江大华技术股份有限公司 | 一种边框回归的定位方法、装置和电子设备 |
CN112819821B (zh) * | 2021-03-01 | 2022-06-17 | 南华大学 | 一种细胞核图像检测方法 |
CN114723939B (zh) * | 2022-04-12 | 2023-10-31 | 国网四川省电力公司营销服务中心 | 基于注意力机制的非极大值抑制方法、系统、设备和介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015175826A1 (en) * | 2014-05-14 | 2015-11-19 | Kapach Yair | Systems and methods for detecting traffic signs |
CN108596170B (zh) * | 2018-03-22 | 2021-08-24 | 杭州电子科技大学 | 一种自适应非极大抑制的目标检测方法 |
CN109711258A (zh) * | 2018-11-27 | 2019-05-03 | 哈尔滨工业大学(深圳) | 基于卷积网络的轻量级人脸关键点检测方法、系统及存储介质 |
CN109829893B (zh) * | 2019-01-03 | 2021-05-25 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
-
2019
- 2019-06-18 CN CN201910524163.2A patent/CN110245620B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN110245620A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245620B (zh) | 一种基于注意力的非最大化抑制方法 | |
CN111259940B (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN107609525B (zh) | 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法 | |
EP3388978B1 (en) | Image classification method, electronic device, and storage medium | |
US20230186056A1 (en) | Grabbing detection method based on rp-resnet | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN112464911A (zh) | 基于改进YOLOv3-tiny的交通标志检测与识别方法 | |
CN113807420A (zh) | 一种考虑类别语义匹配的域自适应目标检测方法及系统 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
CN112446379B (zh) | 一种动态大场景自适应智能处理方法 | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN111881958A (zh) | 车牌分类识别方法、装置、设备及存储介质 | |
CN111783819A (zh) | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 | |
CN112818873A (zh) | 车道线检测方法、系统及电子设备 | |
CN117611932B (zh) | 基于双重伪标签细化和样本重加权的图像分类方法及系统 | |
CN117422936B (zh) | 一种遥感图像分类方法及系统 | |
CN113609941A (zh) | 一种基于深度学习的农作物病虫害识别方法 | |
WO2024032010A1 (zh) | 一种基于迁移学习策略的少样本目标实时检测方法 | |
CN118411682B (zh) | 基于条件扩散模型的可见光图像海上船舶目标识别方法 | |
CN111626379B (zh) | 肺炎x光图像检测方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN117935259A (zh) | 一种多模态遥感图像分割装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210820 |
|
CF01 | Termination of patent right due to non-payment of annual fee |