CN108509949A - 基于注意力地图的目标检测方法 - Google Patents

基于注意力地图的目标检测方法 Download PDF

Info

Publication number
CN108509949A
CN108509949A CN201810110564.9A CN201810110564A CN108509949A CN 108509949 A CN108509949 A CN 108509949A CN 201810110564 A CN201810110564 A CN 201810110564A CN 108509949 A CN108509949 A CN 108509949A
Authority
CN
China
Prior art keywords
layer
attention
attention map
target
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810110564.9A
Other languages
English (en)
Other versions
CN108509949B (zh
Inventor
郭春生
李慧娟
陈华华
应娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201810110564.9A priority Critical patent/CN108509949B/zh
Publication of CN108509949A publication Critical patent/CN108509949A/zh
Application granted granted Critical
Publication of CN108509949B publication Critical patent/CN108509949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种基于注意力地图的目标检测方法。本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。本发明是一种更有效更接近生物视觉机制的目标检测方法。

Description

基于注意力地图的目标检测方法
技术领域
本发明属于目标检测的技术领域,具体涉及一种基于注意力地图的目标检测方法。
背景技术
目标检测是计算机视觉领域最具挑战性的问题,而且也是很多计算机视觉应用的第一步。得益于卷积神经网络及候选区域算法的发展,目标检测的性能在过去几年已经取得了突飞猛进的进展。在实际的人类视觉检测中,人类往往倾向于根据特定的目标来处理视野中的场景,感知学对这种人类的视觉行为给出了解释,人类视觉皮层在收到自上而下的激励后会得到性能的提升,且不相关的神经元会被抑制,而在主流的目标检测框架中,如Faster R-CNN,其只有一次自底向上的目标检测流程,这与生物视觉的目标检测流程并不一致。且NMS作为后处理步骤,其排序参数无法有效捕捉候选框内区域与待检测目标的关联度,这限制了目标检测的精确度。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于注意力地图的目标检测方法。
本发明是一种更有效更接近生物视觉机制的目标检测方法。针对主流的单次前向目标检测流程无法有效结合高层语义和底层特征从而限制目标检测性能的问题,本发明将原Faster R-CNN检测流程扩增为结合了自底向上和自顶向下信息的目标检测流程,有助于提升目标检测的性能。本发明通过将自上而下的注意力引入目标检测网络,生成了输入图像上关于高层语义的注意力地图。在具体的候选框融合优化方案中,结合生成的注意力地图以及前景评分设计了一种新型NMS排序参数,可以有效反映每个候选框与待检测目标的相关度,使得目标相关候选框被保留的同时非相关候选框也得以被抑制,从而提升了目标检测的精确度。
该方法的具体思路:本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。
本发明采取以下技术方案:
基于注意力地图的目标检测方法,根据注意力地图上各感兴趣区域与待检测目标的相关度对初始的检测结果进行融合,其具体实现步骤如下:
步骤1:读入任意尺寸的输入图像,并送入预训练的Faster R-CNN模型,自底向上逐层地提取从底层到高层的特征,从而建立从底层到高层语义的映射,在该层次中,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果。
步骤2:将顶层回归出的分类概率分布作为顶层驱动信号,从而驱动自顶向下的注意力信号的反向传播(即初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;所述目标类别信息代表了感兴趣区域在各个待检测类别上的概率分布,隐性地反映了每个感兴趣区域内目标地结构信息。)。这个顶层信号是感兴趣区域在各个待检测类别上的概率分布。
步骤3:Faster R-CNN的输出端上,object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后,为了进一步提升注意力地图的分辨力,本发明在Faster R-CNN中又进一步引入了对比注意力,因此,在Faster R-CNN的输出端,object with class(oc)全连接层的对偶全连接层被构建,记为其权值与oc层相反,由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布,所以,若oc层对应的概率分布是A,则它的对偶层对应的就是非A,从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元,从而提高注意力地图的分辨力。令w+表示object withclass层的权值,P1为对应的转移矩阵由下式确定:
是一个归一化因子,ωji为权值,为输入。
P0表示顶层的先验信号,P2和P3分别表示FRCN模块中两个fc层的MWP矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:
步骤4:注意力的自上而下传播通常结合随机反馈连接来将高层语义映射近似为误差反向传播中的误差导数,因此,与误差梯度类似,注意力信号在不同神经层上具有不同的传输特性。i)在ReLU层中,由于每个ReLU神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi。ii)在Max Pooling层中,由于每个patch中的最大值神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变。iii)在卷积层和全连接层中,由于每个父结点都有多个子结点,因此,这两层对底层神经元响应执行了一个仿射变换,如下式:
这里,Pi是aj的父结点集,Ci是ai的子结点集,是一个归一化因子,为正权值,为输入。神经层中所有pj可以表示成如下矩阵形式:
这里,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重。d1(d2)等于底层(顶层)神经元的个数。An是底层神经元的响应值。⊙和分别表示元素的点乘和点除。
步骤5:考虑到注意力地图可以有效反映输入图像上各区域与待检测目标的相关性,以及为了充分利用检测网络的信息,本发明提出将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息结合起来用于候选框的融合。
由上可知,注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度。假设生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为{(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
这里,注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且这两个影响因子满足:w1+w2=1。这种排序参数充分利用了网络中自底向上和自顶向下的信息,有效反映了候选区域与待检测目标的关联度,有助于提升目标检测的精确度。
步骤6:选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。
本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。
附图说明
图1为本发明的流程图。
图2为具体的候选框融合优化方案。
具体实施方式
以下具体实施例是对本发明提供的方法与技术方案的进一步说明,但不应理解成对本发明的限制。
本实施例基于注意力地图的目标检测方法,具体步骤如下:
步骤1:读入任意尺寸的输入图像,并送入预训练的Faster R-CNN模型,自底向上逐层地提取从底层到高层的特征,从而建立从底层到高层语义的映射,在该层次中,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果。
步骤2:将顶层回归出的分类概率分布作为顶层驱动信号,从而驱动自顶向下的注意力信号的反向传播(即初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;所述目标类别信息代表了感兴趣区域在各个待检测类别上的概率分布,隐性地反映了每个感兴趣区域内目标地结构信息。)。这个顶层信号是感兴趣区域在各个待检测类别上的概率分布。
步骤3:Faster R-CNN的输出端上,object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后,为了进一步提升注意力地图的分辨力,本发明在Faster R-CNN中又进一步引入了对比注意力,因此,在Faster R-CNN的输出端,object withclass(oc)全连接层的对偶全连接层被构建,记为其权值与oc层相反,由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布,所以,若oc层对应的概率分布是A,则它的对偶层对应的就是非A,从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元,从而提高注意力地图的分辨力。令w+表示object withclass层的权值,P1为对应的转移矩阵由下式确定:
是一个归一化因子,ωji为权值,为输入。
P0表示顶层的先验信号,P2和P3分别表示FRCN模块中两个fc层的MWP矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:
步骤4:注意力的自上而下传播通常结合随机反馈连接来将高层语义映射近似为误差反向传播中的误差导数,因此,与误差梯度类似,注意力信号在不同神经层上具有不同的传输特性。i)在ReLU层中,由于每个ReLU神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi。ii)在Max Pooling层中,由于每个patch中的最大值神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变。iii)在卷积层和全连接层中,由于每个父结点都有多个子结点,因此,这两层对底层神经元响应执行了一个仿射变换,如下式:
这里,Pi是aj的父结点集,Ci是ai的子结点集,是一个归一化因子,为正权值,为输入。神经层中所有pj可以表示成如下矩阵形式:
这里,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重。d1(d2)等于底层(顶层)神经元的个数。An是底层神经元的响应值。⊙和分别表示元素的点乘和点除。
步骤5:考虑到注意力地图可以有效反映输入图像上各区域与待检测目标的相关性,以及为了充分利用检测网络的信息,本发明提出将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息结合起来用于候选框的融合。
由上可知,注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度。假设生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为{(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
这里,注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且这两个影响因子满足:w1+w2=1。这种排序参数充分利用了网络中自底向上和自顶向下的信息,有效反映了候选区域与待检测目标的关联度,有助于提升目标检测的精确度。
步骤6:选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。以上实施例的说明只是用于帮助理解本发明方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求保护范围内。

Claims (5)

1.基于注意力地图的目标检测方法,其特征在于,该方法的具体步骤是:
步骤一:输入任意尺寸的测试图像,输入图像被送入预训练的Faster R-CNN模型,并自底向上逐层提取从底层到高层的特征,从而建立从底层特征到高层语义的映射,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果;
步骤二:初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;
步骤三:形成注意力信号的表述公式;
步骤四:注意力信号在不同神经层上进行反馈传播;
步骤五:将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息结合用于候选框的融合。
2.如权利要求1所述基于注意力地图的目标检测方法,其特征在于,步骤三具体如下:
在Faster R-CNN的输出端上,顶层驱动信号被送入额外添加的SoftMax层用于归一化初始识别结果;后在Faster R-CNN的输出端,输出识别结果的全连接层为oc,则其对偶全连接层为其权值与oc相反,令w+表示识别结果输出层的权值,P1为对应的转移矩阵,P0表示顶层的先验信号,P2和P3分别表示Faster R-CNN中Fast R-CNN模块中两个全连接层的边缘获胜概率矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:
3.如权利要求2所述基于注意力地图的目标检测方法,其特征在于,步骤四具体如下:
1)在ReLU层中,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi
2)在Max Pooling层中,自上而下的注意力信号在通过此层前后保持不变;
3)在卷积层和全连接层中,所述卷积层和全连接层对底层神经元响应执行了一个仿射变换:
其中,Pi是aj的父结点集,Ci是ai的子结点集;是一个归一化因子,为正权值,为输入。
神经层中所有pj表示成如下矩阵形式:
其中,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重,d1(d2)等于底层(顶层)神经元的个数,An是底层神经元的响应值,⊙和分别表示元素的点乘和点除。
4.如权利要求3所述基于注意力地图的目标检测方法,其特征在于,步骤五具体如下:
注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度;当生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为{(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且两个影响因子满足:w1+w2=1。
5.如权利要求1-4任一项所述基于注意力地图的目标检测方法,其特征在于,在步骤一后,进行步骤六:选择出的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。
CN201810110564.9A 2018-02-05 2018-02-05 基于注意力地图的目标检测方法 Active CN108509949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810110564.9A CN108509949B (zh) 2018-02-05 2018-02-05 基于注意力地图的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810110564.9A CN108509949B (zh) 2018-02-05 2018-02-05 基于注意力地图的目标检测方法

Publications (2)

Publication Number Publication Date
CN108509949A true CN108509949A (zh) 2018-09-07
CN108509949B CN108509949B (zh) 2020-05-15

Family

ID=63375469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810110564.9A Active CN108509949B (zh) 2018-02-05 2018-02-05 基于注意力地图的目标检测方法

Country Status (1)

Country Link
CN (1) CN108509949B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259940A (zh) * 2020-01-10 2020-06-09 杭州电子科技大学 一种基于空间注意力地图的目标检测方法
WO2020119619A1 (zh) * 2018-12-14 2020-06-18 中国科学院深圳先进技术研究院 一种基于3d目标分类和场景语义分割的网络优化结构
WO2022036567A1 (zh) * 2020-08-18 2022-02-24 深圳市大疆创新科技有限公司 一种目标检测的方法、装置和车载雷达

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070258649A1 (en) * 2005-03-04 2007-11-08 Bach Klaus J Method for implementing n-dimensional object recognition using dynamic adaptive recognition layers
CN103455990A (zh) * 2013-03-04 2013-12-18 深圳信息职业技术学院 结合视觉注意机制和pcnn的图像融合方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
WO2017155660A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070258649A1 (en) * 2005-03-04 2007-11-08 Bach Klaus J Method for implementing n-dimensional object recognition using dynamic adaptive recognition layers
CN103455990A (zh) * 2013-03-04 2013-12-18 深圳信息职业技术学院 结合视觉注意机制和pcnn的图像融合方法
WO2017155660A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAMING ZHANG ET AL.: "Top-down Neural Attention by Excitation Backprop", 《EUROPEAN CONFERENCE ON COMPUTER VISION ECCV 2016》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119619A1 (zh) * 2018-12-14 2020-06-18 中国科学院深圳先进技术研究院 一种基于3d目标分类和场景语义分割的网络优化结构
CN111259940A (zh) * 2020-01-10 2020-06-09 杭州电子科技大学 一种基于空间注意力地图的目标检测方法
CN111259940B (zh) * 2020-01-10 2023-04-07 杭州电子科技大学 一种基于空间注意力地图的目标检测方法
WO2022036567A1 (zh) * 2020-08-18 2022-02-24 深圳市大疆创新科技有限公司 一种目标检测的方法、装置和车载雷达

Also Published As

Publication number Publication date
CN108509949B (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN110163110B (zh) 一种基于迁移学习和深度特征融合的行人重识别方法
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN106095893B (zh) 一种跨媒体检索方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
Singh et al. From strings to things: Knowledge-enabled vqa model that can read and reason
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN111737551B (zh) 一种基于异构图注意力神经网络的暗网线索检测方法
CN111462282A (zh) 一种场景图生成方法
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN107403430A (zh) 一种rgbd图像语义分割方法
CN111460980B (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN107330355A (zh) 一种基于正样本平衡约束的深度行人再标识方法
CN108509949A (zh) 基于注意力地图的目标检测方法
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN111291760A (zh) 图像的语义分割方法、装置及电子设备
CN112364747B (zh) 一种有限样本下的目标检测方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN109858451A (zh) 一种非配合手部检测方法
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN112395953A (zh) 一种道面异物检测系统
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant