CN111259940A

CN111259940A - 一种基于空间注意力地图的目标检测方法

Info

Publication number: CN111259940A
Application number: CN202010024750.8A
Authority: CN
Inventors: 郭春生; 蔡猛; 应娜; 陈华华; 杨萌
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-09
Anticipated expiration: 2040-01-10
Also published as: CN111259940B

Abstract

本发明公开了一种基于空间注意力地图的目标检测方法，包括：将测试图像输入预先训练好的Faster RCNN网络，自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播，得到目标的空间特征信息和特征梯度信息；对目标的空间特征信息和特征梯度信息进行加权得到目标高层语义信息引导的注意力地图；对目标空间特征信息进行数据预处理，得到目标感兴趣区域图；叠加目标感兴趣区域图和注意力地图，得到目标注意力地图；将目标注意力地图与通道特征权重进行计算得到多通道空间注意力地图；将多通道空间注意力地图与目标空间特征信息结合得到新的目标空间特征信息；将新的目标空间特征信息联合RPN网络的目标候选框提取出进行目标分类和边界框回归的特征。

Description

一种基于空间注意力地图的目标检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于空间注意力地图的目标检测方法。

背景技术

目标检测作为计算机视觉的领域的一个基础研究课题，其目标是在图片中对可变数量的目标进行查找和分类。得益于深度学习的快速发展，目标检测的性能取得了较大的进展，但是由于目标的尺度不一、种类和数量不确定、空间特征信息利用率低以及分类与定位精度间的不一致性等问题，限制了检测精度的提升。考虑到，人们在看一件东西的时候，总能够快速的将注意力焦点集中在这件东西的某一个地方或者部位，同时能够在较短时间内准确的获得这件东西的属性、类别等信息，这意味着人们在注意到某个目标或某个场景时，人类会利用有限的注意力资源从大量信息中快速筛选出高价值信息，即通过视觉注意力机制有效的结合了自下而上与自上而下的特征信息，进而极大提高了视觉信息处理的效率与准确性。

受人类视觉注意力的启发，近几年注意力模型被广泛应用于深度学习的语音识别、自然语言处理等任务中。其生成的注意力地图作为一种解释网络决策的有效方法，不仅有助于提高网络中图像特征信息的利用率，而且能够保证网络在有限注意力资源条件下将注意力焦点更多的投放在目标相关区域。其中，注意力模型的框架当前最为流行的是Transformer模型，它是一种编码解码框架主要依赖于self-attention机制处理自然语言处理中的各项任务，能够考虑到序列中元素间的关联性。尽管在深度学习的其他任务中，注意力模型有着较多的应用也取得了不错的效果，但是在图像处理领域如目标检测任务中它的应用依然是缺乏的。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于空间注意力地图的目标检测方法，在目标检测流程中，通过引入Transformer注意力模块以及结合网络自下而上的目标特征和自上而下的高层语义信息，不仅能够使网络充分利用目标的空间特征信息，而且也能够使网络更多的关注、定位相关目标区域

为了实现以上目的，本发明采用以下技术方案：

一种基于空间注意力地图的目标检测方法，包括步骤：

S1.将测试图像输入预先训练好的Faster RCNN网络，并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播，得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G；

S2.对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算，得到目标高层语义信息引导的注意力地图M；

S3.对所述目标的空间特征信息F进行数据预处理，通过Transformer注意力模块得到目标的感兴趣区域图P；

S4.叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M，得到目标注意力地图A；并将得到的目标注意力地图A与通道特征权重进行计算，得到多通道的空间注意力地图A^S；

S5.将所述得到的多通道的空间注意力地图A^S与目标空间特征信息F进行结合，得到新的目标空间特征信息F_new；

S6.将得到的新的目标空间特征信息F_new联合RPN网络的目标候选框，提取出进行目标分类和边界框回归的特征。

进一步的，所述步骤S6之后还包括：

S7.在Faster RCNN网络训练过程中，Transformer注意力模块、RPN网络、RCNN网络均产生损失，并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合，得到新的损失函数，然后执行反向传播进行网络参数以及权重的更新。

进一步的，所述步骤S1中得到目标的空间特征信息和F与空间特征信息相对应的特征梯度信息G是通过卷积神经网络的最后一层卷积层获取到的。

进一步的，所述步骤S1中特征梯度信息G表示为：

其中，

表示空间特征信息F中第k个特征图(i，j)位置的元素值；Y表示高层语义信息。

进一步的，所述步骤S2中还包括对图像特征梯度信息G采进行全局平均化处理，得到每个通道特征权重w_k：

其中，Z_k表示第k个通道中像素点的个数；w_k的尺寸大小为C×1，表示第k个特征图对预测类别的重要性；

所述步骤S2中高层语义信息引导的注意力地图M为：

其中，ReLU(·)表示非线性修正单元；F^k表示第k个通道的特征图信息。

进一步的，所述步骤S3中的进行数据预处理包括多通道值的叠加、尺寸的统一、数值的归一化操作；

所述步骤S3中进行数据预处理之后，通过nn.Embeding()方法将空间特征信息F映射到指定512维度，并对每一维度特征图中分别位于奇数和偶数位置的序列信息采用正弦和余弦函数进行位置编码，编码计算方法如下：

PE_(pos,2l)＝sin(pos/10000^2l/d_model)

PE_(pos,2l+1)＝cos(pos/10000^2l/d_model)

其中，pos表示一个连续的整数序列；l表示序列信息所在位置；d_model＝512表示Transformer网络模型的尺寸。

进一步的，所述步骤S4中还包括将目标感兴趣区域图P通过缩放得到与空间特征信息F大小相同的区域图；

所述步骤S4中得到多通道的空间注意力地图A^S为：

其中，

a_ij表示目标注意力地图A中第(i,j)位置的像素值，

表示通道特征权重，计算方法分别为：

其中，T_s＝0表示多通道的空间注意力地图A^s的阈值。

进一步的，所述步骤S4中还包括对通道特征权重w_k重新处理得到新的通道特征权重

以得到权重占比的通道特征信息：

其中，

表示第k个通道的新权重值；T_c＝0表示通道特征信息的阈值。

进一步的，所述步骤S5中得到的多通道的空间注意力地图A^S与目标空间特征信息F进行结合的方式为：

F_new＝F*A^s

其中，*表示逐像素相乘，F_new表示新的目标空间特征信息。

进一步的，所述步骤S7中将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合，得到新的损失函数具体为：

L_rpn＝L_{rpn_cross}+L_{rpn_reg}

L_rcnn＝L_{rcnn_cross}+L_{rcnn_reg}

Loss＝L_rcnn+L_rpn+L_transformer

其中，L_{rpn_cross}和L_{rpn_reg}表示RPN网络的cross_entropy和L1损失；L_{rcnn_cross}和L_{rcnn_reg}表示RCNN网络的cross_entropy和L1损失；L_transformer表示transformer注意力网络的KL损失；其中cross_entropy和L1损失分别用于计算网络的分类损失和边界框的回归损失。

与现有技术相比，本发明在Faster RCNN自下而上的检测流程中，引入了NLP自然语言处理领域的Transformer注意力模块，并通过它生成了目标的感兴趣区域图，其次通过融合目标的感兴趣区域图和类别概率信息引导的目标注意力地图得到了完整的目标注意力地图，进而生成更完整的目标空间信息。在归一化操作后，注意力地图中像素点的值揭示了输入图像上的像素点对最终网络检测结果的贡献程度，较好的反映了图像各区域与目标之间的关联性。然后将它应用于RoI Pooling层提取目标特征进而用于目标的分类和回归。在这一过程中，检测网络较充分的利用了目标的空间特征信息，即能够在分类与回归过程中更多使用目标位置信息，所以在一定程度上缓解了目标分类与定位之间的不一致性，优化提升了目标检测的精度。此外，本发明提出的方法是将注意力地图直接应用到了训练阶段，而非被动的利用训练后的网络注意力。

附图说明

图1是实施例一提供的一种基于空间注意力地图的目标检测方法流程图；

图2为实施例一提供的目标检测网络的整体框架示意图；

图3为实施例一提供的详细的空间注意力地图生成框架示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明的目的是针对现有技术的缺陷，提供了一种基于空间注意力地图的目标检测方法，通过引入Transformer注意力模块以及结合网络自下而上的目标特征和自上而下的高层语义信息，不仅能够使网络充分利用目标的空间特征信息，而且也能够使网络更多的关注、定位相关目标区域。本发明所提出的方法有效缓解了网络空间特征信息利用率低和分类置信度与定位精度间的不一致性问题，从而提升了目标检测的精度。

实施例一

本实施例提供一种基于空间注意力地图的目标检测方法，如图1-3所示，包括步骤：

S11.将测试图像输入预先训练好的Faster RCNN网络，并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播，得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G；

S12.对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算，得到目标高层语义信息引导的注意力地图M；

S13.对所述目标的空间特征信息F进行数据预处理，通过Transformer注意力模块得到目标的感兴趣区域图P；

S14.叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M，得到目标注意力地图A；并将得到的目标注意力地图A与通道特征权重进行计算，得到多通道的空间注意力地图A^S；

S15.将所述得到的多通道的空间注意力地图A^S与目标空间特征信息F进行结合，得到新的目标空间特征信息F_new；

S16.将得到的新的目标空间特征信息F_new联合RPN网络的目标候选框，提取出进行目标分类和边界框回归的特征。

S17.在Faster RCNN网络训练过程中，Transformer注意力模块、RPN网络、RCNN网络均产生损失，并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合，得到新的损失函数，然后执行反向传播进行网络参数以及权重的更新。

本实施例根据网络中注意力模块的输出、自下而上的特征提取和自上而下的高层语义信息对提取的图像特征信息优化，进而不仅能够使网络充分利用目标的空间特征信息，而且也能够使网络更多的关注、定位相关目标区域。

在步骤S11中，将测试图像输入预先训练好的Faster RCNN网络，并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播，得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G。

对于给定的一张图像，在Faster R-CNN网络框架自下而上的图像特征提取与自上而下的高层语义信息传播过程中，从卷积神经网络的最后一层卷积层获取目标的空间特征信息F与对应的特征梯度信息G。

其中，特征梯度信息G表示为：

其中，

在步骤S12中，对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算，得到目标高层语义信息引导的注意力地图M。

基于步骤S11中的空间特征信息F与特征梯度信息G，计算高层语义信息引导的目标注意力地图M。F和G都是尺寸大小为H×W×C的矩阵，H,W,C分别表示特征图的高度、宽度和通道个数.

在本实施例中，为进一步获得每个通道特征信息在图像特征映射中重要性的权重信息，对图像特征梯度信息采进行全局平均化处理，得到每个通道特征权重w_k，计算公式如下：

本实施例考虑到在目标检测流程的计算中，只需要关注对预测目标类别具有积极影响的特征，因此高层语义信息引导的注意力地图M为：

在步骤S13中，对所述目标的空间特征信息F进行数据预处理，通过Transformer注意力模块得到目标的感兴趣区域图P。

根据Transformer注意力模块的输入参数要求，对目标空间特征信息F进行数据预处理，然后通过Transformer注意力模块得到目标的感兴趣区域图。预处理过程包括：多通道值的叠加、尺寸的统一、数值的归一化操作。

在预处理之后，本实施例通过nn.Embeding()方法将目标空间特征信息F映射到指定512维度，并对每一维度特征图中分别位于奇数和偶数位置的序列信息采用正弦和余弦函数进行位置编码，编码计算方法如下：

PE_(pos,2l)＝sin(pos/10000^2l/d_model)

PE_(pos,2l+1)＝cos(pos/10000^2l/d_model)

其中，pos表示一个连续的整数序列(0到最大值，最大值由目标空间特征信息F的列长确定)；l表示序列信息所在位置；d_model＝512表示Transformer网络模型的尺寸。

在本实施例中需要处理的信息是二维的图像信息，所以为使该Transformer注意力模块能够将各区域联系起来，本实施例对目标空间特征信息F分别沿行向量方向和列向量方向进行位置编码，并将编码叠加后的结果送入Transformer注意力模块进行处理，最后根据得到的结果与模块输入信息计算该模块的损失，以用于后续模块的训练，误差值通过KL相对熵损失函数计算。另外，在编码过程中因为将目标空间信息图上的各区域联系在了一起，使得语义信息表达更准确，所以通过Transformer注意力模块得到的输出结果即目标的感兴趣区域图P，在一定程度上能够反映出图像中目标的分布情况。

在步骤S14中，叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M，得到目标注意力地图A；并将得到的目标注意力地图A与通道特征权重进行计算，得到多通道的空间注意力地图A^S。

将步骤S13中得到的目标感兴趣区域图P缩放为与空间特征信息F大小相同的区域图，然后通过叠加目标高层语义信息引导的注意力地图M与目标感兴趣区域图P，得到完整的目标注意力地图A，并进行归一化与去除消极特征操作。另外，为使网络能够更多的关注对目标预测结果影响较大的区域，本实施例基于通道特征权重w_k与目标注意力地图信息A计算生成了多通道的空间注意力地图A^S，其计算方法为：

其中，

a_ij表示目标注意力地图A中第(i,j)位置的像素值，

表示通道特征权重，计算方法分别为：

其中，T_s＝0表示多通道的空间注意力地图A^s的阈值。

本实施例注意到通道特征权重w_k可以衡量通道特征信息对目标检测结果的影响大小，因此对权重w_k重新处理得到新的通道特征权重w_k ^c以突出权重占比大的通道特征信息：

其中，

在步骤S15中，将所述得到的多通道的空间注意力地图A^S与目标空间特征信息F进行结合，得到新的目标空间特征信息F_new。

将目标的空间注意力地图A^s与从卷积网络中获取的目标空间特征图F组合，得到新的目标空间特征信息F_new，即实现目标空间特征信息的优化。其组合方法为，按目标特征图的空间和通道维度进行逐像素的乘法操作，计算公式如：

F_new＝F*A^s

其中，*表示逐像素相乘，F_new表示新的目标空间特征信息。

在步骤S16中，将得到的新的目标空间特征信息F_new联合RPN网络的目标候选框，提取出进行目标分类和边界框回归的特征。

将原目标空间特征信息F替换为新得到的目标空间特征信息F_new，然后应用于RoIPooling感兴趣区域池化层，通过联合RPN网络生成的目标候选框，提取出与目标更相关的特征以进行下一步目标的分类和边界框的回归。

在步骤S17中，在Faster RCNN网络训练过程中，Transformer注意力模块、RPN网络、RCNN网络均产生损失，并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合，得到新的损失函数，然后执行反向传播进行网络参数以及权重的更新

在Faster RCNN网络训练过程中，新的损失函数Loss由Transformer注意力模块的损失与RPN网络和RCNN网络损失叠加生成，如下公式，

L_rpn＝L_{rpn_cross}+L_{rpn_reg}

L_rcnn＝L_{rcnn_cross}+L_{rcnn_reg}

Loss＝L_rcnn+L_rpn+L_transformer

在Faster RCNN网络中，通过反向传播来优化联合后的Loss并逐一更新网络初始参数完成模型端到端的训练过程，从而优化了目标检测的性能。

本实施例首先在网络自下而上的特征提取与自上而下的误差反向传播过程中从目标网络层获取目标相关的空间特征信息与对应的特征梯度信息，梯度特征信息反映了空间特征信息中每一像素点对检测结果的重要性；其次，将目标空间特征信息与特征梯度信息进行加权计算，得到目标高层语义信息(目标类别信息)引导的注意力地图，能够定位目标在图像中的相关区域；然后，根据Transformer模块的输入要求对空间特征信息进行数据预处理，为使得目标空间信息图上的相关区域能够很好地联系在一起，本发明对目标的特征信息进行了先行后列的位置编码，并将编码后叠加的结果送入Transformer注意力模块，以获取目标的空间感兴趣区域图；最后，通过融合该感兴趣区域图和目标语义信息引导的注意力地图，生成了完整的目标注意力地图，并利用该注意力地图在自下而上特征提取过程中优化用于分类和回归的目标空间特征信息。

与现有技术相比，本实施例在Faster RCNN自下而上的检测流程中，引入了NLP自然语言处理领域的Transformer注意力模块，并通过它生成了目标的感兴趣区域图，其次通过融合目标的感兴趣区域图和类别概率信息引导的目标注意力地图得到了完整的目标注意力地图，进而生成更完整的目标空间信息。在归一化操作后，注意力地图中像素点的值揭示了输入图像上的像素点对最终网络检测结果的贡献程度，较好的反映了图像各区域与目标之间的关联性。然后将它应用于RoI Pooling层提取目标特征进而用于目标的分类和回归。在这一过程中，检测网络较充分的利用了目标的空间特征信息，即能够在分类与回归过程中更多使用目标位置信息，所以在一定程度上缓解了目标分类与定位之间的不一致性，优化提升了目标检测的精度。此外，本发明提出的方法是将注意力地图直接应用到了训练阶段，而非被动的利用训练后的网络注意力。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于空间注意力地图的目标检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于空间注意力地图的目标检测方法，其特征在于，所述步骤S6之后还包括：

3.根据权利要求1所述的一种基于空间注意力地图的目标检测方法，其特征在于，所述步骤S1中得到目标的空间特征信息和F与空间特征信息相对应的特征梯度信息G是通过卷积神经网络的最后一层卷积层获取到的。

4.根据权利要求1所述的一种基于空间注意力地图的目标检测方法，其特征在于，所述步骤S1中特征梯度信息G表示为：

其中，

5.根据权利要求4所述的一种基于空间注意力地图的目标检测方法，其特征在于，其特征在于，所述步骤S2中还包括对图像特征梯度信息G采进行全局平均化处理，得到每个通道特征权重w_k：

所述步骤S2中高层语义信息引导的注意力地图M为：

6.根据权利要求5所述的一种基于空间注意力地图的目标检测方法，其特征在于，其特征在于，所述步骤S3中的进行数据预处理包括多通道值的叠加、尺寸的统一、数值的归一化操作；

PE_(pos,2l)＝sin(pos/10000^2l/d_model)

PE_(pos,2l+1)＝cos(pos/10000^2l/d_model)

7.根据权利要求6所述的一种基于空间注意力地图的目标检测方法，其特征在于，其特征在于，所述步骤S4中还包括将目标感兴趣区域图P通过缩放得到与空间特征信息F大小相同的区域图；

所述步骤S4中得到多通道的空间注意力地图A^S为：

其中，

a_ij表示目标注意力地图A中第(i,j)位置的像素值，

表示通道特征权重，计算方法分别为：

其中，T_s＝0表示多通道的空间注意力地图A^s的阈值。

8.根据权利要求7所述的一种基于空间注意力地图的目标检测方法，其特征在于，所述步骤S4中还包括对通道特征权重w_k重新处理得到新的通道特征权重

以得到权重占比的通道特征信息：

其中，

9.根据权利要求8所述的一种基于空间注意力地图的目标检测方法，其特征在于，所述步骤S5中得到的多通道的空间注意力地图A^S与目标空间特征信息F进行结合的方式为：

F_new＝F*A^s

其中，*表示逐像素相乘，F_new表示新的目标空间特征信息。

10.根据权利要求2所述的一种基于空间注意力地图的目标检测方法，其特征在于，所述步骤S7中将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合，得到新的损失函数具体为：

L_rpn＝L_{rpn_cross}+L_{rpn_reg}

L_rcnn＝L_{rcnn_cross}+L_{rcnn_reg}

Loss＝L_rcnn+L_rpn+L_transformer