CN108509949A

CN108509949A - 基于注意力地图的目标检测方法

Info

Publication number: CN108509949A
Application number: CN201810110564.9A
Authority: CN
Inventors: 郭春生; 李慧娟; 陈华华; 应娜
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-09-07
Anticipated expiration: 2038-02-05
Also published as: CN108509949B

Abstract

本发明公开了一种基于注意力地图的目标检测方法。本发明将自上而下的注意力引入当前主流的目标检测框架中，生成了可反映输入图像上各区域与待检测目标相关性的注意力地图，并基于生成的注意力地图对原先的候选框融合方案进行了优化，将自顶向下以及自底向上的信息结合进候选框的融合中，优化了目标检测的性能。本发明是一种更有效更接近生物视觉机制的目标检测方法。

Description

基于注意力地图的目标检测方法

技术领域

本发明属于目标检测的技术领域，具体涉及一种基于注意力地图的目标检测方法。

背景技术

目标检测是计算机视觉领域最具挑战性的问题，而且也是很多计算机视觉应用的第一步。得益于卷积神经网络及候选区域算法的发展，目标检测的性能在过去几年已经取得了突飞猛进的进展。在实际的人类视觉检测中，人类往往倾向于根据特定的目标来处理视野中的场景，感知学对这种人类的视觉行为给出了解释，人类视觉皮层在收到自上而下的激励后会得到性能的提升，且不相关的神经元会被抑制，而在主流的目标检测框架中，如Faster R-CNN，其只有一次自底向上的目标检测流程，这与生物视觉的目标检测流程并不一致。且NMS作为后处理步骤，其排序参数无法有效捕捉候选框内区域与待检测目标的关联度，这限制了目标检测的精确度。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于注意力地图的目标检测方法。

本发明是一种更有效更接近生物视觉机制的目标检测方法。针对主流的单次前向目标检测流程无法有效结合高层语义和底层特征从而限制目标检测性能的问题，本发明将原Faster R-CNN检测流程扩增为结合了自底向上和自顶向下信息的目标检测流程，有助于提升目标检测的性能。本发明通过将自上而下的注意力引入目标检测网络，生成了输入图像上关于高层语义的注意力地图。在具体的候选框融合优化方案中，结合生成的注意力地图以及前景评分设计了一种新型NMS排序参数，可以有效反映每个候选框与待检测目标的相关度，使得目标相关候选框被保留的同时非相关候选框也得以被抑制，从而提升了目标检测的精确度。

该方法的具体思路：本发明将自上而下的注意力引入当前主流的目标检测框架中，生成了可反映输入图像上各区域与待检测目标相关性的注意力地图，并基于生成的注意力地图对原先的候选框融合方案进行了优化，将自顶向下以及自底向上的信息结合进候选框的融合中，优化了目标检测的性能。

本发明采取以下技术方案：

基于注意力地图的目标检测方法，根据注意力地图上各感兴趣区域与待检测目标的相关度对初始的检测结果进行融合，其具体实现步骤如下：

步骤1：读入任意尺寸的输入图像，并送入预训练的Faster R-CNN模型，自底向上逐层地提取从底层到高层的特征，从而建立从底层到高层语义的映射，在该层次中，高层特征通过底层特征构建，并在最后的输出层上得到关于输入图像的初始检测结果。

步骤2：将顶层回归出的分类概率分布作为顶层驱动信号，从而驱动自顶向下的注意力信号的反向传播(即初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播；所述目标类别信息代表了感兴趣区域在各个待检测类别上的概率分布，隐性地反映了每个感兴趣区域内目标地结构信息。)。这个顶层信号是感兴趣区域在各个待检测类别上的概率分布。

步骤3：Faster R-CNN的输出端上，object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后，为了进一步提升注意力地图的分辨力，本发明在Faster R-CNN中又进一步引入了对比注意力，因此，在Faster R-CNN的输出端，object with class(oc)全连接层的对偶全连接层被构建，记为其权值与oc层相反，由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布，所以，若oc层对应的概率分布是A，则它的对偶层对应的就是非A，从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元，从而提高注意力地图的分辨力。令w⁺表示object withclass层的权值，P₁为对应的转移矩阵由下式确定：

是一个归一化因子，ω_ji为权值，为输入。

P₀表示顶层的先验信号，P₂和P₃分别表示FRCN模块中两个fc层的MWP矩阵，则输入到RoI Pooling层的注意力信号的公式表述为：

步骤4：注意力的自上而下传播通常结合随机反馈连接来将高层语义映射近似为误差反向传播中的误差导数，因此，与误差梯度类似，注意力信号在不同神经层上具有不同的传输特性。i)在ReLU层中，由于每个ReLU神经元只有一个子结点，因此，自上而下的注意力信号在通过此层前后保持不变，假设父结点的先验概率为p_i，则子结点的边缘获胜概率p_j为p_j＝p_i。ii)在Max Pooling层中，由于每个patch中的最大值神经元只有一个子结点，因此，自上而下的注意力信号在通过此层前后保持不变。iii)在卷积层和全连接层中，由于每个父结点都有多个子结点，因此，这两层对底层神经元响应执行了一个仿射变换，如下式：

这里，P_i是a_j的父结点集，C_i是a_i的子结点集，是一个归一化因子，为正权值，为输入。神经层中所有p_j可以表示成如下矩阵形式：

这里，P_n-1和P_n分别表示顶层神经元和底层神经元的边缘获胜概率密度，且是一个d₁×d₂的权重矩阵，表示层与层之间的兴奋性连接权重。d₁(d₂)等于底层(顶层)神经元的个数。A_n是底层神经元的响应值。⊙和分别表示元素的点乘和点除。

步骤5：考虑到注意力地图可以有效反映输入图像上各区域与待检测目标的相关性，以及为了充分利用检测网络的信息，本发明提出将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数，用于提升目标检测的精确度，即将自底向上和自顶向下的信息结合起来用于候选框的融合。

由上可知，注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度，因此，候选框内的各点的叠加值表示候选区域为待检测目标的概率值，即与待检测目标的相关度。假设生成的注意力地图C是一个m×n的二维矩阵，单个候选框B的对角坐标为{(x₁,y₁),(x₂,y₂)}，其中(x₁,y₁)表示B的左上点坐标，(x₂,y₂)表示B的右下点坐标，F是B的前景评分，则B对应的排序参数为：

这里，注意力地图的尺寸与输入图像相同，w₁和w₂分别表示自顶向下和自底向上信息的影响因子，且这两个影响因子满足：w₁+w₂＝1。这种排序参数充分利用了网络中自底向上和自顶向下的信息，有效反映了候选区域与待检测目标的关联度，有助于提升目标检测的精确度。

步骤6：选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。

本发明将自上而下的注意力引入当前主流的目标检测框架中，生成了可反映输入图像上各区域与待检测目标相关性的注意力地图，并基于生成的注意力地图对原先的候选框融合方案进行了优化，将自顶向下以及自底向上的信息结合进候选框的融合中，优化了目标检测的性能。

附图说明

图1为本发明的流程图。

图2为具体的候选框融合优化方案。

具体实施方式

以下具体实施例是对本发明提供的方法与技术方案的进一步说明，但不应理解成对本发明的限制。

本实施例基于注意力地图的目标检测方法，具体步骤如下：

步骤3：Faster R-CNN的输出端上，object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后，为了进一步提升注意力地图的分辨力，本发明在Faster R-CNN中又进一步引入了对比注意力，因此，在Faster R-CNN的输出端，object withclass(oc)全连接层的对偶全连接层被构建，记为其权值与oc层相反，由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布，所以，若oc层对应的概率分布是A，则它的对偶层对应的就是非A，从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元，从而提高注意力地图的分辨力。令w⁺表示object withclass层的权值，P₁为对应的转移矩阵由下式确定：

是一个归一化因子，ω_ji为权值，为输入。

步骤6：选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。以上实施例的说明只是用于帮助理解本发明方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求保护范围内。

Claims

1.基于注意力地图的目标检测方法，其特征在于，该方法的具体步骤是：

步骤一：输入任意尺寸的测试图像，输入图像被送入预训练的Faster R-CNN模型，并自底向上逐层提取从底层到高层的特征，从而建立从底层特征到高层语义的映射，高层特征通过底层特征构建，并在最后的输出层上得到关于输入图像的初始检测结果；

步骤二：初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播；

步骤三：形成注意力信号的表述公式；

步骤四：注意力信号在不同神经层上进行反馈传播；

步骤五：将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数，用于提升目标检测的精确度，即将自底向上和自顶向下的信息结合用于候选框的融合。

2.如权利要求1所述基于注意力地图的目标检测方法，其特征在于，步骤三具体如下：

在Faster R-CNN的输出端上，顶层驱动信号被送入额外添加的SoftMax层用于归一化初始识别结果；后在Faster R-CNN的输出端，输出识别结果的全连接层为oc，则其对偶全连接层为其权值与oc相反，令w⁺表示识别结果输出层的权值，P₁为对应的转移矩阵，P₀表示顶层的先验信号，P₂和P₃分别表示Faster R-CNN中Fast R-CNN模块中两个全连接层的边缘获胜概率矩阵，则输入到RoI Pooling层的注意力信号的公式表述为：

3.如权利要求2所述基于注意力地图的目标检测方法，其特征在于，步骤四具体如下：

1)在ReLU层中，自上而下的注意力信号在通过此层前后保持不变，假设父结点的先验概率为p_i，则子结点的边缘获胜概率p_j为p_j＝p_i；

2)在Max Pooling层中，自上而下的注意力信号在通过此层前后保持不变；

3)在卷积层和全连接层中，所述卷积层和全连接层对底层神经元响应执行了一个仿射变换：

其中，P_i是a_j的父结点集，C_i是a_i的子结点集；是一个归一化因子，为正权值，为输入。

神经层中所有p_j表示成如下矩阵形式：

其中，P_n-1和P_n分别表示顶层神经元和底层神经元的边缘获胜概率密度，且是一个d₁×d₂的权重矩阵，表示层与层之间的兴奋性连接权重，d₁(d₂)等于底层(顶层)神经元的个数，A_n是底层神经元的响应值，⊙和分别表示元素的点乘和点除。

4.如权利要求3所述基于注意力地图的目标检测方法，其特征在于，步骤五具体如下：

注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度，因此，候选框内的各点的叠加值表示候选区域为待检测目标的概率值，即与待检测目标的相关度；当生成的注意力地图C是一个m×n的二维矩阵，单个候选框B的对角坐标为{(x₁,y₁),(x₂,y₂)}，其中(x₁,y₁)表示B的左上点坐标，(x₂,y₂)表示B的右下点坐标，F是B的前景评分，则B对应的排序参数为：

注意力地图的尺寸与输入图像相同，w₁和w₂分别表示自顶向下和自底向上信息的影响因子，且两个影响因子满足：w₁+w₂＝1。

5.如权利要求1-4任一项所述基于注意力地图的目标检测方法，其特征在于，在步骤一后，进行步骤六：选择出的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。