CN111898617B

CN111898617B - 基于注意力机制与并行空洞卷积网络的目标检测方法、系统

Info

Publication number: CN111898617B
Application number: CN202010602814.8A
Authority: CN
Inventors: 韩光; 朱梦成; 刘耀明; 艾岳川
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-07-26
Anticipated expiration: 2040-06-29
Also published as: CN111898617A

Abstract

本发明公开了一种基于注意力机制与并行空洞卷积网络的目标检测方法、系统，包括以下步骤：提取目标图像信息中的高层特征，生成语义信息特征图；基于语义信息特征图生成细化语义信息特征图；提取目标图像信息中的低层特征，生成细粒度信息特征图；将细粒度信息特征图与细化语义信息特征图通过空间注意力网络细化后生成细化细粒度信息特征图；将细化细粒度信息特征图进行反卷积，并将细化细粒度信息特征图与细化语义信息特征图线性融合，得到细粒度语义特征图；将细粒度语义特征图导入并行空洞卷积网络得到感受野特征图，对感受野特征图进行目标检测框的分类和定位。本发明避免了损失像素信息；更有效、有利于提取语义信息；提高目标召回率和检测准确率。

Description

基于注意力机制与并行空洞卷积网络的目标检测方法、系统

技术领域

本发明涉及一种目标检测方法、系统，尤其涉及一种基于注意力机制与并行空洞卷积网络的目标检测方法、系统，属于计算机视觉技术领域。

背景技术

目标检测是计算机视觉和图像处理学科中的一大重要研究领域，包含目标分类和目标定位两个任务，是很多模式识别任务的基础。自Hinton教授提出深度学习理论，越来越多的研究学者尝试采用深度学习理念来解决目标检测问题。伴随着近些年来深度学习领域的飞速发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。基于深度学习的目标检测也取得了多项重大突破，各种经典的目标检测算法被相继提出，成为了目标检测领域的主流算法。如今目标检测技术被广泛地应用于各个领域中，比如，人脸识别、AI医疗、自动驾驶和智能视频监控等。

但是目前主流的目标检测算法如R-CNN系列算法、YOLO系列算法以及SSD系列算法都存在一个问题，即对目标的尺度变化范围很敏感，对尺度变化范围较大的检测目标鲁棒性较差，尤其是对小目标的检测效果差。

发明内容

本发明的目的在于克服现有技术中的目标检测方法对小目标的检测效果差的不足，提供一种基于注意力机制与并行空洞卷积网络的目标检测方法，技术方案如下：

一种基于注意力机制与并行空洞卷积网络的目标检测方法，包括以下步骤：

提取待测目标图像信息中的高层特征，将高层特征中的多尺度下的多个高层特征图进行融合，生成语义信息特征图；

基于语义信息特征图生成细化语义信息特征图；

提取待测目标图像信息中的低层特征，将低层特征中的多个低层特征图进行融合，生成细粒度信息特征图；

将细化语义信息特征图与细粒度信息特征图通过空间注意力网络细化后生成细化细粒度信息特征图；

将细化细粒度信息特征图的尺寸与细化语义信息特征图保持相同，并将细化细粒度信息特征图与细化语义信息特征图线性融合，得到细粒度语义融合特征图；将细粒度语义融合特征图导入并行空洞卷积网络得到并行空洞卷积网络中每个分支的感受野特征图，对感受野特征图进行目标检测框的分类和定位。

一种基于注意力机制与并行空洞卷积网络的目标检测系统，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现前述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明的目标检测方法，引入了空间注意力网络对低层特征提取对于小目标检测更有效的边缘等信息，避免了损失像素信息等特征信息；引入通道注意力网络对高层特征的提取更有效、有利于提取目标分类的语义信息；以及具有不同感受野大小的并行空洞卷积网络更容易匹配到目标信息，提高目标的召回率，进而提高了目标检测的准确率。

附图说明

图1为本发明的基于注意力机制与并行空洞卷积网络的目标检测方法的网络流程图；

图2为本发明的并行空洞卷积网络结构图；

图3为本发明的通道注意力网络结构图；

图4为本发明的空间注意力网络结构图；

图中，1-高层特征图，2-语义信息特征图，3-细化语义信息特征图，4-低层特征图，5-细粒度信息特征图，6-细化细粒度信息特征图，7-细粒度语义特征图，8-感受野特征图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

相关术语解释

非极大值抑制：英文全称为“Non-maximum suppression”，简称“NMS”。

实施例1

如图1至图4所示，一种基于注意力机制与并行空洞卷积网络的目标检测方法，包括以下步骤：

步骤1，以SSD算法为基础，提取Conv8_2、Conv9_2和Conv10_2三个高层特征图1，高层特征具有良好的语义信息，有利于目标的分类；将三个高层特征图1进行融合，生成高度抽象的语义信息特征图2，以获取良好的多尺度的语义信息。SSD算法的卷积神经网络中的高层特征具有较为抽象的语义信息，这些语义信息有利于前景目标的分类。具体过程为：三个高层特征图尺寸分别为10×10，5×5和3×3，为不同尺度的特征图。将Conv9_2和Conv10_2的两个特征图尺寸反卷积成Conv8_2的特征图大小，并将Conv9_2和Conv10_2反卷积后的特征图与Conv8_2特征图沿通道方向进行堆叠，再将得到的特征图通过卷积核为1×1的卷积层进行融合，生成语义信息特征图2，语义信息特征图2具有良好的语义信息，语义信息特征图2的尺寸为10×10。

步骤2，将步骤1得到的语义信息特征图2作为通道注意力网络的输入，给予激活响应较大的通道分配更多的权重，生成语义信息丰富的细化语义信息特征图3。

其中，通道注意力网络分为上下两个支路，上支路将输入的语义信息特征图2(即通过Conv8_2、Conv9_2和Conv10_2三个高层特征图1进行融合后生成的语义信息特征图2)通过一次全局池化，再通过全连接层和Relu激活层，然后通过全连接层和Sigmoid激活层，最后得到特征向量，Sigmoid激活层将特征向量中的加权值映射到[0,1]范围内，给予激活响应较大的通道分配更多的权重。在下支路中将步骤1得到的语义信息特征图2作为输入。用上分支生成的特征向量对下分支输入的语义信息特征图2的恒等映射沿通道方向进行特征加权，生成细化语义信息特征图3。细化语义信息特征图3的尺寸为10×10。

步骤3，以SSD算法为基础，选取Conv4_3和Conv7两个低层特征图4，这两个特征图尺寸分别为38×38和19×19。卷积神经网络中的低层特征提取和保留了感兴趣目标的较多且较为丰富的边缘、纹理等细粒度特征信息。Conv4_3和Conv7低层特征图4中的这些细粒度特征信息有利于小目标的检测和定位尤为重要。将Conv7的特征图尺寸反卷积成Conv4_3的特征图大小，并将Conv7反卷积后得到的特征图与Conv4_3特征图沿通道方向堆叠，再将得到的特征图通过卷积核为1×1的卷积层进行线性融合，生成细粒度信息特征图5，细粒度信息特征图5的尺寸为38×38。细粒度信息特征图5具有丰富的边缘等细节信息，提取有利于小目标检测的特征信息。

步骤4，将步骤2得到的细化语义信息特征图3和步骤3得到的细粒度信息特征图5一并导入空间注意力网络，生成细化细粒度信息特征图6，从而进一步细化目标区域的特征信息，生成含有更有效细节信息的目标预测特征。

本实施例中的空间注意力网络分为上下两个支路。上支路输入为步骤2得到的细化语义信息特征图3，，将细化语义信息特征图3分别通过两个相同的分支路，每个分支路中的卷积层采用非对称卷积，可以在增加感受野和获取全局信息的同时不增加参数。本实施例中，每个分支路是卷积核大小为k×1和1×k的卷积层级联，用以捕捉空间信息，将两个分支路生成的特征图进行对应像素点相加操作，并通过Sigmoid激活函数将空间特征图编码映射到[0,1]范围内，本实施例中的空间特征图主要包含的是空间结构特征信息，生成最终特征图。下支路输入为步骤3得到的细粒度信息特征图5。用上支路生成的最终特征图对下支路输入的细粒度信息特征图5进行特征加权，生成细化细粒度特征图6，其尺寸为38×38。

本发明在SSD算法的基础上，利用不同特征层的特征信息来对目标进行检测。本发明通过对低层特征采用空间注意力机制和对高层特征采用通道注意力机制，进一步细化目标区域的特征信息，生成有效的目标特征，并且对于语义信息较为丰富的高层特征图1，给予激活响应较大的通道分配更多的权重，提高算法的目标分类能力。

步骤5，将细化细粒度信息特征图6的尺寸反卷积成与细化语义信息特征图3的大小相同，再将反卷积后的细化细粒度信息特征图6和细化语义信息特征图3两个特征图进行线性融合，生成细粒度语义特征图7，细粒度语义特征图7的特征图尺寸为38×38。将细粒度语义特征图7导入并行空洞卷积网络，生成感受野特征图。本实施例中的并行空洞卷积网络具有3个除了扩张率不同之外完全一样的分支，即每个分支对应到原图(本实施例中原图是指网络的输入图像，也就是原始图像。)的感受野不同。从上到下的扩张率依次从小到大分别为1、2、3，分别用于检测小、中、大目标，同时三个分支共享权值。另外在并行空洞卷积网络训练的过程中，采用了尺度感知的策略，在训练的过程中，每一个分支i定义了一个有效区域[l_i,u_i]，在训练过程中只选择那些目标框落在相应有效区间的分支。对于一个宽为w，高为h的目标框来说，若目标框的宽高和分支i的有效区域[l_i,u_i]满足不等式

则判定该目标框落在分支i上。从而让感受野小的分支训练小尺度的目标，感受野大的分支训练大尺度的目标，就是将所有的目标按照尺度大小的不同分配到不同的分支上，得到感受野特征图8。各个分支分别训练不同尺度的目标，以提高各分支的尺度感知能力，避免在不匹配的分支上出现极端尺度的训练对象。本发明中采用的并行空洞卷积网络具有三个扩张率不同的分支，检测精度高，且不会因为权重参数量太大而导致精度提升极其微小的问题。并行空洞卷积网络，有助于检测不同尺寸的目标，提高检测模型对目标多尺度变化的鲁棒性，降低目标尺度变化对检测精度的影响。

最后分别对并行空洞卷积网络中的每个分支得到的感受野特征图8进行目标检测框的分类和定位。具体是分别对三个分支生成的感受野特征图8进行卷积核大小为1×1和3×3的卷积来对目标进行分类和定位，并将三个分支得到的预测框通过非极大值抑制(NMS)得到最终的检测结果。最终检测结果指的是在图像中检测到的目标，使用方框将检测到的目标框起来。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，包括以下步骤：

提取待测目标图像信息中的高层特征，将所述高层特征中的多尺度下的多个高层特征图(1)进行融合，生成语义信息特征图(2)；

基于所述语义信息特征图(2)生成细化语义信息特征图(3)；

提取待测目标图像信息中的低层特征，将所述低层特征中的多个低层特征图(4)进行融合，生成细粒度信息特征图(5)；

将所述细化语义信息特征图(3)与细粒度信息特征图(5)通过空间注意力网络细化后生成细化细粒度信息特征图(6)；

将所述细化细粒度信息特征图(6)进行反卷积，并将所述细化细粒度信息特征图(6)与所述细化语义信息特征图(3)线性融合，得到含有细化细粒度信息和语义信息的细粒度语义特征图(7)，将所述细粒度语义特征图(7)导入并行空洞卷积网络得到所述并行空洞卷积网络中每个分支的感受野特征图(8)，对所述感受野特征图(8)进行目标检测框的分类和定位。

2.根据权利要求1所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，所述待测目标的图像信息中的高层特征通过SSD算法的卷积神经网络获得。

3.根据权利要求2所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，基于SSD算法，选取Conv8_2、Conv9_2和Conv10_2三个高层特征图(1)，将Conv9_2和Conv10_2的两个特征图尺寸反卷积成Conv8_2的特征图尺寸大小，将反卷积后的Conv9_2和Conv10_2特征图与Conv8_2特征图沿通道方向进行堆叠，通过卷积操作进行特征融合，生成语义信息特征图(2)。

4.根据权利要求1所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，所述语义信息特征图(2)通过通道注意力网络生成细化语义信息特征图(3)，所述通道注意力网络包括上支路、下支路，

所述上支路将语义信息特征图(2)通过一次全局池化，再通过全连接层和Relu激活层，然后通过全连接层和Sigmoid激活层，最后得到特征向量；

所述下支路将语义信息特征图(2)作为输入；

采用所述上支路生成的所述特征向量对所述下支路输入的语义信息特征图(2)进行恒等映射沿通道方向进行加权，输出生成细化语义信息特征图(3)。

5.根据权利要求1所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，所述待测目标的图像信息中的低层特征通过SSD算法的卷积神经网络获得。

6.根据权利要求5所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，基于SSD算法，选取Conv4_3和Conv7两个低层特征图(4)，将Conv7的特征图尺寸反卷积成Conv4_3的特征图尺寸大小，将反卷积后得到的Conv7特征图与Conv4_3特征图沿通道方向堆叠，通过卷积操作进行融合，生成细粒度信息特征图(5)。

7.根据权利要求1所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，

将细粒度信息特征图(5)和所述细化语义信息特征图(3)导入所述空间注意力网络，所述空间注意力网络包括上支路、下支路，

将所述细化语义信息特征图(3)作为所述空间注意力网络的上支路的输入，分别将所述细化语义信息特征图(3)通过所述空间注意力网络的上支路的两个相同的分支路；将两个所述分支路生成的特征图进行对应元素相加操作，通过一次Sigmoid激活层对其相加操作后的特征图进行编码获得最终特征图；

将所述细粒度信息特征图(5)作为所述空间注意力网络的下支路的输入；

采用上支路生成的所述最终特征图对所述下支路的输入的所述细粒度信息特征图(5)进行加权生成细化细粒度信息特征图(6)。

8.根据权利要求1所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，

将所述细化细粒度信息特征图(6)的特征图尺寸反卷积成所述细化语义信息特征图(3)的大小，并将所述细化细粒度信息特征图(6)与所述细化语义信息特征图(3)进行线性融合得到细化细粒度信息和细化语义信息的细粒度语义特征图(7)，将所述细粒度语义特征图(7)导入并行空洞卷积网络，得到所述并行空洞卷积网络中每个分支的感受野特征图(8)；最后分别对并行空洞卷积网络中的每个分支得到的所述感受野特征图(8)进行目标检测框的分类和定位得到预测框，并将各分支得到的预测框通过非极大值抑制得到最终的检测结果。

9.根据权利要求8所述的一种基于注意力机制与并行空洞卷积网络的目标检测方法，其特征在于，所述并行空洞卷积网络具有三个扩张率不同的分支，三个分支共享权值。

10.一种基于注意力机制与并行空洞卷积网络的目标检测系统，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现权利要求1～9中任一项所述的方法的步骤。