CN109993101A

CN109993101A - 基于多分支循环自注意力网络与循环边框回归的车辆检测方法

Info

Publication number: CN109993101A
Application number: CN201910243463.3A
Authority: CN
Inventors: 周智恒; 黄宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-07-09
Anticipated expiration: 2039-03-28
Also published as: CN109993101B

Abstract

本发明公开了一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法，包括如下步骤：构造车辆检测的主干网络；使用RPN网络预测候选框，并根据候选框提取实例特征图，循环地预测自注意力图与计算新的实例特征图得到最终的实例特征图；使用循环边框回归，根据预测出的检测框循环地选择基础网络输出的特征图；使用多分支网络结构，将上述计算网络拓展至多分支，融合多分支检测结果。本发明基于多分支循环自注意力网络与循环边框回归方法，与传统深度学习的车辆检测方法相比能获取车辆更精确的特征，提高车辆的检测框的置信度并能获得更准确的检测框，提高检测准确率。

Description

基于多分支循环自注意力网络与循环边框回归的车辆检测方法

技术领域

本发明涉及车辆检测技术领域，具体涉及一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法。

背景技术

车辆检测是辅助驾驶系统(ADAS)和自动驾驶系统(ADS)的重要组成部分。准确率更高的车辆检测算法对于自动驾驶系统和辅助驾驶系统的安全性具有重要的意义。由于深度学习的强大泛化能力和拟合能力，基于深度学习的车辆检测算法在准确率方面有着极大的提升。目前基于深度学习的车辆检测算法主要有Fast RCNN、Faster RCNN、SSD等。基于深度学习的目标检测算法中，在训练阶段，输入图像输入到卷积神经网络提取特征，匹配算法根据候选框与标签框的IoU重叠度选取一部分特征训练检测框的置信度以及位置，在推理阶段，检测算法使用所有特征来预测检测框，最后使用非极大值抑制算法(NMS)来过滤检测框以获得最后的检测结果。

由于道路环境的复杂性，车辆经常会被其他物体遮挡，包括类间遮挡和类内遮挡，在传统的深度学习目标检测算法中，选取的区域的特征通常不仅仅有本身车辆的特征，还包含了其他物体的特征。另外，传统的深度学习算法仅仅选取了一次特征或者选取了两次特征作为后续微调的特征。上述的两种缺点导致了目前的车辆检测算法选取的特征仍然不够精确，预测的检测框不够精确，准确率不高。因此目前亟待针对传统深度学习车辆检测算法对于遮挡车辆检测精度低的问题，提供一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法，所述的车辆检测方法包括下列步骤：

S1、使用卷积层、BN层、Relu层、池化层构造车辆检测的主干网络，作为图像的特征提取器；

S2、构建循环自注意力网络，用区域提名网络(Region Proposal Network，RPN)在主干网络输出的特征图上预测候选框，并输入候选框和主干网络输出的特征图到自适应池化层得到初始实例特征图，使用m×m的卷积核在实例特征图的基础上预测自注意力图，其中m为卷积核的大小，将自注意力图与初始实例特征图通过Hadamard乘积得到新的实例特征图，循环地预测自注意力图与计算新的实例特征图T次得到最后的实例特征图F_T，也就是输入主干网络输出的特征图到循环自注意力网络得到最后的实例特征图F_T；

S3、给定步骤S2中的实例特征图F_T，将实例特征图F_T作为检测子网络的输入得到输出的结果其中I为RPN网络预测的候选框个数，表示的是第k分支第j次循环中的检测子网络输出的第i₁个候选框，其中1≤k≤K，1≤j≤L,L为循环边框回归的循环次数，K为分支的个数，其中分别表示该边框的左边界、上边界、右边界、下边界的坐标和置信度，D_j，k表示的是第k分支第j次循环中的检测子网络输出的集合；

S4、使用循环边框回归，循环地选择基础网络输出的特征图中更精确的特征区域，得到更准确的边框位置和置信度，重复执行步骤S2、S3共L次得到预测结果D_L，k，并对预测结果D_L，k利用非极大值抑制(Non-Maximum Suppression，NMS)剔除冗余的检测框后得到最后的检测结果其中N_nms为经过NMS过滤检测框D_L，k后的检测框的数目，表示的是第k分支第L次循环中的NMS输出的第i₂个候选框；

S5、使用多分支网络结构，在得到基础网络输出的特征图后，重复执行步骤S2、S3、S4共K次，得到K个分支的网络；

S6、融合步骤S5中各个分支网络的检测结果，得到总的检测结果。

进一步地，所述的主干网络具体结构如下：

从输入层至输出层依次连接为：卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、池化层max_pooling1、卷积层conv2_1、BN层conv2_1_bn、Relu层conv2_1_relu、卷积层conv2_2、BN层conv2_2_bn、Relu层conv2_2_relu、池化层max_pooling2、卷积层conv3_1、BN层conv3_1_bn、Relu层conv3_1_relu、卷积层conv3_2、BN层conv3_2_bn、Relu层conv3_2_relu、卷积层conv3_3、BN层conv3_3_bn、Relu层conv3_3_relu、池化层max_pooling3、卷积层conv4_1、BN层conv4_1_bn、Relu层conv4_1_relu、卷积层conv4_2、BN层conv4_2_bn、Relu层conv4_2_relu、卷积层conv4_3、BN层conv4_3_bn、Relu层conv4_3_relu、池化层max_pooling4、卷积层conv5_1、BN层conv5_1_bn、Relu层conv5_1_relu、卷积层conv5_2、BN层conv5_2_bn、Relu层conv5_2_relu、卷积层conv5_3、BN层conv5_3_bn、Relu层conv5_3_relu、池化层max_pooling5。

进一步地，所述的步骤S2中循环地预测自注意力图与计算新的实例特征图T次得到最后的实例特征图F_T的过程如下：

S21、对步骤S1中主干网络输出的特征图，用RPN网络预测候选框，并输入候选框和步骤S1中主干网络输出的特征图到自适应池化层得到初始实例特征图，使用D_t×W_t×H_t表示循环自注意力网络中的第t张特征图，记为F_t，其中D_t,W_t,H_t分别为特征图的通道的维度、宽度、高度，t＝0时的特征图F₀表示初始实例特征图，使用D_t×W_t×H_t表示循环自注意力网络中的第t张自注意力图，记为M_t，自注意力图使用一个3x3的卷积核作用于循环自注意力网络中的特征图，并使用sigmoid激活函数得出，使用公式表示为：

其中，符号σ表示sigmoid函数，表示卷积核大小为3x3，输出通道数为D_t-1的卷积操作，例如将初始实例特征图F₀输入公式(1)将得出第一张自注意力图M₁；

S22、由自注意力图与初始实例特征图计算hadamard积得到下一级的特征图：

F_t＝F₀⊙M_t，t∈[1，T] (2)

符号表示hadamard积，F_t是循环自注意力网络的前一级特征图F_t-1与自注意力图M_t的hadamard积，F_t作为循环自注意力网络下一级的输入；

S23、循环步骤S21、S22中公式(1)、(2)共T次得到最后的特征图输出F_T。

进一步地，所述的步骤S4中的循环边框回归，具体如下：

使用步骤S3中的D_j，k代替步骤S2中的RPN网络预测的候选框，然后执行步骤S2、S3得到检测子网络预测检测结果D_j+1，k，其中，检测子网络的共享部分具体结构为：

从输入层至输出层依次连接为：卷积层conv1_subnet、BN层bn1_subnet、Relu激活层relu1_subnet、卷积层conv2_subnet、Relu激活层relu2_subnet；

检测子网络的分类部分具体结构为：从输入层至输出层依次连接为：全连接层fc_cls、softmax层；

检测子网络的边框回归部分为：全连接层fc_reg；

检测子网络的具体结构为：检测子网络的共享部分与分类部分连接组成分类器、检测子网络的共享部分与边框回归部分连接组成边框回归器；

将检测子网络的分类输出和边框回归输出输入至NMS得到检测子网络预测检测结果D_j+1，k；

其中，D_0,k表示RPN网络预测的候选框，重复执行步骤S2、S3共L次循环得到预测结果D_L，k，并对预测结果D_L，k利用NMS非极大值抑制算法剔除冗余的检测框后得到最后的检测结果其中N_nms为经过NMS过滤检测框D_L，k后的检测框的数目，表示的是第k分支第L次循环中的NMS输出的第i₂个候选框。

进一步地，所的述步骤S6中的融合步骤S5中各个分支网络的检测结果的过程如下：

S61、给定检测子网络预测的检测结果定义一个实例子集：

其中，N_all表示集合D^nms的大小，表示D^nms中第p个检测框，1≤p≤N_all，表示D^nms中第q个检测框，式(3)为每一个检测框寻找与其交并比(Intersection over Union，IoU)大于threshold的所有检测框集合；

S62、计算边框平均，给定集合计算集合内所有检测框的置信度的平均值与边框位置的平均值：

其中，集合内元素个数为N_p,符号分别表示集合内第n_p个检测框的左边界、上边界、右边界和下边界的坐标和置信度，c_p表示的是集合平均后的检测框的左边界、上边界、右边界和下边界的坐标和置信度。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明通过循环自注意力网络，循环地调整自注意力图，排除遮挡物体的干扰，获取更加精确的定位特征；

(2)本发明通过循环边框回归，实现多级选取特征，使得检测器能够获取车辆更加完整的特征，提高检测框的置信度并能够获得更为准确的检测框；

(3)本发明通过多分支网络，融合多个检测器结果，提高车辆检测框的置信度并能够获得更为准确的检测框，提高检测准确率。

附图说明

图1是本发明中循环自注意力网络示意图；

图2是本发明中循环边框回归流程图；

图3是本发明中多分支网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法，具体包括下列步骤：

步骤S1、使用卷积层、BN层、Relu层、池化层构造车辆检测的主干网络，作为图像的特征提取器，主干网络具体结构如下：

步骤S2、注意力机制是通过选择性地关注特征图中对结果有利的信息从而减少背景信息的干扰，传统的自注意力机制因为仅仅预测一次注意力图往往不够精确，而循环自注意力网络通过多次预测自注意力图来获取主干网络输出的特征图中更准确的信息，是一种由粗到细的过程。如图1所示，用区域提名网络(Region Proposal Network，RPN)在主干网络输出的特征图上预测候选框，并输入候选框和主干网络输出的特征图到自适应池化层得到初始实例特征图，使用mxm的卷积核在实例特征图的基础上预测自注意力图，其中m为卷积核的大小，在本实例中取m＝3。自注意力图与初始实例特征图通过Hadamard乘积得到新的实例特征图，循环地预测自注意力图与计算新的实例特征图T次得到最后的实例特征图F_T，本实施例中取T＝2，但是该T的取值不构成对本发明技术方案的限制。具体过程如下：

S21、对S1中主干网络输出的特征图，用RPN网络预测候选框，并输入候选框和步骤S1中主干网络输出的特征图到自适应池化层得到初始实例特征图。本发明使用D_t×W_t×H_t表示循环自注意力网络中的第t张特征图，记为F_t，其中D_t,W_t,H_t分别为特征图的通道的维度、宽度、高度。特别地，t＝0时的特征图F₀表示初始实例特征图。本发明使用D_t×W_t×H_t表示循环自注意力网络中的第t张自注意力图，记为M_t。自注意力图使用一个3x3的卷积核作用于循环自注意力网络中的特征图，并使用sigmoid激活函数得出，使用公式表示为：

其中，符号σ表示sigmoid函数，表示卷积核大小为3x3，输出通道数为D_t-1的卷积操作，例如将初始实例特征图F₀输入公式(1)将得出第一张自注意力图M₁。

S22、下一级的特征图由自注意力图与初始实例特征图计算hadamard积得到：

F_t＝F₀⊙M_t，t∈[1，T] (2)

符号表示hadamard积，F_t是循环自注意力网络的前一级特征图F_t-1与自注意力图M_t的hadamard积。F_t作为循环自注意力网络下一级的输入。

S23、循环地利用公式(1)、(2)2次得到最后的特征图输出F_T。

步骤S3、

给定步骤S2中的实例特征图F_T，将实例特征图F_T作为检测子网络的输入得到输出的结果其中I为RPN网络预测的候选框个数，表示的是第k分支第j次循环中的检测子网络输出的第i₁个候选框，其中1≤k≤K，1≤j≤L,L为循环边框回归的循环次数，K为分支的个数，其中分别表示该边框的左边界、上边界、右边界、下边界的坐标和置信度，D_j，k表示的是第k分支第j次循环中的检测子网络输出的集合，本发明中取L＝2,K＝3。

步骤S4、如图2所示，使用循环边框回归，循环地选择基础网络输出的特征图中更加精确的特征区域，得到更加准确的边框位置和置信度。传统的检测算法只预测一次或者两次，本发明中通过多次选择特征图来达到更精确的边框位置和更高的置信度。使用步骤S3中的D_j，k代替S2中的RPN网络预测的候选框，执行步骤S2、S3得到检测子网络预测检测结果D_j+1，k。

其中，检测子网络的共享部分具体结构为：

检测子网络的边框回归部分为：全连接层fc_reg；

将检测子网络的分类输出和边框回归输出输入至NMS得到检测子网络预测检测结果D_j+1，k。

特别地，j＝0时的D_0,k表示RPN网络预测的候选框。重复执行步骤S2、S3L次循环得到预测结果D_L，k，并对预测结果D_L，k，利用NMS非极大值抑制算法剔除冗余的检测框后得到最后的检测结果

其中N_nms为经过NMS过滤检测框D_L，k后的检测框的数目，表示的是第k分支第L次循环中的NMS输出的第i₂个候选框。

步骤S5、如图3所示，使用多分支网络结构，在得到步骤S1中基础网络输出的特征图后，执行步骤S2、S3、S4共K次，得到K个分支的网络。不同于传统的检测方法，使用K分支结果的融合能够降低单分支预测带来的方差，检测结果更为鲁棒。

步骤S6、融合重复S5中各个分支网络的检测结果，得到总的检测结果。具体过程如下：

S61、给定检测子网络预测的检测结果定义一个实例子集：

其中，N_all表示集合D^nms的大小，表示D^nms中第p个检测框，1≤p≤N_all，表示D^nms中第q个检测框，式(3)为每一个检测框寻找与其交并比(Intersection over Union，IoU)大于threshold的所有检测框集合。在本发明中取threshold＝0.7。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多分支循环自注意力网络与循环边框回归的车辆检测方法，其特征在于，所述的车辆检测方法包括下列步骤：

S2、构建循环自注意力网络，用区域提名网络RPN在主干网络输出的特征图上预测候选框，并输入候选框和主干网络输出的特征图到自适应池化层得到初始实例特征图，使用m×m的卷积核在实例特征图的基础上预测自注意力图，其中m为卷积核的大小，将自注意力图与初始实例特征图通过Hadamard乘积得到新的实例特征图，循环地预测自注意力图与计算新的实例特征图T次得到最后的实例特征图F_T，也就是输入主干网络输出的特征图到循环自注意力网络得到最后的实例特征图F_T；

S3、给定步骤S2中的实例特征图F_T，将实例特征图F_T作为检测子网络的输入得到输出的结果其中I为区域提名网络RPN预测的候选框个数，表示的是第k分支第j次循环中的检测子网络输出的第i₁个候选框，其中1≤k≤K，1≤j≤L,L为循环边框回归的循环次数，K为分支的个数，其中分别表示该边框的左边界、上边界、右边界、下边界的坐标和置信度，D_j,k表示的是第k分支第j次循环中的检测子网络输出的集合；

S4、使用循环边框回归，循环地选择基础网络输出的特征图中更精确的特征区域，得到更准确的边框位置和置信度，重复执行步骤S2、S3共L次得到预测结果D_L,k，并对预测结果D_L,k利用非极大值抑制NMS剔除冗余的检测框后得到最后的检测结果其中N_nms为经过NMS过滤检测框D_L,k后的检测框的数目，表示的是第k分支第L次循环中的NMS输出的第i₂个候选框；

2.根据权利要求1所述的基于多分支循环自注意力网络与循环边框回归的车辆检测方法，其特征在于，所述的主干网络具体结构如下：

3.根据权利要求1所述的基于多分支循环自注意力网络与循环边框回归的车辆检测方法，其特征在于，所述的步骤S2中循环地预测自注意力图与计算新的实例特征图T次得到最后的实例特征图F_T的过程如下：

F_t＝F₀⊙M_t,t∈[1,T] (2)

符号⊙表示hadamard积，F_t是循环自注意力网络的前一级特征图F_t-1与自注意力图M_t的hadamard积，F_t作为循环自注意力网络下一级的输入；

4.根据权利要求1所述的基于多分支循环自注意力网络与循环边框回归的车辆检测方法，其特征在于，所述的步骤S4中的循环边框回归，具体如下：

使用步骤S3中的D_j,k代替步骤S2中的RPN网络预测的候选框，然后执行步骤S2、S3得到检测子网络预测检测结果D_j+1,k，其中，检测子网络的共享部分具体结构为：

检测子网络的边框回归部分为：全连接层fc_reg；

将检测子网络的分类输出和边框回归输出输入至NMS得到检测子网络预测检测结果D_j+1,k；

其中，D_0,k表示RPN网络预测的候选框，重复执行步骤S2、S3共L次循环得到预测结果D_L,k，并对预测结果D_L,k利用NMS非极大值抑制算法剔除冗余的检测框后得到最后的检测结果其中N_nms为经过NMS过滤检测框D_L,k后的检测框的数目，表示的是第k分支第L次循环中的NMS输出的第i₂个候选框。

5.根据权利要求1所述的基于多分支循环自注意力网络与循环边框回归的车辆检测方法，其特征在于，所的述步骤S6中的融合步骤S5中各个分支网络的检测结果的过程如下：

S61、给定检测子网络预测的检测结果定义一个实例子集：

其中，N_all表示集合D^nms的大小，表示D^nms中第p个检测框，1≤p≤N_all，表示D^nms中第q个检测框，式(3)为每一个检测框寻找与其交并比IoU大于threshold的所有检测框集合；