CN111814621A

CN111814621A - 一种基于注意力机制的多尺度车辆行人检测方法及装置

Info

Publication number: CN111814621A
Application number: CN202010602508.4A
Authority: CN
Inventors: 孔斌; 李经宇; 杨静; 王灿
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-23
Anticipated expiration: 2040-06-29
Also published as: CN111814621B

Abstract

本发明公开了一种基于注意力机制的多尺度车辆行人检测方法及装置，所述方法包括：构建SPP⁺模块；将SPP⁺模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间，形成YOLOv3‑SPP⁺网络；在YOLOv3‑SPP⁺网络的三个检测头之后加入PAN模块，形成YOLOv3‑SPP⁺‑PAN网络；在YOLOv3‑SPP⁺‑PAN网络中YOLOv3网络的卷积层53层之后添加SE模块，形成SE‑YOLOv3‑SPP⁺‑PAN网络；本发明的优点在于：适用于多尺度车辆行人检测，且小目标检测性能提升。

Description

一种基于注意力机制的多尺度车辆行人检测方法及装置

技术领域

本发明涉及计算机视觉以及车辆行人检测领域，更具体涉及一种基于注意力机制的多尺度车辆行人检测方法及装置。

背景技术

车辆行人检测是智能交通系统中一个不可或缺的重要环节，而随着近些年来深度学习的发展和应用，基于深度学习的目标检测网络应运而生。基于深度学习的目标检测框架主要分为两类：1.两级检测器如fast-RCNN,faster-RCNN；2.一级检测器如YOLO，SSD。两级检测器首先在图像中生成候选区域，随后在候选区域提取特征，然后使用区域分类器预测候选区域的类别。一级检测器直接在特征图的每个位置对目标进行分类预测，无需级联区域分类步骤。一级检测器则显著提高了时间效率，并且对实时对象具有更大的适用性，网络的实时性对自动驾驶实际需求尤为重要。Yolo算法采用一个单独的CNN模型实现端对端的目标检测，首先将输入图片调整到448x448，然后送入CNN网络，最后处理网络预测结果得到检测的目标。

现有的车辆行人检测YOLOv3算法的多尺度预测侧重于将多尺度卷积层的全局特征串联起来，而忽略了同一卷积层上多尺度局部特征的融合。其次，对于卷积神经网络而言，不同深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征；深层网络分辨率低，学的更多是语义特征，信息融合路径长，丢失了位置信息导致小目标检测性能下降。

中国专利申请号CN201911013341.1，公开了一种基于YOLOv3的轻量级框架改进的目标识别方法，通过将YOLOv3的轻量级版本YOLOv3-tiny和SENet相结合得到YOLOv3-tiny-SE来进行目标检测和识别。具体包括：在不同的路况、行车环境和天气条件下进行车辆、行人和交通环境图片的采集，对采集到的数据进行预处理以及数据增强，制作并完善目标识别样本集，对样本集进行标注，然后将样本集分为训练集和测试集两部分，在YOLOv3-tiny中嵌入SENet结构，得到YOLOv3-tiny-SE，在训练集上训练YOLOv3-tiny-SE，在测试集上测试YOLOv3-tiny-SE，然后和YOLOv3-tiny性能进行比较。该发明申请提出的目标识别方法泛化能力强，且可以加快目标检测速度、提高小目标检测的准确率、提高模型参数对噪声的鲁棒性。但是其忽略了同一卷积层上多尺度局部特征的融合，不适用于多尺度车辆行人检测，并且没有解决YOLOv3网络信息融合路径长，易丢失位置信息导致小目标检测性能下降的问题。

发明内容

本发明所要解决的技术问题在于现有技术的车辆行人检测方法及装置不适用于多尺度车辆行人检测，且易导致小目标检测性能下降的问题。

本发明通过以下技术手段实现解决上述技术问题的：一种基于注意力机制的多尺度车辆行人检测方法，所述方法包括：

构建SPP⁺模块；

将SPP⁺模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间，形成YOLOv3-SPP⁺网络；

在YOLOv3-SPP⁺网络的三个检测头之后加入PAN模块，形成YOLOv3-SPP⁺-PAN网络；

在YOLOv3-SPP⁺-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块，形成SE-YOLOv3-SPP⁺-PAN网络；

构建损失函数并训练SE-YOLOv3-SPP⁺-PAN网络，当损失函数值最小时停止训练；利用训练好的SE-YOLOv3-SPP⁺-PAN网络进行车辆行人检测。

本发明构建SPP⁺模块，将其引入到YOLOv3网络中，对多尺度局部区域特征进行池化合并，然后将全局和局部多尺度特征结合起来提高目标检测的精度，适用于多尺度车辆行人检测，同时，在YOLOv3-SPP⁺网络基础上，添加PAN模块来构成YOLOv3-SPP⁺-PAN网络，利用PAN模块缩短信息融合的路径，利用低层特征中存储的精确定位信号，提升特征金字塔架构，提升小目标检测性能。

进一步地，所述SPP⁺模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。

进一步地，YOLOv3采用Darknet-53作为特征提取器，在三个不同尺度的特征图上分别建立三个检测头，检测头的最终结果张量为N×N×(3×(4+1+C))，其中N×N表示最后卷积特征图的空间大小，其中，C表示类别的个数。

进一步地，所述SE模块的参数reduction设置为16。

进一步地，构建损失函数的过程包括：

通过公式

获取定位损失，其中，lbox表示定位损失，S表示栅格的尺寸，B代表锚框，

表示如果在某处的栅格有目标，其值为1，否则为0。w_i，h_i分别代表锚框的宽和高，x_i和y_i分别代表中心点所处区域的左上角坐标；

通过公式

获取分类损失lcls，其中，p_i(c)表示物体属于c类别的概率，classes表示类别集合；

通过公式

获取置信度损失lobj，其中，

表示如果在某处的栅格没有目标，其值为0，否则为1；

通过公式loss＝lbox+lobj+lcls构建损失函数，其中，loss表示总的损失函数值。

进一步地，所述训练SE-YOLOv3-SPP⁺-PAN网络的过程包括：

将darknet53的激活函数替换为swish激活函数，动量为0.9，衰减为0.0005，批次大小为64，初始学习率为0.00261，第900和950代的学习率分别降低到原来的0.1倍，利用Adam优化器自动更新参数，不断训练，直到损失函数值最小时停止训练。

本发明还提供一种基于注意力机制的多尺度车辆行人检测装置，所述装置包括：

SPP⁺模块构建模块，用来构建SPP⁺模块；

YOLOv3-SPP⁺网络形成模块，用来将SPP⁺模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间，形成YOLOv3-SPP⁺网络；

YOLOv3-SPP⁺-PAN网络形成模块，用来在YOLOv3-SPP⁺网络的三个检测头之后加入PAN模块，形成YOLOv3-SPP⁺-PAN网络；

SE-YOLOv3-SPP⁺-PAN网络形成模块，用来在YOLOv3-SPP⁺-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块，形成SE-YOLOv3-SPP⁺-PAN网络；

损失函数构建模块，用来构建损失函数并训练SE-YOLOv3-SPP⁺-PAN网络，当损失函数值最小时停止训练；

车辆行人检测模块，利用训练好的SE-YOLOv3-SPP⁺-PAN网络进行车辆行人检测。

进一步地，所述SE模块的参数reduction设置为16。

进一步地，损失函数构建模块还用于：

通过公式

通过公式

通过公式

获取置信度损失lobj，其中，

表示如果在某处的栅格没有目标，其值为0，否则为1；

进一步地，所述训练SE-YOLOv3-SPP⁺-PAN网络的过程包括：

本发明的优点在于：

(1)本发明构建SPP⁺模块，将其引入到YOLOv3网络中，对多尺度局部区域特征进行池化合并，然后将全局和局部多尺度特征结合起来提高目标检测的精度，适用于多尺度车辆行人检测，同时，在YOLOv3-SPP⁺网络基础上，添加PAN模块来构成YOLOv3-SPP⁺-PAN网络，利用PAN模块缩短信息融合的路径，利用低层特征中存储的精确定位信号，提升特征金字塔架构，提升小目标检测性能。

(2)为了提高车辆行人的检测性能，使网络更加专注于车辆与行人检测，在YOLOv3-SPP⁺-PAN网络基础上嵌入SE注意力机制模块。

附图说明

图1为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中SPP⁺模块嵌入YOLOv3网络的示意图；

图2为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中FPN工作原理示意图；

图3为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中PAN模块嵌入YOLOv3-SPP⁺网络的示意图；

图4为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中SE模块嵌入YOLOv3-SPP⁺-PAN网络的示意图；

图5为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中SE-YOLOv3-SPP⁺-PAN网络示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

Yolo算法属于现有技术算法，其采用一个单独的CNN模型实现end-to-end(端对端)的目标检测，首先将输入图片resize到448x448，然后送入CNN网络，最后处理网络预测结果得到检测的目标。其速度更快，而且Yolo的训练过程也是端到端的。与滑动窗口不同的是，yolo先将图片分成S*S个块。每个单元格会预测B个边界框(bounding box)以及边界框的置信度(confidence score)。所谓置信度其实包含两个方面，一是这个框中目标存在的可能性大小，二是这个边界框的位置准确度。

例如将输入图像划分为S×S网格，每个网格预测K个包围框，包围框包含对象的置信真值

和对目标属于C类的条件概率Pr(Class_i|Object)；

是预测值和真值相结合的交集。因此，每个包围框特定类的置信度是：

公式(1)表示预测框与真值之间的重合度以及对象属于每个类的概率。

对于Yolo算法原理过程可以参考文章《Yolo算法--从原理到实现(一)》，原文链接https://blog.csdn.net/Dongjiuqing/java/article/details/84763430。其中，对于YOLOv3网络也有介绍。

YOLOv3网络也属于现有技术，关于YOLOv3网络属于本领域公知常识，在此不做过多赘述，简单介绍其原理。YOLOv3网络采用Darknet-53作为特征提取器。其次，YOLOv3遵循特征金字塔网络的思想，在三种不同的尺度上预测边界盒。在三个不同尺度的特征图上分别建立三个检测头，负责检测不同尺度的目标。检测头中的每个网格被分配了三个不同的锚，从而预测由4个边界框偏移、1个目标和C个类别预测组成的三个检测。检测头的最终结果张量为N×N×(3×(4+1+C))，其中N×N表示最后卷积特征图的空间大小。

本发明是在YOLOv3网络基础上添加SPP⁺模块、PAN模块以及SE模块，最终构建SE-YOLOv3-SPP⁺-PAN网络，其中，PAN模块以及SE模块为现有技术的算法模块，SPP⁺模块是基于现有技术的SPP模块进行架构改进得到的，以下详细介绍本申请的技术方案。

一种基于注意力机制的多尺度车辆行人检测方法，所述方法包括：

如图1所示，以YOLOv3为基础网络，针对无人驾驶实际场景问题，对网络进行改进。为了应对无人驾驶场景中尺度变化大问题。在此，通过融合不同尺度特征图和不同接收视野的信息的方法，提高多尺度检测的准确性。YOLOv3的多尺度预测侧重于将多尺度卷积层的全局特征串联起来，而忽略了同一卷积层上多尺度局部特征的融合。因此，SPP(金字塔池化)模块引入到YOLOv3中，对多尺度局部区域特征进行池化合并，然后将全局和局部多尺度特征结合起来提高目标检测的精度。本发明构建SPP+模块，SPP⁺模块由内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层组成，将SPP⁺模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间，形成YOLOv3-SPP⁺网络。图1中Convolutionallayer表示卷积层，卷积层前面的数字表示卷积层大小，Maxpool表示内核，内核后面的数字表示内核大小，module表示模块。改进的SPP⁺模块优点如下：改进的SPP⁺相比于原始SPP模块能够提取更多具有不同感受野的多尺度深度特征，并通过在特征映射的通道维度上拼接来融合。另外，改进的SPP⁺在同一层中获得的多尺度特征进一步提高YOLOv3的检测精度，且计算量小。

表1比较了YOLOv3以及YOLOv3-SPP⁺的模型复杂度，并比较了模型在KITTI数据集上的检测精度和速度。如表1所示，YOLOv3-SPP+在KITTI数据集上的目标检测精度为84.6％，比YOLOv3高0.6％。与YOLOv3相比，YOLOv3-SPP+的检测速度仅降低了约1.6fps，说明YOLOv3-SPP⁺仍具有较快的检测速度。

表1 YOLOv3,YOLOv3-SPP+比较

在已有YOLOv3-SPP⁺网络基础上，进一步优化网络，对于卷积神经网络而言，不同深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征；深层网络分辨率低，学的更多是语义特征，丢失了位置信息导致小目标检测性能下降。如图2所示，FPN(特征金字塔，Feature Pyramid Networks)提出不同分辨率特征融合的方式，即每个分辨率的特征图和上采样的低分辨率特征相加，使得不同层次的特征增强，由于此方式只在网络基础上做跨层连接和相加，增加计算量较少，同时性能改善卓越。FPN的低层次的特征对应大型目标，而高层级特征与低层级别特征之间路径较长，增加访问准确定位信息的难度。为了缩短信息路径和用低层级的准确定位信息增强特征金字塔，PAN模块在FPN基础上创建了自上而下的路径增强，用于缩短信息径，利用低层特征中存储的精确定位信号，提升特征金字塔架构。

如图3所示，在YOLOv3-SPP⁺网络的三个检测头之后加入PAN模块，形成YOLOv3-SPP⁺-PAN网络；如图2所示，×2，×4，×8，×16，×32分别表示主干网络darknet-53的2倍，4倍，8倍，16倍与32倍下采样。YOLOv3三个检测头为图2中的P4，P5，P6。图中，N2、N4、N6组成PAN模块，通过添加PAN模块，YOLOv3-SPP⁺-PAN网络输出为N4对应的检测头1，N5对应的检测头2以及N6对应的检测头3，有效缩短信息融合的路径。

表2比较了YOLOv3-SPP⁺以及YOLOv3-SPP⁺-PAN的模型复杂度，并比较了模型在KITTI数据集上的检测精度和速度。如表2所示，YOLOv3-SPP⁺-PAN在KITTI数据集上的目标检测精度为85.8％，比YOLOv3-SPP⁺高1.2％。与YOLOv3-SPP+相比，YOLOv3-SPP+-PAN的检测速度仅降低了约0.5fps。在不影响检测速度的情况下，提高了检测精度。

表2 YOLOv3-SPP+，YOLOv3-SPP+-PAN比较

如图4所示为SE模块，其中X指输入，U是主干网络每一层卷积层的输出，X～表示结合了权重之后最终的输出。通过对卷积得到的特征图进行处理，得到一个和通道数一样的一维向量作为每个通道的评价分数，然后将该分数分别施加到对应的通道上，得到其结果。为了使网络更加专注于车辆与行人检测，在YOLOv3-SPP+-PAN网络基础上嵌入SE注意力机制模块也即SE模块。目标是通过使用注意机制来增加表现力，关注重要特征并抑制不必要的特征。

本发明的目标是增加一个车辆行人的注意力机制模块，但是注意力机制的添加的位置会对网络结果造成比较大的影响，本发明第一次将SE注意力机制模块与SPP+模块以及具有PAN结构的YOLOv3简单且高效的结合起来。实验证明，在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块，网络会达到最优的效果。所述SE模块的参数reduction设置为16。最终构成的网络，SE模块通过对卷积得到车辆行人的特征图进行处理，得到一个和通道数一样的一维向量作为每个通道的评价分数，然后将该分数分别施加到对应的通道上，得到一个更有效的车辆行人注意力机制的检测结果。

于是，成功构建了SE-YOLOv3-SPP⁺-PAN网络，形成了基于注意力机制的多尺度车辆行人检测算法模型。完整的网络结构示意图如图5所示。

本发明的目标是建立一个自动驾驶场景的实时高效的车辆、行人检测器。根据安装在驾驶车辆前部的摄像头所拍摄的图像数据集，检测器能识别汽车、行人、骑自行车者、货车、卡车、电车、杂项(例如拖车)。于是构建损失函数并训练SE-YOLOv3-SPP+-PAN网络，网络验证在KITTI数据集下进行。当损失函数值最小时停止训练；利用训练好的SE-YOLOv3-SPP⁺-PAN网络进行车辆行人检测。SE-YOLOv3-SPP+-PAN网络的训练参数设置以及训练过程如下：

训练过程不断更新参数，损失函数值变化，损失函数值越小，mAP值越大，当mAP达到最大值时，网络总的损失函数最小，网络达到最优解。表4显示了原始YOLOv3，YOLOv3-SPP网络以及改进的YOLOv3-SPP⁺，YOLOv3-SPP⁺-PAN和SE-YOLOv3-SPP⁺-PAN在KITTI测试数据集上的对象检测结果并且详细比较了各个网络在KITTI测试数据集上的实验结果，包括精度，速度以及模型大小等。结果表明，所构造的SE-YOLOv3-SPP⁺-PAN网络有效提升了网络精度仍然保持了实时的检测速度，更适宜无人驾驶场景下的车辆行人目标检测。其中，Input-size表示输入图像大小，Precision表示精度，Recall表示召回率，F1-score是模型精确率和召回率的一种加权平均，FPS表示帧率，Volume表示模型大小。

表4各模型性能比较

其中，构建损失函数的过程包括：

通过公式

通过公式

通过公式

获取置信度损失lobj，其中，

表示如果在某处的栅格没有目标，其值为0，否则为1；

本发明的工作过程为：YOLOv3网络进行特征提取，经SE模块对特征图进行处理得到一个和通道数一样的一维向量作为每个通道的评价分数，然后将该分数分别施加到对应的通道上，得到其结果，然后SPP⁺模块对多通道的特征也即多尺度局部区域特征进行池化合并，然后将全局和局部多尺度特征结合起来，PAN模块利用三个检测头输出检测结果，并且在检测过程中，缩短信息融合的路径。

通过以上技术方案，本发明实施例1提供的一种基于注意力机制的多尺度车辆行人检测方法，在YOLOv3网络的基础上，通过添加改进的SPP(空间金字塔池化)模块即SPP⁺模块，对多尺度局部区域特征进行融合和拼接，使网络能够更全面地学习目标特征；其次，利用空间金字塔缩短通道间的信息融合，构造了YOLOv3-SPP⁺-PAN网络；最终，得到了基于注意力机制的高效的目标检测器SE-YOLOv3-SPP⁺-PAN。KITTI实验数据集验证结果SE-YOLOv3-SPP⁺-PAN比YOLOv3提升了2.2％mAP，证明了所提出的SE-YOLOv3-SPP⁺-PAN网络比YOLOv3更高效、更准确，因此更适合于智能驾驶场景下的目标检测。

实施例2

与本发明实施例1相对应的，本发明实施例2还提供一种基于注意力机制的多尺度车辆行人检测装置，所述装置包括：

SPP⁺模块构建模块，用来构建SPP⁺模块；

具体的，所述SPP⁺模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。

具体的，YOLOv3采用Darknet-53作为特征提取器，在三个不同尺度的特征图上分别建立三个检测头，检测头的最终结果张量为N×N×(3×(4+1+C))，其中N×N表示最后卷积特征图的空间大小，其中，C表示类别的个数。

具体的，所述SE模块的参数reduction设置为16。

具体的，损失函数构建模块还用于：

通过公式

通过公式

通过公式

获取置信度损失lobj，其中，

表示如果在某处的栅格没有目标，其值为0，否则为1；

具体的，所述训练SE-YOLOv3-SPP⁺-PAN网络的过程包括：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。