CN117854045A

CN117854045A - 一种面向自动驾驶的车辆目标检测方法

Info

Publication number: CN117854045A
Application number: CN202410241292.1A
Authority: CN
Inventors: 毕远国; 郭茹博; 刘炯驿; 付饶
Original assignee: 东北大学
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-04-09
Anticipated expiration: 2044-03-04
Also published as: CN117854045B

Abstract

本发明属于计算机视觉应用技术领域，公开一种面向自动驾驶的车辆目标检测方法。为了解决独立检测特征图存在的特征孤岛问题，基于特征金字塔的思想提出了双向连接。结合Inception结构和残差网络模块设计一种多分支预测模块来捕捉更大范围的目标特征信息。采用不同空洞率、不同大小和不同数量的空洞卷积构成多感受野模块来直接增大检测特征图感受野的大小，并将其融合起来得到融合特征图。采用一种基于IOU方式的k‑means++聚簇生成锚框的设计来选择更加合理的锚框。综上所述，Bi‑Net算法更适合作为自动驾驶中的目标检测算法，以保证车辆顺利完成自动驾驶任务。

Description

一种面向自动驾驶的车辆目标检测方法

技术领域

本发明涉及计算机视觉应用技术领域，尤其涉及一种面向自动驾驶的车辆目标检测方法。

背景技术

随着物联网和人工智能技术的日臻完善，自动驾驶技术也已经开始从理论研究转为实际研发阶段。自动驾驶是指车辆在不需要人为干预的情况下，依靠传感器等终端设备自主感测车周围的环境信息，进而保证车辆完成自动驾驶任务。其包含的四大核心技术分别是自主感知、自主定位、自主规划和自主控制。其中自主感知是自动驾驶的基础，该部分通过分析终端设备输入的数据，自主感知车辆周围的环境信息。目标检测又是自主感知的前提和基础，因此只有对车周围的目标障碍物实现精准的定位和识别，才能保证汽车更好地完成自动驾驶任务。一阶段检测算法如现有的RCNN（Regions with CNN Features）算法检测性能相比于可变形部件模型方法（Deformable Part based Model, DPM）目标检测精度提高近 30%。空间金字塔网络（Spatial Pyramid Pooling Network, SPP-Net）在 RCNN算法的基础上引入空间金字塔结构，保证输入候选区域由单一尺度转变为任意尺度。受SPP-Net 启发，Fast RCNN 算法采用感兴趣区域池化结构（Region of InterestingPooling, ROI Pooling）取代空间金字塔结构,并在网络中引入多损失函数，将分类和位置的损失函数一并学习训练，进而保证分类和回归操作可以共享卷积层的特征。Faster RCNN算法首次采用全卷积神经网络的思想，且实现了目标检测端到端的训练模式。基于区域的全卷积神经网络算法（ Region-based Fully Convolutional Network, RFCN）实现了整个网络参数的完全共享。Mask RCNN 算法可以同时实现语义分割和目标检测任务。这些算法以检测速度为核心导向，其满足自动驾驶中对于检测实时性的要求，但存在目标检测精度低的问题。

两阶段检测算法如YOLO（You Only Look Once）算法中的图片仅需一次卷积操作即可得到目标的分类和回归得分。该算法的出现标志着以检测速度为核心的一阶段目检测算法的出现。YOLO v2算法借鉴 Faster RCNN 算法中的锚框的思想，在每个卷积层后增添批标准化（Batch Normalization, BN）结构，从根本上解决训练难度大的问题。YOLO v3算法在修改特征提取网络和分类器的基础上，采用多尺度预测的方式来预测目标。YOLO v4算法引入诸多的目标检测技巧，提高目标检测的精度。而SSD（Single Shot MultiBoxDetector）算法是另一种直接得到目标类别和位置信息的一阶段目标检测算法。该算法充分利用深浅特征图的特性实现多尺度目标的检测。DSSD（Deconvolutional Single ShotDetector）算法通过反卷积的方式融合检测特征图，增强检测特征图的特征表达能力，进而解决特征孤岛的问题。RSSD 算法同时采用池化和反卷积操作，通过彩虹操作连接深浅层次不同的特征图。不仅解决重复框的问题，而且可提升小尺度目标的检测精度。这些模型网络结构复杂，提取特征较为充分，目标检测精度较高，但无法满足自动驾驶对于检测速度的要求。综上，目前主流的经典目标检测算法均无法同时满足自动驾驶中对于检测精度和速度的实际需求。

发明内容

针对上述问题，本发明针对性地提出一种面向自动驾驶的车辆目标检测方法。

本发明的技术方案如下：一种面向自动驾驶的车辆目标检测方法，建立面向自动驾驶的车辆目标检测模型，所述面向自动驾驶的车辆目标检测模型包括特征金字塔模块、特征融合模块FM和多分支预测模块PM；

所述特征金字塔模块为基于双向连接的特征金字塔模块，其包括多层连续的特征提取层；输入图片经特征金字塔模块进行特征提取得到不同尺寸的检测特征图；

前四层特征提取层提取的检测特征图分为两组，每组分别经两种尺寸的特征融合模块进行特征融合，得到四个融合的检测特征图；所述融合的检测特征图以及其他特征提取层得到的检测特征图分别经多分支预测模块得到位置信息和分类信息。

所述基于双向连接的特征金字塔模块选择Conv4-3、Conv7、Conv8-2、Conv9-2、Conv10-2 和 Conv11-2 进行由浅到深的六层检测特征图构建；所述Conv4-3和Conv8-2构建的检测特征图为浅层特征图，所述Conv7和Conv9-2构建的检测特征图为深层特征图；Conv7构建的检测特征图经反向连接模块上采样后，与Conv4-3构建的检测特征图共同于特征融合模块融合，得到融合的检测特征图Fu-Conv4-3；Conv4-3构建的检测特征图经正向连接模块下采样后，与Conv7构建的检测特征图共同于特征融合模块融合，得到融合的检测特征图Fu-Conv7；Conv8-2构建的检测特征图，与Conv9-2构建的检测特征图经反向连接模块上采样后，共同于特征融合模块融合，得到融合的检测特征图Fu-Conv8-2；Conv9-2构建的检测特征图，与Conv8-2构建的检测特征图经正向连接模块下采样后，共同于特征融合模块融合，得到融合的检测特征图Fu-Conv9-2。

所述特征融合模块包括加权特征融合机制；

所述加权特征融合机制为每一个输入的检测特征图设置一个融合权重值，对输入的检测特征图进行加权融合操作：

（1）

其中，表示检测特征图，/>表示卷积操作，/>表示改变检测特征图尺寸的操作，表示待调整尺寸的检测特征图，/>表示融合权重值，/>表示连接操作；

所述融合权重值由公式（2）的归一化融合公式进行获取；起始时设置所有输入检测特征图的权重值均相同，在训练过程中对权重值进行调整；

（2）

其中，是一个可学习的参数；/>是加权特征融合机制输出融合的检测特征图、/>是输入的检测特征图，/>，/>。

所述多分支预测模块PM包括多感受野融合模块和预测模块；

多感受野融合模块以Inception 网络为基础，首先通过 1×1 的瓶颈卷积降低检测特征图的通道数，通过不同尺度的卷积操作后各分支的检测特征图叠加输出得到融合特征图；预测模块获取多感受野融合模块中对检测特征图进行不同空洞率、不同大小的空洞卷积操作后得到的多感受野的融合特征图；随后对多感受野的融合特征图进行1×1 的卷积操作得到分类信息得分和位置信息得分；

多感受野融合模块包括4个并行分支结构，各分支结构通过不同的空洞率获取不同感受野下的特征信息；

多感受野融合模块中的输入特征图、四个并行分支结构的输出特征图和最终输出的融合特征图依次记为，其尺寸均为/>；/>表示卷积核尺寸为/>的常规卷积，/>表示空洞率为/>，卷积核大小为/>的空洞卷积，/>表示矩阵拼接操作，/>表示卷积运算，/>表示使用/>卷积完成特征图的跳层连接；

输入特征图和输出特征图/>之间的运算关系如下：

（3）

首先利用1×1卷积对输入特征图进行降维操作，随后采用3×3卷积进行特征变换操作，分支0得到输出特征图/>，其尺寸为/>；

分支1中输入特征图和输出特征图/>之间的运算关系如下：

（4）

分支1结构以尺寸为的特征图/>为输入，首先利用1×1卷积将特征图的维度降低为原来的1/2；随后依次采用1×3卷积、空洞率为3，卷积核尺寸为 3×3的空洞卷积进行卷积运算，进而得到尺寸为/>的输出特征图/>；

分支2中输入特征图图和输出特征图/>之间的运算关系如下：

（5）

分支2中对输入特征图首先依次采用1×1卷积、3×1卷积进行卷积操作，随后采用空洞率为3，卷积核尺寸为3×3的空洞卷积进行运算来扩大其感受野大小，进而得到输出特征图/>，其尺寸为/>；

分支3中输入特征图图和输出特征图/>之间的运算关系如下：

（6）

分支3结构将输入特征图通过1×1的卷积运算直接得到输出特征图/>；

分支0、分支1和分支2三个分支融合得到融合特征图的过程如下所示：

（7）

将前三分支上的输出特征图在其通道维度上进行特征融合操作，随后将得到的特征图进行/>操作使其信息充分融合，/>结构依次采用1×1卷积、/>和/>操作，得到前三分支的融合特征图/>；

最终的输出融合特征图运算过程如下所示：

（8）

为权重；将最终的输入特征图/>和/>通过加权融合的方式得到最终的输出融合特征图/>；最后将得到的融合特征图/>输入到多分支预测模块进行预测。

所述预测模块中提出一种基于IOU方式的k-means++聚簇锚框得到数据集内真实目标的纵横比系数；首先统计各数据集内目标的尺度信息并将数据集中的图像划分为等大小的网格，预先为每个网格设定尺度不同、纵横比各异的锚框；预设锚框的中心点为每个网格的中心，训练过程中目标的预测边界框和真实框的位置坐标均以锚框为基准进行换算；预测框的位置坐标信息为，其中/>和/>表示预测框的中心点坐标信息，/>和/>表示预测框的宽信息和高信息；锚框的中心点及宽和高位置信息表示为/>，真实框的基本信息记为/>，则输出预测框位置信息的值/>输出的计算方式如下：

（9）

目标在检测特征图内的真实位置如下：

（10）

基于 IOU 方式的 k-means++聚簇锚框得到真实道路上目标真实框的实际纵横比系数，随后根据其预设出锚框的纵横比；

特征金字塔模块得到的六层检测特征图尺寸分别为 38×38、19×19、10×10、5×5、3×3和1×1，每个网格中锚点坐标的计算公式如下所示：

（11）

其中，/>分别为检测特征图对应点的坐标，/>为检测特征图尺寸，/>为检测特征图个数，/>；引入缩放系数对锚框尺寸进行缩放，其计算方式如下所示：

（12）

其中，表示检测特征图第一个锚框尺寸，/>，/>，/>；检测特征图的第一层缩放系数为 0.1，第二层缩放系数为 0.2；根据缩放系数计算公式和输入图片的尺寸得到锚框尺寸，其中包含两个正方形框，其尺寸分别为/>、/>，矩形框的尺寸分别为/>、/>，其中/>为人工提前预设的锚框的纵横比系数，由此得到大小各异、纵横比不同的锚框；

基于 IOU 方式来计算交通场景图片数据集内目标样本框到锚框的距离，进而计算得出锚框纵横比，计算方式如下所示：

（13）

其中，表示使用/>聚簇算法得到的预测框的尺寸，表示数据集内目标样本的真实框尺寸，/>表示数据集中目标样本真实框与聚簇锚框的交并比系数；首先读取数据集中的图片和目标框的尺寸，然后将图片和目标框等比例缩放至指定尺寸，再筛选尺寸小于两个像素的目标框；之后，使用/>算法随机选取一个数据点作为聚簇锚框，并使用轮盘法确定/>个聚簇锚框，根据欧氏距离分配所有的点，重新计算聚簇中心直到不再发生改变，确定最终的/>个聚簇锚框使用遗传算法随机对聚簇锚框的宽高值进行变异处理，采用锚框适应度和召回率评估对变异结果进行评价，变异结果优于变异前结果时，则将变异结果重新赋值给锚框尺寸，否则跳过；最后将变异得到的锚框尺寸按纵横比升序的排列方式输出最终结果。

所述特征金字塔模块和特征融合模块之间的正向连接模块如下：

正向连接模块包括两个分支；第一分支为浅层特征图经过空洞卷积层增大其感受野范围，通过空洞卷积层在核元素间填充零元素来扩大卷积核尺寸，以达到在不损失特征图信息的前提下增大其感受野，为空洞率，经空洞卷积后卷积核尺寸和原始卷积核尺寸关系如下所示：

（14）

其中，是指输出的空洞卷积核尺寸，/>是指原始卷积核的尺寸；

第二分支为深层特征图通过常规卷积操作层实现特征重组操作；

正向连接模块中的输入特征图为和/>，其尺寸分别为/>和；/>表示卷积核尺寸为/>的常规卷积，表示卷积核大小为/>，空洞率为/>的空洞卷积，/>和/>操作用于防止梯度出现爆炸或消失，/>表示矩阵拼接操作，/>表示卷积运算；

第一分支空洞卷积的计算过程如下所示；

（15）

第一分支首先对输入特征图使用尺寸为/>，空洞率为/>的空洞卷积进行卷积运算，随后使用3×3的卷积进行特征变换，最后使用/>和/>操作得到尺寸为/>的输出特征图/>；

第二分支中输入特征图为，依次进行 3×3 卷积变换、/>和/>操作卷积得到输出特征图/>，计算过程如下所示：

（16）

两个分支输出的特征图经矩阵拼接的连接操作融合，融合后的特征经1×1卷积和BN层进行特征重组操作，得到融合特征图的维度为；卷积过程如下所示：

（17）

最后，由于正向连接的特征图是浅层特征图的位置信息叠加到深层特征图上，故最终得到的融合特征图的维度应该与输入特征图/>的通道数保持一致，因此需要使用1×1 卷积将融合特征图通道维度降至/>，实现对融合特征图的特征重组操作，输入到多分支预测模块用于特征融合；其卷积过程如下所示：

（18）。

所述特征金字塔模块和特征融合模块之间的反向连接模块如下：

反向连接模块包括两个分支，第一分支中浅层特征图经常规卷积操作融合，第二分支中深层特征图经反卷积操作扩大其尺寸；两个分支输出的特征图经矩阵元素相加的方式将检测特征图融合成融合特征图；

反向连接模块中的输入特征图为和/>，其尺寸分别为/>和；/>表示卷积核尺寸为/>的常规卷积，/>表示卷积核大小为/>的反卷积，/>表示卷积运算，/>表示矩阵元素相加的连接操作；

第一分支中输出特征图和输入特征图/>之间的运算关系如下所示：

（19）

输入特征图依次进行3×3卷积变换、/>和/>操作得到输出特征图/>；

第二分支中输入特征图和输出特征图运算关系如下所示：

（20）

输入特征图首先通过反卷积操作将其特征扩大到原来的2倍，随后进行3×3卷积变换、/>和/>操作得到尺寸为输出特征图/>；之后将分辨率相同的特征图和/>通过矩阵元素相加操作连接起来得到融合特征图/>；矩阵拼接操作得到融合特征图的维度为/>，其卷积过程如下所示：

（17）

分别为特征图和/>设置权重系数/>和/>，得到融合特征图/>。

本发明的有益效果：本发明在满足实际道路场景中对于检测实时性要求的前提下，尽可能提高自动驾驶汽车对于车身周围道路上可能妨碍安全驾驶的目标检测性能。该发明通过基于双向连接的特征融合机制，在满足自动驾驶中对于检测实时性要求的前提下，提高了算法对实际道路场景中目标的检测精度。通过基于多感受野的多分支预测模块，在保证自动驾驶中检测实时性的前提下，提升了算法对复杂道路上目标的检测性能。通过基于 IOU 方式的 k-means++聚簇生成锚框算法，在节约了算法训练和测试的时间的同时，提升了算法对于目标的检测精度。综上，该发明能够同时满足自动驾驶系统中对于检测速度和精度的要求，以保证顺利安全完成驾驶任务。

附图说明

图1是面向自动驾驶的车辆目标检测模型网络结构图。

图2是正向连接模块示意图。

图3是反向连接模块示意图。

图4是多分支预测模块示意图。

图5是基于IOU方式的k-means++聚簇锚框示意图。

具体实施方式

面向自动驾驶的车辆目标检测模型的总体网络结构如图1所示，其输入图片的尺寸为300×300，并借鉴SSD算法的做法，选用VGG16结构作为特征提取网络，同时为了扩大感受野信息，采用空洞卷积取代了全连接层，后紧随额外添加的卷积网络。该算法选用Conv4-3、Conv7、Conv8-2、Conv9-2、Conv10-2和Conv11-2六层特征图来完成目标检测的任务。采用基于双向连接的特征融合方式改变上述结构存在特征孤岛的问题，随着网络层数的加深，背景噪声的干扰会越来越大，若再进行特征融合操作不仅会降低算法的检测速度，而且还可能会增强背景噪声的干扰，从而干扰神经网络学习目标的特征信息，可能会导致目标出现误检和漏检的问题。因此本发明仅融合前四层检测特征图，得到融合的检测特征图Fu-Conv4-3、Fu-Conv7、Fu-Conv8-2、Fu-Conv9-2、Conv10-2和Conv11-2，其尺寸分别为38×38、19×19、10×10、5×5、3×3和1×1。

多分支预测模块结构可有效提升目标检测性能。同时为了更好地反映数据集内目标的尺度信息，本发明提出一种基于IOU方式的k-means++聚簇锚框的设计，可节约检测时间，提升检测性能。

本发明提出了一种面向自动驾驶的车辆目标检测方法，总体网络结构图如图1所示。首先，本发明分析了现有的问题，即当前主流的目标检测算法均无法同时满足自动驾驶中对于检测精度和速度的需求。传统检测算法存在三方面的局限性：（1）鲁棒性差；（2）实时性差；（3）不可逆性。两阶段检测算法网络结构复杂，提取特征较为充分，目标检测精度较高，但无法满足自动驾驶对于检测速度的要求。一阶段检测算法以检测速度为核心导向，其满足自动驾驶中对于检测实时性的要求，但存在目标检测精度低的问题。因此当前主流的检测算法均无法同时满足自动驾驶系统对于检测速度和精度的要求。因此，本发明在满足实际道路场景中对于检测实时性要求的前提下，尽可能提高自动驾驶汽车对于车身周围道路上可能妨碍安全驾驶的目标检测性能，以保证顺利安全完成驾驶任务。

提出基于双向连接的特征金字塔模块和加权特征融合机制解决特征孤岛的问题。为了解决特征孤岛的问题，提高小目标和遮挡目标的检测精度，基于特征金字塔的思想提出双向连接。加权特征融合机制以特征图加权融合的方式连接相邻层次的特征图，可增强融合特征图的特征表达能力。加权特征融合机制在满足自动驾驶中对于检测实时性要求的前提下，提高算法对实际道路场景中目标的检测精度。该机制包含正向连接和反向连接两个部分，其中，正向连接模块的网络结构图如图2所示，其主要作用是在深层特征图上共享相邻浅层特征图的位置信息，该模块包含两个分支。第一分支为浅层特征图采用空洞卷积的方式增大其感受野范围，保证其和待融合的深层特征图尺寸相同；第二分支为深层特征图通过常规卷积操作实现特征重组操作，以便其更好地与检测特征图进行融合。Concatenation方式增加融合特征图通道维度，后续采用1×1卷积操作降低通道维度，实现特征重组操作，进而减少无用背景噪声的干扰。

正向连接模块的计算过程如下。假设卷积网络中正向连接模块中的输入特征图为和/>，其尺寸分别为/>和/>。/>表示卷积核尺寸为/>的常规卷积，/>表示卷积核大小为/>，空洞率为/>的空洞卷积，/>操作可防止梯度出现爆炸或消失的现象，/>能够增强网络的非线性表达能力。/>表示concatenation连接操作，/>表示卷积运算。则第一分支空洞卷积的计算过程如下；

第二分支中，输入特征图通过卷积得到输出特征图/>过程如下。第二分支中输入特征图为/>，依次进行 3×3 卷积变换、/>和/>操作卷积得到输出特征图/>，使得深浅特征图可以更好地融合。

而后，需要将感受野相同的特征图和/>通过concatenation操作连接起来得到融合特征图/>。concatenation操作得到融合特征图的维度为/>。

最后，由于正向连接的特征图是浅层特征图的位置信息叠加到深层特征图上，故最终得到的融合特征图的维度应该与输入特征图/>的通道数保持一致，因此需要使用1×1卷积将融合特征图通道维度将至/>，实现对融合特征图的特征重组操作。

反向连接的网络结构图如图3所示，其主要作用是在浅层特征图上共享相邻的深层特征图的语义特征信息，该模块同样包含两个分支结构，第一分支中浅层特征图的常规卷积操作保证特征图更好地融合在一起，第二分支中深层特征图通过反卷积操作扩大其尺寸和浅层特征图相同。Element-wise addition方式将这两个特征向量融合成复向量，以此来增加特征图每一维的信息量，丰富上下文的语义信息，因此该结构对于小目标、模糊目标物体的检测性能更优。

该结构中第一分支输出特征图和输入特征图/>之间的运算关系如下所示。

该分支与正向连接中第二分支的作用均是为保证特征图可以更好地融合，输入特征图依次进行3×3卷积、/>和/>操作得到变换特征的输出特征图/>。

第二分支的输入特征图和输出特征图之间的运算关系如下所示。

输入特征图首先通过反卷积操作将其特征扩大为原来的2倍，随后经过3×3的卷积、/>和/>操作后可得到输出特征图/>。

而后，将分辨率相同的特征图和/>通过element-wise addition连接起来得到融合特征图/>，其尺寸为/>。

基于不同层次的特征图对融合特征图的贡献率不同，本节充分借鉴归一化融合的做法，分别为特征图和/>设置权重系数/>和/>，以便更好地得到融合特征图/>。

（2）构建基于多感受野的多分支预测模块提升目标检测的性能。为了可以捕捉更大范围的目标，提升算法的检测性能，结合Inception和残差网络结构的思想设计了一种基于多感受野的多分支预测模块。该模块采用不同空洞率、不同数量和不同大小的空洞卷积构建起不同感受野的预测分支，并将其融合起来得到融合特征图。多分支预测模块在保证自动驾驶中检测实时性的前提下，提升算法对复杂道路上目标的检测性能。该模块网络结构图如图4所示，其包含4个并行分支结构，各分支均可通过不同的空洞率获取不同感受野下的特征信息，该结构的各个分支首先通过1×1的卷积实现对特征图的降维操作，以降低后续卷积的参数量，提升算法的检测速度；随后在各分支内采用不同空洞率、不同大小和不同数量的空洞卷积对特征图进行卷积运算，进而得到包含多感受野特征信息的特征图；最后采用concatenation操作将各分支上的多感受野特征图连接起来得到融合特征图。其中，shortcut表示跳层连接的方式。

多感受野融合模块中输入特征图、四个并行分支上输出特征图和最终输出的融合特征图可分别记为，其尺寸均为/>。/>表示尺寸为/>的卷积，/>表示空洞率为/>，卷积核尺寸为/>的空洞卷积，/>和/>操作不仅可以避免网络出现梯度爆炸和消失的现象，还可以增强其非线性表达能力，/>表示concatenation连接操作，/>表示卷积运算，/>表示使用/>卷积完成特征图的跳层连接。

分支0中输入特征图和输出特征图/>之间的运算关系如下；

首先利用1×1卷积对输入特征图进行降维操作，以减少后续运算量，随后采用3×3卷积进行特征变换操作，分支0可得到输出特征图/>，其尺寸为/>。

分支1中输入特征图和输出特征图/>之间的运算关系如下。

该分支结构以的特征图/>为输入，首先使用1×1的卷积将特征图的维度降低为原来的1/2；随后依次采用1×3卷积、空洞率为3，卷积核尺寸为3×3的空洞卷积进行卷积运算，进而得到尺寸为/>的输出特征图/>。

分支2中输入特征图和输出特征图/>之间的运算关系如下。

该分支中对输入特征图首先依次采用1×1卷积、3×1卷积进行卷积操作，随后采用空洞率为3，卷积核尺寸为3×3的空洞卷积进行运算来扩大其感受野大小，进而得到输出特征图/>，其尺寸大小为/>。

分支3中由输入特征图得到输出特征图/>的运算关系如下。该结构将输入特征图/>通过1×1的卷积运算直接得到输出特征图/>。

分支0、分支1和分支2三个分支融合得到融合特征图的过程如下所示。

上式将前三分支上的输出特征图、/>和/>在其通道维度上进行特征融合操作，随后将得到的特征图进行/>操作使其信息充分融合，该结构依次采用1×1卷积、/>和/>操作，分别实现降维、避免网络出现梯度爆炸或消失现象和增强网络非线性表达能力的作用，进而可得到前三分支的融合特征图/>。

最终的输出融合特征图运算过程如下。

该结构充分利用加权特征融合的基本思想，选用归一化融合的思想对输入特征图进行加权融合操作。将最终的输入特征图和/>通过加权融合的方式得到最终的输出融合特征图/>，以此来增加多感受野融合特征图的多尺度特征表达能力，提高算法对实际交通环境中目标的检测性能。

（3）为了减少算法训练的难度，提升目标的检测性能，Bi-Net算法预先为每个网格设定尺度不同、纵横比各异的锚框。特征图中每个网格中心均被视为预设锚框的中心点，用来预测该中心点周围不同尺度和纵横比的目标物体。训练过程中目标的预测边界框和真实框的位置坐标均以锚框为基准进行换算。假设预测框的位置坐标信息为，其中，和/>表示预测框的中心点坐标信息，/>和/>表示该框的宽和高信息。锚框的中心点及宽高位置信息可表示为/>，预测框的基本信息记为/>，则输出预测框位置信息的值/> ；

上述过程称之为预测框的编码过程，而输出的最终结果需要对上述结果进行解码操作，由此可得到目标在图片内的真实位置，此过程称之为解码。

YOLO v5算法使用k-means聚簇方式得到聚簇锚框，此种方式具有很大的主观随意性，可能会影响聚簇锚框结果。该算法使用欧式距离计算数据集内目标的样本框到聚簇锚框的距离，此种方式仅可表示两点在空间位置上的距离，但不能很好地表达出两个框之间的空间位置关系。故而本节提出使用IOU方式的k-means++聚簇算法随机选取一个数据点作为聚簇锚框，使用轮盘法确定最终的K个聚簇锚框，以此来保证聚簇锚框的结果更加真实合理，基于IOU方式来计算数据集内目标样本框到聚簇锚框的距离。使用此种计算方式可以更加有效地得到更符合实际情况的聚簇锚框尺寸，进而得到其纵横比。

其中，表示使用k-means++聚簇算法得到的聚簇锚框的尺寸，/>表示数据集内目标样本框尺寸，/>表示数据集中目标样本框与聚簇锚框的交并比系数。

该部分实现的伪代码如算法1所示。首先需要读取本文所用的数据集内的所有图片中图片数量、目标数量、目标尺寸和各目标类别数量等基本信息；随后将目标图片和目标框的尺寸等比例缩放至本文指定的尺寸，此过程中会筛选掉目标框宽或高值小于两个像素的目标；接着使用基于IOU方式的k-means++聚簇算法得到六个聚簇锚框，而后使用遗传算法随机对聚簇锚框的宽高值进行变异处理，采用锚框适应度和召回率评估方式对变异的结果进行评价，若变异效果更好则将结果重新赋值给锚框，否则跳过；最后将变异得到的锚框尺寸按纵横比升序的排列方式输出最终结果，以达到节约算法的训练时间，提升目标检测精度的目的。

（4）设置多维度多场景的对比实验验证算法检测性能。数据集的作用主要是为验证算法训练和测试的性能。为了保证选用的数据集更贴合实际交通情况，选用数据集的原则是：（1）尽量符合实际道路状况；（2）尽可能考虑常见的天气情况。为了更好地验证本文提出算法的检测性能，综合数据集内目标类别的数量、遮挡目标占比和各尺度目标占比等因素考虑，本文选用KITTI、Udacity、Foggy Cityscapes和Rain Cityscapes数据集分别作为理想道路、实际道路、雾天气和雨雾天气四种不同天气、不同交通场景下的评测数据集。本文主要考虑将驾驶道路上的车辆目标作为检测对象，但为了更加符合真实驾驶道路上的实际交通情况，本文也将和人相关的目标作为检测对象。表1展示了上述四个数据集的基本信息。

表1 实验数据集的基本信息

数据集	目标种类	图片数量	图片尺寸
				KITTI	6	7481	1271×375
Udacity	4	12995	960×600
				Foggy Cityscapes	8	10371	512×1024
Rain Cityscapes	8	10620	512×1024

由实验可知，本算法在任何交通场景下均能在满足自动驾驶中对于检测实时性要求的前提下，具有较低的误检率、漏检率和较强的泛化检测能力，且对小目标、遮挡目标和截断目标的检测性能更优。综上所述，在复杂多变的交通场景中，本算法更适合作为自动驾驶系统中的目标检测算法，提高车辆对周围环境的感知能力，以便更好地完成自动驾驶任务。

下面对本发明的具体实施方式做详细说明。

本实施方式的方法为：操作系统为windows 10，深度学习框架为pytorch。

步骤一：实现各创新部分内容。

第一步，本申请充分借鉴有效双向交叉尺度连接的设计思想，结合自动驾驶中对于检测实时性的需求，提出基于双向连接的特征图融合机制。该结构在不太增加参数量的前提下，可避免信息流的单向流动。该结构包含正向连接和反向连接两个模块。其中，正向连接模块是在深层检测特征图上共享相邻的浅层特征图的特征信息，而反向连接模块是在浅层检测特征图上共享相邻的深层特征图的特征信息。该结构在不大幅度降低检测速度的前提下，将相邻的检测特征图进行融合操作，从而得到具有更强特征表达能力的融合特征图，可以解决检测特征图存在的特征孤岛问题，进而提高目标的检测精度。

第二步：本发明利用多感受野融合模块捕捉更大范围的目标，进而提高目标的检测精度。首先使用多感受野融合模块对特征图进行不同空洞率、不同大小的空洞卷积操作得到多感受野的融合特征图；随后对其进行1×1的卷积操作得到其分类得分和位置得分。Bi-Net算法中的所有特征图中每一个锚框均会输出包含类别和位置信息的预测结果。若数据集内包含类目标，则该算法需要预测/>个置信度得分，此时置信度得分代表不含目标的得分。而目标的位置信息则可用预测框的中心点坐标及其宽高值来表示，可记为/>。假设每个锚点预测/>个框，那么每个预测框可产生/>个预测结果。由于本节采用卷积操作完成目标检测的任务，故而仅需/>个1×1卷积即可完成目标检测任务。

第三步：针对算法中锚框默认纵横比不符合数据集内目标真实尺度的问题，本发明提出一种基于IOU方式的k-means++聚簇算法生成锚框的方式。该方式首先统计各数据集内目标的尺度信息；随后使用k-means++聚簇算法得到六个聚簇锚框；而后使用遗传算法对聚簇锚框的宽高值进行变异处理，确保聚簇锚框更符合交通场景中目标的真实纵横比。该方式可降低算法的训练时间，提升目标的检测精度。

步骤二：实验数据集。

数据集的作用是为了验证算法的检测性能。本发明选用KITTI、Udacity、FoggyCityscapes和Rain Cityscapes数据集分别作为理想道路、实际道路、雾天气和雨雾天气四种不同交通场景下的评测数据集。为了保证实验的顺利进行，本发明对数据集的格式进行修改，主要包括目标图片的修改、目标类别的筛选、剔除无标注图片、标注格式的转化和划分数据集五部分内容。同时，为了更好地分析实验结果，从而验证算法在不同道路场景下的目标检测性能。本发明从目标总数量、各类别目标占比、各种类目标占比和遮挡目标占比等方面详细统计四个数据集中目标的分布情况。

（1）目标图片的修改工作。该部分主要包括缩小图片尺寸和图片格式转化等内容。由于本文算法中输入图片的尺寸是300×300。而原始数据集内的图片的分辨率太高，因此需要降低图片分辨率。Udacity数据集图片尺寸由1920×1200缩小为960×600，FoggyCityscapes和Rain Cityscapes数据集的图片分辨率由1024×2048缩小为512×1024。所有数据集的图片格式统一变为.jpg格式。

（2）目标类别的筛选工作。原始数据集内包含实际道路上的车辆、行人和交通标志等目标类别，结合本文对于测评数据集的实际需求，本节需要筛选出符合实际交通场景的目标类别。由于上述操作降低了数据集内所有图片的分辨率，因此该步骤也需要缩小所有目标中对应的标注文件左上角和右下角的坐标信息。该部分的实现逻辑如算法2所示。

（3）剔除无标注的图片。经上述步骤筛选出本文所需的目标类别后，原始的数据集内就会存在一些不包含任何目标信息的图片，为了保证后续程序的正常运行，需要剔除无标注的图片。该部分实现逻辑如下；

其中，是指原始的图片集，/>指得是标注文件。/>是指无标注的图片，即本章需要剔除的图片。

（4）标注格式的转化工作。原始数据集内的标注文件为txt格式，而本文所需的是xml格式的标注文件，故需要进行标注文件格式的转化工作。该部分实现的伪代码如算法3所示。

（5）划分数据集。在完成图片格式转化、标注文件转化工作和目标类别筛选等前期工作后，根据本文算法训练和测试的实际情况，需要将数据集划分为训练集、验证集和测试集。结合前人的经验，现将本文所用数据集内的图片按8:1:1划分为训练集、验证集和测试集。

步骤三：对模型进行训练。

训练环节是测试和检测的基础，在数据集处理好后首要进行的步骤就是进行训练。具体步骤如下：

第一步，使用pytorch框架为训练模型做初始化网络训练和配置的准备工作。

第二步，在训练之前，会对基础网络部分载入预训练模型进行初始化，预训练模型用的是VGG16结构在ImageNet数据集上训练好的分类模型。

第三步，对检测网络部分进行初始化操作；

第四步，载入训练数据，包括图像数据和标注文件，对图像和标注进行预处理，把转换好的数据放到数据文件下，这样pytorch框架会自动读取。设置本算法的训练参数和网络结构路径，系统会根据配置好的参数进行读取。本算法的配置如下表2所示：

表2 系统配置参数

第五步，网络训练。训练的网络中，已对轻量级的车辆检测系统中的基础网络部分载入预训练模型进行初始化，预训练模型用的是VGG16网络在ImageNet数据集上训练好的分类模型。为了更好的将车辆检测算法应用到车载设备上，本文采用轻量级结构作为特征提取网络；为了提高检测精度，提出使用特征融合的方式对特征图进行融合操作。为了进一步提高检测精度和检测速度，本文提出使用并行分支的方式来进一步提高检测的精度和速度。

网络训练流程首先是前向传播过程，该过程包括卷积层和池化层。本系统中输入层是由卷积实现的，车辆图片会直接进行前向传播的卷积操作；池化层主要是对上一层的输出的尺度进行调整。训练过程中深度学习框架产生损失函数的相关信息，根据上一步产生的数据信息，进行反向传播操作，该操作是本系统中网络各卷积核权重更新的过程，目的是迭代更新权重直到系统的准确度达到本文的要求。

第六步，将更新完成的权重保存到指定的位置。

为了训练和测试更加方便，本发明将训练过程封装为脚本文件，训练开始时首先调用封装好的训练脚本，该脚本中会设置命令行的参数，包括要训练所需要的支撑文件和工具类的路径、预训练权重等等。封装好后用户不必了解底层细节，直接调用脚本即可。本系统在python下完成配置文件、命令行参数的读取操作，然后通过调用训练函数完成训练的核心过程。最终并把结果保存到指定目录下。

测试环节的目的是为了得到测试图像上的预测值，是效果分析的基础。用pytorch框架为测试模型做初始化网络和配置的准备工作，将训练好的权值载入到网络中，然后对得到的测试图像进行预处理，主要是格式转换以能让测试模块正确识别。测试数据送入测试网络后，经过一系列的卷积和池化等前向传播的操作后，生成最终的预测值，并将生成的值保存到文件中。依次测试所有测试数据，直至所有图片全部测试完成。

为了测试方便，本发明将测试步骤封装为脚本。测试开始时首先调用根目录下的测试脚本，该脚本中会设置命令行的参数，包括测试网络结构文件的路径、训练好的权重路径和其他的一些测试参数配置文件等等。然后在该脚本中设置日志文件的保存路径。然后调用测试脚本开始进行测试。

本算法在python文件下完成测试过程中的配置文件、命令行参数的读取，然后通过调用测试函数完成测试的核心过程。然后开始进行预测，最终并把预测结果保存到指定目录下的pth文件中，可以直接被后续评价模块读取。

Claims

1.一种面向自动驾驶的车辆目标检测方法，其特征在于，建立面向自动驾驶的车辆目标检测模型，所述面向自动驾驶的车辆目标检测模型包括特征金字塔模块、特征融合模块FM和多分支预测模块PM；

2.根据权利要求1所述的一种面向自动驾驶的车辆目标检测方法，其特征在于，所述基于双向连接的特征金字塔模块选择Conv4-3、Conv7、Conv8-2、Conv9-2、Conv10-2 和Conv11-2 进行由浅到深的六层检测特征图构建；所述Conv4-3和Conv8-2构建的检测特征图为浅层特征图，所述Conv7和Conv9-2构建的检测特征图为深层特征图；Conv7构建的检测特征图经反向连接模块上采样后，与Conv4-3构建的检测特征图共同于特征融合模块融合，得到融合的检测特征图Fu-Conv4-3；Conv4-3构建的检测特征图经正向连接模块下采样后，与Conv7构建的检测特征图共同于特征融合模块融合，得到融合的检测特征图Fu-Conv7；Conv8-2构建的检测特征图，与Conv9-2构建的检测特征图经反向连接模块上采样后，共同于特征融合模块融合，得到融合的检测特征图Fu-Conv8-2；Conv9-2构建的检测特征图，与Conv8-2构建的检测特征图经正向连接模块下采样后，共同于特征融合模块融合，得到融合的检测特征图Fu-Conv9-2。

3.根据权利要求1所述的一种面向自动驾驶的车辆目标检测方法，其特征在于，所述特征融合模块包括加权特征融合机制；

（1）

（2）

4.根据权利要求1所述的一种面向自动驾驶的车辆目标检测方法，其特征在于，所述多分支预测模块PM包括多感受野融合模块和预测模块；

输入特征图和输出特征图/>之间的运算关系如下：

（3）

分支1中输入特征图和输出特征图/>之间的运算关系如下：

（4）

分支2中输入特征图图和输出特征图/>之间的运算关系如下：

（5）

分支3中输入特征图图和输出特征图/>之间的运算关系如下：

（6）

（7）

将前三分支上的输出特征图在其通道维度上进行特征融合操作，随后将得到的特征图进行/>操作使其信息充分融合，/>结构依次采用1×1卷积、/>和操作，得到前三分支的融合特征图/>；

最终的输出融合特征图运算过程如下所示：

（8）

5.根据权利要求4所述的一种面向自动驾驶的车辆目标检测方法，其特征在于，所述预测模块中提出一种基于IOU方式的k-means++聚簇锚框得到数据集内真实目标的纵横比系数；首先统计各数据集内目标的尺度信息并将数据集中的图像划分为等大小的网格，预先为每个网格设定尺度不同、纵横比各异的锚框；预设锚框的中心点为每个网格的中心，训练过程中目标的预测边界框和真实框的位置坐标均以锚框为基准进行换算；预测框的位置坐标信息为，其中/>和/>表示预测框的中心点坐标信息，/>和/>表示预测框的宽信息和高信息；锚框的中心点及宽和高位置信息表示为/>，真实框的基本信息记为/>，则输出预测框位置信息的值/>输出的计算方式如下：

（9）

目标在检测特征图内的真实位置如下：

（10）

（11）

（12）

（13）

其中，表示使用/>聚簇算法得到的预测框的尺寸，/>表示数据集内目标样本的真实框尺寸，/>表示数据集中目标样本真实框与聚簇锚框的交并比系数；首先读取数据集中的图片和目标框的尺寸，然后将图片和目标框等比例缩放至指定尺寸，再筛选尺寸小于两个像素的目标框；之后，使用算法随机选取一个数据点作为聚簇锚框，并使用轮盘法确定/>个聚簇锚框，根据欧氏距离分配所有的点，重新计算聚簇中心直到不再发生改变，确定最终的/>个聚簇锚框使用遗传算法随机对聚簇锚框的宽高值进行变异处理，采用锚框适应度和召回率评估对变异结果进行评价，变异结果优于变异前结果时，则将变异结果重新赋值给锚框尺寸，否则跳过；最后将变异得到的锚框尺寸按纵横比升序的排列方式输出最终结果。

6.根据权利要求5所述的一种面向自动驾驶的车辆目标检测方法，其特征在于，所述特征金字塔模块和特征融合模块之间的正向连接模块如下：

（14）

正向连接模块中的输入特征图为和/>，其尺寸分别为/>和；/>表示卷积核尺寸为/>的常规卷积，/>表示卷积核大小为/>，空洞率为/>的空洞卷积，/>和/>操作用于防止梯度出现爆炸或消失，/>表示矩阵拼接操作，/>表示卷积运算；

第一分支空洞卷积的计算过程如下所示；

（15）

第一分支首先对输入特征图使用尺寸为/>，空洞率为/>的空洞卷积进行卷积运算，随后使用3×3的卷积进行特征变换，最后使用/>和/>操作得到尺寸为的输出特征图/>；

（16）

（17）

（18）。

7.根据权利要求6所述的一种面向自动驾驶的车辆目标检测方法，其特征在于，所述特征金字塔模块和特征融合模块之间的反向连接模块如下：

（19）

第二分支中输入特征图和输出特征图运算关系如下所示：

（20）

输入特征图首先通过反卷积操作将其特征扩大到原来的2倍，随后进行3×3 卷积变换、/>和/>操作得到尺寸为输出特征图/>；之后将分辨率相同的特征图/>和通过矩阵元素相加操作连接起来得到融合特征图/>；矩阵拼接操作得到融合特征图的维度为/>，其卷积过程如下所示：

（17）

分别为特征图和/>设置权重系数/>和/>，得到融合特征图/>。