CN116246059A

CN116246059A - 一种基于改进的yolo多尺度检测的车辆目标识别方法

Info

Publication number: CN116246059A
Application number: CN202211628492.XA
Authority: CN
Inventors: 易安林; 雷荣森; 姚涛; 闫连山; 蒲桂东
Original assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University; Aidian Shandong Technology Co ltd
Current assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University; Aidian Shandong Technology Co ltd
Priority date: 2022-12-17
Filing date: 2022-12-17
Publication date: 2023-06-09

Abstract

本发明属于信息技术领域，具体涉及一种基于改进的YOLO多尺度检测的车辆目标识别方法，解决了现有的车辆目标检测方法在相对复杂场景中所表现出的实时性、准确性和鲁棒性有待提升的问题，通过以下步骤实现：步骤1)自制数据集预处理的步骤；步骤2)主干网络特征提取的步骤；步骤3)改进后的Neck结构进行特征融合的步骤；步骤4)NMS非极大抑制的步骤；步骤5)输出检测结果图的步骤。相比YOLOv5s基准网络。本发明改进后的ECA‑P2COT‑YOLOv5s模型在对车辆目标的检测效果明显提升,提高了网络的目标检测精确度，提高了在相对复杂场景中所表现出的实时性、准确性和鲁棒性。

Description

一种基于改进的YOLO多尺度检测的车辆目标识别方法

技术领域

本发明属于信息技术领域，具体涉及一种基于改进的YOLO多尺度检测的车辆目标识别方法。

背景技术

近年来深度学习算法发展迅速，人工智能已经在很多学科领域得到广泛应用，取得了丰硕的成果。智能交通所依赖的目标检测等技术目前都得到了长足进步，并在PascalVOC、MSCOCO、KITTI等数据集上取得了优异的成绩。SSD、YOLO等一阶段检测算法不需要提取候选框，直接提取图像中的特征，将目标物体的识别与定位转换为回归问题，只需要一次检测就能够识别目标的位置位和类别，大幅度提升了检测速度。因此，YOLO目标检测网络成为车辆目标识别领域应用最广泛的模型之一。

智能辅助驾驶技术中需要大量的图像识别与处理工作，往往将摄像头采集到的视频或者图像作为输入，目标检测网络识别出其中有价值的目标与内容，为下一步的车辆行为决策提供保障。另一方面，鉴于车辆等目标在摄像头画面中不同位置的尺度差异，如何正确、快速地识别图像中的目标，是智能辅助驾驶技术的基础。因此，如何提升车辆目标识别方法在较为复杂环境中的实时性、准确性和鲁棒性，依然是现阶段研究的热门方向。

发明内容

本发明的目的是为了解决现有的车辆目标检测方法在相对复杂场景中所表现出的实时性、准确性和鲁棒性有待提升的问题，提出一种基于改进的YOLO多尺度检测的车辆目标识别方法。

为实现上述目的，本发明是通过以下步骤实现：

步骤1)自制数据集预处理；

步骤2)主干网络特征提取；

步骤3)改进后的Neck结构进行特征融合；

步骤4)NMS非极大抑制；

步骤5)输出检测结果图。

进一步地，所述的主干网络特征提取，具体包括：设计卷积模块、设计瓶颈层模块、引入ECA注意力机制、设计空间金字塔池化结构。

进一步地，所述的设计卷积模块，具体包括：

在卷积模块中封装了三个功能：包括卷积(Conv2d)、归一化(BatchNorm2d)以及激活(SiLU)，同时通过autopad函数自动调整padding，确保输出图像拥有预设的通道数；

Conv2d卷积运算是指输出图像中每个像素都由输入图像的对应位置的小区域的像素通过加权平均所得，这个区域叫做卷积核；通过图像与卷积核做卷积运算，提取出图像的某些特征；一个卷积层内含有多个卷积核，经过卷积层后的输出像素阵列的层数与卷积核的个数有关，若卷积层内含有C个卷积核，则经过卷积层后的输出阵列的层数也为C；具体而言，将一张640×640×3的图片输入卷积核大小为3×3的卷积中，步长为2，输出通道C，Conv2d函数输出的下采样结果是320×320×C的特征图；

经过卷积层后，使用BatchNorm2d函数进行数据的归一化处理，调整数据的均值和方差，使得数据在进行激活之前不会因为分布范围过大而导致网络性能的不稳定；

经过归一化之后，使用激活函数将数据非线性化，提高模型的表达能力；神经网络的每一层输入输出都是一个个线性求和的过程，如果没有激活函数，输入输出始终为线性关系，无论中间无论有多少层，都相当于一层，无法解决更复杂的问题；本发明选用SiLU作为激活函数；

进一步地，所述的设计瓶颈层模块，具体包括：

输入图像经过卷积模块后，为了让模型学习到更多的特征，将输入瓶颈层的原数据分成两个分支；一个分支先通过一次卷积模块，再经过一个残差结构，再进行一次卷积；另一个分支直接进行卷积；然后两个分支进行拼接融合，再经过BatchNorm2d归一化函数和SiLU激活函数，最后再进行一次卷积模块的运算；

进一步地，所述的引入ECA注意力机制，具体包括：

注意力机制是一种特征图信息资源分配的机制，通过注意力机制对特征图进行加权处理，重点突出图像中车辆集中的区域的特征；ECA注意力机制避免降维，用1维卷积高效实现了局部跨通道交互，提取通道间的依赖关系，其运算简便，对网络处理速度的影响较小；

本发明对经过4次下采样后的特征图使用ECA注意力；

进一步地，所述的设计空间金字塔池化结构，具体包括：

引入SPPF模块，建立候选区域与输入特征图之间的映射关系；

将经过ECA注意力模块处理后的特征图相继经过卷积模块、一次最大池化、两次最大池化和三次最大池化，将上述4个输出的特征图进行拼接融合，然后再通过卷积模块提取特征。虽然对输入的特征图进行了多次池化，但特征图尺寸并未发生变化，通道数也保持不变。SPPF模块对高层特征进行提取并融合，在融合的过程中运用多次最大池化，尽可能多地提取高层次的语义特征。

进一步地，所述的改进后的Neck结构进行特征融合，具体包括添加小目标检测层、设计COT3模块。

进一步地，所述的添加小目标检测层，具体包括：

浅层特征图关注的更多的是图像纹理图案等表面信息，深层特征图则更加关注物体整体及其语义信息；

YOLOv5的基准网络使用PANet作为检测头部，具备3个尺度下的输出，但忽略了Backbone骨干网络第一次下采样的输出特征图中的最接近原始图像的信息；为提高小目标检测的效果，对Neck结构中经过两次上采样输出的80×80的特征图再进行上采样，获取到更浅层的特征信息。再将得到更浅层特征信息与骨干网络中对应尺度的浅层特征卷积层的输出进行拼接融合，并经过一个1×1的卷积操作后输出120×120尺度的目标类别与位置；

特征图中小目标对应的感受野相对较小，而感受野越小，其所包含的特征越趋向局部和细节；因此，根据更加浅层的语义特征信息所提取到的小目标特征不容易在大尺度特征图中丢失，其检测的精度也得到了明显的提升；

进一步地，所述的设计COT3模块，具体包括：

Contextual Transformer block模块将自注意力机制和卷积操作相结合，以捕捉特征图中静态和动态的上下文信息，进而增强特征图的表达；该模块对输入特征图X∈R^CxHxW通过三个分支来处理不同空间位置的特征交互，并充分利用邻近位置间的上下文信息来增强自注意力学习，最终输出特征图Y∈R^CxHxW；

首先将其输入的特征图X分为三个分支，每个分支分别通过基于1×1卷积的嵌入矩阵(W_k，W_q，W_v)将X转换为keys，queries，values，计算过程如下公式所示：

K＝XW_k (1)

Q＝XW_q (2)

V＝XW_v (3)

然后对keys经过k×k的组卷积提取上下文信息得到特征图K¹∈R^CxHxW，K¹反映了相邻key值之间的上下文信息，即静态上下文表示；再将K¹与Q进行拼接后经过连续两次1×1卷积得到特征图A∈R^(ChxKxK)xHxW，计算过程如下公式所示：

A＝[K¹,Q]W_ΘW_δ (4)

A是局部关系矩阵特征图，K¹是静态上下文特征图，Q是查询特征图，W_Θ和W_δ分别代表一次1×1卷积运算；

特征图A的每个局部关系矩阵基于query和全部keys学习所得，充分挖掘静态上下文信息，增强了自注意力机制的学习效果；再将特征图V和A通过局部矩阵乘法聚合得到特征图K²∈R^CxHxW；特征图K²捕获了输入特征图X的动态特征交互，因此被称为动态上下文表示。最终将静态上下文K¹与动态上下文K²融合，输出特征图Y∈R^CxHxW。

将COT模块引入到CSP瓶颈层模块中，以构建COT3特征融合模块；对Neck结构靠近输出端的特征金字塔，将拼接浅层信息与深层信息的多尺度特征图经过COT3模块处理，得到静态上下文和动态上下文的融合特征图。

本发明与现有技术相比，其有益之处在于：

本发明是通过对YOLOv5s网络的研究了解到YOLOv5s的基本实验方法和实验原理，明确了YOLOv5s网络的基本结构以及各个模块是如何进行数据信息的传递的。基于现实车辆目标识别的需求，根据YOLOv5s网络所存在的小目标漏检误检问题、复杂背景下的检测问题、多尺度目标检测等问题，对检测模型进行修改，提高网络的目标检测精确度，提高了在相对复杂场景中所表现出的实时性、准确性和鲁棒性。本发明改进后的ECA-P2COT-YOLOv5s模型在对车辆目标的检测效果明显提升。

(1)通过添加ECA注意力模块，以极小的计算代价对特征图进行加权处理，重点突出图像中车辆集中的区域的特征。

(2)在YOLOv5s网络结构中增加了一个小目标检测层，输出更高分辨率的大尺度特征图。由于的大尺度检测输出中包含更加浅层的语义特征信息，神经网络提取到的小目标特征不容易在大尺度特征图中丢失，最终检测结果的精度也得到了一定的提升。

(3)将COT模块引入到CSP瓶颈层模块中，以构建COT3特征融合模块。相对于YOLOv5s网络结构中原有的CSP模块，COT3模块捕捉特征图中静态和动态的上下文信息，显著增强特征图的表达。

附图说明

图1为本发明的方法流程图；

图2为本发明涉及的CBS卷积运算图；

图3为本发明涉及的EAC注意力机制图；

图4为本发明涉及的固定尺寸输出的SPPF结构图；

图5为本发明涉及的小目标检测层结构图；

图6为本发明涉及的COT特征融合原理图；

图7为本发明不同网络结构的性能对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图1-7对本发明作进一步地详细描述。

实施例1

如图1所示，本发明涉及一种基于改进的YOLO多尺度检测的车辆目标识别方法，具体实施步骤如下所示：

步骤1)自制数据集预处理：

本发明涉及的车辆数据集来自高速公路、隧道、城市道路等道路交通场景，共包含4817张图片。为确保目标检测模型的效果更加真实可信，将数据集图片按4：1的比例划分为训练集和测试集。训练前，将输入图像大小统一调整为640×640，并对标注信息的边界框宽、高和中心点坐标进行归一化处理，以减少异常样本对数据的影响。

步骤2)主干网络特征提取：

(1)如图2所示，卷积模块封装了卷积函数(Conv2d)、归一化函数(BatchNorm2d)和激活函数(SiLU)等三个功能。其中，Conv2d卷积运算是指输出图像中每个像素都由输入图像的对应位置的小区域的像素通过加权平均所得，这个区域叫做卷积核；通过图像与卷积核做卷积运算，提取出图像的某些特征；一个卷积层内含有多个卷积核，经过卷积层后的输出像素阵列的层数与卷积核的个数有关，若卷积层内含有C个卷积核，则经过卷积层后的输出阵列的层数也为C。经过卷积层后，使用BatchNorm2d函数进行数据的归一化处理，调整数据的均值和方差，使得数据在进行激活之前不会因为分布范围过大而导致网络性能的不稳定。经过归一化之后，使用SiLU激活函数将数据非线性化，提高模型的表达能力；神经网络的每一层输入输出都是一个个线性求和的过程，如果没有激活函数，输入输出始终为线性关系，无论中间无论有多少层，都相当于一层，无法解决更复杂的问题。

(2)输入图像经过卷积模块后，为了让模型学习到更多的特征，将输入瓶颈层的原数据分成两个分支；一个分支先通过一次卷积模块，再经过一个残差结构，再进行一次卷积；另一个分支直接进行卷积；然后两个分支进行拼接融合，再经过BatchNorm2d归一化函数和SiLU激活函数，最后再进行一次卷积模块的运算。

(3)如图3所示，ECA注意力机制避免降维，用1维卷积高效实现了局部跨通道交互，提取通道间的依赖关系，其运算简便，对网络处理速度的影响较小。本发明对经过4次下采样后的特征图使用ECA注意力，重点突出图像中车辆集中的区域的特征。

(4)如图4所示，将经过ECA注意力模块处理后的特征图相继经过卷积模块、一次最大池化、两次最大池化和三次最大池化。虽然对输入的特征图进行了多次池化，但特征图尺寸并未发生变化，通道数也保持不变。因此，SPPF模块能够将上述4个输出的特征图进行拼接融合，然后再通过卷积模块提取特征。SPPF模块对高层特征进行提取并融合，并且在融合的过程中运用多次最大池化，尽可能多地获取高层次的语义特征。

步骤3)改进后的Neck结构的特征融合：

(1)浅层特征图关注的更多的是图像纹理图案等表面信息，深层特征图则更加关注物体整体及其语义信息。YOLOv5的基准网络使用PANet作为检测头部，具备3个尺度下的输出，但忽略了Backbone骨干网络第一次下采样的输出特征图中的最接近原始图像的信息；如图5所示，为提高小目标检测的效果，对Neck结构中经过两次上采样输出的80×80的特征图再进行上采样，获取到更浅层的特征信息，再将得到更浅层特征信息与骨干网络中对应尺度的浅层特征卷积层的输出进行拼接融合，并经过一个1×1的卷积操作后输出120×120尺度的目标类别与位置。特征图中小目标对应的感受野相对较小，而感受野越小，其所包含的特征越趋向局部和细节；因此，根据更加浅层的语义特征信息所提取到的小目标特征不容易在大尺度特征图中丢失，其检测的精度也得到了明显的提升。

(2)Contextual Transformer block模块的原理如图6所示，将自注意力机制和卷积操作相结合，以捕捉特征图中静态和动态的上下文信息，进而增强特征图的表达；该模块对输入特征图X∈R^CxHxW通过三个分支来处理不同空间位置的特征交互，并充分利用邻近位置间的上下文信息来增强自注意力学习，最终输出特征图Y∈R^CxHxW；

K＝XW_k (1)

Q＝XW_q (2)

V＝XW_v (3)

然后对keys经过k×k的组卷积提取上下文信息得到特征图K¹∈R^CxHxW，K¹反映了相邻key值之间的上下文信息，即静态上下文表示；再将K¹与Q进行拼接后经过连续两次1×1卷积得到特征图

计算过程如下公式所示：

A＝[K¹,Q]W_ΘW_δ (4)

步骤4)NMS非极大抑制：

对于每一个目标种类的概率，对所有检测框按照置信度从高到低排序，将置信度最高的检测框标记，然后计算其它检测框与该检测框的IOU交并比，并舍弃IOU超过预设阈值(0.5)的检测框；再从上一轮遍历后剩余的检测框中标记置信度最高的检测框，如此循环往复，直到处理完全部检测框。

步骤5)输出检测结果图：

本发明改进后的YOLOv5模型最终输出120×120×255、80×80×255、40×40×255和20×20×255等4个尺度的检测结果。

步骤2和步骤3展示了改进YOLOv5目标检测模型的具体过程，最终的对比实验结果如图7所示。实验中使用了4种目标检测模型，分别是原生YOLOv5s模型、P2-YOLOv5s模型、P2COT-YOLOv5s模型和ECA-P2COT-YOLOv5s模型。实验结果表明，同时引入ECA注意力机制、小目标检测层P2和COT特征融合模块的网络结构效果最佳。

精确率Precision表示所有检测出的目标中检测正确的概率，召回率Recall表示所有正样本中正确检测的概率，精度AP是对Precision和Recall的综合评估，平均精度mAP表示全部目标类别的平均精确度。将检测到的车辆目标划分为car、truck和bus三类，在经过参数对比实验之后，ECA-P2COT-YOLOv5s模型的网络结构的精确率Precision可达到0.905，召回率Recall可达到0.867，mAP值可达到0.921。相比YOLOv5s基准网络，本发明改进后的网络在对车辆目标的检测效果明显提升。

本发明的实例公布的是较佳的实施例，但并不局限于此。本领域的技术人员在不背离本发明的精神或基本特征的情况下，极易根据上述实施例，以其他的具体形式实现本发明。但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：包括以下步骤：

步骤1)自制数据集预处理；

步骤2)主干网络特征提取；

步骤3)改进后的Neck结构进行特征融合；

步骤4)NMS非极大抑制；

步骤5)输出检测结果图。

2.根据权利要求1所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的主干网络特征提取，具体包括：设计卷积模块、设计瓶颈层模块、引入ECA注意力机制、设计空间金字塔池化结构。

3.根据权利要求2所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的设计卷积模块，具体包括：

在卷积模块中封装三个功能：包括Conv2d卷积运算、归一化以及激活，同时通过autopad函数自动调整padding，确保输出图像拥有预设的通道数；

Conv2d卷积运算是指输出图像中每个像素都由输入图像的对应位置的区域的像素通过加权平均所得，这个区域叫做卷积核；通过图像与卷积核做卷积运算，提取出图像的某些特征；

经过归一化之后，使用激活函数将数据非线性化，提高模型的表达能力。

4.根据权利要求2所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的设计瓶颈层模块，具体包括：

输入图像经过卷积模块后，将输入瓶颈层的原数据分成两个分支；一个分支先通过一次卷积模块，再经过一个残差结构，再进行一次卷积；另一个分支直接进行卷积；然后两个分支进行拼接融合，再经过BatchNorm2d归一化函数和SiLU激活函数，最后再进行一次卷积模块的运算。

5.根据权利要求2所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的引入ECA注意力机制，具体包括：

注意力机制是一种特征图信息资源分配的机制，通过注意力机制对特征图进行加权处理，突出图像中车辆集中的区域的特征。

6.根据权利要求2所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的设计空间金字塔池化结构，具体包括：

引入SPPF模块，建立候选区域与输入特征图之间的映射关系；

将经过ECA注意力模块处理后的特征图相继经过卷积模块、一次最大池化、两次最大池化和三次最大池化，将上述4个输出的特征图进行拼接融合，然后再通过卷积模块提取特征。

7.根据权利要求1所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的改进后的Neck结构进行特征融合，具体包括添加小目标检测层、设计COT3模块。

8.根据权利要求7所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的添加小目标检测层，具体包括：

对Neck结构中经过两次上采样输出的80×80的特征图再进行上采样，获取到更浅层的特征信息；

再将得到更浅层特征信息与骨干网络中对应尺度的浅层特征卷积层的输出进行拼接融合，并经过一个1×1的卷积操作后输出120×120尺度的目标类别与位置。

9.根据权利要求7所述的一种基于改进的YOLO多尺度检测的车辆目标识别方法，其特征在于：所述的设计COT3模块，具体包括：

通过Contextual Transformer block模块将自注意力机制和卷积操作相结合，以捕捉特征图中静态和动态的上下文信息；该模块对输入特征图X∈R^CxHxW通过三个分支来处理不同空间位置的特征交互，并利用邻近位置间的上下文信息来增强自注意力学习，最终输出特征图Y∈R^CxHxW；

K＝XW_k (1)

Q＝XW_q (2)

V＝XW_v (3)

计算过程如下公式所示：

A＝[K¹,Q]W_ΘW_δ (4)

A是局部关系矩阵特征图，K¹是静态上下文特征图，Q是查询特征图，

W_Θ和W_δ分别代表一次1×1卷积运算；

特征图A的每个局部关系矩阵基于query和全部keys学习所得，充分挖掘静态上下文信息，增强了自注意力机制的学习效果；再将特征图V和A通过局部矩阵乘法聚合得到特征图K²∈R^CxHxW；特征图K²捕获了输入特征图X的动态特征交互，被称为动态上下文表示；最终将静态上下文K¹与动态上下文K²融合，输出特征图Y∈R^CxHxW；