CN114092764A

CN114092764A - 一种加入注意力机制的YOLOv5神经网络车辆检测方法

Info

Publication number: CN114092764A
Application number: CN202111400884.6A
Authority: CN
Inventors: 夏长权; 汪李超; 时壮壮; 朱颖; 徐思韵
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-25

Abstract

本发明公开了一种加入注意力机制的YOLOv5神经网络车辆检测方法，包括：采用汽车图像数据集，对所述数据集进行预处理；对YOLOv5神经网络进行改进，添加注意力机制；将标注好的所述数据集按照符合网络要求的格式输入所述改进后的YOLOv5神经网络进行训练并测试结果；将训练好的模型部署到移动端进行目标车辆的检测与识别。本发明提高了模型对小目标识别的效果，提升了模型的识别精度与模型收敛的速度，实现移动端对目标实时的识别功能。

Description

一种加入注意力机制的YOLOv5神经网络车辆检测方法

技术领域

本发明涉及人工智能与交通安全中的图像检测与识别的技术领域，尤其涉及一种加入注意力机制的YOLOv5神经网络车辆检测方法。

背景技术

近年来随着科技的不断进步，人工智能技术在许多领域的应用取得了有益效果，图像的智能检测与识别技术也应运而生，随着YOLO、Tensorflow等一系列神经网络框架的设计开发，此项技术也日益成熟，若将这种图像识别技术应用在交通安全系统中，当部分路段出现道路拥挤时，可以快速对拥挤地段采取相应疏通措施，当有救护车或消防车等紧急车辆需要通行时，可以提前疏通道路以防出现紧急车辆无法通行的情况。

由于道路环境复杂，多变的背景环境会影响图像识别的准确率，现有技术采用的图像识别检测方法会受到环境的影响，没有针对性的对所训练图像的关键部分分配足够多的“注意力”，有时会出现错误识别或者遗漏识别的情况，提升识别的准确率和识别效率就成为了亟需解决的重要问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有技术采用的图像识别检测方法会受到环境的影响，没有针对性的对所训练图像的关键部分分配足够多的“注意力”，有时会出现错误识别或者遗漏识别的情况，提升识别的准确率和识别效率就成为了亟需解决的重要问题。

为解决上述技术问题，本发明提供如下技术方案：采用汽车图像数据集，对所述数据集进行预处理；对YOLOv5神经网络进行改进，添加注意力机制；将标注好的所述数据集按照符合网络要求的格式输入所述改进后的YOLOv5神经网络进行训练并测试结果；将训练好的模型部署到移动端进行目标车辆的检测与识别。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：所述汽车图像数据集包括UA-DETRAC公开数据集、图像标注工具Labelimg。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：所述的UA-DETRAC公开数据集包括，24个不同地点拍摄的10个小时的视频；所述视频以每秒25帧的速度录制，分辨率为960*540像素。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：对所述数据集进行预处理过程包括，标注工用图像具Labelimg对所述图像数据集进行标注；根据COCO数据集格式将标注后的所述图像数据集保存为txt格式标注文件，并将所述数据集根据8：1的划分比例分为训练集和验证集。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：添加注意力机制包括添加通道注意力模块：将输入的特征图，即H×W×C，分别经过基于H和W的全局最大池化层和全局平均池化，得到两个1×1×C的特征图；将所述特征图分别送入一个两层的神经网络，第一层的神经元个数为C/r，激活函数为ReLU，第二层的神经元个数为C；将输出的特征进行元素求和操作并激活，生成通道注意力模块，即M_c；将M_c与输入特征进行乘法运算，生成空间注意力模块需要的输入特征，其具体实现公式如下：

其中，H和W分别为输入特征图的高和宽，σ表示Sigmoid函数，F表示输入的特征，

和

分别表示经过所述平均池化和所述最大池化操作后的特征，W₀和W₁分别表示每层神经网络的权重函数。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：添加注意力机制包括添加空间注意力模块：将所述通道注意力模块输出的特征作为所述空间注意力模块的输入特征图；所述输入特征图通过所述最大池化层和所述平均池化层，得到两个H*W*1的特征图；将所述两个特征图进行concat融合并通过一个7*7的卷积层，降维为一个channel，并经过Sigmoid函数生成空间注意力模块即M_s；将M_s与空间注意力模块的输入特征图做乘法运算，得到最终生成的特征，其具体实现公式如下：

其中，σ表示Sigmoid函数，f^7×7表示尺寸为7*7的卷积操作，F表示输入的特征，

和

分别表示经过平均池化和最大池化操作后的特征。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：训练所述YOLOv5神经网络并测试结果的过程包括，输入端采用Mosaic数据增强，对输入的图像进行随机缩放，随机剪切，随机排布的方式进行拼接；自适应锚框计算；自适应图片缩放。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：所述YOLOv5神经网络的各模块包括：Focus模块：输入3*640*640的三通道彩色图片，经过下采样，输出32*320*320的特征图；Conv模块：通过卷积层，对输入的图片进行卷积运算，采用SiLU函数作为激活函数，实现了将输入特征经过卷积层，激活函数，归一化层，得到输出层，输出大小为输入的一半；Bottleneck模块：先通过1*1卷积将channel大小减小一半，再通过3*3卷积将通道数加倍，并获取特征，将输入与输出的channel保持一致，再通过shortcut参数控制残差连接，使用add而非concat进行特征融合，使得融合后的特征保持不变；通道注意力机制模块：使用最大池化和平均池化对feature map进行压缩，得到两个不同的空间背景描述，使用MLP组成的共享网络对所述两个不同的空间背景描述进行计算得到通道注意力模块；空间注意力机制模块：空间注意力机制在channel的维度上使用最大池化和平均池化得到两个不同的特征描述，利用concat进行特征融合，并使用卷积操作生成空间注意力模块；添加注意力机制的CBAMC3模块：原BottleneckCSP模块，包含三个卷积层和多个Bottleneck模块，对残差特征进行学习，添加注意力机制的CBAMC3模块结构分为两支，一支使用了上述指定多个Bottleneck堆叠和三个标准卷积层，另一支经过一个基本卷积层模块，将两支进行concat操作；SPP模块：空间金字塔池化层，通过一个标准卷积模块将输入通道减半，并分别做kernel-size为5、9、13的最大池化操作，对三次最大池化的结果与未池化的数据进行concat特征融合。

作为本发明所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：将训练好的模型部署到移动端进行目标车辆的检测与识别包括，将训练好的权重模型部署到移动端，通过摄像头获取视频并输入移动端，对视频中出现的车辆进行实时的检测；根据获取到的车辆数量以及密集程度，对道路拥挤地段快速采取相应疏通工作。

本发明的有益效果：本发明提高了模型对小目标识别的效果，提升了模型的识别精度与模型收敛的速度，实现移动端对目标实时的识别功能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种加入注意力机制的YOLOv5神经网络车辆检测方法的基本流程示意图；

图2为本发明一个实施例提供的一种加入注意力机制的YOLOv5神经网络车辆检测方法的卷积注意力模块整体实现示意图；

图3为本发明一个实施例提供的一种加入注意力机制的YOLOv5神经网络车辆检测方法的通道注意力模块实现示意图；

图4为本发明一个实施例提供的一种加入注意力机制的YOLOv5神经网络车辆检测方法的空间注意力模块实现示意图；

图5为本发明一个实施例提供的一种加入注意力机制的YOLOv5神经网络车辆检测方法的改进网络训练后的检测结果示意图；

图6为本发明一个实施例提供的一种加入注意力机制的YOLOv5神经网络车辆检测方法的改进网络训练后的另一个检测结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～6，为本发明的一个实施例，提供了一种加入注意力机制的YOLOv5神经网络车辆检测方法，包括：

S1：采用汽车图像数据集，对数据集进行预处理。

需要说明的是，使用UA-DETRAC公开数据集，采用图像标注工具Labelimg对图像进行标注，根据COCO数据集格式保存为txt格式标注文件，并将数据集根据8：1的划分比例分为训练集和验证集。

S2：对YOLOv5神经网络进行改进，添加注意力机制。

需要说明的是，如添加通道注意力(channel attention)模块包括，将输入的特征图，即H×W×C，分别经过基于H和W的全局最大池化层(global max pooling)和全局平均池化(global average pooling)，得到两个1×1×C的特征图；将特征图分别送入一个两层的神经网络(MLP)，第一层的神经元个数为C/r，激活函数为ReLU，第二层的神经元个数为C；将输出的特征进行元素求和操作并激活，生成channel attention feature即M_c；将M_c与输入特征进行乘法运算，生成空间注意力模块(spatial attention module)需要的输入特征，其具体实现公式如下：

和

分别表示经过平均池化和最大池化操作后的特征，W₀和W₁分别表示每层神经网络(MLP)的权重函数。

添加空间注意力模块(spatial attention module)包括，将通道注意力模块(channel attention)输出的特征作为空间注意力模块(spatial attention module)的输入特征图；输入特征图通过最大池化层(global max pooling)和平均池化层(globalaverage pooling)，得到两个H*W*1的特征图；将两个特征图进行concat融合并通过一个7*7的卷积层，降维为一个channel，并经过Sigmoid函数生成spatial attention feature即M_s；将M_s与空间注意力模块的输入特征图做乘法运算，得到最终生成的特征，其具体实现公式如下：

和

分别表示经过平均池化和最大池化操作后的特征。

S3：将标注好的数据集按照符合网络要求的格式输入改进后的YOLOv5神经网络进行训练并测试结果。

需要说明的是，Mosaic数据增强，输入端采用Mosaic数据增强，对输入的多个图像进行随机缩放，随机剪切，随机排布的方式进行拼接；自适应锚框计算，在YOLO模型中，针对不同的数据集都会有初始设定长宽的锚框，在网络训练时，网络会在初始的锚框基础上输出预测框，进而和真实框Groundtruth做对比，计算出二者之间的差距，再反向更新，不断地迭代网络参数，在之前的YOLO版本中，需要单独运行这种锚框的程序以达到效果，在YOLOv5中，将自适应锚框程序嵌入到整体训练程序中，加快了数据处理和训练的速度，在每次训练时都可以自适应地计算训练集中最佳的锚框；自适应图片缩放，在常用的检测算法中，会将输入的原始图片统一缩放到一个标准尺寸，再送入检测网络中，此种方法会由于很多图片长宽比不同，没有达到640*640分辨率的图片会缩放填充，导致有些图片黑边较多，存在信息冗余，影响推理速度，YOLOv5对letterbox函数进行了修改，对原始图像自适应的添加最少的黑边，提升了目标检测的速度；在网络训练阶段，YOLOv5的各模块详解如下：

a.Focus模块，输入3*640*640的三通道彩色图片，经过下采样，输出32*320*320的特征图；

b.Conv模块，通过卷积层，对输入的图片进行卷积运算，采用SiLU函数作为激活函数，实现了将输入特征经过卷积层，激活函数，归一化层，得到输出层，输出大小为输入的一半；

c.Bottleneck模块，先通过1*1卷积将channel大小减小一半，再通过3*3卷积将通道数加倍，并获取特征，将输入与输出的channel保持一致，再通过shortcut参数控制残差连接，使用add而非concat进行特征融合，使得融合后的特征保持不变；

d.通道注意力机制模块，使用最大池化和平均池化对feature map进行压缩，得到两个不同的空间背景描述，使用MLP组成的共享网络对这两个不同的空间背景描述进行计算得到channel attention map；

e.空间注意力机制模块，与通道注意力机制模块不同，空间注意力机制主要关注位置信息，首先在channel的维度上使用最大池化和平均池化得到两个不同的特征描述，然后concat进行特征融合，并使用卷积操作生成spatial attention map；

f.添加注意力机制的CBAMC3模块，原BottleneckCSP模块，包含了三个卷积层和多个Bottleneck模块，对残差特征进行学习，其结构分为两支，一支使用了上述指定多个Bottleneck堆叠和三个标准卷积层，另一支经过一个基本卷积层模块，最后将两支进行concat操作；

g.SPP模块，空间金字塔池化层，其先通过一个标准卷积模块将输入通道减半，然后分别做kernel-size为5，9，13的最大池化操作，对三次最大池化的结果与未池化的数据进行concat特征融合。

S4：将训练好的模型部署到移动端进行目标车辆的检测与识别。

需要说明的是，通过摄像头获取视频并输入移动端，对视频中出现的车辆进行实时的检测，摄像头采用USB 3.0接口的工业摄像头，移动端采用Nvidia的Jeston AGXXAVIER工业模组，识别效果如图5和图6所示，根据获取到的车辆数量以及密集程度，对道路拥挤地段快速采取相应疏通工作。

本发明使用了注意力机制模块，在残差连接模块之前引入了通道注意力机制模块和空间注意力机制模块搭配的方法，提高了模型对小目标识别的效果，提升了模型的识别精度与模型收敛的速度；本发明考虑在本地端进行神经网络的训练与模型保存，并将训练好的权重文件部署到移动端进行识别，实现移动端对目标实时的识别功能。

实施例2

该实施例为本发明另一个实施例，该实施例不同于第一个实施例的是，提供了一种加入注意力机制的YOLOv5神经网络车辆检测方法的验证测试，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本实施例使用训练CPU为Intel Core i5-6300HQ@2.30GHz，GPU为GTX1080Ti，使用的深度学习框架为Pytorch1.9.0，CUDA版本为11.2，再按照实施例1的步骤将图片数据输入未改进的YOLOv5网络中训练并测试，比较两者测试效果，其结果如下表所示：

表1：实验结果对比表。

	mAP	FPS	Weights
				YOLOv5	0.971	93.3	80.8
YOLO-CBAM	0.989	96.8	88.5

其中，mAP是是指对所有类别的平均精度值求平均值，能反应模型的精度，FPS是该网络模型每秒能识别的图像帧数，Weights代表了训练完模型的大小，可以看出在模型的大小没有太大变化的情况下，加入了注意力机制的模型识别的精度有所提高，且模型的识别速率也有所提高，并且在训练时模型的收敛速度也有显著提升。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于，包括：

采用汽车图像数据集，对所述数据集进行预处理；

对YOLOv5神经网络进行改进，添加注意力机制；

将标注好的所述数据集按照符合网络要求的格式输入所述改进后的YOLOv5神经网络进行训练并测试结果；

将训练好的模型部署到移动端进行目标车辆的检测与识别。

2.如权利要求1所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：所述汽车图像数据集包括UA-DETRAC公开数据集、图像标注工具Labelimg。

3.如权利要求2所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：所述的UA-DETRAC公开数据集包括，

24个不同地点拍摄的10个小时的视频；

所述视频以每秒25帧的速度录制，分辨率为960*540像素。

4.如权利要求1～3任一所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：对所述数据集进行预处理过程包括，

利用图像标注工具Labelimg对所述图像数据集进行标注；

根据COCO数据集格式将标注后的所述图像数据集保存为txt格式标注文件，并将所述数据集根据8：1的划分比例分为训练集和验证集。

5.如权利要求1所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：添加注意力机制包括添加通道注意力模块：

将输入的特征图，即H×W×C，分别经过基于H和W的全局最大池化层和全局平均池化，得到两个1×1×C的特征图；

将所述特征图分别送入一个两层的神经网络，第一层的神经元个数为C/r，激活函数为ReLU，第二层的神经元个数为C；

将输出的特征进行元素求和操作并激活，生成通道注意力模块，即M_c；

将M_c与输入特征进行乘法运算，生成空间注意力模块需要的输入特征，其具体实现公式如下：

和

6.如权利要求1所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：添加注意力机制包括空间注意力模块：

将所述通道注意力模块输出的特征作为所述空间注意力模块的输入特征图；

所述输入特征图通过所述最大池化层和所述平均池化层，得到两个H*W*1的特征图；

将所述两个特征图进行concat融合并通过一个7*7的卷积层，降维为一个channel，并经过Sigmoid函数生成空间注意力模块即M_s；

将M_s与空间注意力模块的输入特征图做乘法运算，得到最终生成的特征，其具体实现公式如下：

和

分别表示经过平均池化和最大池化操作后的特征。

7.如权利要求1、5～6任一所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：训练所述YOLOv5神经网络并测试结果的过程包括，

输入端采用Mosaic数据增强，对输入的图像进行随机缩放，随机剪切，随机排布的方式进行拼接；

自适应锚框计算；

自适应图片缩放。

8.如权利要求1、5～6任一所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：所述YOLOv5神经网络的各模块包括：

Focus模块：输入3*640*640的三通道彩色图片，经过下采样，输出32*320*320的特征图；

Conv模块：通过卷积层，对输入的图片进行卷积运算，采用SiLU函数作为激活函数，实现了将输入特征经过卷积层，激活函数，归一化层，得到输出层，输出大小为输入的一半；

Bottleneck模块：先通过1*1卷积将channel大小减小一半，再通过3*3卷积将通道数加倍，并获取特征，将输入与输出的channel保持一致，再通过shortcut参数控制残差连接，使用add而非concat进行特征融合，使得融合后的特征保持不变；

通道注意力机制模块：使用最大池化和平均池化对feature map进行压缩，得到两个不同的空间背景描述，使用MLP组成的共享网络对所述两个不同的空间背景描述进行计算得到通道注意力模块；

空间注意力机制模块：空间注意力机制在channel的维度上使用最大池化和平均池化得到两个不同的特征描述，利用concat进行特征融合，并使用卷积操作生成空间注意力模块；

添加注意力机制的CBAMC3模块：原BottleneckCSP模块，包含三个卷积层和多个Bottleneck模块，对残差特征进行学习，添加注意力机制后的CBAMC3模块结构分为两支，一支使用了上述指定多个Bottleneck堆叠和三个标准卷积层，另一支经过一个基本卷积层模块，将两支进行concat操作；

SPP模块：空间金字塔池化层，通过一个标准卷积模块将输入通道减半，并分别做kernel-size为5、9、13的最大池化操作，对三次最大池化的结果与未池化的数据进行concat特征融合。

9.如权利要求8所述的加入注意力机制的YOLOv5神经网络车辆检测方法，其特征在于：将训练好的模型部署到移动端进行目标车辆的检测与识别包括，

将训练好的权重模型部署到移动端，通过摄像头获取视频并输入移动端，对视频中出现的车辆进行实时的检测；

根据获取到的车辆数量以及密集程度，对道路拥挤地段快速采取相应疏通工作。