CN115497075A

CN115497075A - 基于改进型卷积神经网络交通目标检测方法及相关装置

Info

Publication number: CN115497075A
Application number: CN202211192067.0A
Authority: CN
Inventors: 乔瑞萍; 王方; 李振安
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-20

Abstract

本发明公开了一种基于改进型卷积神经网络交通目标检测方法及相关装置，属于辅助驾驶领域。通过在网络中添加注意力机制，网络对不同重要程度的信息进行了加权操作，对重要信息进行强化，对不重要信息进行抑制，从而更加关注重要的信息；更换网络损失函数中所用CIoU为EIoU，使得网络收敛更快，且对不同类别、不同尺寸的交通目标都可以更好地定位。改进后的YOLOv5卷积神经网络对于交通目标检测更加精准，在复杂交通环境下的目标检测速度和准确率得到了提高，最终在Atlas 200DK上完成整体应用的开发和部署。

Description

基于改进型卷积神经网络交通目标检测方法及相关装置

技术领域

本发明属于辅助驾驶领域，涉及一种交通目标检测的方法，尤其是一种基于改进型卷积神经网络交通目标检测方法及相关装置。

背景技术

随着近些年深度学习和通信技术的快速发展，利用卷积神经网络来实时处理交通问题已经可以实现。甚至在某些场景下卷积神经网络对物体的识别速度和准确率都超过了人类。如果能在车辆行驶过程中对道路情况进行实时监控，预测其它车辆、行人、非机动车等的行为，并通过智能驾驶系统及时返回相关信息，让驾驶员对实际的道路情况做出相应的反应，将大大增加行车安全性，减少交通事故的发生。

针对常规情况下，如行人、车辆等单目标的检测方法的精度已经很高。但在复杂的交通环境中，由于遮挡、拥堵、天气等原因，容易造成误检与漏检，严重影响算法的性能；且当同时检测多种交通目标时，由于目标具有尺寸跨度大、较密集等特点，很多算法在实际应用中显得捉襟见肘，鲁棒性差，且难以达到实时性的需求。故提升识别的准确率和效率就成为了亟需解决的重要问题。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于改进型卷积神经网络交通目标检测方法及相关装置。本发明通过增加注意力模块，另外从而提升YOLOv5卷积神经网络在复杂交通背景下的目标检测精度。

为了实现上述目的，本发明采用以下技术方案予以实现：

第一方面，本发明提出一种基于改进型卷积神经网络交通目标检测方法，包括以下步骤：

构建复杂交通环境下的目标检测数据集；

对YOLOv5卷积神经网络进行优化；

将目标检测数据集输入改进后的YOLOv5卷积神经网络进行训练；

将训练好的模型部署到AI应用开发板上进行目标检测与识别。

第二方面，本发明提出一种基于改进型卷积神经网络交通目标检测系统，包括：

构建模块，所述数据集构建模块用于构建复杂交通环境下的目标检测数据集；

优化模块，所述优化模块用于对YOLOv5卷积神经网络进行优化；

训练模块，所述训练模块用于将目标检测数据集输入改进后的YOLOv5卷积神经网络进行训练；

检测与识别模块，所述检测与识别模块用于将训练好的模型部署到AI应用开发板上进行目标检测与识别。

第三方面，本发明提出一种计算装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

第四方面，本发明提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明是在原有的YOLOv5卷积神经网络的基础上，添加注意力机制，可以对重要信息和不重要信息进行加权操作，从而更加关注重要的信息；通过更换网络损失函数中所用CIoU为EIoU，使得网络收敛更快，且对不同类别、不同尺寸的交通目标都可以更好地定位到。本发明能够使YOLOv5卷积神经网络对于交通目标检测更加精准，从而YOLOv5在复杂交通环境下的目标检测速度和准确率得到了提高，最终在AI应用开发板上完成目标检测应用的开发和部署。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法的流程示意图。

图2为本发明系统的模块示意图。

图3为本发明中CBAM模块结构示意图。

图4为本发明中YOLOv5的C3模块加入CBAM模块示意图。

图5为在Atlas 200DK上开发部署基于YOLOv5的目标检测应用的大致流程。

图6为实际行车过程中拍摄的图像。

图7为在Atlas 200DK上基于YOLOv5的目标检测应用的检测结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例公开了一种基于改进型YOLOv5卷积神经网络的交通目标检测方法，包括如下步骤：

S1，构建复杂交通环境下的目标检测数据集：

从SODA10M(半/自监督的2D基准数据集)和BDD100K(开放驾驶视频数据集)两个数据集中挑选图片来构建所需数据集，包含不同场景、不同天气、不同时间段下的图像。将新数据集的标签文件从COCO数据集格式转换为YOLO格式标注文件，并根据7：3的划分比例分为训练集和验证集。新的数据集共有四类，包含40000张图片，其中训练集28000张，测试集12000张。数据集共含有304717个目标，其中大目标约占样本总数的1/6，中等目标约占样本总数的13/30，小目标约占样本总数的2/5。

S2，对YOLOv5卷积神经网络进行优化：

步骤2-1，在YOLOv5卷积神经网络中添加注意力机制。具体在C3模块(Concentrated-Comprehensive Convolution Block)中嵌入CBAM模块(ConvolutionalBlock Attention Module，CBAM，卷积块注意模块)得到CBAMC3模块。CBAM模块示意图如图3所示，具体如下：

步骤2-1-1，输入C×H×W的特征图，其中C表示特征通道数，H表示特征图的高度，W表示特征图的宽度；

步骤2-1-2，基于特征图的宽、高分别进行全局平均池化和全局最大池化，对每个特征通道进行通道压缩，得到两张1×1×C的特征图；然后分别经过双层的神经网络(MLP)得到通道注意力权重，相加后通过激活函数得到归一化权重，加权到输入特征图的各个特征通道上；F表示输入特征图，F^′表示标定后的特征图，M_C(F)表示通道注意力权重，

表示采用广播机制的元素级相乘操作，σ表示Sigmoid激活函数，通道注意力部分标定公式如下所示：

步骤2-1-3，将上一步所得特征图在通道维度分别进行平均值池化和最大值池化，得到两张1×H×W的特征图，沿通道方向拼接后接着经过7×7的卷积核获得空间上注意力权重，通过激活函数处理获得归一化注意力权重并与输入相乘，完成特征标定。此处F^′表示输入特征图，F^′′表示标定后的特征图，M_S(F)表示空间注意力权重，f^7×7表示卷积核尺寸为7×7的二维卷积操作，AvgPool^c(·)、MaxPool^c(·)表示沿通道方向的平均值池化、最大值池化操作，空间注意力部分标定公式如下所示：

在C3模块中嵌入CBAM模块得到CBAMC3模块，具体嵌入位置在C3模块完成两分支处理拼接所得特征图后，如图4所示。

步骤2-2，更换YOLOv5卷积神经网络损失函数中所用IoU。

YOLOv5通过损失函数来回归物体的位置和物体的类别，具体使用CIoU来度量网络预测框与真实框的重叠程度。此处使用EIoU作为替换，以解决CIoU在预测框回归过程中，预测框和真实框的宽高比呈现线性比例时，CIoU中的相对比例惩罚项不起作用和预测框宽、高不能同增同减的缺陷。

S3，将目标检测数据集输入改进后的YOLOv5卷积神经网络进行训练：

步骤3-1，对输入图像进行Mosaic数据增强、自适应图片缩放等处理，最终网络输入3通道、大小为640×640的图像；

步骤3-2，输入经过主干网络Backbone完成特征提取。Backbone由CBS、CBAMC3、SPPF等模块组成，得到输入的8、16和32倍下采样的特征图作为下一部分的输入；

步骤3-3，将经过主干网络提取得到的特征图输入Neck层。YOLOv5的Neck层采用FPN+PAN结构，FPN结构自顶向下传达强语义特征，而PAN结构则自底向上传达强定位特征，两相结合，对不同的检测层进行参数聚合，进一步提高特征提取的能力；

步骤3-4，YOLOv5网络最终在尺寸为80×80、40×40、20×20的网格区域上进行预测。每个特征点都会生成三个预测框，每个预测框包含六个数据，分别为预测框的长w、宽h、中心点坐标(x,y)、置信度confidence和类别概率class，最终经过NMS等后处理操作完成目标定位和识别。

S4，将训练好的模型部署到AI应用开发板上进行目标检测与识别：

如图5所示，将训练好的Pytorch网络模型部署到AI应用开发板上，所述AI应用开发板采用华为Atlas 200DK，具体方法如下：

步骤4-1，搭建Atlas 200DK环境。安装CANN套件，完成Python环境准备和依赖安装；

步骤4-2，模型转换。原始网络使用的是PyTorch深度学习框架，最终获得的模型文件不能直接用于部署，故先将训练所得PyTorch模型文件先转化为ONNX文件，再通过ATC工具将其转换为Atlas 200DK支持的om文件；

步骤4-3，在Atlas 200DK上完成网络预处理、模型推理、后处理等的代码编写，实现复杂交通场景下的目标检测功能。

经过以上步骤，就可以对常见几种交通目标进行识别和定位。实际行车记录图片如图6所示。在Atlas 200DK上的检测结果如图7所示，可以看到需要检测的目标都被预测框框出。

本发明一实施例提供的计算装置。该实施例的计算装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述计算装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算装置可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算装置的各种功能。

所述计算装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于改进型卷积神经网络交通目标检测方法，其特征在于，包括以下步骤：

构建复杂交通环境下的目标检测数据集；

对YOLOv5卷积神经网络进行优化；

2.根据权利要求1所述的基于改进型卷积神经网络交通目标检测方法，其特征在于，所述构建复杂交通环境下的目标检测数据集，包括：

从SODA10M和BDD100K两个数据集中挑选不同场景、不同天气、不同时间段下的若干图像来构建数据集；将数据集的标签文件从COCO数据集格式转换为YOLO格式标注文件，并根据7：3的划分比例分为训练集和验证集。

3.根据权利要求1所述的基于改进型卷积神经网络交通目标检测方法，其特征在于，所述对YOLOv5卷积神经网络进行优化，包括：

步骤2-1，在YOLOv5卷积神经网络中添加注意力机制；

步骤2-2，更换YOLOv5卷积神经网络损失函数中所用IoU。

4.根据权利要求3所述的基于改进型卷积神经网络交通目标检测方法，其特征在于，所述步骤2-1，在YOLOv5卷积神经网络中添加注意力机制，包括：

步骤2-1-2，基于特征图的宽度和高度分别进行全局平均池化操作和全局最大池化操作，对每个特征通道进行通道压缩，得到两张1×1×C的特征图；然后分别经过双层的神经网络得到通道注意力权重，相加后通过激活函数得到归一化权重，加权到输入特征图的各个特征通道上；输入特征图F经过步骤2-1-2标定后得到的特征图F′表示如下：

其中，F表示输入特征图，M_C()表示通道注意力权重，

表示采用广播机制的元素级相乘操作，σ表示Sigmoid激活函数，MLP()表示一个共享的双层神经网络，AvgPool()表示全局平均池化，MaxPool()表示全局最大池化；

步骤2-1-3，将上一步得到的标定后的特征图F′在通道维度分别进行平均值池化和最大值池化，得到两张1×H×W的特征图，沿通道方向拼接后接着经过7×7的卷积核获得空间上注意力权重，通过激活函数处理获得归一化注意力权重并与输入相乘，完成特征标定；此步的输入特征图F′经过步骤2-1-3标定后得到的特征图F″表示如下：

其中，M_s()表示空间注意力权重，f^7×7表示卷积核尺寸为7×7的二维卷积操作，AvgPool^c()表示沿通道方向的平均值池化操作，MaxPool^c()表示沿通道方向的最大值池化操作。

5.根据权利要求3所述的基于改进型卷积神经网络交通目标检测方法，其特征在于，所述步骤2-2，更换YOLOv5卷积神经网络损失函数中所用IoU，包括：

使用EIoU替换YOLOv5卷积神经网络损失函数中的CIoU。

6.根据权利要求1所述的基于改进型卷积神经网络交通目标检测方法，其特征在于，所述将目标检测数据集输入改进后的YOLOv5卷积神经网络进行训练，包括：

步骤3-1，对输入图像进行Mosaic数据增强处理和自适应图片缩放处理，最终网络输入3通道、大小为640×640的图像；

步骤3-2，输入经过主干网络Backbone完成特征提取，得到输入的8、16和32倍下采样的特征图；所述主干网络Backbone由CBS模块、CBAMC3模块和SPPF模块组成；

步骤3-3，将经过主干网络提取得到的特征图输入YOLOv5卷积神经网络的Neck层；所述Neck层采用FPN+PAN结构，其中FPN结构自顶向下传达强语义特征，而PAN结构则自底向上传达强定位特征，对不同的检测层进行参数聚合，用于提高特征提取的能力；

步骤3-4，YOLOv5卷积神经网络在尺寸为80×80、40×40、20×20的网格区域上进行预测；每个特征点都会生成三个预测框，每个预测框包含六个数据，分别为预测框的长w、宽h、中心点坐标(x,y)、置信度confidence和类别概率class，最终经过NMS操作完成目标定位和识别。

7.根据权利要求1所述的基于改进型卷积神经网络交通目标检测方法，其特征在于，所述将训练好的模型部署到AI应用开发板上进行目标检测与识别，包括：

步骤4-1，搭建AI应用开发板环境；安装CANN套件，完成Python环境准备和依赖安装；所述AI应用开发板采用Atlas 200 DK；

步骤4-2，模型转换：将原始网络使用的PyTorch模型文件转化为ONNX文件，再通过ATC工具将其转换为Atlas 200 DK支持的om文件；

步骤4-3，在Atlas 200 DK上完成网络预处理、模型推理和后处理的代码编写，实现复杂交通场景下的目标检测功能。

8.基于改进型卷积神经网络交通目标检测系统，其特征在于，包括：

9.一种计算装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。