CN115512302A

CN115512302A - 基于改进YOLOX-s模型的车辆检测方法及系统

Info

Publication number: CN115512302A
Application number: CN202211324522.8A
Authority: CN
Inventors: 铁治欣; 宋滢锟; 陶灵兵; 陈燕兵
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-12-23

Abstract

本发明公开了一种基于改进YOLOX‑s模型的车辆检测方法及系统，涉及车辆检测技术领域。步骤为：获取车辆监控图像数据集；对车辆监控图像数据集进行图像增强，得到第一数据集；搭建改进型YOLOX‑s目标检测模型；利用改进型YOLOX‑s目标检测模型对第一数据集中的车辆位置和类别进行检测。本发明提出了一种新的车辆检测分类模型，在图片处理阶段，使用Mosaic数据增强，在主干网络底部加入注意力机制，抑制图像的干扰特征，将YOLOX‑s模型颈部网络的FPN+PAN结构替换为BiFPN结构，在不增加成本的情况下得到更多高层特征融合。本发明可以实现对真实交通监控数据的高效车辆检测。

Description

基于改进YOLOX-s模型的车辆检测方法及系统

技术领域

本发明涉及车辆检测技术领域，更具体的说是涉及一种基于改进YOLOX-s模型的车辆检测方法及系统。

背景技术

道路目标检测在计算机视觉领域是一项非常具有挑战性的任务，快速、准确的车辆检测和分类也是智能交通系统的关键。道路目标检测的难点在于要求在复杂场景中对相对较小的车辆进行精确定位，并进行实时检测。现有技术中，常用的道路目标检测方法可以分为两大类：传统的检测算法和基于深度学习的检测算法。传统的检测算法主要依靠人工提取原始图像中目标的描述性特征，然后训练分类器判断该区域是否包含目标物体，但是存在检测精度低的缺点，在一些背景复杂的交通图像中性能并不理想，而深度学习算法相对于传统算法，对于道路目标的多分类任务具有更好的稳定性、鲁棒性和计算速度，现阶段基于深度学习的检测算法已经成为主流。

然而，由于道路目标容易受到复杂背景和小目标稀疏特征的影响，很难快速、准确地检测和识别车辆类型。车辆识别研究发展至今，仍然面临着许多挑战，主要来自以下几个方面：(1)在不同的光照以及不同的天气条件下，车辆目标的表面特征会发生变化，导致同一类别的车辆产生较大的差异；(2)同一品牌的不同类型车辆外观可能很相似，导致不同类别车辆差异较小，较难进行识别；(3)监控摄像头的位置受限、角度多变，会导致同一车辆在图像中的尺寸、姿态产生比较大的变化，提高了识别的难度；(4)道路拥堵、车辆目标小和存在遮挡时容易出现误检、漏检等状况。因此，对本领域技术人员来说，研究更加准确鲁棒的精细化车型识别方法，具有重要的现实意义。

发明内容

有鉴于此，本发明提供了一种基于改进YOLOX-s模型的车辆检测方法及系统，以解决背景技术中提出的问题。

为了实现上述目的，本发明采用如下技术方案：一种基于改进YOLOX-s模型的车辆检测方法，具体步骤包括如下：

获取车辆监控图像数据集；

对所述车辆监控图像数据集进行图像增强，得到第一数据集；

搭建改进型YOLOX-s目标检测模型；

利用所述改进型YOLOX-s目标检测模型对所述第一数据集中的车辆位置和类别进行检测。

可选的，所述改进型YOLOX-s目标检测模型的搭建过程为：将ECA注意力机制加入YOLOX-s模型中，将YOLOX-s模型颈部网络的FPN+PAN结构替换为BiFPN结构。

通过采用上述技术方案，具有以下有益的技术效果：在主干网络尾部加入ECA注意力机制，使用卷积神经网络去自适应的将注意力放到重要的物体上，优化了网络对初始前景目标的特征提取能力，并在一定程度上屏蔽了复杂背景的负面影响，使模型更加关注目标而不是背景；将颈部网络中原本的PAN+FPN结构改为BiFPN结构，显著降低了模型的大小，减少了模型占用的内存，降低了模型的复杂度，实现了更多层次特征的融合。

可选的，利用Mosaic数据增强方法对所述车辆监控图像数据集进行图像增强。

通过采用上述技术方案，具有以下有益的技术效果：对数据集进行Mosaic数据增强处理，丰富了数据集，提高了网络模型在复杂交通场景下对小目标和多目标检测的鲁棒性。

可选的，所述Mosaic数据增强方法的步骤为：从所述车辆监控图像数据集中随意抽取若干图片，对所述若干图片进行缩放；创建画板，将完成缩放的若干图片进行图片合并，并处理检测框边界，得到所述第一数据集。

可选的，在所述BiFPN结构中使用加权特征融合机制，计算公式为：

其中，w_i表示第i个可学习权重，w_j表示第j个可学习权重，∈＝0.0001为设定值，I_i表示第i个分辨率不同的输入特征。

另一方面，提供一种基于改进YOLOX-s模型的车辆检测系统，包括依次相连的数据获取模块、数据增强模块、模型构建模块、检测分类模块；其中，

所述数据获取模块，用于获取车辆监控图像数据集；

所述数据增强模块，用于对所述车辆监控图像数据集进行图像增强，得到第一数据集；

所述模型构建模块，用于搭建改进型YOLOX-s目标检测模型；

所述检测分类模块，用于利用所述改进型YOLOX-s目标检测模型对所述第一数据集中的车辆位置和类别进行检测。

可选的，还包括数据预处理模块，与所述数据获取模块、所述数据增强模块相连，用于对所述车辆监控图像数据集设置预训练权重。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于改进YOLOX-s模型的车辆检测方法及系统，具有以下有益的技术效果：在YOLOX-s模型的基础上进行改进，提出了一种新的车辆检测分类模型，解决了复杂交通场景检测目标多、尺度不断变化、背景复杂、遮挡等问题，实现了对真实交通监控数据进行高效车辆检测，在检测相对较小的目标时具有良好的鲁棒性，能够满足道路交通图像信息实时、准确检测和识别的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的ECA注意力机制加入位置示意图；

图3为本发明的PANet特征金字塔网络结构图；

图4为本发明的BiFPN特征金字塔网络结构图；

图5为本发明的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于改进YOLOX-s模型的车辆检测方法，如图1所示，具体步骤包括如下：

S1、获取车辆监控图像数据集；

S2、对车辆监控图像数据集进行图像增强，得到第一数据集；

S3、搭建改进型YOLOX-s目标检测模型；

S4、利用改进型YOLOX-s目标检测模型对第一数据集中的车辆位置和类别进行检测。

进一步的，利用Mosaic数据增强方法对车辆监控图像数据集进行图像增强。Mosaic数据增强方法的步骤为：从车辆监控图像数据集中随意抽取若干图片，对若干图片进行缩放；创建画板，将完成缩放的若干图片进行图片合并，并处理检测框边界，得到所述第一数据集。

Mosaic数据增强方法的主要思想是将四张图片进行随机缩放、随机裁减、随机排布，再拼接到一张图上作为训练数据。具体的步骤为：

(1)图像缩放

举例：首先从数据集中任意抽取四张图片，此时四张图片的尺寸可能会不同，以其中某一图像为例，图像的尺寸为(w_i,h_i)，设图片中的一个检测框的中心点为(x_i,y_i)，检测框的大小变为(w_ci,h_ci)。接下来，利用cv2.resize()将四张图片统一缩放到(w,h)，此时检测框的中心变为(x,y)，检测框的宽高变为(w_c,h_c)。再乘以缩放比例scale，scale是0.6至0.8之间的一个随机数，得到压缩后的图像尺寸为(w_n,h_n)，检测框的中心由变为(x_n,y_n)，检测框的宽高变为(w_cn,h_cn)。对四张图片以及其中的所有检测框都做相同的处理。最后，生成四个尺寸为(w,h)的画板，将四张压缩后的图片分别放在画板的左上方，右上方，左下方和右下方。

(2)图像合并

首先设置拼接线，cutX代表x轴方向把图像分割成两块区域，cutY代表y轴方向把图片分割成两块。设置(cutX,cutY)代表四张图在几何坐标下进行切割，如左上方的图只取cutX左侧和cutY上侧的区域，超出cutX和cutY的区域都被删除。接下来创建一块新的大小为(w,h)的画板，将切割后的四张图片组合在一起。

(3)处理检测框边界

将四张图片进行合并后，某些图片中的检测框会覆盖到其他图片的区域，也存在部分检测车辆的框中没有目标的情况。因为只对图片进行了拼接，而图片对应的检测框仍然是原来拼接前的状态。因此需要对四张图像中所有的检测框进行如下处理：首先，将不在其对应图像所在区域内的检测框都剔除，接下来，将一部分在图像内、一部分在图像外的检测框，以区域分界线(cutX,cutY)代替越界的检测框线条重新绘制；最后，若修正后的检测框的高度或者宽度过于小，也将其剔除。

更进一步的，改进型YOLOX-s目标检测模型的搭建过程为：将ECA注意力机制加入YOLOX-s模型中，将YOLOX-s模型颈部网络的FPN+PAN结构替换为BiFPN结构。本发明在YOLOX-s模型的基础上进行改进，提出了一种新的车辆检测分类模型，将它命名为YOLOX-s-MEB模型。

ECA注意力机制

在本实施例中分别向模型中添加了三种注意力机制：CBAM、SE、ECA，实验比较之后发现ECA注意力机制能够为模型的性能带来最大程度的提升，克服性能和复杂性之间的矛盾。利用通道注意力(ECA)模块，充分考虑了人眼视觉效果和复杂背景特征的遮挡，自动学习图像中需要注意的地方，提高各通道的特征表达强度，增加通道特征的影响因素。该模块仅包含少量参数，可以有效的提升模型的精度，带来明显的性能提升。

ECANet提出不降维的局部跨信道交互策略和自适应选择一维卷积核大小的方法，实现了性能上的提升。ECABlock用一维卷积替换了全连接层，其中一维卷积核大小是通过通道数C来得到的。在不降低维数的情况下，对通道进行全局平均池化之后，通过大小为k的一维卷积来捕获每个通道及其k近邻的局部跨通道交互信息，卷积核大小k代表了局部跨信道交互的覆盖率，表示该通道附近有多少临近通道参与了这个通道的注意力预测。k值大小随通道数发生变化，这样能充分融合通道间的交互。如图2所示，在YOLOX-s模型的主干网络底部加入ECA注意力模块。

BiFPN结构

BiFPN是一种高效的双向跨尺度连接和加权特征融合结构。现有技术中有将YOLOV4模型与BiFPN模块相结合的做法，发现其可以提升模型检测速度，减少模型参数量，但未有将BiFPN与YOLOX-s模型相结合的研究。因此本发明研究了BiFPN模型的特点，提出将YOLOX-s颈部网络的PANet结构更换为BiFPN结构。两种特征金字塔网络PANet和BiFPN结构如图3、图4所示。

BiFPN对PANet网络的进行了一系列改进。首先，删除那些只有一个输入边的节点，因为这些节点对网络影响不大，删除它们可以达到简化双向网络的效果；接下来在处于同一层的原始输入节点和输出节点之间添加一条额外的边，这样可以在不增加太多计算成本的同时融合更多的特征；最后，将每个双向路径看作一个特征网络层，在同一层上多次重复，以实现更高层次的特征融合。

传统的特征融合往往只是简单的特征叠加，比如使用concat或者shortcut连接，不对同时加进来的特征进行区分。然而，不同的输入特征具有不同的分辨率，它们对特征融合的贡献也是不同的，因此简单的对它们进行相加或叠加处理并不是最佳的操作。为了解决这个问题，为每个输入特征增加一个额外的权重，让网络对不同输入特征有区分的融合。在本发明中使用的是一种简单而高效的加权特征融合的机制：Fastnormalizedfusio，计算公式为：

其中w_i表示第i个可学习的权重，可以是标量(每个特征)、向量(每个通道)或多维张量(每个像素)；w_j表示第j个可学习权重，∈＝0.0001是人为设定的值，用来避免数值不稳定；I_i表示第i个分辨率不同的输入特征。这种方法类似于Softmax，将结果控制在[0,1]之间，而且训练速度快、效率高。最终BiFPN集成了双向跨尺度连接和快速归一化。为了进一步提高效率，使用深度可分离卷积进行特征融合，并在每次卷积后进行批归一化和激活处理。

进一步的，采集数据集进行实验并与现有技术方法进行比较来证明本发明方法的有效性。

具体的，数据集：本实施例在UA-DETRAC基准数据集上评估本发明方法。该数据集由一台EOS550D相机在中国北京、天津等24个不同地点拍摄，包含超过80,000张真实车辆图像的60个视频，这些视频用紧密的边界框和多种车辆类型(汽车、公共汽车、面包车等)进行标注。UA-DETRAC数据集的目标物体分为以下三种遮挡状态：完全可见、部分被其他车辆遮挡和部分被背景遮挡，以及不同程度的截断。数据集中车辆大小分为小(0-50像素)、中(50-150像素)和大(超过150像素)三种。此外，天气条件是车辆检测的另一个重要因素，因此选取的数据集中包含多云、夜间、晴天和雨天这四种天气条件的图片数据。

将UA-DETRAC数据集的82082幅真实车辆图像划分为两部分：训练数据集包含40个序列，共计50410幅图像；测试数据集包含20个序列，共计31672幅图像。该数据集包含汽车、公共汽车、面包车等4种车辆类型的图像，将这四种车辆类型作为目标物体，在UA-DETRAC数据集上综合训练、测试了本发明提出的模型与对比模型，对所有模型均使用相同的训练和测试数据。

实验过程：将输入的图片重新进行缩放处理，使其宽度和高度统一规范为640*640像素，将其输入到目标检测模型中进行训练。在整个训练过程中，epoch设置为60，batch_size大小为8。网络中的动量衰减和权重衰减分别设置为0.9和0.0005，前四十个epoch的学习率设置为10^-4，41-50个epoch的学习率设置为10^-5，最后十个epoch的学习率设置为10^-6，共计60个epoch，并采用余弦退火的方式来规划学习率。检测的四种类别分别为car，van，bus，others，对应小汽车，面包车，公共汽车和其他类型车四种类型。

数据的预训练权重对不同数据集是通用的，因为特征是通用的，预训练权重对于99％的情况都必须要用，不用的话权值太过随机，特征提取效果不明显，网络训练的结果也不会好。因为本发明的改进模型未对YOLOX-s模型的主干网络进行修改，所以使用YOLOX-s模型的预训练权重。

测试时，设置MINOVERLAP为0.5，可获得mAP0.5，置信度confidence设置为0.5，非极大抑制所用到的nms_iou设置为0.3，最多预测框的数量max_boxes设置为100。实验过程中，采用Adam优化器对模型参数进行更新，整个实验在RTX-2080tiGPU上完成。

评价指标：选择均值平均精度mAP作为精度性能指标、检测速度FPS作为速度评价指标。其次，为了评判模型的复杂度，使用模型的参数量与计算量作为评价指标。

实验结果的指标对比：在相同的实验条件下，将FasterR-CNN、YOLOv4、SSD等主流目标检测方法与本发明模型进行了对比实验，各个模型在不同车辆类别上的精度以及平均精度的对比结果如表1所示，各个模型的大小、速度、参数量、计算量方面的对比结果如表2所示。

表1

从表1中可以看出，本发明提出的YOLOX-s-MEB模型比YOLOX-s模型的mAP提高了6.6％，比SSD模型提高了29.6％，比EfficientDet模型提高了7.0％，比FasterRCNN(Resnet50)模型提高了2.2％，比FasterRCNN(VGG16)模型提高了4.6％，比YOLOV4模型提高了3.7％，比YOLOV5模型提高了2.2％，比Centernet模型提高了1.6％。总体来说，YOLOX-s-MEB模型在所有的模型中检测精度达到了最优。

表2

从表2中可以看出，本发明提出的YOLOX-s-MEB模型比YOLOX-s模型的检测速度提高了9.76it/s，模型大小减少了9.64M，参数量减少了1,468,710，计算量减少了4.842G，在速度，精度，占用内存大小，时间复杂度和空间复杂度这几个方面均优于YOLOX-s模型。且在不同车辆类别上的检测速度也明显优于其他方法，实现了速度和精度的结合，达到了最好的检测效果。模型大小也相对较小，占用内存较低。虽然本发明模型的时间复杂度落后于EfficientDet和FasterRCNN模型，空间复杂度也落后于EfficientDet模型，但相对来说，在综合性能上达到了最优。虽然参数量和计算量略逊于EfficientDet，但模型的精度和速度都优于EfficientDet，非常有利于实时的车辆检测。由此可见，本发明的模型对于复杂交通场景中相对较小的目标检测具有良好的鲁棒性，在提高精度的同时，提高了检测速度。

此外，在UADETRAC数据集上，对本发明提出的模型YOLOX-s-MEB在YOLOX-s模型基础上所做的三个改进分别进行了消融实验，以进一步证明检测模型的有效性和鲁棒性，这在实际应用中至关重要，实验结果如表3、4所示：

表3

表4

从表3、4可以看出在对YOLOX-s模型仅进行Mosaic数据增强处理时，虽然模型检测速度略有下降，但模型对目标物体的检测精度有明显的提高，因为没有对模型结构进行改变，因此模型的参数量和计算量都没有变化。当只在模型的主干网络中加入ECA注意力机制时，模型对bus,car,others三类目标的检测精度均有细微的提高，对van目标的检测精度仅有0.05％的下降，检测速度有了4.7％的提高，虽然引入注意力机制导致模型的参数量和计算量略有提高，但注意力机制的添加能够将检测重心偏向我们需要得到的物体目标，以较小的复杂度提升换来较为明显的精度提升。当仅将模型颈部网络原本的PANet网络替换为BiFPN时，模型对bus,car,others三类目标的检测精度均有细微的提高，对van目标的检测精度有了1.19％的下降；但在模型参数和计算量这两方面均有大幅度的下降，说明此改进对于简化模型，降低模型复杂度方面有巨大的贡献。总而言之，消融实验表明了本发明提出对YOLOX-s模型的三个改进，分别对提高模型的精度、降低模型的复杂度、提高模型的检测速度等方面带来不同程度的性能提升，达到了较好的效果。

本发明实施例2提供一种基于改进YOLOX-s模型的车辆检测系统，如图5所示，包括依次相连的数据获取模块、数据增强模块、模型构建模块、检测分类模块；其中，

数据获取模块，用于获取车辆监控图像数据集；

数据增强模块，用于对车辆监控图像数据集进行图像增强，得到第一数据集；

模型构建模块，用于搭建改进型YOLOX-s目标检测模型；

检测分类模块，用于利用改进型YOLOX-s目标检测模型对第一数据集中的车辆位置和类别进行检测。

还包括数据预处理模块，与数据获取模块、数据增强模块相连，用于对车辆监控图像数据集设置预训练权重。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于改进YOLOX-s模型的车辆检测方法，其特征在于，具体步骤包括如下：

获取车辆监控图像数据集；

搭建改进型YOLOX-s目标检测模型；

2.根据权利要求1所述的一种基于改进YOLOX-s模型的车辆检测方法，其特征在于，所述改进型YOLOX-s目标检测模型的搭建过程为：将ECA注意力机制加入YOLOX-s模型中，将YOLOX-s模型颈部网络的FPN+PAN结构替换为BiFPN结构。

3.根据权利要求1所述的一种基于改进YOLOX-s模型的车辆检测方法，其特征在于，利用Mosaic数据增强方法对所述车辆监控图像数据集进行图像增强。

4.根据权利要求3所述的一种基于改进YOLOX-s模型的车辆检测方法，其特征在于，所述Mosaic数据增强方法的步骤为：从所述车辆监控图像数据集中随意抽取若干图片，对所述若干图片进行缩放；创建画板，将完成缩放的若干图片进行图片合并，并处理检测框边界，得到所述第一数据集。

5.根据权利要求2所述的一种基于改进YOLOX-s模型的车辆检测方法，其特征在于，在所述BiFPN结构中使用加权特征融合机制，计算公式为：

6.一种基于改进YOLOX-s模型的车辆检测系统，其特征在于，包括依次相连的数据获取模块、数据增强模块、模型构建模块、检测分类模块；其中，

所述数据获取模块，用于获取车辆监控图像数据集；

所述模型构建模块，用于搭建改进型YOLOX-s目标检测模型；

7.根据权利要求6所述的一种基于改进YOLOX-s模型的车辆检测系统，其特征在于，还包括数据预处理模块，与所述数据获取模块、所述数据增强模块相连，用于对所述车辆监控图像数据集设置预训练权重。