CN113033604B

CN113033604B - 一种基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质

Info

Publication number: CN113033604B
Application number: CN202110165935.5A
Authority: CN
Inventors: 高尚兵; 汪长春; 蔡创新; 相林; 陈浩霖; 于永涛; 周君; 朱全银; 张正伟; 郝明阳; 胡序洋; 张骏强; 李少凡
Original assignee: Huaiyin Institute of Technology
Current assignee: Jiangsu Kesheng Xuanyi Technology Co ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-11-15
Anticipated expiration: 2041-02-03
Also published as: CN113033604A

Abstract

本发明公开了一种基于SF‑YOLOv4网络模型的车辆检测方法、系统及存储介质，方法包括使用预构建的样本集对构建的SF‑YOLOv4网络模型进行训练，进而获取训练好的SF‑YOLOv4网络模型；构建的SF‑YOLOv4网络模型包括特征提取网络Darknet‑17、F‑FPN结构，预构建的样本集中包含一组已进行车辆目标标记的道路视频图像，将目标道路视频图像输入训练好的SF‑YOLOv4网络模型中，获取该图像中的车辆目标，系统包括执行各方法步骤的模块，存储介质存储有计算机程序，该程序用于执行前述方法；本发明用于快速准确的对视频图像中的车辆目标进行检测。

Description

一种基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质。

背景技术

随着经济的发展，高速公路历程和汽车保有量也不断增加，汽车不仅提高了人类现代化的生活水平，也推动了经济发展。但是，随着汽车数量的增加，使得高速公路的事故发生率也不断攀升，对人民的生命财产安全构成了极大威胁，同时，由于高速公路上长期保持紧张驾驶状态，容易造成疲劳，对行车过程中的前方车辆进行错误判断。因此，对高速公路上行驶车辆的前方车辆进行实施检测、识别显得尤为重要。

现有的对高速公路上的车辆进行检测的方法主要包括RCNN、Fast-R CNN和Faster-R CNN算法，该类算法为两阶段的目标检测算法，即该方法主要分为两步进行，第一步利用图像分割技术选出候选区域，第二步采用滑动窗口思想，将图像输入到神经网络中进行分类、回归操作。该方法可以充分提取图像特征，实现精确分类和定位，但是运行速度慢，且检测结果精确度不高。

发明内容

本发明的目的：提供一种检测结果精度高、处理速度快的基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质。

技术方案：本发明提供的基于SF-YOLOv4网络模型的车辆检测方法，用于对目标道路视频图像中的车辆目标进行检测，其特征在于，方法包括如下步骤：

步骤1：使用预构建的样本集对SF-YOLOv4网络模型进行训练，获取训练好的SF-YOLOv4网络模型；所述预构建的样本集中包含一组已进行车辆目标标记的道路视频图像；

SF-YOLOv4网络模型包括特征提取网络Darknet-17、F-FPN结构；

所述特征提取网络Darknet-17用于提取输入图像的特征图，提取的特征图包括104×104尺度的特征图、52×52尺度的特征图、26×26尺度的特征图、13×13尺度的特征图；

所述F-FPN结构用于将特征提取网络Darknet-17提取的13×13尺度的特征图进行卷积，将该卷积结果作为13×13尺度的输出预测；

所述F-FPN结构还用于将对13×13尺度的特征图进行卷积得到的卷积结果进行卷积和上采样操作，然后与特征提取网络Darknet-17提取的26×26尺度的特征图进行拼接，将该拼接结果作为26×26特征图的输出预测；

所述F-FPN结构还用于将26×26尺度的特征图进行拼接得到的拼接结果进行卷积和上采样操作后，然后与特征提取网络Darknet-17提取的52×52尺度的特征图进行拼接，将拼接结果进行卷积和上采样操作，将其作为与52×52尺度的特征图所对应的处理结果，然后将所述与52×52尺度的特征图所对应的处理结果和特征提取网络Darknet-17提取的104×104尺度的特征图进行拼接后再进行卷积和下采样操作，然后与52×52尺度的特征图所对应的处理结果进行进一步拼接，将拼接结果作为52×52尺度特征图的输出预测；

步骤2：将目标道路视频图像输入训练好的SF-YOLOv4网络模型中，获取该图像中的车辆目标。

SF-YOLOv4网络模型作为本发明的一种优选方案，所述特征提取网络Darknet-17中与各提取尺度所对应的特征提取层的残差和卷积操作次数分别均为1次。

作为本发明的一种优选方案SF-YOLOv4网络模型，在步骤1之前，所述方法还包括根据如下方法获取预构建的样本集：

步骤A、对拍摄装置捕获的预设时间段内的道路视频进行预处理，获取有效道路视频；

步骤B、使用计算机视觉技术对有效道路视频进行差帧处理，获取待标记道路视频图像；

步骤C、通过标记工具对待标记道路视频图像中的车辆目标进行标记，获取进行车辆目标标记的道路视频图像。

作为本发明的一种优选方案SF-YOLOv4网络模型，在步骤C中，利用LabelImg标记工具对道路视频图像中的车辆目标进行标记，标记内容包括用于标识车辆目标位置的矩形框，以及车辆目标的类别。

作为本发明的一种优选方案SF-YOLOv4网络模型，在对SF-YOLOv4网络模型进行训练时，基于余弦退火衰减设置训练过程中的学习率，激活函数为Mish激活函数。

本发明还提供了一种基于SF-YOLOv4网络模型的车辆检测系统，系统包括模型训练模块、检测模块；

所述模型训练模块，用于使用预构建的样本集对SF-YOLOv4网络模型进行训练，获取训练好的SF-YOLOv4网络模型；所述预构建的样本集中包含一组已进行车辆目标标记的道路视频图像；

SF-YOLOv4网络模型包括特征提取网络Darknet-17、F-FPN结构；

所述F-FPN结构还用于将26×26尺度的特征图进行拼接得到的拼接结果进行卷积和上采样操作后，然后与特征提取网络Darknet-17提取的52×52尺度的特征图进行拼接，将拼接结果进行卷积和上采样操作，将其作为与52×52尺度的特征图所对应的处理结果，然后将所述与52×52尺度的特征图所对应的处理结果和特征提取网络Darknet-17提取的104×104尺度的特征图进行拼接后再进行卷积和下采样操作，然后与52×52尺度的特征图所对应的处理结果进行进一步拼接，将拼接结果作为52×52尺度特征图的输出预测；；

所述检测模块，用于将目标道路视频图像输入训练好的SF-YOLOv4网络模型中，获取该图像中的车辆目标。

作为本发明的一种优选方案SF-YOLOv4网络模型，系统还包括用于获取预构建样本集的样本集构建模块；所述样本集构建模块用于执行如下指令：

本发明还提供了一种基于SF-YOLOv4网络模型的车辆检测系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行前述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述方法的步骤。。

有益效果：相对于现有技术，本发明提供的方法基于SF-YOLOv4网络模型进行车辆检测，在进行检测时其参数数量和计算量少，提高了检测速度，对特定场景具有良好的检测效果，对小目标的检测效果速率高。

附图说明

图1为本发明实施例提供的基于SF-YOLOv4的车辆分类检测方法及系统流程图；

图2为本发明实施例提供的SF-YOLOv4网络结构图；

图3为本发明实施例提供的部分数据集示意图；

图4位本发明实施例提供的数据集部分图片标注过程；

图5为本发明实施例提供的CSPNet残差网络结构示意图；

图6为本发明实施例提供的Mish激活函数图像；

图7为本发明实施例提供的训练过程部分截图；

图8为本发明实施例提供的SF-YOLOv4的检测效果；

图9为本发明实施例提供的SF-YOLOv4的各分类的recall；

图10为本发明实施例提供的SF-YOLOv4的mAP评价指标图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

参照图1，本发明提供的方法用于对目标道路视频图像中的车辆目标进行检测，主要包括如下步骤：

通过步骤A至步骤C获取预构建的样本集，使用该预构建的样本集对SF-YOLOv4网络模型进行训练，获取训练好的SF-YOLOv4网络模型，将目标道路视频图像输入训练好的SF-YOLOv4网络模型中，获取该图像中的车辆目标：

步骤C、通过标记工具对待标记道路视频图像中的车辆目标进行标记，获取进行车辆目标标记的道路视频图像；在一个实施例中，利用LabelImg标记工具对道路视频图像中的车辆目标进行标记，标记内容包括用于标识车辆目标位置的矩形框，以及车辆目标的类别。

基于步骤A至步骤C获取预构建的样本集，该预构建的样本集中包含一组已进行车辆目标标记的道路视频图像。

参照图2，SF-YOLOv4网络模型包括特征提取网络Darknet-17、F-FPN结构；

特征提取网络Darknet-17用于提取输入图像的特征图，提取的特征图包括104×104尺度的特征图、52×52尺度的特征图、26×26尺度的特征图、13×13尺度的特征图；F-FPN结构用于将特征提取网络Darknet-17提取的13×13尺度的特征图进行卷积，将该卷积结果作为13×13尺度的输出预测；F-FPN结构还用于将对13×13尺度的特征图进行卷积得到的卷积结果进行卷积和上采样操作，然后与特征提取网络Darknet-17提取的26×26尺度的特征图进行拼接，将该拼接结果作为26×26特征图的输出预测；F-FPN结构还用于将26×26尺度的特征图进行拼接得到的拼接结果进行卷积和上采样操作后，然后与特征提取网络Darknet-17提取的52×52尺度的特征图进行拼接，将拼接结果进行卷积和上采样操作，将其作为与52×52尺度的特征图所对应的处理结果，然后将所述与52×52尺度的特征图所对应的处理结果和特征提取网络Darknet-17提取的104×104尺度的特征图进行拼接后再进行卷积和下采样操作，然后与52×52尺度的特征图所对应的处理结果进行进一步拼接，经拼接结果作为52×52尺度特征图的输出预测；征提取网络Darknet-17中与各提取尺度所对应的特征提取层的残差和卷积操作次数分别均为1次。

在本发明实施例中，预构建样本集时所用的视频数据为长途汽车在高速公路上行驶时通过车载摄像机采集的以司机为第一视角的视频数据。由于原始数据中存在许多与后续图像处理操作无关的信息和噪声，所以需要进行图像预处理，预处理主要包括无效的视频段和去除噪声，最终获取有效道路视频，为后续的图像处理提供数据支持。

针对通过预处理获取的有效道路视频，对有效道路视频进行差帧处理，获取待标记道路视频图像：选择预设时间段内的一部分视频，利用图像处理技术，每隔固定帧数截取视频帧图像，并保存到本地文件夹中，获取的图片数据如图3所示，在本实施例中共截取保存视频帧14392张。

在获取待标记道路视频图像后，利用LabelImg标注工具对其中各图像中的车辆目标进行标注，选择VOC格式数据，并生成XML文件，标注过程如图4所示。根据在实际高速公路中发生事故时造成的生命财产损失程度，将可能出现的车辆分类为car，bus，truck，Danger_car四个类别，其分类标准为：car为常见的七座及七座以下车辆，bus为常见的大巴车、中巴车等客运车辆；truck为常见的货车(含厢式货车)、卡车等货运车辆；Danger_car为常见的危化品车辆，包括含油罐车、危化品车辆等，参照分类类型对车辆目标进行类别的标记，并使用矩形框对车辆目标的位置进行标注。

在本实施例中，建立存放数据文件为VOCdevkit，文件包括三个子文件夹，分别为Annotations，ImageSets，JPEGImages。其中Annotations用于保存XML文件，JPEGImages用于保存训练图像，ImageSets用于保存训练索引文件。在ImageSets中建立子文件夹Main，对已有的车辆分类图片数据按比例生成训练样本集和测试样本集，训练集与测试集比例为7:3，训练样本集为train.txt，测试样本集为test.txt，其中存放JPEGImage中的图片的绝对路径。利用YOLO框架中自带的代码将VOC格式文件转换成YOLO自定义格式的文件。

对于基于SF-YOLOv4网络模型的车辆检测方法，其检测原理为：首先，将输入图像划分为S×S个网格(grid cell)，每个网格负责检测中心落在该网格中的物体。每一个网格预测B个边界框(bounding boxes)，以及这些边界框的置信度(Confidence scores)，置信度反映了模型对于这个网格中目标(object)的预测：该网格中是否含有目标，以及这个预测框的坐标预测的有多准。置信度(Confidence scores)的值Confidence的公式定义如下：

Confidence＝Pr(Object)*IOU

其中，Pr(Object)表示当前预测卷积框中是否有对象的概率值，其取值为0表示预测框中无对象)，其取值为1表示预测框中含有对象。

如果这个网格中不存在一个目标，则Confidence应该为0，否则，Confidencescore等于预测框与真实框框之间的交并比(IOU)。

YOLOv4网络主要由主干特征提取网络(CSPDarknet53)、特征金字塔(SPP和PANet)、输出预测(YOLO_Head)等部分组成。针对YOLOv4的网络结构提出改进获取SF-YOLOv4网络结构，改进主要包括：将主干特征提取网络由CSPDarknet-53改为CSPDarknet-17；去除SPP结构；将PANet改为F-FPN结构。具体如下：

主干特征提取网络用于对图像信息特征进行提取，在YOLOv4中采用CSPDarknet53作为主干提取网络，其过程是对输入图像经过一次DarknetConv2D_BN_Mish后，通过一系列的残差块，每个卷积块实现降维和扩充通道的作用，最后输出特征信息到特征融合部分。残差部分采用CSPnet结构，该结构将原来的残差块的堆叠进行一个拆分，拆成左右两部分：主干部分继续进行原来的残差块的堆叠，另一部分则像一个残差边一样，经过少量处理后直接连接到最后，CSPnet残差结构如图5所示。YOLOv4的残差块的重复执行，主要是对208×208，104×104，52×52，26×26，13×13的特征信息部分分别执行1次、2次、8次、8次、4次操作。

在SF-YOLOv4网络结构中，对于主干特征提取部分，将上述重复执行1次、2次、8次、8次、4次的残差结构分别均减少至执行一次。

由于本实例是对单一特征场景目标进行检测，减少残差层数，对精确度的影响可以忽略不计，却可以大幅度减少数据量和计算量，有效的提升检测速度。

在SF-YOLOv4网络结构中，其残差块部分采用CSPnet结构，激活函数采用Mish激活函数，该函数在训练时相比于relu函数在稳定性、准确率等方面都有全面提升。Mish激活函数公式如下所示，其图像如图6所示。

Mish＝x×tanh(ln(1+e^x))

其中，x为输入值，tanh(.)为双曲正切函数，Mish为激活函数的输出值，公式中的Mish作为因变量表示的是输出结果。

从图6中可以看出：Mish是一个平滑的曲线，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化。在负值的时候并不是完全截断而是允许比较小的负梯度流入，从而保证信息流动。另外Mish函数也保证了每一点的平滑，从而使得梯度下降效果比Relu要好。

在YOLOv4中，通过一系列主干特征提取网络对图像特征信息进行提取后得到的特征信息图，将13×13尺度的输出经过SPP结构，该结构作用在CSPDarknet53的最后一个特征层的卷积上，在对CSPDarknet53的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度的最大池化进行处理，最大池化的池化核大小分别为13x13、9x9、5x5、1x1(1x1即无处理)，其作用是为了能够极大地增加感受视野，进一步分离出显著的上下文特征。由于本发明用于高速公路场景的目标检测，其检测环境简单，检测目标单一，因此，该SPP结构对本实例的检测效果可以忽略，所以在本发明构建的SF-YOLOv4网络结构中，删去该SPP结构，以提高数据处理速度，加快检测效率。

在YOLOv4中，主要是在三个有效特征层上使用PANet结构，该结构的优点是可以增强特征信息，缺点是过程更加复杂，增加参数。在本发明中，在FPN(多尺度融合)上进行改进得到F-FPN，创新性的对四个有效特征层上使用F-FPN结构，将104×104结构的特征信息加入特征融合部分，而最终通过输出三尺度对特征进行预测。相比于PANet网络，F-FPN结构的参数量和计算量更少，由于本实例中是对单一场景进行目标融合，因此，使用F-FPN不会对结果造成影响。另外，由于加入104×104尺度的特征信息，使基于SF-YOLOv4网络模型进行小目标检测时，检测结果更加准确。

参照图2，F-FPN结构主要是将经过主干网络进行特征提取后的13×13尺度，26×26尺度，52×52尺度，104×104尺度的特征图输入F-FPN网络中：该网络首先对主干特征提取网络中得到的13×13尺度的特征图进行三次卷积，然后将卷积结果作为13×13尺度的输出预测；同时，将卷积结果进行卷积和上采样操作后与主干特征提取网络中得到的26×26尺度的特征图进行拼接后的结果作为26×26尺度的输出预测；再将上述堆叠后的结果进行卷积和上采样操作后与主干特征提取网络中得到的52×52尺度的特征图进行拼接后，再进行卷积和上采样操作与主干特征提取网络中得到的104×104尺度的特征图进行拼接后再进行卷积和下采样操作后，与52×52尺度结构进行进一步拼接后作为52×52尺度的输出。此改进方法可以将主干特征提取网络中的104×104尺度的特征图加入特征融合，根据目标检测算法原理可知，加入104×104尺度后可以提高模型对于小目标的检测效果。

SF-YOLOv4网络模型还包括YOLO_Head，在完成主干特征提取和特征融合后，通过YOLO_Head对信息进行预测输出。该YOLO_Head部分采用YOLOv3的预测输出结构，即通过3×3的卷积和1×1的卷积实现。

本发明中使用的深度学习框架为Pytorch，其通道数默认在第一位，因此，对于输入N张416×416的图片，在经过多层的运算后，会输出三个shape分别为(N,255,13,13)，(N,255,26,26)，(N,255,52,52)的数据，对应每个图分为13x13、26x26、52x52的网格上3个先验框的位置。最后，对上述过程进行解码后得到最终的预测框的中心，再利用先验框和宽高计算出预测框的长和宽，即可得到整个预测框的位置，经过非极大抑制筛选后在原图中描绘出目标的最小包围矩形。

SF-YOLOv4网络模型的训练：将制作完成的VOC数据集输入SF-YOLOv4网络进行训练，设置相应的参数后，进行模型训练，得到训练好的SF-YOLOv4网络模型。其具体操作步骤如下所示：

首先，替换训练数据集。运行前需要将数据集和分类改成自建数据集以及分类，本发明中，根据交通事故造成的生命财产损失将车辆分类为：car，bus，truck，Danger_car。

然后，训练前准备。需要将添加自己的分类文件，设置相应参数，包括学习率、数据增强、Label Smoothing平滑、anchors，classes等，其中，学习率使用余弦退火衰减法，其初始为10^-3，最终降低至10^-4。设置0.3用于验证，0.7用于训练，设置Batch_size为4，设置训练100个Epochs。

最后，对样本数据进行训练。根据上述设置参数，采用迁移学习思想，对文件进行训练，并对每次训练过程进行验证。

本发明所使用的实验环境如下所示：

操作系统：

Windows10 64位

硬件环境：

Inter Core i5-7500@3.40GHZ四核

16GB DDR4 2400MHZ RAM

Nvidia GTX 1660SUPER with 6GB DRAM

WDS 120G with SSD

软件环境：

深度学习框架PyTorch stable(1.2)

运行环境Python 3.6

JetBrains PyCharm 2019.1.1x64

CUDA10.2

训练过程部分截图如图7所示。训练过程共迭代125200次，直至训练损失(LOSS)不再下降为止。并设置保存训练模型。

基于训练好的SF-YOLOv4网络模型进行检测：利用训练好的模型对其他视频中的车辆目标进行实时检测，其具体步骤如下所示：

首先，将现有模型替换成保存的模型文件，并保持其他参数不变。

然后，使用除制作数据集以外的其他行车视频作为预测数据，对预测视频中的车辆目标及位置进行检测，并在原视频中显示车辆位置及目标分类。预测效果图如图8所示。其中，预测速度可以达到16FPS，对小目标的预测也具有良好效果；

最后，对模型进行评价。利用recall和mAP评价指标对模型进行评价。recall是指分类器认为是正类并且确实是正类的部分占所有确实是正类的比例，如图9所示。可以通过如下公式计算得到：

其中，TP全称为True Positives，其指的是被分配为正样本，而且分配对了的样本，代表的是被正确分类的正样本；FN的全称为False Negatives，其指的是被分配为负样本，但分配错了的样本，代表的是被错误分类的正样本。

mAP作为一种多分类目标检测的评价标准，是衡量模型的性能的重要标准。mAP通过对所有分类的AP值求平均得到。本发明中提出的SF-YOLOv4目标检测算法计算得到的mAP如图10所示。从图中可以发现，本发明提出的一种基于SF-YOLOv4的车辆检测算法的检测精度可以达到91.50％。

模型训练模块，用于使用预构建的样本集对SF-YOLOv4网络模型进行训练，获取训练好的SF-YOLOv4网络模型；所述预构建的样本集中包含一组已进行车辆目标标记的道路视频图像；

SF-YOLOv4网络模型包括特征提取网络Darknet-17、F-FPN结构；

特征提取网络Darknet-17用于提取输入图像的特征图，提取的特征图包括104×104尺度的特征图、52×52尺度的特征图、26×26尺度的特征图、13×13尺度的特征图；

F-FPN结构用于将特征提取网络Darknet-17提取的13×13尺度的特征图进行卷积，将该卷积结果作为13×13尺度的输出预测；

F-FPN结构还用于将对13×13尺度的特征图进行卷积得到的卷积结果进行卷积和上采样操作，然后与特征提取网络Darknet-17提取的26×26尺度的特征图进行拼接，将该拼接结果作为26×26特征图的输出预测；

F-FPN结构还用于将26×26尺度的特征图进行拼接得到的拼接结果进行卷积和上采样操作后，然后与特征提取网络Darknet-17提取的52×52尺度的特征图进行拼接，将拼接结果进行卷积和上采样操作，将其作为与52×52尺度的特征图所对应的处理结果，然后将所述与52×52尺度的特征图所对应的处理结果和特征提取网络Darknet-17提取的104×104尺度的特征图进行拼接后再进行卷积和下采样操作，然后与52×52尺度的特征图所对应的处理结果进行进一步拼接，经拼接结果作为52×52尺度特征图的输出预测；；

系统还包括用于获取预构建样本集的样本集构建模块；所述样本集构建模块用于执行如下指令：

在步骤C中，利用LabelImg标记工具对道路视频图像中的车辆目标进行标记，标记内容包括用于标识车辆目标位置的矩形框，以及车辆目标的类别。

本发明实施例还一种基于SF-YOLOv4网络模型的车辆检测系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述方法的步骤。

本发明提供的方法基于SF-YOLOv4网络模型进行检测，该算法在检测精度和速度上均能达到较好的效果，参照图10，基于本发明的方法进行车辆检测，其mAP达到91.50％，检测速度达到16FPS，其检测精度高且检测速度高的，成功做到在单一场景下的速度与精度的完美契合。

本发明提出的方法，相比于现有的预测网络模型算法，其参数量和计算量均有明显下降，有效提高检测速度，对单一特定场景具有良好的检测效果，对小目标的检测效果精确度也有明显提升；本发明提出的方法不仅可以预测出车辆目标，还可以在预测车辆目标时标记出车辆的分类结果，根据在高速公路上发生交通意外所造成的生命财产损失程度对车辆类别进行分类，充分考虑到现实情况，更适合应用到实际应用中。

以上所述仅是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于SF-YOLOv4网络模型的车辆检测方法，用于对目标道路视频图像中的车辆目标进行检测，其特征在于，方法包括如下步骤：

SF-YOLOv4网络模型包括特征提取网络Darknet-17、F-FPN结构；

所述特征提取网络Darknet-17用于提取输入图像的特征图，提取的特征图包括104×104尺度的特征图、52×52尺度的特征图、26×26尺度的特征图、13×13尺度的特征图；所述特征提取网络Darknet-17为：基于Darknet-53中各提取尺度所对应特征提取层的残差和卷积操作次数分别均为1次；

所述特征提取网络F-FPN首先将特征提取网络Darknet-17提取的13×13尺度的特征图进行卷积，将该卷积结果作为13×13尺度的输出预测；

同时，将13×13尺度的特征图进行卷积得到的卷积结果进行卷积和上采样操作后，与特征提取网络Darknet-17提取的26×26尺度的特征图进行拼接，将该拼接结果作为26×26特征图的输出预测；

再将26×26尺度的特征图进行拼接得到的拼接结果进行卷积和上采样操作后，与特征提取网络Darknet-17提取的52×52尺度的特征图进行拼接，将拼接结果进行卷积和上采样操作后，将其作为与52×52尺度的特征图所对应的处理结果，然后将所述与52×52尺度的特征图所对应的处理结果和特征提取网络Darknet-17提取的104×104尺度的特征图进行拼接后再进行卷积和下采样操作，然后与52×52尺度的特征图所对应的处理结果进行进一步拼接，将拼接结果作为52×52尺度特征图的输出预测；

2.根据权利要求1所述的基于SF-YOLOv4网络模型的车辆检测方法，其特征在于，所述特征提取网络Darknet-17中与各提取尺度所对应的特征提取层的残差和卷积操作次数分别均为1次。

3.在根据权利要求1所述的基于SF-YOLOv4网络模型的车辆检测方法，其特征在于，在步骤1之前，所述方法还包括根据如下方法获取预构建的样本集：

4.根据权利要求3所述的基于SF-YOLOv4网络模型的车辆检测方法，其特征在于，在步骤C中，利用LabelImg标记工具对道路视频图像中的车辆目标进行标记，标记内容包括用于标识车辆目标位置的矩形框，以及车辆目标的类别。

5.根据权利要求1所述的基于SF-YOLOv4网络模型的车辆检测方法，其特征在于，在对SF-YOLOv4网络模型进行训练时，基于余弦退火衰减设置训练过程中的学习率，激活函数为Mish激活函数。

6.一种基于SF-YOLOv4网络模型的车辆检测系统，其特征在于，系统包括模型训练模块、检测模块；

SF-YOLOv4网络模型包括特征提取网络Darknet-17、F-FPN结构；

7.根据权利要求6所述的基于SF-YOLOv4网络模型的车辆检测系统，其特征在于，系统还包括用于获取预构建样本集的样本集构建模块；所述样本集构建模块用于执行如下指令：

8.根据权利要求7所述的基于SF-YOLOv4网络模型的车辆检测系统，其特征在于，在步骤C中，利用LabelImg标记工具对道路视频图像中的车辆目标进行标记，标记内容包括用于标识车辆目标位置的矩形框，以及车辆目标的类别。

9.一种基于SF-YOLOv4网络模型的车辆检测系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行权利要求1~5任一项所述方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1~5任一项所述方法的步骤。