CN113569702A

CN113569702A - 基于深度学习的货车单双胎识别方法

Info

Publication number: CN113569702A
Application number: CN202110835024.9A
Authority: CN
Inventors: 班榕; 李佐勇; 罗海波; 黎刘斌; 吴荣腾; 余兆钗
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-29
Anticipated expiration: 2041-07-23
Also published as: CN113569702B

Abstract

本发明涉及一种基于深度学习的货车单双胎识别方法。包括：检测车轴的位置与车胎类型：利用YOLOv5s深度神经网络模型对输入视频的每一帧进行检测，若检测到目标即轮胎，则返回目标检测类别即单/双胎，以及目标检测框即轮胎所在矩形中心点的像素坐标与矩形框的宽度和高度；对检测到的车胎进行跟踪计数：对目标检测框的检测结果进行判断，若在检测区域内，执行SORT算法，判断是不是新出现的目标，若是新出现的目标，则计数器加1，即记录增加的是单/双胎数目；否则，更新目标位置；最后，输出车胎计数结果和记录的单双胎序列。本发明能够实现对地磅上缓缓开过的货车进行单双胎的识别，有效提高货车超重检测效率。

Description

基于深度学习的货车单双胎识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的货车单双胎识别方法。

背景技术

随着我国经济的迅速发展及路网结构的不断完善，我国民用载货汽车拥有量逐年增加，但因货车超载引发的道路交通事故时有发生。为有效预防和减少此类事件，货车超载检测势在必行。检测货车是否超载的做法为：根据货车轮轴数量与单双胎类型计算货车的标准载重量，与地磅测出的实际载重量进行对比，从而得出货车超载与否的结论。该方法有效地解决了人工检测成本高、不确定性强等问题，极大地提高了检测的精确度。

检测货车是否超重通常需要根据货车轮轴数量与单双胎类型计算货车的标准载重量，与地磅测出的实际载重量进行对比，从而得出货车超载与否的结论。检测过程中的一个关键步骤就是计算货车的标准载重量。传统的检测方式是用人眼对车辆车轴和车胎情况进行判断，该方法检测效率低、人工成本高且手动换算标准载重容易出错。随着人工智能技术的发展，计算机视觉技术在工业领域应用前景良好。利用摄像头代替人眼观察车轴、车胎，完成货车标准载重的计算，既节省了人力，又有录像存证，能够为后续超重处罚提供有力证据。但由于拍摄场景所限，摄像头很难拍到完整的货车车身，以现有的轮轴计数与车胎图像拼接识别技术难以满足实际应用需求。

发明内容

本发明的目的在于针对货车超重检测问题，利用基于深度学习的图像识别技术，提供一种基于深度学习的货车单双胎识别方法，能够实现对地磅上缓缓开过的货车进行单双胎的识别，有效提高货车超重检测效率。

为实现上述目的，本发明的技术方案是：一种基于深度学习的货车单双胎识别方法，包括：

S1、检测车轴的位置与车胎类型：利用YOLOv5s深度神经网络模型对输入视频的每一帧进行检测，若检测到目标即轮胎，则返回目标检测类别即单/双胎，以及目标检测框即轮胎所在矩形中心点的像素坐标与矩形框的宽度和高度；

S2、对检测到的车胎进行跟踪计数：对目标检测框的检测结果进行判断，若在检测区域内，执行SORT算法，判断是不是新出现的目标，若是新出现的目标，则计数器加1，即记录增加的是单/双胎数目；否则，更新目标位置；最后，输出车胎计数结果和记录的单双胎序列。

在本发明一实施例中，所述步骤S1具体实现如下：

S11、图像预处理：对视频的帧图像进行图像缩放处理，将图像的长边缩放到320，短边以相同比例进行缩放，然后填充一定的灰色区域，缩放后图像的尺寸记为(X,Y)，X和Y的值可通过公式(1)-(5)计算得到，其中，R为缩放的比例，H和W分别为输入图像的高度和宽度，dw为缩放后图像宽度方向上需要填充灰色像素点的列数，dh为缩放后图像高度方向上需要填充像素点的行数，int为向下取整，％为取余操作；

dw＝[(320-int(W×R))％64]/2 (2)

dh＝[(320-int(H×R))％64]/2 (3)

X＝W×R+2×dw (4)

Y＝H×R+2×dh (5)

S12、将预处理后的图像输入YOLOv5s深度神经网络模型：

1)预处理后的图像首先进入YOLOv5s深度神经网络模型的Focus模块，该模块将输入图像的宽度和高度变为原来的1/4，深度方向变为原来的4倍，具体做法为间隔一个像素进行采样，然后在深度方向上进行拼接；而后，在拼接好的图像上进行一次输出通道数为64、卷积核大小为3*3、步长为1的卷积；接着，对卷积后的特征图进行归一化操作和利用LeakReLU激活函数进行激活；

2)YOLOv5s深度神经网络模型利用CONV模块与BottleneckCSP堆叠实现图像特征提取，其中，CONV模块进行卷积、归一化、激活操作，激活函数为LeakReLU；每个Concat模块有两个输入，输入的特征图高度和宽度相同，其作用是将两个输入特征图在深度方向上进行拼接；YOLOv5s深度神经网络模型的SPP模块使用三个大小分别为5、9、13的池化核做步长为1的最大池化操作，融合不同尺度下的图像特征；

3)YOLOv5s深度神经网络模型的Neck部分采用FPN+PAN的结构，即上采样与下采样形成的特征金字塔结构，Neck部分用于生成特征金字塔，在不同的层预测不同尺度的目标，能够有效加强网络特征融合的能力，检测出更多的小目标；

4)YOLOv5s深度神经网络模型输出三个特征，尺寸分别是21*10*10、21*20*20、21*40*40，可看成(4+1+2)*3，其中，4+1+2的4代表边界框的中心坐标xy和宽高wh这四个参数，1代表这个边界框为前景的置信度，2代表类别，即单/双胎，最后的*3是因为预测特征层每个像素点有三个anchor；然后，对YOLOv5s深度神经网络模型的输出进行非极大值抑制，获取最后的目标检测框和目标检测类别。

在本发明一实施例中，所述对YOLOv5s深度神经网络模型的输出进行非极大值抑制，即对YOLOv5s深度神经网络模型的输出的重叠的候选框，利用非极大值抑制找到最佳的目标候选框，具体的每个候选框都有置信度得分，对于有重叠的候选框，选取其中置信度最高的一个候选框作为最后结果，对于没有重叠的就直接保留下来，作为最后结果。

在本发明一实施例中，所述步骤S2具体实现方式如下：

考虑车胎进入检测区域是有先后顺序的，并且运行方向一般是从左到右或从右到左，因此采用下列公式计算阈值：

式中，right、left分别表示目标所在矩形框的右边界、左边界的列号；bottom、top分别表示目标所在矩形框的下边界、上边界的行号；

计算当前帧检测到的目标与上一帧检测到的目标之间的距离；如果当前帧检测到的目标能够在上一帧中找到一个目标，它们之间的距离小于阈值，则认为该目标已经出现过，若在上一帧中找不到任何一个目标与当前帧中的该目标距离小于阈值，则认为该目标是当前帧新出现的目标，在每次计数器增加时，记录增加的是单胎还是双胎，最后输出车胎计数结果和记录的单双胎序列。

相较于现有技术，本发明具有以下有益效果：本发明方法实现对地磅上缓缓开过的货车进行车轴计数及车胎类型的实时判断，本发明方法使用YOLOv5s深度学习模型检测目标所在图像区域，将目标区域输入SORT算法进行跟踪计数，借此快速识别货车车轴数量与车胎类型。实验结果表明，基于深度学习的货车车轴计数与单双胎的识别准确率高、实时性强，具有广泛的应用前景。

附图说明

图1为本发明方法的流程图。

图2为图像预处理结果：(a)原图像，(b)预处理后图像。

图3为Focus模块对图像的处理。

图4为LeakReLU激活函数。

图5为YOLOv5s结构图。

图6为BottlenneckCSP结构图。

图7为SPP结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，本发明一种基于深度学习的货车单双胎识别方法，包括：

以下为本发明具体实现流程。

1、检测车轴的位置与车胎类型

将摄像头拍摄到的视频流作为本发明算法的输入，算法利用YOLOv5s深度神经网络模型对输入视频的每一帧进行检测，如果检测到目标(轮胎)，就返回目标的类型(即单双胎)以及目标的位置，即轮胎所在矩形中心点的像素坐标与矩形框的宽度和高度，具体步骤如下：

1)图像预处理：对视频的帧图像进行图像缩放(resize)处理，为保证图像不因缩放而变形，将图像的长边缩放到320，短边以相同比例进行缩放，然后填充一定的灰色区域，缩放后图像的尺寸记为(X,Y)。X和Y的值可通过公式(1)-(5)计算得到，其中，R为缩放的比例，H和W分别为输入图像的高度和宽度，dw为缩放后图像宽度方向上需要填充灰色像素点的列数，dh为缩放后图像高度方向上需要填充像素点的行数，int为向下取整，％为取余操作。图像预处理结果如图2所示。

dw＝[(320-int(W×R))％64]/2 (2)

dh＝[(320-int(H×R))％64]/2 (3)

X＝W×R+2×dw (4)

Y＝H×R+2×dh (5)

2)将预处理后的图像输入网络YOLOv5s：预处理后的图像首先进入此神经网络模型的Focus模块，该模块将输入图像的宽度和高度变为原来的1/4，深度方向变为原来的4倍，具体做法为间隔一个像素进行采样，然后在深度方向上进行拼接，如图3所示。

然后，在拼接好的图像上进行一次输出通道数为64、卷积核大小为3*3、步长为1的卷积。接着，对卷积后的特征图进行归一化操作和利用LeakReLU激活函数进行激活。LeakReLU激活函数如图4所示。

YOLOv5s主要利用CONV模块与BottleneckCSP堆叠实现图像特征提取，其中，CONV模块进行卷积、归一化、激活操作，激活函数为LeakReLU。图5是YOLOv5s的结构图，其中，Focus和CONV模块括号内的数字依次代表输入特征通道数、输出特征通道数、卷积核大小、卷积操作步长。BottleneckCSP模块括号内的数字依次代表输入的通道数、输出的通道数；括号后有“×3”的字样表示连续三个相同模块Backbone中BottleneckCSP模块拥有相同的输入输出通道数，其借鉴残差网络间BottleneckCSP的输入与输出做一个加法，实现特征融合，具体结构如图6所示。每个Concat模块有两个输入，输入的特征图高度和宽度相同，其作用是将两个输入特征图在深度方向上进行拼接。SPP模块结构如图7所示，使用三个大小分别为5、9、13的池化核做步长为1的最大池化操作，融合不同尺度下的图像特征。

YOLOv5s的Neck部分采用FPN+PAN的结构，Neck部分主要用于生成特征金字塔。特征金字塔会增强模型对于不同缩放尺度对象的检测，能够识别不同大小和尺度的同一类物体。FPN是自上而下的结构，利用上采样方式对信息进行传递融合，获得预测的特征图，可以提高小尺寸目标的检测效果。而PAN在FPN的基础上加了一个自底向上的增强(采用自底向上的特征金字塔)，使得顶层feature map可以享受到底层带来的丰富的位置信息，从而提升了大物体的检测效果。这种利用上采样与下采样形成的特征金字塔结构，在不同的层预测了不同尺度的目标，能够有效加强网络特征融合的能力，检测出更多的小目标。

YOLOv5s网络会输出三个特征，尺寸分别是21*10*10、21*20*20、21*40*40，可以看成(4+1+2)*3，其中，4+1+2的4代表边界框的中心坐标xy和宽高wh这四个参数，1代表这个边界框为前景的置信度，2代表类别(单胎、双胎)，最后的*3是因为预测特征层每个像素点有三个anchor。然后，对模型的输出进行非极大值抑制，获取最后的物体检测框和物体检测类别。非极大值抑制，简称NMS算法(Non-Maximum Suppression)，其思想是搜索局部最大值，抑制不是极大值的元素。检测过程中，同一个目标位置会产生大量的候选框，这些候选框之间可能会有重叠，需要利用非极大值抑制找到最佳的目标候选框。每个候选框都有置信度得分，对于有重叠的候选框，选取其中置信度最高的一个候选框作为最后结果，对于没有重叠的就直接保留下来，作为最后结果。

2、对检测到的车胎进行跟踪计数

对目标候选框的检测结果进行判断，如果在检测区域内，执行SORT算法，判断是不是新出现的目标。如果是新目标，则计数器加1；否则，更新目标位置。

原始的SORT算法要先计算当前帧的所有检测框与上一帧所有检测框的IoU(Intersection over Union)，然后判断IoU值是否大于阈值，决定是否需要进行跟踪。这里，我们考虑车胎进入检测区域是有先后顺序的，并且运行方向一般是从左到右或从右到左，没必要计算IoU，因此改为采用下列公式计算阈值。

计算当前帧检测到的目标与上一帧检测到的目标之间的距离。如果当前帧检测到的目标能够在上一帧中找到一个目标，它们之间的距离小于阈值，则认为该目标已经出现过。若在上一帧中找不到任何一个目标与当前帧中的该目标距离小于阈值，则认为该目标是当前帧新出现的目标。在每次计数器增加时，记录增加的是单胎还是双胎。算法结束，输出车胎计数结果和记录的单双胎序列。

3、实验结果

判断货车是否超重的关键是确定货车的车轴数量与车胎类型，推算出货车的标准载重量，与地磅测出的实际载重量进行对比。为了验证本发明方法对车轴计数和车胎类型判断的有效性和实时性，本发明选用不同时间段在福州高速西物流园采集的视频作为测试样本，共有15段视频，每段视频有一辆货车通过，检测结果如表1所示。为验证本发明方法的实时性，本发明对每一段视频每一帧检测的平均时间进行统计，如表2-3所示。本发明方法的运行效率较高，满足快速输出货车车轴数量与车胎类型的实时性要求。

本发明方法采用Python编程，实验运行在3.19GHz Intel Core^TM i7-8700CPU、16G内存和GTX1050ti(4G)显卡的台式电脑上。仅仅使用CPU时，本发明方法的总时间为检测时间加跟踪时间，当使用GPU加速时，总时间还需要额外加上将模型放上GPU的时间，大约0.572～0.600s。

表1本发明算法检测15段视频的结果统计

表2本发明算法在15段测试视频的运行时间(仅使用CPU)

视频序号	视频帧数	检测时间(s)	跟踪时间(s)	总时间(s)
					1	249	10.657	3.667	14.324
2	295	13.005	3.903	16.908
					3	300	13.220	4.562	17.782
4	236	10.277	3.633	13.910
					5	428	18.294	5.953	24.247
6	549	23.837	7.899	31.736
					7	272	11.956	4.319	16.275
8	801	34.185	9.423	43.608
					9	307	13.385	4.683	18.068
10	238	10.398	3.597	13.955
					11	287	12.713	4.157	16.870
12	293	12.802	4.530	17.332
					13	281	12.320	4.262	16.582
14	297	11.825	3.875	15.700
					15	300	13.122	4.422	17.544

表3本发明算法在15段测试视频的运行时间(使用GPU加速)

视频序号	视频帧数	检测时间(s)	跟踪时间(s)	总时间(s)
					1	249	2.010	2.745	5.344
2	295	2.437	2.687	5.722
					3	300	2.439	3.609	6.644
4	236	1.819	2.340	4.759
					5	428	3.479	4.668	8.731
6	549	4.444	5.682	10.722
					7	272	2.288	3.832	6.706
8	801	6.462	6.609	13.668
					9	307	2.505	3.320	6.411
10	238	1.925	2.248	4.745
					11	287	2.395	2.914	5.885
12	293	2.441	3.483	6.496
					13	281	2.325	3.278	6.178
14	297	2.189	2.801	5.563
					15	300	2.491	3.374	6.436

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于深度学习的货车单双胎识别方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的货车单双胎识别方法，其特征在于，所述步骤S1具体实现如下：

dw＝[(320-int(W×R))％64]/2 (2)

dh＝[(320-int(H×R))％64]/2 (3)

X＝W×R+2×dw (4)

Y＝H×R+2×dh (5)

S12、将预处理后的图像输入YOLOv5s深度神经网络模型：

3.根据权利要求2所述的基于深度学习的货车单双胎识别方法，其特征在于，所述对YOLOv5s深度神经网络模型的输出进行非极大值抑制，即对YOLOv5s深度神经网络模型的输出的重叠的候选框，利用非极大值抑制找到最佳的目标候选框，具体的每个候选框都有置信度得分，对于有重叠的候选框，选取其中置信度最高的一个候选框作为最后结果，对于没有重叠的就直接保留下来，作为最后结果。

4.根据权利要求1所述的基于深度学习的货车单双胎识别方法，其特征在于，所述步骤S2具体实现方式如下：