CN113033427A

CN113033427A - 一种基于dl的车底异物自动识别方法

Info

Publication number: CN113033427A
Application number: CN202110338159.4A
Authority: CN
Inventors: 蒋龙泉; 张文宇
Original assignee: Jinan Shenbo Information Technology Co ltd
Current assignee: Jinan Shenbo Information Technology Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-25

Abstract

本发明公开了一种基于DL的车底异物自动识别方法，包括图片输入、数据增强、对基于Yolov5建立的模型进行模型训练、进行图片检测、结果输出步骤。本发明检测效率高，对于一般物体的检测，已经能够达到人的准确度。

Description

一种基于DL的车底异物自动识别方法

技术领域

本发明涉及异物检测技术领域，特别涉及一种基于DL的车底异物自动识别方法。

背景技术

车底检测目前主要是分人工检测和算法检测两种方案。

人工检测由于效率低下以及人力成本较高，故不再继续深入讨论。

算法检测，传统的图像处理方法有HOG，DPM等，是计算机视觉领域的基本任务之一，以HOG为例（方向梯度直方图）其通过色彩和伽马归一化、计算图形梯度、构建方向的直方图、将细胞单元组合成大的区间、手机HOG特征来将图像的特征提取出来，再结合SVM分类器。这种组合已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。但是应对一些特定场景，这种传统的图像处理方式还是远远不够。

近几年深度学习的崛起使得目标检测算法大放异彩，无论是在精确度还是在检测效率上，相比于传统的图像处理算法，目标检测算法都有了巨大的提升。这些检测方法大概分为区域选择（滑窗）、特征提取（SIFT、HOG等）、分类器（SVM、Adaboost等）三个部分，其存在滑窗选择策略没有针对性、时间复杂度高，窗口冗余；手工设计的特征鲁棒性较差等问题。

本项目所用到的技术方案即为基于one-stage的目标检测算法。其仅仅使用一个CNN网络直接预测不同目标的类别与位置。该算法的特点是速度块，在视频的目标检测中能达到140FPS的检测速度。并且能达到对于车底检测项目中占用尽量少的资源并且能够达到较快的检测速度的要求。

发明内容

本发明为了弥补现有技术的不足，提供了一种基于DL的车底异物自动识别方法。

本发明是通过如下技术方案实现的：

一种基于DL的车底异物自动识别方法，包括以下步骤：

步骤1图片输入，输入预先采集的图片，包括车底图片和带有异物的车底图片；

步骤2数据增强，先输入预先采集的图片，然后对输入的图片进行数据增强，生成用于训练的图片数据集，同时也生成图片的标签文件；

步骤3对基于Yolov5建立的模型进行模型训练，训练结束后，使用这个模型来预测其他图片中的异物，再进行人工结果检验以判断其训练效果；

步骤4进行图片检测，得到（x,y,w,h）形式的唯一的预测框，然后再通过计算得预测框的中心点坐标和矩形框长宽，之后将矩形框画在原图上并保存，得到最终的预测结果；

步骤5结果输出：预测异物之后会先得到一组坐标数字，接下来再通过坐标点数字在对应的原图上画上预测框，并将图片进行保存。

所述步骤2数据增强采用Mosaic数据增强的方式，并在Mosaic的基础上，还进行了额外的数据增强，从预先输入的含异物的图片中生成异物图片，然后将生成的异物图片进行加工后和车底图片结合。

所述步骤3包括步骤3.1在模型开始训练之前通过k-means对数据集的标签文件进行聚类得到anchors，并设置成目标为1类；步骤3.2模型训练。

所述步骤3.1具体包括步骤3.1.1用标注工具LabelImg对车底图像中的异物进行标记，并储存标记框的包围坐标得到PASCAL VOC格式的存储文件，即得到真实框groundtruth；步骤3.1.2转换标注得到的标签文件，将VOC格式文件转换成Yolov5所规定的txt文件；步骤3.13过k-means对txt文件聚类得到anchors。

所述步骤3.2模型训练具体包括步骤3.2.1自适应车底图像的缩放对车底的原始图像自适应的添加最少的黑边，得到一个标准图片；步骤3.2.2在anchors的基础上输出对异物的预测框，之后和真实框groundtruth进行比对，然后用损失函数计算得到预测值与真实值的损失值，再进行反向传播，更新网络中节点的权重，其中损失值由Yolov5输出端得到的xywh属性误差、信度误差、类别误差加和得到。

所述Yolov5中，网络主要由主干网络，Neck结构，以及输出端三部分组成；

所述主干网络所包含Focus结构、CSP结构、SPP结构；所述Focus结构，对featuremap进行切片操作，用于降低FLOPS和提高速度；所述CSP结构用于增强CNN的学习能力，提高推理速度和准确性；所述Neck结构：Neck结构主要的目的是对车底图像的特征进行混合和组合，生成特征金字塔采用FPN+PAN的结构基于 Mask R-CNN 和 FPN 框架。

所述输出端用于对车底图像的特征进行预测，生成带有边界框、置信度、异物类别属性的一组数据，将这一组数据与groundtruth做差值的计算，得到由边界框的xywh属性误差、信度误差，类别误差。

所述步骤4进行图片检测具体包括步骤4.1特征识别，对获取的图片进行特征提取；步骤4.2图像检测，根据图像中的像素进行预测，生成若干个目标框，然后采用的是加权nms的方式根据网络预测的置信度进行加权，得到唯一的预测框。

本发明具有以下技术优势：

现有技术中，传统的目标检测方法大概分为区域选择（滑窗）、特征提取（SIFT、HOG等）、分类器（SVM、Adaboost等）三个部分。DPM算法是该领域非常成功的算法，可以看做是HOG的扩展，大体思路与HOG一致。先计算梯度方向直方图，然后用SVM训练得到物体的梯度模型。存在的缺点是特征相对复杂，计算速度慢，对于旋转、拉伸的物体检测效果不好。因为相机普遍分辨率比较大，所以如果将DPM直接用来解决车底检测问题，很可能无法保证实时性和模型的泛化性能。

本技术是基于深度学习的目标检测技术，最大的特点是检测效率高，对于一般物体的检测，已经能够达到人的准确度。在视频检测的效率上，能够达到140FPS。在使用纯CPU（至强 E5 2630）的平台上检测一张车底图片只需0.2秒左右。因为其轻量的权重文件，使得其可以更轻松地部署到嵌入式设备。

附图说明

下面结合附图对本发明作进一步的说明。

附图1为本发明的方法步骤示意图。

附图2为Yolov5的结构示意图。

具体实施方式

本发明提供的基于DL的车底异物自动识别方法主要包括以下步骤：

要构建一个模型，然后利用这个模型进行训练，再利用训练好的模型对待检图片进行加测，最后输出结果。

步骤1，图片输入，输入预先采集的图片这些图片包括车底图片和带有异物的车底图片。

步骤2，数据增强，构建数据集用于模型进行训练，由于原始数据集图片数量较少，且异物种类也较少，使得模型对于未知异物的检测效果较差，目前来说最可行的方案是数据增强，也就是增加训练的数据集，用尽可能多不同种类的异物图片去训练模型。对输入的图片进行数据增强，主要流程就是将自己生成异物的图片和车底图片结合。具体为，输入端采用了Mosaic数据增强的方式。随机缩放、随机裁剪、随机排布的方式进行拼接。这样的处理使得模型对于一些比较小的异物的检测效果很不错。在Mosaic的基础上，还进行了额外的数据增强：主要流程就是将已经出现过的几种异物用PS抠像之后，单独保存带有透明区域的PNG图片，即生成异物图片，然后将生成的异物图片进行加工后和车底图片结合。技工过程为异物的原始图片先进行压缩，压缩的方式是将图像的长和宽分别拉伸到原始图像的0.9~1.1倍，因为长和宽的倍数不一定相等，所以会产生随机拉伸的效果，然后旋转、变色，旋转角度是使用一个随机生成的角度，经过压缩、旋转、变色等图像的变换之后，再与车底的背景图叠加在一起，生成一张新的图片，同时也生成该图片的标签文件以用于训练。这种方式也可以快速且精确地生成该图片的标签文件以用于训练。利用这种方式对数据进行增强，一方面可增加训练的车底图片数据集的数量，另一方面也可以增加训练过程中出现的异物种类。

步骤3对基于Yolov5建立的模型进行模型训练。

3.1首先在模型开始训练之前通过k-means聚类得到anchors（初始的锚框），对数据集的标签（txt文件）进行聚类即可。这是为了方便模型找到异物的大体区域和形状，并设置成目标为1类。

3.1.1进行图片标注，拍摄得到的图像以及随机生成的图像，在进行正式训练之前需要对图像进行标注，生成标签文件。用专门的标注工具LabelImg对车底图像中的异物部分划出一个标记框进行覆盖，并储存标记框的包围坐标。对车底图像进行标注之后可以得到PASCAL VOC格式的存储文件，文件中主要包含异物对应的标记框左上角的x坐标和y坐标，以及左下角的x坐标和y坐标，即得到真实框groundtruth。

3.1.2然后转换标注得到的标签文件，上一步标注车底异物得到的一般VOC格式存储文件并不能直接用于Yolov5的训练。在将XML文件转换成Yolov5所规定的txt文件之后——该txt文件名和图片文件名相同，一个异物对应一行内容，每行内容为5个数字，分别代表为异物种类的代号，异物横坐标占车底宽度的比例，异物纵坐标占车底高度的比例，异物长度占车底宽度的比例，异物高度占车底高度的比例——方可进行模型训练。

3.1.3得到初始的锚框，在进行模型训练的时候需要通过k-means聚类得到anchors（初始的锚框），对数据集的标签（txt文件）进行聚类即可，聚类之后能得到9个初始的锚框。Yolov5中将此功能嵌入到代码中，每次训练时，自适应的计算不同训练集中的最佳锚框值。这些初始锚框代表了异物大小、长宽以及方位的一些基础特征，这是为了方便模型找到异物的大体区域和形状。训练之前将目标设置成1类，这是多次经过实验对比，结果最好的方式，接下来开始训练模型。

3.2模型训练

3.2.1自适应车底图像的缩放，在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。在Yolov5中进行了修改，对车底的原始图像自适应的添加最少的黑边，得到一个416×352的图片。通过这种简单的改进，推理速度得到了37%的提升，可以说效果很明显。

3.2.2模型训练的正向传播和反向传播。在网络训练中，网络在初始锚框（由刚才的聚类算法得到）的基础上输出对异物的预测框。之后进而和之前标注好的txt中得到的真实框groundtruth进行比对。用损失函数可以计算得到预测值与真实值的差距。得到损失值之后，再进行反向传播，更新网络中节点的权重。

关于反向传播，是相对于“向前传播”的，向前传播时：网络中的每个节点所做的工作，都是将上一层的多个节点传过来的值，与该节点的参数做一定的计算之后，再把得到的结果传给下一层的节点用于计算。计算结果最终在检测头与真实值作比较得到一个误差。在得到误差之后，通过梯度下降算法得到更新方向，权重往这个方向更新一段距离，就完成了一次权重的更新；这个距离是提前设定好的，叫做学习率，一开始为0.01，随着逐渐靠近理想状态，这个学习率会逐渐变小。Yolov5中提供了两个优化函数Adam和SGD，并都预设了与之匹配的训练超参数，其中Adam和SGD用来计算更新权重的方向的函数，损失函数用于优化函数中的一个变量，训练超参数是yolov5作者预设好的，为0.01。默认为SGD 。

这样的正向传播和反向传播进行多次之后，每个权重都会更新到一个最终理想的值附近。

在Yolov5中，网络主要由主干网络，Neck结构，以及输出端三部分组成。

主干网络：主干网络的主要工作是形成图像特征。车底图像输入之后，经过主干网络，主干网络中有一系列的对图像的变化处理，训练完成的模型能将车体图像的特征很好地提取出来，理想状态下异物在车底背景中会很明显。

主干网络所包含的结构：Focus结构，CSP结构，SPP结构。Focus结构，是一种对feature map的切片操作把宽度w和高度h的信息整合到c维度，具体来说就是将相距为2的四个位置进行堆叠到一个通道上去，因此长h和宽w都缩小两倍，通道c数增加4倍，Focus模块设计用于降低FLOPS和提高速度。其中比较关键是切片操作。原始608*608*3的图像输入Focus结构，采用切片操作，先变成304*304*12的特征图，再经过一次32个卷积核的卷积操作，最终变成304*304*32的特征图。CSP结构用于缓解以前需要大量推理计算的问题，增强CNN的学习能力。CSP结构与标准卷积交替设置目的是为了将图像形状调整到符合下一个结构的输入所需的形状，CSP可以大大减少计算量，提高推理速度和准确性，所以用于缓解以往的工作需要从网络架构的角度进行大量推理计算的问题。设计了两种CSP结构，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中。SPP结构，也叫空间金字塔池化。SPP的本质就是多层最大池化，在车底检测中，三个不同的固定输出尺寸的池化窗口组合在一起就构成了SPP Layer，SPP 可以增大感受野。

Neck结构：Neck结构主要的目的是对车底图像的特征进行混合和组合，生成特征金字塔。特征金字塔会增强模型对于不同缩放尺度车底异物的检测，从而能够识别不同大小和尺度的同一个车底异物。采用FPN+PAN的结构基于 Mask R-CNN 和 FPN 框架，同时加强了信息传播。该网络的特征提取器采用了一种新的增强自下向上路径的 FPN 结构，改善了低层特征的传播。

输出端：对车底图像的特征进行预测，生成带有边界框、置信度、异物类别属性的一组数据。将这一组数据与groundtruth做差值的计算，会得到三个误差，lbox，lobj，lcls。这三个误差分别为由边界框的xywh属性（中心点的横纵坐标，框的长和宽）得到的误差，由置信度带来的误差，以及由类别带来的误差。Yolov5的损失loss由三部分损失函数相加得到。

边界框的损失函数采用GIOULoss。相较于普通的IOU（预测框与真实框的交并比）来说，GIOU解决了两个候选框完全没有交集时，损失为0不可优化的状况。其中分类采用的损失函数是BEC损失函数，置信度采用的损失函数也是BEC（也可以用过参数来切换为focalloss）。GIOULoss、BEC、BEC用来计算前述的输出端得到的三个误差。

正向传播的结尾会得到三个损失值相加的loss，loss将用于反向传播。在模型训练的时候设置了200轮epoch，每一轮结束后都会计算召回率。大概在第100轮左右的时候，召回率就达到了95%以上。训练结束后，使用这个模型来预测其他图片中的异物，再进行人工结果检验以判断其训练效果。

步骤4，进行图片检测，

4.1特征识别，对获取的图片进行特征提取，简而言之就是将原始图像杂乱的车底和异物在进行特征提取之后变得分明。特征提取最基础的工作就是对图像的像素进行变换，变换的方式和程度是由模型的结构和权重决定的，没有训练过的模型无法很好地将异物从车底提取出来，训练之后的模型就有针对本数据集的权重。

4.2图像检测，检测的时候会有一个向前传播，也就是根据图像中的像素进行预测，通常一次预测会有好几个目标框，有些框可能会有较高的重叠。在目标检测的后处理过程中，针对很多目标框的筛选，通常需要nms操作。Yolov5中采用的是加权nms的方式。传统的nms在进行矩形框剔除的过程中，会将那些与当前矩形框IOU大于阈值，且类别相同的框直接剔除。而加权nms是根据网络预测的置信度进行加权，得到新的矩形框，把该矩形框作为最终的预测框，再将那些框剔除。此时就对预测的目标得到了唯一的预测框。

对这些框进行NMS，去除重合度较高的框只保留一个。该框所得到的真实结果是该目标的左上角和右下角的xy坐标，以及该目标的类别（1类）和置信度，其中置信度confidence由object_mask和真实值二元交叉熵得到，object_mask是对某一个目标与groundtruth有着最高的IOU的布尔值。接着以得到的xy坐标，将框框画在原图上，保存以得到最终的结果。

此时得到的框为（x,y,w,h）的形式，即为一串数字，然后再通过计算得到这串数字所代表的矩形框的中心点坐标和矩形框长宽，之后将矩形框画在原图上并保存，得到最终的预测结果。

训练好的模型内会保存着针对车底异物文件的权重，这些权重能在特征提取的时候将异物和背景分离。训练的过程就是通过多次正向和反向的传播的过程，将权重优化到最合适当前数据集。在未训练过的模型中，是没有这样的良好的针对性的。

步骤5，结果输出：预测异物之后会先得到一组坐标数字，接下来再通过坐标点数字在对应的原图上画上预测框，并将图片进行保存。

Claims

1.一种基于DL的车底异物自动识别方法，其特征在于，包括以下步骤：

步骤2数据增强，先输入预先采集的图片，然后对输入的图片进行数据增强，生成用于图片数据集，同时也生成图片的标签文件；

2.根据权利要求1所述的基于DL的车底异物自动识别方法，其特征在于：所述步骤2数据增强采用Mosaic数据增强的方式，并在Mosaic的基础上，还进行了额外的数据增强，从预先输入的包含异物的图片中生成异物图片，然后将生成的异物图片进行加工后和车底图片结合。

3.根据权利要求1所述的基于DL的车底异物自动识别方法，其特征在于：所述步骤步骤3包括步骤3.1在模型开始训练之前通过k-means对数据集的标签文件进行聚类得到anchors，并设置成目标为1类；步骤3.2模型训练。

4.根据权利要求3所述的基于DL的车底异物自动识别方法，其特征在于：所述步骤3.1具体包括步骤3.1.1用标注工具LabelImg对车底图像中的异物进行标记，并储存标记框的包围坐标得到PASCAL VOC格式的存储文件，即得到真实框groundtruth；步骤3.1.2转换标注得到的标签文件，将VOC格式文件转换成Yolov5所规定的txt文件；步骤3.13过k-means对txt文件聚类得到anchors。

5.根据权利要求3所述的基于DL的车底异物自动识别方法，其特征在于：所述步骤3.2模型训练具体包括步骤3.2.1自适应车底图像的缩放对车底的原始图像自适应的添加最少的黑边，得到一个标准图片；步骤3.2.2在anchors的基础上输出对异物的预测框，之后和真实框groundtruth进行比对，然后用损失函数计算得到预测值与真实值的损失值，再进行反向传播，更新网络中节点的权重，其中损失值由Yolov5输出端得到的xywh属性误差、信度误差、类别误差加和得到。

6.根据权利要求1所述的基于DL的车底异物自动识别方法，其特征在于：所述Yolov5中，网络主要由主干网络，Neck结构，以及输出端三部分组成。

7. 根据权利要求6所述的基于DL的车底异物自动识别方法，其特征在于：所述主干网络所包含Focus结构、CSP结构、SPP结构；所述Focus结构，对feature map进行切片操作，用于降低FLOPS和提高速度；所述CSP结构用于增强CNN的学习能力，提高推理速度和准确性；所述Neck结构：Neck结构主要的目的是对车底图像的特征进行混合和组合，生成特征金字塔采，用FPN+PAN的结构基于 Mask R-CNN 和 FPN 框架。

8.根据权利要求6所述的基于DL的车底异物自动识别方法，其特征在于：所述输出端用于对车底图像的特征进行预测，生成带有边界框、置信度、异物类别属性的一组数据，将这一组数据与groundtruth做差值的计算，得到由边界框的xywh属性误差、信度误差，类别误差。

9.根据权利要求1所述的基于DL的车底异物自动识别方法，其特征在于：所述步骤4进行图片检测具体包括步骤4.1特征识别，对获取的图片进行特征提取；步骤4.2图像检测，根据图像中的像素进行预测，生成若干个目标框，然后采用的是加权nms的方式根据网络预测的置信度进行加权，得到唯一的预测框。