CN114882423A

CN114882423A - 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法

Info

Publication number: CN114882423A
Application number: CN202210649563.8A
Authority: CN
Inventors: 李为相; 孙圆; 程明
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-08-09

Abstract

本发明公开了一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法；由摄像头和货物识别单元组成，其中货物识别单元由货车追踪模块和目标检测模块组成；Yolov5m的改进方法为，标准卷积替换为深度可分离卷积，减少参数量；激活函数SiLU替换为GELU；Bottleneck的残差结构更换为倒置残差结构；损失函数CIoU替换为EIoU；优化器SGD替换为AdamW；由摄像头采集实时视频图像信息，并将其发送到货物识别单元；其中侧面摄像头采集数据并输入到货车追踪模块中，输出货车追踪结果；根据追踪结果校验货车位置，判断是否进入仓库；校验成功后，正面摄像头采集货物图像输入到目标检测模块中，输出识别结果。本发明采用的识别方法能够提高货物识别的准确率并实现实时检测。

Description

一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法

技术领域

本发明涉及目标检测领域，具体为一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法。

背景技术

随着人工智能技术的快速发展，人们希望AI与使用者之间拥有更生动的交互方式，为使用者带来更好的用户体验。如今智慧物流发展迅速，物流仓储逐渐由人力分拣走向智能化，货物识别模块也从以前由工作人员识别货物逐渐发展为现在不需要人工的机器自动识别货物。利用视觉检测技术在普通的货车入库场景下对货物进行精确检测，能够降低成本，提高生产效率。

目前使用的货物识别方法主要有如下缺点：使用条形码识别方法较多，需要人工扫描条形码，无法实现实时处理；人工清点货物费时费力，需要反复核查，无法实现实时处理。这些缺点导致仓库货物清点耗费大量精力，也难以实现实时货物识别，因此有必要进行改进。

发明内容

本发明的目的在于提供一种基于改进Yolov5m模型和DeepSort的货车入库识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：将图像训练数据集输入改进Yolov5m网络模型进行训练，得到目标检测模型；由摄像头采集实时视频图像信息，并将其发送到货物识别单元；货物识别单元包括货车追踪模块和目标检测模块，分别得到货车位置识别结果和携带货物识别结果，所述识别过程在训练好的改进Yolov5m网络模型上进行；所述货车位置识别结果进行校验，校验后得到货物识别结果作为最终的货物识别结果。

所述改进Yolov5m网络模型训练方法，具体包括：将训练集图像经过翻转、改变亮度、裁剪、平移、增加噪声等数据增强操作后，输入到改进的Yolov5m网络中，将损失函数更改为EIoU，优化器更改为AdamW并训练，可以获得目标检测模型。

所述改进Yolov5m网络实现方法，具体包括：对于Backbone中的结构，将标准卷积操作替换为深度可分离卷积操作，降低了网络参数量；将激活函数SiLU替换为GELU，提高了网络性能；为消除深度可分离卷积带来的耗时增加和发生过拟合，将网络残差结构替换为倒置残差结构。

所述实时货物识别方案，具体包括：由侧面摄像头采集视频图像信息，帧率设置为30帧，每一帧图像输入到货车追踪模块，由训练后的改进Yolov5m模型处理并输出识别结果；由DeepSort算法对输入识别结果进行货车追踪，输出货车位置信息；校验货车位置，到达指定区域时，由正面摄像头采集货物图像信息，图像输入到目标检测模块，由训练后的改进Yolov5m模型处理并输出识别结果。

所述货物识别单元，具体包括：货物识别单元包括货车追踪模块和目标检测模块，所述两个模块，货车追踪模块由训练好的改进Yolov5m网络模型和DeepSort目标追踪算法组成，输出为追踪货车标记ID，由对应ID位置信息校验对应货车所在位置；目标检测模块由训练好的改进Yolov5m网络模型组成，输出为在不同货物类型上的概率和数量。

与现有技术相比，本发明的有益效果是：使用改进Yolov5m实现货物检测，改进模型使用深度可分离卷积取代标准卷积，减少了神经网络的参数量，提高模型推理速度；使用GELU函数取代SiLU，引入随机正则思想，提升了模型识别准确率；使用倒置残差结构，降低深度可分离卷积对精度的影响；使用EIoU作为损失函数，提升了模型精度；使用AdamW作为优化器，优化了训练效果。

附图说明

图1为本发明功能模块示意图。

图2为本发明实时情感识别流程图。

图3为本发明改进后的Yolov5m网络结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本发明提供一种改进Yolov5m模型和DeepSort的货车入库货物识别方法，其方法在于：将图像训练数据集输入改进Yolov5m网络模型进行训练，得到目标检测模型；由摄像头采集实时视频图像信息，并将其发送到货物识别单元；货物识别单元包括货车追踪模块和目标检测模块，分别得到货车位置识别结果和携带货物识别结果，所述识别过程在训练好的改进Yolov5m网络模型上进行；所述货车位置识别结果进行校验，校验后得到货物识别结果作为最终的货物识别结果。

根据训练数据集的分类情况，可将货物类型分为与训练数据集分类相同的若干类，示范性的，可以将货物类型分为七类形状：三角形、拱形、方形、矩形、条形、圆形、半圆形。

所述的改进Yolov5m网络模型实现方式为：深度可分离卷积+高斯误差线性单元(GELU)+倒置残差结构。将图像输入到改进的Yolov5m网络中分类，获得目标检测模块分类结果。

所述Yolov5m网络改进方式为：卷积操作为深度可分离卷积，可大幅度减少计算量。假设输入特征图的尺寸为D_L*D_L，令stride步长为1，则标准卷积核输出特征图的计算量为D_K*D_K*M*N*D_L*D_L，深度可分离算法计算量则为D_K*D_K*M*D_L*D_L+M*N*D_L*D_L。将两者进行对比我们可以得到如下公式(6)：

其中D_L代表输入图片的长度，D_K代表空间维数，M为输入通道数，N为输出通道数。

所述Yolov5m网络改进方式为：激活函数SiLU替换为高斯误差线性单元(GELU)，这是一种高性能的神经网络激活函数，因为GELU的非线性变化是一种符合预期的随机正则变换方式，其具体实现公式如公式(2)：

x作为神经元输入，x越大，激活输出x约有可能保留，x越小，越有可能激活结果为0。GELU引入了随机正则的思想，是一种对神经元输入的概率描述，直观上更符合自然的认识，同时降低了计算量。

所述Yolov5m网络改进方式为：卷积层采用倒置残差结构，输入特征首先经过Point-wise 1x1卷积提高通道数，再经过深度3x3卷积，最后再经过Point-wise 1x1卷积还原通道数；倒置残差结构提升梯度在乘积层之间的传播能力，有更好的内存使用效率。

所述改进Yolov5m网络训练实现方式为：损失函数EIoU+优化器AdamW。将训练集输入到模型中，通过损失函数EIoU计算损失更新梯度，通过AdamW优化器更新参数。

所述改进Yolov5m网络训练改进方式为：损失函数由CIoU替换为EIoU，EIoU Loss在将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值，加速了收敛提高了回归精度，同时引入了Focal Loss优化了边界框回归任务中的样本不平衡问题，即减少与目标框重叠较少的大量锚框对BBox回归的优化贡献，使回归过程专注于高质量锚框。其具体实现公式如公式(3)：

其中c_w和c_h是覆盖两个Box的最小外接框的宽度和高度，b和b^gt表示预测边界框(PB)和真实边界框(GT)的中心点，ρ²(·)表示求欧式距离，c表示PB和GT的最小包围框的最短对角线长度，α表示一个正平衡参数，v表示PB和GT的长宽比的一致性，w^gt、h^gt和w、h分别表是GT和PB的宽度和长度。

所述改进Yolov5m网络训练改进方式为：采用AdamW优化器更新参数，AdamW优化器是Adam的改进，在Adam优化器上加入了L2正则，来限制参数值。其实现简单，计算高效，对内存需求小，参数的更新不受梯度的伸缩的影响，超参数通常无需调整或仅需很少的调整，更新步长能被限定在大致的范围内，能自动调整学习率，超参数可解释性良好，几乎不需要调参。

下表1为一个实例中使用MobileNetV2-SSD、使用Yolov5m和本实施例提供的改进Yolov5m的mAP@0.5.0.95、识别准确率、单帧识别速度的对比表，其中训练和测试选用的数据集为自制数据集。

表1：

神经网络模型	mAP@0.5.0.95	识别准确率	单帧识别速度	模型大小
					MobileNetV2-SSD	90.6％	99.3％	88ms	35.5M
Yolov5m	92.7％	99.6％	21ms	41.5M
					改进Yolov5m	93.1％	99.7％	25ms	25.6M

通过表1可以了解到，使用改进Yolov5m的mAP@0.5.0.95、识别准确率均高于MobileNetV2-SSD和Yolov5m，模型大小为25.6M，为三者最少；单帧识别速度快于MobileNetV2-SSD，比原Yolov5m仅仅慢了4ms。

图1为本发明功能模块示意图，具体包括：侧面摄像头采集货车视频图像数据、正面摄像头采集货物图像数据，采集的数据输入到货物识别单元中；货物识别单元包括货车追踪模块和目标检测模块；数据经过改进Yolov5m模型处理后得出每个模块的结果。

图2为本发明实时货物识别流程图，具体为：启动应用程序后，侧面摄像头采集数据并输入到货车追踪模块中，输出货车追踪结果；根据追踪结果校验货车位置，判断是否进入仓库；校验成功后，正面摄像头采集货物图像输入到目标检测模块中，输出识别结果。

图3为本发明改进Yolov5m网络结构图，具体为：Backbone主干网络、Head网络、Detect输出端；Backbone主干网络通过深度卷积操作从图像中提取不同层次的特征，主要利用了瓶颈跨阶段局部结构BottleneckCSP和空间金字塔池化SPPF；Head网络层包含特征金字塔FPN、路径聚合结构PAN，FPN在网络中自上而下传递语义信息，PAN则自下而上传递定位信息，对Backbone中不同网络层的信息进行融合，进一步提升检测能力。Detect输出端作为最后的检测部分，主要是在大小不同的特征图上预测不同尺寸的目标。。

本发明所提方案可以装载到计算机或其他可编程数据处理设备上，使得在执行一系列操作步骤后在计算机或其他可编程数据处理设备实现本文所提方案的部分功能或全部功能。

上面对本发明进行了示范性描述，本发明具体实现并不受上述方式的限制，任何熟悉本技术领域的技术人员在本申请揭露的计算范围内，可轻易想到变化和替换，改变数据集、货物类别数量、权值参数等方式都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法，其特征在于：将图像训练数据集输入改进Yolov5m网络模型进行训练，得到目标检测模型；由摄像头采集实时视频图像信息，并将其发送到货物识别单元；货物识别单元包括货车追踪模块和目标检测模块，分别得到货车位置识别结果和携带货物识别结果，所述识别过程在训练好的改进Yolov5m网络模型上进行；所述货车位置识别结果进行校验，校验后得到货物识别结果作为最终的货物识别结果。

2.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法，其特征在于：所述的改进Yolov5m模型训练方法为将训练集图像经过翻转、改变亮度、裁剪、平移、增加噪声等数据增强操作后，输入到改进的Yolov5m网络中，将损失函数更改为EIoU，优化器更改为AdamW并训练，可以获得目标检测模型。

3.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法，其特征在于：所述的改进Yolov5m网络实现方法为对于Backbone中的结构，将标准卷积操作替换为深度可分离卷积操作，降低了网络参数量；将激活函数SiLU替换为GELU，提高了网络性能；为消除深度可分离卷积带来的耗时增加和发生过拟合，将网络残差结构替换为倒置残差结构。

4.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法，其特征在于：所述的实时货物识别方法为由侧面摄像头采集视频图像信息，帧率设置为30帧，每一帧图像输入到货车追踪模块，由训练后的改进Yolov5m模型处理并输出识别结果；由DeepSort算法对输入识别结果进行货车追踪，输出货车位置信息；校验货车位置，到达指定区域时，由正面摄像头采集货物图像信息，图像输入到目标检测模块，由训练后的改进Yolov5m模型处理并输出识别结果。

5.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法，其特征在于：所述的货物识别单元包括货车追踪模块和目标检测模块，所述两个模块由训练好的改进Yolov5m网络模型和DeepSort目标追踪算法组成，输出为在不同货物类型上的概率和追踪货车标记ID，由对应ID位置信息校验对应货车所在位置。