CN114882423A - 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 - Google Patents
一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 Download PDFInfo
- Publication number
- CN114882423A CN114882423A CN202210649563.8A CN202210649563A CN114882423A CN 114882423 A CN114882423 A CN 114882423A CN 202210649563 A CN202210649563 A CN 202210649563A CN 114882423 A CN114882423 A CN 114882423A
- Authority
- CN
- China
- Prior art keywords
- yolov5m
- truck
- improved
- model
- goods
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 abstract 1
- 238000011897 real-time detection Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 230000006872 improvement Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法;由摄像头和货物识别单元组成,其中货物识别单元由货车追踪模块和目标检测模块组成;Yolov5m的改进方法为,标准卷积替换为深度可分离卷积,减少参数量;激活函数SiLU替换为GELU;Bottleneck的残差结构更换为倒置残差结构;损失函数CIoU替换为EIoU;优化器SGD替换为AdamW;由摄像头采集实时视频图像信息,并将其发送到货物识别单元;其中侧面摄像头采集数据并输入到货车追踪模块中,输出货车追踪结果;根据追踪结果校验货车位置,判断是否进入仓库;校验成功后,正面摄像头采集货物图像输入到目标检测模块中,输出识别结果。本发明采用的识别方法能够提高货物识别的准确率并实现实时检测。
Description
技术领域
本发明涉及目标检测领域,具体为一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法。
背景技术
随着人工智能技术的快速发展,人们希望AI与使用者之间拥有更生动的交互方式,为使用者带来更好的用户体验。如今智慧物流发展迅速,物流仓储逐渐由人力分拣走向智能化,货物识别模块也从以前由工作人员识别货物逐渐发展为现在不需要人工的机器自动识别货物。利用视觉检测技术在普通的货车入库场景下对货物进行精确检测,能够降低成本,提高生产效率。
目前使用的货物识别方法主要有如下缺点:使用条形码识别方法较多,需要人工扫描条形码,无法实现实时处理;人工清点货物费时费力,需要反复核查,无法实现实时处理。这些缺点导致仓库货物清点耗费大量精力,也难以实现实时货物识别,因此有必要进行改进。
发明内容
本发明的目的在于提供一种基于改进Yolov5m模型和DeepSort的货车入库识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:将图像训练数据集输入改进Yolov5m网络模型进行训练,得到目标检测模型;由摄像头采集实时视频图像信息,并将其发送到货物识别单元;货物识别单元包括货车追踪模块和目标检测模块,分别得到货车位置识别结果和携带货物识别结果,所述识别过程在训练好的改进Yolov5m网络模型上进行;所述货车位置识别结果进行校验,校验后得到货物识别结果作为最终的货物识别结果。
所述改进Yolov5m网络模型训练方法,具体包括:将训练集图像经过翻转、改变亮度、裁剪、平移、增加噪声等数据增强操作后,输入到改进的Yolov5m网络中,将损失函数更改为EIoU,优化器更改为AdamW并训练,可以获得目标检测模型。
所述改进Yolov5m网络实现方法,具体包括:对于Backbone中的结构,将标准卷积操作替换为深度可分离卷积操作,降低了网络参数量;将激活函数SiLU替换为GELU,提高了网络性能;为消除深度可分离卷积带来的耗时增加和发生过拟合,将网络残差结构替换为倒置残差结构。
所述实时货物识别方案,具体包括:由侧面摄像头采集视频图像信息,帧率设置为30帧,每一帧图像输入到货车追踪模块,由训练后的改进Yolov5m模型处理并输出识别结果;由DeepSort算法对输入识别结果进行货车追踪,输出货车位置信息;校验货车位置,到达指定区域时,由正面摄像头采集货物图像信息,图像输入到目标检测模块,由训练后的改进Yolov5m模型处理并输出识别结果。
所述货物识别单元,具体包括:货物识别单元包括货车追踪模块和目标检测模块,所述两个模块,货车追踪模块由训练好的改进Yolov5m网络模型和DeepSort目标追踪算法组成,输出为追踪货车标记ID,由对应ID位置信息校验对应货车所在位置;目标检测模块由训练好的改进Yolov5m网络模型组成,输出为在不同货物类型上的概率和数量。
与现有技术相比,本发明的有益效果是:使用改进Yolov5m实现货物检测,改进模型使用深度可分离卷积取代标准卷积,减少了神经网络的参数量,提高模型推理速度;使用GELU函数取代SiLU,引入随机正则思想,提升了模型识别准确率;使用倒置残差结构,降低深度可分离卷积对精度的影响;使用EIoU作为损失函数,提升了模型精度;使用AdamW作为优化器,优化了训练效果。
附图说明
图1为本发明功能模块示意图。
图2为本发明实时情感识别流程图。
图3为本发明改进后的Yolov5m网络结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本发明提供一种改进Yolov5m模型和DeepSort的货车入库货物识别方法,其方法在于:将图像训练数据集输入改进Yolov5m网络模型进行训练,得到目标检测模型;由摄像头采集实时视频图像信息,并将其发送到货物识别单元;货物识别单元包括货车追踪模块和目标检测模块,分别得到货车位置识别结果和携带货物识别结果,所述识别过程在训练好的改进Yolov5m网络模型上进行;所述货车位置识别结果进行校验,校验后得到货物识别结果作为最终的货物识别结果。
根据训练数据集的分类情况,可将货物类型分为与训练数据集分类相同的若干类,示范性的,可以将货物类型分为七类形状:三角形、拱形、方形、矩形、条形、圆形、半圆形。
所述的改进Yolov5m网络模型实现方式为:深度可分离卷积+高斯误差线性单元(GELU)+倒置残差结构。将图像输入到改进的Yolov5m网络中分类,获得目标检测模块分类结果。
所述Yolov5m网络改进方式为:卷积操作为深度可分离卷积,可大幅度减少计算量。假设输入特征图的尺寸为DL*DL,令stride步长为1,则标准卷积核输出特征图的计算量为DK*DK*M*N*DL*DL,深度可分离算法计算量则为DK*DK*M*DL*DL+M*N*DL*DL。将两者进行对比我们可以得到如下公式(6):
其中DL代表输入图片的长度,DK代表空间维数,M为输入通道数,N为输出通道数。
所述Yolov5m网络改进方式为:激活函数SiLU替换为高斯误差线性单元(GELU),这是一种高性能的神经网络激活函数,因为GELU的非线性变化是一种符合预期的随机正则变换方式,其具体实现公式如公式(2):
x作为神经元输入,x越大,激活输出x约有可能保留,x越小,越有可能激活结果为0。GELU引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时降低了计算量。
所述Yolov5m网络改进方式为:卷积层采用倒置残差结构,输入特征首先经过Point-wise 1x1卷积提高通道数,再经过深度3x3卷积,最后再经过Point-wise 1x1卷积还原通道数;倒置残差结构提升梯度在乘积层之间的传播能力,有更好的内存使用效率。
所述改进Yolov5m网络训练实现方式为:损失函数EIoU+优化器AdamW。将训练集输入到模型中,通过损失函数EIoU计算损失更新梯度,通过AdamW优化器更新参数。
所述改进Yolov5m网络训练改进方式为:损失函数由CIoU替换为EIoU,EIoU Loss在将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值,加速了收敛提高了回归精度,同时引入了Focal Loss优化了边界框回归任务中的样本不平衡问题,即减少与目标框重叠较少的大量锚框对BBox回归的优化贡献,使回归过程专注于高质量锚框。其具体实现公式如公式(3):
其中cw和ch是覆盖两个Box的最小外接框的宽度和高度,b和bgt表示预测边界框(PB)和真实边界框(GT)的中心点,ρ2(·)表示求欧式距离,c表示PB和GT的最小包围框的最短对角线长度,α表示一个正平衡参数,v表示PB和GT的长宽比的一致性,wgt、hgt和w、h分别表是GT和PB的宽度和长度。
所述改进Yolov5m网络训练改进方式为:采用AdamW优化器更新参数,AdamW优化器是Adam的改进,在Adam优化器上加入了L2正则,来限制参数值。其实现简单,计算高效,对内存需求小,参数的更新不受梯度的伸缩的影响,超参数通常无需调整或仅需很少的调整,更新步长能被限定在大致的范围内,能自动调整学习率,超参数可解释性良好,几乎不需要调参。
下表1为一个实例中使用MobileNetV2-SSD、使用Yolov5m和本实施例提供的改进Yolov5m的mAP@0.5.0.95、识别准确率、单帧识别速度的对比表,其中训练和测试选用的数据集为自制数据集。
表1:
神经网络模型 | mAP@0.5.0.95 | 识别准确率 | 单帧识别速度 | 模型大小 |
MobileNetV2-SSD | 90.6% | 99.3% | 88ms | 35.5M |
Yolov5m | 92.7% | 99.6% | 21ms | 41.5M |
改进Yolov5m | 93.1% | 99.7% | 25ms | 25.6M |
通过表1可以了解到,使用改进Yolov5m的mAP@0.5.0.95、识别准确率均高于MobileNetV2-SSD和Yolov5m,模型大小为25.6M,为三者最少;单帧识别速度快于MobileNetV2-SSD,比原Yolov5m仅仅慢了4ms。
图1为本发明功能模块示意图,具体包括:侧面摄像头采集货车视频图像数据、正面摄像头采集货物图像数据,采集的数据输入到货物识别单元中;货物识别单元包括货车追踪模块和目标检测模块;数据经过改进Yolov5m模型处理后得出每个模块的结果。
图2为本发明实时货物识别流程图,具体为:启动应用程序后,侧面摄像头采集数据并输入到货车追踪模块中,输出货车追踪结果;根据追踪结果校验货车位置,判断是否进入仓库;校验成功后,正面摄像头采集货物图像输入到目标检测模块中,输出识别结果。
图3为本发明改进Yolov5m网络结构图,具体为:Backbone主干网络、Head网络、Detect输出端;Backbone主干网络通过深度卷积操作从图像中提取不同层次的特征,主要利用了瓶颈跨阶段局部结构BottleneckCSP和空间金字塔池化SPPF;Head网络层包含特征金字塔FPN、路径聚合结构PAN,FPN在网络中自上而下传递语义信息,PAN则自下而上传递定位信息,对Backbone中不同网络层的信息进行融合,进一步提升检测能力。Detect输出端作为最后的检测部分,主要是在大小不同的特征图上预测不同尺寸的目标。。
本发明所提方案可以装载到计算机或其他可编程数据处理设备上,使得在执行一系列操作步骤后在计算机或其他可编程数据处理设备实现本文所提方案的部分功能或全部功能。
上面对本发明进行了示范性描述,本发明具体实现并不受上述方式的限制,任何熟悉本技术领域的技术人员在本申请揭露的计算范围内,可轻易想到变化和替换,改变数据集、货物类别数量、权值参数等方式都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法,其特征在于:将图像训练数据集输入改进Yolov5m网络模型进行训练,得到目标检测模型;由摄像头采集实时视频图像信息,并将其发送到货物识别单元;货物识别单元包括货车追踪模块和目标检测模块,分别得到货车位置识别结果和携带货物识别结果,所述识别过程在训练好的改进Yolov5m网络模型上进行;所述货车位置识别结果进行校验,校验后得到货物识别结果作为最终的货物识别结果。
2.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法,其特征在于:所述的改进Yolov5m模型训练方法为将训练集图像经过翻转、改变亮度、裁剪、平移、增加噪声等数据增强操作后,输入到改进的Yolov5m网络中,将损失函数更改为EIoU,优化器更改为AdamW并训练,可以获得目标检测模型。
3.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法,其特征在于:所述的改进Yolov5m网络实现方法为对于Backbone中的结构,将标准卷积操作替换为深度可分离卷积操作,降低了网络参数量;将激活函数SiLU替换为GELU,提高了网络性能;为消除深度可分离卷积带来的耗时增加和发生过拟合,将网络残差结构替换为倒置残差结构。
4.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法,其特征在于:所述的实时货物识别方法为由侧面摄像头采集视频图像信息,帧率设置为30帧,每一帧图像输入到货车追踪模块,由训练后的改进Yolov5m模型处理并输出识别结果;由DeepSort算法对输入识别结果进行货车追踪,输出货车位置信息;校验货车位置,到达指定区域时,由正面摄像头采集货物图像信息,图像输入到目标检测模块,由训练后的改进Yolov5m模型处理并输出识别结果。
5.根据权利要求1所述的基于改进Yolov5m模型和DeepSort的货车入库货物识别方法,其特征在于:所述的货物识别单元包括货车追踪模块和目标检测模块,所述两个模块由训练好的改进Yolov5m网络模型和DeepSort目标追踪算法组成,输出为在不同货物类型上的概率和追踪货车标记ID,由对应ID位置信息校验对应货车所在位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210649563.8A CN114882423A (zh) | 2022-06-09 | 2022-06-09 | 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210649563.8A CN114882423A (zh) | 2022-06-09 | 2022-06-09 | 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882423A true CN114882423A (zh) | 2022-08-09 |
Family
ID=82681727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210649563.8A Pending CN114882423A (zh) | 2022-06-09 | 2022-06-09 | 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882423A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909316A (zh) * | 2023-02-21 | 2023-04-04 | 昆明理工大学 | 一种面向数据不均匀场景的轻量化端到端车牌识别方法 |
CN116994151A (zh) * | 2023-06-02 | 2023-11-03 | 广州大学 | 基于SAR图像和YOLOv5s网络的海上舰船目标识别方法 |
-
2022
- 2022-06-09 CN CN202210649563.8A patent/CN114882423A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909316A (zh) * | 2023-02-21 | 2023-04-04 | 昆明理工大学 | 一种面向数据不均匀场景的轻量化端到端车牌识别方法 |
CN116994151A (zh) * | 2023-06-02 | 2023-11-03 | 广州大学 | 基于SAR图像和YOLOv5s网络的海上舰船目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
Adarsh et al. | YOLO v3-Tiny: Object Detection and Recognition using one stage improved model | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Saito et al. | Multiple object extraction from aerial imagery with convolutional neural networks | |
CN111079674B (zh) | 一种基于全局和局部信息融合的目标检测方法 | |
CN108960245B (zh) | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 | |
US20210224609A1 (en) | Method, system and device for multi-label object detection based on an object detection network | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
US10198657B2 (en) | All-weather thermal-image pedestrian detection method | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN114882423A (zh) | 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 | |
CN110322445B (zh) | 基于最大化预测和标签间相关性损失函数的语义分割方法 | |
CN110598752B (zh) | 一种自动生成训练数据集的图像分类模型训练方法及系统 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
CN111209858B (zh) | 一种基于深度卷积神经网络的实时车牌检测方法 | |
CN112541508A (zh) | 果实分割识别方法及系统、果实采摘机器人 | |
CN111783841A (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN114648665A (zh) | 一种弱监督目标检测方法及系统 | |
CN111738114B (zh) | 基于无锚点精确采样遥感图像车辆目标检测方法 | |
CN113221787A (zh) | 基于多元差异性融合的行人多目标跟踪方法 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN112766170A (zh) | 基于簇类无人机图像的自适应分割检测方法及装置 | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
CN114943840A (zh) | 机器学习模型的训练方法、图像的处理方法和电子设备 | |
CN111738237B (zh) | 一种基于异构卷积的多核迭代rpn的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |