CN115631460A - 一种基于改进YOLOv5目标检测的商品状态识别方法 - Google Patents
一种基于改进YOLOv5目标检测的商品状态识别方法 Download PDFInfo
- Publication number
- CN115631460A CN115631460A CN202211354848.5A CN202211354848A CN115631460A CN 115631460 A CN115631460 A CN 115631460A CN 202211354848 A CN202211354848 A CN 202211354848A CN 115631460 A CN115631460 A CN 115631460A
- Authority
- CN
- China
- Prior art keywords
- yolov5
- target
- network
- target detection
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv5目标检测的商品状态识别方法包括:步骤S10:采集目标图像样本数据;步骤S20:对目标检测算法YOLOv5进行改进;步骤S30:在YOLOv5特征融合网络中添加一个新的特征提取层,改进损失函数;步骤S40:将通过Mosaic数据增强后的目标图样数据集送入YOLOv5网络中进行迭代训练;步骤S50:将目标图片送入至训练后得到的最佳模型中,检测目标类别及位置,最终得到识别结果。本发明通过通过设计跳转连接操作向深层网络传递清晰目标特征,引入卷积注意力机制模块,使得模型更加关注对识别有关的分类特征,解决了无效特征影响识别精度的问题,在相同的测试图像中可以更加准确地捕捉到目标的识别特征,并在不增加训练成本的前提下取得更好的识别效果。
Description
技术领域
本发明涉及目标检测技术领域,特别涉及一种基于改进YOLOv5目标检测的商品状态识别方法。
背景技术
随着人工智能迅速发展,随着深度学习的蓬勃发展,目标检测等计算机视觉技术已经广泛应用到了各行各业并发挥了重要作用。以YOLO为代表的目标检测技术兼备目标分割与识别能力,同时在准确性和实时性方面也表现出了极高的性能。尤其是在复杂场景中,需要对不同目标进行实时处理时,目标自动提取和识别就显得尤为重要。
YOLOv5是YOLO系列的最新目标检测算法,相较于前几个版本的算法在在检测平均精度方面均有所提升,具有均值权重文件更小,训练时间和推理速度更短的特点。当前,以YOLO系列为代表的目标检测算法已经广泛应用到了人脸识别、交通流量监控、工业零件检测等生产生活场景。但是,市面上针对水果蔬菜、保健食品、烘焙类食品等日常零售行业的应用还比较缺乏,现有的YOLOv5目标检测的商品状态识别方法,存在以下缺点:
1)、不同应用场景下的高质量商品数据集欠缺,同时,为训练出指标较好的模型,需要耗费大量时间精力进行数据集标注;
2)、现有的识别方法在不同应用场景下对于商品识别存在特征提取困难的问题,且对于实时性要求较高;
3)、在物联网小型设备上,如何在较少的代码和有限的带宽等受限环境下实现各功能模块间实时可靠的消息服务。
发明内容
针对现有技术存在的问题,本发明提供了一种基于改进YOLOv5目标检测的商品状态识别方法。
为实现上述目的,本发明提供如下技术方案:
一种基于改进YOLOv5目标检测的商品状态识别方法,包括:
步骤S10:采集目标图像样本数据,将采集到的目标图样数据集使用Mosaic数据增强,即采用多张图片随机裁剪、随机排列、随机缩放,然后组合成一张图片,得到待识别数据集;
步骤S20:对目标检测算法YOLOv5进行改进,获得改进的YOLOv5目标检测算法;
步骤S30:在YOLOv5特征融合网络中添加一个新的特征提取层,并调整YOLOv5网络的目标框回归公式,改进损失函数;
步骤S40:将通过Mosaic数据增强后的目标图样数据集送入YOLOv5网络中进行迭代训练,并使用余弦退火算法对学习率进行调整;
步骤S50:训练完成后,将目标图片送入至训练后得到的最佳模型中,检测目标类别及位置,最终得到识别结果。
优选地,所述在步骤S10中,采集目标图像样本数据包括:通过远程控制系统操控摄像头进行旋转,实现分时采集,获得包含不同特征的图像样本数据。
优选地,所述在步骤S20中,对目标检测算法YOLOv5进行改进具体包括:在原始YOLOv5模型的基础上,在Backbone骨干网络和Neck网络中,新增跳转连接操作和卷积注意力机制模块,并进行加权特征融合。
优选地,所述在步骤S30中,YOLOv5网络的目标框回归公式,其中YOLOv5的Prediction端采用了CIOU_Loss做Bounding box的损失函数,计算公式下:
优选地,所述跳转连接操作将浅层的信息特征直接传递给深层网络,减少深层网络特征模糊对识别精度造成的影响;所述卷积注意力机制模块用于卷积神经网络的注意力模块,该卷积注意力机制模块模块沿着两个独立的维度依次推断注意力图,并将注意力图与输入特征图相乘以进行自适应特征优化。
与现有技术相比,本发明的有益效果:
1)、改进YOLOv5目标检测算法,通过设计跳转连接操作向深层网络传递清晰目标特征,解决了不同应用场景下商品图像的特征模糊问题;
2)、引入卷积注意力机制模块,使得模型更加关注对识别有关的分类特征,解决了无效特征影响识别精度的问题,在相同的测试图像中可以更加准确地捕捉到目标的识别特征,并在不增加训练成本的前提下取得更好的识别效果。
附图说明
图1是本发明一种基于改进YOLOv5目标检测的商品状态识别方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
请参见图1,一种基于改进YOLOv5目标检测的商品状态识别方法,包括:
步骤S10:采集目标图像样本数据,将采集到的目标图样数据集使用Mosaic数据增强,即采用多张图片随机裁剪、随机排列、随机缩放,然后组合成一张图片,得到待识别数据集;
步骤S20:对目标检测算法YOLOv5进行改进,获得改进的YOLOv5目标检测算法;
步骤S30:在YOLOv5特征融合网络中添加一个新的特征提取层,并调整YOLOv5网络的目标框回归公式,改进损失函数;
步骤S40:将通过Mosaic数据增强后的目标图样数据集送入YOLOv5网络中进行迭代训练,并使用余弦退火算法对学习率进行调整;
步骤S50:训练完成后,将目标图片送入至训练后得到的最佳模型中,检测目标类别及位置,最终得到识别结果。
具体的,在步骤S10中,采集目标图像样本数据包括:通过远程控制系统操控摄像头进行旋转,实现分时采集,获得包含不同特征的图像样本数据。为了能够更好的采集目标图像信息,本实验建立了远程操控采集装置的系统,通过控制系统可以远程操控采集装置的摄像头进行旋转,能够在光线充足的情况下分时进行采集,从而能够得到不同特征的目标图像信息,获得包含不同特征的图像样本数据。对样本数据集进行随机裁剪、随机偏移、Mosaic等数据增强将实验样本扩容,其中Mosaic数据增强即把四张实验图片拼凑成一张进行训练,一定程度上提高了模型对于小目标检测的能力。
具体的,在步骤S20中,对目标检测算法YOLOv5进行改进具体包括:在原始YOLOv5模型的基础上,在Backbone骨干网络和Neck网络中,新增跳转连接操作和卷积注意力机制模块,并进行加权特征融合。
YOLOv5目标检测算法是继承了YOLO系列算法精华的新一代算法,在权重文件、推理时间、训练时间上较YOLOv3、YOLOv4都有不同程度的提升。Yolov5官方代码中,给出的目标检测网络中一共有4个版本,分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。四个模型都是在Yolov5s的基础上进行加深加宽的。考虑到猪脸识别应用到项目中,所以本发明选择了其中的轻量级网络Yolov5s,其结构主要分为四个部分,Input输入端、Backbone主干网络、Neck网络、Prediction输出端。
Input输入端主要通过Mosaic数据增强,自适应锚框计算,自适应图片大小三种方式对输入模型的图片进行统一处理。
Backbone主干网络的作用主要是提取特征,主要包含了Focus、BottleneckCSP、空间金字塔池化SPP三个模块。Focus模块是从输入图片中,周期性的抽出像素点重构到低分辨率图像中,即将图像相邻的四个位置进行堆叠,提高每个点感受野,并减少原始信息的丢失,减少计算量加快速度。BottleneckCSP模块主要包括Bottleneck和CSP两部分,有效的降低计算量提升速度。SPP模块,分别采用5/9/13的最大池化,再进行Concat融合,提高感受野。
Neck网络中的PANET基于Mask R-CNN和FPN框架,加强了信息传播,具有准确保留空间信息的能力,这有助于对像素进行适当的定位以形成掩模。
Prediction输出端主要是检测部分,它在特征图上应用锚定框,并生成分类概率、置信度和目标锚框最终的向量。
在处理实际问题时,由于不同图像的长宽通常各不相同,常见的目标检测算法按照某一标准尺寸将初始图像统一缩放后再送入检测网络。YOLOv5采取对初始图像自适应填充最少黑边的方法,尽可能地减少信息冗余,加快了推理速度。
在YOLOv5的Backbone部分,设计了Focus结构,采用切片操作对初始图像进行处理。以本作品采用的YOLOv5s模型为例,其Focus结构采用了32个卷积核。YOLOv5s的Backbone主干网络中添加了CSP_X结构,Neck部分则添加了CSP2_X结构。
YOLOv5的Neck部分采用了FPN+PAN的结构。区别于YOLOv4,YOLOv5在Neck结构中借鉴了CSPNet设计了CSP2结构,加强了网络特征融合能力。
具体的,在步骤S30中,YOLOv5网络的目标框回归公式,其中YOLOv5的Prediction端采用了CIOU_Loss做Bounding box的损失函数,计算公式下:
在目标检测时,通常需要进行nms操作对众多目标框进行筛选。由于CIOU_Loss中包含影响因子v,涉及groud truth的信息,而测试推理时,是没有ground truth的。因此,YOLOv5采用加权nms的方式处理这一问题,使其能够处理遮挡重叠目标,同时计算成本也没有增加。
具体的,跳转连接操作将浅层的信息特征直接传递给深层网络,减少深层网络特征模糊对识别精度造成的影响;所述卷积注意力机制模块用于卷积神经网络的注意力模块,该卷积注意力机制模块模块沿着两个独立的维度依次推断注意力图,并将注意力图与输入特征图相乘以进行自适应特征优化。
在原始的YOLOv5网络的PAN结构中,拼接层融合了两个不同输入的特征信息,并作为新的特征输出到下一层的特征提取结构;其中原始输入到拼接层的特征信息分别为:K1H1W1、K2H1W1,则拼接层输出的特征信息公式表示如下:
Zconcat=(K1+K2)H1W1
其中,K1、K2分别为输入的不同特征图的通道数,H1W1分别为输入特征图的高度和宽度;
引入跳转连接操作后,原本的拼接特征信息中还将增加新的浅层网络特征信息K3H1W1,则此时拼接层输出的特征公式表示如下:
Zconcat=(K1+K2+K3)H1W1
其中,K1、K2分别为输入的不同特征图的通道数,H1W1分别为输入特征图的高度和宽度。
引入跳转连接后的网络层可以将浅层提取出的特征信息与深层的特征信息进行融合,使小尺度和中尺度的特征信息更加丰富,能够有效提升识别精度。
综上所述:本发明通过改进YOLOv5目标检测算法,通过设计跳转连接操作向深层网络传递清晰目标特征,解决了不同应用场景下商品图像的特征模糊问题;引入卷积注意力机制模块,使得模型更加关注对识别有关的分类特征,解决了无效特征影响识别精度的问题,在相同的测试图像中可以更加准确地捕捉到目标的识别特征,并在不增加训练成本的前提下取得更好的识别效果。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (5)
1.一种基于改进YOLOv5目标检测的商品状态识别方法,其特征在于,包括:
步骤S10:采集目标图像样本数据,将采集到的目标图样数据集使用Mosaic数据增强,得到待识别数据集;
步骤S20:对目标检测算法YOLOv5进行改进,获得改进的YOLOv5目标检测算法;
步骤S30:在YOLOv5特征融合网络中添加一个新的特征提取层,并调整YOLOv5网络的目标框回归公式,改进损失函数;
步骤S40:将通过Mosaic数据增强后的目标图样数据集送入YOLOv5网络中进行迭代训练,并使用余弦退火算法对学习率进行调整;
步骤S50:训练完成后,将目标图片送入至训练后得到的最佳模型中,检测目标类别及位置,最终得到识别结果。
2.根据权利要求1所述的一种基于改进YOLOv5目标检测的商品状态识别方法,其特征在于,所述在步骤S10中,采集目标图像样本数据包括:通过远程控制系统操控摄像头进行旋转,实现分时采集,获得包含不同特征的图像样本数据。
3.根据权利要求1所述的一种基于改进YOLOv5目标检测的商品状态识别方法,其特征在于,所述在步骤S20中,对目标检测算法YOLOv5进行改进具体包括:在原始YOLOv5模型的基础上,在Backbone骨干网络和Neck网络中,新增跳转连接操作和卷积注意力机制模块,并进行加权特征融合。
5.根据权利要求3所述的一种基于改进YOLOv5目标检测的商品状态识别方法,其特征在于,所述跳转连接操作将浅层的信息特征直接传递给深层网络,减少深层网络特征模糊对识别精度造成的影响;所述卷积注意力机制模块用于卷积神经网络的注意力模块,该卷积注意力机制模块模块沿着两个独立的维度依次推断注意力图,并将注意力图与输入特征图相乘以进行自适应特征优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211354848.5A CN115631460A (zh) | 2022-11-01 | 2022-11-01 | 一种基于改进YOLOv5目标检测的商品状态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211354848.5A CN115631460A (zh) | 2022-11-01 | 2022-11-01 | 一种基于改进YOLOv5目标检测的商品状态识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631460A true CN115631460A (zh) | 2023-01-20 |
Family
ID=84909514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211354848.5A Pending CN115631460A (zh) | 2022-11-01 | 2022-11-01 | 一种基于改进YOLOv5目标检测的商品状态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631460A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363425A (zh) * | 2023-03-27 | 2023-06-30 | 南通大学 | 一种基于改进的YOLOv5的商品种类识别及裁剪方法 |
CN117058526A (zh) * | 2023-10-11 | 2023-11-14 | 创思(广州)电子科技有限公司 | 一种基于人工智能的自动货物识别方法及系统 |
-
2022
- 2022-11-01 CN CN202211354848.5A patent/CN115631460A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363425A (zh) * | 2023-03-27 | 2023-06-30 | 南通大学 | 一种基于改进的YOLOv5的商品种类识别及裁剪方法 |
CN117058526A (zh) * | 2023-10-11 | 2023-11-14 | 创思(广州)电子科技有限公司 | 一种基于人工智能的自动货物识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN115631460A (zh) | 一种基于改进YOLOv5目标检测的商品状态识别方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN112232351B (zh) | 一种基于深度神经网络的车牌识别系统 | |
CN111626090B (zh) | 一种基于深度帧差卷积神经网络的运动目标检测方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN113065645A (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN116152591B (zh) | 模型训练方法、红外小目标检测方法、装置及电子设备 | |
CN115984698A (zh) | 一种基于改进YOLOv5的荔枝果实生长期识别方法 | |
CN116778346B (zh) | 一种基于改进自注意力机制的管线识别方法及系统 | |
CN113496176B (zh) | 动作识别方法、装置以及电子设备 | |
CN111832508B (zh) | 基于die_ga的低照度目标检测方法 | |
CN113378672A (zh) | 基于改进YOLOv3的输电线缺陷多目标检测方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN116453048A (zh) | 一种结合可学习注意力机制的人群计数方法 | |
CN116468625A (zh) | 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
CN115953312A (zh) | 一种基于单幅图像的联合去雾检测方法、装置及存储介质 | |
CN114119428B (zh) | 一种图像去模糊方法和装置 | |
CN113887419B (zh) | 一种基于提取视频时空信息的人体行为识别方法及系统 | |
CN111402223B (zh) | 一种利用变电站视频图像的变电站缺陷问题检测方法 | |
CN113378598A (zh) | 一种基于深度学习的动态条码检测方法 | |
CN114463192A (zh) | 一种基于深度学习的红外视频畸变校正的方法 | |
CN113221823A (zh) | 一种基于改进轻量级YOLOv3的交通信号灯倒计时识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |