CN114494710A - 一种基于注意力YOLOv5模型的自动水果识别方法 - Google Patents

一种基于注意力YOLOv5模型的自动水果识别方法 Download PDF

Info

Publication number
CN114494710A
CN114494710A CN202210138123.6A CN202210138123A CN114494710A CN 114494710 A CN114494710 A CN 114494710A CN 202210138123 A CN202210138123 A CN 202210138123A CN 114494710 A CN114494710 A CN 114494710A
Authority
CN
China
Prior art keywords
frame
attention
width
target
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210138123.6A
Other languages
English (en)
Inventor
邵叶秦
曹秋阳
李登亮
宋锦伟
高瞻
施佺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210138123.6A priority Critical patent/CN114494710A/zh
Publication of CN114494710A publication Critical patent/CN114494710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力YOLOv5模型的自动水果识别方法,包括以下步骤:1、将数据集的原始图像进行预处理;2、输入主干网络提取特征,并使用SENet注意力模块得到一个与通道对应的一维向量作为评价分数;3、将评价分数通过乘法操作作用到feature map的对应通道上,得到用于水果识别的有效特征;4、经过Feature Pyramid Networks和Path Aggregation Network结构将特征融合;5、对图像特征进行预测,使用CIOU考虑目标框与预测框的高宽比和中心点之间的关系,提升预测精度,根据大、中、小目标分别输出识别结果。

Description

一种基于注意力YOLOv5模型的自动水果识别方法
技术领域
本发明属于水果识别领域,尤其涉及一种基于注意力YOLOv5模型的自动水果识别方法。
背景技术
在日常生活中,超市及菜市场需要人工进行称重计价,这样不仅操作耗时、计价流程过长,而且会降低顾客的购买效率。因此超市以及菜市场将水果称重相结合,自动计算水果的价格,提高顾客购买的效率是非常有必要的。
目前主流方法主要存在如下问题:1、模型倾向于对象的全局信息,容易忽略某些关键及重要的水果局部信息;2、目标框与预测框重合时未考虑它们之间的相互关系,容易导致预测结果不精确问题。
发明内容
本发明目的在于提供一种基于注意力YOLOv5模型的自动水果识别方法,以解决现有模型倾向于对象的全局信息,容易忽略某些关键及重要的水果局部信息和现有目标框与预测框重合时未考虑它们之间的相互关系,容易导致预测结果不精确问题的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于注意力YOLOv5模型的自动水果识别方法,包括以下步骤:
步骤1、将数据集的原始图像进行预处理;
步骤2、输入主干网络提取特征,并使用SENet注意力模块得到一个与通道对应的一维向量作为评价分数;
步骤3、将评价分数通过乘法操作作用到feature map的对应通道上,得到用于水果识别的有效特征;
步骤4、经过路径聚合网络Feature Pyramid Networks和路径聚合网络PathAggregation Network结构将特征融合;
步骤5、对图像特征进行预测,使用CIOU考虑目标框与预测框的高宽比和中心点之间的关系,提升预测精度,根据大、中、小目标分别输出识别结果。
进一步的,所述步骤1中使用Mosaic数据增强的方式进行图像拼接。
进一步的,所述步骤1中对数据集的尺寸归一化处理,对原始图像进行自适应填充最少的灰度值,具体包括以下步骤:
步骤1.1、设置图像缩放比例;令原始图像为A×B,缩放至a×a,其中A为原始图像的宽,B为原始图像的高,a为缩放后图像的宽,缩放后图像宽和高相等,将缩放后图像的宽高除以原始图像相应宽高,得到2个系数,取其小的系数;
步骤1.2、设置缩放后的尺寸;将原始图片宽高乘以最小的系数,则宽为C,高为D;
步骤1.3、设置灰边的填充值;先将C减去D,并采用取余的方式得需要填充的像素值(C-D)%E=F,其中E=2n,n是网络经过的下采样次数,两端各
Figure BDA0003505792500000021
个像素;在测试过程中采用灰色填充,训练过程使用原始的resize操作以提高物体的检测、计算速度。
进一步的,所述主干网络是CSPDarknet-53,能增强卷积网络的学习能力,降低内存消耗。
进一步的,所述SENet注意力模块的操作过程包括以下步骤:
步骤2.1、使用全局平均池化作为Squeeze操作;
步骤2.2、使用两个全连接层得到通道间的相关性,同时减少参数与计算量;
步骤2.3、通过Sigmoid归一化权重;
步骤2.4、通过Scale操作将归一化后的权重作用在原始通道的特征上。
进一步的,所述步骤5中CIOU将真实框与预测框之间的距离、重叠率、边框尺度以及惩罚因子均考虑进去,使得目标边框回归更加稳定;
CIOU公式:
Figure BDA0003505792500000031
其中,ρ2(b,bgt)即预测框与真实框中心点之间的欧式距离d,c表示同时包含真实框与预测框最小闭包矩形框的对角线距离。
式(2)为惩罚项αv中α的公式:
Figure BDA0003505792500000032
式(3)为惩罚项αv中v的公式:
Figure BDA0003505792500000033
其中,wgt表示真实框的宽,hgt表示真实框的高,w表示预测框的宽,h表示预测框的高。
式(4)为CIOU在回归时loss的计算公式:
Figure BDA0003505792500000034
目标框与预测框重合时,CIOU值不相同;c值相同时,通过目标框与预测框中心点的欧式距离与对角线的比值d,度量两者位置关系,使损失函数能收敛。
本发明的一种基于注意力YOLOv5模型的自动水果识别方法,具有以下优点:
1、本发明在主干网络后增加注意力机制,增加水果的重要特征,减弱不重要的特征,提升水果识别准确率。
2、本发明使用CIOU边框回归损失函数,将目标框与测试框的宽高比和中心点之间的关系考虑进去,使得水果预测框更加贴近真实框。
附图说明
图1为本发明的基于注意力YOLOv5模型的自动水果识别方法流程图;
图2为本发明的CSP1_X结构示意图;
图3为本发明的CSP2_X结构示意图;
图4为本发明的SENet结构示意图;
图5为本发明的网络结构示意图
图6为本发明的CIOU示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于注意力YOLOv5模型的自动水果识别方法做进一步详细的描述。
本发明流程如图1所示,具体包括以下步骤:
步骤1、将数据集进行预处理;
使用Mosaic数据增强的方式进行图片拼接,参考了CutMix数据增强思想。CutMix数据增强将两张图片进行拼接,而Mosaic采用四张图片的拼接,增加数据量的同时可以丰富检测物体的背景。
在YOLO系列算法中,通常对不同的数据集都会设定初始长宽的锚框。在YOLOv3、YOLOv4中,初始锚框都是通过单独算法得到的,常用的是k-means算法。本发明将这种功能嵌入至代码中,实现了每次训练可以自适应的计算不同训练集中的最佳初始锚框。本发明的初始锚框为[10,13,16,30,33,23]、[30,61,62,45,59,119]、[116,90,156,198,373,326],经过计算本发明最佳初始锚框为[111,114,141,121,127,141]、[150,149,159,169,195,212]、[256,173,173,292,326,298]。
数据集的大小往往都是大小不一,需要对其尺寸归一化。然而,实际项目中的很多图片长宽比不一致,缩放并填充后,两端填充部分较多,存在很多冗余信息,影响模型速度及效果。本发明方法对原始图像进行自适应填充最少的灰度值,使得图像高度或宽度两端的灰度值最少,计算量也会随之减少,速度也得到提升。具体步骤如下:
(1)图像缩放比例。假设原始图像为1000x800,缩放至416x416。将416x416除以原始图像相应宽高,得到系数分别为0.416和0.52,取其较小值0.416。
(2)缩放后的尺寸。将原始图片宽高乘以较小的系数0.416,则宽为416,高为332。
(3)灰边的填充值。先将416-332=84,并采用取余的方式得需要填充的像素值84%32=20(32是由于网络经过了5次下采样,2的5次方为32),两端各10个像素。在测试过程中采用灰色填充,训练过程依旧使用原始的resize操作以提高物体的检测、计算速度。
步骤2、输入主干网络提取特征,并使用SENet注意力模块得到一个与通道对应的一维向量作为评价分数;
为了在水果图像上提取丰富的特征,受到YOLOv5的启发,本发明使用CSPDarknet-53作为主干网络。CSPDarknet-53可以增强卷积网络的学习能力,降低内存消耗。
CSPDarknet-53主干网络包括Focus(裁剪)、Mosaic(马赛克)、卷积层、残差组件,其中CSP1_X用来调整残差组件的数量,如图2所示。
Neck(瓶颈层)中的CSP2_X则是用来对卷积层数量的调整,如图3所示。CSPDarknet-53提取的特征后续用于得到通道注意力。
为了得到不同特征通道的权重,强化重要通道,减弱次要通道,本发明使用SENet注意力机制学习通道权重。SENet可以学习通道之间的相关性,生成通道注意力。虽然计算量有所增加,但是提取的特征更加有效。图4是SENet模型示意图。首先,使用全局平均池化作为Squeeze操作;其次,使用两个全连接层得到通道间的相关性,同时减少参数与计算量;然后,通过Sigmoid归一化权重;最后,通过Scale操作将归一化后的权重作用在原始通道的特征上。
本发明是将SENet入至SPP(空间金字塔池化)模块后,如图5所示。SPP作为一种Inception结构,嵌入了水果多尺度信息,聚合了不同感受野上的特征,因此使用SELayer能够对卷积特征通道重新加权,增强重要特征之间的相互依赖,可以学习到不同通道特征的重要程度,从而产生更好的效果并提升识别性能。
针对全局特征差别不大(大小、形状、颜色等),某些局部特征有差异的水果,注意力机制SENet能够增强水果的重要特征,减弱不重要的特征,使得提取的水果特征更加具有代表性且保留局部重要信息。本实施例选取前16张特征图,青苹果与番石榴的大小、形状、颜色等全局特征相似,而部分区域颜色、表面纹理以及根蒂等有所不同。在没有进行SENet操作前,两者特征信息类似,经过SENet操作后,一方面减弱了周边不重要的信息、另一方面突出了两种水果局部纹理、形状等重要特征,有利于准确识别出青苹果与番石榴。
步骤3、将评价分数通过乘法操作作用到feature map的对应通道上,得到用于水果识别的有效特征;
步骤4、经过特征金字塔Feature Pyramid Networks(FPN)和路径聚合网络PathAggregation Network(PAN)结构将特征融合;
步骤5、对图像特征进行预测,根据大、中、小目标分别输出识别结果。
本发明采用CIOU_Loss替换了GIOU_Loss。GIOU_Loss解决了边框不重合的问题,而CIOU_Loss在其基础上不仅考虑了边框重合问题,而且将边框高宽比和中心的位置关系等信息也考虑进去,使得预测框的回归速度与精度更高。
CIOU是将真实框与预测框之间的距离、重叠率、边框尺度以及惩罚因子均考虑进去,使得目标边框回归更加稳定,有效的解决IOU在训练过程中发散的问题,如图6所示。
式(1)为CIOU公式:
Figure BDA0003505792500000071
其中,ρ2(b,bgt)即预测框与真实框中心点之间的欧式距离d,c表示同时包含真实框与预测框最小闭包矩形框的对角线距离。
式(2)为惩罚项αv中α的公式:
Figure BDA0003505792500000072
式(3)为惩罚项αv中v的公式:
Figure BDA0003505792500000073
其中,wgt表示真实框的宽,hgt表示真实框的高,w表示预测框的宽,h表示预测框的高。
式(4)为CIOU在回归时loss的计算公式:
Figure BDA0003505792500000074
目标框与预测框重合时,CIOU值也不相同。c值相同时,通过目标框与预测框中心点的欧式距离与对角线的比值d,有效度量两者位置关系,使损失函数能够有效收敛。
本发明的水果数据集部分来自于网上公开数据集,部分来自于手机拍摄的数据,所用数据均为模拟称重时俯拍的水果图片,而且考虑了不同的业务场景。采用注意力机制自动学习每个特征通道的重要程度,进而按照重要程度强化对水果识别任务有用的特征并抑制没有用的特征;其次,针对水果识别预测框与目标框重叠时,CIOU考虑目标框与预测框的高宽比和中心点之间的关系,从而使水果预测框更加接近真实框,提升预测精度。水果类别共有15种,共计13676张,训练集、验证集、测试集的比例为8:1:1(训练集10940张,验证集和测试集均为1368张),具体类别及数量如表1所示。
表1数据集表
Figure BDA0003505792500000081
Figure BDA0003505792500000091
针对超市及菜市场人工称重操作耗时、计价流程过长的问题,本发明提出一种基于注意力YOLOv5模型的水果自动识别算法。超市以及菜市场可以和水果称重相结合,自动计算水果的价格,提高顾客购买的效率。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (6)

1.一种基于注意力YOLOv5模型的自动水果识别方法,其特征在于,包括以下步骤:
步骤1、将数据集的原始图像进行预处理;
步骤2、输入主干网络提取特征,并使用SENet注意力模块得到一个与通道对应的一维向量作为评价分数;
步骤3、将评价分数通过乘法操作作用到feature map的对应通道上,得到用于水果识别的有效特征;
步骤4、经过特征金字塔和路径聚合网络结构将特征融合;
步骤5、对图像特征进行预测,使用CIOU考虑目标框与预测框的高宽比和中心点之间的关系,提升预测精度,根据大、中、小目标分别输出识别结果。
2.根据权利要求1所述的基于注意力YOLOv5模型的自动水果识别方法,其特征在于,所述步骤1中使用Mosaic数据增强的方式进行图像拼接。
3.根据权利要求2所述的基于注意力YOLOv5模型的自动水果识别方法,其特征在于,所述步骤1中对数据集的尺寸归一化处理,对原始图像进行自适应填充最少的灰度值,具体包括以下步骤:
步骤1.1、设置图像缩放比例;令原始图像为A×B,缩放至a×a,其中A为原始图像的宽,B为原始图像的高,a为缩放后图像的宽,缩放后图像宽和高相等,将缩放后图像的宽高除以原始图像相应宽高,得到2个系数,取其小的系数;
步骤1.2、设置缩放后的尺寸;将原始图片宽高乘以最小的系数,则宽为C,高为D;
步骤1.3、设置灰边的填充值;先将C减去D,并采用取余的方式得需要填充的像素值(C-D)%E=F,其中E=2n,n是网络经过的下采样次数,两端各
Figure FDA0003505792490000021
个像素;在测试过程中采用灰色填充,训练过程使用原始的resize操作以提高物体的检测、计算速度。
4.根据权利要求1所述的基于注意力YOLOv5模型的自动水果识别方法,其特征在于,所述主干网络是CSPDarknet-53,能增强卷积网络的学习能力,降低内存消耗。
5.根据权利要求1所述的基于注意力YOLOv5模型的自动水果识别方法,其特征在于,步骤2所述SENet注意力模块操作过程包括以下步骤:
步骤2.1、使用全局平均池化作为Squeeze操作;
步骤2.2、使用两个全连接层得到通道间的相关性,同时减少参数与计算量;
步骤2.3、通过Sigmoid归一化权重;
步骤2.4、通过Scale操作将归一化后的权重作用在原始通道的特征上。
6.根据权利要求1所述的基于注意力YOLOv5模型的自动水果识别方法,其特征在于,所述步骤5中CIOU将真实框与预测框之间的距离、重叠率、边框尺度以及惩罚因子均考虑进去,使得目标边框回归更加稳定;
CIOU公式:
Figure FDA0003505792490000022
其中,ρ2(b,bgt)即预测框与真实框中心点之间的欧式距离d,c表示同时包含真实框与预测框最小闭包矩形框的对角线距离。
惩罚项αv中α的公式如下所示:
Figure FDA0003505792490000023
惩罚项αv中v的公式如下所示:
Figure FDA0003505792490000031
其中,wgt表示真实框的宽,hgt表示真实框的高,w表示预测框的宽,h表示预测框的高;
CIOU在回归时loss的计算公式如下所示:
Figure FDA0003505792490000032
目标框与预测框重合时,CIOU值不相同;c值相同时,通过目标框与预测框中心点的欧式距离与对角线的比值d,度量两者位置关系,使损失函数收敛。
CN202210138123.6A 2022-02-15 2022-02-15 一种基于注意力YOLOv5模型的自动水果识别方法 Pending CN114494710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210138123.6A CN114494710A (zh) 2022-02-15 2022-02-15 一种基于注意力YOLOv5模型的自动水果识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210138123.6A CN114494710A (zh) 2022-02-15 2022-02-15 一种基于注意力YOLOv5模型的自动水果识别方法

Publications (1)

Publication Number Publication Date
CN114494710A true CN114494710A (zh) 2022-05-13

Family

ID=81480755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210138123.6A Pending CN114494710A (zh) 2022-02-15 2022-02-15 一种基于注意力YOLOv5模型的自动水果识别方法

Country Status (1)

Country Link
CN (1) CN114494710A (zh)

Similar Documents

Publication Publication Date Title
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
Yu et al. High-resolution deep image matting
CN109993095B (zh) 一种面向视频目标检测的帧级别特征聚合方法
CN110633661A (zh) 一种融合语义分割的遥感图像目标检测方法
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN109165645A (zh) 一种图像处理方法、装置以及相关设备
CN110135325A (zh) 基于尺度自适应网络的人群人数计数方法及系统
CN110930356B (zh) 一种工业二维码无参考质量评估系统及方法
CN109961407B (zh) 基于人脸相似性的人脸图像修复方法
CN114841244B (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN111798469A (zh) 基于深度卷积神经网络的数字图像小数据集语义分割方法
CN117391958B (zh) 一种基于多路径聚合Transformer的卫星云图超分辨率重建方法
CN113705371A (zh) 一种水上视觉场景分割方法及装置
CN113343822B (zh) 一种基于3d卷积的光场显著性目标检测方法
CN111339887A (zh) 商品识别方法及智能货柜系统
CN116343228A (zh) 一种水表智能读数方法及系统
CN110674925A (zh) 基于3d卷积神经网络的无参考vr视频质量评价方法
CN116824307A (zh) 基于sam模型的图像标注方法、装置及相关介质
CN109949334B (zh) 基于深度强化网络残差连接的轮廓检测方法
CN115731597A (zh) 一种人脸口罩掩膜图像自动分割与修复管理平台及方法
CN114332602A (zh) 一种智能货柜的商品识别方法
Zheng et al. Overwater image dehazing via cycle-consistent generative adversarial network
CN114494710A (zh) 一种基于注意力YOLOv5模型的自动水果识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination