CN114494710A

CN114494710A - 一种基于注意力YOLOv5模型的自动水果识别方法

Info

Publication number: CN114494710A
Application number: CN202210138123.6A
Authority: CN
Inventors: 邵叶秦; 曹秋阳; 李登亮; 宋锦伟; 高瞻; 施佺
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-13

Abstract

本发明公开了一种基于注意力YOLOv5模型的自动水果识别方法，包括以下步骤：1、将数据集的原始图像进行预处理；2、输入主干网络提取特征，并使用SENet注意力模块得到一个与通道对应的一维向量作为评价分数；3、将评价分数通过乘法操作作用到feature map的对应通道上，得到用于水果识别的有效特征；4、经过Feature Pyramid Networks和Path Aggregation Network结构将特征融合；5、对图像特征进行预测，使用CIOU考虑目标框与预测框的高宽比和中心点之间的关系，提升预测精度，根据大、中、小目标分别输出识别结果。

Description

一种基于注意力YOLOv5模型的自动水果识别方法

技术领域

本发明属于水果识别领域，尤其涉及一种基于注意力YOLOv5模型的自动水果识别方法。

背景技术

在日常生活中，超市及菜市场需要人工进行称重计价，这样不仅操作耗时、计价流程过长，而且会降低顾客的购买效率。因此超市以及菜市场将水果称重相结合，自动计算水果的价格，提高顾客购买的效率是非常有必要的。

目前主流方法主要存在如下问题：1、模型倾向于对象的全局信息，容易忽略某些关键及重要的水果局部信息；2、目标框与预测框重合时未考虑它们之间的相互关系，容易导致预测结果不精确问题。

发明内容

本发明目的在于提供一种基于注意力YOLOv5模型的自动水果识别方法,以解决现有模型倾向于对象的全局信息，容易忽略某些关键及重要的水果局部信息和现有目标框与预测框重合时未考虑它们之间的相互关系，容易导致预测结果不精确问题的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于注意力YOLOv5模型的自动水果识别方法，包括以下步骤：

步骤1、将数据集的原始图像进行预处理；

步骤2、输入主干网络提取特征，并使用SENet注意力模块得到一个与通道对应的一维向量作为评价分数；

步骤3、将评价分数通过乘法操作作用到feature map的对应通道上，得到用于水果识别的有效特征；

步骤4、经过路径聚合网络Feature Pyramid Networks和路径聚合网络PathAggregation Network结构将特征融合；

步骤5、对图像特征进行预测，使用CIOU考虑目标框与预测框的高宽比和中心点之间的关系，提升预测精度，根据大、中、小目标分别输出识别结果。

进一步的，所述步骤1中使用Mosaic数据增强的方式进行图像拼接。

进一步的，所述步骤1中对数据集的尺寸归一化处理，对原始图像进行自适应填充最少的灰度值，具体包括以下步骤：

步骤1.1、设置图像缩放比例；令原始图像为A×B，缩放至a×a，其中A为原始图像的宽，B为原始图像的高，a为缩放后图像的宽，缩放后图像宽和高相等，将缩放后图像的宽高除以原始图像相应宽高，得到2个系数，取其小的系数；

步骤1.2、设置缩放后的尺寸；将原始图片宽高乘以最小的系数，则宽为C，高为D；

步骤1.3、设置灰边的填充值；先将C减去D，并采用取余的方式得需要填充的像素值(C-D)％E＝F，其中E＝2ⁿ，n是网络经过的下采样次数，两端各

个像素；在测试过程中采用灰色填充，训练过程使用原始的resize操作以提高物体的检测、计算速度。

进一步的，所述主干网络是CSPDarknet-53，能增强卷积网络的学习能力，降低内存消耗。

进一步的，所述SENet注意力模块的操作过程包括以下步骤：

步骤2.1、使用全局平均池化作为Squeeze操作；

步骤2.2、使用两个全连接层得到通道间的相关性，同时减少参数与计算量；

步骤2.3、通过Sigmoid归一化权重；

步骤2.4、通过Scale操作将归一化后的权重作用在原始通道的特征上。

进一步的，所述步骤5中CIOU将真实框与预测框之间的距离、重叠率、边框尺度以及惩罚因子均考虑进去，使得目标边框回归更加稳定；

CIOU公式：

其中，ρ²(b，b^gt)即预测框与真实框中心点之间的欧式距离d，c表示同时包含真实框与预测框最小闭包矩形框的对角线距离。

式(2)为惩罚项αv中α的公式：

式(3)为惩罚项αv中v的公式:

其中，w^gt表示真实框的宽，h^gt表示真实框的高，w表示预测框的宽，h表示预测框的高。

式(4)为CIOU在回归时loss的计算公式：

目标框与预测框重合时，CIOU值不相同；c值相同时，通过目标框与预测框中心点的欧式距离与对角线的比值d，度量两者位置关系，使损失函数能收敛。

本发明的一种基于注意力YOLOv5模型的自动水果识别方法，具有以下优点：

1、本发明在主干网络后增加注意力机制，增加水果的重要特征，减弱不重要的特征，提升水果识别准确率。

2、本发明使用CIOU边框回归损失函数，将目标框与测试框的宽高比和中心点之间的关系考虑进去，使得水果预测框更加贴近真实框。

附图说明

图1为本发明的基于注意力YOLOv5模型的自动水果识别方法流程图；

图2为本发明的CSP1_X结构示意图；

图3为本发明的CSP2_X结构示意图；

图4为本发明的SENet结构示意图；

图5为本发明的网络结构示意图

图6为本发明的CIOU示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于注意力YOLOv5模型的自动水果识别方法做进一步详细的描述。

本发明流程如图1所示，具体包括以下步骤：

步骤1、将数据集进行预处理；

使用Mosaic数据增强的方式进行图片拼接，参考了CutMix数据增强思想。CutMix数据增强将两张图片进行拼接，而Mosaic采用四张图片的拼接，增加数据量的同时可以丰富检测物体的背景。

在YOLO系列算法中，通常对不同的数据集都会设定初始长宽的锚框。在YOLOv3、YOLOv4中，初始锚框都是通过单独算法得到的，常用的是k-means算法。本发明将这种功能嵌入至代码中，实现了每次训练可以自适应的计算不同训练集中的最佳初始锚框。本发明的初始锚框为[10,13,16,30,33,23]、[30,61,62,45,59,119]、[116,90,156,198,373,326]，经过计算本发明最佳初始锚框为[111,114,141,121,127,141]、[150,149,159,169,195,212]、[256,173,173,292,326,298]。

数据集的大小往往都是大小不一，需要对其尺寸归一化。然而，实际项目中的很多图片长宽比不一致，缩放并填充后，两端填充部分较多，存在很多冗余信息，影响模型速度及效果。本发明方法对原始图像进行自适应填充最少的灰度值，使得图像高度或宽度两端的灰度值最少，计算量也会随之减少，速度也得到提升。具体步骤如下：

(1)图像缩放比例。假设原始图像为1000x800，缩放至416x416。将416x416除以原始图像相应宽高，得到系数分别为0.416和0.52，取其较小值0.416。

(2)缩放后的尺寸。将原始图片宽高乘以较小的系数0.416，则宽为416，高为332。

(3)灰边的填充值。先将416-332＝84，并采用取余的方式得需要填充的像素值84％32＝20(32是由于网络经过了5次下采样，2的5次方为32)，两端各10个像素。在测试过程中采用灰色填充，训练过程依旧使用原始的resize操作以提高物体的检测、计算速度。

为了在水果图像上提取丰富的特征，受到YOLOv5的启发，本发明使用CSPDarknet-53作为主干网络。CSPDarknet-53可以增强卷积网络的学习能力，降低内存消耗。

CSPDarknet-53主干网络包括Focus(裁剪)、Mosaic(马赛克)、卷积层、残差组件，其中CSP1_X用来调整残差组件的数量，如图2所示。

Neck(瓶颈层)中的CSP2_X则是用来对卷积层数量的调整，如图3所示。CSPDarknet-53提取的特征后续用于得到通道注意力。

为了得到不同特征通道的权重，强化重要通道，减弱次要通道，本发明使用SENet注意力机制学习通道权重。SENet可以学习通道之间的相关性，生成通道注意力。虽然计算量有所增加，但是提取的特征更加有效。图4是SENet模型示意图。首先，使用全局平均池化作为Squeeze操作；其次，使用两个全连接层得到通道间的相关性，同时减少参数与计算量；然后，通过Sigmoid归一化权重；最后，通过Scale操作将归一化后的权重作用在原始通道的特征上。

本发明是将SENet入至SPP(空间金字塔池化)模块后，如图5所示。SPP作为一种Inception结构，嵌入了水果多尺度信息，聚合了不同感受野上的特征，因此使用SELayer能够对卷积特征通道重新加权，增强重要特征之间的相互依赖，可以学习到不同通道特征的重要程度，从而产生更好的效果并提升识别性能。

针对全局特征差别不大(大小、形状、颜色等)，某些局部特征有差异的水果，注意力机制SENet能够增强水果的重要特征，减弱不重要的特征，使得提取的水果特征更加具有代表性且保留局部重要信息。本实施例选取前16张特征图，青苹果与番石榴的大小、形状、颜色等全局特征相似，而部分区域颜色、表面纹理以及根蒂等有所不同。在没有进行SENet操作前，两者特征信息类似，经过SENet操作后，一方面减弱了周边不重要的信息、另一方面突出了两种水果局部纹理、形状等重要特征，有利于准确识别出青苹果与番石榴。

步骤4、经过特征金字塔Feature Pyramid Networks(FPN)和路径聚合网络PathAggregation Network(PAN)结构将特征融合；

步骤5、对图像特征进行预测，根据大、中、小目标分别输出识别结果。

本发明采用CIOU_Loss替换了GIOU_Loss。GIOU_Loss解决了边框不重合的问题，而CIOU_Loss在其基础上不仅考虑了边框重合问题，而且将边框高宽比和中心的位置关系等信息也考虑进去，使得预测框的回归速度与精度更高。

CIOU是将真实框与预测框之间的距离、重叠率、边框尺度以及惩罚因子均考虑进去，使得目标边框回归更加稳定，有效的解决IOU在训练过程中发散的问题，如图6所示。

式(1)为CIOU公式：

式(2)为惩罚项αv中α的公式：

式(3)为惩罚项αv中v的公式:

式(4)为CIOU在回归时loss的计算公式：

目标框与预测框重合时，CIOU值也不相同。c值相同时，通过目标框与预测框中心点的欧式距离与对角线的比值d，有效度量两者位置关系，使损失函数能够有效收敛。

本发明的水果数据集部分来自于网上公开数据集，部分来自于手机拍摄的数据，所用数据均为模拟称重时俯拍的水果图片，而且考虑了不同的业务场景。采用注意力机制自动学习每个特征通道的重要程度，进而按照重要程度强化对水果识别任务有用的特征并抑制没有用的特征；其次，针对水果识别预测框与目标框重叠时，CIOU考虑目标框与预测框的高宽比和中心点之间的关系，从而使水果预测框更加接近真实框，提升预测精度。水果类别共有15种，共计13676张，训练集、验证集、测试集的比例为8:1:1(训练集10940张，验证集和测试集均为1368张)，具体类别及数量如表1所示。

表1数据集表

针对超市及菜市场人工称重操作耗时、计价流程过长的问题，本发明提出一种基于注意力YOLOv5模型的水果自动识别算法。超市以及菜市场可以和水果称重相结合，自动计算水果的价格，提高顾客购买的效率。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。