CN115984698A

CN115984698A - 一种基于改进YOLOv5的荔枝果实生长期识别方法

Info

Publication number: CN115984698A
Application number: CN202310010754.4A
Authority: CN
Inventors: 薛月菊; 李国庆; 李仕清; 郭景峰; 许成果
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-18

Abstract

本发明公开了一种基于改进YOLOv5的荔枝果实生长期识别方法，包括：1)荔枝数据集的建立，包括对数据采集、预处理、标注和划分数据集；2)对传统YOLOv5的特征提取模块、特征融合模块和下采样方式进行改进。在特征提取模块的SPPF模块后添加SimAM注意力机制。在特征融合模块中，使用轻量级卷积GSConv替代普通卷积，既保证了检测精度与速度，也降低了计算成本；将YOLOv5网络中的所有3×3的跨步卷积替换为非跨步卷积，并在非跨步卷积之后添加SPD模块用于下采样；最终由预测模块对输出的数据进行信息分析和处理，得出检测结果。本发明解决了荔枝果实生长期识别中，果实目标小、重叠、遮挡和图像模糊导致目标检测精度低的问题。

Description

一种基于改进YOLOv5的荔枝果实生长期识别方法

技术领域

本发明涉及荔枝果实识别的技术领域，尤其是指一种基于改进YOLOv5的荔枝果实生长期识别方法。

背景技术

在荔枝的种植过程中，实现对荔枝果实青果期、转色期、成熟期的的准确判别可以获取对荔枝果实各个生长时期的发育信息，以便果园管理者及时调整果树管理策略以及获取荔枝果实的最佳采摘时间，这对荔枝树种植的科学化、自动化与提高荔枝种植的经济效益具有重要意义。

现阶段荔枝果实青果期、转色期、成熟期的监测主要依靠人工观测，观测人员按照表皮颜色，果实饱满度等特征来完成果实生长阶段划分。但这种传统的以人眼识别的方法不仅效率低，而且难以满足精准作业的现实需求。近年来，随着深度学习理论在农业生产中的广泛应用，为作物生长阶段的自动化监测和精准管控提供了值得借鉴的手段。采用基于深度学习的作物生育期监测识别研究较多，也取得了较好的成果，但在荔枝果实生长期识别方面，仍存在以下问题：

1)果园的自然环境复杂，枝叶遮挡、果实重叠、光照变化等干扰因素都会对荔枝果实检测的准确性造成影响。

2)在图像获取过程中，由于振动等因素影响造成图像模糊，会对识别准确率有较大影响。

3)实际农业生产检测环境下往往需要把网络模型部署在算力有限的移动端或嵌入式设备中，而这些设备无法支持复杂的计算量。

4)处于中间阶段的转色期荔枝果实与部分青果期、成熟期荔枝果实特征相似，容易出现误检，对网络提取细粒度特征的能力有着高要求。

综合以上论述，发明一种满足高精度和良好实时性的荔枝果实生长期识别方法具有较高的实际应用价值。

发明内容

本发明的目的在于克服现有技术的缺陷，提出了一种基于改进YOLOv5的荔枝果实生长期识别方法，可有效解决复杂自然环境背景带来的干扰特征，以及小目标、图像模糊误检和漏检问题，同时在实现高精度的同时也要满足高实时性的要求。

为实现上述目的，本发明所提供的技术方案为：一种基于改进YOLOv5的荔枝果实生长期识别方法，该方法是基于改进YOLOv5网络实现荔枝果实生长期的精准识别，该改进YOLOv5网络是对传统YOLOv5网络的特征提取模块、特征融合模块和下采样方式进行改进；其中，对特征提取模块的改进是：在SPPF模块后添加SimAM注意力机制；对特征融合模块的改进是：使用GSConv替换掉原有的传统卷积；对下采样方式的改进是：将YOLOv5网络中的所有3×3的跨步卷积替换为非跨步卷积，并在非跨步卷积之后添加SPD模块用于下采样；

所述荔枝果实生长期识别方法的具体实施包括以下步骤：

1)采集果园内不同生长期的荔枝果实图像，经过图像预处理之后，使用LabelImg进行标注，将荔枝果实标注为青果期、转色期和成熟期三类，接着将图像与标注文件划分成为训练集与测试集，分别用于网络的训练与测试；

2)把训练集的数据送入改进YOLOv5网络进行训练，训练时先对训练集的数据进行数据增强，再将增强后的数据输入到改进YOLOv5网络，通过特征提取模块获取不同生长期荔枝果实的特征信息，将提取的特征信息输入到特征融合模块进行整合并输入到YOLOv5网络的预测模块获得荔枝果实生长期的预测结果；其中，在反向传播中使用二元交叉熵和CIOU计算荔枝果实生长期预测结果和荔枝果实生长期标签的损失值，经过多次迭代至损失值最小，得到最优网络；

3)将测试集中的数据输入到训练得到的最优网络中得到预测信息，接着使用NMS和设定阈值从预测信息中筛选出满足条件的检测框，将最终获得的检测框绘制在原始图片上，在检测框的左上角区域标出检测框的预测类别信息，从而完成荔枝果实生长期的识别。

进一步，所述步骤1)包括以下步骤：

1.1)采集数据：使用海康威视DS2DC3A20IW-D变焦球机和智能手机在某荔枝园采集不同生长期的荔枝果实图像；

1.2)图像预处理：采集数据后，剔除掉采集到的质量差的图像，为了加快训练速度，使用OpenCV库调整原图像尺寸大小；

1.3)图像标注：将经过图像预处理后的荔枝果实图像分为三类：青果期、转色期和成熟期，并使用LabelImg分别将其标注为“m1”、“m2”和“m3”；

1.4)划分数据集：图像标注完成后，将荔枝果实图像与标注文件按比例划分成训练集与测试集。

进一步，在步骤2)中，所述数据增强的方式包括：图像平移、图像翻转、随机亮度增强和Mosaic数据增强，Mosaic数据增强的情况是：将多张不同图像拼接为一张综合图像进行训练，综合图像内拥有多种缺陷目标和复杂背景信息，提升训练效果；

将综合图像输入到改进YOLOv5网络的特征提取模块，特征提取模块包含SPPF模块和SimAM注意力机制，其中SPPF模块为多尺度增强模块，有利于对图像中目标大小差异大的情况进行识别，将经过多尺度增强的大小为20*20*512的特征图送入到SimAM注意力机制中，SimAM注意力机制在不引入额外参数量的情况下，能够灵活地为该特征图分配3D注意力权值，再将大小为20*20*512的融合SimAM注意力机制的特征图送入到特征融合模块中，这增强了各个生长期荔枝果实特征，减弱了复杂自然环境背景带来的干扰特征，从而增强网络的抗干扰能力，强化重要特征和抑制无效特征，SimAM注意力机制在SPPF模块后嵌入到特征提取模块中，能够进一步提升SPPF模块输出特征图中明显的特征，从而从输入图像中高效地提取不同生长期荔枝果实的特征，克服由于枝叶遮挡、果实重叠所造成的目标特征不完整问题；此外，特征提取模块进行5次下采样，获取不同尺寸目标的特征信息，并将第3、4、5次下采样尺寸的特征图输入到特征融合模块中；

特征融合模块是将特征提取模块输入的三个不同尺度的特征图进行融合，整合特征提取模块在不同阶段提取到的特征图信息，增加网络的感受野；在改进YOLOv5网络的特征融合模块中，使用由深度可分离卷积与标准卷积相结合并通过通道混洗生成的轻量化卷积GSConv替换原有的普通卷积，使用GSConv能够降低网络的计算复杂度同时提高网络的精度；

预测模块是将特征信息通过上采样的方式进行传递融合成特征图，得到特征图后进行预测，每个特征图产生三个不同大小的先验框，其中每个先验框输出的预测信息中都包含着类别信息，用于预测青果期、转色期、成熟期三个类别的荔枝果实，最后采用NMS方法调整先验框来确定最终预测结果；预测模块输出20*20、40*40、80*80三个不同尺度的特征图，分别用于预测大、中、小三个不同尺度的荔枝果实目标；为了改善模糊目标和小目标荔枝在下采样过程中细粒度特征信息丢失而造成的误检漏检的问题，将YOLOv5网络中所有的3*3跨步卷积用非跨步卷积替代，即将原本stride值为2的3*3卷积用stride值为1的3*3卷积替代，并在非跨步卷积之后添加SPD模块，加入SPD模块后输出特征图的长宽变为原来特征图长宽的一半，通道数变成原来的4倍，利用将空间分辨率变成通道数的下采样方式取代原来池化的下采样方式，使得进入预测模块的特征图保留更多荔枝细粒度特征，提高YOLOv5网络对荔枝果实青果期、转色期、成熟期识别任务中的准确率。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明的数据采集是借助海康威视球机摄像头与智能手机完成的，拍摄的荔枝数据涵盖了荔枝果的三个生长期，这些数据对荔枝果实图像研究提供数据支持。

2、本发明通过在YOLOv5的特征提取网络中的SPPF层之后添加SimAM注意力机制，增强各个生长期荔枝果实特征，减弱复杂自然环境背景带来的干扰特征，从而增强网络的抗干扰能力，强化重要特征和抑制无效特征，能够从输入图像中高效地提取不同荔枝目标的特征，克服由于枝叶遮挡、果实重叠所等造成的目标特征不完整问题。

3、在YOLOv5的特征融合网络中，使用轻量级卷积GSConv替代普通卷积，既保证了检测精度与速度，也降低了计算成本。

4、将YOLOv5网络中的所有3×3的跨步卷积用非跨步卷积替代，并在非跨步卷积之后添加SPD模块，利用将空间分辨率变成通道数的下采样方式取代原来池化的下采样方式，从而减少了细粒度特征的损失，改善了小目标和图片模糊造成的误检和漏检问题。

5、本发明的准确率和平均精度均值分别达到了95.5％、95.1％，相比于原YOLOv5，本发明检测精度更高，泛化能力好。本发明使用的改进YOLOv5网络仅有16.6M，FPS达到81.3，经过转化后可移植于算力较低的运算平台上，用于指导采摘机器人等实际的农业生产活动。

6、本发明实现了对荔枝果实青果期、转色期、成熟期的的准确判别，可以获取对荔枝果实各个生长时期的发育信息，以便果园管理者及时调整果树管理策略以及获取荔枝果实的最佳采摘时间，这对荔枝树种植的科学化、自动化与提高荔枝种植的经济效益具有重要意义。除此之外，本发明还为其它作物生长阶段的自动化监测和精准管控提供了值得借鉴的手段。

附图说明

图1为本发明方法的总体架构图，图中CBS方块为基础卷积模块，Concat方块为融合操作，C3方块为残差卷积模块，SPPF方块为多尺度增强模块，SPD方块为下采样模块，SimAM方块为注意力机制，GSConv方块为鬼影混洗卷积模块，Detect方块为检测头。

图2为本发明实施例的GSConv流程图，图中Conv方块为卷积操作，Concat方块为融合操作，DWConv方块为深度可分离卷积，shuffle方块为通道混洗操作。

图3为本发明实施例的SPD流程图，图中S代表特征图的长、宽，C1代表特征图的通道数，“+”圆块代表通道数相加。

图4为本发明实施例的实验结果对比图，图中m1代表青果期荔枝果实，图中m2代表转色期荔枝果实，图中m3代表成熟期荔枝果实。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1至图4所示，本实施例提供了一种基于改进YOLOv5的荔枝果实生长期识别方法，该方法是基于改进YOLOv5网络实现荔枝果实生长期的精准识别，该改进YOLOv5网络是对传统YOLOv5网络的特征提取模块、特征融合模块和下采样方式进行改进；其中，对特征提取模块的改进是：在SPPF模块后添加SimAM注意力机制；对特征融合模块的改进是：使用GSConv替换掉原有的传统卷积；对下采样方式的改进是：将YOLOv5网络中的所有3×3的跨步卷积替换为非跨步卷积，并在非跨步卷积之后添加SPD模块用于下采样；

该荔枝果实生长期识别方法的具体实施包括以下步骤：

1)荔枝数据集的建立：采集果园内不同生长期的荔枝果实图像，经过图像预处理之后，使用LabelImg进行标注，将荔枝果实标注为青果期、转色期、成熟期三类，接着将图像与标注文件划分成为训练集与测试集，分别用于网络的训练与测试；

所述构建荔枝数据集的情况是：

1.1)采集数据：在2023年5月1日至7月6日，使用海康威视DS2DC3A20IW-D(400万像素)变焦球机和智能手机(iPhone 12)在广州某荔枝园采集不同生长期的荔枝果实图像，该荔枝园荔枝品种包括但不仅限于糯米滋、桂味、妃子笑等荔枝品种。收集不同品种的荔枝，有利于训练出来的网络去识别更多的荔枝种类，图像采集时的天气包含晴天、阴天、雨天与多云，采集时段为9:00-19:00，涵盖着强光、弱光等多种光照情况，数据中也包含着遮挡，重叠和小目标等多种图像，由于自然环境的复杂多样，拍摄的很多图像也存在着分辨率不高的问题，这些问题给自然场景下的荔枝果实生长期检测提出了巨大挑战；

1.2)图像预处理：剔除采集到的质量差的图像，如曝光严重、严重模糊等图像，筛选之后共有1500张图像，涵盖了荔枝果实生长的三个不同阶段。为了加快训练速度，使用OpenCV库代码将原图像尺寸为2560*1440，3024*4032，4032*3024的图像分别调整为1280*720，960*1280,1280*960；

1.3)图像标注：将荔枝果实生长期图像分为三类：青果期、转色期、成熟期，使用LabelImg软件对预处理的图像进行标注，并将其标注为“m1”，“m2”，“m3”。标注规则为：果实被遮挡超过2/3忽略不标，遮挡面积小于2/3，遮挡部分按照预测来标。标注后数据集中总共含有12969个目标，其中青果期、转色期、成熟期分别有6023、2956、3990个目标；

1.4)划分数据集：图像标注完成后，将荔枝果实图像与标注文件以8:2的比例划分成训练集与测试集，其中训练集1200张，验证集300张。

2)把训练集的数据送入改进YOLOv5进行训练，训练时先对训练集的数据进行数据增强，再将增强后的数据输入到改进YOLOv5网络，通过特征提取模块获取不同生长期荔枝果实的特征信息，将提取的特征信息输入到特征融合模块进行整合并输入到YOLOv5网络的预测模块获得荔枝果实生长期的预测结果；其中，在反向传播中使用二元交叉熵和CIOU计算荔枝果实生长期预测结果和荔枝果实生长期标签的损失值，经过多次迭代至损失值最小，得到最优网络；

所述数据增强的方式包括：图像平移、图像翻转、随机亮度增强、Mosaic数据增强等，Mosaic数据增强的情况是：将多张不同图像拼接为一张综合图像进行训练，综合图像内拥有多种缺陷目标和复杂背景信息，提升训练效果；

将综合图像输入到改进YOLOv5网络的特征提取模块，特征提取模块包含SPPF模块和SimAM注意力机制，其中SPPF模块为多尺度增强模块，有利于对图像中目标大小差异较大的情况进行识别。将经过多尺度增强的大小为20*20*512的特征图送入到SimAM注意力机制中，SimAM注意力机制在不引入额外参数量的情况下，能够灵活地为该特征图分配3D注意力权值，再将大小为20*20*512的融合SimAM注意力机制的特征图送入到特征融合模块中，这增强了各个生长期荔枝果实特征，减弱了复杂自然环境背景带来的干扰特征，从而增强网络的抗干扰能力，强化重要特征和抑制无效特征。SimAM注意力机制在SPPF模块后嵌入到特征提取模块中，能够进一步提升SPPF模块输出特征图中明显的特征，从而从输入图像中高效地提取不同生长期荔枝果实的特征，克服由于枝叶遮挡、果实重叠所等造成的目标特征不完整问题；此外，特征提取模块进行5次下采样，获取不同尺寸目标的特征信息，并将第3、4、5次下采样尺寸的特征图输入到特征融合模块中；

特征融合模块是将特征提取模块输入的三个不同尺度的特征图进行融合，整合特征提取模块在不同阶段提取到的特征图信息，增加网络的感受野；在改进YOLOv5网络的特征融合模块中，使用由深度可分离卷积与标准卷积相结合并通过通道混洗生成的轻量化卷积GSConv替换原有的普通卷积，使用GSConv能够降低网络的计算复杂度同时提高网络的精度。GSConv是由深度可分离卷积(deep-wise separation convolution,DSC)与标准卷积(standard convolution,SC)相结合并通过通道混洗生成的轻量化卷积，SC为信道密集卷积计算，DSC为信道稀疏卷积计算，DSC利用深度可分离操作虽然可以节省参数量与计算量，但由于其是稀疏卷积的特性在进行卷积时会切断通道之间的隐藏链接，为了使DSC的输出尽可能接近于SC，引入GSConv，GSconv的原理如图2所示：设输入的通道数为C₁，输出的通道数为C₂。首先将输入的特征图经过卷积生成通道数为C₂/2的特征向量，再经过DSC得到另一个特征向量。将两个特征向量按照通道数进行拼接操作，在SC与DSC结合之后，使用shuffle将SC生成的信息渗透到DSC生成的每一部分信息中。shuffle是一种均匀混合策略，该方法将来自于SC的信息完全混合到DSC的输出的特征向量中，在不同的通道上均匀地交换本地特征信息，极大地保留了不同通道简单隐藏链接。该方法既保证了网络的准确性，也有保留DSC本身轻量化的优点。

预测模块是将特征信息通过上采样的方式进行传递融合成特征图，得到特征图后进行预测，每个特征图产生三个不同大小的先验框，其中每个先验框输出的预测信息中都包含着类别信息，用于预测青果期、转色期、成熟期三个类别的荔枝果实，最后采用NMS方法调整先验框来确定最终预测结果。预测模块输出20*20、40*40、80*80三个不同尺度的特征图，分别用于预测大、中、小三个不同尺度的荔枝果实目标；为了改善模糊目标和小目标荔枝在下采样过程中细粒度特征信息丢失而造成的误检漏检的问题，将YOLOv5网络中所有的3*3跨步卷积用非跨步卷积替代，即将原本stride值为2的3*3卷积用stride值为1的3*3卷积替代，并在非跨步卷积之后添加SPD模块(space-to-depth)，加入SPD模块后输出特征图的长宽变为原来特征图长宽的一半，通道数变成原来的4倍，利用将空间分辨率变成通道数的下采样方式取代原来池化的下采样方式，使得进入预测模块的特征图保留更多荔枝细粒度特征，提高YOLOv5网络对荔枝果实青果期、转色期、成熟期识别任务中的准确率。

SPD模块与池化的不同之处在于，在输入的特征图上没有发生特征压缩，而是通过像素聚合将空间大小的减小转化为深度数据。SPD的过程如图3所示：给定任一中间特征图X大小为S×S×C₁，步距为r，特征图X可被切分成r²个大小为S/r×S/r×C₁的特征图，接着将这些特征图进行拼接得到输出特征图S/r×S/r×r²C₁。当步距为2时，输入的特征图相对于输出的特征图长宽各缩小2倍，通道数增加4倍，如此便将空间信息集中到通道信息中，通过减少特征和信息的丢失提高了对模糊目标以及对小目标的识别效果。

下面详细说明本实验的实验结果：

根据网络的最终检测结果，从准确率P(Precision)、召回率R(Recall)、平均精确率mAP(Mean Average Precision)、和检测速度(FPS)指标来评价改进后的网络精度和速度。

以消融实验的方式与原版YOLOv5的对比结果如下表1所示。

表1

上表结果表明改进YOLOv5较于传统的YOLOv5，在准确率上提高了1.6％达到了95.5％，召回率与mAP也提升至89.1％、95.1％，虽然FPS有略微降低，但依然可以保证良好实时性。

将改进的YOLOv5与其它算法的对比结果如下表2所示。

表2

上表结果表明改进的YOLOv5较于传统的检测算法Faster-RCNN、Retinanet，改进的YOLOv5在精度和速度上具有明显的优势；相比于最新的算法YOLOv7，尽管召回率低1.7％，但准确率要高3.2％，此外在检测速度上比YOLOv7提高了236％；相比于最新的轻量级算法YOLOv7-tiny，尽管检测速度降低了16％，但是准确度和召回率分别提高了6.2％、10.1％；总的来说本发明的检测精度更高，并且实时性也较好。

传统的YOLOv5和改进的YOLOv5的对比结果如图4所示，图中(a)、(c)和(e)为传统的YOLOv5检测结果图，图中(b)、(d)和(f)图为改进的YOLOv5检测结果图。(a)中青果期荔枝果实由于果实重叠和枝叶遮挡出现了漏检，(c)中转色期荔枝果实由于果实重叠有目标被漏检，而(b)、(d)都准确检测到，说明改进的YOLOv5能够提高在果实重叠和枝叶遮挡下荔枝果实的检测效果。(e)左上角和右下角的成熟期荔枝由于目标较小又有枝叶遮挡，分别被误检、漏检，而从(f)可以看出改进的YOLOv5对小目标和遮挡的检测效果更好。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于改进YOLOv5的荔枝果实生长期识别方法，其特征在于，该方法是基于改进YOLOv5网络实现荔枝果实生长期的精准识别，该改进YOLOv5网络是对传统YOLOv5网络的特征提取模块、特征融合模块和下采样方式进行改进；其中，对特征提取模块的改进是：在SPPF模块后添加SimAM注意力机制；对特征融合模块的改进是：使用GSConv替换掉原有的传统卷积；对下采样方式的改进是：将YOLOv5网络中的所有3×3的跨步卷积替换为非跨步卷积，并在非跨步卷积之后添加SPD模块用于下采样；

所述荔枝果实生长期识别方法的具体实施包括以下步骤：

2.根据权利要求1所述的一种基于改进YOLOv5的荔枝果实生长期识别方法，其特征在于，所述步骤1)包括以下步骤：

3.根据权利要求1所述的一种基于改进YOLOv5的荔枝果实生长期识别方法，其特征在于，在步骤2)中，所述数据增强的方式包括：图像平移、图像翻转、随机亮度增强和Mosaic数据增强，Mosaic数据增强的情况是：将多张不同图像拼接为一张综合图像进行训练，综合图像内拥有多种缺陷目标和复杂背景信息，提升训练效果；