CN115050021B

CN115050021B - 基于改进YOLOv4的非结构环境下葡萄识别方法

Info

Publication number: CN115050021B
Application number: CN202210481476.6A
Authority: CN
Inventors: 程广贵; 郑诗武; 郭灿志; 丁建宁; 张忠强
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-05-14
Anticipated expiration: 2042-05-05
Also published as: CN115050021A

Abstract

本发明涉及图像处理技术领域，具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。该方法在主干网络的残差体模块中融入SimAM注意力机制，增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合，抑制无用特征，实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率，本发明使用Focal loss优化BCE loss，并根据模型结构及训练对象调整超参数，使得预测效果最佳。

Description

基于改进YOLOv4的非结构环境下葡萄识别方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。

背景技术

葡萄作为日常生活中最常见的水果之一富含较高的营养、药用及经济价值，然而目前葡萄的采摘主要依靠人工，长期工作不仅效率低还会对工人身心造成负担。因此，具备视觉感知能力的葡萄采摘机器人的出现迫在眉睫，但受到葡萄簇状密集生长特性及天气的影响，解决果实重叠、枝叶遮挡、光照波动、雨雾干扰等问题成为视觉感知的重点研究内容。

完成葡萄恶劣环境下的准确识别，有利于实现采摘机器人的连续工作，不仅从采摘效率上优于人工，其工作受限条件也远远优于人工。由于自然状态下的葡萄生长于非结构化环境，果园的复杂背景，遮挡物的随机分布，光强及角度的不断变化，都对葡萄识别得准确性及全面性提出挑战。中国专利CN 109255757 A公开了一种基于机器学习的葡萄串果梗区域分割方法，该方法通过对葡萄的HIS图像进行滤波、锐化、边缘检测及形态学操作，实现对葡萄串果梗区域的检测。该方法具有不错的检测速度，同时可降低相机感知时造成的色彩偏差及噪点像素的干扰，然而，由于其对果梗的分割主要依赖于直方图的统计，因此该方法对难以解决重叠、遮挡等问题。Wei Yin等在文献“Fruit Detection and PoseEstimation for Grape Cluster–Harvesting Robot Using Binocular Imagery Basedon Deep Neural Networks”中提出使用Mask R-CNN网络将葡萄与背景分割，通过双目相机提取分割区域的点云信息，并进行降噪处理，最终采用RANSAC算法重建葡萄圆柱模型，实现对目标姿态的估计。该方法可引导采摘机器人完成最优抓取姿态，然而受步骤多，计算量大的限制，该方法难以达到实时检测，同时遮挡、重叠问题也会对葡萄的分割造成困扰。

发明内容

针对现有技术的不足，本发明提出了一种基于改进YOLOv4的非结构环境下葡萄识别方法，该方法在主干网络的残差体模块中融入SimAM注意力机制，增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合，抑制无用特征，实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率，本发明使用Focal loss优化BCE loss，并根据模型结构及训练对象调整超参数，使得预测效果最佳。

一种基于改进YOLO v4的非结构环境下葡萄识别方法，具体包括以下步骤：

步骤一，构建数据集；

步骤1.1，分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像；

步骤1.2，对葡萄目标进行标注；

步骤1.3，利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广；

步骤1.4，将数据集分为训练集、测试集、验证集；

步骤二，构建特征提取网络；

步骤2.1，推导SimAM注意力模块，通过计算能量函数来评估各个像素点的重要性，最小能量如公式(1)所示：

其中分别为特征图单通道内像素的均值和方差，t为单通道内目标像素值，λ为超参数；将最小能量的倒数经过Sigmoid激活函数后与自身相乘，实现权值的分配，如公式(2)所示：

其中E为在所有通道和空间维度的集合，X为输入特征图；

步骤2.2，将训练集作为输入，使用大小为3×3的卷积层来丰富输入图像的通道信息，得到输出的特征图为F_2.2；

步骤2.3，将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中，形成新的Resblock_body_AM模块；其结构为：输入特征F_2.2首先经过3×3卷积层收缩尺度；然后分别通过2个大小为1×1卷积层分割通道数，得到特征图F_2.3.1和F_2.3.2；再将F_2.3.2输入残差块，F_2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加，残差块将重复堆叠n次，得到特征图F_2.3.3，如公式(3)所示：

F_2.3.3＝(F_2.3.2+φ₃(φ₁(F_2.3.2)))ⁿ#(3)

其中φ₁和φ₃分别为大小为1×1和3×3的卷积层；之后1×1卷积层对特征图F_2.3.3进行空间维度整合；整合后的特征图与F_2.3.1拼接，再用以1×1卷积层进行通道维度整合；最后经过SimAM注意力机制激发重要特征，得到Resblock_body_AM模块输出特征图F_2.3，如公式(4)所示：

F_2.3＝ψ(φ₁(Cat(F_2.3.1,φ₁(F_2.3.3)))))#(4)

其中φ₁为大小为1×1的卷积层，Cat为拼接函数，ψ为注意力机制函数；

步骤2.4，反复堆叠Resblock_body_AM模块5次，获得输出特征图P₁、P₂、P₃、P₄、P₅；

步骤三，构建特征融合网络；

步骤3.1，将特征图P₅输入大小为1×1、3×3、1×1的卷积组，为空间金字塔池化调整通道数，得到特征图F_3.1；

步骤3.2，使用空间金字塔池化模块增大特征图F_3.1的感受野，其结构为：将F_3.1分别通过大小为5×5、9×9、13×13的最大池化层，再将池化结果进行通道拼接，得到特征图F_3.2.1，如公式(5)所示：

F_3.2.1＝Cat(τ₅(F_3.1),τ₉(F_3.1),τ₁₃(F_3.1))#(5)

其中τ₅、τ₉、τ₁₃分别为大小为5×5、9×9、13×13的最大池化层，Cat为拼接函数；再将特征图F_3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数，得到输出特征图F_3.2；

步骤3.3，将特征图F_3.2经过上采样层，得到特征图F_3.3.1；再将特征图P₄经过大小为1×1的卷积层调整通道数，得到特征图F_3.3.2；将特征图F_3.3.1与特征图F_3.3.2拼接，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.3，如公式(6)所示：

F_3.3＝Φ₅(Cat(up(F_3.2),φ₁(P₄)))#(6)

其中Φ₅为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组，up为上采样层，φ₁为大小为1×1的卷积层，Cat为拼接函数；

步骤3.4，将特征图F_3.3经过上采样层，得到特征图F_3.4.1；再将特征图P₃经过大小为1×1的卷积层调整通道数，得到特征图F_3.4.2；将特征图F_3.4.2与特征图F_3.4.1拼接，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.4，如公式(7)所示：

F_3.4＝Φ₅(Cat(up(F_3.3),φ₁(P₃)))#(7)

步骤3.5，将特征图F_3.4经过下采样层，得到特征图F_3.5.1；再分别对特征图F_3.3、F_3.5.1、F_3.3.2施加权重ω₀、ω₁、ω₂；将处理后的3个特征图相加，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.5如公式(8)所示：

F_3.5＝Φ₅(ω₀*F_3.3+ω₁*down(F_3.4)+ω₂*F_3.3.2)#(8)

其中Φ₅为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组，down为下采样层；

步骤3.6，将特征图F_3.5经过下采样层，得到特征图F_3.6.1；将特征图F_3.6.1与特征图F_3.2拼接，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.6，如公式(9)所示：

F_3.6＝Φ₅(Cat(down(F_3.5),F_3.2))#(9)

步骤四，预测目标与损失传递；

步骤4.1，模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成，将特征图F_3.6、F_3.5、F_3.4输入3个对应尺度的检测器预测葡萄的空间位置，得到最终预测特征图Out₁、Out₂、Out₃；

步骤4.2，使用BCE loss和CIoU loss函数计算预测特征图Out₁、Out₂、Out₃与真实值之间的置信度、分类、定位损失，其中置信度损失如公式(10)所示：

其中S²为特征图的尺度，B为边界框的个数，当第i个网格中的第j个边界框存在目标，值为1，否则为0，c_ij为真实的置信度，/>为预测的置信度；

分类损失如公式(11)所示：

其中S²为特征图的尺度，B为边界框的个数，当第i个网格中的第j个边界框存在目标，值为1，否则为0，p_ij为真实的概率，/>为预测的概率；

定位损失如公式(12)所示：

其中IoU为真实边界框与预测边界框的交并比，ρ²(b,b^gt)为两边界框的中心距离，c为覆盖两边界框的最小框的对角线；

步骤4.3，使用Focal loss函数优化BCE loss，如公式(13)所示：

其中p为模型预测的概率，y为真实类别，α和γ为用于平衡损失的超参数；

步骤4.4，最终损失函数如公式(14)所示：

其中batch_size为单次训练选取的样本数，λ_conf,λ_cls,λ_loc为对应损失平衡系数；

步骤五，优化模型训练与测试。

本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸，适配葡萄目标；采用两阶段训练，第一阶段冻结特征提取网络权重，第二阶段训练模型所有权重，提高训练效率；采用学习率余弦退火策略，跳出局部最优解；采用标签平滑策略，增强模型泛化能力；采用非极大值抑制，消除冗余的预测边界框。

本发明具有以下有益效果：

1.本发明使用嵌入SimAM注意力机制的特征提取网络，可对特征图的全维度信息分配权重，强化重要特征抑制无效特征，能够从输入图像中高效地提取目标葡萄特征，克服由于遮挡、重叠等造成的目标特征不完整问题；

2.本发明使用了更加全面的特征融合结构，减缓了特征图在不断卷积操作下的信息丢失情况，此外特征图在融合过程中被施加权重，模型可自适应地进行学习，从而实现在复杂背景、雨雾等特征不明显环境下的检测；

3.本发明使用Focal loss优化BCE loss，解决了训练过程中正负样本不平衡的问题，使得模型收敛更快，损失饱和值更小，提高模型训练效率。

附图说明

图1为实施例中构建的葡萄数据集；

图2为实施例中构建的葡萄检测模型结构图；

图3为实施例中构建的特征提取网络参数图；

图4为实施例中构建的特征融合网络结构图；

图5为实施例中采用不同函数的损失曲线图；

图6为实施例中K-means聚类出的边界框尺寸图；

图7为实施例中模型在恶劣环境下葡萄检测结果图。

具体实施方式

以下结合附图对本发明做进一步的解释说明：

步骤一，构建数据集；

步骤1.1，分别在8：00、13：00和18：00三个时段拍摄葡萄图像，各个时段选取的光照条件包括前景光、背景光、侧照光以及散射光，同时相机距离葡萄树干1.5m处放置，采用垂直和平行树干视角拍摄；

步骤1.2，使用LabelImg工具标注区域大于80％的葡萄目标；

步骤1.3，如图1所示，利用Python第三方ImgAug库对葡萄图像进行亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种数据增强及增广方法，其中亮度调整系数为0.7-1.2，高斯模糊的均值为0，方差为3，仿射变换x,y方向平移系数为15，尺度系数为0.8-0.95，旋转角度为-30°-30°；

步骤1.4，将数据集按7:1:2的比例划分为训练集、测试集、验证集；

步骤二，构建特征提取网络；

步骤2.1，推导SimAM注意力模块，通过计算能量函数来评估各个像素点的重要性，最小能量如公式(15)所示：

其中分别为特征图单通道内像素的均值和方差，t为单通道内目标像素值，λ为超参数；具体地，超参数λ取10^-4；将最小能量的倒数经过Sigmoid激活函数后与自身相乘，实现权值的分配，如公式(16)所示：

其中E为在所有通道和空间维度的集合，X为输入特征图；

步骤2.2，将训练集尺寸归一化至608²×3，使用大小为3×3的卷积层将输入图像的通道数丰富至32，得到输出的特征图为F_2.2；

步骤2.3，如图2所示，将SimAM注意力机制嵌入到YOLO v4主干网络的残差体模块中，形成新的Resblock_body_AM模块；其结构为：输入特征F_2.2首先经过3×3卷积层收缩尺度；然后分别通过2个大小为1×1卷积层分割通道数，得到特征图F_2.3.1和F_2.3.2；再将F_2.3.2输入残差块，F_2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加，残差块将重复堆叠n次，得到特征图F_2.3.3，如公式(17)所示：

F_2.3.3＝(F_2.3.2+φ₃(φ₁(F_2.3.2)))ⁿ#(17)

其中φ₁和φ₃分别为大小为1×1和3×3的卷积层；之后1×1卷积层对特征图F_2.3.3进行空间维度整合；整合后的特征图与F_2.3.1拼接，再用以1×1卷积层进行通道维度整合；最后经过SimAM注意力机制激发重要特征，得到Resblock_body_AM模块输出特征图F_2.3，如公式(18)所示：

F_2.3＝ψ(φ₁(Cat(F_2.3.1,φ₁(F_2.3.3)))))#(18)

步骤2.4，如图3所示，反复堆叠Resblock_body_AM模块5次，每个模块中残差块的堆叠次数n分别为：1、2、8、8、4，得到5个输出特征图为P₁、P₂、P₃、P₄、P₅，其尺度分别为304²×64、152²×128、76²×256、38²×512、19²×1024；

步骤三，构建特征融合网络；

步骤3.2，使用空间金字塔池化模块增大特征图F_3.1的感受野，其结构为：将F_3.1分别通过大小为5×5、9×9、13×13的最大池化层，再将池化结果进行通道拼接，得到特征图F_3.2.1，如公式(19)所示：

F_3.2.1＝Cat(τ₅(F_3.1),τ₉(F_3.1),τ₁₃(F_3.1))#(19)

步骤3.3，如图4所示，将特征图F_3.2经过上采样层，得到特征图F_3.3.1；再将特征图P₄经过大小为1×1的卷积层调整通道数，得到特征图F_3.3.2；将特征图F_3.3.1与特征图F_3.3.2拼接，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.3，如公式(20)所示：

F_3.3＝Φ₅(Cat(up(F_3.2),φ₁(P₄)))#(20)

其中Φ₅为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组，up为上采样层，ω₁为大小为1×1的卷积层，Cat为拼接函数；

步骤3.4，将特征图F_3.3经过上采样层，得到特征图F_3.4.1；再将特征图P₃经过大小为1×1的卷积层调整通道数，得到特征图F_3.4.2；将特征图F_3.4.2与特征图F_3.4.1拼接，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.4，如公式(21)所示：

F_3.4＝Φ₅(Cat(up(F_3.3),φ₁(P₃)))#(21)

步骤3.5，将特征图F_3.4经过下采样层，得到特征图F_3.5.1；再分别对特征图F_3.3、F_3.5.1、F_3.3.2施加权重ω₀、ω₁、ω₂，可训练权重通过快速归一法获得，如公式(22)所示：

其中ReLU为激活函数，weight_i为第i个可训练权值，∈为数值稳定参数；具体地，稳定参数∈取10^-4；将处理后的3个特征图相加，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.5如公式(23)所示：

F_3.5＝Φ₅(ω₀*F_3.3+ω₁*down(F_3.4)+ω₂*F_3.3.2)#(23)

步骤3.6，将特征图F_3.5经过下采样层，得到特征图F_3.6.1；将特征图F_3.6.1与特征图F_3.2拼接，再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息，得到特征图F_3.6，如公式(24)所示：

F_3.6＝Φ₅(Cat(down(F_3.5),F_3.2))#(24)

步骤四，预测目标与损失传递；

步骤4.2，使用BCE loss和CIoU loss函数计算预测特征图Out₁、Out₂、Out₃与真实值之间的置信度、分类、定位损失，其中置信度损失如公式(25)所示：

其中S²为特征图的尺度，B＝3为边界框的个数，当第i个网格中的第j个边界框存在目标，值为1，否则为0，c_ij为真实的置信度，/>为预测的置信度；

分类损失如公式(26)所示：

其中S²为特征图的尺度，B＝3为边界框的个数，当第i个网格中的第j个边界框存在目标，值为1，否则为0，p_ij为真实的概率，/>为预测的概率；

定位损失如公式(27)所示：

步骤4.3，使用Focal loss函数优化BCE loss，如公式(28)所示：

其中p为模型预测的概率，y为真实类别，α和γ为用于平衡损失的超参数；具体地，超参数α,γ分别为0.75和2；

步骤4.4，最终损失函数如公式(29)所示：

其中batch_size为单次训练选取的样本数，λ_conf,λ_cls,λ_loc为对应损失平衡系数；具体地，平衡系数λ_conf,λ_cls,λ_loc均为1；训练过程的损失曲线如图(5)所示；

步骤五，优化模型训练与测试；

本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸，如图6所示，适配葡萄目标；采用两阶段训练，第一阶段冻结特征提取网络权重，第二阶段训练模型所有权重，提高训练效率，不同阶段的(epoch,batch size,learning rate)分别为(30,8,0.001)和(10,2,0.0001)；采用学习率余弦退火策略，跳出局部最优解；采用标签平滑策略，增强模型泛化能力，其中平滑率为0.005；采用非极大值抑制，消除冗余的预测边界框，其中置信度阈值为0.5，交并比阈值为0.3。

葡萄检测结果如图7所示；本实施例在COCO评价标准下的mAP_0.5＝94.25％。

上诉具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权力要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.基于改进YOLO v4的非结构环境下葡萄识别方法，其特征在于，具体步骤如下：

步骤一，构建数据集；

步骤1.2，对葡萄目标进行标注；

步骤1.4，将数据集分为训练集、测试集、验证集；

步骤二，构建特征提取网络；

其中E为在所有通道和空间维度的集合，X为输入特征图；

F_2.3.3＝(F_2.3.2+φ₃(φ₁(F_2.3.2)))ⁿ (3)；

F_2.3＝ψ(φ₁(Cat(F_2.3.1 ,φ₁(F_2.3.3))))) (4)；

步骤三，构建特征融合网络；

F_3.2.1＝Cat(τ₅(F_3.1),τ₉(F_3.1),τ₁₃(F_3.1)) (5)；

F_3.3＝Φ₅(Cat(up(F_3.2),φ₁(P₄))) (6)；

F_3.4＝Φ₅(Cat(up(F_3.3),φ₁(P₃))) (7)；

F_3.5＝Φ₅(ω₀*F_3.3+ω₁*down(F_3.4)+ω₂*F_3.3.2) (8)；

F_3.6＝Φ₅(Cat(down(F_3.5),F_3.2)) (9)；

步骤四，预测目标与损失传递；

分类损失如公式(11)所示：

定位损失如公式(12)所示：

步骤4.3，使用Focalloss函数优化BCE loss，如公式(13)所示：

步骤4.4，最终损失函数如公式(14)所示：

步骤五，优化模型训练与测试。

2.如权利要求1所述的基于改进YOLO v4的非结构环境下葡萄识别方法，其特征在于，步骤五，优化模型训练的步骤为：采用两阶段训练，第一阶段冻结特征提取网络权重，第二阶段训练模型所有权重，提高训练效率；采用学习率余弦退火策略，跳出局部最优解；采用标签平滑策略，增强模型泛化能力；采用非极大值抑制，消除冗余的预测边界框。