CN116958962A

CN116958962A - 一种基于改进YOLOv8s的疏果前石榴果实检测方法

Info

Publication number: CN116958962A
Application number: CN202310686822.9A
Authority: CN
Inventors: 杜雨蓉; 姚家辉; 刘心如; 赵明虎; 郝红娟; 邓文萱; 卢定泽
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-10-27

Abstract

本发明公开了一种基于改进YOLOv8s的疏果前石榴果实检测方法，该方法包括：采集多张石榴的原始图像并使用“makesense”进行标注处理，生成“.txt”文件；对原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，得到构建的数据集；通过添加注意力机制CBAM和小目标检测层来构建改进的YOLOv8s网络；定义损失函数Loss；将构建的数据集随机按7:3的比例划分训练集和验证集；使用训练集来训练改进的YOLOv8检测模型，同时开启在线数据增强和标签平滑并保存权重文件，通过验证集验证改进的YOLOv8s检测模型效果。采用该方法对数据集检测精度达到了99.1％，更好的提取了目标特征的同时，提升了目标检测的精度。

Description

一种基于改进YOLOv8s的疏果前石榴果实检测方法

技术领域

本发明涉及人工智能领域图像处理技术领域，具体涉及一种基于改进YOLOv8s的疏果前石榴果实检测方法。

背景技术

人工智能的发展，为我们的生产生活带来了极大的便利，在不同领域的应用广泛。目标检测技术发展迅速，在农业、食品加工等领域具有广泛的应用。石榴是一种常见的水果，需要在其生长过程中进行疏果。现在很多果园实现了自动化和智能化管理，在疏果前采用电子仪器快速准确地检测石榴果实，有助于实现自动疏果。

目前采用的传统检测方法是利用大小不同的滑动窗口选择出图像中可能存在目标的候选区域，然后使用手工设计的特征对这些区域进行特征提取，最后将图像特征送到分类器中进行分类输出结果。由于果园中的环境复杂，如光照、小果的遮挡和聚集，特别是石榴小果与背景之间的极端相似性，采用传统检测方法会存在检测流程复杂、需要时间长以及检测结果精确度低的问题。虽然现在也出现基于YOLO(You Only Live Once)算法的目标检测方法，但是由于石榴小果的个头小，与背景之间的极端相似性，仍然存在检测结果精确度低的问题。

发明内容

本发明提供一种基于改进YOLOv8s的疏果前石榴果实检测方法，目的是解决背景技术中存在的上述问题。

本发明提供的技术解决方案如下：

一种基于改进YOLOv8s的疏果前石榴果实检测方法，其特殊之处在于，包括以下步骤：

采集多张石榴的原始图像并使用“makesense”进行标注处理，生成“.txt”文件；

对所述原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，得到构建的数据集；

对YOLOv8s引入CBAM注意力机制、添加小目标检测层来构建改进的YOLOv8s网络；

定义损失函数Loss；

将构建的数据集随机按7:3的比例划分训练集和验证集；

将所述训练集输入到改进的YOLOv8s检测网络中进行训练并保存权重文件，训练时开启数据增强与标签平滑，通过所述验证集验证改进的YOLOv8s检测模型效果。

进一步地，所述采集多张石榴的原始图像并使用“makesense”进行标注处理，生成“.txt”文件，具体为：

在石榴果园中对石榴进行多角度、多距离拍摄，采集大量的石榴图片，得到石榴的原始图像，对所述原始图像中的石榴果实采用“makesense”进行标注处理，标签命名为“pomegranate”，生成.txt文件。

进一步地，所述对所述原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，得到数据集，具体为：

将所述原始图像的亮度、色度和对比度均增强1.2倍,锐度增强2倍，亮度、色度、对比度分别减弱40％，锐度减弱90％，添加方差为0.01的高斯噪声，得到构建的数据集。

进一步地，所述对YOLOv8s引入CBAM注意力机制、添加小目标检测层来构建改进的YOLOv8s网络，包括以下步骤：

在Backbone主干网络中的SPPF层前添加注意力机制(CBAM)模块；

在原有的三种尺寸的检测层的基础上在Neck层引入160×160的小目标检测层来预测像素点大于4×4的目标。

进一步地，所述定义损失函数Loss，具体为：

通过CIOU_Loss表达式定义损失函数，CIOU_Loss的表达式为：

其中，Loss表示训练回归的损失函数，表示两个边界框中心的距离损失，α是权重函数，v是表示长宽比的相似性度量，p²(b,b^gt)分别代表了预测框和真实框的中心点的欧氏距离，c代表能同时包含预测框和真实框的最小闭包区域的对角线距离，

α和v的公式分别表示如下：

其中w^gt和h^gt表示真实框的宽高；w和h表示预测框的宽高。

进一步地，所述数据增强包括mixup、mosaic和copy paste，所述mixup、mosaic以及copy paste的参数均设置为0.5；

所述标签平滑设置为0.3。

进一步地，所述注意力机制(CBAM)模块包含通道注意力机制(CAM)模块和空间注意力机制(SAM)模块，所述通道注意力机制(CAM)模块可以自适应地调整每个通道的重要性，从而使得网络更加关注重要的通道特征，并且忽略一些无关紧要的通道；所述空间注意力机制(SAM)模块用于根据目标的大小、位置和形状等因素来调整不同的区域的权重，从而更好地探测小目标，并且抑制背景噪声。

进一步地，所述空间注意力机制(SAM)模块中的空间注意力机制可以通过第一函数定义，所述第一函数表示为：

SA(X)＝σ(MLP_sa(MAX(X))×X)

其中，MAX(X)表示对特征图X进行最大池化操作，得到空间维度上的全局最大值；MLP_sa(·)表示一个多层感知机模型，用于对全局最大值进行变换，得到空间维度上向量φ；σ(·)表示一个sigmoid函数，用于将空间注意力映射到[0,1]之间；×表示矩阵乘积运算，用于对每个像素元素进行加权。

进一步地，所述通道注意力机制(CAM)模块中的通道注意力机制(CAM)可以通过第二函数定义，所述第二函数表示为：

CA(X)＝σ(MLP_ca(AVE(X))×X)

其中，AVE(X)表示对特征图X进行平均池化操作，得到通道维度上的全局平均值；MLP_ca(·)表示一个多层感知机模型，用于对全局平均值进行变换，得到通道维度上向量θ；σ(·)表示一个sigmoid函数，用于将通道注意力映射到[0,1]之间；×表示矩阵乘积运算，用于对每个通道的特征进行加权。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于改进YOLOv8s的疏果前石榴果实检测方法，通过引入注意力机制CBAM模块和添加160×160的小目标检测层来构建改进的YOLOv8s模型，改进的YOLOv8s模型的检测网络在原有的三种尺寸的检测层的基础上在Neck层引入160×160的小目标检测层来预测像素点大于4×4的目标，改进的YOLOv8s模型对数据集检测精度达到了99.1％，更好的提取了目标特征的同时，提升了目标检测的精度，大幅度降低了漏检率，提升了对石榴果实的检测能力。

附图说明

图1为本发明实施例中基于改进YOLOv8s的疏果前石榴果实检测方法的流程图；

图2为本发明实施例中CBAM添加位置示意图；

图3为本发明实施例中CBAM注意力机制模块示意图；

图4为本发明实施例中改进后的yolov8s检测模型图；

图5为本发明实施例中采用Mosaic-9数据增强效果图；

图6为本发明实施例中训练结果的PR曲线图；

图7为本发明实施例中检测效果图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，下面所描述的实施例是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下结合附图提供的本申请实施例的详细描述旨在仅仅表示本申请的选定实施例，并非限制本申请要求保护的范围。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的其他所有实施例，都属于本申请保护的范围。

参阅图1，本发明提供了一种基于改进YOLOv8s的疏果前石榴果实检测方法，本发明以自然环境中的石榴作为检测对象，选用训练平台的系统配置为16GB内存的英特尔i5-10400F处理器，12GB内存的Nvidia GeForce RTX 3060显卡。在Windows 10操作系统下构建YOLOv8网络，采用版本为3.6.5的Python编程语言，在训练过程中设置训练轮数为1000，Batchsize为16，并调用Cuda和Cudnn加速库。该方法包括以下步骤：

S101、采集多张石榴的原始图像并使用“makesense”进行标注处理，生成“.txt”文件。本实施例中，标注完成图片共计1360张。

S102、对所述原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，得到多张第一图像。本实施例中，扩充后的图像为13600张。13600张的图像构成了数据集。

S103、对YOLOv8s引入CBAM注意力机制、添加小目标检测层来构建改进的YOLOv8s网络。

S104、定义损失函数Loss。

S105、将构建的数据集随机按7:3的比例划分训练集和验证集。

在步骤S105中，将扩充后的13600张数据，随机按7:3的比例划分训练集和验证集，构建的数据集训练集为9520张，用于训练改进的YOLOv8s检测网络；验证集4080张，用于验证改进的YOLOv8s检测模型效果。

S106、将所述训练集输入到改进的YOLOv8s检测网络中进行训练并保存权重文件，训练时开启数据增强与标签平滑，通过所述验证集验证改进的YOLOv8s检测模型效果。

由于石榴目标背景复杂且目标较小，本发明基于YOLOv8s模型融合了注意力机制(CBAM)模块，注意力机制模块可用来增加有用特征的权重，更加关注包含重要信息的目标区域；同时抑制无效特征权重，抑制无关信息，从而达到提高目标检测的整体精度。将注意力机制(CBAM)模块加入Backbone中可以增强网络的特征提取能力和减少噪声干扰，从而提高目标检测的精度。

可选的，所述采集多张石榴的原始图像并使用“makesense”进行标注处理，生成“.txt”文件，具体为：

可选的，所述对所述原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，得到构建的数据集，具体为：

可选的，所述对YOLOv8s引入CBAM注意力机制、添加小目标检测层来构建改进的YOLOv8s网络，包括以下步骤：

S201、在Backbone主干网络中的SPPF层前添加注意力机制(CBAM)模块。

参阅图2，所述注意力机制(CBAM)模块包含通道注意力机制(CAM)模块和空间注意力机制(SAM)模块，所述通道注意力机制(CAM)模块可以自适应地调整每个通道的重要性，从而使得网络更加关注重要的通道特征，并且忽略一些无关紧要的通道。所述空间注意力机制(SAM)模块用于根据目标的大小、位置和形状等因素来调整不同的区域的权重，从而更好地探测小目标，并且抑制背景噪声。这些注意力机制可以帮助网络更好地探测小目标，并且有效地抑制背景干扰。

参阅图3，注意力机制(CBAM)模块添加位置为Backbone主干网络的后端，将注意力机制模块添加SPPF的最后一层，可以确保所有的基础特征已经被提取出来，这样就可以更好地关注重要特征，同时减少了因添加注意力机制模块而增加的额外计算量。

通道注意力机制可以自适应地调整每个通道的重要性，从而使得网络更加关注重要的通道特征，并且忽略一些无关紧要的通道。

假设输入特征图为X∈R^C×H×W，其中C、H、W分别为通道数、高度和宽度。通道注意力可以表示为：

CA(X)＝σ(MLP_ca(AVE(X))×X)

空间注意力机制的目的是根据目标的大小、位置和形状等因素来调整不同的区域的权重，从而更好地探测小目标，并且抑制背景噪声。假设输入特征图为X∈R^C×H×W，其中C、H、W分别为通道数、高度和宽度。空间注意力可以表示为：

SA(X)＝σ(MLP_sa(MAX(X))×X)

注意力机制(CBAM)模块是由通道注意力机制模块和空间注意力机制模块两部分构成的。具体地，设输入特征图为X∈R^C×H×W，通道注意力机制模块和空间注意力机制模块的输出分别为CA(X)和SA(X)，则CBAM模块的输出为：

CBAM(X)＝SA(CA(X))

因此，注意力机制(CBAM)模块通过采用通道注意力机制和空间注意力机制，在小目标检测方面具有显著的优势，可以提高检测精度和鲁棒性，拓展了目标检测算法在实际应用中的适用范围。实现对输入特征图的加权调节，从而提高了网络的表达能力和泛化能力。

S202、在原有的三种尺寸的检测层的基础上在Neck层引入160×160的小目标检测层来预测像素点大于4×4的目标。

可选的，所述定义损失函数Loss，具体为：

通过CIOU_Loss表达式定义损失函数，CIOU_Loss的表达式为：

α和v的公式分别表示如下：

其中w^gt和h^gt表示真实框的宽高；w和h表示预测框的宽高。

可选的，所述数据增强包括mixup、mosaic和copy paste；所述mixup、mosaic以及copy paste的参数均设置为0.5

所述标签平滑设置为0.3。

Mixup数据增强是随机抽取同一类中的两个样本或者不同类中的两个，按照一定的权值将其拼接起来，产生新的样本，扩充样本数量，增加样本间的线性表现，还能增强样本的鲁棒性。在训练样本(x_i,y_i)与(x_j,y_j)的混合邻域分布中随机抽样生成新的特征目标向量进行后续的模型训练过程。

其中λ可以是[0,1]中的固定值。本发明中设λ＝0.5。

Mosaic数据增强策略是随机从第一图像中选取四张图片，进行裁剪并缩放后拼接到一张图上作为新的数据加入训练集。本发明为了进一步提高对小目标的检测能力，采用Mosaic-9数据增强，即采用9张图片随机裁剪、随机排列、随机缩放，然后组合成一张图片，以此来增加样本的数据量。

参阅图5，由于是将九张图片拼接到一张图片，因此使图片背景更为复杂，目标对象更小，故提升了对小目标的检测能力。

Copy Paste数据增强主要通过将一张图像中的目标对象复制粘贴到另一张图像上，从而增加数据集的多样性和复杂度，本发明将其设置为0.5。

设置标签平滑为0.3。

由于使用Mosaic-9数据增强增加了大量的小目标，故在yolov8s模型的Neck层中增加160×160小目标检测层。

改进后的网络结构如图4所示，Backbone采用多组Conv加上C2f的组合后嵌入CBAM模块，最后一层为SPPF模块，SPPF模块能输出固定大小的向量，提升模型对于空间布局和物体变形的鲁棒性。Neck层为FPN+PAN结构，FPN自顶向下传达强语义特征，特征金字塔自底层向上传达强定位特征，融合不同层的参数，进一步提高特征提取的能力。最后使用FPN末端的输出特征图和PAN结构的两个输出特征图进行预测，在640尺寸下，输出特征图划分为20×20，40×40，80×80的网格，每一个特征图设置了三种尺寸的anchor，分别来预测像素点大于8×8，16×16，32×32的目标。考虑到实际应用场景中石榴背景复杂，小目标数量多所以在Neck层中引入了一个新的160×160分支，进行一次上采样，与Backbone进行Concat操作，来预测像素点大于4×4增强了对小目标的检测能力。改进前和改进后的模型参数如表1、表2所示。

表1：改进前的模型参数

表2：改进后的模型参数

本发明首要计算Precision与Recall两个指标。其中Precision表示模型预测的精度，也就是指实际是正样本占预测为正的比，即真实正例样本个数/预测为正例的样本个数；Recall表示模型预测时的召回率，即指预测为正占实际正样本的比，即预测正例的样本个数/真实正样本个数。公式如下：

评估标准F1-Scorel是一个将精确率和召回率综合起来判断的评价指标，该指标可以反映模型是否稳健，其取值范围是[0,1]，1代表最好，0代表最差。

在目标检测任务中，同一个类别可能会存在多个预测框，而每一个预测框都会有一个置信度得分，我们需要把所有预测框按照它们的置信度得分从高到低排序，并根据IoU(Intersection over Union)来判断预测框是否正确。对于每个类别，我们计算出真实框和所有预测框之间的IoU值，当预测框的IoU值大于设定的阈值时，判定预测框正确；否则，判定预测框不正确。在此基础上，我们可以计算出对于每个类别，不同阈值下的精确率(Precision)和召回率(Recall)曲线，并计算出曲线下面积，即AP(Average Precision)。最后，对于所有类别的AP求平均值即可得到mAP。

mAP@0.5就是计算IOU＝0.5的PR曲线与坐标轴所包围的面积。

其中，c是类别数量，AP_i是第i个类别的平均准确率，可用以下公式计算：

其中，n是正样本数量，P(k)表示前k个预测结果的准确率，ΔR(k)表示前k个预测结果中新增的召回率，R_max是该类别所包含的所有正样本的召回率。

步骤S106中对模型进行训练，训练出的结果Precision达到了97％，Recall达到了96.2％，F1值达到了96.6％。PR曲线如图6所示，通过图6可知mAP@.5达到了99.1％，满足对石榴果实目标检测的需求。

表3是采用原始YOLOv8s算法与改进后的算法的对比数据，通过表3可知改进后模型的mAP@.5比原模型提升了20.2％，F1值提升了21.8％，提升了对石榴果实的检测能力。

表3改进前后模型结果对比

	Precision	Recall	mAP@.5	F1
					原始YOLOv8s	0.757	0.739	0.789	0.748
改进后的	0.97	0.962	0.991	0.966

而后选取验证集中的部分图像对其进行检测，得到检测结果如图7所示。

综上所述，本发明提供了一种基于改进YOLOv8s的疏果前石榴果实检测方法，通过引入注意力机制CBAM模块和添加160×160的小目标检测层来构建改进的YOLOv8s模型，改进的YOLOv8s模型的检测网络在原有的三种尺寸的检测层的基础上在Neck层引入160×160的小目标检测层来预测像素点大于4×4的目标，改进的YOLOv8s模型对数据集检测精度达到了99.1％，更好的提取了目标特征的同时，提升了目标检测的精度，大幅度降低了漏检率，提升了对石榴果实的检测能力。

以上所述，仅为本申请的最优具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于改进YOLOv8s的疏果前石榴果实检测方法，其特征在于，包括以下步骤：

对所述原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，构建数据集；

定义损失函数Loss；

将构建的数据集随机按7:3的比例划分训练集和验证集；

2.根据权利要求1所述的基于改进YOLOv8s的疏果前石榴果实检测方法，所述采集多张石榴的原始图像并使用“makesense”进行标注处理，生成“.txt”文件，其特征在于，具体为：

在石榴果园中对石榴进行多角度、多距离拍摄，采集大量的石榴图片，得到石榴的原始图像，对所述原始图像中的石榴果实采用makesense进行标注处理，标签命名为“pomegranate”，生成.txt文件。

3.根据权利要求1所述的基于改进YOLOv8s的疏果前石榴果实检测方法，所述对所述原始图像进行扩充，分别增强和减弱亮度、色度、对比度和锐度，同时添加高斯噪声，构建数据集，其特征在于，具体为：

4.根据权利要求1所述的基于改进YOLOv8s的疏果前石榴果实检测方法，所述对YOLOv8s引入CBAM注意力机制、添加小目标检测层来构建改进的YOLOv8s网络，其特征在于，包括以下步骤：

在Backbone主干网络中的SPPF层前添加注意力机制(CBAM)模块；

5.根据权利要求1所述的基于改进YOLOv8s的疏果前石榴果实检测方法，所述定义损失函数Loss，其特征在于，具体为：

通过CIOU_Loss表达式定义损失函数，CIOU_Loss的表达式为：

α和v的公式分别表示如下：

其中w^gt和h^gt表示真实框的宽高；w和h表示预测框的宽高。

6.根据权利要求1所述的基于改进YOLOv8s的疏果前石榴果实检测方法，其特征在于：

所述数据增强包括mixup、mosaic和copypaste，所述mixup、mosaic以及copypaste的参数均设置为0.5；

所述标签平滑设置为0.3。

7.根据权利要求4所述的基于改进YOLOv8s的疏果前石榴果实检测方法，其特征在于：

所述注意力机制(CBAM)模块包含通道注意力机制(CAM)模块和空间注意力机制(SAM)模块，所述通道注意力机制(CAM)模块可以自适应地调整每个通道的重要性；所述空间注意力机制(SAM)模块用于根据目标的大小、位置和形状等因素来调整不同的区域的权重，从而更好地探测小目标，并且抑制背景噪声。

8.根据权利要求7所述的基于改进YOLOv8s的疏果前石榴果实检测方法，其特征在于：

所述空间注意力机制(SAM)模块中的空间注意力机制可以通过第一函数定义，所述第一函数表示为：

SA(X)＝σ(MLP_sa(MAX(X))×X)

9.根据权利要求7所述的基于改进YOLOv8s的疏果前石榴果实检测方法，其特征在于：

所述通道注意力机制(CAM)模块中的通道注意力机制(CAM)可以通过第二函数定义，所述第二函数表示为：

CA(X)＝σ(MLP_ca(AVE(X))×X)