CN117115655A

CN117115655A - 一种自然环境下番茄果实的检测方法及系统

Info

Publication number: CN117115655A
Application number: CN202311149961.4A
Authority: CN
Inventors: 昝书晗
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-11-24

Abstract

本发明公开了一种自然环境下番茄果实检测方法及系统，涉及计算机视觉、机器学习、智慧农业等领域。该方法基于YOLOv8模型作为主干网络结构，用于提取和融合输入图像的特征信息；同时引入了SA‑Net注意力模块，以增强模型对番茄遮挡部分的关注度；采用Softer‑NMS非极大值抑制算法，对满足阈值条件的边界框进行加权平均，以获得更准确的检测结果。考虑到预测框和真实框之间的方向问题，采用SIoU作为损失函数进行优化。该方法不仅有效解决了自然环境下番茄果实检测中的遮挡问题，还显著提升了番茄检测的准确率。实验结果表明，本发明的方法在纷繁复杂的自然环境中展现出良好的鲁棒性，能够较好地应对各种干扰因素。

Description

一种自然环境下番茄果实的检测方法及系统

技术领域

本发明涉及智慧农业的计算机视觉识别技术领域，具体为一种自然环境下番茄果实的检测方法及系统。

背景技术

番茄具有丰富的营养成分，对人体健康有着较大的促进作用。传统番茄采摘技术生产成本高、操作复杂且效率低，很多现有的采摘机器人采用视觉识别定位采摘，但是自然环境是一个开放且不可控的环境，各种因素的动态变化会导致目标对象外观特征的不确定性，番茄果实在自然环境下可能会受到枝叶以及其他果实的遮挡，使得番茄果实目标检测面临巨大困难。

现有的目标检测算法针对小目标和遮挡目标的检测仍存在漏检和误检等问题。小目标边缘信息的不清晰和低对比度，以及目标与背景之间的视觉混淆，给模型的目标定位和识别带来了困难。遮挡现象使得目标的外观、形状和语义特征部分或完全不可见，导致不能对番茄精确检测。

发明内容

针对现有技术中存在的问题，本发明提供一种自然环境下番茄果实的检测方法及系统，采用YOLOv8模型作为主干网络结构，引入了SA-Net注意力模块，同时采用了Softer-NMS非极大值抑制算法和SIoU作为损失函数，有效解决了自然环境下番茄果实检测中的遮挡问题。

本发明是通过以下技术方案来实现：

一种自然环境下番茄果实的检测方法，包括以下步骤：

获取自然环境中的番茄果实图像，并对图像进行标注和图像增强处理，得到训练数据集；

构建神经网络模型并采用训练数据集对其进行训练，根据训练后的神经网络模型检测番茄果实；

所述神经网络模型的训练方法如下：

将训练数据集的原始图片转化为特征图，对特征图进行特征融合得到融合特征图；

根据融合特征图生成通道注意力图和空间注意力图，根据通道注意力图生成通道统计数据，根据空间注意力图进行映射得到映射特征，对通道统计数据和映射特征进行concat操作得到注意力权重图，根据注意力权重图确定目标各边界框的类别概率；

根据边界框和类别概率确定损失函数，根据损失函数确定网络参数的偏导数进而得到梯度信息，据梯度信息和优化算法的规则，更新网络中的参数，直至达到预设的迭代次数，得到训练后的神经网络模型。

优选的，所述图像增强处理的方法如下：

对标注的图像随机生成遮挡区域，根据遮挡区域生成遮挡掩码，将遮挡掩码应用到原图像，得到增强处理的图像。

优选的，所述根据融合特征图生成通道注意力图和空间注意力图的方法如下：

按照通道维度将融合特征图拆分为G个子特征图组，并采用并行处理的方法，为每个子特征图组生成对应的重要度系数；

将子特征图组X(k)沿着通道维度分成两个分支，一个分支利用通道间的相互关系输出通道注意力图；另一个分支利用特征的空间关系并结合搜索算法生成空间注意力图。

优选的，所述映射特征的确定方法如下：

所述空间注意力图输入到全连接层中，并结合线性变换和非线性激活函数进行映射得到映射特征。

优选的，所述映射特征的表达式如下:

X′_k2＝σ(W₂·GN(X_k2)+b₂)·X_k2

其中，W₂是全连接层中的权重，b₂是偏置项，GN为群归一化操作，σ为激活函数sigmoid，X_k2为原特征。

优选的，所述损失函数的确定方法如下：

根据边界框的预测分布P_Θ(x)与真实分布P_D(x)之间的KL散度作为神经网络模型的优化目标，根据KL散度建立边界框回归的损失函数，根据预测框和真实框之间的方向问题，建立损失函数SIoU部分。

优选的，所述损失函数的表达式如下：

其中，x_g是真实边界框的位置，x_e是边界框的估计位置，P_D(x)为真实分布，σ为标准差。

优选的，所述训练后的神经网络模型输出图像的边界框，计算每个边界框以及与其相邻的边界框的加权平均值，更新边界框的位置，根据更新后的边界框位置确定图像的预测结果。

优选的，所述边界框的位置更新方法如下：

IoU(x1_j，x1_i)＞N_t

其中，x1_i为第i个边界框的新x1坐标，x1_j为满足IoU大于阈值N_t的第j个框的坐标，为第j个框的方差。

一种自然环境下番茄果实的检测方法的系统，包括，

数据集模块，用于获取自然环境中的番茄果实图像，并对图像进行标注和图像增强处理，得到训练数据集；

神经网络模块，用于构建神经网络模型并采用训练数据集对其进行训练，根据训练后的神经网络模型检测番茄果实；

网络训练模块，用于对所述神经网络模型进行训练；

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的一种自然环境下番茄果实检测方法，该方法基于YOLOv8模型作为主干网络结构，用于提取和融合输入图像的特征信息；同时引入了SA-Net注意力模块，以增强模型对番茄遮挡部分的关注度；采用Softer-NMS非极大值抑制算法，对满足阈值条件的边界框进行加权平均，以获得更准确的检测结果。考虑到预测框和真实框之间的方向问题，采用SIoU作为损失函数进行优化。该方法不仅有效解决了自然环境下番茄果实检测中的遮挡问题，还显著提升了番茄检测的准确率。实验结果表明，本发明的方法在纷繁复杂的自然环境中展现出良好的鲁棒性，能够较好地应对各种干扰因素。

附图说明

图1为本发明YOLOv8的的网络结构示意图；

图2为本发明卷积模块CBS结构图；

图3为本发明残差模块C2f结构图；

图4为本发明空间金字塔池化SPPF模块；

图5为本发明Neck结构图；

图6为本发明SA-Net注意力模块结构图；

图7为本发明Angel cost计算参数示意图；

图8为本发明Distance cost计算参数示意图；

图9为本发明Shape cost计算参数示意图；

图10为本发明Cutout数据增强的效果图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

参阅图1-10，一种自然环境下番茄果实的检测方法，包括以下步骤：

步骤1、获取自然环境中的番茄果实图像，并对图像进行标注处理，然后对标注的图像进行图像增强处理，得到训练数据集，具体如下：

S1.1、拍摄具有代表性的自然环境中的番茄果实图片；

S1.2、将上述拍摄的图片使用标注工具进行手动标注，使用标注工具框选每个番茄果实的边界框，并确保边界框与果实轮廓紧密契合；

S1.3、对标注的图像随机生成遮挡位置：对于每张训练图片，通过随机生成遮挡的位置来决定遮挡区域。在图像中选择一个随机的位置，作为遮挡的开始坐标。

S1.4、创建遮挡掩码：使用选定的遮挡尺寸，将遮挡区域标记为遮挡掩码。遮挡掩码通常是一个与原图像尺寸相同的同样维度的矩阵，其中被选择的遮挡区域为1，其他区域为0。

S1.5、将遮挡掩码应用到原图像：将遮挡掩码与原图像进行按位运算，将遮挡掩码对应位置的像素值设置为0，实现遮挡操作，完成标注图像的增强处理。

S1.6、根据增强后的图像和对应的标注文本信息构建训练数据集。

步骤2、构建YOLOv8神经网络模型，包括Backbone模块、Neck模块、Head模块。

Backbone模块，用于将输入的训练数据集的原始图片转化为具有不同语义级别的特征图。Backbone模块基于Darknet-53网络，包括卷积模块CBS、C2f模块及SPPF模块，具体结构如图2、图3、图4所示。

Neck模块，用于对Backbone输出的特征图进行特征融合得到融合特征图，综合利用不同尺度的特征图的特征信息，从而提高模型的感受野和定位能力。

如图5所示，Neck模块采用PAN-FPN结构，FPN将高层的特征通过上采样和低层特征融合，把深层的语义特征传到浅层。FPN层后面的自底向上的特征金字塔，将浅层的定位信息传导到深层。

Head模块包括注意力机制SA-Net、分类头和检测头三个部分，分类头和检测头采用解耦头的结构。Head部分在YOLOv8模型中对经过Backone和Neck处理后的特征图进行目标的分类和检测操作，最终预测得到每个边界框及其所属的类别和置信度。

如图6所示。SA-Net注意力模块能够增强模型在特定区域的特征表达能力，并抑制对于任务无关、噪声或冗余的特征，提高模型在自然环境下番茄果实检测的性能。

注意力模块SA-Net，用于根据融合特征图生成通道注意力图和空间注意力图，根据通道注意力图生成通道统计数据，根据空间注意力图进行映射得到映射特征，通道统计数据和映射特征进行concat操作，得到注意力权重图，使神经网络模型集中注意力于重要的通道和空间位置，提高特征表示的表达能力和感知能力。

分类头，用于对注意力权重图通过卷积层和全连接层进行处理，得到图像的每个边界框所属的类别。

检测头，用于对边界框进行位置和置信度的预测。

非极大值抑制模块，用于对Head模块输出的边界框进行筛选处理，得到最终的图像预测结果。Softer-NMS(非极大值抑制)可以对Head预测出的边界框进行筛选处理，在抑制冗余边界框的同时，更加准确地保留置信度高的重叠边界框。它可以有效解决传统非极大值抑制方法在目标检测中可能出现的误删问题，提高检测结果的质量和准确度。

步骤3、根据步骤1得到的训练数据集对步骤2构建的YOLOv8神经网络模型继续训练，具体如下：

S3.1、将训练数据集输入Backbone模块，Backbone模块将番茄图像转化为特征图；

S3.2、对特征图进行特征融合，得到图像的融合特征图。

S3.3、按照通道维度将融合特征图拆分为G个子特征图组，并采用并行处理的方法，为每个子特征图组X(k)生成对应的重要度系数。将子特征图组X(k)沿着通道维度分成两个分支，一个分支利用通道间的相互关系输出通道注意力图；另一个分支利用特征的空间关系并结合搜索算法生成空间注意力图，以减少特征之间的耦合。

S3.4、空间注意力图输入到全连接层中，并结合线性变换和非线性激活函数进行映射得到映射特征X′_k2，表达式如下：

X′_k2＝σ(W₂·GN(X_k2)+b₂)·X_k2

其中，W₂是全连接层中的权重，b₂是偏置项，GN为群归一化操作，σ为激活函数sigmoid，X_k2为原特征，X′_k2为映射后的特征。

S3.5、将通道注意力图通过全局平均池化来生成通道统计数据。使用简单的门机制控制每个通道和空间位置的选择程度，并且将通道注意力图中的值映射到0到1之间的范围，具体公式如下：

其中，W₂是全连接层中的权重，b₂是偏置项，σ为激活函数sigmoid，X_k1为原特征，X′_k1为映射后的特征，H和W为特征图中的高和宽。

S3.6、对映射特征和通道统计数据进行concat操作，然后采用channel shuffle操作，将不同组之间的特征进行混洗，从而使得不同组之间的信息能够相互融合和交叉，得到注意力权重图，增强模型对不同组之间的特征关系的感知能力。

根据注意力权重图确定目标边界框，并确定各个边界框的类别概率。

S3.7、根据边界框和类别概率确定损失函数，损失函数的定义和计算过程如下：

假设边界框的预测结果bounding box是高斯分布，则边界框预测分布P_Θ(x)的表达式如下：

其中，x_e是边界框的估计位置，标准差σ用来衡量估计的不确定性，其是通过一个全连接层网络预测出来的。σ越小，表示越确定，并将1-σ作为置信度。

假设真实的边界框为一个Dirac delta分布，即标准差为0的高斯分布的极限。如下式所示。式中，x_g是真实边界框的位置，边界框的真实分布P_D(x)的表达式如下：

P_D(x)＝δ(x-x_g)

将最小化边界框预测分布P_Θ(x)与真实分布P_D(x)之间的KL散度作为网络的优化目标，即：

将KL散度作为边界框回归的损失函数L_reg，定义如下式所示。

同时，根据预测框和真实框之间的方向问题，定义损失函数SIoU部分，从而提高模型的收敛速度和效率。具体步骤如下：

SIoU由四部分损失函数组成：Angle cost、Distance cost、Shape cost、IoUcost。其计算公式如下：

Angel cost。如图7所示，首先在X或Y轴做预测(以最接近者为准)，然后沿着相关轴继续接近。即如果模型将沿着X轴接近真实框(GT)；否则将沿着Y轴接近真实框。

将Angel cost定义为下式

上式中各项参数的计算公式如下式所示

Distance cost。Distance cost将上述Angel cost考虑进来，将Distance cost定义为下式

上式中各参数计算公式如下式所示，计算参数如图8图示。

Shape cost。将Shape cost定义为下式

各参数计算公式如下式，计算图示见图9。

IoU cost。IoU cost即为目标框和真实框的交并比，如下式所示。

S3.8、确定损失函数对网络参数(权重和偏置)的偏导数，进而得到梯度信息，并将梯度信息从输出层向输入层进行传递。

S3.9、根据梯度信息和优化算法的规则，更新网络中的参数。具体更新的参数包括卷积层的卷积核权重、全连接层的权重和偏置以及归一化层的参数等。

S3.10、重复S3.1～S3.9，直至达到预设的迭代次数。

步骤4、对边界框预测结果进行筛选处理，得到最终的图像预测结果，具体如下：

对于每个边界框，基于其相邻边界框及其自身的加权平均值来计算其新位置，根据更新后的边界框位置确定最终的图像预测结果，具有超过N_t阈值的边界框将被考虑到加权平均值中。例如，第i个框的新x1坐标的计算过程见下式

IoU(x1_j，x1_i)＞N_t

其中，x1_i为第i个框的新x1坐标，x1_j为满足IoU大于阈值N_t的第j个框的坐标，为第j个框的方差。

本发明提供的一种自然环境下番茄果实的检测方法，通过采用新的模型搭建和优化策略，如YOLOv8模型、SA-Net注意力模块和SIoU损失函数，该发明能够更准确地检测和定位自然环境下的遮挡番茄果实。SA-Net注意力模块通过关注重要特征，提升了对遮挡番茄的关注能力；SIoU损失函数考虑了边界框的角度、距离、形状等因素，使得检测结果更加精确。其次，使用了YOLOv8模型来进行目标检测，相较于传统的基于区域的方法，YOLOv8模型具有更高的处理速度和较低的计算复杂度。这使得该发明在处理大规模番茄果实图像时能够实现快速且高效的遮挡检测。最后，本发明在模型搭建和训练过程中，充分考虑了自然环境下番茄果实的遮挡问题。通过采用Cutout数据增强操作模拟遮挡，并引入Softer-NMS(非极大值抑制)算法对边界框进行加权平均，该发明能够更好地应对自然环境中的复杂遮挡情况。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种自然环境下番茄果实的检测方法，其特征在于，包括以下步骤：

所述神经网络模型的训练方法如下：

2.根据权利要求1所述的一种自然环境下番茄果实的检测方法，其特征在于，所述图像增强处理的方法如下：

3.根据权利要求1所述的一种自然环境下番茄果实的检测方法，其特征在于，所述根据融合特征图生成通道注意力图和空间注意力图的方法如下：

4.根据权利要求1所述的一种自然环境下番茄果实的检测方法，其特征在于，所述映射特征的确定方法如下：

5.根据权利要求4所述的一种自然环境下番茄果实的检测方法，其特征在于，所述映射特征的表达式如下：

X′_k2＝σ(W₂·GN(X_k2)+b₂)·X_k2

6.根据权利要求1所述的一种自然环境下番茄果实的检测方法，其特征在于，所述损失函数的确定方法如下：

7.根据权利要求1所述的一种自然环境下番茄果实的检测方法，其特征在于，所述损失函数的表达式如下：

8.根据权利要求1所述的一种自然环境下番茄果实的检测方法，其特征在于，所述训练后的神经网络模型输出图像的边界框，计算每个边界框以及与其相邻的边界框的加权平均值，更新边界框的位置，根据更新后的边界框位置确定图像的预测结果。

9.根据权利要求8所述的一种自然环境下番茄果实的检测方法，其特征在于，所述边界框的位置更新方法如下：

IoU(x1_j，x1_i)＞N_t

10.一种自然环境下番茄果实的检测方法的系统，其特征在于，包括，

网络训练模块，用于对所述神经网络模型进行训练；