CN114882498A

CN114882498A - 面向采摘机器人的遮挡和重叠果实识别方法

Info

Publication number: CN114882498A
Application number: CN202210565489.1A
Authority: CN
Inventors: 朱意霖; 郑太雄; 刘劲松; 易源; 谢新宇; 张世博; 张黎
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-09

Abstract

本发明涉及一种面向采摘机器人的遮挡和重叠果实识别方法，属于图像识别领域，提出Dense‑TRH‑YOLO模型，在YOLOv5的基础上将Denseblock模块融合到骨干网中，创建了早期层到后期层的段路径，并且将Transfomer模块融入到模型中，提高语义可分辨性并减少类别混淆，增加对遮挡物的识别精度，然后通过Unet++‑PAN颈部结构提取各层图像特征，最后用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度，在CIOU的基础上分别计算宽高的差异值代替了纵横比，同时引入Focal Loss解决难易样本不平衡的问题。

Description

面向采摘机器人的遮挡和重叠果实识别方法

技术领域

本发明属于图像识别领域，涉及一种面向采摘机器人的遮挡和重叠果实识别方法。

背景技术

收获水果是非常劳动密集和耗时的工作。随着人工智能的发展，这项工作的大部分可以被收割机器人所取代。用机器人收割分为两个步骤。首先，使用计算机视觉系统进行水果检测。其次，根据检测结果引导机械手采摘水果。在这两个步骤中，水果检测是最关键和最具挑战性的。它不仅决定了机械手的后续操作，而且还决定了检测精度。复杂的条件和非结构环境使这项任务非常具有挑战性。

对于果实的识别与分类，人们采用了各种传统视觉检测方法来分割或定位出果实图像，如今如SSD网络模型、YOLO网络模型、Fast R-CNN网络模型能够很好的应用在不同平台和领域。目前深度学习技术应用日益广泛，成为了当今主流的检测手段，这些算法虽然能解决采摘机器人的果实检测识别问题，但对于非结构化的环境下，对于遮挡和重叠严重的果实，往往得不到好的检测效果，从而使采摘机器人无法正确识别果实能否采摘，影响生产。

发明内容

有鉴于此，本发明的目的在于提供一种面向采摘机器人的遮挡和重叠果实识别方法，解决在非结构化环境下传统的目标检测易受复杂背景的影响、对遮挡和重叠严重的果实的漏检和误检，使用基于最新YOLOv5网络改进后的模型Dense-TRU-YOLO，在保持精度的前提下降低了大量的模型参数量，克服了一般深度学习神经网络模型参数里大、计算量大、计算时间长、对计算机硬件要求高，识别精度不够高等缺点。

为达到上述目的，本发明提供如下技术方案：

一种面向采摘机器人的遮挡和重叠果实识别方法，包括以下步骤：

S1：采用改进的Yolov5作为果实目标检测的主体算法，将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络，将Denseblock模块融合到骨干网中，创建了早期层到后期层的段路径，改进了信息和梯度的流动，使得模型易于训练，并且减少了过拟合问题的出现；

S2：为了提高语义可分辨性并减少类别混淆，增加对遮挡物的识别精度，将原YOLOv5的最深层C3模块替换为C3TR模块；

S3：采用Unet++-PAN结构替换原YOLOv5中的PAnet作为模型的颈部结构，并且在结合浅层信息和深层信息时，引入可学习的权重来学习不同输入特征的重要性；

S4：在步骤S3对图像特征进行深层提取后，以三个不同特征提取层传入Yolo head对水果种类进行检测和分类；

S5：在步骤S4的全连接层中采用softmax分类器进行目标检测分类，并采用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度；

S6：对步骤S5中定位后图像剪裁后进行边缘提取，使用SVM分类器对定位后的果实进行是否能直接采摘作分类。

进一步，所述步骤S1中采用改进的Yolov5作为目标检测的主体算法，其骨干网络包含一个Focus模块和四个BottleneckCSP模块，将Denseblcok模块融入到骨干网络中，组成Dense-CSPDarknet53，有效的减少了图像在深层网络信息丢失。在保证检测速度和模型复杂度的前提下，大幅度增加了对遮挡物的检测精度和特征提取能力，实现了采摘机器人对遮挡果实识别网络的改进设计。

进一步，步骤S2中为了提高提高语义可分辨性并减少类别混淆，增加对遮挡物的识别精度，所述将原YOLOv5的最深层C3模块替换为C3TR模块，具体包括：首先将传入的图像特征分为两个分支，在第一个分支中，通过1×1卷积后传入带有多头注意力机制的Transfomer模块，在第二个分支中仅采用1×1卷积操作；在两个分支提取完成后，采用拼接操作将分支信息融合，并通过1×1卷积还原通道数量；

Transformer模块中自注意力机制计算公式为：

其中，Q、K、V分别表示查询向量、键向量和值向量、d_k为缩放因子。

进一步，在所述步骤S3中，首先在同尺寸的原始输入节点和输出节点之间加入跨层加权链接；跨层级链接可以在保证不增加过多网络复杂度的情况下融合更多的浅层语义信息，使得网络对目标边界的回归更加精准，提升对遮挡物的识别精度。在不同尺寸的节点之间采用上采样或下采样加权特征融合，得到Unet++-PAN结构提取不同尺寸的图像特征；

Unet++-PAN中各节点计算式为：

其中，H是卷积，D是下采样，u是上采样，令x^i,j表示节点输出，i表示沿采样层数，j表示沿跳接索引密集块的卷积层。

进一步，所述步骤S4中通过将得到的图像特征输入到Yolov5框架中末端的基于anchor的Yolo head进行不同尺寸的特征提取。

进一步，所述步骤S5中使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度，在CIOU的基础上分别计算宽高的差异值代替纵横比，同时引入Focal Loss解决难易样本不平衡的问题；

其中GFL计算公式为：

其中，C_w和C_h是覆盖框的最小宽度和高度，L_IOU是IOU损失，L_dis是距离损失，L_asp是方面损失，b、w、h分别代表了中心点。

进一步，所述步骤S6中对定位后图像剪裁后进行边缘提取，使用SVM分类器对定位后的果实进行是否能直接采摘作分类；

SVM的原理为求数据之间的最大几何间隔：

S.t.y_i(w^Tx_i+b)≧1

其中：w，b为需要求得的参数，x_i，y_i为训练样本数。

本发明的有益效果在于：本发明解决了在非结构化环境下传统的目标检测易受复杂背景的影响、对遮挡和重叠严重的果实的漏检和误检，还使用基于最新YOLOv5网络改进后的模型取名为Dense-TRU-YOLO，在保持精度的前提下降低了大量的模型参数量，克服了一般深度学习神经网络模型参数里大、计算量大、计算时间长、对计算机硬件要求高，识别精度不够高等缺点。本发明采用Dense-TRU-YOLO作为目标检测的主体算法，将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络，将Denseblock模块融合到骨干网中，有效的减少了图像在深层网络信息丢失。在保证检测速度和模型复杂度的前提下，大幅度增加了对遮挡物的检测精度和特征提取能力，实现了采摘机器人对遮挡果实识别网络的改进设计。本发明为了提高语义可分辨性并减少类别混淆，增加对遮挡物的识别精度，将原YOLOv5的最深层C3模块，替换为C3TR模块，首先将传入的图像特征分为两个不同分支，在第一个分支中，通过1×1卷积后传入带有多头注意力机制的Transfomer模块，在第二个分支中仅采用1×1卷积操作。在两个分支提取完成后，采用拼接操作将分支信息融合，并通过1×1卷积还原通道数量。本发明在颈部结构采用Unet++-PAN结构，首先在同尺寸的原始输入节点和输出节点之间加入了跨层加权链接。跨层级链接可以在保证不增加过多网络复杂度的情况下融合更多的浅层语义信息，使得网络对目标边界的回归更加精准，提升对遮挡物的识别精度。在不同尺寸的节点之间采用上采样或下采样加权特征融合，能够更加充分的融合各尺寸图像特征。本发明使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度，在原模型上CIOU的基础上分别计算宽高的差异值代替了纵横比，同时引入Focal Loss解决难易样本不平衡的问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述面向采摘机器人的遮挡和重叠果实识别方法的流程示意图；

图2为本发明Dense-TRU-YOLO网络模型结构和原理图；

图3为本发明DenseCSP骨干网结构图；

图4为本发明Transfomer机制原理图；

图5为本发明C3模块和改进的C3TR结构原理图；

图6为本发明原模型PANet结构和本发明提出的Unet++-PAN结构图；

图7为本发明Dense-TRU-YOLO模型对番茄数据集训练情况P、R和mAP@0.5图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供了一种面向采摘机器人的遮挡和重叠果实识别方法的流程图，包括如下具体步骤：

(1)采用改进的Yolov5作为果实目标检测的主体算法，Dense-TRU-YOLO如图2所示，将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络，将Denseblock模块融合到骨干网中，创建了早期层到后期层的段路径，改进了信息和梯度的流动，使得模型易于训练，并且减少了过拟合问题的出现，如图3所示。YOLOv5s架构的骨干网络包含一个Focus模块和四个BottleneckCSP模块，将Denseblcok模块融入到骨干网络中，组成Dense-CSPDarknet53，有效的减少了图像在深层网络信息丢失。在保证检测速度和模型复杂度的前提下，大幅度增加了对遮挡物的检测精度和特征提取能力，实现了采摘机器人对遮挡果实识别网络的改进设计。

(2)为了提高提高语义可分辨性并减少类别混淆，增加对遮挡物的识别精度，将原YOLOv5的最深层C3模块，替换为C3TR模块，如图4，图5所示；首先将传入的图像特征分为两个不同分支，在第一个分支中，通过1×1卷积后传入带有多头注意力机制的Transfomer模块，在第二个分支中仅采用1×1卷积操作。在两个分支提取完成后，采用拼接操作将分支信息融合，并通过1×1卷积还原通道数量。

Transformer模块中自注意力机制计算公式为：

(3)采用Unet++-PAN结构替换原模型中的PAnet作为模型的颈部结构，并且在结合浅层信息和深层信息的时，引入了可学习的权重来学习不同输入特征的重要性，如图6所示。首先在同尺寸的原始输入节点和输出节点之间加入了跨层加权链接。跨层级链接可以在保证不增加过多网络复杂度的情况下融合更多的浅层语义信息，使得网络对目标边界的回归更加精准，提升对遮挡物的识别精度。在不同尺寸的节点之间采用上采样或下采样加权特征融合，得到Unet++-PAN结构提取不同尺寸的图像特征。

Unet++-PAN中各节点计算式为：

其中，H是卷积，D是下采样，u是上采样，令x^i,j表示节点输出，i表示沿

采样层数，j表示沿跳接索引密集块的卷积层。

(4)在步骤(3)对图像特征进行深层提取后，以三个不同特征提取层传入Yolohead对水果种类进行检测和分类；通过将得到的图像特征输入到Yolov5框架中末端的基于anchor的Yolo head进行不同尺寸的特征提取。

(5)在步骤(4)的全连接层中采用softmax分类器和进行目标检测分类和并采用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度；使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度，在CIOU的基础上分别计算宽高的差异值代替了纵横比，同时引入FocalLoss解决难易样本不平衡的问题。

其中GFL计算公式为：

(6)对(5)中定位后图像剪裁后进行边缘提取，使用SVM分类器对定位后的果实进行是否能直接采摘作分类。对定位后图像剪裁后进行边缘提取，使用SVM分类器对定位后的果实进行是否能直接采摘作分类。

SVM的原理为求数据之间的最大几何间隔：

S.t.y_i(w^Tx_i+b)≧1

其中：w，b为我们需要求得的参数，x_i，y_i为训练样本数。

如图7所示，是本发明Dense-TRU-YOLO模型对番茄数据集训练情况P、R和mAP@0.5图。

表1给出了本发明Dense-TRU-YOLO消融实验数据。

表1

表2给出了本发明与各种常用网络数据对比，以mAP@0.5，F1，fps，模型大小为性能评估。

表2

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：包括以下步骤：

S1：采用改进的Yolov5作为果实目标检测的主体算法，将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络，将Denseblock模块融合到骨干网中；

S2：将原YOLOv5的最深层C3模块替换为C3TR模块；

S5：在步骤S4的全连接层中采用softmax分类器进行目标检测分类，并采用EfficientIOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度；

2.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：所述步骤S1中采用改进的Yolov5作为目标检测的主体算法，其骨干网络包含一个Focus模块和四个BottleneckCSP模块，将Denseblcok模块融入到骨干网络中，组成Dense-CSPDarknet53。

3.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：步骤S2中所述将原YOLOv5的最深层C3模块替换为C3TR模块，具体包括：首先将传入的图像特征分为两个分支，在第一个分支中，通过1×1卷积后传入带有多头注意力机制的Transfomer模块，在第二个分支中仅采用1×1卷积操作；在两个分支提取完成后，采用拼接操作将分支信息融合，并通过1×1卷积还原通道数量；

Transformer模块中自注意力机制计算公式为：

4.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：在所述步骤S3中，首先在同尺寸的原始输入节点和输出节点之间加入跨层加权链接；在不同尺寸的节点之间采用上采样或下采样加权特征融合，得到Unet++-PAN结构提取不同尺寸的图像特征；

Unet++-PAN中各节点计算式为：

5.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：所述步骤S4中通过将得到的图像特征输入到Yolov5框架中末端的基于anchor的Yolo head进行不同尺寸的特征提取。

6.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：所述步骤S5中使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度，在CIOU的基础上分别计算宽高的差异值代替纵横比，同时引入FocalLoss解决难易样本不平衡的问题；

其中GFL计算公式为：

7.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法，其特征在于：所述步骤S6中对定位后图像剪裁后进行边缘提取，使用SVM分类器对定位后的果实进行是否能直接采摘作分类；

SVM的原理为求数据之间的最大几何间隔：

S.t.y_i(w^Tx_i+b)≧1

其中：w，b为需要求得的参数，x_i，y_i为训练样本数。