CN115240188A

CN115240188A - 一种基于深度学习的橙子采摘机器人目标实时检测方法

Info

Publication number: CN115240188A
Application number: CN202210874239.6A
Authority: CN
Inventors: 郑太雄; 刘斯宇; 杨新琴
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-25

Abstract

本发明涉及一种基于深度学习的橙子采摘机器人目标实时检测方法，属于目标实时检测领域，采用YOLOv5s作为橙子目标实时检测的框架，将改进的CSP‑Darknet‑s作为骨干网络对橙子图像进行特征图提取；将特征图输入空间金字塔池化网络进行最大池化，得到固定大小的最终输出特征图；采用BiFPN架构作为颈部网络，对特征图进行多尺度融合；将多尺度融合特征图输入到检测网路中，经过卷积层后，输出三个尺度的特征图；再输入Bounding Box损失函数来预测边界和原始图像中目标的类别并标记；使用非极大值抑制来处理步骤S5中重复冗余的预测框，保留置信度最高的预测框信息，得到最终预测结果。

Description

一种基于深度学习的橙子采摘机器人目标实时检测方法

技术领域

本发明属于目标实时检测领域，涉及一种基于深度学习的橙子采摘机器人目标实时检测方法.

背景技术

水果采摘机器人目标检测识别技术主要应用在智慧农业生产领域。国内外相关研究人员在水果采摘机器人目标实时检测方面取得了一系列研究成果，水果采摘机器人目标实时检测的方法经历了基于传统数字图像处理、机器学习的图像处理以及深度学习的图像处理。

传统数字图像处理技术需要精确的目标果实特征信息，它曾经广泛的应用于水果采摘机器人目标检测研究中，并取得了很多成果。众多研究人员从水果颜色、纹理、形状和多特征融合等方面来分割识别水果。此类方法在环境较理想的情况下可以取得较好的识别效果，然而，由于自然环境下光线不均匀、土壤和天空等背景干扰、图像噪声等因素使得采用果实的光谱反射特性进行果实分割、提取和识别往往达不到理想的效果；其次对于枝叶遮挡果实、相互重叠果实的情况，采用果实的色彩、灰度信息往往不能分割和识别出单个果实区域；最后采用数字图像处理的方法进行果实识别时，特征提取过程大大增加了计算量，耗时而无法满足实时性的需求。

随着机器学习图像处理的方法日渐成熟，越来越多的分类识别算法被融入到水果采摘机器人目标检测研究中，并取得了很多成果，如贝叶斯算法、KNN聚类算法、SVM算法、K-means聚类算法等。虽然此类分类算法相较于传统数字图像处理可以取得较好的效果，但其也具有明显的缺点，如：通过滑动窗口策略进行区域选择时针对性不强且全局遍历运算量大，这提高了时间复杂度和窗口冗余；手动设计的特征对于目标的多样性并没有很好的鲁棒性。

近年来，深度学习的发展非常迅速，它被大量的应用于智慧农业领域，基于深度学习的卷积神经网络也被很多学者应用于水果采摘机器人目标检测研究中，如：CNN网络模型、AlexNet网络模型、VGGNet网络模型、残差神经网络(ResNet)网络模型的水果目标检测、Faster R-CNN网络模型、SSD网络模型和YOLO网络模型等。以上各种基于深度学习的水果采摘机器人目标检测方法研究，受环境影响的程度较低，具备较强的特征学习能力，无需人工再进行复杂的特征组合与设计工作，节省了大量的人力物力，最后得到的水果识别准确率和速度都能媲美甚至远超于传统的基于传统数字图像处理和基于机器学习的水果目标检测方法。但是纵观基于深度学习的水果目标识别研究，现有的大部分水果检测模型虽然识别准确率较高，但由于其复杂度高、参数多、规模大、很多模型的实时性不足。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度学习的橙子采摘机器人目标实时检测方法，在保证水果识别准确率的同时，满足采摘机器人实时识别的要求。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的橙子采摘机器人目标实时检测方法，包括以下步骤：

S1：采用YOLOv5s作为橙子目标实时检测的框架，将改进的CSP-Darknet-s作为骨干网络对橙子图像进行特征图提取，所述改进的CSP-Darknet-s为：将切片结构(Focus)、改进的瓶颈层(BottleneckCSP-s)和CBAM(Convolutional Block Attention Module)注意力机制模块进行结合得到的网络模型；

S2：将所述特征图输入空间金字塔池化网络(SPP)进行最大池化，得到固定大小的最终输出特征图；

S3：采用加权双向特征金字塔网络(BiFPN)架构作为颈部网络，将所述最终输出特征图输入到BiFPN中，对特征图进行多尺度融合；

S4：将多尺度融合特征图输入到检测网路中，经过卷积层后，输出三个尺度的特征图；

S5：将三个尺度的特征图输入Bounding Box损失函数来预测边界和原始图像中目标的类别并标记；

S6：使用非极大值抑制(Non Maximum Suppression，NMS)来处理步骤S5中重复冗余的预测框，保留置信度最高的预测框信息，得到最终预测结果。

进一步，在步骤S1之前对橙子进行图像采集和图像增强，所述图像采集包括以下情况：橙子被树叶遮挡，橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度；所述图像增强包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转。

进一步，步骤S1中，所述切片结构(Focus)的实施步骤为：首先输入608×608×3的图像，随后进行切片操作，从而得到304×304×12的特征图，随后再经过一次32个卷积核的卷积操作，最后输出304×304×32的特征图；

所述改进的瓶颈层(BottleneckCSP-s)为1个卷积核大小为1×1的卷积层(Conv2d+BN+Hardswish激活函数)与一个Bottleneck模块和一个卷积核大小为1×1的卷积层连接起来的残差网络架构，瓶颈模块的最终输出是BottleneckCSP-s部分的输出和通过残差结构的初始输入的相加；

所述CBAM注意力机制模块融合两种注意力机制，先是channel attention，然后是spatial attention，使用CBAM提取需要注意的区域，以减少获取其他无关的信息。

进一步，步骤S1中，CBAM注意力机制模块融合两种注意力机制，先是channelattention，然后是spatial attention，具体流程为：

将输入的特征图F(H×W×C)分别经过基于width和height的全局最大池化(global max pooling)和全局平均池化(global average pooling)，得到两个1×1×C的特征图；

接着，再将两个1×1×C的特征图分别送入一个两层的神经网络(MLP)，第一层神经元个数为C/r，其中r为减少率，激活函数为Relu，第二层神经元个数为C，两层的神经网络是共享的；

而后，将MLP输出的特征进行基于element-wise的加和操作，再经过sigmoid激活操作，生成最终的channel attention feature，即M_c；

最后，将M_c和输入特征图F做element-wise乘法操作，生成Spatial attention模块需要的输入特征；

将Channel attention模块输出的特征图F’作为Spatial attention模块的输入特征图，首先做一个基于channel的全局最大池化(global max pooling)和全局平均池化(global average pooling)，得到两个H×W×1的特征图；

然后将两个H×W×1的特征图基于channel做通道拼接(concat)操作；

接着经过一个7×7卷积操作，降维为1个channel，即H×W×1；

再经过sigmoid生成spatial attention feature，即M_s；

最后将M_s和M_c做乘法，得到最终生成的特征。

进一步，步骤S2中，金字塔池化网络(SPP)通过一个1×1的卷积对步骤S1得到的特征图进行卷积操作，并通过三个平行的最大池化层(Maxpooling)进行深度连接得到最终输出特征图。

进一步，步骤S3中，BiFPN通过引入可学习的权值来学习不同输入特征的重要性，同时反复应用自顶向下和自下而上的多尺度特征融合，以聚合不同分辨率的特征。

进一步，步骤S4中，将步骤S3得到的多尺度融合特征图输入到检测网路中，经过卷积层后，输出76×76、38×38和19×19维的特征图，对应检测小目标、中目标、大目标。

进一步，步骤S5中，将步骤S4得到的三个尺度的特征图采用CIOU_Loss做BoundingBox的损失函数来预测边界和原始图像中目标的类别并标记，CIOU_Loss损失函数的计算公式为：

其中α表示预测框和目标框的长宽比，v表示衡量长宽比一致的参数，IOU表示真实框和预测框之间的交并集，Distance_2²表示最小外接矩形对角线距离，w^gt、h^gt表示真实框的宽度和高度，w^p、h^p表示预测框的宽度和高度。

进一步，步骤S6中，采用DIOU_NMS来筛选预测框，DIOU_NMS的表达式如下所示：

其中

表示高置信度候选框，

是遍历各个候选框与置信度高的重合情况。

本发明的有益效果在于：本方法解决了传统目标检测容易受到光照条件的影响、复杂背景影响、水果重叠遮挡、枝叶遮挡、水果成簇生长等问题，还克服了一般基于深度学习的水果检测方法计算时间长、复杂度高、参数多、梯度消失慢以及实时性不足等缺点。

1)本发明能够解决自然光照条件变化、枝叶遮挡果实、果实聚类重叠遮挡的检测识别难题，使采摘机器人对橙子的目标识别具有较好的实时性和鲁棒性。

2)本发明采用改进的轻量化YOLOv5s神经网络，不仅可以快速的识别出橙子，识别橙子的准确度还很高，同时满足了识别的实时性和准确性。

3)本发明将RGB彩色相机获取到的彩色图像缩放为480*480，极大减少模型训练和测试的计算量和运行时间。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是本发明基于深度学习的橙子目标实时检测方法的流程示意图；

图2是本发明基于改进的YOLOv5s目标检测框架中改进的瓶颈层BottleneckCSP-s的结构示意图；

图3是本发明基于改进的YOLOv5s目标检测框架结构示意图；

图4是本发明基于改进的YOLOv5s目标检测框架中注意力机制模块CBAM的结构示意图；

图5是本发明基于改进的YOLOv5s目标检测框架中加权双向特征金字塔网络(BiFPN)融合底层和高层特征图的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图5，本发明优选了一种基于深度学习的橙子目标实时检测方法，首先，需要进行橙子图像采集和图像增强，图像采集包括以下情况：橙子被树叶遮挡，橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度等。另外，图像增强方法包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转等。然后进行橙子目标实时检测，包括如下具体步骤：

(1)采用轻量级网络YOLOv5s作为橙子目标实时检测的框架，将改进的CSP-Darknet-s作为骨干网络，即结合切片结构(Focus)、改进的瓶颈层(BottleneckCSP-s)和CBAM(Convolutional Block Attention Module)注意力机制模块对橙子图像进行特征图提取；

切片结构(Focus)具体实施步骤为首先输入608×608×3的图像，随后进行切片操作，从而得到304×304×12的特征图，随后再经过一次32个卷积核的卷积操作，最后输出304×304×32的特征图；改进的瓶颈层(BottleneckCSP-s)为1个卷积核大小为1×1的卷积层(Conv2d+BN+Hardswish激活函数)与一个Bottleneck模块和一个卷积核大小为1×1的卷积层连接起来的残差网络架构，瓶颈模块的最终输出是将该部分的输出与初始输入通过残差结构相加。

CBAM注意力机制模块融合了两种注意力机制，先是channel attention，然后是spatial attention，具体流程为：将输入的特征图F(H×W×C)分别经过基于width和height的global max pooling(全局最大池化)和global average pooling(全局平均池化)，得到两个1×1×C的特征图，接着，再将它们分别送入一个两层的神经网络(MLP)，第一层神经元个数为C/r(r为减少率)，激活函数为Relu，第二层神经元个数为C，这个两层的神经网络是共享的。而后，将MLP输出的特征进行基于element-wise的加和操作，再经过sigmoid激活操作，生成最终的channel attention feature，即M_c。最后，将M_c和输入特征图F做element-wise乘法操作，生成Spatial attention模块需要的输入特征；将Channelattention模块输出的特征图F’作为本模块的输入特征图。首先做一个基于channel的global max pooling和global average pooling，得到两个H×W×1的特征图，然后将这2个特征图基于channel做concat操作(通道拼接)。然后经过一个7×7卷积(7×7比3×3效果要好)操作，降维为1个channel，即H×W×1。再经过sigmoid生成spatial attentionfeature，即M_s。最后将该feature和该模块的输入feature做乘法，得到最终生成的特征。

(2)将步骤(1)得到的特征图输入空间金字塔池化网络(SPP)进行最大池化得到固定大小的最终输出特征图，具体为：首先输入大小为512×20×20的特征图，经过卷积核大小为1×1的卷积层后输出大小为256×20×20的特征图；然后，将该特征图与经过三个平行的Maxpooling层(最大池化层)进行二次采样的输出特征图进行深度连接，输出特征图的大小为1024×20×20；最后，通过具有512个卷积核的卷积层，得到大小为512×20×20的最终输出特征图。

(3)采用加权双向特征金字塔网络(BiFPN)架构作为颈部网络，将步骤(2)得到的最终输出特征输入到BiFPN中，对特征图进行高效的多尺度融合；BiFPN通过引入可学习的权值来学习不同输入特征的重要性，同时反复应用自顶向下和自下而上的多尺度特征融合，以聚合不同分辨率的特征。

(4)将步骤(3)得到的多尺度融合特征图输入到检测网路中，经过卷积层后，输出76×76、38×38和19×19维的特征图，对应检测小目标、中目标、大目标。

(5)将步骤(4)得到的三个尺度的特征图采用CIOU_Loss做Bounding Box的损失函数来预测边界和原始图像中目标的类别并标记，采用其中CIOU_Loss做Bounding box的损失函数。损失函数CIOU_Loss增加了一个影响因子既考虑了预测框和目标框的长宽比，又考虑了重叠面积和中心点距离，当目标框包裹预测框时，直接度量两个框的距离，使得预测框回归的速度和精度更高。CIOU_Loss损失函数的表达式如下所示：

其中α表示预测框和目标框的长宽比，v表示衡量长宽比一致的参数，IOU表示真实框和预测框之间的交并集，Distance_2²表示最小外接矩形对角线距离，w^gt、g^gt表示真实框的宽度和高度，w^p、h^p表示预测框的宽度和高度。

(6)使用非极大值抑制(Non Maximum Suppression，NMS)来处理步骤(5)中重复冗余的预测框，保留置信度最高的预测框信息，得到最终预测结果，采用DIOU_NMS来筛选预测框。使用DIOU作为NMS的标准，不仅考虑了重叠区域IOU的值，还考虑了两个Box中心点距离。DIOU_NMS的表达式如下所示：

其中

表示高置信度候选框，

是遍历各个候选框与置信度高的重合情况。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：包括以下步骤：

S1：采用YOLOv5s作为橙子目标实时检测的框架，将改进的CSP-Darknet-s作为骨干网络对橙子图像进行特征图提取，所述改进的CSP-Darknet-s为：将切片结构、改进的瓶颈层和CBAM注意力机制模块进行结合得到的网络模型；

S2：将所述特征图输入空间金字塔池化网络进行最大池化，得到固定大小的最终输出特征图；

S3：采用加权双向特征金字塔网络BiFPN架构作为颈部网络，将所述最终输出特征图输入到BiFPN中，对特征图进行多尺度融合；

S6：使用非极大值抑制来处理步骤S5中重复冗余的预测框，保留置信度最高的预测框信息，得到最终预测结果。

2.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：在步骤S1之前对橙子进行图像采集和图像增强，所述图像采集包括以下情况：橙子被树叶遮挡，橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度；所述图像增强包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转。

3.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S1中，所述切片结构的实施步骤为：首先输入608×608×3的图像，随后进行切片操作，从而得到304×304×12的特征图，随后再经过一次32个卷积核的卷积操作，最后输出304×304×32的特征图；

所述改进的瓶颈层为1个卷积核大小为1×1的卷积层与一个Bottleneck模块和一个卷积核大小为1×1的卷积层连接起来的残差网络架构，瓶颈模块的最终输出是BottleneckCSP-s部分的输出和通过残差结构的初始输入的相加；

4.根据权利要求3所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S1中，CBAM注意力机制模块融合两种注意力机制，先是channel attention，然后是spatial attention，具体流程为：

将输入的特征图F(H×W×C)分别经过基于width和height的全局最大池化和全局平均池化，得到两个1×1×C的特征图；

接着，再将两个1×1×C的特征图分别送入一个两层的神经网络，第一层神经元个数为C/r，其中r为减少率，激活函数为Relu，第二层神经元个数为C，两层的神经网络是共享的；

将Channel attention模块输出的特征图F’作为Spatial attention模块的输入特征图，首先做一个基于channel的全局最大池化和全局平均池化，得到两个H×W×1的特征图；

然后将两个H×W×1的特征图基于channel做通道拼接操作；

接着经过一个7×7卷积操作，降维为1个channel，即H×W×1；

再经过sigmoid生成spatial attention feature，即M_s；

最后将M_s和M_c做乘法，得到最终生成的特征。

5.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S2中，金字塔池化网络通过一个1×1的卷积对步骤S1得到的特征图进行卷积操作，并通过三个平行的最大池化层进行深度连接得到最终输出特征图。

6.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S3中，BiFPN通过引入可学习的权值来学习不同输入特征的重要性，同时反复应用自顶向下和自下而上的多尺度特征融合，以聚合不同分辨率的特征。

7.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S4中，将步骤S3得到的多尺度融合特征图输入到检测网路中，经过卷积层后，输出76×76、38×38和19×19维的特征图，对应检测小目标、中目标、大目标。

8.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S5中，将步骤S4得到的三个尺度的特征图采用CIOU_Loss做Bounding Box的损失函数来预测边界和原始图像中目标的类别并标记，CIOU_Loss损失函数的计算公式为：

9.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S6中，采用DIOU_NMS来筛选预测框，DIOU_NMS的表达式如下所示：

其中

表示高置信度候选框，

是遍历各个候选框与置信度高的重合情况。