CN109948444A

CN109948444A - 基于cnn的果实与障碍物的同步识别方法、系统与机器人

Info

Publication number: CN109948444A
Application number: CN201910122680.7A
Authority: CN
Inventors: 杨长辉; 刘艳平; 熊龙烨; 王卓; 康曦龙; 廖海伸
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-28

Abstract

本发明公开了一种基于CNN的果实与障碍物的同步识别方法：采集原始数据集；从原始数据集中选取若干原始图像进行目标类型标记，目标物类型包括正常无遮挡果实与障碍类型，障碍类型包括树枝遮挡果实、树叶遮挡果实、轻微遮挡果实、果实相互遮挡与果树树干，为所选取的每幅原始图像上的目标物类型都生成对应的标记图片；将标记图片的集合作为目标物类型识别训练样本集，对障碍识别卷积神经网络进行训练；利用训练完成后的障碍识别卷积神经网络对目标物类型进行分类识别与定位。还公开一种基于CNN的果实与障碍物的同步识别系统与一种果实采摘机器人。解决了不能同时对果实与障碍物进行识别的技术问题，能为果实采摘机器人进行避障采摘作业提供指导。

Description

基于CNN的果实与障碍物的同步识别方法、系统与机器人

技术领域

本发明属于果实采摘机器人技术领域，尤其涉及一种用于果实采摘机器人在采摘过程的视觉识别系统，以及一种果实与障碍物的同步识别方法。

背景技术

由于果实的生长姿态随机性较大，生长环境复杂，传统的机械不能适应复杂的采摘环境，因此果实采摘通常由人工完成。据统计，果实采摘环节的生产成本占到全部生产成本的40％，极大压缩了产品的利润空间。随着老龄化社会的临近，社会生产中的人工成本日益攀升，研发一种果实采摘机器人代替人工进行采摘，不仅可以极大地节约生产成本，提高劳动效率，增加经济效益，同时也能完成柑橘产业的升级换代，对促进农业机械的智能化发展有较强的现实意义。

目前，国内外研究学者对采摘目标的识别和定位研究较多，而对采摘目标周围环境的识别研究较少。由于果实生长环境的复杂性，传统的机器视觉方法只能解决单一的识别任务，设计出一种同时兼顾果实识别和障碍物识别的检测方案在机器视觉领域具有一定的挑战性。主要问题在于机器视觉是通过统计采集图像的颜色空间，纹理数据等物理信息，得到目标物的特征。采用不同的图像处理技术和数据分类技术对特征信息进行分类从而完成目标物的分割识别。在自然环境下，障碍物的特征信息和采摘目标的特征信息相似度高，类别特征不明显，特征变化波动较大，导致很难通过机器视觉同时实现采摘目标和障碍物的分割识别。

发明内容

针对上述现有技术的不足，本发明提供一种基于CNN的果实与障碍物同步识别方法，解决现有技术中不能同时对果实与障碍物进行识别的技术问题，能够为障碍物的定位提供支持，能够为果实采摘机器人进行避障采摘作业提供指导。

为了解决上述技术问题，本发明采用了如下的技术方案：一种基于CNN 的果实与障碍物的同步识别方法，包括以下步骤：

步骤1：通过图像采集装置采集若干挂果果树的原始图像作为原始数据集；

步骤2：从原始数据集中选取若干原始图像进行目标物类型标记，目标物类型包括正常无遮挡果实与障碍类型，所述障碍类型包括树枝遮挡果实、树叶遮挡果实、轻微遮挡果实、果实相互遮挡与果树树干，并且为所选取的每幅原始图像上的每种目标物类型都生成对应的标记图片，从而使得每幅标记图片均标记有唯一的目标物类型；各目标物类型的定义分别如下：

正常无遮挡果实是指单果果实相对于图像采集装置的一面上没有障碍物；

果实相互遮挡是指2～5个果实相互重叠；

树枝遮挡果实是指果树的一、二级枝干对单果果实的遮挡；

果树树干是指果树的一、二级枝干；

树叶遮挡果实是指树叶遮挡面积与被遮挡单果果实拟合面积的比值大于等于1/3的树叶遮挡；

轻微遮挡果实是指树叶轻微遮挡单果果实、果柄枝条遮挡单果果实以及果柄枝条和树叶对单果果实的混合遮挡，且树叶轻微遮挡单果果实是指树叶遮挡面积与被遮挡单果果实拟合面积的比值小于1/3的树叶遮挡；

步骤3：将步骤2中的标记图片的集合作为目标物类型识别训练样本集，并且采用所述目标物类型识别训练样本集对障碍识别卷积神经网络进行训练；训练完成后的障碍识别卷积神经网络能够对目标物类型进行分类识别与定位；

步骤4：向训练完成后的障碍识别卷积神经网络输入待采摘果树图像，所述障碍识别卷积神经网络在待采摘果树图像上对目标物类型进行分类识别与定位。

进一步的，在进行目标物类型标记时，针对果树树干类型，将形状不规则的树干分割成形状规则的单元化四边形标记块；对于其余目标物类型，则采用多边形轮廓线拟合目标物轮廓线进行标记。

进一步的，所述障碍识别卷积神经网络在Mask RCNN卷积神经网络的基础上结合残差网络ResNet，即采用残差网络ResNet作为Mask RCNN的主干网络。

进一步的，训练障碍识别卷积神经网络的感兴趣区域提取层所采用的ROI 多任务损失函数如下：L＝L_cls+L_box+L_mask；其中，L_cls表示分类损失，L_box表示回归损失，L_mask表示分割损失。

进一步的，原始数据集中包括通过顺光、逆光以及侧光三种拍摄角度拍摄得到的挂果果树的原始图像。

进一步的，所述原始数据集由单种乔木果树的挂果果树的原始图像组成。

本发明还提供一种基于CNN的果实与障碍物的同步识别系统，包括用于实时采集待采摘果树图像的图像采集模块，还包括用于对待采摘果树图像中的目标物类型进行分类识别与定位的障碍识别卷积神经网络；所述障碍识别卷积神经网络采用目标物类型识别训练样本集进行有监督学习训练得到，所述目标物类型识别训练样本集包括若干标记图片，每幅标记图片均标记有唯一的目标物类型，所述目标物类型包括正常无遮挡果实、树枝遮挡果实、树叶遮挡果实、轻微遮挡果实、果实相互遮挡与果树树干。

本发明还提供一种果实采摘机器人，包括采摘机械臂与控制器，安装有本发明的基于CNN的果实与障碍物的同步识别系统，图像采集模块安装在果实采摘机器人的外壳上并与采摘机械臂位于同一侧面；障碍识别卷积神经网络配置在控制器内，并以图像采集模块采集到的待采摘果树图像作为输入，以目标物类型与目标物类型所在区域的位置坐标作为输出。

进一步的，所述控制器中还配置有采摘模式切换程序，用于根据障碍识别卷积神经网络识别出的目标物类型选择相应的采摘模式；并且，当目标物类型为正常无遮挡果实时，选择正常采摘模式；当目标物类型为树枝遮挡果实、树叶遮挡果实、轻微遮挡果实或果树树干时，选择避障采摘模式；当目标物类型为果实相互遮挡时，选择单果分割采摘模式。

与现有技术相比，本发明具有以下优点：

1、本发明考虑到自然环境的复杂性与果树生长姿态的随机性，在制作目标物类型识别训练样本集时，采用了单元化标记方法，不仅以正常无遮挡果实作为识别目标，还标记障碍物与果实之间的遮挡关系，即障碍类型，从而利用目标物类型识别训练样本集训练后的障碍识别卷积神经网络便能获得识别障碍的能力，即识别是否为障碍，以及障碍类型。本发明的识别方法避免了去分别提取障碍物与果实的特征信息来区分障碍物与果实，不仅免去了人工提取目标物特征信息的工作量，更重要的是突破了障碍物特征信息与果实特征信息相似度高对障碍识别的限制。

2、由于本发明识别的目标主要是障碍类型，即障碍物与果实之间的遮挡关系，那么自然能够在识别障碍的同时识别采摘目标，从而提高识别效率。

3、本发明考虑了光照变化对识别效果的影响，在采集原始数据集阶段，为了扩大训练样本的多样性，增强泛化性，满足多种条件下光照图像的采集，本发明选择顺光，逆光，侧光三种拍摄角度采集原始图像，解决传统方法不能在变光照的自然条件下正确识别目标物的关键问题。

4、在Mask RCNN的基础上结合ResNet-152来提高网络的识别准确率。采用MaskRCNN-152检测模型对测试数据集的障碍物综合识别准确率达到 85.12％，检测一幅图片平均运行时间为45ms，满足实时检测的需求。

5、训练时采用的ROI多任务损失函数中包括分割损失L_mask，L_mask为平均二进制交叉熵损失函数，在训练中只计算第单个掩膜上的L_mask以避免不同类之间掩膜损失的竞争。

6、本发明采用的Mask RCNN检测模型能够同时完成6种目标物类别的识别检测，包含了自然环境下果实分布的所有状态。同时对主要树干，非果柄枝干，树叶障碍物进行识别。将可正常采摘柑橘和非正常采摘柑橘进行分类，为障碍物的三维定位提供技术支持，以指导采摘机械臂的避障作业。

附图说明

图1是原始数据集采集阶段的拍摄角度示意图；

图2是图像采集模块的采集范围示意图；

图3是单果和多果在自然状态下的生长分布情况；

图4是6种障碍物遮挡类型示意图；

图5是标记掩码示意图；

图6是主干网络采用ResNet的Mask RCNN卷积神经网络示意图；

图7是训练特征层Anchor示意图；

图8是训练集Mask二值化掩码文件示意图；

图9是Mask RCNN与YOLOV3的部分检测效果对比图；

图10是原始图片；

图11是对原始图片的识别效果图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

本发明的基于CNN的果实与障碍物的同步识别方法与系统适用于乔木果树果实采摘过程的障碍识别，如柑橘、苹果、梨子或桃子等，原始数据集由柑橘果树、苹果果树、梨子果树或桃子果树中的一种挂果果树的原始图像组成，从而能够对应用于柑橘、苹果、梨子或桃子采摘过程的障碍识别，本具体实施方式仅针对柑橘采摘为例进行说明，并将本发明基于卷积神经网络(具体为Mask RCNN-50和Mask RCNN-152)的果实与障碍物的同步识别方法与基于YOLOV3的识别方法进行对比。

一种基于CNN的果实与障碍物的同步识别方法，包括以下步骤：

步骤1：通过图像采集装置采集若干挂果果树的原始图像作为原始数据集。采集数据图像的视觉平台主要包括BB2-08S2M/08S2C-60双目彩色相机，分辨率为1024×768。1394b采集卡及其套件、电脑主机等。操作系统为 ubuntu16.04，编译环境为QT5.0，Opencv3.2。样本采集来自重庆北碚金果园和重庆理工大学柑橘实验基地，采集时间分别为2016年12月25日和2017 年12月15日。

自然条件下光照的变化对采摘目标及障碍物的识别具有十分重要的影响。在采集图像阶段，为了扩大训练样本的多样性，增加泛化性，满足多种条件下光照图像的采集，本发明选择顺光，逆光，侧光三种拍摄角度进行采集，拍摄角度如图1所示。

柑橘采摘机器人在实际作业过程中，如2所示，采摘机械臂的作业空间为外径为780mm，记作D_max，内径为240mm，记作D_min的空心球体。采摘执行器的最大伸展尺寸为200mm，记作L_Act。双目相机以采摘机构的安装起始位置为标定零点，距地面的垂直安装高度为1000mm，根据采摘机构的采摘距离可知，图像采集的水平距离为：

L＝D(max,min)+L_Act；

由公式可知，图像采集模块的水平采集范围为：440mm-980mm。因此本发明将采集的相机固定在高度为1000mm的拍摄支架上，水平采集距离控制在440mm-980mm区间内。

果实相互遮挡是指2～5个果实相互重叠；

树枝遮挡果实是指果树的一、二级枝干对单果果实的遮挡；

果树树干是指果树的一、二级枝干；

值得说明的是乔木主干上的分枝为一级枝干，一级枝干上的分枝为二级枝干，二级枝干上的分枝为三级枝干，以此类推。

下面对训练集标记目标物的分类依据进行说明：

参考图3所示，对于正常无遮挡果实，可进行正常采摘；当树叶遮挡面积过大容易隐藏树叶后面的树枝，而树枝会对采摘机械臂的采摘作用造成严重损害，因此对树叶遮挡的目标不能简单定义为树叶遮挡类，树叶遮挡果实还还需进一步细化分类：设树叶遮挡面积为S_leaf，被遮挡柑橘拟合圆形面积为 S_citrus，二者之比为：P＝S_leaf/S_citrus；定义P≥1/3为树叶遮挡类，P<1/3为轻微遮挡果实类，如图3中b为轻微遮挡类，图c为树叶遮挡类。图3中d和e 均为树枝遮挡果实类，本发明将柑橘树硬度较高的一、二级枝干对柑橘产生遮挡的目标定义为树枝遮挡果实类，如d所示；将硬度较低，可塑性较强的果柄枝条产生遮挡的柑橘定义为轻微遮挡，如e所示。图f和g均为树枝树叶混合遮挡，根据树枝树叶硬度的不同，采摘机构进行避障的优先级也不同，硬度越大，避障优先级越高，因此采摘机构对树枝的避障优先级高于树叶。当树枝树叶同时对柑橘产生遮挡时，根据避障优先级高低原则，以树枝为主要分类依据对样本进行分类。例如f为果柄枝条和树叶的混合遮挡，本发明将其定义为轻微遮挡；g为一、二级枝干和树叶混合遮挡，本发明定义为树枝遮挡。

在多果遮挡类别中，h为无遮挡多果柑橘，j为树叶遮挡多果柑橘，k为果柄枝干遮挡多果柑橘，m为树叶和果柄枝干混合遮挡多果柑橘。由于多果柑橘的边界轮廓为不规则的相交圆，相较于单果的遮挡情况更为复杂。若采取单果遮挡类别中分类原则做进一步的细化分类，会对单果分类的特征提取造成干扰。为了保证单果遮挡类别在训练过程中特征提取的独立性，对多果柑橘不再做细化分类，将重叠数量为2-5个的柑橘定义为柑橘相互遮挡类。

本文使用labelme工具进行标记工作。由于柑橘树树干的生长姿态不规则，外轮廓形状各异，若采用常规的树干整体标记会造成卷积神经网络对形状特征提取不足，识别准确率降低。在进行目标物类型标记时，针对此问题提出网格化标记方法，针对果树树干类型，将形状不规则的树干分割成形状规则的单元化四边形标记块，以强化树干在训练网络中的特征，提高目标物的识别正确率。其他类别标记采用多边形轮廓线拟合目标物轮廓线，最大限度框选目标物。

为减小标记工作量，采用标签对6种目标物类型进行简化标记，正常无遮挡果实(Normal)、树枝遮挡果实(Branch Occluded)、树叶遮挡果实(Leaf Occluded)、轻微遮挡果实(Slightly Occluded)、果实相互遮挡(Overlapping)与果树树干(Main Branch)，分别简化为NM、BO、LO、OL、SO与MB，参考图 4所示，除了NM类识别后能够正常进行采摘外，BO、LO、OL、SO均不能正常采摘，其中BO、LO、SO需要避开对果实产生遮挡的枝叶障碍物，OL 需要对重叠柑橘进行单果分割处理后才能进行正常采摘。MB类是采摘机构采摘路径规划的主要障碍物，需要重点识别。

另外，采集图像包含的采摘目标尺度不统一，基于深度学习的目标检测模型对多尺度目标的识别有一定的局限性，因此需要规范化图像中标记目标的尺度大小。本发明采用李扬设计的采摘机器人采摘目标定位系统对标记目标进行尺度范围的确定。由于采摘机构的采摘范围为480mm-780mm，本发明对该采摘范围内的目标进行保留标记，尺度在480mm-780mm之外的柑橘目标不进行标记训练。

步骤3：将步骤2中的标记图片的集合作为目标物类型识别训练样本集，并且采用所述目标物类型识别训练样本集对障碍识别卷积神经网络进行训练；训练完成后的障碍识别卷积神经网络能够对目标物类型进行分类识别与定位。本具体实施方式中，所述障碍识别卷积神经网络在Mask RCNN卷积神经网络的基础上结合残差网络ResNet，即采用残差网络ResNet作为Mask RCNN的主干网络，所述残差网络为包含16个残差模块的ResNet50或包含 50个残差模块的ResNet152，其简化结构如图5所示。

由于mask-RCNN是对Faster-RCNN网络增加mask分支网络，以实现像素级分割识别。因此需要对标记的数据集进行掩码处理，将labelme形成的8 位掩码数据处理成二值化掩码数据集以构成训练集，掩码处理效果如图6所示。YOLOV3只有分类和定位任务，没有分割任务，因此YOLOV3的标记数据集不再进行掩码处理，可直接将标记数据作为训练集使用。本实验训练集标记图片从300张图片中随机抽取250张图片进行标记，标记图片包含NM 类共1461张，BO类812张，LO类648张，OL类836张，SO类1057张， MB类3106张。非标记的50张图片作为测试集用于测试模型的识别性能。

Mask RCNN是基于RCNN系列的Faster RCNN基础上添加一个mask分支实现分割任务，定义mask分支输出ROI的维度为Km²，K为对应类别个数， m为分辨尺度，定位和分类任务仍采用Faster RCNN原本的网络结构，采用 ResNet和特征金字塔网络(FPN)来融合提取多层特征。针对精确定位任务，采用ROIAlign替代Faster RCNN中的RoiPooling，即引入双线性差值替代原来的最大值池化，优化ROI输入和FCN输出特征之间的像素对应关系，极大提高像素级的分割正确率。

理论上，训练网络的层数越深，模型的识别准确率越高，但简单的层数叠加会导致训练网络的梯度弥散或爆炸，ResNet结构针对此问题应运而生。一个层数较深的尾部网络层结构是恒等映射，它将模型简化为一个层数简单的网络结构。ResNet的思想是将学习拟合恒等映射函数H(x)＝X转化为学习残差函数F(X)＝H(X)-X，使得拟合操作更容易[13]。本文结合两个ResNet结构作为Mask RCNN的主干网络进行障碍物识别检测实验，分别是ResNet50和 ResNet152。其中ResNet50包含16个残差模块，ResNet152包含50个残差模块，其网络层结构分别如表1，表2所示。

表1.ResNet-50网络结构

表2.ResNet-50网络结构

本具体实施方式在Ubuntu16.04系统中配置的TensorFlow平台下实现 Mask R-CNN的训练和测试，使用GTX1080加速训练。正负训练样本集按3:1 分配，训练参数中的学习率为0.001，权重衰减为0.0001，batch_size为1，IOU 阈值为0.7，每张图片的ROI区域为32个，每一步的迭代为100次，总共训练80次，迭代训练8000次。训练障碍识别卷积神经网络的感兴趣区域提取层所采用的ROI多任务损失函数如下：L＝L_cls+L_box+L_mask；其中，L_cls表示分类损失，L_box表示回归损失，L_mask表示分割损失。其中，L_cls和L_box同Faster RCNN 中的定义。对掩膜中的每个像素应用sigmoid，并定义L_mask为平均二进制交叉熵损失函数，在训练中只计算第K个掩膜上的L_mask以避免不同类之间掩膜损失的竞争。

Anchors是Faster R-CNN结构中提出的初始特征提取方法^[14]。检测模型在运行过程中有多层特征匹配层，同时也会有非常多的Anchors，本文设计的 anchor尺度为4,8,16,32,64，配置比例为1/2,1,2，stride为1。训练特征层Anchor 如图7所示。

标记形成的mask二值化掩码训练集按照6个标记类别分类，标记的关键点坐标值和类别标签送入训练网络进行训练。Mask的坐标信息提供计算定位 bbox坐标，目标物信息提供识别分类数据。模型的权重文件迁移使用Mask RCNN利用COCO2012数据集训练形成的预训练权重文件。训练集Mask二值化掩码文件如图8所示。

YOLOV3将整幅图像用作输入，使用二元交叉熵损失函数进行类别预测。将一幅图分割成7*7大小的网格，若某个格子中包含检测目标，则该格子负责检测该目标，并预测边缘框和物体置信度。边缘框的信息为相对该格子位置的偏移宽度和高度，置信度反映是否包含物体以及包含物体情况下的准确性。YOLOV3使用均方和误差作为loss函数，由坐标误差，IOU误差和分类误差组成：使用Darknet53作为基础网络，该网络与Resnet有相似性，能够避免深层网络的梯度弥散和爆炸。采用losgistic对边框进行预测：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

b_w＝p_we^tw

b_h＝p_he^th

其中Cx，Cy是网格的坐标偏移量，Pw，Ph是预设的anchor框的边长，最终得到的边框坐标值是bx，by，bw，bh，而网络学习目标是tx，ty，tw， th。通过对每种尺度预测多个边框来提高多尺度目标预测准确率。Yolov3网络结构如表3所示：

表3.YOLOV3网络结构

YOLOV3训练参数中学习率为0.001，动量参数为0.9，权重衰减为0.0005，批处理大小为16，训练迭代50000次。

训练完成后，采用测试集对障碍识别卷积神经网络进行测试，本具体实施方式中的测试集包含50张图片，其中顺光18张，逆光16张，侧光16张。，含有NM类共217张，BO类164张，LO类141张，OL类163张，SO类206 张，MB类613张。

IOU(Intersection-over-Union)即交并比，是目标检测中测量特定数据集中检测相应物体准确度的一个标准。IOU表示产生的候选框(candidate bound) 与原标记框(ground truth bound)的重叠度，也就是二者交集与并集的比值，若候选框与标记框的相似度越高该值就越大，最理想情况是完全重叠，IOU 值为1。

本发明针对柑橘采摘机器人在采摘过程中遇到的障碍物类型进行识别，分类的准确率是障碍物识别的关键。因此将模型对目标物的分类准确率作为性能指标，使用IOU值作为模型评价标准，对三个检测模型的识别准确率进行统计，定义IOU大于0.5为正确识别。部分识别检测效果如图9所示。基于Mask RCNN整体识别效果如图对比图10与图11所示，图10为原图，图 11是在原图10上的障碍类型识别效果，从图中可以看出对各种障碍类型进行了分类识别，并确定了各种障碍类型在图中出现的位置，即实现了对障碍类型的定位。三个检测模型的识别正确率如表4所示。

表4.三种识别模型的识别结果统计

Classes names	Mask RCNN-50	Mask RCNN-152	YoloV3
				NM(Normal)	0.9367	0.9535	0.8387
LO(Leaf Occluded)	0.4964	0.8400	0.5752
				BO(Branch Occluded)	0.7000	0.7733	0.7333
SO(Slightly Occluded)	0.4795	0.8347	0.8278
				OL(Overlapping)	0.9479	0.9786	0.8517
MB(MainBranch)	0.8319	0.8296	0.7857

由于YOLOV3检测模型没有实现分割任务，本文只对三种检测模型的分类和定位性能进行评估。从图9部分效果图可以看出YOLOV3的定位框正确率低于Mask RCNN定位框正确率，Mask RCNN检测结果的定位框是最大化外接目标物的外轮廓，而YOLOV3部分检测框小于目标物的最大外轮廓。从表4的识别结果统计数据中可知，三个检测模型对正常无遮挡柑橘(NM)类、重叠遮挡(OL)类和果树树干(MB)类的识别率最高，其原因是这三类目标物均无遮挡，目标区域特征唯一，没有噪声干扰，外形轮廓特征明显，训练网络特征提取容易。树叶遮挡(LO)类，树枝遮挡(BO)类和轻微遮挡(SO) 类识别率较低，原因在于这三类存在干扰噪声，其中树枝树叶的特征相似度高，相互干扰容易造成误识别。三个检测模型中，MaskRCNN-152的综合检测准确率最高，达到86.83％，其中NM类识别准确率为95.35％，OL类为97.86％，均高于其他两个检测模型。6类检测目标物中，除了NM类能进行正常采摘外，其余类均视为障碍物类别，采摘过程中应尽量避开。表4中，MaskRCNN-152的障碍物综合识别率为85.12％，MaskRCNN-50的障碍物综合识别率为69.11％，YOLOV3的障碍物综合识别率为75.47％。其中 MaskRCNN-50对主要树干的检测正确率高于MaskRCNN-152 0.23％，而YOLOV3和MaskRCNN-50对LO类的识别率均比较低，原因在于这两个模型对轻微遮挡类和主要树干遮挡类的抗干扰能力低，造成LO类的误识别率较高。三个检测模型综合来看，MaskRCNN-152的识别能力最优，识别准确率最高。

步骤4：向训练完成(训练完成是指经过训练并通过测试，即IOU值大于0.5)后的障碍识别卷积神经网络输入待采摘果树图像，所述障碍识别卷积神经网络在待采摘果树图像上对目标物类型进行分类识别与定位。

一种基于CNN的果实与障碍物的同步识别系统，包括用于实时采集待采摘果树图像的图像采集模块，还包括用于对待采摘果树图像中的目标物类型进行分类识别与定位的障碍识别卷积神经网络；所述障碍识别卷积神经网络采用目标物类型识别训练样本集进行有监督学习训练得到，所述目标物类型识别训练样本集包括若干标记图片，每幅标记图片均标记有唯一的目标物类型，所述目标物类型包括正常无遮挡果实、树枝遮挡果实、树叶遮挡果实、轻微遮挡果实、果实相互遮挡与果树树干。

一种果实采摘机器人，包括采摘机械臂与控制器，安装有本具体实施方式的基于卷积神经网络的果实与障碍物的同步识别系统，图像采集模块安装在果实采摘机器人的外壳上并与采摘机械臂位于同一侧面；障碍识别卷积神经网络配置在控制器内，并以图像采集模块采集到的待采摘果树图像作为输入，以目标物类型与目标物类型所在区域的位置坐标作为输出。

本具体实施方式中，所述控制器中还配置有采摘模式切换程序，用于根据障碍识别卷积神经网络识别出的目标物类型选择相应的采摘模式；并且，当目标物类型为正常无遮挡果实时，选择正常采摘模式；当目标物类型为树枝遮挡果实、树叶遮挡果实、轻微遮挡果实或果树树干时，选择避障采摘模式；当目标物类型为果实相互遮挡时，选择单果分割采摘模式。

Claims

1.一种基于CNN的果实与障碍物的同步识别方法，其特征在于：包括以下步骤：

果实相互遮挡是指2～5个果实相互重叠；

树枝遮挡果实是指果树的一、二级枝干对单果果实的遮挡；

果树树干是指果树的一、二级枝干；

2.根据权利要求1所述的基于CNN的果实与障碍物的同步识别方法，其特征在于：在进行目标物类型标记时，针对果树树干类型，将形状不规则的树干分割成形状规则的单元化四边形标记块；对于其余目标物类型，则采用多边形轮廓线拟合目标物轮廓线进行标记。

3.根据权利要求1所述的基于CNN的果实与障碍物的同步识别方法，其特征在于：所述障碍识别卷积神经网络在Mask RCNN卷积神经网络的基础上结合残差网络ResNet，即采用残差网络ResNet作为Mask RCNN的主干网络。

4.根据权利要求3所述的基于CNN的果实与障碍物的同步识别方法，其特征在于：所述残差网络为包含16个残差模块的ResNet50或包含50个残差模块的ResNet152。

5.根据权利要求3所述的基于CNN的果实与障碍物的同步识别方法，其特征在于：训练障碍识别卷积神经网络的感兴趣区域提取层所采用的ROI多任务损失函数如下：L＝L_cls+L_box+L_mask；其中，L_cls表示分类损失，L_box表示回归损失，L_mask表示分割损失。

6.根据权利要求1所述的基于CNN的果实与障碍物的同步识别方法，其特征在于：原始数据集中包括通过顺光、逆光以及侧光三种拍摄角度拍摄得到的挂果果树的原始图像。

7.根据权利要求1所述的基于CNN的果实与障碍物的同步识别方法，其特征在于：所述原始数据集由单种乔木果树的挂果果树的原始图像组成。

8.一种基于CNN的果实与障碍物的同步识别系统，包括用于实时采集待采摘果树图像的图像采集模块，其特征在于：还包括用于对待采摘果树图像中的目标物类型进行分类识别与定位的障碍识别卷积神经网络；所述障碍识别卷积神经网络采用目标物类型识别训练样本集进行有监督学习训练得到，所述目标物类型识别训练样本集包括若干标记图片，每幅标记图片均标记有唯一的目标物类型，所述目标物类型包括正常无遮挡果实、树枝遮挡果实、树叶遮挡果实、轻微遮挡果实、果实相互遮挡与果树树干。

9.一种果实采摘机器人，包括采摘机械臂与控制器，其特征在于：安装有如权利要求8所述的基于CNN的果实与障碍物的同步识别系统，图像采集模块安装在果实采摘机器人的外壳上并与采摘机械臂位于同一侧面；障碍识别卷积神经网络配置在控制器内，并以图像采集模块采集到的待采摘果树图像作为输入，以目标物类型与目标物类型所在区域的位置坐标作为输出。

10.根据权利要求9所述的果实采摘机器人，其特征在于：所述控制器中还配置有采摘模式切换程序，用于根据障碍识别卷积神经网络识别出的目标物类型选择相应的采摘模式；并且，当目标物类型为正常无遮挡果实时，选择正常采摘模式；当目标物类型为树枝遮挡果实、树叶遮挡果实、轻微遮挡果实或果树树干时，选择避障采摘模式；当目标物类型为果实相互遮挡时，选择单果分割采摘模式。