CN112990103B

CN112990103B - 一种基于机器视觉的串采二次定位方法

Info

Publication number: CN112990103B
Application number: CN202110409844.1A
Authority: CN
Inventors: 王蓬勃; 颜嘉雯; 周小亮; 耿长兴; 孙立宁
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2023-03-24
Anticipated expiration: 2041-04-16
Also published as: CN112990103A

Abstract

本发明涉及一种基于机器视觉的串采二次定位方法，包括：先将待处理的番茄果实串图像输入基于YOLOv4网络的成熟番茄果实串识别模型中，以判断待处理的番茄果实串图像中是否存在成熟的番茄果实串，若存在则由上述识别模型从待处理的番茄果实串的图像中提取感兴趣区域图像并输出；判断感兴趣区域图像是否超出相应的图像尺寸范围，若不超出，则将感兴趣区域图像输入至基于Mask R‑CNN网络的成熟番茄果梗和果实串的分割模型，根据其输出结果定位出待处理的番茄果实串图像的采摘点，由采摘机器人根据采摘点完成采摘。本发明能够有效识别成熟番茄果实串并精确定位番茄果实串与果梗上的采摘点，能够实现高精度无损采摘。

Description

一种基于机器视觉的串采二次定位方法

技术领域

本发明涉及机器人采摘技术领域，尤其是指一种基于机器视觉的串采二次定位方法。

背景技术

采摘机器人为农业智能化的关键一环，在番茄串采摘机器人进行采摘工作时，识别成熟的果实串、定位果梗采摘点是番茄采摘作业中的重要一环，采摘时需要考虑刀片空间大小以保护番茄果实串和上方枝干不破损，找到合适的采摘点才能做到无损采摘，在果实识别与采摘点定位方面，目前主要是用传统机器视觉或者深度神经网络方法。

经过申请人海量检索，发现现有技术的采摘点识别如公开号为CN111666883A公开一种葡萄采摘机器人目标识别及果梗夹切点定位方法，采用Mask R-CNN对葡萄、果梗、背景三类mask进行识别，通过沿果梗直线判断是否为完整番茄串，再取果梗最低端往下延伸垂直线段，取线段中点为采摘点；公开号为CN109902538A公开的一种基于机器视觉的采摘，采用图像预处理，多尺度形态学的边缘处理、目标边界的提取以及质心的提取来预计采摘点的位置。

现有的技术中未考虑到果实重量较小，果梗存在横着生长的现象，也未考虑到实际果园中，果实串是多垄种植，存在前后背景的干扰，后垄果实串对当前识别的果实串存在干扰，有可能出现误识别和误采摘，并不能适用于实际生产过程。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的采摘定位方法易出现误识别和误采摘的问题。

为解决上述技术问题，本发明提供了一种基于机器视觉的串采二次定位方法，包括以下步骤：

S1、将待处理的番茄果实串图像输入基于YOLOv4网络的成熟番茄果实串识别模型中；

S2、由所述基于YOLOv4网络的成熟番茄果实串识别模型判断待处理的番茄果实串图像中是否存在成熟的番茄果实串，若判断为是，则执行步骤S3，否则，不做处理；

S3、由所述基于YOLOv4网络的成熟番茄果实串识别模型从待处理的番茄果实串的图像中提取感兴趣区域图像并输出，所述感应区区域图像包含成熟番茄果梗和果实串，并执行步骤S4；

S4、判断所述感兴趣区域图像是否超出步骤S1中待处理的番茄果实串图像的尺寸范围，若不超出，则执行步骤S5，若超出，则不进行处理；

S5、将所述感兴趣区域图像输入至基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型；

S6、根据基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型的输出结果定位出所述感兴趣区域图像中的采摘点，并根据定位出的所述感兴趣区域图像中的采摘点获取步骤S1中待处理的番茄果实串图像的采摘点；

S7、由采摘机器人根据待处理的番茄果实串图像的采摘点完成采摘。

在其中一个实施例中：所述基于YOLOv4网络的成熟番茄果实串识别模型的建立方法包括：

采集番茄果实串图像，根据采集到番茄果实串图像建立第一图像数据集，并建立基于YOLOv4网络的成熟番茄果实串初始识别模型，利用所述第一图像数据集对该初始识别模型进行训练，训练完成后得到基于YOLOv4网络的成熟番茄果实串识别模型；

在其中一个实施例中：建立所述第一图像数据集时需进行目标框选标注，所述目标框选标注仅标注红色成熟番茄果实串。

在其中一个实施例中：基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型的建立方法包括：由所述基于YOLOv4网络的成熟番茄果实串识别模型从番茄果实串图像中提取出感兴趣区域图像，以提取出的感兴趣区域图像构建第二图像数据集，并建立Mask R-CNN网络的成熟番茄果梗和果实串的初始分割模型，利用所述第二图像数据集对该初始分割模型进行训练，训练完成后得到基于YOLOv4网络的成熟番茄果实串识别模型。

在其中一个实施例中：建立所述第二图像数据集时需对果梗和果实串进行实例分割标注。

在其中一个实施例中：采集番茄果实串图像时需采集不同场景、不同时间、不同光照和不同转色期的番茄果实串图像。

在其中一个实施例中：由所述基于YOLOv4网络的成熟番茄果实串识别模型从待处理的番茄果实串的图像中提取感兴趣区域图像的方法为：根据待处理的番茄果实串图像中成熟番茄果梗和果实串的姿态分布情况进行扩展框选，直至包含成熟番茄的果梗和果实串而得到所述感兴趣区域图像。

在其中一个实施例中：将根据待处理的番茄果实串图像中成熟番茄果梗和果实串的姿态分布情况进行扩展框选时的扩展框选宽度记为c，高度记为d，待处理的番茄果实串图像大小记为a*b，a表示图像宽度，b表示图像高度，a、b、c、d的单位均为像素，待处理的番茄果实串图像所在的二维直角坐标系记为第一坐标系,所述第一坐标系包括相垂直的X轴和Y轴；

则所述步骤S4中判断所述感兴趣区域图像是否超出步骤S1中待处理的番茄果实串图像的尺寸范围的方法为：将所述基于YOLOv4网络的成熟番茄果实串识别模型的输出框的中心点位置记为(X0，Y0)，输出框宽度为w，高度为h，则若在X轴上有(X0-w/2-c)＞0且(X0+w/2+c)<a，且在Y轴上有(Y0-h/2-d)＞0，则所述感兴趣区域图像不超出步骤S1中待处理的番茄果实串图像的尺寸范围。

在其中一个实施例中：所述步骤S6具体包括以下步骤：

S61、将感兴趣区域图像所在的二维直角坐标系记为第二坐标系，所述第二坐标系包括相垂直的X轴和Y轴，则所述感兴趣区域图像中的采摘点在第二坐标系中的坐标记为(X_min，Y_min)，X_nim表示感兴趣区域图像的掩膜区域在第二坐标系的X轴上的平均值，Y_min为感兴趣区域图像的掩膜区域在在第二坐标系的Y轴上的最小值；

S62、所述基于YOLOv4网络的成熟番茄果实串识别模型的输出框在第一坐标系中的坐标记为(X_A,Y_A),通过像素运算得到所述感兴趣区域图像的原点在所述第一坐标系中上的位置为(X_A-c,Y_A-d)，则步骤S1中待处理的番茄果实串图像的采摘点在第一坐标系中的位置则为(X_i,Y_i)，其中，X_i＝X_A-c+x_min，Y_i＝Y_A-d+y_min。

在其中一个实施例中：所述待处理的番茄果实串图像由相机距离番茄果实串40-60cm拍摄所得。

本发明的上述技术方案相比现有技术具有以下优点：

1、运用深层神经网络YOLOv4，实现在不同情况的温室环境下对成熟番茄果实串的识别，解决温室环境下光线变强、遮挡、后垄番茄果实串干扰、同垄绿色番茄果实串难以排除的识别难题。

2、加入提取包含成熟番茄果梗和果实串的感兴趣区域的算法环节，缩小了分割模型的感受野，实现了对果梗的精准分割。

3、运用深层神经网络Mask R-CNN，实现在不同情况的温室环境下对成熟番茄果梗和果实串的识别，充分利用果梗位于果实串上方位置的特点，避免后垄主茎、果实串的干扰，提高了果梗识别的成功率。

4、将YOLOv4网络的输出作为Mask R-CNN网络的输入，将两个神经网络进行联合使用，发挥了这两个算法的优势，并且实现了端到端的输出，可动态识别成熟番茄果梗的采摘点。

5、本方法识别和定位的速度能达到0.8-1fps/s，采摘点识别精准，能满足番茄果实串采摘机器人的视觉技术要求。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明实施例中基于机器视觉的串采二次定位方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参阅图1，本实施例公开了一种基于机器视觉的串采二次定位方法，包括以下步骤：

S6、根据基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型的输出结果定位出所述感兴趣区域图像中的采摘点，并根据定位出的感兴趣区域图像中的采摘点获取步骤S1中待处理的番茄果实串图像的采摘点；

其中，基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型用于对感兴趣区域图像进行分割处理，以分割出感兴趣区域图像中的成熟番茄果梗和果实串，使其与感兴趣区域图像的背景区分开。

在其中一个实施方式中，基于YOLOv4网络的成熟番茄果实串识别模型的建立方法包括：

在其中一个实施方式中，建立第一图像数据集时需进行目标框选标注，目标框选标注仅标注红色成熟番茄果实串。例如，可使用labelImg进行目标框选标注，仅标注红色成熟番茄果实串。

在其中一个实施方式中，基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型的建立方法包括：由基于YOLOv4网络的成熟番茄果实串识别模型从番茄果实串图像中提取出感兴趣区域图像，以提取出的感兴趣区域图像构建第二图像数据集，并建立Mask R-CNN网络的成熟番茄果梗和果实串的初始分割模型，利用第二图像数据集对该初始分割模型进行训练，训练完成后得到基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型。

在其中一个实施方式中，建立第二图像数据集时需对果梗和果实串进行实例分割标注。例如，可使用labelme进行果梗和果实串的实例分割标注，以使得果梗和果实串所在整体和图像背景区分开。

在其中一个实施方式中，采集番茄果实串图像时需采集不同场景、不同时间、不同光照和不同转色期的番茄果实串图像。

在其中一个实施方式中，第一图像数据集中的番茄果实串图像以垄数为单位均匀分布。

为便于利用第一图像数据集对基于YOLOv4网络的成熟番茄果实串初始识别模型进行训练，还可以对该图像数据集按照一定比例进行切分，例如，切分为训练集、验证集和测试集，用于训练YOLOv4网络。

在其中一种实施方式中，为了进一步提高模型的泛化能力和鲁棒性，可对第一图像数据集进行数据增强，增强方式由Mosaic增强转化为Cutmix增强方式。

在其中一个实施方式中，由基于YOLOv4网络的成熟番茄果实串识别模型从待处理的番茄果实串的图像中提取感兴趣区域图像的方法为：根据待处理的番茄果实串图像中成熟番茄果梗和果实串的姿态分布情况进行扩展框选，直至框选住包含成熟番茄的果梗和果实串而得到感兴趣区域图像。比如，可以将基于YOLOv4网络的成熟番茄果实串识别模型的输出框分别向左向右扩展c像素，向上扩展d像素以包含成熟番茄的果梗和果实串，例如，图像像素尺寸为1280*720时，将YOLOv4网络的输出框结果分别向左向右扩展40像素，向上扩展60像素，使得包含果梗和果实串的感兴趣区域能够被输出框选中。

在其中一个实施方式中，将根据待处理的番茄果实串图像中成熟番茄果梗和果实串的姿态分布情况进行扩展框选时的扩展框选宽度记为c，高度记为d，待处理的番茄果实串图像大小记为a*b，a表示图像宽度，b表示图像高度，a、b、c、d的单位均为像素，待处理的番茄果实串图像所在的二维直角坐标系记为第一坐标系,所述第一坐标系包括相垂直的X轴和Y轴；

则步骤S4中判断感兴趣区域图像是否超出步骤S1中待处理的番茄果实串图像的尺寸范围的方法为：将基于YOLOv4网络的成熟番茄果实串识别模型的输出框的中心点位置记为(X₀，Y₀)，输出框宽度为w，高度为h，则若在X轴上有(X₀-w/2-c)＞0且(X₀+w/2+c)<a，且在Y轴上有(Y₀-h/2-d)＞0，则感兴趣区域图像不超出步骤S1中待处理的番茄果实串图像的尺寸范围。

例如，待处理的番茄果实串图像大小记为a*b，其中，a＝1280，b＝720，且有c＝40，d＝60，在X轴上有(X₀-w/2-40)＞0且(X₀+w/2+40)<a，在Y轴上有(Y₀-h/2-60)＞0，则感兴趣区域在步骤S1中待处理的番茄果实串图像的尺寸范围内。

在其中一个实施方式中，步骤S6具体包括以下步骤：

S61、将感兴趣区域图像所在的二维直角坐标系记为第二坐标系，第二坐标系包括相垂直的X轴和Y轴，则感兴趣区域图像中的采摘点在第二坐标系中的坐标记为(X_min，Y_min)，X_nim表示感兴趣区域图像的掩膜(mask)区域在第二坐标系的X轴上的平均值，Y_min为感兴趣区域图像的掩膜(mask)区域在第二坐标系的Y轴上的最小值；例如，以感兴趣区域图像的左上角为原点建立第二坐标系，以原点水平向右为第二坐标系的x轴正方向，以原点竖直向下为y轴正方向。

S62、基于YOLOv4网络的成熟番茄果实串识别模型的输出框在第一坐标系中的坐标记为(X_A,Y_A),通过像素运算得到所述感兴趣区域图像的原点在第一坐标系中上的位置为(X_A-c,Y_A-d)，则步骤S1中待处理的番茄果实串图像的采摘点在第一坐标系中的位置则为(X_i,Y_i)，其中，X_i＝X_A-c+x_min，Y_i＝Y_A-d+y_min。例如，以待处理的番茄果实串图像的左上角为原点建立第一坐标系，以原点水平向右为第一坐标系的X轴正方向，以原点竖直向下为Y轴正方向。

在其中一个实施方式中，为实现多个采摘点的同时输出：可建立ROI文件夹，当基于YOLOv4网络的成熟番茄果实串识别模型检测到目标时，将感兴趣区域图像存入ROI文件夹中，且在通过Mask R-CNN分割完图像点而确定出采摘点在第二坐标系中的位置后，对该位置坐标进行存储，并通过采摘点运算，在待处理的番茄果实串图像(原图)中画圆显示采摘点的坐标点。

在其中一个实施方式中，待处理的番茄果实串图像由相机距离番茄果实串40-60cm拍摄所得。

在其中一个实施方式中，根据上述基于机器视觉的串采二次定位方法可构建出YOLOv4与Mask R-CNN相结合的端到端的实时检测平台，以实时获取待处理的番茄果实串图像的采摘点信息，以供采摘机器人完成采摘动作。使用上述实时检测平台时，只需在配置好兼容环境后，在平台中调用两个网络的最佳模型权重，即可对成熟番茄果实串采摘点实时识别。

在其中一种实施方式中，基于YOLOv4网络的成熟番茄果实串识别模型网络包括输入图片、主干神经网络、Neck、YOLO head，其输出为成熟番茄果实串，例如，主干神经网络为CSPDarknet53，Neck为SPP+PAN。

在其中一个实施方式中，基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型包括主干神经网络、区域推荐网络和三分支输出，输出类别设置为成熟番茄果梗和果实串。例如，主干神经网络为Resnet50为最佳选择。

下面举例说明本发明的工作原理：整个方法是在离线情况下进行分段训练，训练基于YOLOv4网络的成熟番茄果实串初始识别模型时，先用深度相机RealSense D435i采集温室内不同场景下的番茄果实串图像，使用labelImg标注出成熟番茄果实串，建立第一图像数据集，保证不同场景下的番茄果实串图像均匀分布到数据集中，将第一图像数据集按照一定比例切分为训练集、验证集和测试集，利用部署好的实验环境在训练集上训练初始识别模型，利用验证集验证模型损失值，反复调参训练得到最佳的基于YOLOv4网络的成熟番茄果实串初始识别模型，可用测试集对该模型进行模型性能评估；对基于Mask R-CNN网络的成熟番茄果梗和果实串的初始分割模型进行训练时，利用基于YOLOv4网络的成熟番茄果实串初始识别模型提取出感兴趣区域图像，对不超过第一图像数据集中相应图像(原图)的尺寸范围的感兴趣区域图像使用labelme对图像中的番茄果梗与果实串进行分割标注，将标注后的图像存入ROI文件夹中作为第二图像数据集，将第二图像数据集按照一定比例切分为训练集、验证集和测试集，利用部署好的实验环境在训练集上训练基于Mask R-CNN网络的成熟番茄果梗和果实串的初始分割模型，利用验证集验证模型失值，反复调参训练得到最佳的基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型，可用测试集对该模型进行模型性能评估。具体使用时，采用实时在线的方式，建立好YOLOv4网络与Mask R-CNN网络相结合的端到端的实时检测平台，配置好兼容的环境配置，并在平台中分别放置最佳YOLOv4网络模型的权重参数和最佳Mask R-CNN网络模型的权重参数，相机实时拍取番茄果实串图像，基于YOLOv4网络的成熟番茄果实串识别模型识别该番茄果实串是否为红色的成熟番茄果实串，若成熟则输出框框选出成熟番茄果实串，并得到包含成熟番茄果梗和果实串的感兴趣区域图像，并将相应图像存入ROI文件夹中，利用基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型读取ROI文件夹中的图像，分割出成熟番茄果梗和果实串，进一步计算出采摘点，采摘机器人根据该采摘点驱动机器臂进行采摘，待机器臂完成采摘动作时，再由相机取下一帧图片，直至所有成熟番茄果实串采摘结束。

通过上述实施例的采摘定位方法对909串番茄进行采摘测试，其识别成功率可提高至90.2％。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于机器视觉的串采二次定位方法，其特征在于：包括以下步骤：

S3、由所述基于YOLOv4网络的成熟番茄果实串识别模型从待处理的番茄果实串的图像中提取感兴趣区域图像并输出，所述感应趣区域图像包含成熟番茄果梗和果实串，并执行步骤S4；

S7、由采摘机器人根据待处理的番茄果实串图像的采摘点完成采摘；

所述基于YOLOv4网络的成熟番茄果实串识别模型的建立方法包括：

基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型的建立方法包括：由所述基于YOLOv4网络的成熟番茄果实串识别模型从番茄果实串图像中提取出感兴趣区域图像，以提取出的感兴趣区域图像构建第二图像数据集，并建立Mask R-CNN网络的成熟番茄果梗和果实串的初始分割模型，利用所述第二图像数据集对该初始分割模型进行训练，训练完成后得到基于Mask R-CNN网络的成熟番茄果梗和果实串的分割模型。

2.根据权利要求1所述的基于机器视觉的串采二次定位方法，其特征在于：建立所述第一图像数据集时需进行目标框选标注，所述目标框选标注仅标注红色成熟番茄果实串。

3.根据权利要求1所述的基于机器视觉的串采二次定位方法，其特征在于：建立所述第二图像数据集时需对果梗和果实串进行实例分割标注。

4.根据权利要求1所述的基于机器视觉的串采二次定位方法，其特征在于：采集番茄果实串图像时需采集不同场景、不同时间、不同光照和不同转色期的番茄果实串图像。

5.根据权利要求1所述的基于机器视觉的串采二次定位方法，其特征在于：由所述基于YOLOv4网络的成熟番茄果实串识别模型从待处理的番茄果实串的图像中提取感兴趣区域图像的方法为：根据待处理的番茄果实串图像中成熟番茄果梗和果实串的姿态分布情况进行扩展框选，直至包含成熟番茄的果梗和果实串而得到所述感兴趣区域图像。

6.根据权利要求5所述的基于机器视觉的串采二次定位方法，其特征在于：

将根据待处理的番茄果实串图像中成熟番茄果梗和果实串的姿态分布情况进行扩展框选时的扩展框选宽度记为c，高度记为d，待处理的番茄果实串图像大小记为a*b，a表示图像宽度，b表示图像高度，a、b、c、d的单位均为像素，待处理的番茄果实串图像所在的二维直角坐标系记为第一坐标系,所述第一坐标系包括相垂直的X轴和Y轴；

7.根据权利要求6所述的基于机器视觉的串采二次定位方法，其特征在于：所述步骤S6具体包括以下步骤：

S61、将感兴趣区域图像所在的二维直角坐标系记为第二坐标系，所述第二坐标系包括相垂直的X轴和Y轴，则所述感兴趣区域图像中的采摘点在第二坐标系中的坐标记为(X_min，Y_min)，X_min表示感兴趣区域图像的掩膜区域在第二坐标系的X轴上的平均值，Y_min为感兴趣区域图像的掩膜区域在第二坐标系的Y轴上的最小值；

8.根据权利要求1所述的基于机器视觉的串采二次定位方法，其特征在于：所述待处理的番茄果实串图像由相机距离番茄果实串40-60cm拍摄所得。