CN112529948A

CN112529948A - 一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法

Info

Publication number: CN112529948A
Application number: CN202011573075.0A
Authority: CN
Inventors: 胡春华; 于涛; 谢宇宁
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-19

Abstract

本发明公开了一种基于Mask R‑CNN与3维球体拟合的成熟石榴定位方法，涉及农业机器人水果采摘定位领域，水果快速准确定位是采摘机器人实现准确采摘的前提。本发明采用Kinect V2.0采集石榴彩色图像RGB及深度图像D，首先对采集的彩色图像RGB采用Mask R‑CNN快速定位到成熟石榴的图片位置，然后根据成熟石榴的RGB图片分割出对应的深度图片，采用相机标定参数与旋转矩阵进行三维点云重建，最后对单个的成熟石榴点云数据采用基于最小二乘算法拟合球体的方式补全成熟石榴点云，获得完整的成熟石榴点云数据，并定位到目标石榴。该发明综合彩色图像RGB及深度图像D定位成熟石榴，克服了仅用RGB图像定位法的果实实际尺寸难获得的缺点，同时克服了多方位点云数据融合的复杂匹配过程，大大提高了水果定位的实时性与精度。

Description

一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法

技术领域

本发明涉及农业机器人水果采摘定位，特别涉及一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法。

背景技术

目前水果定位方法研究较多，主要采用彩色图像对水果进行分割，RGB与D图像对水果进行分割，或者采用激光点云数据对水果进行分割，这些方法具有明显不足：

(1)只采用2维RGB图像对水果进行分割，虽然在彩色图像中能实现较高的分割准确率，但是针对采摘的空间三维信息比较难实用；

(2)采用RGB与D结合的方法对水果进行分割，分割效率提高了，但是极少研究对水果进行补全，找到合适的中心坐标参数与几何尺寸；

(3)仅采用三维激光点云对水果进行分割识别与定位，但是激光点云设备比较昂贵且不便于作为机械臂的传感器。

发明内容

本发明的目的在为了解决以上技术问题，采用经济实用的Kinect v2作为采集设备，采用离线训练在线检测的方式对水果进行定位，主要研究内容：(1)对摄像机进行标定，获得摄像机内部参数与外部参数，对采集的彩色图像与深度图像进行配准对齐；(2)设计Mask R-CNN的网络结构，对待训练样本进行标注，训练网络结构；(3)在线检测成熟石榴，对检测到的成熟石榴进行三维重构；(4)采用最小二乘拟合球体方法补全成熟石榴点云，获得成熟石榴中心坐标参数以及几何尺寸。

本发明采用的具体技术方案如下：

一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，具体步骤如下：

步骤1，相机标定与配准，采用Kinect V2相机来获取温室大棚石榴的彩色与深度图像，为较好地融合RGB-D图像特征，采集图像数据之前需要校准RGB图像和深度图像D，使深度图像与彩色图像对齐。

步骤2，采集水果彩色图像数据与深度图像数据，将采集机械臂摄像头靠近石榴树冠层最外侧1米，启动图像数据采集程序，获取大量的彩色RGB图像与深度图像D，同时获取RGB-D融合图像保存在电脑里。

步骤3，Mask R-CNN训练，对采集的大量样本RGB-D融合图像的成熟石榴进行标注，然后设计Mask R-CNN的训练网络，对样本进行离线训练。

步骤4，Mask R-CNN检测成熟石榴，采用训练好的网络结构检测出成熟石榴的区域图像。

步骤5，对单个的成熟石榴水果彩色图像与对应的深度数据进行三维重构，重构出成熟石榴的三维点云。

步骤6，单个成熟石榴点云补全，对单个的成熟石榴点云数据采用3维球体拟合方式补全，获得整个成熟石榴的点云数据。

步骤7，成熟石榴位置定位，对补全后的成熟石榴点云进行中心位置坐标、半径的求取。

步骤8，机械臂运动并定位到成熟石榴位置，机械臂根据需要定位的成熟石榴中心位置带动水果夹定位到指定的位置。

步骤1.1：通过张定友相机标定方法获得的RGB图像的固有参数矩阵为K_rgb，深度图像的固有参数矩阵为K_d。与相同的棋盘图像结合，获得的RGB图像的外部参数矩阵为R_rgb和T_rgb，深度图像的外部参数矩阵为R_d和T_d。

步骤1.2：彩色与深度相机的内参分别为K_rgb，K_d。假设彩色图像的像素坐标为P_rgb＝[U_rgb，V_rgb，1]^T，深度图像的非齐次像素坐标为P_d＝[U_d，V_d，1]^T。然后，旋转矩阵R与平移矩阵T将深度图像坐标映射到RGB图像坐标的公式如下：

因此，深度图像的像素坐标与RGB图像的像素坐标之间的映射关系描述如下：

P_rgb＝(R*Z_d*P_d+T)/Z_rgb

利用该公式，通过获取的深度图像的坐标值P_d和像素值Z_d，以及记录距离Z_rgb，来得到对应于点的映射的RGB图像坐标P_rgb。

融合彩色与深度图像构建构建点云的公式为：

其中(x_i，y_i，z_i)是像素i的三维坐标；(u_i，v_i)是像素i的像素坐标；D是深度图像；(U_x，U_y)是红外相机的像素坐标的主点坐标；f_x，f_y是红外相机的焦距。

步骤2.1：将采集的摄像头移动到距离树冠最外层距离为1米，启动采集程序，采集RGB彩色图像与深度图像D，同时保存对齐后的RGB与D的融合图像。移动采集平台，每一个方位采集100张图片，保存在电脑里，用于识别训练。

步骤3.1：采用VIA(VGG Image Annotator)对采集的大量图片进行成熟水果的标注，保存标注文件。设计网络结构，柱结构，骨架网络采用ResNet101-FPN，特征映射层采用5个阶段，分别为stage1，stage2，stage3，stage4及stage5，各自的输出层分别记为conv1，conv2，conv3，conv4及conv5。

步骤3.2：步骤3.1的5个输出层根据FPN产生了特征金字塔特征图，经过RPN产生多个特征推荐区域(region proposal)，经过ROI Align产生感兴趣区域。

步骤3.3：感兴趣区域经过全连接层网络产生目标区域框，并采用全卷积网络产生掩模Mask即为水果区域。

步骤4.1：采用训练好的网络对测试样本进行测试，分析网络检测的性能。同时采用在线方式实时采集不同方位的成熟石榴数据，分析在线检测性能。

步骤5.1：采用深度学习网络结构检测出的成熟石榴彩色图像并分割出对应位置的深度图像数据，根据权利要求2的步骤1.2计算出成熟石榴的三维点云。

步骤6.1：针对权利要求6重构的成熟石榴三维点云P，采用三位球体拟合点云的方式对点云进行拟合，设球体中心坐标为P_c(x_c，y_c，z_c)，球体半径为R，权利要求6重构的点云P，P_i∈P，i＝1，2，3，...，N，N是拟合点云数，P_i(x_i，y_i，z_i)，设点云P_i到目标中心P_c距离为d_i，则

d_i ²＝(x_i-x_c)²+(y_i-y_c)²+(z_i-z_c)²

目标函数

θ＝(x_c，y_c，z_c，R)

拟合优化函数采用最小二乘法进行拟合。

步骤7.1：根据权利要求7拟合的θ＝(x_c，y_c，z_c，R)，给出成熟石榴的重心坐标与半径。

步骤8.1：根据权利要求8获得的成熟石榴大小，驱动水果夹张开尺寸，根据权利要求8获得的中心坐标，驱动机械臂采摘的水果夹中心位置运动到该位置，夹取成熟石榴。

采用上述方案后，本发明本发明具有有益效果如下：

(1)经过Mask R-CNN训练后在线检测的水果仅包含成熟石榴区域，不包含任何背景信息，成熟石榴检测准确率为94％；

(2)采用三维重建方式能直接获取成熟石榴的三维空间信息，便于采摘机器人定位；

(3)通过补全方式获取的成熟石榴点云效果较好，定位精度较高，几何尺寸比较准确，与实际的几何尺寸比较分析，其RMSE等于0.0056m。

附图说明

图1离线训练与在线定位成熟石榴方法的基本流程框图；

图2机械臂采集与定位成熟石榴示意图；

图3 Mask R-CNN网络结构。

具体实施方式

步骤1，采用Kinect V2相机来获取温室大棚石榴的彩色与深度图像，如图2中的摄像头2安装在机械臂3前端，为较好地融合RGB-D图像特征，采集图像数据之前校准RGB图像和深度图像D，使深度图像与彩色图像对齐。

步骤1.1：通过张定友相机标定方法获得的RGB图像的固有参数矩阵为K_rgb，深度图像的固有参数矩阵为K_d，与相同的棋盘图像结合，获得的RGB图像的外部参数矩阵为R_rgb和T_rgb，深度图像的外部参数矩阵为R_d和T_d。

步骤1.2：彩色与深度相机的内参分别为K_rgb，K_d，假设彩色图像的像素坐标为P_rgb＝[U_rgb，V_rgb，1]^T，深度图像的非齐次像素坐标为P_d＝[U_d，V_d，1]^T，然后，旋转矩阵R与平移矩阵T将深度图像坐标映射到RGB图像坐标的公式如下：

P_rgb＝(R*Z_d*P_d+T)/Z_rgb

融合彩色与深度图像构建构建点云的公式为：

步骤2，采集水果彩色图像数据与深度图像数据，将安装带有摄像头的采集机械臂靠近石榴树冠层最外侧1米，如图2所示，相机2距离石榴树冠最外侧距离d＝1米，启动图像数据采集程序，获取大量的彩色RGB图像与深度图像D，同时获取RGB-D融合图像保存在电脑里。

步骤3，Mask R-CNN训练，对采集的大量样本RGB-D融合图像的成熟石榴进行标注，然后设计Mask R-CNN的训练网络，如图3所示，对样本进行离线训练。

步骤3.1：采用VIA(VGG Image Annotator)对采集的大量图片进行成熟水果的标注，保存标注文件。设计网络结构，柱结构，骨架网络采用ResNet101-FPN，特征映射层采用5个阶段，分别为stage1，stage2，stage3，stage4及stage5，各自的输出层分别记为conv1，conv2，conv3，conv4及conv5；

步骤3.2：步骤3.1的5个输出层根据FPN产生了特征金字塔特征图，经过RPN产生多个特征推荐区域(region proposal)，经过ROI Align产生感兴趣区域；

步骤3.3：感兴趣区域经过全连接层网络产生目标区域框，并采用全卷积网络产生掩模Mask即为成熟石榴区域。

步骤5，对单个的成熟石榴水果彩色图像与对应的深度数据进行三维重构，重构出石榴的三维点云。

步骤6，单个成熟石榴点云补全，对单个的成熟石榴点云数据采用3维球体拟合方式补全，获得整个石榴的点云数据。

d_i ²＝(x_i-x_c)²+(y_i-y_c)²+(z_i-z_c)²

目标函数

θ＝(x_c，y_c，z_c，R)

拟合优化函数采用最小二乘法进行拟合。

步骤7，石榴位置定位，对补全后的石榴点云进行中心位置坐标、长以及宽的求取。

步骤8，机械臂运动并定位到成熟石榴位置，机械臂根据目标成熟石榴中心位置带动水果夹定位到指定的位置。如图2所示，根据采集的石榴几何尺寸，将水果夹1张开到一定的宽度，启动机械臂4带动机械臂5向前运动，机械臂3上下调整到中心位置高度高度到水果中心位置，实现精确定位。

Claims

1.一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，具体步骤如下：

步骤1，相机标定与配准

采用Kinect V2相机获取温室大棚石榴的彩色图像RGB与深度图像D，为较好地融合RGB-D图像特征，采集图像数据之前需要校准RGB图像和深度图像D，使深度图像与彩色图像对齐；

步骤2，采集石榴彩色图像数据与深度图像数据

将机械臂上摄像头的中心位置靠近石榴树冠层最外侧1米，启动图像数据采集程序，获取大量的彩色RGB图像与深度图像D，同时获取RGB-D融合图像保存在电脑里；

步骤3，MaskR-CNN训练

对采集的大量样本RGB-D融合图像的成熟石榴进行标注，然后设计Mask R-CNN的训练网络，对样本进行离线训练；

步骤4，Mask R-CNN检测成熟石榴

采用训练好的网络结构检测出成熟石榴的区域图像；

步骤5，对单个的成熟石榴彩色图像与对应的深度图像进行三维重构，重构出成熟石榴的三维点云；

步骤6，单个成熟石榴点云补全

对单个的成熟石榴点云数据采用3维球体拟合方式补全，获得整个成熟石榴的点云数据；

步骤7，成熟石榴位置定位

对补全后的成熟石榴点云进行中心位置坐标、半径的求取；

步骤8，机械臂运动并定位到成熟石榴位置

机械臂根据需要定位的成熟石榴中心位置带动水果夹定位到指定的位置；

其中，步骤1到步骤3是离线阶段，步骤4到步骤8是在线定位阶段。

2.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤1包括如下步骤：

步骤1.1：通过张定友相机标定方法获得的RGB图像的固有参数矩阵为K_rgb，深度图像的固有参数矩阵为K_d，与相同的棋盘图像结合，获得的RGB图像的外部参数矩阵为R_rgb和T_rgb，深度图像的外部参数矩阵为R_d和T_d；

P_rgb＝(R*Z_d*P_d+T)/Z_rgb

利用该公式，通过获取的深度图像的坐标值P_d和像素值Z_d，以及记录距离Z_rgb，来得到对应于点的映射的RGB图像坐标P_rgb；

融合彩色与深度图像构建构建点云的公式为：

其中(x_i，y_i，z_i)是像素i的三维坐标；(u_i，v_i)是像素i的深度像素坐标；D是深度图像；(U_x，U_y)是红外相机的像素坐标的主点坐标；f_x，f_y是红外相机的焦距。

3.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤2包括如下步骤：

步骤2.1：将采集的摄像头移动到距离树冠最外层距离为1米，启动采集程序，采集RGB彩色图像与深度图像D，同时保存对齐后的RGB与D的融合图像；移动采集平台，每一个方位采集100张图片，保存在电脑里，用于识别训练。

4.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤3包括如下步骤：

步骤3.1：采用VIA(VGG Image Annotator)对采集的大量图片进行成熟石榴的标注，保存标注文件；设计网络结构，柱结构，骨架网络采用ResNet101-FPN，特征映射层采用5个阶段，分别为stage1，stage2，stage3，stage4及stage5，各自的输出层分别记为conv1，conv2，conv3，conv4及conv5；

5.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤4包括如下步骤：

6.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤5包括如下步骤：

步骤5.1：采用深度学习网络结构检测出的石榴彩色图像并分割出对应位置的深度图像数据，根据权利要求2的步骤1.2计算出目标石榴的三维点云。

7.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤6包括如下步骤：

d_i ²＝(x_i-x_c)²+(y_i-y_c)²+(z_i-z_c)²

目标函数

θ＝(x_c，y_c，z_c，R)

拟合优化函数采用最小二乘法进行拟合。

8.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤7包括如下步骤：

步骤7：根据权利要求7拟合的θ＝(x_c，y_c，z_c，R)，给出成熟石榴的中心坐标与成熟石榴的半径。

9.根据权利要求1所述的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法，其特征在于，所述步骤8包括如下步骤：