CN115810188A

CN115810188A - 基于单张二维图像的树上果实三维位姿识别方法及系统

Info

Publication number: CN115810188A
Application number: CN202211506380.7A
Authority: CN
Inventors: 柴秀娟; 孙琦鑫; 孙坦
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-17

Abstract

本发明提出了一种基于单张二维图像的树上果实三维位姿识别方法，以提高自动采摘的安全性和准确性。主要包括以下步骤：以果脐点和果脐点所在平面的法线方向表示果实在三维空间中的位置与姿态，开发基于二维图像的水果位姿标注工具，并构建水果位姿数据集；构建基于二维图像进行果实三维位姿识别的深度卷积神经网络，并利用标注数据进行模型训练；拍摄果实冠层图像，首先对图像中的果实进行目标检测，进而利用已经训练好的模型对单个果实进行位姿识别，确定果实的位置与姿态。在实际采摘过程中，本发明可帮助实现果实高精度、低损伤的采摘操作。

Description

基于单张二维图像的树上果实三维位姿识别方法及系统

技术领域

本发明涉及农业智能机器人领域，特别涉及一种基于单张二维图像的树上果实三维位姿识别方法。

背景技术

现有技术中识别果实三维位姿多采用基于彩色二维图和深度图像RGB-D的方法：传统图像处理算法或深度学习算法；或基于彩色二维图RGB的方法：基于透视N点投影(PnP,Perspective-n-Points)算法的间接位姿识别或直接位姿识别。

具体来说，基于RGB-D图像的传统图像处理算法：使用如非线性最小二乘法、Hough变换等方法处理果实RGB-D数据，计算果实姿态。基于RGB-D图像的深度学习算法：借助能够端到端处理点云数据的神经网络架构PointNet，实现完全基于深度学习的果实位姿识别。基于RGB图像的PnP算法的间接位姿识别：预测三维空间中物体边界框等重要角点投影到二维图像上的坐标，然后根据多个3D-2D对应点，求解PnP得到物体的位姿。基于RGB图像的直接位姿识别：借助四元组、李代数等表达形式，通过深度学习算法直接求解物体姿态在三维空间中的旋转参数。

但上述现有技术存在如下技术缺陷：

1.基于RGB-D图像的方法：姿态识别依赖深度相机或其他设备所捕获的深度数据，但室外果园中采集的深度信息稳定性差，极易对果实姿态识别的精度造成负面影响。

2.基于RGB图像的方法：该类方法只研究了受控环境中的物体，并没有解决非受控果园环境中的果实姿态识别问题。其中非受控果园指的是，室外果园的环境复杂多变，例如其背景环境、光照、遮挡、姿态情况等因素不受限制。

发明内容

本发明基于二维图像，提出一种结构简单、精度高且鲁棒性强的果实三维位姿识别方法，解决了非受控果园环境中自动采摘机器人的抓取姿态识别问题。

本发明以果脐点和果脐点所在平面的法线方向表示果实在三维空间中的位置与姿态，提供了一种基于二维图像的果实位置与三维姿态标注工具，为深度学习模型的训练和测试提供了可信的标注值；基于二维图像对果实在三维空间中的姿态进行识别，无需使用点云数据，避免了室外获取的不稳定的深度信息对果实姿态识别造成的负面干扰；利用深度学习算法对二维图像进行端到端的果实位姿识别，不受限于果实形态、种类及图像采集环境，具有更高的准确率和更好的鲁棒性、泛化性。且能够识别非受控果园环境下任意姿态的果实，具有良好的鲁棒性和可扩展性。

具体来说，本发明提供了一种基于单张二维图像的树上果实三维位姿识别方法，包括：

步骤1、获取带有果实的多张果树图像，根据该果树图像中果实的果脐点和果脐点所在平面的法线，为该果树图像中果实标注位姿标签；以该果树图像训练基于深度卷积网络的果实位姿识别模型；

步骤2、采摘机器人拍摄目标果树的现场图像，并以果实为目标对该现场图像进行目标检测，将检测出的果实图像输入该果实位姿识别模型，得到目标果实位姿，以控制该采摘机器人的末端执行器根据该目标果实位姿，以目标果实的旋转方向执行任务操作。

所述的基于单张二维图像的树上果实三维位姿识别方法，步骤1中标注位姿标签具体包括：

为该果树图像中果实标注果脐点，以果实形状建模椭球体，椭球体短轴一端代表果实和果柄的连接点，另一端代表果脐点，通过调整椭球体的大小及旋转方向，使其投影与该果树图像中果实相吻合，此时将椭球体的短轴作为果实旋转方向，从果脐点指向果实与果柄的连接点。

所述的基于单张二维图像的树上果实三维位姿识别方法，该步骤1中训练过程包括：

使用残差模块构建一个多层的深度卷积神经网络作为该果实位姿识别模型的特征提取层；

使用反卷积层将特征提取层输出的低分辨率特征图恢复为高分辨率特征图，并以该高分辨率特征图生成热力图，预测图中果脐点P_i的位置，损失函数Loss₁如下所示，n表示数据集中果实个数，

表示网络生成热力图，H(·)表示标注果脐点对应的热力图；

使用该果实位姿识别模型的多尺度特征融合加全连接分类层得到果脐点所在平面的单位法向量，损失函数Loss2采用下式所示的余弦距离损失，

表示网络预测的单位法向量，v表示标注的果实姿态；

Loss_M2＝w₁ Loss₁+w₂ Loss₂

采用最终损失函数Loss_M2训练该果实位姿识别模型。

所述的基于单张二维图像的树上果实三维位姿识别方法，该步骤2包括：

在采摘过程中，该采摘机器人借助深度摄像头，通过下式将果脐点在像素坐标系中的二维坐标(px_P，py_P)转化为相机坐标系中的三维坐标(px_C，py_C，pz_C)，pz_C表示果脐点在相机坐标系Z方向的值，K表示相机内参，其中f_x、f_y分别表示相机在x轴和y轴上的焦距，(u₀，v₀)表示图像坐标系原点在像素坐标系中的坐标，控制该末端执行器，以(nx，ny，nz)的进给角度，朝着(px_C，py_C，pz_C)前进，完成果实的抓取操作；

本发明还提出了一种基于单张二维图像的树上果实三维位姿识别系统，其中包括：

训练模块，用于获取带有果实的多张果树图像，根据该果树图像中果实的果脐点和果脐点所在平面的法线，为该果树图像中果实标注位姿标签；以该果树图像训练基于深度卷积网络的果实位姿识别模型；

识别模块，用于采摘机器人拍摄目标果树的现场图像，并以果实为目标对该现场图像进行目标检测，将检测出的果实图像输入该果实位姿识别模型，得到目标果实位姿，以控制该采摘机器人的末端执行器根据该目标果实位姿，以目标果实的旋转方向执行任务操作。

所述的基于单张二维图像的树上果实三维位姿识别系统，其中标注位姿标签具体包括：

所述的基于单张二维图像的树上果实三维位姿识别系统，其中训练过程包括：

表示网络生成热力图，H(·)表示标注果脐点对应的热力图；

使用该果实位姿识别模型的多尺度特征融合加全连接分类层得到果脐点所在平面的单位法向量，损失函数Loss₂采用下式所示的余弦距离损失，

表示网络预测的单位法向量，v表示标注的果实姿态；

Loss_M2＝w₁ Loss₁+w₂ Loss₂

采用最终损失函数Loss_M2训练该果实位姿识别模型。

所述的基于单张二维图像的树上果实三维位姿识别系统，其中该识别模块用于：

本发明还提出了一种存储介质，用于存储执行所述任意一种基于单张二维图像的树上果实三维位姿识别方法的程序。

本发明还提出了一种客户端，用于所述的任意一种基于单张二维图像的树上果实三维位姿识别系统。

由以上方案可知，本发明的优点在于：

本发明是提升果实采摘步骤安全性及成功率的视觉算法解决方案，能够更好地适应不同类型的末端执行器，避免末端执行器在套取果实的过程中，与果柄发生碰撞，导致待采摘果实发生位移，减小对果实、果树乃至机械臂造成的损伤。

提出的位姿标注工具，能够在二维图像上实现果实三维姿态的标注，为深度卷积神经网络的训练和应用提供了可靠的数据标签。

在果实姿态识别过程中，无需使用深度信息，能够较好地对抗室外采集的不稳定的深度信息对模型性能造成的负面影响；采用深度卷积神经网络，提升模型推理速度、鲁棒性和可拓展性，增强姿态识别的表现性能，使得本发明能够更好地应用在采摘机器人的视觉系统中。

附图说明

图1为本发明整体技术方案流程图；

图2为果树冠层果实数据及标注样例图；

图3为果实位姿标注工具界面示意图；

图4为果实位姿识别模型示意图。

具体实施方式

为缓解在复杂果园环境下采集的不稳定的点云数据对果实姿态识别造成的负面影响，提出了一种基于单张二维图像的树上果实三维位姿识别方法，以提高自动采摘的安全性和准确性。主要包括以下步骤：1)以果脐点和果脐点所在平面的法线方向表示果实在三维空间中的位置与姿态，开发基于二维图像的水果位姿标注工具，并构建果实位姿数据集。2)构建基于二维图像进行果实位姿识别的深度卷积神经网络，并利用训练数据进行模型训练。3)测试过程中，首先对图像中的果实进行目标检测，进而利用已经训练好的模型对单个果实进行位姿识别，确定果实的位置与姿态。在实际采摘过程中，本发明可帮助实现果实高精度、低损伤的采摘操作。

实现上述发明目的，本发明设计了一种基于二维图像与深度卷积神经网络的树上果实三维位姿识别方法，包括下列步骤：

1)果实检测模型的训练。首先在果园真实环境中，采集大量带有成熟果实的果树冠层图像。然后对采集的二维图片进行人工标注，构建果实检测数据集。作为目标检测任务，设计实现检测果实的深度卷积神经网络模型，使用果实检测数据集端到端地训练果实目标检测模型。

2)果实位姿识别模型的训练。基于果实检测框，以果脐点和果脐点所在平面的法线方向表示果实在三维空间中的位置与姿态，开发标注工具，对切割出的单个果实图像进行果实位姿的人工标注，构建果实位姿识别数据集，并设计实现识别果实位姿的深度卷积神经模型，使用果实位姿识别数据集端到端地训练果实位姿识别模型。其中果脐点所在平面为果实上以果脐点为中心的近邻区域，比如2*2的像素区域，可以拟合成一个平面(三个不共线的点，可以确定一个平面)即果脐点所在平面。

3)果实位姿现场识别。首先使用训练完成的目标检测模型，识别采摘机器人拍摄的二维图像中的果实目标。然后，使用果实位姿识别模型预测每个果实的旋转方向(果实三维姿态)和目标位置。最后，采摘机器人根据模型预测的位姿信息，结合深度感知设备和机械臂，以合适的角度(果实旋转方向)朝着果实(果脐点位置)进给，完成高精度、低损伤的任务操作，该任务操作为需要根据水果姿态，调整机械手的动作，以提高自动化工作性能的任务，例如采摘目标果实、为目标果实进行套袋、采后水果的包装等。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提供了一种基于二维图像的果实位姿识别方法，方法流程如图1，下面按照实施过程的三个步骤逐一进行介绍。

1.果实检测模型的训练

1)果实检测数据集的构建。在真实果园场景中，使用图像采集设备对成熟期的果树冠层进行拍摄，摄像头距离果树冠层0.3m～1m，以保证拍摄图像中包含多个清晰的果实目标。在多种角度、距离、光照条件和遮挡下记录果树图像，增强数据多样性。利用通用的标注软件，对采集的图像进行人工标注，以构建果实检测数据集。对于每个果实目标，其标注框为四个坐标点构成的封闭矩形区域(如图2)，矩形区域的左上角和右下角坐标{(bx₁,by₁),(bx₂,by₂)}被记录为标注结果。

2)果实检测模型训练。采用目标检测模型(如FaceBoxes架构)来实现果实目标检测任务。使用果实检测数据集端到端地训练果实检测模型M_detection：输入果树冠层图像和对应的果实矩形区域标注信息，训练M_detection检测输出图像中所有果实区域。

3)其他可能的实施例。在本步骤中，针对成熟期果树冠层的图像采集，可能在室外果园或其他类似场景；图像采集设备可为手机、高清相机等多规格的、能够获取RGB二维图像的图像采集设备；针对果树冠层图像中果实目标的检测，检测模型还可能按照其他架构实现，比如FasterR-CNN、YOLO、Cent erNet等。

2.果实位姿识别模型的训练

1)果实位姿识别数据集的构建。在果实目标检测框{(bx₁,by₁),(bx₂,by₂)}的基础上，对采集图像进行进一步的人工标注，以构建果实位姿识别数据集。具体来说，以果脐点和果脐点所在平面的法线方向表示果实在三维空间中的位置与姿态，开发了能够在二维图像上标注果实位置及三维姿态的标注工具(如图3)，以保证数据集中标签的可靠性。标注工具分为果脐点标注和果实姿态标注两个界面。在果脐点标注界面中，果实及其对应的果脐点以相同的颜色表示。在果实姿态标注界面中，根据形状特征，水果被建模为一个椭球体，其短轴一端是果实和果柄的连接点(椭球体上黄点)，另一端是果脐点(椭球体上蓝点)。通过调整椭球体的大小及旋转方向，使其投影与果实图像相吻合，此时，通过果实中心，由果脐点和果实与果柄连接点构成的直线就是果实旋转方向所在直线，方向从果脐点指向果实与果柄的连接点。

2)果实位姿识别模型训练。果实的位姿由果脐点及通过果实中心且垂直果脐点所在平面的单位法向量共同确定，因此，本发明将果实位姿识别问题转化为果脐点检测和平面法向量预测两个任务，基于多任务学习框架，完成模型的设计及训练(如图4)。采用硬参数共享方式，首先使用残差模块构建一个50层的深度卷积神经网络作为共享的特征提取层，然后针对不同任务采用不同的网络结构和损失函数。针对果脐点检测任务，使用反卷积操作恢复高分辨率特征图，然后基于热力图预测果脐点P_i的位置，损失函数如公式1所示，n表示数据集中果实个数，

表示网络预测的热力图，H(·)表示真实值得到的热力图。针对平面法向量预测任务，使用多尺度特征融合加全连接分类层得到果脐点所在平面的单位法向量，损失函数采用余弦距离损失(如公式2)，

表示网络预测的单位法向量，v表示标注的果实姿态。对于模型损失的协同优化，采用加权融合的方式来平衡各个任务的收敛速度(如公式3)。对于基于多任务框架的果实位姿识别模型M_estimation：输入缩放为固定大小的果实二维图像，训练输出果实果脐点在二维图像中的坐标(px_P，py_P)和其在三维空间中的姿态(nx，ny，nz)。

Loss_M2＝w₁ Loss₁+w₂ Loss₂ (3)

3)其他可能的实施例。在本步骤中，数据标注软件可根据标注果实种类，调整拟合形状，如圆锥体或其它形状；对于果实姿态的表示，可能采用欧拉角、四元组或其他表达形式；多任务学习框架中参数共享方式也可能为软共享、分层共享或其它共享方式；在提取二维图像特征时，可能由不同数量的残差模块构成特征提取网络，也可能采用如VGG、Inception或其它自行设计的特征提取网络来实现；对于果脐点的检测，可能采用卷积加上采样的方式恢复高分辨率特征图，也可能采用HRNet或其它关键点检测网络的设计；对于表示果实姿态的单位法向量预测，可能采用不同的多尺度融合方式或其它自行设计的深度卷积网络结构；对于多任务的协同优化，可采用损失函数加权或其它动态调整策略。

3.果实位姿识别

1)摄像头距离果树0.3m～1m，拍摄带有果实的果树冠层图像，用目标检测模型M_detection检测二维图像中的果实目标，得到果实矩形区域。

2)使用果实位姿识别模型M_estimation对根据M_detection裁剪出的果实二维图像进行位姿识别，得到果脐点在图像中的坐标(px_P，py_P)、置信度分数s_point，以及果脐点所在平面的单位法向量(nx，ny，nz)。对于果脐点置信度小于0.2的果实，视其在该视角下果脐点不可见，无法实施采摘。

3)在实际抓取过程中，采摘机器人借助深度摄像头，将果脐点在像素坐标系中的二维坐标(px_P，py_P)转化为相机坐标系中的三维坐标(px_C，py_C，pz_C)，如公式4，pz_C表示果脐点在相机坐标系Z方向的值，K表示相机内参，其中f_x、f_y分别表示相机在x轴和y轴上的焦距，(u₀，v₀)表示图像坐标系原点在像素坐标系中的坐标。随后，采摘机器人控制末端执行器，以(nx，ny，nz)的进给角度，朝着(px_C，py_C，pz_C)前进，完成果实的抓取操作。

4)其他可能的实施例。在实际抓取过程中，采摘机器人可能使用双目摄像头或其它方法获取将果脐点在像素坐标系中的二维坐标(px_P，py_P)转化为相机坐标系中的三维坐标(px_C，py_C，pz_C)；在判断果脐点是否可见时，其置信度阈值可根据实际情况设置为其他数值；在处理果脐点不可见的果实时，可设置其它判断条件来确定果实在该视角下是否可摘，也可根据其表示旋转方向的单位法向量，预设果脐点位置，或采用其它可能的方式完成该视角下果脐点不可见果实的采摘操作。

4.识别效果：

在本实施例中，构建了一个含505张二维图像的柑橘姿态识别数据集，共有1925个柑橘果实。果脐点可见的果实1577个，果脐点不可见的果实348个，其中，80％作为训练数据集，20％作为测试数据集评估网络性能。在识别过程中，使用预测方向与标注方法夹角的大小度量模型姿态识别的误差。对于果脐点可见果实，超过80％的果实其姿态方向误差不超过11.25°，高达97％的果实其姿态方向误差小于30°。而对于果脐不可见的柑橘，其姿态偏差会较大，误差均值达到20°。在简单场景的单株柑橘抓取仿真实验中，基于本发明的抓取操作，其果实采摘成功率超过90％。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

使用反卷积层将特征提取层输出的低分辨率特征图恢复为高分辨率特征图，并以该高分辨率特征图生成热力图，预测图中果脐点Pi的位置，损失函数Loss₁如下所示，n表示数据集中果实个数，

表示网络生成热力图，H(·)表示标注果脐点对应的热力图；

表示网络预测的单位法向量，v表示标注的果实姿态；

Loss_M2＝w₁Loss₁+w₂Loss₂

采用最终损失函数Loss_M2训练该果实位姿识别模型。

Claims

1.一种基于单张二维图像的树上果实三维位姿识别方法，其特征在于，包括：

2.如权力要1所述的基于单张二维图像的树上果实三维位姿识别方法，其特征在于，步骤1中标注位姿标签具体包括：

3.如权力要1所述的基于单张二维图像的树上果实三维位姿识别方法，其特征在于，该步骤1中训练过程包括：

表示网络生成热力图，H(·)表示标注果脐点对应的热力图；

表示网络预测的单位法向量，v表示标注的果实姿态；

Loss_M2＝w₁Loss₁+w₂Loss₂

采用最终损失函数Loss_M2训练该果实位姿识别模型。

4.如权力要1所述的基于单张二维图像的树上果实三维位姿识别方法，其特征在于，该步骤2包括：

在采摘过程中，该采摘机器人借助深度摄像头，通过下式将果脐点在像素坐标系中的二维坐标(px_P,py_P)转化为相机坐标系中的三维坐标(px_C,py_C,pz_C)，pz_C表示果脐点在相机坐标系Z方向的值，K表示相机内参，其中f_x、f_y分别表示相机在x轴和y轴上的焦距，(u₀,v₀)表示图像坐标系原点在像素坐标系中的坐标，控制该末端执行器，以(nx,ny,nz)的进给角度，朝着(px_C,py_C,py_C)前进，完成果实的抓取操作；

5.一种基于单张二维图像的树上果实三维位姿识别系统，其特征在于，包括：

6.如权力要5所述的基于单张二维图像的树上果实三维位姿识别系统，其特征在于，标注位姿标签具体包括：

7.如权力要5所述的基于单张二维图像的树上果实三维位姿识别系统，其特征在于，该训练模块用于：

表示网络生成热力图，H(·)表示标注果脐点对应的热力图；

表示网络预测的单位法向量，v表示标注的果实姿态；

Loss_M2＝w₁Loss₁+w₂Loss₂

采用最终损失函数Loss_M2训练该果实位姿识别模型。

8.如权力要5所述的基于单张二维图像的树上果实三维位姿识别系统，其特征在于，该识别模块用于：

在采摘过程中，该采摘机器人借助深度摄像头，通过下式将果脐点在像素坐标系中的二维坐标(px_P,py_P)转化为相机坐标系中的三维坐标(px_C,py_C,pz_C)，pz_C表示果脐点在相机坐标系Z方向的值，K表示相机内参，其中f_x、f_y分别表示相机在x轴和y轴上的焦距，(u₀,v₀)表示图像坐标系原点在像素坐标系中的坐标，控制该末端执行器，以(nx,ny,nz)的进给角度，朝着(px_C,py_C,pz_C)前进，完成果实的抓取操作；

9.一种存储介质，用于存储执行所述任意一种基于单张二维图像的树上果实三维位姿识别方法的程序。

10.一种客户端，用于所述的任意一种基于单张二维图像的树上果实三维位姿识别系统。