CN115471728B

CN115471728B - 基于多阶几何约束整体匹配的果实快速三维定位方法

Info

Publication number: CN115471728B
Application number: CN202211249740.XA
Authority: CN
Inventors: 吴颖丹; 吕辉; 周宁琳; 郭依蓓; 邵洋琳; 兰琰茜; 徐久红
Original assignee: Hubei University of Technology
Current assignee: Wuhan Fangxin Fengli Intelligent Agricultural Technology Co ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-04-18
Anticipated expiration: 2042-10-12
Also published as: CN115471728A

Abstract

本发明属于智慧农业领域，涉及一种基于多阶几何约束整体匹配的果实快速三维定位方法，包括：1）对双目相机的立体视觉系统进行标定，通过标定后的双目相机获取果实图像；2）基于Yolo v3模型以及迁徙学习的方式对步骤1）或获取得到的果实图像进行果实识别；3）基于多阶几何约束整体匹配的方式对步骤2）识别得到的果实进行同名果实配对。本发明提供了一种匹配速度快以及果实匹配结果可靠性强的基于多阶几何约束整体匹配的果实快速三维定位方法。

Description

基于多阶几何约束整体匹配的果实快速三维定位方法

技术领域

本发明属于智慧农业领域，涉及一种果实快速三维定位方法，尤其涉及一种基于多阶几何约束整体匹配的果实快速三维定位方法。

背景技术

果实采摘机器人，是智慧农业的重要发展方向之一。相比于传统的农业生产方式，果实采摘机器人能更好的适应现代生物技术的发展，它是21世纪新科学技术在农业生产中综合运用和发展的结果，对于改善人工作业条件、降低劳动强度、提高劳动生产率等方面具有重要的意义。

视觉系统，作为采摘机器人的重要组成部分，是机器人的眼睛。视觉系统的工作性能将决定采摘机器人能否在实际的农业生产中成功而有效的应用。准确实现果实的识别和定位，是采摘机器人成功的关键环节之一。利用果实识别技术，可以识别出果实在图像上的位置，但要进行自动采摘，需要获取果实相对采摘机器人的空间位置，即对自然环境中的果实进行三维空间定位。

国内外学者通过单目相机、双目相机、RGB-D相机、TOF深度相机和激光雷达等方式对果实定位方法进行了深入研究。Baeten等人利用单目相机引导机械臂进行采摘，该方法通过对果实识别量测等效获得果实的相对空间位置，由于果实形状大小本身具有较大差异，计算的距离信息误差较大。Nguyen等使用RGB-D相机识别和定位自然环境下的苹果空间位置，位置估计误差在10mm以下，主要实现了完全无遮挡和小部分遮挡苹果的正确定位。孙力等人采用TOF深度相机获取柑橘的三维深度信息，从深度信息分割出柑橘目标区域，通过形态学处理、特征识别等算法识别图像中的柑橘目标，并结合场景三维信息获取柑橘中心的三维坐标及其半径值。但RGB-D相机和TOF深度相机分辨率较低，不适合较大作业场景，且价格比较昂贵。山东科技大学张磊利用唯一性约束、视差梯度约束原则进行果实质心的匹配，但是当存在一个错误的匹配点距离核线的距离小于正确匹配点距离核线的距离时，会出现错误匹配结果，该方法匹配可靠性不足。

视觉系统中相机焦距短、景深差异较大，左右视图像存在较大几何变形，直接提取图像特征点并进行匹配，容易匹配失败。如何实现自然场景下果实三维坐标的快速精确计算非常关键。

发明内容

为了解决背景技术中存在的上述技术问题，本发明提供了一种匹配速度快以及果实匹配结果可靠性强的基于多阶几何约束整体匹配的果实快速三维定位方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于多阶几何约束整体匹配的果实快速三维定位方法，其特征在于：所述基于多阶几何约束整体匹配的果实快速三维定位方法包括以下步骤：

1)对双目相机的立体视觉系统进行标定，通过标定后的双目相机获取果实图像；

2)基于Yolo v3模型以及迁徙学习的方式对步骤1)或获取得到的果实图像进行果实识别；

3)基于多阶几何约束整体匹配的方式对步骤2)识别得到的果实进行同名果实配对。

上述步骤3)的具体实现方式是：

3.1)构建融合多阶几何约束的高阶图模型；

3.2)对高阶图模型的超边进行采样；

3.3)对高阶图模型进行解算，完成对步骤2)识别得到的果实进行同名果实配对。

上述步骤3.1)的具体实现方式是：

通过双目相机获取左幅图像以及右幅图像，设左幅图像上果实中心点集合为P¹，个数为N₁，右幅图像上果实中心点集合为P²，个数为N₂，

表示集合P¹和P²的第i个特征点；集合P¹和P²对应的高阶图模型为G＝(V，E，A)和G′＝(V′，E′，A′)；其中，V和V′为顶点集合，即

为超边的集合，d表示构成超边的顶点个数；A和A′为超边所对应的属性集；假设左右可能的顶点响应集合为C＝V×V′，那么C的一个k元组如公式(1)所示：

c_s1＝(v₁，v′₁)，…，c_sk＝(v_k，v′_k) (1)

其中：

(v₁，…，v_k)∈V，(v′₁，…，v′_k)∈V′；对于一个k阶的高阶图匹配，通过比较两个度为k的超边的相似性来衡量k元组的相似性；

指定k维相似性度量函数f_k，它的参数为高阶图属性集合A和A′中的元素；按照一种递归关系将低阶超边同时考虑，此时k阶超边的相似度张量为：

T_si ⁽¹⁾＝f₁(a_i，a′_i) (2)

式中：

参数γ^(k)表示k阶超边相似度的加权系数；

T的右上标(k)表示张量的维数；a_1，…，k，a′_1，…，k分别表示k阶高阶图属性集合中的元素；设超边最大阶数为δ，相似性张量T^δ为高阶张量，包含了所有不同度超边的相似性信息。

上述步骤3.2)的具体实现方式是：

对左幅图像上的每个果实中心点，采用随机采样的方式，抽取一定数量的包含该特征点的三元组作为其3阶超边；对右幅图像上的果实中心点，采样所有的三元组，并采用kd树建立空间索引；对左幅图像上每个三元组，寻找右幅图像上与之最邻近的若干个三元组，完成高阶图模型的超边采样。

上述步骤3.3)的具体实现方式是：

高阶图匹配，就是在顶点响应集合C中，寻找最优的响应关系，用一个二进制赋值矩阵

描述，其一般满足双向约束，即

对二进制赋值矩阵X向量化，用x表示，则对于x，其对应匹配总相似度为：

用张量积表示为：

为此，score(x)取得最大值所对应的x^*即为最优二进制赋值矩阵所对应的向量；根据向量x得到二进制赋值矩阵X，得到左右幅图像上果实中心点的对应关系。

上述步骤1)的具体实现方式是：

1.1)采集图像：选用9×7的棋盘格标定板，格子尺寸为30mm×30mm；将双目相机位置固定，改变棋盘格标定板不同的位置、高度、旋转角度，利用双目相机获取多对棋盘格标定板的立体图像；

1.2)提取角点：打开Matlab软件的Stereo Camera Calibration，勾选Tangentialdistortion以及3coefficient选项，导入所采集的立体影像，将棋盘格的格子尺寸设置为30mm；图像载入后，会自动检测出棋盘内的角点，删除角点特征不满足条件的立体图像对；

1.3)相机标定：执行标定操作，剔除掉重投影误差比较大的图像对重新计算，直到标定精度满足要求，获得双目相机立体视觉系统标定参数，该参数包括每个相机镜头焦距f、镜头畸变参数k以及光轴中心坐标(Cx，Cy)内参数的精确值，以及两台相机之间的相对旋转矩阵R和平移向量T；

1.4)获取双目相机所构成的立体视觉系统与机械臂坐标系统的转换关系：采集若干个角点的真实三维空间坐标，利用空间后方交会技术，计算某相机的外方位元素，利用步骤1.3)所获取的两台相机之间的相对旋转矩阵R和平移向量T，计算另外一个相机的外方位元素，完成双目相机立体视觉系统的标定工作。

上述步骤2)的具体实现方式是：

2.1)果实识别数据集构建；

2.2)果实识别模型训练；

2.3)利用训练完成的果实识别模型，对双目相机拍摄获取的左右两幅图像分别进行果实识别，获取果实边界矩形框，取矩形框的中心作为果实中心点。

上述步骤2.1)的具体实现方式是：

2.1.1)对步骤1)所获取得到的果实图像进行数据预处理，获取得到样本图像；

其中：预处理的方式是：

a)将果实图像样本统一调整为相同大小；

b)将多种图片格式统一为PNG格式；

2.1.2)对样本图像进行翻转、旋转、随机裁剪以及添加噪声处理，进行数据增强，建立果实识别数据集。

上述步骤2.2)的具体实现方式是：

2.2.1)使用Yolo v3网络在ImageNet数据集上的预训练权重作为模型的初始权重，采用迁移学习的方法，建立果实识别模型；

2.2.2)将果实识别数据集分为训练数据集以及测试数据集，把训练数据集输入到设置好的果实识别模型中进行训练。

上述基于多阶几何约束整体匹配的果实快速三维定位方法在步骤3)之后还包括：

4)对配对后的结果进行果实同名特征精化与三维坐标计算，所述步骤4)的具体实现方式是：

4.1)构建果实花冠数据集；利用步骤2)中获取的果实边界矩形框，边界朝四周各外扩一定大小个像素，获取新的果实边界矩形框，利用该框提取果实图片；对所提取的部分果实图片，人工标注果实花冠部分，建立果实花冠训练数据集；

4.2)对果实花冠识别模型进行训练；采用步骤2.2)中的方法，利用果实花冠训练数据集对果实花冠识别模型进行训练，训练建立果实花冠识别模型；

4.3)果实同名特征精化与三维坐标定位：通过步骤3)获取左右幅图像上同名果实的中心点坐标，以果实中心点坐标为中心分别在左右图像上开辟窗口进行图像提取，所述窗口的大小为81像素×81像素；将所提取的图像输入到果实花冠识别模型中，进行果实花冠识别，并将果实花冠识别框的中心点作为果实最终的位置特征；利用步骤1)获取的双目相机立体视觉系统标定参数，通过前方交会技术，计算同名果实花冠特征对应的三维坐标，作为果实最终的三维空间坐标，完成果实的快速三维定位。

本发明的优点是：

本发明提供了一种基于多阶几何约束整体匹配的果实快速三维定位方法，通过采用张正友法对双目相机立体视觉系统的标定，并利用机械臂采集若干个角点的真实三维空间坐标，建立双目相机与机械臂坐标系统的转换关系。基于Yolo v3模型与迁徙学习的果实识别，基于迁徙学习技术和Yolo v3模型，利用所采集的果实数据集训练果实识别模型，实现对果实的智能识别。基于多阶几何约束整体匹配的同名果实快速配对，充分利用双目相机立体视觉系统提供的几何约束关系以及果实间的高阶结构特征，直接实现左右幅图像上同名果实的整体匹配，实现果实的快速配对。果实三维坐标定位与精化，对果实花冠中心进行识别和定位，克服果实大小不一、几何变形大、果实中心点同名位置精度不高等问题，获取近似统一位置的果实三维坐标，实现定位精度的精化。本发明可以直接整体求解左右幅图像上待定位果实的配对关系，相比传统方法逐一确定果实匹配关系的策略，具有匹配速度快、更能满足果实定位实时性要求的优势；能同时利用核线几何约束和果实间高阶结构特征相似特性进行匹配，果实匹配结果具有更强的可靠性。通过果实局部精细目标识别，可以改善果实定位特征，相比传统用果实中心点来定位的方法，具有更高的三维定位精度。本发明将多阶几何约束融入到高阶图匹配中，利用果实中心点间的核线几何约束、高阶结构特征约束实现其整体匹配，提升果实配对可靠性；进一步通过两阶段目标识别，实现果实花冠精细目标识别，提升了果实定位特征位置精度，最终实现果实的快速精确三维定位；本发明能免除图像灰度匹配，直接利用核线几何约束和高阶结构特征相似性约束，快速识别出果实在左右视图像中的同名特征，进而通过立体视觉的方式实现果实的三维准确定位。

具体实施方式

本发明的原理是：首先，采用张正友法对相机进行立体标定，并利用机械手采集角点的物方坐标，实现进行双目相机立体视觉系统的标定。然后，构建果实数据集，基于Yolov3模型与迁徙学习训练果实识别模型，利用训练好的模型对左右幅图像进行果实识别，获取果实边界矩形框，取矩形框的中心作为果实中心点。以左右幅图像上果实中心点为整体，利用果实中心点需满足的核线几何约束、高阶结构特征相似性约束构建超边，基于高阶图匹配的方法，一次性建立它们之间的对应关系。利用训练的果实花冠识别模型，进一步提取果实花冠中心点，采用前方交会技术计算同名果实花冠中心点所对应的三维坐标，作为最终果实定位结果。

下面结合具体实现方式对本发明所提供的技术方案做进一步详细描述。

一种基于多阶几何约束整体匹配的果实快速三维定位方法，实现步骤详细阐述如下：

第一步，双目相机立体视觉系统的标定

在进行果实定位之前，需要对双目相机进行标定获取相机的各项参数，建立物体从二维平面到三维世界坐标系的转换关系。本发明使用张正友法对相机进行立体标定，具体步骤如下：

1)采集图像：本发明选用9×7的棋盘格标定板，格子尺寸为30mm×30mm。双目相机位置固定，改变棋盘格标定板不同的位置、高度、旋转角度，利用双目相机获取20多对棋盘格标定板的立体图像。

2)提取角点：打开Matlab软件的Stereo Camera Calibration，勾选Tangentialdistortion以及3coefficient选项，导入所采集的立体影像，将棋盘格的格子尺寸设置为30mm。图像载入后，会自动检测出棋盘内的角点，删除角点特征不满足条件的立体图像对。

3)相机标定：执行标定操作，剔除掉重投影误差比较大的图像对重新计算，直到标定精度满足要求。至此，可以获得双目相机立体标定参数，主要包括每个相机镜头焦距f、镜头畸变参数k、光轴中心坐标(Cx，Cy)等内参数的精确值，以及两台相机之间的相对旋转矩阵R和平移向量T。

为了获取双目相机所构成的立体视觉系统与机械臂坐标系统的转换关系，采集了若干个(本发明实施例中为10)角点的真实三维空间坐标，利用空间后方交会技术，可以计算某相机的外方位元素，利用立体标定所获取的两台相机之间的相对旋转矩阵R和平移向量T，可以计算另外一个相机的外方位元素。至此，完成双目相机立体视觉系统的标定工作。

第二步，基于Yolo v3模型与迁徙学习的果实识别

本发明主要利用Yolo v3模型进行果实识别，Yolo v3是Yolo系列的第三个版本，具备多标签分类预测、跨尺度预测、网络结构灵活易变，检测速度快，准确率高等优点。具体步骤如下：

1)果实识别数据集构建。为了降低运算成本，提高果实识别效率，对图像进行数据预处理：a)图片大小调整，将果实图像样本统一调整为相同大小；b)格式转化，将多种图片格式统一为PNG格式。为了增加数据多样性和防止深度神经网络训练过程中的过拟合性，对样本图像进行翻转、旋转、随机裁剪、以及添加噪声等处理，进行数据增强建立果实数据集。

2)果实识别模型训练。使用Yolo v3网络在ImageNet数据集上的预训练权重作为模型的初始权重，采用迁移学习的方法，建立果实识别模型。由于Yolo v3中的anchorbox尺寸是基于开源数据集ImageNet先验框大小设定的，而所训练果实样本相交于开源数据集ImageNet而言，样本类型较少、尺度跨度较小，为了保证anchorbox和其相邻的groundtruth之间能够有更大的IOU(交并比值)，采用K-means聚类算法来获取训练时所用数据集先验框的大小。将数据分为训练、测试两个子数据集，把训练数据集输入到设置好的Yolov3网络模型中进行训练。

3)果实识别。利用训练所获得的果实识别模型，对双目相机拍摄获取的左右两幅图像分别进行果实识别，获取果实边界矩形框，取矩形框的中心作为果实中心点。

第三步，基于多阶几何约束整体匹配的同名果实配对

目前，果实匹配一般通过模板匹配方法，逐个确定左幅图像上果实中心点在右幅图像上的同名特征，受影像变形影响大，容易产生错误匹配。本发明采用基于多阶几何约束整体匹配方法，同时整体利用果实中心点的几何约束特征、高阶结构特征，一次性实现左右图像上所有果实中心点的整体匹配。具体实现步骤如下：

1)融合多阶几何约束的高阶图模型构建：设左幅图像上果实中心点集合为P¹，个数为N₁，右幅图像上果实中心点集合为P²，个数为N₂，

表示集合P¹和P²的第i个特征点。集合P¹和P²对应的高阶图模型为G＝(V，E，A)和G′＝(V′，E′，A′)。其中，V和V′为顶点集合，即

为超边的集合，d表示构成超边的顶点个数。超边e_1，…，k表示包含了顶点v₁，…，v_k的边，超边e′_1，…，k表示包含了顶点v′₁，…，v′_k的边。A和A′为超边所对应的属性集。假设左右可能的顶点响应集合为C＝V×V′，那么C的一个k元组如公式(1)所示：

c_s1＝(v₁，v′₁)，…，c_sk＝(v_k，v′_k) (1)

其中，(v₁，…，v_k)∈V，(v′₁，…，v′_k)∈V′。对于一个k阶的高阶图匹配，可以通过比较两个度为k的超边的相似性来衡量k元组的相似性。

指定k维相似性度量函数f_k，它的参数为高阶图属性集合A和A′中的元素。可以按照一种递归关系将低阶超边同时考虑，此时k阶超边的相似度张量为：

T_si ⁽¹⁾＝f₁(a_i，a′_i) (2)

式中，参数γ^(k)表示k阶超边相似度的加权系数，T的右上标(k)表示张量的维数。a_1，…，k，a′_1，…，k分别表示k阶高阶图属性集合中的元素。设超边最大阶数为δ，相似性张量T^δ为高阶张量，包含了所有不同度超边的相似性信息。

本发明中，采用3阶高阶图模型，主要利用1阶顶点相似度和3阶超边相似度构建高阶图模型的相似性度量。1阶相似度用于表达左右幅图像上果实中心点所需满足的核线几何约束，利用步骤1中所获取的双目相机外方位元素，可以计算得到双目相机的基本矩阵F(Fundamental Matrix)，则核线几何约束度量计算公式如下：

式中，u_l、v_l为左幅图像上果实中心点的像素坐标，u_r、v_r为右幅图像上果实中心点的像素坐标，当它们是同名特征时，f₁的值应接近于零。

利用3阶相似度表达果实间高阶结构特征约束关系。因为果实间的位置关系相对稳定，左右幅图像上同名特征构成的3阶超边应均有较高的几何相似度，即满足相似性约束条件。所采用的3阶超边相似性度量计算公式如下所示

其中，ε为常数项，

分别为3阶超边所对应三角形的内角。

2)超边的采样：对左幅图像上的每个果实中心点，采用随机采样的方式，抽取一定数量的包含该特征点的三元组作为其3阶超边，本发明中取50个。对右幅图像上的果实中心点，采样所有的三元组，并采用kd树建立空间索引。对左幅图像上每个三元组，寻找右幅图像上与之最邻近的若干个三元组，本发明中取200个。至此，完成高阶图模型的超边采样。

3)高阶图模型的解算：高阶图匹配，就是在顶点响应集合C中，寻找最优的响应关系，可用一个二进制赋值矩阵

描述，其一般满足双向约束，即

用张量积可以表示为：

为此，score(x)取得最大值所对应的x^*即为最优二进制赋值矩阵所对应的向量。

本发明主要借鉴Jungmin Lee等人论文《Hyper-graph Matching via ReweightedRandom Walks》中的方法，通过关联高阶图随机游走的方法进行求解，获取向量x，进而得到二进制赋值矩阵X，从而可以得到左右幅图像上果实中心点的对应关系。

第四步，果实同名特征精化与三维坐标计算

由于立体视觉系统中相机的焦距较短，果实会存在较大高程变化，造成其在左右幅图像上几何变形非常大，采用左右幅图像上果实的边界矩形框中心作为位置特征，受果实大小、形状的影响较大，在实际应用中，定位精度往往不能完全满足自动化作业需求。为此，本发明对果实同名特征和三维坐标计算做了精化处理，具体步骤如下：

1)果实花冠数据集构建。利用步骤二中获取的果实边界矩形框，边界朝四周各外扩一定大小(本实施例中为20个像素)，获取新的果实边界矩形框，利用该框提取果实图片。对所提取的部分果实图片，人工标注果实花冠部分，建立果实花冠训练数据集。

2)果实花冠识别模型训练。采用步骤二2)中的相同的方法，利用果实花冠数据集对模型进行训练，训练建立果实花冠识别模型。

3)果实同名特征精化与三维坐标定位：通过步骤三，可以获取左右幅图像上同名果实的中心点坐标，以其为中心分别在左右图像上开辟一定大小窗口进行图像提取，本实施例中窗口大小为81像素×81像素。将所提取的图像输入到果实花冠识别模型中，进行果实花冠识别，并将果实花冠识别框的中心点作为果实最终的位置特征。最后，利用步骤一获取的双目相机立体视觉系统标定参数，通过前方交会技术，计算同名果实花冠特征对应的三维坐标，作为果实最终的三维空间坐标，从而完成果实的快速三维定位。