CN114332689A

CN114332689A - 一种柑橘识别定位方法、装置、设备及存储介质

Info

Publication number: CN114332689A
Application number: CN202111527626.4A
Authority: CN
Inventors: 王灿; 许成杰; 孔斌; 易炳良
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-12

Abstract

本发明公开了一种柑橘识别定位方法、装置、设备及存储介质，所述方法包括：将采集的图像输入YOLOV4网络，利用YOLOV4网络获取柑橘中心在像素坐标中的位置信息；相机的内参标定；相机与激光雷达的外参标定；结合所求内参与外参将点云与图像融合，利用坐标变换矩阵将点云投影到图像上；找到目标柑橘对应的点云获得其深度值信息，完成柑橘的定位；本发明的优点在于：对柑橘的识别精度较高，定位过程计算量小，保证定位精度和实时性。

Description

一种柑橘识别定位方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉/多传感器数据融合技术领域，更具体涉及一种柑橘识别定位方法、装置、设备及存储介质。

背景技术

柑橘的识别与定位是采摘机器人实现自动化采摘的重要部分，其主要分成两个部分：目标检测、目标定位。随着深度学习的发展和应用，基于深度学习的目标检测网络应运而生。在目标检测方面，传统的柑橘识别依赖于颜色空间的转换和图像分割聚类，以区分柑橘果实和背景，这类方法对复杂场景下遮挡严重的柑橘检测精度较差。采用卷积神经网络自动提取目标区域特征信息，可以适应复杂的自然环境，具有更强的泛化能力，但卷积神经网络在目标检测中通常运行较慢，很难做到检测速度和检测精度的平衡。在目标定位方面，获取目标位置信息多采用双目相机利用视差计算距离方法。但双目相机对环境光照过于敏感，不适用于单调缺乏纹理的场景，且计算复杂度高，精度和实时性难以得到保证。

例如，中国专利公开号CN109711317A，公开的基于区域特征的成熟柑橘果实及枝叶的分割识别方法，首先以彩色图像的颜色特征生成特征向量，并使用特征映射表对颜色特征进行特征降维，以减少特征向量的维度；然后通过采摘机器人工作空间、双目摄像机视场大小以及柑橘果实大小，来确定目标物的ROI大小，将R、B通道中目标范围像素点数量占比大小作为选出ROI的依据；最终对得到的多个初选ROI中重合度较大的ROI进行分数排序，选择最大分数的ROI作为最佳分割识别区域。该专利申请的试验结果表明，在光线变化的条件下该方法对柑橘果实、背景和枝叶综合识别精度达到94％，单张分割时间达到0.2s，满足实时性要求。但是该专利申请依赖于颜色空间的转换和图像分割聚类，以区分柑橘果实和背景，对复杂场景下遮挡严重的柑橘检测精度较差，获取目标位置信息采用双目相机利用视差计算距离方法，但双目相机对环境光照过于敏感，不适用于单调缺乏纹理的场景，且计算复杂度高，精度和实时性难以得到保证。

发明内容

本发明所要解决的技术问题在于现有技术柑橘识别定位方法对复杂场景下遮挡严重的柑橘识别精度较差，定位过程计算复杂度高，定位精度和实时性难以得到保证的问题。

本发明通过以下技术手段实现解决上述技术问题的：一种柑橘识别定位方法，所述方法包括：

步骤一：将采集的图像输入YOLOV4网络，利用YOLOV4网络获取柑橘中心在像素坐标中的位置信息；

步骤二：相机的内参标定；

步骤三：相机与激光雷达的外参标定；

步骤四：结合所求内参与外参将点云与图像融合，利用坐标变换矩阵将点云投影到图像上；

步骤五：找到目标柑橘对应的点云获得其深度值信息，完成柑橘的定位。

本发明将采集的图像输入YOLOV4网络获取柑橘中心在像素坐标中的位置信息，YOLOV4网络相较于其他网络识别速度更快、识别精度更高，将广泛应用于自动驾驶场景中的激光雷达转移应用到柑橘定位，扫描目标输出的点云位置信息相较于双目相机更为准确且实时性更高，将雷达和相机的输出数据融合，完成激光雷达与相机联合标定后将点云投影到图像上，目标的像素和点云建立了对应关系，处理像素与点云数据的位置信息实现目标定位，定位过程计算量小，进一步提升定位精度和实时性。

进一步地，所述步骤一包括：

YOLOV4网络将一幅图像分成SⅹS个网格，每个网格预测的类别信息和预测框包含对象的置信真值相乘，结果为预测框与真值之间的重合度以及对象属于某个类的概率；在YOLOV4网络的最终输出中，每个预测框中包含对象的位置信息即预测框的中心点坐标和边长参数，至此利用YOLOV4网络完成了柑橘的检测以及获取到柑橘中心在像素坐标中的位置信息。

更进一步地，所述步骤二包括：

定义oxy为图像坐标系，O_c为摄像机的光心，O_cX_cY_c为摄像机所在的世界坐标系，oO_c的距离为f，则通过公式

求解世界坐标系与图像坐标系变换关系；

将图像坐标系转换为像素坐标系，设像素坐标系在x轴上缩放了α倍，在y轴上缩放了β倍，同时原点平移了[c_x，c_y]^T，那么像素坐标系上的点[u，v]^T表示为：

将式(1)代入式(3)入并把αf合并成f_x，把βf合并成f_y，得：

将式(3)转换为矩阵形式：

式(5)中间矩阵即为所求相机的内参矩阵。

更进一步地，所述步骤二还包括：

考虑相机的非线性畸变，假设归一化平面上的任意一点p，坐标为[x，y]^T，[x_distored，y_distored]^T为畸变后点的归一化坐标，r为点p与坐标原点之间的距离，则

x_distored＝x(1+k₁r²+k₂r⁴+k₃r⁶) (6)

y_distored＝y(1+k₁r²+k₂r⁴+k₃r⁶) (7)

另外对于切向畸变用另外两个参数进行修正：

x_distored＝x+2p₁xy+p₂(r²+2x²) (8)

y_distored＝y+p₁(r²+2y²)+2p₂xy (9)

其中，k₁，k₂，k₃，p₁，p₂相机的五个畸变参数；

内参标定采用棋盘格标定方式，利用OpenCV中的findchessboardCorners函数提取标定板中的内角点，在已知标定板尺寸的前提下建立三维空间点和像素点之间的对应关系完成上述式子中的各参数求解,内参矩阵和畸变参数的求解即完成了相机的内参标定。

更进一步地，所述步骤三包括：

由相机捕获的图像数据由(u,v)表示，激光雷达捕获的点云位置信息用(X,Y,Z)表示，两者转换关系表示为

其中f_x，f_y，c_x，c_y为相机的内参矩阵参数，R，t为相机与激光雷达相对位姿的旋转和平移矩阵，外参标定的过程即求解参数R，t的过程；

求解标定板在激光雷达坐标系和相机坐标系下的中心点坐标、平面法向量、四个角点坐标，在采集多组不同位置的数据后，构造目标函数优化求解外参，求解得到参数R，t。

更进一步地，所述步骤四包括：激光雷达捕获的点云位置信息投影到相机捕获的图像数据上，融合图像与点云信息，融合后的模型不仅保留了原始的RGB图像信息，同时也包含了激光雷达点云的位置和深度值信息。

更进一步地，所述步骤五包括：

假设在相机坐标系下一点P(Xc,Yc,Zc)为柑橘中心点三维空间坐标，其在像素坐标系中的对应坐标为(u，v)，将图像与点云融合后，预测框内部被激光雷达赋予了深度值信息，所以点P的深度值Zc由激光雷达测得，点P对应的像素坐标(u，v)即为YOLOV4网络检测输出柑橘的预测框中心点，综合以上信息Xc,Yc表达式求解如下：

求得点P(Xc,Yc,Zc)坐标值即完成了柑橘的定位。

本发明还提供一种柑橘识别定位装置，所述装置包括：

像素坐标识别模块，用于将采集的图像输入YOLOV4网络，利用YOLOV4网络获取柑橘中心在像素坐标中的位置信息；

内参标定模块，用于相机的内参标定；

外参标定模块，用于相机与激光雷达的外参标定；

投影模块，用于结合所求内参与外参将点云与图像融合，利用坐标变换矩阵将点云投影到图像上；

定位模块，用于找到目标柑橘对应的点云获得其深度值信息，完成柑橘的定位。

进一步地，所述像素坐标识别模块还用于：

更进一步地，所述内参标定模块还用于：

求解世界坐标系与图像坐标系变换关系；

将式(1)代入式(3)入并把αf合并成f_x，把βf合并成f_y，得：

将式(3)转换为矩阵形式：

式(5)中间矩阵即为所求相机的内参矩阵。

更进一步地，所述内参标定模块还用于：

x_distored＝x(1+k₁r²+k₂r⁴+k₃r⁶) (6)

y_distored＝y(1+k₁r²+k₂r⁴+k₃r⁶) (7)

另外对于切向畸变用另外两个参数进行修正：

x_distored＝x+2p₁xy+p₂(r²+2x²) (8)

y_distored＝y+p₁(r²+2y²)+2p₂xy (9)

其中，k₁，k₂，k₃，p₁，p₂相机的五个畸变参数；

更进一步地，所述外参标定模块还用于：

更进一步地，所述投影模块还用于：激光雷达捕获的点云位置信息投影到相机捕获的图像数据上，融合图像与点云信息，融合后的模型不仅保留了原始的RGB图像信息，同时也包含了激光雷达点云的位置和深度值信息。

更进一步地，所述定位模块还用于：

求得点P(Xc,Yc,Zc)坐标值即完成了柑橘的定位。

本发明还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现上述所述的方法步骤。

本发明还提供一种计算机可读存储介质，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时实现上述所述的方法步骤。

本发明的优点在于：

(1)本发明将采集的图像输入YOLOV4网络获取柑橘中心在像素坐标中的位置信息，YOLOV4网络相较于其他网络识别速度更快、识别精度更高，将广泛应用于自动驾驶场景中的激光雷达转移应用到柑橘定位，扫描目标输出的点云位置信息相较于双目相机更为准确且实时性更高，将雷达和相机的输出数据融合，完成激光雷达与相机联合标定后将点云投影到图像上，目标的像素和点云建立了对应关系，处理像素与点云数据的位置信息实现目标定位，定位过程计算量小，进一步提升定位精度和实时性。

(2)本发明为了使相机标定结果更加准确，在进行相机标定时应该将相机的非线性畸变考虑进来，修正理想投影模型。

附图说明

图1为本发明实施例所公开的一种柑橘识别定位方法中YOLOV4网络结构示意图；

图2为本发明实施例所公开的一种柑橘识别定位方法中柑橘定位流程图；

图3为本发明实施例所公开的一种柑橘识别定位方法中针孔相机模型示意图；

图4为本发明实施例所公开的一种柑橘识别定位方法中相机与激光雷达联合标定的基本原理示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

一种柑橘识别定位方法，所述方法包括：

步骤二：相机的内参标定；

步骤三：相机与激光雷达的外参标定；

步骤五：找到目标柑橘对应的点云获得其深度值信息，完成柑橘的定位。以下分节详细介绍每个步骤的具体过程。

1、柑橘检测

YOLO算法核心思想是将整张图片作为网络的输入，将一幅图像分成SⅹS个网格，如果某个待检测目标的中心位于这个网格，那么这个网格就负责检测该目标。每个网格预测的类别信息和bounding box包含对象的置信真值相乘，结果即为预测框与真值之间的重合度以及对象属于某个类的概率，公式如下：

其中Pr(Class_i|Object)表示目标属于某一类的概率，

表示bounding box(预测框)包含对象的置信真值，

表示预测值和真值相结合的交集。在得到每个bounding box的置信度得分后，设置阈值去除得分较低的部分，对剩余部分的bounding box进行NMS处理，即可得到最终的检测结果。检测结果包括三个部分：目标的类型信息、目标的坐标信息、目标类别概率，其网络结构如图1所示。

在YOLOV4网络的最终输出中，每个bounding box中包含对象的位置信息，即bounding box的中心点坐标和边长参数，至此利用YOLOV4网络完成了柑橘的检测以及获取到柑橘中心在像素坐标中的位置信息，但其深度值尚未求出，下一步获取柑橘的深度值信息。

2、柑橘定位

要求得柑橘的深度值信息大致分为以下几个步骤：1、相机的内参标定，2、相机与激光雷达的外参标定，3、结合所求内参与外参将点云和图像融合，利用坐标变换矩阵将点云投影到图像上，4、找到目标柑橘对应的点云获得其深度值信息，即完成柑橘的定位，流程图如图2所示。

相机的内参标定主要用到两个模型：针孔模型和畸变模型。

图3为针孔相机模型，其中oxy坐标为图像坐标系，O_c为摄像机的光心，为了模型更符合实际，可以等价地把成像平面oxy对称地放到相机前方，和三维世界空间点P一起放在摄像机坐标系的同一侧。已知△ABO_c与△OCO_c相似,△PBO_c△pCO_c相似，可推出：

上述公式即完成了世界坐标系与图像坐标系变换关系的求解，再将图像坐标系转换为像素坐标系。像素坐标系与成像平面之间相差了一个缩放和原点的平移，设像素坐标系在x轴上缩放了α倍，在y轴上缩放了β倍，同时原点平移了[c_x，c_y]^T,那么像素坐标系上的点[u，v]^T就可以表示为：

将式(1)带入并把αf合并成f_x，把βf合并成f_y，得：

将式(3)转换为矩阵形式：

式(5)中间矩阵即为所求相机的内参矩阵。

理想的摄像机模型是针孔模型，但是实际的镜头不符合这种假设。为了使相机标定结果更加准确，在进行相机标定时应该将相机的非线性畸变考虑进来，修正理想投影模型。假设归一化平面上的任意一点p，它的坐标为[x，y]^T,[x_distored，y_distored]^T为畸变后点的归一化坐标，通常假设这些畸变呈多项式关系,r为点p与坐标原点之间的距离。

x_distored＝x(1+k₁r²+k₂r⁴+k₃r⁶) (6)

y_distored＝y(1+k₁r²+k₂r⁴+k₃r⁶) (7)

另外对于切向畸变可以用另外两个参数进行修正：

x_distored＝x+2p₁xy+p₂(r²+2x²) (8)

y_distored＝y+p₁(r²+2y²)+2p₂xy (9)

综上可以用五个参数表示相机的畸变(k₁，k₂，k₃，p₁，p₂)。内参标定采用棋盘格标定方式，利用OpenCV中的findchessboardCorners函数提取标定板中的内角点，在已知标定板尺寸的前提下建立三维空间点和像素点之间的对应关系完成上述式子中的参数求解,内参矩阵和畸变参数的求解及完成了相机的内参标定。

求解得到相机的内参矩阵为：

畸变系数(k₁，k₂，k₃，p₁，p₂)分别为：-0.063009,0.163677，-0.000323,0.001588,0.000000。

相机与激光雷达联合标定的基本原理模型如图4所示。由相机捕获的图像数据用(u,v)表示，激光雷达捕获的点云位置信息用(X,Y,Z)表示，其转换关系可以表示为：

其中f_x，f_y，c_x，c_y为相机的内参矩阵参数，R，t为相机与激光雷达相对位姿的旋转和平移矩阵，联合标定的过程即求解参数R，t的过程。为去除激光雷达点云数据中不感兴趣的区域，本发明采用rqt_reconfigure动态调整激光雷达坐标系中各坐标限值大小，获得点云数据的ROI，减小了产生错误检测的可能性，便于对标定板平面进行拟合。即使没有空旷的标定场地，也能较为准确地完成联合标定工作。

激光雷达点云的拟合采用随机采样一致性算法(RANSAC)，其通过估计基本模型参数所需的最小数量的观测值(数据点)来生成候选解，拟合标定板点云。但实际上分割拟合出来的点云并不在一个精确平面上，通过ProjectInliers函数将分割出来的点云投影到拟合得到的平面上，并根据拟合结果得到标定板的法向量。获取每条标定板点云线的起点和终点，利用随机采样一致性算法求得标定板点云的四条边，通过lineWithLineIntersection函数获得标定板点云平面的四个角点，进而计算中心点坐标。至此求得了激光雷达坐标系中标定板的四个角点坐标、中心点坐标、平面法向量。

对于相机特征的提取，先将RGB图像转化为灰度图，利用findchessboardCorners函数提取标定板的亚像素精度内部角点数据，找到标定板的中心坐标。已知棋盘格的尺寸信息，即可求得每个边缘角点的像素坐标和在相机坐标系下的坐标，利用pnp算法求解相机坐标系下标定板的位姿，得到标定板的平面法向量。

上述内容分别求得了标定板在激光雷达坐标系和相机坐标系下的中心点坐标、平面法向量、四个角点坐标，在采集多组不同位置的数据后，构造目标函数优化求解传感器外参。求解得到R，t相机与激光雷达相对位姿的旋转和平移矩阵，其中R旋转矩阵采用欧拉角的形式表示即roll滚转角，pitch俯仰角，yaw偏航角，t包含xyz三个方向的平移量，最终结果如下：

R＝[-1.52033,0.0242735,-1.50977]^T,

t＝[1.93773,-0.741232,-0.144967]^T

在求得内参与外参后即可将点云投影到图像上，融合图像与点云信息，融合后的模型不仅保留了原始的RGB图像信息，同时也包含了激光雷达点云的位置和深度值信息。

由式(5)可得，假设在相机坐标系下一点P(Xc,Yc,Zc)为柑橘中心点三维空间坐标，其在像素坐标系中的对应坐标为(u，v)，将图像与点云融合后，bounding box内部被激光雷达赋予了深度值信息，所以点P的深度值Zc可由激光雷达测得，点P对应的像素坐标(u，v)即为YOLOV4网络检测输出柑橘的bounding box中心点，综合以上信息Xc,Yc表达式求解如下：

式(11)中的参数f_x，f_y，c_x，c_y都可由前述相机内参标定求得，在求得点P(Xc,Yc,Zc)坐标值后即完成了柑橘的定位。

通过以上技术方案，本发明利用YOLOV4网络进行柑橘目标检测，调整网络参数，使其能在保证识别精度的前提下提高柑橘检测的速度，更适用于现实场景中的柑橘目标检测。在此基础上融合了相机与激光雷达的数据信息，将点云与投影到图像上，赋予了图像深度信息，从而能够实现对柑橘目标三维空间位置的求解，相较于利用双相机获取深度信息的方式，点云数据深度信息更加准确且处理计算量更小，不受光线的影响，在定位耗时和精度上有一定优势，更符合柑橘采摘机器人的技术需求。

实施例2

基于实施例1，本发明还提供一种柑橘识别定位装置，所述装置包括：

内参标定模块，用于相机的内参标定；

外参标定模块，用于相机与激光雷达的外参标定；

具体的，所述像素坐标识别模块还用于：

更具体的，所述内参标定模块还用于：

求解世界坐标系与图像坐标系变换关系；

将式(1)代入式(3)入并把αf合并成f_x，把βf合并成f_y，得：

将式(3)转换为矩阵形式：

式(5)中间矩阵即为所求相机的内参矩阵。

更具体的，所述内参标定模块还用于：

x_distored＝x(1+k₁r²+k₂r⁴+k₃r⁶) (6)

y_distored＝y(1+k₁r²+k₂r⁴+k₃r⁶) (7)

另外对于切向畸变用另外两个参数进行修正：

x_distored＝x+2p₁xy+p₂(r²+2x²) (8)

y_distored＝y+p₁(r²+2y²)+2p₂xy (9)

其中，k₁，k₂，k₃，p₁，p₂相机的五个畸变参数；

更具体的，所述外参标定模块还用于：

更具体的，所述投影模块还用于：激光雷达捕获的点云位置信息投影到相机捕获的图像数据上，融合图像与点云信息，融合后的模型不仅保留了原始的RGB图像信息，同时也包含了激光雷达点云的位置和深度值信息。

更具体的，所述定位模块还用于：

求得点P(Xc,Yc,Zc)坐标值即完成了柑橘的定位。

实施例3

本发明还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现实施例1所述的方法步骤。

实施例4

本发明还提供一种计算机可读存储介质，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时实现实施例4所述的方法步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种柑橘识别定位方法，其特征在于，所述方法包括：

步骤二：相机的内参标定；

步骤三：相机与激光雷达的外参标定；

2.根据权利要求1所述的一种柑橘识别定位方法，其特征在于，所述步骤一包括：

3.根据权利要求2所述的一种柑橘识别定位方法，其特征在于，所述步骤二包括：

求解世界坐标系与图像坐标系变换关系；

将式(1)代入式(3)入并把αf合并成f_x，把βf合并成f_y，得：

将式(3)转换为矩阵形式：

式(5)中间矩阵即为所求相机的内参矩阵。

4.根据权利要求3所述的一种柑橘识别定位方法，其特征在于，所述步骤二还包括：

x_distored＝x(1+k₁r²+k₂r⁴+k₃r⁶) (6)

y_distored＝y(1+k₁r²+k₂r⁴+k₃r⁶) (7)

另外对于切向畸变用另外两个参数进行修正：

x_distored＝x+2p₁xy+p₂(r²+2x²) (8)

y_distored＝y+p₁(r²+2y²)+2p₂xy (9)

其中，k₁，k₂，k₃，p₁，p₂相机的五个畸变参数；

内参标定采用棋盘格标定方式，利用OpenCV中的findchessboardCorners函数提取标定板中的内角点，在已知标定板尺寸的前提下建立三维空间点和像素点之间的对应关系完成上述式子中的各参数求解，内参矩阵和畸变参数的求解即完成了相机的内参标定。

5.根据权利要求4所述的一种柑橘识别定位方法，其特征在于，所述步骤三包括：

由相机捕获的图像数据由(u，v)表示，激光雷达捕获的点云位置信息用(X，Y，Z)表示，两者转换关系表示为

6.根据权利要求5所述的一种柑橘识别定位方法，其特征在于，所述步骤四包括：激光雷达捕获的点云位置信息投影到相机捕获的图像数据上，融合图像与点云信息，融合后的模型不仅保留了原始的RGB图像信息，同时也包含了激光雷达点云的位置和深度值信息。

7.根据权利要求6所述的一种柑橘识别定位方法，其特征在于，所述步骤五包括：

假设在相机坐标系下一点P(Xc，Yc，Zc)为柑橘中心点三维空间坐标，其在像素坐标系中的对应坐标为(u，v)，将图像与点云融合后，预测框内部被激光雷达赋予了深度值信息，所以点P的深度值Zc由激光雷达测得，点P对应的像素坐标(u，v)即为YOLOV4网络检测输出柑橘的预测框中心点，综合以上信息Xc，Yc表达式求解如下：

求得点P(Xc，Yc，Zc)坐标值即完成了柑橘的定位。

8.一种柑橘识别定位装置，其特征在于，所述装置包括：

内参标定模块，用于相机的内参标定；

外参标定模块，用于相机与激光雷达的外参标定；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现权利要求1-7任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时实现权利要求1-7任一项所述的方法步骤。