CN104700404B

CN104700404B - 一种果实定位识别方法

Info

Publication number: CN104700404B
Application number: CN201510093098.4A
Authority: CN
Inventors: 郑立华; 麦春艳; 肖昌; 肖昌一; 陈元; 李民赞
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2018-03-02
Anticipated expiration: 2035-03-02
Also published as: CN104700404A

Abstract

本发明公开了一种果实定位识别方法，本发明的方法利用神经网络颜色分类模型分割出果实像素区域；利用边缘检测算法对去除背景的果实像素区域图像进行边缘检测，检测出果实边界；利用图像中定位形状的霍夫变换技术对果实边缘图像进行霍夫变换的圆检测，获得果实圆及圆心位置，并且实现了对果实重叠区域的分割；基于图像深度信息，融合摄像头姿态信息和世界位置信息，采用世界坐标变换算法对每个果实圆心的世界坐标进行提取，实现果实的快速检测、精准定位和准确计数。

Description

一种果实定位识别方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，更具体涉及一种果实定位识别方法。

背景技术

随着全球信息化的迅猛发展，数字农业已经发展成为现代农业的新潮流。快速准确地获取农作物生长形态图像信息已成为农业数字化和智慧化管理的必然趋势和手段。利用机器视觉技术准确获取果树上果实的数量是进行果树测产和精细果园管理的关键。传统的果实产量估测是基于历史数据、天气条件和人工计数来进行的，这种方法不仅误差较大，而且还费时费力，已不能满足现代农业发展的需求。随着现代信息技术的发展，基于机器视觉的测产方法表现出了能够代替人工测产方法的潜力。到目前为止，国内外一些机构已经开发了各种基于机器视觉的果实的识别计数系统。

卡梅隆大学的Q.Wang等开发了基于双目视觉的苹果园测产系统。在HSV颜色空间下，利用苹果和树叶颜色区间的不同检测出果实像素点，然后使用形态学算法将苹果的像素区域分割为个体苹果。首先计算每个苹果区域的偏心率(E)，并使用阈值0＜E＜0.6发现相对圆区，去除噪声后，计算剩余相对圆区的平均直径并将其作为苹果的平均直径计算某个苹果区域直径，若该直径大于则将这对区域分解为两个苹果。对受遮挡的苹果，一个苹果可能得到多个苹果区域，计算任意两个苹果区域的中心之间的距离，若该距离小于则将这两个区域视为只有一个苹果。再从多幅图像中对苹果进行定位，使用块匹配算法获得图像序列中被测苹果在以摄像头为参照的坐标系中的三维坐标，再将该坐标转换到地面坐标系中，在地面坐标系中，计算两个苹果之间的距离，合并距离小于0.05m的两个苹果，并给出合并后的苹果新的定位。通过计算果园固定设施的GPS偏移和立体三角测量偏差修正苹果位置。得到校正后的定位信息后，对苹果进行计数。但是该系统需要在晚上有人工光源和人工背景的条件下才能进行，并且对苹果重叠问题只能检测两个苹果的重叠情况。

中国农业大学提出了一种基于多源图像信息融合的果实识别方法。该方法使用基于光学混合探测(PMD)技术的深度摄像机与RGB摄像机组合捕获果园环境的多源图像并进行预处理，得到待配准图像。通过SURF算法提取待配准图像的尺度不变特征，欧式距离作为判断特征相似的测度，最近邻与次近邻比值实现特征向量的初匹配，采用最近邻的搜索策略加速过程，剔除异常点与优化模型交替迭代的方法提纯匹配结果，采用模糊逻辑技术实现多源图像的像素级融合。采用直方图首阈检测的方法实现对果实区域识别。但是该发明并没有解决果实遮掩、重叠、定位等问题。

其他相关研究也不尽人意，现有技术受环境光照影响显著，也未能很好地解决光照变化、果实表面颜色变异、重叠、遮挡，以及果实定位和计数等问题，给测产结果带来较大的误差。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何有效解决光照变化、果实颜色变异、果实重叠、果实遮挡的影响，并通过对果实定位的方法准确对果实数量进行计数。

(二)技术方案

为了解决上述技术问题，本发明提供了一种果实定位识别方法，所述方法包括以下步骤：

S1、利用不同光照条件下的不同成熟程度果实图像与非果实图像作为训练样本，通过对神经网络模型进行训练得到用于果实检测的神经网络颜色分类模型；

S2、获取目的场景的RGB图像以及深度图像；

S3、将所述RGB图像的R、G、B值作为所述神经网络颜色分类模型的输入，并输入到所述神经网络颜色分类模型，由所述神经网络颜色分类模型对所述RGB图像的像素点进行分类，去除背景像素，得到果实像素区域图像；

S4、利用边缘检测算法对所述步骤S3得到的果实像素区域图像进行边缘检测，得到果实边缘图像，所述果实边缘图像为各个果实的边界；

S5、选用标准的圆作为果实的形状模型，利用霍夫变换算法对所述果实边缘图像进行圆检测，得到果实圆以及圆心在所述RGB图像中的坐标；利用霍夫变换圆检测，根据不完全信息检测园的特性实现对所述果实边缘图像中重叠区域的分割；

S6、匹配所述RGB图像和深度图像的像素坐标，得到果实圆心的深度信息；

S7、根据果实圆心的所述深度信息，融合采集深度图像的摄像头的姿态信息以及其世界定位信息，通过世界坐标变换算法得到每个果实圆心的世界坐标。

优选地，所述步骤S2中，通过RGB摄像头获取所述RGB图像，通过深度摄像头获取所述深度图像。

优选地，所述步骤S1中的神经网络颜色分类模型为三层结构的BP神经网络，其隐含层神经元使用双曲正切S型传递函数tansig，用于将所述隐含层神经元上范围为(-∞，+∞)的输入值映射到区间(-1，+1)上；输出层使用线性传递函数purelin传递函数。

优选地，所述步骤S3之后、所述步骤S4之前，还包括以下步骤：

所述神经网络颜色分类模型对所述果实像素区域图像进行二值化，然后对二值化的所述果实像素区域图像进行形态学的孔洞填充和开运算，用得到的孔洞填充和开运算之后的所述果实像素区域图像对所述RGB图像做掩码运算，得到边缘平滑的去除背景的果实像素区域图像。

优选地，所述步骤S4中的边缘检测算法为拉普拉斯二阶零交叉检测算子，所述拉普拉斯二阶零交叉检测算子利用两个不同参数的高斯函数的差来近似地对所述果实像素区域图像作卷积，通过寻找所述果实像素区域图像的二阶导数的过零点来寻找边界，从而检测出果实图像的边缘点。

优选地，所述步骤S7中，得到每个果实圆心的世界坐标的具体步骤为：

S71、将深度图像的坐标系中的坐标转换为深度摄像头坐标系的坐标；

S72、将所述深度摄像头坐标系中的坐标转换为世界坐标系的坐标。

优选地，所述步骤S71根据如下公式进行坐标系转换：

其中，(X,Y)为所述果实圆心在深度图像坐标系中的坐标，(U_c,V_c,W_c)为所述果实圆心在所述深度摄像头坐标系的坐标，f为所述深度摄像头的焦距，c_x和c_y分别为所述深度摄像头水平分辨率和垂直分辨率值的一半。

优选地，所述步骤S72根据如下公式进行坐标系转换：

其中，(U_c,V_c,W_c)为所述果实圆心在所述深度摄像头坐标系的坐标，(X_w,Y_w,Z_w)为所述果实圆心在世界坐标系中的坐标，T为三维平移向量，R为旋转矩阵，并根据如下公式计算得到：

其中，α，β，γ为所述深度摄像头坐标系分别绕世界坐标系的X_w轴，Y_w轴和Z_w轴的旋转角度，即深度摄像头的姿态信息。

优选地，所述三维平移向量T为通过GPS定位系统测量得到的所述深度摄像头的在世界坐标系统的坐标值，即深度摄像头的世界定位信息。

优选地，训练得到所述神经网络颜色分类模型具体为：

选取拍摄得到的苹果图像和非苹果图像，作为所述训练样本；随机从中选取苹果像素块和非苹果像素块，读取每个所述苹果像素块和非苹果像素模块中每个像素的R、G、B值、并对读取到的像素进行标注，苹果像素置为1，非苹果像素置为-1，由此得到所述训练样本的训练数据；设定训练参数，读入所述训练数据进行神经网络的模型的训练，得到所述神经网络颜色分类模型。

(三)有益效果

本发明提供了一种果实定位识别方法，本发明的方法能有效解决光照不均、树叶遮挡、果实重叠、树枝分割、背景复杂、重复计数等问题，经试验验证，该方法与人工统计法获得的计数结果之间具有极高的相关性，决定系数R²达到了0.885，显示该算法具有较高的准确性和抗干扰能力，能够用于野外环境中成熟期果实测产；另外本发明的方法适用于果园管理，适用性和抗干扰性强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种果实定位识别方法流程图；

图2为用于获取RGB图像和深度图像的装置的外观图；

图3a为苹果颜色分布图；

图3b为背景颜色分布图；

图4a为本发明中的RGB图像；

图4b为本发明中的深度图像；

图5为深度图像像素坐标系；

图6为深度摄像头坐标系；

图7为深度摄像头成像的几何关系图；

图8为本发明的一个较佳实施例的一种果实定位识别方法流程图；

图9为本发明的一个较佳实施例的果园地面图像；

图10为本发明的一个较佳实施例的果园卫星图像；

图11为进行本发明的方法的装置示意图；

图12a为本发明的一个较佳实施例的光照不均或树叶遮挡果实情景；

图12b为本发明的一个较佳实施例的树枝遮挡果实情景；

图12c为本发明的一个较佳实施例的果实重叠情景；

图12d为本发明的一个较佳实施例的果实颜色变化情景；

图13为本发明的一个较佳实施例的果园测产图片；

图14为本发明的一个较佳实施例的颜色分割结果示意图；

图15为本发明的一个较佳实施例的处理后的边缘图像；

图16为本发明的一个较佳实施例的圆检测图像；

图17为本发明的一个较佳实施例的检测结果示意图；

图18a、18b、18c为利用本发明的方法在其他图片上的检测结果；

图19为本发明的一个较佳实施例的果实圆心标注示意图；

图20、21为本发明的一个较佳实施例的重复苹果示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

图1为本发明一种果实定位识别方法流程图，所述方法包括以下步骤：

S1、利用不同光照条件下的不同成熟程度果实图像与非果实图像作为训练样本，通过对神经网络模型进行训练得到用于果实检测的神经网络颜色分类模型；选取拍摄得到的苹果图像和非苹果图像，作为所述训练样本；随机从中选取苹果像素块和非苹果像素块(比如树叶、树枝、土壤、天空等)，读取每个所述苹果像素块和非苹果像素模块中每个像素的R、G、B值、并对读取到的像素进行标注，苹果像素置为1，非苹果像素置为-1，由此得到所述训练样本的训练数据；设定训练参数，读入所述训练数据进行神经网络的模型的训练，得到所述神经网络颜色分类模型；

S2、获取目的场景的RGB图像以及深度图像；

S3、将所述RGB图像的R、G、B值作为所述神经网络颜色分类模型的输入，并输入到所述神经网络颜色分类模型，由所述神经网络颜色分类模型对所述RGB图像的像素点进行分类，去除背景像素，得到果实像素区域图像；具体为：读取像素点的RGB值，输入到神经网络的三个输入通道，运算该神经网络即可得到该像素点是苹果像素还是非苹果的像素点。然后将图片中非苹果的像素点去除，即去除了背景像素；

S4、利用边缘检测算法对所述步骤S3得到的果实像素区域图像进行边缘检测，得到果实边缘图像，所述果实边缘图像为各个果实的边界；果实像素区域包括：分类得到的苹果像素所在的图像区域；理论上果实边缘图像包括果实的边缘，不包括叶子的边缘；

S6、匹配所述RGB图像和深度图像的像素坐标，得到果实圆心的深度信息；本文件实验时使用了Kinect2自带的匹配算法进行匹配；

所述步骤S2中，通过RGB摄像头获取所述RGB图像，通过深度摄像头获取所述深度图像。

所述步骤S1中的神经网络颜色分类模型为三层结构的BP神经网络，其隐含层神经元使用双曲正切S型传递函数tansig，用于将所述隐含层神经元上范围为(-∞，+∞)的输入值映射到区间(-1，+1)上；输出层使用线性传递函数purelin传递函数。

所述步骤S3之后、所述步骤S4之前，还包括以下步骤：

所述步骤S4中的边缘检测算法为拉普拉斯二阶零交叉检测算子，所述拉普拉斯二阶零交叉检测算子利用两个不同参数的高斯函数的差来近似地对所述果实像素区域图像作卷积，通过寻找所述果实像素区域图像的二阶导数的过零点来寻找边界，从而检测出果实图像的边缘点。

所述步骤S7中，得到每个果实圆心的世界坐标的具体步骤为：

所述步骤S71根据如下公式进行坐标系转换：

其中，(X,Y)为所述果实圆心在深度图像坐标系中的坐标，(U_c,V_c,W_c)为所述果实圆心在所述深度摄像头坐标系的坐标，f为所述深度摄像头的焦距，c_x和c_y分别所述深度摄像头水平分辨率和垂直分辨率值的一半。

所述步骤S72根据如下公式进行坐标系转换：

所述三维平移向量T为通过GPS定位系统测量得到的所述深度摄像头的在世界坐标系统的坐标值，即深度摄像头的世界定位信息。

本发明的方法能有效解决光照不均、树叶遮挡、果实重叠、树枝分割、背景复杂、果实重复计数等问题，经试验验证，该方法与人工统计法获得的计数结果之间具有极高的相关性，决定系数R²达到了0.885，显示该算法具有较高的准确性和抗干扰能力，能够用于野外环境中成熟期多事测产；另外本发明的方法适用于果园管理，适用性和抗干扰性强。

以苹果为例进行说明：

果实深度图像及RGB图像的获取

本发明使用的深度相机采用微软公司开发的一款应用于XBOX360室内体感游戏和人体部位、姿势识别的Kinect体感设备，如图2所示。2014年微软推出了第二代Kinect，其性能较第一代Kinect体感设备有所提高，其RGB摄像头提升为分辨率为1920*1080的高清摄像头，能够捕捉到事物的细节信息，RGB彩色图像画质更为清晰。同时新的Kinect的视野较前一代提高了60％，这意味着使用新的传感器可以得到更紧密、更深入和更广泛的捕捉范围。Kinect采用光编码技术，每秒可以处理30帧的深度信息。深度成像系统主要包括三个核心元件：激光发射器、不均匀透明介质、CMOS感光器件。激光发射器与传感器成一定的角度对向目标场景，不均匀介质置于激光发射器的镜前。激光透过不均匀介质在目标场景形成激光散斑，传感器则对激光散斑进行拍摄。Kinect传感器的探测视野呈金字塔形状，离摄像机越远则有更大的视场横截面。因此图像的高度值和宽度值与图像目标在视场中所处的实际物理位置并不是一一对应的，但每个像素的深度值与视场中物体到摄像机的距离是相对应的。通过采集的深度信息，可以分辨出图像中各目标事物之间的相对位置。

检测计量算法

针对果树测产图像的特点，本发明提出了一种快速进行苹果果实定位识别的方法：利用神经网络颜色分类模型分割出苹果(以苹果为例)像素区域，利用Zerocross检测算法对去除背景后的苹果像素区域进行边缘检测，利用形状模型(霍夫变换的圆检测)对苹果果实边缘进行圆检测，基于图像深度、姿态、位置等信息对每一果实圆心的世界坐标进行提取并实现去重处理，通过对以上数据进行融合实现苹果的检测、定位和计数，具体为：

神经网络颜色分类模型

成熟期的苹果和周围的环境在颜色上的区别很大，因此可以把颜色作为分割的一个重要的特征。为了量化分析苹果的颜色特征，对拍摄到的苹果进行取样分析，得到的苹果颜色的分布图3a、3b所示，可以看出，苹果和非苹果背景的颜色分布并不是线性分布，因此不能简单进行线性分割。本发明根据颜色、光照分布的复杂性，选用神经网络实现目标像素与背景像素之间的分割。神经网络具有拟合复杂函数的能力，训练完的神经网络分类模型具有非常快的计算速度以及较高的分类精度。本发明构建了具有3层结构的BP神经网络，其中隐含层有6个结点，其隐含层神经元使用tansig传递函数，tansig( )函数它是一双曲正切S型(sigmoid)传递函数，用于将神经元上范围为(-∞，+∞)的输入值映射到区间(-1，+1)上。输出层使用purelin传递函数，purelin函数是线性传递函数，用于BP神经网络算法训练的输出层神经元。输入层采用像素点的R、G、B值作为输入特征。从果园拍摄的图像中选取了具有代表性的178张不同光照条件下的不同成熟程度的苹果图像以及39张非苹果图像，然后分别选取苹果区域像素和非苹果区域的像素来构成训练数据集，通过对神经网络进行大数据量的训练，得到了可用于苹果果实检测的健壮的神经网络颜色分类模型。

形状检测模型

由于个体的差异以及拍摄角度的影响，苹果在图像上的形状表现得各种各样，但总体上，苹果的外部形状具有类圆的特点，因此从各个角度拍摄苹果都可以得到局部圆形化的轮廓。由于遮挡的原因，苹果的外形有时是一个不完整的圆，如果被树枝遮挡的话，可能被分为几个扇形部分。为了解决不完全外形条件下的苹果检测问题，本发明选用标准的圆作为苹果的形状模型，通过霍夫变换的圆检测算法作为苹果的检测算法。

霍夫变换是一种在图像中定位形状的技术。霍夫变换可以得到和模板匹配相同的结果，但是速度更快。霍夫变换是基于“证据收集”方法，通过模板匹配过程的重新描述实现的，其中，证据是在累加器数组投票的，霍夫变换的实现定义了一种从图像点到累加器空间(霍夫空间)的映射，这种映射是基于描述目标形状的函数。相对于模板匹配，这种映射要求的计算资源更少。本发明的累加器空间由等式(1)定义，通过对(x₀,y₀)的个数累加来实现圆的检测。

为了实现霍夫变换的圆检测，需要对去除背景的图像进行边缘检测，来检测出苹果的边界，尤其是要实现对苹果重叠区域的分割。

由于苹果的纹理特性，需要选用抗噪性比较强的边缘检测算法。本发明采用Zerocross检测算子作为边缘检测的算子。Zerocross检测算子利用两个不同参数的高斯函数的差来近似地对图像作卷积，通过寻找图像的二阶导数的过零点来寻找图像的边界，从而检测出图像的边缘点。

通过霍夫变换的圆检测对Zerocross检测得到的边缘图像进行处理，从而得到苹果的圆心位置。

提取果实世界坐标

在苹果测产时，需要对果园果树的不同区域进行不同角度的拍摄，这可能导致果树上的同一苹果被多次拍摄，即同一苹果出现在多幅果树图像当中。这意味着，如果单对每幅果树图像中的苹果圆心进行计数并将其累加作为果树的苹果产量，将人为增加果树的果实计数值，导致错误的果树产量测定。若将这种统计方法运用到整个果园果实测产当中，会带来很大的误差。因此，必须消除不同图像当中相同苹果的重复计数。本发明通过图像的深度信息，再融合深度相机的姿态信息和定位信息提取出图像中每个苹果圆心的世界坐标，从而对每个苹果进行了空间位置上的唯一标识，避免了果实重复计数，大大提高了果树产量统计精度。可以预见，通过提高姿态传感器和定位传感器的精度，还将大幅提高果树苹果产量测定精度。

RGB图像和深度图像的匹配

由于深度摄像头和RGB摄像头获得的深度图像和RGB图像的分辨率不同，深度图像的分辨率为512*424,而RGB图像的分辨率为1920*1080；另外，因为Kinect的深度摄像头和RGB摄像头处于不同的位置，所以两个摄像头所获得的图像画面会存在较小的差异。如图4a、4b，图4aRGB图像中的A、B区域在4b深度图像中没有映射，而图4b深度图像中的C区域在4aRGB图像中没有映射。因此，在RGB图像和深度图像中的每个像素点的坐标不是完全对应的。所以，为了将RGB图像中苹果圆心像素坐标映射到深度图像当中，以得到RGB图像中苹果圆心准确的深度信息，需要对RGB图像和深度图像进行匹配。

通过调用NuiImageGetColorPixelCoordinatesFromDepthPixel函数得到所有深度图像像素坐标在RGB图像像素坐标的映射。获得深度图像和RGB图像的像素坐标的映射关系后，基于映射关系查询深度图像像素坐标，找到对应于RGB图像苹果圆心的深度信息。图4a、4b中实际能获得苹果圆心的深度信息的苹果为RGB图像中除去区域A、B后剩余的苹果。

像素坐标系到摄像头坐标系的转换

通过Kinect传感器采集获得深度图像的像素坐标，通过坐标系转换关系可以将图像中点P在像素坐标系中的坐标转换得到其在世界坐标系的坐标。首先，实现该点从像素坐标系到摄像头坐标系的坐标转换。图5所示为建立的深度图像像素坐标系，图6所示为以深度摄像头为参照物的摄像头坐标系。

通过摄像头成像的几何关系图，如图7所示，其中，O_c为摄像头坐标系的原点，O为像素坐标系的原点，U_C轴和V_C轴为摄像头所在平面,它们分别和像素坐标系的X轴和Y轴平行。W_C为摄像头的光轴，它与成像平面垂直，与成像平面的交点为成像图像的中心，反映了图中每个像素点的深度值。由相似比例关系，可得到像素坐标系和摄像头坐标系的变换关系式，如式(2)所示。

其中(X,Y)为点P在像素坐标系中的坐标，(U_c,V_c,W_c)为点P在摄像头坐标系的坐标，f为摄像头的焦距，即图中O_cO₁的距离。c_x和c_y分别表示图像水平分辨率和垂直分辨率值的一半，因为摄像头采集的深度图像分辨率为512*424，所以c_x和c_y分别为256和212。

摄像头坐标系到世界坐标系的转换

从摄像头坐标系到世界坐标系的转换可以通过空间上的旋转和平移来实现。设旋转矩阵R，三维平移向量为(T_x,T_y,T_z)^T。那么从摄像头坐标系到世界坐标系的转换关系如式(3)所示。

其中，(U_c,V_c,W_c)为点P在摄像头坐标系当中的坐标，(X_w,Y_w,Z_w)为点P世界坐标系当中的坐标。对于旋转矩阵R可以通过陀螺仪采集得到的摄像头的姿态信息，即摄像头坐标系相对于世界坐标系的三维空间中的旋转角度来求得。假设摄像头坐标系分别绕世界坐标系的X_w轴，Y_w轴和Z_w轴的旋转角度为α，β，γ,则它们的旋转矩阵分别为：

那么，R＝R₁(α)R₂(β)R₃(γ)，即得

R为3*3的正交矩阵。对于三维平移向量T，通过GPS定位系统可以得到摄像头的世界坐标，即得到平移向量(T_x,T_y,T_z)^T。

苹果检测算法

基于深度相机的果实识别方法主要由四个步骤完成：

第一步是训练颜色模型(神经网络颜色分类模型，也叫做神经网络分类器)，使其能对原始测产图像的苹果和背景的颜色进行正确分类。对去除背景的图像进行二值化，然后进行对二值图像进行形态学的孔洞填充和开运算后，用得到的二值图像对源图像做掩码运算，得到边缘平滑的去除背景的苹果区域图像。

第二步是使用Zerocross算子进行边缘检测，分割像素重叠区域，为形状模型的检测提供基础。由于苹果表面的纹理特性，边缘检测算法会在轮廓内部留下细小的纹理边缘点，因此要对原始的边缘图像去掉小于10个像素点的区域，得到苹果边缘图像。

第三步，对边缘图像通过霍夫变换检测器进行霍夫变换的圆检测，记录目标苹果的圆心在RGB图像中像素坐标，得到苹果检测结果。

第四步，匹配RGB图像和深度图像的像素坐标，获得苹果圆心的深度信息，再通过图像的深度信息，融合深度相机的姿态信息和定位信息，根据世界坐标转换算法获取苹果圆心的世界坐标，设定阈值(6mm,6mm,12mm)对不同坐标的苹果圆心进行比对，计数得到果实测产的结果，算法的主要流程如图8所示。

实施例：

现场实验装置布设

实验地点位于北京市昌平区香堂村的苹果园(40°14'37.6"N，116°21'53.2"E)，果园中的果树均规则种植，果树的品种为红富士，果园的地面图像如图9，果园的卫星图像如图10，实验装置如图11所示。

数据采集

图像采集时间选在苹果的成熟采摘期10月中旬，在自然光照条件下，使用Kinect体感设备获取果园苹果的RGB图像和深度图像。从采集上的图片，如图12a、12b、12c、12d所示，可以看出，所采集的图片有4个显著的特点：

主要由于拍摄距离的影响，图片上的苹果大小不一；

苹果之间的重叠、被树叶树枝遮挡严重；

光照不均、阴影对苹果的颜色有很大的影响；

由于拍摄地点和拍摄角度、时间的不同，测产图片的背景不同。在果园自然环境下由于各种条件的不确定性，使得测产算法的应用背景更加复杂。上述苹果园测产图片的特点为准确识别苹果和统计苹果个数增加了难度。

采用GPS定位系统，获取摄像头的世界位置信息，即世界坐标(T_x,T_y,T_z)^T。使用陀螺仪获取摄像头的姿态信息，即摄像头坐标系相对于世界坐标系的三维空间中的旋转角度α、β、γ。

数据处理

利用神经网络颜色分类模型分割苹果像素区域

通过对图13进行神经网络分类，从图14的分类结果可以看出，本发明建立的苹果颜色模型能有效去除背景，将果实分割出来。

获取苹果边缘图像

使用Zerocross检测算子对去除背景的图像进行边缘检测，为了将杂点的影响降低到最少，我们去除了像素点少于10个点的孤立点，得到图14的边缘图像，如图15所示。

利用形状模型进行精细化果实分割

使用霍夫变换的圆检测算法，对边缘图像图15进行圆检测，得到霍夫变换的圆检测图像，如图16所示。图13的最终检测结果如图17所示。从图中我们可以发现该算法对光照、遮挡、和重叠具有很强的适用性和鲁棒性。图18a、18b、18c展示了算法在其它图片上的检测结果。

果实世界坐标的提取

匹配RGB图像和深度图像后，得到苹果圆心准确的深度信息，基于苹果圆心的深度信息再融合Kinect摄像头的姿态信息及定位信息，提取果实的世界坐标。

首先根据摄像头成像的几何关系，由相似比例关系将苹果圆心在深度图像，像素坐标系中的坐标(X,Y)转换为摄像头坐标系中的坐标(U_c,V_c,W_c)，其中W_c为苹果圆心的深度值。转换关系式如下：

得到苹果圆心在摄像头坐标系中的坐标后，再融合GPS定位系统获得的摄像头的世界定位坐标(T_x,T_y,T_z)^T以及陀螺仪获得的摄像头的姿态信息，即三个旋转角度α、β、γ，根据从摄像头坐标系到世界坐标系的转换关系实现苹果圆心在摄像头坐标系中的坐标到世界坐标系中的坐标转化。转换关系式如下：

其中R为旋转矩阵，可以根据三个旋转角度α、β、γ可以求得，具体形式为：

其中R₁(α)、R₂(β)、R₃(γ)分别表示摄像头坐标系分别绕世界坐标系的X_w轴，Y_w轴和Z_w轴的旋转角度为α，β，γ的旋转矩阵。T向量为三维平移向量，即(T_x,T_y,T_z)^T。

果实计数

提取出苹果圆心的世界坐标后，每个苹果都获得了空间位置上的唯一标识。如图19为图13中被检测到的苹果圆心在图像中的标注。

同角度的拍摄，所以这可能导致果树上的同一苹果出现在多幅果树图像当中，如图20、21所示，红色圆圈标注的同一苹果在图20和图21中同时出现，这样的重复拍摄苹果不可避免地影响到测产精度。如果不能消除苹果重复计数，将人为增加果树的果实计数值，给果树产量测定带来极大的误差。

本发明中果实计数方法如下：考虑到GPS定位系统高程精度较低，因此测得的苹果圆心的在世界坐标中的海拔高度误差较大。而在苹果果园中，土地地面均较为平坦，因此摄像机放置在果树周围的不同位置进行拍摄时的海拔高度基本不变。为保证实验结果的准确性，采用摄像头坐标系中的苹果的相对高度V_c替代苹果在世界坐标中的海拔高度Z_w。而平面坐标采用苹果圆心在世界坐标系中的真实坐标表示。设定阈值(6mm,6mm,12mm)，对不同坐标的苹果圆心(X_w,Y_w,V_c)进行比对，小于阈值的两个苹果圆心坐标，实质上是不同图像中的同一苹果，为避免重复计数，应该对这类苹果的圆心只计数一次，然后再加上对其他苹果的圆心计数，最后获得果树产量。最终结果与人工计数的决定系数R²达0.885。可以预见，通过提高姿态传感器和定位传感器的精度，还将大幅提高果树苹果产量测定精度。

本发明的优点：

适用于果园管理，实用性强

本发明提出一种基于深度相机的苹果果实定位识别的方法，利用神经网络颜色分类模型分割出苹果像素区域；利用边缘检测算法对去除背景的苹果像区域图像进行边缘检测，检测出了苹果的边界，并且实现了对苹果重叠区域的分割；利用图像中定位形状的霍夫变换技术对苹果边缘图像进行霍夫变换的圆检测，获得苹果圆及圆心位置；基于图像深度，融合摄像头姿态信息和位置信息，采用3D世界坐标变换算法对每个苹果的世界坐标进行提取并实现去重处理，实现苹果的快速检测、精准定位和准确计数。该方法为果园管理者对果园实施智能管理提供了有效可靠的依据。果园管理者可以实时监测果园果树，准确获取果实生长状况，并对果树实施及时有效的管理，不仅降低了生产成本，还保证了果实产量。

抗干扰性和准确性

本发明提出一种基于深度相机的苹果果实定位识别的方法，利用神经网络颜色分类模型对复杂函数的拟合能力来对图片的像素点进行分类，获得苹果的像素区域，对光照变化和背景复杂等具有很强的适应性；使用Zerocross边缘检测算法对图像进行边缘检测，再对苹果边缘图像进行霍夫变换的圆检测，得到苹果圆心位置，解决了苹果果实遮挡和重叠的问题。实验表明，该方法对果园环境中光照变化、果实遮挡和重叠、背景复杂等具有很强的适应性，对树枝的截断遮挡也具有很强的鲁棒性。通过世界坐标变换算法对苹果精准定位，消除苹果重复计数，提高了苹果产量估测的准确性。该方法在果园测产中表现出了很高的准确性和抗干扰能力，能有效对树上的果实进行计数，和人工计数的决定系数R²为0.885。可以预见，通过提高姿态传感器和定位传感器的精度，还将大幅提高果树苹果产量测定精度。

成本低

本发明使用的深度相机为微软推出的Kinect体感设备，它可以同时获得场景的RGB图像和深度图像，在1～2m范围内具有较好的精度；它使用的是连续照明，而非脉冲，不需要特制的感光芯片，只需普通的CMOS感芯片，其市场价格在千元左右，这大大降低了实验成本，而3D飞行时间(ToF，Time of Flight)相机价格较为昂贵，在几万元范围内。

本发明解决的主要问题包括：

使用高鲁棒性神经网络颜色分类模型识别果实，避免了光照变化和果实颜色差异影响。

在RGB颜色空间下，由于光照变化引起苹果颜色的分布非规则化，本发明根据苹果果实颜色分布的复杂性，选用神经网络来对图像的像素点进行分割。使用不同光照条件下的不同成熟度的苹果图像与非苹果图像作为训练样本，通过对神经网络进行训练，得到可用于苹果果实检测的神经网络颜色分类模型。实验表明，利用该神经网络颜色分类模型对复杂函数的拟合能力来对图片的像素点进行分类，得到了苹果区域的像素区域，有效去除了无关的背景，解决了光照变化和果实颜色变异的问题。

引入边缘检测算法，能够检测出果实的边界。

为实现苹果的边缘检测，利用边缘检测算法对去除背景的图像进行边缘检测，检测出了苹果的边界。

使用霍夫变换算法定位苹果圆心位置。

本发明使用标准的圆作为苹果的形状模型，利用图像中定位形状的霍夫变换技术对苹果边缘图像进行霍夫变换的圆检测，获得苹果圆及圆心位置，即为苹果所在的位置，并且实现了苹果重叠区域的分割。

利用信息融合技术，融合图像深度信息、姿态信息和定位信息，通过世界坐标变换算法实现了苹果圆心的世界坐标定位。

首选对RGB图像和深度图像进行匹配，获得苹果圆心准确的深度信息。然后基于图像深度信息，再融合Kinect摄像头的姿态信息、定位信息，通过世界坐标变换算法提取每个苹果圆心的世界坐标，标识每个苹果的世界空间位置，避免了不同图像中相同果实的重复计数，提高了果园果实测产的准确性。

本发明提出的方法能有效解决光照不均、树叶遮挡、果实重叠、树枝分割、背景复杂等问题。经试验验证，该果实定位识别算法与人工统计法获得的计数结果之间具有极高的相关性，决定系数R²达到了0.885，显示该算法具有较高的准确性和抗干扰能力，能够用于野外环境中成熟期苹果测产。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种果实定位识别方法，其特征在于，所述方法包括以下步骤：

S2、获取目的场景的RGB图像以及深度图像；

S5、选用标准的圆作为果实的形状模型，利用霍夫变换算法对所述果实边缘图像进行圆检测，得到果实圆以及圆心在所述RGB图像中的坐标；利用霍夫变换圆检测，根据不完全信息检测圆的特性实现对所述果实边缘图像中重叠区域的分割；

S7、根据果实圆心的所述深度信息，融合采集深度图像的摄像头的姿态信息以及其世界定位信息，通过世界坐标变换算法得到每个果实圆心的世界坐标；

所述步骤S3之后、所述步骤S4之前，还包括以下步骤：

所述神经网络颜色分类模型对所述果实像素区域图像进行二值化，然后对二值化的所述果实像素区域图像进行形态学的孔洞填充和开运算，用得到的孔洞填充和开运算之后的所述果实像素区域图像对所述RGB图像做掩码运算，得到边缘平滑的去除背景的果实像素区域图像；

所述步骤S4中的边缘检测算法为拉普拉斯二阶零交叉检测算子，所述拉普拉斯二阶零交叉检测算子利用两个不同参数的高斯函数的差来近似地对所述果实像素区域图像作卷积，通过寻找所述果实像素区域图像的二阶导数的过零点来寻找边界，从而检测出果实图像的边缘点；

2.根据权利要求1所述的方法，其特征在于，所述步骤S2中，通过RGB摄像头获取所述RGB图像，通过深度摄像头获取所述深度图像。

3.根据权利要求2所述的方法，其特征在于，所述步骤S1中的神经网络颜色分类模型为三层结构的BP神经网络，其隐含层神经元使用双曲正切S型传递函数tansig，用于将所述隐含层神经元上范围为(-∞，+∞)的输入值映射到区间(-1，+1)上；输出层使用线性传递函数purelin传递函数。

4.根据权利要求1所述的方法，其特征在于，所述步骤S71根据如下公式进行坐标系转换：

5.根据权利要求4所述的方法，其特征在于，所述步骤S72根据如下公式进行坐标系转换：

<mrow> <mi>R</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>cos</mi> <mi>&beta;</mi> <mi>cos</mi> <mi>&gamma;</mi> </mrow> </mtd> <mtd> <mrow> <mi>cos</mi> <mi>&alpha;</mi> <mi>sin</mi> <mi>&gamma;</mi> <mo>+</mo> <mi>sin</mi> <mi>&alpha;</mi> <mi>sin</mi> <mi>&beta;</mi> <mi>cos</mi> <mi>&gamma;</mi> </mrow> </mtd> <mtd> <mrow> <mi>sin</mi> <mi>&alpha;</mi> <mi>sin</mi> <mi>&gamma;</mi> <mo>-</mo> <mi>cos</mi> <mi>&alpha;</mi> <mi>sin</mi> <mi>&beta;</mi> <mi>cos</mi> <mi>&gamma;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>cos</mi> <mi>&beta;</mi> <mi>sin</mi> <mi>&gamma;</mi> </mrow> </mtd> <mtd> <mrow> <mi>cos</mi> <mi>&alpha;</mi> <mi>cos</mi> <mi>&gamma;</mi> <mo>-</mo> <mi>sin</mi> <mi>&alpha;</mi> <mi>sin</mi> <mi>&beta;</mi> <mi>sin</mi> <mi>&gamma;</mi> </mrow> </mtd> <mtd> <mrow> <mi>sin</mi> <mi>&alpha;</mi> <mi>cos</mi> <mi>&gamma;</mi> <mo>+</mo> <mi>cos</mi> <mi>&alpha;</mi> <mi>sin</mi> <mi>&beta;</mi> <mi>sin</mi> <mi>&gamma;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>sin</mi> <mi>&beta;</mi> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mi>sin</mi> <mi>&alpha;</mi> <mi>cos</mi> <mi>&beta;</mi> </mrow> </mtd> <mtd> <mrow> <mi>cos</mi> <mi>&alpha;</mi> <mi>cos</mi> <mi>&beta;</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

6.根据权利要求5所述的方法，其特征在于，所述三维平移向量T为通过GPS定位系统测量得到的所述深度摄像头在世界坐标系中的坐标值，即深度摄像头的世界定位信息。

7.根据权利要求1至6任一项所述的方法，其特征在于，训练得到所述神经网络颜色分类模型具体为：