CN113673534A

CN113673534A - 一种基于Faster RCNN的RGB-D图像果实检测方法

Info

Publication number: CN113673534A
Application number: CN202110437506.9A
Authority: CN
Inventors: 姜锟; 商高高; 刘刚; 朱鹏
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-11-19

Abstract

本发明公开了一种基于Faster RCNN的RGB‑D图像果实检测方法，属于目标识别技术领域。包括采集自然环境下果实的RGB‑D图像，作为原始的数据集；改进特征提取网络resnet‑50，实现不同特征尺度的特征融合；对数据集的GT进行聚类分析，利用聚类结果改进RPN网络生成anchorboxes的尺寸，更快地得到精准的预瞄框；本发明实现了多信息的输入，提高了模型识别精度，在果实的自动采摘机器人上有广泛的应用前景。

Description

一种基于Faster RCNN的RGB-D图像果实检测方法

技术领域

本发明涉及目标识别技术领域，更具体地说是涉及一种基于Faster RCNN的RGB-D图像果实检测方法。

背景技术

耗费大量人工的果实采摘问题成为近年来的研究热点，研制自动采摘机器人能较好的解决采摘成本过高的问题。

为实现果实的自动采摘，视觉系统是其关键技术，准确快速的实现果实的识别是评价视觉系统优劣的关键指标之一。在自然环境中RGB相机采集的颜色图像经常受到不同因素的影响，如果实颜色与自然环境颜色相近，采用深度学习方法训练的模型在特殊条件下识别精度不佳，识别时间较长。

发明内容

本发明的目地在于解决在颜色图像受到外界因素干扰时，复杂条件下果实与背景颜色相近时果实难以识别的问题。提出了一种基于RGB-D图像，多尺度特征融合，GT框的聚类的基于改进的Faster RCNN的果实检测方法，能够对复杂环境下的果实进行快速准确的识别定位。

本发明采用的技术方案为：

一种基于Faster RCNN的RGB-D图像果实识别方法，包括以下步骤：

步骤1：采集数据，数据集的建立，数据集的增强；

步骤2：对GT(groundtruth)框进行K-means分析获取RPN网络生成anchorboxes的最佳尺寸和比例；

步骤3：改进特征提取网络，实现4通道(RGB-D)数据的输入，利用特征金字塔结构，对于特征提取网络中生成的高尺度，中间尺度，最低尺度特征图进行多尺度特征融合；

步骤4：把步骤2得到聚类数据设置为RPN网络的anchorboxes生成比例和尺寸，把步骤4得到的多尺度特征融合图像输入RPN中进行候选框的预测；

步骤5：训练模型并预测。

进一步，所述步骤一的数据集构建具体包括：

步骤1.1，采用Kinect v2相机同时采集果实的颜色和深度图像，采集的颜色图像分辨率为1920×1080，采集的深度图像的分辨率为512×424；

步骤1.2，对颜色和深度图像进行对齐，使果实在颜色图像和深度图像的像素坐标一致，两种图片的分辨率大小一致；

步骤1.3，使用labelImg工具对图像进行标注，对于标注的物体生成的框为GT框，GT框的数据为(C，X_min，Y_min，X_max，Y_max)，其中C为物体的类别信息，(X_min，Y_min) 为以图像左下角为坐标原点GT框左下角在图像上的像素坐标，(X_max，Y_max)为GT框框右上角在图像上的像素坐标，并对标注的结果生成符合pascalVOC格式的xml文件；

步骤1.4，数据集的增强，对图像进行反转等操作进行数据集的增强，提高训练结果的鲁棒性；

步骤1.5，将所得到的数据集按照6:2:2的比例分成训练集，验证集，测试集；

进一步，所述步骤2包括：

步骤2.1，对GT框的宽高及其比例进行分析，为方便聚类分析，对GT框数据处理得到GT框的(w_j，h_j)数据，j∈(1,2,3,…,N)，(w_j，h_j)为第j个GT框的像素宽和高， w_j＝X_max-X_min，h_j＝Y_max-Y_min；

步骤2.2，宽高比例聚类，令宽高比

获取GT框宽高比例M个聚类结果；

步骤2.3，初始化尺寸聚类中心为C_i(W_i,H_i)，i∈(1,2,3,…,K)，K为要生成的聚类框的个数，W_i，H_i分别为聚类中心点的像素宽和高；

步骤2.4，计算GT框与每个聚类中心的距离，把GT归为与聚类中心最小的聚类，直到遍历完所有的GT与聚类中心的距离，把所有的GT框分为K个簇；

距离D的计算方式采用IOU(交并比)的计算方式：

D_ji＝1-IOU(BOX_j,C_i)

其中D_ji为第j个GT框与第i个聚类中心的距离，BOX_j为第j个GT框，C_i为i个聚类中心，更具体的IOU计算方式为：

SBOX_j为第j个GT框的面积，SC_i为第i个聚类中心面积；

步骤2.5，对于每个簇重新计算聚类中心，

Ni为第i个簇的GT框的个数，更新聚类中心的值C_i(W_i,H_i)；

步骤2.6，重复2.3-2.5，直到聚类中心改变量收敛，得到K个聚类中心，即K个anchorboxes的宽和高尺寸；

进一步，所述步骤3包括

步骤3.1，更改特征提取网络resnet50网络的第一个过滤器的深度，从原始的3增加到4，实现4通道(RGB-D)数据的输入；

步骤3.2，采用resNet50进行特征的提取过程中，利用特征金字塔结构，对resNet50 中的conv2，conv3，conv4输出层进行多尺度特征叠加融合。

进一步，所述步骤4包括：

步骤4.1，把步骤4中得到的多尺度特征图输入RPN网络中实现region proposal的提取；

步骤4.2，采用步骤2对GT框聚类得到的宽高及比例，设置为RPN中生成anchorboxes 的宽高及比例；

步骤4.3，对于生成的anchor boxes利用RPN网络生成的调整参数生成候选框，基于候选框的cls得分滤除得分较低的候选框，采用NMS算法，设置IOU阈值为0.7，进一步精简候选框的数量；

步骤4.4.，建立RPN网络损失函数，损失函数由分类损失函数和回归损失函数组成：

分类损失函数为:

其中，i是anchorboxes的索引，pi是第i个anchorboxes预测为真实标签的概率，pi*是第i个anchorboxes的真实。Lcls是分类损失，Ncls是一个batch的样本数量为256；

回归损失函数为：

其中ti是预测候选框与anchorbox的偏移量，ti*是GT框与anchorboxes的偏移量，N_reg是anchorboxes的总数，约2400个，L_reg是回归损失，L_reg(ti,ti^*)＝R(ti-ti^*)，R 为smooth损失函数。由于λ为比例系数，通常取10，则上式能近似等于:

则总损失函数可定义为：

进一步，所述步骤5包括：

步骤5.1，利用训练集作为网络训练数据，训练改进的Faster RCNN网络；验证集用于在训练过程中优化果实识别网络结构参数，得到最优模型；用测试集作为训练出的网络的性能测试数据，评价模型性能；

步骤5.2，采用AP(平均准确率)值越高则证明模型检测物体的准确率越高，即模型越好；

步骤5.3，设置网络初始参数：总epoch次数，初始学习率，学习率变化系数。每个epoch结束后保留训练结果，每次迭代保留学习率的变化，和AP值。

本发明的有益效果为：在图像采集中同时采集颜色和深度图像，并用图像对齐技术把两种图像进行对齐，且在resnet50特征提取中，采用特征金字塔结构实现多尺度的特征图像融合，在输入RPN网络中使用通过对GT聚类得到的更符合果实先验框比例尺寸，实现了在复杂环境下的果实识别，增强了对果实专门化识别的效果，提高了检测精度。

附图说明

图1为本发明搭建的网络框架示意图

图2为本发明的RGB-D数据集构建流程图

图3为本发明的anchorboxes聚类分析结果图

图4为本发明的基于RBG-D图像的果实识别方法的流程图

图5为本发明的果实识别网络流程图；

具体实施方式

下面结合附图对本发明做进一步说明

如图1-5所示，一种基于RGB-D图像的的果实识别方法，具体包括如下步骤：

步骤1：采集数据，数据集的建立，数据集的增强；

步骤5：训练模型并预测

步骤一的数据集构建包括：

1.1采用Kinect v2相机同时采集果实的颜色和深度图像，采集的颜色图像分辨率为 1920×1080，采集的深度图像的分辨率为512×424；

1.2对颜色和深度图像进行对齐，使果实在颜色图像和深度图像的像素坐标一致，两种图片的分辨率大小一致；

1.3.使用labelImg工具对图像进行标注，对于标注的物体生成的框为GT框，GT框的数据为(C，X_min，Y_min，X_max，Y_max)，其中C为物体的类别信息，(X_min，Y_min)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标，(X_max，Y_max)为GT框框右上角在图像上的像素坐标，并对标注的结果生成符合pascalVOC格式的xml文件；

1.4数据集的增强，对图像进行反转等操作进行数据集的增强，提高训练结果的鲁棒性；

1.5将所得到的数据集按照6:2:2的比例分成训练集，验证集，测试集；

3.根据权利要求1所述的一种基于RGB-D图像的果实检测方法，其特征在于：所述步骤2包括：

2.1对GT框的宽高及其比例进行分析，为方便聚类分析，对GT框数据处理得到GT框的(w_j，h_j)数据，j∈(1,2,3,…,N)，(w_j，h_j)为第j个GT框的像素宽和高，w_j＝X_max-X_min， h_j＝Y_max-Y_min；

2.2宽高比例聚类，令宽高比

获取GT框宽高比例M个聚类结果；

2.3初始化尺寸聚类中心为C_i(W_i,H_i)，i∈(1,2,3,…,K)，K为要生成的聚类框的个数， W_i，H_i分别为聚类中心点的像素宽和高；

2.4计算GT框与每个聚类中心的距离，把GT归为与聚类中心最小的聚类，直到遍历完所有的GT与聚类中心的距离，把所有的GT框分为K个簇；

距离D的计算方式采用IOU(交并比)的计算方式：

D_ji＝1-IOU(BOX_j,C_i)

其中D_ji为第j个GT框与第i个聚类中心的距离，更具体的IOU计算方式为:

SBOX_j为第j个GT框的面积，SC_i为第i个聚类中心面积；

2.5对于每个簇重新计算聚类中心，

Ni为第i个簇的GT框的个数，更新聚类中心的值C_i(W_i,H_i)；

2.6重复2.3-2.5，直到聚类中心改变量收敛，得到K个聚类中心，即K个anchorboxes 的宽和高尺寸；

步骤三包括

3.1更改特征提取网络resnet50网络的第一个过滤器的深度，从原始的3增加到4，实现4通道(RGB-D)数据的输入；

3.2采用resNet50进行特征的提取过程中，利用特征金字塔结构，对resNet50中的conv2，conv3，conv4输出层进行多尺度特征叠加融合。

步骤四包括：

4.1把步骤4中得到的多尺度特征图输入RPN网络中实现region proposal的提取；

4.2采用步骤2对GT框聚类得到的宽高及比例，设置为RPN中生成anchorboxes的宽高及比例；

4.3对于生成的anchor boxes利用RPN网络生成的调整参数生成候选框，基于候选框的cls得分滤除得分较低的候选框，采用NMS算法，设置IOU阈值为0.7，进一步精简候选框的数量；

4.4.建立RPN网络损失函数，损失函数由分类损失函数和回归损失函数组成：

分类损失函数为:

回归损失函数为：

则总损失函数可定义为：

所述步骤五包括：

5.1利用训练集作为网络训练数据，训练改进的Faster RCNN网络；验证集用于在训练过程中优化果实识别网络结构参数，得到最优模型；用测试集作为训练出的网络的性能测试数据，评价模型性能；

5.2采用AP(平均准确率)值越高则证明模型检测物体的准确率越高，即模型越好；

5.3设置网络初始参数：总epoch次数，初始学习率，学习率变化系数。每个epoch结束后保留训练结果，每次迭代保留学习率的变化，和AP值。

针对复杂的自然环境，本发明构建RGB-D的数据集对果实的颜色信息和深度信息有效提取。为充分的利用RGB-D数据集，修改Faster RCNN网络模型实现特征的多模态融合，优化Faster RCNN预瞄框的生成方法。在识别中有效地提高了果实的识别精度和效率。以上所述的实例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改，补充和同等替换等，均应包含在本发明的保护范围内。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于Faster RCNN的RGB-D图像果实检测方法，其特征在于，包括如下步骤：

步骤1：采集果实数据，数据集的建立，数据集的增强；

步骤2：对GT框进行K-means分析获取RPN网络生成anchorboxes的最佳尺寸和比例；

步骤3：改进特征提取网络，实现4通道RGB-D数据的输入，利用特征金字塔结构，对于特征提取网络中生成的高尺度，中间尺度，最低尺度特征图进行多尺度特征融合；

步骤5：训练模型并预测。

2.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法，其特征在于：所述步骤1包括：

步骤1.3，使用labelImg工具对图像进行标注，对于标注的物体生成的信息框为GT框，GT框的数据为(C，X_min，Y_min，X_max，Y_max)，其中C为物体的类别信息，(X_min，Y_min)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标，(X_max，Y_max)为以图像左下角为坐标原点GT框右上角在图像上的像素坐标，并对标注的结果生成符合pascalVOC格式的xml文件；

步骤1.5，将所得到的数据集按照6:2:2的比例分成训练集，验证集，测试集。

3.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法，其特征在于：所述步骤2包括：

步骤2.1，对GT框的宽高及其比例进行分析，为方便聚类分析，对GT框数据处理得到GT框的(w_j，h_j)数据，j∈(1,2,3,…,N)，(w_j，h_j)为第j个GT框的像素宽和高，w_j＝X_max-X_min，h_j＝Y_max-Y_min；(X_min，Y_min)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标，(X_max，Y_max)为以图像左下角为坐标原点GT框右上角在图像上的像素坐标；

步骤2.2，宽高比例聚类，令宽高比

获取GT框宽高比例M个聚类结果；

步骤2.3，初始化尺寸聚类中心为C_i(W_i,H_i)，i∈(1,2,3,…,K)，K为要生成的聚类框的个数，W_i、H_i分别为聚类中心点的像素宽和高；

距离D的计算方式采用IOU计算方式，也就是交并比的计算方式：

D_ji＝1-IOU(BOX_j,C_i)

其中D_ji为第j个GT框与第i个聚类中心的距离，BOX_j为第j个GT框，C_i为i个聚类中心，更具体的IOU计算方式为:

SBOX_j为第j个GT框的面积，SC_i为第i个聚类中心面积；

步骤2.5，对于每个簇重新计算聚类中心，

Ni为第i个簇的GT框的个数，更新聚类中心的值C_i(W_i,H_i)；

步骤2.6，重复2.3-2.5，直到聚类中心改变量收敛，得到K个聚类中心，即K个anchorboxes的宽和高尺寸。

4.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法，其特征在于：所述步骤3包括：

步骤3.1，更改特征提取网络resnet50网络的第一个过滤器的深度，从原始的3增加到4，实现4通道RGB-D数据的输入；

步骤3.2，采用resNet50进行特征的提取过程中，利用特征金字塔结构，对resNet50中的conv2，conv3，conv4输出层进行多尺度特征叠加融合。

5.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法，其特征在于：所述步骤4包括：

步骤4.2，采用步骤2对GT框聚类得到的宽高及比例，设置为RPN中生成anchorboxes的宽高及比例；

分类损失函数为:

其中，i是anchorboxes的索引，p_i是第i个anchorboxes预测为真实标签的概率，pi*是第i个anchorboxes的真实，L_cls是分类损失，N_cls是一个batch的样本数量为256；

回归损失函数为：

其中ti是预测候选框与anchorbox的偏移量，ti*是GT框与anchorboxes的偏移量，N_reg是anchorboxes的总数，约2400个，L_reg是回归损失，L_reg(ti,ti^*)＝R(ti-ti^*)，R为smooth损失函数，由于λ为比例系数，通常取10，则上式能近似等于:

则总损失函数定义为：

6.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法，其特征在于：所述步骤5包括：

步骤5.2，平均准确率AP值越高则证明模型检测物体的准确率越高，即模型越好；

步骤5.3，设置网络初始参数：总epoch次数，初始学习率，学习率变化系数；每个epoch结束后保留训练结果，每次迭代保留学习率的变化、AP值。