CN108648233B

CN108648233B - 一种基于深度学习的目标识别与抓取定位方法

Info

Publication number: CN108648233B
Application number: CN201810248258.1A
Authority: CN
Inventors: 贾松敏; 鞠增跃; 张国梁; 李秀智; 张祥银
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-03-24
Filing date: 2018-03-24
Publication date: 2022-04-12
Anticipated expiration: 2038-03-24
Also published as: CN108648233A

Abstract

本发明公开了一种基于深度学习的目标识别与抓取定位方法，属于机器视觉领域。首先，利用Kinect相机采集场景的深度和彩色图像，然后使用Faster R‑CNN深度学习算法识别场景目标，根据识别的类别选择抓取的目标区域，并作为GrabCut图像分割算法的输入，通过图像分割获取目标的轮廓，进而获取目标的具体位置，并作为级联神经网络的输入进行最优抓取位置检测，最终获取机械臂的抓取位置和抓取姿态。通过该方法提高目标识别与定位的实时性、准确性以及智能性。

Description

一种基于深度学习的目标识别与抓取定位方法

技术领域

本发明属于机器视觉领域。提出了一种基于深度学习的目标识别与抓取定位方法，用于提高目标识别与定位的实时性、准确性以及智能性。

背景技术

随着工业自动化技术的发展，机器人的数量在不断的增加，工业机器人已经广泛的应用到汽车制造，机械加工、电子电气以及智能家庭服务等生活的方方面面。机器人技术的发展在一定程度上反应了一个国家自动化的发展水平，随着社会经济的发展，生产规模的扩大以及生产环境的复杂化，开发和生产更加智能化、信息化、高精度的自动化系统显得尤为的重要。在机器视觉领域，目标识别与定位是关键技术，其不仅可以指引机器人完成某项任务，如工业零件加工、分拣以及搬运等任务。其在视觉场景理解、地图创建以及AR等复杂的视觉领域也有重要的意义，研究机器视觉技术是推动机器人发展的一项巨大的举措。传统的机械臂的抓取采用的是示教系统，但当待抓取目标的位置、形状以及环境发生变化时，示教系统下的机械臂不能随外界的变化而做出相应的调整，因而会造成抓取任务的失败。计算机视觉解决机械臂抓取任务的通常做法是，首先利用相机对场景采样，利用图像处理算法获取目标位置以及空间的姿态信息，最终使机械臂完成抓取任务。传统的机械臂识别阶段的图像处理采用特征提取的方法来处理图像信息，特征提取的过程中容易受到光照、目标形状和目标大小等外界因素的影响，因此泛化能力和鲁棒性较差。深度学习概念是Hinton在2006年首次提出，Krizhevsky在2012年的ImageNet比赛利用深度学习的方法取得了优异的成绩，深度学习引起了全世界研究人员的关注。相比于传统的视觉算法，深度学习不需要使用者预先选定提取的何种特征，而是通过学习的方式在大量的数据中找到目标所具有的特征。

针对传统视觉算法泛化能力低、鲁棒性不强的特点，本专利采用Faster R-CNN深度学习的方法识别目标，提高了识别系统的泛化能力和鲁棒性。但深度学习识别阶段只能获得目标的位置和类别，并不能获得目标的抓取位置，为了解决这个问题，本专利采用LenzI等人提出的基于深度学习方法进行抓取位置学习，最终获得机械臂的抓取位置和抓取姿态。

发明内容

本发明的目的是提供一种准确且高效的目标识别和抓取定位方法。

本发明采用如下的技术方案：

为了解决上述传统视觉算法存在的问题，提出了一种基于深度学习的目标识别与抓取定位方法。首先，利用Kinect相机采集场景的深度和彩色图像，然后使用Faster R-CNN深度学习算法识别场景目标，根据识别的类别选择抓取的目标区域，并作为GrabCut图像分割算法的输入，通过图像分割获取目标的轮廓，进而获取目标的具体位置，并作为级联神经网络的输入进行最优抓取位置检测，最终获取机械臂的抓取位置和抓取姿态。

本发明的技术特征如下：

(1)基于深度学习的目标识别；

Faster R-CNN是R-CNN深度学习算法进化版本,R-CNN将图像提取ROI(regionofinterest)，将所有的ROI放到CNN中，通过SVM(Support Vector Machine)分类器得到每一个ROI的分类，然后对每一个ROI区域做bounding-box的回归，从而得到最终的目标识别结果。Faster R-CNN在R-CNN的基础上进行改进，把整个图像作为CNN(ConvolutionalNeural Networks)的输入，ROI在CNN的特征映射图中寻找映射到的部分，同时用Softmax分类器取代SVM作为系统的分类器，在速度上有了很大的提升。Faster R-CNN对于RegionProposal的产生采用PRN(region proposal network)的新算法,大大的降低以前用Selective Search产生ROI所用的时间，Faster R-CNN的识别速度可达0.05-0.2秒/张(5-17fps)，Faster R-CNN在PASCALVOC2007数据集上的识别率可达73.2％mAp(平均准确率)，在PASCAL VOC2012数据集上识别率可达70.4％mAp，鉴于其优秀的性能，采用Faster R-CNN深度学习的算法进行目标识别。具体的步骤如下所示。

步骤一，Kinect采集场景的深度图像和彩色图像。

步骤二，将整幅图像输入到CNN神经网络，提取图像的特征。

步骤三，用PRN生成建议窗口。

Ren S Q等人为每个生成框分配了一个二元标签，通过标签判断框内是否为目标。其中具备以下两种情况之一的被标记为正标签，1)与某个或者真实框有最高的交集与并集之比的标框；2)与任意真实框的交集并集之比超过0.7的标框。与真实标框交集并集之比小于0.3的标记为负标签。采用多任务损失函数来最小化目标函数，目标函数定义为：

其中i表示一个小批量样本的索引；p_i表示小批量样本的索引i的目标的概率；真实标签

为1时表示为正标签，

为0时表示负标签；t_i表示预测边界的四个参数化变量；

表示正标签小批量样本的索引i对应的真实框的坐标向量；L_cls和L_reg分别表示分类损失和回归损失，N_cls和N_reg表示归一化参数；λ表示平衡权重。

步骤四，将建议窗口映射到CNN的最后一层卷积特征图上。

步骤五，通过ROI池化层使个ROI生成固定尺寸的特征图。

步骤六，利用Softmax Loss即探测分类概率和Smooth L1Loss即探测边框回归对目标进行分类与定位。

(2)图像超像素分割；

简单线性迭代聚类是在K-means聚类算法的基础上，拓展而来的一种简单而高效的构建超像素的方法。采用超像素算法将图像预分割成块状图，能够减少构建网格图的定点数，进而缩短计算时间。与其他的超像素算法相比，利用SLIC构建超像素图的优越性在于：1)形成超像素区域的尺寸基本一致；2)可调参数个数少，便于利用；3)处理速度快而且分块能够很好地贴合目标的边界；4)每个超像素区域内部的各像素之间的特征差异性小；5)可设置期望的超像素个数。其过程首先需要初始化聚类中心，之后将聚类中心点移至最小梯度位置，迭代直至收敛。具体超像素分割步骤如下。

步骤一，以步长为S的网络中心初始化聚类中心点c_j＝{l_j,a_j,b_j,x_j,y_j}^T，其到超像素中心的距离测量d_s如式(2)所示。其中l_j、a_j和b_j表示CLELAB颜色空间的l、a和b颜色通道信息，x_j,y_j表示聚类中心点的坐标，j表示像素点的序号数。

其中，p表示空间和像素颜色的相对重要性的度量，d_lab代表颜色距离，d_xy代表空间距离。

步骤二，将聚类中心点移至该邻域内梯度最小的位置。

步骤三，在每个种子点周围的邻域内为像素点分配类标签即属于哪个聚类中心。

步骤四，通过计算搜索到的像素点和该种子点的距离，更新聚类中心。

步骤五，计算剩余误差，重复步骤三到步骤五直至误差收敛。

(3)基于GrabCut算法提取目标轮廓；

GrabCut是基于GraphCuts迭代式图像分割算法，采用高斯混合模型代替灰度直方图，实现彩色图像分割。定义Gibbs能量函数为

E(a,k,θ,z)＝U(a,k,θ,z)+V(a,z) (3)

其中a为不透明度，a∈[0,1]，0为背景，1为前景目标；k是像素的高斯分量；θ为像素属于前景/背景的概率，z是图像像素。U称之为数据项，其定义为

D(a_n,k_n,θ,z_n)＝-logp(z_n|a_n,k_n,θ)-logπ(a_n,k_n) (4)

其中：p(.)为高斯概率分布，π(.)为混合权重系数。V称之为平滑项，其定义为

其中：e＝0；(m,n)表示两个相邻像素点m和n；C是相邻像素点对应的集合；[.]是取值为0或1的函数，当且仅当a_n≠a_m时，[a_n≠a_m]＝1，当且仅当a_n＝a_m时，[a_n≠a_m]＝0；β＝(2＜||z_m-z_n||²＞)^-1，<.>表示样本的数学期望。

在设置适当阈值的前提下，使用超像素分割算法对图像进行预处理，得到区域内相似度比较高且拓扑结构比较规整的块状区域。进而使用各个区域中的RGB均值代替区域内像素值进行GMM参数估计并构建精简的网格图，最后，为了保证图像分割精度，使用得到的GMM参数对原始图像进行分割，从而达到提高分割速度而精度不减的目的。具体的改进的GrabCut分割步骤如下。

步骤一，根据块索引，初始化GMM参数。

步骤二，将预处理阶段获得的原图像进行三元图初始化，矩形以外的区域为背景区域T_B,目标区域T_F,未知区域T_U，其中

步骤三，将背景区域像素点的透明度设值设为0，未知区域像素的透明度值设为1。如果像素属于T_B，则像素的透明值为0；如果像素属于T_U，则像素点的透明值为1。前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化。

步骤四，迭代估计GMM参数：1)GMM标号。2)学习GMM参数。3)根据分块之间的邻接关系构建网络图，并用最大流/最小割算法进行分割。4)迭代步骤1～3，直到算法收敛。

步骤五，根据得到的GMM参数对原始图像构造S-T网格图，使用最大流/最小割算法进行分割。

步骤六，输出分割结果，提取目标物体轮廓。

(3)最优抓取位置检测；

通过(1)、(2)和(3)三个过程可以获得目标的位置和轮廓，但是机械臂的抓取不仅需要目标的坐标信息，还需要目标的抓取姿态信息。为了求解目标的抓取姿态，采用Lenz I等人提出的最优抓取位置检测算法，该算法是由一个深度网络组成的两步级联神经网络系统，首先选择一组包含目标的候选抓取区域，然后在前一步的基础上在候选区域上进行检测并获取最优的抓取位置。具体的过程分为以下几个步骤。

步骤一，根据分割结果获取目标最小的矩形区域。

分割结果得到了目标的轮廓，根据目标的轮廓构建目标的最小矩形图像。并根据目标的最小矩形区域分别从彩色图、深度图和基于深度图的表面法向量上截取出来。

步骤二，生成若干组搜索框。

对截取的区域做旋转、白化数据以及保持纵横比操作，生成若干组的搜索框，当生成搜索框时，这组搜索框就被转换成为一个24×24×7大小的输入特征，24×24为搜索框的归一化尺寸，7为通道数。

步骤三，深度神经网络对抓取目标分类和预测。

当预处理阶段完成之后，特征数据将会被送到包含两个隐含层的神经网络中，对于神经网络权值训练的目的是找到一个最优单一的抓取框，使得机械臂抓到目标的概率最大，概率函数的表达式为(6)所示：

D表示特定抓取框的位置、大小和方向，D^*表示最优抓取矩形框，其中φ(D)函数表示D的提取矩形框标准的输入表示；Θ表示神经网络的权值；

表示函数的输出，取值为{0,1}。

附图说明

图1表示基于深度学习的目标识别与抓取定位方法流程图。

图2表示目标识别与抓取定位的实验结果图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

为了解决上述传统视觉算法存在的问题，提出了一种基于深度学习的目标识别与抓取定位方法。首先，利用Kinect相机采集场景的深度和彩色图像，使用Faster RCNN深度学习算法识别场景目标，根据识别的类别选择抓取的目标区域，并作为GrabCut图像分割算法的输入来提取目标的轮廓，进而获取目标的具体位置，然后将位置信息作为级联神经网络的输入进行最优抓取位置检测，最终获取机械臂的抓取位置与姿态。所涉及的方法整体流程如附图1所示，具体实施过程分为以下步骤：

步骤一，Kinect采集场景的深度图像和彩色图像。

步骤二，将整幅图像输入到CNN卷积神经网络完成图像特征的提取任务。

步骤三，用PRN生成建议窗口。

步骤四，通过ROI池化层使个ROI生成固定尺寸的特征图。

步骤五，使用Softmax Loss(探测分类概率)和Smooth L1Loss(探测边框回归)模型对目标做分类与定位处理。

步骤六，对场景图像进行超像素分割。

步骤七，根据块索引初始化GMM参数。并将预处理阶段获得的原图像进行三元图初始化，矩形以外的区域为背景区域T_B,目标区域表示为T_F,未知区域表示为T_U。将背景区域像素点的透明度设置为0，未知区域像素的透明度设置为1，前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化。

步骤八，迭代估计GMM参数：1)GMM标号；2)学习GMM参数；3)根据分块之间的邻接关系构建网络图，并用最大流/最小割算法进行分割；4)迭代步骤1)～3)，直到算法收敛。根据得到的GMM参数对原始图像构造网格图，使用最大流/最小割算法进行分割，提取目标轮廓。

步骤九，根据分割结果构建若干组搜索框。

步骤十，深度神经网络对抓取目标分类和预测。

下面为本发明在目标检测领域中的一个应用实例。

本实例是采用专利所提出的目标识别与抓取定位算法在实验室场景的应用。以水瓶为目标，首先使用Kinect相机采集目标场景，通过Faster R-CNN深度学习算法识别目标，然后通过分割算法获取目标的轮廓，最终使用深度网络模型分类和预测目标的最优抓取位置。具体的实验结果图参见说明书附图2。

Claims

1.一种基于深度学习的目标识别与抓取定位方法，其特征在于：

首先，利用Kinect相机采集场景的深度和彩色图像，然后使用Faster R-CNN深度学习算法识别场景目标，根据识别的类别选择抓取的目标区域，并作为GrabCut图像分割算法的输入，通过图像分割获取目标的轮廓，进而获取目标的具体位置，并作为级联神经网络的输入进行最优抓取位置检测，最终获取机械臂的抓取位置和抓取姿态；

(1)基于深度学习的目标识别；

步骤一，Kinect采集场景的深度图像和彩色图像；

步骤二，将整幅图像输入到CNN神经网络，提取图像的特征；

步骤三，用PRN生成建议窗口；

采用多任务损失函数来最小化目标函数，目标函数定义为：

为1时表示为正标签，

为0时表示负标签；t_i表示预测边界的四个参数化变量；

表示正标签小批量样本的索引i对应的真实框的坐标向量；L_cls和L_reg分别表示分类损失和回归损失，N_cls和N_reg表示归一化参数；λ表示平衡权重；

步骤四，将建议窗口映射到CNN的最后一层卷积特征图上；

步骤五，通过ROI池化层使个ROI生成固定尺寸的特征图；

步骤六，利用Softmax Loss即探测分类概率和Smooth L1 Loss即探测边框回归对目标进行分类与定位；

(2)图像超像素分割；

简单线性迭代聚类是在K-means聚类算法的基础上，拓展而来的一种简单而高效的构建超像素的方法；采用超像素算法将图像预分割成块状图，能够减少构建网格图的定点数，进而缩短计算时间；具体超像素分割步骤如下；

步骤一，以步长为S的网络中心初始化聚类中心点c_j＝{l_j,a_j,b_j,x_j,y_j}^T，其到超像素中心的距离测量d_s如式(2)所示；其中l_j、a_j和b_j表示CLELAB颜色空间的l、a和b颜色通道信息，x_j,y_j表示聚类中心点的坐标，j表示像素点的序号数；

其中，p表示空间和像素颜色的相对重要性的度量，d_lab代表颜色距离，d_xy代表空间距离；

步骤二，将聚类中心点移至邻域内梯度最小的位置；

步骤三，在每个种子点周围的邻域内为像素点分配类标签即属于哪个聚类中心；

步骤四，通过计算搜索到的像素点和该种子点的距离，更新聚类中心；

步骤五，计算剩余误差，重复步骤三到步骤五直至误差收敛；

(3)基于GrabCut算法提取目标轮廓；

GrabCut是基于GraphCuts迭代式图像分割算法，采用高斯混合模型代替灰度直方图，实现彩色图像分割；定义Gibbs能量函数为

E(a,k,θ,z)＝U(a,k,θ,z)+V(a,z) (3)

其中a为不透明度，a∈[0,1]，0为背景，1为前景目标；k是像素的高斯分量；θ为像素属于前景/背景的概率，z是图像像素；U称之为数据项，其定义为

D(a_n,k_n,θ,z_n)＝-logp(z_n|a_n,k_n,θ)-logπ(a_n,k_n) (4)

其中：p(.)为高斯概率分布，π(.)为混合权重系数；V称之为平滑项，其定义为

其中：e＝0；(m,n)表示两个相邻像素点m和n；C是相邻像素点对应的集合；[.]是取值为0或1的函数，当且仅当a_n≠a_m时，[a_n≠a_m]＝1，当且仅当a_n＝a_m时，[a_n≠a_m]＝0；β＝(2＜||z_m-z_n||²＞)^-1，<.>表示样本的数学期望；

在设置适当阈值的前提下，使用超像素分割算法对图像进行预处理，得到区域内相似度比较高且拓扑结构比较规整的块状区域；进而使用各个区域中的RGB均值代替区域内像素值进行GMM参数估计并构建精简的网格图，最后，为了保证图像分割精度，使用得到的GMM参数对原始图像进行分割，从而达到提高分割速度而精度不减的目的；具体的改进的GrabCut分割步骤如下；

步骤一，根据块索引，初始化GMM参数；

步骤三，将背景区域像素点的透明度设值设为0，未知区域像素的透明度值设为1；如果像素属于T_B，则像素的透明值为0；如果像素属于T_U，则像素点的透明值为1；前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化；

步骤四，迭代估计GMM参数：1)GMM标号；2)学习GMM参数；3)根据分块之间的邻接关系构建网络图，并用最大流/最小割算法进行分割；4)迭代步骤1～3，直到算法收敛；

步骤五，根据得到的GMM参数对原始图像构造S-T网格图，使用最大流/最小割算法进行分割；

步骤六，输出分割结果，提取目标物体轮廓；

(3)最优抓取位置检测；

通过(1)、(2)和(3)三个过程可以获得目标的位置和轮廓，但是机械臂的抓取不仅需要目标的坐标信息，还需要目标的抓取姿态信息；为了求解目标的抓取姿态，采用最优抓取位置检测算法，该算法是由一个深度网络组成的两步级联神经网络系统，首先选择一组包含目标的候选抓取区域，然后在前一步的基础上在候选区域上进行检测并获取最优的抓取位置；具体的过程分为以下几个步骤；

步骤一，根据分割结果获取目标最小的矩形区域；

分割结果得到了目标的轮廓，根据目标的轮廓构建目标的最小矩形图像；并根据目标的最小矩形区域分别从彩色图、深度图和基于深度图的表面法向量上截取出来；

步骤二，生成若干组搜索框；

对截取的区域做旋转、白化数据以及保持纵横比操作，生成若干组的搜索框，当生成搜索框时，这组搜索框就被转换成为一个24×24×7大小的输入特征，24×24为搜索框的归一化尺寸，7为通道数；

步骤三，深度神经网络对抓取目标分类和预测；

表示函数的输出，取值为{0,1}。