CN108280488A

CN108280488A - 基于共享神经网络的可抓取物体识别方法

Info

Publication number: CN108280488A
Application number: CN201810139235.7A
Authority: CN
Inventors: 王志超; 王滨; 赵京东; 李振宇; 柳强
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-07-13
Anticipated expiration: 2038-02-09
Also published as: CN108280488B

Abstract

基于共享神经网络的可抓取物体识别方法，属于智能机器人自主抓取领域。为了解决在训练数据有限条件下使机器人实现对物体的可抓取性判别和物体的种类识别问题。技术要点：对场景中物体支撑平面的参数估计；获得最终的物体分割区域；学习物体的图像特征；构建共享神经网络模型，将可抓取物体识别问题分解为物体可抓取性判别和可抓取物体识别两个子任务，实现由粗到细的可抓取物体有效识别；对共享神经网络模型进行预训练和模型训练，优化神经网络模型的参数；利用模型对物体的可抓取特性及可抓取物体的类别进行识别。该方法能够从有限的数据样本中获得稀疏可压缩的自学习图像特征，从而快速、准确的实现对可抓取物体的识别与分类，具有识别正确率高和可移植性好的特点。

Description

基于共享神经网络的可抓取物体识别方法

技术领域

本发明属于智能机器人自主抓取领域，涉及一种基于共享神经网络的可抓取物体识别方法。

背景技术

机器人在对未知物体进行分拣及自主抓取之前，需要对物体的可抓取性进行判别，以及对可抓取物体种类进行检测与识别。根据人类的抓取经验，一个物体的可抓取性判别不仅取决于物体本身，还受机械手本身尺寸等信息的影响。由于机械手和一些物体尺寸之间的差异，有许多物体并不适合机器人的机械手进行抓取。如果机器人强行对这些物体进行抓取，则会导致抓取任务失败，甚至造成对机械手的损坏。机器人如果通过机器学习的方法进行可抓取物体识别，需要大量经过人工标记的物体和机器人手指关系的抓取样本数据，对机器人进行抓取学习训练。但获得大量的具有标记信息的训练样本数据，是十分困难的。

目前，与传统的拥有大量训练数据的机器学习问题相比，机器人对物体的可抓取性判别和物体的种类识别，只能依靠相对较少的数据进行模型训练，现有的方法无法很好地解决这一问题。因此，在训练数据有限的情况下，提出一种机器人对可抓取物体的识别方法，对于提高机器人的智能化程度是非常迫切和必要的。

发明内容

本发明提出了基于共享神经网络的可抓取物体识别方法，以解决在训练数据有限条件下，机器人实现对物体的可抓取性判别和物体的种类识别问题。

本发明为解决上述技术问题采取的技术方案是：

一种基于共享神经网络的可抓取物体识别方法，所述方法的实现过程为：

步骤一、采用随机抽样一致性算法(Random Sample Consensus,RANSAC)对原始图像中物体支撑平面进行拟合，以完成对场景中物体支撑平面的参数估计；

步骤二、采用基于RGB-D融合信息的图像分割技术，分别在深度图像和彩色图像上对物体进分割，并通过融合所述两个图像的物体区域，获得最终的物体分割区域；

步骤三、采用基于浅层特征描述方法，从有限的训练图像数据中，学习物体的图像特征；

步骤四、构建共享神经网络模型，将可抓取物体识别问题分解为物体可抓取性判别和可抓取物体识别两个子任务，实现由粗到细的可抓取物体有效识别；

步骤五、对共享神经网络模型进行预训练和微调训练，优化神经网络模型的参数；

步骤六、利用训练完成后的模型对物体的可抓取特性及可抓取物体的类别进行识别。

进一步地，在步骤一中，根据物体放置在桌子平面上这一先验信息，从深度图像的总点集S中随机抽样出C个深度点子集，S₁,S₂,...,S_c；然后，在每个深度点子集S_i上采用最小二乘法拟合满足点集S_i的平面参数A⁽ⁱ⁾＝(A₁,A₂,A₃)⁽ⁱ⁾；最后，统计总点集S中位于平面参数A⁽ⁱ⁾所对应平面上点的个数n⁽ⁱ⁾，其中数量最多的n^*对应的A^*即是最优的平面拟合结果。

进一步地，步骤二具体实现过程为：

首先，根据深度图像上获得的桌子平面所在区域，并据此得到桌子平面在彩色图像上的区域；

然后，在彩色图像的平面区域中采用最小二乘拟合方法拟合出桌子平面的背景信息，从而构建桌子平面的背景图像；在原始图像与生成的背景图像间采用背景消除法，获取物体在彩色图像上分割区域；

最后，在深度信息获得的物体分割区域点集O_d的基础上，增加彩色图像分割区域点集O_c中平面上方的点；采用图像腐蚀算法去除分割物体图像中的噪声点，获得最终的物体分割区域。

进一步地，在步骤三中，所述浅层特征为：彩色图像(RGB图像)上的浅层SIFT特征描述子和HOG特征描述子，深度图像(Depth图像)上的HOG特征描述子和SpinImage特征描述子。

进一步地，在步骤四中，共享神经网络结构的构建过程为：

在获取物体的浅层特征后，以所述浅层特征为输入，构建一个采用深度神经网络模型来提取图像更高等级的自学习特征，并输出对物体的可抓取性判别结果和物体种类的识别结果；

所述共享神经网络模型包括六层：

一个输入层，包含四通道子输入，分别为彩色图像上的浅层SIFT特征描述子和HOG特征描述子以及深度图像上的HOG特征描述子和Spin image特征描述子；

一个独立子隐含层，包含四通道，分别处理输入层四通道子输入的特征描述子；

一个相同通道特征信息融合层，包含两通道，分别处理独立子隐含层中彩色图像分量和深度图像分量；

一个不同通道特征信息融合层，为单通道，用于将相同通道特征信息融合层的处理结果进行信息融合；

一个独立子隐含层，包含两通道，分别用于学习物体的可抓取性特征和物体种类特征；

一个输出层，包含两个子任务，两个子任务用于输出对物体的可抓取性判别结果和物体种类的识别结果；

其中，共享神经网络模型的一个子任务为判断物体是否适合抓取，其输出0代表该物体不适合抓取，1代表适合抓取；另一个子任务为当物体可抓取性判别为可抓取时，对可抓取物体种类的识别，其输出结果代表该物体所属的种类；

共享神经网络损失函数的构建过程为：

以从物体上提取的多通道浅层图像特征描述为输入对物体是否为适合抓取及其所属种类采用六层深度共享神经网络进行建模，模型输出为此物体是否为适合抓取物体的概率估计为当此物体为可抓取物体时属于类别l的概率；

为物体信息对应的可抓取性标记，如果即物体被识别为可抓取物体时，是此时该物体的类别标记，共计有L种可抓取物体类别，其中Φ代表神经网络的全部模型参数；

为了保证模型在两个任务下都得到优化，而非单一任务，采用一种改进的损失函数，如下式：

式中，L_f是网络模型的损失函数，包含可抓取判别任务损失函数L_dis和可抓取物体类别损失函数L_cls；p_d和p_c分别是两个分类任务的输出离散概率；I(d)I是指示函数，当d为真时则为1，反之则为0；λ₁为控制当两个任务均有效时，物体分类任务对优化目标的影响权重；λ₂为控制当只有可抓取性判别生效时的训练实例对优化目标的影响；

当可抓取物体识别的输出结果为可抓取物体时，损失函数L_f包含了来自于可抓取物体判别任务和可抓取物体类别识别任务的损失，而当可抓取物体识别的输出结果为不可抓取物体时，损失函数L_f只包含来自于可抓取物体判别任务的损失项；抓取判别任务损失函数L_dis和可抓取物体类别损失函数L_cls分别为采用Logistic分类器时的损失函数和Softmax分类器时的损失函数。

进一步地，在步骤五中，共享神经网络的模型训练过程为：

首先，采用无监督堆栈稀疏自动编码方法(Stack Sparse Auto-encoder,SSAE)来对网络模型各层进行预训练初始化，该方法通过自下上升逐层贪婪学习策略，在各层的堆叠过程中提高了训练数据在构造模型下的似然概率的变分下限，从而使训练过程达到近似的最大似然学习；

采用SSAE方法进行模型预训练时，对每一层均采用自动编码技术进行模型参数的初始化；而在完成对本层的模型参数的初始化的同时，将本层隐含层单元的激活概率作为下一层预训练网络的输入数据；

然后，采用共享神经网络模型的更新机制对模型进行模型微调训练，以优化模型参数Φ；根据改进的损失函数与各任务间的关系，注意不同参数种类在迭代优化中的更新顺序；在神经网络的迭代训练中，每一组训练数据均会包含相同物体数量的图像，但各组包含的可抓取物体数量则是随机的，其中不适合抓取物体仅具有可抓取性标记，而适合抓取物体则还包含物体的种类标记；根据式(6)给出的损失函数计算方法，可以获得两个任务各自的损失函数和融合后的总损失函数；由模型本身结构、两个任务间的逻辑关系及模型的损失函数式(6)，对物体可抓取性判别任务中参数的梯度进行计算，包括和然后，计算可抓取物体类别识别任务中参数的梯度，包括和最后，计算两个任务共享参数的梯度，采用能够自动调剂学习速率的Adam优化算法对参数进行更新，如下式：

式中，(W_c,W_d,W_f)是神经网络全部参数Φ中的具体参数，其中W_d是可抓取物体判别任务子网络中的模型参数，包括网络中W^[1]、W^[2]、W^[3]和W^[5]物体可抓取性子网络参数；W_c是可抓取物体类别识别子网络中的模型参数，包括网络中W^[1]、W^[2]、W^[3]和W^[5]物体类别子网络参数；W_f是共享网络中的模型参数，包含W^[4]；各参数右上角[]内数字表示共享神经网络模型的层数；

根据上述模型优化方法，可获取到共享神经网络模型的最佳优化参数，实现由粗到细的对真实场景下物体进行可抓取识别。

进一步地，在步骤六中，利用学习到的共享神经网络模型对物体的可抓取特性和可抓取种类进行分类，完成机器人对可抓取物体的识别。

本发明具有以下有益效果：本发明提出了基于共享神经网络模型的可抓取物体识别方法，以解决在数据有限条件下，机器人自主对物体可抓取性和可抓取物体的种类识别问题。该方法能够从有限的数据样本中获得稀疏可压缩的自学习图像特征，从而快速、准确的实现对可抓取物体的识别与分类，具有识别正确率高和可移植性好的特点。本发明所提出的基于共享神经网络的可抓取物体识别方法的物体识别正确率达到90％以上。该方法有效解决了在将深度学习技术应用到机器人抓取领域时遇到的训练数据有限的困难，在智能机器人自主抓取和分拣等领域，具有广泛的应用前景。

附图说明

图1为基于共享神经网络的可抓取物体识别方法流程图；

图2为物体支撑平面识别图，图中：a)为场景中原始图像，b)为平面拟合结果图；

图3为图像分割方法的分割效果总体图，图中：a)为场景中原始图像分割效果图，b)为去除支撑平面后的分割效果图；

图4为一组单个物体的分割效果图，图中：第一行为只采用深度图像时，获得的五种物体的分割结果；第二行为采用彩色图像时的对应结果图，最后一行为本发明采用两种信息融合后的分割效果图；

图5为多通道共享神经网络结构图；

图6为真实环境下可抓取物体识别效果图。

具体实施方式

具体实施方式一：结合附图对本发明的具体实施方式作进一步阐述。如图1所示，为本发明的基于共享神经网络的可抓取物体识别方法的流程图，主要由以下步骤完成：

步骤1：物体支撑平面识别

图像采集后，可以获取到物体的RGB-D图像中的视觉信息和深度信息，通过物体放置在桌子平面上这一先验信息，采用随机抽样一致性算法(Random Sample Consensus,RANSAC)进行平面拟合以获得桌子表面的平面信息，从而实现对物体支撑平米的识别。

步骤2：图像分割

利用深度图像中得到平面信息和物体区域信息，在彩色图像上也进行了物体分割，并通过融合两个图像的物体区域，获得最终的物体分割区域。

首先，根据深度图像上获得的桌子平面所在区域，并据此得到桌子平面在彩色图像上的区域。然后，在这一平面区域中采用最小二乘拟合方法拟合出桌子平面的背景信息(补全剔除物体区域后的空白区域)，从而构建桌子平面的背景图像；在原图像与生成的背景图像间采用背景消除法，获取物体在彩色图像上分割区域；然后，在原深度信息获得的物体分割区域O_d的基础上，增加彩色图像分割区域点集O_c中平面上方的点；最后，采用图像腐蚀算法去除分割物体图像中的噪声点，获得最终的物体分割区域。

步骤3：浅层特征提取

图像信息具有维度高、变化性强等特点，从中提取合理的特征描述一直是计算机视觉研究的核心问题之一。针对遇到的训练数据有限和物体识别实时性的要求，本发明在彩色RGB图像上利用浅层的SIFT特征和HOG特征描述子，在Depth深度图像上采用HOG特征和SpinImage特征描述子进行低等级物体特征提取。

步骤4：共享神经网络结构的构建

在获取物体的浅层特征后，以这些浅层特征为输入，构建一个采用深度神经网络模型来提取图像更高等级的自学习特征，进而对物体的可抓取性判别和物体种类识别。

本发明共享神经网络模型包括六层，一个输入层(四通道子输入)、一个独立子隐含层(四通道)、一个相同通道特征信息融合层(两通道)、一个不同通道特征信息融合层、一个独立子隐含层(两通道)和一个输出层(两个子任务)，如图5。其中，两个输出层分别对应物体可抓取性判别和可抓取物体的类别识别两个任务；两个学习任务共享相同的输入单元和一个不同通道特征信息融合隐含层，模型第三层输出的特征分别被传递给两个学习任务的各自网络，各自通过一个独立的特征学习隐含层后输出识别结果。其中，一个任务网络为判断物体是否适合抓取的可抓取性判别网络，其输出0代表该物体不适合抓取，1代表适合抓取；另一个任务网络为当物体可抓取性判别为可抓取物体时，对可抓取物体种类的识别网络，其输出1代表该物体所属的种类。

本发明以从物体上提取的多通道浅层图像特征描述为输入对物体是否为适合抓取及其所属种类采用四层深度神经网络进行建模，模型输出为此物体是否为适合抓取物体的概率估计为当此物体为可抓取物体时属于类别l的概率。为物体信息对应的可抓取性标记，如果即物体被识别为可抓取物体时，是此时该物体的类别标记，共计有L种可抓取物体类别。其中Φ为神经网络的模型参数。

为了保证模型在两个任务下都得到优化，而非单一任务，采用了一种改进的损失函数，如下式。

式中，L_f是网络模型的损失函数，包含了可抓取判别任务损失函数L_dis和可抓取物体类别损失函数L_cls。p_d和p_c分别是两个分类任务的输出离散概率。I(d)I是指示函数，当d为真时则为1，反之则为0。λ₁为控制当两个任务均有效时，物体分类任务对优化目标的影响权重；λ₂为控制当只有可抓取性判别生效时的训练实例对优化目标的影响。

从上可以看出，当可抓取物体识别的输出结果为可抓取物体时，损失函数L_f包含了来自于可抓取物体判别任务和可抓取物体类别识别任务的损失，而当可抓取物体识别的输出结果为不可抓取物体时，损失函数L_f只包含来自于可抓取物体判别任务的损失项。抓取判别任务损失函数L_dis和可抓取物体类别损失函数L_cls分别为采用Logistic分类器时的损失函数和Softmax分类器时的损失函数。

步骤5：共享神经网络的模型训练

首先，采用无监督堆栈稀疏自动编码方法(Stack Sparse Auto-encoder,SSAE)来对网络模型各层进行预训练初始化，该方法通过自下上升逐层贪婪学习策略，在各层的堆叠过程中提高了训练数据在构造模型下的似然概率的变分下限，从而使训练过程达到近似的最大似然学习。采用SSAE方法进行模型预训练时，对每一层均采用自动编码技术进行模型参数的初始化。而在完成对本层的模型参数的初始化的同时，将本层隐含层单元的激活概率作为下一层预训练网络的输入数据。

然后，采用共享神经网络模型的更新机制对模型进行模型微调训练，以优化模型参数。根据改进的损失函数与各任务间的关系，注意不同参数种类在迭代优化中的更新顺序。在神经网络的迭代训练中，每一组训练数据均会包含相同物体数量的图像，但各组包含的可抓取物体数量则是随机的，其中不适合抓取物体仅具有可抓取性标记，而适合抓取物体则还包含物体的种类标记。根据上文损失函数的计算方法，可以获得两个任务各自的损失函数和融合后的总损失函数。由模型本身结构、两个任务间的逻辑关系及模型的损失函数式(6)，对物体可抓取性判别任务中参数的梯度进行计算，包括和然后，计算可抓取物体类别识别任务中参数的梯度，包括和最后，计算两个任务共享参数的梯度，具体的，本发明采用能够自动调剂学习速率的Adam优化算法对参数进行更新，如下式。

式中，W_d是可抓取物体判别任务子网络中的模型参数，包括网络中W^[1]、W^[2]、W^[3]和W^[5]左侧子网络参数；W_c是可抓取物体类别识别子网络中的模型参数，包括网络中W^[1]、W^[2]、W^[3]和W^[5]右侧子网络参数；W_f是共享网络中的模型参数，包含W^[4]。

根据上述模型优化方法，可获取到本发明模型的最佳优化参数，可由粗到细的对真实场景下物体进行可抓取识别。

步骤6：可抓取物体识别

利用学习到的共享神经网络模型对物体的可抓取特性和可抓取种类进行分类，完成机器人对可抓取物体的识别。

本发明的实施例

结合图2至图5说明本实施例，基于共享神经网络的可抓取物体识别方法步骤为：

步骤一：通过随机抽样一致性算法对物体支撑平面进行有效识别，物体支撑平面识别效果如图2所示。

步骤二：通过由粗到细的物体分割方法分割出支撑平面上物体所在区域，并通过彩色图像和深度图像相融合的物体分割方法对物体进行有效分割，分割结果如图3和图4所示。从图3中可以看出，本方法可将深度信息不明显的碳素笔(图中标记为4的物体)有效的分割出来，避免了只采用深度图像进行物体分割时出现的漏分割问题。图4中第一行为只采用深度图像时，获得的五种物体的分割结果；第二行为采用彩色图像时的结果，最后一行为本发明采用两种信息融合后的分割效果。从图中可以看出，由于构建的桌子背景图像噪声的影响，在彩色图像上的物体分割会产生一定误差，其中对茶罐、水杯和药瓶的分割更加明显。通过对比，可以发现本发明综合采用两种图像信息的方法取得了最佳的物体分割效果。

步骤三：在浅层特征学习中，按照以下顺序进行特征的提取。

首先，对物体图像进行数据预处理。将彩色图像进行去噪处理并正则化到[0,1]区间，将亮度图像和深度图像均缩放至小于200x200的尺寸。

然后，生成提取浅层特征时的图像块，并在彩色图像上提取SIFT和HOG特征，在深度图像上提取SpinImage和HOG特征。

最后，对提取到的浅层特征并进行降维处理。采用KPCA方法对各通道的特征向量进行降维处理，从而生成最终的浅层特征向量。

步骤四：将上述提取到的浅层特征作为输入，构建多输入通道下的共享神经网路抓取物体识别模型，如图5所示。模型中主要超参数的设定如表1所示。

表1模型超参数设定表

步骤五：在包含可抓取物体和不可抓取物体的数据进行模型预训练与模型微调优化。首先，采用无监督堆栈稀疏自动编码方法来对网络模型各层进行预训练初始化。然后，采用共享神经网络模型的更新机制对模型进行共享网络模型的微调训练，优化模型参数，模型如图5所示，获得可抓取物体识别模型参数。

步骤六：采用训练完成后的模型在真实环境中对可抓取物体进行识别，识别效果如图6所示。图中红色矩形区域内包含的物体为不可抓取物体；绿色矩形区域内包含的物体为可抓取物体，其所对应种类在矩形框左上方示出。本发明所提出的基于共享神经网络的可抓取物体识别方法的物体识别正确率可达91.24％的正确率。

结论

本发明提出了一种基于共享神经网络模型的可抓取物体识别分类方法。该发明采用一种多通道的共享神经网络结构，整合了物体可抓取性判别和可抓取物体的类别识别两个任务，并能够实现对共享神经网络模型参数的联合优化。本发明可实现由粗到细的可抓取物体识别，在智能机器人自主抓取领域具有广泛的应用前景。

Claims

1.一种基于共享神经网络的可抓取物体识别方法，其特征在于：所述方法的实现过程为：

步骤一、采用随机抽样一致性算法对原始图像中物体支撑平面进行拟合，以完成对场景中物体支撑平面的参数估计；

2.根据权利要求1所述的一种基于共享神经网络的可抓取物体识别方法，其特征在于：在步骤一中，根据物体放置在桌子平面上这一先验信息，从深度图像的总点集S中随机抽样出C个深度点子集，S₁,S₂,...,S_c；然后，在每个深度点子集S_i上采用最小二乘法拟合满足点集S_i的平面参数A⁽ⁱ⁾＝(A₁,A₂,A₃)⁽ⁱ⁾；最后，统计总点集S中位于平面参数A⁽ⁱ⁾所对应平面上点的个数n⁽ⁱ⁾，其中数量最多的n^*对应的A^*即是最优的平面拟合结果。

3.根据权利要求2所述的一种基于共享神经网络的可抓取物体识别方法，其特征在于：步骤二的具体实现过程为：

4.根据权利要求3所述的一种基于共享神经网络的可抓取物体识别方法，其特征在于：在步骤三中，所述浅层特征为：彩色图像上的浅层SIFT特征描述子和HOG特征描述子，深度图像上的HOG特征描述子和SpinImage特征描述子。

5.根据权利要求4所述的一种基于共享神经网络的可抓取物体识别方法，其特征在于：在步骤四中，

共享神经网络结构的构建过程为：

所述共享神经网络模型包括六层：

共享神经网络损失函数的构建过程为：

为了保证模型在两个任务下都得到优化，采用一种改进的损失函数，如下式：

6.根据权利要求5所述的一种基于共享神经网络的可抓取物体识别方法，其特征在于：在步骤五中，

共享神经网络的模型训练过程为：

首先，采用无监督堆栈稀疏自动编码方法来对网络模型各层进行预训练初始化，该方法通过自下上升逐层贪婪学习策略，在各层的堆叠过程中提高了训练数据在构造模型下的似然概率的变分下限，从而使训练过程达到近似的最大似然学习；

7.根据权利要求6所述的一种基于共享神经网络的可抓取物体识别方法，其特征在于：在步骤六中，利用学习到的共享神经网络模型对物体的可抓取特性和可抓取种类进行分类，完成机器人对可抓取物体的识别。