CN112613478A

CN112613478A - 一种面向机器人抓取的数据主动式选择方法

Info

Publication number: CN112613478A
Application number: CN202110001555.8A
Authority: CN
Inventors: 叶贤丰; 杨鑫; 尹宝才; 魏博言; 林虎; 杜振军
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-06
Anticipated expiration: 2041-01-04
Also published as: CN112613478B; US20220212339A1

Abstract

本发明属于计算机视觉技术领域，提供了一种面向机器人抓取的数据主动式选择方法，主要分为两个分支，物体抓取方式检测分支以及数据选择策略分支，包括数据特征提取模块、抓取方式检测模块和数据选择策略模块。本发明的核心内容为数据选择策略模块，该模块共享主干网络的特征提取层，并融合了三个不同大小感受野的特征，充分利用特征提取模块的同时，大大减少了需要添加的参数量。在主干的抓取方式检测网络模型训练过程中，数据选择策略模块可以进行同步的训练，从而形成端到端的模型。本发明利用了天然存在的标注、未标注标签，充分利用了已标注数据以及未标注数据，在已标注数据量较小时，仍然可以对网络进行更加充分的训练。

Description

一种面向机器人抓取的数据主动式选择方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于深度学习、利用主动式学习减少数据标注成本的方法。

背景技术

机器人抓取方式检测是一个具有重要应用意义的计算机视觉研究课题，它旨在给定一个场景的情况下，分析其中所包含物体的抓取方式，并选择最佳的抓取方式进行抓取。随着深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)在计算机视觉领域的显著发展，其优秀的学习能力也被大量应用于机器人抓取方式检测研究。然而，相较于一般计算机视觉问题，例如目标检测、语义分割等，机器人抓取方式检测具有两个不可或缺的要求。一是该任务对于实时性的要求，若无法达到实时检测的效果，则该方法也毫无应用价值。二是该任务在陌生环境中所需的学习成本，不同环境中的物体多种多样，若要一个方法更好地应用于一个陌生环境中，那么需要重新获取数据、标注数据并训练以获得更令人满意的检测结果。

当前的深度学习方法需要大量已标注的数据用作训练，然而这些已标注数据中存在人为无法判断的冗余，并且标注者也无法断定哪一份数据能够更好地提升深度学习网络的性能。主动式学习旨在利用策略从未标注数据中选择出最具有信息量的数据，提供给标注者进行标注，尽可能压缩需要标注的数据量，同时保证深度学习网络的训练效果，从而减少标注数据所需的成本。主动式学习的理念与机器人抓取方式检测的第二点要求十分契合，其为机器人抓取方式检测方法在陌生环境中的迁移提供了有效的保障。接下来详细介绍机器人抓取方式检测与主动式学习中的相关背景技术。

(1)机器人抓取方式检测

基于分析法的抓取方式检测

物体抓取方式检测的分析法主要利用物体的数学以及物理几何模型，结合动力学、运动学计算出当前物体的稳定抓取方式。然而，由于机械夹爪与物体之间的交互行为很难进行物体建模，所以这种检测方法在现实世界的应用中并没有取得良好的效果。

基于经验法的抓取方式检测

物体抓取方式检测的经验法着重于利用物体模型和基于经验的方法。其中，有一部分工作运用物体模型建立数据库，将已知物体与有效的抓取方式关联在一起。面对当前物体时，在数据库中查找类似的物体，从而获取抓取方式。这种方法相比于分析法在实际环境中有相对较好的应用效果，但是仍然欠缺对于未知物体的泛化能力。

基于深度学习的抓取方式检测

深度学习的方法已经被证实在视觉任务中有着巨大的作用，对于未知物体的抓取方式检测，基于深度学习的算法也取得了许多进展。主流的抓取方式表示形式为类似目标检测的矩形框，然而这个矩形框有一个旋转角参数，利用矩形框的中心点坐标、矩形框宽度以及矩形框旋转角就可以表示一个独特的抓取姿态。迄今为止的抓取方式检测算法中大部分都遵循一个通用的检测流程：从图像数据中检测出候选的抓取位置，利用卷积神经网络对每一个候选的抓取位置进行评估，最终选择评估值最高的抓取位置作为输出。其中具有代表性的是Chu等人提出的基于目标检测模型FastRCNN修改得到的物体抓取方式检测模型，这种方式的网络模型参数量大，实时性相对较低。Morrison等人提出了一种基于全卷积神经网络的像素级别的物体抓取方式检测模型，输出四张与原图大小相等的图像，分别为抓取值图、宽度图、旋转角的正弦图与余弦图。该模型参数量少，实时性高。基于深度学习的抓取方式检测在实际场景中效果良好，并且对未知物体的泛化能力强。

即使基于深度学习的抓取方式检测方法已经取得了瞩目的进展，但是该方法仍受限于深度学习对数据的大量渴求问题，主要有两个方面：一是按照传统的方式进行训练，若没有充足的已标注数据，网络模型无法得到令人满意的精确性；二是当已有模型迁移到陌生物体检测问题上时，若要对陌生物体进行数据收集与标注，将耗费大量的人力。接下来介绍的主动式学习技术对数据标注问题提供了一种解决思路。

(2)主动式学习策略

主动式学习的核心为数据选择策略，该策略从未标注的数据集中选择出一部分数据，提供给标注者进行标注，并将标注好的数据加入到已标注的数据集中，利用这部分数据对网络进行训练。主动式学习的意图为利用标注一部分数据的方式来获得标注全部数据所能达到的网络模型训练效果。当前的主动式学习策略主要分为两个类别，一是基于模型的主动式学习策略，二是基于数据的主动式学习策略。

基于模型的主动式学习策略

基于模型的主动式学习策略主要利用深度学习网络模型产生的一些参数作为数据选择的标准。比较具有代表性的有Settles提出的不确定性策略，该策略利用分类网络模型输出的类别概率向量计算得出不确定性，不确定性更高的数据则被视为更有价值。该方法仅适用于分类问题，无法扩展到回归问题上。Yoo等人提出了利用深度学习网络模型训练过程中的损失函数值作为筛选数据标准的方法，损失函数值越大的数据信息量越多。该方法与网络模型的输出无关，所以可以应用在分类问题以及回归问题上。

基于数据的主动式学习策略

基于数据的主动式学习策略专注于数据的分布，希望从数据分布中得到最具有代表性的数据。其中具有代表性的有Ebert等人提出的图密度算法，该算法利用与每个数据相似的数据的数量以及相似度，计算出每个数据的图密度，图密度越高的数据则越具有代表性。该方法与网络模型完全无联系，所以可以应用于分类问题以及回归问题上。

本发明中涉及的抓取方式检测方法是一个纯粹的回归问题，并且对实时性要求较高。以上提到的主动式学习策略均存在局限性，要么无法适用于回归问题，要么计算量过大，甚至大于抓取方式检测模型。

发明内容

本发明针对机器人抓取方式检测方法在陌生环境中的低成本快速迁移问题，设计一种面向机器人抓取的数据主动式选择方法，该方法能够从大量未标注数据中选择出最具有信息量的数据，仅需要对被选择的数据进行标注，并且不会降低网络训练的效果，从而大大减少数据标注所需的成本，并且该方法是端到端的，可以与网络同时进行训练。

本发明的技术方案：

一种面向机器人抓取的数据主动式选择方法，主要分为两个分支，物体抓取方式检测分支以及数据选择策略分支，整体结构可以表示为图1所示。其中具体包括以下三个模块：

(1)数据特征提取模块

本模块的结构为简单的卷积神经网络特征提取层，输入数据经过本模块处理后将称为特征数据，提供给其他模块利用。

(1.1)模块输入：

本模块的输入可以在RGB图像和深度图像间进行随意选择，一共有三种输入方案，单RGB图像、单深度图像以及RGB与深度图像结合输入，对应的输入通道数分别为3通道、1通道和4通道，输入图像的长宽均为300像素。下面以RGB与深度图像结合的4通道输入为例进行说明。

(1.2)模块结构：

为了网络的轻量性以及检测算法的实时性，本模块采用了Morrison等人使用的三层卷积神经网络结构。具体地，卷积核的大小分别为9×9，5×5和3×3。输出通道数分别为32，16和8。特征提取模块每一层都由卷积层，激活函数(ReLU)组成，整个过程表述如下公式：

Out1＝F(RGBD) (1)

Out2＝F(Out1) (2)

Out3＝F(Out2) (3)

其中RGBD表示RGB图像与深度图像结合的4通道输入数据，F代表卷积层与激活函数(ReLU)的组合，Out1、Out2与Out3分别代表了三层输出的特征图。在输入图像的长宽均为300像素的情况下，Out1的大小为100像素×100像素，Out2的大小为50像素×50像素，Out3的大小为25像素×25像素。

(2)抓取方式检测模块

本模块利用特征提取模块得到的最终特征图进行反卷积操作，将特征图还原到原输入大小，即300像素×300像素，得到最终的结果，即抓取值图、宽度图以及旋转角的正弦图与余弦图。根据这四张图像，可以得到物体抓取表示方法的中心点、宽度以及旋转角。

(2.1)模块输入：

本模块的输入是公式(3)中得到的特征图Out3。

(2.2)模块结构：

包含三个反卷积层，以及四个单独的卷积层。三个反卷积层的卷积核大小分别设置为3×3、5×5和9×9，四个单独的卷积层卷积核大小为2×2。此外，在进行反卷积操作之后，每一层还包括ReLU激活函数，以实现更有效的表示，而四个单独的卷积层将直接输出结果。这个过程可以简单地表述为：

x＝DF(Out3) (4)

p＝P(x) (5)

w＝W(x) (6)

s＝S(x) (7)

c＝C(x) (8)

其中Out3为特征提取层的最终输出，DF为三层反卷积层以及对应的激活函数ReLU的组合，P、W、S和C分别代表四个单独的反卷积层，对应的p、w、s和c分别代表最终输出的抓取值图、宽度图以及旋转角的正弦图与余弦图。最终抓取方式的表示可以由下述公式得到：

(i,j)＝argmax(p) (9)

width＝w(i,j) (10)

sinθ＝s(i,j) (11)

cosθ＝c(i,j) (12)

其中，argmax表示获得图中最大值点的横纵坐标(i,j)，宽度width、旋转角正弦值sinθ和旋转角余弦值cosθ分别由对应的输出图像及上述坐标得到，最终旋转角θ可由反正切函数arctan得到。

(3)数据选择策略模块

为保持网络整体的简洁、高效性，数据选择模块共享特征提取模块得到的所有特征图，并利用这些特征图得到最终的输出。该输出在0到1之间，代表了输入数据为已标注数据的概率。越接近0的值代表该数据已经被标注的概率越小，那么最不可能是已标注的数据应当被策略所选择。

(3.1)模块输入：

本模块的输入是公式(1)、(2)和(3)得到的Out1、Out2和Out3的组合。

(3.2)模块结构：

如上所述，特征提取模块得到的特征图大小不一，因此，本模块首先使用了平均池化层对特征图进行降维操作，按照三个特征图的通道数分别降为长度为32、16和8的特征向量。之后，每个特征向量单独经过一个全连接层，输出一个长度为16的向量。三个长度为16的向量相连接，融合得到一个长度为48的向量。为了更好的提取特征，长度为48的向量被输入到一个卷积层及一个激活函数ReLU中，输出通道数为24。该长度为24的向量最终通过一个全连接层，输出最终的结果值。该过程可以简单表示为以下公式：

f1＝FC(GAP(Out1)) (14)

f2＝FC(GAP(Out2)) (15)

f3＝FC(GAP(Out3)) (16)

k＝F(f1+f2+f3) (17)

其中，GAP代表全局平均池化层，FC代表全连接层，+代表连接操作，F代表卷积层、激活函数ReLU和全连接层的组合，k是最终的输出值。

本发明的有益效果：

(1)内嵌的数据选择策略模块

本发明的核心内容为数据选择策略模块，该模块共享主干网络的特征提取层，并融合了三个不同大小感受野的特征，充分利用特征提取模块的同时，大大减少了需要添加的参数量。在主干的抓取方式检测网络模型训练过程中，数据选择策略模块可以进行同步的训练，从而形成端到端的模型。

(2)充分利用全部数据

相较于其他主动式学习策略，本发明的策略并非仅专注于已标注数据，而是利用了天然存在的标注、未标注标签，充分利用了已标注数据以及未标注数据，在已标注数据量较小时，仍然可以对网络进行更加充分的训练。

附图说明

图1是本发明神经网络结构图。包含了三个模块，分别是特征提取模块，抓取方式检测模块和数据选择策略模块。

具体实施方式

下面结合具体实施方式对本发明作进一步详细说明，但本发明并不局限于具体实施方式。

一种面向机器人抓取的数据主动式选择方法，包括主干网络模型及主动式学习分支网络的训练、测试以及数据选择阶段。

(1)网络训练

对于主干网络部分，即特征提取模块以及抓取方式检测模块，使用适应性矩估计算法(Adam)训练整个网络，而分支网络即数据选择策略模块部分，使用随机梯度下降算法(SGD)进行训练。批大小设置为16，即每次从已标注数据中选择16个数据，从未标注数据中选择16个数据。已标注数据前向传播经过特征提取模块和抓取方式检测模块，最终利用已标注的标签得到损失函数值，此处使用的是均方误差损失函数(MSELoss)。未标注数据前相传播经过特征提取模块和数据选择策略模块，最终利用天然的已标注、未标注标签得到损失函数值，此处使用的是二分类交叉熵损失函数(BCELoss)。以上两个损失函数值分别以系数1和0.1进行加和，得到一次训练的联合损失函数值。

(2)网络测试

在测试过程中，利用已标注的测试集进行测试主干网络的抓取检测结果准确性。测试集中的数据将忽略数据选择策略模块，只在主干网络中进行前向传播，得到最终的结果。对于测试集中的每个数据，仅有准确和不准确两种结果，即1和0的结果。最终的准确率由预测的结果之和与测试集大小的比值来表示。

(3)数据选择

在测试得到当前网络效果之后，若当前效果仍未符合预期，则可以进行进一步的数据选择。所有未标注数据将忽略抓取方式检测模块，前向传播经过特征提取模块以及数据选择策略模块，最终得到每个数据的概率值。将数据由概率值从小到大排序，并取前n个数据(n为自定义数据量)进行标注，加入到已标注数据集中，重复以上过程，进行重新训练。

Claims

1.一种面向机器人抓取的数据主动式选择方法，其特征在于，面向机器人抓取的数据主动式选择方法主要分为两个分支，物体抓取方式检测分支以及数据选择策略分支，具体包括以下三个模块：

(1)数据特征提取模块

数据特征提取模块为卷积神经网络特征提取层，输入数据经过数据特征提取模块处理后将称为特征数据，提供给其他模块利用；

(1.1)模块输入：

本模块的输入在RGB图像和深度图像间进行随意选择，一共有三种输入方案：单RGB图像、单深度图像以及RGB与深度图像结合，对应的输入通道数分别为3通道、1通道和4通道，输入图像的长宽均为300像素；

(1.2)模块结构：

本模块采用三层卷积神经网络结构，卷积核的大小分别为9×9，5×5和3×3；输出通道数分别为32，16和8；数据特征提取模块每一层都由卷积层和激活函数组成，整个过程表述如下公式：

Out1＝F(RGBD) (1)

Out2＝F(Out1) (2)

Out3＝F(Out2) (3)

其中，RGBD表示RGB图像与深度图像结合的4通道输入数据，F代表卷积层与激活函数的组合，Out1、Out2与Out3分别代表三层输出的特征图；在输入图像的长宽均为300像素的情况下，Out1的大小为100像素×100像素，Out2的大小为50像素×50像素，Out3的大小为25像素×25像素；

(2)抓取方式检测模块

本模块利用数据特征提取模块得到的最终特征图进行反卷积操作，将特征图还原到原输入大小，即300像素×300像素，得到最终的结果，即抓取值图、宽度图以及旋转角的正弦图与余弦图；根据这四张图像，得到物体抓取表示方法的中心点、宽度以及旋转角；

(2.1)模块输入：

本模块的输入是公式(3)中得到的特征图Out3；

(2.2)模块结构：

抓取方式检测模块包含三个反卷积层以及四个单独的卷积层；三个反卷积层的卷积核大小分别设置为3×3、5×5和9×9，四个单独的卷积层卷积核大小为2×2；此外，在进行反卷积操作之后，每一层还包括ReLU激活函数，以实现更有效的表示，而四个单独的卷积层将直接输出结果；这个过程表述为：

x＝DF(Out3) (4)

p＝P(x) (5)

w＝W(x) (6)

s＝S(x) (7)

c＝C(x) (8)

其中，Out3为特征提取层的最终输出，DF为三层反卷积层以及对应的激活函数ReLU的组合，P、W、S和C分别代表四个单独的反卷积层，对应的p、w、s和c分别代表最终输出的抓取值图、宽度图以及旋转角的正弦图与余弦图；最终抓取方式的表示由下述公式得到：

(i，j)＝argmax(p) (9)

width＝w(i，j) (10)

sinθ＝s(i，j) (11)

cosθ＝c(i，j) (12)

其中，argmax表示获得图中最大值点的横纵坐标(i，j)，宽度width、旋转角正弦值sinθ和旋转角余弦值cosθ分别由对应的输出图像及上述坐标得到，最终旋转角θ由反正切函数arctan得到；