CN113326932B

CN113326932B - 基于物体检测的物体操作指令跟随学习方法及装置

Info

Publication number: CN113326932B
Application number: CN202110500225.3A
Authority: CN
Inventors: 周杰; 鲁继文; 肖厚元
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-09-09
Anticipated expiration: 2041-05-08
Also published as: CN113326932A

Abstract

本发明公开了一种基于物体检测的物体操作指令跟随学习方法及装置，该方法包括：构建物体操作指令数据集；获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征；通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位；根据得到的抓取物体、参考物体、放置方位以及物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置。该方法解决了现有物体抓取方法无法接受人类指令约束的问题，可以将指令跟随和物体抓取结合在一起，实现物体操作指令跟随任务。

Description

基于物体检测的物体操作指令跟随学习方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于物体检测的物体操作指令跟随学习方法及装置。

背景技术

得益于深度学习技术的兴起和计算能力的提升，机器人技术在理论研究和工业应用上都取得了突飞猛进的发展，越来越多的实体机器人开始走出实验室，奔向热火朝天的工厂一线，也逐渐进入到寻常百姓的家里。然而，令人担忧的是，绝大多数的机器人应用依然局限在简单可控的工业流水线上，一旦进入动态开放环境，尤其面对复杂任务目标时，机器人常常表现笨拙，无法自主做出正确的动作。在这种情况下，人类通过语言与机器人沟通，指挥并引导他们就显得尤为重要了。在面对复杂任务时，一旦机器人具备了理解和执行人类指令的能力，即指令跟随功能，人类就可以根据自身的知识经验对任务进行分解，将其分解成一系列的简单问题，并通过指令的形式传递给机器人，机器人按照指令逐个地解决简单问题，最终完成初始的复杂任务。因此，如果我们期待机器人能够在人类活动中发挥更大的作用，那么指令跟随将是它必须要掌握的一项基本技能，这也是通往通用智能机器人的必经之路。

物体操作指令跟随的基础是机器人物体抓取。物体抓取是机器人研究中的一个古老问题，几十年来一直属于是机器人社区的研究热点，新的理论，方法和技术层出不穷。然而，即使经过数十年的发展和沉淀，物体抓取至今仍是一个充满挑战性的任务，目前机器人的物体抓取能力仍然远远弱于人类，更无法满足日常生活和工业生产的需求。目前，主流的物体抓取研究工作可以划分为两类，分别是传统解析方法和数据驱动的学习方法。前者在上个世纪占据着主导地位，进入新世纪尤其是在深度学习兴起后，数据驱动的方法则统治了物体抓取问题的研究。

物体操作指令跟随是一个计算机视觉和自然语言处理相结合的交叉任务，目前在学术界还是一个比较小众的研究方向，任务难度系数较高，相关研究工作仍处于起步阶段，研究方向多种多样，尚未具备同一的通用框架。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于物体检测的物体操作指令跟随学习方法，该方法解决了现有物体抓取方法无法接受人类指令约束的问题，可以将指令跟随和物体抓取结合在一起，完成物体操作指令跟随任务。

本发明的另一个目的在于提出一种基于物体检测的物体操作指令跟随学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于物体检测的物体操作指令跟随学习方法，包括：

构建物体操作指令数据集；

获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征；

通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位；

根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置。

另外，根据本发明上述实施例的基于物体检测的物体操作指令跟随学习方法还可以具有以下附加的技术特征：

进一步地，所述构建物体指令数据集包括：

通过六元组对物体指令样本进行描述，所述六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。

进一步地，所述获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征，包括：

通过目标检测算法对目标场景中的物体进行检测，基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分，并对其包含物体的锚框进行边框回归，得到物体检测框及其物体检测框参数。

进一步地，所述目标检测算法的损失函数为：

其中，i是锚框对应的编号，p_i代表锚框中含有物体的概率，t_i＝(t_x,t_y,t_w,t_h)是代表边界框参数的4维向量，p_i ^*是锚框是否含有物体的真实标签，1代表有，0代表没有，t_i ^*是含有物体的锚框对应边框参数的真实标签，L_cls是一个针对二分类问题的对数损失函数，L_reg是约束边界框回归的损失函数，N_cls和N_reg是归一化参数，其中N_cls是样本数目，N_reg是锚框的数目，是用来平衡L_cls和L_reg的权重参数。

进一步地，还包括：对物体操作指令中的文本特征进行提取。

进一步地，所述对物体操作指令中的文本特征进行提取，包括：

采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量，再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。

进一步地，还包括：对所有物体的物体检测框进行评分，筛选出多个评分大于预设阈值的物体检测框，将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。

进一步地，所述通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位，包括：

通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率，将概率最高的物体作为物体操作指令对应的抓取物体和参考物体；

同时对放置方位进行预测，基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率，得到放置方位。

进一步地，所述多层全连接网络的损失函数为：

其中，C∈R¹⁸是是预测的在前、后、左、右4个放置方位上的概率分布，T是对应的标签，K是送入比对网络的检测框数目；p_g∈R^K是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布，

是对应的标签；p_w∈R^K是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布，

是对应的标签。

为达到上述目的，本发明另一方面实施例提出了一种基于物体检测的物体操作指令跟随学习装置，包括：

构建模块，用于构建物体操作指令数据集；

目标检测模块，用于获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征；

目标筛选模块，用于通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位；

操作参数生成模块，用于根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置。

本发明实施例的基于物体检测的物体操作指令跟随学习方法及装置，解决了现有物体抓取方法无法接受人类指令的约束，将指令跟随和物体抓取结合在一起，进行物体操作指令跟随的问题，给出了一种在人机共存环境下，让机器人根据人类指令完成相应的物体移动操作的操作方法。包含目标检测、目标筛选、操作参数生成三个子模块，通过一个简单的全连接网络，便能将目标物体从场景中筛选出来。部署到机器人系统后，机器人系统能够正确理解人表达的物体操作指令，同时能够生成正确的抓取参数将目标物体抓起来，并放到正确的位置。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法流程图；

图2为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法原理流程图；

图3为根据本发明一个实施例的目标筛选的原理图；

图4为根据本发明一个实施例的生成操作参数原理图；

图5为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于物体检测的物体操作指令跟随学习方法及装置。

首先将参照附图描述根据本发明实施例提出的基于物体检测的物体操作指令跟随学习方法。

图1为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法流程图。

图2为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法原理流程图。

如图1和图2所示，该基于物体检测的物体操作指令跟随学习方法包括以下步骤：

步骤S1，构建物体操作指令数据集。

可选地，构建物体指令数据集包括：

通过六元组对物体指令样本进行描述，六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。

具体地，生成物体操作指令数据集的核心在于如何产生一一对应的场景图片、操作指令数据对。物体操作指令的目标可以归纳为“把物体A移动到物体B的前/后/左/右”，该指令描述了要移动的物体(物体A)以及移动后的放置位置，放置位置没有直接表述出来，而是通过参考物体(物体B)和放置方位(前/后/左/右)确定。基于这一目标，生成操作指令的主要工作在于采用何种方式描述物体A和物体B。本发明采用多种修饰方式对其进行描述，分别刻画物体不同的特性，最基本的特性描述方式有形状描述、大小描述、颜色描述、数量描述以及方位描述。所构造物体操作指令数据集的每一个样本都是一个六元组，分别是场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。

步骤S2，获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征。

可选地，获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征，包括：

具体地，利用FasterRCNN得到场景中所有物体检测框的参数，FasterRCNN的核心在于RPN的训练，RPN采用生成锚框的方法，直接基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分，并对其包含物体的锚框进行边框回归，得到候选检测框参数。为了能够有效训练该模块，其损失函数为：

步骤S3，通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位。

可选地，对物体操作指令中的文本特征进行提取，包括：

进一步地，在比对之前，还包括：对所有物体的物体检测框进行评分，筛选出多个评分大于预设阈值的物体检测框，将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。

可以理解的是，将物体检测框与物体操作指令数据集中的任一物体操作指令的文本特征进行比对时，可以提前对所有的物体检测框进行筛选，将筛选出的物体检测框的图像特征送入比对网络，与该物体操作指令的文本特征进行比对，由此，可以减少计算量，提高计算速度。

进一步地，通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位，包括：

具体地，在FasterRCNN中，经感兴趣区域池化层处理后的特征图都可以用来作为该检测框中所含物体的特征表示，本发明实施例对该特征图进一步简化，通过平均值池化操作得到一个2048维的特征向量，充当检测框中所含物体的特征表示。为了提取操作指令的文本特征，采用词嵌入方法通过一个浅层神经网络将操作指令中的每一个单词映射成一个连续、低维的稠密向量，再通过GRU模块处理整个指令的向量序列进而得到文本指令的特征表示图3所示，基于提取的图像特征和文本特征，将评分最高的若干个检测框的物体特征和物体操作指令的文本特征一起送入目标筛选。输出每个检测框所含物体是抓取物体和参考物体的概率。放置方位的预测则通过一个简单的多层全连接网络完成，该网络基于文本特征向量预测前、后、左、右四种放置方位的概率。损失函数如下：

其中，C∈R¹⁸是是预测的在前、后、左、右4个放置方位上的概率分布，T是对应的标签。K是送入比对网络的检测框数目；p_g∈R^K是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布，

是对应的标签；而f(·)是如下函数：

其中，σ是Sigmoid函数。

步骤S4，根据得到的抓取物体、参考物体、放置方位以及物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置。

具体地，给定物体操作指令，目标筛选步骤能够从场景中筛选出正确的抓取物体、参考物体以及放置方位。然而，要让机器人完成整个物体操作，还需要提供更加具体的操作参数，包括抓取参数和放置参数，使得机器人能够完成抓放操作。提供抓取位置(x,y)和抓取角度θ通过一个ResNet34的小型网络对这两个参数进行估计，如图4所示。挑选出含有抓取物体的检测框后，利用检测框参数可以将抓取物体从原场景图片中分割出来，得到只包含抓取物体的图片，然后将该图片和原场景图片一起送入ResNet34网络，对x,y,θ三个参数进行回归估计。

在得到场景中所有物体的位置信息后，只需遍历参考物体放置方位上的所有像素集合P，对于其中每一个像素p，计算它和场景中所有物体平面距离的最小值，该最小值最大的像素p即为合适的放置位置p^*，即转换为如下离散优化问题：

其中P表示参考物体放置方位上所有像素点的集合，n是场景中物体的数目，o_j表示场景中的第j个物体。

综上，本申请的方法包含目标检测、目标筛选、操作参数生成三个部分。目标检测作为所提方法的基础，主要扮演两方面的角色，一方面是以检测框的形式对场景中的物体进行定位，得到场景中物体的检测框参数，另一方面是作为特征提取器提取每个物体的特征。目标筛选设计了一个轻量级的全连接网络，如图3所示。该网络输入场景中某个物体的特征和操作指令的文本特征，输出二者匹配的概率。由于操作指令同时描述了抓取物体和参考物体，因此，该网络需要预测两种概率，分别代表输入物体是抓取物体和参考物体的概率。将场景中所有物体都通过该网络进行比对后，就可以筛选出物体操作指令中的抓取物体和参考物体，并得到放置方位。操作参数生成部分根据目标筛选部分从场景中筛选出的抓取物体、参考物体以及放置方位，根据目标检测部分得到的检测框参数，生成抓取位置、抓取角度以及放置位置，使得机器人能够完成正确的物体移动操作。

根据本发明实施例提出的基于物体检测的物体操作指令跟随学习方法，以单张操作台图片、单句物体操作指令作为输入，能够生成机器人的具体操作参数，包括抓取物体时的抓取位置和抓取角度，放置物体时的放置位置。物体检测是整个方法的基础，定位物体的同时还能获得其高质量的图像特征。目标筛选将指令的文本特征和物体检测模块所获得的图像特征挨个比对，筛选出正确的抓取物体和参考物体，同时输出放置方位。操作参数生成基于目标筛选筛选出的抓取物体、参考物体、参考方位估计出抓取位置，抓取角度以及放置位置。三个模块都采用监督学习的训练方式，虽然流程上前后衔接，但其训练过程相互独立。机器人执行该动作后，能够成功抓起目标物体，并放置到正确的位置上，使得场景变化符合物体操作指令的要求。

其次参照附图描述根据本发明实施例提出的基于物体检测的物体操作指令跟随学习装置。

图5为本发明一个实施例的基于物体检测的物体操作指令跟随学习装置结构示意图。

如图5所示，该基于物体检测的物体操作指令跟随学习装置包括：构建模块501、目标检测模块502、目标筛选模块503和操作参数生成模块504。

构建模块501，用于构建物体操作指令数据集。

目标检测模块502，用于获取目标场景中所有体的物体检测框和对应的检测框参数，以及物体检测框的图像特征。

目标筛选模块503，用于通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位。

操作参数生成模块504，用于根据得到的抓取物体、参考物体、放置方位以及物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于物体检测的物体操作指令跟随学习装置，以单张操作台图片、单句物体操作指令作为输入，能够生成机器人的具体操作参数，包括抓取物体时的抓取位置和抓取角度，放置物体时的放置位置。物体检测是整个方法的基础，定位物体的同时还能获得其高质量的图像特征。目标筛选将指令的文本特征和物体检测模块所获得的图像特征挨个比对，筛选出正确的抓取物体和参考物体，同时输出放置方位。操作参数生成基于目标筛选筛选出的抓取物体、参考物体、参考方位估计出抓取位置，抓取角度以及放置位置。三个模块都采用监督学习的训练方式，虽然流程上前后衔接，但其训练过程相互独立。机器人执行该动作后，能够成功抓起目标物体，并放置到正确的位置上，使得场景变化符合物体操作指令的要求。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于物体检测的物体操作指令跟随学习方法，其特征在于，包括以下步骤：

构建物体操作指令数据集；

通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位；具体包括：通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率，将概率最高的物体作为物体操作指令对应的抓取物体和参考物体；同时对放置方位进行预测，基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率，得到放置方位；

根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置；

放置方位的预测则通过一个多层全连接网络完成，该网络基于文本特征向量预测前、后、左、右四种放置方位的概率，所述多层全连接网络的损失函数为：

其中，C∈R¹⁸是预测的在前、后、左、右4个放置方位上的概率分布，T是对应的标签，K是送入比对网络的检测框数目；p_g∈R^K是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布，

是对应的标签。

2.根据权利要求1所述的方法，其特征在于，所述构建物体操作指令数据集包括：

通过六元组对物体操作指令样本进行描述，所述六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。

3.根据权利要求1所述的方法，其特征在于，所述获取目标场景中所有物体的物体检测框和对应的检测框参数，以及物体检测框的图像特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标检测算法的损失函数为：

其中，i是锚框对应的编号，p_i代表锚框中含有物体的概率，t_i＝(t_x，t_y，t_w，t_h)是代表边界框参数的4维向量，p_i ^*是锚框是否含有物体的真实标签，1代表有，0代表没有，t_i ^*是含有物体的锚框对应边框参数的真实标签，L_cls是一个针对二分类问题的对数损失函数，L_reg是约束边界框回归的损失函数，N_cls和N_reg是归一化参数，其中N_cls是样本数目，N_reg是锚框的数目，λ是用来平衡L_cls和L_reg的权重参数。

5.根据权利要求1所述的方法，其特征在于，还包括：对物体操作指令中的文本特征进行提取。

6.根据权利要求5所述的方法，其特征在于，所述对物体操作指令中的文本特征进行提取，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：对所有物体的物体检测框进行评分，筛选出多个评分大于预设阈值的物体检测框，将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。

8.一种基于物体检测的物体操作指令跟随学习装置，其特征在于，包括：

构建模块，用于构建物体操作指令数据集；

目标筛选模块，用于通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对，得到物体操作指令对应的抓取物体、参考物体和放置方位；具体用于：通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率，将概率最高的物体作为物体操作指令对应的抓取物体和参考物体；同时对放置方位进行预测，基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率，得到放置方位；

操作参数生成模块，用于根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数，生成抓取位置、抓取角度以及放置位置；

是对应的标签。