CN113326933B

CN113326933B - 基于注意力机制的物体操作指令跟随学习方法及装置

Info

Publication number: CN113326933B
Application number: CN202110500653.6A
Authority: CN
Inventors: 鲁继文; 周杰; 肖厚元
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-08-09
Anticipated expiration: 2041-05-08
Also published as: CN113326933A

Abstract

本发明公开了一种基于注意力机制的物体操作指令跟随学习方法及装置，该方法包括：获取目标场景图像，提取目标场景图像的图像特征；对物体操作指令进行特征提取得到物体操作指令的文本特征；通过双线性模型对图像特征和物体操作指令的文本特征进行融合，得到图像特征上的注意力分布；将注意力分布作用到初始的图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数。该方法解决了现有物体操作指令跟随方法性能低下的问题。

Description

基于注意力机制的物体操作指令跟随学习方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于注意力机制的物体操作指令跟随学习方法及装置。

背景技术

得益于深度学习技术的兴起和计算能力的提升，机器人技术在理论研究和工业应用上都取得了突飞猛进的发展，越来越多的实体机器人开始走出实验室，奔向热火朝天的工厂一线，也逐渐进入到寻常百姓的家里。然而，令人担忧的是，绝大多数的机器人应用依然局限在简单可控的工业流水线上，一旦进入动态开放环境，尤其面对复杂任务目标时，机器人常常表现笨拙，无法自主做出正确的动作。在这种情况下，人类通过语言与机器人沟通，指挥并引导他们就显得尤为重要了。在面对复杂任务时，一旦机器人具备了理解和执行人类指令的能力，即指令跟随功能，人类就可以根据自身的知识经验对任务进行分解，将其分解成一系列的简单问题，并通过指令的形式传递给机器人，机器人按照指令逐个地解决简单问题，最终完成初始的复杂任务。因此，如果我们期待机器人能够在人类活动中发挥更大的作用，那么指令跟随将是它必须要掌握的一项基本技能，这也是通往通用智能机器人的必经之路。

物体操作指令跟随的基础是机器人物体抓取。物体抓取是机器人研究中的一个古老问题，几十年来一直属于是机器人社区的研究热点，新的理论，方法和技术层出不穷。然而，即使经过数十年的发展和沉淀，物体抓取至今仍是一个充满挑战性的任务，目前机器人的物体抓取能力仍然远远弱于人类，更无法满足日常生活和工业生产的需求。目前，主流的物体抓取研究工作可以划分为两类，分别是传统解析方法和数据驱动的学习方法。前者在上个世纪占据着主导地位，进入新世纪尤其是在深度学习兴起后，数据驱动的方法则统治了物体抓取问题的研究。

物体操作指令跟随是一个计算机视觉和自然语言处理相结合的交叉任务，目前在学术界还是一个比较小众的研究方向，任务难度系数较高，相关研究工作仍处于起步阶段，研究方向多种多样，尚未具备同一的通用框架。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于注意力机制的物体操作指令跟随学习方法，该方法解决了现有物体操作指令跟随方法性能低下的问题，通过注意力机制，使得神经网络能够将指令的文本特征和图像空间特征关联起来并进行融合，基于融合后的特征捕捉到精确的注意力图，进一步得到操作参数在各自动作空间的概率分布。

本发明的另一个目的在于提出一种基于注意力机制的物体操作指令跟随学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于注意力机制的物体操作指令跟随学习方法，包括：

获取目标场景图像，提取所述目标场景图像的图像特征；

对物体操作指令进行特征提取得到所述物体操作指令的文本特征；

通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合，得到所述图像特征上的注意力分布；

将所述注意力分布作用到初始的所述图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数。

为达到上述目的，本发明另一方面实施例提出了一种基于注意力机制的物体操作指令跟随学习装置，包括：

图像特征提取模块，用于获取目标场景图像，提取所述目标场景图像的图像特征；

文本特征提取模块，用于对物体操作指令进行特征提取得到所述物体操作指令的文本特征；

融合模块，用于通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合，得到所述图像特征上的注意力分布；

操作参数生成模块，用于将所述注意力分布作用到初始的所述图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于注意力机制的物体操作指令跟随学习方法流程图；

图2为根据本发明一个具体实施例的基于注意力机制的物体操作指令跟随学习方法流程图；

图3为根据本发明一个实施例的基于注意力机制的物体操作指令跟随装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习方法及装置。

首先将参照附图描述根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习方法。

图1为根据本发明一个实施例的基于注意力机制的物体操作指令跟随学习方法流程图。

如图1所示，该基于注意力机制的物体操作指令跟随学习方法包括以下步骤：

步骤S1，获取目标场景图像，提取目标场景图像的图像特征。

可选地，将目标场景图像进行裁剪，利用图像特征提取网络提取目标场景图像的图像特征。

具体地，将场景图片尺寸裁剪为224×224，图像特征提取网络采用经ImageNet数据集预训练后的ResNet101模型初始化其图像卷积层的网络参数，提取到的特征图尺寸为2048×7×7。

步骤S2，对物体操作指令进行特征提取得到物体操作指令的文本特征。

进一步地，对物体操作指令进行特征提取得到物体操作指令的文本特征，包括：

在物体操作指令前端进行固定字符填充；

采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量，再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。

为了解决指令长短不一的问题，在指令的前端进行固定字符填充，使其变成长度为60的字符蓄力。采用GRU网络抽取操作指令的文本特征，输出维数设置为2400，词嵌入采用基于物体操作指令数据集语料库构建的全局词向量进行初始化。

步骤S3，通过双线性模型对图像特征和物体操作指令的文本特征进行融合，得到图像特征上的注意力分布。

图像特征上的注意力分布包括两张注意力图，分别代表对抓取位置和放置位置的关注。

具体地，定语言特征q和二维网格S×S上的图像特征F，可以按照下式得到在二维网格S×S上的注意力图α。

其中，

是在二维网格S×S上的概率分布，P∈R^d×1，σ是非线性激活函数，U∈R^n×d，q∈Rⁿ，V∈R^m×d，

d是投影后特征空间的维度。

是全1向量，其作用是将经U投影后的文本特征复制S²遍，从而能够和投影后的图像特征进行哈达玛积。为了简化，未列出偏置项。在这一部分，基于提取到的图像特征和文本特征，要生成两张注意力图，分别代表对抓取位置和放置位置的关注。

步骤S4，将注意力分布作用到初始的图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数。

进一步地，将图像特征上的注意力分布分别作用到初始的图像特征上，得到融合后的抓取位置特征和放置位置特征；

基于抓取位置特征和放置位置特征生成三个动作分支，其中两个分支分别对抓取位置特征和放置位置特征不断上采样，得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图，另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布；

将抓取位置概率分布图、放置位置概率分布图和抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。

具体地，得到注意力图后，作用到初始的图像特征上，得到两组融合后的特征，分别是抓取位置特征和放置位置特征，基于该特征生成三个动作分支，其中两个分支分别对抓取位置特征和放置位置特征不断上采样，得到在场景中的抓取位置概率分布图和放置位置概率分布图，其尺寸和输入的场景图片一样。另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布。

综上，本发明的实施例输入单张场景图片和物体操作指令，不直接预测抓取位置、抓取角度及放置位置，而是基于注意力机制输出三种动作参数的概率分布，概率最大值便是最终的动作。为了能够进行端到端的学习，首先提取操作台图片的图像特征和物体操作指令的文本特征，并利用双线性模型对图像特征和文本特征进行融合，得到在图像特征上的注意力分布，共两种注意力分布，一种表征对抓取物体的关注，一中表征对放置位置的关注。对加权后的图像特征进行上采样，输出与场景图片同尺寸的抓取位置概率分布图和放置位置概率图，同时得到对应于抓取位置的抓取角度概率分布。

根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习方法，通过输入单张当前场景的图片和物体操作指令，能够基于注意力机制直接预测在场景中的操作参数概率分布，包括抓取位置、抓取角度、放置位置三个参数，取概率最大值便是最终动作。采用端到端的网络结构，部署到机器人系统中，能够正确理解人表达的物体操作指令，同时能够生成正确的抓取参数将目标物体抓起来，并放到正确的位置，使得场景变化符合物体操作指令的要求。

其次参照附图描述根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习装置。

图3为根据本发明一个实施例的基于注意力机制的物体操作指令跟随学习装置结构示意图。

如图3所示，该基于注意力机制的物体操作指令跟随学习装置包括：图像特征提取模块301、文本特征提取模块302、融合模块303和操作参数生成模块304。

图像特征提取模块301，用于获取目标场景图像，提取目标场景图像的图像特征。

文本特征提取模块302，用于对物体操作指令进行特征提取得到物体操作指令的文本特征。

融合模块303，用于通过双线性模型对图像特征和物体操作指令的文本特征进行融合，得到图像特征上的注意力分布。

操作参数生成模块304，用于将注意力分布作用到初始的图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数。

进一步地，提取目标场景图像的图像特征，包括：

将目标场景图像进行裁剪，利用图像特征提取网络提取目标场景图像的图像特征。

进一步地，文本特征提取模块，具体用于，在物体操作指令前端进行固定字符填充；

进一步地，图像特征上的注意力分布，包括两张注意力图，分别代表对抓取位置和放置位置的关注。

进一步地，操作参数生成模块，具体用于，

将图像特征上的注意力分布分别作用到初始的图像特征上，得到融合后的抓取位置特征和放置位置特征；

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习装置，通过输入单张当前场景的图片和物体操作指令，能够基于注意力机制直接预测在场景中的操作参数概率分布，包括抓取位置、抓取角度、放置位置三个参数，取概率最大值便是最终动作。采用端到端的网络结构，部署到机器人系统中，能够正确理解人表达的物体操作指令，同时能够生成正确的抓取参数将目标物体抓起来，并放到正确的位置，使得场景变化符合物体操作指令的要求。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于注意力机制的物体操作指令跟随学习方法，其特征在于，包括以下步骤：

获取目标场景图像，提取所述目标场景图像的图像特征；

通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合，得到所述图像特征上的注意力分布；其中，所述图像特征上的注意力分布包括两张注意力图，分别代表对抓取位置和放置位置的关注；

将所述注意力分布作用到初始的所述图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数；具体包括：将所述图像特征上的注意力分布分别作用到初始的图像特征上，得到融合后的抓取位置特征和放置位置特征；基于所述抓取位置特征和所述放置位置特征生成三个动作分支，其中两个分支分别对抓取位置特征和放置位置特征不断上采样，得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图，另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布；将所述抓取位置概率分布图、所述放置位置概率分布图和所述抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。

2.根据权利要求1所述的方法，其特征在于，所述提取所述目标场景图像的图像特征，包括：

将所述目标场景图像进行裁剪，利用图像特征提取网络提取所述目标场景图像的图像特征。

3.根据权利要求1所述的方法，其特征在于，所述对物体操作指令进行特征提取得到所述物体操作指令的文本特征，包括：

在所述物体操作指令前端进行固定字符填充；

采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量，再对所述物体操作指令的向量序列进行处理得到所述物体操作指令的文本特征。

4.一种基于注意力机制的物体操作指令跟随学习装置，其特征在于，包括：

融合模块，用于通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合，得到所述图像特征上的注意力分布；其中，所述图像特征上的注意力分布包括两张注意力图，分别代表对抓取位置和放置位置的关注；

操作参数生成模块，用于将所述注意力分布作用到初始的所述图像特征上进行加权，根据加权后的图像特征得到操作参数在各自空间的概率分布，将概率最大值对应的操作参数作为动作参数；所述操作参数生成模块具体用于，将所述图像特征上的注意力分布分别作用到初始的图像特征上，得到融合后的抓取位置特征和放置位置特征；基于所述抓取位置特征和所述放置位置特征生成三个动作分支，其中两个分支分别对抓取位置特征和放置位置特征不断上采样，得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图，另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布；将所述抓取位置概率分布图、所述放置位置概率分布图和所述抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。

5.根据权利要求4所述的装置，其特征在于，所述提取所述目标场景图像的图像特征，包括：

6.根据权利要求4所述的装置，其特征在于，所述文本特征提取模块，具体用于，在所述物体操作指令前端进行固定字符填充；