CN112232141B

CN112232141B - 一种可识别物体空间位置的机械臂交互方法及设备

Info

Publication number: CN112232141B
Application number: CN202011026921.7A
Authority: CN
Inventors: 李志豪; 赵一亭; 邓富荣; 何炳锐; 张嘉翊
Original assignee: Wuhan Yunji Intelligent Technology Co ltd
Current assignee: Wuhan Yunji Intelligent Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-06-20
Anticipated expiration: 2040-09-25
Also published as: CN112232141A

Abstract

本发明涉及一种可识别物体空间位置的机械臂交互方法及设备，方法包括获取用户发出的自然语言指令以及摄像机拍摄的图像；对所述图像进行实例分割，以得到所述图像内的每个物体的候选框；将每个物体的候选框与所述图像内的其它任意物体的候选框输入空间关系长短期记忆网络中，以得到所述图像内的每个物体相对于其它任意物体的空间关系描述；将各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分，以得到评分最高的物体；控制所述机械臂抓取评分最高的物体。本发明解决了目前机器人无法在图像中的物体方位关系与空间方位指令之间建立联系的问题。

Description

一种可识别物体空间位置的机械臂交互方法及设备

技术领域

本发明涉及智能机器人技术领域，尤其涉及一种可识别物体空间位置的机械臂交互方法、装置、设备及存储介质。

背景技术

随着科技的发展，用户对智能机器人的需求越来越大，人机交互的方式也越来越多，从程序控制到示教控制，再到现在更符合人类习惯的自然语言控制。

然而目前的机器人仍然不能理解人类语言中的空间方位与现实中空间方位之间的关系，这导致机器人仅能够在结构化的环境和语言条件下进行使用，在陌生地未标记环境方位的情况下，机器人无法使用。

发明内容

有鉴于此，有必要提供一种可识别物体空间位置的机械臂交互方法、装置、设备及存储介质，用以解决目前机器人无法理解自然语言指令与空间方位之间的关系的问题。

第一方面，本发明提供一种可识别物体空间位置的机械臂交互方法，包括如下步骤：

获取用户发出的自然语言指令以及摄像机拍摄的图像；

对所述图像进行实例分割，以得到所述图像内的每个物体的候选框；

将每个物体的候选框与所述图像内的其它任意物体的候选框输入空间关系长短期记忆网络中，以得到所述图像内的每个物体相对于其它任意物体的空间关系描述；

将各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分，以得到评分最高的物体；

控制所述机械臂抓取评分最高的物体。

优选的，所述的可识别物体空间位置的机械臂交互方法中，所述对所述图像进行实例分割，以得到所述图像内的每个物体的候选框的步骤包括：

将所述图像分割成多个正方形方框，其中，每个方框包含m*m个像素点，m为不小于1的自然数；

将每个所述正方形方框输入到预先训练好的卷积神经网络中，以得到各个所述正方形方框中含有物体的概率；

判断各个所述正方形方框中含有物体的概率是否超过预设概率阈值，如果是，则判断所述正方形方框中有物体。

优选的，所述的可识别物体空间位置的机械臂交互方法中，所述概率阈值为0.87。

优选的，所述的可识别物体空间位置的机械臂交互方法中，通过所述空间关系长短期记忆网络获取空间关系描述的方法具体为：

输入两个物体的候选框，以每个物体的候选框的每个像素点为节点，以每个像素点在二维图像中的位置以及其rgb像素值作为六维节点特征，以相连接的两个像素点之间的共用边信息，根据所述节点、六维节点特征和共用边信息生成图数据结构，并提取所述图数据结构中的图特征后，将所述图特征输入到长短期记忆人工神经网络中，以生成两个物体的空间关系描述。

优选的，所述的可识别物体空间位置的机械臂交互方法中，采用图卷积网络提取所述图数据结构中的图特征。

优选的，所述的可识别物体空间位置的机械臂交互方法中，采用机器翻译评价指标对各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分。

优选的，所述的可识别物体空间位置的机械臂交互方法中，采用冒泡法对各个物体的空间关系描述评分进行排序，以得到评分最高的物体。

第二方面，本发明还提供一种可识别物体空间位置的机械臂交互装置，包括：

信息获取模块，用于获取用户发出的自然语言指令以及摄像机拍摄的图像；

图像分割模块，用于对所述图像进行实例分割，以得到所述图像内的每个物体的候选框；

空间关系获取模块，用于将每个物体的候选框与所述图像内的其它任意物体的候选框输入空间关系长短期记忆网络中，以得到所述图像内的每个物体相对于其它任意物体的空间关系描述；

评分模块，用于将各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分，以得到评分最高的物体；

抓取控制模块，用于控制所述机械臂抓取评分最高的物体。

第三方面，本发明还提供一种可识别物体空间位置的机械臂交互设备，包括：处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的可识别物体空间位置的机械臂交互方法中的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的可识别物体空间位置的机械臂交互方法中的步骤。

【有益效果】

本发明提供的可识别物体空间位置的机械臂交互方法、装置、设备及存储介质，通过提出的空间关系长短期记忆网络，可以识别图像中物体之间的位置，并生成相应的文字描述；根据所述文字描述，机械臂可与人类用户进行交互，抓取指定位置的物体，解决了目前机器人无法在图像中的物体方位关系与空间方位指令之间建立联系的问题。

附图说明

图1为本发明提供的可识别物体空间位置的机械臂交互方法的一较佳实施例的流程图；

图2为本发明提供的可识别物体空间位置的机械臂交互装置的一较佳实施例的结构框图；

图3为本发明可识别物体空间位置的机械臂交互程序的较佳实施例的运行环境示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

请参阅图1，本发明实施例提供的可识别物体空间位置的机械臂交互方法，包括如下步骤：

S100、获取用户发出的自然语言指令以及摄像机拍摄的图像。

本实施例中，所述自然语言指令为用户发出的语音，可以为任意语言，本实施例中，所述自然语言指令为包含空间方位关系的指令，所述摄像机安装于机械臂的上方，用于拍摄环境画面，本实施例通过将自然语言指令与拍摄的图像结合，进而来实现机械臂与人类用户语音交互，使得机械臂可在图像中的物体方位关系与空间方位指令之间建立联系，增加了机械臂的智能化程度。

S200、对所述图像进行实例分割，以得到所述图像内的每个物体的候选框。

本实施例中，为了得到所述图像中的各个物体的位置，需要对所述图像进行实例分割，具体实施时，所述步骤S200具体包括：

其中，所述m为可调参数，根据目标物的大小决定，本实施例中，由于摄像头与物体之间的距离固定，故将m设置为3，将每个方框输入到预训练的卷积神经网络内，卷积神经网络输出的是方框内含有物体的概率，当概率超过一定阈值，则判定框内有物体，本实施例中，所述概率阈值设置为0.87。

S300、将每个物体的候选框与所述图像内的其它任意物体的候选框输入空间关系长短期记忆网络中，以得到所述图像内的每个物体相对于其它任意物体的空间关系描述。

具体来说，为了使用户输入的自然语言指令中的空间方位关系与图像中的空间方位关系对应，需要先从图像中获取各个物体的空间关系描述，本实施例通过空间关系长短期记忆网络(SRLSTM网络)来实现空间关系描述，使每个物体与其他物体的空间关系都生成相应的文字描述，从而与人类用户的自然语言指令匹配。具体的，通过所述空间关系长短期记忆网络获取空间关系描述的方法具体为：

本实施例中，SRLSTM算法，其输入为包含两个物体候选框，以每个像素点为节点，以像素点在二维图像中的位置以及rgb像素值作为六维节点特征，相连接的两像素之间存在边，形成图数据结构，然后使用图卷积网络，提取图特征，具体实施时，首先使用两层图卷积网络，然后使用一层图注意力层，将Query设置为当前中心节点的特征向量，将Source设置为所有邻居的特征向量，将Attention Value设置为中心节点经过聚合操作后的新的特征向量，经过注意力层计算后，再将各个节点的Attention Value节点特征拼接在一起，形成整体特征，输入到MLP多层感知网络中，形成经过高度压缩的信息特征，可以更好的捕捉空间信息与颜色信息，接下来将提取的信息特征输入到长短期记忆人工神经网络(LSTM网络)中，生成图像描述信息，从而得到了各个物体相对于其它物体的空间关系描述。

S400、将各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分，以得到评分最高的物体。

本实施例中，采用机器翻译评价指标METEOR对各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分，用来对比机器生成语言与人类描述语言的吻合程度，从而实现对人类用户的自然语言指令中的空间位置关系的识别。

优选的实施例中，采用冒泡法对各个物体的空间关系描述进行评分，以得到评分最高的物体。

S500、控制所述机械臂抓取评分最高的物体。

换而言之，所述评分最高的物体即为人类用户的自然语言指令中通过空间关系描述想要抓取的物体，从而使得机械臂可与人类用户进行交互，抓取指定位置的物体，解决目前机器人无法在图像中的物体方位关系与空间方位指令之间建立联系的问题。

基于上述可识别物体空间位置的机械臂交互方法，本发明还相应的提供一种可识别物体空间位置的机械臂交互装置，请参阅图2，所述可识别物体空间位置的机械臂交互方法装置包括：

信息获取模块21，用于获取用户发出的自然语言指令以及摄像机拍摄的图像；

图像分割模块22，用于对所述图像进行实例分割，以得到所述图像内的每个物体的候选框；

空间关系获取模块23，用于将每个物体的候选框与所述图像内的其它任意物体的候选框输入空间关系长短期记忆网络中，以得到所述图像内的每个物体相对于其它任意物体的空间关系描述；

评分模块24，用于将各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分，以得到评分最高的物体；

抓取控制模块25，用于控制所述机械臂抓取评分最高的物体。

由于上文已对可识别物体空间位置的机械臂交互方法进行详细描述，所述可识别物体空间位置的机械臂交互方法具备的技术效果，所述可识别物体空间位置的机械臂交互装置同样具备，在此不再赘述。

如图3所示，基于上述可识别物体空间位置的机械臂交互方法，本发明还相应提供了一种可识别物体空间位置的机械臂交互设备，所述可识别物体空间位置的的机械臂交互设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该可识别物体空间位置的机械臂交互设备包括处理器10、存储器20及显示器30。图3仅示出了可识别物体空间位置的机械臂交互设备的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述可识别物体空间位置的机械臂交互设备的内部存储单元，例如可识别物体空间位置的机械臂交互设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述可识别物体空间位置的机械臂交互设备的外部存储设备，例如所述可识别物体空间位置的机械臂交互设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括可识别物体空间位置的机械臂交互设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述可识别物体空间位置的机械臂交互设备的应用软件及各类数据，例如所述安装可识别物体空间位置的机械臂交互设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有可识别物体空间位置的机械臂交互程序40，该可识别物体空间位置的机械臂交互程序40可被处理器10所执行，从而实现本申请各实施例的可识别物体空间位置的机械臂交互方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述可识别物体空间位置的机械臂交互方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述可识别物体空间位置的机械臂交互设备的信息以及用于显示可视化的用户界面。所述可识别物体空间位置的机械臂交互设备的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中可识别物体空间位置的机械臂交互程序40时实现如上述实施例所述的可识别物体空间位置的机械臂交互方法中的步骤，由于上文已对可识别物体空间位置的机械臂交互方法进行详细描述，在此不再赘述。

综上所述，本发明提供的可识别物体空间位置的机械臂交互方法、装置、设备及存储介质，通过提出的空间关系长短期记忆网络，可以识别图像中物体之间的位置，并生成相应的文字描述；根据所述文字描述，机械臂可与人类用户进行交互，抓取指定位置的物体，解决了目前机器人无法在图像中的物体方位关系与空间方位指令之间建立联系的问题。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种可识别物体空间位置的机械臂交互方法，其特征在于，包括如下步骤：

获取用户发出的自然语言指令以及摄像机拍摄的图像；

控制所述机械臂抓取评分最高的物体；

所述对所述图像进行实例分割，以得到所述图像内的每个物体的候选框的步骤包括：

判断各个所述正方形方框中含有物体的概率是否超过预设概率阈值，如果是，则判断所述正方形方框中有物体；

通过所述空间关系长短期记忆网络获取空间关系描述的方法具体为：

输入两个物体的候选框，以每个物体的候选框的每个像素点为节点，以每个像素点在二维图像中的位置以及其rgb像素值作为六维节点特征，以相连接的两个像素点之间的共用边信息，根据所述节点、六维节点特征和共用边信息生成图数据结构，并提取所述图数据结构中的图特征后，将所述图特征输入到长短期记忆人工神经网络中，以生成两个物体的空间关系描述；

采用机器翻译评价指标对各个物体的空间关系描述与用户发出的自然语言指令进行匹配评分。

2.根据权利要求1所述的可识别物体空间位置的机械臂交互方法，其特征在于，所述概率阈值为0.87。

3.根据权利要求1所述的可识别物体空间位置的机械臂交互方法，其特征在于，采用图卷积网络提取所述图数据结构中的图特征。

4.根据权利要求1所述的可识别物体空间位置的机械臂交互方法，其特征在于，采用冒泡法对各个物体的空间关系描述评分进行排序，以得到评分最高的物体。

5.一种可识别物体空间位置的机械臂交互装置，其特征在于，包括：

抓取控制模块，用于控制所述机械臂抓取评分最高的物体；

所述图像分割模块具体用于：

6.一种可识别物体空间位置的机械臂交互设备，其特征在于，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-4任意一项所述的可识别物体空间位置的机械臂交互方法中的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-4任意一项所述的可识别物体空间位置的机械臂交互方法中的步骤。