CN108247601A

CN108247601A - 基于深度学习的语义抓取机器人

Info

Publication number: CN108247601A
Application number: CN201810133189.XA
Authority: CN
Inventors: 迟程; 李彤; 薛宁; 刘昶
Original assignee: Institute of Electronics of CAS
Current assignee: Institute of Electronics of CAS
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-07-06

Abstract

本公开提供了一种基于深度学习的语义抓取机器人，包括：听觉模块，用于根据语音信息确定动作指令和目标物体信息；以及视觉模块，与所述听觉模块连接，用于根据所述动作指令和目标物体信息识别目标物体的种类，并确定抓取位置和角度。本公开基于深度学习的语义抓取机器人，抓取操作更准确，对数据集外物体的识别率高，智能化程度更高，用户体验更好，更符合人类对机器人拟人化的需求。

Description

基于深度学习的语义抓取机器人

技术领域

本公开涉及人工智能技术领域，尤其涉及一种基于深度学习的语义抓取机器人。

背景技术

近年来，随着全球新一轮科技和产业革命的蓬勃发展，我国机器人产业发展势头迅猛。根据机器人的应用环境，可将机器人分为工业机器人和服务机器人。

中国电子学会2017年制定的《中国机器人产业发展报告》中指出：我国工业机器人是全球第一大工业机器人应用市场，生产制造产能化改造升级的需求日益凸显，工业机器人的市场需求依然旺盛；随着我国人口老龄化趋势加快，以及医疗、教育需求的持续旺盛，我国服务机器人存在巨大市场潜力和发展空间。

虽然机器人产业正在蓬勃发展，但其中绝大多数机器人的智能性仍然较低。据IFR统计，2016年销售的服务机器人中，绝大多数为扫地机器人、割草机器人、娱乐玩具机器人等。作为较高智能性机器人的代表，配有机械臂的自主移动机器人仍然处于实验室研究阶段。

对于智能型机器人来说，智能化抓取近年来是一个广泛研究的问题。如图1所示，美国佐治亚理工学院开发了一款名为EL-E的助老助残型服务机器人，主要用于家庭环境下帮助行动不便人士抓取物体，其抓取对象包括茶杯、碗、遥控器、药片等。执行抓取任务时，用户使用绿色激光笔指向要抓取的目标物体，机器人利用带绿色滤光片的全维视觉检测到激光点后，通过激光传感器与路径规划算法移动到靠近目标点处，对待操作平面进行平面检测，分割出平面上的物体，并计算其质心坐标与在平面内的旋转，最后利用抓取规划算法实现对物体的抓取。

EL-E只实现物体检测，并不做物体识别，另外，它要求待抓取物体放置在水平桌面上，且周围没有其他物体干扰。这样的抓取的智能化程度还是比较低，机器人自己并不理解自己抓的是什么，也不清楚自己执行的动作是什么，有什么意义。这对于要完全实现拟人化的机器人来说是远远不够的。

近年来，虽然机器人产业正在蓬勃发展，但其中绝大多数机器人的智能性仍然较低。

发明内容

(一)要解决的技术问题

鉴于上述技术问题，本公开提供了一种基于深度学习的语义抓取机器人。本公开基于深度学习的语义抓取机器人，抓取操作更准确，对数据集外物体的识别率高，智能化程度更高，用户体验更好，更符合人类对机器人拟人化的需求。

(二)技术方案

根据本公开的一个方面，提供了一种基于深度学习的语义抓取机器人，包括：听觉模块，用于根据语音信息确定动作指令和目标物体信息；以及视觉模块，与所述听觉模块连接，用于根据所述动作指令和目标物体信息识别目标物体的种类，并确定抓取位置和角度。

在一些实施例中，所述听觉模块包括：语音识别子模块，用于将其接收的语音信息转换为文本信息；以及处理子模块，与所述语音识别子模块连接，用于对所述文本信息进行处理以确定动作指令和目标物体信息。

在一些实施例中，所述语音识别子模块采用隐马尔可夫模型(Hidden MarkovModel，HMM)将语音信息转换为文本信息。

在一些实施例中，所述处理子模块利用自然语言处理技术(Natural LanguageProcessing，NLP)对所述文本信息进行处理。

在一些实施例中，所述处理子模块利用长短期记忆网络(Long Shot-TermMemory，LSTM)对所述文本信息进行处理。

在一些实施例中，所述语音识别子模块利用一动态规划剪枝算法从一状态网络中确定与所述语音信息最匹配的路径。

在一些实施例中，所述视觉模块包括：图像检测子模块，其采用Faster R-CNN网络结构，用于在一图像撷取装置所采集到的图像中检测物体的位置和类别；以及抓取位置和角度判断子模块，其采用101层深度残差网络(ResNet)结构，用于根据所述动作指令确定抓取位置和角度。

在一些实施例中，在ResNet网络第100层之后设置两层全连接层，在所述两层全连接层中，第一层全连接层神经元数为4096，第二层全连接层神经元数为1024。

在一些实施例中，所述的语义抓取机器人还包括：控制模块，用于根据所述听觉模块及视觉模块的输出，确定与所述语音信息中的动作指令和目标物体信息相对应的控制指令，从而控制所述机器人执行相应的抓取操作。

在一些实施例中，所述抓取位置和角度判断子模块的网络结构包括20个输出，其中2个输出用于确定抓取位置中心点，其余18个输出用于将抓取角度分成18个种类，每一类表示10度。

(三)有益效果

从上述技术方案可以看出，本公开基于深度学习的语义抓取机器人至少具有以下有益效果：

(1)本公开基于深度学习的语义抓取机器人，通过视觉模块与听觉模块的融合，视觉模块利用听觉模块所确定的动作指令识别物体的种类，并确定最佳抓取位置和角度，从而使抓取操作更准确。

(2)本公开图像检测子模块采用前沿的Faster R-CNN网络结构，比传统图像处理方法准确率大幅提升，更重要的是该网络结构可以识别物体种类，使机器人理解其看到的是什么物体，对机器人的智能化发展有极大促进作用。本方法的实时效果也非常理想，帧率可达到10fps左右。

(3)本公开利用CNN来检测待抓取物体的最佳抓取位置和角度，与传统的进行3D建模的方法相比，可以通过大量数据自学习到相关特征，计算复杂度大幅下降。传统方法只可以对数据库中存在的物体有较高的准确率，对数据集外物体的识别准确率很低，本公开采用的深度学习方法，学习到的是特征，而不是针对特定物体的参数，对数据集外物体的识别率仍然保持很高。

(4)本公开采用语音识别技术来获取用户指令，与前文提到的通过激光笔指引的方法相比，智能化程度更高，用户体验更好，更符合人类对机器人拟人化的需求。

附图说明

图1为现有佐治亚理工学院开发的EL-E机器人示意图。

图2为本公开实施例语义抓取机器人功能模块图。

图3为本公开实施例语义抓取机器人原理图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开作进一步的详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。此外，以下实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本公开。

为了克服上述现有技术的不足，本公开提供了一种基于深度学习的语义抓取机器人，如图2所示，该语义抓取机器人包括：听觉模块，用于根据所述语音信息确定动作指令和目标物体信息；以及视觉模块，与所述听觉模块连接，用于根据所述动作指令和目标物体信息识别目标物体的种类(例如对室内环境下常见可抓取物体进行分类，水杯，笔，玩具等)，并确定抓取位置(可以是目标物体的一部位，例如水杯的杯盖)和角度。

所述听觉模块包括：语音识别子模块，用于将其接收的语音信息转换为文本信息；以及处理子模块，与所述语音识别子模块连接，用于对所述文本信息进行处理以确定动作指令和目标物体信息。

具体的，所述语音识别子模块采用隐马尔可夫模型(Hidden Markov Model，HMM)将语音信息转换为文本信息；所述处理子模块利用自然语言处理NLP技术对所述文本信息进行处理。更具体而言，所述处理子模块可利用长短期记忆网络(LSTM)对所述文本信息进行处理

所述视觉模块包括，图像检测子模块，以及抓取位置和角度判断子模块，这两个子模块均是通过卷积神经网络(CNN)来实现。

具体的，所述图像检测子模块采用Faster R-CNN网络结构，用于根据所述动作指令识别物体的种类；所述抓取位置和角度判断子模块采用ResNet网络结构，用于根据所述动作指令确定抓取位置和角度。另外，所述抓取位置和角度判断子模块的网络结构包括20个输出，其中2个输出用于确定抓取位置中心点，其余18个输出用于将抓取角度分成18个种类，每一类表示10度。

进一步的，所述的语义抓取机器人还包括：控制模块，用于根据所述听觉模块及视觉模块的输出，确定与所述语音信息中的动作指令和目标物体信息相对应的控制指令，从而控制所述机器人执行相应的抓取操作。近年来深度学习在计算机视觉领域取得巨大成功，图像检测领域更是成果显著，许多算法的识别率已经超过了人类。本公开考虑了准确率和运算速度两方面因素，所述图像检测子模块选用Faster R-CNN网络结构，将待抓取物体分类构建数据集，由于在家庭环境或实验室环境下，抓取物体种类较少，算法识别率可达到99％以上。所述抓取位置和角度判断子模块的神经网络采用101层的深度残差网络(ResNet)结构，同样将标注好的数据集训练后可达到99％以上的准确率。

所述深度残差网络具体结构如下：前100层采用ResNet101结构，由残差模块堆叠组成，每一个残差模块如下图所示，深度残差网络在大幅加深网络深度，提高网络提取图片特征质量的前提下，很好的解决了梯度消失的问题。在ResNet网络第100层后面接两层全连接层，第一层全连接层神经元数为4096，第二层全连接层神经元数为1024，后面对抓取角度进行18种分类，每一类代表10度，并对抓取中心位置进行回归，从而得到准确的抓取位置和角度。采用本公开抓取位置和角度判断子模块的神经网络结构，在将机械臂末端执行器上的图像撷取装置(例如摄像头)移动到待抓取物体上方后，拍摄到物体的照片输入神经网络，可得到最佳抓取位置和角度。

所述听觉模块包括：语音识别子模块和处理子模块，其中，所述处理子模块利用自然语言处理(NLP)技术理解文本。语音识别子模块采用隐马尔可夫模型(Hidden MarkovModel，HMM)解决。由于语音信号无法直接与单词匹配，需先与单词相关的音素匹配，具体的，首先构建一个状态网络，由单词级网络展开成音素网络，再展开成状态网络。然后利用一种动态规划剪枝算法从状态网络中寻找与声音最匹配的路径。理解文本部分利用长短期记忆网络(LSTM)实现。

请结合图3所示，采用本公开的机器人执行抓取操作时，听觉模块将用户语音指令中的动作指令和目标物体提取出来，将动作指令在建立好的指令库中查找对应控制参数，将目标物体送入视觉模块，在图像撷取装置(例如摄像头)所拍摄的操作空间中寻找该目标物体，找到后判断最佳抓取位置和角度，最终系统综合两个子系统的输出结果，执行相应操作，具体而言，听觉模块和视觉模块的输出结果进行系统融合，将语音中的动作指令与机器人控制运动指令建立联系，将融合结果传输至机器人控制系统中执行相应操作。例如：你可以对机器人下达如下指令：“将桌子上的苹果拿起来”，“把刚拿起来的东西放下”，“把刚放下的东西再拿起来”等。

综上，本公开基于深度学习的语义抓取机器人，主要包括视觉模块和听觉模块，视觉模块主要用于图像检测及判断抓取位置和角度，都是通过卷积神经网络(CNN)来实现。听觉模块主要用于语音识别和利用自然语言处理(NLP)技术理解文本。本公开智能化程度更高，用户体验更好，更符合人类对机器人拟人化的需求。

至此，已经结合附图对本实施例进行了详细描述。依据以上描述，本领域技术人员应当对本公开有了清楚的认识。

此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度学习的语义抓取机器人，包括：

听觉模块，用于根据语音信息确定动作指令和目标物体信息；以及

视觉模块，与所述听觉模块连接，用于根据所述动作指令和目标物体信息识别目标物体的种类，并确定抓取位置和角度。

2.根据权利要求1所述的语义抓取机器人，其中，所述听觉模块包括：

语音识别子模块，用于将其接收的语音信息转换为文本信息；以及

处理子模块，与所述语音识别子模块连接，用于对所述文本信息进行处理以确定动作指令和目标物体信息。

3.根据权利要求2所述的语义抓取机器人，其中，所述语音识别子模块采用隐马尔可夫模型(Hidden Markov Model，HMM)将语音信息转换为文本信息。

4.根据权利要求2所述的语义抓取机器人，其中，所述处理子模块利用自然语言处理技术(Natural Language Processing，NLP)对所述文本信息进行处理。

5.根据权利要求3所述的语义抓取机器人，其中，所述处理子模块利用长短期记忆网络(Long Shot-Term Memory，LSTM)对所述文本信息进行处理。

6.根据权利要求3所述的语义抓取机器人，其中，所述语音识别子模块利用一动态规划剪枝算法从一状态网络中确定与所述语音信息最匹配的路径。

7.根据权利要求1所述的语义抓取机器人，其中，所述视觉模块包括：

图像检测子模块，其采用Faster R-CNN网络结构，用于在一图像撷取装置所采集到的图像中检测目标物体的位置和类别；以及

抓取位置和角度判断子模块，其采用101层深度残差网络(ResNet)结构，用于根据所述动作指令确定抓取位置和角度。

8.根据权利要求7所述的语义抓取机器人，其中，在ResNet网络第100层之后设置两层全连接层，在所述两层全连接层中，第一层全连接层神经元数为4096，第二层全连接层神经元数为1024。

9.根据权利要求1所述的语义抓取机器人，还包括：控制模块，用于根据所述听觉模块及视觉模块的输出，确定与所述语音信息中的动作指令和目标物体信息相对应的控制指令，从而控制所述机器人执行相应的抓取操作。

10.根据权利要求1所述的语义抓取机器人，其中，所述抓取位置和角度判断子模块的网络结构包括20个输出，其中2个输出用于确定抓取位置中心点，其余18个输出用于将抓取角度分成18个种类，每一类表示10度。