CN112947458B

CN112947458B - 基于多模态信息的机器人准确抓取方法及计算机可读介质

Info

Publication number: CN112947458B
Application number: CN202110218016.XA
Authority: CN
Inventors: 尤鸣宇; 温佳豪; 周洪钧
Original assignee: Tongji University
Current assignee: Wuxi Meiqiao Electronic Technology Co.,Ltd.
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-09-20
Anticipated expiration: 2041-02-26
Also published as: CN112947458A

Abstract

本发明涉及一种基于多模态信息的机器人准确抓取方法及计算机可读介质，抓取方法包括：步骤1：获取包含待抓取目标的RGB场景图像，同时获取抓取指令；步骤2：对抓取指令进行关键词匹配，根据抓取指令匹配的关键词得到对应的独热编码；步骤3：将RGB场景图像和独热编码输入目标物体定位网络，获取待抓取物体的宽度、旋转角度及其质心的位置坐标；步骤4：控制机器人移动至对应的抓取位置，然后控制机器人末端执行器旋转对应角度，控制机器人末端执行器下降至设定高度后，控制机器人夹爪调整距离执行抓取任务；步骤5：完成机器人的准确抓取。与现有技术相比，本发明具有精度高、鲁棒性好、实现准确抓取、灵活便捷等优点。

Description

基于多模态信息的机器人准确抓取方法及计算机可读介质

技术领域

本发明涉及机器人技术领域，尤其是涉及一种基于多模态信息的机器人准确抓取方法及计算机可读介质。

背景技术

机器人抓取在工业和物流自动化有广泛的应用，也是智能机器人完成各种任务至关重要的操作。目前绝大多数抓取机器人针对的物体种类、位置相对固定，通过对机器人的编程控制来实现抓取。但是应对目标多样、位置变化的情况下，每一次变化就需要对控制程序进行相应的改动，繁琐且低效。因此理想的抓取需要满足广泛的需求，在目标物体种类以及位置发生变化的情况下，仍然能获得目标物体的位置信息，机器人接收到目标物体的位置信息完成抓取。

近年来，随着深度学习的发展，许多基于卷积神经网络的机器人抓取方法被提出。这些方法往往通过对图像中的物体进行定位，获得对象的位置信息，进而完成后续的抓取任务。这些方法，通过输入视觉传感器获得的场景图像，输出物体的位置信息，在物体种类、位置存在多样性的情况下，仍然保持较高的准确性。但是，这些模型存在着以下问题：包含大量的参数，要获得较高的准确性，需要大量的现实场景数据来训练模型，现实场景数据的获取需要耗费大量的时间和精力；大部分方法对场景中的所有物体进行定位，对指定物体的抓取需要对输出的定位结果进行筛选；多数方法并没有考虑物体的旋转角度，仅考虑其质心的位置坐标，对于长宽比较大的物体可能导致抓取任务的失败；多数方法对视觉传感器的位置及拍摄角度要求严格，需要将视觉传感器安装于操作平台的正上方，如中国专利CN110000783A中公开的一种机器人的视觉抓取方法和装置，该专利对视觉传感器的要求就较为严格，视觉传感器设置位置会影响抓取的精确程度，系统的鲁棒性差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、鲁棒性好、实现准确抓取、灵活便捷的基于多模态信息的机器人准确抓取方法及计算机可读介质。

本发明的目的可以通过以下技术方案来实现：

一种基于多模态信息的机器人准确抓取方法，所述的抓取方法包括：

步骤1：获取包含待抓取目标的RGB场景图像，同时获取抓取指令；

步骤2：对抓取指令进行关键词匹配，根据抓取指令匹配的关键词得到对应的独热编码；

步骤3：将RGB场景图像和独热编码输入目标物体定位网络，获取待抓取物体的宽度、旋转角度及其质心的位置坐标；

步骤4：控制机器人移动至对应的抓取位置，然后控制机器人末端执行器旋转对应角度，控制机器人末端执行器下降至设定高度后，控制机器人夹爪调整距离执行抓取任务；

步骤5：完成机器人的准确抓取。

优选地，所述的包含待抓取目标的RGB场景图像的获取方法为：

通过视觉传感器获取包含待抓取目标的RGB场景图像，视觉传感器设置于机器人操作平台正前方的一定高度上，视觉传感器的角度使其能够拍摄到包含整个操作平台的场景图像。

优选地，所述的抓取指令为语音形式抓取指令或文本形式抓取指令。

更加优选地，所述的步骤2在进行关键词匹配前要判断抓取指令是语音形式抓取指令还是文本形式抓取指令；

若抓取指令为语音形式抓取指令，则先通过语音识别方法将其转换为对应的文本抓取指令，然后进行关键词匹配，获得对应的独热编码；

若抓取指令为文本形式抓取指令，则直接进行关键词匹配，获得对应的独热编码。

优选地，所述的步骤2具体为：

抓取指令匹配的关键词包括物体类别和倾斜状态；若场景中可能存在的待抓取物体类别总数为n，则每一种类别物体分别对应着一个n维的独热向量；倾斜状态包括正、横和斜三种倾斜状态，每一种倾斜状态分别对应着一个3维的独热向量。根据抓取指令匹配的关键词可以得到一个n维的类别独热编码和一个3维的倾斜状态独热编码，将两者连接得到n+3维的编码。

优选地，所述的目标定位网络包括特征提取模块、目标边框生成模块和定位模块；

所述的特征提取模块包括6个卷积层和4个池化层，特征提取模块的输入为视觉传感器获得的场景图像，输出为场景图像的特征图；

所述的目标边框生成模块包括2个卷积层、1个Flatten层和2个全连接层，目标边框生成模块的输入为特征提取模块提取的特征图和抓取指令对应的n+3维编码向量，输出为(p₁,p₂,…,p₈)，其中(p₁,p₂)、(p₃,p₄)、(p₅,p₆)和(p₇,p₈)分别为待抓取物体在场景图像中边框四个角的像素坐标；

所述的定位模块包括2个全连接层，定位模块的输入为目标边框声场模块的结果和抓取指令对应的n+3维编码向量，输出为(w,x,y,α)，其中w为对应目标物体的宽度，x为目标物体在坐标系中的x轴坐标值，y为目标物体在坐标系中的y轴坐标值，α为机器人旋转角度。

优选地，所述的目标定位网络采用端到端训练方式，网络的输入为视觉传感器获得的场景图像以及抓取指令对应的编码向量；

训练数据的标签为待抓取物体在场景图像中边框四个角的像素坐标(p_x1,p_y1,…,p_x4,p_y4)、待抓取物体的宽度、在定义坐标系下的位置坐标以及旋转角度(w,x,y,α)；

进行端到端训练时，网络的损失函数包括：目标边框生成模块预测值(p₁,p₂,…,p₈)和真实值(p_x1,p_y1,…,p_x4,p_y4)之差的L2范数以及定位模块预测值(a,b,c,d)和真实值(w,x,y,α)之差的L2范数。

更加优选地，所述的损失函数具体为：

loss＝L2((p₁,p₂,…,p₈)-(p_x1,p_y1,…,p_x4,p_y4))+L2((a,b,c,d)-(w,x,y,α))。

更加优选地，所述的步骤4具体为：

目标定位网络输出目标物体的宽度w、位置坐标(x,y)和旋转角度α后，将物体的相关信息作为参数传输给机器人控制程序，移动机器人至对应的抓取位置(x,y)，然后机器人末端执行器旋转角度α，随后下降至设定高度，二指夹爪调整间距至w，执行抓取任务；

机器人完成抓取后，返回设定的初始位置。

一种计算机可读介质，所述的计算机可读介质内存储有上述任一项所述的机器人准确抓取方法。

与现有技术相比，本发明具有以下有益效果：

一、精度高，鲁棒性好：本发明中的机器人准确抓取方法使用多模态信息作为网络的输入，其中语音和文本携带的信息稳定，网络具有较好的鲁棒性，因此仿真环境中训练好的网络，仅需要少量真实场景数据进行微调，网络输出的结果就能够取得较高的精度，大大降低了网络训练的成本，提高了抓取精度。

二、实现准确抓取：本发明中的机器人准确抓取方法将抓取指令作为输入的一部分使得网络直接输出待抓取物体的宽度、位置坐标和旋转角度，在包含多个物体的复杂场景，能够对大小不同的、倾斜的指定物体实现准确抓取。

三、灵活便捷：本发明中的机器人准确抓取方法可以将视觉传感器设置于机器人操作平台正前方的一定高度上，不需要将视觉传感器安装于操作平台的正上方，使用起来灵活便捷。

附图说明

图1为本发明中机器人准确抓取方法的流程示意图；

图2为本发明实施例中机器人操作平台和视觉传感器的位置示意图；

图3为本发明实施例中场景图像和定义的坐标系的示意图；

图4为本发明实施例中目标定位网络的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于多模态信息的机器人准确抓取方法，其流程如图1所示，包括：

包含待抓取目标的RGB场景图像的获取方法为：

通过视觉传感器获取包含待抓取目标的RGB场景图像，视觉传感器设置于机器人操作平台正前方的一定高度上，视觉传感器的角度使其能够拍摄到包含整个操作平台的场景图像，本实施例中视觉传感器的设置如图2所示，视觉传感器设置于操作平台正前方1m高度1.8m处，摄像头朝向操作平台。

步骤2：对抓取指令进行关键词匹配，根据抓取指令匹配的关键词得到对应的独热编码，抓取指令为语音形式抓取指令或文本形式抓取指令；

在本步骤中首先需要判断抓取指令是语音形式抓取指令还是文本形式抓取指令；若抓取指令为语音形式抓取指令，则先通过语音识别方法将其转换为对应的文本抓取指令，然后进行关键词匹配，获得对应的独热编码；

若抓取指令为文本形式抓取指令，则直接进行关键词匹配，获得对应的独热编码；

抓取指令匹配的关键词包括物体类别和倾斜状态；若场景中可能存在的待抓取物体类别总数为n，则每一种类别物体分别对应着一个n维的独热向量；倾斜状态包括正、横和斜三种倾斜状态，每一种倾斜状态分别对应着一个3维的独热向量。根据抓取指令匹配的关键词可以得到一个n维的类别独热编码和一个3维的倾斜状态独热编码，将两者连接得到n+3维的编码；

本实施例中场景图像如图3所示，待抓取物体类别总数n＝3，包括长木块、中木块和短木块，图中的坐标系即为定义的坐标系，物体的旋转角度定义为其与x轴正方向所形成的夹角，规定逆时针方向为正。

目标定位网络WPA的结构如图4所示，包括特征提取模块、目标边框生成模块和定位模块；

所述的定位模块包括2个全连接层，定位模块的输入为目标边框声场模块的结果和抓取指令对应的n+3维编码向量，输出为(w,x,y,α)，其中w为对应目标物体的宽度，x为目标物体在坐标系中的x轴坐标值，y为目标物体在坐标系中的y轴坐标值，α为机器人旋转角度；

目标定位网络采用端到端训练方式，网络的输入为视觉传感器获得的场景图像以及抓取指令对应的编码向量；

进行端到端训练时，网络的损失函数包括：目标边框生成模块预测值(p₁,p₂,…,p₈)和真实值(p_x1,p_y1,…,p_x4,p_y4)之差的L2范数以及定位模块预测值(a,b,c,d)和真实值(w,x,y,α)之差的L2范数；损失函数具体为：

loss＝L2((p₁,p₂,…,p₈)-(p_x1,p_y1,…,p_x4,p_y4))+L2((a,b,c,d)-(w,x,y,α))；

具体为：目标定位网络输出目标物体的宽度w、位置坐标(x,y)和旋转角度α后，将物体的相关信息作为参数传输给机器人控制程序，移动机器人至对应的抓取位置(x,y)，然后机器人末端执行器旋转角度α，随后下降至设定高度，二指夹爪调整间距至w，执行抓取任务；机器人完成抓取后，返回设定的初始位置。

步骤5：完成机器人的准确抓取。

本实施例中通过文本或语音输入抓取指令“抓斜着的长木块”，然后通过上述处理后，最终机器人实现了对长木块的准确抓取。

本实施例还涉及一种计算机可读介质，其特征在于，所述的计算机可读介质内存储有上述机器人准确抓取方法。

本实施例根据实际的操作平台场景，在仿真环境中构建相应的场景，并且在仿真环境中的视觉传感器位置、角度与实际场景中视觉传感器的位置、角度相同，在仿真环境中收集大量训练数据，仿真中抓取指令为对应的编码向量，标签中待抓取物体在场景图象中边框的四角像素坐标，可以通过图像处理技术或者人工标注获得，而待抓取物体的宽度为构建仿真环境的设置值，在定义坐标系下的位置坐标和旋转角度，仿真环境中可以调用函数直接读取。获得大量仿真数据后，对WPA网络进行训练。网络训练好之后，收集少量现实场景数据对WPA网络进行微调，得到最终使用的WPA网络。

本实施例还包括一种计算机可读介质，该计算机可读介质内存储有上述任一项机器人准确抓取方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多模态信息的机器人准确抓取方法，其特征在于，所述的抓取方法包括：

所述的包含待抓取目标的RGB场景图像的获取方法为：

通过视觉传感器获取包含待抓取目标的RGB场景图像，视觉传感器设置于机器人操作平台正前方的一定高度上，视觉传感器的角度使其能够拍摄到包含整个操作平台的场景图像；

所述的步骤2具体为：

抓取指令匹配的关键词包括物体类别和倾斜状态；若场景中可能存在的待抓取物体类别总数为n，则每一种类别物体分别对应着一个n维的独热向量；倾斜状态包括正、横和斜三种倾斜状态，每一种倾斜状态分别对应着一个3维的独热向量；根据抓取指令匹配的关键词可以得到一个n维的类别独热编码和一个3维的倾斜状态独热编码，将两者连接得到n+3维的编码；

步骤3：将RGB场景图像和独热编码输入目标定位网络，获取待抓取物体的宽度、旋转角度及其质心的位置坐标；

所述的目标定位网络包括特征提取模块、目标边框生成模块和定位模块；

步骤5：完成机器人的准确抓取。

2.根据权利要求1所述的一种基于多模态信息的机器人准确抓取方法，其特征在于，所述的抓取指令为语音形式抓取指令或文本形式抓取指令。

3.根据权利要求2所述的一种基于多模态信息的机器人准确抓取方法，其特征在于，所述的步骤2在进行关键词匹配前要判断抓取指令是语音形式抓取指令还是文本形式抓取指令；

4.根据权利要求1所述的一种基于多模态信息的机器人准确抓取方法，其特征在于，所述的目标定位网络采用端到端训练方式，网络的输入为视觉传感器获得的场景图像以及抓取指令对应的编码向量；

5.根据权利要求4所述的一种基于多模态信息的机器人准确抓取方法，其特征在于，所述的损失函数具体为：

6.根据权利要求5所述的一种基于多模态信息的机器人准确抓取方法，其特征在于，所述的步骤4具体为：

机器人完成抓取后，返回设定的初始位置。

7.一种计算机可读介质，其特征在于，所述的计算机可读介质内存储有所述权利要求1～6任一项所述的机器人准确抓取方法。