CN109483534A

CN109483534A - 一种物体抓取方法、装置和系统

Info

Publication number: CN109483534A
Application number: CN201811325744.5A
Authority: CN
Inventors: 奚伟涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-19
Anticipated expiration: 2038-11-08
Also published as: CN109483534B

Abstract

本发明实施例公开了一种物体抓取方法、装置和系统；本发明实施例可以采集当前物体的深度图像信息；根据深度图像信息和训练后的指令生成网络模型，获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前物体。该方案可以提升物体抓取的精准性。

Description

一种物体抓取方法、装置和系统

技术领域

本发明涉及计算机技术领域，具体涉及一种物体抓取方法、装置和系统。

背景技术

工业机器人是面向工业领域的多关节机械手或多自由度的机器装置，它能自动执行工作，是靠自身动力和控制能力来实现各种功能的一种机器。它可以按照预先编排的程序运行，如抓取物体等。其中，工业机器可以包括机械臂和固定在机械臂末端的机械手。

物体抓取是机器人，特别是工业机器人最基本的工作任务之一。如何去抓取一个形状不规则的物体，一直是学术界及工业界没有得到解决的问题。业界目前的基本解决思路是：针对每一个特定形状的物体，程序员编写出针对该物体的抓取方案或规则，从而实现物体抓取。

在工业机器人的应用中，每当机器人的工作任务发生变化时，例如，需要抓取一种新形状的物体时，需要重新设计机器人的运动策略，从而实现抓取新形状的物体。比如，目前常用的物体抓取方案可以包括：预先编写一个抓取不同形状物体的抓取数据库，其中针对数据库中的每一个特定形状的物体，由程序员编写出针对该物体的具体抓取方案或规则。在需要抓取某物体时，通过物体识别算法，找出数据库中与待抓取物体形状最相似的物体，然后使用数据库中形状最相似的物体对应的抓取方案或规则，来进行抓取物体。

然而，采用目前物体抓取方案，如果需要抓取的物体与数据库中的物体形状差别比较大时，那么采用数据库中最相似物体对应的抓取方案或规则抓取物体，将无法精准的抓取到物体，因此，物体抓取的精准性较低。

发明内容

本发明实施例提供一种物体抓取方法、装置和系统，可以提升物体抓取的精准性。

本发明实施例提供一种物体抓取方法，包括：

采集当前物体的深度图像信息；

根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令；其中，所述训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；

根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前物体。

相应的，本发明实施例还提供一种物体抓取装置，包括：

第一采集单元，用于采集当前物体的深度图像信息；

指令获取单元，用于根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令；其中，所述训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；

控制单元，用于根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前物体。

此外，本发明实施例还提供一种物体抓取系统，包括：终端和机器人；所述机器人包括机械手；

所述终端，用于采集当前物体的深度图像信息；根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令；以及根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前物体。

本发明实施例可以采集当前物体的深度图像信息；根据深度图像信息和训练后的指令生成网络模型，获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前物体。由于该方案可以使用机器学习模型(即指令生成网络模型)在物理仿真环境中学习抓取策略(即机械手控制指令)，当需要抓取物体时，只需采集物体的深度图像信息，并采用学习后的机器学习模型得到机械手控制指令，从而实现物体抓取，因此，采用该方案可以针对任意形状物体提供适合的抓取策略，从而使得机械手精确地抓到物体的精准抓取，提升了物体抓取的精准性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的物体抓取系统的场景示意图；

图1b是本发明实施例提供的物体抓取方法的流程图；

图1c是本发明实施例提供的指令识别网络模型的结构示意图；

图1d是本发明实施例提供的机器学习架构示意图；

图2是本发明实施例提供的模型训练的另一流程图；

图3a是本发明实施例提供的物体抓取装置的第一种结构示意图；

图3b是本发明实施例提供的物体抓取装置的第二种结构示意图；

图3c是本发明实施例提供的物体抓取装置的第三种结构示意图；

图3d是本发明实施例提供的物体抓取装置的第四种结构示意图；

图3e是本发明实施例提供的物体抓取装置的第五种结构示意图；

图3f是本发明实施例提供的物体抓取装置的第六种结构示意图；

图4是本发明实施例提供的物体抓取系统的结果示意图；

图5是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种物体抓取方法、装置和存储介质。

本发明实施例提供了一种物体抓取系统，包括本发明实施例任一提供的物体抓取装置，该物体抓取装置具体可以集成在终端中，该终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，Personal Computer)等。

此外，该人脸图像处理系统还可以包括其他设备，比如机器人等。

例如，参考图1a，物体抓取系统，包括终端和机器人，终端与机器人可以相互通信。该机器人包括机械臂和机械手，其中，机械手与机械臂连接。在一实施中，终端可以集成在机器人，也即终端和机器人的功能可以由一台设备实现。

其中，终端可以采集当前物体的深度图像信息；根据深度图像信息和训练后的指令生成网络模型，生成或者获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；根据机械手控制指令控制机械手物体抓取运动轨迹，以抓取当前物体；比如，终端可以向工业机器人发送机械手控制指令，以使得工业机器人根据机械手控制指令执行物体抓取运动轨迹，以抓取物体。

其中，终端还可以用于：获取训练数据集，训练数据集包括：样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果，仿真抓取结果为根据样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体得到的抓取结果；根据训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型。

上述图1a的例子只是实现本发明实施例的一个系统架构实例，本发明实施例并不限于上述图1a所示的系统结构，基于该系统架构，提出本发明各个实施例。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

本实施例将从物体抓取装置的角度进行描述，该物体抓取装置具体可以集成在终端，该终端可以手机、平板电脑、笔记本电脑或个人计算机(PC，Personal Computer)等。

如图1b所示，提供了一种物体抓取方法，该方法可以由终端的处理器执行，该物体抓取方法的具体流程可以如下：

101、采集当前物体的深度图像信息。

比如，在需要抓取新物体时，可以采集当前新物体的深度图像信息；具体地，可以通过深度摄像头等设备采集深度图像信息。

102、根据深度图像信息和训练后的指令生成网络模型，获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，所述训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成。

其中，指令生成网络模型的训练过程可以包括：

A、获取训练数据集，该训练数据集包括：样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果，仿真抓取结果为根据样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体得到的抓取结果。

其中，训练数据集为用于对指令生成网络模型训练的数据集，其可以包括多个训练样本，每个训练样本由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果构成。

其中，样本深度图像信息为样本物体的深度图像信息，可以包括与视点的场景对象的表面的距离有关的图像或图像通道信息。其中，深度图像信息可以包括多个像素点的像素值，每个像素值表示与图像采集设备之间的距离。深度图像信息可以通过深度摄像头等设备采集得到。

其中，仿真抓取结果为在物理仿真环境中执行样本机械手控制指令以模拟机械手抓取样本物体得到的抓取结果。该抓取结果可以包括：抓取成功、或者抓取失败。

本发明实施例中，训练数据集的获取方式可以有多种，比如，可以从其他设备，或者本地存储中直接获取。又比如，在一实施例中，还可以由终端自己生成或者更新得到。

例如，可以选择各种形状的物体作为样本物体，然后，终端采集样本物体的深度图像信息如通过激光扫描、深度摄像头等采集方式采集深度图像信息，并且，还可以获取深度图像信息对应的机械手控制指令、仿真结果，最后添加到训练数据集中。

也即，本发明实施例物体抓取方法还可以包括：

采集样本物体的样本深度图像信息；

根据指令探索网络模型和样本深度图像信息获取机械手抓取样本物体的样本机械手控制指令；

根据样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体，得到仿真抓取结果；

将样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果添加到训练数据集中。

比如，可以根据样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果构建训练样本，并将训练样本添加到训练数据集中。

其中，上述训练数据集形成的过程或者更新的过程，可以在训练之前执行，也可以在训练时执行。

通过上述介绍的方式可以选择大量不同形状物体作为样本物体，然后，根据每个样本物体的深度图像信息、深度图像信息对应的机械手控制指令、仿真结果构建训练数据集。

其中，为了提升模型训练和预测的准确性，训练数据集可以包括正例训练样本、负例样本。其中，正例训练样本包括抓取结果为成功对应的样本机械手控制指令、仿真抓取结果；负例训练样本包括抓取结果为失败对应的样本机械手控制指令、仿真抓取结果。

其中，物理仿真环境为一个软件/库，用于使用计算机，来模拟真实物理现象。不同的物理仿真软件擅长模拟不同的物理现象，比如说水流的运动、声音的传播等。本发明实施例中，物理仿真环境可以为用于模拟机械手抓取物体也即机械手运动的物理现象。

在一实施例中，可以在模型训练之前，搭建物理仿真环境，然后，导入机器人模型(包括机械手模型等)、物体模型等等，形成最终物理仿真环境，以便于后续在物理仿真环境中模拟机械手抓取物体。

比如，本发明实施例方法，在模拟机械手抓取样本物体之前，还可以包括：

搭建用于仿真机械手抓取物体的物理仿真环境；

根据机器人的物理参数在物理仿真环境中创建相应的机器人模型，机器人模型包括机械手模型；

在物理仿真环境中导入样本物体模型。

实际应用中，可以采用物理仿真引擎搭建如刚体动力学仿真引擎搭建物理仿真环境，其中，刚体动力学仿真为一类物理仿真，其假设物体为刚体或近似刚体，来仿真物体的动力学行为。在常规机器人的应用中，一般都使用刚体动力学仿真。其中，刚体动力学仿真引擎可以包括mujoco物理引擎、bullet物理引擎、ODE物理引擎等等。

其中，机器人的物理参数可以包括机器人的几何尺寸、质量、转动惯量、驱动器类型、驱动器行程、机械手的尺寸、重量、表面摩擦力等等物理参数。本发明实施例可以根据机械后的物理参数在物理仿真环境中创建相应的机械手模型。实际应用中，物理参数设置方式可以依照各个仿真引擎的规定；并且机器人的物理参数可以由机器人生产商提供；比如，机械臂的物理参数可以由机械臂生产商提供，机械手的物理参数可以由机械手生产商提供。

实际应用中，可以在物理仿真环境中创建机器人模型，该机器人模型可以包括机械手模型、机械臂模型(可选，有些机器人没有机械臂)以及机器人本体模型等等。

其中，机械手指的是能模仿人手的某些动作功能，用以按固定程序抓取、物体的自动操作装置，该机械手的形状可以有多种，比如可以为人手形状，也可以夹子形状等等。该机械手可以包括2根手指、或者2根以上的手指，如5根手指等。

为了能够在物理仿真环境中模拟机械手抓取物体，除了需要创建用于抓取物体的机器人模型，还需要导入待抓取物体模型；比如，当抓取物体为手机时，可以在物理仿真环境中导入手机模型。

本发明实施例中，物体模型导入方式可以有多种，比如，当物体模型库中存在样本物体的模型时，可以直接将物体模型库中的样本物体模型导入物理仿真环境。

又比如，物体模型库不存在样本物体的模型时，可以基于样本物体的深度图像信息来构建样本物体模型。具体地，步骤“在物理仿真环境中导入样本物体模型”，可以包括：

根据样本深度图像信息获取样本物体的三维图像数据；

根据三维图像数据在物理仿真环境中创建样本物体模型。

比如，可以将物体的深度图像信息转换成3D点云数据，然后，模型转换工具如Marching Cube等，将3D点云转化成3D模型即可。

其中，指令探索网络模型用于根据输入的深度图像输出用于实现抓取物体的可能性的机械手控制指令，也即根据输入的深度图像输出需要验证或者探索的机械手控制指令。该指令探索网络模型可以为机器学习模型，比如，可以为基于神经网络如卷积神经网络的指令探索模型。将样本深度图像信息输入至指令探索网络模型，指令探索网络模型可以输出需要探索的机械手控制指令，也即样本机械手控制指令。在一实施例中，参考图1d，指令探索网络模型可以表现为探索器等形式，此时，探索器可以即为指令探索网络模型。

指令探索网络模型的结构可以参考下面的指令生成网络模型的结构介绍。

B、根据训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型。

比如，当训练数据集包括正例训练样本和负例训练样本时，可以分别根据正例训练样本、负例训练样本对指令生成网络模型进行训练。

其中，指令生成网络模型用于根据输入的深度图像信息预测实现抓取物体的机械手控制指令；该机械手控制指令用于控制机械手执行物体抓取运动轨迹以抓取到物体。该指令生成网络模型可以为机器学习模型，比如，可以为基于神经网络如卷积神经网络的指令预测模型。在一实施例中，参考图1d，指令生成网络模型可以表现为执行器等形式，此时，执行器即为指令生成网络模型。

下面将以指令生成网络模型结构为卷积神经网络(CNN，Convolutional NeuralNetwork)为例，则如图1c所示，该结构可以包括若干卷积层(Convolution)和一个全连接层(FC，Fully Connected Layers)，如下：

卷积层：主要用于对输入的深度图像信息(比如训练样本中样本深度图像信息或当前待抓取物体的深度图像信息)进行特征提取(即将原始数据映射到隐层特征空间)，其中，卷积核大小可以根据实际应用而定；可选的，为了降低计算的复杂度，提高计算效率，这四层卷积层的卷积核大小也可以都设置为(3，3)；可选的，为了提高模型的表达能力，还可以通过加入激活函数来加入非线性因素，在本发明实施例中，该激活函数均为“relu(线性整流函数，Rectified Linear Unit)”，而填充(padding，指属性定义元素边框与元素内容之间的空间)方式均为“same”，“same”填充方式可以简单理解为以0填充边缘，左边(上边)补0的个数和右边(下边)补0的个数一样或少一个；可选的，为了进一步减少计算量，还可以在第二至第四层卷积层中的所有层或任意1～2层进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(maxpooling)或平均值(average pooling)等，为了描述方便，在本发明实施例中，将均以在第二层卷积层和第三次卷积层中进行下采样操作，且该下采样操作具体为maxpooling为例进行说明。

需说明的是，为了描述方便，在本发明实施例中，将激活函数所在层和下采样层(也称为池化层)均归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层(即池化层)和全连接层，当然，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不作赘述。

全连接层：可以将学到的“分布式特征表示”映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

本发明实施例中，全连接层可以将提取的卷积特征分到各种机械手控制指令类型，从而可以预测机械手控制指令。

基于上述指令生成网络模型的结构，“根据训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型”，具体可以如下：

(1)、根据训练数据集中的样本深度图像信息对指令生成网络模型进行训练，得到机械手预测指令(即预测值)。

比如，可以训练数据集中选择一个训练样本，该训练样本包括：样本深度图像信息、样本机械手控制指令、以及仿真抓取结果；然后，将样本深度图像信息导入至指令生成网络模型便得到机械手预测指令。

(2)、根据仿真抓取结果对机械手预测指令和样本机械手控制指令(即真实值)进行收敛，得到训练后的指令生成网络模型。

例如，具体可以采用预设损失函数和仿真抓取结果对机械手预测指令和样本机械手控制指令进行收敛，得到训练后模型。其中，损失函数可以根据需求设定。

本实施例中，通过降低预测值和真实值即预测指令与真实指令之间的误差，进行不断训练，以调整权重至合适数值，便可得到该训练后模型。

参考图1d，在对执行器训练之前，可以准备用于训练的数据集，具体地，可以采集样本物体的深度图像信息；然后，将深度图像信息输入探索器(即指令探索网络模型)输出待探索的指令，即样本机械手控制指令，接着在物理仿真环境中执行待探索的指令模拟机械手抓取样本物体，得到抓取结果即仿真抓取结果，将深度图像信息、待探索指令以及抓取结果保存到训练数据集中。通过不断采集多种不同形状样本物体的深度图像信息、进行指令探索、以及仿真模拟，可以得到多组(深度图像信息、待探索指令、抓取结果)，此时，训练数据集可以包括多组(深度图像信息、待探索指令、抓取结果)。

在得到训练数据集之后，便可以采用训练数据集中(深度图像信息、待探索指令、抓取结果)不断地对执行器即指令生成网络模型进行训练，具体训练过程可以参考上述描述，这样便可以得到训练后的执行器。本发明实施例中，机械手控制指令可以用于控制机械手指物体抓取运动轨迹以抓取物体的指令。该机械手控制指令可以是整个机器人的控制指令，也可以为机器人的机械手的控制指令。

其中，机械手控制指令可以携带机械手运动参数，这样后续可以根据机械手控制指令携带的机械手运动参数控制机械手执行物体抓取运动轨迹。

其中，机械手运动参数为机械手的运动参数，可以包括：机械手的旋转角度、移动距离等等，比如，可以包括机械手关节的旋转角度(如手部20个关节的旋转角度)、机械手的移动距离(比如，手部在坐标轴xyz上的移动距离等)、机械手、机械手掌部的旋转角度(如手掌分别相对于坐标轴xyz的3个旋转角度)、机械手掌部的移动距离(手掌在坐标轴xyz上的移动距离等)，等等。

本发明实施例，可以采用训练后的指令生成网络模型来预测深度图像信息对应的机械手控制指令。比如，可以将深度图像信息导入到训练后的指令生成网络模型便可以得到深度图像信息对应的机械手控制指令。

以图1c所示的卷积神经网络结构为例，将深度图像信息导入到指令生成网络模型，然后，指令生成网络模型可以在各个卷积层对深度图像信息进行卷积处理，得到卷积特征；最后，在全连接层对卷积特征进行指令分类，得到机械手控制指令。

在实际机器人控制中，一般会每隔10ms～100ms(毫秒)给机器人发送一个控制指令，以控制机器人的机械手执行相应的运动轨迹。可以说，机器人的机械手运动轨迹实际上就是一组机器人运动控制指令，其每个控制指令的间隔10ms～100ms。在本发明实施例的机器学习算法(即指令生成网络模型)中，指令预测网络算法输出的指令就直接是每个具体控制指令也即机械手控制指令。一般完成一个耗时2s的抓取动作，需要算法输出上百条控制指令。

在一实施例中，针对物体抓取这个特定问题，考虑需要学习上百条控制指令，机器学习的问题难度较大，为了降低机器学习的问题难度，可以在时间维度上简化问题。具体地，可将物体抓取过程或步骤分成多个时间上有先后关系的子步骤。比如，可以将抓取过程分成了3步：机械手移动到物体附近、机械手平移靠近物体、机械手握紧。具体地物体抓取过程的划分可以根据实际场景来设定，比如，可以划分成4步、5步等等。

机械手抓取物体，实质上就是通过控制机械手运动到某个特定位置(一般是物体附近的某个位置)，从而可以实现物体抓取，因此，在将物体抓取过程划分成多个具有时序关系的子步骤情况下，每个子步骤将对应一个机械手运动轨迹，比如，机械手移动到物体附件的运动轨迹、机械收盘平移靠近物体的运动轨迹、机械手握紧的运动轨迹。也就说当机械手执行子步骤即相当于执行机械手运动轨迹(按照机械手运动轨迹运动)。

因此，物体抓取运动轨迹可以包括：多个具有时序关系的机械手运动轨迹；比如，可以包括多个在时间上有先后关系的机械手运动轨迹。此时，机械手控制指令用于控制机械手执行机械手运动轨迹，也即控制机械手按照机械手运动轨迹运动。

为降低机器学习难度，每个划分的子步骤可以对应一个机械手控制指令，也即一个机械手控制指令用于控制机械手执行一个子步骤。此时，每个机械手运动轨迹将会对应一个机械手控制指令，也即，一个机械手控制指令用于控制机械手执行一个机械手运动轨迹。其中，机械手控制指令包括：多个用于控制机械手执行机械手运动轨迹的机械手控制指令。

在一实施例中，在机械手控制指令携带机械手运动参数的情况下，就是通过机器学习模型如指令生成网络模型来学习机械手运动参数，具体地学习每个子步骤所需的机械手运动参数。比如，将抓取过程分成了3步：机械手移动到物体附近、机械手平移靠近物体、机械手握紧时，需要通过机器学习模型如指令生成网络模型来学习如下参数：

实现机械手移动到物体附近所需的机械手关节的旋转角度、手掌部旋转度、手掌部平移的距离、和方向等等；比如，手部20个关节的旋转角度、手掌绕xyz轴的3个旋转角度、手掌沿着xyz轴的3个平移距离；

实现机械手平移靠近物体所需的机械手的平移距离和方向；比如，手部沿着xyz轴的3个平移距离；

机械手握紧后机械手关节的角度；比如，手部20个关节的角度。

通过学习每个子步骤所需的机械手运动参数，便可以得到每个子步骤的控制指令。

103、根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前物体。

其中，根据指令控制机械手执行运动轨迹的方式有多种，比如，当物体抓取装置与机器人分离(如物体抓取装置集成在机器人之外的终端设备)，即物体抓取装置不集成在机器人中的情况下，物体抓取装置可以向机器人发送机械手控制指令(比如通过无线或有限网络向机器人发送机械手控制指令)，机器人可以根据机械手控制指令控制或驱动机械手执行物体抓取运动轨迹，以抓取当前待抓取物体。

又比如，当物体抓取装置集成在机器人中的情况下，可以直接根据机械手控制指令控制或驱动机械手执行物体抓取运动轨迹，以抓取当前待抓取物体。

在一实施例中，物体抓取运动轨迹可以包括：多个具有时序关系的机械手运动轨迹；机械手控制指令可以包括：多个用于控制机械手执行机械手运动轨迹的机械手控制指令；此时，步骤“根据机械手控制指令控制机械手执行物体抓取运动轨迹”，可以包括：根据机械手控制指令控制机械手执行机械手运动轨迹。

比如，以将物体抓取过程划分成3个子步骤为例，根据机械手控制指令1控制机械手移动到物体附近；根据机械手控制指令2控制机械手平移靠近物体；根据机械手控制指令3控制机械握紧。

在一实施例中，当机械手控制指令携带机械手运动参数时，可以根据机械手运动参数控制机械手执行机械手运动轨迹。

比如，以将物体抓取过程划分成3个子步骤为例，根据机械手关节的旋转角度(如手部20个关节的旋转角度)、手掌部旋转度(如手部20个关节的旋转角度)、手掌部平移的距离(如手掌沿着xyz轴的3个平移距离)、和方向等参数控制机械手移动到物体附近；

根据机械手的平移距离(如手部沿着xyz轴的3个平移距离)和方向控制机械手平移靠近物体；

根据机械手关节的角度(如手部20个关节的角度)控制机械手握紧物体。

在实际应用中，根据机器人的类型对应的机械手运动实现方式不一样，比如，在一实施例中，可以直接由机器人的机械手自己运动从而实现抓取，此时，可以根据只需根据机械手控制指令控制机械手只需机械手运动轨迹即可实现物体抓取。

比如，在一实施例中，可以由机器人的机械臂和与其连接的机械手相互配合运动从而实现抓取；也即，机器人的机械手运动可以通过机械臂运动来驱动、和/或机械手自身运动来实现。比如，手掌的平移是通过手臂的平移来实现的，等等,手指的运动如握紧可以是通过手指关节的旋转一定角度来实现。

因此，在一实施例中，在得到用于控制机械手执行运动轨迹的控制指令之后，还需要将某些机械手控制指令转换成机械臂控制指令，以便控制机械臂运动从而实现机械手执行相应的运动轨迹。

比如，步骤“根据机械手控制指令控制机械手执行机械手运动轨迹”，可以包括：

从多个机械手控制指令确定待转换的目标机械手控制指令；

将目标机械手控制指令转换成机械臂控制指令，机械臂控制指令用于控制机械臂执行相应运动轨迹从而实现机械手执行机械手运动轨迹；

根据机械臂控制指令控制机械臂执行相应运动轨迹，从而实现机械手执行机械手运动轨迹；

根据未转换的机械手控制指令控制机械手执行机械手运动轨迹。

比如，以将物体抓取过程划分成3个子步骤：1、机械手移动到物体附近，2、机械手平移靠近物体、3、机械手握紧为例，通过上述训练后的指令生成网络模型可以得到用于实现子步骤1的机械手控制指令1、用于实现子步骤2的机械手控制指令2、用于实现子步骤3的机械手控制指令3。

根据机器人类型，子步骤1和2需要通过机械臂来驱动，也即需要通过机械臂运动来实现机械手运动。此时，可以确定机械手控制指令1、2为待转换的目标机械手控制指令，此时，可以将机械手控制指令1、2分别转换成机械臂控制指令。

本发明实施例中，每个划分的子步骤可以对应一个机械手控制指令，也即每个机械手运动轨迹对应一个机械手控制指令。其中，一个机械手运动轨迹可以包括至少一个机械臂运动轨迹，此时，一个机械手控制指令可以对应一个或者多个机械臂控制指令。比如，子步骤1机械手移动到物体附近，可以通过机械手臂执行一个或者多个运动轨迹来实现，此时，可以将机械手控制指令1转换成一个或者多个机械臂控制指令，从而控制机械手臂执行一个或者多个运动轨迹来实现机械手移动到物体附近。

在转换指令后，可以根据机械手控制指令之间的时序关系，执行机械手控制指令对应的机械臂控制指令、未转换的机械手控制指令，以实现物体抓取。比如，可以先执行机械手控制指令1对应的至少一个机械臂控制指令，实现机械手移动到物体附近，然后，再执行机械手控制指令2对应的至少一个机械臂控制指令，实现机械手平移靠近物体，最后执行机械手控制指令3实现机械手握紧。

其中，将机械手控制指令转换为机械臂控制指令的方式可以有多种，比如，当机械手控制指令携带机械手运动参数时，可以将机械手运动参数转换成机械臂运动参数，然后，根据机械臂运动参数生成机械臂控制指令。

比如，机械手控制指令携带机械手运动参数，步骤“将目标机械手控制指令转换成机械臂控制指令”，可以包括：

将目标机械手控制指令携带的机械手运动参数转换成相应的机械臂运动参数；

根据机械臂运动参数生成相应的机械臂控制指令。

其中，机械手运动参数为机械手的运动参数，可以包括：机械手的旋转角度、移动距离等等。机械臂运动参数为机械手臂的运动参数，可以包括机械手臂的旋转角度、移动距离、移动方向、旋转方向等等，比如，机械臂运动参数可以包括机械手臂的关节的运动参数，如关节旋转角度、平移距离等等。

比如，以将物体抓取过程划分成3个子步骤为例，确定机械手控制指令1、2为待转换的目标机械手控制指令；然后，将机械手控制指令1携带的机械手运动参数(如手掌20个关节的旋转角度、手掌绕xyz的旋转角度、手掌沿着xyz的平移距离等)转换成机械手臂关节的运动参数(如关节的选择角度等等)，根据转换后的机械手臂关节的运动参数生产指令1对应的至少一个机械臂控制指令，该至少一个机械臂控制指令用于实现机械手移动到物体附近。

同样对于机械手控制指令2，该指令携带手掌在3个坐标轴xyz中的平移距离等机械手运动参数，此时，可以将该机械手运动参数如手掌在3个坐标轴xyz中的平移距离转换成机械臂关节的运动参数如关节的选择角度等等。

在一实施例中，可以预先建立机械手与机械臂之间的位置映射关系，这样后续在运动参数转换时，可以基于该位置映射关系可将机械手控制指令携带的机械手运动参数转换成相应的机械臂运动参数。

比如，可以预先建立机械手与机械臂关键之间的位置映射关系，在运动参数转换时，可以基于该映射关系将机械手运动参数转换成相应的机械臂关节运动参数。具体地，步骤“将目标机械手控制指令携带的机械手运动参数转换成机械臂运动参数”，可以包括：

基于机械手与机械臂关节之间的位置映射关系，将目标机械手控制指令携带的机械手运动参数转换成相应的机械臂关节运动参数；

此时，步骤“根据机械臂控制指令控制机械臂执行相应运动轨迹”可以包括：根据机械臂控制指令控制机械臂关节进行相应运动，以使得机械臂执行相应运动轨迹。

其中，机械手与机械臂之间的位置映射关系可以为机械手与机械臂在同一个坐标系中的位置映射关系，比如，在同一个三维坐标系中的位置映射关系；也可以为机械手与机械臂在不同坐标系中的位置映射关系，即两个坐标系中机械手与机械臂之间的位置关系；比如，在直角坐标系中机械手的位置与在关节坐标系中机械手臂的位置之间的映射关系，等等。

其中，位置映射关系的建立方式可以有多种，比如，可以基于反向运动学推导出机械手与机械臂之间的位置映射关系；例如，可以基于反向运动学推导械手与机械臂关节之间的位置映射关系；也即，在运动参数转换之前，本发明实施例还包括：通过反向运动学获取机械手与机械臂关节之间的位置映射关系。

比如，可以搭建用于仿真机械手抓取物体的物理仿真环境之后，通过反向运动学获取机械手与机械臂关节之间的位置映射关系。实际应用中，有些机器人直接控制的是每个机械臂关节的角度，实现机械手运动；但本发明实施例在抓取过程中，关心的只是机械臂末端(即机械手)在直角坐标系中的位置和姿态。通过反向运动学，可以得到机械臂末端在直角坐标系中位置和关节坐标系位置之间的映射关系。从而在接下来的机器学习过程中，可以直接通过机械臂末端位置(即机械手)来控制机械臂，如通过该映射关系实现机械手控制指令到机械臂控制指令的转换。

由上可知，本发明实施例可以采集当前物体的深度图像信息；根据深度图像信息和训练后的指令生成网络模型，获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前物体。由于该方案可以使用机器学习模型(即指令生成网络模型)在物理仿真环境中学习抓取策略(即机械手控制指令)，当需要抓取物体时，只需采集物体的深度图像信息，并采用学习后的机器学习模型得到机械手控制指令，从而实现物体抓取，因此，采用该方案可以针对任意形状物体提供适合的抓取策略，从而使得机械手精确地抓到物体的精准抓取，提升了物体抓取的精准性，进而大大提升物体抓取的成功率。

此外，该方案还可以将物体抓取过程划分成若干子步骤，降低机器学习难度，提升物体抓取的效率。同时，该方案又借助反向运动学等机器人学算法，简化了机器人的运动空间。

根据前面实施例所描述的方法，以下将以该物体抓取装置具体集成在终端举例作进一步详细说明。

(一)、首选，在物理仿真环境搭建机器人模型。

比如，可以采用物理仿真引擎搭建如刚体动力学仿真引擎搭建物理仿真环境，其中，刚体动力学仿真为一类物理仿真，其假设物体为刚体或近似刚体，来仿真物体的动力学行为。在常规机器人的应用中，一般都使用刚体动力学仿真。其中，刚体动力学仿真引擎可以包括mujoco物理引擎、bullet物理引擎、ODE物理引擎等等。

在搭建物理仿真环境后，可以在该环境中搭建机器人模型，具体地，可以根据机器人的物理参数在物理仿真环境中创建相应的机器人模型，机器人模型包括机械手模型。

(二)、基于反向运动学推导机械手与机械臂之间的位置映射关系。

考虑到机器人的机械手运动可以由机械臂运动驱动，因此，可以通过反向运动学来获得机械手与机械臂之间的位置映射关系，比如，机械手与机械臂关节之间的位置映射关系。

实际应用中，有些机器人直接控制的是每个机械臂关节的角度，实现机械手运动；但本发明实施例在抓取过程中，关心的只是机械臂末端(即机械手)在直角坐标系中的位置和姿态。通过反向运动学，可以得到机械臂末端在直角坐标系中位置和关节坐标系位置之间的映射关系。从而在接下来的机器学习过程中，可以直接通过机械臂末端位置(即机械手)来控制机械臂，如通过该映射关系实现机械手控制指令到机械臂控制指令的转换。

(三)、基于物理仿真环境训练机器学习模型。

具体地，可以基于物理反正环境训练指令生成网络模型。该指令生成网络模型可以基于卷积神经网络，参考上述介绍的模型结构。

在搭建物理仿真环境和机器人模型后，便可以基于仿真环境来训练机器学习模型如指令生成网络模型，比如基于仿真环境学习机械手控制指令。

具体地，参考图2，训练过程,可以如下：

201、终端采集样本物体的样本深度图像信息。

202、终端在物理仿真环境中导入样本物体模型。

又比如，物体模型库不存在样本物体的模型时，可以基于样本物体的深度图像信息来构建样本物体模型。具体地，根据样本深度图像信息获取样本物体的三维图像数据；根据三维图像数据在物理仿真环境中创建样本物体模型。

203、根据指令探索网络模型和样本深度图像信息获取机械手抓取样本物体的样本机械手控制指令。

指令探索网络模型的结构可以参考上述的指令生成网络模型的结构介绍。

其中，步骤202和203的执行时序不受序号限制，可以先执行步骤203然后再执行步骤202。

204、终端根据样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体，得到仿真抓取结果。

比如，终端可以在物理仿真环境中执行机械手控制指令，控制机器人的机械手模型抓取样本物体模型，从而模拟真实的物体抓取过程。

在一实施例中，考虑到不同类型的机器人实现机械手运动的方式不相同，比如，有些机器人的机械手自己运动从而实现抓取，有些机器人需要机械臂和与其连接的机械手相互配合运动从而实现抓取。

因此，为了使得物体抓取模拟与实际场景相符合，提升机器学习的准确性，还可以在模拟物体抓取时，将一些机械手控制指令转换成机械臂控制指令。

比如，可以从样本机械手控制指令中确定待转换的目标样本机械手控制指令，然后，将目标样本机械手控制指令转换成机械臂控制指令。此时，可以在物理仿真环境中执行转换后的机械臂控制指令、未转换后的机械手控制指令模拟物体抓取。

具体地，指令转换可以参考上述实施例的描述，比如，基于机械手与机械臂之间的位置映射关系(如反向运动学推导的映射关系)，将机械手运动参数转换成相应的机械臂运动参数，然后，根据机械臂运动参数生成相应的机械臂控制指令。

205、终端将样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果添加到训练数据集中。

通过上述步骤201-步骤205的方式可以选择大量不同形状物体作为样本物体，然后，根据每个样本物体的深度图像信息、深度图像信息对应的机械手控制指令、仿真结果更新训练数据集。

206、终端根据训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型。

在通过上述步骤得到训练数据集，当需要对指令生成网络模型训练时，可以基于上述得到训练数据集对模型进行训练，具体地，训练过程可以参考上述实施例的描述。

比如，参考图1d，可以通过在对执行器训练之前，可以通过仿真环境准备用于训练的数据集，在得到训练数据集之后，便可以采用训练数据集中(深度图像信息、待探索指令、抓取结果)不断地对执行器即指令生成网络模型进行训练，具体训练过程可以参考上述描述，这样便可以得到训练后的执行器。

(四)、基于训练后的机器学习模型抓取物体。

具体地，抓取过程可以如下：

S1、终端采集当前物体的深度图像信息。

比如，在需要抓取新物体时，可以采集当前新物体的深度图像信息；具体地，终端可以通过深度摄像头等设备采集深度图像信息。

S2、终端根据深度图像信息和训练后的指令生成网络模型，生成用于控制机械手执行物体抓取运动轨迹的机械手控制指令。

比如，终端将深度图像信息输入至训练后的指令生成网络模型，便输出机械手控制指令。

在一实施例中，针对物体抓取这个特定问题，考虑需要学习上百条控制指令，机器学习的问题难度较大，为了降低机器学习的问题难度，可以在时间维度上简化问题。具体地，可将物体抓取过程或步骤分成多个时间上有先后关系的子步骤。

比如，物体抓取运动轨迹可以包括：多个具有时序关系的机械手运动轨迹；比如，可以包括多个在时间上有先后关系的机械手运动轨迹。此时，机械手控制指令用于控制机械手执行机械手运动轨迹，也即控制机械手按照机械手运动轨迹运动。

在一实施例中，在机械手控制指令携带机械手运动参数的情况下，就是通过机器学习模型如指令生成网络模型来学习机械手运动参数，具体地学习每个子步骤所需的机械手运动参数。

具体地，指令生成过程可以参考上述实施例的描述。

例如，在参考图1d，在对执行器训练后，可以采集待抓取物体的深度图像信息，然后，输入至执行器中，执行器将会输出生成的机械手控制指令。

S3、终端根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前待抓取物体

比如，在一实施例中，机械手控制指令可以包括：多个用于控制机械手执行机械手运动轨迹的机械手控制指令；终端可以根据机械手控制指令控制机械手执行机械手运动轨迹。

比如，终端在的机械手控制指令之后，可以从多个机械手控制指令确定待转换的目标机械手控制指令；将目标机械手控制指令转换成机械臂控制指令；根据机械臂控制指令控制机械臂执行相应运动轨迹，从而实现机械手执行机械手运动轨迹；根据未转换的机械手控制指令控制机械手执行机械手运动轨迹。

例如，可以预先建立机械手与机械臂关键之间的位置映射关系，在运动参数转换时，可以基于该映射关系将机械手运动参数转换成相应的机械臂关节运动参数。

比如，基于机械手与机械臂关节之间的位置映射关系(如基于反向运动学推导出的位置映射关系)，将目标机械手控制指令携带的机械手运动参数转换成相应的机械臂关节运动参数。

由上可知，本发明实施例可以使用机器学习模型(即指令生成网络模型)在物理仿真环境中学习抓取策略(即机械手控制指令)，当需要抓取物体时，只需采集物体的深度图像信息，并采用学习后的机器学习模型得到机械手控制指令，从而实现物体抓取，因此，采用该方案可以针对任意形状物体提供适合的抓取策略，从而使得机械手精确地抓到物体的精准抓取，提升了物体抓取的精准性。并且，通过机器学习模型不断地学习，即训练模型，可以不断提升指令输出的准确性，进而大大提升物体抓取的成功率。

为了更好地实施以上方法，本发明实施例还可以提供一种物体抓取装置，该物体抓取装置具体可以集成在终端中，该终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，Personal Computer)等。

例如，如图3a所示，该物体抓取装置可以包括数据获取单元301、训练单元302、第一采集单元301、指令获取单元302、和控制单元303，如下：

第一采集单元301，用于当需要抓取物体时，采集当前物体的深度图像信息；

指令获取单元302，用于根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令；其中，所述训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；

控制单元303，用于根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前物体。

在一实施例中，参考图3b，本发明实施例物体抓取装置还可以包括：

数据获取单元304，用于获取训练数据集，所述训练数据集包括：样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果，所述仿真抓取结果为根据所述样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体得到的抓取结果；

训练单元305，用于根据所述训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型；

在一实施例中，参考图3c，本发明实施例物体抓取装置还可以包括：第二采集单元306、指令探索单元307、仿真单元308、添加单元309；

第二采集单元306，用于采集样本物体的样本深度图像信息；

指令探索单元307，用于根据指令探索网络模型和所述样本深度图像信息获取所述机械手抓取所述样本物体的样本机械手控制指令；

仿真单元308，用于根据所述样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体，得到仿真抓取结果；

添加单元309，用于将样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果添加到训练数据集中。

在一实施例中，参考图3d，物体抓取装置还可以包括环境处理单元310和模型导入单元311；

所述环境处理单元310，用于：搭建用于仿真机械手抓取物体的物理仿真环境；根据机器人的物理参数在所述物理仿真环境中创建相应的机器人模型，所述机器人模型包括机械手模型

所述模型导入单元311，用于在所述物理仿真环境中导入样本物体模型。

在一实施例中，模型导入单元311，可以具体用于：

根据所述样本深度图像信息获取所述样本物体的三维图像数据；

根据所述三维图像数据在所述物理仿真环境中创建样本物体模型。

在一实施例中，所述物体抓取运动轨迹包括：多个具有时序关系的机械手运动轨迹；所述机械手控制指令包括：多个用于控制机械手执行所述机械手运动轨迹的机械手控制指令；

所述控制单元303，用于根据所述机械手控制指令控制所述机械手执行所述机械手运动轨迹，以抓取当前待抓取物体。

在一实施例中，参考图3e，控制单元303，可以包括：

确定子单元3031，用于从多个机械手控制指令确定待转换的目标机械手控制指令；

转换子单元3032，用于将所述目标机械手控制指令转换成机械臂控制指令，所述机械臂控制指令用于控制机械臂执行相应运动轨迹从而实现所述机械手执行所述机械手运动轨迹；

控制子单元3033，用于根据所述机械臂控制指令控制机械臂执行相应运动轨迹，从而实现所述机械手执行所述机械手运动轨迹；根据未转换的机械手控制指令控制所述机械手执行所述机械手运动轨迹。

在一实施例中，所述机械手控制指令携带机械手运动参数；

所述转换子单元3032，可以具体用于：

将所述目标机械手控制指令转换成机械臂控制指令，包括：

将所述目标机械手控制指令携带的机械手运动参数转换成相应的机械臂运动参数；

根据所述机械臂运动参数生成相应的机械臂控制指令。

在一实施例中，所述转换子单元3032，可以具体用于：

基于机械手与机械臂关节之间的位置映射关系，将所述目标机械手控制指令携带的机械手运动参数转换成相应的机械臂关节运动参数。

在一实施例中，参考图3f，物体抓取装置还可以包括映射关系获取单元3013；

所述映射关系获取单元3013，可以具体用于：在转换子单元3032转换参数之前，通过反向运动学获取机械手与机械臂关节之间的位置映射关系。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的物体抓取装置通过第一采集单元301采集当前物体的深度图像信息；由指令获取单元302根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令，其中，所述训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；由控制单元303根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前待抓取物体。由于该方案可以使用机器学习模型(即指令生成网络模型)在物理仿真环境中学习抓取策略(即机械手控制指令)，当需要抓取物体时，只需采集物体的深度图像信息，并采用学习后的机器学习模型得到机械手控制指令，从而实现物体抓取，因此，采用该方案可以针对任意形状物体提供适合的抓取策略，从而使得机械手精确地抓到物体的精准抓取，提升了物体抓取的精准性。

本发明实施例还提供了一种物体抓取系统，比如参考图4，可以包括：终端和机器人；其中，机器人包括机械手，该机械手用于抓取物体；具体地，所述终端，用于采集当前物体的深度图像信息；根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；以及根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前待抓取物体。

其中，根据机械手控制指令控制机械手的方式有多种，比如，终端可以向机器人发送机械手控制指令，机器人可以根据机械手控制指令执行物体抓取运动轨迹，以抓取物体。又比如，在一实施例中，当终端和机器人集成在一台设备中，可以直接根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取物体。

其中，训练后的指令生成网络模型可以由终端训练，也可以由其他设备训练后，终端拿来使用。

比如，在一实施例中，终端还可以用于：

获取训练数据集，所述训练数据集包括：样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果，所述仿真抓取结果为根据所述样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体得到的抓取结果；

根据所述训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型。

具体地，模型训练过程可以参考上述实施例的描述，这里不再赘述。

在一实施例中，所述机器人还包括机械臂，所述机械臂与所述机械手连接(比如，机械手连接在机械臂的末端)；所述物体抓取运动轨迹包括：多个具有时序关系的机械手运动轨迹；所述机械手控制指令包括：多个用于控制机械手执行所述机械手运动轨迹的机械手控制指令；

所述终端，可以具体用于：根据所述机械手控制指令控制所述机械手执行所述机械手运动轨迹。

在一实施例中，终端可以具体用于：从多个机械手控制指令确定待转换的目标机械手控制指令；

将所述目标机械手控制指令转换成机械臂控制指令，所述机械臂控制指令用于控制机械臂执行相应运动轨迹从而实现所述机械手执行所述机械手运动轨迹；

根据所述机械臂控制指令控制机械臂执行相应运动轨迹，从而实现所述机械手执行所述机械手运动轨迹；

根据未转换的机械手控制指令控制所述机械手执行所述机械手运动轨迹。

在一实施例中，所述机械手控制指令携带机械手运动参数；所述终端可以具体用于：将所述目标机械手控制指令携带的机械手运动参数转换成相应的机械臂运动参数；根据所述机械臂运动参数生成相应的机械臂控制指令。

具体地，机械臂运算参数转换方式可以包括：基于机械手与机械臂关节之间的位置映射关系，将所述目标机械手控制指令携带的机械手运动参数转换成相应的机械臂关节运动参数；

此时，终端可以用于：根据所述机械臂控制指令控制机械臂关节进行相应运动，以使得机械臂执行相应运动轨迹。

以上各个操作或步骤的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本发明实施例提供一种物体抓取系统，可以使用机器学习模型(即指令生成网络模型)在物理仿真环境中学习抓取策略(即机械手控制指令)，当需要抓取物体时，只需采集物体的深度图像信息，并采用学习后的机器学习模型得到机械手控制指令，从而实现物体抓取，因此，采用该方案可以针对任意形状物体提供适合的抓取策略，从而使得机械手精确地抓到物体的精准抓取，提升了物体抓取的精准性。

本发明实施例还提供一种终端，该终端可以集成本发明实施例所提供的任一种物体抓取装置。

例如，如图5所示，其示出了本发明实施例所涉及的终端的结构示意图，具体来讲：

该终端可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

终端还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该终端还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，终端还可以包括显示单元等，在此不再赘述。具体在本实施例中，终端中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

采集当前物体的深度图像信息；根据深度图像信息和训练后的指令生成网络模型，获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前物体。

在一实施例中，处理器501还可以用于：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的终端可以采集当前物体的深度图像信息；根据深度图像信息和训练后的指令生成网络模型，获取用于控制机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；根据机械手控制指令控制机械手执行物体抓取运动轨迹，以抓取当前物体。由于该方案可以使用机器学习模型(即指令生成网络模型)在物理仿真环境中学习抓取策略(即机械手控制指令)，当需要抓取物体时，只需采集物体的深度图像信息，并采用学习后的机器学习模型得到机械手控制指令，从而实现物体抓取，因此，采用该方案可以针对任意形状物体提供适合的抓取策略，从而使得机械手精确地抓到物体的精准抓取，提升了物体抓取的精准性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种物体抓取方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种物体抓取方法中的步骤，因此，可以实现本发明实施例所提供的任一种物体抓取方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种物体抓取方法、装置和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种物体抓取方法，其特征在于，包括：

采集当前物体的深度图像信息；

根据所述深度图像信息和训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令；其中，所述训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；

2.如权利要求1所述的物体抓取方法，其特征在于，所述方法还包括：

3.如权利要求1所述的物体抓取方法，其特征在于，还包括：

采集样本物体的样本深度图像信息；

根据指令探索网络模型和所述样本深度图像信息获取所述机械手抓取所述样本物体的样本机械手控制指令；

根据所述样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体，得到仿真抓取结果；

4.如权利要求3所述的物体抓取方法，其特征在于，在模拟机械手抓取样本物体之前，所述方法还包括：

搭建用于仿真机械手抓取物体的物理仿真环境；

根据机器人的物理参数在所述物理仿真环境中创建相应的机器人模型，所述机器人模型包括机械手模型；

在所述物理仿真环境中导入样本物体模型。

5.如权利要求4所述的物体抓取方法，其特征在于，在所述物理仿真环境中导入样本物体模型，包括：

6.如权利要求1所述的物体抓取方法，其特征在于，所述物体抓取运动轨迹包括：多个具有时序关系的机械手运动轨迹；所述机械手控制指令包括：多个用于控制机械手执行所述机械手运动轨迹的机械手控制指令；

根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，包括：根据所述机械手控制指令控制所述机械手执行所述机械手运动轨迹。

7.如权利要求6所述的物体抓取方法，其特征在于，根据所述机械手控制指令控制所述机械手执行所述机械手运动轨迹，包括：

从多个机械手控制指令确定待转换的目标机械手控制指令；

8.如权利要求7所述的物体抓取方法，其特征在于，所述机械手控制指令携带机械手运动参数；

将所述目标机械手控制指令转换成机械臂控制指令，包括：

根据所述机械臂运动参数生成相应的机械臂控制指令。

9.如权利要求8所述的物体抓取方法，其特征在于，将所述目标机械手控制指令携带的机械手运动参数转换成机械臂运动参数，包括：

基于机械手与机械臂关节之间的位置映射关系，将所述目标机械手控制指令携带的机械手运动参数转换成相应的机械臂关节运动参数；

根据所述机械臂控制指令控制机械臂执行相应运动轨迹，包括：根据所述机械臂控制指令控制机械臂关节进行相应运动，以使得机械臂执行相应运动轨迹。

10.如权利要求9所述的物体抓取方法，其特征在于，在将所述目标机械手控制指令携带的机械手运动参数转换成相应的机械臂关节运动参数之前，所述方法还包括：通过反向运动学获取机械手与机械臂关节之间的位置映射关系。

11.一种物体抓取装置，其特征在于，包括：

第一采集单元，用于采集当前物体的深度图像信息；

控制单元，用于根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前待抓取物体。

12.如权利要求11所述的物体抓取装置，其特征在于，还包括：

数据获取单元，用于获取训练数据集，所述训练数据集包括：样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果，所述仿真抓取结果为根据所述样本机械手控制指令在物理仿真环境中模拟机械手抓取样本物体得到的抓取结果；

训练单元，用于根据所述训练数据集中的样本深度图像信息、样本机械手控制指令、以及仿真抓取结果对指令生成网络模型进行训练，得到训练后的指令生成网络模型。

13.一种物体抓取系统，其特征在于，包括：终端和机器人；所述机器人包括机械手；

所述终端，用于采集当前物体的深度图像信息；根据所述深度图像信息和所述训练后的指令生成网络模型，获取用于控制所述机械手执行物体抓取运动轨迹的机械手控制指令，其中，训练后的指令生成网络模型由样本深度图像信息及其对应的样本机械手控制指令、仿真抓取结果训练而成；以及根据所述机械手控制指令控制所述机械手执行所述物体抓取运动轨迹，以抓取当前待抓取物体。

14.如权利要求13所述的物体抓取系统，其特征在于，所述终端还用于：

15.如权利要求13所述的物体抓取系统，其特征在于，所述机器人还包括机械臂，所述机械臂与所述机械手连接；所述物体抓取运动轨迹包括：多个具有时序关系的机械手运动轨迹；所述机械手控制指令包括：多个用于控制机械手执行所述机械手运动轨迹的机械手控制指令；

所述终端，用于从多个机械手控制指令确定待转换的目标机械手控制指令；将所述目标机械手控制指令转换成机械臂控制指令，所述机械臂控制指令用于控制机械臂执行相应运动轨迹从而实现所述机械手执行所述机械手运动轨迹；根据所述机械臂控制指令控制所述机械臂执行相应运动轨迹，从而实现所述机械手执行所述机械手运动轨迹；根据未转换的机械手控制指令控制所述机械手执行所述机械手运动轨迹。