CN113787521B

CN113787521B - 基于深度学习的机器人抓取方法、系统、介质和电子设备

Info

Publication number: CN113787521B
Application number: CN202111122883.XA
Authority: CN
Inventors: 王卫军; 王兆广; 徐友法; 张允�; 孙海峰; 杨亚; 郭雨晨; 陈凯
Original assignee: Shanghai Micro Motor Research Institute 21st Research Institute Of China Electronics Technology Corp
Current assignee: Shanghai Micro Motor Research Institute 21st Research Institute Of China Electronics Technology Corp
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-04-18
Anticipated expiration: 2041-09-24
Also published as: CN113787521A

Abstract

本申请提供了一种基于深度学习的机器人抓取方法、系统、计算机可读存储介质和电子设备。该方法包括：根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到目标物体的输入数据；根据目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于目标场景下的目标物体的候选抓取方式中不同抓取方式的抓取评估值；选取抓取评估值最高的抓取方式，对目标场景下的目标物体进行抓取。籍此，通过虚拟目标物体的生成方式提供实际使用场景的输入数据，辅助提供机器人抓取方式的决策依据，实现对真实场景中面对三维物体时，选择抓取方式的快速分析和有效决策；为机器人应用在实际使用过程中的动作和行为提供重要的决策依据。

Description

基于深度学习的机器人抓取方法、系统、介质和电子设备

技术领域

本申请涉及机器人感知技术领域，特别涉及一种基于深度学习的机器人抓取方法、系统、计算机可读存储介质和电子设备。

背景技术

物体抓取是指在给定目标物体和环境限制的可达性约束条件下，能够获得最佳成功率的抓取方式选择。针对目标物体选取合适的抓取方式是机器人应用中的一项基本任务，比如，对于一项基础的物体搬运任务，机器人首先具备正确识别物体的能力，并在适当的时机采取最佳的抓取方式，才能顺利完成后续的搬运动作。在实际的应用场景中，由于目标物体存在形状、姿态、材料属性等一系列不确定因素，且受到环境光线、视角等情况的影响，往往对机器人的正确观测并执行抓取行为添加了较大的挑战，如何正确地识别目标三维物体及相关的环境限制，在给定的抓取方式范围中选取最适合当前场景的方案或配置选项，是机器人领域亟待解决的问题之一。

传统方法通常会基于物理学理论的分析结论来规划抓取的方向、力度、速度等信息，但这些方法都隐含假定视觉感知系统获取到的信息是理想条件下完美无差错的，这一条件在实际应用场景中很难满足。复杂多变且不可预知的使用场景往往会使这类基于规则分析判断的抓取规划出现错误。因此，通过物理原理分析的抓取规划往往不具备实际操作的可行性，而通过经验学习得到的相关参数很可能遇到跨域效果降低的影响。这些挑战导致机器人在实际应用过程中无法有效地选择正确的抓取方式，导致机器人行为操作的成功率降低。

因此，需要提供一种针对上述现有技术不足的改进技术方案。

发明内容

本申请的目的在于提供一种基于深度学习的机器人抓取方法、系统、计算机可读存储介质和电子设备，以解决或缓解上述现有技术中存在的问题。

为了实现上述目的，本申请提供如下技术方案：

本申请提供了一种基于深度学习的机器人抓取方法，包括：根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到所述目标物体的输入数据；根据所述目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于所述目标场景下的所述目标物体的候选抓取方式中不同抓取方式的抓取评估值；选取所述抓取评估值最高的抓取方式，对所述目标场景下的所述目标物体进行抓取。

优选的，所述根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到所述目标物体的输入数据，包括：基于深度估计方法，根据输入的所述深度图像，构建所述目标物体的点云信息；对所述目标物体的点云信息进行封装，得到所述目标物体的输入数据。

优选的，所述根据所述目标物体的输入数据，基于预先训练的抓取方式评估模型，得到目标场景下所述目标物体的候选抓取方式中不同抓取方式的抓取评估值，具体为：基于预先训练的所述抓取方式评估模型，对所述目标物体的输入数据执行模型前向传播操作，根据所述目标物体的特征属性的影响因子，获取目标场景下所述目标物体的候选抓取方式中不同抓取方式的抓取评估值；其中，所述目标物体的特征属性包括：所述目标物体的形状、姿态、位置。

优选的，所述基于深度学习的机器人抓取方法还包括：根据预先得到的训练物体的三维点云数据，通过概率采样的方法，生成所述抓取方式评估模型的训练场景数据；根据所述训练场景数据和预设的损失函数，对基于深度学习的所述抓取方式评估模型进行迭代更新。

优选的，所述根据预先得到的训练物体的三维点云数据，通过概率采样的方法，生成所述抓取方式评估模型的训练场景数据，包括：根据预设应用场景集合中的所述目标场景，从训练物体集合中选取与所述目标场景相对应的训练物体；其中，所述训练物体集合包含多个不同类别的所述训练物体；所述预设应用场景集合包含多个不同的所述目标场景，多个不同的所述目标场景分别与多个不同类别的所述训练物体相对应；基于渲染引擎或三维重建方法，生成所述训练物体的三维点云数据；其中，所述训练物体的三维点云数据为可用于渲染的格式；对所述三维点云数据进行渲染，并根据所述训练物体在所述目标场景的统计数据，对所述训练物体进行概率采样，生成所述抓取方式评估模型的满足预设条件概率分布的训练场景数据。

优选的，所述根据所述训练场景数据和预设的损失函数，对基于深度学习的所述抓取方式评估模型进行迭代更新，具体为：根据所述训练场景数据和预设的交叉熵损失函数，通过随机梯度下降方法，对基于深度卷积神经网络的所述抓取方式评估模型中各层的权重和偏置值进行迭代更新。

优选的，所述基于深度学习的机器人抓取方法还包括：基于TensorFlow学习框架，构建所述抓取方式评估模型。

本申请实施例还提供一种基于深度学习的机器人抓取系统，包括：输入单元，配置为，根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到所述目标物体的输入数据；评估单元，配置为，根据所述目标物体的输入数据，基于预先训练的抓取方式评估模型，得到目标场景下所述目标物体的候选抓取方式中不同抓取方式的抓取评估值；决策单元，配置为，选取所述抓取评估值最高的抓取方式，对所述目标场景下的所述目标物体进行抓取。

本申请实施例还提供一种计算机可读存储介质，其上存储由计算机程序，所述程序如上任一实施例所述的基于深度学习的机器人抓取方法。

本申请实施例还提供一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如上任一实施例所述的基于深度学习的机器人抓取方法。

与最接近的现有技术相比，本申请实施例的技术方案具有如下有益效果：

本申请实施例提供的技术方案中，根据输入的深度图像构建目标场景中的目标物体的三维点云信息，并进行封装，得到目标物体的输入数据；然后，根据目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于目标场景下目标物体的候选抓取方式中不同抓取方式的抓取评估值；最后，选取抓取评估值最高的抓取方式，对目标场景下的目标物体进行抓取。籍此，通过虚拟目标物体的生成方式提供实际使用场景的输入数据，利用针对抓取方式有效性进行评估的抓取方式评估模型，对多个抓取方式同时评估，能够快速评估当前输入图片下不同候选抓取方式对于抓取效果的综合评分，根据该抓取效果综合评分向量，选取最适合当前场景决策依据的效果最优的抓取方式；辅助提供机器人抓取方式的决策依据，实现对真实场景中面对三维物体时选择抓取方式的快速分析和有效决策；为机器人应用在实际使用过程中的动作和行为提供重要的决策依据。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。其中：

图1为根据本申请的一些实施例提供的一种基于深度学习的机器人抓取方法的流程示意图；

图2为图1所示实施例基于深度学习的机器人抓取方法的技术框架图；

图3为根据本申请的一些实施例提供的一种抓取方式评估模型的构建方法的流程示意图；

图4为图3所示实施例抓取方式评估模型的构建的技术框架图；

图5为根据本申请的一些实施例提供的一种基于深度学习的机器人抓取系统的结构示意图；

图6为根据本申请的一些实施例提供的电子设备的结构示意图；

图7为根据本申请的一些实施例提供的电子设备的硬件结构图。

具体实施方式

下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上，本领域的技术人员将清楚，在不脱离本申请的范围或精神的情况下，可在本申请中进行修改和变型。例如，示为或描述为一个实施例的一部分的特征可用于另一个实施例，以产生又一个实施例。因此，所期望的是，本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。

目前，在大规模物体抓取方式标注数据集上训练获得的模型能够鲁棒地适应复杂的应用场景，但这些数据的收集往往需要繁琐的人工标注或枯燥反复的试验重复。本申请注意到现有方法很难产生有效的、对模型训练有增益效果的训练数据，因而，在三维模型重建时采用引擎渲染、深度估计等方法，实现海量虚拟训练数据的生成和准备，在数据渲染过程中，采用概率分布采样的方式，尽可能减少试验场景与应用场景的差异，确保最终产出模型的鲁棒性；籍此，以基于深度学习的虚拟三维物体概率采样抓取方式多任务学习技术，有效解决了在物体抓取方式问题中高质量训练数据不足的问题。并基于深度学习卷积神经网络构建抓取质量评估网络模型(抓取方式评估模型)，针对各类抓取方式和输入物体(目标物体)的当前特征，进行多任务分析学习，确保最终的抓取方式决策过程可以依据不同的使用场景进行判定。籍以利用深度学习方法进行了合理的参数学习，最终的决策具有评估效果好、准确度高、成功率高、鲁棒性强等特点，具备更好的实际应用体验。

如图1、图2所示，该基于深度学习的机器人抓取方法包括：

步骤S101、根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到目标物体的输入数据；

具体的，基于深度估计方法，根据输入的深度图像，构建目标物体的点云信息；其中，深度图像为具有深度信息的图像数据。然后对目标物体的点云信息进行封装，即可得到目标物体的输入数据。在此，目标物体的输入数据能够清晰的表征目标对象三维信息的三维数据。

在本申请实施例中，根据机器人的使用场景设置将目标物体进行分类划分，每一类目标物体的集合对应机器人的一个使用场景。输入的深度图像为通过机器人的图像信号感知模块，采集的实际使用场景下的目标物体的图像的集合。然后，通过渲染引擎或三维重建方法构建目标物体的三维数据(三维点云信息)，并按照深度学习模型的输入格式对目标物体的三维数据进行渲染，将其导出为特定的渲染格式(比如，obj格式、fbx格式等)，并完成封装，作为抓取评估模型的输入数据。

步骤S102、根据目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于目标场景下的目标物体的候选抓取方式中不同抓取方式的抓取评估值；

在一些可选实施例中，基于预先训练的抓取方式评估模型，对目标物体的输入数据执行模型前向传播操作，根据目标物体的特征属性的影响因子，获取目标场景下目标物体的候选抓取方式中不同抓取方式的抓取评估值；其中，目标物体的特征属性包括：目标物体的形状、姿态和位置。

在本申请实施例中，同一目标物体在不同姿态、不同位置条件下，需要匹配不同的抓取方式。抓取方式评估模型的目标是在给定目标物体的相关信息以及候选抓取方式的情况下，根据评估计算每种候选抓取方式的多任务评估值，并根据实际应用中各项因素的影响因子作为决策依据。即，在给定目标物体的输入数据和目标物体在目标场景下的候选抓取方式的情况下，输出目标物体在目标场景下抓取成功率的分数评估。

在本申请实施例中，通过步骤S101中构建虚拟物体生成抓取方式评估模型的训练数据。抓取方式评估模型的目标是在给定目标物体的相关信息以及候选抓取方式的情况下，根据评估计算每种候选抓取方式的多任务评估值，并根据实际应用中各项因素的影响因子作为决策依据。

在本申请实施例中，设定抓取方式μ∈Φ，其中，Φ表示抓取方式的集合，Φ中包含多个不同的候选抓取方式。根据每个候选抓取方式在目标场景中的抓取参数，以及机器人的模拟视觉与目标物体的相对状态，即可计算出每种候选抓取方式的抓取评估值。其中，抓取参数、机器人的模拟视觉与目标物体的相对状态可在目标场景的抓取模拟场景中进行设定、调整。抓取参数包括抓取方向、速度和力度；机器人的模拟视觉为机器人的图像信号感知模块在抓取模拟场景中的虚拟模块。机器人的模拟视觉与目标物体的相对状态x基于模拟视觉与目标物体的偏转角、俯视角、焦距等信息确定。具体表达如公式(1)，公式(1)如下所示：

x＝(P_o,P_c)……………………………………(1)

其中，P_o表示目标物体的姿态，P_c表示机器人的模拟视觉的姿态。

在本申请实施例中，设定机器人的图形信号感知模块获取到的目标物体的点云信息(根据深度图像构建的目标物体的三维点云信息)用y表示，用M(μ,x)∈{0,1}表示抓取方式μ在模拟视觉与目标物体的相对状态x下抓取成功率的标签；用p(M,μ,x,y)表示M,μ,x,y的联合分布，用Q(μ,y)表示抓取方式μ在点云信息y下抓取成功的成功率估计值，即基于联合分布p(M,μ,x,y)，抓取方式μ对目标物体的抓取评估值。

步骤S103、选取抓取评估值最高的抓取方式，对目标场景下的目标物体进行抓取。

在本申请实施例中，在进行目标物体的抓取方式的决策时，依据抓方式评估模型前向传播获得的抓取评估值，选取满足评估值最高的抓取方式：

π_θ(y)＝argmax_μ∈ΦQ_θ(u,y)

其中，π_θ表示评估值最高的抓取方式，Q_θ(u,y)表示抓取方式u通过抓取方式评估模型的前向传播获得的针对当前点云信息y对应的目标物体的抓取评估值。在此，Q_θ(u,y)是一个多维向量，其中包含多种影响因素(比如：行为速度、冲突发生概率等)的权重；θ表示多种影响因素(比如：行为速度、冲突发生概率等)的集合，抓取决策过程就是通过设定行为速度、冲突发生概率等权重信息，计算其综合评分，获取评分制最大的一个抓取方式。

本申请实施中，通过虚拟目标物体的生成方式提供实际使用场景的输入数据，利用针对抓取方式有效性进行评估的抓取方式评估模型，对多个抓取评估效果同时评估，能够快速评估当前输入图片下不同候选抓取方式对于抓取效果的综合评分，根据该抓取效果综合评分向量，选取最适合当前场景决策依据的效果最优的抓取方式；辅助提供机器人抓取方式的决策依据，实现对真实场景中面对三维物体时选择抓取方式的快速分析和有效决策；为机器人应用在实际使用过程中的动作和行为提供重要的决策依据。

如图3、图4所示，该基于深度学习的机器人抓取方法还包括：

步骤S301、根据预先得到的训练物体的三维点云数据，通过概率采样的方法，生成抓取方式评估模型的训练场景数据；

在本申请实施例中，针对特定物体(目标物体)选取抓取方式的策略不够鲁棒的问题，利用三维数据方案生成满足实际应用场景概率分布的大量虚拟三维物体数据。通过构建虚拟三维物体的方式，模拟机器人可能遇到的实际场景，并生成大量与实际应用场景紧密联系的训练数据，用于机器人抓取方式训练。

在本申请实施例中，同一目标物体在不同姿态、不同位置条件下，需要匹配不同的抓取方式。因而，在对抓取方式评估模型进行训练时，需要根据给定的三维物体点云信息，通过概率采样生成覆盖范围最大的使用场景，确保抓取评估模型在训练过程汇总能够学习到相对鲁棒的经验参数。

具体的，首先，根据预设应用场景集合中的目标场景，从训练物体集合中选取与目标场景相对应的训练物体；其中，训练物体集合包含多个不同类别的训练物体，预设应用场景集合包含多个不同的目标场景，多个不同的目标场景分别与多个不同类别的训练物体相对应。然后，基于渲染引擎或三维重建方法，生成训练物体的三维点云数据；其中训练物体的三维点云数据为可用于渲染的格式；最后，对三维点云数据进行渲染，并根据训练物体在目标场景的统计数据，对训练物体进行概率采样，生成抓取方式评估模型的满足预设条件概率分布的训练场景数据。在此，预设条件概率分布采用KL(Kullback-Leiblerdivergence)散度。

在本申请实施例中，在三维数据渲染过程中，加入概率采样，使生成的训练数据能够满足预设条件概率分布，使其与机器人的实际使用场景具有较少的相对熵。其中，预设条件概率分布根据机器人实际使用场景与其对应的目标物体的集合确定。比如机器人的实际使用场景中，目标物体包括水瓶和立方体，在水瓶和立方体组成的目标物体的集合中，机器人抓取水瓶的概率为80％，抓取立方体的概率为20％，那么，生成的三维训练数据中水瓶和立方体的概率分别为80％、20％。

在本申请实施例中，基于深度估计估计方法，根据输入的训练物体的深度图像，构建训练物体的三维点云信息；其中，训练物体的深度图像为具有深度信息的图像数据，通过机器人的图像信号感知模块对真实场景的物体拍照，并依据其出现的统计信息进行采样获取。然后对训练物体的点云信息进行封装，即可得到用于抓取评估模型训练的数据。

在本申请实施例中，在抓取方式评估模型训练前，首先需要获取训练物体的输入图片的特征信息，在此，通过特征抽取方式对训练物体的深度图像的三维点云数据进行特征抽取，特征抽取时可通过将深度图像的三维点云数据输入卷积神经网络模型，采用前向传播的方法抽取特征信息，并渲染、封装，得到图像特征(训练场景数据)，并通过各个候选区块分支的卷积核计算相关分支的特征映射。

在此，需要说明的是，步骤S301中生成训练场景数据的其它步骤、流程可参考步骤S101中由目标物体生成抓取评估模型输入数据的步骤、流程，在此不再一一赘述。

步骤S302、根据训练场景数据和预设的损失函数，对基于深度学习的抓取方式评估模型进行迭代更新。

在本申请实施例中，抓取方式评估模型的目标就是使抓取评估值与设定标签值(人工标注的抓取成功率S)尽可能接近。在此，通过损失函数

对抓取评估值与设定标签值的偏差进行校核，损失函数收敛则说明抓取评估值与设定标签值相近或相似，抓取评估值对应的抓取方式满足目标物体的实际抓取需要。

在本申请实施例中，损失函数采用交叉熵损失函数，具体的，根据训练场景数据和预设的交叉熵损失函数，通过随机梯度下降方法，对基于深度卷积神经网络的抓取方式评估模型中各层的权重和偏置值进行迭代更新。

在本申请实施例中，基于定义的交叉熵损失函数，对抓取方式评估模型的参数进行更新，参数更新过程就是对深度卷积神经网络中各层的权重和偏置值进行更新，使最终的损失函数值最小。在此，深度卷积神经网络中各层的权重和偏置值的初始值随机生成。

进一步的，基于TensorFlow学习框架，构建抓取方式评估模型。即抓取方式评估模型采用深度学习框架TensorFlow，模型结构的定义和损失函数的计算，使用TensorFlow内置的相关方法实现。具体的，抓取方式评估模型采用随机梯度下降的方式进行优化，每个批次的训练物体都将产生损失函数值，并生成梯度信息，通过反向传播和自动更新操作实现模型参数的优化，在迭代训练过程中降低损失函数值。

在本申请实施例中，采用随机梯度下降方法对抓取方式评估模型进行迭代更新，在抓取方式评估模型训练开始阶段，会选取合适的学习速度使抓取方式评估模型快速找到参数优化的最优方向。当训练进展到一定程度后，会逐步减少学习速率进行更加精细的学习，避免参数波动过大导致损失函数无法收敛。因此，在每一轮迭代后，抓取方式评估模型都会根据试验参数配置和当前模型的收敛情况更新学习速率，并根据学习速率更新权重。

本申请实施例中，通过虚拟目标物体的生成方式提供大量、满足实际使用场景使用的训练数据，并利用针对抓取方式有效性进行评估的抓取方式评估模型，对多个抓取方式同时评估，促进模型的训练和多任务优化；最终获得一个能够适应复杂环境、适配不同物体的多任务抓取方式决策模型，辅助提供机器人抓取方式的决策依据，实现对真实场景中面对三维物体时选择抓取方式的快速分析和有效决策；相较于传统的基于物体分析或经验学习的方式，能够更加鲁棒地应对实际场景中可能出现的情况，同时减少对数据进行手工标注的工作量，在物体抓取方式的应用过程中达到更优的效果。

本申请实施中，基于深度学习的虚拟三维物体概率采样抓取方式多任务学习技术，利用三维数据重建技术快速生成大量有效的、满足实际场景概率分布的虚拟三维物体，并通过模拟渲染的方式生成大量标注数据，对抓取方式评估模型进行参数训练，实现基于深度学习的三维物体抓取方式多任务学习，提供相对于传统方法更加准确、鲁棒的抓取方式评估，使机器人针对目标物体的抓取行为的决策更加符合实际场景的客观条件。

图5为根据本申请的一些实施例提供的一种基于深度学习的机器人抓取系统的结构示意图；如图5所示，该基于深度学习的机器人抓取系统包括：输入单元501、评估单元502和决策单元503。输入单元501配置为根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到目标物体的输入数据；评估单元502配置为根据目标物体的输入数据，基于预先训练的抓取方式评估模型，得到目标场景下目标物体的候选抓取方式中不同抓取方式的抓取评估值；决策单元503配置为选取抓取评估值最高抓取方式对目标场景下的目标物体进行抓取。

本申请实施例提供的基于深度学习的机器人抓取系统能够实现上述任一基于深度学习的机器人抓取方法实施例的步骤、流程，并达到相同的技术效果，在此不再一一赘述。

图6为根据本申请的一些实施例提供的电子设备的结构示意图；如图6所示，该电子设备包括：

一个或多个处理器601；

计算机可读介质，可以配置为存储一个或多个程序602，一个或多个处理器601执行一个或多个程序602时，实现如下步骤：根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到目标物体的输入数据；根据目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于目标场景下的目标物体的候选抓取方式中不同抓取方式的抓取评估值；选取抓取评估值最高的抓取方式中，对目标场景下的目标物体进行抓取。

图7为根据本申请的一些实施例提供的电子设备的硬件结构图；如图7所示，该电子设备的硬件结构可以包括：处理器701、通信接口702、计算机可读介质703和通信总线704。

其中，处理器701、通信接口702、计算机可读介质703通过通信总线704完成相互间的通信。

可选地，通信接口702可以为通信模块的接口，如GSM模块的接口。

其中，处理器701具体可以配置为：根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到目标物体的输入数据；根据目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于目标场景下的目标物体的候选抓取方式中不同抓取方式的抓取评估值；选取抓取评估值最高的抓取方式中，对目标场景下的目标物体进行抓取。

处理器可以是通用处理器，包括中央处理器(central processing unit，简称CPU)、网络处理器(Network Processor，简称NP)等，还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如：IPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如Ipad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如：iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可以将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器存储介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的基于深度学习的机器人抓取方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和涉及约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述得设备及系统实施例仅仅是示意性的，其中作为分离不见说明的单元可以使或者也可以不是物理上分开的，作为单元提示的不见可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上实施方式仅用于说明本申请实施例，而非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专业保护范围应由权利要求限定。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度学习的机器人抓取方法，其特征在于，包括：

根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到所述目标物体的输入数据；

根据所述目标物体的输入数据，基于预先训练的抓取方式评估模型，得到位于所述目标场景下的所述目标物体的候选抓取方式中不同抓取方式的抓取评估值；

选取所述抓取评估值最高的抓取方式，对所述目标场景下的所述目标物体进行抓取；

所述基于深度学习的机器人抓取方法还包括：

根据预先得到的训练物体的三维点云数据，通过概率采样的方法，生成所述抓取方式评估模型的训练场景数据；

根据所述训练场景数据和预设的损失函数，对基于深度学习的所述抓取方式评估模型进行迭代更新；

所述根据预先得到的训练物体的三维点云数据，通过概率采样的方法，生成所述抓取方式评估模型的训练场景数据，包括：

根据预设应用场景集合中的所述目标场景，从训练物体集合中选取与所述目标场景相对应的训练物体；其中，所述训练物体集合包含多个不同类别的所述训练物体；所述预设应用场景集合包含多个不同的所述目标场景，多个不同的所述目标场景分别与多个不同类别的所述训练物体相对应；

基于渲染引擎或三维重建方法，生成所述训练物体的三维点云数据；其中，所述训练物体的三维点云数据为可用于渲染的格式；

对所述三维点云数据进行渲染，并根据所述训练物体在所述目标场景的统计数据，对所述训练物体进行概率采样，生成所述抓取方式评估模型的满足预设条件概率分布的训练场景数据。

2.根据权利要求1所述的基于深度学习的机器人抓取方法，其特征在于，所述根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到所述目标物体的输入数据，包括：

基于深度估计方法，根据输入的所述深度图像，构建所述目标物体的点云信息；

对所述目标物体的点云信息进行封装，得到所述目标物体的输入数据。

3.根据权利要求1所述的基于深度学习的机器人抓取方法，其特征在于，所述根据所述目标物体的输入数据，基于预先训练的抓取方式评估模型，得到目标场景下所述目标物体的候选抓取方式中不同抓取方式的抓取评估值，具体为：

基于预先训练的所述抓取方式评估模型，对所述目标物体的输入数据执行模型前向传播操作，根据所述目标物体的特征属性的影响因子，获取目标场景下所述目标物体的候选抓取方式中不同抓取方式的抓取评估值；其中，所述目标物体的特征属性包括：所述目标物体的形状、姿态、位置。

4.根据权利要求1所述的基于深度学习的机器人抓取方法，其特征在于，所述根据所述训练场景数据和预设的损失函数，对基于深度学习的所述抓取方式评估模型进行迭代更新，具体为：

根据所述训练场景数据和预设的交叉熵损失函数，通过随机梯度下降方法，对基于深度卷积神经网络的所述抓取方式评估模型中各层的权重和偏置值进行迭代更新。

5.根据权利要求1-4任一所述的基于深度学习的机器人抓取方法，其特征在于，所述基于深度学习的机器人抓取方法还包括：基于TensorFlow学习框架，构建所述抓取方式评估模型。

6.一种基于深度学习的机器人抓取系统，其特征在于，包括：

输入单元，配置为，根据输入的深度图像构建目标物体的三维点云信息，并进行封装，得到所述目标物体的输入数据；

评估单元，配置为，根据所述目标物体的输入数据，基于预先训练的抓取方式评估模型，得到目标场景下所述目标物体的候选抓取方式中不同抓取方式的抓取评估值；

决策单元，配置为，选取所述抓取评估值最高的抓取方式，对所述目标场景下的所述目标物体进行抓取；

所述基于深度学习的机器人抓取系统还用于：

7.一种计算机可读存储介质，其上存储由计算机程序，其特征在于，所述程序如权利要求1-5任一所述的基于深度学习的机器人抓取方法。

8.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1-5任一所述的基于深度学习的机器人抓取方法。