CN113345100B

CN113345100B - 用于物体的目标抓取姿态的预测方法、装置、设备和介质

Info

Publication number: CN113345100B
Application number: CN202110543176.1A
Authority: CN
Inventors: 王晨曦; 方浩树; 卢策吾
Original assignee: Feixi Technology Co ltd; Flexiv Robotics Ltd
Current assignee: Feixi Technology Co ltd; Flexiv Robotics Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2023-04-07
Anticipated expiration: 2041-05-19
Also published as: CN113345100A

Abstract

本申请涉及一种用于物体的目标抓取姿态的预测方法、装置、设备和介质。包括：获取物体的三维点云的数据；利用预先训练的姿态预测网络，对初始点进行逐点可抓取性分析得到逐点可抓取性指标，根据多个初始点的逐点可抓取性指标确定第一预设数量的候选点；利用姿态预测网络，对第一预设数量的候选点进行逐视角可抓取性分析得到逐视角可抓取性指标，根据逐视角可抓取性指标确定各候选点对应的抓取方向；利用预先训练的姿态预测网络，基于各候选点对应的抓取方向及各候选点及候选点周围预设范围内的若干三维点云上的点的几何特征确定各候选点对应的抓取姿态，根据各候选点对应的抓取姿态确定用于物体的目标抓取姿态。采用本方法节省计算资源开销。

Description

用于物体的目标抓取姿态的预测方法、装置、设备和介质

技术领域

本申请涉及机器人技术领域，特别是涉及一种用于物体的目标抓取姿态的预测方法、装置、设备和介质。

背景技术

随着机器人技术的发展，出现了物体抓取技术，物体抓取在物体分拣、产品装配和加用服务等方面均有广泛应用。物体抓取可分解为场景信息获取、抓取姿态检测、运动规划和动作执行等环节，其中最重要的环节是抓取姿态检测，即从输入的包含物体的场景图像或点云中找出最适合抓取该物体的位置并预测机械夹爪的参数。

传统方法分为基于二维图像的平面抓取姿态检测和基于三维图像的六自由度抓取姿态检测。平面抓取姿态检测以RGB图像或深度图像为输入，利用卷积神经网络，在相机平面内预测长方形约束框用以代表抓取姿态。六自由度抓取姿态检测主要基于先采样后分类或者直接由输入的三维图像预测抓取姿态。

然而，基于二维图像得到的抓取姿态自由度较低，抓取效果受相机视角影响较大，因而应用范围有限。基于三维图像得到的抓取姿态可能质量较为随机，又或者需要消耗大量计算资源。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高姿态预测质量的用于物体的目标抓取姿态的预测方法、装置、设备和介质。

一种用于物体的目标抓取姿态的预测方法，所述方法包括：

获取物体的三维点云的数据，所述三维点云包括多个初始点；

利用预先训练的姿态预测网络，对多个所述初始点进行逐点可抓取性分析，获得多个所述初始点的逐点可抓取性指标，并根据多个所述初始点的逐点可抓取性指标确定第一预设数量的候选点；

利用所述预先训练的姿态预测网络，对所述第一预设数量的候选点进行逐视角可抓取性分析，获得所述第一预设数量的候选点的逐视角可抓取性指标，并根据所述逐视角可抓取性指标确定各所述候选点对应的抓取方向；以及

利用所述预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，并根据各所述候选点对应的抓取姿态确定用于所述物体的目标抓取姿态。

在其中一个实施例中，所述利用预先训练的姿态预测网络，对多个所述初始点进行逐点可抓取性分析，获得多个所述初始点的逐点可抓取性指标，包括：

利用预先训练的姿态预测网络，对多个所述初始点进行特征抽取以得到每个所述初始点的形态信息，其中所述形态信息用于表征每个所述初始点的几何特征；以及

根据每个所述初始点的所述形态信息利用预先训练的姿态预测网络，进行逐点可抓取性分析，以得到每个所述初始点的逐点可抓取性指标。

在其中一个实施例中，所述根据多个所述初始点的逐点可抓取性指标确定第一预设数量的候选点，包括：

对所述初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从所述初始点中选取得到第一预设数量的候选点。

在其中一个实施例中，所述方法还包括：

将每个所述初始点的所述几何特征作为输入，利用所述预先训练的姿态预测网络，以得到每个所述初始点是否位于所述物体上的信息；以及

所述对所述初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从所述初始点中选取得到第一预设数量的候选点，包括：

对所述初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从而从所述初始点中选取得到位于所述物体上的所述第一预设数量的候选点。

在其中一个实施例中，所述利用所述预先训练的姿态预测网络，对所述第一预设数量的候选点进行逐视角可抓取性分析，获得所述第一预设数量的候选点的逐视角可抓取性指标，并根据所述逐视角可抓取性指标确定各所述候选点对应的抓取方向，包括：

根据每个所述候选点的形态信息利用预先训练的姿态预测网络，进行逐视角可抓取性分析，以得到每个所述候选点的逐视角可抓取性指标；

选取每个所述候选点的逐视角可抓取性指标满足预设视角选取规则的对应视角作为对应所述候选点的抓取方向。

在其中一个实施例中，所述利用所述预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，包括：

进行点云裁切，在各所述候选点的所述周围预设范围内的所述初始点中采样得到第二预设数量的参考点，并获取所述参考点对应的位置和形态信息；

对每个所述候选点，获取多个预设的面内旋转角度和抓取深度，将所述多个预设的面内旋转角度和抓取深度分别组合，并将所述候选点的所述参考点的所述形态信息作为输入，利用所述预先训练的姿态预测网络，针对所述候选点预测每个组合的抓取分数，并选取抓取分数满足预设抓取规则的面内旋转角度和抓取深度的组合作为所述候选点对应的所述抓取姿态。

在其中一个实施例中，所述根据各所述候选点对应的抓取姿态确定用于所述物体的目标抓取姿态，包括：

从所有所述候选点中，选取对应的所述抓取分数满足抓取姿态选取规则的所述抓取姿态，将所述抓取姿态对应的所述候选点作为物体的抓取点，将所述抓取姿态作为所述物体的目标抓取姿态。

在其中一个实施例中，所述姿态预测网络的训练方式包括：

获取训练样本数据，所述训练样本数据包括多个场景下的多个样本物体的RGB-D图像、各所述样本物体的三维模型；

获取各所述RGB-D图像中的所述样本物体的空间六维姿态；

获取各所述RGB-D图像对应的三维点云、所述三维点云中各点的形态信息和前后景分割标签；

利用各所述样本物体的三维模型，获取各所述RGB-D图像的所述三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签；

根据各所述RGB-D图像的所述三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签，计算各所述RGB-D图像的所述三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签；以及

根据所述三维点云中各点的形态信息和前后景分割标签、各所述RGB-D图像的所述三维点云中各点的多个抓取姿态的抓取分数和碰撞标签、各所述RGB-D图像的所述三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签进行训练，得到所述姿态预测网络。

一种物体抓取方法，所述抓取方法包括：

基于上述的用于物体的目标抓取姿态的预测方法确定用于物体的目标抓取姿态；

基于所述目标抓取姿态规划运动轨迹并执行抓取。

一种用于物体的目标抓取姿态的预测装置，所述装置包括：

三维点云获取模块，用于获取物体的三维点云的数据，所述三维点云包括多个初始点；

逐点可抓取性指标获取模块，用于利用预先训练的姿态预测网络，对多个所述初始点进行逐点可抓取性分析，获得多个所述初始点的逐点可抓取性指标，并根据多个所述初始点的逐点可抓取性指标确定第一预设数量的候选点；

逐视角可抓取性指标确定模块，用于利用所述预先训练的姿态预测网络，对所述第一预设数量的候选点进行逐视角可抓取性分析，获得所述第一预设数量的候选点的逐视角可抓取性指标，并根据所述逐视角可抓取性指标确定各所述候选点对应的抓取方向；

目标抓取姿态确定模块，用于利用所述预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，并根据各所述候选点对应的抓取姿态确定用于所述物体的目标抓取姿态。

一种机器人，所述机器人包括存储器、处理器和抓取装置：

所述处理器用于基于上述的用于物体的目标抓取姿态的预测装置确定用于物体的目标抓取姿态；

抓取装置，用于基于所述目标抓取姿态规划运动轨迹并执行抓取。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。

上述用于物体的目标抓取姿态的预测方法、装置、设备和介质，通过利用姿态预测网络对物体的三维点云上的点的逐点可抓取性进行分析，从而可初步确定候选点，这样就获得了有效的局部区域，在有效的局部区域内再进行局部的抓取姿态分析，这样不仅可以节省计算资源开销，还能提高姿态预测的质量。

附图说明

图1为一个实施例中用于物体的目标抓取姿态的预测方法的流程示意图；

图2为图1所示实施例中的步骤S102的流程示意图；

图3为图1所示实施例中的步骤S104的流程示意图；

图4为图1所示实施例中的步骤S106的流程示意图；

图5为一个实施例中物体抓取方法的流程图；

图6为另一个实施例中的物体抓取方法的流程图；

图7为一个实施例中用于物体的目标抓取姿态的预测装置的结构框图；

图8为一个实施例中机器人的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种用于物体的目标抓取姿态的预测方法，以该方法应用于图1中的终端为例进行说明，其中终端包括但不限于：智能机器人、可以发送姿态预测信息给手持设备以及机械臂的终端等。可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，包括以下步骤：

S102：获取物体的三维点云的数据，三维点云包括多个初始点。

具体地，三维点云是通过测量仪器得到的物体外观表面的点数据集合，三维点云是三维图像的一种表现形式，是最为常见和基础的三维模型。

具体地，终端可以直接通过测量仪器得到三维点云的数据，终端也可以通过场景深度图转化得到三维点云的数据。例如，终端由RGB-D相机获取场景图像，通过相机内参数将深度图像转化为三维点云。

在一些实施例中，相机内参数表示为相机在图像坐标系u轴和v轴上的尺度因子f_x和f_y，图像坐标系主点坐标(c_x,c_y)以及图像深度值缩放比例s，用(u，v)表示图像坐标系上某点坐标，d表示对应深度值，(x，y，z)表示其在相机坐标系中的三维坐标，则场景深度图像转换为三维点云的公式为：

在本申请中，初始点是后续用于抓取的候选点预筛选的点，例如，其可以在三维点云中较为均匀的挑选出来，即初始点的点数小于或等于三维点云中的所有点数。在一个实施例中，所得到的三维点云以预设间距，例如0.005m为间距进行体素化采样得到多个初始点。在实际应用中，间距可以按照测试结果进行调整，例如选取目标抓取姿态预测效果最佳的值。可以理解，物体的三维点云可以通过别的数据处理方式获取，其采样选出初始点的方式也可以上述示例不同，甚至在点的总数量较少时也可不进行采样直接将点云中的所有点作为初始点，在此不再赘述。

S104：利用预先训练的姿态预测网络，对多个初始点进行逐点可抓取性分析，获得多个初始点的逐点可抓取性指标，并根据多个初始点的逐点可抓取性指标确定第一预设数量的候选点。

具体地，逐点可抓取性指标是用于表征在对应的初始点上执行抓取成功的综合概率，是由计算每个点上多个候选抓取姿态的正类比例计算得出。在本申请一个实施例中，第i个初始点p_i的可抓取性

可通过以下方式计算：

其中，N表示初始点的数量，V表示采样视角的数量，L表示每个视角上对深度和面内旋转角度均匀采样得到的候选姿态数量，

表示该第i个初始点上从第1到第V个视角上的所有候选姿态的集合(即数量)，

表示第i个点上的第j个视角的第k个候选姿态的质量分数，

表示该抓取姿态在场景中是否发生碰撞。其中，c表示正类样本的分数阈值，其可根据经验、仿真或实验得到。1(cond)函数在条件cond为真时等于1，否则等于0。第k个候选姿态的质量分数的一个示例性计算和获取方法如下：

其中，μ_max和μ_min的值可分别设置为1和0.1。执行是否成功的判断是通过对第k个候选姿态结合物体的三维模型进行静力学分析得到的，而在静力学分析中认为可以执行成功时，可得到夹爪和物体之间允许抓取成功的最小摩擦力，这个值即为μ_k。另外，前述用于指示是否发生碰撞的

也可通过结合物体的三维模型得到。

应当理解，前述逐点可抓取性和候选姿态的质量分数的计算方法(例如，公式)仅为方便解释说明，其并不限定本申请的范围，其他与其原理本质相同的方法同样应认为属于本申请的范围。

其中，在训练姿态预测网络时，即可对不同情况下(即点、视觉和姿态)的抓取质量分数以及逐点可抓取性指标进行训练。而在正式的对用于物体的目标抓取姿态进行预测时，可直接使用训练好的姿态预测网络。姿态预测网络是一种神经网络，用于预测每一个初始点上的逐点可抓取性指标。一种示例性的姿态预测网络的训练方法将在后文介绍。

其中终端通过姿态预测网络首先提取三维点云中每个初始点的形态信息，该形态信息用于表征每个初始点的位置信息、局部形态特征以及和相邻初始点之间的关系信息。然后将所提取的形态信息输入至预先训练的姿态预测网络中以得到每个初始点对应的逐点可抓取性指标。

其中候选点是从逐点可抓性指标符合要求的初始点中进行采样得到的，其用于获取到抓取成功的概率高的初始点以用于后续的抓取姿态的估计，从而减少用于抓取姿态估计的数据量，以提高处理效率。其中根据逐点可抓性指标进行采样的方式可以是例如最远点采样的方式，例如对逐点可抓取性指标大于预先设定的决策指标阈值的初始点进行最远点采样，从而得到第一预设数量的候选点。在另一些实施例中，也可使用其他采样方法对逐点可抓取性指标大于预先设定的决策指标阈值的初始点进行采样，例如均匀采样、随机采样等。其中，第一预设数量为预先设定的数量，其可以为固定的点数或者点数比例，在此不做限定。

S106：利用预先训练的姿态预测网络，对第一预设数量的候选点进行逐视角可抓取性分析，获得第一预设数量的候选点的逐视角可抓取性指标，并根据逐视角可抓取性指标确定各候选点对应的抓取方向。

具体地，逐视角可抓取性指标是用于表征每个初始点上沿不同视角执行抓取动作的成功概率，其可以是由一个视角中候选抓取姿态的正类比例计算得出，与逐点可抓取性类似，在本申请的一个实施例中，点p_i上视角集合{_j}的可抓取性定义为

公式中

等参数可参考上文中关于逐视角可抓取性的计算方法的说明，在此不再赘述。另外，G_i，j表示单个视角下的候选姿态的集合(数量)，当每个视角的候选姿态数量均为L时，其值就等于L。

同样的，上述逐视角可抓取性的计算方法(例如，公式)仅为方便解释说明，其并不限定本申请的范围，其他与其原理本质相同的方法同样应认为属于本申请的范围。

其中，终端仅针对采样得到的第一预设数量的候选点进行逐视角可抓取性分析，以减少处理量，从而终端仅针对该些候选点计算对应的逐视角可抓取性指标，而无需计算所有的初始点的逐视角可抓取性指标。

抓取方向是根据逐视角可抓取性指标计算得到的每一候选点对应的抓取方向。该抓取方向是在每个候选点处执行抓取动作时，所采用的最佳的或建议的抓取视角的方向。其中，针对每个候选点，可以将它的逐视角可抓取性指标满足预设视角选取规则的视角作为该候选点的抓取方向，例如，在一些实施例中可以将逐视角可抓取性指标最大的视角作为候选点的抓取方向；在另一些实施例中，也可结合其他实际需求确定选取规则，在此不做限定。

在其中一个实施例中，需要说明的是，上述逐点可抓取性指标和逐视角可抓性指标可以是通过级联的网络获取。具体地，终端首先通过特征提取网络提取三维点云中每个初始点的形态信息，然后将该形态信息输入至逐点可抓取性指标计算模块得到每个初始点的逐点可抓取性指标并从中选出候选点，终端然后将候选点的形态信息输入至与逐点可抓取性指标计算模块级联的逐视角可抓取性指标计算模块中得到每个候选点的逐视角可抓取性指标，然后再根据候选抓取点和抓取方向来进行抓取姿态的预测，可以大大减少数据的处理量。

S108：利用预先训练的姿态预测网络，基于各候选点对应的抓取方向以及各候选点及所述候选点周围预设范围内的若干三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，并根据各候选点对应的抓取姿态确定用于物体的目标抓取姿态。

具体地，抓取姿态可根据各候选点对应的抓取方向以及各候选点及候选点周围的几何特征确定，其表征适宜对应候选点的抓取参数，例如面内旋转角度、抓取深度以及抓取方向等。目标抓取姿态是执行抓取动作以抓取物体的最佳姿态，例如在哪个点采用哪种抓取姿态进行抓取。

在一个实施例中，姿态预测网络中包括抓取景观图的预测模块和抓取姿态估计模块，可将抓取景观图的预测模块所得到的候选点对应的抓取方向以及各候选点及候选点周围预设范围内的若干三维点云上的点的几何特征直接输入至抓取姿态估计模块以进行抓取姿态的估计。抓取景观图的预测模块包括上文中的级联的逐点可抓取性指标计算模块和逐视角可抓取性指标计算模块。

其中在计算得到各候选点对应的抓取姿态后，终端根据各个候选点的抓取姿态选取最佳的候选点及抓取姿态作为目标抓取姿态。

上述实施例中，通过利用姿态预测网络对物体的三维点云上的点的逐点可抓取性进行分析，从而可初步确定候选点，这样就获得了有效的局部区域，在有效的局部区域内再进行局部的抓取姿态分析，这样不仅可以节省计算资源开销，还能提高姿态预测的质量。

在其中一个实施例中，参见图2所示，图2为图1所示实施例中步骤S104的流程图，在该实施例中，该步骤S104，利用预先训练的姿态预测网络，对多个初始点进行逐点可抓取性分析，获得多个初始点的逐点可抓取性指标，包括：

S1042：利用预先训练的姿态预测网络，对多个初始点进行特征抽取以得到每个初始点的形态信息，其中形态信息用于表征每个初始点的几何特征。

具体地，形态信息是用于表征每个初始点的几何特征，其可以包括初始点的位置信息，局部形态特征以及和相邻初始点之间的关系。其中，点的几何特征为图像识别领域内的常规知识，其可以有不同的具体表现形式，在本申请中不做限定。

终端将三维点云中的初始点输入至预先训练的姿态预测网络中的特征提取模块中，以经过若干次稀疏卷积和稀疏反卷积，得到三维点云的各初始点的形态信息，其中，可选地，该形态信息可以是通过特征向量的方式进行表示。

例如，终端通过明可夫斯基引擎(Minkowski Engine)为基础构建的ResUNet14网络，该网络以大小为N×3的三维点云作为输入，经过若干次稀疏卷积和稀疏反卷积，得到大小为N×C的特征向量，其中C表示点的特征向量维度，N表示三维点云中初始点的数量，可选地，在本实施例中C＝512，在其他的实施例中，C的大小可以根据需要选取，N随输入点云的尺度变化。应当理解，本申请的范围不限于此，也可使用其他方式获取各个初始点的用于表征初始点形态信息的第一特征向量。

S1044：根据每个初始点的形态信息利用预先训练的姿态预测网络，进行逐点可抓取性分析，以得到每个初始点的逐点可抓取性指标。

具体地，终端将所得到的每个初始点的形态信息输入至预先训练的姿态预测网络中的逐点可抓取性指标计算模块以进行逐点可抓性指标分析得到每个初始点的逐点可抓取性指标。其中该逐点可抓取性指标计算模块是分类模块，其可以通过全连接层来表示。

例如，终端将经过特征提取模块所得到的大小为N×C的特征向量输入至全连接层中得到每个初始点的逐点可抓性指标，例如得到大小为N×1的特征向量，该特征向量表征N个初始点中每个点的逐点可抓性指标。

S1046：对初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从初始点中选取得到第一预设数量的候选点。

具体地，采样是根据预设规则以删除掉一些不符合要求的初始点，从而减少后续的数据的处理量，其中采样方式包括但不限于：最远点采样、格点采样以及几何采样等。

终端可以通过采样的方式根据初始点的逐点可抓取性指标从初始点中选取得到第一预设数量的候选点。其中可以是选取逐点可抓取性指标大于阈值的点，其中此处的阈值可以是根据经验得到，且对应逐点可抓取性指标计算和表达形式的不同而不同，在此不做具体的限制。

例如，终端对逐点可抓取性指标大于阈值δ^p的候选点进行最远点采样得到M个候选点及其对应的大小为M×(3+C)的特征向量，其中3表示候选点的坐标，C与上文中的C对应，M＝1024，δ^p＝0.1。在具体实施例中，M和δ^p等参数的值可根据需要选取。

上述实施例中，先根据初始点的形态信息计算得到逐点可抓性指标，这样为后续根据逐点可抓性指标对初始点进行过滤从而筛选得到候选点奠定了基础，进而减少用于抓取姿态的预测的数据量。

在其中一个实施例中，上述用于物体的目标抓取姿态的预测方法还包括：将每个初始点的几何特征作为输入，利用预先训练的姿态预测网络，以得到每个初始点是否位于物体上的信息；以及对初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从初始点中选取得到第一预设数量的候选点，包括：对初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从而从初始点中选取得到位于物体上的第一预设数量的候选点。

具体地，初始点的几何特征可以是初始点的位置信息，终端根据初始点的几何特征还可以得到每个初始点是否位于物体上的信息，由于只有针对位于物体上的点进行抓取才可能将物体抓取成功，因此为了减少用于目标抓取姿态的预测的数据量，终端还可以对三维点云进行前后景分割，从而仅对位于物体上的点进行逐点可抓取性分析和逐视角可抓取性分析，以减少数据处理量。

可选地，在其中一个实施例中，上述全连接层可以同时输出每个初始点的逐点可抓性指标和是否位于物体上的信息，在其他的实施例中，可以通过级联的网络来分别获取到上述信息，例如先通过一个网络来判断初始点是否位于物体上，然后仅将位于物体上的点输入至下一个网络中来计算得到逐点可抓性指标。

本实施例中，终端将每个初始点的形态信息输入至全连接层中以得到一个决策向量，决策向量至少包括三个部分，第一部分预测每个初始点属于目标物体的可能性、第二部分预测每个初始点属于背景的可能性，第三部分为用于预测在这个初始点上执行抓取动作的成功率的逐点可抓取性指标，其中第一部分和第二部分可以合并为一个部分，例如数值越大表示其为目标物体的可能性越大，否则为背景的可能性越大。需要注意，前述第一特征向量和决策向量只是相应数据的一种表现形式，通过其他性质相同的数据处理方式依据三维点云获取各初始点的逐点可抓取性的方法同样应属于本申请的范围内。

其中终端将初始点的形态信息经过大小为C×3的全连接层后得到大小为N×3的逐点可抓取向量，其中2个维度对应前后景分割的正负类分数，1个维度对应在这个初始点上执行抓取动作的成功率，即逐点可抓取性指标。此两个维度的信息即可用于确定位于物体上的候选点。

上述实施例中，终端通过神经网络进行处理得到可以评价点云上属于物体的点，缩小了目标抓取姿态的预测范围，节省了计算资源，同时也为按照执行抓取动作的成功率进一步缩小预测范围做好了准备。

在其中一个实施例中，参见图3所示，图3为图1所示实施例中步骤S106的示意图，该步骤S106，即利用预先训练的姿态预测网络，对第一预设数量的候选点进行逐视角可抓取性分析，获得第一预设数量的候选点的逐视角可抓取性指标，并根据逐视角可抓取性指标确定各候选点对应的抓取方向，包括：

S1062：根据每个候选点的形态信息利用预先训练的姿态预测网络，进行逐视角可抓取性分析，以得到每个候选点的逐视角可抓取性指标。

具体地，在终端采样得到候选点后，获取通过特征提取模块提取的该些候选点的形态信息(例如上文中的C维度的特征和3维的几何特征)，然后将该些候选点的形态特征输入至预先训练的姿态预测网络中进行分类处理以得到每个候选点沿不同视角抓取成功的概率，也即每个候选点的逐视角可抓取性指标。

其中，视角可以是由球面斐波那契网格采样得到，在半径为1的单位球中，第i(i＝1，…，V)个视角在球面上的三维坐标(x_i，y_i，z_i)计算公式为

其中

为黄金分割比例。这样计算采样得到的每个视角的逐视角可抓取性指标，在其中一个实施例中视角的数量可以为300，在其他的实施例中还可以设置为其他值。另外，在其他实施例中也可以选取其他不同的视角表现方式，在此不做限定。

在实际应用中，终端可以将上述特征即M×(3+C)输入至大小为(C,C,V)的多层感知器后得到大小为M×V的向量，其中M为候选点的数量，C为特征的维度，V为视角的数量。

S1064：选取每个候选点的逐视角可抓取性指标满足预设视角选取规则的对应视角作为对应候选点的抓取方向。

具体地，预设视角选取规则可以是选取逐视角可抓取性指标最大的一个视角作为对应候选点的抓取方向，此时沿对应的抓取方向在该候选点上抓取物体时的整体成功率(考虑各种抓取参数)可以认为是最高的。在其他的实施例中，还可以是随机选取，例如当存在至少两个逐视角可抓取性指标均符合预设阈值的视角时，则可以随机选取其中一个。

在另一个实施例中，对于每一个候选点，在逐视角可抓取性指标大于阈值δ^v的视角中以预测分数为概率选择一个视角作为该点上的抓取方向，其中δ^v＝0.5，在其他实施例中，可以选取其他的数值。

上述实施例中，终端还根据逐视角可抓取性指标来对视角进行选择，从而确定了每个候选点的抓取方向，这样后续基于候选点以及该抓取方向来进行预测，提高预测准确性。

在其中一个实施例中，参见图4所示，图4为图1所示实施例中的步骤S108的示意图，在该实施例中，该步骤S108，即利用预先训练的姿态预测网络，基于各候选点对应的抓取方向以及各候选点及候选点周围预设范围内的若干三维点云上的点的几何特征确定各候选点对应的抓取姿态，包括：

S1082：进行点云裁切，在各候选点的周围预设范围内的三维点云上的点中采样得到第二预设数量的参考点，并获取参考点对应的位置和形态信息。

具体地，点云裁切是在每个候选点的周围预设范围内裁剪出一个空间，通过该空间中的三维点云上的点来预测对应的抓取参数组合的抓取分数。

其中，周围预设范围内可以是预设的，例如以候选点为中心，生成一个圆柱空间，以获取该空间内的初始点。其中圆柱空间的圆柱底面半径r＝0.05m，高度h＝0.04m，在其他的实施例中，该周围预设范围可以是其他的数值和形态，不做具体限定。其中为了减少处理量，在该空间内进行采样得到第二预设数量的参考点，其中第二预设数量K＝16，在其他实施例中，K还可以取其他的数值。

可选地，终端在采样得到参考点后，可以获取该参考点的在三维点云中的位置和形态信息，并将位置转换为该空间对应的坐标系的位置，其形态信息不变。例如令该圆柱空间的坐标系的XYZ轴方向分别为o_x，o_y和o_z，抓取方向向量为v＝[v₁，v₂，v₃]^T，则坐标系表示为

最终得到大小为M×K×(3+C)的特征向量。

S1084：对每个候选点，获取多个预设的面内旋转角度和抓取深度，将多个预设的面内旋转角度和抓取深度分别组合，并将候选点的参考点的形态信息作为输入，利用预先训练的姿态预测网络，针对候选点预测每个组合的抓取分数，并选取抓取分数满足预设抓取规则的面内旋转角度和抓取深度的组合作为该候选点对应的抓取姿态。

具体地，面内旋转角度是垂直于视角方向平面内的旋转，抓取深度是指沿视角方向前进或后退的值。其中对于每个候选点，终端获取到多个预设的面内旋转角度和抓取深度，实际应用中，终端可以通过裁切得到的点云，即上述第二预设数量的参考点的位置和形态信息进行处理得到候选抓取姿态的面内旋转角度的范围和抓取深度的范围，具体地，终端将上述得到的参考点的位置和形态信息输入至神经网络中进行处理，例如通过多层感知器、全局最大池化层以及多层感知器来依次进行处理后得到抓取姿态的参数。

终端将多个预设的面内旋转角度和抓取深度分别组合，例如将面内旋转角度和抓取深度分别等分为A和D个离散类别，不同角度和深度依次组合，得到共计A×D个不同类别，网络为每个类别分别预测抓取的分数和宽度。其中可选地，A＝12，D＝4，角度类别间隔为15°，深度值分别为0.01m，0.02m，0.03m，0.04m，在其他的实施例中，还可以采用其他的数值。

终端将候选点的参考点的形态信息输入至姿态预测网络中，以预测所得到的多个预设的面内旋转角度和抓取深度的组合对应的抓取分数，从而最后终端选择抓取分数满足预设抓取规则的面内旋转角度和抓取深度的组合作为该候选点对应的抓取姿态，其中，终端可以选择抓取分数最大的面内旋转角度和抓取深度的组合作为该候选点对应的抓取姿态，当存在多个抓取分数最大的面内旋转角度和抓取深度的组合时，则可以随机选取其中一个等，在此不做具体限定。

实际应用中，该姿态预测网络的处理过程是，多层感知器(例如大小为(512，512，256))将上述裁切点云所得到的候选点的形态信息，也即大小为M×K×(3+C)的特征向量进行变换，处理后得到大小为M×K×256的特征向量，经过全局最大池化层得到大小为M×256的特征向量，其代表每个抓取姿态的特征，经大小为(256，256，A×D×2)的多层感知器处理得到抓取分数，即上述面内旋转角度和抓取深度的组合对应的，选择抓取分数最高的组合生成最后的目标抓取姿态。

其中，第i个抓取姿态g_i的分数定义为

其中μ_i表示g_i能被成功执行所对应的最低摩擦系数。关于质量分数的具体解释在前文中已有说明，在此不再赘述。

在其中一个实施例中，从所有候选点中，选取对应的抓取分数满足抓取姿态选取规则的所述抓取姿态，将该抓取姿态对应的候选点作为物体的抓取点，将该抓取姿态作为物体的目标抓取姿态。

本申请还涉及一种姿态预测网络的训练方式。在其中一个实施例中，姿态预测网络的训练方式包括：获取训练样本数据，训练样本数据包括多个场景下的多个样本物体的RGB-D图像、各样本物体的三维模型；获取各RGB-D图像中的样本物体的空间六维姿态；获取各RGB-D图像对应的三维点云、三维点云中各点的形态信息和前后景分割标签；利用各样本物体的三维模型，获取各RGB-D图像的三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签；根据各RGB-D图像的三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签，计算各RGB-D图像的三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签；以及根据三维点云中各点的形态信息和前后景分割标签、各RGB-D图像的三维点云中各点的多个抓取姿态的抓取分数和碰撞标签、各RGB-D图像的三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签进行训练，得到姿态预测网络。

具体地，终端将场景深度图转化为三维点云作为训练数据，训练姿态预测网络，训练需要的标签包括：三维点云中各点的形态信息和前后景分割标签、三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签、三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签、三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签。

例如，终端对待预测姿态为抓取的姿态预测网络进行训练，终端选择公开的数据集中的一部分进行训练，例如，将Graspnet-1Billion数据集(关于该数据集的解释说明可参考链接https://blog.csdn.net/qq_40520596/article/details/107751346)中用RealSense和Kinect两种相机采集的场景深度图转化为三维点云，总共有25600张RGB-D。终端进行训练的姿态为抓取，终端进行训练需要的标签包括：三维点云中各点的形态信息和前后景分割标签、三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签、三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签、三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签。

终端采用softmax函数实现前后景分割的损失函数，采用smooth-l₁函数实现逐点可抓取性损失函数，逐视角可抓取性损失函数、抓取分数损失函数和夹爪宽度损失函数。损失函数公式为L＝L_o+α(L_p+λL_v)+β(L_s+L_w)，其中L_o表示前后景分割损失函数，L_p、L_v、L_s和L_w分别表示逐点可抓取性损失函数、逐视角可抓取性损失函数、抓取分数损失函数和夹爪宽度损失函数。公式中α＝10，β＝10，λ＝10。在具体实施例中，公式中的参数可根据实际需要选取/修改。

为减少标注成本，场景中的候选抓取姿态标注分成两步：第一步，在单个物体模型上对抓取点、抓取视角、面内旋转角度和抓取深度进行紧密均匀采样，得到大量候选抓取姿态及其质量分数；第二步，结合物体在空间中的6D姿态(包括平移量和旋转量)，将候选抓取姿态投影到场景中，并进行碰撞检测。

在一个实施例中，如图5所示，提供了一种物体抓取方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S502：基于上述任意一个实施例中的用于物体的目标抓取姿态的预测方法确定用于物体的目标抓取姿态。

具体地，终端按照上述任意一个实施例中的用于物体的目标抓取姿态的预测方法预测得到用于物体的目标抓取姿态。

S504：基于目标抓取姿态规划运动轨迹并执行抓取。

具体地，终端按照目标抓取姿态抓取物体并放到指定位置。终端检测场景中是否仍存在物体。当场景中还存在物体时，终端重新预测目标抓取姿态，基于新的目标抓取姿态重新规划运动轨迹并执行抓取。当场景中不存在物体时，终端结束操作。

终端(机械臂)规划运动轨迹，抓取物体并放到指定位置。终端检测场景中是否存在其他物体，如果存在其他物体，继续执行抓取，如果不存在其他物体，程序结束。

具体地，参见图6所示，图6为另一个实施例中的物体抓取方法的流程图，在该实施例中，终端通过RGB-D相机获取场景深度图像，通过相机内参数将场景深度图像转换为三维点云，具体的转换方式可以参见上文，在此不再赘述。

终端将三维点云数据输入姿态预测网络中，先通过姿态预测网络中的特征提取模块提取三维点云中各个初始点的形态信息，可选地，在实际应用中可以通过特征向量表示，例如得到大小为N×(3+C)的特征向量，其中3表示点的三维坐标，C表示点的特征向量维度，N表示点的数量。

终端然后将所得到的各个初始点的形态信息输入至逐点可抓取性指标计算模块中进行逐点可抓取性指标的分析得到每个初始点对应的逐点可抓取性指标。可选地，在实际应用中，终端将大小为N×(3+C)的特征向量输入至全连接层后得到大小为N×3的逐点可抓取指标以及各个初始点是否位于物体上的信息。

终端对逐点可抓取性指标大于δ^p的初始点进行最远点采样得到M个候选点，并获取其对应的大小为M×(3+C)的特征向量，其中3表示点的坐标，M＝1024，δ^p＝0.1。

然后终端将采样得到的候选点以及其对应的形态信息输入至逐视角可抓取性指标计算模块以得到每个候选点的逐视角可抓取性指标。可选地，在实际应用中，终端通过神经网络中大小为(C，C，V)的多层感知器对候选点的特征向量，即上述大小为M×(3+C)的特征向量进行处理，得到大小为M×V的视角效果向量，其表示每个候选点的逐视角可抓取指标。

终端从逐视角可抓取指标大于阈值δ^v的视角中选择逐视角效果指标最大的视角作为该点上的抓取方向。

终端根据每个候选点的坐标为每个候选点生成一个圆柱空间，圆柱底面半径r＝0.05m，高度h＝0.04m，旋转方向由预测的抓取方向决定，在每个候选点的圆柱空间覆盖的点中采样得到K＝16个参考点及其对应的特征向量。

终端令圆柱空间坐标系的XYZ轴方向分别为o_x，o_y和o_z，姿态方向向量为v＝[v₁，v₂，v₃]^T，则坐标系表示为：

最终得到大小为M×K×(3+C)的特征向量。其中M为候选点的数量，K为参考点的数量。特征向量中的3为参考点在圆柱空间坐标系下的坐标。

终端通过大小为(512，512，256)的多层感知器在上述特征向量的第3个维度(特征维度)进行变换，处理后得到大小为M×K×256的特征向量，经过全局最大池化层得到大小为M×256的特征向量。

终端将旋转角度和深度分别等分为A和D个离散类别，不同的旋转角度和深度依次组合，得到共计A×D个不同类别，其中A＝12，D＝4，角度类别间隔为15°，深度值分别为0.01m，0.02m，0.03m，0.04m。终端可以将抓取姿态效果指标以及非离散参数分别作为特征向量的一个维度。

终端通过多层感知器处理上述特征向量，得到抓取姿态参数以及抓取姿态参数对应的抓取分数。

终端通过大小为(256，256，A×D×2)的多层感知器处理得到抓取姿态参数，选择抓取分数最高的类别生成目标抓取姿态。

这样终端根据目标抓取姿态来进行机械臂运动轨迹规划，然后根据该运动轨迹规划来抓取物体并放在指定位置，且继续判断场景中是否还存在物体，若不存在则结束，若存在，则继续采集场景深度图片以进行处理。

应该理解的是，虽然图1-图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种用于物体的目标抓取姿态的预测装置，包括：三维点云获取模块701、逐点可抓取性指标获取模块702、逐视角可抓取性指标确定模块703和目标抓取姿态确定模块704，其中：

三维点云获取模块701，用于获取物体的三维点云的数据，三维点云包括多个初始点；

逐点可抓取性指标获取模块702，用于利用预先训练的姿态预测网络，对多个初始点进行逐点可抓取性分析，获得多个初始点的逐点可抓取性指标，并根据多个初始点的逐点可抓取性指标确定第一预设数量的候选点；

逐视角可抓取性指标确定模块703，用于利用预先训练的姿态预测网络，对第一预设数量的候选点进行逐视角可抓取性分析，获得第一预设数量的候选点的逐视角可抓取性指标，并根据逐视角可抓取性指标确定各候选点对应的抓取方向；

目标抓取姿态确定模块704，用于利用预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，并根据各候选点对应的抓取姿态确定用于物体的目标抓取姿态。

在其中一个实施例中，上述的逐点可抓取性指标获取模块702包括：

特征提取单元，用于利用预先训练的姿态预测网络，对多个初始点进行特征抽取以得到每个初始点的形态信息，其中形态信息用于表征每个初始点几何特征；以及

第一预测单元，用于根据每个初始点的形态信息利用预先训练的姿态预测网络，进行逐点可抓取性分析，以得到每个初始点的逐点可抓取性指标。

在其中一个实施例中，上述的逐点可抓取性指标获取模块702还包括：

采样单元，用于对初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从初始点中选取得到第一预设数量的候选点。

位置判断单元，用于将每个初始点的几何特征作为输入，利用预先训练的姿态预测网络，以得到每个初始点是否位于物体上的信息；以及

上述采样单元用于对初始点的逐点可抓取性指标大于阈值的点按照预设规则进行采样，从而从初始点中选取得到位于物体上的第一预设数量的候选点。

在其中一个实施例中，上述的逐视角可抓取性指标确定模块703包括：

逐视角可抓取性指标获取单元，用于根据每个候选点的形态信息利用预先训练的姿态预测网络，进行逐视角可抓取性分析，以得到每个候选点的逐视角可抓取性指标；

抓取方向确定单元，用于选取每个候选点的逐视角可抓取性指标满足预设视角选取规则的对应视角作为对应候选点的抓取方向。

在其中一个实施例中，上述的目标抓取姿态确定模块704包括：

裁切单元，用于进行点云裁切，在各候选点的周围预设范围内的初始点中采样得到第二预设数量的参考点，并获取参考点对应的位置和形态信息；

模型处理单元，用于对每个候选点，获取多个预设的面内旋转角度和抓取深度，将多个预设的面内旋转角度和抓取深度分别组合，并将候选点的参考点的形态信息作为输入，利用预先训练的姿态预测网络，针对候选点预测每个组合的抓取分数，并选取抓取分数满足预设抓取规则的面内旋转角度和抓取深度的组合作为该候选点对应的抓取姿态。

在其中一个实施例中，上述的目标抓取姿态确定模块704还用于从所有所述候选点中，选取对应的所述抓取分数满足抓取姿态选取规则的所述抓取姿态，将所述抓取姿态对应的所述候选点作为物体的抓取点，将所述抓取姿态作为所述物体的目标抓取姿态。

在其中一个实施例中，上述的用于物体的目标抓取姿态的预测装置包括：

训练样本获取模块，用于获取训练样本数据，训练样本数据包括多个场景下的多个样本物体的RGB-D图像、各样本物体的三维模型；

空间六维姿态获取模块，用于获取各RGB-D图像中的样本物体的空间六维姿态；

标签获取模块，用于获取各RGB-D图像对应的三维点云、三维点云中各点的形态信息和前后景分割标签；利用各样本物体的三维模型，获取各RGB-D图像的三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签；根据各RGB-D图像的三维点云中各点的多个抓取姿态的抓取分数以及碰撞标签，计算各RGB-D图像的三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签；以及

训练模块，用于根据三维点云中各点的形态信息和前后景分割标签、各RGB-D图像的三维点云中各点的多个抓取姿态的抓取分数和碰撞标签、各RGB-D图像的三维点云中各点的逐点可抓取性标签和逐视角可抓取性标签进行训练，得到姿态预测网络。

在一个实施例中，如图8所示，提供了一种物体抓取装置，包括：目标抓取姿态获取模块801和抓取模块802，其中：

目标抓取姿态获取模块801，用于基于上述任意一个实施例中的用于物体的目标抓取姿态的预测方法确定用于物体的目标抓取姿态；

抓取模块802，用于基于目标抓取姿态规划运动轨迹并执行抓取。

关于用于物体的目标抓取姿态的预测装置和物体抓取装置的具体限定可以参见上文中对于用于物体的目标抓取姿态的预测方法和物体抓取方法的限定，在此不再赘述。上述用于物体的目标抓取姿态的预测装置和物体抓取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用于物体的目标抓取姿态的预测方法和物体抓取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图9中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用于物体的目标抓取姿态的预测方法，其特征在于，所述方法包括：

获取物体外观表面的三维点云的数据，所述三维点云包括多个初始点；

利用所述预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，并根据各所述候选点对应的抓取姿态确定用于所述物体的目标抓取姿态；

所述利用所述预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练的姿态预测网络，对多个所述初始点进行逐点可抓取性分析，获得多个所述初始点的逐点可抓取性指标，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据多个所述初始点的逐点可抓取性指标确定第一预设数量的候选点，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述利用所述预先训练的姿态预测网络，对所述第一预设数量的候选点进行逐视角可抓取性分析，获得所述第一预设数量的候选点的逐视角可抓取性指标，并根据所述逐视角可抓取性指标确定各所述候选点对应的抓取方向，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各所述候选点对应的抓取姿态确定用于所述物体的目标抓取姿态，包括：

7.根据权利要求1所述的方法，其特征在于，所述姿态预测网络的训练方式包括：

获取各所述RGB-D图像中的所述样本物体的空间六维姿态；

8.一种物体抓取方法，其特征在于，所述抓取方法包括：

基于权利要求1至7任意一项所述的用于物体的目标抓取姿态的预测方法确定用于物体的目标抓取姿态；

基于所述目标抓取姿态规划运动轨迹并执行抓取。

9.一种用于物体的目标抓取姿态的预测装置，其特征在于，所述装置包括：

三维点云获取模块，用于获取物体外观表面的三维点云的数据，所述三维点云包括多个初始点；

目标抓取姿态确定模块，用于利用所述预先训练的姿态预测网络，基于各所述候选点对应的所述抓取方向以及各所述候选点及所述候选点周围预设范围内的若干所述三维点云上的点的几何特征确定各所述候选点对应的抓取姿态，并根据各所述候选点对应的抓取姿态确定用于所述物体的目标抓取姿态；

所述目标抓取姿态确定模块还用于进行点云裁切，在各所述候选点的所述周围预设范围内的所述初始点中采样得到第二预设数量的参考点，并获取所述参考点对应的位置和形态信息；对每个所述候选点，获取多个预设的面内旋转角度和抓取深度，将所述多个预设的面内旋转角度和抓取深度分别组合，并将所述候选点的所述参考点的所述形态信息作为输入，利用所述预先训练的姿态预测网络，针对所述候选点预测每个组合的抓取分数，并选取抓取分数满足预设抓取规则的面内旋转角度和抓取深度的组合作为所述候选点对应的所述抓取姿态。

10.一种机器人，其特征在于，所述机器人包括存储器、处理器和抓取装置：

所述处理器用于基于权利要求9所述的用于物体的目标抓取姿态的预测装置确定用于物体的目标抓取姿态；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7或8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7或8中任一项所述的方法的步骤。