CN114820802A

CN114820802A - 高自由度灵巧手抓取规划方法、装置和计算机设备

Info

Publication number: CN114820802A
Application number: CN202210763787.1A
Authority: CN
Inventors: 黄惠; 徐凯; 佘奇晋; 胡瑞珍; 许聚展
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-07-29

Abstract

本申请涉及一种高自由度灵巧手抓取规划方法、装置和计算机设备。该方法包括：根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集；通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，预测从当前帧到下一帧的抓手姿态变化数据；根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复预测抓手姿态数据的步骤，直至得到目标帧抓手姿态数据；根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。采用本方法能够提升高自由度灵巧手抓取规划准确性。

Description

高自由度灵巧手抓取规划方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种高自由度灵巧手抓取规划方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

抓取是人类的一项基本能力，是人类使用工具完成各种复杂操作的基础。使用人工智能方法让机器人具备抓取物体的能力是让机器人替代人类工作的第一步。传统的灵巧手抓取规划方式，是针对给定物体直接生成最终抓取姿态。

然而在通过具有复杂几何结构，且具有高自由度的灵巧手进行物体抓取时，传统的灵巧手抓取规划方式可能导致生成的抓取轨迹无法到达物体。因此，如何提升高自由度灵巧手抓取规划的准确性，成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升高自由度灵巧手抓取规划准确性的高自由度灵巧手抓取规划方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种高自由度灵巧手抓取规划方法。该方法包括：

获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据；

根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据；

根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集；

通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据；

根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住待抓取物体，得到目标帧抓手姿态数据；

根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。

在其中一个实施例中，根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集包括：

根据当前帧抓手点云数据确定目标点云区域，将目标点云区域离散为多个三维网格；

对各三维网格进行采样，得到多个采样点；

计算各采样点到当前帧抓手点云数据的抓手距离，以及各采样点到场景点云数据的场景距离；

根据各采样点对应的抓手距离以及场景距离，计算当前场景的交互二分曲面的点集。

在其中一个实施例中，根据各采样点对应的抓手距离以及场景距离，计算当前场景的交互二分曲面的点集包括：

计算各采样点对应的抓手距离与相应场景距离之间的差值，得到各采样点对应的距离差；

计算各采样点对应的距离差的乘积；

当乘积小于或者等于零时，将对应的采样点确定为零值临界面上的点；

在零值临界面上的点附近沿着零值临界面进行采样，直至零值临界面扩展完整，得到零值临界面的点集，将零值临界面的点集确定为当前场景的交互二分曲面的点集。

在其中一个实施例中，在对各三维网格进行采样，得到多个采样点之后，方法还包括：

在当前帧抓手点云数据中确定各采样点对应的最近抓手点，以及在场景点云数据中确定各采样点对应的最近场景点；

根据各采样点与对应的最近抓手点、最近场景点，以及预设点偏移计算关系，计算各采样点对应的偏移数据；

根据偏移数据对相应采样点的位置进行调整。

在其中一个实施例中，在获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据之前，方法还包括：

获取第一样本数据；

调用待训练的抓取模型；待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络；

根据第一样本数据对待训练的策略网络进行训练，得到第一抓取轨迹，根据第一抓取轨迹以及第一样本数据计算待训练的策略网络的奖励损失值；

根据第一样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练，输出奖励向量，根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取模型的时间差分损失值；

根据时间差分损失值调整待训练的抓取模型的模型参数，直至计算的时间差分损失值达到训练停止条件，将当前的策略网络确定为预先训练的抓取策略模型。

在其中一个实施例中，该方法还包括：

获取抓手抓住样本物体时的样本抓取姿态；

根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态；

根据多帧样本抓手姿态生成第二样本数据；

在第一样本数据中以及第二样本数据中采样得到目标样本数据，目标样本数据用于对待训练的抓取模型进行训练。

第二方面，本申请还提供了一种高自由度灵巧手抓取规划装置。该装置包括：

数据获取模块，用于获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据；

抓手点云还原模块，用于根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据；

曲面计算模块，用于根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集；

抓手姿态预测模块，用于通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据；根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住待抓取物体，得到目标帧抓手姿态数据；

抓取轨迹生成模块，用于根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。

第三方面，本申请还提供了一种计算机设备。计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述高自由度灵巧手抓取规划方法、装置、计算机设备、存储介质和计算机程序产品，根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集，通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复上述抓手姿态数据预测步骤，进而生成待抓取物体对应的物体抓取轨迹。在使用具有复杂几何结构的抓手时，使用交互二分曲面作为抓取状态的表示，能够捕获当前帧抓手点云数据和场景点云数据的空间分界信息，从交互二分曲面上可以抽取出有关交互的几何和拓扑信息等丰富信息，基于上述表示结合预先训练的抓取策略模型，有效提高了抓手接近抓取的准确性，从而提高了高自由度灵巧手抓取规划的准确性。

附图说明

图1为一个实施例中高自由度灵巧手抓取规划方法的应用环境图；

图2为一个实施例中高自由度灵巧手抓取规划方法的流程示意图；

图3为一个实施例中抓取策略模型的网络结构示意图；

图4为一个实施例中曲面特征数据中点P的特征信息示意图；

图5为一个实施例中高自由度灵巧手抓取规划方法的迭代过程；

图6为一个实施例中根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集步骤的流程示意图；

图7为一个实施例中交互二分曲面的示意图；

图8为另一个实施例中高自由度灵巧手抓取规划方法的流程示意图；

图9为一个实施例中第二样本数据生成过程的示意图；

图10为一个实施例中高自由度灵巧手抓取规划方法的抓取过程可视化结果示意图；

图11为一个实施例中高自由度灵巧手抓取规划方法对同一物体从不同初始姿态出发的最终抓取结果示意图；

图12为一个实施例中高自由度灵巧手抓取规划装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的高自由度灵巧手抓取规划方法，可以应用于如图1所示的应用环境中。其中，三维扫描设备102通过网络与服务器106进行通信。预先安装于抓手上的姿态传感器104通过网络与服务器106进行通信。数据存储系统可以存储服务器106需要处理的数据。数据存储系统可以集成在服务器106上，也可以放在云上或其他网络服务器上。三维扫描设备102用于采集包含待抓取物体108的当前场景对应的场景点云数据，将采集的场景点云数据发送至服务器106。抓手上的姿态传感器104用于采集当前帧抓手姿态数据，将采集的当前帧抓手姿态数据发送至服务器106。服务器根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据，根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。从而通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。进而根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住待抓取物体，得到目标帧抓手姿态数据，根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。其中，三维扫描设备102可以是激光扫描设备、基于深度相机的三维扫描系统等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种高自由度灵巧手抓取规划方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据。

其中，场景点云数据是指包括当前物体抓取场景的点云数据。当前帧抓手姿态数据是指抓手手掌在当前帧与待抓取物体之间的相对朝向。

在高自由度灵巧手抓取规划过程中，服务器可以获取三维扫描设备采集的包含待抓取物体的当前场景对应的场景点云数据，以及抓手上的姿态传感器采集的当前帧抓手姿态数据。待抓取物体可以是抓手能够握住的物体，例如，苹果、水杯等。场景点云数据是指分割后的场景点云数据，包括待抓取物体点云数据和待抓取物体所在的平面。抓手是指灵巧手，可以是具有类人设计的机械抓手。机械抓手的主要特点是相比吸盘或平行夹具有更高的自由度。自由度在机器人领域一般是指机器人能够被独立控制的关节个数，一般自由度越高，机器人的灵活性越强。高自由度灵巧手可以是自由度大于预设的自由度阈值的灵巧手，例如，自由度阈值可以是接近人手的6自由度，包括五个手指和手掌分别对应的自由度。

步骤204，根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。

其中，预设抓手结构文件是指用于描述抓手结构的格式文件。

服务器的数据存储系统中存储有预设抓手结构文件。例如，预设抓手结构文件可以是抓手的URDF（Unified Robot Description Format，统一机器人描述格式）文件，URDF文件是一种基于XML规范、用于描述机器人结构的格式文件。抓手的URDF文件中描述了抓手的一系列关节与连杆的相对关系、惯性属性、几何模型和碰撞模型。从而服务器可以根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。

步骤206，根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。

其中，交互二分曲面是指两个接近的三维几何对象，即抓手以及待抓取物体之间的交互曲面。

传统的交互二分曲面计算，需要从维诺图的计算上抽取，而计算维诺图的时间开销非常大。为了在性能和准确性上取得一个平衡，服务器可以将抓手所在的周围点云区域进行离散化处理，对离散化处理后的点云数据进行采样。从而根据采样后的点分别与当前帧抓手点云数据以及场景点云数据之间的距离关系，计算当前场景的交互二分曲面的点集。交互二分曲面的点集是指到当前帧抓手点云数据以及场景点云数据距离相等的点构成的集合。对于交互二分曲面上的点有：

（1）

其中，P _IBS表示交互二分曲面上的点，A 和 B 分别表示当前帧抓手点云数据和场景点云数据，d(·，·) 为距离函数。通过在抓手所在的周围点云区域中采样点，并计算点到当前帧抓手点云数据和场景点云数据距离之差。如果该点到当前帧抓手点云数据和场景点云数据的距离相等，那么这个点就是交互二分曲面上的点。

在本实施例中使用交互二分曲面作为抓取状态的表示，能够捕获当前帧抓手点云数据和场景点云数据的空间分界信息，从交互二分曲面上可以抽取出有关交互的几何和拓扑信息，丰富且纯粹的信息有利于提升学习算法的效率。

步骤208，通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。

其中，抓手姿态变化数据是指当前帧到下一帧的抓手姿态变化量。

服务器中存储有预先训练的抓取策略模型。抓取策略模型是通过大量的样本点云数据进行训练得到的。具体地，服务器调用预先训练的抓取策略模型，将交互二分曲面的点集以及当前帧抓手姿态数据输入至预先训练的抓取策略模型中，通过抓取策略模型分别对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，得到点集对应的曲面特征数据以及当前帧抓手姿态数据对应的抓手姿态特征数据。将曲面特征数据以及抓手姿态特征数据进行拼接，得到拼接特征向量。进而根据拼接特征向量进行预测运算，输出当前帧到下一帧的抓手姿态变化数据。

进一步地，抓取策略模型可以包括全局编码器、局部编码器和三个全连接网络。为了便于区分，将三个全连接网络化命名为第一全连接网络、第二全连接网络和第三全连接网络。曲面特征数据包括全局特征以及局部特征。通过全局编码器对交互二分曲面的点集进行特征提取，得到全局特征。通过局部编码器对交互二分曲面的点集进行特征提取，得到局部特征。通过第一全连接网络对当前帧抓手姿态数据进行特征提取，得到抓手姿态特征数据。进而将全局特征、局部特征以及抓手姿态特征数据进行拼接，得到拼接特征向量。进而将拼接特征向量传输至后续的第二全连接网络和第三全连接网络进行预测运算，第二全连接网络输出当前帧到下一帧的抓手姿态变化数据。第三全连接网络用于在预测完成时，输出终止信号。

在一个实施例中，如图3所示，为抓取策略模型的网络结构示意图。其中，x表示交互二分曲面的点集，y表示抓手姿态特征数据，全连接网络可以是MLP，z表示当前帧到下一帧的抓手姿态变化数据。

可选地，对于交互二分曲面上的每个点，它的特征除了自身坐标外，还其附带了一些交互信息。因此，曲面特征数据可以包括交互二分曲面的点集中各点的特征信息，各点的特征信息可以包括点坐标以及点的交互特征。点的交互特征可以包括到场景点云数据中最近点的距离

、指向场景点云数据中最近点的单位方向向量

、对应当前帧抓手点云数据中最近点的是否为前景（待抓取物体）

、到当前帧抓手点云数据中最近点的距离

、指向当前帧抓手点云数据中最近点的单位方向向量

、one-hot编码的对应当前帧抓手点云数据最近点的所属部分类别

以及用于表示对应当前帧抓手点云数据最近点在抓手外表面还是内表面的值

。其中，

分别表示掌面、小指，无名指、中指、食指和大拇指，这个类别信息有助于抓取策略网络的学习，并且在之后的全局编码器和局部编码器中被应用。

可选地，如图4所示，为曲面特征数据中点P的特征信息示意图。其中，P（x,y,z）表示点P的坐标，P _s表示点P到场景点云数据中的最近点，P _g表示点P到当前帧抓手点云数据中的最近点，

表示点P到场景点云数据中最近点P _s的距离，

表示点P指向场景点云数据中最近点P _s的单位方向向量，

表示点P对应当前帧抓手点云数据中最近点P _s的是前景（目标物体），

表示点P到当前帧抓手点云数据中最近点P _g的距离，

表示点P指向当前帧抓手点云数据中最近点P _g的单位方向向量，

表示点P _g在one-hot编码后所属部分类别为小指，

表示点P _g的法向量

与垂直手掌面向上方向

的点积。

步骤210，根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住待抓取物体，得到目标帧抓手姿态数据。

步骤212，根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。

服务器根据抓手策略网络输出的当前帧到下一帧的抓手姿态变化数据，将当前帧抓手姿态数据更新为下一帧抓手姿态数据。重复上述通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据的步骤，直至得到抓手抓住待抓取物体时的目标帧抓手姿态数据。

将当前帧抓手点云数据到目标帧抓手姿态数据之间的多帧抓手姿态数据按照时间顺序进行排列，得到整个动态物体抓取过程的姿态序列，即得到待抓取物体对应的物体抓取轨迹。

在一个实施例中，如图5所示，为高自由度灵巧手抓取规划方法的一个迭代过程。其中，（1）获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据，根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据的过程。（2）根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。（3）通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取的过程。（4）根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据，根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据。（5）表示重复（1）至（4）的步骤。

上述高自由度灵巧手抓取规划方法中，根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集，通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复上述抓手姿态数据预测步骤，进而生成待抓取物体对应的物体抓取轨迹。在使用具有复杂几何结构的抓手时，使用交互二分曲面作为抓取状态的表示，能够捕获当前帧抓手点云数据和场景点云数据的空间分界信息，从交互二分曲面上可以抽取出有关交互的几何和拓扑信息等丰富信息，基于上述表示结合预先训练的抓取策略模型，有效提高了抓手接近抓取的准确性，从而提高了高自由度灵巧手抓取规划的准确性。

在一个实施例中，如图6所示，根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集包括：

步骤602，根据当前帧抓手点云数据确定目标点云区域，将目标点云区域离散为多个三维网格。

步骤604，对各三维网格进行采样，得到多个采样点。

步骤606，计算各采样点到当前帧抓手点云数据的抓手距离，以及各采样点到场景点云数据的场景距离。

步骤608，根据各采样点对应的抓手距离以及场景距离，计算当前场景的交互二分曲面的点集。

服务器可以根据当前帧抓手点云数据确定抓手手掌中心的点坐标，将以该点坐标为圆心，预设长度r为半径的球体点云区域确定为目标点云区域。将目标点云区域离散为多个三维网格。例如，可以将目标点云区域离散为K³个方格。对于各三维网格，可以根据预设采样分辨率在网格的中心进行采样，得到多个采样点。对于各采样点，服务器计算该采样点到当前帧抓手点云数据的抓手距离

，以及该采样点到场景点云数据的场景距离

，进而根据各采样点对应的抓手距离以及场景距离，计算当前场景的交互二分曲面的点集。

可选地，为了加速抓手距离以及场景距离的计算过程，可以对当前帧抓手点云数据和场景点云数据分别构建KD（K-Dimensional，K维）树，将当前帧抓手点云数据和场景点云数据分别组织成KD树形式，从而计算各采样点到当前帧抓手点云数据的抓手距离，以及该采样点到场景点云数据的场景距离。可以使得最近点查询的时间复杂度从朴素枚举算法的O(n)降低到O(n^2/3)。构建K-D树的时间复杂度为O(nlog₂n)，这个开销在采样点足够多的点的时候可以忽略不计。

在本实施例的一种可选方式中，根据各采样点对应的抓手距离以及场景距离，计算当前场景的交互二分曲面的点集包括：计算各采样点对应的抓手距离与相应场景距离之间的差值，得到各采样点对应的距离差；计算各采样点对应的距离差的乘积；当乘积小于或者等于零时，将对应的采样点确定为零值临界面上的点；在零值临界面上的点附近沿着零值临界面进行采样，直至零值临界面扩展完整，得到零值临界面的点集，将零值临界面的点集确定为当前场景的交互二分曲面的点集。

服务器计算各采样点对应的抓手距离与相应的场景距离的差值，得到各采样点对应的距离差，记距离差

。如果

，则该采样点为交互二分曲面上的点。由于在三维空间内，基于体素的采样会带来很大的开销，仅仅限制采样范围依旧不能满足性能需要，可以将零值临界面的点集确定为当前场景的交互二分曲面的点集。

具体地，服务器可以把各采样点的距离差

存储到三维网格上，并且抽取出零值临界面上的点。如果一个点p，存在邻居q满足，

，那么这个点就是零值临界面上的点。服务器可以计算各采样点对应的距离差的乘积，当乘积小于或者等于零时，将这两个采样点确定为零值临界面上的点。如图7所示，为交互二分曲面的示意图。其中，零值临界面上的三维网格被交互二分曲面划分为了两个部分，即距离场景更近的网格（标为C）和距离抓手更近的网格（标为D）。其中，702和704的部分就是零值临界面上的点，也是最靠近精确交互二分曲面的点。

在确定的零值临界面上的点附近沿着零值临界面进行采样，直到不存在没有被验证的可能零值零界面点在现有零值零界面的区域内，或者到达预定的球形采样边界时，零值临界面扩展完整，从而得到零值临界面的点集，将零值临界面的点集确定为当前场景的交互二分曲面的点集。能够提高交互二分曲面的计算效率。

在本实施例中，基于采样的交互二分曲面计算方法，在空间上限制了计算范围，能够实时计算交互二分曲面，具有更佳的计算效率和并行性能，能够提升交互二分曲面的计算效率。

在一个实施例中，在对各三维网格进行采样，得到多个采样点之后，上述方法还包括：在当前帧抓手点云数据中确定各采样点对应的最近抓手点，以及在场景点云数据中确定各采样点对应的最近场景点；根据各采样点与对应的最近抓手点、最近场景点，以及预设点偏移计算关系，计算各采样点对应的偏移数据；根据偏移数据对相应采样点的位置进行调整。

由于采样的点是三维网格的中心，近似误差高度受到三维网格的预设采样分辨率的影响。因此，可以采用一种迭代优化的方法来进一步调整采样点的位置，使其更加靠近精确的交互二分曲面。具体地，服务器可以当前帧抓手点云数据中确定各采样点对应的最近抓手点，以及在场景点云数据中确定各采样点对应的最近场景点。获取预设点偏移计算关系，预设点偏移计算关系为各采样点的误差计算公式。从而根据各采样点与对应的最近抓手点、最近场景点以及预设点偏移计算关系，计算各采样点对应的偏移数据。进而根据偏移数据对相应采样点的位置进行调整。

例如，对于采样点p，我们首先找出它在场景点云数据中的最近场景点p _s和当前帧抓手点云数据中的最近抓手点p _g。不失一般性，当点到最近抓手点的距离d _g大于点到最近场景点的距离d _s时，可以让p朝着p _g移动来让点更加靠近真实的交互二分曲面，调整后的点p位置可以表示为：

（2）

其中，

表示调整后的点p位置，

表示点p的偏移数据，这个值是最大程度降低

误差，并且保证

不发生符号翻转的选择。

表示p朝着p _g的方向移动，

表示点p 到p _s的方向向量与点p到p _g的方向向量之间的夹角余弦值。

可以理解的是，当点到最近抓手点的距离d _g小于点到最近场景点的距离d _s时，可以让p朝着p _s移动来让点更加靠近真实的交互二分曲面。

本实施例中，根据各采样点与对应的最近抓手点、最近场景点，以及预设点偏移计算关系，计算各采样点对应的偏移数据，根据偏移数据对相应采样点的位置进行调整，能够避免预设采样分辨率对近似误差高度的影响，提高了采样点的准确性。

在一个实施例中，在获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据之前，上述方法还包括：

获取第一样本数据；调用待训练的抓取模型；待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络；根据第一样本数据对待训练的策略网络进行训练，得到第一抓取轨迹，根据第一抓取轨迹以及第一样本数据计算待训练的策略网络的奖励损失值；根据第一样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练，输出奖励向量，根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取模型的时间差分损失值；根据时间差分损失值调整待训练的抓取模型的模型参数，直至计算的时间差分损失值达到训练停止条件，将当前的策略网络确定为预先训练的抓取策略模型。

其中，第一样本数据是指用于训练抓取模型的数据。

在进行高自由度灵巧手抓取规划之前，服务器可以根据第一样本数据对待训练的抓取模型进行训练，并根据奖励函数以及时间差分函数对模型参数进行调整，以得到预先训练的抓取策略模型。待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络。具体地，服务器获取第一样本数据，第一样本数据可以包括第一抓手点云、第一场景点云、第一抓手姿态以及第一交互曲面的点集。第一场景点云是指包括样本物体的场景点云。第一交互曲面为交互二分曲面。将第一交互曲面的点集以及第一抓手姿态输入至待训练的策略网络，对第一交互曲面的点集以及第一抓手姿态进行特征提取，根据提取的第一曲面特征以及第一抓手姿态特征预测抓手姿态变化。根据抓手姿态变化将第一抓手姿态进行更新。重复上述预测抓手姿态变化以及抓手姿态更新的步骤，直至得到抓手抓住样本物体时的抓手姿态，进而得到完整的抓手姿态系列，即样本物体的第一抓取轨迹。第一抓取轨迹中包括多帧抓手姿态以及相邻帧抓手姿态之间的抓手姿态变化。

根据第一抓取轨迹、第一样本数据以及奖励函数计算待训练的策略网络的奖励损失值。其中，奖励函数可以分为两个部分：抓取奖励函数和接近奖励函数。抓取奖励函数用于提供全局的引导，即对全局编码器提供引导。接近奖励函数用于提供局部的引导，即对局部编码器提供引导。奖励损失值可以包括抓取奖励损失值和接近奖励损失值。

抓取奖励函数需要在轨迹规划过程终止时提供抓取姿态的评估。将在动力学模拟中得到的测试结果

作为抓取成功的评估。仅仅使用稀疏的布尔值不能够为高自由度的灵巧抓取提供足够的引导信息，采用了扩展Q₁（Generalized Q1）方法为抓取提供更加具体的评估。扩展Q₁方法为基于虚拟接触点的分析。这些虚拟接触点是抓手上预先定义的抓取点在物体上的投影位置。扩展Q₁方法的优势是，即使手指和物体没有发生严格的接触，也能够提供一个合理的评估。

由于抓取姿态的评估仅仅在轨迹规划终止的时候进行。为了进一步鼓励算法快速地完成任务，可以在每个时间步给予一个负的奖励r _f。因此，可以根据抓取奖励函数计算抓取奖励损失值，其中，抓取奖励函数可以如下所示：

（3）

其中，

表示抓取奖励函数。

、

和

为预设参数。S表示在动力学模拟中得到的测试结果，Q₁表示扩展Q₁（Generalized Q1）方法所采用的函数。例如，

=150，

=1000，

=-3。

为了鼓励抓手和样本物体相接触，同时避免发生碰撞，可以预先设置与每个抓手部分对应的接近奖励函数。为了确定抓手是否和样本物体接触或者碰撞。可以复用预先计算的第一交互曲面的点集来避免额外的计算开销。具体地，为了确定抓手的各抓手部分是否和样本物体接触，需要抓手上有点距离物体足够近，同时没有嵌进场景的内部。服务器可以统计第一交互曲面的点集中，到各抓手部分或者第一场景点云的距离小于预设距离阈值的点数。例如，预设距离阈值可以是0.5cm。识别第一交互曲面上的点集中是否存在由各抓手部分支撑且落在第一场景点云的内部的点。统计落在第一场景点云内部的点数，若该点数大于或者等于预设碰撞数量，则表示该抓手部分和样本物体发生了碰撞。若该点数小于预设碰撞数量且统计的第一交互曲面的点集中，到各抓手部分或者第一场景点云的距离小于预设阈值的点数大于或者等于预设接触数量，则表示该抓手部分和样本物体发生了接触。

进一步地，识别第一交互曲面上的点集中是否存在由各抓手部分支撑且落在第一场景点云的内部的点可以通过计算由各抓手部分支撑的点指向第一交互曲面上最近点的方向向量

以及对应第一场景点云中的最近场景点p _s的法向量

的夹角，如果这个角度小于90度，就认为这个第一交互曲面的点在第一场景点云的内部。

例如，对于抓手部分

，统计得到第一交互曲面的点集中，到抓手部分

或者第一场景点云的距离小于预设距离阈值

的点数为

，识别第一交互曲面上是否存在由抓手部分

支撑的（比如

的点）落在了第一场景点云的内部。统计第一场景点云内部第一交互曲面点的数量

。如果

≥预设碰撞数量

，认为抓手部分和样本物体发生了碰撞。如果抓手部分

没有和样本物体碰撞

，但是和样本物体有足够的近似接触点（

≥预设接触数量

），认为抓手部分和样本物体发生了接触。

至此，可以通过每个抓取部分

对应的接近奖励函数

来鼓励一个具有更多接触但不碰撞点的接近抓取过程，接近奖励函数

可以如下所示：

（4）

其中，

表示接近奖励函数，

表示第一场景点云内部第一交互曲面点的数量，

表示预设碰撞数量，

表示没有和样本物体碰撞

，但是和样本物体有足够的近似接触点的接近奖励函数，

表示第一交互曲面的点集中，到抓手部分

或者第一场景点云的距离小于预设距离阈值

的点数，

表示预设接触数量。例如，

=

=3，

=40。抓取奖励函数和接近奖励函数能够让算法更好地在不同的考虑项中平衡。

服务器可以进一步地基于SAC（Soft Actor Critic，优化随机策略的异策方法)的强化学习方法训练抓取模型。第一抓取轨迹中包括多帧抓手姿态以及相邻帧抓手姿态之间的抓手姿态变化。抓取模型中待训练的策略网络会经过多次迭代过程，在每个迭代过程接收一个抓手姿态作为输入，会预测一个抓手姿态变化。从而将每个迭代过程输入至待训练的策略网络的抓手姿态，以及输出的抓手姿态变化作为待训练的Q函数网络的输入，输出一个评估值，用于评估未来的预期累计奖励。例如，待训练的策略网络接收状态s作为输入，输出动作的高斯分布

，用于采样动作，即采样抓手姿态变化。Q函数网络用于对输入的抓手姿态

和抓手姿态变化

进行运算，输出一个评估值

，其中，

表示Q 函数网络的参数。

SAC方法使用一个额外的备份的目标Q函数用于对待训练的Q函数进行时间差分学习。这个额外的目标Q函数具有和待训练的Q函数相同的网络结构，但是有着不同的网络参数

。

强化学习使用转移作为训练数据的最小单位。一个转移可以被记作

，其中，

和

分别表示转移前后的状态，

表示做出的动作，即姿态变化，R表示奖励值，d指代

是否是一个终止状态。这些转移都被存储在一个回放缓存D中。在抓取模型的每次更新中，这些存储在回放缓存D的数据就会被采样出来用作训练。

在本实施例中，待训练的Q函数网络的输出不再是一个估计预期奖励的标量值，而是输出一个奖励向量

。这个向量分量和奖励函数是一一对应的，每一个转移的奖励可以表示为向量

。因此，待训练的Q函数网络可以对不同的奖励函数进行分别预估。需要注意的是，只有对

预估累计的未来的整体收益。而针对

只计算当前帧的预期收益。服务器可以将时间差分函数作为损失函数来训练Q函数，通过时间差分函数来计算Q函数的时间差分损失值，时间差分函数可以如下所示：

（5）

其中，

表示时间差分函数，

表示Q函数中抓取奖励函数

对应的奖励向量分量，

表示抓取奖励函数

对应的目标值，

表示Q函数中接近奖励函数

对应的奖励向量分量，

表示接近奖励损失值，

表示抓取奖励损失值，

表示用于平衡抓取奖励函数和接近奖励函数两种类型函数奖励值的参数，如

= 0.25，

表示衰减因子，如

=0.99，

表示采样的姿态动作，

表示温度系数，用于平衡环境探索和最大化奖励，在训练中会被自动调整。

根据待训练的策略网络的原始损失函数，即时间差分函数

计算策略网络的时间差分损失值，时间差分函数可以表示为：

（6）

其中，

表示待训练的策略网络的时间差分函数，

表示策略网络中抓取奖励函数

对应的奖励向量分量，

表示策略网络中接近奖励函数

对应的奖励向量分量，

表示当前状态和网络参数下采样得到的姿态变化。

服务器可以根据上述计算得到的待训练的策略网络的时间差分损失值以及待训练的Q函数网络的时间差分损失值来调整抓取模型的模型参数，直至计算的时间差分损失值达到训练停止条件。其中，训练停止条件是指时间差分损失值不再下降或者达到预设迭代次数。将当前的策略网络确定为预先训练的抓取策略模型。

在本实施例中，通过抓取奖励函数刻画抓取任务以及通过接近奖励函数刻画抓取中的碰撞避免，并将强化学习中评估预期奖励的Q 函数从标量扩展成了向量，能够更好的评估找到准确的抓取和避免碰撞。

在一个实施例中，如图8所示，提供了一种高自由度灵巧手抓取规划方法，该方法包括以下步骤：

步骤802，获取第一样本数据。

步骤804，获取抓手抓住样本物体时的样本抓取姿态。

步骤806，根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态。

步骤808，根据多帧样本抓手姿态生成第二样本数据。

步骤810，在第一样本数据中以及第二样本数据中采样得到目标样本数据。

步骤812，调用待训练的抓取模型。待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络。

步骤814，根据目标样本数据对待训练的策略网络进行训练，得到第一抓取轨迹，根据第一抓取轨迹以及目标样本数据计算待训练的策略网络的奖励损失值。

步骤816，根据目标样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练，输出奖励向量，根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取策略网络的时间差分损失值。

步骤818，根据时间差分损失值调整待训练的抓取模型的模型参数，直至计算的时间差分损失值达到训练停止条件，将当前的抓取策略模型确定为预先训练的抓取策略网络。

步骤820，获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据。

步骤822，根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。

步骤824，根据当前帧抓手点云数据确定目标点云区域，将目标点云区域离散为多个三维网格。

步骤826，对各三维网格进行采样，得到多个采样点。

步骤828，在当前帧抓手点云数据中确定各采样点对应的最近抓手点，以及在场景点云数据中确定各采样点对应的最近场景点。

步骤830，根据各采样点与对应的最近抓手点、最近场景点，以及预设点偏移计算关系，计算各采样点对应的偏移数据。

步骤832，根据偏移数据对相应采样点的位置进行调整。

步骤834，计算各调整后的采样点到当前帧抓手点云数据的抓手距离，以及各调整后的采样点到场景点云数据的场景距离。

步骤836，计算各调整后的采样点对应的抓手距离与相应场景距离之间的差值，得到各调整后的采样点对应的距离差。

步骤838，计算各调整后的采样点对应的距离差的乘积。

步骤840，当乘积小于或者等于零时，将对应的调整后的采样点确定为零值临界面上的点。

步骤842，在零值临界面上的点附近沿着零值临界面进行采样，直至零值临界面扩展完整，得到零值临界面的点集，将零值临界面的点集确定为当前场景的交互二分曲面的点集。

步骤844，通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。

步骤846，根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住待抓取物体，得到目标帧抓手姿态数据。

步骤848，根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。

服务器可以利用现有的抓取生成工具先生成一些合理的抓取姿态，然后使用简单的启发式策略生成整个抓取接近过程的姿态序列。这个姿态序列由于存在穿透碰撞，是不完美示例。

在不完美示例的生成过程中，服务器可以利用现有的抓取生成工具获取抓手抓住样本物体时的样本抓取姿态。例如，现有的抓取生成工具可以是Graspit工具。通过Graspit采样足够多的抓取，挑选抓取质量高的抓取，然后去除掉和桌面碰撞的抓取。

根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态。具体地，可以先根据样本抓取姿态逆向生成远离样本物体的关键帧，根据关键帧来补充中间帧，来得到多帧样本抓手姿态，根据多帧样本抓手姿态生成第二样本数据，即完整的运动过程。进一步地，在生成关键帧的过程中，让抓手的手掌恢复到摊平状态（所有内部自由度关节值为0），记录此时抓手姿态为关键帧1，然后连接样本物体重心和手掌中心，让抓手沿着这个射线方向移动直到样本物体重心和手掌中心的距离达到关键距离阈值，记录此时抓手姿态为关键帧2。例如，关键距离阈值d=20cm。在补充中间帧的过程中，可以将关键帧2当作初始姿态，关键帧1作为终止姿态，通过关节值的线性插值的方式生成中间帧。然后将关键帧1作为初始姿态，将关键帧2作为终止姿态，同样通过关节值的线性插值的方式生成中间帧，在生成中间帧时，需要保持帧与帧之间的关节变化不超过动作上下界阈值。

第二样本数据生成过程的示意图可以如图9所示。其中，（a）获取抓手抓住样本物体时的样本抓取姿态，（b）根据样本抓取姿态逆向生成远离样本物体的关键帧，（c）根据关键帧来补充中间帧，得到多帧样本抓手姿态，根据多帧样本抓手姿态生成第二样本数据。

将生成的第二样本数据放入回放缓存，被强化学习算法使用。为了更好地平衡第二样本数据和强化学习生成自主探索数据，即第一样本数据的利用，以及减少内存开销，对SAC的回放缓存也进行了修改。具体地，采用两个回放缓存，第一回放缓存和第二回放缓存，第一回放缓存用于存储第一样本数据，大小为n_s=1.0×10⁵，第二回放缓存用于存储第二样本数据，大小为n_d=5.0×10⁴。在训练之前，将第二样本数据填满，然后持续记录总的转移数据生成数目n_t（包括第二样本转移数据和强化学习算法生成的转移数据）。在每次抓取模型更新的时候，可以以n_d/n_t的概率从第一回放缓存中采样数据，以1-n_d/n_t的概率从第二回放缓存中采样数据，得到目标样本数据，通过目标样本数据对待训练的抓取模型进行训练。由于第二样本数据在概率上总是存在被使用的可能，通过将回放缓存分为两个，能够在训练初期避免第二样本数据还没充分应用就因为缓存满了被扔的问题。

在本实施例中，通过生成第二样本数据，即生成不完美示例来辅助加速训练，加速快了模型初期的训练速度。另外，通过以一种自然且快速的方式实时生成接近并抓取物体的轨迹，同时能够避免碰撞。对于给定的不同初始位置，可以为同一物体生成多种多样的抓取姿态还有抓取轨迹，并且生成轨迹的速度也可以达到近似实时的速度，如10-15帧/s。

下面对高自由度灵巧手抓取规划方法的可行性进行定性评估和定量评估。

一、定性评估

如图10所示，为高自由度灵巧手抓取规划方法的抓取过程可视化结果示意图。其中，包括4种不同物体的抓取案例。每种物体的抓取过程包括左侧的抓手初始姿态，以及整个接近过程中的中间状态的四帧，右侧是最终的抓取姿态。为了更好地展示运动序列，可以将每个抓取案例中整个过程中的运动轨迹用曲线来表示，用圆球表示采样帧所在的姿态。在观察这些结果时，可以发现上述高自由度灵巧手抓取规划方法能够从不同的初始姿态出发，抓取各种各样形状的物体。比如鲨鱼玩具、电钻、双目望远镜、大象模型。

如图11所示，为高自由度灵巧手抓取规划方法对同一物体从不同初始姿态出发的最终抓取结果示意图。对于每个抓取案例，展示了四个不同的初始姿态，对应初始姿态用球标注在对应的半球面上（左侧），各初始姿态对应的最终抓取结果依次展示在右侧的图上。可知，对于相同的物体形状，在给定不同的初始姿态时，可以产生多样的抓取姿态。

通过上述图10和图11，表明上述高自由度灵巧手抓取规划方法能够成功抓取具有不同几何的复杂物体，并且能够从不同的初始位置出发，同一物体生成不同的抓取姿态。

二、定量评估

可以通过实验来评估上述高自由度灵巧手抓取规划方法的量化结果，以展示其优势。需要注意的是，由于在解决灵巧手接近抓取问题上，目前尚未有类似的完整方法用作对比，用于对比的方法由已有的抓取规划方法和已有的抓取执行方法组合得到。对比的方法使用两步走的方案，第一步，给定物体生成抓取姿态。第二步，使用规划器规划从初始位置到达目标姿态的路径，使用的是PRM（probabilistic roadmap method，基于启发式节点增强策略的一种路径规划方法）算法。为了比较的公平性，将本申请的高自由度灵巧手抓取规划方法拆成了两步，将生成轨迹的最后一帧作为抓取姿态，和其他的抓取姿态生成方法进行对比。

将本申请的高自由度灵巧手抓取规划方法与现有的“Liu M, Pan Z, Xu K”等人提出的全局最优抓取规划的混合积分圆锥规划方法和Graspit方法进行对比，统计三种成功率，包括最终抓取、运动规划和全局。最终抓取（Final Grasp）：不考虑运动过程，方法生成最终抓取姿态能否成功抓取物体。运动规划（Motion Planning）：对方法生成的最终抓取，路径规划器能否找到从初始姿态到该姿态的路径。全局（Overall）：整体方法能否成功规划轨迹，并且执行轨迹，最终抓取物体，其中桌面以及碰撞会导致部分关节的提前终止。

在YCB物体集合上测试算法。对于每个物体，设置24个不同的初始位置。此外，统计成功率的方式也有两种。“Avg”指的是所有测试物体的所有初始姿态成功的平均值。“Top1”指的是所有测试物体中，对于给定的初始姿态集合，有至少一个初始姿态成功的平均值。成功率统计结果如下表所示：

表1 成功率统计结果

上表展示了最终抓取、运动规划以及全局过程的实验结果。其中，本申请的高自由度灵巧手抓取规划方法的各项指标，都要比其他方法要高出很多。这说明本申请提出的方法不仅生成的最终抓取较准确，且抓取本身也考虑到了整个过程的可行性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的高自由度灵巧手抓取规划方法的高自由度灵巧手抓取规划装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个高自由度灵巧手抓取规划装置实施例中的具体限定可以参见上文中对于高自由度灵巧手抓取规划方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种高自由度灵巧手抓取规划装置，包括：数据获取模块1202、抓手点云还原模块1204、曲面计算模块1206、抓手姿态预测模块1208和抓取轨迹生成模块1210，其中：

数据获取模块1202，用于获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据。

抓手点云还原模块1204，用于根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。

曲面计算模块1206，用于根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。

抓手姿态预测模块1208，用于通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据；根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住待抓取物体，得到目标帧抓手姿态数据；

抓取轨迹生成模块1210，用于根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。

在一个实施例中，曲面计算模块1206还用于根据当前帧抓手点云数据确定目标点云区域，将目标点云区域离散为多个三维网格；对各三维网格进行采样，得到多个采样点；计算各采样点到当前帧抓手点云数据的抓手距离，以及各采样点到场景点云数据的场景距离；根据各采样点对应的抓手距离以及场景距离，计算当前场景的交互二分曲面的点集。

在一个实施例中，曲面计算模块1206还用于计算各采样点对应的抓手距离与相应场景距离之间的差值，得到各采样点对应的距离差；计算各采样点对应的距离差的乘积；当乘积小于或者等于零时，将对应的采样点确定为零值临界面上的点；在零值临界面上的点附近沿着零值临界面进行采样，直至零值临界面扩展完整，得到零值临界面的点集，将零值临界面的点集确定为当前场景的交互二分曲面的点集。

在一个实施例中，上述装置还包括：

采样点调整模块，用于在当前帧抓手点云数据中确定各采样点对应的最近抓手点，以及在场景点云数据中确定各采样点对应的最近场景点；根据各采样点与对应的最近抓手点、最近场景点，以及预设点偏移计算关系，计算各采样点对应的偏移数据；根据偏移数据对相应采样点的位置进行调整。

在一个实施例中，上述装置还包括：

训练模块，用于获取第一样本数据；调用待训练的抓取模型；待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络；根据第一样本数据对待训练的策略网络进行训练，得到第一抓取轨迹，根据第一抓取轨迹以及第一样本数据计算待训练的策略网络的奖励损失值；根据第一样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练，输出奖励向量，根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取模型的时间差分损失值；根据时间差分损失值调整待训练的抓取模型的模型参数，直至计算的时间差分损失值达到训练停止条件，将当前的策略网络确定为预先训练的抓取策略模型。

在一个实施例中，上述装置还包括：

示例生成模块，用于获取抓手抓住样本物体时的样本抓取姿态；根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态；根据多帧样本抓手姿态生成第二样本数据；在第一样本数据中以及第二样本数据中采样得到目标样本数据，目标样本数据用于对待训练的抓取模型进行训练。

上述高自由度灵巧手抓取规划装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设抓手结构文件、场景点云数据、抓手姿态数据、抓手点云数据、交互二分曲面的点集、物体抓取轨迹等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高自由度灵巧手抓取规划方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种高自由度灵巧手抓取规划方法，其特征在于，所述方法包括：

根据所述当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据；

根据所述当前帧抓手点云数据以及所述场景点云数据计算所述当前场景的交互二分曲面的点集；

通过预先训练的抓取策略模型对所述交互二分曲面的点集以及所述当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据；

根据所述抓手姿态变化数据将所述当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住所述待抓取物体，得到目标帧抓手姿态数据；

根据从所述当前帧抓手点云数据到所述目标帧抓手姿态数据的多帧抓手姿态数据生成所述待抓取物体对应的物体抓取轨迹。

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧抓手点云数据以及所述场景点云数据计算所述当前场景的交互二分曲面的点集包括：

根据所述当前帧抓手点云数据确定目标点云区域，将所述目标点云区域离散为多个三维网格；

对各三维网格进行采样，得到多个采样点；

计算各采样点到所述当前帧抓手点云数据的抓手距离，以及各采样点到所述场景点云数据的场景距离；

根据各采样点对应的抓手距离以及场景距离，计算所述当前场景的交互二分曲面的点集。

3.根据权利要求2所述的方法，其特征在于，所述根据各采样点对应的抓手距离以及场景距离，计算所述当前场景的交互二分曲面的点集包括：

计算各采样点对应的距离差的乘积；

当所述乘积小于或者等于零时，将对应的采样点确定为零值临界面上的点；

在所述零值临界面上的点附近沿着所述零值临界面进行采样，直至所述零值临界面扩展完整，得到所述零值临界面的点集，将所述零值临界面的点集确定为所述当前场景的交互二分曲面的点集。

4.根据权利要求2所述的方法，其特征在于，在所述对各三维网格进行采样，得到多个采样点之后，所述方法还包括：

在所述当前帧抓手点云数据中确定各采样点对应的最近抓手点，以及在所述场景点云数据中确定各采样点对应的最近场景点；

根据所述偏移数据对相应采样点的位置进行调整。

5.根据权利要求1至4任意一项所述的方法，其特征在于，在所述获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据之前，所述方法还包括：

获取第一样本数据；

调用待训练的抓取模型；所述待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络；

根据所述第一样本数据对所述待训练的策略网络进行训练，得到第一抓取轨迹，根据所述第一抓取轨迹以及所述第一样本数据计算所述待训练的策略网络的奖励损失值；

根据所述第一样本数据以及所述第一抓取轨迹对所述待训练的Q函数网络进行训练，输出奖励向量，根据所述奖励向量、所述奖励损失值以及所述第一抓取轨迹计算所述待训练的抓取模型的时间差分损失值；

根据所述时间差分损失值调整所述待训练的抓取模型的模型参数，直至计算的时间差分损失值达到训练停止条件，将当前的策略网络确定为预先训练的抓取策略模型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取抓手抓住样本物体时的样本抓取姿态；

根据所述样本抓取姿态逆向生成远离所述样本物体的多帧样本抓手姿态；

根据多帧样本抓手姿态生成第二样本数据；

在所述第一样本数据中以及所述第二样本数据中采样得到目标样本数据，所述目标样本数据用于对所述待训练的抓取模型进行训练。

7.一种高自由度灵巧手抓取规划装置，其特征在于，所述装置包括：

抓手点云还原模块，用于根据所述当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据；

曲面计算模块，用于根据所述当前帧抓手点云数据以及所述场景点云数据计算所述当前场景的交互二分曲面的点集；

抓手姿态预测模块，用于通过预先训练的抓取策略模型对所述交互二分曲面的点集以及所述当前帧抓手姿态数据进行特征提取，根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据；根据所述抓手姿态变化数据将所述当前帧抓手姿态数据更新为下一帧抓手姿态数据，重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据，直至抓手抓住所述待抓取物体，得到目标帧抓手姿态数据；

抓取轨迹生成模块，用于根据从所述当前帧抓手点云数据到所述目标帧抓手姿态数据的多帧抓手姿态数据生成所述待抓取物体对应的物体抓取轨迹。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。