CN114820802A - 高自由度灵巧手抓取规划方法、装置和计算机设备 - Google Patents

高自由度灵巧手抓取规划方法、装置和计算机设备 Download PDF

Info

Publication number
CN114820802A
CN114820802A CN202210763787.1A CN202210763787A CN114820802A CN 114820802 A CN114820802 A CN 114820802A CN 202210763787 A CN202210763787 A CN 202210763787A CN 114820802 A CN114820802 A CN 114820802A
Authority
CN
China
Prior art keywords
data
point
grabbing
current frame
gripper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210763787.1A
Other languages
English (en)
Inventor
黄惠
徐凯
佘奇晋
胡瑞珍
许聚展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210763787.1A priority Critical patent/CN114820802A/zh
Publication of CN114820802A publication Critical patent/CN114820802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及一种高自由度灵巧手抓取规划方法、装置和计算机设备。该方法包括:根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集;通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,预测从当前帧到下一帧的抓手姿态变化数据;根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复预测抓手姿态数据的步骤,直至得到目标帧抓手姿态数据;根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。采用本方法能够提升高自由度灵巧手抓取规划准确性。

Description

高自由度灵巧手抓取规划方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,特别是涉及一种高自由度灵巧手抓取规划方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
抓取是人类的一项基本能力,是人类使用工具完成各种复杂操作的基础。使用人工智能方法让机器人具备抓取物体的能力是让机器人替代人类工作的第一步。传统的灵巧手抓取规划方式,是针对给定物体直接生成最终抓取姿态。
然而在通过具有复杂几何结构,且具有高自由度的灵巧手进行物体抓取时,传统的灵巧手抓取规划方式可能导致生成的抓取轨迹无法到达物体。因此,如何提升高自由度灵巧手抓取规划的准确性,成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升高自由度灵巧手抓取规划准确性的高自由度灵巧手抓取规划方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种高自由度灵巧手抓取规划方法。该方法包括:
获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集;
通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;
根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据;
根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
在其中一个实施例中,根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集包括:
根据当前帧抓手点云数据确定目标点云区域,将目标点云区域离散为多个三维网格;
对各三维网格进行采样,得到多个采样点;
计算各采样点到当前帧抓手点云数据的抓手距离,以及各采样点到场景点云数据的场景距离;
根据各采样点对应的抓手距离以及场景距离,计算当前场景的交互二分曲面的点集。
在其中一个实施例中,根据各采样点对应的抓手距离以及场景距离,计算当前场景的交互二分曲面的点集包括:
计算各采样点对应的抓手距离与相应场景距离之间的差值,得到各采样点对应的距离差;
计算各采样点对应的距离差的乘积;
当乘积小于或者等于零时,将对应的采样点确定为零值临界面上的点;
在零值临界面上的点附近沿着零值临界面进行采样,直至零值临界面扩展完整,得到零值临界面的点集,将零值临界面的点集确定为当前场景的交互二分曲面的点集。
在其中一个实施例中,在对各三维网格进行采样,得到多个采样点之后,方法还包括:
在当前帧抓手点云数据中确定各采样点对应的最近抓手点,以及在场景点云数据中确定各采样点对应的最近场景点;
根据各采样点与对应的最近抓手点、最近场景点,以及预设点偏移计算关系,计算各采样点对应的偏移数据;
根据偏移数据对相应采样点的位置进行调整。
在其中一个实施例中,在获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据之前,方法还包括:
获取第一样本数据;
调用待训练的抓取模型;待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络;
根据第一样本数据对待训练的策略网络进行训练,得到第一抓取轨迹,根据第一抓取轨迹以及第一样本数据计算待训练的策略网络的奖励损失值;
根据第一样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练,输出奖励向量,根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取模型的时间差分损失值;
根据时间差分损失值调整待训练的抓取模型的模型参数,直至计算的时间差分损失值达到训练停止条件,将当前的策略网络确定为预先训练的抓取策略模型。
在其中一个实施例中,该方法还包括:
获取抓手抓住样本物体时的样本抓取姿态;
根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态;
根据多帧样本抓手姿态生成第二样本数据;
在第一样本数据中以及第二样本数据中采样得到目标样本数据,目标样本数据用于对待训练的抓取模型进行训练。
第二方面,本申请还提供了一种高自由度灵巧手抓取规划装置。该装置包括:
数据获取模块,用于获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
抓手点云还原模块,用于根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
曲面计算模块,用于根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集;
抓手姿态预测模块,用于通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据;
抓取轨迹生成模块,用于根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集;
通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;
根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据;
根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集;
通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;
根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据;
根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集;
通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;
根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据;
根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
上述高自由度灵巧手抓取规划方法、装置、计算机设备、存储介质和计算机程序产品,根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集,通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复上述抓手姿态数据预测步骤,进而生成待抓取物体对应的物体抓取轨迹。在使用具有复杂几何结构的抓手时,使用交互二分曲面作为抓取状态的表示,能够捕获当前帧抓手点云数据和场景点云数据的空间分界信息,从交互二分曲面上可以抽取出有关交互的几何和拓扑信息等丰富信息,基于上述表示结合预先训练的抓取策略模型,有效提高了抓手接近抓取的准确性,从而提高了高自由度灵巧手抓取规划的准确性。
附图说明
图1为一个实施例中高自由度灵巧手抓取规划方法的应用环境图;
图2为一个实施例中高自由度灵巧手抓取规划方法的流程示意图;
图3为一个实施例中抓取策略模型的网络结构示意图;
图4为一个实施例中曲面特征数据中点P的特征信息示意图;
图5为一个实施例中高自由度灵巧手抓取规划方法的迭代过程;
图6为一个实施例中根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集步骤的流程示意图;
图7为一个实施例中交互二分曲面的示意图;
图8为另一个实施例中高自由度灵巧手抓取规划方法的流程示意图;
图9为一个实施例中第二样本数据生成过程的示意图;
图10为一个实施例中高自由度灵巧手抓取规划方法的抓取过程可视化结果示意图;
图11为一个实施例中高自由度灵巧手抓取规划方法对同一物体从不同初始姿态出发的最终抓取结果示意图;
图12为一个实施例中高自由度灵巧手抓取规划装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的高自由度灵巧手抓取规划方法,可以应用于如图1所示的应用环境中。其中,三维扫描设备102通过网络与服务器106进行通信。预先安装于抓手上的姿态传感器104通过网络与服务器106进行通信。数据存储系统可以存储服务器106需要处理的数据。数据存储系统可以集成在服务器106上,也可以放在云上或其他网络服务器上。三维扫描设备102用于采集包含待抓取物体108的当前场景对应的场景点云数据,将采集的场景点云数据发送至服务器106。抓手上的姿态传感器104用于采集当前帧抓手姿态数据,将采集的当前帧抓手姿态数据发送至服务器106。服务器根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据,根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。从而通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。进而根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据,根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。其中,三维扫描设备102可以是激光扫描设备、基于深度相机的三维扫描系统等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种高自由度灵巧手抓取规划方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据。
其中,场景点云数据是指包括当前物体抓取场景的点云数据。当前帧抓手姿态数据是指抓手手掌在当前帧与待抓取物体之间的相对朝向。
在高自由度灵巧手抓取规划过程中,服务器可以获取三维扫描设备采集的包含待抓取物体的当前场景对应的场景点云数据,以及抓手上的姿态传感器采集的当前帧抓手姿态数据。待抓取物体可以是抓手能够握住的物体,例如,苹果、水杯等。场景点云数据是指分割后的场景点云数据,包括待抓取物体点云数据和待抓取物体所在的平面。抓手是指灵巧手,可以是具有类人设计的机械抓手。机械抓手的主要特点是相比吸盘或平行夹具有更高的自由度。自由度在机器人领域一般是指机器人能够被独立控制的关节个数,一般自由度越高,机器人的灵活性越强。高自由度灵巧手可以是自由度大于预设的自由度阈值的灵巧手,例如,自由度阈值可以是接近人手的6自由度,包括五个手指和手掌分别对应的自由度。
步骤204,根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。
其中,预设抓手结构文件是指用于描述抓手结构的格式文件。
服务器的数据存储系统中存储有预设抓手结构文件。例如,预设抓手结构文件可以是抓手的URDF(Unified Robot Description Format,统一机器人描述格式)文件,URDF文件是一种基于XML规范、用于描述机器人结构的格式文件。抓手的URDF文件中描述了抓手的一系列关节与连杆的相对关系、惯性属性、几何模型和碰撞模型。从而服务器可以根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。
步骤206,根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。
其中,交互二分曲面是指两个接近的三维几何对象,即抓手以及待抓取物体之间的交互曲面。
传统的交互二分曲面计算,需要从维诺图的计算上抽取,而计算维诺图的时间开销非常大。为了在性能和准确性上取得一个平衡,服务器可以将抓手所在的周围点云区域进行离散化处理,对离散化处理后的点云数据进行采样。从而根据采样后的点分别与当前帧抓手点云数据以及场景点云数据之间的距离关系,计算当前场景的交互二分曲面的点集。交互二分曲面的点集是指到当前帧抓手点云数据以及场景点云数据距离相等的点构成的集合。对于交互二分曲面上的点有:
Figure DEST_PATH_IMAGE001
(1)
其中,P IBS 表示交互二分曲面上的点,AB 分别表示当前帧抓手点云数据和场景点云数据,d(·,·) 为距离函数。通过在抓手所在的周围点云区域中采样点,并计算点到当前帧抓手点云数据和场景点云数据距离之差。如果该点到当前帧抓手点云数据和场景点云数据的距离相等,那么这个点就是交互二分曲面上的点。
在本实施例中使用交互二分曲面作为抓取状态的表示,能够捕获当前帧抓手点云数据和场景点云数据的空间分界信息,从交互二分曲面上可以抽取出有关交互的几何和拓扑信息,丰富且纯粹的信息有利于提升学习算法的效率。
步骤208,通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。
其中,抓手姿态变化数据是指当前帧到下一帧的抓手姿态变化量。
服务器中存储有预先训练的抓取策略模型。抓取策略模型是通过大量的样本点云数据进行训练得到的。具体地,服务器调用预先训练的抓取策略模型,将交互二分曲面的点集以及当前帧抓手姿态数据输入至预先训练的抓取策略模型中,通过抓取策略模型分别对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,得到点集对应的曲面特征数据以及当前帧抓手姿态数据对应的抓手姿态特征数据。将曲面特征数据以及抓手姿态特征数据进行拼接,得到拼接特征向量。进而根据拼接特征向量进行预测运算,输出当前帧到下一帧的抓手姿态变化数据。
进一步地,抓取策略模型可以包括全局编码器、局部编码器和三个全连接网络。为了便于区分,将三个全连接网络化命名为第一全连接网络、第二全连接网络和第三全连接网络。曲面特征数据包括全局特征以及局部特征。通过全局编码器对交互二分曲面的点集进行特征提取,得到全局特征。通过局部编码器对交互二分曲面的点集进行特征提取,得到局部特征。通过第一全连接网络对当前帧抓手姿态数据进行特征提取,得到抓手姿态特征数据。进而将全局特征、局部特征以及抓手姿态特征数据进行拼接,得到拼接特征向量。进而将拼接特征向量传输至后续的第二全连接网络和第三全连接网络进行预测运算,第二全连接网络输出当前帧到下一帧的抓手姿态变化数据。第三全连接网络用于在预测完成时,输出终止信号。
在一个实施例中,如图3所示,为抓取策略模型的网络结构示意图。其中,x表示交互二分曲面的点集,y表示抓手姿态特征数据,全连接网络可以是MLP,z表示当前帧到下一帧的抓手姿态变化数据。
可选地,对于交互二分曲面上的每个点,它的特征除了自身坐标外,还其附带了一 些交互信息。因此,曲面特征数据可以包括交互二分曲面的点集中各点的特征信息,各点的 特征信息可以包括点坐标以及点的交互特征。点的交互特征可以包括到场景点云数据中最 近点的距离
Figure DEST_PATH_IMAGE002
、指向场景点云数据中最近点的单位方向向量
Figure DEST_PATH_IMAGE003
、对应当前帧抓手 点云数据中最近点的是否为前景(待抓取物体)
Figure DEST_PATH_IMAGE004
、到当前帧抓手点云数据中最近 点的距离
Figure DEST_PATH_IMAGE005
、指向当前帧抓手点云数据中最近点的单位方向向量
Figure DEST_PATH_IMAGE007
、one-hot编 码的对应当前帧抓手点云数据最近点的所属部分类别
Figure DEST_PATH_IMAGE008
以及用于表示对应当前帧 抓手点云数据最近点在抓手外表面还是内表面的值
Figure DEST_PATH_IMAGE009
。其中,
Figure 861172DEST_PATH_IMAGE008
分别表示 掌面、小指,无名指、中指、食指和大拇指,这个类别信息有助于抓取策略网络的学习,并且 在之后的全局编码器和局部编码器中被应用。
可选地,如图4所示,为曲面特征数据中点P的特征信息示意图。其中,P(x,y,z)表 示点P的坐标,P s 表示点P到场景点云数据中的最近点,P g 表示点P到当前帧抓手点云数据中 的最近点,
Figure DEST_PATH_IMAGE010
表示点P到场景点云数据中最近点P s 的距离,
Figure DEST_PATH_IMAGE011
表示点P指向场景点云数据中 最近点P s 的单位方向向量,
Figure DEST_PATH_IMAGE012
表示点P对应当前帧抓手点云数据中最近点P s 的是前景 (目标物体),
Figure DEST_PATH_IMAGE013
表示点P到当前帧抓手点云数据中最近点P g 的距离,
Figure DEST_PATH_IMAGE014
表示点P指向当前帧 抓手点云数据中最近点P g 的单位方向向量,
Figure DEST_PATH_IMAGE015
表示点P g 在one-hot编码后所属部分类别 为小指,
Figure DEST_PATH_IMAGE016
表示点P g 的法向量
Figure DEST_PATH_IMAGE017
与垂直手掌面向上方向
Figure DEST_PATH_IMAGE019
的点积。
步骤210,根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据。
步骤212,根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
服务器根据抓手策略网络输出的当前帧到下一帧的抓手姿态变化数据,将当前帧抓手姿态数据更新为下一帧抓手姿态数据。重复上述通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据的步骤,直至得到抓手抓住待抓取物体时的目标帧抓手姿态数据。
将当前帧抓手点云数据到目标帧抓手姿态数据之间的多帧抓手姿态数据按照时间顺序进行排列,得到整个动态物体抓取过程的姿态序列,即得到待抓取物体对应的物体抓取轨迹。
在一个实施例中,如图5所示,为高自由度灵巧手抓取规划方法的一个迭代过程。其中,(1)获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据,根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据的过程。(2)根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。(3)通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取的过程。(4)根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据,根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据。(5)表示重复(1)至(4)的步骤。
上述高自由度灵巧手抓取规划方法中,根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集,通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复上述抓手姿态数据预测步骤,进而生成待抓取物体对应的物体抓取轨迹。在使用具有复杂几何结构的抓手时,使用交互二分曲面作为抓取状态的表示,能够捕获当前帧抓手点云数据和场景点云数据的空间分界信息,从交互二分曲面上可以抽取出有关交互的几何和拓扑信息等丰富信息,基于上述表示结合预先训练的抓取策略模型,有效提高了抓手接近抓取的准确性,从而提高了高自由度灵巧手抓取规划的准确性。
在一个实施例中,如图6所示,根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集包括:
步骤602,根据当前帧抓手点云数据确定目标点云区域,将目标点云区域离散为多个三维网格。
步骤604,对各三维网格进行采样,得到多个采样点。
步骤606,计算各采样点到当前帧抓手点云数据的抓手距离,以及各采样点到场景点云数据的场景距离。
步骤608,根据各采样点对应的抓手距离以及场景距离,计算当前场景的交互二分曲面的点集。
服务器可以根据当前帧抓手点云数据确定抓手手掌中心的点坐标,将以该点坐标 为圆心,预设长度r为半径的球体点云区域确定为目标点云区域。将目标点云区域离散为多 个三维网格。例如,可以将目标点云区域离散为K3个方格。对于各三维网格,可以根据预设 采样分辨率在网格的中心进行采样,得到多个采样点。对于各采样点,服务器计算该采样点 到当前帧抓手点云数据的抓手距离
Figure DEST_PATH_IMAGE020
,以及该采样点到场景点云数据的场景距离
Figure DEST_PATH_IMAGE021
,进而 根据各采样点对应的抓手距离以及场景距离,计算当前场景的交互二分曲面的点集。
可选地,为了加速抓手距离以及场景距离的计算过程,可以对当前帧抓手点云数据和场景点云数据分别构建KD(K-Dimensional,K维)树,将当前帧抓手点云数据和场景点云数据分别组织成KD树形式,从而计算各采样点到当前帧抓手点云数据的抓手距离,以及该采样点到场景点云数据的场景距离。可以使得最近点查询的时间复杂度从朴素枚举算法的O(n)降低到O(n2/3)。构建K-D树的时间复杂度为O(nlog2n),这个开销在采样点足够多的点的时候可以忽略不计。
在本实施例的一种可选方式中,根据各采样点对应的抓手距离以及场景距离,计算当前场景的交互二分曲面的点集包括:计算各采样点对应的抓手距离与相应场景距离之间的差值,得到各采样点对应的距离差;计算各采样点对应的距离差的乘积;当乘积小于或者等于零时,将对应的采样点确定为零值临界面上的点;在零值临界面上的点附近沿着零值临界面进行采样,直至零值临界面扩展完整,得到零值临界面的点集,将零值临界面的点集确定为当前场景的交互二分曲面的点集。
服务器计算各采样点对应的抓手距离与相应的场景距离的差值,得到各采样点对 应的距离差,记距离差
Figure DEST_PATH_IMAGE022
。如果
Figure DEST_PATH_IMAGE023
,则该采样点为交互二分曲面上的点。由于在 三维空间内,基于体素的采样会带来很大的开销,仅仅限制采样范围依旧不能满足性能需 要,可以将零值临界面的点集确定为当前场景的交互二分曲面的点集。
具体地,服务器可以把各采样点的距离差
Figure DEST_PATH_IMAGE024
存储到三维网格上,并且抽取出零值 临界面上的点。如果一个点p,存在邻居q满足,
Figure DEST_PATH_IMAGE026
,那么这个点就是零值临界面上 的点。服务器可以计算各采样点对应的距离差的乘积,当乘积小于或者等于零时,将这两个 采样点确定为零值临界面上的点。如图7所示,为交互二分曲面的示意图。其中,零值临界面 上的三维网格被交互二分曲面划分为了两个部分,即距离场景更近的网格(标为C)和距离 抓手更近的网格(标为D)。其中,702和704的部分就是零值临界面上的点,也是最靠近精确 交互二分曲面的点。
在确定的零值临界面上的点附近沿着零值临界面进行采样,直到不存在没有被验证的可能零值零界面点在现有零值零界面的区域内,或者到达预定的球形采样边界时,零值临界面扩展完整,从而得到零值临界面的点集,将零值临界面的点集确定为当前场景的交互二分曲面的点集。能够提高交互二分曲面的计算效率。
在本实施例中,基于采样的交互二分曲面计算方法,在空间上限制了计算范围,能够实时计算交互二分曲面,具有更佳的计算效率和并行性能,能够提升交互二分曲面的计算效率。
在一个实施例中,在对各三维网格进行采样,得到多个采样点之后,上述方法还包括:在当前帧抓手点云数据中确定各采样点对应的最近抓手点,以及在场景点云数据中确定各采样点对应的最近场景点;根据各采样点与对应的最近抓手点、最近场景点,以及预设点偏移计算关系,计算各采样点对应的偏移数据;根据偏移数据对相应采样点的位置进行调整。
由于采样的点是三维网格的中心,近似误差高度受到三维网格的预设采样分辨率的影响。因此,可以采用一种迭代优化的方法来进一步调整采样点的位置,使其更加靠近精确的交互二分曲面。具体地,服务器可以当前帧抓手点云数据中确定各采样点对应的最近抓手点,以及在场景点云数据中确定各采样点对应的最近场景点。获取预设点偏移计算关系,预设点偏移计算关系为各采样点的误差计算公式。从而根据各采样点与对应的最近抓手点、最近场景点以及预设点偏移计算关系,计算各采样点对应的偏移数据。进而根据偏移数据对相应采样点的位置进行调整。
例如,对于采样点p,我们首先找出它在场景点云数据中的最近场景点p s 和当前帧抓手点云数据中的最近抓手点p g 。不失一般性,当点到最近抓手点的距离d g 大于点到最近场景点的距离d s 时,可以让p朝着p g 移动来让点更加靠近真实的交互二分曲面,调整后的点p位置可以表示为:
Figure DEST_PATH_IMAGE027
(2)
其中,
Figure DEST_PATH_IMAGE028
表示调整后的点p位置,
Figure DEST_PATH_IMAGE030
表示点p的偏移数据,这个值是最大程度降低
Figure 272255DEST_PATH_IMAGE030
误差,并且保证
Figure 317571DEST_PATH_IMAGE030
不发生符号翻转的选择。
Figure DEST_PATH_IMAGE031
表示p朝着p g 的方向移动,
Figure DEST_PATH_IMAGE032
表示点pp s 的方向向量与点pp g 的方向向量之间的夹角余弦值。
可以理解的是,当点到最近抓手点的距离d g 小于点到最近场景点的距离d s 时,可以让p朝着p s 移动来让点更加靠近真实的交互二分曲面。
本实施例中,根据各采样点与对应的最近抓手点、最近场景点,以及预设点偏移计算关系,计算各采样点对应的偏移数据,根据偏移数据对相应采样点的位置进行调整,能够避免预设采样分辨率对近似误差高度的影响,提高了采样点的准确性。
在一个实施例中,在获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据之前,上述方法还包括:
获取第一样本数据;调用待训练的抓取模型;待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络;根据第一样本数据对待训练的策略网络进行训练,得到第一抓取轨迹,根据第一抓取轨迹以及第一样本数据计算待训练的策略网络的奖励损失值;根据第一样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练,输出奖励向量,根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取模型的时间差分损失值;根据时间差分损失值调整待训练的抓取模型的模型参数,直至计算的时间差分损失值达到训练停止条件,将当前的策略网络确定为预先训练的抓取策略模型。
其中,第一样本数据是指用于训练抓取模型的数据。
在进行高自由度灵巧手抓取规划之前,服务器可以根据第一样本数据对待训练的抓取模型进行训练,并根据奖励函数以及时间差分函数对模型参数进行调整,以得到预先训练的抓取策略模型。待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络。具体地,服务器获取第一样本数据,第一样本数据可以包括第一抓手点云、第一场景点云、第一抓手姿态以及第一交互曲面的点集。第一场景点云是指包括样本物体的场景点云。第一交互曲面为交互二分曲面。将第一交互曲面的点集以及第一抓手姿态输入至待训练的策略网络,对第一交互曲面的点集以及第一抓手姿态进行特征提取,根据提取的第一曲面特征以及第一抓手姿态特征预测抓手姿态变化。根据抓手姿态变化将第一抓手姿态进行更新。重复上述预测抓手姿态变化以及抓手姿态更新的步骤,直至得到抓手抓住样本物体时的抓手姿态,进而得到完整的抓手姿态系列,即样本物体的第一抓取轨迹。第一抓取轨迹中包括多帧抓手姿态以及相邻帧抓手姿态之间的抓手姿态变化。
根据第一抓取轨迹、第一样本数据以及奖励函数计算待训练的策略网络的奖励损失值。其中,奖励函数可以分为两个部分:抓取奖励函数和接近奖励函数。抓取奖励函数用于提供全局的引导,即对全局编码器提供引导。接近奖励函数用于提供局部的引导,即对局部编码器提供引导。奖励损失值可以包括抓取奖励损失值和接近奖励损失值。
抓取奖励函数需要在轨迹规划过程终止时提供抓取姿态的评估。将在动力学模拟 中得到的测试结果
Figure DEST_PATH_IMAGE033
作为抓取成功的评估。仅仅使用稀疏的布尔值不能够为高自 由度的灵巧抓取提供足够的引导信息,采用了扩展Q1(Generalized Q1)方法为抓取提供更 加具体的评估。扩展Q1方法为基于虚拟接触点的分析。这些虚拟接触点是抓手上预先定义 的抓取点在物体上的投影位置。扩展Q1方法的优势是,即使手指和物体没有发生严格的接 触,也能够提供一个合理的评估。
由于抓取姿态的评估仅仅在轨迹规划终止的时候进行。为了进一步鼓励算法快速地完成任务,可以在每个时间步给予一个负的奖励r f 。因此,可以根据抓取奖励函数计算抓取奖励损失值,其中,抓取奖励函数可以如下所示:
Figure DEST_PATH_IMAGE034
(3)
其中,
Figure DEST_PATH_IMAGE035
表示抓取奖励函数。
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
为预设参数。S表示在动力学模拟中得到 的测试结果,Q1表示扩展Q1(Generalized Q1)方法所采用的函数。例如,
Figure DEST_PATH_IMAGE040
=150,
Figure 40676DEST_PATH_IMAGE038
=1000,
Figure 120628DEST_PATH_IMAGE039
=-3。
为了鼓励抓手和样本物体相接触,同时避免发生碰撞,可以预先设置与每个抓手部分对应的接近奖励函数。为了确定抓手是否和样本物体接触或者碰撞。可以复用预先计算的第一交互曲面的点集来避免额外的计算开销。具体地,为了确定抓手的各抓手部分是否和样本物体接触,需要抓手上有点距离物体足够近,同时没有嵌进场景的内部。服务器可以统计第一交互曲面的点集中,到各抓手部分或者第一场景点云的距离小于预设距离阈值的点数。例如,预设距离阈值可以是0.5cm。识别第一交互曲面上的点集中是否存在由各抓手部分支撑且落在第一场景点云的内部的点。统计落在第一场景点云内部的点数,若该点数大于或者等于预设碰撞数量,则表示该抓手部分和样本物体发生了碰撞。若该点数小于预设碰撞数量且统计的第一交互曲面的点集中,到各抓手部分或者第一场景点云的距离小于预设阈值的点数大于或者等于预设接触数量,则表示该抓手部分和样本物体发生了接触。
进一步地,识别第一交互曲面上的点集中是否存在由各抓手部分支撑且落在第一 场景点云的内部的点可以通过计算由各抓手部分支撑的点指向第一交互曲面上最近点的 方向向量
Figure DEST_PATH_IMAGE042
以及对应第一场景点云中的最近场景点p s 的法向量
Figure DEST_PATH_IMAGE043
的夹角,如果这个角度 小于90度,就认为这个第一交互曲面的点在第一场景点云的内部。
例如,对于抓手部分
Figure DEST_PATH_IMAGE044
,统计得到第一交互曲面的点集中,到抓手部分
Figure 739828DEST_PATH_IMAGE044
或者第 一场景点云的距离小于预设距离阈值
Figure DEST_PATH_IMAGE045
的点数为
Figure DEST_PATH_IMAGE047
,识别第一交互曲面上是否存在由抓 手部分
Figure 367381DEST_PATH_IMAGE044
支撑的(比如
Figure DEST_PATH_IMAGE048
的点)落在了第一场景点云的内部。统计第一场景点云内部 第一交互曲面点的数量
Figure DEST_PATH_IMAGE049
。如果
Figure 35122DEST_PATH_IMAGE049
≥预设碰撞数量
Figure DEST_PATH_IMAGE050
,认为抓手部分和样本物体发生了碰 撞。如果抓手部分
Figure 297476DEST_PATH_IMAGE044
没有和样本物体碰撞
Figure DEST_PATH_IMAGE051
,但是和样本物体有足够的近似接触 点(
Figure 759682DEST_PATH_IMAGE047
≥预设接触数量
Figure DEST_PATH_IMAGE052
),认为抓手部分和样本物体发生了接触。
至此,可以通过每个抓取部分
Figure 841907DEST_PATH_IMAGE044
对应的接近奖励函数
Figure DEST_PATH_IMAGE054
来鼓励一个具有更多接 触但不碰撞点的接近抓取过程,接近奖励函数
Figure 47761DEST_PATH_IMAGE054
可以如下所示:
Figure DEST_PATH_IMAGE055
(4)
其中,
Figure 836725DEST_PATH_IMAGE054
表示接近奖励函数,
Figure 594466DEST_PATH_IMAGE049
表示第一场景点云内部第一交互曲面点的数量,
Figure 101670DEST_PATH_IMAGE050
表示预设碰撞数量,
Figure DEST_PATH_IMAGE056
表示没有和样本物体碰撞
Figure DEST_PATH_IMAGE057
,但是和样本物体有足 够的近似接触点的接近奖励函数,
Figure DEST_PATH_IMAGE058
表示第一交互曲面的点集中,到抓手部分
Figure DEST_PATH_IMAGE059
或者第 一场景点云的距离小于预设距离阈值
Figure 937646DEST_PATH_IMAGE045
的点数,
Figure 784379DEST_PATH_IMAGE052
表示预设接触数量。例如,
Figure 385125DEST_PATH_IMAGE050
=
Figure 441943DEST_PATH_IMAGE052
=3,
Figure DEST_PATH_IMAGE060
=40。抓取奖励函数和接近奖励函数能够让算法更好地在不同的考虑项中平衡。
服务器可以进一步地基于SAC(Soft Actor Critic,优化随机策略的异策方法)的 强化学习方法训练抓取模型。第一抓取轨迹中包括多帧抓手姿态以及相邻帧抓手姿态之间 的抓手姿态变化。抓取模型中待训练的策略网络会经过多次迭代过程,在每个迭代过程接 收一个抓手姿态作为输入,会预测一个抓手姿态变化。从而将每个迭代过程输入至待训练 的策略网络的抓手姿态,以及输出的抓手姿态变化作为待训练的Q函数网络的输入,输出一 个评估值,用于评估未来的预期累计奖励。例如,待训练的策略网络接收状态s作为输入,输 出动作的高斯分布
Figure DEST_PATH_IMAGE061
,用于采样动作,即采样抓手姿态变化。Q函数网络用于对输入 的抓手姿态
Figure DEST_PATH_IMAGE062
和抓手姿态变化
Figure DEST_PATH_IMAGE063
进行运算,输出一个评估值
Figure DEST_PATH_IMAGE064
,其中,
Figure DEST_PATH_IMAGE065
表示Q 函数网络的参数。
SAC方法使用一个额外的备份的目标Q函数用于对待训练的Q函数进行时间差分学 习。这个额外的目标Q函数具有和待训练的Q函数相同的网络结构,但是有着不同的网络参 数
Figure DEST_PATH_IMAGE066
强化学习使用转移作为训练数据的最小单位。一个转移可以被记作
Figure DEST_PATH_IMAGE067
,其中,
Figure DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
分别表示转移前后的状态,
Figure 910970DEST_PATH_IMAGE063
表示做出的动作,即姿态变化,R表示奖励值,d指 代
Figure 612210DEST_PATH_IMAGE069
是否是一个终止状态。这些转移都被存储在一个回放缓存D中。在抓取模型的每次更新 中,这些存储在回放缓存D的数据就会被采样出来用作训练。
在本实施例中,待训练的Q函数网络的输出不再是一个估计预期奖励的标量值,而 是输出一个奖励向量
Figure DEST_PATH_IMAGE071
。这个向量分量和奖励函数是一一对应的,每一个转 移的奖励可以表示为向量
Figure DEST_PATH_IMAGE072
。因此,待训练的Q函数网络可以对不同的奖励函 数进行分别预估。需要注意的是,只有对
Figure DEST_PATH_IMAGE073
预估累计的未来的整体收益。而针对
Figure DEST_PATH_IMAGE074
只计算 当前帧的预期收益。服务器可以将时间差分函数作为损失函数来训练Q函数,通过时间差分 函数来计算Q函数的时间差分损失值,时间差分函数可以如下所示:
Figure DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE076
(5)
其中,
Figure DEST_PATH_IMAGE077
表示时间差分函数,
Figure DEST_PATH_IMAGE078
表示Q函数中抓取奖励函数
Figure 9955DEST_PATH_IMAGE073
对应 的奖励向量分量,
Figure DEST_PATH_IMAGE079
表示抓取奖励函数
Figure 226173DEST_PATH_IMAGE073
对应的目标值,
Figure DEST_PATH_IMAGE081
表示Q函 数中接近奖励函数
Figure 702154DEST_PATH_IMAGE074
对应的奖励向量分量,
Figure 54638DEST_PATH_IMAGE074
表示接近奖励损失值,
Figure 200448DEST_PATH_IMAGE073
表示抓取奖励损 失值,
Figure DEST_PATH_IMAGE082
表示用于平衡抓取奖励函数和接近奖励函数两种类型函数奖励值的参数,如
Figure 903962DEST_PATH_IMAGE082
= 0.25,
Figure DEST_PATH_IMAGE083
表示衰减因子,如
Figure 918054DEST_PATH_IMAGE083
=0.99,
Figure DEST_PATH_IMAGE084
表示采样的姿态动作,
Figure DEST_PATH_IMAGE085
表示温度 系数,用于平衡环境探索和最大化奖励,在训练中会被自动调整。
根据待训练的策略网络的原始损失函数,即时间差分函数
Figure DEST_PATH_IMAGE087
计算策略网络的 时间差分损失值,时间差分函数可以表示为:
Figure DEST_PATH_IMAGE088
(6)
其中,
Figure DEST_PATH_IMAGE089
表示待训练的策略网络的时间差分函数,
Figure DEST_PATH_IMAGE090
表示策略 网络中抓取奖励函数
Figure 154738DEST_PATH_IMAGE073
对应的奖励向量分量,
Figure DEST_PATH_IMAGE091
表示策略网络中接近奖励函 数
Figure 533767DEST_PATH_IMAGE074
对应的奖励向量分量,
Figure DEST_PATH_IMAGE093
表示当前状态和网络参数下采样得到的姿态变 化。
服务器可以根据上述计算得到的待训练的策略网络的时间差分损失值以及待训练的Q函数网络的时间差分损失值来调整抓取模型的模型参数,直至计算的时间差分损失值达到训练停止条件。其中,训练停止条件是指时间差分损失值不再下降或者达到预设迭代次数。将当前的策略网络确定为预先训练的抓取策略模型。
在本实施例中,通过抓取奖励函数刻画抓取任务以及通过接近奖励函数刻画抓取中的碰撞避免,并将强化学习中评估预期奖励的Q 函数从标量扩展成了向量,能够更好的评估找到准确的抓取和避免碰撞。
在一个实施例中,如图8所示,提供了一种高自由度灵巧手抓取规划方法,该方法包括以下步骤:
步骤802,获取第一样本数据。
步骤804,获取抓手抓住样本物体时的样本抓取姿态。
步骤806,根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态。
步骤808,根据多帧样本抓手姿态生成第二样本数据。
步骤810,在第一样本数据中以及第二样本数据中采样得到目标样本数据。
步骤812,调用待训练的抓取模型。待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络。
步骤814,根据目标样本数据对待训练的策略网络进行训练,得到第一抓取轨迹,根据第一抓取轨迹以及目标样本数据计算待训练的策略网络的奖励损失值。
步骤816,根据目标样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练,输出奖励向量,根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取策略网络的时间差分损失值。
步骤818,根据时间差分损失值调整待训练的抓取模型的模型参数,直至计算的时间差分损失值达到训练停止条件,将当前的抓取策略模型确定为预先训练的抓取策略网络。
步骤820,获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据。
步骤822,根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。
步骤824,根据当前帧抓手点云数据确定目标点云区域,将目标点云区域离散为多个三维网格。
步骤826,对各三维网格进行采样,得到多个采样点。
步骤828,在当前帧抓手点云数据中确定各采样点对应的最近抓手点,以及在场景点云数据中确定各采样点对应的最近场景点。
步骤830,根据各采样点与对应的最近抓手点、最近场景点,以及预设点偏移计算关系,计算各采样点对应的偏移数据。
步骤832,根据偏移数据对相应采样点的位置进行调整。
步骤834,计算各调整后的采样点到当前帧抓手点云数据的抓手距离,以及各调整后的采样点到场景点云数据的场景距离。
步骤836,计算各调整后的采样点对应的抓手距离与相应场景距离之间的差值,得到各调整后的采样点对应的距离差。
步骤838,计算各调整后的采样点对应的距离差的乘积。
步骤840,当乘积小于或者等于零时,将对应的调整后的采样点确定为零值临界面上的点。
步骤842,在零值临界面上的点附近沿着零值临界面进行采样,直至零值临界面扩展完整,得到零值临界面的点集,将零值临界面的点集确定为当前场景的交互二分曲面的点集。
步骤844,通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据。
步骤846,根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据。
步骤848,根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
服务器可以利用现有的抓取生成工具先生成一些合理的抓取姿态,然后使用简单的启发式策略生成整个抓取接近过程的姿态序列。这个姿态序列由于存在穿透碰撞,是不完美示例。
在不完美示例的生成过程中,服务器可以利用现有的抓取生成工具获取抓手抓住样本物体时的样本抓取姿态。例如,现有的抓取生成工具可以是Graspit工具。通过Graspit采样足够多的抓取,挑选抓取质量高的抓取,然后去除掉和桌面碰撞的抓取。
根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态。具体地,可以先根据样本抓取姿态逆向生成远离样本物体的关键帧,根据关键帧来补充中间帧,来得到多帧样本抓手姿态,根据多帧样本抓手姿态生成第二样本数据,即完整的运动过程。进一步地,在生成关键帧的过程中,让抓手的手掌恢复到摊平状态(所有内部自由度关节值为0),记录此时抓手姿态为关键帧1,然后连接样本物体重心和手掌中心,让抓手沿着这个射线方向移动直到样本物体重心和手掌中心的距离达到关键距离阈值,记录此时抓手姿态为关键帧2。例如,关键距离阈值d=20cm。在补充中间帧的过程中,可以将关键帧2当作初始姿态,关键帧1作为终止姿态,通过关节值的线性插值的方式生成中间帧。然后将关键帧1作为初始姿态,将关键帧2作为终止姿态,同样通过关节值的线性插值的方式生成中间帧,在生成中间帧时,需要保持帧与帧之间的关节变化不超过动作上下界阈值。
第二样本数据生成过程的示意图可以如图9所示。其中,(a)获取抓手抓住样本物体时的样本抓取姿态,(b)根据样本抓取姿态逆向生成远离样本物体的关键帧,(c)根据关键帧来补充中间帧,得到多帧样本抓手姿态,根据多帧样本抓手姿态生成第二样本数据。
将生成的第二样本数据放入回放缓存,被强化学习算法使用。为了更好地平衡第二样本数据和强化学习生成自主探索数据,即第一样本数据的利用,以及减少内存开销,对SAC的回放缓存也进行了修改。具体地,采用两个回放缓存,第一回放缓存和第二回放缓存,第一回放缓存用于存储第一样本数据,大小为ns=1.0×105,第二回放缓存用于存储第二样本数据,大小为nd=5.0×104。在训练之前,将第二样本数据填满,然后持续记录总的转移数据生成数目nt(包括第二样本转移数据和强化学习算法生成的转移数据)。在每次抓取模型更新的时候,可以以nd/nt的概率从第一回放缓存中采样数据,以1-nd/nt的概率从第二回放缓存中采样数据,得到目标样本数据,通过目标样本数据对待训练的抓取模型进行训练。由于第二样本数据在概率上总是存在被使用的可能,通过将回放缓存分为两个,能够在训练初期避免第二样本数据还没充分应用就因为缓存满了被扔的问题。
在本实施例中,通过生成第二样本数据,即生成不完美示例来辅助加速训练,加速快了模型初期的训练速度。另外,通过以一种自然且快速的方式实时生成接近并抓取物体的轨迹,同时能够避免碰撞。对于给定的不同初始位置,可以为同一物体生成多种多样的抓取姿态还有抓取轨迹,并且生成轨迹的速度也可以达到近似实时的速度,如10-15帧/s。
下面对高自由度灵巧手抓取规划方法的可行性进行定性评估和定量评估。
一、定性评估
如图10所示,为高自由度灵巧手抓取规划方法的抓取过程可视化结果示意图。其中,包括4种不同物体的抓取案例。每种物体的抓取过程包括左侧的抓手初始姿态,以及整个接近过程中的中间状态的四帧,右侧是最终的抓取姿态。为了更好地展示运动序列,可以将每个抓取案例中整个过程中的运动轨迹用曲线来表示,用圆球表示采样帧所在的姿态。在观察这些结果时,可以发现上述高自由度灵巧手抓取规划方法能够从不同的初始姿态出发,抓取各种各样形状的物体。比如鲨鱼玩具、电钻、双目望远镜、大象模型。
如图11所示,为高自由度灵巧手抓取规划方法对同一物体从不同初始姿态出发的最终抓取结果示意图。对于每个抓取案例,展示了四个不同的初始姿态,对应初始姿态用球标注在对应的半球面上(左侧),各初始姿态对应的最终抓取结果依次展示在右侧的图上。可知,对于相同的物体形状,在给定不同的初始姿态时,可以产生多样的抓取姿态。
通过上述图10和图11,表明上述高自由度灵巧手抓取规划方法能够成功抓取具有不同几何的复杂物体,并且能够从不同的初始位置出发,同一物体生成不同的抓取姿态。
二、定量评估
可以通过实验来评估上述高自由度灵巧手抓取规划方法的量化结果,以展示其优势。需要注意的是,由于在解决灵巧手接近抓取问题上,目前尚未有类似的完整方法用作对比,用于对比的方法由已有的抓取规划方法和已有的抓取执行方法组合得到。对比的方法使用两步走的方案,第一步,给定物体生成抓取姿态。第二步,使用规划器规划从初始位置到达目标姿态的路径,使用的是PRM(probabilistic roadmap method,基于启发式节点增强策略的一种路径规划方法)算法。为了比较的公平性,将本申请的高自由度灵巧手抓取规划方法拆成了两步,将生成轨迹的最后一帧作为抓取姿态,和其他的抓取姿态生成方法进行对比。
将本申请的高自由度灵巧手抓取规划方法与现有的“Liu M, Pan Z, Xu K”等人提出的全局最优抓取规划的混合积分圆锥规划方法和Graspit方法进行对比,统计三种成功率,包括最终抓取、运动规划和全局。最终抓取(Final Grasp):不考虑运动过程,方法生成最终抓取姿态能否成功抓取物体。运动规划(Motion Planning):对方法生成的最终抓取,路径规划器能否找到从初始姿态到该姿态的路径。全局(Overall):整体方法能否成功规划轨迹,并且执行轨迹,最终抓取物体,其中桌面以及碰撞会导致部分关节的提前终止。
在YCB物体集合上测试算法。对于每个物体,设置24个不同的初始位置。此外,统计成功率的方式也有两种。“Avg”指的是所有测试物体的所有初始姿态成功的平均值。“Top1”指的是所有测试物体中,对于给定的初始姿态集合,有至少一个初始姿态成功的平均值。成功率统计结果如下表所示:
表1 成功率统计结果
Figure DEST_PATH_IMAGE094
上表展示了最终抓取、运动规划以及全局过程的实验结果。其中,本申请的高自由度灵巧手抓取规划方法的各项指标,都要比其他方法要高出很多。这说明本申请提出的方法不仅生成的最终抓取较准确,且抓取本身也考虑到了整个过程的可行性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的高自由度灵巧手抓取规划方法的高自由度灵巧手抓取规划装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个高自由度灵巧手抓取规划装置实施例中的具体限定可以参见上文中对于高自由度灵巧手抓取规划方法的限定,在此不再赘述。
在一个实施例中,如图12所示,提供了一种高自由度灵巧手抓取规划装置,包括:数据获取模块1202、抓手点云还原模块1204、曲面计算模块1206、抓手姿态预测模块1208和抓取轨迹生成模块1210,其中:
数据获取模块1202,用于获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据。
抓手点云还原模块1204,用于根据当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据。
曲面计算模块1206,用于根据当前帧抓手点云数据以及场景点云数据计算当前场景的交互二分曲面的点集。
抓手姿态预测模块1208,用于通过预先训练的抓取策略模型对交互二分曲面的点集以及当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;根据抓手姿态变化数据将当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住待抓取物体,得到目标帧抓手姿态数据;
抓取轨迹生成模块1210,用于根据从当前帧抓手点云数据到目标帧抓手姿态数据的多帧抓手姿态数据生成待抓取物体对应的物体抓取轨迹。
在一个实施例中,曲面计算模块1206还用于根据当前帧抓手点云数据确定目标点云区域,将目标点云区域离散为多个三维网格;对各三维网格进行采样,得到多个采样点;计算各采样点到当前帧抓手点云数据的抓手距离,以及各采样点到场景点云数据的场景距离;根据各采样点对应的抓手距离以及场景距离,计算当前场景的交互二分曲面的点集。
在一个实施例中,曲面计算模块1206还用于计算各采样点对应的抓手距离与相应场景距离之间的差值,得到各采样点对应的距离差;计算各采样点对应的距离差的乘积;当乘积小于或者等于零时,将对应的采样点确定为零值临界面上的点;在零值临界面上的点附近沿着零值临界面进行采样,直至零值临界面扩展完整,得到零值临界面的点集,将零值临界面的点集确定为当前场景的交互二分曲面的点集。
在一个实施例中,上述装置还包括:
采样点调整模块,用于在当前帧抓手点云数据中确定各采样点对应的最近抓手点,以及在场景点云数据中确定各采样点对应的最近场景点;根据各采样点与对应的最近抓手点、最近场景点,以及预设点偏移计算关系,计算各采样点对应的偏移数据;根据偏移数据对相应采样点的位置进行调整。
在一个实施例中,上述装置还包括:
训练模块,用于获取第一样本数据;调用待训练的抓取模型;待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络;根据第一样本数据对待训练的策略网络进行训练,得到第一抓取轨迹,根据第一抓取轨迹以及第一样本数据计算待训练的策略网络的奖励损失值;根据第一样本数据以及第一抓取轨迹对待训练的Q函数网络进行训练,输出奖励向量,根据奖励向量、奖励损失值以及第一抓取轨迹计算待训练的抓取模型的时间差分损失值;根据时间差分损失值调整待训练的抓取模型的模型参数,直至计算的时间差分损失值达到训练停止条件,将当前的策略网络确定为预先训练的抓取策略模型。
在一个实施例中,上述装置还包括:
示例生成模块,用于获取抓手抓住样本物体时的样本抓取姿态;根据样本抓取姿态逆向生成远离样本物体的多帧样本抓手姿态;根据多帧样本抓手姿态生成第二样本数据;在第一样本数据中以及第二样本数据中采样得到目标样本数据,目标样本数据用于对待训练的抓取模型进行训练。
上述高自由度灵巧手抓取规划装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设抓手结构文件、场景点云数据、抓手姿态数据、抓手点云数据、交互二分曲面的点集、物体抓取轨迹等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高自由度灵巧手抓取规划方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种高自由度灵巧手抓取规划方法,其特征在于,所述方法包括:
获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
根据所述当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
根据所述当前帧抓手点云数据以及所述场景点云数据计算所述当前场景的交互二分曲面的点集;
通过预先训练的抓取策略模型对所述交互二分曲面的点集以及所述当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;
根据所述抓手姿态变化数据将所述当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住所述待抓取物体,得到目标帧抓手姿态数据;
根据从所述当前帧抓手点云数据到所述目标帧抓手姿态数据的多帧抓手姿态数据生成所述待抓取物体对应的物体抓取轨迹。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前帧抓手点云数据以及所述场景点云数据计算所述当前场景的交互二分曲面的点集包括:
根据所述当前帧抓手点云数据确定目标点云区域,将所述目标点云区域离散为多个三维网格;
对各三维网格进行采样,得到多个采样点;
计算各采样点到所述当前帧抓手点云数据的抓手距离,以及各采样点到所述场景点云数据的场景距离;
根据各采样点对应的抓手距离以及场景距离,计算所述当前场景的交互二分曲面的点集。
3.根据权利要求2所述的方法,其特征在于,所述根据各采样点对应的抓手距离以及场景距离,计算所述当前场景的交互二分曲面的点集包括:
计算各采样点对应的抓手距离与相应场景距离之间的差值,得到各采样点对应的距离差;
计算各采样点对应的距离差的乘积;
当所述乘积小于或者等于零时,将对应的采样点确定为零值临界面上的点;
在所述零值临界面上的点附近沿着所述零值临界面进行采样,直至所述零值临界面扩展完整,得到所述零值临界面的点集,将所述零值临界面的点集确定为所述当前场景的交互二分曲面的点集。
4.根据权利要求2所述的方法,其特征在于,在所述对各三维网格进行采样,得到多个采样点之后,所述方法还包括:
在所述当前帧抓手点云数据中确定各采样点对应的最近抓手点,以及在所述场景点云数据中确定各采样点对应的最近场景点;
根据各采样点与对应的最近抓手点、最近场景点,以及预设点偏移计算关系,计算各采样点对应的偏移数据;
根据所述偏移数据对相应采样点的位置进行调整。
5.根据权利要求1至4任意一项所述的方法,其特征在于,在所述获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据之前,所述方法还包括:
获取第一样本数据;
调用待训练的抓取模型;所述待训练的抓取模型包括待训练的策略网络和待训练的Q函数网络;
根据所述第一样本数据对所述待训练的策略网络进行训练,得到第一抓取轨迹,根据所述第一抓取轨迹以及所述第一样本数据计算所述待训练的策略网络的奖励损失值;
根据所述第一样本数据以及所述第一抓取轨迹对所述待训练的Q函数网络进行训练,输出奖励向量,根据所述奖励向量、所述奖励损失值以及所述第一抓取轨迹计算所述待训练的抓取模型的时间差分损失值;
根据所述时间差分损失值调整所述待训练的抓取模型的模型参数,直至计算的时间差分损失值达到训练停止条件,将当前的策略网络确定为预先训练的抓取策略模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取抓手抓住样本物体时的样本抓取姿态;
根据所述样本抓取姿态逆向生成远离所述样本物体的多帧样本抓手姿态;
根据多帧样本抓手姿态生成第二样本数据;
在所述第一样本数据中以及所述第二样本数据中采样得到目标样本数据,所述目标样本数据用于对所述待训练的抓取模型进行训练。
7.一种高自由度灵巧手抓取规划装置,其特征在于,所述装置包括:
数据获取模块,用于获取包含待抓取物体的当前场景对应的场景点云数据以及当前帧抓手姿态数据;
抓手点云还原模块,用于根据所述当前帧抓手姿态数据和预设抓手结构文件还原当前帧抓手点云数据;
曲面计算模块,用于根据所述当前帧抓手点云数据以及所述场景点云数据计算所述当前场景的交互二分曲面的点集;
抓手姿态预测模块,用于通过预先训练的抓取策略模型对所述交互二分曲面的点集以及所述当前帧抓手姿态数据进行特征提取,根据提取的曲面特征数据以及抓手姿态特征数据预测从当前帧到下一帧的抓手姿态变化数据;根据所述抓手姿态变化数据将所述当前帧抓手姿态数据更新为下一帧抓手姿态数据,重复通过预先训练的抓手策略模型预测从当前帧到下一帧的抓手姿态变化数据,直至抓手抓住所述待抓取物体,得到目标帧抓手姿态数据;
抓取轨迹生成模块,用于根据从所述当前帧抓手点云数据到所述目标帧抓手姿态数据的多帧抓手姿态数据生成所述待抓取物体对应的物体抓取轨迹。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210763787.1A 2022-07-01 2022-07-01 高自由度灵巧手抓取规划方法、装置和计算机设备 Pending CN114820802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210763787.1A CN114820802A (zh) 2022-07-01 2022-07-01 高自由度灵巧手抓取规划方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210763787.1A CN114820802A (zh) 2022-07-01 2022-07-01 高自由度灵巧手抓取规划方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN114820802A true CN114820802A (zh) 2022-07-29

Family

ID=82523259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210763787.1A Pending CN114820802A (zh) 2022-07-01 2022-07-01 高自由度灵巧手抓取规划方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN114820802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116330290A (zh) * 2023-04-10 2023-06-27 大连理工大学 基于多智能体深度强化学习的五指灵巧机器手控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6244644B1 (en) * 1999-01-25 2001-06-12 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Compact dexterous robotic hand
US20180282132A1 (en) * 2015-04-01 2018-10-04 Konecranes Global Corporation Method, load handling device, computer program and computer program product for positioning gripping means
CN110298886A (zh) * 2019-07-01 2019-10-01 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN111844049A (zh) * 2020-08-04 2020-10-30 河北省科学院应用数学研究所 灵巧手抓取控制方法、装置及终端设备
CN111844101A (zh) * 2020-07-31 2020-10-30 中国科学技术大学 一种多指灵巧手分拣规划方法
CN112809679A (zh) * 2021-01-25 2021-05-18 清华大学深圳国际研究生院 可形变物体抓取的方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6244644B1 (en) * 1999-01-25 2001-06-12 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Compact dexterous robotic hand
US20180282132A1 (en) * 2015-04-01 2018-10-04 Konecranes Global Corporation Method, load handling device, computer program and computer program product for positioning gripping means
CN110298886A (zh) * 2019-07-01 2019-10-01 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN111844101A (zh) * 2020-07-31 2020-10-30 中国科学技术大学 一种多指灵巧手分拣规划方法
CN111844049A (zh) * 2020-08-04 2020-10-30 河北省科学院应用数学研究所 灵巧手抓取控制方法、装置及终端设备
CN112809679A (zh) * 2021-01-25 2021-05-18 清华大学深圳国际研究生院 可形变物体抓取的方法、装置及计算机可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAIMING HUANG 等: "Trigger-Based Dexterous Operation with Multimodal Sensors for Soft Robotic Hand", 《APPLIED SCIENCES》 *
HAONAN DUAN 等: "Robotics Dexterous Grasping: The Methods Based on Point Cloud and Deep Learning", 《FRONTIERS IN NEUROROBOTICS》 *
QIJIN SHE 等: "Learning High-DOF Reaching-and-Grasping via Dynamic Representation of Gripper-Object Interaction Supplemental Material", 《HTTPS://VCC.TECH/FILE/UPLOAD_FILE/IMAGE/RESEARCH/ATT202205301654/GRASPING_SUPP.PDF》 *
QIJIN SHE 等: "Learning High-DOF Reaching-and-Grasping via Dynamic Representation of Gripper-Object Interaction", 《ARXIV》 *
张蕾 等: "三指灵巧手抓取柔软织物运动轨迹规划", 《毛纺科技》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116330290A (zh) * 2023-04-10 2023-06-27 大连理工大学 基于多智能体深度强化学习的五指灵巧机器手控制方法
CN116330290B (zh) * 2023-04-10 2023-08-18 大连理工大学 基于多智能体深度强化学习的五指灵巧机器手控制方法

Similar Documents

Publication Publication Date Title
US11325252B2 (en) Action prediction networks for robotic grasping
CN110450153B (zh) 一种基于深度强化学习的机械臂物品主动拾取方法
CN108983978B (zh) 虚拟手控制方法及装置
Danielczuk et al. Linear push policies to increase grasp access for robot bin picking
EP3914424A1 (en) Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
Kiatos et al. Robust object grasping in clutter via singulation
CN109483534B (zh) 一种物体抓取方法、装置和系统
Sundaralingam et al. Geometric in-hand regrasp planning: Alternating optimization of finger gaits and in-grasp manipulation
CN114161408A (zh) 用于普通夹持器的抓持学习的高效数据生成
Zhang et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments
CN113752255B (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
JP2012056023A (ja) ロボットの動作生成システム及び動作生成方法
Valarezo Anazco et al. Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network
Aktaş et al. Deep dexterous grasping of novel objects from a single view
Mohammed et al. Pick and place objects in a cluttered scene using deep reinforcement learning
CN114820802A (zh) 高自由度灵巧手抓取规划方法、装置和计算机设备
Mayer et al. FFHNet: Generating multi-fingered robotic grasps for unknown objects in real-time
Kim et al. GraphDistNet: A graph-based collision-distance estimator for gradient-based trajectory optimization
Schaub et al. 6-DoF grasp detection for unknown objects
Natarajan et al. Aiding grasp synthesis for novel objects using heuristic-based and data-driven active vision methods
CN113290553A (zh) 轨迹生成装置、多连杆系统以及轨迹生成方法
CN114211490B (zh) 一种基于Transformer模型的机械臂抓手位姿预测方法
Zhang et al. Learning to dexterously pick or separate tangled-prone objects for industrial bin picking
CN114700949B (zh) 基于体素抓取网络的机械臂灵巧抓取规划方法
CN113436293B (zh) 一种基于条件生成式对抗网络的智能抓取图像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220729

RJ01 Rejection of invention patent application after publication