CN114211490A - 一种基于Transformer模型的机械臂抓手位姿预测方法 - Google Patents

一种基于Transformer模型的机械臂抓手位姿预测方法 Download PDF

Info

Publication number
CN114211490A
CN114211490A CN202111551147.6A CN202111551147A CN114211490A CN 114211490 A CN114211490 A CN 114211490A CN 202111551147 A CN202111551147 A CN 202111551147A CN 114211490 A CN114211490 A CN 114211490A
Authority
CN
China
Prior art keywords
layer
point cloud
hand grip
gripper
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111551147.6A
Other languages
English (en)
Other versions
CN114211490B (zh
Inventor
郑伟诗
李荣毅
刘志轩
陈自博
谢尚锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111551147.6A priority Critical patent/CN114211490B/zh
Publication of CN114211490A publication Critical patent/CN114211490A/zh
Application granted granted Critical
Publication of CN114211490B publication Critical patent/CN114211490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer模型的机械臂抓手位姿预测方法,包括如下步骤:构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。本发明将Transformer模型应用于机械臂抓手位姿预测技术领域,通过计算点云的全局特征和局部特征,并通过多头自注意力模块获取点云特征,提升了机械臂抓手位姿信息的预测性能和效率,增强了鲁棒性。

Description

一种基于Transformer模型的机械臂抓手位姿预测方法
技术领域
本发明涉及机械臂抓手位姿预测技术领域,具体涉及一种基于Transformer模型的机械臂抓手位姿预测方法。
背景技术
机械臂抓取一般分为两个步骤,即感知和规划。首先通过计算机来感知物体,获取抓取的物体信息,以及预测抓取物体的抓手位姿;接着根据预测出的位姿和机械臂的起始点,通过逆动力学的计算方式,规划出机械臂的运动路径,进而操控机械臂来进行物体的抓取。
关于机械臂抓手信息的预测,一直是计算机视觉领域的一个难点。2020年上海交通大学卢策吾团队在《GraspNet-1Billion:A Large-Scale Benchmark for GeneralObject Grasping》文章中创建了一个超过10亿抓手的大型数据集GraspNet-1Billion,并且还提出了一种端到端的抓手位姿预测模型,该模型将点云通过Pointnet++模块,获取下采样后的点云坐标以及点云特征,然后将其送到ApproachNet模块中预测抓手是否可抓取,接着再输入到OperationNet模块和ToleranceNet模块分别预测抓手的位姿以及抓手的鲁棒性,但预测性能和效率较低。
Transformer模型是2017年由Google学者提出的基于自注意力的神经网络,该模型一开始是用于自然语言处理领域。但近年来的研究表明,该模型在计算机视觉等领域都取得了不错的效果,与传统的CNN相比,Transformer可以同时从相互关系中提取出更重要的信息,其中Transformer在3D点云的也有了相应的应用。2020年底清华大学胡事民团队在《PCT:PointCloud Transformer》文章中提出了PCT(PointCloud Transformer)模型,将Transformer网络应用在了点云上,将点云通过四层的自注意力层获得特征编码,再将其应用在分类以及分割任务上;同时,牛津大学的ZhaoHengshuang等学者在《PointTransformer》文章中提出了PT(PointTransformer)模型,他们的模型采用的是U型网络的Transformer,将点云进行下采样得到特征编码,再进行上采样来进行分类和分割任务;但还没有将其应用在机械臂抓取的视觉领域。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于Transformer模型的机械臂抓手位姿预测方法,通过Pointnet++模块对点云进行下采样并提取场景中每个点的几何特征,再输入Transformer模块中,提取点云的局部特征和全局特征,经过多头自注意力模块获取点云特征,最后根据点云特征在预测模块中实现了对机械臂抓手位姿信息的预测,提升了机械臂抓手位姿信息预测的性能和效率。
本发明的目的可以通过如下技术方案实现:
本发明提供了一种基于Transformer模型的机械臂抓手位姿预测方法,包括以下步骤:
构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;
将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;
将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;
将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。
作为优选的技术方案,所述抓手位姿预测模型是基于GraspNet 1-Billion数据集,使用Adam优化器在GPU上进行训练得到。
作为优选的技术方案,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,…,pN};
将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k′,3)维度的坐标信息,其中k′为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。
作为优选的技术方案,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:
将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征fg,公式为:
fg=MLP(Concat(f,PE(p)))
其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
将全局特征fg输入Transformer模型中多头自注意力模块,得到自注意力特征fattn,公式为:
Figure BDA0003417228240000031
其中,Wq为可学习的查询矩阵,Wk为关键点矩阵,Wv为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C×s)维度的局部特征fl,公式为:
Figure BDA0003417228240000032
Figure BDA0003417228240000033
其中,Max()表示最大池化层;
将自注意力特征fattn和局部特征fl拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征fo,公式为:
fo=MLP(Concat(fattn,fl))+f。
作为优选的技术方案,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;
所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;
所述抓手状态为布尔值,用于判断该抓手是否可抓取;
所述抓手中心点即为抓手两指尖的中心点位置;
所述抓手旋转方向定义为
Figure BDA0003417228240000034
表示抓取方向和Z轴的夹角,
Figure BDA0003417228240000035
表示抓取方向在X-Y平面上的投影和X轴的夹角,
Figure BDA0003417228240000036
表示沿抓取方向的平面旋转角度;
所述抓手宽度表示抓手两指间的距离;
所述抓手深度表示物体的点云和抓手中心点沿抓手抓取方向上的距离;
所述抓手分数为(0,1]区间内的数值,分数越高,表示该抓手抓取的性能越好。
作为优选的技术方案,所述预测模块包括状态层、第一方向层、第二方向层、第三方向层、宽度层、深度层及分数层;
所述状态层包括一个一维卷积层;
所述第一方向层依次包括一维卷积层、ReLU激活函数层和一维卷积层;
所述第二方向层、第三方向层、宽度层、深度层及分数层的结构与第一方向层相同。
作为优选的技术方案,所述将点云特征输入预测模块对机械臂抓手的位姿信息进行预测,具体为:
预测抓手状态时,将点云特征fo输入预测模块的状态层,经过一个一维卷积层映射到维度为(N,2)的2维向量中,转换为二分类问题,判断抓手是否可抓取;
预测抓手旋转方向时,采用分类和回归的方式将点云特征fo分别输入到预测模块的3个方向层中来预测出θ123
预测抓手宽度时,将点云特征fo输入预测模块的宽度层,获得预测宽度;
预测抓手深度时,将点云特征fo输入预测模块的深度层,获得预测深度;
预测抓手分数时,将点云特征fo输入预测模块的分数层,获得预测分数;
整合预测模块各层的预测结果,得到抓手位姿信息;
对于预测出的N个抓手位姿信息,根据抓手状态值判断该抓手是否可抓取,如果该抓手为不可抓取则丢弃,根据剩下的抓手位姿信息得到可抓取抓手的位姿信息,并从可抓取抓手的位姿信息选取抓手分数前n高的抓手位姿信息作为最终抓手位姿信息。
作为优选的技术方案,所述预测抓手旋转方向具体为:
对于每一个抓手的旋转方向
Figure BDA0003417228240000041
Figure BDA0003417228240000042
的范围设置在
Figure BDA0003417228240000043
的范围设置在[0,2π],将
Figure BDA0003417228240000044
的范围设置为[0,π];
预测时分别把
Figure BDA0003417228240000045
分成大小为δ的存储桶,并计算出对应的桶类别和残值,公式为:
Figure BDA0003417228240000046
Figure BDA0003417228240000047
其中,
Figure BDA0003417228240000048
表示不同
Figure BDA0003417228240000049
所对应的桶类别,
Figure BDA00034172282400000410
表示不同
Figure BDA00034172282400000411
所对应的残值;
分别对
Figure BDA0003417228240000051
的桶类别做分类,对残值做预测,得到最终抓手的旋转方向。
作为优选的技术方案,所述分别对
Figure BDA0003417228240000052
的桶类别做分类,对残值做预测,得到最终抓手的旋转方向,具体为:
Figure BDA0003417228240000053
的桶类别做分类时,将点云特征fo依次经过预测模块第一方向层的一维卷积层、ReLU激活函数及一维卷积层,映射成(N,3)维度,选取维度最大的索引值即为所属的桶类别,记为
Figure BDA0003417228240000054
Figure BDA0003417228240000055
的残值做预测时,将点云特征fo依次经过预测模块第一方向层的一维卷积层、ReLU激活函数及一维卷积层,映射成(N,1)维度,获得
Figure BDA0003417228240000056
的残值记为
Figure BDA0003417228240000057
在预测模块第二方向层上采用与预测
Figure BDA0003417228240000058
相同的方法对
Figure BDA0003417228240000059
的桶类别和残值进行预测,在预测模块第三方向层上采用与预测
Figure BDA00034172282400000510
相同的方法对
Figure BDA00034172282400000511
的桶类别和残值进行预测,得到
Figure BDA00034172282400000512
对应的旋转方向
Figure BDA00034172282400000513
公式表示为:
Figure BDA00034172282400000514
最终抓手的旋转方向表示为:
Figure BDA00034172282400000515
作为优选的技术方案,所述预测抓手宽度时,将点云特征fo依次经过宽度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手宽度;
所述预测抓手深度时,将点云特征fo依次经过深度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手深度;
所述预测抓手分数时,将点云特征fo依次经过分数层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手分数。
本发明与现有技术相比,具有如下优点和有益效果:
1、创新型的将Transformer模型应用在机械臂抓手位姿预测技术领域,基于自注意力机制计算点云的全局特征与局部特征,更有效地获取点云特征,降低了计算复杂度,有利于抓手位姿信息的预测;
2、提出的抓手位姿预测模型结构简洁,并使用GraspNet 1-Billion数据集进行预训练,提高了预测性能和模型鲁棒性;
3、采用存储桶技术预测抓手旋转方向,降低了计算难度,提高了预测效率,保证了预测结果的有效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于Transformer模型的机械臂抓手位姿预测方法的流程图;
图2为本发明实施例中Transformer模型的结构图;
图3为本发明实施例中预测模块的结构示意图;
图4(a)为本发明实施例中一个场景点云图,图4(b)为本发明实施例预测结果图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
机械臂的抓手,一般可以分为两指抓手、吸盘或者人手等等,本发明实施例中采用两指抓手,即依靠一对平行的手指进行抓取。抓手位姿一般有许多的表现形式,本发明实施例中采用7-DOF(DegreeOfFreedom,7自由度)的抓手表示方式,分别是抓手中心点坐标,旋转角度和抓手宽度。
如图1所示,本实施例提供了一种基于Transformer模型的机械臂抓手位姿预测方法,包括以下步骤:
S1、构建抓手位姿预测模型,包括Pointnet++模块、Transformer模块及预测模块;
本实施例中,抓手位姿预测模型是基于GraspNet 1-Billion数据集,使用初始学习率为0.005的Adam优化器在一个NVIDIARTX 3080GPU上训练得到,训练周期为20。
GraspNet 1-Billion数据集包含190个多物体场景,每个场景有512张由两个不同的深度相机收集的RGBD图片,其中100个场景是训练集,90个场景是测试集;使用GraspNetl-Billion数据集进行训练,能提高抓手位姿预测模型的预测性能和效率。
S2、将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
将场景点云输入Pointnet++模型中,使用最远点距离采样算法(Farthest PointSampling,简称FPS)对输入的场景点云进行下采样至N个点,得到点云坐标p={p1,p2,...,pN};
将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k′,3)维度的坐标信息,其中k′为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度;
本实施例中,下采样点数N=2048,球采样半径r=0.02,球内获得的坐标数目k′=64,特征维度C=128。
S3、如图2所示,将下采样的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征,具体为:
对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征fg,公式为:
fg=MLP(Concat(f,PE(p)))
其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
将全局特征fg输入Transformer模型中多头自注意力模块,得到自注意力特征fattn,公式为:
Figure BDA0003417228240000071
其中,Wq为可学习的查询矩阵,Wk为关键点矩阵,Wv为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C×s)维度的局部特征fl,公式为:
Figure BDA0003417228240000081
Figure BDA0003417228240000082
其中,Max()表示最大池化层;
将自注意力特征fattn和局部特征fl拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征fo,公式为:
fo=MLP(Concat(fattn,fl))+f;
本实施例中,最近邻算法的邻居节点个数k,分别设置为32,64,重复s=2次。
S4、将点云特征输入预测模块对机械臂抓手的位姿信息进行预测,具体为:
预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;抓手状态为布尔值,用于判断该抓手是否可抓取;抓手中心点即为抓手两指尖的中心点位置;抓手旋转方向定义为
Figure BDA0003417228240000083
表示抓取方向和Z轴的夹角,
Figure BDA0003417228240000084
表示抓取方向在X-Y平面上的投影和X轴的夹角,
Figure BDA0003417228240000085
表示沿抓取方向的平面旋转角度;抓手宽度表示抓手两指间的距离;抓手深度表示物体的点云和抓手中心点沿抓手抓取方向上的距离;抓手分数为(0,1]区间内的数值,分数越高,表示该抓手抓取的性能越好。
更具体的,如图3所示,预测模型包括状态层、第一方向层、第二方向层、第三方向层、宽度层、深度层及分数层;状态层包括一个一维卷积层;第一方向层依次包括一维卷积层、ReLU激活函数层和一维卷积层;第二方向层、第三方向层、宽度层、深度层及分数层的结构与第一方向层相同。
更具体的,预测抓手状态时,将点云特征fo输入预测模块的状态层,经过一个一维卷积层映射到维度为(N,2)的2维向量中,转换为二分类问题,判断抓手是否可抓取;
预测抓手旋转方向时,采用分类和回归的方式将点云特征fo分别输入预测模块的3个方向层中来预测出θ123
预测抓手宽度时,将点云特征fo输入预测模块的宽度层,获得预测宽度;
预测抓手深度时,将点云特征fo输入预测模块的深度层,获得预测深度;
预测抓手分数时,将点云特征fo输入预测模块的分数层,获得预测分数;
整合预测模块各层的预测结果,得到抓手位姿信息;
对于预测出的N个抓手位姿信息,如果该抓手为不可抓取则丢弃,根据剩下的抓手位姿信息得到可抓取抓手的位姿信息并从中选取抓手分数前n高的抓手位姿信息得到最终抓手位姿信息。
更具体的,预测抓手旋转方向具体为:
在实际的抓取中,大部分都是从上往下抓取的视角,因此,对于每一个抓手的旋转方向
Figure BDA0003417228240000091
Figure BDA0003417228240000092
的范围设置在
Figure BDA0003417228240000093
的范围设置在[0,2π],由于本实施例采用两指抓手,故将
Figure BDA0003417228240000094
的范围设置为[0,π];
为了方便预测,分别把
Figure BDA0003417228240000095
分成大小为δ的存储桶,并计算出对应的桶类别和残值,公式为:
Figure BDA0003417228240000096
Figure BDA0003417228240000097
其中,
Figure BDA0003417228240000098
表示不同
Figure BDA0003417228240000099
所对应的桶类别,
Figure BDA00034172282400000910
表示不同
Figure BDA00034172282400000911
所对应的残值;
分别对
Figure BDA00034172282400000912
的桶类别做分类,对残值做预测,得到最终抓手的旋转方向。
本实施例中,存储桶大小
Figure BDA00034172282400000913
更具体的,对
Figure BDA00034172282400000914
的桶类别做分类时,将点云特征fo依次经过预测模块第一方向层的一维卷积层、ReLU激活函数及一维卷积层,映射成(N,3)维度,选取维度最大的值即为所属的桶类别,记为
Figure BDA00034172282400000915
本实施例中,根据
Figure BDA00034172282400000916
的范围,所对应桶分类预测出的维度分别为3,12,6,选取维度最大的索引值为所属的桶类别。
Figure BDA00034172282400000921
的残值做预测时,将点云特征fo依次经过预测模块第一方向层的一维卷积层、ReLU激活函数及一维卷积层,映射成(N,1)维度,获得
Figure BDA00034172282400000917
的残值记为
Figure BDA00034172282400000918
在预测模块第二方向层上采用与预测
Figure BDA00034172282400000919
相同的方法对
Figure BDA00034172282400000920
的桶类别和残值进行预测,在预测模块第三方向层上采用与预测
Figure BDA0003417228240000101
相同的方法对
Figure BDA0003417228240000102
的桶类别和残值进行预测,得到
Figure BDA0003417228240000103
对应的旋转方向
Figure BDA0003417228240000104
公式表示为:
Figure BDA0003417228240000105
最终抓手的旋转方向表示为:
Figure BDA0003417228240000106
更具体的,预测抓手宽度时,将点云特征fo依次经过宽度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手宽度;
预测抓手深度时,将点云特征fo依次经过深度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手深度;
预测抓手分数时,将点云特征fo依次经过分数层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手分数。
本实施例中,将图4(a)中的场景点云输入抓手位姿预测模型中进行预测,输出得到图4(b)中的抓手分数最高的前30个抓手位姿,得到的抓手位姿准确有效。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,包括以下步骤:
构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;
将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;
将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;
将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。
2.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述抓手位姿预测模型是基于GraspNet 1-Billion数据集,使用Adam优化器在GPU上进行训练得到。
3.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,...,pN};
将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k′,3)维度的坐标信息,其中k′为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。
4.根据权利要求3所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:
将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征fg,公式为:
fg=MLP(Concat(f,PE(p)))
其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
将全局特征fg输入Transformer模型中多头自注意力模块,得到自注意力特征fattn,公式为:
Figure FDA0003417228230000021
其中,Wq为可学习的查询矩阵,Wk为关键点矩阵,Wv为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C×s)维度的局部特征fl,公式为:
Figure FDA0003417228230000022
Figure FDA0003417228230000023
其中,Max()表示最大池化层;
将自注意力特征fattn和局部特征fl拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征fo,公式为:
fo=MLP(Concat(fattn,fl))+f。
5.根据权利要求4所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;
所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;
所述抓手状态为布尔值,用于判断该抓手是否可抓取;
所述抓手中心点即为抓手两指尖的中心点位置;
所述抓手旋转方向定义为
Figure FDA0003417228230000024
Figure FDA0003417228230000025
表示抓取方向和Z轴的夹角,
Figure FDA0003417228230000026
表示抓取方向在X-Y平面上的投影和X轴的夹角,
Figure FDA0003417228230000027
表示沿抓取方向的平面旋转角度;
所述抓手宽度表示抓手两指间的距离;
所述抓手深度表示物体的点云和抓手中心点沿抓手抓取方向上的距离;
所述抓手分数为(0,1]区间内的数值,分数越高,表示该抓手抓取的性能越好。
6.根据权利要求5所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述预测模块包括状态层、第一方向层、第二方向层、第三方向层、宽度层、深度层及分数层;
所述状态层包括一个一维卷积层;
所述第一方向层依次包括一维卷积层、ReLU激活函数层和一维卷积层;
所述第二方向层、第三方向层、宽度层、深度层及分数层的结构与第一方向层相同。
7.根据权利要求6所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述将点云特征输入预测模块对机械臂抓手的位姿信息进行预测,具体为:
预测抓手状态时,将点云特征fo输入预测模块的状态层,经过一个一维卷积层映射到维度为(N,2)的2维向量中,转换为二分类问题,判断抓手是否可抓取;
预测抓手旋转方向时,采用分类和回归的方式将点云特征fo分别输入到预测模块的3个方向层中来预测出θ1,θ2,θ3
预测抓手宽度时,将点云特征fo输入预测模块的宽度层,获得预测宽度;
预测抓手深度时,将点云特征fo输入预测模块的深度层,获得预测深度;
预测抓手分数时,将点云特征fo输入预测模块的分数层,获得预测分数;
整合预测模块各层的预测结果,得到抓手位姿信息;
对于预测出的N个抓手位姿信息,根据抓手状态值判断该抓手是否可抓取,如果该抓手为不可抓取则丢弃,根据剩下的抓手位姿信息得到可抓取抓手的位姿信息,并从可抓取抓手的位姿信息选取抓手分数前n高的抓手位姿信息作为最终抓手位姿信息。
8.根据权利要求7所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述预测抓手旋转方向具体为:
对于每一个抓手的旋转方向
Figure FDA0003417228230000031
Figure FDA0003417228230000032
的范围设置在
Figure FDA0003417228230000033
Figure FDA0003417228230000034
的范围设置在[0,2π],将
Figure FDA0003417228230000035
的范围设置为[0,π];
预测时分别把
Figure FDA0003417228230000036
分成大小为δ的存储桶,并计算出对应的桶类别和残值,公式为:
Figure FDA0003417228230000037
Figure FDA0003417228230000038
其中,
Figure FDA0003417228230000039
表示不同
Figure FDA00034172282300000310
所对应的桶类别,
Figure FDA00034172282300000311
表示不同
Figure FDA00034172282300000312
所对应的残值;
分别对
Figure FDA00034172282300000313
的桶类别做分类,对残值做预测,得到最终抓手的旋转方向。
9.根据权利要求8所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述分别对
Figure FDA0003417228230000041
的桶类别做分类,对残值做预测,得到最终抓手的旋转方向,具体为:
Figure FDA0003417228230000042
的桶类别做分类时,将点云特征fo依次经过预测模块第一方向层的一维卷积层、ReLU激活函数及一维卷积层,映射成(N,3)维度,选取维度最大的索引值即为所属的桶类别,记为
Figure FDA0003417228230000043
Figure FDA0003417228230000044
的残值做预测时,将点云特征fo依次经过预测模块第一方向层的一维卷积层、ReLU激活函数及一维卷积层,映射成(N,1)维度,获得
Figure FDA0003417228230000045
的残值记为
Figure FDA0003417228230000046
在预测模块第二方向层上采用与预测
Figure FDA0003417228230000047
相同的方法对
Figure FDA0003417228230000048
的桶类别和残值进行预测,在预测模块第三方向层上采用与预测
Figure FDA0003417228230000049
相同的方法对
Figure FDA00034172282300000410
的桶类别和残值进行预测,得到
Figure FDA00034172282300000411
对应的旋转方向
Figure FDA00034172282300000412
公式表示为:
Figure FDA00034172282300000413
最终抓手的旋转方向表示为:
Figure FDA00034172282300000414
10.根据权利要求7所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述预测抓手宽度时,将点云特征fo依次经过宽度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手宽度;
所述预测抓手深度时,将点云特征fo依次经过深度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手深度;
所述预测抓手分数时,将点云特征fo依次经过分数层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手分数。
CN202111551147.6A 2021-12-17 2021-12-17 一种基于Transformer模型的机械臂抓手位姿预测方法 Active CN114211490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111551147.6A CN114211490B (zh) 2021-12-17 2021-12-17 一种基于Transformer模型的机械臂抓手位姿预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111551147.6A CN114211490B (zh) 2021-12-17 2021-12-17 一种基于Transformer模型的机械臂抓手位姿预测方法

Publications (2)

Publication Number Publication Date
CN114211490A true CN114211490A (zh) 2022-03-22
CN114211490B CN114211490B (zh) 2024-01-05

Family

ID=80703533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111551147.6A Active CN114211490B (zh) 2021-12-17 2021-12-17 一种基于Transformer模型的机械臂抓手位姿预测方法

Country Status (1)

Country Link
CN (1) CN114211490B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546302A (zh) * 2022-10-20 2022-12-30 上海人工智能创新中心 一种局部几何建模的点云数据解算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140039681A1 (en) * 2012-08-03 2014-02-06 Stryker Corporation Surgical Manipulator Capable of Controlling a Surgical Instrument in Multiple Modes
CN111652928A (zh) * 2020-05-11 2020-09-11 上海交通大学 三维点云中物体抓取位姿检测方法
CN112633330A (zh) * 2020-12-06 2021-04-09 西安电子科技大学 点云分割方法、系统、介质、计算机设备、终端及应用
CN113128591A (zh) * 2021-04-14 2021-07-16 中山大学 基于自监督学习的旋转鲁棒的点云分类方法
CN113159232A (zh) * 2021-05-21 2021-07-23 西南大学 一种三维目标分类、分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140039681A1 (en) * 2012-08-03 2014-02-06 Stryker Corporation Surgical Manipulator Capable of Controlling a Surgical Instrument in Multiple Modes
CN111652928A (zh) * 2020-05-11 2020-09-11 上海交通大学 三维点云中物体抓取位姿检测方法
CN112633330A (zh) * 2020-12-06 2021-04-09 西安电子科技大学 点云分割方法、系统、介质、计算机设备、终端及应用
CN113128591A (zh) * 2021-04-14 2021-07-16 中山大学 基于自监督学习的旋转鲁棒的点云分类方法
CN113159232A (zh) * 2021-05-21 2021-07-23 西南大学 一种三维目标分类、分割方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546302A (zh) * 2022-10-20 2022-12-30 上海人工智能创新中心 一种局部几何建模的点云数据解算方法

Also Published As

Publication number Publication date
CN114211490B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Ni et al. Pointnet++ grasping: Learning an end-to-end spatial grasp generation algorithm from sparse point clouds
Schmidt et al. Grasping of unknown objects using deep convolutional neural networks based on depth images
Guo et al. Object discovery and grasp detection with a shared convolutional neural network
CN110222580B (zh) 一种基于三维点云的人手三维姿态估计方法和装置
Shao et al. Suction grasp region prediction using self-supervised learning for object picking in dense clutter
JP4162095B2 (ja) 遮蔽された部分の表面を対称性の算出により見込み復元するための技術
Lundell et al. Ddgc: Generative deep dexterous grasping in clutter
Qian et al. Grasp pose detection with affordance-based task constraint learning in single-view point clouds
CN110785268A (zh) 用于语义机器人抓取的机器学习方法和装置
Sarantopoulos et al. Split deep q-learning for robust object singulation
Yang et al. Robotic grasping through combined image-based grasp proposal and 3d reconstruction
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
CN113752255B (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
CN114299150A (zh) 一种深度6d位姿估计网络模型及工件位姿估计方法
Khan et al. PackerRobo: Model-based robot vision self supervised learning in CART
Mohammed et al. Pick and place objects in a cluttered scene using deep reinforcement learning
Chen et al. Towards generalization and data efficient learning of deep robotic grasping
Yin et al. Overview of robotic grasp detection from 2D to 3D
Laili et al. Custom grasping: A region-based robotic grasping detection method in industrial cyber-physical systems
CN115082498A (zh) 一种机器人抓取位姿估计方法、装置、设备及存储介质
Li et al. Robust form-closure grasp planning for 4-pin gripper using learning-based attractive region in environment
CN114211490A (zh) 一种基于Transformer模型的机械臂抓手位姿预测方法
Mishra et al. Reorientdiff: Diffusion model based reorientation for object manipulation
Ni et al. Learning an end-to-end spatial grasp generation and refinement algorithm from simulation
Yang et al. Autonomous tool construction with gated graph neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant