CN114211490A - 一种基于Transformer模型的机械臂抓手位姿预测方法 - Google Patents
一种基于Transformer模型的机械臂抓手位姿预测方法 Download PDFInfo
- Publication number
- CN114211490A CN114211490A CN202111551147.6A CN202111551147A CN114211490A CN 114211490 A CN114211490 A CN 114211490A CN 202111551147 A CN202111551147 A CN 202111551147A CN 114211490 A CN114211490 A CN 114211490A
- Authority
- CN
- China
- Prior art keywords
- layer
- point cloud
- hand grip
- gripper
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 29
- 230000004913 activation Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/1605—Simulation of manipulator lay-out, design, modelling of manipulator
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0014—Image feed-back for automatic industrial control, e.g. robot with camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer模型的机械臂抓手位姿预测方法,包括如下步骤:构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。本发明将Transformer模型应用于机械臂抓手位姿预测技术领域,通过计算点云的全局特征和局部特征,并通过多头自注意力模块获取点云特征,提升了机械臂抓手位姿信息的预测性能和效率,增强了鲁棒性。
Description
技术领域
本发明涉及机械臂抓手位姿预测技术领域,具体涉及一种基于Transformer模型的机械臂抓手位姿预测方法。
背景技术
机械臂抓取一般分为两个步骤,即感知和规划。首先通过计算机来感知物体,获取抓取的物体信息,以及预测抓取物体的抓手位姿;接着根据预测出的位姿和机械臂的起始点,通过逆动力学的计算方式,规划出机械臂的运动路径,进而操控机械臂来进行物体的抓取。
关于机械臂抓手信息的预测,一直是计算机视觉领域的一个难点。2020年上海交通大学卢策吾团队在《GraspNet-1Billion:A Large-Scale Benchmark for GeneralObject Grasping》文章中创建了一个超过10亿抓手的大型数据集GraspNet-1Billion,并且还提出了一种端到端的抓手位姿预测模型,该模型将点云通过Pointnet++模块,获取下采样后的点云坐标以及点云特征,然后将其送到ApproachNet模块中预测抓手是否可抓取,接着再输入到OperationNet模块和ToleranceNet模块分别预测抓手的位姿以及抓手的鲁棒性,但预测性能和效率较低。
Transformer模型是2017年由Google学者提出的基于自注意力的神经网络,该模型一开始是用于自然语言处理领域。但近年来的研究表明,该模型在计算机视觉等领域都取得了不错的效果,与传统的CNN相比,Transformer可以同时从相互关系中提取出更重要的信息,其中Transformer在3D点云的也有了相应的应用。2020年底清华大学胡事民团队在《PCT:PointCloud Transformer》文章中提出了PCT(PointCloud Transformer)模型,将Transformer网络应用在了点云上,将点云通过四层的自注意力层获得特征编码,再将其应用在分类以及分割任务上;同时,牛津大学的ZhaoHengshuang等学者在《PointTransformer》文章中提出了PT(PointTransformer)模型,他们的模型采用的是U型网络的Transformer,将点云进行下采样得到特征编码,再进行上采样来进行分类和分割任务;但还没有将其应用在机械臂抓取的视觉领域。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于Transformer模型的机械臂抓手位姿预测方法,通过Pointnet++模块对点云进行下采样并提取场景中每个点的几何特征,再输入Transformer模块中,提取点云的局部特征和全局特征,经过多头自注意力模块获取点云特征,最后根据点云特征在预测模块中实现了对机械臂抓手位姿信息的预测,提升了机械臂抓手位姿信息预测的性能和效率。
本发明的目的可以通过如下技术方案实现:
本发明提供了一种基于Transformer模型的机械臂抓手位姿预测方法,包括以下步骤:
构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;
将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;
将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;
将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。
作为优选的技术方案,所述抓手位姿预测模型是基于GraspNet 1-Billion数据集,使用Adam优化器在GPU上进行训练得到。
作为优选的技术方案,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,…,pN};
将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k′,3)维度的坐标信息,其中k′为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。
作为优选的技术方案,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:
将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征fg,公式为:
fg=MLP(Concat(f,PE(p)))
其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
将全局特征fg输入Transformer模型中多头自注意力模块,得到自注意力特征fattn,公式为:
其中,Wq为可学习的查询矩阵,Wk为关键点矩阵,Wv为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C×s)维度的局部特征fl,公式为:
其中,Max()表示最大池化层;
将自注意力特征fattn和局部特征fl拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征fo,公式为:
fo=MLP(Concat(fattn,fl))+f。
作为优选的技术方案,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;
所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;
所述抓手状态为布尔值,用于判断该抓手是否可抓取;
所述抓手中心点即为抓手两指尖的中心点位置;
所述抓手宽度表示抓手两指间的距离;
所述抓手深度表示物体的点云和抓手中心点沿抓手抓取方向上的距离;
所述抓手分数为(0,1]区间内的数值,分数越高,表示该抓手抓取的性能越好。
作为优选的技术方案,所述预测模块包括状态层、第一方向层、第二方向层、第三方向层、宽度层、深度层及分数层;
所述状态层包括一个一维卷积层;
所述第一方向层依次包括一维卷积层、ReLU激活函数层和一维卷积层;
所述第二方向层、第三方向层、宽度层、深度层及分数层的结构与第一方向层相同。
作为优选的技术方案,所述将点云特征输入预测模块对机械臂抓手的位姿信息进行预测,具体为:
预测抓手状态时,将点云特征fo输入预测模块的状态层,经过一个一维卷积层映射到维度为(N,2)的2维向量中,转换为二分类问题,判断抓手是否可抓取;
预测抓手旋转方向时,采用分类和回归的方式将点云特征fo分别输入到预测模块的3个方向层中来预测出θ1,θ2,θ3;
预测抓手宽度时,将点云特征fo输入预测模块的宽度层,获得预测宽度;
预测抓手深度时,将点云特征fo输入预测模块的深度层,获得预测深度;
预测抓手分数时,将点云特征fo输入预测模块的分数层,获得预测分数;
整合预测模块各层的预测结果,得到抓手位姿信息;
对于预测出的N个抓手位姿信息,根据抓手状态值判断该抓手是否可抓取,如果该抓手为不可抓取则丢弃,根据剩下的抓手位姿信息得到可抓取抓手的位姿信息,并从可抓取抓手的位姿信息选取抓手分数前n高的抓手位姿信息作为最终抓手位姿信息。
作为优选的技术方案,所述预测抓手旋转方向具体为:
作为优选的技术方案,所述预测抓手宽度时,将点云特征fo依次经过宽度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手宽度;
所述预测抓手深度时,将点云特征fo依次经过深度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手深度;
所述预测抓手分数时,将点云特征fo依次经过分数层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手分数。
本发明与现有技术相比,具有如下优点和有益效果:
1、创新型的将Transformer模型应用在机械臂抓手位姿预测技术领域,基于自注意力机制计算点云的全局特征与局部特征,更有效地获取点云特征,降低了计算复杂度,有利于抓手位姿信息的预测;
2、提出的抓手位姿预测模型结构简洁,并使用GraspNet 1-Billion数据集进行预训练,提高了预测性能和模型鲁棒性;
3、采用存储桶技术预测抓手旋转方向,降低了计算难度,提高了预测效率,保证了预测结果的有效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于Transformer模型的机械臂抓手位姿预测方法的流程图;
图2为本发明实施例中Transformer模型的结构图;
图3为本发明实施例中预测模块的结构示意图;
图4(a)为本发明实施例中一个场景点云图,图4(b)为本发明实施例预测结果图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
机械臂的抓手,一般可以分为两指抓手、吸盘或者人手等等,本发明实施例中采用两指抓手,即依靠一对平行的手指进行抓取。抓手位姿一般有许多的表现形式,本发明实施例中采用7-DOF(DegreeOfFreedom,7自由度)的抓手表示方式,分别是抓手中心点坐标,旋转角度和抓手宽度。
如图1所示,本实施例提供了一种基于Transformer模型的机械臂抓手位姿预测方法,包括以下步骤:
S1、构建抓手位姿预测模型,包括Pointnet++模块、Transformer模块及预测模块;
本实施例中,抓手位姿预测模型是基于GraspNet 1-Billion数据集,使用初始学习率为0.005的Adam优化器在一个NVIDIARTX 3080GPU上训练得到,训练周期为20。
GraspNet 1-Billion数据集包含190个多物体场景,每个场景有512张由两个不同的深度相机收集的RGBD图片,其中100个场景是训练集,90个场景是测试集;使用GraspNetl-Billion数据集进行训练,能提高抓手位姿预测模型的预测性能和效率。
S2、将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
将场景点云输入Pointnet++模型中,使用最远点距离采样算法(Farthest PointSampling,简称FPS)对输入的场景点云进行下采样至N个点,得到点云坐标p={p1,p2,...,pN};
将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k′,3)维度的坐标信息,其中k′为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度;
本实施例中,下采样点数N=2048,球采样半径r=0.02,球内获得的坐标数目k′=64,特征维度C=128。
S3、如图2所示,将下采样的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征,具体为:
对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征fg,公式为:
fg=MLP(Concat(f,PE(p)))
其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
将全局特征fg输入Transformer模型中多头自注意力模块,得到自注意力特征fattn,公式为:
其中,Wq为可学习的查询矩阵,Wk为关键点矩阵,Wv为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C×s)维度的局部特征fl,公式为:
其中,Max()表示最大池化层;
将自注意力特征fattn和局部特征fl拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征fo,公式为:
fo=MLP(Concat(fattn,fl))+f;
本实施例中,最近邻算法的邻居节点个数k,分别设置为32,64,重复s=2次。
S4、将点云特征输入预测模块对机械臂抓手的位姿信息进行预测,具体为:
预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;抓手状态为布尔值,用于判断该抓手是否可抓取;抓手中心点即为抓手两指尖的中心点位置;抓手旋转方向定义为表示抓取方向和Z轴的夹角,表示抓取方向在X-Y平面上的投影和X轴的夹角,表示沿抓取方向的平面旋转角度;抓手宽度表示抓手两指间的距离;抓手深度表示物体的点云和抓手中心点沿抓手抓取方向上的距离;抓手分数为(0,1]区间内的数值,分数越高,表示该抓手抓取的性能越好。
更具体的,如图3所示,预测模型包括状态层、第一方向层、第二方向层、第三方向层、宽度层、深度层及分数层;状态层包括一个一维卷积层;第一方向层依次包括一维卷积层、ReLU激活函数层和一维卷积层;第二方向层、第三方向层、宽度层、深度层及分数层的结构与第一方向层相同。
更具体的,预测抓手状态时,将点云特征fo输入预测模块的状态层,经过一个一维卷积层映射到维度为(N,2)的2维向量中,转换为二分类问题,判断抓手是否可抓取;
预测抓手旋转方向时,采用分类和回归的方式将点云特征fo分别输入预测模块的3个方向层中来预测出θ1,θ2,θ3;
预测抓手宽度时,将点云特征fo输入预测模块的宽度层,获得预测宽度;
预测抓手深度时,将点云特征fo输入预测模块的深度层,获得预测深度;
预测抓手分数时,将点云特征fo输入预测模块的分数层,获得预测分数;
整合预测模块各层的预测结果,得到抓手位姿信息;
对于预测出的N个抓手位姿信息,如果该抓手为不可抓取则丢弃,根据剩下的抓手位姿信息得到可抓取抓手的位姿信息并从中选取抓手分数前n高的抓手位姿信息得到最终抓手位姿信息。
更具体的,预测抓手旋转方向具体为:
更具体的,预测抓手宽度时,将点云特征fo依次经过宽度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手宽度;
预测抓手深度时,将点云特征fo依次经过深度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手深度;
预测抓手分数时,将点云特征fo依次经过分数层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手分数。
本实施例中,将图4(a)中的场景点云输入抓手位姿预测模型中进行预测,输出得到图4(b)中的抓手分数最高的前30个抓手位姿,得到的抓手位姿准确有效。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,包括以下步骤:
构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;
将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;
将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;
将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。
2.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述抓手位姿预测模型是基于GraspNet 1-Billion数据集,使用Adam优化器在GPU上进行训练得到。
3.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,...,pN};
将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k′,3)维度的坐标信息,其中k′为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。
4.根据权利要求3所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:
将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征fg,公式为:
fg=MLP(Concat(f,PE(p)))
其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
将全局特征fg输入Transformer模型中多头自注意力模块,得到自注意力特征fattn,公式为:
其中,Wq为可学习的查询矩阵,Wk为关键点矩阵,Wv为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C×s)维度的局部特征fl,公式为:
其中,Max()表示最大池化层;
将自注意力特征fattn和局部特征fl拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征fo,公式为:
fo=MLP(Concat(fattn,fl))+f。
5.根据权利要求4所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;
所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;
所述抓手状态为布尔值,用于判断该抓手是否可抓取;
所述抓手中心点即为抓手两指尖的中心点位置;
所述抓手宽度表示抓手两指间的距离;
所述抓手深度表示物体的点云和抓手中心点沿抓手抓取方向上的距离;
所述抓手分数为(0,1]区间内的数值,分数越高,表示该抓手抓取的性能越好。
6.根据权利要求5所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述预测模块包括状态层、第一方向层、第二方向层、第三方向层、宽度层、深度层及分数层;
所述状态层包括一个一维卷积层;
所述第一方向层依次包括一维卷积层、ReLU激活函数层和一维卷积层;
所述第二方向层、第三方向层、宽度层、深度层及分数层的结构与第一方向层相同。
7.根据权利要求6所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述将点云特征输入预测模块对机械臂抓手的位姿信息进行预测,具体为:
预测抓手状态时,将点云特征fo输入预测模块的状态层,经过一个一维卷积层映射到维度为(N,2)的2维向量中,转换为二分类问题,判断抓手是否可抓取;
预测抓手旋转方向时,采用分类和回归的方式将点云特征fo分别输入到预测模块的3个方向层中来预测出θ1,θ2,θ3;
预测抓手宽度时,将点云特征fo输入预测模块的宽度层,获得预测宽度;
预测抓手深度时,将点云特征fo输入预测模块的深度层,获得预测深度;
预测抓手分数时,将点云特征fo输入预测模块的分数层,获得预测分数;
整合预测模块各层的预测结果,得到抓手位姿信息;
对于预测出的N个抓手位姿信息,根据抓手状态值判断该抓手是否可抓取,如果该抓手为不可抓取则丢弃,根据剩下的抓手位姿信息得到可抓取抓手的位姿信息,并从可抓取抓手的位姿信息选取抓手分数前n高的抓手位姿信息作为最终抓手位姿信息。
10.根据权利要求7所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述预测抓手宽度时,将点云特征fo依次经过宽度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手宽度;
所述预测抓手深度时,将点云特征fo依次经过深度层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手深度;
所述预测抓手分数时,将点云特征fo依次经过分数层的一维卷积层,ReLU激活函数及一维卷积层,映射成(N,1)维度来预测每个点的抓手分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111551147.6A CN114211490B (zh) | 2021-12-17 | 2021-12-17 | 一种基于Transformer模型的机械臂抓手位姿预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111551147.6A CN114211490B (zh) | 2021-12-17 | 2021-12-17 | 一种基于Transformer模型的机械臂抓手位姿预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114211490A true CN114211490A (zh) | 2022-03-22 |
CN114211490B CN114211490B (zh) | 2024-01-05 |
Family
ID=80703533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111551147.6A Active CN114211490B (zh) | 2021-12-17 | 2021-12-17 | 一种基于Transformer模型的机械臂抓手位姿预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114211490B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546302A (zh) * | 2022-10-20 | 2022-12-30 | 上海人工智能创新中心 | 一种局部几何建模的点云数据解算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140039681A1 (en) * | 2012-08-03 | 2014-02-06 | Stryker Corporation | Surgical Manipulator Capable of Controlling a Surgical Instrument in Multiple Modes |
CN111652928A (zh) * | 2020-05-11 | 2020-09-11 | 上海交通大学 | 三维点云中物体抓取位姿检测方法 |
CN112633330A (zh) * | 2020-12-06 | 2021-04-09 | 西安电子科技大学 | 点云分割方法、系统、介质、计算机设备、终端及应用 |
CN113128591A (zh) * | 2021-04-14 | 2021-07-16 | 中山大学 | 基于自监督学习的旋转鲁棒的点云分类方法 |
CN113159232A (zh) * | 2021-05-21 | 2021-07-23 | 西南大学 | 一种三维目标分类、分割方法 |
-
2021
- 2021-12-17 CN CN202111551147.6A patent/CN114211490B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140039681A1 (en) * | 2012-08-03 | 2014-02-06 | Stryker Corporation | Surgical Manipulator Capable of Controlling a Surgical Instrument in Multiple Modes |
CN111652928A (zh) * | 2020-05-11 | 2020-09-11 | 上海交通大学 | 三维点云中物体抓取位姿检测方法 |
CN112633330A (zh) * | 2020-12-06 | 2021-04-09 | 西安电子科技大学 | 点云分割方法、系统、介质、计算机设备、终端及应用 |
CN113128591A (zh) * | 2021-04-14 | 2021-07-16 | 中山大学 | 基于自监督学习的旋转鲁棒的点云分类方法 |
CN113159232A (zh) * | 2021-05-21 | 2021-07-23 | 西南大学 | 一种三维目标分类、分割方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546302A (zh) * | 2022-10-20 | 2022-12-30 | 上海人工智能创新中心 | 一种局部几何建模的点云数据解算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114211490B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ni et al. | Pointnet++ grasping: Learning an end-to-end spatial grasp generation algorithm from sparse point clouds | |
Schmidt et al. | Grasping of unknown objects using deep convolutional neural networks based on depth images | |
Guo et al. | Object discovery and grasp detection with a shared convolutional neural network | |
CN110222580B (zh) | 一种基于三维点云的人手三维姿态估计方法和装置 | |
Shao et al. | Suction grasp region prediction using self-supervised learning for object picking in dense clutter | |
JP4162095B2 (ja) | 遮蔽された部分の表面を対称性の算出により見込み復元するための技術 | |
Lundell et al. | Ddgc: Generative deep dexterous grasping in clutter | |
Qian et al. | Grasp pose detection with affordance-based task constraint learning in single-view point clouds | |
CN110785268A (zh) | 用于语义机器人抓取的机器学习方法和装置 | |
Sarantopoulos et al. | Split deep q-learning for robust object singulation | |
Yang et al. | Robotic grasping through combined image-based grasp proposal and 3d reconstruction | |
Tang et al. | Learning collaborative pushing and grasping policies in dense clutter | |
CN113752255B (zh) | 一种基于深度强化学习的机械臂六自由度实时抓取方法 | |
CN114299150A (zh) | 一种深度6d位姿估计网络模型及工件位姿估计方法 | |
Khan et al. | PackerRobo: Model-based robot vision self supervised learning in CART | |
Mohammed et al. | Pick and place objects in a cluttered scene using deep reinforcement learning | |
Chen et al. | Towards generalization and data efficient learning of deep robotic grasping | |
Yin et al. | Overview of robotic grasp detection from 2D to 3D | |
Laili et al. | Custom grasping: A region-based robotic grasping detection method in industrial cyber-physical systems | |
CN115082498A (zh) | 一种机器人抓取位姿估计方法、装置、设备及存储介质 | |
Li et al. | Robust form-closure grasp planning for 4-pin gripper using learning-based attractive region in environment | |
CN114211490A (zh) | 一种基于Transformer模型的机械臂抓手位姿预测方法 | |
Mishra et al. | Reorientdiff: Diffusion model based reorientation for object manipulation | |
Ni et al. | Learning an end-to-end spatial grasp generation and refinement algorithm from simulation | |
Yang et al. | Autonomous tool construction with gated graph neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |