CN110909644A - 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 - Google Patents

基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 Download PDF

Info

Publication number
CN110909644A
CN110909644A CN201911113469.5A CN201911113469A CN110909644A CN 110909644 A CN110909644 A CN 110909644A CN 201911113469 A CN201911113469 A CN 201911113469A CN 110909644 A CN110909644 A CN 110909644A
Authority
CN
China
Prior art keywords
network
point cloud
target object
mechanical arm
end effector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911113469.5A
Other languages
English (en)
Inventor
朱倩梅
王海梅
陈飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911113469.5A priority Critical patent/CN110909644A/zh
Publication of CN110909644A publication Critical patent/CN110909644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于强化学习的机械臂末端执行器抓取姿态调整方法及系统,方法包括:初始化机械臂及执行器的位姿;采集目标的点云信息;构建actor‑critic强化学习网络模型;利用点云信息训练网络模型,并不断调整执行器抓取姿态,直至抓取到目标。系统用于实现上述方法。本发明采用强化学习网络,无需考虑目标的几何形状、摆放姿态,通过pointnet网络学习点云信息特征,再根据全连接层求出的三维向量进行抓取,该方法对任意目标具有良好的适应性。此外,本发明构建的强化学习网络采用在线学习方式,对于同一目标的不同姿态或者不同目标,在学习其点云信息特征的同时不断进行抓取,并在抓取之后更新网络参数。如此学习与试验同步进行,使得强化学习网络更全面。

Description

基于强化学习的机械臂末端执行器抓取姿态调整方法及系统
技术领域
本发明涉及机械臂抓取作业领域,特别涉及一种基于强化学习的机械臂末端执行器抓取姿态调整方法及系统。
背景技术
随着工业自动化和智能化的发展,自主作业机器人在工业生产车间的应用越来越广泛。目标抓取是十分常见的机器人作业项目,自主抓取的流程包括目标的位姿识别,机械臂的逆运动学运算,机械臂末端执行器的抓取姿态求解和实际抓取操作几个部分。
针对机械臂末端执行器的抓取姿态求解,传统的机械臂末端姿态求解方法大多是依赖于目标的三维姿态,即首先要求解抓取目标在空间中的位置和姿态矩阵,根据设定的抓取点,求解对应的手抓姿态矩阵实现抓取。这类方法总是能够依据目标的位姿和固定的抓取点精确计算出末端执行器的姿态矩阵,实现抓取。但是这类方法的精确度严重依赖复杂的集合变换运算,通常当目标物体形状规则且摆放姿态相对固定时能获得比较好的抓取效果。而对于拥有复杂形状或者摆放姿态随机的目标物体具有较差的适应性,这种情况下,可能计算出的手抓姿态矩阵误差较大,甚至找不到合适的抓取点而导致抓取失败。
发明内容
本发明的目的在于提供一种在三维视觉的引导实现机械臂末端执行器抓取姿态自动调整的方法及系统。
实现本发明目的的技术解决方案为:一种基于强化学习的机械臂末端执行器抓取姿态调整方法,包括以下步骤:
步骤1、初始化机械臂及其末端执行器的位姿;
步骤2、初始化深度相机,利用深度相机采集包含目标物体的场景的点云信息,并对点云信息进行预处理获取目标物体的点云信息;
步骤3、构建actor-critic强化学习网络模型;
步骤4、利用目标物体的点云信息训练所述actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体。
进一步地,步骤3所述构建actor-critic强化学习网络模型,具体包括:
步骤3-1、构建actor网络,该网络包括:基于PointNet的特征提取层和一个全连接层,具体包括依次设置的:
两个空间变换网络层:第一空间变换网络层,用于调整目标物体点云的空间姿态;第二空间变换网络层,用于对第一空间变换网络层输出的特征进行对齐;
两个共享卷积层:第一共享卷积层,其卷积核大小为1*3;第二共享卷积层,其卷积核大小为1*1;
一个池化层,用于对共享卷积层输出的特征进行降维处理,获得n维特征向量;
全连接层,用于根据降维处理后的特征向量获取一个三维向量,作为机械臂末端执行器的三维姿态向量;
所述actor网络的输入为目标物体的点云信息,包括N个三维向量,其输出为机械臂末端执行器的三维姿态向量A;
步骤3-2、构建critic网络,该网络包括:基于PointNet的特征提取层和一个全连接层,具体包括依次设置的:
两个空间变换网络层:第三空间变换网络层,用于调整目标物体点云的空间姿态;第四空间变换网络层,用于对第三空间变换网络层输出的特征进行对齐;
两个共享卷积层:第三共享卷积层,其卷积核大小为1*3;第四共享卷积层,其卷积核大小为1*1;
一个池化层,用于对共享卷积层输出的特征进行降维处理,获得n维特征向量;
拼接单元,用于对所述n维特征向量与所述三维姿态向量A进行拼接,获得n+3维特征向量;
全连接层,用于根据所述n+3维特征向量获取用于评价三维姿态向量A的奖励值R';
所述critic网络的输入包括目标物体的点云信息和所述三维姿态向量A,其输出为用于评价三维姿态向量A的奖励值R'。
进一步地,步骤4所述利用目标物体的点云信息训练所述actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体,具体包括:
步骤4-1、进行正向传播:
(1)将所述目标物体的点云信息输入至所述actor网络,获得三维姿态向量A,记为H:
H=(xr,yr,zr)
式中,(xr,yr,zr)表示工具坐标系x'、y'、z'三个坐标轴分别与参考坐标系的x、y、z三个坐标轴的夹角;
(2)将所述三维姿态向量H以及环境信息S输入至所述critic网络,获得奖励值R';
(3)自定义预设多个抓取目标物体的机械臂末端执行器三维姿态Hj=(xj,yj,zj),根据所述三维姿态向量H=(xr,yr,zr)和Hj=(xj,yj,zj)求取最佳奖励值reward;
步骤4-2、进行反向传播:
(1)更新critic网络参数:
定义损失函数loss为:
loss=|reward-R'|
对损失函数loss进行梯度下降运算,更新critic网络参数;
(2)更新actor网络参数:
定义R'为:
R'(s)=f(H,S)
对-R'(s)进行梯度下降运算,更新actor网络参数;
步骤4-3、机械臂末端执行器以三维姿态向量H抓取目标物体,若抓取到目标物体,则结束抓取姿态调整过程;否则,重复步骤4-1和4-2直至抓取到目标物体。
进一步地,所述根据三维姿态向量H=(xr,yr,zr)和Hj=(xj,yj,zj)求取最佳奖励值reward,具体包括:
求取H与每一个Hj的差值Dr
Dr=|xj-xr|+|yj-yr|+|zj-zr|
对所有的差值Dr进行归一化即获得最佳奖励值reward:
Figure BDA0002273415490000031
式中,Dmax表示所有差值Dr中的最大值。
一种基于强化学习的机械臂末端执行器抓取姿态调整系统,所述系统包括:
初始化模块,用于初始化机械臂及其末端执行器的位姿,同时用于初始化深度相机;
点云信息采集模块,用于利用深度相机采集包含目标物体的场景的点云信息,并对点云信息进行预处理获取目标物体的点云信息;
网络模型构建模块,用于构建actor-critic强化学习网络模型;
姿态调整模块,用于利用目标物体的点云信息训练所述actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体。
进一步地,所述网络模型构建模块,包括:
actor网络构建单元,用于构建包括基于PointNet的特征提取层和一个全连接层的actor网络;所述基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层;
critic网络构建单元,用于构建包括基于PointNet的特征提取层和一个全连接层的critic网络;所述基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层以及拼接单元;所述拼接单元用于对critic网络中池化层输出的特征向量与actor网络输出的特征向量进行拼接。
进一步地,所述姿态调整模块,包括:
正向传播单元,用于将所述目标物体的点云信息输入至所述actor网络,获得三维姿态向量A;用于将所述目标物体的点云信息、三维姿态向量H输入至所述critic网络,获得奖励值R';同时还用于求取最佳奖励值reward;
反向传播单元,用于对reward和R'构建的损失函数loss进行梯度下降运算,以更新critic网络参数;用于对三维姿态向量H和环境信息S构成的R'(s)函数进行梯度下降运算,以更新actor网络参数;
姿态调整判断单元,用于根据机械臂末端执行器以三维姿态向量H抓取目标物体的结果,判断是终止执行器抓取姿态调整过程还是继续运行所述正向传播单元和反向单元。
本发明与现有技术相比,其显著优点为:1)本发明采用强化学习网络,无需考虑目标物体的几何形状、摆放姿态,通过pointnet网络直接学习物体点云信息的特征,再根据全连接层求出的三维向量进行抓取操作,该姿态调整方法对任意目标具有良好的适应性;2)本发明构建的强化学习网络通过在线学习的方式进行学习,对于同一目标的不同姿态或者不同的目标,在学习其点云信息特征的同时不断进行试验抓取,并在每一次抓取之后更新网络参数。如此在学习中实验,在实验中学习,使得强化学习网络越来越全面。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为基于强化学习的机械臂末端执行器抓取姿态调整方法的流程图。
图2为本发明一个实施例中初始化机械臂末端执行器的位姿示意图。
图3为actor-critic强化学习网络示意图。
图4为本发明一个实施例中构建的actor网络示意图。
图5为本发明一个实施例中构建的critic网络示意图。
图6为本发明一个实施例中actor-critic强化学习网络训练流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
结合图1,本发明提供了一种基于强化学习的机械臂末端执行器抓取姿态调整方法,包括以下步骤:
步骤1、初始化机械臂及其末端执行器的位姿;
步骤2、初始化深度相机,利用深度相机采集包含目标物体的场景的点云信息,并对点云信息进行预处理获取目标物体的点云信息;
步骤3、构建actor-critic强化学习网络模型;
步骤4、利用目标物体的点云信息训练actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体。
进一步地,在其中一个实施例中,结合图2,步骤1初始化机械臂末端执行器的位姿,具体包括:
步骤1-1、将机器人基坐标系作为参考坐标系O-xyz;
步骤1-2、以参考坐标系O-xyz为基准,建立工具坐标系O'-x'y'z',具体包括:
以机械臂末端中心为圆心O',工具坐标系x'轴与执行器手爪夹持平面垂直,且其正方向与参考坐标系y轴的正方向一致,y'轴与执行器手爪夹持平面平行,且其正方向与参考坐标系x轴的正方向一致,z'轴垂直于O'-x'y'平面,且其正方向与参考坐标系z轴的负方向一致。
进一步示例性地,在其中一个实施例中,步骤2中对点云信息进行预处理具体包括:去除噪声、稀疏处理、分割目标物体的点云信息。
进一步地,在其中一个实施例中,结合图3至图5,步骤3中构建actor-critic强化学习网络模型,具体包括:
步骤3-1、构建actor网络,该网络包括:基于PointNet的特征提取层和一个全连接层,具体包括依次设置的:
两个空间变换网络层:第一空间变换网络层,用于调整目标物体点云的空间姿态;第二空间变换网络层,用于对第一空间变换网络层输出的特征进行对齐;
两个共享卷积层:第一共享卷积层,其卷积核大小为1*3;第二共享卷积层,其卷积核大小为1*1;
一个池化层,用于对共享卷积层输出的特征进行降维处理,获得n维特征向量;
全连接层,用于根据降维处理后的特征向量获取一个三维向量,作为机械臂末端执行器的三维姿态向量;
actor网络的输入为目标物体的点云信息,包括N个三维向量,其输出为机械臂末端执行器的三维姿态向量A;
步骤3-2、构建critic网络,该网络包括:基于PointNet的特征提取层和一个全连接层,具体包括依次设置的:
两个空间变换网络层(STN):第三空间变换网络层,用于调整目标物体点云的空间姿态;第四空间变换网络层,用于对第三空间变换网络层输出的特征进行对齐;
两个共享卷积层(MLP):第三共享卷积层,其卷积核大小为1*3;第四共享卷积层,其卷积核大小为1*1;
一个池化层(maxpool),用于对共享卷积层输出的特征进行降维处理,获得n维特征向量;
拼接单元,用于对n维特征向量与三维姿态向量A进行拼接,获得n+3维特征向量;
全连接层,用于根据n+3维特征向量获取用于评价三维姿态向量A的奖励值R';
critic网络的输入包括目标物体的点云信息和三维姿态向量A,其输出为用于评价三维姿态向量A的奖励值R'。
进一步地,在其中一个实施例中,结合图6,步骤4中利用目标物体的点云信息训练actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体,具体包括:
步骤4-1、进行正向传播:
(1)将目标物体的点云信息输入至actor网络,获得三维姿态向量A,记为H:
H=(xr,yr,zr)
式中,(xr,yr,zr)表示工具坐标系x'、y'、z'三个坐标轴分别与参考坐标系的x、y、z三个坐标轴的夹角;
(2)将三维姿态向量H以及环境信息S输入至critic网络,获得奖励值R';
(3)自定义预设多个抓取目标物体的机械臂末端执行器三维姿态Hj=(xj,yj,zj),根据三维姿态向量H=(xr,yr,zr)和Hj=(xj,yj,zj)求取最佳奖励值reward;
步骤4-2、进行反向传播:
(1)更新critic网络参数:
定义损失函数loss为:
loss=|reward-R'|
对损失函数loss进行梯度下降运算,更新critic网络参数;
(2)更新actor网络参数:
定义R'为:
R'(s)=f(H,S)
对-R'(s)进行梯度下降运算,更新actor网络参数;
步骤4-3、机械臂末端执行器以三维姿态向量H抓取目标物体,若抓取到目标物体,则结束抓取姿态调整过程;否则,重复步骤4-1和4-2直至抓取到目标物体。
进一步地,在其中一个实施例中,上述根据三维姿态向量H=(xr,yr,zr)和Hj=(xj,yj,zj)求取最佳奖励值reward,具体包括:
求取H与每一个Hj的差值Dr
Dr=|xj-xr|+|yj-yr|+|zj-zr|
对所有的差值Dr进行归一化即获得最佳奖励值reward:
Figure BDA0002273415490000081
式中,Dmax表示所有差值Dr中的最大值。
本发明提出了一种基于强化学习的机械臂末端执行器抓取姿态调整系统,该系统包括:
初始化模块,用于初始化机械臂及其末端执行器的位姿,同时用于初始化深度相机;
点云信息采集模块,用于利用深度相机采集包含目标物体的场景的点云信息,并对点云信息进行预处理获取目标物体的点云信息;
网络模型构建模块,用于构建actor-critic强化学习网络模型;
姿态调整模块,用于利用目标物体的点云信息训练actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体。
进一步地,在其中一个实施例中,上述网络模型构建模块,包括:
actor网络构建单元,用于构建包括基于PointNet的特征提取层和一个全连接层的actor网络;基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层;
critic网络构建单元,用于构建包括基于PointNet的特征提取层和一个全连接层的critic网络;基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层以及拼接单元;拼接单元用于对critic网络中池化层输出的特征向量与actor网络输出的特征向量进行拼接。
进一步地,在其中一个实施例中,上述姿态调整模块,包括:
正向传播单元,用于将目标物体的点云信息输入至actor网络,获得三维姿态向量A;用于将目标物体的点云信息、三维姿态向量H输入至critic网络,获得奖励值R';同时还用于求取最佳奖励值reward;
反向传播单元,用于对reward和R'构建的损失函数loss进行梯度下降运算,以更新critic网络参数;用于对三维姿态向量H和环境信息S构成的R'(s)函数进行梯度下降运算,以更新actor网络参数;
姿态调整判断单元,用于根据机械臂末端执行器以三维姿态向量H抓取目标物体的结果,判断是终止执行器抓取姿态调整过程还是继续运行正向传播单元和反向单元。
进一步地,在其中一个实施例中,上述损失函数loss为:
loss=|reward-R'|
上述R'(s)函数为:
R'(s)=f(H,S)。
本发明采用强化学习网络,无需考虑目标物体的几何形状、摆放姿态,通过pointnet网络直接学习物体点云信息的特征,再根据全连接层求出的三维向量进行抓取操作,该姿态调整方法对任意目标具有良好的适应性。此外,本发明构建的强化学习网络采用在线学习的方式进行学习,对于同一目标的不同姿态或者不同的目标,在学习其点云信息特征的同时不断进行试验抓取,并在每一次抓取之后更新网络参数。如此在学习中实验,在实验中学习,使得强化学习网络越来越强大、越来越全面。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于强化学习的机械臂末端执行器抓取姿态调整方法,其特征在于,包括以下步骤:
步骤1、初始化机械臂及其末端执行器的位姿;
步骤2、初始化深度相机,利用深度相机采集包含目标物体的场景的点云信息,并对点云信息进行预处理获取目标物体的点云信息;
步骤3、构建actor-critic强化学习网络模型;
步骤4、利用目标物体的点云信息训练所述actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体。
2.根据权利要求1所述的基于强化学习的机械臂末端执行器抓取姿态调整方法,其特征在于,步骤1所述初始化机械臂末端执行器的位姿,具体包括:
步骤1-1、将机器人基坐标系作为参考坐标系O-xyz;
步骤1-2、以所述参考坐标系O-xyz为基准,建立工具坐标系O'-x'y'z',具体包括:
以机械臂末端中心为圆心O',工具坐标系x'轴与执行器手爪夹持平面垂直,且其正方向与参考坐标系y轴的正方向一致,y'轴与执行器手爪夹持平面平行,且其正方向与参考坐标系x轴的正方向一致,z'轴垂直于O'-x'y'平面,且其正方向与参考坐标系z轴的负方向一致。
3.根据权利要求1所述的基于强化学习的机械臂末端执行器抓取姿态调整方法,其特征在于,步骤2所述对点云信息进行预处理具体包括:去除噪声、稀疏处理以及分割目标物体的点云信息。
4.根据权利要求1所述的基于强化学习的机械臂末端执行器抓取姿态调整方法,其特征在于,步骤3所述构建actor-critic强化学习网络模型,具体包括:
步骤3-1、构建actor网络,该网络包括:基于PointNet的特征提取层和一个全连接层,具体包括依次设置的:
两个空间变换网络层:第一空间变换网络层,用于调整目标物体点云的空间姿态;第二空间变换网络层,用于对第一空间变换网络层输出的特征进行对齐;
两个共享卷积层:第一共享卷积层,其卷积核大小为1*3;第二共享卷积层,其卷积核大小为1*1;
一个池化层,用于对共享卷积层输出的特征进行降维处理,获得n维特征向量;
全连接层,用于根据降维处理后的特征向量获取一个三维向量,作为机械臂末端执行器的三维姿态向量;
所述actor网络的输入为目标物体的点云信息,包括N个三维向量,其输出为机械臂末端执行器的三维姿态向量A;
步骤3-2、构建critic网络,该网络包括:基于PointNet的特征提取层和一个全连接层,具体包括依次设置的:
两个空间变换网络层:第三空间变换网络层,用于调整目标物体点云的空间姿态;第四空间变换网络层,用于对第三空间变换网络层输出的特征进行对齐;
两个共享卷积层:第三共享卷积层,其卷积核大小为1*3;第四共享卷积层,其卷积核大小为1*1;
一个池化层,用于对共享卷积层输出的特征进行降维处理,获得n维特征向量;
拼接单元,用于对所述n维特征向量与所述三维姿态向量A进行拼接,获得n+3维特征向量;
全连接层,用于根据所述n+3维特征向量获取用于评价三维姿态向量A的奖励值R';
所述critic网络的输入包括目标物体的点云信息和所述三维姿态向量A,其输出为用于评价三维姿态向量A的奖励值R'。
5.根据权利要求1或4所述的基于强化学习的机械臂末端执行器抓取姿态调整方法,其特征在于,步骤4所述利用目标物体的点云信息训练所述actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体,具体包括:
步骤4-1、进行正向传播:
(1)将所述目标物体的点云信息输入至所述actor网络,获得三维姿态向量A,记为H:
H=(xr,yr,zr)
式中,(xr,yr,zr)表示工具坐标系x'、y'、z'三个坐标轴分别与参考坐标系的x、y、z三个坐标轴的夹角;
(2)将所述三维姿态向量H以及环境信息S输入至所述critic网络,获得奖励值R';
(3)自定义预设多个抓取目标物体的机械臂末端执行器三维姿态Hj=(xj,yj,zj),根据所述三维姿态向量H=(xr,yr,zr)和Hj=(xj,yj,zj)求取最佳奖励值reward;
步骤4-2、进行反向传播:
(1)更新critic网络参数:
定义损失函数loss为:
loss=|reward-R'|
对损失函数loss进行梯度下降运算,更新critic网络参数;
(2)更新actor网络参数:
定义R'为:
R'(s)=f(H,S)
对-R'(s)进行梯度下降运算,更新actor网络参数;
步骤4-3、机械臂末端执行器以三维姿态向量H抓取目标物体,若抓取到目标物体,则结束抓取姿态调整过程;否则,重复步骤4-1和4-2直至抓取到目标物体。
6.根据权利要求5所述的基于强化学习的机械臂末端执行器抓取姿态调整方法,其特征在于,所述根据三维姿态向量H=(xr,yr,zr)和Hj=(xj,yj,zj)求取最佳奖励值reward,具体包括:
求取H与每一个Hj的差值Dr
Dr=|xj-xr|+|yj-yr|+|zj-zr|
对所有的差值Dr进行归一化即获得最佳奖励值reward:
Figure FDA0002273415480000031
式中,Dmax表示所有差值Dr中的最大值。
7.一种基于强化学习的机械臂末端执行器抓取姿态调整系统,其特征在于,所述系统包括:
初始化模块,用于初始化机械臂及其末端执行器的位姿,同时用于初始化深度相机;
点云信息采集模块,用于利用深度相机采集包含目标物体的场景的点云信息,并对点云信息进行预处理获取目标物体的点云信息;
网络模型构建模块,用于构建actor-critic强化学习网络模型;
姿态调整模块,用于利用目标物体的点云信息训练所述actor-critic强化学习网络模型,并由此不断调整机械臂末端执行器抓取姿态,直至执行器抓取到目标物体。
8.根据权利要求7所述的基于强化学习的机械臂末端执行器抓取姿态调整系统,其特征在于,所述网络模型构建模块,包括:
actor网络构建单元,用于构建包括基于PointNet的特征提取层和一个全连接层的actor网络;所述基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层;
critic网络构建单元,用于构建包括基于PointNet的特征提取层和一个全连接层的critic网络;所述基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层以及拼接单元;所述拼接单元用于对critic网络中池化层输出的特征向量与actor网络输出的特征向量进行拼接。
9.根据权利要求7所述的基于强化学习的机械臂末端执行器抓取姿态调整系统,其特征在于,所述姿态调整模块,包括:
正向传播单元,用于将所述目标物体的点云信息输入至所述actor网络,获得三维姿态向量A;用于将所述目标物体的点云信息、三维姿态向量H输入至所述critic网络,获得奖励值R';同时还用于求取最佳奖励值reward;
反向传播单元,用于对reward和R'构建的损失函数loss进行梯度下降运算,以更新critic网络参数;用于对三维姿态向量H和环境信息S构成的R'(s)函数进行梯度下降运算,以更新actor网络参数;
姿态调整判断单元,用于根据机械臂末端执行器以三维姿态向量H抓取目标物体的结果,判断是终止执行器抓取姿态调整过程还是继续运行所述正向传播单元和反向单元。
10.根据权利要求9所述的基于强化学习的机械臂末端执行器抓取姿态调整系统,其特征在于,所述损失函数loss为:
loss=|reward-R'|
所述R'(s)函数为:
R'(s)=f(H,S)。
CN201911113469.5A 2019-11-14 2019-11-14 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 Pending CN110909644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113469.5A CN110909644A (zh) 2019-11-14 2019-11-14 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113469.5A CN110909644A (zh) 2019-11-14 2019-11-14 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

Publications (1)

Publication Number Publication Date
CN110909644A true CN110909644A (zh) 2020-03-24

Family

ID=69817704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113469.5A Pending CN110909644A (zh) 2019-11-14 2019-11-14 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

Country Status (1)

Country Link
CN (1) CN110909644A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461325A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111459278A (zh) * 2020-04-01 2020-07-28 中国科学院空天信息创新研究院 基于触觉阵列的机器人抓取状态判别方法
CN111496794A (zh) * 2020-04-29 2020-08-07 华中科技大学 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN111652928A (zh) * 2020-05-11 2020-09-11 上海交通大学 三维点云中物体抓取位姿检测方法
CN112149713A (zh) * 2020-08-21 2020-12-29 中移雄安信息通信科技有限公司 基于绝缘子图像检测模型检测绝缘子图像的方法及装置
CN113076615A (zh) * 2021-04-25 2021-07-06 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN113341706A (zh) * 2021-05-06 2021-09-03 东华大学 基于深度强化学习的人机协作流水线系统
CN113627584A (zh) * 2020-05-08 2021-11-09 南京大学 一种基于神经网络的机械臂逆运动学求解方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109543823A (zh) * 2018-11-30 2019-03-29 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN110238855A (zh) * 2019-06-24 2019-09-17 浙江大学 一种基于深度逆向强化学习的机器人乱序工件抓取方法
CN110344621A (zh) * 2019-06-13 2019-10-18 武汉大学 一种面向智能车库的车轮点云检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109543823A (zh) * 2018-11-30 2019-03-29 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN110344621A (zh) * 2019-06-13 2019-10-18 武汉大学 一种面向智能车库的车轮点云检测方法
CN110238855A (zh) * 2019-06-24 2019-09-17 浙江大学 一种基于深度逆向强化学习的机器人乱序工件抓取方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461325A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111461325B (zh) * 2020-03-30 2023-06-20 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111459278A (zh) * 2020-04-01 2020-07-28 中国科学院空天信息创新研究院 基于触觉阵列的机器人抓取状态判别方法
CN111496794A (zh) * 2020-04-29 2020-08-07 华中科技大学 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN111496794B (zh) * 2020-04-29 2022-04-01 华中科技大学 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN113627584B (zh) * 2020-05-08 2024-04-12 南京大学 一种基于神经网络的机械臂逆运动学求解方法、电子设备及存储介质
CN113627584A (zh) * 2020-05-08 2021-11-09 南京大学 一种基于神经网络的机械臂逆运动学求解方法、电子设备及存储介质
CN111652928A (zh) * 2020-05-11 2020-09-11 上海交通大学 三维点云中物体抓取位姿检测方法
CN111652928B (zh) * 2020-05-11 2023-12-15 上海交通大学 三维点云中物体抓取位姿检测方法
CN112149713B (zh) * 2020-08-21 2022-12-16 中移雄安信息通信科技有限公司 基于绝缘子图像检测模型检测绝缘子图像的方法及装置
CN112149713A (zh) * 2020-08-21 2020-12-29 中移雄安信息通信科技有限公司 基于绝缘子图像检测模型检测绝缘子图像的方法及装置
CN113076615B (zh) * 2021-04-25 2022-07-15 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN113076615A (zh) * 2021-04-25 2021-07-06 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN113341706B (zh) * 2021-05-06 2022-12-06 东华大学 基于深度强化学习的人机协作流水线系统
CN113341706A (zh) * 2021-05-06 2021-09-03 东华大学 基于深度强化学习的人机协作流水线系统

Similar Documents

Publication Publication Date Title
CN110909644A (zh) 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统
CN108399639B (zh) 基于深度学习的快速自动抓取与摆放方法
CN107972026B (zh) 机器人、机械臂及其控制方法和装置
CN111251295B (zh) 一种应用于参数化零件的视觉机械臂抓取方法及装置
CN111046948B (zh) 点云仿真和深度学习的工件位姿识别及机器人上料方法
CN109702738B (zh) 一种基于三维物体识别的机械臂手眼标定方法及装置
CN113379849B (zh) 基于深度相机的机器人自主识别智能抓取方法及系统
CN108994832B (zh) 一种基于rgb-d相机的机器人手眼系统及其自标定方法
CN110298886B (zh) 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN113284179B (zh) 一种基于深度学习的机器人多物体分拣方法
CN111243017A (zh) 基于3d视觉的智能机器人抓取方法
CN112509063A (zh) 一种基于边缘特征匹配的机械臂抓取系统及方法
CN112669385A (zh) 基于三维点云特征的工业机器人工件识别与位姿估计方法
CN113715016A (zh) 一种基于3d视觉的机器人抓取方法、系统、装置及介质
CN115213896A (zh) 基于机械臂的物体抓取方法、系统、设备及存储介质
CN112109072B (zh) 一种大型稀疏特征托盘精确6d位姿测量和抓取方法
CN112372641B (zh) 一种基于视觉前馈与视觉反馈的家庭服务机器人物品抓取方法
Wan et al. Reorientating objects with a gripping hand and a table surface
Nguyen et al. Preparatory object reorientation for task-oriented grasping
CN114851201A (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
CN114299039B (zh) 一种机器人及其碰撞检测装置和方法
JP2022078979A (ja) 種々の姿勢状況の物体をピックアップするロボットを制御するための装置及び方法
CN111496794B (zh) 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN117340929A (zh) 一种基于三维点云数据的柔性夹爪抓取处置装置及方法
CN113822946B (zh) 一种基于计算机视觉的机械臂抓取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200324