CN110909644A

CN110909644A - 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

Info

Publication number: CN110909644A
Application number: CN201911113469.5A
Authority: CN
Inventors: 朱倩梅; 王海梅; 陈飞
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-24

Abstract

本发明公开了一种基于强化学习的机械臂末端执行器抓取姿态调整方法及系统，方法包括：初始化机械臂及执行器的位姿；采集目标的点云信息；构建actor‑critic强化学习网络模型；利用点云信息训练网络模型，并不断调整执行器抓取姿态，直至抓取到目标。系统用于实现上述方法。本发明采用强化学习网络，无需考虑目标的几何形状、摆放姿态，通过pointnet网络学习点云信息特征，再根据全连接层求出的三维向量进行抓取，该方法对任意目标具有良好的适应性。此外，本发明构建的强化学习网络采用在线学习方式，对于同一目标的不同姿态或者不同目标，在学习其点云信息特征的同时不断进行抓取，并在抓取之后更新网络参数。如此学习与试验同步进行，使得强化学习网络更全面。

Description

基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

技术领域

本发明涉及机械臂抓取作业领域，特别涉及一种基于强化学习的机械臂末端执行器抓取姿态调整方法及系统。

背景技术

随着工业自动化和智能化的发展，自主作业机器人在工业生产车间的应用越来越广泛。目标抓取是十分常见的机器人作业项目，自主抓取的流程包括目标的位姿识别，机械臂的逆运动学运算，机械臂末端执行器的抓取姿态求解和实际抓取操作几个部分。

针对机械臂末端执行器的抓取姿态求解，传统的机械臂末端姿态求解方法大多是依赖于目标的三维姿态，即首先要求解抓取目标在空间中的位置和姿态矩阵，根据设定的抓取点，求解对应的手抓姿态矩阵实现抓取。这类方法总是能够依据目标的位姿和固定的抓取点精确计算出末端执行器的姿态矩阵，实现抓取。但是这类方法的精确度严重依赖复杂的集合变换运算，通常当目标物体形状规则且摆放姿态相对固定时能获得比较好的抓取效果。而对于拥有复杂形状或者摆放姿态随机的目标物体具有较差的适应性，这种情况下，可能计算出的手抓姿态矩阵误差较大，甚至找不到合适的抓取点而导致抓取失败。

发明内容

本发明的目的在于提供一种在三维视觉的引导实现机械臂末端执行器抓取姿态自动调整的方法及系统。

实现本发明目的的技术解决方案为：一种基于强化学习的机械臂末端执行器抓取姿态调整方法，包括以下步骤：

步骤1、初始化机械臂及其末端执行器的位姿；

步骤2、初始化深度相机，利用深度相机采集包含目标物体的场景的点云信息，并对点云信息进行预处理获取目标物体的点云信息；

步骤3、构建actor-critic强化学习网络模型；

步骤4、利用目标物体的点云信息训练所述actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体。

进一步地，步骤3所述构建actor-critic强化学习网络模型，具体包括：

步骤3-1、构建actor网络，该网络包括：基于PointNet的特征提取层和一个全连接层，具体包括依次设置的：

两个空间变换网络层：第一空间变换网络层，用于调整目标物体点云的空间姿态；第二空间变换网络层，用于对第一空间变换网络层输出的特征进行对齐；

两个共享卷积层：第一共享卷积层，其卷积核大小为1*3；第二共享卷积层，其卷积核大小为1*1；

一个池化层，用于对共享卷积层输出的特征进行降维处理，获得n维特征向量；

全连接层，用于根据降维处理后的特征向量获取一个三维向量，作为机械臂末端执行器的三维姿态向量；

所述actor网络的输入为目标物体的点云信息，包括N个三维向量，其输出为机械臂末端执行器的三维姿态向量A；

步骤3-2、构建critic网络，该网络包括：基于PointNet的特征提取层和一个全连接层，具体包括依次设置的：

两个空间变换网络层：第三空间变换网络层，用于调整目标物体点云的空间姿态；第四空间变换网络层，用于对第三空间变换网络层输出的特征进行对齐；

两个共享卷积层：第三共享卷积层，其卷积核大小为1*3；第四共享卷积层，其卷积核大小为1*1；

拼接单元，用于对所述n维特征向量与所述三维姿态向量A进行拼接，获得n+3维特征向量；

全连接层，用于根据所述n+3维特征向量获取用于评价三维姿态向量A的奖励值R'；

所述critic网络的输入包括目标物体的点云信息和所述三维姿态向量A，其输出为用于评价三维姿态向量A的奖励值R'。

进一步地，步骤4所述利用目标物体的点云信息训练所述actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体，具体包括：

步骤4-1、进行正向传播：

(1)将所述目标物体的点云信息输入至所述actor网络，获得三维姿态向量A，记为H：

H＝(x_r,y_r,z_r)

式中，(x_r,y_r,z_r)表示工具坐标系x'、y'、z'三个坐标轴分别与参考坐标系的x、y、z三个坐标轴的夹角；

(2)将所述三维姿态向量H以及环境信息S输入至所述critic网络，获得奖励值R'；

(3)自定义预设多个抓取目标物体的机械臂末端执行器三维姿态H_j＝(x_j,y_j,z_j)，根据所述三维姿态向量H＝(x_r,y_r,z_r)和H_j＝(x_j,y_j,z_j)求取最佳奖励值reward；

步骤4-2、进行反向传播：

(1)更新critic网络参数：

定义损失函数loss为：

loss＝|reward-R'|

对损失函数loss进行梯度下降运算，更新critic网络参数；

(2)更新actor网络参数：

定义R'为：

R'(s)＝f(H,S)

对-R'(s)进行梯度下降运算，更新actor网络参数；

步骤4-3、机械臂末端执行器以三维姿态向量H抓取目标物体，若抓取到目标物体，则结束抓取姿态调整过程；否则，重复步骤4-1和4-2直至抓取到目标物体。

进一步地，所述根据三维姿态向量H＝(x_r,y_r,z_r)和H_j＝(x_j,y_j,z_j)求取最佳奖励值reward，具体包括：

求取H与每一个H_j的差值D_r：

D_r＝|x_j-x_r|+|y_j-y_r|+|z_j-z_r|

对所有的差值D_r进行归一化即获得最佳奖励值reward：

式中，D_max表示所有差值D_r中的最大值。

一种基于强化学习的机械臂末端执行器抓取姿态调整系统，所述系统包括：

初始化模块，用于初始化机械臂及其末端执行器的位姿，同时用于初始化深度相机；

点云信息采集模块，用于利用深度相机采集包含目标物体的场景的点云信息，并对点云信息进行预处理获取目标物体的点云信息；

网络模型构建模块，用于构建actor-critic强化学习网络模型；

姿态调整模块，用于利用目标物体的点云信息训练所述actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体。

进一步地，所述网络模型构建模块，包括：

actor网络构建单元，用于构建包括基于PointNet的特征提取层和一个全连接层的actor网络；所述基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层；

critic网络构建单元，用于构建包括基于PointNet的特征提取层和一个全连接层的critic网络；所述基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层以及拼接单元；所述拼接单元用于对critic网络中池化层输出的特征向量与actor网络输出的特征向量进行拼接。

进一步地，所述姿态调整模块，包括：

正向传播单元，用于将所述目标物体的点云信息输入至所述actor网络，获得三维姿态向量A；用于将所述目标物体的点云信息、三维姿态向量H输入至所述critic网络，获得奖励值R'；同时还用于求取最佳奖励值reward；

反向传播单元，用于对reward和R'构建的损失函数loss进行梯度下降运算，以更新critic网络参数；用于对三维姿态向量H和环境信息S构成的R'(s)函数进行梯度下降运算，以更新actor网络参数；

姿态调整判断单元，用于根据机械臂末端执行器以三维姿态向量H抓取目标物体的结果，判断是终止执行器抓取姿态调整过程还是继续运行所述正向传播单元和反向单元。

本发明与现有技术相比，其显著优点为：1)本发明采用强化学习网络，无需考虑目标物体的几何形状、摆放姿态，通过pointnet网络直接学习物体点云信息的特征，再根据全连接层求出的三维向量进行抓取操作，该姿态调整方法对任意目标具有良好的适应性；2)本发明构建的强化学习网络通过在线学习的方式进行学习，对于同一目标的不同姿态或者不同的目标，在学习其点云信息特征的同时不断进行试验抓取，并在每一次抓取之后更新网络参数。如此在学习中实验，在实验中学习，使得强化学习网络越来越全面。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为基于强化学习的机械臂末端执行器抓取姿态调整方法的流程图。

图2为本发明一个实施例中初始化机械臂末端执行器的位姿示意图。

图3为actor-critic强化学习网络示意图。

图4为本发明一个实施例中构建的actor网络示意图。

图5为本发明一个实施例中构建的critic网络示意图。

图6为本发明一个实施例中actor-critic强化学习网络训练流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

结合图1，本发明提供了一种基于强化学习的机械臂末端执行器抓取姿态调整方法，包括以下步骤：

步骤1、初始化机械臂及其末端执行器的位姿；

步骤3、构建actor-critic强化学习网络模型；

步骤4、利用目标物体的点云信息训练actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体。

进一步地，在其中一个实施例中，结合图2，步骤1初始化机械臂末端执行器的位姿，具体包括：

步骤1-1、将机器人基坐标系作为参考坐标系O-xyz；

步骤1-2、以参考坐标系O-xyz为基准，建立工具坐标系O'-x'y'z'，具体包括：

以机械臂末端中心为圆心O'，工具坐标系x'轴与执行器手爪夹持平面垂直，且其正方向与参考坐标系y轴的正方向一致，y'轴与执行器手爪夹持平面平行，且其正方向与参考坐标系x轴的正方向一致，z'轴垂直于O'-x'y'平面，且其正方向与参考坐标系z轴的负方向一致。

进一步示例性地，在其中一个实施例中，步骤2中对点云信息进行预处理具体包括：去除噪声、稀疏处理、分割目标物体的点云信息。

进一步地，在其中一个实施例中，结合图3至图5，步骤3中构建actor-critic强化学习网络模型，具体包括：

actor网络的输入为目标物体的点云信息，包括N个三维向量，其输出为机械臂末端执行器的三维姿态向量A；

两个空间变换网络层(STN)：第三空间变换网络层，用于调整目标物体点云的空间姿态；第四空间变换网络层，用于对第三空间变换网络层输出的特征进行对齐；

两个共享卷积层(MLP)：第三共享卷积层，其卷积核大小为1*3；第四共享卷积层，其卷积核大小为1*1；

一个池化层(maxpool)，用于对共享卷积层输出的特征进行降维处理，获得n维特征向量；

拼接单元，用于对n维特征向量与三维姿态向量A进行拼接，获得n+3维特征向量；

全连接层，用于根据n+3维特征向量获取用于评价三维姿态向量A的奖励值R'；

critic网络的输入包括目标物体的点云信息和三维姿态向量A，其输出为用于评价三维姿态向量A的奖励值R'。

进一步地，在其中一个实施例中，结合图6，步骤4中利用目标物体的点云信息训练actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体，具体包括：

步骤4-1、进行正向传播：

(1)将目标物体的点云信息输入至actor网络，获得三维姿态向量A，记为H：

H＝(x_r,y_r,z_r)

(2)将三维姿态向量H以及环境信息S输入至critic网络，获得奖励值R'；

(3)自定义预设多个抓取目标物体的机械臂末端执行器三维姿态H_j＝(x_j,y_j,z_j)，根据三维姿态向量H＝(x_r,y_r,z_r)和H_j＝(x_j,y_j,z_j)求取最佳奖励值reward；

步骤4-2、进行反向传播：

(1)更新critic网络参数：

定义损失函数loss为：

loss＝|reward-R'|

对损失函数loss进行梯度下降运算，更新critic网络参数；

(2)更新actor网络参数：

定义R'为：

R'(s)＝f(H,S)

对-R'(s)进行梯度下降运算，更新actor网络参数；

进一步地，在其中一个实施例中，上述根据三维姿态向量H＝(x_r,y_r,z_r)和H_j＝(x_j,y_j,z_j)求取最佳奖励值reward，具体包括：

求取H与每一个H_j的差值D_r：

D_r＝|x_j-x_r|+|y_j-y_r|+|z_j-z_r|

对所有的差值D_r进行归一化即获得最佳奖励值reward：

式中，D_max表示所有差值D_r中的最大值。

本发明提出了一种基于强化学习的机械臂末端执行器抓取姿态调整系统，该系统包括：

网络模型构建模块，用于构建actor-critic强化学习网络模型；

姿态调整模块，用于利用目标物体的点云信息训练actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体。

进一步地，在其中一个实施例中，上述网络模型构建模块，包括：

actor网络构建单元，用于构建包括基于PointNet的特征提取层和一个全连接层的actor网络；基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层；

critic网络构建单元，用于构建包括基于PointNet的特征提取层和一个全连接层的critic网络；基于PointNet的特征提取层包括两个空间变换网络层、两个共享卷积层、一个池化层以及拼接单元；拼接单元用于对critic网络中池化层输出的特征向量与actor网络输出的特征向量进行拼接。

进一步地，在其中一个实施例中，上述姿态调整模块，包括：

正向传播单元，用于将目标物体的点云信息输入至actor网络，获得三维姿态向量A；用于将目标物体的点云信息、三维姿态向量H输入至critic网络，获得奖励值R'；同时还用于求取最佳奖励值reward；

姿态调整判断单元，用于根据机械臂末端执行器以三维姿态向量H抓取目标物体的结果，判断是终止执行器抓取姿态调整过程还是继续运行正向传播单元和反向单元。

进一步地，在其中一个实施例中，上述损失函数loss为：

loss＝|reward-R'|

上述R'(s)函数为：

R'(s)＝f(H,S)。

本发明采用强化学习网络，无需考虑目标物体的几何形状、摆放姿态，通过pointnet网络直接学习物体点云信息的特征，再根据全连接层求出的三维向量进行抓取操作，该姿态调整方法对任意目标具有良好的适应性。此外，本发明构建的强化学习网络采用在线学习的方式进行学习，对于同一目标的不同姿态或者不同的目标，在学习其点云信息特征的同时不断进行试验抓取，并在每一次抓取之后更新网络参数。如此在学习中实验，在实验中学习，使得强化学习网络越来越强大、越来越全面。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的机械臂末端执行器抓取姿态调整方法，其特征在于，包括以下步骤：

步骤1、初始化机械臂及其末端执行器的位姿；

步骤3、构建actor-critic强化学习网络模型；

2.根据权利要求1所述的基于强化学习的机械臂末端执行器抓取姿态调整方法，其特征在于，步骤1所述初始化机械臂末端执行器的位姿，具体包括：

步骤1-1、将机器人基坐标系作为参考坐标系O-xyz；

步骤1-2、以所述参考坐标系O-xyz为基准，建立工具坐标系O'-x'y'z'，具体包括：

3.根据权利要求1所述的基于强化学习的机械臂末端执行器抓取姿态调整方法，其特征在于，步骤2所述对点云信息进行预处理具体包括：去除噪声、稀疏处理以及分割目标物体的点云信息。

4.根据权利要求1所述的基于强化学习的机械臂末端执行器抓取姿态调整方法，其特征在于，步骤3所述构建actor-critic强化学习网络模型，具体包括：

5.根据权利要求1或4所述的基于强化学习的机械臂末端执行器抓取姿态调整方法，其特征在于，步骤4所述利用目标物体的点云信息训练所述actor-critic强化学习网络模型，并由此不断调整机械臂末端执行器抓取姿态，直至执行器抓取到目标物体，具体包括：

步骤4-1、进行正向传播：

H＝(x_r,y_r,z_r)

步骤4-2、进行反向传播：

(1)更新critic网络参数：

定义损失函数loss为：

loss＝|reward-R'|

对损失函数loss进行梯度下降运算，更新critic网络参数；

(2)更新actor网络参数：

定义R'为：

R'(s)＝f(H,S)

对-R'(s)进行梯度下降运算，更新actor网络参数；

6.根据权利要求5所述的基于强化学习的机械臂末端执行器抓取姿态调整方法，其特征在于，所述根据三维姿态向量H＝(x_r,y_r,z_r)和H_j＝(x_j,y_j,z_j)求取最佳奖励值reward，具体包括：

求取H与每一个H_j的差值D_r：

D_r＝|x_j-x_r|+|y_j-y_r|+|z_j-z_r|

对所有的差值D_r进行归一化即获得最佳奖励值reward：

式中，D_max表示所有差值D_r中的最大值。

7.一种基于强化学习的机械臂末端执行器抓取姿态调整系统，其特征在于，所述系统包括：

网络模型构建模块，用于构建actor-critic强化学习网络模型；

8.根据权利要求7所述的基于强化学习的机械臂末端执行器抓取姿态调整系统，其特征在于，所述网络模型构建模块，包括：

9.根据权利要求7所述的基于强化学习的机械臂末端执行器抓取姿态调整系统，其特征在于，所述姿态调整模块，包括：

10.根据权利要求9所述的基于强化学习的机械臂末端执行器抓取姿态调整系统，其特征在于，所述损失函数loss为：

loss＝|reward-R'|

所述R'(s)函数为：

R'(s)＝f(H,S)。