CN111618847B

CN111618847B - 基于深度强化学习与动态运动基元的机械臂自主抓取方法

Info

Publication number: CN111618847B
Application number: CN202010323721.1A
Authority: CN
Inventors: 袁银龙; 华亮; 李俊红; 徐一鸣; 程赟
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-06-21
Anticipated expiration: 2040-04-22
Also published as: CN111618847A

Abstract

本发明公开了基于深度强化学习与动态运动基元的机械臂自主抓取方法，包括如下步骤：步骤1：安装摄像机图组件，确保识别区域不被遮挡，并对抓取目标区域图像进行预处理，并作为状态信息发送给深度强化学习智能体；步骤2：基于所述状态和深度强化学习原理构建局部策略近端优化训练模型；步骤3：融合动态运动基元和模仿学习构建一种新的混合运动基元模型；步骤4：基于所述的模型训练机械臂自主抓取物体。本发明能够有效解决基于传统深度强化学习的机械臂关节运动不平滑问题，通过结合动态运动基元算法，把元参数的学习问题转化为强化学习问题，可以利用深度强化学习的训练方法使得机械臂完成自主抓取任务。

Description

基于深度强化学习与动态运动基元的机械臂自主抓取方法

技术领域

本发明涉及机械臂和深度强化学习训练系统技术领域，具体为基于深度强化学习与动态运动基元的机械臂自主抓取方法。

背景技术

目前机器人技术的研究已经从传统的机械动力学开始向智能化控制方向进行转变，特别是综合吸收了控制理论、人工神经网络和机器学习等领域的研究成果后，机器人技术已经逐渐成为了人工智能领域的核心之一。作为近年来机器学习领域中的研究热点之一，深度强化学习无论是在理论研究上还是在实际应用中都取得了丰富的成果。然而，机器人在解决现实生活中遇到的问题时，只有一个好的深度强化学习算法是远远不够的。这是因为传统的深度强化学习算法的控制策略是逐步生成的，这种策略更倾向于使机器人快速的完成任务，而不是模仿示教运动轨迹平滑的运动。由于机器人关节运动是由电机进行驱动控制的，如果电机的运动轨迹(角度轨迹、角速度轨迹和角加速度轨迹)具有较大的波动性，此时电机的驱动力矩也会产生很大的波动性，甚至是较大的突变值，这容易对机器人关节造成损害。因此，与人类运动一样，机械臂的运动需要平滑的进行编码，没有突然的加速或颠簸的过程，只有这样才能确保机器人的稳定性和安全性。

发明内容

本发明的目的在于提供基于深度强化学习与动态运动基元的机械臂自主抓取方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于深度强化学习与动态运动基元的机械臂自主抓取方法，包括如下步骤：

步骤1：安装摄像机图组件，确保识别区域不被遮挡，并对抓取目标区域图像进行预处理，并作为状态信息发送给深度强化学习智能体；

步骤2：基于所述状态和深度强化学习原理构建局部策略近端优化训练模型；

步骤3：融合动态运动基元和模仿学习构建一种新的混合运动基元模型；

步骤4：基于所述的模型训练机械臂自主抓取物体。

优选的，在步骤1中，安装摄像机图组件，确保识别区域不被遮挡，并对抓取目标区域图像进行采集处理，作为状态信息发送给深度强化学习智能体，包括：

摄像机，所述摄像机为双目摄像机Bumblee2，所述摄像机安装在机械臂距离底座上方0.8-1米，且在识别区域正前方，确保机械臂开始工作时无遮挡；摄像机拍摄的识别区域的图像信息，经采集预处理后，该信息将作为环境状态被系统接收；

机械臂，所述机械臂为具有5个自由度的UR5机器人，各关节能够灵活运动。

优选的，在步骤2中，基于所述状态和深度强化学习原理构建局部策略近端优化训练模型包括：在系统中通过设计奖赏函数来评判机械臂是否抓取到物体，奖赏函数的设定为稀疏的，当机械臂完成抓取任务的时候获得奖赏为+1，其它时刻为零，从而引导机械臂快速完成抓取任务获得更多的奖赏回报；机械臂从初始状态到完成抓取任务的运动轨迹可以通过一组元参数δ表示，

是机械臂到达目标位置时对应的关节角度和角速度的值，局部策略近端优化训练模型的目的就是训练学习一个从状态s到元参数δ的映射函数δ(s)；将元参数自我学习问题建模为强化学习问题，目标函数可以表示为：

其中Kullback-Leibler距离

通常被用来约束策略更新的幅度大小，使策略梯度算法具有更强的鲁棒性,超参数KL_target网络参数的期望变化，依据深度强化学习策略梯度更新规则，依据所述目标函数优化网络参数θ。

优选的，在步骤3中，融合动态运动基元和模仿学习构建一种新的混合运动基元模型，包括一种改进的动态运动基元算法，其相应的动力学方程为：

其中τ是一个时间常数，α_z是一个预先设定的固定参数，满足在终止时刻1/τ时z≈0，g_f是角度期望值，

是期望的最终速度，g_m是移动目标，变换函数f(z)可以使得系统生成任意复杂的非线性轨迹，其定义形式为：

其中ω_i是第i个可调参数，C是可调参数的总数，ψ_i(z)是每一个可调参数对应的权重值，其定义形式为：

该函数是由中心为c_i宽度为h_i的归一化高斯函数构成；

由于变换函数f(z)在参数上是线性的，局部加权回归算法来求解参数ω_i，即最小化目标函数为：

其中f_t ^ref是示教轨迹中期望的变换函数值，t∈{1,2,L,T}表示演示的时间步长；

混合运动基元模型是指通过随机的抽取一小批运动基元来计算所有运动基元的权重得到新的运动轨迹，新的运动基元可表示为：

其中是权重参数λ_i(s)＝exp(-α_m||s-s_i||)，其表示运动基元μ_i对新的运动基元μ的贡献程度。

优选的，在步骤4中，基于所述的模型训练机械臂自主抓取物体，包括：

设计训练环境，其中所述的训练环境中的控制对象是机械臂，机械臂收到控制决策信息后，执行抓取任务，完成一个运动周期；

在所述运动周期内，智能体首先通过深度强化学习模型得到当前状态s_t对应的元参数δ_t，之后依据混合动态运动基元模型得到关节运动轨迹并形成控制决策信息，机械臂执行运动后的到新的状态s_t+1和奖赏回报r_t；

把训练样本(s_t,a_t,r_t,s_t+1)存储到经验池中，用于深度强化学习参数训练；

所述机械臂通过所述基于深度强化学习和动态运动基元模型与环境不断交互训练，直至机械臂能够自主的完成抓取任务。

与现有技术相比，本发明的有益效果是：

(1)本发明能够有效解决基于传统深度强化学习的机械臂关节运动不平滑问题，通过结合动态运动基元算法，把元参数的学习问题转化为强化学习问题，可以利用深度强化学习的训练方法使得机械臂完成自主抓取任务。

(2)本发明中的新的动态运动基元模型能够帮助机械臂生成光滑的运动轨迹，对各种抓取任务具有一定的适应性；

(3)本发明实现了一种端到端的机器人自主抓取任务，学习训练后机器人只需要通过摄像机观察物体的初始姿态，就可以生成平滑的运动轨迹完成抓取任务。

附图说明

图1是本发明方法步骤流程图；

图2是摄像机和机械臂抓取系统示意图；

图3基于深度强化学习与动态运动基元的机械臂自主抓取训练系统结构图；

图4是多自由度机械臂模仿学习结构图；

图5是元参数学习问题示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，一种基于深度强化学习与动态运动基元的机械臂自主抓取方法，包括以下步骤：

步骤1：安装摄像机图组件，确保识别区域不被遮挡，并对抓取目标区域图像进行处理，得到目标抓取物的坐标信息，并作为状态信息发送给深度强化学习智能体。

如图2所示，本发明所述摄像机2为双目摄像机Bumblee2，摄像机2安装在机械臂距离底座上方0.8-1米，且在识别区域正前方，确保机械臂1开始工作时无遮挡；

摄像机2拍摄的识别区域的图像信息，经采集处理获得抓取目标物3的坐标信息，该信息将作为环境状态被系统接收；

机械臂1为具有5个自由度的UR5机器人，各关节能够灵活运动，机械臂控制机械手4运动；

步骤2：基于所述状态和深度强化学习原理构建局部策略近端优化训练模型

设计系统奖赏函数，在系统中通过设计奖赏函数来评判机械臂是否抓取到物体，奖赏函数的设定为稀疏的，当机械臂完成抓取任务的时候获得奖赏为+1，其它时刻为零，从而引导机械臂快速完成抓取任务获得更多的奖赏回报；

如图5所示，机械臂从初始状态到完成抓取任务的运动轨迹可以通过一组元参数δ表示，即：

是机械臂到达目标位置时对应的关节角度和角速度的值，局部策略近端优化训练模型的目的就是训练学习一个从状态s到元参数δ的映射函数δ(s)。

为了赋予机器人自主学习的能力，本发明将元参数自我学习问题建模为强化学习问题，目标函数可以表示为：

其中Kullback-Leibler距离

通常被用来约束策略更新的幅度大小，使策略梯度算法具有更强的鲁棒性,超参数KL_target网络参数的期望变化，依据深度强化学习策略梯度更新规则，可以依据所述目标函数优化网络参数θ。

步骤3：融合动态运动基元和模仿学习构建一种新的混合运动基元模型

如图3所示，根据所述深度强化学习模型可以得到抓取目标状态s对应的元参数δ(s)，该参数将作为动态运动基元的期望目标。如图4所示，对于多关节机器人，每个关节独立的利用动态运动基元生成运动轨迹。

为提高传统动态运动基元的性能表现，本发明包含一种改进的动态运动基元算法，其相应的动力学方程为：

该函数是由中心为c_i宽度为h_i的归一化高斯函数构成；

为了建立动态运动基元库，我们一般通过模式学习来初始化动态运动基元，对于多关节机器人，可以针对每个关节分别学习相应的运动参数，由于变换函数f(z)在参数上是线性的，我们可以局部加权回归算法来求解参数ω_i，即最小化目标函数为：

在步骤4中，基于所述的模型训练机械臂自主抓取物体，包括：

如图3所示，在所述运动周期内，智能体首先依据摄像头得到新的抓取目标物的视觉图像信息，并进行预处理后作为深度强化学习智能体检测的环境状态信息。

通过深度强化学习模型得到当前状态s_t对应的元参数δ_t，并把该信息作为混合动态运动基元的目标，依据混合动态基元计算公式可得到相应的新的运动轨迹。

机械臂执行新的运动控制命令后，智能体可以到新的状态s_t+1和奖赏回报r_t。

本发明未详述之处，均为本领域技术人员的公知技术。

综上所述，本发明能够有效解决基于传统深度强化学习的机械臂关节运动不平滑问题，通过结合动态运动基元算法，把元参数的学习问题转化为强化学习问题，可以利用深度强化学习的训练方法使得机械臂完成自主抓取任务；本发明中的新的动态运动基元模型能够帮助机械臂生成光滑的运动轨迹，对各种抓取任务具有一定的适应性；本发明实现了一种端到端的机器人自主抓取任务，学习训练后机器人只需要通过摄像机观察物体的初始姿态，就可以生成平滑的运动轨迹完成抓取任务。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于深度强化学习与动态运动基元的机械臂自主抓取方法，其特征在于：包括如下步骤：

步骤2：基于所述状态信息和深度强化学习原理构建局部策略近端优化训练模型；

步骤4：基于所述的新的混合运动基元模型训练机械臂自主抓取物体；

在步骤3中，融合动态运动基元和模仿学习构建一种新的混合运动基元模型，包括一种改进的动态运动基元算法，其相应的动力学方程为：

是期望的最终速度，g_m是移动目标，变换函数f(z)使得系统生成任意复杂的非线性轨迹，其定义形式为：

该函数是由中心为c_i宽度为h_i的归一化高斯函数构成；

其中f_t ^ref是示教轨迹中期望的变换函数值，t∈{1,2,…,T}表示演示的时间步长；

新的混合运动基元模型是指通过随机的抽取一小批运动基元来计算所有运动基元的权重得到新的运动轨迹，新的运动基元可表示为：

其中权重参数λ_i(s)＝exp(-α_m||s-s_i||)，其表示运动基元μ_i(s)对新的运动基元

的贡献程度，s为机械臂状态信息。

2.根据权利要求1所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法，其特征在于：在步骤1中，安装摄像机图组件，确保识别区域不被遮挡，并对抓取目标区域图像进行采集处理，作为状态信息发送给深度强化学习智能体，包括：

摄像机，所述摄像机为双目摄像机Bumblee2，所述摄像机安装在机械臂距离底座上方0.8-1米，且在识别区域正前方，确保机械臂开始工作时无遮挡；摄像机拍摄的抓取目标区域的图像信息，经采集预处理后，该图像信息将作为环境状态信息被系统接收；

3.根据权利要求1所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法，其特征在于：在步骤2中，基于所述状态和深度强化学习原理构建局部策略近端优化训练模型包括：在系统中通过设计奖赏函数来评判机械臂是否抓取到物体，奖赏函数的设定为稀疏的，当机械臂完成抓取任务的时候获得奖赏为+1，其它时刻为零，从而引导机械臂快速完成抓取任务获得更多的奖赏回报；机械臂从初始状态到完成抓取任务的运动轨迹通过一组元参数δ表示，

其中Kullback-Leibler距离

被用来约束策略更新的幅度大小，使策略梯度算法具有更强的鲁棒性,超参数KL_target为

期望的变化，依据深度强化学习策略梯度更新规则，依据所述目标函数优化网络参数θ。

4.根据权利要求3所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法，其特征在于：在步骤4中，基于所述新的混合运动基元模型训练机械臂自主抓取物体，包括：

在所述运动周期内，智能体首先通过深度强化学习模型得到当前状态s_t对应的元参数δ_t，之后依据新的混合运动基元模型得到关节运动轨迹并形成控制决策信息，机械臂执行运动后得到新的状态s_t+1和奖赏回报r_t；

所述机械臂通过智能体与环境不断交互训练，直至机械臂能够自主的完成抓取任务。