CN115464659A

CN115464659A - 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法

Info

Publication number: CN115464659A
Application number: CN202211218404.9A
Authority: CN
Inventors: 尤波; 武江博; 李佳钰
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-10-05
Filing date: 2022-10-05
Publication date: 2022-12-13
Anticipated expiration: 2042-10-05
Also published as: CN115464659B

Abstract

本发明公开了一种基于视觉信息的深度强化学习DDPG算法的机器臂抓取控制方法，旨在解决现有技术中机械臂工作场景灵活性差，场景变动后，人工示教调试慢，效率低等技术问题。该方法首先采用卷积神经网络并融合卡尔曼滤波，对待抓取的物体进行实时检测与跟踪，并提取待抓取物体的平面3D位姿信息。设计一种基于末端执行器速度平滑约束的示教机制，解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少，算法效率低的问题；并设计基于能量约束归一化非线性奖励函数，把输入到深度强化学习网络的数据解算至相同的区间，并且对变量进行非线性的函数映射，使得网络梯度下降的时候速率更快，提高训练效率和机械臂在靠近目标物体附近时产生的抖动问题；基于仿真环境对强化学习网络进行预训练，并对待抓取物体位姿进行显示表达，使得该算法在新对象和环境中具有更强的泛化能力，将快速迁移到真实世界的机械臂上面。

Description

一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法

技术领域

本发明涉及机器人应用技术领域，特别涉及一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法。

背景技术

伴随着深度强化学习与机器人技术的不断发展，智能机器人已经向生产生活的各个领域不断渗透，随着智能机器人应用领域的扩大，机械臂的工业应用场景愈加丰富，市场期望机械臂更加智能化成为机械臂技术发展的一个重要方向。传统机械臂的应用场景大多只能依照既定的程序，完成机械化的操作流程，在特定的流水线上使用人工示教的方式执行任务，虽然拥有很高的重复精度，但操作灵活性特别差，为此引入机器视觉和深度强化学习模块，使机械臂的工作场景更加灵活，控制方式从原来的示教控制转变为可以与环境进行交互，进而不断改进，获得更好的控制效果。

机器视觉和深度强化学习是人工智能主要的研究方向，计算机视觉的发展，为机器人的智能视觉感知提供了技术支持，而深度强化学习在机械臂中的应用使得智能体在与环境的交互过程中，可以不断迭代学习最优策略，从而更好完成特定工作。

目前基于视觉的深度强化学习的机械臂抓取研究中，面临两个重要问题：

1、视觉检测信息直接作为强化学习的状态导致的信息维度太高，从而导致强化学习网络难以训练且不稳定，并且可解释性差的问题；

2、深度强化学习算法在真实机械臂上应用时，其训练样本采集困难，训练成本太高，且机械臂在目标物附近时抖动严重等缺点。

发明内容

针对现有技术存在的问题，本申请提供了一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，主要包括以下步骤：

步骤1：基于YOLOv4网络融合卡尔曼滤波实现待抓取目标的检测与跟踪，获得目标平面上的3D(x,y,θ_z)信息。

步骤1-1：使用coco数据集对深度学习网络进行预训练，根据待抓取物体，收集照片并按照voc数据集格式制作自己的数据集。在预训练模型基础上，根据制作的数据集继续训练网络模型使网络收敛。

步骤1-2：对目标检测的结果，融合卡尔曼滤波算法，实现目标检测与跟踪。

步骤1-3：根据目标检测框和待检测对象的颜色、形状等特征，计算待测物体的最小外接矩形，然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角θ_z，得到目标的3D(x,y,θ_z)信息。

步骤1-4：获得目标物体的3D位姿基础上，根据机械臂实际工作场景的中的物理约束，令绕x，y轴的转角θ_x＝θ_y＝0，测量获取摄像头到机械臂底座的垂直位置关系补全z轴坐标，根据坐标变换关系，将物体在图像坐标系下的坐标转换为基于机械臂底座的6D(x,y,z,θ_x,θ_y,θ_z)姿态信息。

步骤2：设计一种能量约束的归一化非线性奖励函数Reward，通过在仿真中训练网络，使模型快速收敛，进而对模型迁移训练控制现实中机械臂实现抓取。

步骤2-1深度强化学习的算法使用DDPG算法，采用Actor-Critic框架，由4个神经网络组成，两两结构相同，Actor网络，输入状态，输出动作；Critic网络是动作评价网络，输入状态，输出估计值Q。使用均方差损失函数通过神经网络的反向传播来更新Critic当前网络的所有参数；使用采样策略梯度通过神经网络的反向传播来更新Actor当前网络的所有参数。

步骤2-2：将视觉检测模块获得的物体位姿信息作为强化学习输入信息的一部分。设置状态空间

包括目标的位姿(6维)和微分变量，机械臂关节转角(6维)和微分变量，末端执行器的位姿(6维)和微分变量，这样的状态空间设置避免了直接把图像信息作为状态空间引起的信息冗余，有利于深度强化学习模型的训练，并且由于状态信息具有实际的物理意义，增加了算法的可解释性。

步骤2-3：作为本发明的优选技术方案，设计基于能量约束的归一化非线性奖励函数，计算在最小转角约束下机械臂的抓取控制的最优解。

Reward＝-(α₁R_T+α₂R_θ)

其中α是权重因子；R_T是距离奖励，其中d是机械臂末端执行器到目标位置的距离，d_s是机械臂工作空间的距离大小，δ是一个人为的阈值；R_θ是控制机械臂花费的能量奖励，θ是机械臂各个关节的转角，θ_s是关节的转动范围。

步骤2-4：通过对距离状态和机械臂转角状态进行归一化处理，把输入到深度强化学习网络的数据解算至相同的区间，统一了输入到神经网络中数据的运算范围，并且对变量进行非线性的变量映射，使得网络梯度下降的时候速率更快，从而加快训练，并改善了机械臂在目标附近时抖动严重等缺点。

步骤3：提出一种末端执行器速度平滑约束的示教机制，解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少，算法效率低的问题。

步骤3-1：基于Ros+Gazebo平台搭建UR3e机械臂的抓取仿真环境，使用Ros中提供的moveit机械臂功能包，并设置末端执行器以恒定速度移动为约束条件，实现UR3e机械臂的运动控制。

步骤3-2：在使用moveit控制机械臂的运动过程中，通过订阅Action消息，获得机械臂T(t₁,t₂,,t₃…t_n)时刻的位置、速度等状态信息。使用距离奖励

对所有获得的T时刻状态计算奖励。

步骤3-3：把基于机械臂模型控制产生的稳定的原始数据，打包为{S_t，A_t，R_t，S_t+1}格式，保存到经验库中，用于深度强化学习的参数训练。

步骤3-4：经验库的容量为M，当数据超过容量上限时候，停止基于示教模式的机械臂的运动控制，开始DDPG网络训练，并用最新的数据覆盖掉原来的数据。

步骤4：开始DDPG网络训练后，奖励函数采用定义的Reward公式进行计算。

步骤5：与现有技术相比，本发明的有益效果是：

(1)该方法将视觉感知和控制策略分开训练，而不是端对端训练。视觉感知模块计算被抓对象的3D位姿信息，然后根据平面操作台的约束条件补全并测量其它三维信息，最后根据坐标转换关系获得物体的6D位置信息，整个过程可以单独训练实现。使得该算法在新对象和环境中具有更强的泛化能力，将快速迁移到真实世界的机械臂上面。

(2)提出一种基于末端执行器速度平滑约束的示教机制，通过生成足量的有效初始数据解决了经典DDPG网络在最初训练时因为随机动作导致的有效数据少问题，提高数据的采样效率；设计基于能量约束的归一化非线性奖励函数，计算在最小转角约束下机械臂的抓取控制的最优解，不仅使得神经网络梯度下降的时候速率更快，加快训练，并且改善机械臂在目标附近的抖动问题。

附图说明

图1为本发明方法实施的整体示意图。

图2为本发明方法实施的流程示意图。

图3为本发明方法实例中图像检测跟踪模块示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供了一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，如图3所示，是本发明方法实施的流程示意图，包括如下步骤。

(1)基于深度学习的图像检测跟踪模块。本实施例中采用的是YOLOv4网络框架融合卡尔曼滤波实现目标跟踪。具体步骤如下：

(1-1)根据待抓取物体，收集照片并按照voc数据集格式制作自己的数据集。使用coco数据集对YOLOv4网络进行预训练，在预训练模型基础上，根据制作的数据集继续训练网络模型使网络收敛。

(1-2)根据目标检测框的结果，使用卡尔曼滤波算法，实现目标跟踪。

(1-3)定义系统状态X＝[x,y,w,h,dx,dy]，x,y,为目标检测框的左上角像素坐标w,h为检测框的长宽，其中dx和dy是当前时刻与上一时刻x,y的差值。

(1-4)状态方程x_K＝Ax_k-1+Bu_k-1+w_k-1，状态转移矩阵

控制输入矩阵B为零矩阵，过程的噪声主要来自于目标移动的不确定性(如突然加减速，转弯等)，p(w)～N(0，Q)。

(1-5)观测方程为z_k＝Hx_k+v_k，使用t时刻的最优估计值与t+1时刻的检测框，取IOU最大的作为t+1时刻的观测值，如果IOU匹配失败则使用上一次的最优估计值直接作为观测值，每帧更新一次状态，直到找到匹配框。观测噪声主要来自于检测框丢失，重叠、不准确等，p(w)～N(0，R)，且观测噪声远大于过程噪声。

(1-6)根据目标检测跟踪框的信息，结合待检测对象的颜色、形状等特征，计算待测物体的最小外接矩形，然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角θ_z，得到目标的3D(x,y,θ_z)信息。

(1-7)在获得目标物体的3D位姿基础上，根据机械臂实际工作场景的中的物理约束，令绕x，y轴的转角θ_x＝θ_y＝0，测量获取摄像头到机械臂底座的垂直位置关系补全z轴坐标，根据坐标变换关系，将物体在图像坐标系下的坐标转换为基于机械臂底座的6D(x,y,z,θ_x,θ_y,θ_z)姿态信息。

(2)基于Ros+Gazebo仿真环境搭建机械臂的仿真环境。本实施例中使用的是UR3e机械臂，末端执行器为RG2，深度强化学习网络框架为DDPG网络进行机械臂的运动控制。具体步骤如下：

(2-1)搭建Ros环境，在Gazebo中导入UR3e机械臂、末端执行器和待抓取物体的模型。

(2-2)使用Ros中提供的moveit机械臂功能包，并设置末端执行器以恒定速度移动为约束条件，实现UR3e机械臂的运动控制。

(2-3)在机械臂的运动过程中，通过订阅Action消息，获得机械臂T(t₁,t₂,,t₃…t_n)时刻的位置、速度等状态信息。使用距离奖励

对所有获得的T时刻状态计算奖励。

(2-4)把基于机械臂模型控制产生的稳定的原始数据，打包为{S_t，A_t，R_t，S_t+1}格式，保存到经验库中，用于深度强化学习参数训练。

(2-5)经验库的容量为M，当数据超过容量上限时候，停止基于示教模式的机械臂的运动控制，开始DDPG网络训练，并用最新的数据覆盖掉原来的数据。

(2-6)实施实例中采用DDPG算法，搭建Actor-Critic神经网络框架，由4个神经网络组成，两两结构相同，分别是Actor网络和Critic网络。

(2-7)设置状态空间，

包括目标的位姿(6维)，机械臂关节转角(6维)和微分变量，末端执行器的位姿(6维)和微分变量。

(2-8)设置归一化非线性奖励函数，计算在最小转角约束下机械臂的抓取控制的最优解。

Reward＝-(α₁R_T+α₂R_θ)

其中α是权重影子；R_T是距离奖励，其中d是机械臂末端执行器到目标位置的距离，d_s是机械臂工作空间的大小，δ是一个人为的阈值；R_θ是控制机械臂花费的能量奖励，θ是机械臂各个关节的转角，θ_s是关节的转动范围，R_θ的大小为机械臂转角θ的范数平方。

(2-9)通过对距离状态和机械臂转角状态进行归一化处理，把输入到深度强化学习网络的数据解算至相同的区间，统一了输入到神经网络中数据的运算范围，并且对变量进行非线性的函数映射，使得网络梯度下降的时候速率更快，从而加快训练。

(3)DDPG算法的详细流程描述如下：

输入：Actor1当前网络，Actor2目标网络，Critic1当前网络，Critic2目标网络，参数分别为θ^μ，θ^μ’，θ^Q，θ^Q’，折扣因子γ，软更新系数τ，批量梯度下降的样本数N，目标网络参数更新频率C，最大迭代次数T，随机噪声函数N_t。

输出：最优Actor当前网络参数θ^μ，Critic当前网络参数θ^Q。

1、随机初始化权重为θ^Q和θ^μ的Critic当前网络Q(s,a|θ^Q)和Actor当前网络μ(s|θ^μ)

2、使用权重θ^Q′←θ^Q，θ^μ′←θ^μ，初始化目标网络Q’μ’

3、初始化经验回放池R

对于训练集数从1到M循环：

4、初始化随机过程t_N以进行动作探索

5、接收初始观测状态1s

对于迭代步数t从1到T循环：

6、根据当前策略和探索噪声选择动作

7、执行动作a_t，获得奖励r_t，新状态S_t+1，判断是否到达终止状态

8、将状态转移过程元组(s_t,a_t,r_t,s_t+1)存储到R中

9、从R中随机采样批量大小为N的状态转移过程元组(s_i,a_i,r_i,s_i+1)

10、令y_i＝r_i+γQ(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

11、使用均方差损失函数通过神经网络的梯度反向传播来更新Critic当前网络的所有参数：

12、使用采样策略梯度通过神经网络的梯度反向传播来更新Actor当前网络的所有参数：

13、如果迭代总数t_total％c＝1,则更新Critic目标网络和Actor目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

14、如果s_t+1是终止状态，则当前训练集的迭代完毕，否则继续迭代

结束以训练步数t为基准的循环

结束以训练集数为基准的循环

(4)迁移训练的详细流程描述如下：

(4-1)在仿真中按照DDPG的算法流程训练模型并保存，然后加载模型参数，在真实机械臂上进行迁移训练，在真实世界中控制机械臂训练网络的过程步骤和仿真中网络的训练流程相同，直到在真实机械臂控制中的模型从新收敛训练，保存模型。

(4-2)在真实世界中加载训练好的模型进行机械臂的控制与抓取。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，该算法包括以下步骤：

步骤2：设计一种能量约束的归一化非线性奖励函数Reward，在Ros+Gazebo中搭建UR3e仿真环境，通过在仿真中训练网络，使模型快速收敛，进而对模型迁移训练控制现实中机械臂实现抓取。

2.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，步骤1具体步骤如下：

(1)使用coco数据集对深度学习网络进行预训练，收集待抓取物体照片，并按照voc数据集格式制作自己的数据集。在预训练模型基础上，根据制作的数据集继续训练网络模型使网络收敛。

(2)对目标检测的结果，融合卡尔曼滤波算法，实现目标检测与跟踪。

(3)根据目标检测框和待检测对象的颜色、形状等特征，计算待测物体的最小外接矩形，然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角θ_z，得到目标的3D(x,y,θ_z)信息。

3.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂控制抓取方法，步骤2具体步骤如下：

(1)在步骤1中获得目标物体的3D位姿基础上，令绕x，y轴的转角θ_x＝θ_y＝0，测量获取摄像头到机械臂底座的垂直距离补全z轴坐标，根据坐标变换关系，得到目标物体基于机械臂底座坐标系的6D(x,y,z,θ_x,θ_y,θ_z)位姿信息。

(2)定义状态空间

包括目标的位姿(6维)和微分变量，机械臂关节转角(6维)和微分变量，末端执行器的位姿(6维)和微分变量。

(3)为了解决(多关节)机械臂因多解导致的机械臂抖动问题，设计基于能量约束的归一化非线性奖励函数，计算在最小转角约束下机械臂的抓取控制的最优解。

Reward＝-(α₁R_T+α₂R_θ)

通过对距离状态和机械臂转角状态进行归一化处理，把输入到深度强化学习网络的数据解算至相同的区间，统一输入到神经网络中数据的运算范围，并且对变量进行二次函数关系的非线性的函数映射，使得网络梯度下降的时候速率更快，从而加快训练。并且，通过设计能量约束函数，对机械臂的转角进行约束，改善机械臂因多解问题而抖动的缺点，计算在最小转角约束下机械臂的抓取控制的最优解。

4.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，步骤3具体步骤如下：

(1)使用ROS的moveit机械臂功能包，并设置末端执行器以恒定速度移动为约束条件，实现UR3e臂的运动控制。

(2)在机械臂的运动过程中，订阅UR3e过程中的action消息，获得机械臂T时刻的位置、速度等状态信息。使用距离奖励

对所有获得的T时刻状态计算奖励。

(3)把基于机械臂模型控制产生的稳定的原始数据序列，打包为{S_t，A_t，R_t，S_t+1}格式，保存到经验库中，经验库的容量为M。

(4)在强化学习最初训练的阶段，使用基于示教方式保存的数据作为初始数据，解决DDPG网络在最初训练时，因为随机动作导致的有效数据少、训练效率低等问题。