CN111300390A

CN111300390A - 基于蓄水池采样和双经验池的机械臂智能控制系统

Info

Publication number: CN111300390A
Application number: CN202010202667.5A
Authority: CN
Inventors: 张琳婧; 章宗长
Original assignee: Suzhou University
Current assignee: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-06-19
Anticipated expiration: 2040-03-20
Also published as: CN111300390B

Abstract

本发明公开了一种基于蓄水池采样和双经验池的机械臂智能控制系统，结合强化学习和深度神经网络来控制机械臂，包括如下模块：(1)环境信息采集模块；(2)仿真环境生成模块；(3)深度神经网络模块；(4)双经验池模块；(5)样本管理模块。本发明通过不断迭代优化深度神经网络模块，训练机械臂的控制模型，然后将训练好的控制模型放入到实体机械臂中，有效提高了机械臂的工作效率，使机械臂在环境不同但任务相似的应用场景中可以快速适应学习。经验池的使用提高了样本利用率，通过重复使用样本进行训练减少机械臂的磨损，节约成本。同时蓄水池采样方法可以保留稀有样本，防止训练模型过拟合而使机械臂遗忘从稀有样本学习到的知识，提高泛化性。

Description

基于蓄水池采样和双经验池的机械臂智能控制系统

技术领域

本发明属于人工智能和工业机器人领域，具体涉及到多种需要用到机械臂的应用场景中，利用深度策略性梯度策略模型的深度强化学习方法在具有各种任务的环境中进行机械臂自动控制策略的生成。

背景技术

目前，在许多应用场景中机械臂凭借其操作灵活性应用广泛，如工业制造、医学治疗、服务行业、军事、半导体制造以及太空探索等领域。机械臂的使用大大解放了人力，但是其在使用过程中还需根据当前应用场景的需求设计机械臂来实现对其的控制，每个机械臂的设计都针对特定的场景，具有较差的泛化性。在设计机械臂时，须根据机械手抓取重量、自由度数、工作范围、运动速度及机械手的整体布局和工作条件等各种因素综合考虑，增加了机械臂的控制难度，而且对于机械臂的每个动作完成度的精度要求也很高。随着人工智能的发展，急需一种可以实现完全自主控制的智能机械臂的控制方法，更大程度的减小设计难度。通过智能控制方法可以使机械臂具有很好的泛化性能，在各个场景中使用时可以像人一样很快的自主学会抓取和运输物体，像人一样灵活智能，仅需少量的移动即可学会如何实现目标，减少了机器磨损成本，大大提高应用范围和工作效率。

发明内容

本发明要解决的技术问题是提供一种基于蓄水池采样和双经验池的机械臂智能控制系统。

为了解决上述技术问题，本发明提供了一种基于蓄水池采样和双经验池的机械臂智能控制系统，所述机械臂智能控制系统包括：

环境信息采集模块：通过机械臂所带相机采集当前环境图像信息，用于确定机械臂的状态集合

动作集合

及相应的奖赏集合

奖赏信息

表示为机械臂的训练过程中各个动作相应的奖赏值；

仿真环境生成模块：搭建虚拟环境，根据所述环境信息采集模块中获取的状态信息和动作信息搭建虚拟环境，通过仿真环境训练机械臂的控制模型，然后再将训练好的模型用于实体机械臂的控制中；

深度神经网络模块：基于深度确定性策略梯度算法，构建根据所述环境信息采集模块中获得的机械臂的状态信息输出机械臂所需执行的动作

该网络模块由行动者模块和评论家模块组成，评论家和行动者模块均包括两个结构完全相同而参数不同的网络：当前网络Q和μ，目标网络Q′和μ′，即，所述网络模块由四个神经网络搭建形成；在训练开始前，随机初始化所述四个网络的参数，θ^Q、θ^Q′、θ^μ和θ^μ′；

双经验池模块：双经验池用于保存机械臂自动学习特定目标过程中产生的样本信息；样本信息存储为四元组数据(s，a，r，s′)，其中

表示机械臂当前所处状态信息，将s输入到所述学习模型，通过神经网络的训练输出机械臂下一步需要执行的动作a；机械臂执行动作a后会得到一个反馈信息，即奖赏值

此时机械臂移动到下一个状态

这样完成了机械臂的一步训练，将所述每一步训练产生的四元组数据作为样本信息保存在经验池中，用于后续的训练；

样本管理模块：该模块用于辅助双经验池中样本的保留和采集；通过样本保留方法在经验池填充满后，决定新旧样本的交替；而样本采集方法通过采集具有信息价值高的样本用于算法训练，从而加速训练过程并保证高效的样本利用度；

其中，所述机械臂的状态集合

是将机械臂相机采集的关于环境的图像信息输入到卷积神经网络经过特征提取获得；

其中，所述经验池模块中创建两个大小一样的经验池，根据机械臂当前采取探索性质动作还是利用性质动作分为探索经验池和利用经验池；

对于从经验池中采集的样本，用于训练机械臂的控制模型，以最大化奖赏信息为目标输出每一步需要执行的动作；在进行采样时，从所述探索经验池和利用经验池中共同采样，合成一个批训练样本集合用于训练所述深度神经网络模块中各个网络的参数；

其中，所述经验池中采集的批样本集合输入到深度神经网络模块中进行训练，控制机械臂的自主运动；在训练过程中，采集的批样本集合中的样本(s，a，r，s′)输入到Critic模块中计算动作值函数Q(s，a)，不断迭代训练并更新网络参数；完成训练过程后，根据之前计算所得动作值来决定在所述Actor模块在输入状态s下，机械臂下一步应执行的动作a。

在其中一个实施例中，环境信息采集模块中奖赏值

的具体计算过程为：

机械臂在某个时刻t时，根据卷积神经网络提取的当前状态信息s_t，从中得到当前所处的位置信息(x_t，y_t，z_t)及指定目标的位置信息(x_g，y_g，z_g)，当前奖励值

在其中一个实施例中，对深度神经网络模块的构建，动作者模块和评论家模块均由两个网络组成：当前网络和目标网络，这两个网络结构一致；评论家模块的目标网络根据动作者模块的目标网络产生的动作来计算目标值：

y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

其中，r_t为奖赏值；γ为折扣因子，取值在[0，1]；

根据所述目标值和评论家模块的输出的当前Q值可以定义损失函数

其中，N为训练时从经验池中采集的批样本集合的大小；

基于损失函数针对θ^Q对损失函数求梯度

利用Adam优化方法对评论家模块中的当前网络参数进行优化；动作者模块中的当前网络参数优化同样使用Adam优化方法，对当前网络求梯度

在其中一个实施例中，适用软目标更新(Soft Target Update)方法来保证评论家和动作者模块中目标网络的参数更新，与深度Q网络中间断复制参数效果类似：

其中，ε为参数更新系数，且0＜ε＜＜1。

在其中一个实施例中，对于所述样本管理模块中，两个经验池选用不同的样本保留方法；当经验池填充满时，所述探索经验池采用蓄水池采样的方法来决定样本的替换，而所述利用经验池采用先进先出的方法进行样本的替换；蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换；蓄水池采样方法在大小k经验池填充满时，保留第i(i＞k)个样本的概率如下：

其中，C表示训练过程中产生的全部样本，该值为一个极大甚至无穷的数，在此仅用于证明每个样本保留概率是相等的；

所采集的样本来自两个经验池中，通过采样比τ来控制需要两个经验池中采集的样本比例；τ的计算通过从经验池中采集批样本N_b，输入到行动者模块中当前网络和目标网络，统计这两个网络所产生动作一致的个数n_b来计算，同时，为防止过于探索会对采样比添加一个最大限制

采样比的计算如下：

在其中一个实施例中，在动作者模块梯度更新过程中，为了防止过于探索而造成当前网络与目标网络输出动作偏差过大，从而造成梯度更新方向偏离最优轨迹，在当前网络更新过程中加入了梯度惩罚项来控制策略改变的大小，保持所述改变在一个可信任区域内，从而确保参数更新的准确度，加速最优策略的产生；添加梯度惩罚项后梯度更新公式为：

其中，β为惩罚系数，取值为[0，1]；D_KL表示求KL散度操作。

在其中一个实施例中，对于动作a的选择：在每个时刻t，加入遵从高斯分布的探索噪声生成新的动作，该方法可以使机械臂充分的探索相同状态下潜在的更优策略；新动作的生成方法表述如下:

其中，

为探索噪声，服从高斯分布，即，均值0，方差1的正态分布；

通过提前设定噪声阈值δ对动作a_t进行分类，分为探索性质的动作和利用性质的动作；然后根据这些动作的性质，将训练产生的与动作相关样本信息分别存入所述的两个经验池中；

a_t存入

本发明的有益效果：

通过训练出一个最优的控制模型将其应用到实体机械臂中，使机械臂在面对新的环境和任务时可以快速适应并完成任务，提高了机械臂的工作效率。在工业生产中，有许多简单繁琐或对精度要求高的简单任务中，可以使用机械臂来代替人力，不仅满足了严格的精度要求还大大解放了人力，通过仿真训练到实体控制，为工业生产提供了高效且简单的控制机制。本发明中蓄水池方法和双经验池的结合，既可以提高样本利用率，又可以保留稀有但有用的样本，节约成本，提高机械臂的泛化性。本发明不仅适用于工业生产，同时也可以用于其他类似任务的机器人控制中。

附图说明

图1为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统的整体流程图。

图2为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统中深度神经网络优化过程示意图。

图3为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统的经验池存储示意图。

图4为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统的探索噪声引入过程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

强化学习实现了智能体(Agent)自主学习而不需要人工指引的学习方法。智能体尝试不断试错的方法进行学习，通过与环境进行交互获得的奖赏信息来指导自身行为，强化学习的目标是最大化智能体学习过程中的累积期望奖赏值。通过这种方式，智能体通过不断与环境交互并获得反馈，改进当前策略以适应环境。

深度神经网络是深度学习的基础，近几年一直作为研究热点，在图像处理、语音识别等领域取得了成功。

强化学习与深度神经网络相结合的深度强化学习算法，可以直接根据输入图像进行控制，相对于传统的强化学习算法可以解决更复杂的问题，是一种端到端的感知与控制算法。利用深度强化学习算法来进行自主学习并将其运用到机械臂控制系统的训练模块中，可以使得系统中的网络参数能够根据与环境的交互实时更新，以训练机械臂可以更灵活地实现给定目标。

参阅图1-图4，一种基于蓄水池采样和双经验池的机械臂智能控制系统，所述机械臂智能控制系统包括：

动作集合

及相应的奖赏集合

奖赏信息

表示为机械臂的训练过程中各个动作相应的奖赏值。

仿真环境生成模块：搭建虚拟环境，根据所述环境信息采集模块中获取的状态信息和动作信息搭建虚拟环境，通过仿真环境训练机械臂的控制模型，然后再将训练好的模型用于实体机械臂的控制中。

深度神经网络模块：本发明基于深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)算法，构建根据所述环境信息采集模块中获得的机械臂的状态信息输出机械臂所需执行的动作

该网络模块由行动者(Actor)模块和评论家(Critic)模块组成，评论家和行动者模块均包括两个结构完全相同而参数不同的网络：当前网络Q和μ，目标网络Q′和μ′，即，所述网络模块由四个神经网络搭建形成。在训练开始前，随机初始化所述四个网络的参数，θ^Q、θ^Q′、θ^μ和θ^μ′。

双经验池模块：双经验池用于保存机械臂自动学习特定目标过程中产生的样本信息。样本信息存储为四元组数据(s，a，r，s′)，其中

表示机械臂当前所处状态信息，将s输入到所述学习模型，通过神经网络的训练输出机械臂下一步需要执行的动作a。机械臂执行动作a后会得到一个反馈信息，即奖赏值

此时机械臂移动到下一个状态

这样完成了机械臂的一步训练，将所述每一步训练产生的四元组数据作为样本信息保存在经验池中，用于后续的训练。

样本管理模块：该模块用于辅助双经验池中样本的保留和采集。通过样本保留方法在经验池填充满后，决定新旧样本的交替。而样本采集方法通过采集具有信息价值高的样本用于算法训练，从而加速训练过程并保证高效的样本利用度。

其中，所述机械臂的状态集合

是将机械臂相机采集的关于环境的图像信息输入到卷积神经网络经过特征提取获得。

其中，所述经验池模块中创建两个大小一样的经验池，根据机械臂当前采取探索性质动作还是利用性质动作分为探索经验池和利用经验池。

对于从经验池中采集的样本，用于训练机械臂的控制模型，以最大化奖赏信息为目标输出每一步需要执行的动作。在进行采样时，从所述探索经验池和利用经验池中共同采样，合成一个批训练样本集合用于训练所述深度神经网络模块中各个网络的参数。

其中，所述经验池中采集的批样本集合输入到深度神经网络模块中进行训练，控制机械臂的自主运动。在训练过程中，采集的批样本集合中的样本(s，a，r，s′)输入到Critic模块中计算动作值函数Q(s，a)，不断迭代训练并更新网络参数。完成训练过程后，根据之前计算所得动作值来决定在所述Actor模块在输入状态s下，机械臂下一步应执行的动作a。

环境信息采集模块中奖赏值

的具体计算过程为：

对深度神经网络模块的构建，动作者模块和评论家模块均由两个网络组成：当前网络和目标网络，这两个网络结构一致。评论家模块的目标网络根据动作者模块的目标网络产生的动作来计算目标值：

y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

其中，r_t为奖赏值；γ为折扣因子，取值在[0，1]。

其中，N为训练时从经验池中采集的批样本集合的大小。

基于损失函数针对θ^Q对损失函数求梯度

利用Adam优化方法对评论家模块中的当前网络参数进行优化。动作者模块中的当前网络参数优化同样使用Adam优化方法，对当前网络求梯度

为了提高算法的训练稳定性，本发明中适用软目标更新(Soft Target Update)方法来保证评论家和动作者模块中目标网络的参数更新，与深度Q网络中间断复制参数效果类似：

其中，ε为参数更新系数，且0＜ε＜＜1。

对于所述样本管理模块中，两个经验池选用不同的样本保留方法。当经验池填充满时，所述探索经验池采用蓄水池采样的方法来决定样本的替换，而所述利用经验池采用先进先出(First In First Out,FIFO)的方法进行样本的替换。蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换。蓄水池采样方法在大小k经验池填充满时，保留第i(i＞k)个样本的概率如下：

其中，C表示训练过程中产生的全部样本，该值为一个极大甚至无穷的数，在此仅用于证明每个样本保留概率是相等的。

所采集的样本来自两个经验池中，通过采样比τ来控制需要两个经验池中采集的样本比例。τ的计算通过从经验池中采集批样本N_b，输入到行动者模块中当前网络和目标网络，统计这两个网络所产生动作一致的个数n_b来计算，同时，为防止过于探索会对采样比添加一个最大限制

采样比的计算如下：

在更新过程中，为了防止过于探索而造成动作者模块的当前网络与目标网络输出动作偏差过大，从而造成梯度更新方向偏离最优轨迹，在当前网络更新过程中加入了梯度惩罚项来控制策略改变的大小，保持所述改变在一个可信任区域内，从而确保参数更新的准确度，加速最优策略的产生。添加梯度惩罚项后梯度更新公式为：

其中，β为惩罚系数，取值为[0，1]；D_KL表示求KL散度操作。

算法对于动作a的选择：在每个时刻t，加入遵从高斯分布的探索噪声生成新的动作，该方法可以使机械臂充分的探索相同状态下潜在的更优策略。新动作的生成方法表述如下:

其中，

为探索噪声，服从高斯分布，即，均值0，方差1的正态分布。

通过提前设定噪声阈值δ对动作a_t进行分类，分为探索性质的动作和利用性质的动作。然后根据这些动作的性质，将训练产生的与动作相关样本信息分别存入所述的两个经验池中。

a_t存入

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，所述机械臂智能控制系统包括：

动作集合

及相应的奖赏集合

奖赏信息

表示为机械臂的训练过程中各个动作相应的奖赏值；

此时机械臂移动到下一个状态

其中，所述机械臂的状态集合

2.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，环境信息采集模块中奖赏值

的具体计算过程为：

3.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，对深度神经网络模块的构建，动作者模块和评论家模块均由两个网络组成：当前网络和目标网络，这两个网络结构一致；评论家模块的目标网络根据动作者模块的目标网络产生的动作来计算目标值：

y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

其中，r_t为奖赏值；γ为折扣因子，取值在[0，1]；

其中，N为训练时从经验池中采集的批样本集合的大小；

基于损失函数针对θ^Q对损失函数求梯度

4.根据权利要求3所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，适用软目标更新(Soft Target Update)方法来保证评论家和动作者模块中目标网络的参数更新，与深度Q网络中间断复制参数效果类似：

其中，ε为参数更新系数，且0＜ε＜＜1。

5.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，对于所述样本管理模块中，两个经验池选用不同的样本保留方法；当经验池填充满时，所述探索经验池采用蓄水池采样的方法来决定样本的替换，而所述利用经验池采用先进先出的方法进行样本的替换；蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换；蓄水池采样方法在大小k经验池填充满时，保留第i(i＞k)个样本的概率如下：

采样比的计算如下：

6.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，在动作者模块梯度更新过程中，为了防止过于探索而造成当前网络与目标网络输出动作偏差过大，从而造成梯度更新方向偏离最优轨迹，在当前网络更新过程中加入了梯度惩罚项来控制策略改变的大小，保持所述改变在一个可信任区域内，从而确保参数更新的准确度，加速最优策略的产生；添加梯度惩罚项后梯度更新公式为：

其中，β为惩罚系数，取值为[0，1]；D_KL表示求KL散度操作。

7.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统，其特征在于，对于动作a的选择：在每个时刻t，加入遵从高斯分布的探索噪声生成新的动作，该方法可以使机械臂充分的探索相同状态下潜在的更优策略；新动作的生成方法表述如下：

其中，

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项系统运行方法时的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项系统运行方法时的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项系统运行方法时的步骤。