CN111300390A - 基于蓄水池采样和双经验池的机械臂智能控制系统 - Google Patents

基于蓄水池采样和双经验池的机械臂智能控制系统 Download PDF

Info

Publication number
CN111300390A
CN111300390A CN202010202667.5A CN202010202667A CN111300390A CN 111300390 A CN111300390 A CN 111300390A CN 202010202667 A CN202010202667 A CN 202010202667A CN 111300390 A CN111300390 A CN 111300390A
Authority
CN
China
Prior art keywords
mechanical arm
module
training
experience
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010202667.5A
Other languages
English (en)
Other versions
CN111300390B (zh
Inventor
张琳婧
章宗长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202010202667.5A priority Critical patent/CN111300390B/zh
Publication of CN111300390A publication Critical patent/CN111300390A/zh
Application granted granted Critical
Publication of CN111300390B publication Critical patent/CN111300390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/08Programme-controlled manipulators characterised by modular constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于蓄水池采样和双经验池的机械臂智能控制系统,结合强化学习和深度神经网络来控制机械臂,包括如下模块:(1)环境信息采集模块;(2)仿真环境生成模块;(3)深度神经网络模块;(4)双经验池模块;(5)样本管理模块。本发明通过不断迭代优化深度神经网络模块,训练机械臂的控制模型,然后将训练好的控制模型放入到实体机械臂中,有效提高了机械臂的工作效率,使机械臂在环境不同但任务相似的应用场景中可以快速适应学习。经验池的使用提高了样本利用率,通过重复使用样本进行训练减少机械臂的磨损,节约成本。同时蓄水池采样方法可以保留稀有样本,防止训练模型过拟合而使机械臂遗忘从稀有样本学习到的知识,提高泛化性。

Description

基于蓄水池采样和双经验池的机械臂智能控制系统
技术领域
本发明属于人工智能和工业机器人领域,具体涉及到多种需要用到机械臂的应用场景中,利用深度策略性梯度策略模型的深度强化学习方法在具有各种任务的环境中进行机械臂自动控制策略的生成。
背景技术
目前,在许多应用场景中机械臂凭借其操作灵活性应用广泛,如工业制造、医学治疗、服务行业、军事、半导体制造以及太空探索等领域。机械臂的使用大大解放了人力,但是其在使用过程中还需根据当前应用场景的需求设计机械臂来实现对其的控制,每个机械臂的设计都针对特定的场景,具有较差的泛化性。在设计机械臂时,须根据机械手抓取重量、自由度数、工作范围、运动速度及机械手的整体布局和工作条件等各种因素综合考虑,增加了机械臂的控制难度,而且对于机械臂的每个动作完成度的精度要求也很高。随着人工智能的发展,急需一种可以实现完全自主控制的智能机械臂的控制方法,更大程度的减小设计难度。通过智能控制方法可以使机械臂具有很好的泛化性能,在各个场景中使用时可以像人一样很快的自主学会抓取和运输物体,像人一样灵活智能,仅需少量的移动即可学会如何实现目标,减少了机器磨损成本,大大提高应用范围和工作效率。
发明内容
本发明要解决的技术问题是提供一种基于蓄水池采样和双经验池的机械臂智能控制系统。
为了解决上述技术问题,本发明提供了一种基于蓄水池采样和双经验池的机械臂智能控制系统,所述机械臂智能控制系统包括:
环境信息采集模块:通过机械臂所带相机采集当前环境图像信息,用于确定机械臂的状态集合
Figure BDA0002419911940000021
动作集合
Figure BDA0002419911940000022
及相应的奖赏集合
Figure BDA0002419911940000023
奖赏信息
Figure BDA0002419911940000024
表示为机械臂的训练过程中各个动作相应的奖赏值;
仿真环境生成模块:搭建虚拟环境,根据所述环境信息采集模块中获取的状态信息和动作信息搭建虚拟环境,通过仿真环境训练机械臂的控制模型,然后再将训练好的模型用于实体机械臂的控制中;
深度神经网络模块:基于深度确定性策略梯度算法,构建根据所述环境信息采集模块中获得的机械臂的状态信息输出机械臂所需执行的动作
Figure BDA0002419911940000025
该网络模块由行动者模块和评论家模块组成,评论家和行动者模块均包括两个结构完全相同而参数不同的网络:当前网络Q和μ,目标网络Q′和μ′,即,所述网络模块由四个神经网络搭建形成;在训练开始前,随机初始化所述四个网络的参数,θQ、θQ′、θμ和θμ′
双经验池模块:双经验池用于保存机械臂自动学习特定目标过程中产生的样本信息;样本信息存储为四元组数据(s,a,r,s′),其中
Figure BDA0002419911940000026
表示机械臂当前所处状态信息,将s输入到所述学习模型,通过神经网络的训练输出机械臂下一步需要执行的动作a;机械臂执行动作a后会得到一个反馈信息,即奖赏值
Figure BDA0002419911940000027
此时机械臂移动到下一个状态
Figure BDA0002419911940000028
这样完成了机械臂的一步训练,将所述每一步训练产生的四元组数据作为样本信息保存在经验池中,用于后续的训练;
样本管理模块:该模块用于辅助双经验池中样本的保留和采集;通过样本保留方法在经验池填充满后,决定新旧样本的交替;而样本采集方法通过采集具有信息价值高的样本用于算法训练,从而加速训练过程并保证高效的样本利用度;
其中,所述机械臂的状态集合
Figure BDA0002419911940000031
是将机械臂相机采集的关于环境的图像信息输入到卷积神经网络经过特征提取获得;
其中,所述经验池模块中创建两个大小一样的经验池,根据机械臂当前采取探索性质动作还是利用性质动作分为探索经验池和利用经验池;
对于从经验池中采集的样本,用于训练机械臂的控制模型,以最大化奖赏信息为目标输出每一步需要执行的动作;在进行采样时,从所述探索经验池和利用经验池中共同采样,合成一个批训练样本集合用于训练所述深度神经网络模块中各个网络的参数;
其中,所述经验池中采集的批样本集合输入到深度神经网络模块中进行训练,控制机械臂的自主运动;在训练过程中,采集的批样本集合中的样本(s,a,r,s′)输入到Critic模块中计算动作值函数Q(s,a),不断迭代训练并更新网络参数;完成训练过程后,根据之前计算所得动作值来决定在所述Actor模块在输入状态s下,机械臂下一步应执行的动作a。
在其中一个实施例中,环境信息采集模块中奖赏值
Figure BDA0002419911940000032
的具体计算过程为:
机械臂在某个时刻t时,根据卷积神经网络提取的当前状态信息st,从中得到当前所处的位置信息(xt,yt,zt)及指定目标的位置信息(xg,yg,zg),当前奖励值
Figure BDA0002419911940000033
在其中一个实施例中,对深度神经网络模块的构建,动作者模块和评论家模块均由两个网络组成:当前网络和目标网络,这两个网络结构一致;评论家模块的目标网络根据动作者模块的目标网络产生的动作来计算目标值:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
其中,rt为奖赏值;γ为折扣因子,取值在[0,1];
根据所述目标值和评论家模块的输出的当前Q值可以定义损失函数
Figure BDA0002419911940000041
Figure BDA0002419911940000042
其中,N为训练时从经验池中采集的批样本集合的大小;
基于损失函数针对θQ对损失函数求梯度
Figure BDA0002419911940000043
利用Adam优化方法对评论家模块中的当前网络参数进行优化;动作者模块中的当前网络参数优化同样使用Adam优化方法,对当前网络求梯度
Figure BDA0002419911940000044
在其中一个实施例中,适用软目标更新(Soft Target Update)方法来保证评论家和动作者模块中目标网络的参数更新,与深度Q网络中间断复制参数效果类似:
Figure BDA0002419911940000045
其中,ε为参数更新系数,且0<ε<<1。
在其中一个实施例中,对于所述样本管理模块中,两个经验池选用不同的样本保留方法;当经验池填充满时,所述探索经验池采用蓄水池采样的方法来决定样本的替换,而所述利用经验池采用先进先出的方法进行样本的替换;蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换;蓄水池采样方法在大小k经验池填充满时,保留第i(i>k)个样本的概率如下:
Figure BDA0002419911940000046
Figure BDA0002419911940000051
其中,C表示训练过程中产生的全部样本,该值为一个极大甚至无穷的数,在此仅用于证明每个样本保留概率是相等的;
所采集的样本来自两个经验池中,通过采样比τ来控制需要两个经验池中采集的样本比例;τ的计算通过从经验池中采集批样本Nb,输入到行动者模块中当前网络和目标网络,统计这两个网络所产生动作一致的个数nb来计算,同时,为防止过于探索会对采样比添加一个最大限制
Figure BDA0002419911940000052
采样比的计算如下:
Figure BDA0002419911940000053
在其中一个实施例中,在动作者模块梯度更新过程中,为了防止过于探索而造成当前网络与目标网络输出动作偏差过大,从而造成梯度更新方向偏离最优轨迹,在当前网络更新过程中加入了梯度惩罚项来控制策略改变的大小,保持所述改变在一个可信任区域内,从而确保参数更新的准确度,加速最优策略的产生;添加梯度惩罚项后梯度更新公式为:
Figure BDA0002419911940000054
其中,β为惩罚系数,取值为[0,1];DKL表示求KL散度操作。
在其中一个实施例中,对于动作a的选择:在每个时刻t,加入遵从高斯分布的探索噪声生成新的动作,该方法可以使机械臂充分的探索相同状态下潜在的更优策略;新动作的生成方法表述如下:
Figure BDA0002419911940000061
其中,
Figure BDA0002419911940000062
为探索噪声,服从高斯分布,即,均值0,方差1的正态分布;
通过提前设定噪声阈值δ对动作at进行分类,分为探索性质的动作和利用性质的动作;然后根据这些动作的性质,将训练产生的与动作相关样本信息分别存入所述的两个经验池中;
at存入
Figure BDA0002419911940000063
本发明的有益效果:
通过训练出一个最优的控制模型将其应用到实体机械臂中,使机械臂在面对新的环境和任务时可以快速适应并完成任务,提高了机械臂的工作效率。在工业生产中,有许多简单繁琐或对精度要求高的简单任务中,可以使用机械臂来代替人力,不仅满足了严格的精度要求还大大解放了人力,通过仿真训练到实体控制,为工业生产提供了高效且简单的控制机制。本发明中蓄水池方法和双经验池的结合,既可以提高样本利用率,又可以保留稀有但有用的样本,节约成本,提高机械臂的泛化性。本发明不仅适用于工业生产,同时也可以用于其他类似任务的机器人控制中。
附图说明
图1为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统的整体流程图。
图2为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统中深度神经网络优化过程示意图。
图3为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统的经验池存储示意图。
图4为本申请实施例提供的一种基于蓄水池采样和双经验池的机械臂智能控制系统的探索噪声引入过程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
强化学习实现了智能体(Agent)自主学习而不需要人工指引的学习方法。智能体尝试不断试错的方法进行学习,通过与环境进行交互获得的奖赏信息来指导自身行为,强化学习的目标是最大化智能体学习过程中的累积期望奖赏值。通过这种方式,智能体通过不断与环境交互并获得反馈,改进当前策略以适应环境。
深度神经网络是深度学习的基础,近几年一直作为研究热点,在图像处理、语音识别等领域取得了成功。
强化学习与深度神经网络相结合的深度强化学习算法,可以直接根据输入图像进行控制,相对于传统的强化学习算法可以解决更复杂的问题,是一种端到端的感知与控制算法。利用深度强化学习算法来进行自主学习并将其运用到机械臂控制系统的训练模块中,可以使得系统中的网络参数能够根据与环境的交互实时更新,以训练机械臂可以更灵活地实现给定目标。
参阅图1-图4,一种基于蓄水池采样和双经验池的机械臂智能控制系统,所述机械臂智能控制系统包括:
环境信息采集模块:通过机械臂所带相机采集当前环境图像信息,用于确定机械臂的状态集合
Figure BDA0002419911940000071
动作集合
Figure BDA0002419911940000072
及相应的奖赏集合
Figure BDA0002419911940000073
奖赏信息
Figure BDA0002419911940000074
表示为机械臂的训练过程中各个动作相应的奖赏值。
仿真环境生成模块:搭建虚拟环境,根据所述环境信息采集模块中获取的状态信息和动作信息搭建虚拟环境,通过仿真环境训练机械臂的控制模型,然后再将训练好的模型用于实体机械臂的控制中。
深度神经网络模块:本发明基于深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)算法,构建根据所述环境信息采集模块中获得的机械臂的状态信息输出机械臂所需执行的动作
Figure BDA0002419911940000081
该网络模块由行动者(Actor)模块和评论家(Critic)模块组成,评论家和行动者模块均包括两个结构完全相同而参数不同的网络:当前网络Q和μ,目标网络Q′和μ′,即,所述网络模块由四个神经网络搭建形成。在训练开始前,随机初始化所述四个网络的参数,θQ、θQ′、θμ和θμ′
双经验池模块:双经验池用于保存机械臂自动学习特定目标过程中产生的样本信息。样本信息存储为四元组数据(s,a,r,s′),其中
Figure BDA0002419911940000082
表示机械臂当前所处状态信息,将s输入到所述学习模型,通过神经网络的训练输出机械臂下一步需要执行的动作a。机械臂执行动作a后会得到一个反馈信息,即奖赏值
Figure BDA0002419911940000083
此时机械臂移动到下一个状态
Figure BDA0002419911940000084
这样完成了机械臂的一步训练,将所述每一步训练产生的四元组数据作为样本信息保存在经验池中,用于后续的训练。
样本管理模块:该模块用于辅助双经验池中样本的保留和采集。通过样本保留方法在经验池填充满后,决定新旧样本的交替。而样本采集方法通过采集具有信息价值高的样本用于算法训练,从而加速训练过程并保证高效的样本利用度。
其中,所述机械臂的状态集合
Figure BDA0002419911940000085
是将机械臂相机采集的关于环境的图像信息输入到卷积神经网络经过特征提取获得。
其中,所述经验池模块中创建两个大小一样的经验池,根据机械臂当前采取探索性质动作还是利用性质动作分为探索经验池和利用经验池。
对于从经验池中采集的样本,用于训练机械臂的控制模型,以最大化奖赏信息为目标输出每一步需要执行的动作。在进行采样时,从所述探索经验池和利用经验池中共同采样,合成一个批训练样本集合用于训练所述深度神经网络模块中各个网络的参数。
其中,所述经验池中采集的批样本集合输入到深度神经网络模块中进行训练,控制机械臂的自主运动。在训练过程中,采集的批样本集合中的样本(s,a,r,s′)输入到Critic模块中计算动作值函数Q(s,a),不断迭代训练并更新网络参数。完成训练过程后,根据之前计算所得动作值来决定在所述Actor模块在输入状态s下,机械臂下一步应执行的动作a。
环境信息采集模块中奖赏值
Figure BDA0002419911940000094
的具体计算过程为:
机械臂在某个时刻t时,根据卷积神经网络提取的当前状态信息st,从中得到当前所处的位置信息(xt,yt,zt)及指定目标的位置信息(xg,yg,zg),当前奖励值
Figure BDA0002419911940000091
对深度神经网络模块的构建,动作者模块和评论家模块均由两个网络组成:当前网络和目标网络,这两个网络结构一致。评论家模块的目标网络根据动作者模块的目标网络产生的动作来计算目标值:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
其中,rt为奖赏值;γ为折扣因子,取值在[0,1]。
根据所述目标值和评论家模块的输出的当前Q值可以定义损失函数
Figure BDA0002419911940000092
Figure BDA0002419911940000093
其中,N为训练时从经验池中采集的批样本集合的大小。
基于损失函数针对θQ对损失函数求梯度
Figure BDA0002419911940000101
利用Adam优化方法对评论家模块中的当前网络参数进行优化。动作者模块中的当前网络参数优化同样使用Adam优化方法,对当前网络求梯度
Figure BDA0002419911940000102
为了提高算法的训练稳定性,本发明中适用软目标更新(Soft Target Update)方法来保证评论家和动作者模块中目标网络的参数更新,与深度Q网络中间断复制参数效果类似:
Figure BDA0002419911940000103
其中,ε为参数更新系数,且0<ε<<1。
对于所述样本管理模块中,两个经验池选用不同的样本保留方法。当经验池填充满时,所述探索经验池采用蓄水池采样的方法来决定样本的替换,而所述利用经验池采用先进先出(First In First Out,FIFO)的方法进行样本的替换。蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换。蓄水池采样方法在大小k经验池填充满时,保留第i(i>k)个样本的概率如下:
Figure BDA0002419911940000104
其中,C表示训练过程中产生的全部样本,该值为一个极大甚至无穷的数,在此仅用于证明每个样本保留概率是相等的。
所采集的样本来自两个经验池中,通过采样比τ来控制需要两个经验池中采集的样本比例。τ的计算通过从经验池中采集批样本Nb,输入到行动者模块中当前网络和目标网络,统计这两个网络所产生动作一致的个数nb来计算,同时,为防止过于探索会对采样比添加一个最大限制
Figure BDA0002419911940000111
采样比的计算如下:
Figure BDA0002419911940000112
在更新过程中,为了防止过于探索而造成动作者模块的当前网络与目标网络输出动作偏差过大,从而造成梯度更新方向偏离最优轨迹,在当前网络更新过程中加入了梯度惩罚项来控制策略改变的大小,保持所述改变在一个可信任区域内,从而确保参数更新的准确度,加速最优策略的产生。添加梯度惩罚项后梯度更新公式为:
Figure BDA0002419911940000113
Figure BDA0002419911940000114
其中,β为惩罚系数,取值为[0,1];DKL表示求KL散度操作。
算法对于动作a的选择:在每个时刻t,加入遵从高斯分布的探索噪声生成新的动作,该方法可以使机械臂充分的探索相同状态下潜在的更优策略。新动作的生成方法表述如下:
Figure BDA0002419911940000115
其中,
Figure BDA0002419911940000116
为探索噪声,服从高斯分布,即,均值0,方差1的正态分布。
通过提前设定噪声阈值δ对动作at进行分类,分为探索性质的动作和利用性质的动作。然后根据这些动作的性质,将训练产生的与动作相关样本信息分别存入所述的两个经验池中。
at存入
Figure BDA0002419911940000117
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,所述机械臂智能控制系统包括:
环境信息采集模块:通过机械臂所带相机采集当前环境图像信息,用于确定机械臂的状态集合
Figure FDA0002419911930000013
动作集合
Figure FDA0002419911930000014
及相应的奖赏集合
Figure FDA0002419911930000015
奖赏信息
Figure FDA0002419911930000011
表示为机械臂的训练过程中各个动作相应的奖赏值;
仿真环境生成模块:搭建虚拟环境,根据所述环境信息采集模块中获取的状态信息和动作信息搭建虚拟环境,通过仿真环境训练机械臂的控制模型,然后再将训练好的模型用于实体机械臂的控制中;
深度神经网络模块:基于深度确定性策略梯度算法,构建根据所述环境信息采集模块中获得的机械臂的状态信息输出机械臂所需执行的动作
Figure FDA0002419911930000012
该网络模块由行动者模块和评论家模块组成,评论家和行动者模块均包括两个结构完全相同而参数不同的网络:当前网络Q和μ,目标网络Q′和μ′,即,所述网络模块由四个神经网络搭建形成;在训练开始前,随机初始化所述四个网络的参数,θQ、θQ′、θμ和θμ′
双经验池模块:双经验池用于保存机械臂自动学习特定目标过程中产生的样本信息;样本信息存储为四元组数据(s,a,r,s′),其中
Figure FDA0002419911930000016
表示机械臂当前所处状态信息,将s输入到所述学习模型,通过神经网络的训练输出机械臂下一步需要执行的动作a;机械臂执行动作a后会得到一个反馈信息,即奖赏值
Figure FDA0002419911930000017
此时机械臂移动到下一个状态
Figure FDA0002419911930000018
这样完成了机械臂的一步训练,将所述每一步训练产生的四元组数据作为样本信息保存在经验池中,用于后续的训练;
样本管理模块:该模块用于辅助双经验池中样本的保留和采集;通过样本保留方法在经验池填充满后,决定新旧样本的交替;而样本采集方法通过采集具有信息价值高的样本用于算法训练,从而加速训练过程并保证高效的样本利用度;
其中,所述机械臂的状态集合
Figure FDA0002419911930000022
是将机械臂相机采集的关于环境的图像信息输入到卷积神经网络经过特征提取获得;
其中,所述经验池模块中创建两个大小一样的经验池,根据机械臂当前采取探索性质动作还是利用性质动作分为探索经验池和利用经验池;
对于从经验池中采集的样本,用于训练机械臂的控制模型,以最大化奖赏信息为目标输出每一步需要执行的动作;在进行采样时,从所述探索经验池和利用经验池中共同采样,合成一个批训练样本集合用于训练所述深度神经网络模块中各个网络的参数;
其中,所述经验池中采集的批样本集合输入到深度神经网络模块中进行训练,控制机械臂的自主运动;在训练过程中,采集的批样本集合中的样本(s,a,r,s′)输入到Critic模块中计算动作值函数Q(s,a),不断迭代训练并更新网络参数;完成训练过程后,根据之前计算所得动作值来决定在所述Actor模块在输入状态s下,机械臂下一步应执行的动作a。
2.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,环境信息采集模块中奖赏值
Figure FDA0002419911930000023
的具体计算过程为:
机械臂在某个时刻t时,根据卷积神经网络提取的当前状态信息st,从中得到当前所处的位置信息(xt,yt,zt)及指定目标的位置信息(xg,yg,zg),当前奖励值
Figure FDA0002419911930000021
3.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,对深度神经网络模块的构建,动作者模块和评论家模块均由两个网络组成:当前网络和目标网络,这两个网络结构一致;评论家模块的目标网络根据动作者模块的目标网络产生的动作来计算目标值:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
其中,rt为奖赏值;γ为折扣因子,取值在[0,1];
根据所述目标值和评论家模块的输出的当前Q值可以定义损失函数
Figure FDA0002419911930000031
Figure FDA0002419911930000032
其中,N为训练时从经验池中采集的批样本集合的大小;
基于损失函数针对θQ对损失函数求梯度
Figure FDA0002419911930000033
利用Adam优化方法对评论家模块中的当前网络参数进行优化;动作者模块中的当前网络参数优化同样使用Adam优化方法,对当前网络求梯度
Figure FDA0002419911930000034
4.根据权利要求3所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,适用软目标更新(Soft Target Update)方法来保证评论家和动作者模块中目标网络的参数更新,与深度Q网络中间断复制参数效果类似:
Figure FDA0002419911930000035
其中,ε为参数更新系数,且0<ε<<1。
5.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,对于所述样本管理模块中,两个经验池选用不同的样本保留方法;当经验池填充满时,所述探索经验池采用蓄水池采样的方法来决定样本的替换,而所述利用经验池采用先进先出的方法进行样本的替换;蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换;蓄水池采样方法在大小k经验池填充满时,保留第i(i>k)个样本的概率如下:
Figure FDA0002419911930000041
其中,C表示训练过程中产生的全部样本,该值为一个极大甚至无穷的数,在此仅用于证明每个样本保留概率是相等的;
所采集的样本来自两个经验池中,通过采样比τ来控制需要两个经验池中采集的样本比例;τ的计算通过从经验池中采集批样本Nb,输入到行动者模块中当前网络和目标网络,统计这两个网络所产生动作一致的个数nb来计算,同时,为防止过于探索会对采样比添加一个最大限制
Figure FDA0002419911930000042
采样比的计算如下:
Figure FDA0002419911930000043
6.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,在动作者模块梯度更新过程中,为了防止过于探索而造成当前网络与目标网络输出动作偏差过大,从而造成梯度更新方向偏离最优轨迹,在当前网络更新过程中加入了梯度惩罚项来控制策略改变的大小,保持所述改变在一个可信任区域内,从而确保参数更新的准确度,加速最优策略的产生;添加梯度惩罚项后梯度更新公式为:
Figure FDA0002419911930000044
其中,β为惩罚系数,取值为[0,1];DKL表示求KL散度操作。
7.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,对于动作a的选择:在每个时刻t,加入遵从高斯分布的探索噪声生成新的动作,该方法可以使机械臂充分的探索相同状态下潜在的更优策略;新动作的生成方法表述如下:
Figure FDA0002419911930000052
其中,
Figure FDA0002419911930000053
为探索噪声,服从高斯分布,即,均值0,方差1的正态分布;
通过提前设定噪声阈值δ对动作at进行分类,分为探索性质的动作和利用性质的动作;然后根据这些动作的性质,将训练产生的与动作相关样本信息分别存入所述的两个经验池中;
Figure FDA0002419911930000051
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到7任一项系统运行方法时的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到7任一项系统运行方法时的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到7任一项系统运行方法时的步骤。
CN202010202667.5A 2020-03-20 2020-03-20 基于蓄水池采样和双经验池的机械臂智能控制系统 Active CN111300390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010202667.5A CN111300390B (zh) 2020-03-20 2020-03-20 基于蓄水池采样和双经验池的机械臂智能控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010202667.5A CN111300390B (zh) 2020-03-20 2020-03-20 基于蓄水池采样和双经验池的机械臂智能控制系统

Publications (2)

Publication Number Publication Date
CN111300390A true CN111300390A (zh) 2020-06-19
CN111300390B CN111300390B (zh) 2021-03-23

Family

ID=71157132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010202667.5A Active CN111300390B (zh) 2020-03-20 2020-03-20 基于蓄水池采样和双经验池的机械臂智能控制系统

Country Status (1)

Country Link
CN (1) CN111300390B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111844034A (zh) * 2020-07-17 2020-10-30 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN112340063A (zh) * 2020-09-28 2021-02-09 南京邮电大学 一种基于深度强化学习的卫星消旋方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN114002957A (zh) * 2021-11-02 2022-02-01 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
CN114012735A (zh) * 2021-12-06 2022-02-08 山西大学 一种基于深度强化学习的机械臂控制方法及系统
CN117539145A (zh) * 2024-01-10 2024-02-09 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269757A1 (en) * 2011-08-30 2015-09-24 5D Robotics, Inc. Graphical rendition of multi-modal data
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110658829A (zh) * 2019-10-30 2020-01-07 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269757A1 (en) * 2011-08-30 2015-09-24 5D Robotics, Inc. Graphical rendition of multi-modal data
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110658829A (zh) * 2019-10-30 2020-01-07 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111844034B (zh) * 2020-07-17 2022-03-04 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN111844034A (zh) * 2020-07-17 2020-10-30 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN112340063A (zh) * 2020-09-28 2021-02-09 南京邮电大学 一种基于深度强化学习的卫星消旋方法
CN112340063B (zh) * 2020-09-28 2022-05-31 南京邮电大学 一种基于深度强化学习的卫星消旋方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN112966591B (zh) * 2021-03-03 2023-01-20 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN114002957A (zh) * 2021-11-02 2022-02-01 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
CN114002957B (zh) * 2021-11-02 2023-11-03 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
CN114012735A (zh) * 2021-12-06 2022-02-08 山西大学 一种基于深度强化学习的机械臂控制方法及系统
CN114012735B (zh) * 2021-12-06 2022-08-05 山西大学 一种基于深度强化学习的机械臂控制方法及系统
CN117539145A (zh) * 2024-01-10 2024-02-09 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法
CN117539145B (zh) * 2024-01-10 2024-04-02 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法

Also Published As

Publication number Publication date
CN111300390B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN111300390B (zh) 基于蓄水池采样和双经验池的机械臂智能控制系统
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN111612126A (zh) 强化学习的方法和装置
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
Murali et al. Cassl: Curriculum accelerated self-supervised learning
CN108415254B (zh) 基于深度q网络的废品回收机器人控制方法
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN111376273B (zh) 一种类脑启发的机器人认知地图构建方法
CN113657573B (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
CN115990891B (zh) 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法
Hao et al. Independent generative adversarial self-imitation learning in cooperative multiagent systems
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
CN115169519A (zh) 一种仿生鱼体自主智能游动模拟方法、装置及系统
CN113821041A (zh) 一种多机器人协同导航与避障的方法
CN116494247A (zh) 基于深度确定性策略梯度的机械臂路径规划方法及系统
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
CN114161419B (zh) 一种情景记忆引导的机器人操作技能高效学习方法
Ye et al. Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling
CN108453737B (zh) 一种基于神经网络的机器人动作轨迹获取系统及方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN115542912B (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法
Desai et al. Auxiliary tasks for efficient learning of point-goal navigation
CN115016499A (zh) 一种基于sca-ql的路径规划方法
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN115373409B (zh) 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201225

Address after: 210034 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Applicant after: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.

Address before: No. 188, Shihu West Road, Wuzhong District, Suzhou City, Jiangsu Province

Applicant before: Suzhou University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant