CN112518742B - 基于动态模型与事后经验回放的多目标机器人控制方法 - Google Patents

基于动态模型与事后经验回放的多目标机器人控制方法 Download PDF

Info

Publication number
CN112518742B
CN112518742B CN202011281615.8A CN202011281615A CN112518742B CN 112518742 B CN112518742 B CN 112518742B CN 202011281615 A CN202011281615 A CN 202011281615A CN 112518742 B CN112518742 B CN 112518742B
Authority
CN
China
Prior art keywords
target
reinforcement learning
dynamic model
function
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011281615.8A
Other languages
English (en)
Other versions
CN112518742A (zh
Inventor
李秀
杨瑞
吕加飞
杨宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202011281615.8A priority Critical patent/CN112518742B/zh
Publication of CN112518742A publication Critical patent/CN112518742A/zh
Application granted granted Critical
Publication of CN112518742B publication Critical patent/CN112518742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/28Fuselage, exterior or interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法,本发明能够学习到完成整个目标空间的策略,在泛化性上比现有方法更有优势;本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率;相比其他离线值函数估计方法没有离线偏差,虽然存在模型误差,但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度,具有更好的表现。

Description

基于动态模型与事后经验回放的多目标机器人控制方法
技术领域
本发明涉及机器人控制技术领域,尤其涉及一种基于动态模型与事后经验回放的多目标机器人控制方法。
背景技术
强化学习:机器学习中的一类方法,主要由智能体和环境两部分组成。智能体根据当前的状态按照一定的策略(policy)执行动作并作用在环境中,环境接收到动作后会返回新的状态及一个奖励(reward)。
深度强化学习:将深度神经网络和强化学习进行了结合,使得强化学习能够有效解决大状态空间、甚至连续状态空间的复杂问题,机器人控制就属于连续状态空间控制问题。
多目标强化学习:通常的强化学习是完成一个特定目标,但是在机器人控制等问题中常常存在大量目标,比如移动机械臂到空间中的任意位置,我们希望智能体能够到达空间中的任意目标,于是引入了多目标强化学习。
离线策略算法:强化学习中一类采集数据的动作策略和更新的目标策略不相同的方法,这一类方法通常需要使用经验回放技术,对数据利用效率高于在线策略算法,但是在多目标连续控制问题中,数据利用效率依然很低;
经验回放:强化学习中离线策略算法的使用的一个技巧,使用一个经验池来储存智能体与环境交互产生的数据,训练策略时从经验池中小批次采样来训练策略网络。
事后经验回放:针对多目标强化学习的方法,通过修改经验池中数据的期望目标为实际完成的目标,极大的提高了对失败数据的利用效率。
离线策略偏差:当直接在离线策略算法中使用多步值函数估计的时候,由于行为策略和目标策略存在差异,导致多步的经验回放会带来离线策略偏差的累积,可能会严重影响智能体的策略学习。
基于动态模型的方法:强化学习中,已知环境的动态模型或根据数据学习出环境的动态模型的一类方法。我们可以与动态模型进行交互,从而减小与环境的交互次数。基于动态模型的方法存在的问题是,当动态模型对真实环境拟合不足时,就会存在模型误差,并且随着交互步数累积,也可能对智能体的训练带来危害。
多步方法:本专利中提到的多步方法是指对值函数做多步展开,利用多步的累积折扣奖励对值函数做估计的方法,该方式相比单步方法偏差更小,通常收敛速度更快。
现有技术存在以下不足:
(1)现有技术通常对于完成一个特定任务需要训练一个策略网络,泛化性不强,而我们的多目标强化学习技术能同时训练大量目标,一个模型就能够完成一定目标空间中的所有任务;
(2)现有技术没有利用到事后经验回放的信息,往往无法从失败的数据中学习,而我们的技术利用了事后经验回放来提高失败数据的利用,加速了机器人任务的训练;
(3)现有技术没有利用到基于模型的值函数展开方法,往往使用单步的时序差分方法学习,而我们的技术能够加速值函数的学习和智能体的训练;
(4)现有技术中的多步值函数估计方法在离线策略的情况下存在较大离线偏差,而本专利的方法由于使用了基于模型的值函数展开,不存在离线偏差,但是存在一定模型误差。
发明内容
本发明目的就是为了弥补已有技术中多目标强化学习机器人控制中数据利用效率低,需要海量数据训练的问题缺陷,提供一种基于动态模型与事后经验回放的多目标机器人控制方法,通过结合基于动态模型的多步值函数展开与事后经验回放技术起到了显著提高数据利用效率的效果。
本发明是通过以下技术方案实现的:
一种基于动态模型与事后经验回放的多目标机器人控制方法,具体方法如下:
S1、设定多目标强化学习参数;
S2、在多目标强化学习的参数设定下,得到确定性策略梯度算法Actor和Critic的损失函数Lactor和Icritic
S3、建立动态模型,基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练;
S4、利用事后经验回放技术,在多目标强化学习中,将失败经历的目标替换为实际完成的目标。
所述的多目标强化学习参数具体如下:
将强化学习表示为马尔可夫决策过程MDP,MDP包含了五元组(S,A,R,P,γ),其中S代表状态空间,A代表动作空间,R代表奖励函数,P代表状态转移概率矩阵,γ代表折扣因子;智能体每个时刻观测到状态st,根据状态执行动作at,环境接收到动作后转移到下一个状态st+1并反馈奖励rt,强化学习优化的目标是最大化累积奖励值
Figure BDA0002780995320000031
智能体根据策略π(at|st)选择动作,动作值函数Q(st,at)代表在状态st执行动作at后的期望累积奖励,
Figure BDA0002780995320000032
多目标强化学习中,智能体的策略和奖励函数都受到目标g的调节,奖励函数、值函数、策略具有以下表示:r(st,at,g),Q(st,at,g),π(st,g);使用成功与否来设置奖励函数,即完成目标奖励为0,未完成目标奖励为-1,用φ表示状态到目标的映射,∈表示设定达到目标的阈值,奖励函数表示为
Figure BDA0002780995320000033
所述的在多目标强化学习的参数设定下,得到确定性策略梯度算法Actor和Critic的损失函数Lactor和Lcritic,具体如下:
确定性策略梯度算法DDPG基于Actor Critic架构,Critic部分对状态动作进行评估,Actor部分即为选择动作的策略,在多目标强化学习的设定下,Actor、Critic的损失函数Lactor,Lcritic分别为:
Figure BDA0002780995320000034
Figure BDA0002780995320000041
where Qtarget=rt+γQ(st+1,π(st+1,g),g)。
所述的建立动态模型,基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练,具体如下:
首先根据交互数据训练一个环境的动态模型M:S×A→S,来最小化下一状态估计误差:
Figure BDA0002780995320000042
然后从某个状态动作对(st,at,rt,st+1,g)出发,利用策略与动态模型进行交互,产生新的数据(s′t+i,a′t+i,r′t+i,s′t+i+1,g′t+i),i∈(0,n],其中状态s由M计算,奖励r由奖励函数r(s′t,a′t,gt′)计算,使用单步值函数估计和多步值函数展开的加权平均,带权的
Figure BDA0002780995320000043
具有以下形式:
Figure BDA0002780995320000044
Figure BDA0002780995320000045
当α接近0时,
Figure BDA0002780995320000046
接近于单步的展开,此时
Figure BDA0002780995320000047
是没有模型误差的但是学习速度较慢,当α增加的时候,
Figure BDA0002780995320000048
包含更多的值函数展开信息,但同时带来更多偏差,因此α起到权衡基于模型的多步信息和模型偏差的作用,通过调节α和步数n加速智能体的训练,同时提高数据利用效率。
本发明的优点是:
(1)本发明能够学习到完成整个目标空间的策略,在泛化性上比现有方法更有优势;
(2)本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率;
(3)本发明相比其他离线值函数估计方法没有离线偏差,虽然存在模型误差,但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度,具有更好的表现。
附图说明
图1为本发明的事后经验回放整体算法流程图。
具体实施方式
如图1所示,一种基于动态模型与事后经验回放的多目标机器人控制方法,具体方法如下:
(1)设定多目标强化学习参数;
(2)在多目标强化学习的参数设定下,得到确定性策略梯度算法Actor和Critic的损失函数Lactor和Lcritic
(3)建立动态模型,基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练;
(4)利用事后经验回放技术,在多目标强化学习中,将失败经历的目标替换为实际完成的目标。
所述的多目标强化学习参数具体如下:
将强化学习表示为马尔可夫决策过程MDP,MDP包含了五元组(S,A,R,P,γ),其中S代表状态空间,A代表动作空间,R代表奖励函数,P代表状态转移概率矩阵,γ代表折扣因子;智能体每个时刻观测到状态st,根据状态执行动作at,环境接收到动作后转移到下一个状态st+1并反馈奖励rt,强化学习优化的目标是最大化累积奖励值
Figure BDA0002780995320000051
智能体根据策略π(at|st)选择动作,动作值函数Q(st,at)代表在状态st执行动作at后的期望累积奖励,
Figure BDA0002780995320000052
多目标强化学习中,智能体的策略和奖励函数都受到目标g的调节,奖励函数、值函数、策略具有以下表示:r(st,at,g),Q(st,at,g),π(st,g);使用成功与否来设置奖励函数,即完成目标奖励为0,未完成目标奖励为-1,用φ表示状态到目标的映射,∈表示设定达到目标的阈值,奖励函数表示为
Figure BDA0002780995320000061
所述的在多目标强化学习的参数设定下,得到确定性策略梯度算法Actor和Critic的损失函数Lactor和Lcritic,具体如下:
确定性策略梯度算法DDPG基于Actor Critic架构,Critic部分对状态动作进行评估,Actor部分即为选择动作的策略,在多目标强化学习的设定下,Actor、Critic的损失函数Lactor,Lcritic分别为:
Figure BDA0002780995320000062
Figure BDA0002780995320000063
where Qtarget=rt+γQ(st+1,π(st+1,g),g)。
所述的建立动态模型,基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练,具体如下:
首先根据交互数据训练一个环境的动态模型,M:S×A→S,来最小化下一状态估计误差:
Figure BDA0002780995320000064
然后从某个状态动作对(st,at,rt,st+1,g)出发,利用策略与动态模型进行交互,产生新的数据(s′t+i,a′t+i,r′t+i,s′t+i+1,g′t+i),i∈(0,n],其中状态s由M计算,奖励r由奖励函数r(s′t,a′t,g)计算,使用单步值函数估计和多步值函数展开的加权平均,带权的
Figure BDA0002780995320000065
具有以下形式:
Figure BDA0002780995320000066
Figure BDA0002780995320000071
当α接近0时,
Figure BDA0002780995320000072
接近于单步的展开,此时
Figure BDA0002780995320000073
是没有模型误差的但是学习速度较慢,当α增加的时候,
Figure BDA0002780995320000074
包含更多的值函数展开信息,但同时带来更多偏差,因此α起到权衡基于模型的多步信息和模型偏差的作用,通过调节α和步数n加速智能体的训练,同时提高数据利用效率。
事后经验回放整体算法如图1所示。
本发明的目的在于:
(1)实现多目标强化学习机器人控制,能学习到完成目标空间内任意目标的策略,泛化性强;
(2)利用事后经验回放技术和基于模型的多步值函数展开来加速多目标强化学习训练;
(3)利用基于动态模型的多步值函数估计方法解决离线偏差的影响,利用单步与多步的值函数展开的加权求和来缓解模型误差,通过调整权重α能够提高算法的稳定性和性能。
为了验证本发明的有效性以及本技术与现有方法的对比,我们使用仿真环境Fetch、Hand的八个任务进行测试,如图表1和表2所示,Fetch代表操作机械臂,Hand代表操作机械手,其中DDPG代表现有基础方法,HER代表事后经验回放方法,MMHER代表我们的方法,比较的结果是收敛所需epoch数(越小代表速度越快)以及训练完成相同次数后的完成任务的平均成功率,我们的方法在训练速度和最终表现上都是最优的:
表1本发明方法和其他方法收敛所需epoch数量对比
算法 FetchReach FetchPush
DDPG 3 ——
HER 2 22
MMHER 1 18
表2本发明方法和其他算法在仿真环境上的平均成功率对比
Figure BDA0002780995320000081

Claims (5)

1.一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:具体方法如下:
S1、设定多目标强化学习参数;所述的多目标强化学习参数具体如下:
将强化学习表示为马尔可夫决策过程MDP,MDP包含了五元组(S,A,R,P,γ),其中S代表状态空间,A代表动作空间,R代表奖励函数,P代表状态转移概率矩阵,γ代表折扣因子;智能体每个时刻观测到状态st,根据状态执行动作αt,环境接收到动作后转移到下一个状态st+1并反馈奖励rt,强化学习优化的目标是最大化累积奖励值
Figure FDA0003322867260000011
智能体根据策略π(αt|st)选择动作;
S2、在多目标强化学习的参数设定下,得到确定性策略梯度算法Actor和Critic的损失函数Lactor和Lcritic;具体如下:
确定性策略梯度算法DDPG基于Actor Gritic架构,Gritic部分对状态动作进行评估,Actor部分即为选择动作的策略,在多目标强化学习的设定下,Actor、Gritic的损失函数Lactor,Lcritic分别为:
Figure FDA0003322867260000012
Figure FDA0003322867260000013
where Qtarget=rt+γQ(st+1,π(st+1,g),g)
其中g代表目标空间中的一个目标;
S3、建立动态模型,基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练;包括:
首先根据交互数据训练一个环境的动态模型
Figure FDA0003322867260000015
来最小化下一状态估计误差:
Figure FDA0003322867260000014
然后从某个状态动作对
Figure FDA0003322867260000016
出发,利用策略与动态模型进行交互,产生新的数据
Figure FDA0003322867260000029
其中状态s由M计算,奖励r由奖励函数
Figure FDA00033228672600000210
计算,使用单步值函数估计和多步值函数展开的加权平均,带权的
Figure FDA0003322867260000021
具有以下形式:
Figure FDA0003322867260000022
Figure FDA0003322867260000023
其中α是可以调节的参数;
S4、利用事后经验回放技术,在多目标强化学习中,将失败经历的目标替换为实际完成的目标。
2.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:动作值函数
Figure FDA0003322867260000024
其中Q(st,αt)代表在状态st执行动作αt后的期望累积奖励。
3.根据权利要求2所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:多目标强化学习中,智能体的策略和奖励函数都受到目标g的调节,奖励函数、值函数、策略具有以下表示:r(st,αt,g),Q(st,αt,g),π(st,g);使用成功与否来设置奖励函数,即完成目标奖励为0,未完成目标奖励为-1,用φ表示状态到目标的映射,∈表示设定达到目标的阈值,奖励函数表示为
Figure FDA0003322867260000025
4.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:当α接近0时,
Figure FDA0003322867260000026
接近于单步的展开,此时
Figure FDA0003322867260000027
是没有模型误差的但是学习速度较慢,当α增加的时候,
Figure FDA0003322867260000028
包含更多的值函数展开信息,但同时带来更多偏差,因此α起到权衡基于模型的多步信息和模型偏差的作用。
5.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:通过调节α和步数n加速智能体的训练。
CN202011281615.8A 2020-11-16 2020-11-16 基于动态模型与事后经验回放的多目标机器人控制方法 Active CN112518742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011281615.8A CN112518742B (zh) 2020-11-16 2020-11-16 基于动态模型与事后经验回放的多目标机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011281615.8A CN112518742B (zh) 2020-11-16 2020-11-16 基于动态模型与事后经验回放的多目标机器人控制方法

Publications (2)

Publication Number Publication Date
CN112518742A CN112518742A (zh) 2021-03-19
CN112518742B true CN112518742B (zh) 2022-01-25

Family

ID=74980978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011281615.8A Active CN112518742B (zh) 2020-11-16 2020-11-16 基于动态模型与事后经验回放的多目标机器人控制方法

Country Status (1)

Country Link
CN (1) CN112518742B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114770523B (zh) * 2022-05-31 2023-09-15 苏州大学 一种基于离线环境交互的机器人控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108161934B (zh) * 2017-12-25 2020-06-09 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN111421538B (zh) * 2020-03-31 2022-05-20 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法

Also Published As

Publication number Publication date
CN112518742A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Zhang et al. A fault diagnosis method for wind turbines gearbox based on adaptive loss weighted meta-ResNet under noisy labels
CN109523029B (zh) 自适应双自驱动深度确定性策略梯度强化学习方法
CN112717415B (zh) 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN111047085A (zh) 一种基于元学习的混合动力车辆工况预测方法
CN112518742B (zh) 基于动态模型与事后经验回放的多目标机器人控制方法
CN113222035B (zh) 基于强化学习和知识蒸馏的多类别不平衡故障分类方法
CN111348034B (zh) 基于生成对抗模仿学习的自动泊车方法及系统
CN113536670A (zh) 一种群体产品剩余寿命预测的联邦迁移学习方法
CN114696340A (zh) 一种基于深度学习的风电调频逐步惯性控制方法
CN115972211A (zh) 基于模型不确定性与行为先验的控制策略离线训练方法
CN117313029A (zh) 一种基于卡尔曼滤波参数提取与状态更新的多传感器数据融合方法
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN114290339A (zh) 基于强化学习和残差建模的机器人现实迁移系统和方法
US20220121920A1 (en) Multi-agent coordination method and apparatus
CN114186709A (zh) 基于帝王蝶算法优化灰色模型关键参数的能源预测方法
CN116520703A (zh) 一种基于改进ac算法的强化学习间歇过程控制方法
CN113536549B (zh) 一种颗粒流微观力学参数反演方法
CN113723012B (zh) 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN115972197A (zh) 一种基于关节角轨迹编码的机器人动作演示学习方法
CN111241749B (zh) 一种基于储备池计算的永磁同步电动机混沌预测方法
CN111445005A (zh) 基于强化学习的神经网络控制方法及强化学习系统
CN116578889B (zh) 一种发电故障诊断方法
CN110334395A (zh) 基于jade的初始化em算法的卫星动量轮故障诊断方法及系统
WO2022111652A1 (zh) 一种机器人自主异常修复技能学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant