CN108038545A - 基于Actor-Critic神经网络连续控制的快速学习算法 - Google Patents

基于Actor-Critic神经网络连续控制的快速学习算法 Download PDF

Info

Publication number
CN108038545A
CN108038545A CN201711274761.6A CN201711274761A CN108038545A CN 108038545 A CN108038545 A CN 108038545A CN 201711274761 A CN201711274761 A CN 201711274761A CN 108038545 A CN108038545 A CN 108038545A
Authority
CN
China
Prior art keywords
network
state
time difference
actor
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711274761.6A
Other languages
English (en)
Inventor
柯丰恺
周唯倜
赵大兴
孙国栋
许万
丁国龙
吴震宇
赵迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201711274761.6A priority Critical patent/CN108038545A/zh
Publication of CN108038545A publication Critical patent/CN108038545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种Actor‑Critic神经网络连续控制的快速学习算法,经验池初始化、神经网络初始化、构造输出干扰、积累经验池、根据优先数prop采样及训练深度强化学习神经网络,根据由TD_diff、sigmoid_TD和使用迹UT计算出来的优先数prop来优化采样的算法,TD_error的收敛速度加快,使得算法的学习速度加快。

Description

基于Actor-Critic神经网络连续控制的快速学习算法
技术领域
本发明属于强化学习算法技术领域,具体涉及一种基于Actor-Critic神经网络连续控制的快速学习算法。
背景技术
近年来,深度强化学习大放异彩,Google研发的围棋程序AlphaGo成功打败世界顶级棋手李世石,在世界范围掀起了人工智能的热潮,而AlphaGo的成功,归功于深度强化学习算法。现在的深度强化学习算法大多使用了记忆回放(memory replay)这一方法。记忆回放的概念在1993年便被提出,到2013年随着DQN算法的提出,记忆回放在深度强化学习的各个方面被广泛使用。但由于记忆回放往往采取随机取样的方式,导致神经网络对某些状态重复学习,优先状态学习不到,并且经验池中一些较优的历史数据不能得到优先采样。因此,如何优化经验池采样是深度强化学习算法提示的一个关键。
经验池优化采样的方法不多,有构造具有状态序列对的最大数量μrms和试验最大次数Knum两个参数约束的容器来使经验池保留一些较优的历史数据的方法,还有根据仅TD_error的大小的优先采样的方法。仅根据时间差分误差TD_error大小的方法有时的表现还不如随机采样,导致学习效率低。
发明内容
本发明的目的就是针对上述技术的不足,提供一种基于Actor-Critic神经网络连续控制的快速学习算法。
为实现上述目的,本发明所设计的基于Actor-Critic神经网络连续控制的快速学习算法,包括如下步骤:
步骤1)初始化
1.1)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+3,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息、使用迹和时间差分错误的空间;
1.2)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,其中,μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;
随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,θQ′←θQ
步骤2)构造输出干扰
根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为var2的随机正态分布从随机正态分布中随机得到一个实际输出动作at,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;
步骤3)积累经验池
3.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)构造的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;
3.2)计算状态转移信息transition的时间差分错误TD_error1
3.3)储存信息
在经验池中存储步骤3.1)中状态转移信息transition和状态转移信息transition对应的时间差分错误TD_error1,并初始化状态转移信息transition的使用迹UT为1,并将使用迹UT存储在经验池中;
3.4)将后续输入状态st+1当做现在的当前输入状态st,重复步骤3.1)~步骤3.3),将计算得到的状态转移信息transition、状态转移信息transition对应的时间差分错误TD_error1和使用迹UT存储在经验池中;
3.5)重复步骤3.4)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤3.4)便跳转执行一次步骤4)和步骤5);
步骤4)根据优先数prop采样
4.1)采样
从经验池中取出2×batch组样本,batch代表自然数;
4.2)对采样中的每组样本分别计算时间差分错误TD_error2
4.3)计算每组样本中变换后时间差分错误TD_error记为TD_diff;
同时,计算每组样本中经过变换后的时间差分错误TD_error2′记为sigmoid_TD;
4.4)计算每组样本中的优先数prop
4.5)取样
完成步骤4.1)~步骤4.4)后,根据优先数prop大小优先采样的原则,按从大到小的顺序取出前几组batch组样本供神经网络学习;
4.6)更新使用迹UT
步骤5)训练深度强化学习神经网络
5.1)对评价网络参数进行更新
5.2)对行为估计网络参数进行更新
5.3)对目标网络参数进行更新
5.4)分为xm回合,每个回合重复步骤5.1)~5.3)xn次,每次重复5.1)~5.3)后,输出干扰的var值更新为var=max{0.1,var=var×gamma},其中xm、xn代表自然数,gamma为大于零小于1的有理数。
进一步地,所述步骤3.2)中,计算状态转移信息transition的时间差分错误TD_error1具体过程为:
根据当前输入状态st、实际输出动作at通过网络得到估计Q值即eval_Q,根据后续输入状态st+1、奖励rt通过网络得到目标Q值即target_Q;再根据时间差分错误TD_error1=eval_Q-target_Q,得到时间差分错误TD_error1,其中代表t时刻评价估计网络的参数,代表t时刻评价目标网络的参数,t为当前输入状态的时刻。
进一步地,所述步骤4.2)中,对采样中的每组样本分别计算时间差分错误TD_error2具体过程为:
根据每组样本中的状态转移信息transition通过网络和网络得到对应的时间差分错误TD_error2,t′为步骤3.5)中经验池空间被存储满后执行步骤3.4)的输入状态时刻,也就是说步骤3.5)中经验池空间被存储满后每执行一次步骤3.4)时的输入状态时刻即为t′。
进一步地,所述步骤4.3)中,
将时间差分错误TD_error的变化记为TD_diff,TD_diff=|TD_error2-TD_error1|;
将变换后的时间差分错误TD_error2′记为sigmoid_TD,sigmoid_TD=1/(1+e-TD_error 2);
进一步地,所述步骤4.4)中,每组样本中优先数prop的计算公式为:prop=sigmoid_TD×TD_diff×UT,UT为步骤3.3)中的使用迹UT。
进一步地,所述步骤4.6)中,更新步骤4.5)中取样的前几组batch组样本使用迹UT,更新后的使用迹UT′=UT×λ,其中λ为自然数,代表衰减系数。
进一步地,所述步骤5.1)中,对评价网络参数进行更新的具体过程为:
根据步骤4)中优先数prop取样得到的前几组batch组样本状态转移信息transition通过网络和网络分别得到每组状态转移信息对应的估计Q′值eval_Q′和目标Q′值target_Q′,进而得到时间差分错误TD_error′,TD_error′=target_Q′-eval_Q′;t′为步骤3.5)中经验池空间被存储满后执行步骤3.4)的输入状态时刻,也就是说步骤3.5)中经验池空间被存储满后每执行一次步骤3.4)时的输入状态时刻即为t′;
根据时间差分错误TD_error′构造出损失函数Loss,Loss=∑TD_error′/batch;
根据损失函数Loss使用梯度下降法对评价估计网络参数θQ进行更新。
进一步地,所述步骤5.2)中,对行为估计网络参数进行更新的具体过程为:
每batch组样本状态转移信息transition中的st通过网络和输出干扰得到对应的实际输出动作at,根据网络的估计Q′值eval_Q′对实际输出动作at求导数,得到估计Q′值对实际输出动作at的梯度 代表对动作at求导数;根据网络的实际输出动作at值对网络参数求导数,得到实际输出动作at值对网络参数的梯度其中代表着对行为估计网络的参数求导数;
估计Q值对实际输出动作at的梯度和实际输出动作at值对行为估计网络参数的梯度的乘积即为估计Q值对行为估计网络参数的梯度;
使用梯度上升法对行为估计网络参数进行更新。
进一步地,所述步骤5.3)中,目标网络参数进行更新的具体过程为:
每间隔J回合,actor_eval的网络参数赋值给actor_target,每间隔K回合,critic_eval的网络参数赋值给critic_target,其中,J≠K。
本发明与现有技术相比,具有以下优点:采用上述基于Actor-Critic神经网络连续控制的快速学习算法,根据由TD_diff、sigmoid_TD和使用迹UT计算出来的优先数prop来优化采样的算法,TD_error的收敛速度加快,使得算法的学习速度加快。
附图说明
图1是本发明基于Actor-Critic神经网络连续控制的快速学习算法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示为基于Actor-Critic神经网络连续控制的快速学习算法的流程示意图,包括如下步骤:
步骤1)初始化
1.1)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+3,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息、使用迹和时间差分错误的空间,n=2×state_dim+action_dim+3这个公式中的3即为存储奖励信息、使用迹和时间差分错误这三项的预留空间;
1.2)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,即μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,即θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,即θQ′←θQ
步骤2)构造输出干扰
根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为var2的随机正态分布从随机正态分布中随机得到一个实际输出动作at,随机正态分布对动作at′施加了干扰,用于探索环境,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;
步骤3)积累经验池
3.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)建立的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;
3.2)计算状态转移信息transition的时间差分错误TD_error1;
根据当前输入状态st、实际输出动作at通过网络得到估计Q值即eval_Q,根据后续输入状态st+1、奖励rt通过网络得到目标Q值及target_Q;再根据时间差分错误TD_error1=eval_Q-target_Q(-为减号),得到时间差分错误TD_error1,其中代表t时刻评价估计网络的参数,代表t时刻评价目标网络的参数,t为当前输入状态的时刻;
3.3)储存信息
在经验池中存储步骤3.1)中状态转移信息transition和状态转移信息transition对应的时间差分错误TD_error1,并初始化状态转移信息transition的使用迹UT为1,并将使用迹UT存储在经验池中;
3.4)将后续输入状态st+1当做现在的当前输入状态st,重复步骤3.1)~步骤3.3),将计算得到的状态转移信息transition、状态转移信息transition对应的时间差分错误TD_error1和使用迹UT存储在经验池中;
3.5)重复步骤3.4)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤3.4)便跳转执行一次步骤4)和步骤5);
步骤4)根据优先数prop采样
4.1)采样
从经验池中取出2×batch组样本,batch代表自然数;
4.2)对采样中的每组样本分别计算时间差分错误TD_error2
根据每组样本中的状态转移信息transition通过网络和网络得到对应的时间差分错误TD_error2,t′为步骤3.5)中经验池空间被存储满后执行步骤3.4)的输入状态时刻,也就是说步骤3.5)中经验池空间被存储满后每执行一次步骤3.4)时的输入状态时刻即为t′;
4.3)计算每组样本中时间差分错误TD_error的变化:将时间差分错误TD_error的变化记为TD_diff,TD_diff=|TD_error2-TD_error1|;
同时,计算每组样本中经过变换后的时间差分错误TD_error2′:将变换后的时间差分错误TD_error2′记为sigmoid_TD,sigmoid_TD=1/(1+e-TD_error 2);
4.4)计算每组样本中的优先数prop
每组样本中优先数prop的计算公式为:prop=sigmoid_TD×TD_diff×UT,UT为步骤3.3)中的使用迹UT;
4.5)取样
完成步骤4.1)~步骤4.4)后,根据优先数prop大小优先采样的原则,按从大到小的顺序取出前几组batch组样本供神经网络学习;
4.6)更新使用迹UT
更新步骤4.5)中取样的前几组batch组样本使用迹UT,更新后的使用迹UT′=UT×λ,其中λ为自然数,代表衰减系数;
步骤5)训练深度强化学习神经网络
5.1)对评价网络参数进行更新
根据步骤4)中优先数prop取样得到的前几组batch组样本状态转移信息transition通过网络和网络分别得到每组状态转移信息对应的估计Q′值eval_Q′和目标Q′值target_Q′,进而得到时间差分错误TD_error′,TD_error′=target_Q′-eval_Q′;t′为步骤3.5)中经验池空间被存储满后执行步骤3.4)的输入状态时刻,也就是说步骤3.5)中经验池空间被存储满后每执行一次步骤3.4)时的输入状态时刻即为t′;
根据时间差分错误TD_error′构造出损失函数Loss,Loss=∑TD_error′/batch;
根据损失函数Loss使用梯度下降法对评价估计网络参数θQ进行更新;
5.2)对行为估计网络参数进行更新
每batch组样本状态转移信息transition中的st通过网络和输出干扰得到对应的实际输出动作at,根据网络的估计Q′值eval_Q′对实际输出动作at求导数,得到估计Q′值对实际输出动作at的梯度 代表对实际输出动作at求导数;根据网络的实际输出动作at值对网络参数求导数,得到实际输出动作at值对网络参数的梯度其中代表着对行为估计网络的参数求导数;
估计Q值对实际输出动作at的梯度和实际输出动作at值对行为估计网络参数的梯度的乘积即为估计Q值对行为估计网络参数的梯度;
使用梯度上升法对行为估计网络参数进行更新;
5.3)对目标网络参数进行更新
每间隔J回合,actor_eval的网络参数赋值给actor_target,每间隔K回合,critic_eval的网络参数赋值给critic_target,其中,J≠K。
采用上述基于Actor-Critic神经网络连续控制的快速学习算法,根据由TD_diff、sigmoid_TD和使用迹UT计算出来的优先数prop来优化采样的算法,TD_error的收敛速度加快,使得算法的学习速度加快;
5.4)分为xm回合,每个回合重复步骤5.1)~5.3)xn次,每次重复5.1)~5.3)后,输出干扰的var值更新为var=max{0.1,var=var×gamma},即var值取0.1和上一时刻的var值经过衰减后的最大值,其中xm、xn代表自然数,gamma为大于零小于1的有理数。
实验数据比较
实验目标为在SCARA机械人仿真环境中,机械臂末端稳定在目标范围内持续50步或以上时间,实验设置为600回合,一个回合200步,即要求每回合最后四分之一及以上的时间机械臂末端稳定在目标范围内,可以验证该算法的可靠性,并不是漫无目的随意摆动凑巧达到。
表1回合数对比
算法 DDPG DDPG-TD DDPG-OS
均值/回合数 285 非常高 266
表1中,DDPG代表着DDPG算法、DDPG-TD代表根据TD-error的大小来优先采样的算法、DDPG-OS代表本发明提出的根据TD-error的变化和TD-error相结合,综合考虑使用迹,根据优先数prop的大小来优先采样的算法;
由表1可得,DDPG-OS算法与DDPG算法相比,提升了约10%的效率,而DDPG-TD算法的效果极差更,说明仅基于TD_error的采样方法的泛化性能较差,而本发明提出的算法极为有效。

Claims (9)

1.一种基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述快速学习算法包括如下步骤:
步骤1)初始化
1.1)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+3,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息、使用迹和时间差分错误的空间;
1.2)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,其中,μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;
随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,θQ′←θQ
步骤2)构造输出干扰
根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为var2的随机正态分布从随机正态分布中随机得到一个实际输出动作at,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;
步骤3)积累经验池
3.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)建立的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;
3.2)计算状态转移信息transition的时间差分错误TD_error1
3.3)储存信息
在经验池中存储步骤3.1)中状态转移信息transition和状态转移信息transition对应的时间差分错误TD_error1,并初始化状态转移信息transition的使用迹UT为1,并将使用迹UT存储在经验池中;
3.4)将后续输入状态st+1当做现在的当前输入状态st,重复步骤3.1)~步骤3.3),将计算得到的状态转移信息transition、状态转移信息transition对应的时间差分错误TD_error1和使用迹UT存储在经验池中;
3.5)重复步骤3.4)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤3.4)便跳转执行一次步骤4)和步骤5);
步骤4)根据优先数prop采样
4.1)采样
从经验池中取出2×batch组样本,batch代表自然数;
4.2)对采样中的每组样本分别计算时间差分错误TD_error2
4.3)计算每组样本中时间差分错误TD_error的变化记为TD_diff;
同时,计算每组样本中经过变换后的时间差分错误TD_error2′记为sigmoid_TD;
4.4)计算每组样本中的优先数prop
4.5)取样
完成步骤4.1)~步骤4.4)后,根据优先数prop大小优先采样的原则,按从大到小的顺序取出前几组batch组样本供神经网络学习;
4.6)更新使用迹UT
步骤5)训练深度强化学习神经网络
5.1)对评价网络参数进行更新
5.2)对行为估计网络参数进行更新
5.3)对目标网络参数进行更新
5.4)分为xm回合,每个回合重复步骤5.1)~5.3)xn次,每次重复5.1)~5.3)后,输出干扰的var值更新为var=max{0.1,var=var×gamma},其中xm、xn代表自然数,gamma为大于零小于1的有理数。
2.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤3.2)中,计算状态转移信息transition的时间差分错误TD_error1具体过程为:
根据当前输入状态st、实际输出动作at通过网络得到估计Q值即eval_Q,根据后续输入状态st+1、奖励rt通过网络得到目标Q值及target_Q;再根据时间差分错误TD_error1=eval_Q-target_Q,得到时间差分错误TD_error1,其中代表t时刻评价估计网络的参数,代表t时刻评价目标网络的参数,t为当前输入状态的时刻。
3.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤4.2)中,对采样中的每组样本分别计算时间差分错误TD_error2具体过程为:
根据每组样本中的状态转移信息transition通过网络和网络得到对应的时间差分错误TD_error2,t′为步骤3.5)中经验池空间被存储满后执行步骤3.4)的输入状态时刻,也就是说步骤3.5)中经验池空间被存储满后每执行一次步骤3.4)时的输入状态时刻即为t′。
4.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤4.3)中,
将时间差分错误TD_error的变化记为TD_diff,TD_diff=|TD_error2-TD_error1|;
将变换后的时间差分错误TD_error2′记为sigmoid_TD,sigmoid_TD=1/(1+e-TD_error 2)。
5.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤4.4)中,每组样本中优先数prop的计算公式为:prop=sigmoid_TD×TD_diff×UT,UT为步骤3.3) 中的使用迹UT。
6.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤4.6)中,更新步骤4.5)中取样的前几组batch组样本使用迹UT,更新后的使用迹UT′=UT×λ,其中λ为自然数,代表衰减系数。
7.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤5.1)中,对评价网络参数进行更新的具体过程为:
根据步骤4)中优先数prop取样得到的前几组batch组样本状态转移信息transition通过网络和网络分别得到每组状态转移信息对应的估计Q′值eval_Q′和目标Q′值target_Q′,进而得到时间差分错误TD_error′,TD_error′=target_Q′-eval_Q′;t′为步骤3.5)中经验池空间被存储满后执行步骤3.4)的输入状态时刻,也就是说步骤3.5)中经验池空间被存储满后每执行一次步骤3.4)时的输入状态时刻即为t′;
根据时间差分错误TD_error′构造出损失函数Loss,Loss=∑TD_error′/batch;
根据损失函数Loss使用梯度下降法对评价估计网络参数θQ进行更新。
8.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤5.2)中,对行为估计网络参数进行更新的具体过程为:
每batch组样本状态转移信息transition中的st通过网络和输出干扰得到对应的实际输出动作at,根据网络的估计Q′值eval_Q′对实际输出动作at求导数,得到估计Q′值对实际输出动作at的梯度 代表对实际输出动作at求导数;根据网络的实际输出动作at值对网络参数求导数,得到实际输出动作at值对网络参数的梯度其中代表着对行为估计网络的参数求导数;
估计Q值对实际输出动作at的梯度和实际输出动作at值对行为估计网络参数的梯度的乘积即为估计Q值对行为估计网络参数的梯度;
使用梯度上升法对行为估计网络参数进行更新。
9.根据权利要求1所述基于Actor-Critic神经网络连续控制的快速学习算法,其特征在于:所述步骤5.3)中,目标网络参数进行更新的具体过程为:
每间隔J回合,actor_eval的网络参数赋值给actor_target,每间隔K回合,critic_eval的网络参数赋值给critic_target,其中,J≠K。
CN201711274761.6A 2017-12-06 2017-12-06 基于Actor-Critic神经网络连续控制的快速学习算法 Pending CN108038545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711274761.6A CN108038545A (zh) 2017-12-06 2017-12-06 基于Actor-Critic神经网络连续控制的快速学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711274761.6A CN108038545A (zh) 2017-12-06 2017-12-06 基于Actor-Critic神经网络连续控制的快速学习算法

Publications (1)

Publication Number Publication Date
CN108038545A true CN108038545A (zh) 2018-05-15

Family

ID=62095957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711274761.6A Pending CN108038545A (zh) 2017-12-06 2017-12-06 基于Actor-Critic神经网络连续控制的快速学习算法

Country Status (1)

Country Link
CN (1) CN108038545A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109063827A (zh) * 2018-10-25 2018-12-21 电子科技大学 有限空间内自动拿取特定行李的方法、系统、存储介质和终端
CN109344877A (zh) * 2018-08-31 2019-02-15 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN109471963A (zh) * 2018-09-13 2019-03-15 广州丰石科技有限公司 一种基于深度强化学习的推荐算法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN109948781A (zh) * 2019-03-21 2019-06-28 中国人民解放军国防科技大学 用于自动驾驶车辆的连续动作在线学习控制方法及系统
CN110006486A (zh) * 2019-04-01 2019-07-12 中清控(武汉)科技有限公司 一种智能流温采集控制模块及智能流温测量方法
CN110394804A (zh) * 2019-08-26 2019-11-01 山东大学 一种基于分层线程框架的机器人控制方法、控制器及系统
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN111046181A (zh) * 2019-12-05 2020-04-21 贵州大学 一种用于自动分类法归纳的行动者—评论家算法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111582439A (zh) * 2020-04-14 2020-08-25 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111609525A (zh) * 2019-02-25 2020-09-01 珠海格力电器股份有限公司 一种空调控制方法、装置、电子设备及存储介质
CN111679577A (zh) * 2020-05-27 2020-09-18 北京交通大学 一种高速列车的速度跟踪控制方法和自动驾驶控制系统
CN111738787A (zh) * 2019-06-13 2020-10-02 北京京东尚科信息技术有限公司 一种信息推送方法及装置
CN111754251A (zh) * 2019-03-29 2020-10-09 北京达佳互联信息技术有限公司 广告投放方法、装置、服务器及存储介质
CN112187074A (zh) * 2020-09-15 2021-01-05 电子科技大学 一种基于深度强化学习的逆变器控制器
CN112419064A (zh) * 2020-12-07 2021-02-26 中山大学 基于深度强化学习和联盟链的能量交易方法、装置及设备
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法
CN112731804A (zh) * 2019-10-29 2021-04-30 北京京东乾石科技有限公司 一种实现路径跟随的方法和装置
CN113132232A (zh) * 2021-03-10 2021-07-16 清华大学 一种能量路由优化方法
CN113158608A (zh) * 2021-02-26 2021-07-23 北京大学 确定模拟电路参数的处理方法、装置、设备及存储介质
CN115673596A (zh) * 2022-12-28 2023-02-03 苏芯物联技术(南京)有限公司 一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109344877A (zh) * 2018-08-31 2019-02-15 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN109344877B (zh) * 2018-08-31 2020-12-11 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN109471963A (zh) * 2018-09-13 2019-03-15 广州丰石科技有限公司 一种基于深度强化学习的推荐算法
CN109063827A (zh) * 2018-10-25 2018-12-21 电子科技大学 有限空间内自动拿取特定行李的方法、系统、存储介质和终端
CN109063827B (zh) * 2018-10-25 2022-03-04 电子科技大学 有限空间内自动拿取特定行李的方法、系统、存储介质和终端
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN111609525A (zh) * 2019-02-25 2020-09-01 珠海格力电器股份有限公司 一种空调控制方法、装置、电子设备及存储介质
CN109948781A (zh) * 2019-03-21 2019-06-28 中国人民解放军国防科技大学 用于自动驾驶车辆的连续动作在线学习控制方法及系统
CN111754251A (zh) * 2019-03-29 2020-10-09 北京达佳互联信息技术有限公司 广告投放方法、装置、服务器及存储介质
CN111754251B (zh) * 2019-03-29 2024-01-19 北京达佳互联信息技术有限公司 广告投放方法、装置、服务器及存储介质
CN110006486A (zh) * 2019-04-01 2019-07-12 中清控(武汉)科技有限公司 一种智能流温采集控制模块及智能流温测量方法
CN111738787A (zh) * 2019-06-13 2020-10-02 北京京东尚科信息技术有限公司 一种信息推送方法及装置
CN110394804A (zh) * 2019-08-26 2019-11-01 山东大学 一种基于分层线程框架的机器人控制方法、控制器及系统
CN110394804B (zh) * 2019-08-26 2022-08-12 山东大学 一种基于分层线程框架的机器人控制方法、控制器及系统
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN112731804A (zh) * 2019-10-29 2021-04-30 北京京东乾石科技有限公司 一种实现路径跟随的方法和装置
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN111046181A (zh) * 2019-12-05 2020-04-21 贵州大学 一种用于自动分类法归纳的行动者—评论家算法
CN111046181B (zh) * 2019-12-05 2023-04-07 贵州大学 一种用于自动分类法归纳的行动者—评论家方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111582311B (zh) * 2020-04-09 2023-03-28 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111582439A (zh) * 2020-04-14 2020-08-25 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111679577A (zh) * 2020-05-27 2020-09-18 北京交通大学 一种高速列车的速度跟踪控制方法和自动驾驶控制系统
CN111679577B (zh) * 2020-05-27 2021-11-05 北京交通大学 一种高速列车的速度跟踪控制方法和自动驾驶控制系统
CN112187074A (zh) * 2020-09-15 2021-01-05 电子科技大学 一种基于深度强化学习的逆变器控制器
CN112419064B (zh) * 2020-12-07 2022-02-08 中山大学 基于深度强化学习和联盟链的能量交易方法、装置及设备
CN112419064A (zh) * 2020-12-07 2021-02-26 中山大学 基于深度强化学习和联盟链的能量交易方法、装置及设备
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法
CN113158608A (zh) * 2021-02-26 2021-07-23 北京大学 确定模拟电路参数的处理方法、装置、设备及存储介质
CN113132232B (zh) * 2021-03-10 2022-05-20 清华大学 一种能量路由优化方法
CN113132232A (zh) * 2021-03-10 2021-07-16 清华大学 一种能量路由优化方法
CN115673596A (zh) * 2022-12-28 2023-02-03 苏芯物联技术(南京)有限公司 一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法

Similar Documents

Publication Publication Date Title
CN108038545A (zh) 基于Actor-Critic神经网络连续控制的快速学习算法
Justesen et al. Illuminating generalization in deep reinforcement learning through procedural level generation
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
Zhao et al. Deep reinforcement learning with experience replay based on SARSA
CN106390456B (zh) 游戏中角色行为的生成方法和装置
CN105224986B (zh) 基于忆阻器件的深度神经网络系统
CN109523029B (zh) 自适应双自驱动深度确定性策略梯度强化学习方法
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN108629422A (zh) 一种基于知识指导-战术感知的智能体学习方法
CN112734014A (zh) 基于置信上界思想的经验回放采样强化学习方法及系统
CN110443284A (zh) Ai模型的训练方法、调用方法、服务器及可读存储介质
CN109847366A (zh) 用于游戏的数据处理方法和装置
CN107179077A (zh) 一种基于elm‑lrf的自适应视觉导航方法
CN108290704A (zh) 用于为至少一个电梯确定分配决策的方法和设备
CN112843725A (zh) 智能体处理方法及装置
CN110555517A (zh) 基于AlphaGo Zero改进的国际象棋博弈方法
CN109993302A (zh) 基于知识迁移的卷积神经网络通道自选择压缩与加速方法
Van De Steeg et al. Temporal difference learning for the game tic-tac-toe 3d: Applying structure to neural networks
CN109344879A (zh) 一种基于文本-图像对抗网络模型的分解卷积方法
WO2022247791A1 (zh) 一种基于机器学习的棋类自学习方法及装置
CN114404975B (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
Liao et al. Cs229 final report reinforcement learning to play mario

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180515