CN111582441A - 共享循环神经网络的高效值函数迭代强化学习方法 - Google Patents

共享循环神经网络的高效值函数迭代强化学习方法 Download PDF

Info

Publication number
CN111582441A
CN111582441A CN202010298982.2A CN202010298982A CN111582441A CN 111582441 A CN111582441 A CN 111582441A CN 202010298982 A CN202010298982 A CN 202010298982A CN 111582441 A CN111582441 A CN 111582441A
Authority
CN
China
Prior art keywords
network
critic
actor
action
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010298982.2A
Other languages
English (en)
Other versions
CN111582441B (zh
Inventor
杨君
薛晨
芦维宁
梁斌
赵千川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010298982.2A priority Critical patent/CN111582441B/zh
Publication of CN111582441A publication Critical patent/CN111582441A/zh
Application granted granted Critical
Publication of CN111582441B publication Critical patent/CN111582441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法,该方法包括:通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。

Description

共享循环神经网络的高效值函数迭代强化学习方法
技术领域
本发明涉及强化学习技术领域,特别涉及一种共享循环神经网络的高效值函数迭代强化学习方法。
背景技术
强化学习基于马尔可夫决策过程的理论框架,将序贯决策任务建模为智能体与系统环境间交互的试错学习问题。值函数迭代方法和策略优化方法这两类无模型的强化学习算法被广泛用于解决各种决策问题。与策略优化方法相比,值函数迭代方法能够利用历史策略产生的数据对算法进行更新,因而其所需与环境交互的次数少、对样本的利用率高,更具备解决真实环境决策控制问题的可能。
实际任务大多为部分可观测的马可夫决策过程,不满足马尔可夫性质,即系统环境下一时刻的状态不仅与当前状态有关、也与历史状态相关。将强化学习算法直接应用于该类问题中,策略的性能会大受限制。策略优化方法对此在策略和值函数中额外引入循环神经网络(Recurrent Neural Network,RNN),将历史状态信息与当前状态信息整合编码后输入给策略和值函数网络。值函数迭代方法处理部分可观问题的方式与策略搜索法的相同,引入RNN对当前状态信息进行扩充,使部分可观测问题变为马尔可夫决策过程。
在值函数迭代方法中,对动作值函数Q的过估计会使策略陷入局部最优;引入RNN网络结构将增加样本采样数量和训练时长;此外由于策略的更新方向是通过最大化动作值函数Q的取值来确定,Q的过估计问题和RNN本身的梯度爆炸问题还将造成训练过程策略更新的不稳定。为此针对环境部分可观测的马尔可夫决策问题,设计一种高效稳定的值函数迭代算法,将推动强化学习算法在实际决策控制问题中的应用。
相关技术中,值函数迭代算法DQN(Deep Q-Learning)用深度神经网络逼近动作值函数Q(s,a)的值,利用从样本池中随机采样得到的交互数据来更新神经网络的参数,在状态完全可观测的决策任务中取得成功应用。DRQN(Deep Recurrent Q-Learning)算法在此基础上,引入循环神经网络(RNN),使动作值函数网络Q的输入包含当前观测信息和历史信息两部分,从而将DQN算法拓展到状态部分可观的任务中。
但是,实际大多决策控制问题的动作空间都是连续的,而DRQN算法只能用于解决离散动作空间的问题。将连续动作空间进行离散化后再用DRQN算法的方式,会使离散化后的动作空间随连续动作的维度呈指数增长,且动作的离散粒度也会对策略性能产生一定的影响。
在另一种相关技术中,为将值函数迭代算法应用于连续动作空间,DDPG(DeepDeterministic Policy Gradient)算法用两个神经网络来分别表示策略和动作值函数,并采用目标策略来实现对动作值函数Q取最大值的操作。RDPG(Recurrent DeterministicPolicy Gradient)在值函数网络和策略网络分别引入循环神经网络,通过增加网络输入信息的方式来解决环境状态部分可观的问题。
但是,RDPG算法中存在对动作值函数Q的过估计,导致依据Q值计算出的策略梯度带有偏差。智能体使用带有偏差的策略与环境交互,在动作值函数网络利用此交互数据进行更新时,Q值的过估计问题进一步加剧。经过反复迭代,算法会陷入次优策略,表现较差。
RDPG中采用两个循环神经网络,对值函数和策略的输入信息分别进行编码,由于循环神经网络需要大量的训练时间与样本才能对整个历史信息正确编码,且值函数网络与策略网络存在耦合关系,其中一个网络无法正确编码会使算法无法收敛。因此这种采用两个独立循环神经网络分别进行训练的方式效率较低,训练时间较长。另外Q的过估计问题和RNN本身的梯度爆炸问题将会造成训练过程策略更新的不稳定
在多数序贯决策实际任务中,受环境感知模块的限制,智能体往往只能得到系统环境状态的部分观测信息,使决策问题不再具备马尔可夫性质,智能体在做决策时必须得考虑历史信息。引入循环神经网络对智能体与环境交互的历史数据进行编码,将编码后的信息提供给智能体,从而解决环境状态信息部分可观测问题。虽然采用循环神经网络的策略搜索法已经具备解决环境部分可观测问题的能力,但由于该类方法在实际任务中面临智能体与环境进行交互消耗时间长、采样成本高的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种共享循环神经网络的高效值函数迭代强化学习方法,该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。
为达到上述目的,本发明一方面实施例提出了一种共享循环神经网络的高效值函数迭代强化学习方法,包括:
S1,通过智能体与环境进行交互获得样本数据,并将所述样本数据添加至样本池中;
S2,在所述样本池中随机选取样本数据作为训练样本数据;
S3,根据所述训练样本数据对Critic网络的部分参数进行更新;
S4,循环迭代对所述Critic网络更新两次后,根据所述训练样本数据对Actor网络的部分参数进行更新;
S5,对所述Critic网络中的第三Critic网络和第四Critic网络、所述Actor网络的第二Actor网络参数进行更新。
本发明实施例的共享循环神经网络的高效值函数迭代强化学习方法,通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的部分参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络进行更新。由此,适用于不完全信息环境下连续动作空间问题,训练效果稳定和高效;对历史信息编码与策略优化同时进行,无需分开训练;使用值函数迭代法提高样本利用率,从而能够减少获取样本所需时间、降低交互成本;采用TD3算法与循环神经网络相结合的方式,通过引入两个Critic网络,降低Critic网络值函数的过估计问题,提升算法性能;通过设计一种共享循环神经网络层的网络结构,提高算法训练效率,缩短训练时间;通过对动作值函数网络的输出进行归一化,并同时对网络参数的梯度进行截断,从而减轻梯度爆炸带来的策略更新不稳定问题。
另外,根据本发明上述实施例的共享循环神经网络的高效值函数迭代强化学习方法还可以具有以下附加的技术特征:
在本发明的实施例中,所述Critic网络包括第一Critic网络、第二Critic网络、所述第三Critic网络和所述第四Critic网络;所述第一Critic网络和所述第二Critic网络用于计算当前时刻状态当前动作下的值函数;所述第三Critic网络和所述第四Critic网络用于计算下一时刻状态下一动作的值函数;
所述Actor网络包括第一Actor网络和所述第二Actor网络;所述第一Actor网络在所述智能体与环境交互时为所述智能体选择应做出的动作,所述第二Actor网络输出下一时刻动作,用于在计算值函数标签时生成所述第三Critic网络和所述第四Critic网络的输入数据。
在本发明的实施例中,所述Critic网络和所述Actor网络共享长短时记忆网络。
在本发明的实施例中,所述S1进一步包括:
S101,所述智能体接收环境当前时刻的观测值、上一时刻记忆、上一时刻动作,长短时记忆网络根据所述环境当前时刻的观测值、上一时刻记忆、上一时刻动作计算出当前时刻记忆;
S102,所述智能体Actor网络部分的全连接网络根据所述当前时刻记忆计算出当前时刻选择的动作;
S103,环境根据所述智能体当前时刻选择的动作转移至下一状态并返回给所述智能体奖励信号和下一时刻的观测值;
S104,将S101-S103交互产生的样本数据添加至所述样本池中。
在本发明的实施例中,所述S3进一步包括:
S301,通过所述Critic网络中的所述第一Critic网络和所述第二Critic网络计算当前时刻值函数;
S302,通过所述Critic网络中的所述第三Critic网络和所述第四Critic网络计算下一时刻值函数;
S303,根据贝尔曼方程计算值函数的标签,并进行归一化;
S304,根据所述Critic网络的损失函数,对所述Critic网络的参数进行更新。
在本发明的实施例中,所述S301进一步包括:
S3011,根据所述训练样本数据中的当前时刻的观测值、上一时刻记忆和上一时刻动作,通过共享的长短时记忆网络计算当前记忆值;
S3012,所述Critic网络的全连接网络根据计算得到的当前记忆值以及所述训练样本数据中的当前动作,计算当前时刻值函数。
在本发明的实施例中,所述S302进一步包括:
S3021,根据下一时刻的观测值、当前时刻记忆和当前时刻动作,通过共享的长短时记忆网络计算下一时刻记忆值;
S3022,通过所述第二Actor网络的全连接网络根据计算出的下一时刻记忆选择下一时刻动作;
S3023,所述第三Critic网络和所述第四Critic网络的全连接网络根据下一时刻记忆值以及下一时刻动作,计算得到下一时刻值函数。
在本发明的实施例中,所述Actor网络的更新频率低于所述Critic网络的更新频率。
在本发明的实施例中,所述S4进一步包括:
S401,通过所述第一Actor网络计算当前时刻选择的动作;
S4011,根据所述训练样本数据中当前时刻的观测值、上一时刻记忆和上一时刻动作,通过共享的长短时记忆网络部分计算出当前不带梯度的记忆值;
S4012,所述Actor网络的全连接网络部分根据当前不带梯度的记忆值计算出要选择的当前动作;
S402,所述Critic网络部分的全连接网络根据计算的当前不带梯度的记忆值和S4012计算的当前动作,计算出动作值函数;
S403,所述Actor网络根据所述动作值函数算得的梯度,只对所述Actor网络的全连接部分的网络参数进行更新。
在本发明的实施例中,所述S5进一步包括:
S501:θ′1=τθ1+(1-τ)θ′1,θ′2=τθ2+(1-τ)θ′2
S502:φ′=τφ+(1-τ)φ′;
其中,θ′1为Critic网络中的第三Critic网络,θ′2为Critic网络中的第四Critic网络,θ1为Critic网络中的第一Critic网络,θ2为Critic网络中的第二Critic网络,φ′为Actor网络的第二Actor网络,φ为Actor网络的第一Actor网络,τ为更新系数,τ>0且τ<<1。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的Critic部分网络结构示意图;
图2为根据本发明一个实施例的Actor部分网络结构示意图;
图3为根据本发明一个实施例的Actor-Critic共享LSTM结构示意图;
图4为根据本发明一个实施例的共享循环神经网络的高效值函数迭代强化学习方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的共享循环神经网络的高效值函数迭代强化学习方法。
首先,本发明提出的共享循环神经网络的高效值函数迭代强化学习方法包含两个模块:Critic模块和Actor模块。在Critic模块中,通过使用两个Critic网络降低值函数估计偏高的问题;在Actor模块中,通过使Actor网络的更新频率低于Critic网络的更新频率提高算法稳定性;并通过共享Critic和Actor网络中循环神经网络部分缩短训练时间;最后采用对Critic网络的输出作归一化和梯度截断方法,使训练过程更加稳定。
下面结合附图介绍Critic模块和Actor模块。
如图1所示,为Critic部分网络结构。Critic模块利用智能体与环境的交互数据对值函数做出估计。本实施例的算法中共有四个Critic网络:
Figure BDA0002453273140000061
每个网络的第一层均为长短时记忆(Long Short-Term Memory,LSTM)网络,后续部分为全连接(Multilayer Perceptron,MLP)网络。在Critic网络中,首先根据智能体上一时刻记忆ht-1、上一时刻动作at-1、当前环境的部分状态观测值ot这三部分信息,由LSTM部分总结出当前时刻的记忆值ht。接下来后续全连接(MLP)网络计算在该记忆下对应动作的值函数大小Q(ht,at)。
现实世界中的任务由于传感器的限制以及环境噪声的存在,状态信息往往只是部分可观的,因而引入长短时记忆网络解决部分可观问题将极大提高强化学习算法在部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)现实任务中的表现。
在基于值函数的强化学习算法中,Qθ用于计算当前时刻状态当前动作下的值函数,Qθ′用于计算下一时刻状态下一动作的值函数。令y=r+γQθ′,其中γ为取值为[0,1]之间的常数。Qθ网络按如下公式对参数进行更新:
Figure BDA0002453273140000062
而Qθ′的参数则由更新后的Qθ的参数与未更新的Qθ′参数加权平均得到。
在本发明的实施例中,采用TD3(Twin Delayed Deep Deterministic PolicyGradient)算法中更新值函数的方式,通过引入
Figure BDA0002453273140000063
两组网络同步学习从而缓解过估计问题。具体来讲,在本算法中
Figure BDA0002453273140000064
再用此标签对
Figure BDA0002453273140000065
中网络参数进行更新。此方式通过取两个目标值函数中较小的作为标签,缓解了值函数迭代算法中值函数估计偏高的问题。
如图2所示,为Actor部分网络结构。Actor模块利用值函数学得确定性策略。该算法中共有两个Actor网络:πφφ′。其第一层也为一个长短时记忆(LSTM)网络,根据智能体上一时刻记忆ht-1、上一时刻动作at-1、当前环境的部分状态观测值ot总结出当前时刻的记忆值ht。接下来后续全连接网络根据记忆值ht选择动作at
在本算法中,πφ即为智能体学得的策略,在智能体与环境交互时为智能体选择应做出的动作,πφ′则用于在计算值函数标签时生成Qθ′的输入数据。πφ网络参数按如下公式进行更新:
Figure BDA0002453273140000071
πφ′的参数同样由更新后的πφ的参数与未更新的πφ′参数作加权平均得到。
进一步地,在本发明的实施例中,采用Critic网络和Actor网络共享长短时记忆(LSTM)网络,达到缩短算法训练时间的目的,具体网络结构如图3所示。
由于Actor网络的优化方向是最大化Critic网络的输出,因此在进行反向梯度传播时策略网络不能对Critic网络底层LSTM网络参数进行修改,即只更新Actor网络的MLP部分;LSTM参数的更新在Critic网络中进行。
接下来,对Critic网络的部分参数进行更新,依据贝尔曼方程y=r+γQθ′,采用增量更新的方式计算每批数据的均值μt和方差∑t
μt=(1-β)μt-1+βy
t=(1-β)vt-1+βy2
其中,β为常数。在更新网络时参数Wt,bt首先会依据批数据的均值和方差动态调整:
Figure BDA0002453273140000072
Figure BDA0002453273140000073
Figure BDA0002453273140000074
因此,Critic网络的损失函数为:
Figure BDA0002453273140000075
Figure BDA0002453273140000076
相应的Actor网络更新方式为:
Figure BDA0002453273140000077
其中,
Figure BDA0002453273140000078
通过上述介绍,下面详细介绍本发明实施例的共享循环神经网络的高效值函数迭代强化学习方法。
图4为根据本发明一个实施例的共享循环神经网络的高效值函数迭代强化学习方法流程图。
如图4所示,该共享循环神经网络的高效值函数迭代强化学习方法包括以下步骤:
步骤S1,通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中。
进一步地,步骤S1包括:
S101,智能体接收环境当前时刻的观测值、上一时刻记忆、上一时刻动作,长短时记忆网络根据环境当前时刻的观测值、上一时刻记忆、上一时刻动作计算出当前时刻记忆。
S102,智能体Actor网络部分的全连接网络根据当前时刻记忆计算出当前时刻选择的动作。
S103,环境根据智能体当前时刻选择的动作转移至下一状态并返回给智能体奖励信号和下一时刻的观测值。
S104,将S101-S103交互产生的样本数据添加至样本池中。
进一步地,对智能体与环境交互的历史信息进行编码,为动作值函数网络提供更多环境信息,并且能够利用历史策略产生的交互数据,降低环境的不确定性。
步骤S2,在样本池中随机选取n条样本数据作为训练样本数据。
步骤S3,根据训练样本数据对Critic网络的部分参数进行更新。
可以理解的是,根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新。
其中,Critic网络包括第一Critic网络
Figure BDA0002453273140000081
第二Critic网络
Figure BDA0002453273140000082
第三Critic网络
Figure BDA0002453273140000083
和第四Critic网络
Figure BDA0002453273140000084
第一Critic网络
Figure BDA0002453273140000085
和第二Critic网络
Figure BDA0002453273140000086
用于计算当前时刻状态当前动作下的值函数;第三Critic网络
Figure BDA0002453273140000087
和第四Critic网络
Figure BDA0002453273140000088
用于计算下一时刻状态下一动作的值函数。
需要说明的是,引入两组Critic网络,有效缓解值函数过估计问题,能避免算法陷入局部最优的情况,提升算法表现。
Actor网络包括第一Actor网络πφ和第二Actor网络πφ′;第一Actor网络πφ在智能体与环境交互时为智能体选择应做出的动作,第二Actor网络πφ′输出下一时刻动作,用于在计算值函数标签时生成第三Critic网络
Figure BDA0002453273140000089
和第四Critic网络
Figure BDA00024532731400000810
的输入数据。通过引入Actor网络,使得算法能够应用于连续动作空间。
需要说明的是,Critic网络和Actor网络共享长短时记忆网络,提高训练效率,缩短训练时间
具体地,S3进一步包括:
S301,通过Critic网络中的第一Critic网络
Figure BDA00024532731400000811
和第二Critic网络
Figure BDA00024532731400000812
计算当前时刻值函数。
S3011,根据训练样本数据中的当前时刻的观测值、上一时刻记忆和上一时刻动作,通过共享的长短时记忆网络计算当前记忆值。
S3012,Critic网络的全连接网络根据计算得到的当前记忆值以及训练样本数据中的当前动作,计算当前时刻值函数。
S302,通过Critic网络中的第三Critic网络
Figure BDA0002453273140000091
和第四Critic网络
Figure BDA0002453273140000092
计算下一时刻值函数。
S3021,根据下一时刻的观测值、当前时刻记忆和当前时刻动作,通过共享的长短时记忆网络计算下一时刻记忆值。
S3022,通过第二Actor网络πφ′的全连接网络根据计算出的下一时刻记忆选择下一时刻动作。
S3023,第三Critic网络
Figure BDA0002453273140000093
和第四Critic网络
Figure BDA0002453273140000094
的全连接网络根据下一时刻记忆值以及下一时刻动作,计算得到下一时刻值函数。
S303,根据贝尔曼方程
Figure BDA0002453273140000095
计算值函数的标签,并进行归一化。
S304,根据Critic网络的损失函数,对Critic网络的参数进行更新。
需要说明的是,依据贝尔曼方程,对Critic网络的输出进行归一化,增加训练的稳定性。
步骤S4,循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新。
可以理解的是,在Actor模块中,通过使Actor网络的更新频率低于Critic网络的更新频率提高算法稳定性,使训练过程更加稳定。
进一步地,S4进一步包括:
S401,通过第一Actor网络πφ计算当前时刻选择的动作。
S4011,根据训练样本数据中当前时刻的观测值、上一时刻记忆和上一时刻动作,通过共享的长短时记忆网络部分计算出当前不带梯度的记忆值ht
S4012,Actor网络的全连接网络部分根据当前不带梯度的记忆值ht计算出要选择的当前动作
Figure BDA0002453273140000096
S402,Critic网络部分的全连接网络根据计算的当前不带梯度的记忆值ht和S4012计算的当前动作
Figure BDA0002453273140000097
计算出动作值函数。
S403,Actor网络根据动作值函数算得的梯度,只对Actor网络的全连接部分的网络参数进行更新。
步骤S5,对Critic网络中的第三Critic网络
Figure BDA0002453273140000098
和第四Critic网络
Figure BDA0002453273140000099
Actor网络的第二Actor网络πφ′进行更新。
具体地,S5进一步包括:
S501:θ′1=τθ1+(1-τ)θ′1,θ′2=τθ2+(1-τ)θ′2
S502:φ′=τφ+(1-τ)φ′;
其中,θ′1为Critic网络中的第三Critic网络,θ′2为Critic网络中的第四Critic网络,θ1为Critic网络中的第一Critic网络,θ2为Critic网络中的第二Critic网络,φ′为Actor网络的第二Actor网络,φ为Actor网络的第一Actor网络,τ为更新系数,τ>0且τ<<1。
根据本发明实施例提出的共享循环神经网络的高效值函数迭代强化学习方法,通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的部分参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络进行更新。由此,适用于不完全信息环境下连续动作空间问题,训练效果稳定和高效;对历史信息编码与策略优化同时进行,无需分开训练;使用值函数迭代法提高样本利用率,从而能够减少获取样本所需时间、降低交互成本;采用TD3算法与循环神经网络相结合的方式,通过引入两个Critic网络,降低Critic网络值函数的过估计问题,提升算法性能;通过设计一种共享循环神经网络层的网络结构,提高算法训练效率,缩短训练时间;通过对动作值函数网络的输出进行归一化,并同时对网络参数的梯度进行截断,从而减轻梯度爆炸带来的策略更新不稳定问题。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,包括以下步骤:
S1,通过智能体与环境进行交互获得样本数据,并将所述样本数据添加至样本池中;
S2,在所述样本池中随机选取样本数据作为训练样本数据;
S3,根据所述训练样本数据对Critic网络的部分参数进行更新;
S4,循环迭代对所述Critic网络更新两次后,根据所述训练样本数据对Actor网络的部分参数进行更新;
S5,对所述Critic网络中的第三Critic网络和第四Critic网络、所述Actor网络的第二Actor网络参数进行更新。
2.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述Critic网络包括第一Critic网络、第二Critic网络、所述第三Critic网络和所述第四Critic网络;所述第一Critic网络和所述第二Critic网络用于计算当前时刻状态当前动作下的值函数;所述第三Critic网络和所述第四Critic网络用于计算下一时刻状态下一动作的值函数;
所述Actor网络包括第一Actor网络和所述第二Actor网络;所述第一Actor网络在所述智能体与环境交互时为所述智能体选择应做出的动作,所述第二Actor网络输出下一时刻动作,用于在计算值函数标签时生成所述第三Critic网络和所述第四Critic网络的输入数据。
3.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述Critic网络和所述Actor网络共享长短时记忆网络。
4.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述S1进一步包括:
S101,所述智能体接收环境当前时刻的观测值、上一时刻记忆、上一时刻动作,长短时记忆网络根据所述环境当前时刻的观测值、上一时刻记忆、上一时刻动作计算出当前时刻记忆;
S102,所述智能体Actor网络部分的全连接网络根据所述当前时刻记忆计算出当前时刻选择的动作;
S103,环境根据所述智能体当前时刻选择的动作转移至下一状态并返回给所述智能体奖励信号和下一时刻的观测值;
S104,将S101-S103交互产生的样本数据添加至所述样本池中。
5.根据权利要求2所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述S3进一步包括:
S301,通过所述Critic网络中的所述第一Critic网络和所述第二Critic网络计算当前时刻值函数;
S302,通过所述Critic网络中的所述第三Critic网络和所述第四Critic网络计算下一时刻值函数;
S303,根据贝尔曼方程计算值函数的标签,并进行归一化;
S304,根据所述Critic网络的损失函数,对所述Critic网络的参数进行更新。
6.根据权利要求5所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述S301进一步包括:
S3011,根据所述训练样本数据中的当前时刻的观测值、上一时刻记忆和上一时刻动作,通过共享的长短时记忆网络计算当前记忆值;
S3012,所述Critic网络的全连接网络根据计算得到的当前记忆值以及所述训练样本数据中的当前动作,计算当前时刻值函数。
7.根据权利要求5所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述S302进一步包括:
S3021,根据下一时刻的观测值、当前时刻记忆和当前时刻动作,通过共享的长短时记忆网络计算下一时刻记忆值;
S3022,通过所述第二Actor网络的全连接网络根据计算出的下一时刻记忆选择下一时刻动作;
S3023,所述第三Critic网络和所述第四Critic网络的全连接网络根据下一时刻记忆值以及下一时刻动作,计算得到下一时刻值函数。
8.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述Actor网络的更新频率低于所述Critic网络的更新频率。
9.根据权利要求2所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述S4进一步包括:
S401,通过所述第一Actor网络计算当前时刻选择的动作;
S4011,根据所述训练样本数据中当前时刻的观测值、上一时刻记忆和上一时刻动作,通过共享的长短时记忆网络部分计算出当前不带梯度的记忆值;
S4012,所述Actor网络的全连接网络部分根据当前不带梯度的记忆值计算出要选择的当前动作;
S402,所述Critic网络部分的全连接网络根据计算的当前不带梯度的记忆值和S4012计算的当前动作,计算出动作值函数;
S403,所述Actor网络根据所述动作值函数算得的梯度,只对所述Actor网络的全连接部分的网络参数进行更新。
10.根据权利要求2所述的共享循环神经网络的高效值函数迭代强化学习方法,其特征在于,所述S5进一步包括:
S501:θ′1=τθ1+(1-τ)θ′1,θ′2=τθ2+(1-τ)θ′2
S502:φ′=τφ+(1-τ)φ′;
其中,θ′1为Critic网络中的第三Critic网络,θ′2为Critic网络中的第四Critic网络,θ1为Critic网络中的第一Critic网络,θ2为Critic网络中的第二Critic网络,φ′为Actor网络的第二Actor网络,φ为Actor网络的第一Actor网络,τ为更新系数,τ>0且τ<<1。
CN202010298982.2A 2020-04-16 2020-04-16 共享循环神经网络的高效值函数迭代强化学习方法 Active CN111582441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010298982.2A CN111582441B (zh) 2020-04-16 2020-04-16 共享循环神经网络的高效值函数迭代强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010298982.2A CN111582441B (zh) 2020-04-16 2020-04-16 共享循环神经网络的高效值函数迭代强化学习方法

Publications (2)

Publication Number Publication Date
CN111582441A true CN111582441A (zh) 2020-08-25
CN111582441B CN111582441B (zh) 2021-07-30

Family

ID=72114938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010298982.2A Active CN111582441B (zh) 2020-04-16 2020-04-16 共享循环神经网络的高效值函数迭代强化学习方法

Country Status (1)

Country Link
CN (1) CN111582441B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112249002A (zh) * 2020-09-23 2021-01-22 南京航空航天大学 一种基于td3的启发式串并联混合动力能量管理方法
CN113419424A (zh) * 2021-07-05 2021-09-21 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN114980254A (zh) * 2022-08-02 2022-08-30 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024643A1 (en) * 2015-07-24 2017-01-26 Google Inc. Continuous control with deep reinforcement learning
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20190042761A1 (en) * 2018-08-14 2019-02-07 Shih-Han Wang Techniques to detect perturbation attacks with an actor-critic framework
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN110658829A (zh) * 2019-10-30 2020-01-07 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN110659796A (zh) * 2019-08-08 2020-01-07 北京理工大学 一种可充电群车智能中的数据采集方法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024643A1 (en) * 2015-07-24 2017-01-26 Google Inc. Continuous control with deep reinforcement learning
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20190042761A1 (en) * 2018-08-14 2019-02-07 Shih-Han Wang Techniques to detect perturbation attacks with an actor-critic framework
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN110659796A (zh) * 2019-08-08 2020-01-07 北京理工大学 一种可充电群车智能中的数据采集方法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN110658829A (zh) * 2019-10-30 2020-01-07 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112249002A (zh) * 2020-09-23 2021-01-22 南京航空航天大学 一种基于td3的启发式串并联混合动力能量管理方法
CN112249002B (zh) * 2020-09-23 2022-06-28 南京航空航天大学 一种基于td3的启发式串并联混合动力能量管理方法
CN113419424A (zh) * 2021-07-05 2021-09-21 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN113419424B (zh) * 2021-07-05 2023-08-18 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN114980254A (zh) * 2022-08-02 2022-08-30 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置

Also Published As

Publication number Publication date
CN111582441B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN111582441B (zh) 共享循环神经网络的高效值函数迭代强化学习方法
US11461654B2 (en) Multi-agent cooperation decision-making and training method
CN111191934B (zh) 一种基于强化学习策略的多目标云工作流调度方法
CN110995487B (zh) 多服务质量预测方法、装置、计算机设备及可读存储介质
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN116523079A (zh) 一种基于强化学习联邦学习优化方法及系统
Malikopoulos Separation of learning and control for cyber–physical systems
CN114692494A (zh) 一种锂电池温度场在线建模方法及系统
CN115686846B (zh) 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
EP3502978A1 (en) Meta-learning system
CN113469891A (zh) 一种神经网络架构搜索方法、训练方法、图像补全方法
Wang et al. Youla-ren: Learning nonlinear feedback policies with robust stability guarantees
CN111190350A (zh) 一种数据驱动的网络控制系统时延主动补偿控制方法
Werbos New directions in ACDs: Keys to intelligent control and understanding the brain
Yang et al. Continuous control for searching and planning with a learned model
CN116645130A (zh) 基于联邦学习与gru结合的汽车订单需求量预测方法
CN115499511A (zh) 一种基于时空图神经网络负载预测的微服务主动伸缩方法
Guo et al. Optimal control of blank holder force based on deep reinforcement learning
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
Bhatia et al. Adaptive rollout length for model-based rl using model-free deep rl
Yan et al. A hybrid data and model transfer framework for distributed machine learning
Li et al. An adaptive policy evaluation network based on recursive least squares temporal difference with gradient correction
Li et al. Double-net DDPG with the Optimal Action Selection Mechanism
CN114500383B (zh) 天地一体化信息网络智能拥塞控制方法、系统及介质
Pan et al. Exploration in policy optimization through multiple paths

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant