CN111582441A

CN111582441A - 共享循环神经网络的高效值函数迭代强化学习方法

Info

Publication number: CN111582441A
Application number: CN202010298982.2A
Authority: CN
Inventors: 杨君; 薛晨; 芦维宁; 梁斌; 赵千川
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-25
Anticipated expiration: 2040-04-16
Also published as: CN111582441B

Abstract

本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法，该方法包括：通过智能体与环境进行交互获得样本数据，并将样本数据添加至样本池中；在样本池中随机选取样本数据作为训练样本数据；根据训练样本数据对Critic网络的输出进行归一化，并对其MLP网络和共享LSTM参数进行更新；循环迭代对Critic网络更新两次后，根据训练样本数据对Actor网络的MLP部分参数进行更新；对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合，提高算法训练效率，缩短算法训练时间。

Description

共享循环神经网络的高效值函数迭代强化学习方法

技术领域

本发明涉及强化学习技术领域，特别涉及一种共享循环神经网络的高效值函数迭代强化学习方法。

背景技术

强化学习基于马尔可夫决策过程的理论框架，将序贯决策任务建模为智能体与系统环境间交互的试错学习问题。值函数迭代方法和策略优化方法这两类无模型的强化学习算法被广泛用于解决各种决策问题。与策略优化方法相比，值函数迭代方法能够利用历史策略产生的数据对算法进行更新，因而其所需与环境交互的次数少、对样本的利用率高，更具备解决真实环境决策控制问题的可能。

实际任务大多为部分可观测的马可夫决策过程，不满足马尔可夫性质，即系统环境下一时刻的状态不仅与当前状态有关、也与历史状态相关。将强化学习算法直接应用于该类问题中，策略的性能会大受限制。策略优化方法对此在策略和值函数中额外引入循环神经网络(Recurrent Neural Network，RNN)，将历史状态信息与当前状态信息整合编码后输入给策略和值函数网络。值函数迭代方法处理部分可观问题的方式与策略搜索法的相同，引入RNN对当前状态信息进行扩充，使部分可观测问题变为马尔可夫决策过程。

在值函数迭代方法中，对动作值函数Q的过估计会使策略陷入局部最优；引入RNN网络结构将增加样本采样数量和训练时长；此外由于策略的更新方向是通过最大化动作值函数Q的取值来确定，Q的过估计问题和RNN本身的梯度爆炸问题还将造成训练过程策略更新的不稳定。为此针对环境部分可观测的马尔可夫决策问题，设计一种高效稳定的值函数迭代算法，将推动强化学习算法在实际决策控制问题中的应用。

相关技术中，值函数迭代算法DQN(Deep Q-Learning)用深度神经网络逼近动作值函数Q(s,a)的值，利用从样本池中随机采样得到的交互数据来更新神经网络的参数，在状态完全可观测的决策任务中取得成功应用。DRQN(Deep Recurrent Q-Learning)算法在此基础上，引入循环神经网络(RNN)，使动作值函数网络Q的输入包含当前观测信息和历史信息两部分，从而将DQN算法拓展到状态部分可观的任务中。

但是，实际大多决策控制问题的动作空间都是连续的，而DRQN算法只能用于解决离散动作空间的问题。将连续动作空间进行离散化后再用DRQN算法的方式，会使离散化后的动作空间随连续动作的维度呈指数增长，且动作的离散粒度也会对策略性能产生一定的影响。

在另一种相关技术中，为将值函数迭代算法应用于连续动作空间，DDPG(DeepDeterministic Policy Gradient)算法用两个神经网络来分别表示策略和动作值函数，并采用目标策略来实现对动作值函数Q取最大值的操作。RDPG(Recurrent DeterministicPolicy Gradient)在值函数网络和策略网络分别引入循环神经网络，通过增加网络输入信息的方式来解决环境状态部分可观的问题。

但是，RDPG算法中存在对动作值函数Q的过估计，导致依据Q值计算出的策略梯度带有偏差。智能体使用带有偏差的策略与环境交互，在动作值函数网络利用此交互数据进行更新时，Q值的过估计问题进一步加剧。经过反复迭代，算法会陷入次优策略，表现较差。

RDPG中采用两个循环神经网络，对值函数和策略的输入信息分别进行编码，由于循环神经网络需要大量的训练时间与样本才能对整个历史信息正确编码，且值函数网络与策略网络存在耦合关系，其中一个网络无法正确编码会使算法无法收敛。因此这种采用两个独立循环神经网络分别进行训练的方式效率较低，训练时间较长。另外Q的过估计问题和RNN本身的梯度爆炸问题将会造成训练过程策略更新的不稳定

在多数序贯决策实际任务中，受环境感知模块的限制，智能体往往只能得到系统环境状态的部分观测信息，使决策问题不再具备马尔可夫性质，智能体在做决策时必须得考虑历史信息。引入循环神经网络对智能体与环境交互的历史数据进行编码，将编码后的信息提供给智能体，从而解决环境状态信息部分可观测问题。虽然采用循环神经网络的策略搜索法已经具备解决环境部分可观测问题的能力，但由于该类方法在实际任务中面临智能体与环境进行交互消耗时间长、采样成本高的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种共享循环神经网络的高效值函数迭代强化学习方法，该方法将循环神经网络与值函数迭代相结合，提高算法训练效率，缩短算法训练时间。

为达到上述目的，本发明一方面实施例提出了一种共享循环神经网络的高效值函数迭代强化学习方法，包括：

S1，通过智能体与环境进行交互获得样本数据，并将所述样本数据添加至样本池中；

S2，在所述样本池中随机选取样本数据作为训练样本数据；

S3，根据所述训练样本数据对Critic网络的部分参数进行更新；

S4，循环迭代对所述Critic网络更新两次后，根据所述训练样本数据对Actor网络的部分参数进行更新；

S5，对所述Critic网络中的第三Critic网络和第四Critic网络、所述Actor网络的第二Actor网络参数进行更新。

本发明实施例的共享循环神经网络的高效值函数迭代强化学习方法，通过智能体与环境进行交互获得样本数据，并将样本数据添加至样本池中；在样本池中随机选取样本数据作为训练样本数据；根据训练样本数据对Critic网络的部分参数进行更新；循环迭代对Critic网络更新两次后，根据训练样本数据对Actor网络的部分参数进行更新；对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络进行更新。由此，适用于不完全信息环境下连续动作空间问题，训练效果稳定和高效；对历史信息编码与策略优化同时进行，无需分开训练；使用值函数迭代法提高样本利用率，从而能够减少获取样本所需时间、降低交互成本；采用TD3算法与循环神经网络相结合的方式，通过引入两个Critic网络，降低Critic网络值函数的过估计问题，提升算法性能；通过设计一种共享循环神经网络层的网络结构，提高算法训练效率，缩短训练时间；通过对动作值函数网络的输出进行归一化，并同时对网络参数的梯度进行截断，从而减轻梯度爆炸带来的策略更新不稳定问题。

另外，根据本发明上述实施例的共享循环神经网络的高效值函数迭代强化学习方法还可以具有以下附加的技术特征：

在本发明的实施例中，所述Critic网络包括第一Critic网络、第二Critic网络、所述第三Critic网络和所述第四Critic网络；所述第一Critic网络和所述第二Critic网络用于计算当前时刻状态当前动作下的值函数；所述第三Critic网络和所述第四Critic网络用于计算下一时刻状态下一动作的值函数；

所述Actor网络包括第一Actor网络和所述第二Actor网络；所述第一Actor网络在所述智能体与环境交互时为所述智能体选择应做出的动作，所述第二Actor网络输出下一时刻动作，用于在计算值函数标签时生成所述第三Critic网络和所述第四Critic网络的输入数据。

在本发明的实施例中，所述Critic网络和所述Actor网络共享长短时记忆网络。

在本发明的实施例中，所述S1进一步包括：

S101，所述智能体接收环境当前时刻的观测值、上一时刻记忆、上一时刻动作，长短时记忆网络根据所述环境当前时刻的观测值、上一时刻记忆、上一时刻动作计算出当前时刻记忆；

S102，所述智能体Actor网络部分的全连接网络根据所述当前时刻记忆计算出当前时刻选择的动作；

S103，环境根据所述智能体当前时刻选择的动作转移至下一状态并返回给所述智能体奖励信号和下一时刻的观测值；

S104，将S101-S103交互产生的样本数据添加至所述样本池中。

在本发明的实施例中，所述S3进一步包括：

S301，通过所述Critic网络中的所述第一Critic网络和所述第二Critic网络计算当前时刻值函数；

S302，通过所述Critic网络中的所述第三Critic网络和所述第四Critic网络计算下一时刻值函数；

S303，根据贝尔曼方程计算值函数的标签，并进行归一化；

S304，根据所述Critic网络的损失函数，对所述Critic网络的参数进行更新。

在本发明的实施例中，所述S301进一步包括：

S3011，根据所述训练样本数据中的当前时刻的观测值、上一时刻记忆和上一时刻动作，通过共享的长短时记忆网络计算当前记忆值；

S3012，所述Critic网络的全连接网络根据计算得到的当前记忆值以及所述训练样本数据中的当前动作，计算当前时刻值函数。

在本发明的实施例中，所述S302进一步包括：

S3021，根据下一时刻的观测值、当前时刻记忆和当前时刻动作，通过共享的长短时记忆网络计算下一时刻记忆值；

S3022，通过所述第二Actor网络的全连接网络根据计算出的下一时刻记忆选择下一时刻动作；

S3023，所述第三Critic网络和所述第四Critic网络的全连接网络根据下一时刻记忆值以及下一时刻动作，计算得到下一时刻值函数。

在本发明的实施例中，所述Actor网络的更新频率低于所述Critic网络的更新频率。

在本发明的实施例中，所述S4进一步包括：

S401，通过所述第一Actor网络计算当前时刻选择的动作；

S4011，根据所述训练样本数据中当前时刻的观测值、上一时刻记忆和上一时刻动作，通过共享的长短时记忆网络部分计算出当前不带梯度的记忆值；

S4012，所述Actor网络的全连接网络部分根据当前不带梯度的记忆值计算出要选择的当前动作；

S402，所述Critic网络部分的全连接网络根据计算的当前不带梯度的记忆值和S4012计算的当前动作，计算出动作值函数；

S403，所述Actor网络根据所述动作值函数算得的梯度，只对所述Actor网络的全连接部分的网络参数进行更新。

在本发明的实施例中，所述S5进一步包括：

S501：θ′₁＝τθ₁+(1-τ)θ′₁，θ′₂＝τθ₂+(1-τ)θ′₂；

S502：φ′＝τφ+(1-τ)φ′；

其中，θ′₁为Critic网络中的第三Critic网络，θ′₂为Critic网络中的第四Critic网络，θ₁为Critic网络中的第一Critic网络，θ₂为Critic网络中的第二Critic网络，φ′为Actor网络的第二Actor网络，φ为Actor网络的第一Actor网络，τ为更新系数，τ>0且τ＜＜1。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的Critic部分网络结构示意图；

图2为根据本发明一个实施例的Actor部分网络结构示意图；

图3为根据本发明一个实施例的Actor-Critic共享LSTM结构示意图；

图4为根据本发明一个实施例的共享循环神经网络的高效值函数迭代强化学习方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的共享循环神经网络的高效值函数迭代强化学习方法。

首先，本发明提出的共享循环神经网络的高效值函数迭代强化学习方法包含两个模块：Critic模块和Actor模块。在Critic模块中，通过使用两个Critic网络降低值函数估计偏高的问题；在Actor模块中，通过使Actor网络的更新频率低于Critic网络的更新频率提高算法稳定性；并通过共享Critic和Actor网络中循环神经网络部分缩短训练时间；最后采用对Critic网络的输出作归一化和梯度截断方法，使训练过程更加稳定。

下面结合附图介绍Critic模块和Actor模块。

如图1所示，为Critic部分网络结构。Critic模块利用智能体与环境的交互数据对值函数做出估计。本实施例的算法中共有四个Critic网络：

每个网络的第一层均为长短时记忆(Long Short-Term Memory，LSTM)网络，后续部分为全连接(Multilayer Perceptron，MLP)网络。在Critic网络中，首先根据智能体上一时刻记忆h_t-1、上一时刻动作a_t-1、当前环境的部分状态观测值o_t这三部分信息，由LSTM部分总结出当前时刻的记忆值h_t。接下来后续全连接(MLP)网络计算在该记忆下对应动作的值函数大小Q(h_t,a_t)。

现实世界中的任务由于传感器的限制以及环境噪声的存在，状态信息往往只是部分可观的，因而引入长短时记忆网络解决部分可观问题将极大提高强化学习算法在部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process，POMDP)现实任务中的表现。

在基于值函数的强化学习算法中，Q_θ用于计算当前时刻状态当前动作下的值函数，Q_θ′用于计算下一时刻状态下一动作的值函数。令y＝r+γQ_θ′，其中γ为取值为[0,1]之间的常数。Q_θ网络按如下公式对参数进行更新：

而Q_θ′的参数则由更新后的Q_θ的参数与未更新的Q_θ′参数加权平均得到。

在本发明的实施例中，采用TD3(Twin Delayed Deep Deterministic PolicyGradient)算法中更新值函数的方式，通过引入

两组网络同步学习从而缓解过估计问题。具体来讲，在本算法中

再用此标签对

中网络参数进行更新。此方式通过取两个目标值函数中较小的作为标签，缓解了值函数迭代算法中值函数估计偏高的问题。

如图2所示，为Actor部分网络结构。Actor模块利用值函数学得确定性策略。该算法中共有两个Actor网络：π_φ,π_φ′。其第一层也为一个长短时记忆(LSTM)网络，根据智能体上一时刻记忆h_t-1、上一时刻动作a_t-1、当前环境的部分状态观测值o_t总结出当前时刻的记忆值h_t。接下来后续全连接网络根据记忆值h_t选择动作a_t。

在本算法中，π_φ即为智能体学得的策略，在智能体与环境交互时为智能体选择应做出的动作，π_φ′则用于在计算值函数标签时生成Q_θ′的输入数据。π_φ网络参数按如下公式进行更新：

π_φ′的参数同样由更新后的π_φ的参数与未更新的π_φ′参数作加权平均得到。

进一步地，在本发明的实施例中，采用Critic网络和Actor网络共享长短时记忆(LSTM)网络，达到缩短算法训练时间的目的，具体网络结构如图3所示。

由于Actor网络的优化方向是最大化Critic网络的输出，因此在进行反向梯度传播时策略网络不能对Critic网络底层LSTM网络参数进行修改，即只更新Actor网络的MLP部分；LSTM参数的更新在Critic网络中进行。

接下来，对Critic网络的部分参数进行更新，依据贝尔曼方程y＝r+γQ_θ′，采用增量更新的方式计算每批数据的均值μ_t和方差∑_t：

μ_t＝(1-β)μ_t-1+βy

∑_t＝(1-β)v_t-1+βy²

其中，β为常数。在更新网络时参数W_t,b_t首先会依据批数据的均值和方差动态调整：

因此，Critic网络的损失函数为：

相应的Actor网络更新方式为：

其中，

通过上述介绍，下面详细介绍本发明实施例的共享循环神经网络的高效值函数迭代强化学习方法。

如图4所示，该共享循环神经网络的高效值函数迭代强化学习方法包括以下步骤：

步骤S1，通过智能体与环境进行交互获得样本数据，并将样本数据添加至样本池中。

进一步地，步骤S1包括：

S101，智能体接收环境当前时刻的观测值、上一时刻记忆、上一时刻动作，长短时记忆网络根据环境当前时刻的观测值、上一时刻记忆、上一时刻动作计算出当前时刻记忆。

S102，智能体Actor网络部分的全连接网络根据当前时刻记忆计算出当前时刻选择的动作。

S103，环境根据智能体当前时刻选择的动作转移至下一状态并返回给智能体奖励信号和下一时刻的观测值。

S104，将S101-S103交互产生的样本数据添加至样本池中。

进一步地，对智能体与环境交互的历史信息进行编码，为动作值函数网络提供更多环境信息，并且能够利用历史策略产生的交互数据，降低环境的不确定性。

步骤S2，在样本池中随机选取n条样本数据作为训练样本数据。

步骤S3，根据训练样本数据对Critic网络的部分参数进行更新。

可以理解的是，根据训练样本数据对Critic网络的输出进行归一化，并对其MLP网络和共享LSTM参数进行更新。

其中，Critic网络包括第一Critic网络

第二Critic网络

第三Critic网络

和第四Critic网络

第一Critic网络

和第二Critic网络

用于计算当前时刻状态当前动作下的值函数；第三Critic网络

和第四Critic网络

用于计算下一时刻状态下一动作的值函数。

需要说明的是，引入两组Critic网络，有效缓解值函数过估计问题，能避免算法陷入局部最优的情况，提升算法表现。

Actor网络包括第一Actor网络π_φ和第二Actor网络π_φ′；第一Actor网络π_φ在智能体与环境交互时为智能体选择应做出的动作，第二Actor网络π_φ′输出下一时刻动作，用于在计算值函数标签时生成第三Critic网络

和第四Critic网络

的输入数据。通过引入Actor网络，使得算法能够应用于连续动作空间。

需要说明的是，Critic网络和Actor网络共享长短时记忆网络，提高训练效率，缩短训练时间

具体地，S3进一步包括：

S301，通过Critic网络中的第一Critic网络

和第二Critic网络

计算当前时刻值函数。

S3011，根据训练样本数据中的当前时刻的观测值、上一时刻记忆和上一时刻动作，通过共享的长短时记忆网络计算当前记忆值。

S3012，Critic网络的全连接网络根据计算得到的当前记忆值以及训练样本数据中的当前动作，计算当前时刻值函数。

S302，通过Critic网络中的第三Critic网络

和第四Critic网络

计算下一时刻值函数。

S3021，根据下一时刻的观测值、当前时刻记忆和当前时刻动作，通过共享的长短时记忆网络计算下一时刻记忆值。

S3022，通过第二Actor网络π_φ′的全连接网络根据计算出的下一时刻记忆选择下一时刻动作。

S3023，第三Critic网络

和第四Critic网络

的全连接网络根据下一时刻记忆值以及下一时刻动作，计算得到下一时刻值函数。

S303，根据贝尔曼方程

计算值函数的标签，并进行归一化。

S304，根据Critic网络的损失函数，对Critic网络的参数进行更新。

需要说明的是，依据贝尔曼方程，对Critic网络的输出进行归一化，增加训练的稳定性。

步骤S4，循环迭代对Critic网络更新两次后，根据训练样本数据对Actor网络的MLP部分参数进行更新。

可以理解的是，在Actor模块中，通过使Actor网络的更新频率低于Critic网络的更新频率提高算法稳定性，使训练过程更加稳定。

进一步地，S4进一步包括：

S401，通过第一Actor网络π_φ计算当前时刻选择的动作。

S4011，根据训练样本数据中当前时刻的观测值、上一时刻记忆和上一时刻动作，通过共享的长短时记忆网络部分计算出当前不带梯度的记忆值h_t。

S4012，Actor网络的全连接网络部分根据当前不带梯度的记忆值h_t计算出要选择的当前动作

S402，Critic网络部分的全连接网络根据计算的当前不带梯度的记忆值h_t和S4012计算的当前动作

计算出动作值函数。

S403，Actor网络根据动作值函数算得的梯度，只对Actor网络的全连接部分的网络参数进行更新。

步骤S5，对Critic网络中的第三Critic网络

和第四Critic网络

Actor网络的第二Actor网络π_φ′进行更新。

具体地，S5进一步包括：

S501：θ′₁＝τθ₁+(1-τ)θ′₁，θ′₂＝τθ₂+(1-τ)θ′₂；

S502：φ′＝τφ+(1-τ)φ′；

根据本发明实施例提出的共享循环神经网络的高效值函数迭代强化学习方法，通过智能体与环境进行交互获得样本数据，并将样本数据添加至样本池中；在样本池中随机选取样本数据作为训练样本数据；根据训练样本数据对Critic网络的部分参数进行更新；循环迭代对Critic网络更新两次后，根据训练样本数据对Actor网络的部分参数进行更新；对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络进行更新。由此，适用于不完全信息环境下连续动作空间问题，训练效果稳定和高效；对历史信息编码与策略优化同时进行，无需分开训练；使用值函数迭代法提高样本利用率，从而能够减少获取样本所需时间、降低交互成本；采用TD3算法与循环神经网络相结合的方式，通过引入两个Critic网络，降低Critic网络值函数的过估计问题，提升算法性能；通过设计一种共享循环神经网络层的网络结构，提高算法训练效率，缩短训练时间；通过对动作值函数网络的输出进行归一化，并同时对网络参数的梯度进行截断，从而减轻梯度爆炸带来的策略更新不稳定问题。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，包括以下步骤：

S2，在所述样本池中随机选取样本数据作为训练样本数据；

2.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述Critic网络包括第一Critic网络、第二Critic网络、所述第三Critic网络和所述第四Critic网络；所述第一Critic网络和所述第二Critic网络用于计算当前时刻状态当前动作下的值函数；所述第三Critic网络和所述第四Critic网络用于计算下一时刻状态下一动作的值函数；

3.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述Critic网络和所述Actor网络共享长短时记忆网络。

4.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述S1进一步包括：

S104，将S101-S103交互产生的样本数据添加至所述样本池中。

5.根据权利要求2所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述S3进一步包括：

S303，根据贝尔曼方程计算值函数的标签，并进行归一化；

6.根据权利要求5所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述S301进一步包括：

7.根据权利要求5所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述S302进一步包括：

8.根据权利要求1所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述Actor网络的更新频率低于所述Critic网络的更新频率。

9.根据权利要求2所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述S4进一步包括：

S401，通过所述第一Actor网络计算当前时刻选择的动作；

10.根据权利要求2所述的共享循环神经网络的高效值函数迭代强化学习方法，其特征在于，所述S5进一步包括：

S501：θ′₁＝τθ₁+(1-τ)θ′₁，θ′₂＝τθ₂+(1-τ)θ′₂；

S502：φ′＝τφ+(1-τ)φ′；