CN111856925B

CN111856925B - 基于状态轨迹的对抗式模仿学习方法及装置

Info

Publication number: CN111856925B
Application number: CN202010489159.XA
Authority: CN
Inventors: 杨君; 王亚伟; 张明; 芦维宁; 李志恒; 梁斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2021-12-03
Anticipated expiration: 2040-06-02
Also published as: CN111856925A

Abstract

本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置，其中，该方法包括：获取专家决策下的状态轨迹，将状态轨迹存入专家数据缓存器；构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络；基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

Description

基于状态轨迹的对抗式模仿学习方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于状态轨迹的对抗式模仿学习方法及装置。

背景技术

最近几年，深度神经网络促成了在图像识别、语音技术、自然语言处理等领域的一系列重大突破。与此同时，将深度网络与强化学习结合而成的深度强化学习也在围棋、星际争霸、Dota2等大规模策略优化问题上取得了超越人类的表现。奖励函数设计的环节在强化学习中具有十分关键的地位，往往包含了专家对特定任务的先验知识。因此在面对诸如机器人控制、自动驾驶等实际任务时，一般难以根据专家知识设计合理的奖励函数。而数据驱动型的模仿学习算法为克服该类缺陷提供了一种思路，它不需要手动设计奖励函数，仅仅利用专家轨迹数据就可以学习到媲美专家的策略。模仿学习算法主要有三类：行为克隆、逆强化学习和基于生成对抗网络的模仿学习算法。其中，行为克隆方法将模仿学习看作是监督学习，是最简单且容易实现的方法。这种方法容易受到复合误差的影响，而且难以处理专家数据中未出现的情况。相较而言，逆强化学习的思路更加贴近强化学习的传统思路：它先根据专家数据学习奖励函数，然后利用学习到的奖励函数执行标准的强化学习过程以实现对专家策略的模仿。通过这种方法学习到的奖励函数能更好地反映任务的真实要求，因此策略更具鲁棒性、能够应对未知的场景。然而，由于该算法需要交替进行寻找奖励函数和强化学习这两个步骤，因此需要很大的计算量。

将生成对抗网络应用到逆强化学习的生成对抗式模仿学习(GAIL)是目前主流的模仿学习算法，该算法可以直接根据专家数据进行策略学习而无需学习奖励函数，因此大大减小了计算量。GAIL算法通常假设专家动作是已知的，即专家轨迹是由状态动作对构成的。但是，在实际工业场景下这种假设很难满足，往往只能获取连续动作下的状态观测轨迹。而在构建仿真环境时，为了简化模型一般都会选择将控制动作设置为离散值，以便进行算法研究。因此，如何有效利用真实工业场景下获得的专家状态轨迹，进而在仿真环境中模仿相应的离散动作具有一定的挑战性。另外，GAIL算法中使用在线学习的TRPO算法学习策略，需要与环境进行大量交互，不利于算法的实际应用。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于状态轨迹的对抗式模仿学习方法，该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

本发明的另一个目的在于提出一种基于状态轨迹的对抗式模仿学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于状态轨迹的对抗式模仿学习方法，包括：

S1，获取专家决策下的状态轨迹，将所述状态轨迹存入专家数据缓存器；

S2，构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络；

S3，基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新；

S4，根据更新的多个网络生成更新后的策略模型，对所述策略模型进行测试。

本发明实施例的基于状态轨迹的对抗式模仿学习方法通过从工业应用与算法研究实际需要出发，研究基于状态轨迹的对抗式模仿学习，并结合离轨策略学习算法TD3，设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

另外，根据本发明上述实施例的基于状态轨迹的对抗式模仿学习方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述S1进一步包括：

根据应用场景设计仿真器，通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。

进一步地，在本发明的一个实施例中，所述S3进一步包括：

S31，初始化所述仿真环境env、所述第一主值网络Q₁、所述第二主值网络Q₂、所述主策略网络π、所述第一副值网络Q'₁、所述第二副值网络Q'₂、所述副策略网络π'和所述判别网络D；

S32，在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，将生成状态轨迹(s_t,s_t+1)^π输入所述判别网络中，所述判别网络输出当前时刻的奖励值r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t,a_t,r_t,s_t+1)，并将所述四元组存储进生成数据缓存器B_π；

S33，在所述生成数据缓存器B_π中的数据量达到预设数据量阈值后，每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新；

S34，每隔第一预设时间对所述判别网络进行更新，在所述专家数据缓存器B_E和所述生成数据缓存器B_π中分别采样得到专家状态轨迹和生成状态轨迹，并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数；

S35，每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新，并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新。

进一步地，在本发明的一个实施例中，所述当前时刻的奖励值为：

r_t＝-log(1-D((s_t,s_t+1)^π))

其中，D((s_t,s_t+1)^π))为判别网络的输出，(s_t,s_t+1)^π为生成状态轨迹。

进一步地，在本发明的一个实施例中，所述S33进一步包括：

S331，依据副策略网络π'和随机扰动选择下一时刻的动作：

其中，π_φ'为副策略网络代表的策略，

代表引入的随机扰动；

S332，计算状态-动作值函数的目标值：

其中，

为两个副值函数网络对下一时刻状态动作对的值估计，r_t为当前时刻的奖励值；

S333，利用梯度下降法更新所述第一主值网络的参数θ₁和所述第二主值网络的参数θ₂：

其中，

为两个主值网络对当前时刻状态动作对的值估计，N^-1为N个平方项的平均。

进一步地，在本发明的一个实施例中，所述S34中，需优化的JS散度计算公式如下：

D_JS((s_t,s_t+1)^π,(s_t,s_t+1)^E)＝Ε[logD(s_t,s_t+1)^π]+Ε[log(1-D(s_t,s_t+1)^E)]

其中，(s_t,s_t+1)^π和(s_t,s_t+1)^E分别代表从生成数据缓存器B_π和专家数据缓存器B_E中采样得到的生成状态轨迹和专家状态轨迹。

进一步地，在本发明的一个实施例中，优化所述判别网络的参数w包括：

其中，w为判别网络的参数，α_d为判别网络的学习率，D_JS为损失函数，D_JS((s_t,s_t+1)^π,(s_t,s_t+1)^E)为专家数据分布和生成数据分布之间的JS散度，(s_t,s_t+1)^π为生成状态轨迹，(s_t,s_t+1)^E为专家状态轨迹。

进一步地，在本发明的一个实施例中，所述S35中，对所述主策略网络进行更新包括：

其中，N^-1为N个平方项的平均，

为主值网络对选取动作a的梯度，

为主策略网络对其参数的梯度。

进一步地，在本发明的一个实施例中，所述S35中，所述对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新包括：

θ'₁←τθ₁+(1-τ)θ'₁

θ'₂←τθ₂+(1-τ)θ'₂

φ'←τφ+(1-τ)φ'

其中，θ′₁,θ′₂,φ′为两个副值网络和副策略网络的参数，θ₁,θ₂,φ为两个主值网络和主策略网络的参数，τ用于控制从主网络更新副网络参数的程度。

为达到上述目的，本发明另一方面实施例提出了一种基于状态轨迹的对抗式模仿学习装置，包括：

获取模块，用于获取专家决策下的状态轨迹，将所述状态轨迹存入专家数据缓存器；

构建模块，用于构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络；

更新模块，用于基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新；

生成模块，用于根据更新的多个网络生成更新后的策略模型，对所述策略模型进行测试。

本发明实施例的基于状态轨迹的对抗式模仿学习装置，通过从工业应用与算法研究实际需要出发，研究基于状态轨迹的对抗式模仿学习，并结合离轨策略学习算法TD3，设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程图；

图2为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程框图；

图3为根据本发明一个实施例的环境的具体场景图；

图4为根据本发明一个实施例的训练过程图像；

图5为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于状态轨迹的对抗式模仿学习方法及装置。

首先将参照附图描述根据本发明实施例提出的基于状态轨迹的对抗式模仿学习方法。

图1为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程图。

图2为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程框图。

如图1和图2所示，该基于状态轨迹的对抗式模仿学习方法包括以下步骤：

步骤S1，获取专家决策下的状态轨迹，将状态轨迹存入专家数据缓存器。

具体地，获取专家决策下的状态轨迹，并存入相应的数据缓存器B_E中。根据实际场景的原理设计仿真器，与该环境交互得到训练时所需的数据。仿真器的输入是当前时刻执行的动作a_t，输出返回的是环境下一时刻的观测状态s_t+1。

步骤S2，构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络。

具体地，构建参数为θ₁的第一主值网络Q₁、参数为θ₂的第二主值网络Q₂、参数为φ的主策略网络π，参数为θ'₁的第一副值网络Q'₁、参数为θ'₂的第二副值网络Q'₂、参数为φ'的副策略网络π'和参数为w的判别网络D。

步骤S3，基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新。

基于状态轨迹和离轨策略算法的对抗式模仿学习过程。使用主策略网络π与仿真环境进行交互，将四元组(s_t,a_t,r_t,s_t+1)存入到缓存器B_π中。其中奖励值来自于判别网络的输出，而非仿真环境反馈的真实值。通过对抗学习的方式，步骤S2中的各个演员、评论家网络和判别网络的参数持续更新，不断缩小专家状态轨迹和生成状态轨迹之间的分布差异。当训练进程收敛时，即使判别网络已经具备了较强的分辨能力，但此时学习策略已经很接近专家策略，判别网络很难区分此时的生成状态轨迹和专家状态轨迹。

模仿学习过程的具体步骤为：

S31，初始化仿真环境env、第一主值网络Q₁、第二主值网络Q₂、主策略网络π、第一副值网络Q'₁、第二副值网络Q'₂、副策略网络π'和判别网络D。

S32，在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，将生成状态轨迹(s_t,s_t+1)^π输入判别网络中，判别网络输出当前时刻的奖励值r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t,a_t,r_t,s_t+1)，并将四元组存储进生成数据缓存器B_π。

其中，当前时刻的奖励值为：

r_t＝-log(1-D((s_t,s_t+1)^π))

S33，在生成数据缓存器B_π中的数据量达到预设数据量阈值buffer_size后，每个时间步取出部分数据对第一主值网络和第二主值网络进行更新。

对主值网络Q₁、Q₂进行参数更新的过程如下：

S331，依据副策略网络π'和随机扰动选择下一时刻的动作：

其中，π_φ'为副策略网络代表的策略，

代表引入的随机扰动；

S332，计算状态-动作值函数的目标值：

其中，

S333，利用梯度下降法更新第一主值网络的参数θ₁和第二主值网络的参数θ₂：

其中，

S34，每隔第一预设时间T₁对判别网络进行更新，在专家数据缓存器B_E和生成数据缓存器B_π中分别采样得到专家状态轨迹(s_t,s_t+1)^E和生成状态轨迹(s_t,s_t+1)^π，并通过损失函数D_JS对判别网络的梯度进行下降以优化判别网络的参数w：

其中，w为判别网络的参数，α_d为判别网络的学习率，D_JS为损失函数，D_JS((s_t,s_t+1)^π,(s_t,s_t+1)^E)为专家数据分布和生成数据分布之间的JS散度。

需优化的JS散度计算公式如下：

S35，每隔第二预设时间T₂利用确定性策略梯度对主策略网络π进行更新，并对第一副值网络Q'₁、第二副值网络Q'₂和副策略网络π'的参数进行软更新。

对主策略网络进行梯度上升更新的公式如下：

对于该确定性策略梯度的计算，需要主值网络Q₁对动作a求导，然后主策略网络π对其参数φ求导。其中，N^-1为N个平方项的平均，

为主值网络对选取动作a的梯度，

为主策略网络对其参数的梯度。

对第一副值网络、第二副值网络和副策略网络的参数进行软更新包括：

θ'₁←τθ₁+(1-τ)θ'₁

θ'₂←τθ₂+(1-τ)θ'₂

φ'←τφ+(1-τ)φ'

步骤S4，根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。

具体地，在与环境的交互次数达到预设次数时，结束训练过程生成更新后的策略模型。

下面通过具体的实施例对发明的基于状态轨迹的对抗式模仿学习方法进行详细说明。

对于一个高维连续控制任务，该任务的目的是根据专家状态轨迹模仿潜在的专家动作，控制二维的“猎豹”形机器人向前跑，使其可以又快又好地跑向终点，图3是该环境的具体场景。对于该仿真环境中要控制的智能体而言，输入是17维状态量，输出动作是连续的6维变量。在所提出的基于状态数据的离轨对抗式状态模仿学习算法中，策略网络包含两层隐藏层，结点数分别为400，300，激活函数为relu；两个值网络的结构相同，同样包含两层隐藏层，结点数为400，300，激活函数为relu；判别器网络包含两层隐藏层，结点数均为100，使用的激活函数是tanh。以上各个网络的参数都通过Adam优化器进行优化。

模仿学习过程中使用到的其他超参数如下表所示：

在HalfCheetah环境中，随机策略取得的分数是-285.8±25.3，而相比之下专家策略的得分为4501.1±118.2。在对抗训练的过程中，智能体使用4条完整的专家状态轨迹作为示教数据在仿真环境中进行模仿学习。将专家策略和随机策略下取得的分数作为上下界，对模仿学习过程中的策略评估得分进行归一化处理至[0,1]区间，绘制出的图像如图4所示。图4中纵轴的0代表随机策略的表现，1代表专家策略的表现，可以看到基于状态数据的离轨对抗式模仿学习可以在非常少的交互步数内模仿到专家策略，而且收敛后的平均分数大约为4742.7，表现甚至超过专家的水平且比较平稳。

根据本发明实施例提出的基于状态轨迹的对抗式模仿学习方法，通过从工业应用与算法研究实际需要出发，研究基于状态轨迹的对抗式模仿学习，并结合离轨策略学习算法TD3，设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

其次参照附图描述根据本发明实施例提出的基于状态轨迹的对抗式模仿学习装置。

如图5所示，该基于状态轨迹的对抗式模仿学习装置包括：获取模块100、构建模块200、更新模块300和生成模块400。

其中，获取模块100，用于获取专家决策下的状态轨迹，将状态轨迹存入专家数据缓存器。

构建模块200，用于构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络。

更新模块300，用于基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新。

生成模块400，用于根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于状态轨迹的对抗式模仿学习装置，通过从工业应用与算法研究实际需要出发，研究基于状态轨迹的对抗式模仿学习，并结合离轨策略学习算法TD3，设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于状态轨迹的对抗式模仿学习方法，其特征在于，包括以下步骤：

S3，基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新，其中，所述S3进一步包括：

S31，初始化仿真环境env、所述第一主值网络Q₁、所述第二主值网络Q₂、所述主策略网络π、所述第一副值网络Q'₁、所述第二副值网络Q'₂、所述副策略网络π'和所述判别网络D；

S33，在所述生成数据缓存器B_π中的数据量达到预设数据量阈值后，每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新，其中，所述S33进一步包括：

S331，依据副策略网络π'和随机扰动选择下一时刻的动作：

其中，π_φ'为副策略网络代表的策略，

代表引入的随机扰动；

S332，计算状态-动作值函数的目标值：

其中，

其中，

为两个主值网络对当前时刻状态动作对的值估计，N^-1为N个平方项的平均；

S34，每隔第一预设时间对所述判别网络进行更新，在所述专家数据缓存器B_E和所述生成数据缓存器B_π中分别采样得到专家状态轨迹和生成状态轨迹，并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数，其中，所述S34中，需优化的JS散度计算公式如下：

其中，(s_t,s_t+1)^π和(s_t,s_t+1)^E分别代表从生成数据缓存器B_π和专家数据缓存器B_E中采样得到的生成状态轨迹和专家状态轨迹，以及优化所述判别网络的参数w包括：

其中，w为判别网络的参数，α_d为判别网络的学习率，D_JS为损失函数，D_JS((s_t,s_t+1)^π,(s_t,s_t+1)^E)为专家数据分布和生成数据分布之间的JS散度，(s_t,s_t+1)^π为生成状态轨迹，(s_t,s_t+1)^E为专家状态轨迹；

S35，每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新，并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新，其中，所述S35中，对所述主策略网络进行更新包括：

其中，N^-1为N个平方项的平均，

为主值网络对选取动作a的梯度，

为主策略网络对其参数的梯度，所述对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新包括：

θ'₁←τθ₁+(1-τ)θ'₁

θ'₂←τθ₂+(1-τ)θ'₂

φ'←τφ+(1-τ)φ'

其中，θ′₁,θ′₂,φ′为两个副值网络和副策略网络的参数，θ₁,θ₂,φ为两个主值网络和主策略网络的参数，τ用于控制从主网络更新副网络参数的程度；

2.根据权利要求1所述的基于状态轨迹的对抗式模仿学习方法，其特征在于，所述S1进一步包括：

3.根据权利要求1所述的基于状态轨迹的对抗式模仿学习方法，其特征在于，所述当前时刻的奖励值为：

r_t＝-log(1-D((s_t,s_t+1)^π))

其中，D((s_t,s_t+1)^π)为判别网络的输出，(s_t,s_t+1)^π为生成状态轨迹。

4.一种基于状态轨迹的对抗式模仿学习装置，用于实现如权利要求1所述的一种基于状态轨迹的对抗式模仿学习方法，其特征在于，包括：获取模块，用于获取专家决策下的状态轨迹，将所述状态轨迹存入专家数据缓存器；

更新模块，用于基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新，其中，所述更新模块进一步包括：

初始化仿真环境env、所述第一主值网络Q₁、所述第二主值网络Q₂、所述主策略网络π、所述第一副值网络Q'₁、所述第二副值网络Q'₂、所述副策略网络π'和所述判别网络D；

在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，将生成状态轨迹(s_t,s_t+1)^π输入所述判别网络中，所述判别网络输出当前时刻的奖励值r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t,a_t,r_t,s_t+1)，并将所述四元组存储进生成数据缓存器B_π；

在所述生成数据缓存器B_π中的数据量达到预设数据量阈值后，每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新，其中，所述在所述生成数据缓存器B_π中的数据量达到预设数据量阈值后，每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新进一步包括：

依据副策略网络π'和随机扰动选择下一时刻的动作：

其中，π_φ'为副策略网络代表的策略，

代表引入的随机扰动；

计算状态-动作值函数的目标值：

其中，

利用梯度下降法更新所述第一主值网络的参数θ₁和所述第二主值网络的参数θ₂：

其中，

每隔第一预设时间对所述判别网络进行更新，在所述专家数据缓存器B_E和所述生成数据缓存器B_π中分别采样得到专家状态轨迹和生成状态轨迹，并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数，其中，所述每隔第一预设时间对所述判别网络进行更新，在所述专家数据缓存器B_E和所述生成数据缓存器B_π中分别采样得到专家状态轨迹和生成状态轨迹，并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数中，需优化的JS散度计算公式如下：

每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新，并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新，其中，所述每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新，并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新中，对所述主策略网络进行更新包括：

其中，N^-1为N个平方项的平均，

为主值网络对选取动作a的梯度，

θ'₁←τθ₁+(1-τ)θ'₁

θ'₂←τθ₂+(1-τ)θ'₂

φ'←τφ+(1-τ)φ'