CN111488988B

CN111488988B - 基于对抗学习的控制策略模仿学习方法及装置

Info

Publication number: CN111488988B
Application number: CN202010302194.6A
Authority: CN
Inventors: 杨君; 张明; 王亚伟; 芦维宁; 李志恒; 梁斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2021-10-29
Anticipated expiration: 2040-04-16
Also published as: CN111488988A

Abstract

本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置，方法包括：获取人类专家的决策示教数据，并且获取与专家示教决策数据对应的仿真环境；构建控制策略网络，控制策略网络的输入为仿真环境返回的状态，输出为决策动作；使用当前策略网络在仿真环境进行交互，获得当前策略的决策轨迹数据，基于对抗学习的模仿学习方法对专家轨迹数据进行模仿，逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络；将通过对抗模仿策略得到的控制策略网络的参数固定保持，以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势，通过对抗学习策略获得鲁棒性更强的控制策略，简单易实现。

Description

基于对抗学习的控制策略模仿学习方法及装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于对抗学习的控制策略模仿学习方法及装置。

背景技术

随着人工智能方法的快速崛起，近几年来，以数据驱动为核心的深度学习技术迅猛发展，在图片、语音、文字识别方面有非常好的表现，同时也在策略对抗游戏方面(围棋、魔兽争霸等)表现出色。近两年相关方面的专家们也在逐步探索新的应用方向，其中在生产制造业中的实践与应用是一个意义重大且前景可观的方向，例如：自动视觉检测、大数据预测、自动驾驶等。在此期间，基于数据驱动的决策控制方法同样得到了良好的发展机遇，行为克隆作为模仿学习方法的典型代表取得了不少成绩，该方法主要是用的是监督学习的思想，首先对不同的任务进行标注，然后从这些专家标注后的海量数据中以监督学习的方式学习得到决策控制策略。

然而，机遇往往伴随着挑战，由于控制决策问题往往与时间相关，而依靠行为克隆(Behavioral Cloning)方式获得了控制策略模型在每一个时间步上都存在一定的误差，这些误差将随着时间的推移逐步累积。同时由于该方法是使用监督学习方式进行策略模型的训练，这将导致学习得到的控制策略只能针对专家标记过得情景任务能够很好地执行，但是面对相关程度很大但是有些不同的任务，其结果往往非常不尽如人意，这种方法学习得到的决策控制模型鲁棒性较差。

目前，控制策略的模仿学习尚属初步阶段，还有非常多的技术难点需要深入研究进行突破。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于对抗学习的控制策略模仿学习方法。

本发明的另一个目的在于提出一种基于对抗学习的控制策略模仿学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于对抗学习的控制策略模仿学习方法，包括以下步骤：获取人类专家的决策示教数据，并存入专家决策轨迹数据缓存器，并且获取与所述专家示教决策数据对应的仿真环境；构建控制策略网络，所述控制策略网络的输入为所述仿真环境返回的状态，输出为决策动作；控制策略的对抗模仿训练，其中，使用当前策略网络在所述仿真环境进行交互，获得当前策略的决策轨迹数据，基于对抗学习的模仿学习方法对所述专家轨迹数据进行模仿，逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络；控制策略的测试，其中，将通过对抗模仿策略得到的控制策略网络的参数固定保持，以进行实际环境控制任务的应用。

本发明实施例的基于对抗学习的控制策略模仿学习方法，结合数据与模型的双重优势，通过对抗学习策略获得鲁棒性更强的控制策略，简单易实现。

另外，根据本发明上述实施例的基于对抗学习的控制策略模仿学习方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述控制策略的对抗模仿训练，包括：

S1：初始化所述策略网络π和所述鉴别器网络D；

S2：使用所述当前策略网络π在仿真环境Env中进行交互，获得每一步的动作a_t和状态s_t，并存入所述缓存器

S3：从所述缓存器

中采样获得所述当前策略交互得到的状态动作对(s_t,a_t)^π，并从所述缓存器

中采样获得专家决策轨迹的状态动作对(s_t,a_t)^E，根据计算Wasserstein距离损失函数L_wdail对鉴别器网络D进行梯度下降优化：

S4：根据奖励函数计算公式r_t＝-log(1-D(s_t,a_t))，计算每一步的奖励r_t，并存入所述缓存器

S5：根据优势函数计算公式计算每一步的优势值A_t，并存入所述缓存器

S6：根据近端策略优化算法，并利用

进行策略网络的优化，是由梯度下降方式按照如下公式进行优化：

S7：使用所述鉴别器网络D计算所述缓存器

和

中状态动作对的距离，若小于设定阈值Thre时，停止训练保持所获得的参数，完成专家策略的模仿，否则返回所述S2，重新执行步骤所述S2至S6。

进一步地，在本发明的一个实施例中，所述距离损失函数L_wdail，其公式如下：

其中，λ是惩罚系数，θ和w代表了策略网络π与鉴别器网络D的参数，

策略分布

和专家分布

的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器

和专家决策轨迹缓存器

的状态动作对样本。

进一步地，在本发明的一个实施例中，为了满足Lipschitz约束条件，还包括：在所述鉴别器网络D上增加一个梯度惩罚项：

其中，

是采样于

的随机样本。

进一步地，在本发明的一个实施例中，依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数，公式如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)。

进一步地，在本发明的一个实施例中，使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化，公式为：

其中，r_t(θ)代表了概率比

∈是其超参数；

使用替代梯度损失函数项、值函数误差项和策略熵项，目标函数如下：

其中，

是替代项策略损失目标，c₁、c₂是系数；S是探索的熵，

是损失函数(V_θ(s_t)-V_t ^targ)²的均方差。

为达到上述目的，本发明另一方面实施例提出了一种基于对抗学习的控制策略模仿学习装置，包括：获取模块，用于获取人类专家的决策示教数据，并存入专家决策轨迹数据缓存器，并且获取与所述专家示教决策数据对应的仿真环境；构建模块，用于构建控制策略网络，所述控制策略网络的输入为所述仿真环境返回的状态，输出为决策动作；训练模块，用于控制策略的对抗模仿训练，其中，使用当前策略网络在所述仿真环境进行交互，获得当前策略的决策轨迹数据，基于对抗学习的模仿学习方法对所述专家轨迹数据进行模仿，逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络；测试模块，用于控制策略的测试，其中，将通过对抗模仿策略得到的控制策略网络的参数固定保持，以进行实际环境控制任务的应用。

本发明实施例的基于对抗学习的控制策略模仿学习装置，结合数据与模型的双重优势，通过对抗学习策略获得鲁棒性更强的控制策略，简单易实现。

另外，根据本发明上述实施例的基于对抗学习的控制策略模仿学习装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述训练模块包括：

S1：初始化所述策略网络π和所述鉴别器网络D；

S3：从所述缓存器

S6：根据近端策略优化算法，并利用

S7：使用所述鉴别器网络D计算所述缓存器

和

策略分布

和专家分布

的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器

和专家决策轨迹缓存器

的状态动作对样本；

为了满足Lipschitz约束条件，还包括：在所述鉴别器网络D上增加一个梯度惩罚项：

其中，

是采样于

的随机样本。

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)；

使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化，公式为：

其中，r_t(θ)代表了概率比

∈是其超参数；

其中，

是替代项策略损失目标，c₁、c₂是系数；S是探索的熵，

是损失函数(V_θ(s_t)-V_t ^targ)²的均方差。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于对抗学习的控制策略模仿学习方法的流程图；

图2为根据本发明一个实施例的基于对抗学习的控制策略模仿学习方法的流程图；

图3为根据本发明实施例的连续控制任务示意图；

图4为根据本发明实施例的训练过程曲线与学习曲线图；

图5为根据本发明实施例的基于对抗学习的控制策略模仿学习装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法及装置，首先将参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法。

图1是本发明一个实施例的基于对抗学习的控制策略模仿学习方法的流程图。

如图1所示，该基于对抗学习的控制策略模仿学习方法包括以下步骤：

在步骤S101中，获取人类专家的决策示教数据，并存入专家决策轨迹数据缓存器，并且获取与专家示教决策数据对应的仿真环境。

可以理解的是，如图2所示，获取人类专家的决策示教数据，并存入专家决策轨迹数据缓存器

同时获取与专家示教决策数据对应的仿真环境Env，该环境的输入为动作a_t，返回采取动作之后的下一时刻状态s_t+1。

在步骤S102中，构建控制策略网络，控制策略网络的输入为仿真环境返回的状态，输出为决策动作。

可以理解的是，如图2所示，构建控制策略网络π(其参数为θ)，该网络的输入为仿真环境Env返回的状态s_t，输出为决策动作a_t；通过构建鉴别器网络D(其参数为w)，该网络输入为状态动作对(s_t,a_t)，输出为对状态动作对的度量根据环境信息构建控制策略网络。

在步骤S103中，控制策略的对抗模仿训练，其中，使用当前策略网络在仿真环境进行交互，获得当前策略的决策轨迹数据，基于对抗学习的模仿学习方法对专家轨迹数据进行模仿，逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络。

可以理解的是，如图2所示，控制策略的对抗模仿训练：使用当前策略网络π在仿真环境Env进行交互，获得当前策略的决策轨迹数据，基于对抗学习的模仿学习方法对专家轨迹数据中包含的专家控制决策数据进行模仿，采用Wasserstein距离的对抗学习策略，逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异，最终模仿学习得到能够产生专家决策轨迹的策略网络π。

具体而言，控制策略的对抗模仿训练，包括：

S1：初始化策略网络π和鉴别器网络D。

S2：使用当前策略网络π在仿真环境Env中进行交互，获得每一步的动作a_t和状态s_t，并存入缓存器

S3：从缓存器

中采样获得当前策略交互得到的状态动作对(s_t,a_t)^π，并从缓存器

在步骤S3中，Wasserstein的距离损失函数L_wdail，其公式如下：

策略分布

和专家分布

的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器

和专家决策轨迹缓存器

的状态动作对样本；

为了满足1阶Lipschitz约束条件，需要在鉴别器网络D上增加一个梯度惩罚项，定义如下：

其中，

是采样于

的随机样本。

S4：根据奖励函数计算公式r_t＝-log(1-D(s_t,a_t))，计算每一步的奖励r_t，并存入缓存器

S5：根据优势函数计算公式计算每一步的优势值A_t，并存入缓存器

在上述步骤S5中，策略梯度提升算法最关键的部分就是估计优势函数，利用的是学习得到的状态值函数。通用优势估计(GAE)算法是一种非常有效的方式，对策略梯度的实现来说，依据策略在经过时间上面收集得到的状态轨迹来进行计算，具体公式如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)。

S6：根据近端策略优化算法，并利用

在步骤S6中，PPO算法的损失函数是通用策略梯度(GP)算法的替代项，并对其有一定的改进。目标函数的实现方式是使用L^CLIP项去替代L^PG，然后使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化，具体公式为：

其中，r_t(θ)代表了概率比

∈是其超参数；

PPO算法的最终目标函数是拥有固定的轨迹长度，使用替代梯度损失函数项、值函数误差项和策略熵项，具体的目标函数如下所示：

其中，

是替代项策略损失目标，c₁、c₂是系数；S是探索的熵，

是损失函数(V_θ(s_t)-V_t ^targ)²的均方差。

S7：使用鉴别器网络D计算缓存器

和

中状态动作对的距离，若小于设定阈值Thre时，停止训练保持所获得的参数，完成专家策略的模仿，否则返回S2，重新执行步骤S2至S6。

在步骤S104中，控制策略的测试，其中，将通过对抗模仿策略得到的控制策略网络的参数固定保持，以进行实际环境控制任务的应用。

可以理解的是，控制策略的测试：将上一步通过对抗模仿策略得到的控制策略网络π的参数θ固定保持，用其进行实际环境控制任务的应用。

下面将通过具体示例对基于对抗学习的控制策略模仿学习方法进行进一步说明。

连续控制任务：该任务是控制控制一个在仿真环境中的机器人，使其能够尽快的学会走路，如图3所示。该智能体有111个状态输入，8个控制动作，所有信息都是连续的。在该任务中，使用全连接层构架策略网络π和鉴别器网络D，策略网络包括2个含有64节点的隐藏层，其激活函数为tanh，鉴别器网络由2层100个节点的隐藏层组成，激活函数同样为tanh，使用Adam优化器进行梯度下降优化。所有的结果都归一化到[0,1]范围内，归一化的范围由环境中的随机策略和专家策略生成。

基于对抗学习的控制策略模仿方法中PPO方法使用到的超参数如表1所示，表1为PPO策略提升超参数表。

表1

超参数	值
		全周期(T)	2048
学习率(α<sub>p</sub>)	3e-4
		折扣因子(γ)	0.99
GAE参数(λ)	0.95

对抗模仿学习使用到的超参数如表2所示，表2为对抗模仿学习的超参数表。

表2

超参数	值
		学习率(α<sub>d</sub>)	1e-3
惩罚系数(λ)	0.99

该环境的随机策略得分为-60.21±30.40，专家策略得分4066.96±688.97，使用专家策略与环境交互，得到专家控制决策轨迹数据5组，使用5组专家经验数据进行模仿学习的测试，训练过程曲线如图4所示，可以看出该方法能够很快的模仿专家轨迹，得到与专家轨迹近似的得分3890.90±379.63，可以看到该得分与专家策略得分有一定偏差，这个偏差就是与环境交互产生的，这也说明了本发明实施来的方法并不仅仅是简单的复制专家策略，而是进行鲁棒性的学习。其学习曲线如图4所示，该图进行了归一化的处理，0代表了随机策略得分，1代表专家策略得分。从图中可以看出，本发明实施例的方法在1百万次交互之后接近专家策略。

根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法，结合数据与模型的双重优势，通过对抗学习策略获得鲁棒性更强的控制策略，简单易实现。

其次参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习装置。

图5是本发明一个实施例的基于对抗学习的控制策略模仿学习装置的结构示意图。

如图5所示，该基于对抗学习的控制策略模仿学习装置10包括：获取模块100、构建模块200、训练模块300和测试模块400。

其中，获取模块100用于获取人类专家的决策示教数据，并存入专家决策轨迹数据缓存器，并且获取与专家示教决策数据对应的仿真环境；构建模块200用于构建控制策略网络，控制策略网络的输入为仿真环境返回的状态，输出为决策动作；训练模块300用于控制策略的对抗模仿训练，其中，使用当前策略网络在仿真环境进行交互，获得当前策略的决策轨迹数据，基于对抗学习的模仿学习方法对专家轨迹数据进行模仿，逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络；测试模块400用于控制策略的测试，其中，将通过对抗模仿策略得到的控制策略网络的参数固定保持，以进行实际环境控制任务的应用。

进一步地，在本发明的一个实施例中，训练模块300包括：

S1：初始化策略网络π和鉴别器网络D；

S3：从缓存器

S6：根据近端策略优化算法，并利用

S7：使用鉴别器网络D计算缓存器

和

进一步地，在本发明的一个实施例中，距离损失函数L_wdail，其公式如下：

策略分布

和专家分布

的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器

和专家决策轨迹缓存器

的状态动作对样本；

为了满足Lipschitz约束条件，还包括：在鉴别器网络D上增加一个梯度惩罚项：

其中，

是采样于

的随机样本。

进一步地，在本发明的一个实施例中，依据策略在经过时间T上面收集得到的状态轨迹计算优势函数，公式如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)；

其中，r_t(θ)代表了概率比

∈是其超参数；

其中，

是替代项策略损失目标，c₁、c₂是系数；S是探索的熵，

是损失函数(V_θ(s_t)-V_t ^targ)²的均方差。

需要说明的是，前述对基于对抗学习的控制策略模仿学习方法实施例的解释说明也适用于该实施例的基于对抗学习的控制策略模仿学习装置，此处不再赘述。

根据本发明实施例提出的基于对抗学习的控制策略模仿学习装置，结合数据与模型的双重优势，通过对抗学习策略获得鲁棒性更强的控制策略，简单易实现。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于对抗学习的控制策略模仿学习方法，其特征在于，包括以下步骤：

获取人类专家的决策轨迹数据，并存入专家决策轨迹数据缓存器

并且获取与所述专家决策轨迹数据对应的仿真环境；

构建策略网络π，所述策略网络π的输入为所述仿真环境返回的状态，输出为决策动作；

控制策略的对抗模仿训练，其中，使用当前策略网络在所述仿真环境进行交互，获得策略网络的决策轨迹数据

基于对抗学习的模仿学习方法对所述专家决策轨迹数据进行模仿，逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络；以及

控制策略的测试，其中，将通过对抗模仿策略得到的策略网络π的参数θ固定保持，以进行实际环境控制任务的应用；

所述控制策略的对抗模仿训练，包括：

S1：初始化策略网络π和鉴别器网络D，其中，策略网络，值网络与鉴别器是由多层神经网络构成的参数化模型，分别负责输出当前策略和鉴别当前策略产生的轨迹与专家轨迹之间的差距，它们的模型参数分别为θ和w；

S2：使用策略网络π在仿真环境Env中进行交互，获得每一步的动作a_t和状态s_t，并存入缓存器

其中缓存器是用于存储每一步的动作与状态，形成策略轨迹数据；

S3：从所述缓存器

中采样获得所述策略交互得到的状态动作对(s_t,a_t)^π，并从缓存器

其中，w是鉴别器网络D的参数，α_d是学习率取0.001，(s,a)^π是缓存器中的决策轨迹数据，(s,a)^E是专家决策轨迹数据；

S6：根据近端策略优化算法，并利用

其中，θ是策略网络的参数，α_p是学习率，

是替代项策略损失目标函数；

S7：使用所述鉴别器网络D计算所述缓存器

和

2.根据权利要求1所述的方法，其特征在于，所述距离损失函数L_wdail，其公式如下：

其中，λ是惩罚系数，θ和w代表了策略网络π与鉴别器网络D的参数，L_gp是优化鉴别器网络D的梯度惩罚项；

策略决策轨迹数据分布

和专家决策轨迹数据分布

的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器

和专家决策轨迹缓存器

的状态动作对样本。

3.根据权利要求2所述的方法，为了满足Lipschitz约束条件，还包括：

在所述鉴别器网络D上增加一个梯度惩罚项：

其中，

是采样于

的随机样本。

4.根据权利要求1所述的方法，其特征在于，依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数，公式如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)，γ是超参数，取0.99。

5.根据权利要求1所述的方法，其特征在于，使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化，公式为：

其中，r_t(θ)代表了概率比

∈是其超参数，

是函数的期望，

是优势函数，r_t是奖励函数，clip(r_t(θ),1-∈,1+∈)是裁剪函数当奖励值r_t大于1+∈取1+∈，r_t小于1-∈时取1-∈；

最终优化策略网络π与值网络V的目标函数如下：

其中，

是替代项策略损失目标，c₁、c₂是系数。

6.一种基于对抗学习的控制策略模仿学习装置，其特征在于，包括：

获取模块，用于获取人类专家的决策轨迹数据，并存入专家决策轨迹数据缓存器，并且获取与所述专家决策轨迹数据对应的仿真环境；

构建模块，用于构建策略网络π，所述策略网络π的输入为所述仿真环境返回的状态，输出为决策动作；

训练模块，用于控制策略的对抗模仿训练，其中，使用当前策略网络在所述仿真环境进行交互，获得策略网络的决策轨迹数据

测试模块，用于控制策略的测试，其中，将通过对抗模仿策略得到的策略网络π的参数θ固定保持，以进行实际环境控制任务的应用；

所述训练模块包括：

S3：从所述缓存器

其中，w是鉴别器网络D的参数，α_d是学习率，取0.001，(s,a)^π是缓存器中的决策轨迹数据，(s,a)^E是专家决策轨迹数据；

S6：根据近端策略优化算法，并利用

其中，θ是策略网络的参数，α_p是学习率，

是替代项策略损失目标函数；

S7：使用所述鉴别器网络D计算所述缓存器

和

7.根据权利要求6所述的装置，其特征在于，所述距离损失函数L_wdail，其公式如下：

策略决策轨迹数据分布

和专家决策轨迹数据分布

的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器

和专家决策轨迹缓存器

的状态动作对样本；

为了满足Lipschitz约束条件，还包括：

在所述鉴别器网络D上增加一个梯度惩罚项：

其中，

是采样于

的随机样本。

8.根据权利要求6所述的装置，其特征在于，依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数，公式如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)，γ是超参数取0.99；

其中，r_t(θ)代表了概率比

∈是其超参数，

是函数的期望，

最终优化策略网络π与值网络V的目标函数如下：

其中，

是替代项策略损失目标，c₁、c₂是系数。