CN113239634B

CN113239634B - 一种基于鲁棒模仿学习的模拟器建模方法

Info

Publication number: CN113239634B
Application number: CN202110654854.1A
Authority: CN
Inventors: 杨正宇; 张伟楠; 丁宁; 俞勇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-11-04
Anticipated expiration: 2041-06-11
Also published as: CN113239634A

Abstract

本发明公开了一种基于鲁棒模仿学习的模拟器建模方法，涉及强化学习领域，包括以下步骤：从策略分布

中采样出训练策略集合Π和测试策略集合Π′；令训练策略集合Π的策略π与真实环境p^*进行交互，以获得真实数据集合B_π＝{(s，a，s′)～(πp^*)；每k步进行一次策略筛选；令策略π与学习到的模拟器

进行交互，并计算价值差异VD，以衡量模拟器

在策略π下的表现；选取其中表现最差的∈％策略构成集合Π_c，其对应的数据集记为B_c；从B_c中采样数据，并利用Π_c中的策略与当前模拟器

交互以收集数据D_p，用以优化生成对抗模仿学习中的判别器D_ω，以及用以优化生成对抗模仿学习中的生成器

重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。

Description

一种基于鲁棒模仿学习的模拟器建模方法

技术领域

本发明涉及强化学习领域，尤其涉及一种基于鲁棒模仿学习的模拟器建模方法。

背景技术

模拟器建模是强化学习中的一个重要方向，其指的是对环境的动态转移进行建模。目前而言，模拟器建模的方法主要可以分为基于规则的方法和基于学习的方法。针对于复杂的真实场景，基于规则的方法难以正确并且全面地提取出该环境的所有规则，故而使得这些方法在很多场景下会得到糟糕的结果。随着可用数据的增多，近些年来在模拟器建模场景中，基于学习的方法得到了更多的关注。然而目前所有基于学习的方法都没考虑学习到的模拟器的鲁棒性，故而其学得的模拟器可能会在很多情形下给出极不准确的仿真结果。

近期来，专家和学者主要聚焦于如何利用机器学习的方法来建模模拟器，具体的，目前主要利用模仿学习的方式来对模拟器进行建模。Guanjie Zheng等在InternationalConference on Data Engineering(数据工程国际会议)会议(2020年36届)上发表了“Learning to simulate vehicle trajectories from demonstrations”(《通过演示学习模拟车辆的轨迹》)，该文章提出利用生成对抗模拟学习来从已经收集到的车辆行驶数据中学习车辆的行为，即学习一个模拟器去模拟真实车辆的行为。

Jingcheng Shi等在AAAI Conference on Artificial Intelligence(美国人工智能协会人工智能会议)会议(2019年33届)上发表了“Virtual-Taobao:VirtualizingReal-World Online Retail Environment for Reinforcement Learning”(《虚拟淘宝：虚拟现实世界的在线零售环境以进行强化学习》)。该方法将用户和平台的交互建模为一个多智能体系统，并利用多智能体版本的生成对抗模拟学习同时学习用户和平台的行为。考虑到已收集的数据未必包含了全部信息，Wenjie Shang等在ACM Knowledge Discovery andData Mining(计算机协会知识发现与数据挖掘)会议(2019年25届)上发表了“EnvironmentReconstruction with Hidden Confounders for Reinforcement Learning basedRecommendation”(《基于强化学习的推荐下的含有隐藏混杂因素的环境重建》)，该方法仍旧将用户和平台的交互建模为一个多智能体系统，同时考虑到数据中未包含的一些隐藏信息，又在多智能体系统中引入了一个新的角色以建模这些隐藏信息，进而同时学习这三者的行为。

对国内外相关研究可得出以下结论：目前在模拟器建模的领域中，所有基于学习的方法都未将学得的模拟器的鲁棒性考虑在内。然而一个好的模拟器，其应该是能够为不同的策略提供稳定的仿真，即使在各种边缘案例中也能提供不错的仿真效果。

因此，本领域的技术人员致力于开发一种基于鲁棒模仿学习的模拟器建模方法，以实现稳定的仿真。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何将模拟器的鲁棒性纳入模拟器建模的过程中去。

为实现上述目的，本发明提供了一种基于鲁棒模仿学习的模拟器建模方法，包括以下步骤：

步骤1、从策略分布

中采样出训练策略集合Π和测试策略集合Π′；

步骤2、令所述训练策略集合Π的策略π与真实环境p^*进行交互，以获得真实数据集合B_π＝{(s，a，s′)～(π，p^*)}；

其中s代表状态，a代表动作，s’代表真实环境p^*在给定s，a的前提下会转变到的状态，所有策略收集到的数据集合记为B＝{B_π|π∈Π}；

步骤3、每k步进行一次策略筛选；令所述训练策略集合Π中的策略π与学习到的模拟器

进行交互，并计算价值差异VD，以衡量模拟器

在策略π下的表现；选取其中表现最差的∈％策略构成集合Π_c，其对应的数据集记为B_c＝{B_π|π∈Π_c}；

其中模拟器

以动作状态对(s，a)作为输入，并输出对于接下来的状态的预测，即可以将模拟器看作为一个假的环境。

步骤4、从B_c中采样数据，并利用Π_c中的策略与当前模拟器

交互以收集数据，收集到的数据记为

用以优化生成对抗模仿学习中的判别器D_ω；

其中s代表状态，a代表动作，s’代表

在给定s，a为输入的前提下的输出。

步骤5、从D_p中采样数据，并利用判别器D_ω提供相应的奖励，进而用以优化生成对抗模仿学习中的生成器(即模拟器)

步骤6、重复步骤3-5直到重复次数达到事先设定的阈值。

进一步地，在策略筛选时采用所述价值差异VD作为指标，所述价值差异VD为：

其中V(p，π)指的是策略π在真实环境或者是模拟器p上所获得的累积奖励，VD的值越大，代表模拟器

在策略π上表现越差。

进一步地，所述判别器D_ω根据B_c与D_p中的数据进行判别器优化，而且判别器D_ω以状态转移对(s，a，s′)作为输入，并输出一个实数。

进一步地，所述判别器优化的损失函数为：

其中p^*，

分别代表真实环境和模拟器，|Π_c|代表集合Π_c中策略的数目，π_i代表集合|Π_c|中的第i个元素，D_ω(s，a，s′)代表了判别器对于状态转移对(s，a，s′)的输出。

进一步地，所述模拟器

根据D_p中的数据进行模拟器优化。

进一步地，所述模拟器优化包括以下步骤：

利用所述判别器D_ω生成状态转移对(s，a，s′)相应的奖励r；

采用强化学习中的演员-评论家算法对所述模拟器

进行优化。

进一步地，所述演员-评论家算法中包含模拟器

和评论家q_μ两部分，模拟器

即为演员；相应优化的损失函数包括：

其中，L(μ)是优化所述评论家q_μ时的参数μ的损失函数，y代表了q_μ(s，a，s′)对应的优化目标，y中的a′是从策略π在以状态s′为输入时采样而得，y中的s″是从所述模拟器

在以动作状态对(s′，a′)为输入时采样而得，y中的

是目标评论家网络，每隔d步，

和q_u同步一次，即将

设置为和q_u一致；γ是折旧因子，

是优化所述模拟器

时的参数

的损失函数。

进一步地，所述方法每次选择模拟器预测得最差的策略所对应的数据来对模拟器进行优化。

进一步地，所述方法通过生成对抗模仿学习方法来对模拟器进行优化。

进一步地，所述方法在数据收集完成后不再需要与真实环境进行交互。

与现有技术相比，本发明的有益技术效果在于：

(1)本发明中利用生成对抗模仿学习来学习模拟器，充分利用了数据集的分布信息，并且缓解了累计误差。

(2)本发明中采用了在目前模拟器上表现最差的一部分策略所对应的数据来对生成器

和判别器D_ω进行优化，从而提高了模拟器在策略集合

上的表现的下界，使得学到的模型具有更强的鲁棒性。

(3)本发明是一种完全离线的方法，在初始数据收集完成之后，本发明再不要求能够与真实环境进行交互。

(4)实践证明，本发明相对于其他的模拟器建模方法在策略微调，策略评估等下游任务上具有更好的最差表现，这体现了本发明能够学得更具鲁棒性的模型。

(5)实践证明，在平均表现上，本发明也能够取得更好的效果。这说明本发明能够在不损伤模拟器平均表现的前提下为模型带来鲁棒性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的方法流程示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示为本发明所提的一种基于鲁棒模仿学习的模拟器建模方法的流程示意图。在该实施例中，假设在利用判别器D_ω的输出来优化模拟器

时使用的强化学习算法为演员-评论家算法。本发明实施例将方法应用于模拟机器人行为的场景中。具体步骤如下：

步骤1、利用强化学习算法在对应的机器人环境中训练策略，在训练过程中定时采样当前的策略，最终组成策略分布

从策略分布

中采样出训练策略集合Π和测试策略集合Π′，并利用训练策略集合Π的策略π与真实环境p^*进行交互以获得真实数据集合B_π＝{(s，a，s′)～(π，p^*)}，其中s代表状态，a代表动作，s’代表真实环境在给定s，a的前提下会转变到的状态，所有策略收集到的数据集合记为B＝{B_π|π∈Π}。若是已经有收集好的策略及相应的数据，则直接在相应数据上采样B即可。

步骤2、初始化模拟器

判别器D_ω，演员-评论家算法中的评论家网络q_μ。

步骤3、对于经历中的每一个步骤t：

(1)如果t％k＝＝0，为训练策略集合Π中的每个策略计算价值差异VD。并选择其中值最大的∈％策略组成集合Π_c，并得到对应于这些策略的数据：

B_c＝{B_π|π∈Π_c}。

(2)从集合Π_c中采样一个策略π，并利用该策略与当前学得的模拟器

进行交互，以收集数据，记为D_p。

(3)利用B_π和D_p中的数据对判别器D_ω进行优化，相应的损失函数为：

其中p^*，

将步骤(3)重复进行5次。

(4)利用D_p中的数据以及D_ω计算出的奖励r对模拟器

进行优化，当采用演员-评论家算法时，其中优化演员(即模拟器)

和评论家q_μ损失函数为：

其中，L(μ)是优化评论家q_μ时的参数μ的损失函数，y代表了q_μ(s，a，s′)对应的优化目标，y中的a′是从策略π在以状态s′为输入时采样而得，y中的s″是从所述模拟器

在以动作状态对(s′，a′)为输入时采样而得，y中的

是目标评论家网络，每隔d步，

和q_μ同步一次，即将

设置为和q_μ一致；γ是折旧因子，

是优化模拟器

时的参数

的损失函数。

(5)当t＞T，结束算法。

在模拟机器人行为这一场景下，本方法通过将模型的鲁棒性纳入模拟器学习的过程中，相对于已有的方法能够学习出一个更为鲁棒的模拟器。实践中，将最终学习到的模拟器

用于微调测试策略集合Π′的策略以及评估测试策略集合Π′中各个策略的表现。最终结果表明，针对于策略集合Π′中的所有策略，当利用学习到的模拟器

与策略进行交互以收集数据进而利用这些数据对策略进行提升时，本方法能够获得最高的最低提升，即所有策略上的提升值的最小值是最大的，这充分说明了本方法学得的模拟器具有较强的鲁棒性，能够为不同的策略提供稳定的仿真。同时，在利用所有策略上的提升值的平均值进行衡量时，本方法相对于以前的模拟器建模的方法依旧能够取得更好的结果。这说明本方法能够在不损害模拟器平均表现的前提下赋予模拟器更强的鲁棒性。在对策略进行评估的任务上，本方法相对于以前的模拟器建模的方法也取得更好的结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。