CN113239634B - 一种基于鲁棒模仿学习的模拟器建模方法 - Google Patents
一种基于鲁棒模仿学习的模拟器建模方法 Download PDFInfo
- Publication number
- CN113239634B CN113239634B CN202110654854.1A CN202110654854A CN113239634B CN 113239634 B CN113239634 B CN 113239634B CN 202110654854 A CN202110654854 A CN 202110654854A CN 113239634 B CN113239634 B CN 113239634B
- Authority
- CN
- China
- Prior art keywords
- robot
- simulator
- strategy
- behavior
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于鲁棒模仿学习的模拟器建模方法,涉及强化学习领域,包括以下步骤:从策略分布中采样出训练策略集合Π和测试策略集合Π′;令训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(πp*);每k步进行一次策略筛选;令策略π与学习到的模拟器进行交互,并计算价值差异VD,以衡量模拟器在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc;从Bc中采样数据,并利用Πc中的策略与当前模拟器交互以收集数据Dp,用以优化生成对抗模仿学习中的判别器Dω,以及用以优化生成对抗模仿学习中的生成器重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。
Description
技术领域
本发明涉及强化学习领域,尤其涉及一种基于鲁棒模仿学习的模拟器建模方法。
背景技术
模拟器建模是强化学习中的一个重要方向,其指的是对环境的动态转移进行建模。目前而言,模拟器建模的方法主要可以分为基于规则的方法和基于学习的方法。针对于复杂的真实场景,基于规则的方法难以正确并且全面地提取出该环境的所有规则,故而使得这些方法在很多场景下会得到糟糕的结果。随着可用数据的增多,近些年来在模拟器建模场景中,基于学习的方法得到了更多的关注。然而目前所有基于学习的方法都没考虑学习到的模拟器的鲁棒性,故而其学得的模拟器可能会在很多情形下给出极不准确的仿真结果。
近期来,专家和学者主要聚焦于如何利用机器学习的方法来建模模拟器,具体的,目前主要利用模仿学习的方式来对模拟器进行建模。Guanjie Zheng等在InternationalConference on Data Engineering(数据工程国际会议)会议(2020年36届)上发表了“Learning to simulate vehicle trajectories from demonstrations”(《通过演示学习模拟车辆的轨迹》),该文章提出利用生成对抗模拟学习来从已经收集到的车辆行驶数据中学习车辆的行为,即学习一个模拟器去模拟真实车辆的行为。
Jingcheng Shi等在AAAI Conference on Artificial Intelligence(美国人工智能协会人工智能会议)会议(2019年33届)上发表了“Virtual-Taobao:VirtualizingReal-World Online Retail Environment for Reinforcement Learning”(《虚拟淘宝:虚拟现实世界的在线零售环境以进行强化学习》)。该方法将用户和平台的交互建模为一个多智能体系统,并利用多智能体版本的生成对抗模拟学习同时学习用户和平台的行为。考虑到已收集的数据未必包含了全部信息,Wenjie Shang等在ACM Knowledge Discovery andData Mining(计算机协会知识发现与数据挖掘)会议(2019年25届)上发表了“EnvironmentReconstruction with Hidden Confounders for Reinforcement Learning basedRecommendation”(《基于强化学习的推荐下的含有隐藏混杂因素的环境重建》),该方法仍旧将用户和平台的交互建模为一个多智能体系统,同时考虑到数据中未包含的一些隐藏信息,又在多智能体系统中引入了一个新的角色以建模这些隐藏信息,进而同时学习这三者的行为。
对国内外相关研究可得出以下结论:目前在模拟器建模的领域中,所有基于学习的方法都未将学得的模拟器的鲁棒性考虑在内。然而一个好的模拟器,其应该是能够为不同的策略提供稳定的仿真,即使在各种边缘案例中也能提供不错的仿真效果。
因此,本领域的技术人员致力于开发一种基于鲁棒模仿学习的模拟器建模方法,以实现稳定的仿真。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何将模拟器的鲁棒性纳入模拟器建模的过程中去。
为实现上述目的,本发明提供了一种基于鲁棒模仿学习的模拟器建模方法,包括以下步骤:
步骤2、令所述训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(π,p*)};
其中s代表状态,a代表动作,s’代表真实环境p*在给定s,a的前提下会转变到的状态,所有策略收集到的数据集合记为B={Bπ|π∈Π};
步骤3、每k步进行一次策略筛选;令所述训练策略集合Π中的策略π与学习到的模拟器进行交互,并计算价值差异VD,以衡量模拟器在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc={Bπ|π∈Πc};
步骤6、重复步骤3-5直到重复次数达到事先设定的阈值。
进一步地,在策略筛选时采用所述价值差异VD作为指标,所述价值差异VD为:
进一步地,所述判别器Dω根据Bc与Dp中的数据进行判别器优化,而且判别器Dω以状态转移对(s,a,s′)作为输入,并输出一个实数。
进一步地,所述判别器优化的损失函数为:
进一步地,所述模拟器优化包括以下步骤:
利用所述判别器Dω生成状态转移对(s,a,s′)相应的奖励r;
其中,L(μ)是优化所述评论家qμ时的参数μ的损失函数,y代表了qμ(s,a,s′)对应的优化目标,y中的a′是从策略π在以状态s′为输入时采样而得,y中的s″是从所述模拟器在以动作状态对(s′,a′)为输入时采样而得,y中的是目标评论家网络,每隔d步,和qu同步一次,即将设置为和qu一致;γ是折旧因子,是优化所述模拟器时的参数的损失函数。
进一步地,所述方法每次选择模拟器预测得最差的策略所对应的数据来对模拟器进行优化。
进一步地,所述方法通过生成对抗模仿学习方法来对模拟器进行优化。
进一步地,所述方法在数据收集完成后不再需要与真实环境进行交互。
与现有技术相比,本发明的有益技术效果在于:
(1)本发明中利用生成对抗模仿学习来学习模拟器,充分利用了数据集的分布信息,并且缓解了累计误差。
(3)本发明是一种完全离线的方法,在初始数据收集完成之后,本发明再不要求能够与真实环境进行交互。
(4)实践证明,本发明相对于其他的模拟器建模方法在策略微调,策略评估等下游任务上具有更好的最差表现,这体现了本发明能够学得更具鲁棒性的模型。
(5)实践证明,在平均表现上,本发明也能够取得更好的效果。这说明本发明能够在不损伤模拟器平均表现的前提下为模型带来鲁棒性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的方法流程示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示为本发明所提的一种基于鲁棒模仿学习的模拟器建模方法的流程示意图。在该实施例中,假设在利用判别器Dω的输出来优化模拟器时使用的强化学习算法为演员-评论家算法。本发明实施例将方法应用于模拟机器人行为的场景中。具体步骤如下:
步骤1、利用强化学习算法在对应的机器人环境中训练策略,在训练过程中定时采样当前的策略,最终组成策略分布从策略分布中采样出训练策略集合Π和测试策略集合Π′,并利用训练策略集合Π的策略π与真实环境p*进行交互以获得真实数据集合Bπ={(s,a,s′)~(π,p*)},其中s代表状态,a代表动作,s’代表真实环境在给定s,a的前提下会转变到的状态,所有策略收集到的数据集合记为B={Bπ|π∈Π}。若是已经有收集好的策略及相应的数据,则直接在相应数据上采样B即可。
步骤3、对于经历中的每一个步骤t:
(1)如果t%k==0,为训练策略集合Π中的每个策略计算价值差异VD。并选择其中值最大的∈%策略组成集合Πc,并得到对应于这些策略的数据:
Bc={Bπ|π∈Πc}。
(3)利用Bπ和Dp中的数据对判别器Dω进行优化,相应的损失函数为:
将步骤(3)重复进行5次。
其中,L(μ)是优化评论家qμ时的参数μ的损失函数,y代表了qμ(s,a,s′)对应的优化目标,y中的a′是从策略π在以状态s′为输入时采样而得,y中的s″是从所述模拟器在以动作状态对(s′,a′)为输入时采样而得,y中的是目标评论家网络,每隔d步,和qμ同步一次,即将设置为和qμ一致;γ是折旧因子,是优化模拟器时的参数的损失函数。
(5)当t>T,结束算法。
在模拟机器人行为这一场景下,本方法通过将模型的鲁棒性纳入模拟器学习的过程中,相对于已有的方法能够学习出一个更为鲁棒的模拟器。实践中,将最终学习到的模拟器用于微调测试策略集合Π′的策略以及评估测试策略集合Π′中各个策略的表现。最终结果表明,针对于策略集合Π′中的所有策略,当利用学习到的模拟器与策略进行交互以收集数据进而利用这些数据对策略进行提升时,本方法能够获得最高的最低提升,即所有策略上的提升值的最小值是最大的,这充分说明了本方法学得的模拟器具有较强的鲁棒性,能够为不同的策略提供稳定的仿真。同时,在利用所有策略上的提升值的平均值进行衡量时,本方法相对于以前的模拟器建模的方法依旧能够取得更好的结果。这说明本方法能够在不损害模拟器平均表现的前提下赋予模拟器更强的鲁棒性。在对策略进行评估的任务上,本方法相对于以前的模拟器建模的方法也取得更好的结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,包括以下步骤:
步骤2、令所述训练机器人策略集合Π的机器人策略π与真实机器人p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(π,p*)};
其中s代表状态,a代表动作,s’代表真实机器人p*在给定s,a的前提下会转变到的状态,所有机器人策略收集到的数据集合记为B={Bπ|π∈Π};
步骤3、每k步进行一次机器人策略筛选;令所述训练机器人策略集合Π中的机器人策略π与学习到的模仿机器人行为的模拟器进行交互,并计算价值差异VD,以衡量模仿机器人行为的模拟器在机器人策略π下的表现;选取其中表现最差的机器人策略构成集合Πc,其对应的数据集记为Bc={Bπ|π∈Πc};
步骤6、重复步骤3-5直到重复次数达到事先设定的阈值。
3.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述判别器Dω根据Bc与Dp中的数据进行判别器优化,而且判别器Dω以状态转移对(s,a,s′)作为输入,并输出一个实数。
8.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述方法每次选择模仿机器人行为的模拟器预测得最差的机器人策略所对应的数据来对模仿机器人行为的模拟器进行优化。
9.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述方法通过生成对抗模仿学习方法来对模仿机器人行为的模拟器进行优化。
10.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述方法在数据收集完成后不再需要与真实机器人进行交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654854.1A CN113239634B (zh) | 2021-06-11 | 2021-06-11 | 一种基于鲁棒模仿学习的模拟器建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654854.1A CN113239634B (zh) | 2021-06-11 | 2021-06-11 | 一种基于鲁棒模仿学习的模拟器建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239634A CN113239634A (zh) | 2021-08-10 |
CN113239634B true CN113239634B (zh) | 2022-11-04 |
Family
ID=77139688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110654854.1A Active CN113239634B (zh) | 2021-06-11 | 2021-06-11 | 一种基于鲁棒模仿学习的模拟器建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239634B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2010252272A1 (en) * | 2009-05-25 | 2011-12-22 | Reha Technologies Gmbh | Device for therapeutically treating and/or training the lower extremities of a person |
CN107622311A (zh) * | 2017-10-09 | 2018-01-23 | 深圳市唯特视科技有限公司 | 一种基于语境翻译的机器人模仿学习方法 |
CN108724182A (zh) * | 2018-05-23 | 2018-11-02 | 苏州大学 | 基于多类别模仿学习的端到端游戏机器人生成方法及系统 |
CN110059100A (zh) * | 2019-03-20 | 2019-07-26 | 广东工业大学 | 基于演员-评论家网络的sql语句构造方法 |
CN110390398A (zh) * | 2018-04-13 | 2019-10-29 | 北京智行者科技有限公司 | 在线学习方法 |
CN111130053A (zh) * | 2020-01-08 | 2020-05-08 | 华南理工大学 | 一种基于深度强化学习的配电网过流保护方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
WO2020190460A1 (en) * | 2019-03-20 | 2020-09-24 | Sony Corporation | Reinforcement learning through a double actor critic algorithm |
CN111861648A (zh) * | 2020-07-06 | 2020-10-30 | 南京大学 | 基于模拟训练的价格谈判策略模型学习方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10643320B2 (en) * | 2017-11-15 | 2020-05-05 | Toyota Research Institute, Inc. | Adversarial learning of photorealistic post-processing of simulation with privileged information |
US11568236B2 (en) * | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
CN111401556B (zh) * | 2020-04-22 | 2023-06-30 | 清华大学深圳国际研究生院 | 一种对抗式模仿学习中奖励函数的选择方法 |
CN111950735B (zh) * | 2020-06-30 | 2023-11-17 | 上海交通大学 | 一种基于双向模型的强化学习方法 |
CN112884130A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 |
CN112802061B (zh) * | 2021-03-22 | 2021-08-06 | 浙江师范大学 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
-
2021
- 2021-06-11 CN CN202110654854.1A patent/CN113239634B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2010252272A1 (en) * | 2009-05-25 | 2011-12-22 | Reha Technologies Gmbh | Device for therapeutically treating and/or training the lower extremities of a person |
CN107622311A (zh) * | 2017-10-09 | 2018-01-23 | 深圳市唯特视科技有限公司 | 一种基于语境翻译的机器人模仿学习方法 |
CN110390398A (zh) * | 2018-04-13 | 2019-10-29 | 北京智行者科技有限公司 | 在线学习方法 |
CN108724182A (zh) * | 2018-05-23 | 2018-11-02 | 苏州大学 | 基于多类别模仿学习的端到端游戏机器人生成方法及系统 |
CN110059100A (zh) * | 2019-03-20 | 2019-07-26 | 广东工业大学 | 基于演员-评论家网络的sql语句构造方法 |
WO2020190460A1 (en) * | 2019-03-20 | 2020-09-24 | Sony Corporation | Reinforcement learning through a double actor critic algorithm |
CN111130053A (zh) * | 2020-01-08 | 2020-05-08 | 华南理工大学 | 一种基于深度强化学习的配电网过流保护方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
CN111861648A (zh) * | 2020-07-06 | 2020-10-30 | 南京大学 | 基于模拟训练的价格谈判策略模型学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113239634A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991027A (zh) | 一种基于虚拟场景训练的机器人模仿学习方法 | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
Zheng et al. | Synthetic dynamic PMU data generation: A generative adversarial network approach | |
CN111856925B (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
Luitel et al. | Decentralized asynchronous learning in cellular neural networks | |
Ahlgren et al. | Facebook’s cyber–cyber and cyber–physical digital twins | |
CN112434791A (zh) | 多智能体强对抗仿真方法、装置及电子设备 | |
Raina et al. | Design strategy transfer in cognitively-inspired agents | |
CN111282272A (zh) | 信息处理方法、计算机可读介质及电子设备 | |
CN114290339A (zh) | 基于强化学习和残差建模的机器人现实迁移系统和方法 | |
Liu et al. | Softgpt: Learn goal-oriented soft object manipulation skills by generative pre-trained heterogeneous graph transformer | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN113239634B (zh) | 一种基于鲁棒模仿学习的模拟器建模方法 | |
Junges et al. | Evolution for modeling: a genetic programming framework for sesam | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
Yanpeng | Hybrid kernel extreme learning machine for evaluation of athletes' competitive ability based on particle swarm optimization | |
Montana et al. | Towards a unified framework for learning from observation | |
CN115797517B (zh) | 虚拟模型的数据处理方法、装置、设备和介质 | |
Louloudi et al. | Immersive face validation: A new validation technique for agent-based simulation | |
Dinerstein et al. | Learning policies for embodied virtual agents through demonstration | |
Madeiro et al. | Gradient-based algorithms for the automatic construction of fuzzy cognitive maps | |
CN115205072A (zh) | 一种面向长周期测评的认知诊断方法 | |
Zuviria et al. | SAPM: ANFIS based prediction of student academic performance metric | |
Wang | Enhancing Badminton Player Performance via a Closed-Loop AI Approach: Imitation, Simulation, Optimization, and Execution | |
Everett | Strategically training and evaluating agents in procedurally generated environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |