CN113239634B - 一种基于鲁棒模仿学习的模拟器建模方法 - Google Patents

一种基于鲁棒模仿学习的模拟器建模方法 Download PDF

Info

Publication number
CN113239634B
CN113239634B CN202110654854.1A CN202110654854A CN113239634B CN 113239634 B CN113239634 B CN 113239634B CN 202110654854 A CN202110654854 A CN 202110654854A CN 113239634 B CN113239634 B CN 113239634B
Authority
CN
China
Prior art keywords
robot
simulator
strategy
behavior
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110654854.1A
Other languages
English (en)
Other versions
CN113239634A (zh
Inventor
杨正宇
张伟楠
丁宁
俞勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110654854.1A priority Critical patent/CN113239634B/zh
Publication of CN113239634A publication Critical patent/CN113239634A/zh
Application granted granted Critical
Publication of CN113239634B publication Critical patent/CN113239634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于鲁棒模仿学习的模拟器建模方法,涉及强化学习领域,包括以下步骤:从策略分布
Figure DDA0003113370120000011
中采样出训练策略集合Π和测试策略集合Π′;令训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(πp*);每k步进行一次策略筛选;令策略π与学习到的模拟器
Figure DDA0003113370120000012
进行交互,并计算价值差异VD,以衡量模拟器
Figure DDA0003113370120000013
在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc;从Bc中采样数据,并利用Πc中的策略与当前模拟器
Figure DDA0003113370120000014
交互以收集数据Dp,用以优化生成对抗模仿学习中的判别器Dω,以及用以优化生成对抗模仿学习中的生成器
Figure DDA0003113370120000015
重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。

Description

一种基于鲁棒模仿学习的模拟器建模方法
技术领域
本发明涉及强化学习领域,尤其涉及一种基于鲁棒模仿学习的模拟器建模方法。
背景技术
模拟器建模是强化学习中的一个重要方向,其指的是对环境的动态转移进行建模。目前而言,模拟器建模的方法主要可以分为基于规则的方法和基于学习的方法。针对于复杂的真实场景,基于规则的方法难以正确并且全面地提取出该环境的所有规则,故而使得这些方法在很多场景下会得到糟糕的结果。随着可用数据的增多,近些年来在模拟器建模场景中,基于学习的方法得到了更多的关注。然而目前所有基于学习的方法都没考虑学习到的模拟器的鲁棒性,故而其学得的模拟器可能会在很多情形下给出极不准确的仿真结果。
近期来,专家和学者主要聚焦于如何利用机器学习的方法来建模模拟器,具体的,目前主要利用模仿学习的方式来对模拟器进行建模。Guanjie Zheng等在InternationalConference on Data Engineering(数据工程国际会议)会议(2020年36届)上发表了“Learning to simulate vehicle trajectories from demonstrations”(《通过演示学习模拟车辆的轨迹》),该文章提出利用生成对抗模拟学习来从已经收集到的车辆行驶数据中学习车辆的行为,即学习一个模拟器去模拟真实车辆的行为。
Jingcheng Shi等在AAAI Conference on Artificial Intelligence(美国人工智能协会人工智能会议)会议(2019年33届)上发表了“Virtual-Taobao:VirtualizingReal-World Online Retail Environment for Reinforcement Learning”(《虚拟淘宝:虚拟现实世界的在线零售环境以进行强化学习》)。该方法将用户和平台的交互建模为一个多智能体系统,并利用多智能体版本的生成对抗模拟学习同时学习用户和平台的行为。考虑到已收集的数据未必包含了全部信息,Wenjie Shang等在ACM Knowledge Discovery andData Mining(计算机协会知识发现与数据挖掘)会议(2019年25届)上发表了“EnvironmentReconstruction with Hidden Confounders for Reinforcement Learning basedRecommendation”(《基于强化学习的推荐下的含有隐藏混杂因素的环境重建》),该方法仍旧将用户和平台的交互建模为一个多智能体系统,同时考虑到数据中未包含的一些隐藏信息,又在多智能体系统中引入了一个新的角色以建模这些隐藏信息,进而同时学习这三者的行为。
对国内外相关研究可得出以下结论:目前在模拟器建模的领域中,所有基于学习的方法都未将学得的模拟器的鲁棒性考虑在内。然而一个好的模拟器,其应该是能够为不同的策略提供稳定的仿真,即使在各种边缘案例中也能提供不错的仿真效果。
因此,本领域的技术人员致力于开发一种基于鲁棒模仿学习的模拟器建模方法,以实现稳定的仿真。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何将模拟器的鲁棒性纳入模拟器建模的过程中去。
为实现上述目的,本发明提供了一种基于鲁棒模仿学习的模拟器建模方法,包括以下步骤:
步骤1、从策略分布
Figure BDA0003113370100000021
中采样出训练策略集合Π和测试策略集合Π′;
步骤2、令所述训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(π,p*)};
其中s代表状态,a代表动作,s’代表真实环境p*在给定s,a的前提下会转变到的状态,所有策略收集到的数据集合记为B={Bπ|π∈Π};
步骤3、每k步进行一次策略筛选;令所述训练策略集合Π中的策略π与学习到的模拟器
Figure BDA0003113370100000022
进行交互,并计算价值差异VD,以衡量模拟器
Figure BDA0003113370100000023
在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc={Bπ|π∈Πc};
其中模拟器
Figure BDA0003113370100000024
以动作状态对(s,a)作为输入,并输出对于接下来的状态的预测,即可以将模拟器看作为一个假的环境。
步骤4、从Bc中采样数据,并利用Πc中的策略与当前模拟器
Figure BDA0003113370100000025
交互以收集数据,收集到的数据记为
Figure BDA0003113370100000026
用以优化生成对抗模仿学习中的判别器Dω
其中s代表状态,a代表动作,s’代表
Figure BDA0003113370100000027
在给定s,a为输入的前提下的输出。
步骤5、从Dp中采样数据,并利用判别器Dω提供相应的奖励,进而用以优化生成对抗模仿学习中的生成器(即模拟器)
Figure BDA0003113370100000028
步骤6、重复步骤3-5直到重复次数达到事先设定的阈值。
进一步地,在策略筛选时采用所述价值差异VD作为指标,所述价值差异VD为:
Figure BDA0003113370100000029
其中V(p,π)指的是策略π在真实环境或者是模拟器p上所获得的累积奖励,VD的值越大,代表模拟器
Figure BDA00031133701000000210
在策略π上表现越差。
进一步地,所述判别器Dω根据Bc与Dp中的数据进行判别器优化,而且判别器Dω以状态转移对(s,a,s′)作为输入,并输出一个实数。
进一步地,所述判别器优化的损失函数为:
Figure BDA00031133701000000211
其中p*
Figure BDA00031133701000000212
分别代表真实环境和模拟器,|Πc|代表集合Πc中策略的数目,πi代表集合|Πc|中的第i个元素,Dω(s,a,s′)代表了判别器对于状态转移对(s,a,s′)的输出。
进一步地,所述模拟器
Figure BDA0003113370100000031
根据Dp中的数据进行模拟器优化。
进一步地,所述模拟器优化包括以下步骤:
利用所述判别器Dω生成状态转移对(s,a,s′)相应的奖励r;
采用强化学习中的演员-评论家算法对所述模拟器
Figure BDA0003113370100000032
进行优化。
进一步地,所述演员-评论家算法中包含模拟器
Figure BDA0003113370100000033
和评论家qμ两部分,模拟器
Figure BDA0003113370100000034
即为演员;相应优化的损失函数包括:
Figure BDA0003113370100000035
Figure BDA0003113370100000036
Figure BDA0003113370100000037
其中,L(μ)是优化所述评论家qμ时的参数μ的损失函数,y代表了qμ(s,a,s′)对应的优化目标,y中的a′是从策略π在以状态s′为输入时采样而得,y中的s″是从所述模拟器
Figure BDA0003113370100000038
在以动作状态对(s′,a′)为输入时采样而得,y中的
Figure BDA0003113370100000039
是目标评论家网络,每隔d步,
Figure BDA00031133701000000310
和qu同步一次,即将
Figure BDA00031133701000000311
设置为和qu一致;γ是折旧因子,
Figure BDA00031133701000000312
是优化所述模拟器
Figure BDA00031133701000000313
时的参数
Figure BDA00031133701000000314
的损失函数。
进一步地,所述方法每次选择模拟器预测得最差的策略所对应的数据来对模拟器进行优化。
进一步地,所述方法通过生成对抗模仿学习方法来对模拟器进行优化。
进一步地,所述方法在数据收集完成后不再需要与真实环境进行交互。
与现有技术相比,本发明的有益技术效果在于:
(1)本发明中利用生成对抗模仿学习来学习模拟器,充分利用了数据集的分布信息,并且缓解了累计误差。
(2)本发明中采用了在目前模拟器上表现最差的一部分策略所对应的数据来对生成器
Figure BDA00031133701000000315
和判别器Dω进行优化,从而提高了模拟器在策略集合
Figure BDA00031133701000000316
上的表现的下界,使得学到的模型具有更强的鲁棒性。
(3)本发明是一种完全离线的方法,在初始数据收集完成之后,本发明再不要求能够与真实环境进行交互。
(4)实践证明,本发明相对于其他的模拟器建模方法在策略微调,策略评估等下游任务上具有更好的最差表现,这体现了本发明能够学得更具鲁棒性的模型。
(5)实践证明,在平均表现上,本发明也能够取得更好的效果。这说明本发明能够在不损伤模拟器平均表现的前提下为模型带来鲁棒性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的方法流程示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示为本发明所提的一种基于鲁棒模仿学习的模拟器建模方法的流程示意图。在该实施例中,假设在利用判别器Dω的输出来优化模拟器
Figure BDA0003113370100000041
时使用的强化学习算法为演员-评论家算法。本发明实施例将方法应用于模拟机器人行为的场景中。具体步骤如下:
步骤1、利用强化学习算法在对应的机器人环境中训练策略,在训练过程中定时采样当前的策略,最终组成策略分布
Figure BDA0003113370100000042
从策略分布
Figure BDA0003113370100000043
中采样出训练策略集合Π和测试策略集合Π′,并利用训练策略集合Π的策略π与真实环境p*进行交互以获得真实数据集合Bπ={(s,a,s′)~(π,p*)},其中s代表状态,a代表动作,s’代表真实环境在给定s,a的前提下会转变到的状态,所有策略收集到的数据集合记为B={Bπ|π∈Π}。若是已经有收集好的策略及相应的数据,则直接在相应数据上采样B即可。
步骤2、初始化模拟器
Figure BDA0003113370100000044
判别器Dω,演员-评论家算法中的评论家网络qμ
步骤3、对于经历中的每一个步骤t:
(1)如果t%k==0,为训练策略集合Π中的每个策略计算价值差异VD。并选择其中值最大的∈%策略组成集合Πc,并得到对应于这些策略的数据:
Bc={Bπ|π∈Πc}。
(2)从集合Πc中采样一个策略π,并利用该策略与当前学得的模拟器
Figure BDA0003113370100000045
进行交互,以收集数据,记为Dp
(3)利用Bπ和Dp中的数据对判别器Dω进行优化,相应的损失函数为:
Figure BDA0003113370100000046
其中p*
Figure BDA0003113370100000047
分别代表真实环境和模拟器,|Πc|代表集合Πc中策略的数目,πi代表集合|Πc|中的第i个元素,Dω(s,a,s′)代表了判别器对于状态转移对(s,a,s′)的输出。
将步骤(3)重复进行5次。
(4)利用Dp中的数据以及Dω计算出的奖励r对模拟器
Figure BDA0003113370100000051
进行优化,当采用演员-评论家算法时,其中优化演员(即模拟器)
Figure BDA0003113370100000052
和评论家qμ损失函数为:
Figure BDA0003113370100000053
Figure BDA0003113370100000054
Figure BDA0003113370100000055
其中,L(μ)是优化评论家qμ时的参数μ的损失函数,y代表了qμ(s,a,s′)对应的优化目标,y中的a′是从策略π在以状态s′为输入时采样而得,y中的s″是从所述模拟器
Figure BDA0003113370100000056
在以动作状态对(s′,a′)为输入时采样而得,y中的
Figure BDA0003113370100000057
是目标评论家网络,每隔d步,
Figure BDA0003113370100000058
和qμ同步一次,即将
Figure BDA0003113370100000059
设置为和qμ一致;γ是折旧因子,
Figure BDA00031133701000000510
是优化模拟器
Figure BDA00031133701000000511
时的参数
Figure BDA00031133701000000512
的损失函数。
(5)当t>T,结束算法。
在模拟机器人行为这一场景下,本方法通过将模型的鲁棒性纳入模拟器学习的过程中,相对于已有的方法能够学习出一个更为鲁棒的模拟器。实践中,将最终学习到的模拟器
Figure BDA00031133701000000513
用于微调测试策略集合Π′的策略以及评估测试策略集合Π′中各个策略的表现。最终结果表明,针对于策略集合Π′中的所有策略,当利用学习到的模拟器
Figure BDA00031133701000000514
与策略进行交互以收集数据进而利用这些数据对策略进行提升时,本方法能够获得最高的最低提升,即所有策略上的提升值的最小值是最大的,这充分说明了本方法学得的模拟器具有较强的鲁棒性,能够为不同的策略提供稳定的仿真。同时,在利用所有策略上的提升值的平均值进行衡量时,本方法相对于以前的模拟器建模的方法依旧能够取得更好的结果。这说明本方法能够在不损害模拟器平均表现的前提下赋予模拟器更强的鲁棒性。在对策略进行评估的任务上,本方法相对于以前的模拟器建模的方法也取得更好的结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,包括以下步骤:
步骤1、从机器人策略分布
Figure FDA0003842519080000011
中采样出训练机器人策略集合Π和测试机器人策略集合Π′;
步骤2、令所述训练机器人策略集合Π的机器人策略π与真实机器人p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(π,p*)};
其中s代表状态,a代表动作,s’代表真实机器人p*在给定s,a的前提下会转变到的状态,所有机器人策略收集到的数据集合记为B={Bπ|π∈Π};
步骤3、每k步进行一次机器人策略筛选;令所述训练机器人策略集合Π中的机器人策略π与学习到的模仿机器人行为的模拟器
Figure FDA0003842519080000012
进行交互,并计算价值差异VD,以衡量模仿机器人行为的模拟器
Figure FDA0003842519080000013
在机器人策略π下的表现;选取其中表现最差的机器人策略构成集合Πc,其对应的数据集记为Bc={Bπ|π∈Πc};
其中模仿机器人行为的模拟器
Figure FDA0003842519080000014
以动作状态对(s,a)作为输入,并输出对于接下来的状态的预测,即可以将模仿机器人行为的模拟器看作为一个假的环境;
步骤4、从Bc中采样数据,并利用Πc中的机器人策略与当前模仿机器人行为的模拟器
Figure FDA0003842519080000015
交互以收集数据,收集到的数据记为
Figure FDA0003842519080000016
用以优化生成对抗模仿学习中的判别器Dω
其中s代表状态,a代表动作,s’代表
Figure FDA0003842519080000017
在给定s,a为输入的前提下的输出;
步骤5、从Dp中采样数据,并利用判别器Dω提供相应的奖励,进而用以优化生成模仿机器人行为的模拟器
Figure FDA0003842519080000018
步骤6、重复步骤3-5直到重复次数达到事先设定的阈值。
2.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,在机器人策略筛选时采用所述价值差异VD作为指标,所述价值差异VD为:
Figure FDA0003842519080000019
其中V(p,π)指的是机器人策略π在环境或者是模仿机器人行为的模拟器p上所获得的累积奖励,VD的值越大,代表模仿机器人行为的模拟器
Figure FDA00038425190800000110
在机器人策略π上表现越差。
3.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述判别器Dω根据Bc与Dp中的数据进行判别器优化,而且判别器Dω以状态转移对(s,a,s′)作为输入,并输出一个实数。
4.如权利要求3所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述判别器优化的损失函数为:
Figure FDA0003842519080000021
其中p*
Figure FDA0003842519080000022
分别代表真实机器人和模仿机器人行为的模拟器,|Πc|代表集合Πc中机器人策略的数目,πi代表集合|Πc|中的第i个元素,Dω(s,a,s′)代表了判别器对于状态转移对(s,a,s′)的输出。
5.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述模仿机器人行为的模拟器
Figure FDA0003842519080000023
根据Dp中的数据进行模仿机器人行为的模拟器优化。
6.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述模仿机器人行为的模拟器优化包括以下步骤:
利用所述判别器Dω生成状态转移对(s,a,s′)相应的奖励r;
采用强化学习中的演员-评论家算法对所述模仿机器人行为的模拟器
Figure FDA0003842519080000024
进行优化。
7.如权利要求6所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述演员-评论家算法中包含模仿机器人行为的模拟器
Figure FDA0003842519080000025
和评论家qμ两部分,模仿机器人行为的模拟器
Figure FDA0003842519080000026
即为演员;相应优化的损失函数包括:
Figure FDA0003842519080000027
Figure FDA0003842519080000028
Figure FDA0003842519080000029
其中,L(μ)是优化所述评论家qμ时的参数μ的损失函数,y代表了qμ(s,a,s′)对应的优化目标,y中的a′是从机器人策略π在以状态s′为输入时采样而得,y中的s″是从所述模仿机器人行为的模拟器
Figure FDA00038425190800000210
在以动作状态对(s′,a′)为输入时采样而得,y中的
Figure FDA00038425190800000211
是目标评论家网络,每隔d步,
Figure FDA00038425190800000212
和qμ同步一次,即将
Figure FDA00038425190800000213
设置为和qμ一致;γ是折旧因子,
Figure FDA00038425190800000214
是优化所述模仿机器人行为的模拟器
Figure FDA00038425190800000215
时的参数
Figure FDA00038425190800000216
的损失函数。
8.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述方法每次选择模仿机器人行为的模拟器预测得最差的机器人策略所对应的数据来对模仿机器人行为的模拟器进行优化。
9.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述方法通过生成对抗模仿学习方法来对模仿机器人行为的模拟器进行优化。
10.如权利要求1所述的基于鲁棒模仿学习的模仿机器人行为的模拟器建模方法,其特征在于,所述方法在数据收集完成后不再需要与真实机器人进行交互。
CN202110654854.1A 2021-06-11 2021-06-11 一种基于鲁棒模仿学习的模拟器建模方法 Active CN113239634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654854.1A CN113239634B (zh) 2021-06-11 2021-06-11 一种基于鲁棒模仿学习的模拟器建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654854.1A CN113239634B (zh) 2021-06-11 2021-06-11 一种基于鲁棒模仿学习的模拟器建模方法

Publications (2)

Publication Number Publication Date
CN113239634A CN113239634A (zh) 2021-08-10
CN113239634B true CN113239634B (zh) 2022-11-04

Family

ID=77139688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654854.1A Active CN113239634B (zh) 2021-06-11 2021-06-11 一种基于鲁棒模仿学习的模拟器建模方法

Country Status (1)

Country Link
CN (1) CN113239634B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2010252272A1 (en) * 2009-05-25 2011-12-22 Reha Technologies Gmbh Device for therapeutically treating and/or training the lower extremities of a person
CN107622311A (zh) * 2017-10-09 2018-01-23 深圳市唯特视科技有限公司 一种基于语境翻译的机器人模仿学习方法
CN108724182A (zh) * 2018-05-23 2018-11-02 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN110059100A (zh) * 2019-03-20 2019-07-26 广东工业大学 基于演员-评论家网络的sql语句构造方法
CN110390398A (zh) * 2018-04-13 2019-10-29 北京智行者科技有限公司 在线学习方法
CN111130053A (zh) * 2020-01-08 2020-05-08 华南理工大学 一种基于深度强化学习的配电网过流保护方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
WO2020190460A1 (en) * 2019-03-20 2020-09-24 Sony Corporation Reinforcement learning through a double actor critic algorithm
CN111861648A (zh) * 2020-07-06 2020-10-30 南京大学 基于模拟训练的价格谈判策略模型学习方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643320B2 (en) * 2017-11-15 2020-05-05 Toyota Research Institute, Inc. Adversarial learning of photorealistic post-processing of simulation with privileged information
US11568236B2 (en) * 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN111401556B (zh) * 2020-04-22 2023-06-30 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111950735B (zh) * 2020-06-30 2023-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN112884130A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN112802061B (zh) * 2021-03-22 2021-08-06 浙江师范大学 一种基于层次化决策网络的鲁棒目标跟踪方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2010252272A1 (en) * 2009-05-25 2011-12-22 Reha Technologies Gmbh Device for therapeutically treating and/or training the lower extremities of a person
CN107622311A (zh) * 2017-10-09 2018-01-23 深圳市唯特视科技有限公司 一种基于语境翻译的机器人模仿学习方法
CN110390398A (zh) * 2018-04-13 2019-10-29 北京智行者科技有限公司 在线学习方法
CN108724182A (zh) * 2018-05-23 2018-11-02 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN110059100A (zh) * 2019-03-20 2019-07-26 广东工业大学 基于演员-评论家网络的sql语句构造方法
WO2020190460A1 (en) * 2019-03-20 2020-09-24 Sony Corporation Reinforcement learning through a double actor critic algorithm
CN111130053A (zh) * 2020-01-08 2020-05-08 华南理工大学 一种基于深度强化学习的配电网过流保护方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111861648A (zh) * 2020-07-06 2020-10-30 南京大学 基于模拟训练的价格谈判策略模型学习方法

Also Published As

Publication number Publication date
CN113239634A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN108921298B (zh) 强化学习多智能体沟通与决策方法
Zheng et al. Synthetic dynamic PMU data generation: A generative adversarial network approach
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
Luitel et al. Decentralized asynchronous learning in cellular neural networks
Ahlgren et al. Facebook’s cyber–cyber and cyber–physical digital twins
CN112434791A (zh) 多智能体强对抗仿真方法、装置及电子设备
Raina et al. Design strategy transfer in cognitively-inspired agents
CN111282272A (zh) 信息处理方法、计算机可读介质及电子设备
CN114290339A (zh) 基于强化学习和残差建模的机器人现实迁移系统和方法
Liu et al. Softgpt: Learn goal-oriented soft object manipulation skills by generative pre-trained heterogeneous graph transformer
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN113239634B (zh) 一种基于鲁棒模仿学习的模拟器建模方法
Junges et al. Evolution for modeling: a genetic programming framework for sesam
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
Yanpeng Hybrid kernel extreme learning machine for evaluation of athletes' competitive ability based on particle swarm optimization
Montana et al. Towards a unified framework for learning from observation
CN115797517B (zh) 虚拟模型的数据处理方法、装置、设备和介质
Louloudi et al. Immersive face validation: A new validation technique for agent-based simulation
Dinerstein et al. Learning policies for embodied virtual agents through demonstration
Madeiro et al. Gradient-based algorithms for the automatic construction of fuzzy cognitive maps
CN115205072A (zh) 一种面向长周期测评的认知诊断方法
Zuviria et al. SAPM: ANFIS based prediction of student academic performance metric
Wang Enhancing Badminton Player Performance via a Closed-Loop AI Approach: Imitation, Simulation, Optimization, and Execution
Everett Strategically training and evaluating agents in procedurally generated environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant