CN111950690A - 一种具有自适应能力的高效强化学习策略模型 - Google Patents
一种具有自适应能力的高效强化学习策略模型 Download PDFInfo
- Publication number
- CN111950690A CN111950690A CN201910410197.9A CN201910410197A CN111950690A CN 111950690 A CN111950690 A CN 111950690A CN 201910410197 A CN201910410197 A CN 201910410197A CN 111950690 A CN111950690 A CN 111950690A
- Authority
- CN
- China
- Prior art keywords
- strategy
- self
- model
- learning
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000007613 environmental effect Effects 0.000 claims abstract description 8
- 230000008447 perception Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
在传统的策略搜索强化学习方法中,为了快速得到有效的策略,策略模型一般都是为特定任务专门设定的低维空间策略模型,而这种策略模型在实际应用表现力十分有限,泛化能力差,很难适应其他的任务。根据以上问题,本发明提出一种具有自适应能力的高效强化学习策略模型,所提出的策略模型以感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入。这种策略所建立的策略模型具有较高的泛化能力,即使任务发生了细微变化,智能体仍然能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。
Description
技术领域
本发明涉及机器学习领域,更具体说是涉及一种具有自适应能力的高效强化学习策略模型
背景技术
深度强化学习通过端对端的学习方式实现从输入到输出的直接控制,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题,它为整个社会实现真正智能化提供了有力技术支撑,成为当前备受关注的研究热点。现有深度强化学习方法面对给定的任务可以在训练环境中表现极好,但是往往不能泛化到环境中看似微小的变化。
原则上,一个鲁棒而高性能的学习系统原则上应该能处理任何任务,或是快速适应到新的环境或任务中去。强化学习的泛化能力与其他学习类型有所不同,主要区别在于要求学成的策略在无需额外学习的情况下能够迁移地应用到其他领域中。如,一个智能体经过训练能在平稳地段直立行走,如果它具有泛化能力或知识迁移能力,在崎岖不平的地形上,它依然能够平稳行走。当前认知传感技术已经变得更好,而深度强化学习的泛化能力还不足以处理多样的任务集合,难以实现通用人工智能的最终目标。所以,模型的泛化问题是深度强化学习领域亟待解决的另一个重要问题。
因此,本发明提出一种具有自适应能力的高效强化学习策略模型,该模型的建立,使得智能体在应对发生变化的任务时,可以根据自身对未来的预测,自适应性地对策略进行调整,从而较为有效地解决策略模型的泛化问题。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种具有自适应能力的高效强化学习策略模型。
本发明解决技术问题所采用的技术方案是:
为了能够在强化学习领域高效训练出可自适应到新的环境及任务上的策略模型,本发明拟在表达能力极强的环境模型及动作模型的基础上,提出以感知状态在潜在空间中的低维表示及智能体对自身行动所引发环境变化的预测作为策略的输入,在动作表示的潜在空间构建小规模的策略模型,从而可以快速高效得到更具泛化能力,更可解释的策略模型,如附图所示。具体地,执行策略所需的输入,即感知状态的低维表示及智能体对自身行动所引发环境变化的预测,策略的输出是执行动作的概率。对于状态的潜在表示,利用变分自编码器采用监督学习的方式进行离线训练。对于智能体对自身行动所引发的环境变化的预测,利用递归型神经网络采用无监督学习的方式预测网络在下一个时刻自身的隐状态。
在训练中,将状态表示、智能体对自身行动所引发环境变化的预测及策略模型分开训练,使得在智能体的多数复杂度置于状态表示中,通过利用状态的潜在表示,使策略学习聚焦于小搜索空间,只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略,从而提高策略的学习效率。在环境预测信息的协助下,即使任务发生了细微变化,智能体能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图为本发明提供的一种具有自适应能力的高效强化学习策略模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种具有自适应能力的高效强化学习策略。具体地,以感知状态在潜在空间的低维表示及智能体对自身行动所引发环境变化的隐状态预测作为策略的输入,以此扩展出得到一个学习效率高、样本利用率高、具有自适应能力、泛化性能强的策略模型。
如附图所示,该模型首先将从环境模型中训练得到感知状态的低维表示zt及智能体对自身行动所引发环境变化的预测ht,将它们作为模型的输入,然后让输入经过一个神经网络进行处理,最后得到一个动作的输出at。
在本发明的实施过程中,将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP),它可以用一个元组来表示(S,A,PT,PI,r,γ):其中S表示连续的状态空间,A为连续的动作空间,PT(st+1|st,at)表示在当前状态st下采取动作at后转移到下一个状态st+1的状态转移概率密度函数,PI(s1)为智能体的初始状态概率密度函数,r(st,at,st+1)表示智能体因采取动作而发生状态转移的立即回报,γ∈[0,1]为折损因子。具体过程为:智能体在当前感知的状态st下,根据策略函数πθ选择动作at∈A,然后转移到状态st+1,并接收到一个立即回报r(st,at,st+1)。策略函数为在当前状态st和策略函数下采取动作at的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本,得到一个路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT,其中T表示该路径的长度。该路径的累计回报表示为
环境在每一时间步上为智能体提供一个高维输入观测,这个观测状态可以是一个多模态的变量,表示为假设实施例中面对的是机器人的只能控制问题,机器人的任务是控制虚拟环境中的倒立摆,这里通过多个传感器得到的原始状态信息为机器人的视觉观测ot、各个关节的角度xt、各个关节的角速度对于视觉型变量ot我们利用卷积神经网络来表示,而关于智能体内部状态的其他实数型的状态变量则通过一般的多层网络构建,最终将多个网络整合为变分自编码器(VAE)中的编码器,VAE的任务就是学习每个观测状态的抽象表示,即编码器的输出就是该深度网络所表达的状态变量zt。我们将描述状态的编码器网络记为VAE(st)。利用递归型神经网络建模预测模型,此模型可预测下一个时刻表示模型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自身的隐状态ht+1,鉴于复杂环境的随机性及动态性,我们训练递归型神经网络(RNN)以输出一个概率密度函数p(zt+1|at,ht,zt),而不是一个确定性预测zt+1。
对于整个网络,本研究拟采用无监督学习的方式进行离线训练。通过利用状态的潜在表示,使策略学习聚焦于小搜索空间,提高策略的学习效率。智能体能够根据自身对未来的预测,使得即使任务发生了细微变化,可以根据预测进行自适应地调整策略,从而提高策略的泛化能力。
Claims (3)
1.一种具有自适应能力的高效强化学习策略模型,其模型将感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入,将产生的动作作为策略的输出。其特征在于,感知状态的低维表示将策略学习聚焦于小搜索空间,只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略;智能体对自身行动所引发的环境变化的预测使得即使任务及环境发生了细微变化,智能体仍然能够根据自身对未来的预测进行自适应地调整策略,从而得到一个学习效率高、样本利用率高、具有自适应能力、泛化性能强的策略模型。
2.根据权利要求1所述的高效策略模型,其特征在于,在状态的潜在空间建立模型,利用状态的潜在表示,使策略学习聚焦于小搜索空间;对于状态的潜在表示,利用变分自编码器采用监督学习的方式进行离线训练。
在此基础上,只需要少量真实样本的在线学习就可以得到适用于当前环境及任务的策略,从而达到提高策略的学习效率的目的。
3.根据权利要求1所述的策略模型,其特征在于,利用递归型神经网络预测网络在下一个时刻自身的隐状态作为智能体对自身行动所引发的环境变化的预测。
在自身状态预测信息的协助下,智能体在应对发生变化的任务时,可以根据自身对未来的预测,自适应性地对策略进行调整,从而得到泛化能力强的策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910410197.9A CN111950690A (zh) | 2019-05-15 | 2019-05-15 | 一种具有自适应能力的高效强化学习策略模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910410197.9A CN111950690A (zh) | 2019-05-15 | 2019-05-15 | 一种具有自适应能力的高效强化学习策略模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950690A true CN111950690A (zh) | 2020-11-17 |
Family
ID=73336704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910410197.9A Pending CN111950690A (zh) | 2019-05-15 | 2019-05-15 | 一种具有自适应能力的高效强化学习策略模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950690A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113156900A (zh) * | 2021-03-30 | 2021-07-23 | 南京航空航天大学 | 一种基于元强化学习的加工变形控制方法 |
CN114625091A (zh) * | 2022-03-21 | 2022-06-14 | 京东城市(北京)数字科技有限公司 | 一种优化控制方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241213A (zh) * | 2017-04-28 | 2017-10-10 | 东南大学 | 一种基于深度强化学习的Web服务组合方法 |
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN109359733A (zh) * | 2018-10-19 | 2019-02-19 | 中国石油大学(华东) | 一种基于变分自编码器的动态系统运行状态建模方法 |
CN109663359A (zh) * | 2018-12-06 | 2019-04-23 | 广州多益网络股份有限公司 | 游戏智能体训练的优化方法、装置、终端设备与存储介质 |
-
2019
- 2019-05-15 CN CN201910410197.9A patent/CN111950690A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241213A (zh) * | 2017-04-28 | 2017-10-10 | 东南大学 | 一种基于深度强化学习的Web服务组合方法 |
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN109359733A (zh) * | 2018-10-19 | 2019-02-19 | 中国石油大学(华东) | 一种基于变分自编码器的动态系统运行状态建模方法 |
CN109663359A (zh) * | 2018-12-06 | 2019-04-23 | 广州多益网络股份有限公司 | 游戏智能体训练的优化方法、装置、终端设备与存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113156900A (zh) * | 2021-03-30 | 2021-07-23 | 南京航空航天大学 | 一种基于元强化学习的加工变形控制方法 |
CN113156900B (zh) * | 2021-03-30 | 2022-06-28 | 南京航空航天大学 | 一种基于元强化学习的加工变形控制方法 |
CN114625091A (zh) * | 2022-03-21 | 2022-06-14 | 京东城市(北京)数字科技有限公司 | 一种优化控制方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Hierarchical deep reinforcement learning for continuous action control | |
Qiang et al. | Reinforcement learning model, algorithms and its application | |
Tzafestas | Methods and applications of intelligent control | |
CN111950722A (zh) | 一种基于环境预测模型的强化学习方法 | |
CN113341706B (zh) | 基于深度强化学习的人机协作流水线系统 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
CN116848532A (zh) | 具有短期记忆单元的注意力神经网络 | |
CN112381237A (zh) | 基于岸海协同的水面无人系统的持续自主学习架构系统 | |
CN114660934B (zh) | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 | |
Liu et al. | Neural network control system of cooperative robot based on genetic algorithms | |
Liu et al. | A human-simulated fuzzy membrane approach for the joint controller of walking biped robots | |
Liang et al. | Research on chemical process optimization based on artificial neural network algorithm | |
Stein et al. | Reflective learning classifier systems for self-adaptive and self-organising agents | |
Arie et al. | Creating novel goal-directed actions at criticality: A neuro-robotic experiment | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
Gawali et al. | Development of improved coyote optimization with deep neural network for intelligent skill knowledge transfer for human to robot interaction | |
Tsai et al. | Advances and challenges on intelligent learning in control systems | |
Moshiri et al. | Application of fuzzy sliding mode based on genetic algorithms to control of robotic manipulators | |
Darvish et al. | Simultaneous action recognition and human whole-body motion and dynamics prediction from wearable sensors | |
Noureddine et al. | Towards an Agent-Based Architecture using Deep Reinforcement Learning for Intelligent Internet of Things Applications. pdf | |
Suzuki et al. | Deep predictive learning: Motion learning concept inspired by cognitive robotics | |
Marzi et al. | Feudal graph reinforcement learning | |
Gao | Soft computing methods for control and instrumentation | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |