CN111950690A - 一种具有自适应能力的高效强化学习策略模型 - Google Patents

一种具有自适应能力的高效强化学习策略模型 Download PDF

Info

Publication number
CN111950690A
CN111950690A CN201910410197.9A CN201910410197A CN111950690A CN 111950690 A CN111950690 A CN 111950690A CN 201910410197 A CN201910410197 A CN 201910410197A CN 111950690 A CN111950690 A CN 111950690A
Authority
CN
China
Prior art keywords
strategy
self
model
learning
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910410197.9A
Other languages
English (en)
Inventor
赵婷婷
韩雅杰
杨巨成
陈亚瑞
任德华
王嫄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN201910410197.9A priority Critical patent/CN111950690A/zh
Publication of CN111950690A publication Critical patent/CN111950690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在传统的策略搜索强化学习方法中,为了快速得到有效的策略,策略模型一般都是为特定任务专门设定的低维空间策略模型,而这种策略模型在实际应用表现力十分有限,泛化能力差,很难适应其他的任务。根据以上问题,本发明提出一种具有自适应能力的高效强化学习策略模型,所提出的策略模型以感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入。这种策略所建立的策略模型具有较高的泛化能力,即使任务发生了细微变化,智能体仍然能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。

Description

一种具有自适应能力的高效强化学习策略模型
技术领域
本发明涉及机器学习领域,更具体说是涉及一种具有自适应能力的高效强化学习策略模型
背景技术
深度强化学习通过端对端的学习方式实现从输入到输出的直接控制,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题,它为整个社会实现真正智能化提供了有力技术支撑,成为当前备受关注的研究热点。现有深度强化学习方法面对给定的任务可以在训练环境中表现极好,但是往往不能泛化到环境中看似微小的变化。
原则上,一个鲁棒而高性能的学习系统原则上应该能处理任何任务,或是快速适应到新的环境或任务中去。强化学习的泛化能力与其他学习类型有所不同,主要区别在于要求学成的策略在无需额外学习的情况下能够迁移地应用到其他领域中。如,一个智能体经过训练能在平稳地段直立行走,如果它具有泛化能力或知识迁移能力,在崎岖不平的地形上,它依然能够平稳行走。当前认知传感技术已经变得更好,而深度强化学习的泛化能力还不足以处理多样的任务集合,难以实现通用人工智能的最终目标。所以,模型的泛化问题是深度强化学习领域亟待解决的另一个重要问题。
因此,本发明提出一种具有自适应能力的高效强化学习策略模型,该模型的建立,使得智能体在应对发生变化的任务时,可以根据自身对未来的预测,自适应性地对策略进行调整,从而较为有效地解决策略模型的泛化问题。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种具有自适应能力的高效强化学习策略模型。
本发明解决技术问题所采用的技术方案是:
为了能够在强化学习领域高效训练出可自适应到新的环境及任务上的策略模型,本发明拟在表达能力极强的环境模型及动作模型的基础上,提出以感知状态在潜在空间中的低维表示及智能体对自身行动所引发环境变化的预测作为策略的输入,在动作表示的潜在空间构建小规模的策略模型,从而可以快速高效得到更具泛化能力,更可解释的策略模型,如附图所示。具体地,执行策略所需的输入,即感知状态的低维表示及智能体对自身行动所引发环境变化的预测,策略的输出是执行动作的概率。对于状态的潜在表示,利用变分自编码器采用监督学习的方式进行离线训练。对于智能体对自身行动所引发的环境变化的预测,利用递归型神经网络采用无监督学习的方式预测网络在下一个时刻自身的隐状态。
在训练中,将状态表示、智能体对自身行动所引发环境变化的预测及策略模型分开训练,使得在智能体的多数复杂度置于状态表示中,通过利用状态的潜在表示,使策略学习聚焦于小搜索空间,只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略,从而提高策略的学习效率。在环境预测信息的协助下,即使任务发生了细微变化,智能体能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图为本发明提供的一种具有自适应能力的高效强化学习策略模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种具有自适应能力的高效强化学习策略。具体地,以感知状态在潜在空间的低维表示及智能体对自身行动所引发环境变化的隐状态预测作为策略的输入,以此扩展出得到一个学习效率高、样本利用率高、具有自适应能力、泛化性能强的策略模型。
如附图所示,该模型首先将从环境模型中训练得到感知状态的低维表示zt及智能体对自身行动所引发环境变化的预测ht,将它们作为模型的输入,然后让输入经过一个神经网络进行处理,最后得到一个动作的输出at
在本发明的实施过程中,将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP),它可以用一个元组来表示(S,A,PT,PI,r,γ):其中S表示连续的状态空间,A为连续的动作空间,PT(st+1|st,at)表示在当前状态st下采取动作at后转移到下一个状态st+1的状态转移概率密度函数,PI(s1)为智能体的初始状态概率密度函数,r(st,at,st+1)表示智能体因采取动作而发生状态转移的立即回报,γ∈[0,1]为折损因子。具体过程为:智能体在当前感知的状态st下,根据策略函数πθ选择动作at∈A,然后转移到状态st+1,并接收到一个立即回报r(st,at,st+1)。策略函数为在当前状态st和策略函数下采取动作at的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本,得到一个路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT,其中T表示该路径的长度。该路径的累计回报表示为
Figure BSA0000183208910000041
环境在每一时间步上为智能体提供一个高维输入观测,这个观测状态可以是一个多模态的变量,表示为
Figure BSA0000183208910000042
假设实施例中面对的是机器人的只能控制问题,机器人的任务是控制虚拟环境中的倒立摆,这里通过多个传感器得到的原始状态信息为机器人的视觉观测ot、各个关节的角度xt、各个关节的角速度
Figure BSA0000183208910000043
对于视觉型变量ot我们利用卷积神经网络来表示,而关于智能体内部状态的其他实数型的状态变量
Figure BSA0000183208910000044
则通过一般的多层网络构建,最终将多个网络整合为变分自编码器(VAE)中的编码器,VAE的任务就是学习每个观测状态的抽象表示,即编码器的输出就是该深度网络所表达的状态变量zt。我们将描述状态的编码器网络记为VAE(st)。利用递归型神经网络建模预测模型,此模型可预测下一个时刻表示模型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自身的隐状态ht+1,鉴于复杂环境的随机性及动态性,我们训练递归型神经网络(RNN)以输出一个概率密度函数p(zt+1|at,ht,zt),而不是一个确定性预测zt+1
对于整个网络,本研究拟采用无监督学习的方式进行离线训练。通过利用状态的潜在表示,使策略学习聚焦于小搜索空间,提高策略的学习效率。智能体能够根据自身对未来的预测,使得即使任务发生了细微变化,可以根据预测进行自适应地调整策略,从而提高策略的泛化能力。

Claims (3)

1.一种具有自适应能力的高效强化学习策略模型,其模型将感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入,将产生的动作作为策略的输出。其特征在于,感知状态的低维表示将策略学习聚焦于小搜索空间,只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略;智能体对自身行动所引发的环境变化的预测使得即使任务及环境发生了细微变化,智能体仍然能够根据自身对未来的预测进行自适应地调整策略,从而得到一个学习效率高、样本利用率高、具有自适应能力、泛化性能强的策略模型。
2.根据权利要求1所述的高效策略模型,其特征在于,在状态的潜在空间建立模型,利用状态的潜在表示,使策略学习聚焦于小搜索空间;对于状态的潜在表示,利用变分自编码器采用监督学习的方式进行离线训练。
在此基础上,只需要少量真实样本的在线学习就可以得到适用于当前环境及任务的策略,从而达到提高策略的学习效率的目的。
3.根据权利要求1所述的策略模型,其特征在于,利用递归型神经网络预测网络在下一个时刻自身的隐状态作为智能体对自身行动所引发的环境变化的预测。
在自身状态预测信息的协助下,智能体在应对发生变化的任务时,可以根据自身对未来的预测,自适应性地对策略进行调整,从而得到泛化能力强的策略。
CN201910410197.9A 2019-05-15 2019-05-15 一种具有自适应能力的高效强化学习策略模型 Pending CN111950690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910410197.9A CN111950690A (zh) 2019-05-15 2019-05-15 一种具有自适应能力的高效强化学习策略模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910410197.9A CN111950690A (zh) 2019-05-15 2019-05-15 一种具有自适应能力的高效强化学习策略模型

Publications (1)

Publication Number Publication Date
CN111950690A true CN111950690A (zh) 2020-11-17

Family

ID=73336704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910410197.9A Pending CN111950690A (zh) 2019-05-15 2019-05-15 一种具有自适应能力的高效强化学习策略模型

Country Status (1)

Country Link
CN (1) CN111950690A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113156900A (zh) * 2021-03-30 2021-07-23 南京航空航天大学 一种基于元强化学习的加工变形控制方法
CN114625091A (zh) * 2022-03-21 2022-06-14 京东城市(北京)数字科技有限公司 一种优化控制方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241213A (zh) * 2017-04-28 2017-10-10 东南大学 一种基于深度强化学习的Web服务组合方法
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN109359733A (zh) * 2018-10-19 2019-02-19 中国石油大学(华东) 一种基于变分自编码器的动态系统运行状态建模方法
CN109663359A (zh) * 2018-12-06 2019-04-23 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241213A (zh) * 2017-04-28 2017-10-10 东南大学 一种基于深度强化学习的Web服务组合方法
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN109359733A (zh) * 2018-10-19 2019-02-19 中国石油大学(华东) 一种基于变分自编码器的动态系统运行状态建模方法
CN109663359A (zh) * 2018-12-06 2019-04-23 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113156900A (zh) * 2021-03-30 2021-07-23 南京航空航天大学 一种基于元强化学习的加工变形控制方法
CN113156900B (zh) * 2021-03-30 2022-06-28 南京航空航天大学 一种基于元强化学习的加工变形控制方法
CN114625091A (zh) * 2022-03-21 2022-06-14 京东城市(北京)数字科技有限公司 一种优化控制方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
Yang et al. Hierarchical deep reinforcement learning for continuous action control
Qiang et al. Reinforcement learning model, algorithms and its application
Tzafestas Methods and applications of intelligent control
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
CN113341706B (zh) 基于深度强化学习的人机协作流水线系统
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN111950690A (zh) 一种具有自适应能力的高效强化学习策略模型
CN116848532A (zh) 具有短期记忆单元的注意力神经网络
CN112381237A (zh) 基于岸海协同的水面无人系统的持续自主学习架构系统
CN114660934B (zh) 一种基于视觉-触觉融合的机械臂自主操作策略学习方法
Liu et al. Neural network control system of cooperative robot based on genetic algorithms
Liu et al. A human-simulated fuzzy membrane approach for the joint controller of walking biped robots
Liang et al. Research on chemical process optimization based on artificial neural network algorithm
Stein et al. Reflective learning classifier systems for self-adaptive and self-organising agents
Arie et al. Creating novel goal-directed actions at criticality: A neuro-robotic experiment
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
Gawali et al. Development of improved coyote optimization with deep neural network for intelligent skill knowledge transfer for human to robot interaction
Tsai et al. Advances and challenges on intelligent learning in control systems
Moshiri et al. Application of fuzzy sliding mode based on genetic algorithms to control of robotic manipulators
Darvish et al. Simultaneous action recognition and human whole-body motion and dynamics prediction from wearable sensors
Noureddine et al. Towards an Agent-Based Architecture using Deep Reinforcement Learning for Intelligent Internet of Things Applications. pdf
Suzuki et al. Deep predictive learning: Motion learning concept inspired by cognitive robotics
Marzi et al. Feudal graph reinforcement learning
Gao Soft computing methods for control and instrumentation
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination