CN111950722A - 一种基于环境预测模型的强化学习方法 - Google Patents
一种基于环境预测模型的强化学习方法 Download PDFInfo
- Publication number
- CN111950722A CN111950722A CN201910410196.4A CN201910410196A CN111950722A CN 111950722 A CN111950722 A CN 111950722A CN 201910410196 A CN201910410196 A CN 201910410196A CN 111950722 A CN111950722 A CN 111950722A
- Authority
- CN
- China
- Prior art keywords
- state
- model
- environment
- neural network
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 230000002787 reinforcement Effects 0.000 claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 20
- 230000000306 recurrent effect Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000012546 transfer Methods 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims abstract description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000006386 memory function Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 2
- 230000007704 transition Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于环境预测模型的强化学习方法,其收集环境的真实状态动作转移样本数据;构造环境表示模型即变分自编码器网络模型;训练变分自编码器网络模型直至收敛;在隐空间构建环境预测模型,该网络模型为递归神经网络模型;结合历史数据训练递归神经网络模型直至收敛,在潜在空间生成可预测未来状态的表示,并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测。本发明在深度神经网络中的变分自编码器及递归型神经网络相结合的基础上进行改良,生成虚拟环境数据训练智能体,并把从中学会的策略迁移到真实环境之中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求,生成数据的多样性可从一定程度上解决深度强化学习模型存在对其所训练数据过度拟合的问题。
Description
技术领域
本发明属于强化学习技术领域,涉及到机器学习算法,更具体说是一种基于环境预测模 型的强化学习方法。
背景技术
强化学习(reinforcement learning:RL)是机器学习中的一个重要研究领域,它以试错的 机制与环境进行交互,通过最大化累积奖赏来学习最优策略。为了找到最优策略,要求智能 体能够对周围环境有所认知,理解当前所处状态,然后根据任务要求做出符合环境情境的决 策动作。
深度强化学习(Deep Reinforcement Learning,简称DRL)以一种通用的形式将深度学 习的智能感知与强化学习的决策能力相结合,直接通过高维感知输入的学习来控制智能体 (Agent)的行为,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问 题。
深度强化学习对环境的感知与表达能够取得成功的重要前提是大量的学习样本。比如 DeepMind团队最近提出的RainbowDQN算法需要1800万帧Atari游戏界面,或大约83小时 游戏视频来训练模型,而人类学会游戏的时间远远少于算法。然而,对于实际应用中的复杂 的智能系统来说,收集充分学习样本需要花费大量的时间与金钱,甚至还存在损坏智能系统 的风险。因此,样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。 此外,到目前为止,能够成功处理的任务中环境多数是确定的、静态的,状态主要是静态的、 完全可观察的。
因此,本发明借助生成模型对生成数据的多样性、灵活性及对高维数据的抽象和分布式 的表达能力,提出一种基于环境预测模型的强化学习方法,从而应对真实世界的大规模动态 环境以及解决收集大量的学习样本在强化学习实际应用中的瓶颈问题。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于环境预测模型的强化学习方法, 应对真实世界的大规模动态环境以及解决收集大量的学习样本在强化学习实际应用中的瓶颈 问题。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于环境预测模型的强化学习方法,包括以下步骤:
步骤1、收集环境的真实状态及状态转移样本数据;
步骤2、利用变分自编码器网络模型构造状态表示模型,该模型包括编码器和解码器;
步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;
步骤4、在状态表示的隐空间构建状态预测模型,该状态预测模型可采用处理序列数据 的递归型神经网络;
步骤5、利用状态表示模型将步骤1收集的环境的真实状态转移样本数据转化为数据的 抽象表示,得到隐空间下的样本数据。
步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。
步骤7、环境在每一时间步上为智能体提供一个高维输入观测,根据步骤2所述的状态 表示模型得到该观测状态的抽象表示。
步骤8、将步骤7得到的状态抽象表示传入状态预测模型,并随机传入一个动作,让预 测模型预测下一个时刻状态转移模型产生的向量zt+1及表示预测模型的神经网络在下一个时 刻自身的隐状态ht+1。
所述变分自编码器网络模型为生成模型,所述环境预测模型为递归神经网络模型。
所述步骤1收集的真实状态动作转移样本标记为{st,at,st+1},其中,(st,at)表示当前状态 下的状态及动作对,st+1表示发生状态转移后的下一步状态,t表示某一时刻时间步。
所述编码器的输出是该深度网络所表达的状态变量zt,编码器用来对数据进行特征提取, 我们将描述状态的编码器网络记为VAE(st);所述解码器的输出为隐空间状态表示在高维空间 的恢复状态。
所述递归神经网络不仅能够识别个体输入,更能分析输入信息之间的整体关联,是一种 具有记忆力功能的神经网络。
所述步骤5得到的隐空间表示的样本数据标记为{zt,at,zt+1},其中,(zr,at)表示当前状态 下隐空间状态及动作对,zt+1表示发生状态转移后的下一步隐空间状态表示,t表示某一时刻 时间步。
所述步骤8中递归型神经网络(RNN)以输出一个概率密度函数p(zt+1|at,ht,zt),而不是一 个确定性预测zt+1。这里的ht表示RNN的隐状态,即智能体对于自身行动所引发的环境变化的 预测,at是一个随机的动作。
本发明的优点和积极效果是:
1、本发明设计合理,其通过变分自编码器网络模型将高维空间中的训练数据映射到低维 空间,然后在低维空间利用递归神经网络预测下一个时刻表示模型产生的向量zt+1,利用学到 的低维空间中的状态预测模型模拟环境转移的未来状态。通过模拟低维空间中环境的变化, 就不需要现实中巨大的额外花费进行样本的采样。因此,本发明不仅可以对高维空间进行降 维,节省内存,加快数据处理速度,而且在给定样本数量较少或采集样本的预算有限的情形 下,具有很大优势。
2、本发明使得智能体在无真实学习样本的情况下,也可以通过本研究设计的环境模型生 成的虚拟环境数据去学习,并把从中学会的策略在少量真实样本的精调下迁移到真实环境之 中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求,避免了深度学 习在状态表示中对所训练数据过度拟合的问题。
3、本发明的整个过程可以概述为在隐空间利用递归神经网络网络预测下一个时刻表示模 型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自身的隐状态ht+1。在环境预测信 息的协助下,即使任务发生了细微变化,智能体依然能够根据自身对未来的预测进行自适应 地调整策略,从而得到提高策略的泛化能力。
附图说明
附图为本发明的大规模环境预测模型图;
具体实施方式
以下结合附图对本发明实施例做进一步详述。
在本实施例中,环境在每一时间步上为智能体提供一个高维输入观测,这个观测状态可 以是一个多模态的变量,表示为例如图中所示实例,机器人的任务是控制虚拟 环境中的倒立摆,这里通过多个传感器得到的原始状态信息为机器人的视觉观测ot、各个关 节的角度xt、各个关节的角速度对于视觉型变量ot我们利用卷积神经网络来表示,而关于 智能体内部状态的其他实数型的状态变量则通过一般的多层网络构建,最终将多个网络 整合为变分自编码器(VAE)中的编码器。
在递归神经网络中,带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息 给下一时刻使用。递归网络的输入是一整个序列,也就是x=[x1,…xt-1,xt,xt+1,…xT], xt是网络某一时刻的输入。网络t时刻的隐藏状态ht是关于前一时刻的隐藏状态ht-1和当前时刻的输入xt的函数,即ht结合了历史信息及当前的输入信息。网络的输出 是关于ht的函数,在结合了历史信息和当前的输入的情况下,递归神经网络能够很 好的处理序列问题,能够预测下一时刻状态的输出和自身的隐状态。
本发明在上述数学模型及目标函数的基础上,通过运用变分自编码器的降维性能,将复 杂的高维空间映射到便于数据处理的低维空间,在低维空间中利用递归神经网络模型;学习 预测未来状态的表示,来解决学习深度强化学习在实际应用中对大量学习样本的要求,避免 了深度学习在状态表示中对所训练数据过度拟合的问题。本发明的设计思路为:整体环境模 型分为状态表示模型及状态预测模型两个部分,其中采用变分自编码器生成潜在空间的抽象、 压缩的环境表示,采用递归型神经网络结合历史数据,在潜在空间生成可预测未来状态的表 示,并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测, 从而得到最终研究方案。
基于上述设计思路,本发明首先将收集到的高维样本数据通过一种生成模型映射到隐空 间,得到隐空间样本数据;其次在隐空间通过另一种生成模型对上述隐空间样本数据进行建 模,构建隐空间中的状态转移模型;最后结合策略搜索学习算法与上述状态转移模型在隐空 间寻找最优策略参数,进行策略搜索。具体方法包括以下步骤:
步骤1、收集环境的真实状态动作转移样本数据。
本发明利用变分自编码器在降维方面的良好性能,和递归神经网络在处理序列问题方面 的优势,从而应对真实世界的大规模动态环境以及解决收集大量的学习样本在强化学习实际 应用中的瓶颈问题。因此,需要收集环境的真实状态动作对样本,将真实状态及其转移样本 标记为:{st,at,st+1},其中,(st,at)表示当前状态下的状态及动作对,st+1表示发生状态转移 后的下一步状态,t表示某一时刻时间步。
步骤2、构造变分自编码器网络模型。
本步骤构造的变分自编码器网络模型属于生成模型,该变分自编码网络模型由编码器 (Encoder)和解码器(Decoder)组成,编码器用来降维,解码器用来升维。编码器的输出该深 度网络所表达的状态变量,解码器的输出为隐空间状态表示在高维空间的恢复状态。
在变分自编码器网络模型中,编码器用来降低真实数据分布的维度,将高维的真实数据 分布映射到一个隐空间,该隐空间的维度远远小于真实数据分布维度,与支撑集维度大致相 等;解码器用来将从隐空间状态恢复到到高维空间,得到隐空间状态表示在高维空间的恢复 状态。
步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;最终训练得 到编码器的输出能够正确的表示真实状态样本为该模型的最佳收敛状态。
步骤4、在隐空间构建状态预测模型,该状态预测模型是可用于处理序列数据的递归型 神经网络。
本步骤状态预测模型为递归神经网络模型,该网络不仅能够识别个体输入,更能分析输 入信息之间的整体关联,是一种具有记忆力功能的神经网络。
步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数 据对的抽象表示,得到新的在隐空间下的样本数据。
本步骤得到的隐空间表示的样本数据标记为{zt,at,zt+1},其中,(zt,at)表示当前状态下隐 空间状态及动作对,zt+1表示发生状态转移后的下一步隐空间状态表示,t表示某一时刻时间 步。
步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛;最终训练 递归神经网络的输出能够正确预测下一个时刻表示模型产生的向量zt+1该模型的最佳收敛状 态。
步骤7、环境在每一时间步上为智能体提供一个高维输入观测,得到该观测状态的抽象 表示。
步骤8、将步骤7得到的状态抽象表示传入状态预测模型,并随机传入一个动作,让预 测模型预测下一个时刻表示模型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自 身的隐状态ht+1。
本步骤中递归型神经网络(RNN)以输出一个概率密度函数p(zt+1|at,ht,zt),而不是一个确 定性预测zt+1。这里的ht表示RNN的隐状态,即智能体对于自身行动所引发的环境变化的预测, at是一个随机的动作。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并 不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的 其他实施方式,同样属于本发明保护的范围。
Claims (5)
1.一种基于环境预测模型的强化学习方法,其特征在于包括以下步骤:
步骤1、收集环境的真实状态动作转移样本数据;
步骤2、构造状态表示模型,即变分自编码器网络模型,该模型包括编码器和解码器;
步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;
步骤4、在状态表示的隐空间构建状态预测模型,该状态预测模型可采用处理序列数据的递归型神经网络;
步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示,得到状态表示空间下的样本数据。
步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。
步骤7、环境在每一时间步上为智能体提供一个高维输入观测,得到该观测状态的抽象表示。
步骤8、将步骤7得到的状态抽象表示传入状态预测模型,并随机传入一个动作,让预测模型预测下一个时刻表示模型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自身的隐状态ht+1。
2.根据权利要求1所述的一种基于环境预测模型的强化学习方法,其特征在于:所述变分自编码器网络模型为生成模型,所述环境预测模型为递归神经网络模型。
3.根据权利要求1所述的基于生成模型及递归神经网络的环境模型表示方法,其特征在于:所述编码器的输出是该深度网络所表达的状态变量zt,编码器用来对数据进行特征提取,我们将描述状态的编码器网络记为VAE(st);所述解码器的输出为隐空间状态表示在高维空间的恢复状态。
4.根据权利要求1所述的一种基于环境预测模型的强化学习方法,其特征在于:所述递归神经网络不仅能够识别个体输入,更能分析输入信息之间的整体关联,是一种具有记忆力功能的神经网络。
5.根据权利要求1所述的一种基于环境预测模型的强化学习方法,其特征在于:所述步骤8中递归型神经网络(RNN)以输出一个概率密度函数p(zt+1|at,ht,zt),而不是一个确定性预测zt+1。这里的ht表示RNN的隐状态,即智能体对于自身行动所引发的环境变化的预测,at是一个随机的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910410196.4A CN111950722A (zh) | 2019-05-15 | 2019-05-15 | 一种基于环境预测模型的强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910410196.4A CN111950722A (zh) | 2019-05-15 | 2019-05-15 | 一种基于环境预测模型的强化学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950722A true CN111950722A (zh) | 2020-11-17 |
Family
ID=73336678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910410196.4A Pending CN111950722A (zh) | 2019-05-15 | 2019-05-15 | 一种基于环境预测模型的强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950722A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095367A (zh) * | 2021-03-16 | 2021-07-09 | 华中科技大学 | 一种基于深度强化学习的压缩机故障诊断方法 |
CN114154582A (zh) * | 2021-12-06 | 2022-03-08 | 天津大学 | 基于环境动态分解模型的深度强化学习方法 |
CN115187266A (zh) * | 2022-06-29 | 2022-10-14 | 山东大学 | 基于记忆力变分自编码模型的信用卡欺诈检测方法及系统 |
CN115990875A (zh) * | 2022-11-10 | 2023-04-21 | 华南理工大学 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
-
2019
- 2019-05-15 CN CN201910410196.4A patent/CN111950722A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095367A (zh) * | 2021-03-16 | 2021-07-09 | 华中科技大学 | 一种基于深度强化学习的压缩机故障诊断方法 |
CN113095367B (zh) * | 2021-03-16 | 2023-04-18 | 华中科技大学 | 一种基于深度强化学习的压缩机故障诊断方法 |
CN114154582A (zh) * | 2021-12-06 | 2022-03-08 | 天津大学 | 基于环境动态分解模型的深度强化学习方法 |
CN114154582B (zh) * | 2021-12-06 | 2024-04-19 | 天津大学 | 基于环境动态分解模型的深度强化学习方法 |
CN115187266A (zh) * | 2022-06-29 | 2022-10-14 | 山东大学 | 基于记忆力变分自编码模型的信用卡欺诈检测方法及系统 |
CN115187266B (zh) * | 2022-06-29 | 2023-08-25 | 山东大学 | 基于记忆力变分自编码模型的信用卡欺诈检测方法及系统 |
CN115990875A (zh) * | 2022-11-10 | 2023-04-21 | 华南理工大学 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
CN115990875B (zh) * | 2022-11-10 | 2024-05-07 | 华南理工大学 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950722A (zh) | 一种基于环境预测模型的强化学习方法 | |
CN110188598B (zh) | 一种基于MobileNet-v2的实时手部姿态估计方法 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
Zhao et al. | A spatial-temporal attention model for human trajectory prediction. | |
CN112232490B (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
CN104899561A (zh) | 一种并行化的人体行为识别方法 | |
Akan et al. | Stretchbev: Stretching future instance prediction spatially and temporally | |
CN111461325B (zh) | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 | |
CN109344992B (zh) | 一种融合时空因素的智能家居用户操控行为习惯建模方法 | |
CN112135716A (zh) | 数据高效的分层强化学习 | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN112580694B (zh) | 基于联合注意力机制的小样本图像目标识别方法及系统 | |
Balhara et al. | A survey on deep reinforcement learning architectures, applications and emerging trends | |
EP4000009A1 (en) | Training a neural network to control an agent using task-relevant adversarial imitation learning | |
CN114415507B (zh) | 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN113313209A (zh) | 一种高样本效率的多智能体强化学习训练方法 | |
US20220121920A1 (en) | Multi-agent coordination method and apparatus | |
CN117349748A (zh) | 一种基于云边协同的主动学习故障诊断方法 | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
WO2021040699A1 (en) | Future prediction, using stochastic adversarial based sampling, for robotic control | |
CN113361570B (zh) | 基于联合数据增强和网络训练模型的3d人体姿态估计方法 | |
CN115212549A (zh) | 一种对抗场景下的对手模型构建方法及存储介质 | |
CN114529949A (zh) | 一种基于深度学习的轻量级手势识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201117 |
|
WD01 | Invention patent application deemed withdrawn after publication |