CN111950722A

CN111950722A - 一种基于环境预测模型的强化学习方法

Info

Publication number: CN111950722A
Application number: CN201910410196.4A
Authority: CN
Inventors: 赵婷婷; 宋亚静; 杨巨成; 赵青; 任德华; 王嫄
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-11-17

Abstract

本发明涉及一种基于环境预测模型的强化学习方法，其收集环境的真实状态动作转移样本数据；构造环境表示模型即变分自编码器网络模型；训练变分自编码器网络模型直至收敛；在隐空间构建环境预测模型，该网络模型为递归神经网络模型；结合历史数据训练递归神经网络模型直至收敛，在潜在空间生成可预测未来状态的表示，并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测。本发明在深度神经网络中的变分自编码器及递归型神经网络相结合的基础上进行改良，生成虚拟环境数据训练智能体，并把从中学会的策略迁移到真实环境之中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求，生成数据的多样性可从一定程度上解决深度强化学习模型存在对其所训练数据过度拟合的问题。

Description

一种基于环境预测模型的强化学习方法

技术领域

本发明属于强化学习技术领域，涉及到机器学习算法，更具体说是一种基于环境预测模型的强化学习方法。

背景技术

强化学习(reinforcement learning：RL)是机器学习中的一个重要研究领域，它以试错的机制与环境进行交互，通过最大化累积奖赏来学习最优策略。为了找到最优策略，要求智能体能够对周围环境有所认知，理解当前所处状态，然后根据任务要求做出符合环境情境的决策动作。

深度强化学习(Deep Reinforcement Learning，简称DRL)以一种通用的形式将深度学习的智能感知与强化学习的决策能力相结合，直接通过高维感知输入的学习来控制智能体 (Agent)的行为，使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题。

深度强化学习对环境的感知与表达能够取得成功的重要前提是大量的学习样本。比如 DeepMind团队最近提出的RainbowDQN算法需要1800万帧Atari游戏界面，或大约83小时游戏视频来训练模型，而人类学会游戏的时间远远少于算法。然而，对于实际应用中的复杂的智能系统来说，收集充分学习样本需要花费大量的时间与金钱，甚至还存在损坏智能系统的风险。因此，样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。此外，到目前为止，能够成功处理的任务中环境多数是确定的、静态的，状态主要是静态的、完全可观察的。

因此，本发明借助生成模型对生成数据的多样性、灵活性及对高维数据的抽象和分布式的表达能力，提出一种基于环境预测模型的强化学习方法，从而应对真实世界的大规模动态环境以及解决收集大量的学习样本在强化学习实际应用中的瓶颈问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于环境预测模型的强化学习方法，应对真实世界的大规模动态环境以及解决收集大量的学习样本在强化学习实际应用中的瓶颈问题。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于环境预测模型的强化学习方法，包括以下步骤：

步骤1、收集环境的真实状态及状态转移样本数据；

步骤2、利用变分自编码器网络模型构造状态表示模型，该模型包括编码器和解码器；

步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛；

步骤4、在状态表示的隐空间构建状态预测模型，该状态预测模型可采用处理序列数据的递归型神经网络；

步骤5、利用状态表示模型将步骤1收集的环境的真实状态转移样本数据转化为数据的抽象表示，得到隐空间下的样本数据。

步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。

步骤7、环境在每一时间步上为智能体提供一个高维输入观测，根据步骤2所述的状态表示模型得到该观测状态的抽象表示。

步骤8、将步骤7得到的状态抽象表示传入状态预测模型，并随机传入一个动作，让预测模型预测下一个时刻状态转移模型产生的向量z_t+1及表示预测模型的神经网络在下一个时刻自身的隐状态h_t+1。

所述变分自编码器网络模型为生成模型，所述环境预测模型为递归神经网络模型。

所述步骤1收集的真实状态动作转移样本标记为{s_t，a_t，s_t+1}，其中，(s_t，a_t)表示当前状态下的状态及动作对，s_t+1表示发生状态转移后的下一步状态，t表示某一时刻时间步。

所述编码器的输出是该深度网络所表达的状态变量z_t，编码器用来对数据进行特征提取，我们将描述状态的编码器网络记为VAE(s_t)；所述解码器的输出为隐空间状态表示在高维空间的恢复状态。

所述递归神经网络不仅能够识别个体输入，更能分析输入信息之间的整体关联，是一种具有记忆力功能的神经网络。

所述步骤5得到的隐空间表示的样本数据标记为{z_t，a_t，z_t+1}，其中，(z_r，a_t)表示当前状态下隐空间状态及动作对，z_t+1表示发生状态转移后的下一步隐空间状态表示，t表示某一时刻时间步。

所述步骤8中递归型神经网络(RNN)以输出一个概率密度函数p(z_t+1|a_t，h_t，z_t)，而不是一个确定性预测z_t+1。这里的h_t表示RNN的隐状态，即智能体对于自身行动所引发的环境变化的预测，a_t是一个随机的动作。

本发明的优点和积极效果是：

1、本发明设计合理，其通过变分自编码器网络模型将高维空间中的训练数据映射到低维空间，然后在低维空间利用递归神经网络预测下一个时刻表示模型产生的向量z_t+1，利用学到的低维空间中的状态预测模型模拟环境转移的未来状态。通过模拟低维空间中环境的变化，就不需要现实中巨大的额外花费进行样本的采样。因此，本发明不仅可以对高维空间进行降维，节省内存，加快数据处理速度，而且在给定样本数量较少或采集样本的预算有限的情形下，具有很大优势。

2、本发明使得智能体在无真实学习样本的情况下，也可以通过本研究设计的环境模型生成的虚拟环境数据去学习，并把从中学会的策略在少量真实样本的精调下迁移到真实环境之中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求，避免了深度学习在状态表示中对所训练数据过度拟合的问题。

3、本发明的整个过程可以概述为在隐空间利用递归神经网络网络预测下一个时刻表示模型产生的向量z_t+1及表示预测模型的神经网络在下一个时刻自身的隐状态h_t+1。在环境预测信息的协助下，即使任务发生了细微变化，智能体依然能够根据自身对未来的预测进行自适应地调整策略，从而得到提高策略的泛化能力。

附图说明

附图为本发明的大规模环境预测模型图；

具体实施方式

以下结合附图对本发明实施例做进一步详述。

在本实施例中，环境在每一时间步上为智能体提供一个高维输入观测，这个观测状态可以是一个多模态的变量，表示为

例如图中所示实例，机器人的任务是控制虚拟环境中的倒立摆，这里通过多个传感器得到的原始状态信息为机器人的视觉观测o_t、各个关节的角度x_t、各个关节的角速度

对于视觉型变量o_t我们利用卷积神经网络来表示，而关于智能体内部状态的其他实数型的状态变量

则通过一般的多层网络构建，最终将多个网络整合为变分自编码器(VAE)中的编码器。

在递归神经网络中，带有一个指向自身的环，用来表示它可以传递当前时刻处理的信息给下一时刻使用。递归网络的输入是一整个序列，也就是x＝[x₁，…x_t-1，x_t，x_t+1，…x_T]， x_t是网络某一时刻的输入。网络t时刻的隐藏状态h_t是关于前一时刻的隐藏状态h_t-1和当前时刻的输入x_t的函数，即h_t结合了历史信息及当前的输入信息。网络的输出是关于h_t的函数，在结合了历史信息和当前的输入的情况下，递归神经网络能够很好的处理序列问题，能够预测下一时刻状态的输出和自身的隐状态。

本发明在上述数学模型及目标函数的基础上，通过运用变分自编码器的降维性能，将复杂的高维空间映射到便于数据处理的低维空间，在低维空间中利用递归神经网络模型；学习预测未来状态的表示，来解决学习深度强化学习在实际应用中对大量学习样本的要求，避免了深度学习在状态表示中对所训练数据过度拟合的问题。本发明的设计思路为：整体环境模型分为状态表示模型及状态预测模型两个部分，其中采用变分自编码器生成潜在空间的抽象、压缩的环境表示，采用递归型神经网络结合历史数据，在潜在空间生成可预测未来状态的表示，并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测，从而得到最终研究方案。

基于上述设计思路，本发明首先将收集到的高维样本数据通过一种生成模型映射到隐空间，得到隐空间样本数据；其次在隐空间通过另一种生成模型对上述隐空间样本数据进行建模，构建隐空间中的状态转移模型；最后结合策略搜索学习算法与上述状态转移模型在隐空间寻找最优策略参数，进行策略搜索。具体方法包括以下步骤：

步骤1、收集环境的真实状态动作转移样本数据。

本发明利用变分自编码器在降维方面的良好性能，和递归神经网络在处理序列问题方面的优势，从而应对真实世界的大规模动态环境以及解决收集大量的学习样本在强化学习实际应用中的瓶颈问题。因此，需要收集环境的真实状态动作对样本，将真实状态及其转移样本标记为：{s_t，a_t，s_t+1}，其中，(s_t，a_t)表示当前状态下的状态及动作对，s_t+1表示发生状态转移后的下一步状态，t表示某一时刻时间步。

步骤2、构造变分自编码器网络模型。

本步骤构造的变分自编码器网络模型属于生成模型，该变分自编码网络模型由编码器 (Encoder)和解码器(Decoder)组成，编码器用来降维，解码器用来升维。编码器的输出该深度网络所表达的状态变量，解码器的输出为隐空间状态表示在高维空间的恢复状态。

在变分自编码器网络模型中，编码器用来降低真实数据分布的维度，将高维的真实数据分布映射到一个隐空间，该隐空间的维度远远小于真实数据分布维度，与支撑集维度大致相等；解码器用来将从隐空间状态恢复到到高维空间，得到隐空间状态表示在高维空间的恢复状态。

步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛；最终训练得到编码器的输出能够正确的表示真实状态样本为该模型的最佳收敛状态。

步骤4、在隐空间构建状态预测模型，该状态预测模型是可用于处理序列数据的递归型神经网络。

本步骤状态预测模型为递归神经网络模型，该网络不仅能够识别个体输入，更能分析输入信息之间的整体关联，是一种具有记忆力功能的神经网络。

步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示，得到新的在隐空间下的样本数据。

本步骤得到的隐空间表示的样本数据标记为{z_t，a_t，z_t+1}，其中，(z_t，a_t)表示当前状态下隐空间状态及动作对，z_t+1表示发生状态转移后的下一步隐空间状态表示，t表示某一时刻时间步。

步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛；最终训练递归神经网络的输出能够正确预测下一个时刻表示模型产生的向量z_t+1该模型的最佳收敛状态。

步骤7、环境在每一时间步上为智能体提供一个高维输入观测，得到该观测状态的抽象表示。

步骤8、将步骤7得到的状态抽象表示传入状态预测模型，并随机传入一个动作，让预测模型预测下一个时刻表示模型产生的向量z_t+1及表示预测模型的神经网络在下一个时刻自身的隐状态h_t+1。

本步骤中递归型神经网络(RNN)以输出一个概率密度函数p(z_t+1|a_t，h_t，z_t)，而不是一个确定性预测z_t+1。这里的h_t表示RNN的隐状态，即智能体对于自身行动所引发的环境变化的预测， a_t是一个随机的动作。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于环境预测模型的强化学习方法，其特征在于包括以下步骤：

步骤1、收集环境的真实状态动作转移样本数据；

步骤2、构造状态表示模型，即变分自编码器网络模型，该模型包括编码器和解码器；

步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示，得到状态表示空间下的样本数据。

2.根据权利要求1所述的一种基于环境预测模型的强化学习方法，其特征在于：所述变分自编码器网络模型为生成模型，所述环境预测模型为递归神经网络模型。

3.根据权利要求1所述的基于生成模型及递归神经网络的环境模型表示方法，其特征在于：所述编码器的输出是该深度网络所表达的状态变量z_t，编码器用来对数据进行特征提取，我们将描述状态的编码器网络记为VAE(s_t)；所述解码器的输出为隐空间状态表示在高维空间的恢复状态。

4.根据权利要求1所述的一种基于环境预测模型的强化学习方法，其特征在于：所述递归神经网络不仅能够识别个体输入，更能分析输入信息之间的整体关联，是一种具有记忆力功能的神经网络。

5.根据权利要求1所述的一种基于环境预测模型的强化学习方法，其特征在于：所述步骤8中递归型神经网络(RNN)以输出一个概率密度函数p(z_t+1|a_t，h_t，z_t)，而不是一个确定性预测z_t+1。这里的h_t表示RNN的隐状态，即智能体对于自身行动所引发的环境变化的预测，a_t是一个随机的动作。