CN117454965A

CN117454965A - 基于随机Transformer模型的有模型深度强化学习方法

Info

Publication number: CN117454965A
Application number: CN202311173801.3A
Authority: CN
Inventors: 王钢; 张维璞; 孙健; 肖伟; 曾宪琳; 窦丽华; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2024-01-26

Abstract

本发明公开了基于随机Transformer模型的有模型深度强化学习方法，涉及强化学习技术领域。首先，首先使用分类分布的变分自动编码器将高维的环境数据编码为低维隐空间上的随机变量。其次，利用Transformer作为世界模型在低维的隐变量空间上实现对环境变化规律的建模，该世界模型具有仿真原始环境的能力，可以通过自回归的方式生成观察以及奖励。最后利用策略梯度算法在世界模型上进行智能体的训练。最终得到智能体性能、计算效率等方面均表现出色的有模型强化学习算法，对强化学习在现实环境中的高效部署具有非常重要的意义。

Description

基于随机Transformer模型的有模型深度强化学习方法

技术领域

本发明涉及强化学习技术领域，具体涉及一种基于随机Transformer模型的有模型深度强化学习方法。

背景技术

强化学习是一种机器学习方法，其旨在使智能体通过与环境进行交互来学习最优的行为策略。与传统的监督学习和无监督学习方法不同，强化学习关注的是通过试错和奖励信号的反馈来学习正确的行为，从而使智能体能够在不断变化的环境中做出自适应的决策。近年来，随着相关研究的进一步深入与计算能力的发展，深度强化学习在多个领域中取得了更加广泛的成功。深度强化学习结合了深度神经网络的强大表示学习能力和强化学习的决策优化能力，使得智能体能够从原始环境数据中学习到高层次的抽象特征，并在复杂任务中相比传统方法取得了突破性的性能提升。由DeepMind团队开发的AlphaGo就是一个典型的例子，其通过结合深度神经网络与蒙特卡罗树搜索，一举战胜了当时的围棋世界冠军李世石。AlphaGo的成功为近十年间兴起的人工智能浪潮起到了重要的推进作用。

有模型强化学习算法首先构造出一个真实环境的仿真模型，随后利用这一模型生成的轨迹来进行策略提升，相比于无模型算法其样本效率取得了显著的提升。Dreamer算法(Hafner D,Lillicrap T P,Norouzi M,et al.Mastering Atari with discrete worldmodels[C]//International Conference on Learning Representations.2021)是这一框架下近年来的典型算法，其在在Atari游戏、DeepMind Control、Minecraft等多个环境中展示了强大的能力。Dreamer使用循环神经网络作为其序列模型，循环神经网络的数据具有前后依赖关系，这一设计使得其难以并行，无法充分发挥现代显卡的并行加速能力，从而导致训练速度较慢。当可供世界模型进行训练的数据增多时，如在离线强化学习的情景下，循环神经网络的速度劣势将会被进一步凸显。

最近的一些方法，如IRIS(Micheli V,Alonso E,Fleuret F.Transformers aresample-efficient world models[C]//The Eleventh International Conference onLearning Representations.2023)、TWM(Robine J,M,Uelwer T,etal.Transformer-based world models are happy with 100k interactions[C]//TheInternational Conference on Learning Representations.2023)在世界模型中使用Transformer作为其序列模型，这种结构近年来在各种序列建模和生成任务中展现出了优越的性能，其中的自注意力机制克服了长依赖关系遗忘的问题，并可以被高度并行化从而在现代显卡上提高运行效率。IRIS采用VQ-VAE(Van Den Oord A,Vinyals O,et al.Neuraldiscrete representation learning[J].Advances in Neural Information ProcessingSystems,2017,30)作为图像编码器，将输入图像映射为4×4的隐空间上的词向量，并使用空间-时间Transformer结构来捕捉单张图像内部的和多张图像之间的动力学关系。词向量这一表达源于自然语言处理领域，相比与直接使用文字的原始编码，用一个含有文字语义信息的词向量来对其进行表示更有利于建模，序列模型以词向量作为输入，IRIS则沿用了这一说法。然而，空间-时间Transformer结构中需要对大量词向量进行自注意力操作，这会导致训练速度显著变慢。TWM采用将观测、动作和奖励视为地位相同的输入词向量。这里观测是图像，动作和奖励都是标量，而自注意力机制需要利用向量点积来求相似度，这种跨越不同类型的数据的自注意力操作可能会对性能产生负面影响。与此同时，在这种输入模式下，每向序列模型增加一个时间步的数据，都需要增加三个词向量，而自注意力机制相对于词向量数目的复杂度是O(n²)的，这也使得其训练速度相对较慢。

上述列举的有模型强化学习算法可以在多项任务中提升强化学习的样本效率，但仍存在一些问题，主要表现在如下两个方面：

1)智能体在部分环境下的表现仍然十分有限，取得的平均奖励和较低，和人类表现有较大差距；

2)计算效率较低，在实际部署时计算开销和能源消耗较大。

因此，如何提升智能体在多个环境下的表现效果，并降低训练成本和在显示环境中的部署难度，提升计算效率，是目前亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于随机Transformer模型的深度强化学习方法，能够是的智能体的泛化能力更强，最终达到提升智能体在多个环境下的表现的效果，同事降低了训练成本和在现实环境中的部署难度，即实现了计算效率的提高。

为达到上述目的，本发明提供的基于随机Transformer模型的有模型深度强化学习方法，包括如下步骤：

步骤1：在环境模型与智能体模型之间构建世界模型，智能体模型将每一时间步的智能体动作输入至世界模型，环境模型将观测的高维环境数据输入至世界模型；

世界模型包括变分自编码器、动作混合器、序列模型、动力学预测器、奖励预测器以及持续标志预测器；构建世界模型具体采用如下步骤：

利用变分自编码器将高维环境数据编码为低维隐空间上的随机变量，记为隐变量；其中高维环境数据指维数在1000维以上的环境数据，低维指维数或小于1000维；

动作混合器为第一多层感知机，用于将隐变量和智能体动作进行拼接操作得到状态向量；

序列模型为Transformer模型，以状态向量作为序列模型的输入，序列模型输出对应的含历史信息的语义状态；

动力学预测器为第二多层感知机，以语义状态作为输入，对下一时间步的先验概率分布进行预测，获得下一时间步的先验概率分布估计，并作为动力学预测器的输出；

奖励预测器为第三多层感知机，以语义状态作为输入，对当前时间步的环境奖励进行预测，获得当前时间步的环境奖励，并作为奖励预测器的输出；

持续标志预测器为第四多层感知机，以语义状态作为输入，对当前时间步的环境持续标志进行预测，获得当前时间步的环境持续标志，并作为持续标志预测器的输出；；

步骤2：针对世界模型以端到端的方式进行自监督训练后，以自回归的方式生成预测的轨迹数据；

步骤3：基于步骤2生成的预测的轨迹数据，对智能体进行训练。

进一步地，步骤一中，利用变分自编码器将高维环境数据编码为低维隐空间上的随机变量，具体采用如下步骤：

变分自编码器为分类分布的变分自编码器，包含编码器q_φ和解码器p_φ，其中编码器q_φ的输入为高维的环境观察数据o_t，编码器q_φ的输出为低维隐空间上的随机变量其中/>是由n个分类分布组成的随机分布，其中每个分类分布包含m个类别，故其Logit及概率用n×m的矩阵来表示。

对进行随机采样，随机采样是指从/>中随机采样一个隐变量z_t来表示原始观察o_t，随机采样的隐变量z_t作为解码器p_φ的输入

解码器p_φ执行与编码器q_φ相反的操作后获得重建后的环境数据。

优选地，序列模型为Transformer模型，以状态向量作为序列模型的输入，序列模型输出对应的含历史信息的语义状态，具体包括如下步骤：

序列模型的输入为：编码后的隐变量z_t和智能体动作a_t通过一个多层感知机m_φ与拼接操作合成到一个状态e_t中；序列模型f_φ以e_t序列作为输入。

序列模型f_φ输出对应的含历史信息的语义状态h_t。

序列模型为带后续掩码的Transformer结构，后续掩码只允许e_t和之前的信息e₁，e₂，...，e_t进行自注意力操作，即序列模型f_φ的输出h_t不包含未来的信息。

优选地，步骤2中，针对世界模型以端到端的方式进行自监督训练，具体为：使用Adam优化器以梯度下降的方式进行训练。

优选地，述步骤3中，对智能体进行训练，具体为：在训练时同样采用Adam优化器，以梯度下降的方式进行优化。

有益效果：

本发明首先使用分类分布的变分自动编码器实现高维，减少了累积的自回归预测误差，增强了世界模型的鲁棒性，同时引入了一定的随机性，使得智能体的泛化能力更强，最终达到提升智能体在多个环境下的表现的效果；随后采用Transformer作为序列模型，增强了序列建模的能力，提高了轨迹生成的质量，从而提升了智能体的表现；同时每个时间步的信息被聚合至单个状态中，这进一步加快了训练速度，降低了训练成本和在现实环境中的部署难度，即实现了计算效率的提高。

附图说明

图1是本发明提供的一种基于随机Transformer模型的有模型深度强化学习方法中的有模型强化学习方法的示意图；

图2是本发明提供的一种基于随机Transformer模型的有模型深度强化学习方法中的变分自编码器工作原理的示意图；

图3是本发明提供的一种基于随机Transformer模型的有模型深度强化学习方法中在多个分类分布的联合分布中进行采样的示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于随机Transformer模型的有模型深度强化学习方法，包括如下步骤：

步骤1：在环境模型与智能体模型之间构建世界模型，如图1所述，智能体模型将每一时间步的智能体动作输入至世界模型，所述环境模型将观测的高维环境数据输入至所述世界模型。

所述世界模型包括变分自编码器、动作混合器、序列模型、动力学预测器、奖励预测器以及持续标志预测器，；所述构建世界模型具体采用如下步骤：

首先本发明利用一个分类分布的变分自编码器来将高维的环境观察数据o_t编码为低维隐空间上的低维随机类别分布其中高维环境数据指维数在1000维以上的环境数据，所述低维指维数或小于1000维。所述变分自编码器为分类分布的变分自编码器，包含编码器q_φ和解码器p_φ，其中编码器q_φ的输入为高维的环境观察数据o_t，编码器q_φ的输出为低维隐空间上的随机变量/>其中/>是由n个分类分布组成的随机分布，其中每个分类分布包含m个类别，故其Logit及概率用n×m的矩阵来表示；对/>进行随机采样，所述随机采样是指从/>中随机采样一个隐变量z_t来表示原始观察o_t，随机采样的隐变量z_t作为解码器p_φ的输入；解码器p_φ执行与编码器q_φ相反的操作后获得重建后的环境数据。

变分自编码器的总体结构如图2所示。是由n个分类分布组成的随机分布，其中每个分类分布包含m个类别，故其Logit及概率可以用n×m的矩阵来表示，如图3中左上和右上矩阵所示(此例中n＝m＝4)。当o_t为图像数据时，一般取n＝m＝32。变分自编码器中的编码器q_φ和解码器p_φ的结构为卷积神经网络。

本发明随后从中随机采样一个隐变量z_t来表示原始观察o_t，从分类分布采样的这一过程如图3所示。从分布中采样这一操作是无法保留梯度信息的，故本发明使用直通梯度技巧来保留梯度信息，以便于和后续序列模型进行联合优化。

本发明接下来将图像编码后的隐变量z_t和智能体动作a_t通过一个多层感知机m_φ与拼接操作合成到一个状态e_t中并输入到序列模型中。该多层感知机m_φ记为第一多层感知机。

本发明中的序列模型f_φ以e_t序列作为输入，输出对应的含历史信息的语义状态h_t，具体来说，序列模型为带后续掩码的Transformer结构，后续掩码只允许e_t和之前的信息e₁，e₂，...，e_t进行自注意力操作，即h_t不包含未来的信息e_t+1，e_t+2，...，e_T。本发明使用可学习的位置编码与e_t进行加和处理，使得序列模型可以学习到数据的前后依赖关系。

在生成h_t后，本发明使用三个多层感知机和/>分别对环境持续符号、环境奖励和下一步的随机分布进行预测。当环境处于最终结束状态时，持续符号应为0，否则为1。三个多层感知机/>和/>分别记为第二多层感知机、第三多层感知机以及第四多层感知机。

所述动力学预测器为第二多层感知机，以所述语义状态作为输入，对下一时间步的先验概率分布进行预测，获得下一时间步的先验概率分布估计，并作为动力学预测器的输出。

所述奖励预测器为第三多层感知机，以所述语义状态作为输入，对当前时间步的环境奖励进行预测，获得当前时间步的环境奖励，并作为奖励预测器的输出。

所述持续标志预测器为第四多层感知机，以所述语义状态作为输入，对当前时间步的环境持续标志进行预测，获得当前时间步的环境持续标志，并作为持续标志预测器的输出。

在本发明中，世界模型被定义为变分自编码器和序列模型的总和，完整的世界模型结构包含以下图像编码器、图像解码器、动作信息混合器、序列模型、动力学预测器、奖励预测器以及持续标志预测器：

图像编码器：z_t～q_φ(z_t|o_t)＝z_t

图像解码器：

动作信息混合器：e_t＝m_φ(z_t，a_t)

序列模型：h_1：T＝f_φ(e_1：T)

动力学预测器：

奖励预测器：

持续标志预测器

其中为对原始环境观测/>的重建预测，/>为对下一时间步的先验概率分布的预测，/>为对环境奖励的预测，/>为对环境持续符号的预测，φ为世界模型的可优化参数，后续使用梯度下降算法对这些参数进行更新。

步骤2：针对所述世界模型以端到端的方式进行自监督训练后，以自回归的方式生成预测的轨迹数据。

本发明中世界模型以端到端的方式进行训练。具体来说使用Adam优化器(KingmaD P，Ba J.Adam：A method for stochastic optimization[J].arXiv preprint arXiv：1412.6980，2014.)以梯度下降的方式进行训练，其中训练的总体损失函数为：

损失函数的各个分量分别为观察重建损失奖励预测损失持续标记预测损失/> 为Symlog二热损失，具体实现参考DreamerV3(Hafner D，Pasukonis J，Ba J，etal.Mastering diverse domains through world models[J].arXiv preprint arXiv：2301.04104，2023.)。其中B为训练数据一个批次(batch)的大小，T为单条数据中轨迹的长度。

和/>为动力学预测损失函数，两者在计算上为相同的KL散度，但在梯度反向传播和权重方面有所不同：

其中sg(·)表示停止梯度操作，其在总体损失函数中对应的系数β₁＝1.0和β₂＝0.5是常数。

在世界模型以如上方式进行自监督训练后，即可以自回归的方式生成预测的轨迹数据，如说明书摘要附图所示。轨迹数据包含多个连续时间步的数据，每个时间步的数据为观察O_t，动作a_t，奖励r_t以及持续符号c_t。在利用世界模型生成轨迹数据时，本发明首先使用较短的(连续8步)历史轨迹数据输入世界模型作为初始化，随后利用动力学预测器对下一时间步的先验概率分布/>进行预测，并从/>中采样z_t+1作为模型的下一步输入，同时利用策略函数π_θ(a_t|s_t)生成对应的动作。反复进行预测、采样、将z_t+1和a_t+1输入序列模型这一流程即可进行自回归式的轨迹数据生成。

步骤3：基于步骤2生成的所述预测的轨迹数据，对所述智能体进行训练。

本发明中智能体的训练完全基于序列模型生成的轨迹数据，其独立于世界模型的训练，其逻辑关系如图1所示。智能体以Actor-Critic算法驱动进行训练，如下式所示：

状态：s_t＝[z_t，h_t]

Critic：

Actor：a_t～π_θ(a_t|s_t)

其中π_θ为参数化的策略函数，V_ψ为参数化的值函数，γ＝0.975为衰减系数，r为世界模型生成的环境奖励，r_t+k代表第t+k时间步世界模型生成的环境奖励。表示对未来奖励和在策略π_θ和世界模型p_φ意义下的数学期望。

本发明中智能体具体的训练损失函数如下：

其中为λ返回：

其中归一化系数S定义如下，它是批处理中λ-回报的百分之5分位数和百分之95分位数的差值：

上述各式中s_L为当前轨迹的最后一个状态，H(π_θ(a_t|s_t))为策略的熵，lnπ_θ(a_t|s_t)为策略函数的自然对数。为值函数关于参数ψ的指数滑动平均：

在训练时同样采用Adam优化器，以梯度下降的方式进行优化。

综上，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于随机Transformer模型的有模型深度强化学习方法，其特征在于，包括如下步骤：

步骤1：在环境模型与智能体模型之间构建世界模型，智能体模型将每一时间步的智能体动作输入至世界模型，所述环境模型将观测的高维环境数据输入至所述世界模型；

所述世界模型包括变分自编码器、动作混合器、序列模型、动力学预测器、奖励预测器以及持续标志预测器；所述构建世界模型具体采用如下步骤：

利用变分自编码器将高维环境数据编码为低维隐空间上的随机变量，记为隐变量；其中高维环境数据指维数在1000维以上的环境数据，所述低维指维数或小于1000维；

所述动作混合器为第一多层感知机，用于将所述隐变量和智能体动作进行拼接操作得到状态向量；

所述序列模型为Transformer模型，以所述状态向量作为所述序列模型的输入，所述序列模型输出对应的含历史信息的语义状态；

所述动力学预测器为第二多层感知机，以所述语义状态作为输入，对下一时间步的先验概率分布进行预测，获得下一时间步的先验概率分布估计，并作为动力学预测器的输出；

所述奖励预测器为第三多层感知机，以所述语义状态作为输入，对当前时间步的环境奖励进行预测，获得当前时间步的环境奖励，并作为奖励预测器的输出；

所述持续标志预测器为第四多层感知机，以所述语义状态作为输入，对当前时间步的环境持续标志进行预测，获得当前时间步的环境持续标志，并作为持续标志预测器的输出；

步骤2：针对所述世界模型以端到端的方式进行自监督训练后，以自回归的方式生成预测的轨迹数据；

2.如权利要求1所述的基于随机Transformer模型的有模型深度强化学习方法，其特征在于，所述步骤一中，利用变分自编码器将高维环境数据编码为低维隐空间上的随机变量，具体采用如下步骤：

所述变分自编码器为分类分布的变分自编码器，包含编码器q_φ和解码器p_φ，其中编码器q_φ的输入为高维的环境观察数据o_t，编码器q_φ的输出为低维隐空间上的随机变量其中/>是由n个分类分布组成的随机分布，其中每个分类分布包含m个类别，故其Logit及概率用n×m的矩阵来表示；

对进行随机采样，所述随机采样是指从/>中随机采样一个隐变量z_t来表示原始观察o_t，随机采样的隐变量z_t作为解码器p_φ的输入

3.如权利要求1或2所述的基于随机Transformer模型的有模型深度强化学习方法，其特征在于，所述序列模型为Transformer模型，以所述状态向量作为所述序列模型的输入，所述序列模型输出对应的含历史信息的语义状态，具体包括如下步骤：

所述序列模型的输入为：编码后的隐变量z_t和智能体动作a_t通过一个多层感知机m_φ与拼接操作合成到一个状态e_t中；所述序列模型f_φ以e_t序列作为输入；

所述序列模型f_φ输出对应的含历史信息的语义状态h_t；

所述序列模型为带后续掩码的Transformer结构，后续掩码只允许e_t和之前的信息e₁,e₂,...,e_t进行自注意力操作，即所述序列模型f_φ的输出h_t不包含未来的信息。

4.如权利要求1或2所述的基于随机Transformer模型的有模型深度强化学习方法，其特征在于，所述步骤2中，针对所述世界模型以端到端的方式进行自监督训练，具体为：使用Adam优化器以梯度下降的方式进行训练。

5.如权利要求1所述的基于随机Transformer模型的有模型深度强化学习方法，其特征在于，所述步骤3中，对所述智能体进行训练，具体为：在训练时同样采用Adam优化器，以梯度下降的方式进行优化。