CN110046712A

CN110046712A - 基于生成模型的隐空间模型化策略搜索学习方法

Info

Publication number: CN110046712A
Application number: CN201910268820.1A
Authority: CN
Inventors: 赵婷婷; 孔乐; 杨巨成; 陈亚瑞; 任德华; 王嫄; 彭喆
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-23

Abstract

本发明涉及一种基于生成模型的隐空间模型化策略搜索学习方法，收集环境的真实状态转移样本数据；构造变分自编码器网络模型；训练变分自编码器网络模型直至收敛；在隐空间构建条件生成对抗网络模型；训练条件生成对抗网络模型直至收敛，得到隐空间中的状态转移预测模型；利用隐空间状态转移预测模型和当前策略生成数量足够多的路径样本；利用路径样本更新策略搜索强化学习算法中策略模型的参数，直到策略模型的参数更新收敛为止。本发明是利用生成模型的降维能力和捕捉数据分布能力来模型化状态转移函数，并进行策略搜索的方法，既可以解决高维数据很难直接处理的问题，减少内存消耗，又可以高效地解决样本数量较少或采样预算不足的难题。

Description

基于生成模型的隐空间模型化策略搜索学习方法

技术领域

本发明属于机器学习技术领域，涉及到强化学习算法，尤其是一种基于生成模型的隐空间模型化策略搜索学习方法。

背景技术

强化学习(reinforcement learning:RL)是机器学习中的一个重要研究领域，它以试错的机制与环境进行交互，通过最大化累积奖赏来学习最优策略。为了找到最优策略，要求智能体能够对周围环境有所认知，理解当前所处状态，然后根据任务要求做出符合环境情境的决策动作。

深度强化学习结合了深度神经网络和强化学习的优势，可以用于解决智能体在复杂高维状态空间中的感知决策问题。深度强化学习在自动驾驶、控制论(离散和连续大动作空间)、机器人行走、机械臂控制、游戏领域、问答系统、推荐系统、智能电网、财务与财经系统分析与管理、智能医疗、网络攻防等领域，已经取得了突破性进展。

然而，目前的人工智能非常缺乏数据，样本效率低下，在大多数情况下，需要大量的数据才能使最先进的人工智能方法变得有效。这对强化学习来说尤其糟糕，它通常需要大量训练数据才能达到其他算法能高效率达到的性能水平，比如DeepMind团队最近提出的RainbowDQN算法需要1800万帧Atari游戏界面，或大约83小时游戏视频来训练模型，而人类学会游戏的时间远远少于算法。这直接导致收集大量样本成为强化学习的一个瓶颈问题。另外在实际训练时，收集大量样本不止需要消耗大量的人力物力，而且收集到的样本很多情况是高维的且需要进行预处理才能被直接使用的。如何有效解决样本收集的问题变得愈发重要。

目前，重要采样技术是时解决该问题的一种方法，它能够重复利用已收集过的样本。但是，重要采样技术会使得策略更新时的方差变大，从而在一定程度上降低算法的收敛率和稳定性。此外，当给定采样所需额度时，重要采样方法此时就需要提前确定采样方案，即一次性采样所有样本，然而，提前确定样本方案与实际情况不符。另外，批策略梯度方法具有稳定性的优势，但会带来高方差，需要巨大的批数据。而off-policy的方法如actor-critic和Q-learning虽然采样效率高，但又带来偏差。研究者们提出Q-Prop的方法，将on-policy和off-policy的优点结合起来，大大降低了强化学习方法的采样复杂度。虽然这种方法可以保证样本多样性，在一定程度上降低采样数量，但是在需要采样很多数据时往往需要消耗大量代价

上述重采样方法属于无模型方法。无模型方法是不尝试去理解环境(状态转移函数),环境给什么就是什么，一步一步等待真实世界的反馈,再根据反馈采取下一步行动。与无模型方法相对应的是模型化学习方法，即先理解真实世界是怎样的,并建立一个模型(状态转移模型)来模拟现实世界的反馈，通过想象来预判断接下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略由此可见，模型化学习方法时解决上文提到的瓶颈问题的一个很好。与无模型方法相比，该方法多一个环境模型即状态转移模型，在得到状态转移模型后，利用该状态转移模型生成数据进行策略学习，状态转移模型可以为策略学习提供充足的学习样本，在学习策略时就不再需要消耗额外人力物力进行采样。

通过以上分析可以看出，若能够准确地建立一个模拟现实世界的模型，即状态转移模型，就可以很好的解决采样消耗问题。然而，目前的人工智能非常缺乏数据，样本效率低下，在大多数情况下，需要大量的数据才能使最先进的人工智能方法变得有效。强化学习亦是如此，需要对大量进行学习训练才能得到较为精确的模型。对于动态环境中的模型化方法，一种基于高斯过程的模型化策略搜索方法简称PILCO被提出来。PILCO方法要求状态及动作分布必须服从高斯分布，这就直接导致该方法的泛化性能并没有很好，对于实际操作中的状态分布和动作分布，我们不可能提前知道或者规定其必须服从某一特定分布。随后，又有人提出一种基于最小二乘法条件概率密度估计(LSCDE)的策略搜索方法，该方法对状态即动作分布没有任何要求，然而，LSCDE方法需要首先人工提取感知状态的特征，再进行状态转移函数及策略的学习。面对小规模环境中的低维度状态，依靠专家知识还是可靠的。然而，现实中通常面临的环境是连续的、复杂的、高维的，面对大规模动态环境，专家难以提供准确的状态特征表示。特别地，当高维数据的支撑集很小时，仍然直接对高维数据进行处理的方式就会导致大量资源浪费，甚至对结果产生较大影响。因此，该方法在实际应用所面对的大规模环境中又受到局限。

综上所述，虽然针对模型化的策略搜索学习方法已有了一定的研究成果，但是，并仍不能有效地解决实际应用中的现实问题。因此，有必要根据实际应用需求，在采集样本预算一定的情况下，为实际应用所面对的大规模复杂环境提供一种有效的模型化策略搜索学习方法。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于生成模型的隐空间模型化策略搜索学习方法，解决高维空间中数据难处理问题以及在样本采集预算不足或可利用样本较少的情况下可实际应用的模型化策略搜索强化学习问题。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于生成模型的隐空间模型化策略搜索学习方法，包括以下步骤：

步骤1、收集环境的真实状态转移样本数据；

步骤2、构造变分自编码器网络模型，该变分自编码器网络模型包括编码器和解码器；

步骤3、利用步骤1收集的真实状态样本数据训练变分自编码器网络模型直至收敛；

步骤4、在隐空间构建条件生成对抗网络模型，该对抗网络模型包括生成器和判别器；

步骤5、利用编码器输出的隐空间中的样本数据和真实状态转移样本数据训练条件生成对抗网络模型直至收敛，得到隐空间中的状态转移预测模型；

步骤6、利用隐空间中的状态转移预测模型及当前策略生成数量足够多的路径样本；

步骤7、利用步骤6得到的路径样本更新策略搜索强化学习算法中策略模型的参数；

步骤8、重复步骤6及步骤7，直到策略模型的参数更新收敛为止。

所述变分自编码器网络模型及条件生成对抗网络模型均为生成模型。

所述步骤1收集的真实状态转移样本标记为其中，(s_m,a_m)表示当前状态下的状态及动作对，s′_m表示发生状态转移后的状态，m表示样本号，M表示样本个数。

所述编码器的输出为隐空间中的样本数据，编码器用来对数据进行特征提取；所述解码器的输出为与真实样本数据高度相似的数据。

所述条件生成对抗网络模型中的生成器用来将随机噪声和一个限制变量相连接后映射成一个与真实训练数据分布相似的样本；所述条件生成对抗网络模型中的判别器采用分类器估计输入到分类器中的数据是来自真实训练数据还是来自生成器生成的类似真实训练数据的概率，如果是样本来自生成器生成的数据，判别器输出小概率，反之，则输出大概率。

所述步骤6得到的路径样本标记为路径数据为h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中，T表示该路径的长度，N表示生成样本个数。

所述步骤7中的策略搜索强化学习算法为近似策略优化算法。

本发明的优点和积极效果是：

1、本发明设计合理，其通过变分自编码器网络模型将高维空间中的训练数据映射到低维空间，然后在低维空间利用条件生成对抗网络学习状态转移模型，利用学到的低维空间中的状态转移模型生成数据并进行策略的学习。通过环境的状态转移模型，在学习策略时就不需要额外的花费进行样本的采样，因此，本发明不仅可以对高维空间进行降维，节省内存，加快数据处理速度，而且在给定样本数量较少或采集样本的预算有限的情形下，具有很大优势。

2、本发明利用变分自编码器网络模型的降维能力和条件生成对抗网络模型的捕捉数据分布能力来模型化状态转移函数，并在此基础上进行策略搜索的方法，既可以解决高维数据很难直接处理的问题，减少内存消耗，又可以高效地解决样本数量较少或采样预算不足的难题。

3、本发明的整个过程可以概述为在隐空间利用条件生成对抗网络学习得到状态转移预测模型，然后进行策略搜索，本发明采用的策略搜索学习算法结构简单，能够自动调整参数空间步长来达到策略空间均匀变化的目的，而且在一次采样后，可以多次更新策略参数，提高样本利用率。

附图说明

图1为本发明的状态转移函数预测方案图；

图2为本发明的整个模型化策略搜索学习方法原理图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

在本实施例中，将智能体与环境之间的交互过程用马尔可夫决策过程(MDP)来描述:(S,A,P_T,P_I,r,γ)，其中，S为状态空间；A为动作空间，状态S和动作A均可以为离散空间，也可以是连续空间，取决于具体问题；P_T(s_t+1|s_t,a_t)为在当前状态s_t下执行动作a_t后，转移到下一状态s_t+1的状态转移概率密度；P_I(s)为初始状态s₁的概率；r(s_t,a_t,s_t+1)为在当前状态s_t下执行动作a_t后转移到下一状态s_t+1的瞬时奖赏；0＜γ＜1为未来奖赏折扣因子。

在强化学习框架中，一个智能体(agent)与环境(environment)进行交互，从而学习到它(智能体)在任意给定的环境中的状态(state)下需要选择怎样的动作(action)才能最大化它的长期奖励(reward)。在MDP动态过程为：首先，某智能体(agent)从初始状态概率分布p(s₁)中随机选择状态s₁后根据当前策略π(a₁|s₁,θ₁)选择动作a₁，然后智能体根据状态转换函数p(s₂|s₁,a₁)从状态s₁随机转换到s₂，获得此次状态转移的瞬时奖赏r(s₁,a₁,s₂)。此过程重复T次，得到一条路径此处的T为时间步长，策略函数为在当前状态s_t和策略参数θ下采取动作a_t的概率密度函数。当得到一条路径后，便可计算该路径的累积回报：其中γ是折扣因子,通常0≤γ＜1。根据马尔科夫性质，一条路径的概率为用累积回报的期望来衡量一个策略，累积回报期望表示为J(θ)＝∫R(h)p(h|θ)dh。强化学习的目标是找到最优策略，从而最大化期望累积回报。此类直接寻找策略最优参数的强化学习方法就是策略搜索算法。

本发明在上述数学模型及目标函数的基础上，通过运用变分自编码器的降维性能，将复杂的高维空间映射到便于数据处理的低维空间，然后在低维空间学习状态转移函数，在低维空间学习深度策略模型来解决学习样本不足时大规模环境中复杂任务的序列决策问题。本发明的设计思路为：在当前高维状态下，经过编码器En映射到低维空间中，得到低维空间的状态，在低维空间中使用条件生成对抗网络来学习状态转移函数，将生成器学到的低维空间中的下一状态解码到高维空间即得到高维空间下的下一状态，另外使用KL距离作为损失函数微调状态转移函数使得训练得到的下一状态与真实分布的下一状态高度相似。该模型训练收敛后，利用编码器和生成器可直接用来生成状态转移样本。然后利用生成的训练样本构建泛化能力强的策略模型；最终利用策略搜索学习算法进行策略参数的学习，从而得到最终研究方案。

基于上述设计思路，本发明首先将收集到的高维样本数据通过一种生成模型映射到隐空间，得到隐空间样本数据；其次在隐空间通过另一种生成模型对上述隐空间样本数据进行建模，构建隐空间中的状态转移模型；最后结合策略搜索学习算法与上述状态转移模型在隐空间寻找最优策略参数，进行策略搜索。具体方法包括以下步骤：

步骤1、收集环境的真实状态转移样本数据。

本发明利用变分自编码器在降维方面的良好性能，和生成对抗网络在生成复杂数据方面的优势，从模型化强化学习的角度解决学习样本不足带来的瓶颈问题。因此，需要收集环境的真实状态转移样本，将真实状态转移样本标记为：其中，(s_m,a_m)表示当前状态下的状态及动作对，s′_m表示发生状态转移后的状态，m表示样本号，M表示样本个数。

步骤2、构造变分自编码器网络模型。

本步骤构造的变分自编码器网络模型属于生成模型，该变分自编码网络模型由编码器(Encoder)和解码器(Decoder)组成，编码器用来降维，解码器用来升维。编码器的输出为隐空间中的样本数据，解码器的输出为与真实样本数据高度相似的数据。

在变分自编码器网络模型中，编码器用来降低真实数据分布的维度，将高维的真实数据分布映射到一个隐空间，该隐空间的维度远远小于真实数据分布维度，与支撑集维度大致相等；解码器用来将从隐空间采样得到的样本映射到高维空间，得到与高维真实数据分布相似的欺骗样本。

步骤3、利用步骤1收集的真实状态样本训练变分自编码器网络直至收敛，最终训练得到的解码器的输出，与步骤1收集的真实状态样本相似或高度相似时为该模型达到最佳收敛状态。

步骤4、在隐空间构建条件生成对抗网络模型。

本步骤生成对抗网络模型属于生成模型，生成对抗网络由生成模型(Generativemodel，生成器G)和判别模型(Discriminative model，判别器D)组成。生成器G用来捕捉真实数据分布，判别器用来判别输入的数据时真实数据还是生成器输出的生成数据。此外，由于环境中的状态转移函数P_T(s_t+1|s_t，a_t)是一个条件概率密度函数，因此本发明采用条件生成对抗网络(CGAN)，其中的条件设定为当前状态(s_t,a_t)。

在本步骤中，生成器将随机噪声和某一限制变量相连接后映射成一个与真实训练数据分布相似的样本；判别器采用分类器，估计输入到分类器中的数据是来自真实训练数据还是来自生成器生成的类似真实训练数据的概率，如果样本来自生成器生成的数据，判别器输出小概率，反之，则输出大概率。

在以上步骤中，对于编码器、解码器和生成器及判别器的网络模型，可根据状态变量的特性进行选择。

步骤5、利用步骤2得到的隐空间样本数据和真实状态转移样本数据训练条件生成对抗网络直至收敛，训练得到的生成器就是隐空间中的状态转移预测模型。

步骤6、利用步骤5提到的状态转移预测模型及当前策略生成数量足够多的路径样本。

本步骤得到的路径样本标记为路径数据为h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中，T表示该路径的长度，N表示生成样本个数。

步骤7、利用步骤6得到的路径样本更新策略搜索强化学习算法中策略模型的参数。

本步骤中，策略搜索强化学习算法为近似策略优化算法(PPO)，即采用已经成熟的PPO算法来寻找最优参数θ_a及θ_h。

上述利用策略搜索学习算法进行策略参数的学习过程如图2所示。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于生成模型的隐空间模型化策略搜索学习方法，其特征在于包括以下步骤：

步骤1、收集环境的真实状态转移样本数据；

2.根据权利要求1所述的基于生成模型的隐空间模型化策略搜索学习方法，其特征在于：所述变分自编码器网络模型及条件生成对抗网络模型均为生成模型。

3.根据权利要求1所述的基于生成模型的隐空间模型化策略搜索学习方法，其特征在于：所述步骤1收集的真实状态转移样本标记为其中，(s_m,a_m)表示当前状态下的状态及动作对，s′_m表示发生状态转移后的状态，m表示样本号，M表示样本个数。

4.根据权利要求1所述的基于生成模型的隐空间模型化策略搜索学习方法，其特征在于：所述编码器的输出为隐空间中的样本数据，编码器用来对数据进行特征提取；所述解码器的输出为与真实样本数据高度相似的数据。

5.根据权利要求1所述的基于生成模型的隐空间模型化策略搜索学习方法，其特征在于：所述条件生成对抗网络模型中的生成器用来将随机噪声和一个限制变量相连接后映射成一个与真实训练数据分布相似的样本；所述条件生成对抗网络模型中的判别器采用分类器估计输入到分类器中的数据是来自真实训练数据还是来自生成器生成的类似真实训练数据的概率，如果是样本来自生成器生成的数据，判别器输出小概率，反之，则输出大概率。

6.根据权利要求1所述的基于生成模型的隐空间模型化策略搜索学习方法，其特征在于：所述步骤6得到的路径样本标记为路径数据为h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中，T表示该路径的长度，N表示生成样本个数。

7.根据权利要求1所述的基于生成模型的隐空间模型化策略搜索学习方法，其特征在于：所述步骤7中的策略搜索强化学习算法为近似策略优化算法。