CN107909153A

CN107909153A - 基于条件生成对抗网络的模型化策略搜索学习方法

Info

Publication number: CN107909153A
Application number: CN201711187411.6A
Authority: CN
Inventors: 赵婷婷; 孔乐; 杨巨成; 胡志强; 任德化
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-13

Abstract

本发明涉及一种基于条件生成对抗网络的模型化策略搜索学习方法，其技术特点是包括以下步骤：收集环境的真实状态转移样本；构造条件生成对抗网络模型，该条件生成对抗网络模型包括生成器与判别器；利用真实状态转移样本训练条件生成对抗网络直至收敛，最终训练得到的生成器为环境状态转移预测模型；生成数量足够多的路径样本；利用路径样本更新策略搜索强化学习算法中策略模型的参数，直到策略模型的参数更新收敛为止。本发明设计合理，当得到了环境模型的生成器后，在学习策略时不再需要额外的花费进行样本的采样，能够系统有效地解决大规模环境中复杂决策问题。

Description

基于条件生成对抗网络的模型化策略搜索学习方法

技术领域

本发明属于机器学习技术领域，涉及到强化学习算法，尤其是一种基于条件生成对抗网络的模型化策略搜索学习方法。

背景技术

强化学习(Reinforcement learning，简称RL)作为机器学习领域的重要学习方法，主要研究智能体如何根据当时的环境做出较好的决策，被认为是真实世界的缩影，是最有希望实现人工智能这个目标的研究领域之一。

强化学习描述的是智能体为实现任务而连续做出决策控制的过程，它不需要像监督学习那样给定先验知识，也无需专家给定准确参考标准，而是通过与环境交互来获得知识，自主地进行动作选择，最终找到一个适合当前状态下最优的动作选择策略，获得整个决策过程的最大累积奖赏。为了实现强化学习的目标，要求智能体能够对周围环境有所认知，理解当前所处状态，根据任务要求做出符合环境情境的决策动作。

在国内外已有的研究中，强化学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计，策略是建立在估计的价值函数基础上；策略搜索算法直接通过最大化累积回报来学习最优策略。策略迭代算法能够解决离散的状态动作空间问题，但是此类算法的策略函数是通过价值函数间接得来的，价值函数中的微小变化可能导致策略函数的巨大变化，对物理系统的稳定具有一定威胁性；此外，由于价值函数的极度非凸性，难以在每一个时间步骤都通过最大化价值函数来选择动作，因此，此类方法不适用于解决大规模连续动作空间问题。策略搜索通过目标函数直接最优化策略函数，此类算法非常适用于大规模环境中具有连续状态及动作空间的决策控制问题。

现有的强化学习方法，尤其是面向大规模环境空间的策略搜索算法需要大量的学习样本才能得到准确稳定的策略。而收集大量的学习样本则恰恰是强化学习在实际应用中的一个瓶颈问题，因为收集样本往往非常耗时耗力耗材。为了解决这个实际存在的瓶颈问题，有效利用学习样本的重要性便突显出来。重要采样技术是能够重复利用已有样本的一种有效方法，该技术允许我们利用来自不同于当前策略分布的采样样本进行梯度估计，从而能重复利用已收集过的样本且能够保证估计子的一致性。但是，盲目地使用重要采样技术使得策略更新时估计子的方差变大，从而降低算法稳定性及收敛率。此外，当采样样本的花费额度给定时，重复利用学习样本的学习方法需要提前确定采样方案，即一次性采样所有样本，或每个阶段只采样少量样本进行学习。通过进一步地对重复利用学习样本技术深入研究发现，样本方案的选择对算法的性能有直接影响。然而，提前确定样本方案是不切实际的。

上述解决方案均属于无模型方法范畴。所谓无模型方法是指策略的学习是不需要明确的环境(状态转移函数)信息，与之相对应的是模型化学习方法，即事先学习环境中状态转移模型，再利用学到的环境模型生成数据进行策略的学习。一旦得到了环境模型的表达式，学习策略时该类方法就不再需要额外的花费进行样本的采样。可见，模型化强化学习方法不存在提前确定样本方案的问题。由此可见，当样本采集的预算有限，或样本数量较少时，模型化学习方法是一个很好的选择。

如果能准确地估计出未知的环境模型，模型化学习方法便占有很大的优势。然而，利用有限的样本个数得到多维连续状态动作空间下的准确模型是极具挑战的。虽然已有研究提出一种不需要准确的状态转移函数的模型化方法，该方法只适用于静态环境，与实际应用相悖。对于面向动态环境的模型化方法，一种基于高斯过程的模型化策略搜索方法被提出来，简称PILCO。PILCO要求状态及动作服从高斯分布，该要求使得此方法在实际应用是受到限制。又有一种基于最小二乘法条件概率密度估计(LSCDE)的策略搜索方法，该方法对状态及动作的分布没有要求，可以学习多模态的状态转移函数，且具有很强的理论保证。然而，LSCDE方法需要首先人工提取感知状态的特征，再进行状态转移函数及策略的学习。面对小规模环境中的低维度状态，依靠专家知识还是可靠的。然而，现实中通常面临的环境是连续的、复杂的、高维的，面对大规模动态环境，专家难以提供准确的状态特征表示。因此，该方法在实际应用所面对的大规模环境中又受到局限。

综上所述，虽然针对模型化的策略搜索学习方法已有了一定的研究成果，但是，并仍然不能有效地解决实际应用中的现实问题。因此，有必要根据实际应用需求，在采集样本预算一定的情况下，为实际应用所面对的大规模复杂环境提供一种有效的模型化策略搜索学习方法。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于条件生成对抗网络的模型化策略搜索学习方法，解决在样本采集预算不足或可利用样本较少的情况下可实际应用的模型化策略搜索强化学习问题。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于条件生成对抗网络的模型化策略搜索学习方法，包括以下步骤：

步骤1、收集环境的真实状态转移样本；

步骤2、构造条件生成对抗网络模型，该条件生成对抗网络模型包括生成器与判别器；

步骤3、利用步骤1收集的真实状态转移样本训练条件生成对抗网络直至收敛，最终训练得到的生成器为环境状态转移预测模型；

步骤4、利用步骤3得到的生成器及当前策略生成数量足够多的路径样本；

步骤5、利用步骤4得到的路径样本更新策略搜索强化学习算法中策略模型的参数；

步骤6、重复步骤4及步骤5，直到策略模型的参数更新收敛为止。

进一步的，所述步骤1收集的真实状态转移样本标记为其中，(s_m,a_m)表示当前状态下的状态及动作对，s′_m表示发生状态转移后的状态，m表示样本号，M表示样本个数。

进一步的，所述步骤2条件生成对抗网络模型为：生成器捕捉样本数据的分布，用服从某一分布的噪声生成一个类似真实训练数据的样本；判别器采用二分类器，估计一个样本来自于训练数据的概率，如果样本来自于真实的训练数据，判别器输出大概率，否则，判别器输出小概率。

进一步的，所述步骤4得到的路径样本标记为路径数据为h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中，T表示该路径的长度，N表示生成样本个数。

进一步的，所述步骤5中的策略搜索强化学习算法为REINFORCE算法或PGPE算法；所述策略模型为具有深度递归型结构的策略模型。

本发明的优点和积极效果是：

本发明设计合理，其利用生成对抗网络学习环境中状态转移模型，再利用学到的环境模型生成数据并进行策略的学习，在样本采集的预算有限，或样本数量较少时，具有很大优势。一旦得到了环境模型的生成器，在学习策略时不需要额外的花费进行样本的采样。另外，选择具有深度递归型结构的策略作为策略搜索算法中的策略模型，能够系统地有效地解决大规模环境中复杂决策问题。

附图说明

图1为本发明的基于条件生成对抗网络的状态转移函数预测方案图；

图2为本发明的深度递归型策略模型图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

本发明在实施过程中，将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP)，MDP可以用一个元组来表示(S，A，P_T，P_I，r，γ)：其中S表示连续的状态空间，A为连续的动作空间，P_T(s_t+1|s_t，a_t)表示在当前状态s_t下采取动作a_t后转移到下一个状态s_t+1的状态转移概率密度函数，P_I(s₁)为智能体的初始状态概率密度函数，r(s_t，a_t，s_t+1)表示智能体因采取动作而发生状态转移的立即回报，γ∈[0，1]为折损因子。MDP的具体过程为：智能体在当前感知的状态下，根据随机策略函数选择动作a_t∈A，然后转移到状态s_t+1，并接收到一个立即回报r(s_t，a_t，s_t+1)。策略函数为在当前状态和策略参数θ下采取动作a_t的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本，得到一个路径h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中T表示该路径的长度。该路径的累计回报表示为根据马尔科夫性质，一个路径的概率为智能体的期望回报可表示为J(θ)＝∫R(h)p(h|θ)dh。整个任务最终学习的目标是学习一个最优的策略参数以最大化期望回报，此类直接寻找策略最优参数的强化学习方法就是策略搜索算法。

本实施例是在上述数学模型及目标函数的基础上，通过环境中状态转移的学习及深度策略模型来应对学习样本不足时大规模环境中复杂任务的序列决策问题。本发明的设计思路为：首先利用条件生成对抗网络(A-GAN)学习环境中状态转移模型，用学到的生成器产生策略学习所需的生成样本；然后构建泛化能力强的策略模型；最终利用策略搜索学习算法进行策略参数的学习，从而得到最终研究方案。其中每个步骤的具体实施方案如下：

(1)利用条件生成对抗网络学习环境中的状态转移，用学到的生成器产生策略学习所需的生成样本。

本发明预借助生成对抗网络在生成复杂数据方面的优势，从模型化强化学习的角度解决学习样本不足带来的瓶颈问题。因此，需要收集真实状态转移样本：其中，(s_m,a_m)表示当前状态下的状态及动作对，s′_m表示发生状态转移后的状态，m表示样本号，M表示样本个数

生成对抗网络由生成模型(Generative model，生成器G)和判别模型(Discriminative model，判别器D)组成，如图1所示。生成器G捕捉样本数据的分布，用服从某一分布的噪声z生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别器D是一个二分类器，估计一个样本来自于训练数据的概率，如果样本来自于真实的训练数据，D输出大概率，否则，D输出小概率。此外，由于环境中的状态转义函数P_T(s_t+1|s_t，a_t)是一个条件概率密度函数，因此本发明采用条件生成对抗网络(A-GAN)，其中的条件设定为当前状态(s_t,a_t)。

对于生成器及判别器的网络模型，可以根据状态变量的特性进行选择：如采用卷积神经网络处理图像信息，用递归型神经网络处理语音数据，或用多种网络模型的整合处理环境中传感器带来的多模态数据。

(2)构建泛化能力强的策略模型

为了实现大规模环境中的复杂任务，本发明实施中使用高度非线性的递归型神经网络作为策略模型。由于强化学习中由于状态的转移，数据是高度相关的；而且，数据的分布是随着策略的更新而变化的，因此本发明使用与时间信息相关的深度神经网络递归型神经网络(RNN)作为策略模型。然而，一般的RNN只考虑短时间内的相关性，而强化学习的一个序列通常时间较长，因此本专利将利用具有长时记忆结构的网络(LSTM)作为策略的模型。LSTM结构的一大特点是具有一系列记忆功能的单元，可将之前的序列作为记忆单元的输入，由此，构建一个输入为当前状态与记忆序列的组合，输出为采取某动作的概率密度的递归神经网络，从而为复杂任务的连续动作空间问题提供策略模型。策略模型的整体结构图如图2所示：图中h_t表示网络记忆的历史序列，即状态是否保留是由所决定；表示策略模型，其输出π(a_t|h_t)表示在记忆序列h_t下产生动作a_t的概率密度。因此，整个递归型深度策略模型的参数为θ_a及θ_h。

(3)利用策略搜索学习算法进行策略参数的学习

在学生过程中，本发明采用已经成熟的REINFORCE或PGPE算法作为寻找最优参数θ_a及θ_h的策略搜索算法，对图2的LSTM网络进行训练，其过程为：首先需要通过生成器G及当前策略生成数量足够多的路径样本其中路径数据为h＝(s₁，r₁，r₁，s₂，r₂，…，s_T，a_T，r_T)，其中T表示该路径的长度，N表示生成样本个数；然后利用生成的路径样本更新策略搜索强化学习方法中策略模型的参数，直到策略参数更新收敛为止。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于条件生成对抗网络的模型化策略搜索学习方法，其特征在于包括以下步骤：

步骤1、收集环境的真实状态转移样本；

2.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法，其特征在于：所述步骤1收集的真实状态转移样本标记为其中，(s_m,a_m)表示当前状态下的状态及动作对，s′_m表示发生状态转移后的状态，m表示样本号，M表示样本个数。

3.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法，其特征在于：所述步骤2条件生成对抗网络模型为：生成器捕捉样本数据的分布，用服从某一分布的噪声生成一个类似真实训练数据的样本；判别器采用二分类器，估计一个样本来自于训练数据的概率，如果样本来自于真实的训练数据，判别器输出大概率，否则，判别器输出小概率。

4.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法，其特征在于：所述步骤4得到的路径样本标记为路径数据为h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中，T表示该路径的长度，N表示生成样本个数。

5.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法，其特征在于：所述步骤5中的策略搜索强化学习算法为REINFORCE算法或PGPE算法；所述策略模型为具有深度递归型结构的策略模型。