一种面向大规模环境中复杂任务的深度策略学习方法
技术领域
本发明属于机器学习领域,主要涉及到强化学习算法,尤其是面向连续状态动作空间的策略搜索强化学习算法。
背景技术
强化学习(Reinforcement learning,简称RL)作为机器学习领域的重要学习方法,主要研究智能体如何根据当时的环境做出较好的决策,被认为是真实世界的缩影,是最有希望实现人工智能这个目标的研究领域之一。
强化学习描述的是智能体为实现任务而连续作出决策控制的过程,它不需要像监督学习那样给定先验知识,也无需专家给定准确参考标准,而是通过与环境交互来获得知识,自主地进行动作选择,最终找到一个适合当前状态下最优的动作选择策略,获得整个决策过程的最大累积奖赏。为了实现强化学习的目标,要求智能体能够对周围环境有所认知,理解当前所处状态,根据任务要求作出符合环境情境的决策动作。
强化学习为整个社会实现真正智能化提供了有力技术支撑,是智能系统开发者备受关注的研究热点。目前已有方法多数是面向小规模具体环境的特定控制问题,但实际应用中往往面临的是大规模不确定环境中的复杂决策问题,现有强化学习方法存有如下局限:
(1)面对大规模环境的局限性
强化学习的核心是动作选择策略,即状态到动作的映射。智能体对周围环境的正确认知与理解是得到最优策略的前提条件,只有智能体明确在所处环境下的状态,才能做出相应的决策判断。因此,对于学习系统而言,状态表示很大程度上决定了算法的性能。为了解决智能体对状态的理解,现有方案通常是根据专家知识,人工提取感知状态的特征,输入到系统进行策略的优化学习。面对小规模环境中的低维度状态,依靠专家知识还是可靠的。然而,现实中通常面临的是大规模动态环境,如无人驾驶车在行驶中随时会出现其他车辆甚至伴随事故发生,无人驾驶车感知的状态是通过多个传感器得到的图像、位置甚至是音频信号,此时环境中的状态是连续的、复杂的、高维的。这种具有连续的、复杂的、高维度状态的环境可被称为大规模环境。面对大规模动态环境,专家难以为强化学习系统的输入提供准确的状态特征表示。因此,人工设计状态变量使得强化学习在实际应用中受到局限。
(2)面对复杂任务的局限性
强化学习领域主要有两种学习方法:一种是能够有效地解决离散动作空间问题的策略迭代算法;另一种是解决连续动作空间问题的策略搜索算法。策略迭代算法是早在20世纪80年代末就被提出且得到广泛使用的传统强化学习算法,此类算法首先要计算每个状态-动作对的值函数(Value function),然后根据计算的值函数贪婪地选择值函数最大的动作。策略迭代算法能够有效地解决离散状态动作空间问题。面对连续状态空间问题,启发式的方法是网格离散化状态空间。然而,当状态空间过大时,网格化无法遍历整个状态空间,即遭遇了“维度灾难”问题。面对此问题,可以通过值函数估计来解决连续状态问题,但是由于值函数的极度非凸性,难以在每一个时间步骤都通过最大化值函数来选择动作。毋容置疑,现实世界中面临的通常是具有连续动作空间的决策问题,绝不像游戏中“上、下、左、右”如此简单的离散动作。对于处理连续动作问题的策略搜索方法,通常根据特定任务设计低维空间中的专有策略模型,再利用学习算法优化模型中的参数。这种为特定任务设计的策略模型,需要探索的策略参数空间明显减小,从而减轻学习任务,提高学习效率。然而,这种策略模型的表达能力十分有限,泛化能力也受到质疑,如为机器人在平稳地段直立行走设计的策略模型,难以直接迁移到崎岖地段使用。此外,专有策略模型受限于专家知识,若未对专家处理复杂任务的知识模型化,就无法设计专有策略模型。由此可见,此类方法不适用于解决现实世界中具有连续动作空间的决策问题。因此,面对复杂决策任务,摆脱专有策略模型,设计通用策略模型是策略搜索算法得以成功应用的关键所在。
目前已有的强化学习算法或多或少都存在以上局限性,很难找到一套完整的强化学习方案解决实际应用中的现实问题。因此,有必要根据实际应用需求,为大规模环境下实现复杂决策任务而设计一套研究方案。
近几年,深度神经网络作为最引人关注的机器学习问题已经被广泛应用于复杂问题的高维度数据建模中,其对高维数据的表示能力已经在包括自然语言处理、语音识别、机器视觉和信息检索等领域得到证明。正是深度神经网络对高维数据非凡的特征抽取及表达能力为强化学习中状态变量的自动表示带来了曙光,然而由于强化学习与其他学习方法本质上的不同,使得深度学习在该领域的研究成果十分有限。这恰恰是本专利的发明动机之一。然而,有了大规模状态自动表示技术后,已有方案依然无法直接应对真实环境中具有连续动作空间的复杂决策任务。
综上所述,针对执行复杂任务的策略搜索强化学习方法已有了一定的研究成果。但是,并没有一个完整的理论方案能够有效解决大规模环境中的复杂任务。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种适用于大规模环境中复杂任务的实用型策略搜索强化学习方法。
本发明解决技术问题所采用的技术方案是:
一种面向大规模环境中复杂任务的深度策略学习方法,通过深度神经网络描述智能体感知的状态变量,构建具有深度递归型结构的策略模型,利用策略搜索学习算法寻找最优参数,对神经网络进行训练,直到收敛为止。
而且,所述的深度神经网络是处理多模态数据中各不同模态数据子神经网络的融合,包括处理图像数据的卷积神经网络、处理位置数据的子神经网络、处理音频数据的子神经网络。
而且,所述的深度递归型结构的策略模型为具有长时记忆结构的递归型神经网络策略模型。
而且,所述的策略搜索学习算法为REINFORCE或PGPE算法。
本发明拟利用策略搜索强化学习算法应对大规模环境下复杂任务的序列决策问题,最终构建一套适用于大规模环境中复杂任务的实用型策略搜索强化学习系统理论体系。在此系统中,首先对智能体感知的环境状态进行自动特征表示学习,然后构建泛化能力强的策略模型,将高维度状态表达与策略模型进行整合,最终利用策略搜索学习算法进行策略参数的学习,从而得到最终研究方案,整体研究方案如图1所示。其中,状态的自动表示及深度策略模型的具体技术方案如下:
1)大规模环境中高维状态自动表示研究
智能体直接通过传感器得到的状态来学习动作选择策略,是强化学习领域中长期的挑战。在应用中,大多数通过专家手工设计状态变量的特征从而进行策略学习。显而易见,状态特征描述的好坏直接影响到学习策略的性能。由于深度学习对于原始传感器复杂数据高水平高层次的抽象描述,使其在计算机视觉及语音识别方面得到成功应用。本发明预借助于深度学习对高维数据的抽象和分布式表示的能力,从自动特征表示学习的角度应对大规模环境带来的挑战。
为了对大规模环境中的高维度状态变量进行有效描述,同时为了减小后续策略学习成本,本发明根据强化学习状态变量的数据特性,对深度神经网络中的卷积神经网络的基础上进行改良,创造一个符合强化学习数据特性的深度网络来表述环境中的状态变量。具体思路为:由于环境中传感器带来的多模态数据属性,本项目将擅长处理图像的卷积神经网络(CNN)与处理其他数据类型的神经网络进行整合,从而得到完整的状态表示方法,使得智能体能够直接对来自传感器的高维状态变量进行处理。深度神经网络对多模态状态变量的表示方案如图2所示。
2)复杂任务的深度递归型神经网络策略模型研究
在传统的策略搜索强化学习方法中,策略模型都是专家根据先验知识为特定任务专门设定的低维空间策略模型。但是,以往的这些策略模型表现力十分有限,难以泛化到复杂的任务中。强化学习中的泛化能力要求学习的策略在无需额外训练的情况下能够迁移地应用到其他领域中。为了满足上述的泛化能力,本项目将利用高度非线性的递归型神经网络作为策略模型,以此得到更具泛化能力及知识转移能力的深度策略模型。
但是,在强化学习领域中应用深度神经网络具有一定难度:首先,强化学习不具备大量带有标签的训练数据,只有一个标量奖惩信号,且该信号通常是稀疏的、有延迟的、高噪声的;另一难题是,深度神经网络中的数据通常是独立同分布的,而强化学习中由于状态的转移,数据是高度相关的;最后,强化学习中数据的分布是随着策略的更新而变化的,不像深度学习那样假设存在一个确定的数据分布。基于上述难点,本发明提出使用与时间信息相关的深度神经网络递归型神经网络(RNN)作为策略模型。然而,一般的RNN只考虑短时间内的相关性,而强化学习的一个序列通常时间较长,因此本发明利用具有长时记忆结构的递归型神经网络(LSTM)作为策略的模型。LSTM结构的一大特点是具有一系列记忆功能的单元,可将之前的序列作为记忆单元的输入,由此,构建一个输入为当前状态与记忆序列的组合,输出为采取某动作的概率密度的递归神经网络,从而为复杂任务的连续动作空间问题提供策略模型。深度策略的模型采用如图3所示的递归型神经网络。
本发明的优点和积极效果是:
大规模环境下针对复杂决策任务,利用深度神经网络的高度抽象及分布式表达能力描述智能体感知的状态变量并构建具有深度递归型结构的策略模型,是第一个能够系统地解决大规模环境中复杂决策问题的完整强化学习方案。具体而言,本发明最终可实现的有益效果如下:
1)将深度神经网络应用到强化学习系统中的状态感知,实现多模态状态变量自主表示,提高学习性能,并减轻策略学习负担。
2)状态的自动表示为实际应用中智能体对于环境理解提供技术支持,更大程度地提高了智能系统的自动化,为进一步实现智能环境感知做出贡献。
3)构建具有深度递归型结构的策略模型,使其能够表达复杂度较高的决策任务,从而打破传统强化学习方法中只针对特定任务设计的低维空间中策略模型的局限性,极大地提高了决策系统的表达能力。
4)深度策略模型具有较强的泛化能力,能够将所学模型通过简单变换迁移到其他相似任务中,提高了智能系统自主学习的泛化能力,同时提高了学习系统的通用性。
综上所述,本发明提出一套面向连续动作空间无需专家参与的高度自动化、泛化能力强的完整策略搜索强化学习框架,为人工智能的发展提供良好的技术支撑。
附图说明
图1为本方法的研究方案图;
图2为自动表示高维状态变量的深度神经网络模型图;
图3为深度递归型策略模型图。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
在本发明所述的面向大规模环境复杂任务的强化学习方案的实施过程中,将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP),它可以用一个四元组来表示(S,A,PT,PI,r,γ):其中S表示连续的状态空间,A为连续的动作空间,PT(st+1|st,at)表示在当前状态st下采取动作at后转移到下一个状态st+1的状态转移概率密度函数,PI(s1)为智能体的初始状态概率密度函数,r(st,at,st+1)表示智能体因采取动作而发生状态转移的立即回报,γ∈[0,1]为折损因子。具体过程为:智能体在当前感知的状态下,根据随机策略函数选择动作at∈A,然后转移到状态st+1,并接收到一个立即回报r(st,at,st+1)。策略函数为在当前状态和策略参数θ下采取动作at的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本,得到一个路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度。该路径的累计回报表示为根据马尔科夫性质,一个路径的概率为智能体的期望回报可表示为J(θ)=∫R(h)p(h|θ)dh。整个任务最终学习的目标是学习一个最优的策略参数以最大化期望回报,此类直接寻找策略最优参数的强化学习方法就是策略搜索算法。
本发明以上述的数学模型及目标函数为基础上,通过高维状态的自动描述及深度策略模型来应对大规模环境下复杂任务的序列决策问题,整体研究方案如图1所示。在此系统中,首先对智能体感知的环境状态进行自动特征表示学习(即的表示),然后构建泛化能力强的策略模型(即),将高维度状态表达与策略模型进行整合,最终利用策略搜索学习算法进行策略参数的学习,从而得到最终研究方案。其中每个步骤的具体实施方案如下:
1)大规模环境中高维状态自动表示的实施方案
本项目预借助于深度学习对高维数据的抽象和分布式表示的能力,从自动特征表示学习的角度应对大规模环境带来的挑战。由于环境中传感器带来的多模态数据属性,本项目将擅长处理图像的卷积神经网络与处理其他数据类型的神经网络,如来自传感器的语音信息、位置信息、角度信息等数据进行整合,从而得到完整的状态表示方法,使得智能体能够直接对来自传感器的高维状态变量进行处理。
大规模环境中表达状态变量的深度神经网络模型如图2所示:其中原始状态是一个多种模态的变量,表示为例如图2所示实例,机器人的任务是控制虚拟环境中的倒立摆,这里通过多个传感器得到的原始状态信息为机器人的视觉ot、各个关节的角度xt、各个关节的角速度对于视觉型变量ot我们利用卷积神经网络来表示,并将其标记为具有权值的卷积神经网络;其他实数型的状态变量则通过一般的多层网络构建,其各自神经网络权值分别记为与最终将多个网络进行整合,网络输出就是该深度网络所表达的状态变量我们将描述状态变量的整体深度神经网络标为其需要学习的参数为θs。
2)复杂任务的深度递归型神经网络策略模型的实施方案
为了实现复杂任务,本发明提出利用高度非线性的递归型神经网络作为策略模型,以此得到更具泛化能力及知识转移能力的深度策略模型。
深度神经网络中的数据通常是独立同分布的,而强化学习中由于状态的转移,数据是高度相关的;最后,强化学习中数据的分布是随着策略的更新而变化的,不像深度学习那样假设存在一个确定的数据分布。基于此原因,本发明提出使用与时间信息相关的深度神经网络递归型神经网络(RNN)作为策略模型。然而,一般的RNN只考虑短时间内的相关性,而强化学习的一个序列通常时间较长,因此本项目将利用具有长时记忆结构的LSTM作为策略的模型。LSTM结构的一大特点是具有一系列记忆功能的单元,可将之前的序列作为记忆单元的输入,由此,构建一个输入为当前状态与记忆序列的组合,输出为采取某动作的概率密度的递归神经网络,从而为复杂任务的连续动作空间问题提供策略模型。整体结构图如图3所示:图中ht表示网络记忆的历史序列,即状态是否保留是由所决定;表示策略模型,其输出π(at|ht)表示在记忆序列ht下产生动作at的概率密度。因此,整个递归型深度策略模型的参数为θa及θh。
3)利用策略搜索学习算法进行策略参数的学习
对于此部分的实施,本发明将采用已经成熟的REINFORCE或PGPE算法作为寻找最优参数θs,θa及θh的策略搜索算法,对图2及图3的深度神经网络进行训练,直到收敛为止。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。