CN102521202B - 面向复杂系统中的maxq任务图结构的自动发现方法 - Google Patents

面向复杂系统中的maxq任务图结构的自动发现方法 Download PDF

Info

Publication number
CN102521202B
CN102521202B CN201110367593.1A CN201110367593A CN102521202B CN 102521202 B CN102521202 B CN 102521202B CN 201110367593 A CN201110367593 A CN 201110367593A CN 102521202 B CN102521202 B CN 102521202B
Authority
CN
China
Prior art keywords
state
maxq
variable
environment
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110367593.1A
Other languages
English (en)
Other versions
CN102521202A (zh
Inventor
王红兵
李文雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201110367593.1A priority Critical patent/CN102521202B/zh
Publication of CN102521202A publication Critical patent/CN102521202A/zh
Application granted granted Critical
Publication of CN102521202B publication Critical patent/CN102521202B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向复杂系统中的MAXQ任务图结构的自动发现方法,步骤包括:首先采用Q‑learning探索环境,搜集动作影响的状态变量;然后调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;凝聚算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。本方法用学习感知到的各种信息建立聚类模型,通过聚类自动构造出MAXQ的任务图,最终实现MAXQ的自动分层。

Description

面向复杂系统中的MAXQ任务图结构的自动发现方法
技术领域
本发明涉及利用计算机解决复杂系统中大规模任务下的分层强化学习的自动分层的方法。
背景技术
目前尚未发现利用计算机通过结合聚类方法对解决大规模任务下的MAXQ自动分层问题。虽然已有一些方法可以解决分层强化学习的分层问题,诸如:瓶颈和路标状态法、共用子空间法、多维状态法和马氏空间法等,这些方法与本发明有着一定的联系,即都是分层强化学习的自动分层领域的问题。但是具体解决的是完全不同的问题,之前的方法大都是基于Option,或是Q-learning等方法,而本人的发明是基于MAXQ方法的分层强化学习。
在各种典型的分层强化学习方法中任务分解和问题表达方式有所不同,但其本质可归结为对马尔科夫决策过程(MDP:Markov Decision Process)划分并抽象出子MDP系列以及在不同层次分别进行学习的模式。微观上,子MDP在各自所处的局部状态空间中学习其内部策略,属MDP;宏观上,将每个子MDP视为一个抽象动作在抽象状态空间中学习最优策略,属半马尔可夫决策过程(SMDP:Semi-Markov Decision Process),各子MDP所处的局部状态空间和抽象后的状态空间维数或规模均低于原MDP状态空间。这种抽象概念的引入,自然导致了强化学习系统的分层控制结构,抽象方法和抽象程度不同,层次结构也随之不同。
Option框架下,允许执行时态拓展动作,显著改变了Agent的学习效率,缩短了强化学习系统中常见的摆动期,Option的设计可以利用先验知识,加速了从学习到相关任务的转移,不过在未知环境中利用先验知识设计Option内部策略是非常困难的。HAM通过限定待学习策略类型简化了MDP,从而提高了强化学习系统的学习效率,由于随机有限状态机的状态转移只需依据部分状态即可确定,所以HAM可以应用到环境部分可观测领域。而MAXQ不直接将问题简化为单个SMDP,而是建立可以同时学习的分层SMDP,MAXQ采用的是让人更易理解的分层学习框架而不是子任务策略,它既包含时态抽象又包含状态抽象,它的特点是子任务与上下文无关,因此,每个子任务都可以用一个SMDP进行建模并且可以并发学习。在标准强化学习收敛条件下,Option、HAM可收敛到最优策略解,MAXQ收敛到递归最优解。MAXQ方法用任务图可以清楚地表达任务的分层结构,而且该方法在线学习能力强,但MAXQ自动分层能力较弱,且经常存在状态空间依然很大的子任务无法继续划分。
发明内容
本发明的目的是提供一种让计算机以类似于人的方式(类似)对分层强化学习的层次结构进行感知,可以达到与人类似的水平。而且本发明利用学习感知到的各种信息建立聚类模型可以达到更高的精度。
本发明提出一种新的解决方法——采用基于动作执行效果的聚类方法DMEA(Clustering Method by the Effect of Action)的面向复杂系统中的MAXQ任务图结构的自动发现方法,该方法通过搜集动作影响的状态变量,分析动作的执行对系统状态的影响,从而抽象出聚类对象,通过执行聚类算法实现MAXQ任务图的自动构造。
在对该方法具体步骤进行描述之前,首先给出相关定义:
(1)MDP由四元组(S,A,R,P)定义,包含一个环境状态集S,系统动作集合A,报酬函数R:S函A→R和状态转移概率P:S转移概率环境状。强化学习的模型图如图1所示;
(2)MAXQ方法将MDP任务分解为子任务集M={M0,M1,…,Mn}以及将策略π分解为策略集合{π0,π1,…,πn},其中,πi是Mi的策略;
(3)子任务形成以M0为根节点的分层结构,称为任务图(Task Graph),解决了M0也就解决了M,要解决M0所采取的动作或者是执行基本动作或者是执行其它子任务,如此依次调用。
本发明的技术方案如下:
一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:
假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态st∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;
强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬Vπ(S)最大或最小,所述0≤γ≤1,其中γ为报酬折扣因子;由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率;
本自动发现方法的步骤包括:
(1)首先采用Q-learning探索环境,搜集动作影响的状态变量;
(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;聚类算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;
(3)得出分层任务图。
所述聚类算法的编程实现步骤如下:
输入:训练集Xk(i)={[Sk,ai,Sk’],Att}
输出:C
其中
具体来说面,本向复杂系统中的MAXQ任务图结构的自动发现方法,首先采用Q-learning探索环境,搜集动作影响的状态变量,搜集的信息包括:
状态Si在执行动作ai后状态Si中状态变量的改变;状态Si在执行动作ai后指向的下一个状态Si’,将Si->ai->Si’这一执行序列记录下来;
将获取的信息表示为Xk(i)={[Sk,ai,Sk’],Att},其中Att记录了状态Sk在执行动作ai后状态Sk中状态变量的改变情况,[Sk,ai,Sk’]则是记录状态Sk在执行动作ai后指向的下一个状态Sk’这一动作;根据MDP已知有n个动作,p个状态,每个动作都可以作用在p个不同的系统状态上,那么将MDP问题映射到聚类模型中,就是已知n个数据对象,也就是聚类对象,每个对象都有p个实数的测量值;
表示第i个对象的观测向量的方法如下:
X(i)={X1(i),X2(i),…,Xp(i)},1<=i<=n,其中X(i)表示第i个对象的观测向量集合,也就是第i个动作ai作用在p个不同状态上的观测集合,该集合里的每一个元素表示动作ai作用在某个状态上的观测向量;
用d(i,j)表示两个数据对象之间的相异性,并满足以下三个条件的不相似尺度:
对于所有的i和j,d(i,j),并且当且仅当i=j时d(i,j)=0;
对于所有的i和j,d(i,j)=d(j,i);
对于所有的i,j和k,d(i,j)<=d(i,k)+d(k,j);
那么对象之间的欧式距离Euclidean distance被定义为:
这个尺度是以变量间的同一公尺度为前提的,如果变量在不同的尺度下,则需要引入数据标准化策略,即用样本的标准差除以每一个变量,以便使所有的变量都可以被看做是具有同等的重要性;
第k个变量的xk标准差μk是xk的均值,于是可以消除尺度不同的影响。
本发明的初衷就是想要模拟根据专家知识库来构建MAXQ任务图的方法,因为这是MAXQ任务图构造的迄今为止使用最广泛的方法,并已经广泛验证了其方法的正确性、有效性。本发明通过获取环境的感知信息,得到动作对状态的影响,建立模型并将其通过聚类自动构建出MAXQ任务图,与传统的构建方法是相一致的,同样也是有效的、正确的。同时由算法产生的状态抽象正确代表递归层次结构的值函数,是安全的。任何任务在任务层次的抽象最大限度地紧凑,不包含冗余的状态变量。
目前针对分层强化学习的分层一般依赖专家知识系统,无法自动生成,尤其是在MAXQ领域,更是鲜有方法可以解决这一问题。本发明提出的框架可以很好的解决大规模任务下的MAXQ自动分层问题,这对分层强化学习的发展也是具有重要意义的。该框架利用学习感知到的各种信息建立聚类模型,通过聚类自动构造出MAXQ的任务图,最终实现MAXQ的自动分层。
附图说明
图1是强化学习模型图。
图2是出租车问题的试验用例。
图3是出租车问题的试验结果。
图4是基于动作执行效果的聚类算法DMEA的流程示意图。
具体实施方式
下面对本发明进行详细说明。
假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…。在每个时刻t,Agent通过观察环境得到状态st∈S。Agent按策略π选择探索动作at∈A并执行。在下一时刻t+1,Agent收到环境给与的强化信号(报酬值)rt+1∈R,并达到新状态st+1∈S。根据强化信号rt+1,Agent改进策略π。强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值(即该状态所获得的总报酬)Vπ(S)最大(或最小),0≤γ≤1,其中γ为报酬折扣因子。由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率。
首先采用Q-learning探索环境,搜集动作影响的状态变量,以便进一步分析动作的执行对系统状态的影响,搜集的信息如下:
●状态Si在执行动作ai后状态Si中状态变量的改变。
●状态Si在执行动作ai后指向的下一个状态Si’,将Si->ai->Si’这一执行序列记录下来。
将获取的信息表示为Xk(i)={[Sk,ai,Sk’],Att},其中Att记录了状态Sk在执行动作ai后状态Sk中状态变量的改变情况,[Sk,ai,Sk’]则是记录状态Sk在执行动作ai后指向的下一个状态Sk’这一动作。根据MDP已知有n个动作,p个状态,每个动作都可以作用在p个不同的系统状态上,那么将MDP问题映射到聚类模型中,就是已知n个数据对象,也就是聚类对象,每个对象都有p个实数的测量值。本发明用以下方法表示第i个对象的观测向量:
X(i)={X1(i),X2(i),…,Xp(i)},1<=i<=n,其中X(i)表示第i个对象的观测向量集合,也就是第i个动作ai作用在p个不同状态上的观测集合,该集合里的每一个元素表示动作ai作用在某个状态上的观测向量。
用d(i,j)表示两个数据对象之间的相异性,并满足以下三个条件的不相似尺度:
对于所有的i和j,d(i,j),并且当且仅当i=j时d(i,j)=0。
对于所有的i和j,d(i,j)=d(j,i)。
对于所有的i,j和k,d(i,j)<=d(i,k)+d(k,j)。
那么对象之间的欧式距离(Euclidean distance)被定义为:
这个尺度是以变量间的同一公尺度为前提的,如果变量在不同的尺度下,则需要引入数据标准化策略,即用样本的标准差除以每一个变量,以便使所有的变量都可以被看做是具有同等的重要性。
第k个变量的xk标准差μk是xk的均值,于是可以消除尺度不同的影响。
在所有的聚类算法中凝聚方法是把距离最近的聚类融合起来以降低聚类的数量,重复这个过程,每次都把两个最邻近的聚类融合,直到仅有一个包括所有数据点的聚类。那么这个过程的起点是每个聚类仅含有一个数据点的初始聚类,也就是要从被聚类的n个点开始。凝聚层次聚类是一个自下而上的方法,从聚类过程上很接近人工构造任务图的过程,并且聚类的过程就是具有层次结构的,十分类似任务图中子任务的合并到根任务的过程,因此本发明采用这种聚类方式加以适当改造,用来解决自动分层问题。
本发明以出租车问题为例进行试验已验证算法的有效性,如图2所示,在15x21二维有障碍栅格环境中有7个站台(P1,P2,…,P7),其中的灰色栅格表示障碍。在每个学习任务中,出租车随机选择一个栅格作为起点,有1位乘客位于7个站台之一(起点),该乘客的目的地也是7个站台之一(终点),不失一般性,乘客的起终点都是随机选择的,且允许重叠。出租车需要先到达起点,接载乘客,然后到达终点,卸载乘客。对于出租车而言,站台分布情况已知,但是环境中的障碍物分布情况未知,需要逐步探明。
出租车有6个基本动作:上行、下行、左行、右行4个行使动作和上客、下客2个动作,行驶动作每次移动一个栅格。每个动作都是确定的,执行后会得到值为-1的奖赏(可以理解为损耗),若成功完成载客任务,则会获得值为+100的奖赏,如果出租车错误的执行基本动作,则将得到值为-50的奖赏(相当于惩罚)。
此案例的状态空间大小为15x21x8x7=17640,其中15x21为出租车可能位置数,8为乘客的可能位置数(或在出租车上,或在某个站台上),7为乘客的目的地数(7个站台);动作空间大小为6;从而策略空间的大小为617640≈764013726。
本例的分别试验了三种算法:Q-Learning、HI-MAT、DMEA,并给出三种算法的执行对比,如图3所示。从图中可以看出,DMEA对HI-MAT有所改进,加快了相同领域的学习速率。由于HI-MAT对于动态贝叶斯网和成功轨迹的依赖,使得HI-MAT具有至少2个缺陷:(1)构造动态贝叶斯网将消耗巨大的代价,降低整体效率;(2)由于只根据一条的成功轨迹,由此带来的信息缺失将使得构建的任务图的适用范围缩小。

Claims (2)

1.一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:
假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态st∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;
强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬Vπ(S)最大或最小,所述其中γ为报酬折扣因子;由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率;
其特征是本自动发现方法的步骤包括:
(1)首先采用Q-learning探索环境,搜集动作影响的状态变量;
(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;聚类算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止;其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;
(3)得出分层任务图。
2.根据权利要求1所述的面向复杂系统中的MAXQ任务图结构的自动发现方法,其特征是
首先采用Q-learning探索环境,搜集动作影响的状态变量,搜集的信息包括:
状态Si在执行动作ai后状态Si中状态变量的改变;状态Si在执行动作ai后指向的下一个状态Si’,将Si->ai->Si’这一执行序列记录下来;
将获取的信息表示为Xk(i)={[Sk,ai,Sk’],Att},其中Att记录了状态Sk在执行动作ai后状态Sk中状态变量的改变情况,[Sk,ai,Sk’]则是记录状态Sk在执行动作ai后指向的下一个状态Sk’这一动作;根据MDP已知有n个动作,p个状态,每个动作都可以作用在p个不同的系统状态上,那么将MDP问题映射到聚类模型中,就是已知n个数据对象,也就是聚类对象,每个对象都有p个实数的测量值;
表示第i个对象的观测向量的方法如下:
X(i)={X1(i),X2(i),…,Xp(i)},1<=i<=n,其中X(i)表示第i个对象的观测向量集合,也就是第i个动作ai作用在p个不同状态上的观测集合,该集合里的每一个元素表示动作ai作用在某个状态上的观测向量;
用d(i,j)表示两个数据对象之间的相异性,并满足以下三个条件的不相似尺度:
对于所有的i和j,d(i,j),并且当且仅当i=j时d(i,j)=0;
对于所有的i和j,d(i,j)=d(j,i);
对于所有的i,j和k,d(i,j)<=d(i,k)+d(k,j);
那么对象之间的欧式距离Euclidean distance被定义为:
d E ( i , j ) = ( &Sigma; k = 1 p ( x k ( i ) - x k ( j ) ) 2 ) 1 / 2
这个尺度是以变量间的同一尺度为前提的,如果变量在不同的尺度下,则需要引入数据标准化策略,即用样本的标准差除以每一个变量,以便使所有的变量都可以被看做是具有同等的重要性;
第k个变量的xk标准差μk是xk的均值,于是可以消除尺度不同的影响。
CN201110367593.1A 2011-11-18 2011-11-18 面向复杂系统中的maxq任务图结构的自动发现方法 Expired - Fee Related CN102521202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110367593.1A CN102521202B (zh) 2011-11-18 2011-11-18 面向复杂系统中的maxq任务图结构的自动发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110367593.1A CN102521202B (zh) 2011-11-18 2011-11-18 面向复杂系统中的maxq任务图结构的自动发现方法

Publications (2)

Publication Number Publication Date
CN102521202A CN102521202A (zh) 2012-06-27
CN102521202B true CN102521202B (zh) 2017-05-24

Family

ID=46292131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110367593.1A Expired - Fee Related CN102521202B (zh) 2011-11-18 2011-11-18 面向复杂系统中的maxq任务图结构的自动发现方法

Country Status (1)

Country Link
CN (1) CN102521202B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737382B (zh) * 2018-04-23 2020-10-09 浙江工业大学 基于Q-Learning的SVC编码HTTP流媒体自适应方法
CN108873687B (zh) * 2018-07-11 2020-06-26 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN111124695B (zh) * 2019-11-25 2023-05-16 支付宝(杭州)信息技术有限公司 一种动效管理方法、系统及设备
CN112765339B (zh) * 2021-01-21 2022-10-04 山东师范大学 一种基于强化学习的个性化图书推荐方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100454290C (zh) * 2005-11-28 2009-01-21 颐中烟草(集团)有限公司 卷烟感官质量定性指标评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002259250A1 (en) * 2001-05-18 2002-12-03 Biowulf Technologies, Llc Model selection for cluster data analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100454290C (zh) * 2005-11-28 2009-01-21 颐中烟草(集团)有限公司 卷烟感官质量定性指标评估方法

Also Published As

Publication number Publication date
CN102521202A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
Mo et al. A physics-informed deep learning paradigm for car-following models
Choi et al. TrajGAIL: Generating urban vehicle trajectories using generative adversarial imitation learning
Bauer et al. Modeling complex interactions: Person-centered and variable-centered approaches
US20190042917A1 (en) Techniques for determining artificial neural network topologies
Wang et al. Theory-based residual neural networks: A synergy of discrete choice models and deep neural networks
CN112489497B (zh) 基于深度卷积神经网络的空域运行复杂度评估方法
CN107797931A (zh) 一种基于二次评价的软件质量评价方法及系统
CN117076993A (zh) 基于云原生的多智能体博弈决策系统及方法
CN110766038A (zh) 无监督式的地貌分类模型训练和地貌图构建方法
CN112329815B (zh) 模型训练方法、行驶轨迹异常性检测方法、装置和介质
CN113591380A (zh) 基于图高斯过程的交通流预测方法、介质及设备
CN102521202B (zh) 面向复杂系统中的maxq任务图结构的自动发现方法
CN115759413B (zh) 一种气象预测方法、装置、存储介质及电子设备
CN115512545A (zh) 一种基于时空动态图卷积网络的交通速度预测方法
CN114912719B (zh) 一种基于图神经网络的异质交通个体轨迹协同预测方法
Kamsu-Foguem et al. Generative Adversarial Networks based on optimal transport: a survey
CN106203481A (zh) 基于混合核rvm的电子装备状态预测方法
Marwala et al. Hamiltonian Monte Carlo methods in machine learning
Asher et al. Classification trees for heterogeneous moment-based models
CN110110628A (zh) 一种频率综合器劣化的检测方法及检测设备
Yan et al. LSTM‐based deep learning framework for adaptive identifying eco‐driving on intelligent vehicle multivariate time‐series data
CA3106638A1 (en) Relating complex data
CN115345257A (zh) 飞行轨迹分类模型训练方法、分类方法、装置及存储介质
Banisch Markov chain aggregation for agent-based models
Daust et al. Capturing Climatic Variability: Using Deep Learning for Stochastic Downscaling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524