CN102521203A

CN102521203A - 基于因果图的分层强化学习任务图进化方法

Info

Publication number: CN102521203A
Application number: CN2011103698473A
Authority: CN
Inventors: 王红兵; 周建才
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-11-18
Filing date: 2011-11-18
Publication date: 2012-06-27

Abstract

一种基于因果图的分层强化学习任务图进化方法，步骤包括：(1)参数设置；(2)探索目标环境的因果图；(3)种群N初始化；(4)计算适应度值；(5)遗传操作，包括选择、交叉和变异；操作时保持结点之间的因果关系；(6)判断是否终止；(7)保存此因果图对应的k个适应度最高的任务图G1，G2，…，GK；(8)输出适应度最高的任务图G1。与现有技术相比本发明的构造任务图的自动化，任务图的高效性，能适应大规模复杂系统，能适用系统环境动态变化的情况。本方法仅仅依赖目标环境的因果图变化情况，在目标环境因果图有规律变化时能够预测目标环境的任务层次变化情况，从而快速高效地生成目标环境的MAXQ任务图。

Description

基于因果图的分层强化学习任务图进化方法

技术领域

本发明涉及利用计算机对分层强化学习的任务图进行优化的方法。

技术背景

分层强化学习是解决强化学习维数灾难问题的一种重要方法。目前分层强化学习中三种典型的方法分别是Sutton提出的Option、Parr提出的HAM和Dietterich提出的MAXQ。分层强化学习的一个重要问题是分层任务图需要由设计者根据专家知识事先给定。由于手工构造分层强化学习的层次结构需要具备相关的专家知识，不能满足动态未知环境的需要，于是如何自动发现并构造任务的层次结构成为分层强化学习的一个重大问题。而目前很多HRL自动分层方法都针对Option方法的，但是Option在利用先验知识划分子任务时任务的划分结果表达不够清晰且子任务内部策略难以确定。早期的关于HRL的自动分层研究主要针对Option方法，主要从发现路标状态、共用子空间、状态的特征向量和使子空间具有良好的Markov性质出发。这些自动分层方法总体上存在着对状态空间的特性依赖过强的问题。由于MAXQ方法能很好的利用先验知识并具有很强的在线学习能力，故而基于MAXQ分层强化学习方法的自动分层方法研究具有重要的意义。

目前，关于MAXQ自动分层方法主要有HI-MAT方法，但是HI-MAT得到的任务图依赖于观察到的一条成功路径，从而得到任务图结构空间中和这条轨迹一致的任务图，这样容易陷入局部最优。

发明内容

本发明提供了一种对HI-MAT分层强化学习任务图自动构造方法构造出的任务图的进行改进的方法。该方法得到的任务图的学习速度可以和依靠专家知识构造出的任务图一样快，并在系统复杂时可以超过手工构造的任务图。而且本方面所设计的改进算法可以适应环境动态变化的情况。

为实现上述目的，本发明提供一种基于因果图的分层强化学习任务图进化方法。在对本方法具体步骤进行描述之前，首先给出相关定义：

(a)因果图：顶点集合为状态变量集合和奖赏结点，边集合为动作的作用下状态变量之间的依赖关系，两个状态变量i、j之间有有向边当且仅当存在一个动作a且它的DBN中i、j存在之间存在有向边。

(b)强连通组件：由一个或者多个通过有向路径可互达的状态变量组成的集合V_c。引入强连通组件可对因果图进行去环。

(c)组件图：由强连通组件作为节点组成的有向图，节点之间有边当且仅当因果途中存在第一个节点组件中的某个状态变量到第二个节点组件中的某个状态变量在因果图中有边。组件图是去环后的因果图。

(d)状态变量V的依赖状态变量集由其所在强连通组件中的其它状态变量和组件图中有到此强连通组件的边的组件所含状态变量组成。

(e)任务(task)T_i＝(X_i，G_i，C_i)，其中X_i为T_i值函数的相关变量，G_i为目标或终止谓词，C_i为子任务集合。

(f)任务结点之间保持因果依赖性是指父任务结点T_i的X_i中存在状态变量其依赖状态变量集V_di中含有子任务结点T_j的X_j中的状态变量。即对父任务结点T_i和其任意子任务结点T_j，

&Exists; (V_{i} &equiv; X_{i}) Λ (V_{j} &Element; X_{j}) Λ (V_{j} &Element; V_{di}) .

(g)适应度函数：Fitness(g)＝total-reward(g)/steps，其中g为任务图，total-reward为总的奖赏值，steps为时间步。

本发明的技术方案如下：

一种基于因果图的分层强化学习任务图进化方法，步骤包括：

(1)参数设置；

(2)探索目标环境的因果图；

(3)种群N初始化；

(4)计算适应度值；

(5)遗传操作，包括选择、交叉和变异；操作时保持结点之间的因果关系；

(6)判断是否终止；

(7)保存此因果图对应的k个适应度最高的任务图G1，G2，…，GK；

(8)输出适应度最高的任务图G1。

步骤1)中，进行进化的参数设置，包括种群规模、最大迭代次数、交叉概率和变异概率。

所述步骤3)中，进行种群M的初始化：

已知层次图种群U1：HI-MAT构造出的现有环境的任务图，如数量少于一个阀值，则进行单亲繁殖，繁殖时保持因果依赖性；

随机生成图种群U2：随机构造的任务图，包括从包含所有原子动作的任务图到包含所有合成子任务的任务图；

M＝U1+U2，M指初始化后生成的种群。

所述步骤4)中，计算适应度值：

Fitness(g)＝total-reward(g)/steps：运行种群中的任务图，计算各个体的适应度。

所述步骤5)中，

选择：对适应度高的个体以更大(此处是经典的遗传算法选择操作，是指对适应度高的个体生存的概率更高的意思，适应度的具体数值需要具体实施时控制)的概率进行复制，各个体被选择进行复制的概率

选择复制后生成N个个体；

交叉：随机选择N*P_c个个体进行交配，每对个体通过交配产生两个新个体，代替原来的“老”个体，而不参与交配的个体则保持不变；对于两个父个体，其子任务节点的交换时保持因果依赖性；

变异：随机选择N*P_m个个体的基因进行变异操作；

变异策略：随机选择个体的若干个子任务结点，对这些结点进行以下三种变换中的一种：

将结点用随机产生且保持父子任务结点的因果依赖关系的结点进行替换；

重新产生新的子树来替代旧子树并保持因果依赖性；

交换结点的左右子树，更新M。

本步骤中，P_c指交叉概率，P_m指变异概率，在参数设置时进行设置。

所述6)中，判断是否终止的终止条件：执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离＜a；未满足终止条件则转步骤3)。

所述交叉时，根据各个体的距离，进行远亲杂交。

当目标环境的因果图逐渐变化时，需要调整算法适用这种动态变化的情况：采用保存先前学习的因果图的对应k个适应度最高的任务图，利用这种记忆机制加快学习；

处理变化的目标环境的步骤是：(a)当任务图的学习性能下降了一个阈值时，启动DBN学习算法；(b)构造因果图；(c)此因果图和先前保存的因果图进行比较，选择相同或最相似的因果图对应的k个适应度最高的任务图；(d)将此k个任务图加入初始种群并重新启动任务图进化学习算法；(e)使用进化后的任务图执行任务。

本发明提出的基于目标环境因果图的MAXQ任务图的进化方法，根据目标环境的因果图调整对任务图层次空间搜索方向，从而加快搜索并可以更优化的结果。本发明使用了GP进化算法，其遗传算子(主要包括交叉、变异运算)运算时保持任务图中被调整结点的相关状态变量在因果图中的因果依赖性，以此在加快学习速度的过程中，改善任务图的适应性。实验结果表明了进化的任务图的优越性。

值得注意的是，本发明所涉及的任务图改进算法对于最优控制领域具有重要意义，对于大规模系统的复杂需求的分解同样如此。

本发明的特点：构造任务图的自动化，任务图的高效性，能适应大规模复杂系统，能适用系统环境动态变化的情况。本方法仅仅依赖目标环境的因果图变化情况，在目标环境因果图有规律变化时能够预测目标环境的任务层次变化情况，从而快速高效地生成目标环境的MAXQ任务图。

附图说明

图1是基于因果图的分层强化学习任务图进化系统的工作流程图。

图2是交叉操作图。

图3因果图示例图。

图4是任务图进化学习算法的基本流程。

具体实施方式

下面结合附图和对本发明进行详细说明。

HI-MAT利用在现有强化学习任务的一条成功轨迹上应用DBN来构造MAXQ任务层次，再将构造出的任务图用在目标任务上。但是HI-MAT得到的是和这条轨迹一致的任务结构图，这样容易陷入局部最优。本发明提出一种基于因果图的任务图进化方法，以构造更适合目标环境的任务图。本方法主要根据目标环境的因果图调整对任务图层次空间搜索方向，在遗传算子运算时保持任务图中被调整结点的相关状态变量在因果图中的因果依赖性，在加快学习速度的过程中，改善任务图的适应性，从而加快搜索并且具有更好的全局寻优能力。

本发明基于一种利用类别因果图进行任务图进化的方法，因果图示例图如图3所示。使用DBN模型，可以构造任务的一个因果图(Causal Graph，CG)，CG决定了状态变量之间的影响关系。图3为递送咖啡任务的因果图。咖啡递送任务由6个状态变量(S_L，S_U，S_R，S_W，S_C，S_H)描述，其中S_L指机器人的位置(在office还是咖啡店)，S_U指机器人是否带了雨伞，S_R指是否下雨，S_W指机器人是否淋湿，S_C指机器人是否有咖啡，S_H指用户是否有咖啡。这里的六个状态变量均是二元状态变量，故使用

表示它们的取值，其中S_i指状态变量。对于SL而言，用L表示在咖啡店，

指在办公室。机器人有四个动作(GO，BC，GU，DC)。其中，动作GO改变机器人的位置，并在下雨且机器人未带伞的情况下使它变湿；动作BC指买咖啡，如果机器人在咖啡店，则使它有咖啡；动作GU指取伞，如果机器人在office则是它带上伞；动作DC指递咖啡，如果机器人在office且有咖啡则使用户有咖啡。所有的动作都有可能会执行失败。当用户有咖啡时机器人得到0.9的奖赏，机器人未淋湿时得到0.1的奖赏。如果在某个动作的DBN中，S_i是S_j的前件(precondition)，则称S_i影响S_j。S_i和S_j相互影响，则在因果图中对应一个环。图3中未包含环。对于包含环的因果图，引入了强连通组件来去除图中的环。一个强连通组件中的变量被视为一个变量。从因果图很容易找出不相关的状态变量集，即不影响前件的值得变量集合。因果图从某种程度上反映了目标环境的层次结构。

图1是基于因果图的分层强化学习任务图进化系统的工作流程图。执行进化算法时首先进行进化的参数设置，包括种群规模、最大迭代次数、交叉概率、变异概率。然后探索目标环境的因果图GC。再进行种群的初始化：已知层次图种群U1(HI-MAT构造出的现有环境的任务图，如数量少，则进行单亲繁殖，繁殖时保持因果依赖性)、随机生成图种群U2(随机构造的任务图，包括从包含所有原子动作的任务图到包含所有合成子任务的任务图)，M＝U1+U2。计算适应度值：Fitness(g)＝total-reward(g)/steps(运行种群中的任务图，计算各个体的适应度)。选择：对适应值高的个体以更大的概率进行复制，各个体被选择进行复制的概率

选择复制后生成N个个体。交叉：随机选择N*P_c个个体进行交配，每对个体通过交配产生两个新个体，代替原来的“老”个体，而不参与交配的个体则保持不变。对于两个父个体，其子任务节点的交换时保持因果依赖性。(图3为交叉操作示意图，对于两个父个体M_i、M_j，随机取其第1层的子任务T₁、T₂，如果交换T₁和T₂后M_i、M_j保持因果依赖性则进行交换，否则取T₁、T₂的第一个父任务FT₁、FT₂和第一个子任务MT₁、MT₂，先后对T1、MT₂，T₂、MT₁，T₁、FT₂，T₂、FT₁执行上述过程直至成功执行为止，如果仍未成功则M_i、M_j不做改变。)。交叉时，根据各个体的距离，适当进行远亲杂交。变异：随机选择N*P_m个个体的基因进行变异操作，变异策略(随机选择个体的若干个子任务结点，对这些结点进行以下三种变换中的一种：将结点用随机产生且保持父子任务结点的因果依赖关系的结点进行替换；重新产生新的子树来替代旧子树并保持因果依赖性；交换结点的左右子树)更新M。判断是否终止(终止条件：执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离＜a)，未满足终止条件则转3。保存此因果图对应的k个适应度最高的任务图G1，G2，...，GK。输出适应度最高的任务图G1。

从动作之间的时序关系和动作对状态的影响关系可以得到任务图关联的状态变量之间的层次关系。在调整任务图层次结构时保持状态变量之间的因果依赖性，即保持层次结构和因果图之间的对应关系，允许调整动作之间的时序关系和动作对状态的影响关系即可以突破一条执行轨迹的限制，从而搜索到更适合目标环境的任务图。进化使得任务图种群的适应度呈现出一个上升的趋势，而如果在HI-MAT基础上不断对路径进行去环然后构造得到的任务图个体的适应度没有这种特点。采用记忆功能模型后，由保存的相似因果图对应的适应度高的任务图加入初始种群，在目标环境会有规律的变化时任务图的进化代数可以大大减少，从而加快学习速度。

通过以上描述可以看出，本发明方法能自动构造目标环境的任务图，构造出得任务图的学习速度优于HI-MAT构造出的任务图，且能适应大规模复杂系统，能适用系统环境动态变化的情况。本方法仅仅依赖目标环境的因果图变化情况，在目标环境因果图有规律变化时能够预测目标环境的任务层次变化情况，从而快速高效地生成目标环境的MAXQ任务图。

Claims

1.一种基于因果图的分层强化学习任务图进化方法，其特征是步骤包括：

(1)参数设置；

(2)探索目标环境的因果图；

(3)种群N初始化；

(4)计算适应度值；

(6)判断是否终止；

(8)输出适应度最高的任务图G1。

2.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法，其特征是步骤1)中，进行进化的参数设置，包括种群规模、最大迭代次数、交叉概率和变异概率。

3.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法，其特征是所述步骤3)中，进行种群M的初始化：

M＝U1+U2，M指初始化后生成的种群。

4.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法，其特征是所述步骤4)中，计算适应度值：

5.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法，其特征是所述步骤5)中，

选择：对适应度高的个体以更大的概率进行复制，各个体被选择进行复制的概率

选择复制后生成N个个体；

变异：随机选择N*P_m个个体的基因进行变异操作；

重新产生新的子树来替代旧子树并保持因果依赖性；

交换结点的左右子树，更新M。

6.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法，其特征是所述6)中，判断是否终止的终止条件：执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离＜a；未满足终止条件则转步骤3)。

7.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法，其特征是交叉时，根据各个体的距离，进行远亲杂交。

8.根据权利要求1所述的基于因果图的分层强化学习任务图进化方法，其特征是当目标环境的因果图逐渐变化时，需要调整算法适用这种动态变化的情况：采用保存先前学习的因果图的对应k个适应度最高的任务图，利用这种记忆机制加快学习；