CN102521203A - 基于因果图的分层强化学习任务图进化方法 - Google Patents
基于因果图的分层强化学习任务图进化方法 Download PDFInfo
- Publication number
- CN102521203A CN102521203A CN2011103698473A CN201110369847A CN102521203A CN 102521203 A CN102521203 A CN 102521203A CN 2011103698473 A CN2011103698473 A CN 2011103698473A CN 201110369847 A CN201110369847 A CN 201110369847A CN 102521203 A CN102521203 A CN 102521203A
- Authority
- CN
- China
- Prior art keywords
- cause
- effect diagram
- task image
- task
- fitness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
一种基于因果图的分层强化学习任务图进化方法,步骤包括:(1)参数设置;(2)探索目标环境的因果图;(3)种群N初始化;(4)计算适应度值;(5)遗传操作,包括选择、交叉和变异;操作时保持结点之间的因果关系;(6)判断是否终止;(7)保存此因果图对应的k个适应度最高的任务图G1,G2,…,GK;(8)输出适应度最高的任务图G1。与现有技术相比本发明的构造任务图的自动化,任务图的高效性,能适应大规模复杂系统,能适用系统环境动态变化的情况。本方法仅仅依赖目标环境的因果图变化情况,在目标环境因果图有规律变化时能够预测目标环境的任务层次变化情况,从而快速高效地生成目标环境的MAXQ任务图。
Description
技术领域
本发明涉及利用计算机对分层强化学习的任务图进行优化的方法。
技术背景
分层强化学习是解决强化学习维数灾难问题的一种重要方法。目前分层强化学习中三种典型的方法分别是Sutton提出的Option、Parr提出的HAM和Dietterich提出的MAXQ。分层强化学习的一个重要问题是分层任务图需要由设计者根据专家知识事先给定。由于手工构造分层强化学习的层次结构需要具备相关的专家知识,不能满足动态未知环境的需要,于是如何自动发现并构造任务的层次结构成为分层强化学习的一个重大问题。而目前很多HRL自动分层方法都针对Option方法的,但是Option在利用先验知识划分子任务时任务的划分结果表达不够清晰且子任务内部策略难以确定。早期的关于HRL的自动分层研究主要针对Option方法,主要从发现路标状态、共用子空间、状态的特征向量和使子空间具有良好的Markov性质出发。这些自动分层方法总体上存在着对状态空间的特性依赖过强的问题。由于MAXQ方法能很好的利用先验知识并具有很强的在线学习能力,故而基于MAXQ分层强化学习方法的自动分层方法研究具有重要的意义。
目前,关于MAXQ自动分层方法主要有HI-MAT方法,但是HI-MAT得到的任务图依赖于观察到的一条成功路径,从而得到任务图结构空间中和这条轨迹一致的任务图,这样容易陷入局部最优。
发明内容
本发明提供了一种对HI-MAT分层强化学习任务图自动构造方法构造出的任务图的进行改进的方法。该方法得到的任务图的学习速度可以和依靠专家知识构造出的任务图一样快,并在系统复杂时可以超过手工构造的任务图。而且本方面所设计的改进算法可以适应环境动态变化的情况。
为实现上述目的,本发明提供一种基于因果图的分层强化学习任务图进化方法。在对本方法具体步骤进行描述之前,首先给出相关定义:
(a)因果图:顶点集合为状态变量集合和奖赏结点,边集合为动作的作用下状态变量之间的依赖关系,两个状态变量i、j之间有有向边当且仅当存在一个动作a且它的DBN中i、j存在之间存在有向边。
(b)强连通组件:由一个或者多个通过有向路径可互达的状态变量组成的集合Vc。引入强连通组件可对因果图进行去环。
(c)组件图:由强连通组件作为节点组成的有向图,节点之间有边当且仅当因果途中存在第一个节点组件中的某个状态变量到第二个节点组件中的某个状态变量在因果图中有边。组件图是去环后的因果图。
(d)状态变量V的依赖状态变量集由其所在强连通组件中的其它状态变量和组件图中有到此强连通组件的边的组件所含状态变量组成。
(e)任务(task)Ti=(Xi,Gi,Ci),其中Xi为Ti值函数的相关变量,Gi为目标或终止谓词,Ci为子任务集合。
(f)任务结点之间保持因果依赖性是指父任务结点Ti的Xi中存在状态变量其依赖状态变量集Vdi中含有子任务结点Tj的Xj中的状态变量。即对父任务结点Ti和其任意子任务结点Tj,
(g)适应度函数:Fitness(g)=total-reward(g)/steps,其中g为任务图,total-reward为总的奖赏值,steps为时间步。
本发明的技术方案如下:
一种基于因果图的分层强化学习任务图进化方法,步骤包括:
(1)参数设置;
(2)探索目标环境的因果图;
(3)种群N初始化;
(4)计算适应度值;
(5)遗传操作,包括选择、交叉和变异;操作时保持结点之间的因果关系;
(6)判断是否终止;
(7)保存此因果图对应的k个适应度最高的任务图G1,G2,…,GK;
(8)输出适应度最高的任务图G1。
步骤1)中,进行进化的参数设置,包括种群规模、最大迭代次数、交叉概率和变异概率。
所述步骤3)中,进行种群M的初始化:
已知层次图种群U1:HI-MAT构造出的现有环境的任务图,如数量少于一个阀值,则进行单亲繁殖,繁殖时保持因果依赖性;
随机生成图种群U2:随机构造的任务图,包括从包含所有原子动作的任务图到包含所有合成子任务的任务图;
M=U1+U2,M指初始化后生成的种群。
所述步骤4)中,计算适应度值:
Fitness(g)=total-reward(g)/steps:运行种群中的任务图,计算各个体的适应度。
所述步骤5)中,
选择:对适应度高的个体以更大(此处是经典的遗传算法选择操作,是指对适应度高的个体生存的概率更高的意思,适应度的具体数值需要具体实施时控制)的概率进行复制,各个体被选择进行复制的概率选择复制后生成N个个体;
交叉:随机选择N*Pc个个体进行交配,每对个体通过交配产生两个新个体,代替原来的“老”个体,而不参与交配的个体则保持不变;对于两个父个体,其子任务节点的交换时保持因果依赖性;
变异:随机选择N*Pm个个体的基因进行变异操作;
变异策略:随机选择个体的若干个子任务结点,对这些结点进行以下三种变换中的一种:
将结点用随机产生且保持父子任务结点的因果依赖关系的结点进行替换;
重新产生新的子树来替代旧子树并保持因果依赖性;
交换结点的左右子树,更新M。
本步骤中,Pc指交叉概率,Pm指变异概率,在参数设置时进行设置。
所述6)中,判断是否终止的终止条件:执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离<a;未满足终止条件则转步骤3)。
所述交叉时,根据各个体的距离,进行远亲杂交。
当目标环境的因果图逐渐变化时,需要调整算法适用这种动态变化的情况:采用保存先前学习的因果图的对应k个适应度最高的任务图,利用这种记忆机制加快学习;
处理变化的目标环境的步骤是:(a)当任务图的学习性能下降了一个阈值时,启动DBN学习算法;(b)构造因果图;(c)此因果图和先前保存的因果图进行比较,选择相同或最相似的因果图对应的k个适应度最高的任务图;(d)将此k个任务图加入初始种群并重新启动任务图进化学习算法;(e)使用进化后的任务图执行任务。
本发明提出的基于目标环境因果图的MAXQ任务图的进化方法,根据目标环境的因果图调整对任务图层次空间搜索方向,从而加快搜索并可以更优化的结果。本发明使用了GP进化算法,其遗传算子(主要包括交叉、变异运算)运算时保持任务图中被调整结点的相关状态变量在因果图中的因果依赖性,以此在加快学习速度的过程中,改善任务图的适应性。实验结果表明了进化的任务图的优越性。
值得注意的是,本发明所涉及的任务图改进算法对于最优控制领域具有重要意义,对于大规模系统的复杂需求的分解同样如此。
本发明的特点:构造任务图的自动化,任务图的高效性,能适应大规模复杂系统,能适用系统环境动态变化的情况。本方法仅仅依赖目标环境的因果图变化情况,在目标环境因果图有规律变化时能够预测目标环境的任务层次变化情况,从而快速高效地生成目标环境的MAXQ任务图。
附图说明
图1是基于因果图的分层强化学习任务图进化系统的工作流程图。
图2是交叉操作图。
图3因果图示例图。
图4是任务图进化学习算法的基本流程。
具体实施方式
下面结合附图和对本发明进行详细说明。
HI-MAT利用在现有强化学习任务的一条成功轨迹上应用DBN来构造MAXQ任务层次,再将构造出的任务图用在目标任务上。但是HI-MAT得到的是和这条轨迹一致的任务结构图,这样容易陷入局部最优。本发明提出一种基于因果图的任务图进化方法,以构造更适合目标环境的任务图。本方法主要根据目标环境的因果图调整对任务图层次空间搜索方向,在遗传算子运算时保持任务图中被调整结点的相关状态变量在因果图中的因果依赖性,在加快学习速度的过程中,改善任务图的适应性,从而加快搜索并且具有更好的全局寻优能力。
本发明基于一种利用类别因果图进行任务图进化的方法,因果图示例图如图3所示。使用DBN模型,可以构造任务的一个因果图(Causal Graph,CG),CG决定了状态变量之间的影响关系。图3为递送咖啡任务的因果图。咖啡递送任务由6个状态变量(SL,SU,SR,SW,SC,SH)描述,其中SL指机器人的位置(在office还是咖啡店),SU指机器人是否带了雨伞,SR指是否下雨,SW指机器人是否淋湿,SC指机器人是否有咖啡,SH指用户是否有咖啡。这里的六个状态变量均是二元状态变量,故使用表示它们的取值,其中Si指状态变量。对于SL而言,用L表示在咖啡店,指在办公室。机器人有四个动作(GO,BC,GU,DC)。其中,动作GO改变机器人的位置,并在下雨且机器人未带伞的情况下使它变湿;动作BC指买咖啡,如果机器人在咖啡店,则使它有咖啡;动作GU指取伞,如果机器人在office则是它带上伞;动作DC指递咖啡,如果机器人在office且有咖啡则使用户有咖啡。所有的动作都有可能会执行失败。当用户有咖啡时机器人得到0.9的奖赏,机器人未淋湿时得到0.1的奖赏。如果在某个动作的DBN中,Si是Sj的前件(precondition),则称Si影响Sj。Si和Sj相互影响,则在因果图中对应一个环。图3中未包含环。对于包含环的因果图,引入了强连通组件来去除图中的环。一个强连通组件中的变量被视为一个变量。从因果图很容易找出不相关的状态变量集,即不影响前件的值得变量集合。因果图从某种程度上反映了目标环境的层次结构。
图1是基于因果图的分层强化学习任务图进化系统的工作流程图。执行进化算法时首先进行进化的参数设置,包括种群规模、最大迭代次数、交叉概率、变异概率。然后探索目标环境的因果图GC。再进行种群的初始化:已知层次图种群U1(HI-MAT构造出的现有环境的任务图,如数量少,则进行单亲繁殖,繁殖时保持因果依赖性)、随机生成图种群U2(随机构造的任务图,包括从包含所有原子动作的任务图到包含所有合成子任务的任务图),M=U1+U2。计算适应度值:Fitness(g)=total-reward(g)/steps(运行种群中的任务图,计算各个体的适应度)。选择:对适应值高的个体以更大的概率进行复制,各个体被选择进行复制的概率选择复制后生成N个个体。交叉:随机选择N*Pc个个体进行交配,每对个体通过交配产生两个新个体,代替原来的“老”个体,而不参与交配的个体则保持不变。对于两个父个体,其子任务节点的交换时保持因果依赖性。(图3为交叉操作示意图,对于两个父个体Mi、Mj,随机取其第1层的子任务T1、T2,如果交换T1和T2后Mi、Mj保持因果依赖性则进行交换,否则取T1、T2的第一个父任务FT1、FT2和第一个子任务MT1、MT2,先后对T1、MT2,T2、MT1,T1、FT2,T2、FT1执行上述过程直至成功执行为止,如果仍未成功则Mi、Mj不做改变。)。交叉时,根据各个体的距离,适当进行远亲杂交。变异:随机选择N*Pm个个体的基因进行变异操作,变异策略(随机选择个体的若干个子任务结点,对这些结点进行以下三种变换中的一种:将结点用随机产生且保持父子任务结点的因果依赖关系的结点进行替换;重新产生新的子树来替代旧子树并保持因果依赖性;交换结点的左右子树)更新M。判断是否终止(终止条件:执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离<a),未满足终止条件则转3。保存此因果图对应的k个适应度最高的任务图G1,G2,...,GK。输出适应度最高的任务图G1。
从动作之间的时序关系和动作对状态的影响关系可以得到任务图关联的状态变量之间的层次关系。在调整任务图层次结构时保持状态变量之间的因果依赖性,即保持层次结构和因果图之间的对应关系,允许调整动作之间的时序关系和动作对状态的影响关系即可以突破一条执行轨迹的限制,从而搜索到更适合目标环境的任务图。进化使得任务图种群的适应度呈现出一个上升的趋势,而如果在HI-MAT基础上不断对路径进行去环然后构造得到的任务图个体的适应度没有这种特点。采用记忆功能模型后,由保存的相似因果图对应的适应度高的任务图加入初始种群,在目标环境会有规律的变化时任务图的进化代数可以大大减少,从而加快学习速度。
通过以上描述可以看出,本发明方法能自动构造目标环境的任务图,构造出得任务图的学习速度优于HI-MAT构造出的任务图,且能适应大规模复杂系统,能适用系统环境动态变化的情况。本方法仅仅依赖目标环境的因果图变化情况,在目标环境因果图有规律变化时能够预测目标环境的任务层次变化情况,从而快速高效地生成目标环境的MAXQ任务图。
Claims (8)
1.一种基于因果图的分层强化学习任务图进化方法,其特征是步骤包括:
(1)参数设置;
(2)探索目标环境的因果图;
(3)种群N初始化;
(4)计算适应度值;
(5)遗传操作,包括选择、交叉和变异;操作时保持结点之间的因果关系;
(6)判断是否终止;
(7)保存此因果图对应的k个适应度最高的任务图G1,G2,…,GK;
(8)输出适应度最高的任务图G1。
2.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是步骤1)中,进行进化的参数设置,包括种群规模、最大迭代次数、交叉概率和变异概率。
3.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述步骤3)中,进行种群M的初始化:
已知层次图种群U1:HI-MAT构造出的现有环境的任务图,如数量少于一个阀值,则进行单亲繁殖,繁殖时保持因果依赖性;
随机生成图种群U2:随机构造的任务图,包括从包含所有原子动作的任务图到包含所有合成子任务的任务图;
M=U1+U2,M指初始化后生成的种群。
4.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述步骤4)中,计算适应度值:
Fitness(g)=total-reward(g)/steps:运行种群中的任务图,计算各个体的适应度。
5.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述步骤5)中,
交叉:随机选择N*Pc个个体进行交配,每对个体通过交配产生两个新个体,代替原来的“老”个体,而不参与交配的个体则保持不变;对于两个父个体,其子任务节点的交换时保持因果依赖性;
变异:随机选择N*Pm个个体的基因进行变异操作;
变异策略:随机选择个体的若干个子任务结点,对这些结点进行以下三种变换中的一种:
将结点用随机产生且保持父子任务结点的因果依赖关系的结点进行替换;
重新产生新的子树来替代旧子树并保持因果依赖性;
交换结点的左右子树,更新M。
本步骤中,Pc指交叉概率,Pm指变异概率,在参数设置时进行设置。
6.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述6)中,判断是否终止的终止条件:执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离<a;未满足终止条件则转步骤3)。
7.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是交叉时,根据各个体的距离,进行远亲杂交。
8.根据权利要求1所述的基于因果图的分层强化学习任务图进化方法,其特征是当目标环境的因果图逐渐变化时,需要调整算法适用这种动态变化的情况:采用保存先前学习的因果图的对应k个适应度最高的任务图,利用这种记忆机制加快学习;
处理变化的目标环境的步骤是:(a)当任务图的学习性能下降了一个阈值时,启动DBN学习算法;(b)构造因果图;(c)此因果图和先前保存的因果图进行比较,选择相同或最相似的因果图对应的k个适应度最高的任务图;(d)将此k个任务图加入初始种群并重新启动任务图进化学习算法;(e)使用进化后的任务图执行任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103698473A CN102521203A (zh) | 2011-11-18 | 2011-11-18 | 基于因果图的分层强化学习任务图进化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103698473A CN102521203A (zh) | 2011-11-18 | 2011-11-18 | 基于因果图的分层强化学习任务图进化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102521203A true CN102521203A (zh) | 2012-06-27 |
Family
ID=46292132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103698473A Pending CN102521203A (zh) | 2011-11-18 | 2011-11-18 | 基于因果图的分层强化学习任务图进化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521203A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955921A (zh) * | 2016-04-18 | 2016-09-21 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
CN107844460A (zh) * | 2017-07-24 | 2018-03-27 | 哈尔滨工程大学 | 一种基于p‑maxq的多水下机器人的围捕方法 |
CN109002914A (zh) * | 2018-07-11 | 2018-12-14 | 广东工业大学 | 一种融合随机算法和启发式规划的生产调度方法及装置 |
CN111417964A (zh) * | 2018-02-05 | 2020-07-14 | 渊慧科技有限公司 | 使用异策略行动者-评价者强化学习进行分布式训练 |
-
2011
- 2011-11-18 CN CN2011103698473A patent/CN102521203A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955921A (zh) * | 2016-04-18 | 2016-09-21 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
CN105955921B (zh) * | 2016-04-18 | 2019-03-26 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
CN107844460A (zh) * | 2017-07-24 | 2018-03-27 | 哈尔滨工程大学 | 一种基于p‑maxq的多水下机器人的围捕方法 |
CN107844460B (zh) * | 2017-07-24 | 2020-12-25 | 哈尔滨工程大学 | 一种基于p-maxq的多水下机器人的围捕方法 |
CN111417964A (zh) * | 2018-02-05 | 2020-07-14 | 渊慧科技有限公司 | 使用异策略行动者-评价者强化学习进行分布式训练 |
CN111417964B (zh) * | 2018-02-05 | 2024-04-19 | 渊慧科技有限公司 | 异策略行动者-评价者强化学习方法和系统 |
CN109002914A (zh) * | 2018-07-11 | 2018-12-14 | 广东工业大学 | 一种融合随机算法和启发式规划的生产调度方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rosenberg et al. | Online convex optimization in adversarial markov decision processes | |
US8018874B1 (en) | Network optimization system implementing distributed particle swarm optimization | |
Parisi et al. | Policy gradient approaches for multi-objective sequential decision making | |
CN104866904A (zh) | 一种基于spark的遗传算法优化的BP神经网络并行化方法 | |
Wu et al. | Splitting steepest descent for growing neural architectures | |
CN107122843A (zh) | 一种基于改进遗传算法的旅行商问题求解方法 | |
CN102521203A (zh) | 基于因果图的分层强化学习任务图进化方法 | |
CN101944157B (zh) | 一种应用于仿真网格系统的生物智能调度方法 | |
Peschl et al. | MORAL: Aligning AI with human norms through multi-objective reinforced active learning | |
Sanaei et al. | Using firefly algorithm to solve resource constrained project scheduling problem | |
Vargas et al. | General subpopulation framework and taming the conflict inside populations | |
Shen | A study of welding robot path planning application based on Genetic Ant Colony Hybrid Algorithm | |
Yasear et al. | Fine-Tuning the Ant Colony System Algorithm Through Harris’s Hawk Optimizer for Travelling Salesman Problem. | |
Sariff et al. | Comparative study of genetic algorithm and ant colony optimization algorithm performances for robot path planning in global static environments of different complexities | |
CN114662638A (zh) | 基于改进人工蜂群算法的移动机器人路径规划方法 | |
CN109074348A (zh) | 用于对输入数据集进行迭代聚类的设备和迭代方法 | |
Yasuda et al. | Response threshold-based task allocation in a reinforcement learning robotic swarm | |
Yew Wong et al. | A hybrid ant colony optimization algorithm for solving facility layout problems formulated as quadratic assignment problems | |
Cotae et al. | A Scalable Real-Time Multiagent Decision Making Algorithm with Cost | |
Chen et al. | C 2: Co-design of Robots via Concurrent-Network Coupling Online and Offline Reinforcement Learning | |
Jadon et al. | Modified ant colony optimization algorithm with uniform mutation using self-adaptive approach | |
Ong et al. | Systematic review and open challenges in hyper-heuristics usage on expensive optimization problems with limited number of evaluations | |
Chinnappan et al. | Handling large-scale SAR image data on network-based compute systems using divisible load paradigm | |
Chen et al. | Bayesian statistical inference-based estimation of distribution algorithm for the re-entrant job-shop scheduling problem with sequence-dependent setup times | |
Zhao et al. | An improved extreme learning machine with adaptive growth of hidden nodes based on particle swarm optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120627 |