CN105955921A - 基于自动发现抽象动作的机器人分层强化学习初始化方法 - Google Patents

基于自动发现抽象动作的机器人分层强化学习初始化方法 Download PDF

Info

Publication number
CN105955921A
CN105955921A CN201610238118.7A CN201610238118A CN105955921A CN 105955921 A CN105955921 A CN 105955921A CN 201610238118 A CN201610238118 A CN 201610238118A CN 105955921 A CN105955921 A CN 105955921A
Authority
CN
China
Prior art keywords
abstract
action
robot
state
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610238118.7A
Other languages
English (en)
Other versions
CN105955921B (zh
Inventor
许志鹏
朱斐
伏玉琛
黄蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610238118.7A priority Critical patent/CN105955921B/zh
Publication of CN105955921A publication Critical patent/CN105955921A/zh
Application granted granted Critical
Publication of CN105955921B publication Critical patent/CN105955921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:包括Q学习模块、创建抽象动作模块、状态‑抽象动作评估值Q(s,o)初始化模块以及分层强化学习模块,先利用Q学习模块让机器人与环境交互产生经验,然后基于这些经验使用创建抽象动作模块让机器人创建抽象动作,最后机器人通过初始化状态‑抽象动作评估值Q(s,o)初始化模块,从普通的强化学习转向分层强化学习模块进行分层强化学习,并记录学习结果。本发明通过对状态‑抽象动作评估值Q(s,o)进行初始化,使机器人采用分层强化学习方法求解复杂环境中的任务时收敛速度更快。

Description

基于自动发现抽象动作的机器人分层强化学习初始化方法
技术领域
本发明涉及一种机器人控制方法,属于机器学习领域,具体涉及一种基于自动发现抽象动作的机器人分层强化学习初始化方法。
背景技术
随着机器人应用领域的不断拓展,机器人所面临的任务越来越复杂。尽管很多算法能够对机器人可能执行的行为进行预先设计和编程,但是当面临复杂的任务,设计人员往往无法对瞬息万变的外部环境做出有效预测,从而不能对机器人的行为做出合理的预测。因此,能够感知环境并通过采取相关动作来完成任务的自主机器人成为了研究的重点。
强化学习(Reinforcement Learning)是机器学习中的一种重要的学习方法,采用试错(trial and error)学习的方式获取最优的行为策略,目前已经产生的众多强化学习算法都在机器人行为学习方面表现出了良好的学习性能。
然而,当问题的规模扩大时,传统的强化学习算法性能会急剧下降。这是因为强化学习需要通过机器人不断地与环境交互,当问题规模扩大时,环境中的特征数量会呈指数上升,因此算法的复杂度会急剧上升,机器人就需要大量的时间以获得好的策略。目前强化学习中解决这个问题的方法有很多,如核方法、函数逼近和分层强化学习等,这些方法都可以用于求解大规模问题。
不同于核方法和函数逼近,分层强化学习致力于让机器人能够长期学习,甚至终生学习,也就是机器人之前学习到的经验能够为之后的学习所利用,这些经验可以用来解决某一个问题域中的所有或部分任务集合。时间抽象是分层强化学习中的一类重要的方法,利用时间抽象,机器人可以关注更高层策略的选择,从而减少选择行为所需的时间。
基于时间抽象的分层强化学习近些年也产生了很多高性能的算法,经典的学习算法如Macro-Q。Macro-Q算法能够让机器人利用给定的抽象动作来进行高效的学习,从本质上改善了传统Q-learning的性能。但是Q值初始化的好坏会很大程度上影响算法收敛的速度,因此如何让机器人自动发现抽象动作,得到抽象动作后如何初始化状态-抽象动作评估值Q(s,o)是一个需要解决的问题。
发明内容
本发明的发明目的是提供基于自动发现抽象动作的机器人分层强化学习初始化方法,在机器人创建了抽象动作之后,加速机器人采用分层强化学习算法时收敛。
为达到上述发明目的,本发明采用的技术方案是:一种基于自动发现抽象动作的机器人分层强化学习初始化方法,包括Q学习模块、创建抽象动作模块、状态-抽象动作评估值Q(s,o)初始化模块以及分层强化学习模块,先利用Q学习模块让机器人与环境交互产生经验,然后基于这些经验使用创建抽象动作模块让机器人创建抽象动作,最后机器人通过初始化状态-抽象动作评估值Q(s,o)初始化模块,从普通的强化学习转向分层强化学习模块进行分层强化学习,并记录学习结果。
上述技术方案中,所述Q学习模块中让机器人与环境交互产生经验的方式包括以下几个步骤:
(1)、设定机器人的运行环境,包括环境的边界、任务的起点位置、终点位置、环境中的固定的障碍物的位置,每一个位置看作一个状态;
(2)、初始化更新值函数的参数,包括设定奖赏值、步长参数、折扣因子;
(3)、机器人使用原始Q学习算法与环境交互,采取动作同时更新所有的状态-动作评估值Q(s,a);
(4)、保存得到的经验轨迹集合,一条经验轨迹表示为,其中表示轨迹的第j个状态,表示轨迹的第j个动作,表示在状态采取动作后得到的立即奖赏。
所述创建抽象动作模块包括对原始经验轨迹去除环、计算所有状态的多样性密度值以及对子目标集合中所有的子目标创建抽象动作;
所述多样性密度定义如下:
(1),
其中为目标概念的多样性密度值;表示在轨迹集合的条件下的概率,表示第i条负轨迹,表示第j条正轨迹;
通过贝叶斯变换得到:
(2),
其中,
,目标概念的概率定义为该实例与目标概念距离上的高斯分布,联立式(1)和式(2)求解得到每个状态的多样性密度值。
所述状态-抽象动作评估值初始化模块对所有的状态-动作评估值进行初始化,对于已经存在的状态-动作评估值直接对其进行赋值,对于未赋值的状态-抽象动作评估值则通过经验回放的方式对其进行初始化。
所述经验回放的方式为:假设Q(s,o)为需要初始化的状态-抽象动作评估值,通过在无环经验轨迹中搜索抽象动作o,得到该轨迹中抽象动作o的下一个状态-动作对(s’,a’)的Q值以及立即奖赏,按照如下更新公式来初始化Q(s,o):
(3),
其中表示机器人在状态处执行了动作得到的奖赏,γ表示折扣因子,δ表示机器人采取了动作之后计算得到的评估值增量;
(4),
其中α表示步长参数,联立(3)式和(4)式得到状态-动作评估值的更新公式。
所述分层强化学模块利用所述创建抽象动作模块产生的抽象动作和所述状态-抽象动作评估值Q(s,o)初始化模块初始化好的状态-抽象动作评估值函数Q(s,o),机器人可以根据动作评估值函数Q(s,o)结合ε-greedy动作选择方法来选择抽象动作,然后根据得到奖赏以及下一个状态-抽象动作评估值Q(s’,o’)来更新Q(s,o),最后保存得到的结果信息中去。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
本发明提供的基于自动发现抽象动作的机器人分层强化学习初始化方法,机器人利用Q学习模块得到的经验创造建抽象动作,通过对状态-抽象动作评估值Q(s,o)进行初始化,可以促进机器人更好地从一般强化学习转向分层强化学习,加速机器人在复杂环境下的学习速度。
由于本发明使机器人自动创造抽象动作并进行了特定的初始化操作,因而机器人可以利用以往的经验,进行分层强化学习,特别适合于各种动态环境、复杂环境中的应用。
附图说明
图1为本发明实施例一的总流程图;
图2为本发明实施例一中Q学习模块的流程图;
图3为本发明实施例一中创建抽象动作模块的流程图;
图4为本发明实施例一中状态-抽象动作评估值Q(s,o)初始化模块的流程图;
图5为本发明实施例一中分层强化学习模块的流程图;
图6为本发明实施例一中机器人示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例:参见图1~6所示,一种基于自动发现抽象动作的机器人分层强化学习初始化方法:包括Q学习模块、创建抽象动作模块、状态-抽象动作评估值Q(s,o)初始化模块以及分层强化学习模块,通过先利用Q学习模块让机器人与环境交互产生经验,然后基于这些经验使用创建抽象动作模块让机器人创建抽象动作,最后机器人通过初始化状态-抽象动作评估值Q(s,o)初始化模块,从普通的强化学习转向分层强化学习模块进行分层强化学习,并记录学习结果。
结合图1所示,具体可以包括以下步骤:
1、Q学习模块。该模块包括环境初始化,参数初始化,动作选择,Q值更新以及保存经验这几个部分。在环境以及相关参数初始化完之后,按照动作选择方法选择动作,然后按照如下的更新公式来更新所有状态-动作评估值Q(s,a):
(5)
其中表示机器人在状态处执行了动作得到的奖赏,表示折扣因子,表示机器人采取了动作a之后计算得到的评估值增量。
(6)
其中表示步长参数。联立(5)式和(6)式可以得到状态-动作评估值的更新公式。
2、创建抽象动作模块。该模块包括对原始经验轨迹去除环、计算所有状态的多样性密度值以及对子目标集合中所有的子目标创建抽象动作这几个部分组成。
3、状态-抽象动作评估值Q(s,o)初始化模块。该模块需要对所有的状态-动作评估值进行初始化,对于已经存在的状态-动作评估值则直接对其进行赋值,对于未赋值的状态-抽象动作评估值则需要通过经验回放的方式对其进行初始化。
4、分层强化学习模块。该模块需要利用以上步骤产生的抽象动作和步骤3中初始化好的状态-抽象动作评估值函数Q(s,o)。机器人可以根据动作评估值函数Q(s,o)结合动作选择方法来选择抽象动作,然后根据得到奖赏以及下一个状态-抽象动作评估值Q(s’,o’)来更新Q(s,o)。最后保存得到的结果信息。
参见图2所示,所述Q学习模块具体可以包括以下步骤:
1、环境初始化,初始化机器人的模拟运行环境,包括环境的边界,任务的起点位置,终点位置,环境中的固定的障碍物的位置。
2、参数初始化,设定机器人到达目标的奖赏值,以及用于更新值的步长参数、折扣因子等等参数。
3、选择动作,机器人根据更新得到的状态-动作值函数Q(s,a)采用动作选择方法选择动作。
4、更新值函数Q(s,a)。
5、判断是否到达目标状态,根据判断结果做如下处理:
1)若到达目标状态,进入步骤6。
2)若没有到达目标状态,进转向步骤3。
6、保存学习得到的经验轨迹,这里主要保存的是状态、动作以及奖赏序列。
参见图3所示,所述创建抽象动作模块具体可以包括以下步骤:
1、对保存的经验轨迹去环,以经验轨迹中的状态为目标,对轨迹中状态重复的区间进行去环操作,得到无环的经验轨迹。
2、计算所有状态的多样性密度值,由于采用的是无环轨迹,因此该计算过程是效率很高的。
3、判断是否存在多样性密度值大于阈值的状态,根据判断结果做如下处理:
1)若存在,则进入步骤4。
2)若不存在,则转向步骤1。
4、将满足条件的状态加入子目标集合中,这些状态将会用来创建抽象状态。
5、初始化抽象动作三元组,根据经验轨迹,按照经验回放的方式可以初始化抽象动作的三元组。其中初始化的方法是通过搜索去环轨迹中所有出现子目标的轨迹,如果在无环轨迹中第个时间步找到了,那么机器人会将时间步到时间步中的状态都加入中。当机器人到达子目标时或者机器人当前不在,终止条件,否则的初始化方式则可直接根据去环之后的经验轨迹得到。
参见图4所示,所述状态-抽象动作评估值Q(s,o)初始化模块具体可以包括以下步骤:
1、选择状态-动作评估值Q(s,o),即在新的值函数中选择一个状态-动作评估值初始化。
2、判断该动作是否是基本动作,根据判断结果做如下处理:
1)若是基本动作,则进入步骤3。
2)若不是基本动作,则进入步骤4。
3、直接将旧的值函数Q(s,a)中的值赋值给对应的Q(s,o),进入步骤6。
4、在所有的无环轨迹中搜索动作o,找到之后进入步骤5。
5、联立公式3和公式4便可计算出Q(s,o)的值,将计算所得赋值给Q(s,o),进入步骤6。
6、判断是否对所有状态-动作评估值都完成初始化,根据判断结果做如下处理:
1)若是,则结束。
2)若不是,则转向步骤1。
参见图5所示,分层强化学习模块具体可以包括以下步骤:
1、选择抽象动作,此处抽象动作包括基本动作和抽象动作。
2、按照公式3和公式4更新状态-动作值函数Q(s,o)。
3、判断当前状态是否为目标状态,根据判断结果做如下处理:
1)若是,则结束。
2)若不是,则进入步骤1。

Claims (6)

1.一种基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:包括Q学习模块、创建抽象动作模块、状态-抽象动作评估值Q(s,o)初始化模块以及分层强化学习模块,先利用Q学习模块让机器人与环境交互产生经验,然后基于这些经验使用创建抽象动作模块让机器人创建抽象动作,最后机器人通过初始化状态-抽象动作评估值Q(s,o)初始化模块,从普通的强化学习转向分层强化学习模块进行分层强化学习,并记录学习结果。
2.根据权利要求1所述的基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:所述Q学习模块中让机器人与环境交互产生经验的方式包括以下几个步骤:
(1)、设定机器人的运行环境,包括环境的边界、任务的起点位置、终点位置、环境中的固定的障碍物的位置,每一个位置看作一个状态;
(2)、初始化更新值函数的参数,包括设定奖赏值、步长参数、折扣因子;
(3)、机器人使用原始Q学习算法与环境交互,采取动作同时更新所有的状态-动作评估值Q(s,a);
(4)、保存得到的经验轨迹集合,一条经验轨迹表示为,其中表示轨迹的第j个状态,表示轨迹的第j个动作,表示在状态采取动作后得到的立即奖赏。
3.根据权利要求1所述的基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:所述创建抽象动作模块包括对原始经验轨迹去除环、计算所有状态的多样性密度值以及对子目标集合中所有的子目标创建抽象动作;
所述多样性密度定义如下:
(1),
其中为目标概念的多样性密度值;表示在轨迹集合的条件下的概率,表示第i条负轨迹,表示第j条正轨迹;
通过贝叶斯变换得到:
(2),
其中,
,目标概念的概率定义为该实例与目标概念距离上的高斯分布,联立式(1)和式(2)求解得到每个状态的多样性密度值。
4.根据权利要求1所述的基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:所述状态-抽象动作评估值初始化模块对所有的状态-动作评估值进行初始化,对于已经存在的状态-动作评估值直接对其进行赋值,对于未赋值的状态-抽象动作评估值则通过经验回放的方式对其进行初始化。
5.根据权利要求4所述的基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:所述经验回放的方式为:假设Q(s,o)为需要初始化的状态-抽象动作评估值,通过在无环经验轨迹中搜索抽象动作o,得到该轨迹中抽象动作o的下一个状态-动作对(s’,a’)的Q值以及立即奖赏,按照如下更新公式来初始化Q(s,o):
(3),
其中表示机器人在状态处执行了动作得到的奖赏,γ表示折扣因子,δ表示机器人采取了动作之后计算得到的评估值增量;
(4),
其中α表示步长参数,联立(3)式和(4)式得到状态-动作评估值的更新公式。
6.根据权利要求1所述的基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:所述分层强化学模块利用所述创建抽象动作模块产生的抽象动作和所述状态-抽象动作评估值Q(s,o)初始化模块初始化好的状态-抽象动作评估值函数Q(s,o),机器人可以根据动作评估值函数Q(s,o)结合ε-greedy动作选择方法来选择抽象动作,然后根据得到奖赏以及下一个状态-抽象动作评估值Q(s’,o’)来更新Q(s,o),最后保存得到的结果信息中去。
CN201610238118.7A 2016-04-18 2016-04-18 基于自动发现抽象动作的机器人分层强化学习初始化方法 Active CN105955921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610238118.7A CN105955921B (zh) 2016-04-18 2016-04-18 基于自动发现抽象动作的机器人分层强化学习初始化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610238118.7A CN105955921B (zh) 2016-04-18 2016-04-18 基于自动发现抽象动作的机器人分层强化学习初始化方法

Publications (2)

Publication Number Publication Date
CN105955921A true CN105955921A (zh) 2016-09-21
CN105955921B CN105955921B (zh) 2019-03-26

Family

ID=56918089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610238118.7A Active CN105955921B (zh) 2016-04-18 2016-04-18 基于自动发现抽象动作的机器人分层强化学习初始化方法

Country Status (1)

Country Link
CN (1) CN105955921B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997488A (zh) * 2017-03-22 2017-08-01 扬州大学 一种结合马尔科夫决策过程的动作知识提取方法
CN108630197A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于语音识别的训练方法和设备
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
US10990890B2 (en) 2017-10-04 2021-04-27 Secondmind Limited Machine learning system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102521203A (zh) * 2011-11-18 2012-06-27 东南大学 基于因果图的分层强化学习任务图进化方法
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102521203A (zh) * 2011-11-18 2012-06-27 东南大学 基于因果图的分层强化学习任务图进化方法
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997488A (zh) * 2017-03-22 2017-08-01 扬州大学 一种结合马尔科夫决策过程的动作知识提取方法
CN108630197A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于语音识别的训练方法和设备
CN108630197B (zh) * 2017-03-23 2023-10-31 三星电子株式会社 用于语音识别的训练方法和设备
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
WO2019068838A1 (en) * 2017-10-04 2019-04-11 Prowler.Io Limited AUTOMATIC LEARNING SYSTEM
US10990890B2 (en) 2017-10-04 2021-04-27 Secondmind Limited Machine learning system

Also Published As

Publication number Publication date
CN105955921B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
Harutyunyan et al. The termination critic
CN111241952B (zh) 一种离散制造场景中的强化学习奖励自学习方法
CN105955921B (zh) 基于自动发现抽象动作的机器人分层强化学习初始化方法
KR101961421B1 (ko) 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품
Metelli et al. Configurable Markov decision processes
Zhao et al. Reinforcement learning-based selective disassembly sequence planning for the end-of-life products with structure uncertainty
Liang et al. Search-based task planning with learned skill effect models for lifelong robotic manipulation
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
CN107844460B (zh) 一种基于p-maxq的多水下机器人的围捕方法
Schubert et al. A generalist dynamics model for control
CN105867427B (zh) 一种面向动态环境的机器人寻径在线控制方法
CN115293623A (zh) 一种生产调度模型的训练方法、装置、电子设备及介质
CN113711139B (zh) 用于操控技术装置的方法和设备
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN116713999A (zh) 一种多机械臂多目标寻找的训练方法及训练装置
CN116673968A (zh) 基于强化学习的机械臂轨迹规划要素选择方法及系统
Contardo et al. Learning states representations in pomdp
Qi et al. Imitating, fast and slow: Robust learning from demonstrations via decision-time planning
Panov et al. Automatic formation of the structure of abstract machines in hierarchical reinforcement learning with state clustering
CN115990875A (zh) 一种基于隐空间插值的柔性线缆状态预测与控制系统
CN110046746B (zh) 一种基于强化学习的网络舆情装置的调度方法
CN105867378B (zh) 一种通过自动创建抽象动作控制移动机器人的方法
Li et al. Curriculum-based imitation of versatile skills
Zhou et al. Switching deep reinforcement learning based intelligent online decision making for autonomous systems under uncertain environment
CN114378791B (zh) 一种机器人任务执行方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant