CN105867378B - 一种通过自动创建抽象动作控制移动机器人的方法 - Google Patents
一种通过自动创建抽象动作控制移动机器人的方法 Download PDFInfo
- Publication number
- CN105867378B CN105867378B CN201610238110.0A CN201610238110A CN105867378B CN 105867378 B CN105867378 B CN 105867378B CN 201610238110 A CN201610238110 A CN 201610238110A CN 105867378 B CN105867378 B CN 105867378B
- Authority
- CN
- China
- Prior art keywords
- state
- action
- robot
- abstract
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008569 process Effects 0.000 claims description 4
- 238000000205 computational method Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 101150050759 outI gene Proteins 0.000 claims 1
- 238000005086 pumping Methods 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 abstract description 9
- 230000006399 behavior Effects 0.000 abstract description 8
- 230000003993 interaction Effects 0.000 description 4
- 125000002015 acyclic group Chemical group 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
Abstract
本发明公开了一种通过自动创建抽象动作控制移动机器人的方法,包括:1)初始化;2)按照Q学习模块的更新公式更新所有的状态‑动作评估值,并保存经验轨迹,去除经验轨迹中的重复状态区间内的状态;3)计算剩余状态的多样性密度值;4)若存在某个状态的多样性密度值达到预设阈值,则进入步骤5);否则重复步骤2)至4);5)选择多样性密度值大于阈值的状态作为子目标点,创建抽象动作模块,设置抽象动作的出发状态、策略和终止条件,将该抽象动作模块加入机器人的可选动作集中,采用更新后的可选动作集控制移动机器人。本发明能够有效地创建抽象动作,机器人可以利用创建的抽象动作进行分层强化学习,从而加速机器人在复杂环境下的学习。
Description
技术领域
本发明涉及一种机器人控制方法,属于机器学习领域,具体涉及一种采用抽象动作控制移动机器人的方法,尤其是移动机器人自动创建抽象动作实现移动控制的方法。
背景技术
随着机器人应用领域的不断拓展,机器人所面临的任务越来越复杂。尽管很多算法能够对机器人可能执行的行为进行预先设计和编程,但是当面临复杂的任务,设计人员往往无法对瞬息万变的外部环境做出有效预测,从而不能对机器人的行为做出合理的预测。因此,能够感知环境并通过采取相关动作来完成任务的自主机器人成为了研究的重点。
以路径规划和学习为代表的强化学习(Reinforcement Learning)采用试错(trial and error)学习的方式获取最优的行为策略,目前已经产生的众多强化学习算法都在机器人行为学习方面表现出了良好的学习性能。
然而,在解决大数据大规模问题时,传统的强化学习算法性能会急剧下降,因为强化学习需要通过机器人不断地与环境交互,所以当问题规模扩大时,环境中的特征数量会呈指数上升,因此算法的复杂度会急剧上升,机器人就需要大量的时间和经验来与环境进行交互以获得好的策略。目前强化学习中解决这个问题的方法有很多,如核方法、函数近似和分层强化学习等,这些方法都可以用于求解大规模问题。
不同于核方法和函数逼近器,分层强化学习致力于让机器人能够长期学习,甚至终生学习,也就是机器人之前学习到的经验能够为之后的学习所利用,这些经验可以用来解决某一个问题域中的所有或部分任务集合。时间抽象是分层强化学习中的一类重要的方法,利用时间抽象,机器人可以关注更高层策略的选择,从而减少选择行为所需的时间。
基于时间抽象的分层强化学习近些年也产生了很多高性能的算法,经典的学习算法如Macro-Q。Macro-Q算法能够让机器人利用给定的抽象动作来进行高效的学习,从本质上改善了传统Q-learning的性能。近年来分层强化学习的主要关注点都集中在如何使得机器人能够通过与环境的交互用最短的时间自动产生效果最好的抽象动作,这些抽象动作将会急剧的改变机器人完成任务的性能。
如何让机器人不局限于预设抽象动作,而是自动创建抽象动作,对于机器人的发展具有重要意义。
发明内容
本发明的发明目的是提供一种通过自动创建抽象动作控制移动机器人的方法,通过自动创建抽象动作,使机器人能够在得到抽象动作之后由普通强化学习转向分层强化学习,使得机器人能够解决大规模的任务并且能够使得机器人终生学习。
为达到上述发明目的,本发明采用的技术方案是:一种通过自动创建抽象动作控制移动机器人的方法,包括以下步骤:
1)初始化模块,设定机器人的运行环境,到达目标的奖赏值,以及用于更新值的步长参数、折扣因子参数;
2)机器人按照Q学习模块的更新公式更新所有的状态-动作评估值,并保存学习得到的经验轨迹,然后去除经验轨迹中的重复状态区间内的状态;
3)计算剩余状态的多样性密度值;
4)若存在某个状态的多样性密度值达到预设阈值,则进入步骤5);否则重复步骤2)至步骤4);
5)选择多样性密度值大于阈值的状态作为子目标点,创建抽象动作模块,设置抽象动作的出发状态、策略和终止条件,将该抽象动作模块加入机器人的可选动作集中,采用更新后的可选动作集控制移动机器人。
上述技术方案中,步骤1)中所述运行环境包括环境的边界、任务的起点位置、终点位置、环境中的固定的障碍物的位置,每一个位置均看作一个状态。
步骤2)中所述Q学习模块的具体处理方法如下:
①机器人根据更新得到的状态-动作评估值Q(s,a)选择动作,得到奖赏并观测到下一个状态;
②根据得到的奖赏以及下一个状态-动作评估值Q(s’,a’)来更新Q(s,a);
③若当前状态达到了目标点,则进入步骤④;若没有达到目标点,则进入步骤①;
④将机器人运行过程中的观测轨迹保存下来。
步骤3)中所述多样性密度值的计算方法如下:
(1)
其中为目标概念的多样性密度值;表示在轨迹集合的条件下的概率,表示第i条负轨迹,表示第j条正轨迹。
通过贝叶斯变换得到:
(2)
,
,表示在轨迹的条件下的概率,表示第i条负轨迹,表示第j条正轨迹;表示第i条正轨迹的第j个状态,表示第i条负轨迹的第j个状态;表示在轨迹的条件下的概率,表示第i条轨迹的第j个状态,联立式(1)和式(2)求解得到每个状态的多样性密度值。
步骤5)中创建抽象动作模块的具体方法如下:
1)初始化出发状态集合,对抽象动作中的出发状态集合进行初始化;
2)初始化终止条件,对抽象动作中的终止条件进行初始化;
3)初始化内部策略,对抽象动作中的内部策略进行初始化;
4)判断是否对所有的子目标点创建了抽象动作,若满足条件,则进入步骤5);若不满足条件,则进入步骤1);
5)初始化Q(s,o),机器人可用的动作从基本动作扩展为,其中O表示所有的抽象动作集合,A表示所有的基本动作集合,用Q(s,o)统一表示基本动作和抽象动作,若该状态-动作评估值Q(s,o)在Q(s,a)中存在值,则,若该状态-动作评估值Q(s,o)在Q(s,a)中不存在值,则。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
本发明的移动机器人自动创建抽象动作的方法,通过对机器与环境交互获得的经验轨迹进行去环处理,再次进出上采用多样性密度度量方法,机器人能够有效的创建抽象动作,机器人可以利用创建的抽象动作进行分层强化学习,从而加速机器人在复杂环境下的学习。
采用本发明的方法,机器人能够快速地发现可用的抽象动作,使机器人在以后的学习中充分利用到之前的经验。
附图说明
图1为本发明实施例中移动机器人自动创建抽象动作的方法的总流程图;
图2为实施例中初始化模块的流程图;
图3为实施例中Q学习模块的流程图。
图4为实施例中创建抽象动作模块的流程图;
图5为实施例中移动机器人自动创建抽象动作示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例:参照图1、2、5所示,一种移动机器人自动创建抽象动作的方法,具体包括以下步骤:
1)初始化模块,设定机器人的运行环境,到达目标的奖赏值,以及用于更新值的步长参数、折扣因子参数,其中运行环境包括环境的边界,任务的起点位置,终点位置,环境中的固定的障碍物的位置,每一个位置均看作一个状态;
2)机器人按照Q学习模块的更新公式更新所有的状态-动作评估值,并保存学习得到的经验轨迹集合,一条轨迹可以表示为,其中表示轨迹的第j个状态,然后对得到的轨迹集合中所有的轨迹做去环处理,即去除经验轨迹中的重复状态区间内的状态,得到无环的轨迹集合
;
3)计算剩余状态的多样性密度值,该多样性密度值的计算方法如下:
(1)
其中为目标概念的多样性密度值;表示在轨迹集合的条件下的概率,表示第i条负轨迹,表示第j条正轨迹;通过贝叶斯变换得到:
(2)
其中,,目标概念的概率定义为该实例与目标概念距离上的高斯分布;表示在轨迹的条件下的概率,表示第i条负轨迹,表示第j条正轨迹;同理,表示第i条正轨迹的第j个状态,表示第i条负轨迹的第j个状态;表示在轨迹的条件下的概率,表示第i条轨迹的第j个状态,
4)若存在某个状态的多样性密度值达到阈值,则进入步骤5);若不存在某个状态的多样性密度值达到阈值,则进入步骤2);
5)选择多样性密度值大于阈值的状态作为子目标点,创建抽象动作模块,设置抽象动作的出发状态、策略和终止条件;
6)机器人此时可以利用创建的抽象动作采用经典的分层强化学习算法即Macro-Q来进行学习,从而加快算法的收敛速度并实现终生学习。
参照图3所示,本发明步骤2)中所述Q学习模块的具体处理方法如下:
1)机器人根据更新得到的状态-动作评估值选择动作,得到奖赏并观测到下一个状态;
2)根据得到的奖赏以及下一个状态-动作评估值来更新;
3)若当前状态达到了目标点,则进入步骤4);若没有达到目标点,则进入步骤1);
4)将机器人运行过程中的观测轨迹保存下来。
由于在获得的轨迹数量较少的情况下求解受噪声的影响较大,但是目标是得到从始至终都是问题域中的子目标点,因此对具有峰值多样性密度值的状态进行求平均。每当某个状态点具有峰值多样性密度值,则对该状态按照进行更新,在经过轮计算后,所有满足的状态都被加入到子目标列表中,其中是一个与相关的阈值。
在得到了子目标列表之后,要对中的所有子目标创建抽象动作。要对子目标创建一个抽象动作,需要创建抽象动作的。本文初始化的方法是通过搜索去环轨迹中所有出现的轨迹,如果在无环轨迹中第个时间步找到了,那么机器人会将时间步到时间步中的状态都加入中。当机器人到达时或者机器人当前不在,终止条件,否则。抽象动作的策略的初始化使用在无环轨迹上进行经验回放的方式来学习。通过上述过程,就可以得到创建好的抽象动作。
参照图4所示,本发明步骤5)中创建抽象动作模块的具体方法如下:
1)初始化出发状态集合,对抽象动作中的出发状态集合进行初始化;
2)初始化终止条件,对抽象动作中的终止条件进行初始化;
3)初始化内部策略,对抽象动作中的内部策略进行初始化;
4)判断是否对所有的子目标点创建了抽象动作,若满足条件,则进入步骤5);若不满足条件,则进入步骤1);
5)初始化Q(s,o),机器人可用的动作从基本动作扩展为,其中O表示所有的抽象动作集合,A表示所有的基本动作集合,此时用Q(s,o)统一的表示基本动作和抽象动作,与机器人最初初始化Q(s,a)不一样,这里的动作不仅有基本动作,还有生成的抽象动作,由于一部分状态-动作评估值Q(s,a)已经在Q学习的过程中更新过了,因此按照如下方法处理:
若该状态-动作评估值Q(s,o)在Q(s,a)中存在值,则,若该状态-动作评估值Q(s,o)在Q(s,a)中不存在值,则。
Claims (5)
1.一种通过自动创建抽象动作控制移动机器人的方法,其特征在于,包括以下步骤:
1)初始化模块,设定机器人的运行环境,到达目标的奖赏值,以及用于更新值的步长参数、折扣因子参数;
2)机器人按照Q学习模块的更新公式更新所有的状态-动作评估值Q(s,a),并保存学习得到的经验轨迹,然后去除经验轨迹中的重复状态区间内的状态;
3)计算剩余状态的多样性密度值;
4)若存在某个状态的多样性密度值达到预设阈值,则进入步骤5);否则重复步骤2)至步骤4);
5)选择多样性密度值大于阈值的状态作为子目标点,创建抽象动作模块,设置抽象动作的出发状态、策略和终止条件,将该抽象动作模块加入机器人的可选动作集中,采用更新后的可选动作集控制移动机器人。
2.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法,其特征在于:步骤1)中所述运行环境包括环境的边界、任务的起点位置、终点位置、环境中的固定的障碍物的位置,每一个位置均看作一个状态。
3.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法,其特征在于:步骤2)中所述Q学习模块的具体处理方法如下:
①机器人根据更新得到的状态-动作评估值Q(s,a)选择动作,得到奖赏并观测到下一个状态;
②根据得到的奖赏以及下一个状态-动作评估值Q(s’,a’)来更新Q(s,a);
③若当前状态达到了目标点,则进入步骤④;若没有达到目标点,则进入步骤①;
④将机器人运行过程中的观测轨迹保存下来成为经验轨迹。
4.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法,其特征在于:步骤3)中所述多样性密度值的计算方法如下:
(1)
其中DD(x)为目标概念x的多样性密度值;表示在轨迹集合的条件下x = t的概率,表示第i条负轨迹,表示第j条正轨迹;
通过贝叶斯变换得到:
(2)
其中DD(x)为目标概念x的多样性密度值;
,
,表示在轨迹的条件下x =t的概率,表示第i条负轨迹,表示第j条正轨迹;表示第i条正轨迹的第j个状态,表示第i条负轨迹的第j个状态;表示在轨迹的条件下x = t的概率,表示第i条轨迹的第j个状态,联立式(1)和式(2)求解得到每个状态的多样性密度值。
5.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法,其特征在于:步骤5)中创建抽象动作模块的具体方法如下:
1)初始化出发状态集合,对抽象动作中的出发状态集合I o 进行初始化;
2)初始化终止条件,对抽象动作中的终止条件进行初始化;
3)初始化内部策略,对抽象动作中的内部策略进行初始化;
4)判断是否对所有的子目标点创建了抽象动作,若满足条件,则进入步骤5);若不满足条件,则进入步骤1);
5)初始化Q(s,o),机器人可用的动作从基本动作扩展为,其中O表示所有的抽象动作集合,A表示所有的基本动作集合,用状态-动作评估值Q(s,o)统一表示基本动作和抽象动作,若该状态-动作评估值Q(s,o)在Q(s,a)中存在值,则,若该状态-动作评估值Q(s,o)在Q(s,a)中不存在值,则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610238110.0A CN105867378B (zh) | 2016-04-18 | 2016-04-18 | 一种通过自动创建抽象动作控制移动机器人的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610238110.0A CN105867378B (zh) | 2016-04-18 | 2016-04-18 | 一种通过自动创建抽象动作控制移动机器人的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105867378A CN105867378A (zh) | 2016-08-17 |
CN105867378B true CN105867378B (zh) | 2018-07-31 |
Family
ID=56633155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610238110.0A Active CN105867378B (zh) | 2016-04-18 | 2016-04-18 | 一种通过自动创建抽象动作控制移动机器人的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105867378B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111343484A (zh) * | 2018-12-19 | 2020-06-26 | 飞思达技术(北京)有限公司 | 基于人工智能的iptv/ott智能质量告警方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1478638A (zh) * | 2003-05-29 | 2004-03-03 | 上海交通大学 | 面向对象的机器人通用开放控制系统 |
CN101436073A (zh) * | 2008-12-03 | 2009-05-20 | 江南大学 | 基于量子行为粒子群算法的轮式移动机器人轨迹跟踪方法 |
CN104914866A (zh) * | 2015-05-29 | 2015-09-16 | 国网山东省电力公司电力科学研究院 | 基于拓扑点分类的巡检机器人全局路径规划方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130093399A (ko) * | 2012-02-14 | 2013-08-22 | 한국전자통신연구원 | 자율행위 로봇 및 그 제어 방법 |
-
2016
- 2016-04-18 CN CN201610238110.0A patent/CN105867378B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1478638A (zh) * | 2003-05-29 | 2004-03-03 | 上海交通大学 | 面向对象的机器人通用开放控制系统 |
CN101436073A (zh) * | 2008-12-03 | 2009-05-20 | 江南大学 | 基于量子行为粒子群算法的轮式移动机器人轨迹跟踪方法 |
CN104914866A (zh) * | 2015-05-29 | 2015-09-16 | 国网山东省电力公司电力科学研究院 | 基于拓扑点分类的巡检机器人全局路径规划方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种基于启发式奖赏函数的分层强化学习方法;刘全 等;《计算机研究与发展》;20111231;第48卷(第12期);第2352-2358页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105867378A (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harutyunyan et al. | The termination critic | |
CN111144580B (zh) | 一种基于模仿学习的层级强化学习训练方法和装置 | |
CN113821041B (zh) | 一种多机器人协同导航与避障的方法 | |
CN108594803B (zh) | 基于q-学习算法的路径规划方法 | |
CN111461325B (zh) | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 | |
CN113919485B (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
Hussein et al. | Deep reward shaping from demonstrations | |
CN105955921B (zh) | 基于自动发现抽象动作的机器人分层强化学习初始化方法 | |
JP7448683B2 (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
CN110188880A (zh) | 一种深度神经网络的量化方法及装置 | |
Wu et al. | Effective lazy training method for deep q-network in obstacle avoidance and path planning | |
CN110632922A (zh) | 一种基于蝙蝠算法与强化学习的路径规划方法 | |
CN113592162B (zh) | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 | |
CN105867427B (zh) | 一种面向动态环境的机器人寻径在线控制方法 | |
CN105867378B (zh) | 一种通过自动创建抽象动作控制移动机器人的方法 | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
EP2898996A1 (en) | Method of controlling a robotic system and a robotic system controller for implementing this method | |
CN113503885B (zh) | 一种基于采样优化ddpg算法的机器人路径导航方法及系统 | |
CN113985870B (zh) | 一种基于元强化学习的路径规划方法 | |
Panov et al. | Automatic formation of the structure of abstract machines in hierarchical reinforcement learning with state clustering | |
Contardo et al. | Learning states representations in pomdp | |
Zhou | Optimal Values Selection of Q-learning Parameters in Stochastic Mazes | |
Hualiang | Path planning of mobile robot based on improved DDQN | |
Boularias et al. | Apprenticeship learning via soft local homomorphisms | |
Bai et al. | An improved DDPG algorithm based on evolution-guided transfer in reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |