CN105867378B

CN105867378B - 一种通过自动创建抽象动作控制移动机器人的方法

Info

Publication number: CN105867378B
Application number: CN201610238110.0A
Authority: CN
Inventors: 朱斐; 伏玉琛; 刘全; 陈冬火; 金海东
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2018-07-31
Anticipated expiration: 2036-04-18
Also published as: CN105867378A

Abstract

本发明公开了一种通过自动创建抽象动作控制移动机器人的方法，包括：1）初始化；2）按照Q学习模块的更新公式更新所有的状态‑动作评估值，并保存经验轨迹，去除经验轨迹中的重复状态区间内的状态；3）计算剩余状态的多样性密度值；4）若存在某个状态的多样性密度值达到预设阈值，则进入步骤5）；否则重复步骤2）至4）；5）选择多样性密度值大于阈值的状态作为子目标点，创建抽象动作模块，设置抽象动作的出发状态、策略和终止条件，将该抽象动作模块加入机器人的可选动作集中，采用更新后的可选动作集控制移动机器人。本发明能够有效地创建抽象动作，机器人可以利用创建的抽象动作进行分层强化学习，从而加速机器人在复杂环境下的学习。

Description

一种通过自动创建抽象动作控制移动机器人的方法

技术领域

本发明涉及一种机器人控制方法，属于机器学习领域，具体涉及一种采用抽象动作控制移动机器人的方法，尤其是移动机器人自动创建抽象动作实现移动控制的方法。

背景技术

随着机器人应用领域的不断拓展，机器人所面临的任务越来越复杂。尽管很多算法能够对机器人可能执行的行为进行预先设计和编程，但是当面临复杂的任务，设计人员往往无法对瞬息万变的外部环境做出有效预测，从而不能对机器人的行为做出合理的预测。因此，能够感知环境并通过采取相关动作来完成任务的自主机器人成为了研究的重点。

以路径规划和学习为代表的强化学习（Reinforcement Learning）采用试错（trial and error）学习的方式获取最优的行为策略，目前已经产生的众多强化学习算法都在机器人行为学习方面表现出了良好的学习性能。

然而，在解决大数据大规模问题时，传统的强化学习算法性能会急剧下降，因为强化学习需要通过机器人不断地与环境交互，所以当问题规模扩大时，环境中的特征数量会呈指数上升，因此算法的复杂度会急剧上升，机器人就需要大量的时间和经验来与环境进行交互以获得好的策略。目前强化学习中解决这个问题的方法有很多，如核方法、函数近似和分层强化学习等，这些方法都可以用于求解大规模问题。

不同于核方法和函数逼近器，分层强化学习致力于让机器人能够长期学习，甚至终生学习，也就是机器人之前学习到的经验能够为之后的学习所利用，这些经验可以用来解决某一个问题域中的所有或部分任务集合。时间抽象是分层强化学习中的一类重要的方法，利用时间抽象，机器人可以关注更高层策略的选择，从而减少选择行为所需的时间。

基于时间抽象的分层强化学习近些年也产生了很多高性能的算法，经典的学习算法如Macro-Q。Macro-Q算法能够让机器人利用给定的抽象动作来进行高效的学习，从本质上改善了传统Q-learning的性能。近年来分层强化学习的主要关注点都集中在如何使得机器人能够通过与环境的交互用最短的时间自动产生效果最好的抽象动作，这些抽象动作将会急剧的改变机器人完成任务的性能。

如何让机器人不局限于预设抽象动作，而是自动创建抽象动作，对于机器人的发展具有重要意义。

发明内容

本发明的发明目的是提供一种通过自动创建抽象动作控制移动机器人的方法，通过自动创建抽象动作，使机器人能够在得到抽象动作之后由普通强化学习转向分层强化学习，使得机器人能够解决大规模的任务并且能够使得机器人终生学习。

为达到上述发明目的，本发明采用的技术方案是：一种通过自动创建抽象动作控制移动机器人的方法，包括以下步骤：

1）初始化模块，设定机器人的运行环境，到达目标的奖赏值，以及用于更新值的步长参数、折扣因子参数；

2）机器人按照Q学习模块的更新公式更新所有的状态-动作评估值，并保存学习得到的经验轨迹，然后去除经验轨迹中的重复状态区间内的状态；

3）计算剩余状态的多样性密度值；

4）若存在某个状态的多样性密度值达到预设阈值，则进入步骤5）；否则重复步骤2）至步骤4）；

5）选择多样性密度值大于阈值的状态作为子目标点，创建抽象动作模块，设置抽象动作的出发状态、策略和终止条件，将该抽象动作模块加入机器人的可选动作集中，采用更新后的可选动作集控制移动机器人。

上述技术方案中，步骤1）中所述运行环境包括环境的边界、任务的起点位置、终点位置、环境中的固定的障碍物的位置，每一个位置均看作一个状态。

步骤2）中所述Q学习模块的具体处理方法如下：

①机器人根据更新得到的状态-动作评估值Q(s,a)选择动作，得到奖赏并观测到下一个状态；

②根据得到的奖赏以及下一个状态-动作评估值Q(s’,a’)来更新Q(s,a)；

③若当前状态达到了目标点，则进入步骤④；若没有达到目标点，则进入步骤①；

④将机器人运行过程中的观测轨迹保存下来。

步骤3）中所述多样性密度值的计算方法如下：

（1）

其中为目标概念的多样性密度值；表示在轨迹集合的条件下的概率，表示第i条负轨迹，表示第j条正轨迹。

通过贝叶斯变换得到：

(2)

，

，表示在轨迹的条件下的概率，表示第i条负轨迹，表示第j条正轨迹；表示第i条正轨迹的第j个状态，表示第i条负轨迹的第j个状态；表示在轨迹的条件下的概率，表示第i条轨迹的第j个状态，联立式(1)和式(2)求解得到每个状态的多样性密度值。

步骤5）中创建抽象动作模块的具体方法如下:

1）初始化出发状态集合，对抽象动作中的出发状态集合进行初始化；

2）初始化终止条件，对抽象动作中的终止条件进行初始化；

3）初始化内部策略，对抽象动作中的内部策略进行初始化；

4）判断是否对所有的子目标点创建了抽象动作，若满足条件，则进入步骤5）；若不满足条件，则进入步骤1）；

5）初始化Q(s,o)，机器人可用的动作从基本动作扩展为，其中O表示所有的抽象动作集合，A表示所有的基本动作集合，用Q(s,o)统一表示基本动作和抽象动作，若该状态-动作评估值Q(s,o)在Q(s,a)中存在值，则，若该状态-动作评估值Q(s,o)在Q(s,a)中不存在值，则。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明的移动机器人自动创建抽象动作的方法，通过对机器与环境交互获得的经验轨迹进行去环处理，再次进出上采用多样性密度度量方法，机器人能够有效的创建抽象动作，机器人可以利用创建的抽象动作进行分层强化学习，从而加速机器人在复杂环境下的学习。

采用本发明的方法，机器人能够快速地发现可用的抽象动作，使机器人在以后的学习中充分利用到之前的经验。

附图说明

图1为本发明实施例中移动机器人自动创建抽象动作的方法的总流程图；

图2为实施例中初始化模块的流程图；

图3为实施例中Q学习模块的流程图。

图4为实施例中创建抽象动作模块的流程图；

图5为实施例中移动机器人自动创建抽象动作示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例：参照图1、2、5所示，一种移动机器人自动创建抽象动作的方法，具体包括以下步骤：

1）初始化模块，设定机器人的运行环境，到达目标的奖赏值，以及用于更新值的步长参数、折扣因子参数，其中运行环境包括环境的边界，任务的起点位置，终点位置，环境中的固定的障碍物的位置，每一个位置均看作一个状态；

2）机器人按照Q学习模块的更新公式更新所有的状态-动作评估值，并保存学习得到的经验轨迹集合，一条轨迹可以表示为，其中表示轨迹的第j个状态，然后对得到的轨迹集合中所有的轨迹做去环处理，即去除经验轨迹中的重复状态区间内的状态，得到无环的轨迹集合

；

3）计算剩余状态的多样性密度值，该多样性密度值的计算方法如下：

（1）

其中为目标概念的多样性密度值；表示在轨迹集合的条件下的概率，表示第i条负轨迹，表示第j条正轨迹；通过贝叶斯变换得到：

(2)

其中，，目标概念的概率定义为该实例与目标概念距离上的高斯分布；表示在轨迹的条件下的概率，表示第i条负轨迹，表示第j条正轨迹；同理，表示第i条正轨迹的第j个状态，表示第i条负轨迹的第j个状态；表示在轨迹的条件下的概率，表示第i条轨迹的第j个状态，

4）若存在某个状态的多样性密度值达到阈值，则进入步骤5）；若不存在某个状态的多样性密度值达到阈值，则进入步骤2）；

5）选择多样性密度值大于阈值的状态作为子目标点，创建抽象动作模块，设置抽象动作的出发状态、策略和终止条件；

6）机器人此时可以利用创建的抽象动作采用经典的分层强化学习算法即Macro-Q来进行学习，从而加快算法的收敛速度并实现终生学习。

参照图3所示，本发明步骤2）中所述Q学习模块的具体处理方法如下：

1）机器人根据更新得到的状态-动作评估值选择动作，得到奖赏并观测到下一个状态；

2）根据得到的奖赏以及下一个状态-动作评估值来更新；

3）若当前状态达到了目标点，则进入步骤4）；若没有达到目标点，则进入步骤1）；

4）将机器人运行过程中的观测轨迹保存下来。

由于在获得的轨迹数量较少的情况下求解受噪声的影响较大，但是目标是得到从始至终都是问题域中的子目标点，因此对具有峰值多样性密度值的状态进行求平均。每当某个状态点具有峰值多样性密度值，则对该状态按照进行更新，在经过轮计算后，所有满足的状态都被加入到子目标列表中，其中是一个与相关的阈值。

在得到了子目标列表之后，要对中的所有子目标创建抽象动作。要对子目标创建一个抽象动作，需要创建抽象动作的。本文初始化的方法是通过搜索去环轨迹中所有出现的轨迹，如果在无环轨迹中第个时间步找到了，那么机器人会将时间步到时间步中的状态都加入中。当机器人到达时或者机器人当前不在，终止条件，否则。抽象动作的策略的初始化使用在无环轨迹上进行经验回放的方式来学习。通过上述过程，就可以得到创建好的抽象动作。

参照图4所示，本发明步骤5）中创建抽象动作模块的具体方法如下:

2）初始化终止条件，对抽象动作中的终止条件进行初始化；

3）初始化内部策略，对抽象动作中的内部策略进行初始化；

5）初始化Q(s,o)，机器人可用的动作从基本动作扩展为，其中O表示所有的抽象动作集合，A表示所有的基本动作集合，此时用Q(s,o)统一的表示基本动作和抽象动作，与机器人最初初始化Q(s,a)不一样，这里的动作不仅有基本动作，还有生成的抽象动作，由于一部分状态-动作评估值Q(s,a)已经在Q学习的过程中更新过了，因此按照如下方法处理：

若该状态-动作评估值Q(s,o)在Q(s,a)中存在值，则，若该状态-动作评估值Q(s,o)在Q(s,a)中不存在值，则。

Claims

1.一种通过自动创建抽象动作控制移动机器人的方法，其特征在于，包括以下步骤：

2）机器人按照Q学习模块的更新公式更新所有的状态-动作评估值Q(s,a)，并保存学习得到的经验轨迹，然后去除经验轨迹中的重复状态区间内的状态；

3）计算剩余状态的多样性密度值；

2.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法，其特征在于：步骤1）中所述运行环境包括环境的边界、任务的起点位置、终点位置、环境中的固定的障碍物的位置，每一个位置均看作一个状态。

3.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法，其特征在于：步骤2）中所述Q学习模块的具体处理方法如下：

④将机器人运行过程中的观测轨迹保存下来成为经验轨迹。

4.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法，其特征在于：步骤3）中所述多样性密度值的计算方法如下：

（1）

其中DD(x)为目标概念x的多样性密度值；表示在轨迹集合的条件下x = t的概率，表示第i条负轨迹，表示第j条正轨迹；

通过贝叶斯变换得到：

(2)

其中DD(x)为目标概念x的多样性密度值；

，

，表示在轨迹的条件下x =t的概率，表示第i条负轨迹，表示第j条正轨迹；表示第i条正轨迹的第j个状态，表示第i条负轨迹的第j个状态；表示在轨迹的条件下x = t的概率，表示第i条轨迹的第j个状态，联立式(1)和式(2)求解得到每个状态的多样性密度值。

5.根据权利要求1所述的通过自动创建抽象动作控制移动机器人的方法，其特征在于：步骤5）中创建抽象动作模块的具体方法如下:

1）初始化出发状态集合，对抽象动作中的出发状态集合I _o进行初始化；

2）初始化终止条件，对抽象动作中的终止条件进行初始化；

3）初始化内部策略，对抽象动作中的内部策略进行初始化；

5）初始化Q(s,o)，机器人可用的动作从基本动作扩展为，其中O表示所有的抽象动作集合，A表示所有的基本动作集合，用状态-动作评估值Q(s,o)统一表示基本动作和抽象动作，若该状态-动作评估值Q(s,o)在Q(s,a)中存在值，则，若该状态-动作评估值Q(s,o)在Q(s,a)中不存在值，则。