CN110307848A

CN110307848A - 一种移动机器人导航方法

Info

Publication number: CN110307848A
Application number: CN201910598925.3A
Authority: CN
Inventors: 唐开强; 傅汇乔; 王岚; 柴昭; 杨宇琼; 季娟宇; 李步印; 柯兴萍; 车佳嫣; 陈春林; 朱张青; 陈力立; 辛博; 曲直; 闻羽
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-08

Abstract

本发明公开了一种移动机器人导航方法，导航区域上空设置有图像采集装置，包括如下步骤：1、在机器人运动前采集一次移动机器人环境图像；2、根据采集到的环境图像得到环境障碍物信息；3、根据获取的环境障碍物信息建立二值化栅格地图，栅格地图中标注出可通行区域和不可通行区域；4、根据栅格地图建立移动机器人运行规则；5、设置总回合数M和浅尝试学习回合数M₁；使用移动机器人运行规则进行浅尝试学习，得到初步的Q表；根据移动机器人初始位置p₀采用强化学习对Q表进行更新；6、根据更新后的Q表，获取移动机器人的最优运动策略π^*，得到移动机器人的运动路径。该方法使得机器人在训练过程中减少了无效探索，学习效率高，收敛快。

Description

一种移动机器人导航方法

技术领域

本发明涉及一种人类先验知识背景下的强化学习算法，为移动机器人提供有效导航。

背景技术

移动机器人的一项关键技能是能够在其环境中有效导航，并且强化学习广泛用于移动机器人的路径规划。然而，该算法具有慢的收敛速度和大量的迭代。关于如何从基于规则的浅层试验策略中的获取角度有效地提高学习的研究很少。在生物世界中，动物在制定路径规划时依赖于自己的经验知识。人性具有先验知识，对人们的航行有很大帮助。我们采用人类行为的先验知识，并将其表达为浅层规则，然后将基于规则的浅层强化学习应用于机器人的导航学习，有效地提高学习效率。

发明内容

发明目的：将基于规则的浅层强化学习应用于机器人的导航学习，提高机器人导航学习效率。

技术方案：本发明采用如下技术方案：

一种移动机器人导航方法，导航区域上空设置有图像采集装置，包括如下步骤：

(1)所述图像采集装置在机器人运动前采集一次移动机器人环境图像，该图像包括机器人与目的地；

(2)根据采集到的环境图像得到环境障碍物信息；

(3)根据获取的环境障碍物信息建立二值化栅格地图，所述栅格地图中标注出可通行区域和不可通行区域；

(4)根据栅格地图建立移动机器人运行规则；

(5)设置总回合数M，浅尝试学习回合数M₁，强化学习回合数M₂；M＝M₁+M₂；使用步骤4中建立的移动机器人运行规则进行浅尝试学习，得到初步的Q表；根据移动机器人初始位置p₀，采用强化学习对Q表进行更新；

(6)根据更新后的Q表，获取移动机器人的运动策略π，所述运动策略π由多个动作依次组合，最优运动策略π^*为：

其中S为可通行区域；表示从状态s转移到状态s'的过程，Q^π(s',a')表示在策略π下，Q表中状态s'下选择某一动作a'的价值，r(s,a)表示在状态s下选取动作a所得回报；根据最优运动策略，得到移动机器人的运动路径。

所述步骤(2)采用Mask R-CNN算法将环境图像的像素点分为障碍物像素点、机器人像素点和其它像素点三类，得到环境信息。

所述步骤(3)中建立二值化栅格地图，包括如下步骤：

(3.1)将采集到的机器人环境图像细化分割为等面积的栅格；

(3.2)根据步骤(2)得到的环境障碍物信息，对栅格进行分类；每个栅格中，若障碍物像素点占比超过预设的像素比阈值，将此栅格设为障碍物栅格；障碍物栅格构成不可通行区域；非障碍物栅格构成可通行区域。

所述预设的像素比阈值的取值范围为(45％，55％)。

所述步骤(4)中建立的移动机器人运行规则包括：

(4.1)移动机器人在位置p处如果可以选择多个动作，则采取动作a移动到位置p′，使p≠p′；

(4.2)当移动机器人在二值化栅格地图上的位置p处上下左右四个方向上的临近栅格内均可以移动h步长且仍处于可通行区域时，判断位置p(p_x,p_y)和目标点dest(dest_x,dest_y)之间的距离：dx＝|p_x-dest_x|，dy＝|p_y-dest_y|；

当dx>dy时，机器人在X方向上朝目标点移动；当dx<dy时，机器人在Y方向上朝目标点移动；当dx＝dy时，机器人在X或Y两个方向上随机移动朝向目标点；X，Y方向分别是二值化栅格地图的坐标轴。

本发明中，步长数h＝10。

所述步骤(5)中浅尝试学习阶段包括如下步骤：

(A.1)初始化Q表为空，所述Q表中存储移动机器人在各种状态s下的动作a的值函数Q(s,a)；

(A.2)浅尝试学习的一个回合为：

(a)随机生成一个位置作为初始状态s₀；

(b)在当前状态s_t下，使用步骤4中建立的移动机器人运行规则生成动作，随机选择一个生成的动作a_t，然后执行动作a_t得到下一个状态s_t+1和回报r；

在状态s_t+1下使用步骤4中建立的移动机器人运行规则生成动作，在生成的多个动作中选择使值函数Q(s_t+1,a_t+1)最大的动作a_t+1；更新Q表中Q(s_t,a_t)的值：

其中Q(s_t,a_t)为更新前Q(s_t,a_t)的值，Q(s_t,a_t)_m为更新后Q(s_t,a_t)的值；如果Q表中没有Q(s_t,a_t)，则Q(s_t,a_t)＝0，并在Q表中增加Q(s_t,a_t)_m；α表示学习率，γ表示折扣因子；

(c)更新当前状态，令s_t＝s_t+1，执行步骤(b)，以此循环，直到状态s_t为目的地位置；

(A.3)执行M₁个浅尝试学习回合，得到学习后的Q表；

所述强化学习阶段包括如下步骤：

(B.1)强化学习的一个回合为：

(u)初始化状态s′₀＝p₀；

(v)在当前状态s_t′下，根据Q表使用贪婪策略选择动作，即选择Q表中在状态s_t′下值函数最大的动作a_t′；执行动作a_t′得到下一个状态s_t+1′和回报r′；

在状态s_t+1′下根据Q表使用贪婪策略选择动作a_t+1′；更新Q表中Q(s_t′,a_t′)的值：

其中Q(s_t′,a_t′)为更新前Q(s_t′,a_t′)的值，Q(s_t′,a_t′)_m为更新后Q(s_t′,a_t′)的值；

(w)更新当前状态，令s_t′＝s_t+1′，执行步骤(v)，以此循环，直到状态s_t′为目的地位置；

(B.3)执行M₂个强化学习回合，得到更新后的Q表；

本发明中，浅尝试学习回合数M₁的取值范围为(0.3M,0.4M)。

有益效果：本发明公开的移动机器人导航方法，在浅尝试学习阶段使用机器人运动规则进行探索，得到初步的Q表；在取消运动规则后，利用强化学习进一步优化Q表，得到训练好的Q表。在对机器人进行导航时，根据训练的Q表，能够快速收敛，得到最优运动策略。该方法使得机器人在训练过程中减少了无效探索，学习效率高，收敛快。

附图说明

图1为本发明的方法流程图；

图2为使用Mask R-CNN对机器人和障碍物的分割结果图；

图3为二值化后的栅格环境地图，其中红色栅格代表起点，绿色栅格代表终点，黑色栅格代表障碍物；

图4为本发明提出的方法与传统Q-learning方法学习收敛速度的对比图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，一种移动机器人导航方法，导航区域上空设置有图像采集装置，包括如下步骤：

步骤1、所述图像采集装置在机器人运动前采集一次移动机器人环境图像，该图像包括机器人与目的地；

步骤2、根据采集到的环境图像得到环境障碍物信息；

采用Mask R-CNN算法将环境图像的像素点分为障碍物像素点、机器人像素点和其它像素点三类，得到环境信息。图2为对机器人1和障碍物2的分割结果图。

步骤3、根据获取的环境障碍物信息建立二值化栅格地图，所述栅格地图中标注出可通行区域和不可通行区域；具体包括如下步骤：

(3.1)将采集到的机器人环境图像细化分割为等面积的栅格；

(3.2)根据步骤(2)得到的环境障碍物信息，对栅格进行分类；每个栅格中，若障碍物像素点占比超过预设的像素比阈值，将此栅格设为障碍物栅格；障碍物栅格构成不可通行区域；非障碍物栅格构成可通行区域。本实施例中，将不可通行区域的栅格设为黑色，可通行区域的栅格设为白色，如图3所示，图中点3为移动机器人的起点位置，点4为目的地位置。以图像中左下角为坐标原点，建立坐标系。本实施例中，预设的像素比阈值的取值范围为(45％，55％)。

步骤4、根据栅格地图建立移动机器人运行规则，包括：

本实施例中个，步长数h＝10。

步骤5、设置总回合数M，浅尝试学习回合数M₁，强化学习回合数M₂；M＝M₁+M₂；使用步骤4中建立的移动机器人运行规则进行浅尝试学习，得到初步的Q表；根据移动机器人初始位置p₀，采用强化学习对Q表进行更新；

浅尝试学习阶段包括如下步骤：

(A.2)浅尝试学习的一个回合为：

(a)随机生成一个位置作为初始状态s₀；

(A.3)执行M₁个浅尝试学习回合，得到学习后的Q表；

所述强化学习阶段包括如下步骤：

(B.1)强化学习的一个回合为：

(u)初始化状态s′₀＝p₀；如图3所示的栅格地图中，s′₀＝(0,22)；

(B.3)执行M₂个强化学习回合，得到更新后的Q表；

步骤6、根据更新后的Q表，获取移动机器人的运动策略π，所述运动策略π由多个动作依次组合，最优运动策略π^*为：

其中S为可通行区域；表示从状态s转移到状态s'的过程，Q^π(s',a')表示在策略π下，Q表中状态s'下选择某一动作a'的价值，r(s,a)表示在状态s下选取动作a所得回报；

根据最优运动策略，得到移动机器人的运动路径。

经过浅尝试学习，得到一个初始的Q表，强化学习对Q表进行更新。浅尝试学习的回合数会影响到初始Q表的规模，本实施例中，将浅尝试学习回合数M₁的取值范围设为(0.3M,0.4M)，能够在计算量适当的情况下得到较好的结果。

本实施例中对比了本发明公开的方法与传统Q学习方法的学习收敛速度，结果对比如图4所示，其中圆形点曲线表示传统的Q学习收敛，星型点曲线表示本发明公开的移动机器人导航方法的收敛速度，从图中可以看出，本发明公开的方法收敛速度快于传统的Q学习方法。

Claims

1.一种移动机器人导航方法，导航区域上方设置有图像采集装置，其特征在于，包括如下步骤：

(2)根据采集到的环境图像得到环境障碍物信息；

(4)根据栅格地图建立移动机器人运行规则；

(6)根据更新后的Q表获取移动机器人的运动策略π，所述运动策略π由多个动作依次组合，最优运动策略π^*为：

根据最优运动策略，得到移动机器人的运动路径。

2.根据权利要求1所述的移动机器人导航方法，其特征在于，所述步骤(2)采用Mask R-CNN算法将环境图像的像素点分为障碍物像素点、机器人像素点和其它像素点三类，得到环境信息。

3.根据权利要求2所述的移动机器人导航方法，其特征在于，所述步骤(3)中建立二值化栅格地图，包括如下步骤：

(3.1)将采集到的机器人环境图像细化分割为等面积的栅格；

4.根据权利要求3所述的移动机器人导航方法，其特征在于，所述预设的像素比阈值的取值范围为(45％，55％)。

5.根据权利要求1所述的移动机器人导航方法，其特征在于，所述步骤(4)中建立的移动机器人运行规则包括：

6.根据权利要求1所述的移动机器人导航方法，其特征在于，步长数h＝10。

7.根据权利要求1所述的移动机器人导航方法，其特征在于，所述步骤(5)中浅尝试学习阶段包括如下步骤：

(A.2)浅尝试学习的一个回合为：

(a)随机生成一个位置作为初始状态s₀；

Q(s_t,a_t)_m＝(1-α)Q(s_t,a_t)+α(r+γmax_at+1Q(s_t+1,a_t+1))

(A.3)执行M₁个浅尝试学习回合，得到学习后的Q表；

所述强化学习阶段包括如下步骤：

(B.1)强化学习的一个回合为：

(u)初始化状态s′₀＝p₀；

(B.3)执行M₂个强化学习回合，得到更新后的Q表。

8.根据权利要求1所述的移动机器人导航方法，其特征在于，浅尝试学习回合数M₁的取值范围为(0.3M,0.4M)。