CN114721397A

CN114721397A - 一种基于强化学习和好奇心的迷宫机器人路径规划方法

Info

Publication number: CN114721397A
Application number: CN202210412829.7A
Authority: CN
Inventors: 张晓平; 刘翼豪; 王力; 李凯; 杨天航; 吴宜通; 孟祥鹏; 郑远鹏
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-08
Anticipated expiration: 2042-04-19

Abstract

一种基于强化学习和好奇心的迷宫机器人路径规划方法，属于移动机器人技术领域。该模型以强化学习为基础，包括Q‑learning算法，好奇心算法，以及回溯强化。其中，好奇心算法包括一个BP网络，联想记忆网络和内部奖励三部分。算法首先感知所在节点以及状态；随后根据好奇心算法进行好奇心奖励计算，而后根据Q‑learning算法更新公式计算Q值；选择动作；发生状态转移；到达目的地后进行回溯强化；重复以上过程直至学习到最短路径。本发明引入基于预测误差的好奇机制，使得算法对未知环境有更好的探索能力，同时也降低了重复探索的次数，减少了学习过程中的寻路时间。使得机器人在迷宫中能更好更快地寻得最优解。

Description

一种基于强化学习和好奇心的迷宫机器人路径规划方法

技术领域

本发明涉及一种基于强化学习和好奇心的迷宫机器人路径规划方法，属于移动机器人技术领域。

背景技术

移动机器人应用广泛，根据在工业、服务、军事等领域的不同，其所具备的能力和移动方式也不同。早期移动机器人主要代替人们解决现实问题，近年来，随着人工智能的普及和发展，移动机器人逐渐向更加智能的自学习、自控制方向发展，代替人类完成更加复杂的、不确定性的任务具有重要意义。

为了使得机器人更加智能，研究者们受生物学的启发，试图将生物的情感复制的到机器人身上，使得它们在面对学习任务时也同样具有生物类似的反应，从而达到智能水平。其中好奇心作为情感之一，促进学习的作用尤为突出。

基于以上背景，本发明以强化学习为框架，提出一种具有好奇心的迷宫机器人自主导航方法并设计了其学习算法，使得机器人在探索迷宫的过程中具有类似生物的探索过程。使得强化学习效率得到了提高。相关的专利如申请号CN201911001136.3提出了一种基于强化学习的移动机器人路径规划方法，其对改进后的A*方法进行预训练，并设置以路径长度为函数的强化学习奖励奖励函数，其没有涉及好奇心算法。申请号202110837144.2根据移动机器人的运动约束条件，利用RRT*算法生成多条可行路径，然后利用转弯特性函数计算每一可行路径的路径时间代价，并选取路径时间代价最小的可行路径作为移动机器人的规划路径。

2018年2019年北京理工大学的张家辉教授提出了一种基于好奇心的移动机器人路径规划方法，旨在用一种心理能量函数来指导机器人在导航任务中的学习方向。荷兰特文特大学的N.Botteghi提出了一个强化学习框架来导航、探索和映射未知环境。其运用SLAM算法估计机器人的姿态并绘制环境地图。引入好心驱动的奖励功能，引导移动机器人走向环境中未知的区域。

本发明使用强化学习为数学模型，动作选择上采用基于好奇心的内在奖励机制，能够学习到最优策略的同时有效的提高系统学习效率。目前，尚未见到与本发明相似的专利记录。

发明内容

一、强化学习

采用Q-learning，将节点作为状态，即S＝{N_k|k＝1,2,3…n}。奖励设置如下：

其中，r^c为好奇心内在奖励；r为强化学习奖励。可选动作指相对于移动机器人第一次到达某一节点时，除回退动作之外的动作为可选动作。即，当下一节点无法转移到另一新节点，而只可回退到上一节点时，强化学习奖励r＝-100。

动作A＝{a|_ii＝1,2,3…p}，分别为将机器人正面朝向转到地图的东，西，南，北方向。

其中，Q值更新公式如下：

Q(N_k,a_i)＝(1-α)Q(N_k,a_i)+α[r+maxQ(N_k+1,a′)]

其中，N_k为某一节点；a_i为当前节点下所执行的动作；Q(N_k,a_i)为节点N_k下的动作a_i的Q值；α为学习率设置为0.8。r为获得的强化学习奖励；N_k+1为下一节点，maxQ(N_k+1,a′)为下一节点中的各个动作的最大Q值；a′为下一节点最大Q值的动作。

二、好奇心算法

分为三个部分：

1、前向网络

采用BP网络，设有3个隐含层，输入层神经元数量为2个，3个隐含层神经元数量均为33个，输出层神经元数量为5个，每一层的激活函数均为logistic函数。BP网络权值初始化为[0,1]随机数值。其输入为两个值分别为节点以及动作，即[N_k,a_i]；输出为

五个值，即下一节点以及下一节点各个方向可通行情况，可通行数值接近1，不可通行为数值接近0。其损失函数如下：

其中，其中

为联想记忆网络输出y′中的值其物理含义与BP网络输出相同。

2、联想记忆网络

联想记忆网络，用来记录在某一节点下选择某一动作所对应的下一节点以及下一节点的可通行情况。网络只有一层输入和一层输出，没有隐含层。

输入为1×m的矩阵，

其中m＝n×p，n，p分别为节点个数和动作数。输入矩阵包含节点N_k以及动作a_i信息，其中节点N_k由矩阵中的某p列表示。而在表示N_k的p列元素中，自左向右数第i个元素为1，且只有1个元素为1，用来表示动作a_i。

由[N_k,a_i]编码为

的公式如下：

j＝p×(N_k-1)+a_i

根据上述公式得到第j列元素为1，进而得到编码后的

矩阵

中只有一个元素为1，其余均为0，第j列元素为1则N_k及a_i表达式如下：

其中j为矩阵M_m的元素1所在列数；p为动作数。

输出为5个值，下一节点和移动机器人到达下一节点的四个方向的情况，即

其中N′_k+1为下一节点，

为下一节点各个方向可通行情况，可通行为数值1，不可通行为数值0。在进行动作选择时，仅选取当前节点数值为1的方向并执行动作。方向

和动作[a₁,a₂,a₃,a₄]是一一对应的。

联想记忆网络的初始权值W_lm为l×m的0矩阵，权值矩阵更新公式如下：

其中y′为联想记忆网络的输出矩阵，

为联想记忆网络的输入矩阵。

3、内部奖励

内部奖励设置为前向网络和联想记忆网络的输出误差。好奇心奖励函数与损失函数计算过程相同。

r^c表示动作a_i的好奇心奖励。有效的好奇心奖励才会被运用，好奇心奖励有效性判别与某一节点的好奇度

有关，好奇度公式如下：

其中

为智能体在节点N_k传感器所检测到的四个方向的可通行情况，方向可通行则数值为1，方向有障碍物不可行则数值为0。maxQ(N_k+1,a)为节点N_k下的各个动作Q值的最大Q值；r^c表示动作a_i的好奇心奖励。

当

时，此节点的好奇度下降，此时动作的好奇心值记为无效。

三、回溯强化

当智能体到达目的地时，则探索结束。智能体根据联想记忆从终点出发，进行推理回溯，每个节点和相应的动作都不是得到相同的强化，而是按顺序递减。进行回溯强化时Q值更新公式如下：

Q(N_k,a_i)＝(1-α)Q(N_k,a_i)+αmaxQ(N_k+1,a′)

按顺序递减的好处就是可以将各个节点与终点距离的不同区分开来，距离目的地近的根据公式将得到更多强化，进而得到最优策略。

本发明所述模型的学习过程如图1所示，包括以下步骤：

步骤1：对系统进行初始化，随机化前向网络权值矩阵，归零联想记忆网络权值矩阵；

步骤2：感知移动机器人所在节点以及各个方向可通行情况；

步骤3：判断当前可选动作；

步骤4：根据更新公式计算Q值；

步骤5：分别计算当前可选动作的好奇心奖励r^c；

步骤6：判断好奇心奖励r^c是否有效；

步骤7：当无有效好奇心奖励时，选择Q值大的动作，存在有效好奇心奖励时选择好奇心奖励r^c最大的动作；

步骤8：实施选定的动作，状态发生转移；

步骤9：判断是否到达出口，否则转向步骤2。

步骤10：进行回溯强化。

步骤11：判断是否存在好奇度大于1的节点，若存在，则进行迭代学习，并重复步骤2-11，否则结束程序。

与现有技术相比，本发明的优点在于：首先使用学习自动机为感知运动系统认知过程提供了一种形式化的数学模型，具有普适性，泛化能力强；其次，算法中引入好奇心概念，设计了具有主动学习环境的内发动机机制，提高了系统的自学习能力及其稳定性的同时，有效的减少了重复探索。

附图说明

图1为本发明所涉及的学习流程图；

图2为迷宫实验及移动机器人图；

图3为移动机器人学习过程图；

图4为移动机器人学习结果图；

图5为移动机器人从地图不同位置导航到出口路线图；

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

迷宫环境的搭建是采用V-rep软件，迷宫采用走廊式，并设有24个节点。移动机器人需要做出动作的地方即设置为一个节点。移动机器人采用辆轮式，并额外有一个辅助轮，它有三个距离传感器，分别位于其自身的左右两侧和前方。距离传感器的检测范围为0.7米。

V-rep可以检索一个对象的方向(欧拉角)。该值可以通过V-rep和Python的API接口获取。因此，可以知道之前传感器的欧拉值，并确定迷宫机器人的方向。

迷宫机器人能走直线有两个原因。

一种是，当迷宫机器人做出一个动作时，它默认沿着当前方向行走；

二是迷宫机器人的前面有一个红外距离传感器，可以保证它在行走的时候不会撞到墙。

实验1：移动机器人基本学习过程

我们在V-Rep中设计了一个路径宽度为60cm的迷宫，如图2所示。节点设置在每个需要操作的地方。学习率设置为α＝0.8。迷宫从1号节点开始。目的地为节点21。我们进行了一个涉及三个学习的模拟。为了防止历史或无用的经验从影响训练，最大Q值设置为100。如图3左侧所示，这是本次仿真的第一次学习。在第一次学习中，由于没有节点信息，所以当迷宫机器人遇到节点10、11时，根据好奇心预测的值的大小，进行动作选择。我们可以看到做出的动作都是a₂。同样的情况也发生在节点15以及节点19处。

在第二次学习中，机器人到达节点12时，根据好好奇心计算出来的数值，做出了动作a₂，因为迷宫机器人在之前的学习中已经探索了动作a₁。所以a₂的好奇值大于a₁的好奇心值。同理，当迷宫机器人到达节点13时，选择好奇值较高的动作a₄。然后，当到达节点4时，根据好奇心算法进行动作选择。接下来，当迷宫机器人遇到节点6时，传感器检测到没有可选动作，所以直接进行回溯动作a₄，返回节点4。迷宫机器人根据好奇算法，选择好奇值最大的动作，即动作a₃。选择a₃后的探索过程与上面相同。同样，迷宫机器人将返回节点4。

在这里，迷宫机器人在节点4处已经探索所有可行方向的动作，节点4的好奇度降F_k ^c降低。此时,迷宫机器人通过选择Q值最大的动作a₂退出节点4，然后回到节点13。然后迷宫机器人在节点13处选择Q值最高的可选动作a₁继续探索。在节点15，迷宫机器人的选择为a₃。然后通过节点16和节点18来到节点19。在节点19，迷宫机器人并没有做出动作a₃，是因为好奇心算法的联想记忆模块的输出直接提供了在节点19进行动作a₃后到达下一节点的信息，算法直接根据这一信息进行好奇心值的计算。从而避免了重复探索。随后根据算法，选择Q值最大的动作a₂。在这个过程中，带有联想记忆网络的好奇心算法起到了很大的作用。然后迷宫机器人通过节点19，节点20，到达迷宫出口。

最后的实验结果图中，可以看到，迷宫机器人已经学习到了该迷宫的最短路径策略。

实验2：移动机器人从地图不同位置导航到出口路线图

图5为迷宫机器人从节点6开始的学习结果。我们可以看到迷宫机器人可以很好地找到出口。当迷宫机器人从节点23出发时，也可以到达目的地。