CN111649758A

CN111649758A - 一种动态环境下基于强化学习算法的路径规划方法

Info

Publication number: CN111649758A
Application number: CN202010545587.XA
Authority: CN
Inventors: 吕长虹; 朱玥炜
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-11
Anticipated expiration: 2040-06-16
Also published as: CN111649758B

Abstract

本发明公开了一种动态环境下基于强化学习算法的路径规划方法，包括以下步骤：根据动态已知环境利用栅格法对作业环境进行建模，根据作业任务设置起始点和目标点；基于时间变量t构建改进的Q‑learning算法并赋予智能体停止动作；根据起始点和目标点坐标基于改进的Q‑learning算法对动态已知环境进行学习并输出规划路径；通过智能体探索学习动态未知环境状态并得到输出最优路径；在训练完成后速度非常快，其归因于机器学习算法的学习属性；在效果方面，无论环境是何种情况，该算法皆不会产生碰撞，其在路径规划中的应用将会非常广泛；在结果方面，由于智能体被赋予了新的停止的动作，使得在规划中可以找到更优的路径。

Description

一种动态环境下基于强化学习算法的路径规划方法

技术领域

本发明涉及路径规划方法，尤其涉及一种动态环境下基于强化学习算法的路径规划方法。

背景技术

路径规划问题一般处理已知环境情况和未知环境情况。现有许多算法可以解决其路径规划问题，但对于动态环境下的(移动障碍物)路径规划问题，算法无法快速地解决该场景下的问题，且给出的规划路线会有碰撞的可能。

如一般的启发式算法结合了深度搜索和广度搜索的优点，使得寻路算法可以在保证速度的情况下大概率地找到最优解。但一般的算法无法处理动态环境的问题。并且在复杂的环境下，启发式算法的搜索效率会变低。同时对于未知动态环境的避障规划，如D*，Lifelong A*等算法只是一种及时规划。但当动态环境已知时，所需的算法更倾向于能够在规划时规避障碍物。

发明内容

鉴于目前存在的上述不足，本发明提供一种动态环境下基于强化学习算法的路径规划方法，在训练完成后速度非常快，无论环境是何种情况，该算法皆不会产生碰撞，由于智能体被赋予了新的停止的动作，使得在规划中可以找到更优的路径。

为达到上述目的，本发明的实施例采用如下技术方案：

一种动态环境下基于强化学习算法的路径规划方法，所述动态环境下基于强化学习算法的路径规划方法包括以下步骤：

根据动态已知环境利用栅格法对作业环境进行建模，根据作业任务设置起始点和目标点；

基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作；

根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径；

通过智能体探索学习动态未知环境状态并得到输出最优路径。

依照本发明的一个方面，所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括：

在通过栅格法建模得到的二维栅格环境中，每个状态s_i由栅格的平面直角坐标表示，加入时间变量t，将每个状态s_i定义为三元坐标(x_i，y_i，t_i)，该坐标表示在t_i时刻运动到了(x_i，y_i)点；

在Q-table中增加停止动作，当在s_i状态下选择停止动作时，其到达的下个状态为(x_i，y_i，t_i+1)，更新获得新的Q-table；

设起始点为S_s＝(x_s，y_s，t_s)，目标点为S_e＝(x_e，y_e，t_e)，构建Q-learning算法为：

Q(s，a，t)＝Q(s，a，t)+α[R+γmax_aQ(s′，a，t)-Q(s，a，t)]

Q(s，a，t)表示状态的动作值函数，表示t时刻由状态s选择行为a对应的动作值，R为反馈函数，表示在s状态执行a动作得到的反馈，α∈(0，1)为学习率，R+γmax_aQ(s′，a，t)是由Bellman方程根据未来期望对Q(s，a，t)的预测，其含义为给定状态和动作下的最大未来奖励期望。

依照本发明的一个方面，所述状态s的数量为N_x×N_y×t，其中时间t根据最终迭代的步数决定。

依照本发明的一个方面，所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括：基于状态访问次数设定一个估值函数N(s，a，t)，引导探索全部的状态空间，估值函数N(s，a，t)如下：

其中C(s，a，t)为计数函数，若在t时刻s状态下选择了a动作，则计数加1，β∈(0，1)用于来平衡动作值函数与计数函数的权重，在算法中储存估值函数的值，在选择动作的时候，根据估值函数来选择。

依照本发明的一个方面，所述反馈函数R包括两个部分，第一部分为已知反馈，第二部分为预计反馈，具体如下：

R(s，a)＝K₁r(s，a)+K₂h(s，a)

其中r(s，a)是的在s状态执行a动作得到的已知反馈；K₁，K₂∈(0，1)，为控制权重的系数；h(s，a)是在此状态下的预计反馈函数，是一个启发量。

依照本发明的一个方面，所述反馈函数R还包括：假设h(s，a)表示当前状态s到目标点的预估距离，用曼哈顿距离来作为计算距离的方式，s的位置坐标为(x_s，y_s)，目标点s_e的位置坐标为(x_e，y_e)，那么h(s，a)＝|x_s-x_e|+|y_s-y_e|。

依照本发明的一个方面，所述反馈函数R还包括：

若将每一步状态的反馈值设置成负数，算法会在刚开始倾向于搜索未搜索过的点，反馈函数如下：

依照本发明的一个方面，所述动态环境下基于强化学习算法的路径规划方法包括以下步骤：

若实际运行状态(x_real，y_real，t_real)与规划状态(x_pre，y_pre，t_pre)产生了差别，则根据训练好的Q-table，执行算法的最后两步，寻找状态(x_real，y_real，t_real)的最大动作值函数，并执行该动作a，直至到达终点。

依照本发明的一个方面，所述差别包括滞后和提前两种。

依照本发明的一个方面，用改进Q-learning算法对动态环境进行学习，得到累积反馈趋势，并在多次迭代之后开始趋于收敛。

本发明实施的优点：本发明所述的动态环境下基于强化学习算法的路径规划方法，包括以下步骤：根据动态已知环境利用栅格法对作业环境进行建模，根据作业任务设置起始点和目标点；基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作；根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径；通过智能体探索学习动态未知环境状态并得到输出最优路径；在训练完成后速度非常快，其归因于机器学习算法的学习属性；在效果方面，无论环境是何种情况，该算法皆不会产生碰撞，其在路径规划中的应用将会非常广泛；在结果方面，由于智能体被赋予了新的停止的动作，使得在规划中可以找到更优的路径。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的一种动态环境下基于强化学习算法的路径规划方法示意图；

图2为本发明所述的仿真动态栅格环境示意图；

图3为本发明所述的累积反馈趋势示意图；

图4为本发明所述的仿真验证路径表示意图；

图5为本发明所述的仿真验证路径。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图2、图3、图4和图5所示，一种动态环境下基于强化学习算法的路径规划方法，所述动态环境下基于强化学习算法的路径规划方法包括以下步骤：

步骤S1：根据动态已知环境利用栅格法对作业环境进行建模，根据作业任务设置起始点和目标点；

具体可为：记环境地图E为一矩形，其左下角为坐标原点，X轴正方向向右，Y轴正方向向上。X_max为E的长，Y_max为E的宽。以w为步长将E切割成栅格。每一行栅格数为

每一列栅格数为

将E划分成N_x×N_y栅格图，设任意栅格为n_i＝(x_i，y_i)，(x_i，y_i)为n_i所在的行列表示，其中1≤i≤N_x×N_y，0≤x_i＜N_x，0≤y_i＜N_y，(x_i，y_i，i∈Z)。栅格划分为自由栅格集M与障碍栅格集O。M集可以被规划，O集不允许被通过。现已知起始栅格(x_s，y_s)∈M，(s∈Z)，目标栅格(x_e，y_e)∈M，(e∈Z)。障碍栅格集：O中的每个元素o_i要加入时间变量t来表示障碍物的移动。o_i＝(x_i，y_i，t_i)∈O，其中t_i为障碍物o_i位于(x_i，y_i)的时刻。

步骤S2：基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作；

在通过栅格法建模得到的二维栅格环境中，每个状态s_i由栅格的平面直角坐标表示，加入时间变量t，将每个状态s_i定义为三元坐标(x_i，y_i，t_i)，该坐标表示在t_i时刻运动到了(x_i，y_i)点；现假设运行的速度不变，每移动一步，t增加1(此处假设不能斜走，若可以斜走，则斜走一步用时假设为1.5)；

在Q-table中增加停止动作，每个Q-table中的新状态对应的动作也从上下左右四个，增加了一个停止动作，当在s_i状态下选择停止动作时，其到达的下个状态为(x_i，y_i，t_i+1)，更新获得新的Q-table；如下表1所示：

表1

状态/动作	上	下	右	左	停
						(1，1，1)	Q((1，1，1)，上)	Q((1，1，1)，下)
(1，2，1)	Q((1，2，1)，上)
						...
(4，4，1)
						(1，1，2)
(1，2，2)
						...
(4，4，2)
						...

则有起始点为S_s＝(x_s，y_s，t_s)，目标点为S_e＝(x_e，y_e，t_e)，构建Q-learning算法为：

Q(s，a，t)＝Q(s，a，t)+α[R+γmax_aQ(s，a，t)-Q(s，a，t)]

同样是N_x×N_y的平面环境，加入时间维度后，所述状态s的数量为N_x×N_y×t，其中时间t根据最终迭代的步数决定。相比固定障碍物环境中的状态数量增加了t倍。同时障碍物的状态也相应加入t值，使其变成移动障碍物。在状态(x，y，t)与障碍物状态(x，y，t)相同，或者发生一般死锁和循环死锁时，给出相应的负反馈，使其可以在接下来的迭代中避免在该时刻出现在相应的位置。

强化学习中根据值函数的值来选择动作，但常规的值函数中不存在环境信息，在一些有特定环境信息的场景下，用先验信息改进值函数从而指导探索会更加有效。

对于滞后情况下的重新规划问题，算法更需要搜索整个环境。因此可以基于状态访问次数设定一个估值函数N(s，a，t)，尝试引导探索全部的状态空间。估值函数见下：

其中C(s，a，t、)为计数函数，若在t时刻s状态下选择了a动作，则计数加1。β∈(0，1)，来平衡动作值函数与计数函数的权重。当(s，a，t)被访问次数过多，则会降低其选择的概率，该方法更倾向于搜索未被探索的状态。此估值函数结合了动作值函数和计数函数，在算法中只需要储存估值函数的值，在选择动作的时候，根据估值函数来选择即可。当β＝0时，N(s，a，t)＝Q(s，a，t)，即通过原始的动作值函数根据探索/利用的方法来选择行为。

在本实施例中，需要设计启发式反馈函数，上述的计数函数探索法更加倾向于将环境中没被搜索过的状态加入搜索中，因此，利用这种探索方法会使Q-table中的状态数增加。为了加快Q-table的收敛，则需要改进反馈函数R。将反馈函数设计为两部分，第一部分为已知反馈，第二部分为预计反馈，见下式：

R(s，a)＝K₁r(s，a)+K₂h(s，a)

其中r(s，a)是的在s状态执行a动作得到的已知反馈；K₁，K₂∈(0，1)，为控制权重的系数；h(s，a)是在此状态下的预计反馈函数，是一个启发量。这个函数值即每个状态的状态值函数。若用启发函数来设置反馈值，用此来更改状态值函数，则可以在规划时指导搜索方向，从而增加搜索效率，减少搜索时间。

设计h(s，a)表示当前状态s到目标点的预估距离，用曼哈顿距离来作为计算距离的方式。s的位置坐标为(x_s，y_s)，目标点s_e的位置坐标为(x_e，y_e)，那么h(s，a)＝|x_s-x_e|+|y_s-y_e|。

在用启发式方法设计反馈值的同时，也要使得算法更加倾向于搜索未知区域。在反馈设计中，需要使得初始的值函数比经过多次迭代之后的期望奖励大，这样算法会更加倾向于选择没用过的动作状态。现将每一步状态的反馈值设置成负数，算法会在刚开始倾向于搜索未搜索过的点，反馈函数的设置见下式：

步骤S3：根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径；

基于上述Q-learning算法加上了时间维度，并且对搜索/利用方式以及反馈设计分别做出了改进，用以处理动态环境下多路径规划滞后问题；

在完成学习之后，根据规划好的路径进行行驶，若实际运行状态(x_real，y_real，t_real)与规划状态(x_pre，y_pre，t_pre)产生了差别(滞后/提前)，则根据训练好的Q-table，执行算法的最后两步，寻找状态(x_real，y_real，t_real)的最大动作值函数，并执行该动作a，直至到达终点。

具体算法流程如下代码表所示：

步骤S4：通过智能体探索学习动态未知环境状态并得到输出最优路径。

在实际应用中，采用如下方式进行验证：

就移动障碍物环境以及在移动障碍物环境下发生滞后情况进行模拟仿真。仿真软件为python3.6，仿真环境利用tkinter包进行搭建，地图为栅格图，x轴正方向向右，y轴正方向向下；

在栅格中进行移动。算法使用计数值函数式

来更新Q-table，其中β＝0.5；更新Q值的Bellman方程式Q(s，a，t)＝Q(s，a，t)+α[R+γmax_aQ(s′，a，t)-Q(s，a，t)]中α＝0.6，γ＝0.9采用反馈函数式R(s，a)＝K₁r(s，a)+K₂h(s，a)；

遇到障碍时r＝-10，到达目标点时r＝10，每走一步的反馈由式

计算出，其中K₁＝0.9，K₂＝0.3。

在实际应用中，如图2至图5所示，已知动态环境见图2，起始栅格(1，1，0)，目标栅格(4，6)，黑色栅格为移动障碍物n₁(3，3，0)与n₂(2，5，0)，并且按照黑色箭头方向运动，遇到墙壁折返。现用改进Q-learning算法对该环境进行学习，得到图3所示的累积反馈趋势，算法改进之后，Q-value在500次迭代之后开始趋于收敛。

用算法给出的规划表画出路径图，见图4和图5，图5中数字为占用该栅格的时刻。易知，在(1，2)，(2，4)位置为了避障，分别停留了一个时刻，然后达到了终点，规划出了最优路径。这说明该算法可以用于进行移动障碍规避。

具体包括以下三点：对原Q-learning算法中的值函数进行改动，加入了计数值函数，使得算法可以更大地搜索环境；对原Q-learning算法中的Q-table进行改动，加入了时间维度，使其可以处理动态的障碍物；对原Q-learning算法中的反馈值设计进行改动，加入了启发式反馈值，使其迭代速度更快。

本发明实施的优点：本发明所述的动态环境下基于强化学习算法的路径规划方法，包括以下步骤：根据动态已知环境利用栅格法对作业环境进行建模，根据作业任务设置起始点和目标点；基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作；根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径；通过智能体探索学习动态未知环境状态并得到输出最优路径；在训练完成后速度非常快，其归因于机器学习算法的学习属性；在效果方面，无论环境是何种情况，该算法皆不会产生碰撞，其在路径规划中的应用将会非常广泛；在结果方面，由于智能体被赋予了新的停止的动作，使得在规划中可以找到更优的路径。具体包括以下三点：对原Q-learning算法中的值函数进行改动，加入了计数值函数，使得算法可以更大地搜索环境；对原Q-learning算法中的Q-table进行改动，加入了时间维度，使其可以处理动态的障碍物；对原Q-learning算法中的反馈值设计进行改动，加入了启发式反馈值，使其迭代速度更快。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动态环境下基于强化学习算法的路径规划方法，其特征在于，所述动态环境下基于强化学习算法的路径规划方法包括以下步骤：

2.根据权利要求1所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括：

Q(s，a，t)＝Q(s，a，t)+α[R+γmax_aQ(s′，a，t)-Q(s，a，t)]

3.根据权利要求2所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述状态s的数量为N_x×N_y×t，其中时间t根据最终迭代的步数决定。

4.根据权利要求2所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括：基于状态访问次数设定一个估值函数N(s，a，t)，引导探索全部的状态空间，估值函数N(s，a，t)如下：

5.根据权利要求2所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述反馈函数R包括两个部分，第一部分为已知反馈，第二部分为预计反馈，具体如下：

R(s，a)＝K₁r(s，a)+K₂h(s，a)

6.根据权利要求5所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述反馈函数R还包括：假设h(s，a)表示当前状态s到目标点的预估距离，用曼哈顿距离来作为计算距离的方式，s的位置坐标为(x_s，y_s)，目标点s_e的位置坐标为(x_e，y_e)，那么h(s，a)＝|x_s-x_e|+|y_s-y_e|。

7.根据权利要求5所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述反馈函数R还包括：

8.根据权利要求2至7之一所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述动态环境下基于强化学习算法的路径规划方法包括以下步骤：

9.根据权利要求8所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，所述差别包括滞后和提前两种。

10.根据权利要求7所述的动态环境下基于强化学习算法的路径规划方法，其特征在于，用改进Q-learning算法对动态环境进行学习，得到累积反馈趋势，并在多次迭代之后开始趋于收敛。