CN110883776A

CN110883776A - 一种快速搜索机制下改进dqn的机器人路径规划算法

Info

Publication number: CN110883776A
Application number: CN201911198660.4A
Authority: CN
Inventors: 王俊; 陈天星; 张德华; 杨青朋; 赵正云
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-17
Anticipated expiration: 2039-11-29
Also published as: CN110883776B

Abstract

本发明涉及一种快速搜索机制下改进DQN的机器人路径规划算法，包括如下步骤：S1、设置算法中所需的参数；S2、根据三维地形环境的坡度特征和机器人运动几何学特性，建立一个二维的栅格地图用来模拟环境；S3、设计快速搜索机制；S4、建立机器人的动作集；S5、设计一个连续的报酬函数；S6、机器人通过训练输出一条最佳路径；本发明提供了一种快速搜索机制下改进DQN的机器人路径规划算法,改善了Deep Q_Learning算法存在的环境利用率低、搜索效率低等问题，能够使机器人在未知环境下快速搜索出最佳路径。

Description

一种快速搜索机制下改进DQN的机器人路径规划算法

技术领域

本发明属于路径规划技术领域，具体涉及一种快速搜索机制下改进DQN的机器人路径规划算法。

背景技术

强化学习是一种借鉴‘经验’的闭环学习方法，机器人通过与环境之间不断地进行信息交互，从而达到自主学习的过程。机器人与环境之间进行交互的过程可以描述为一个马尔科夫决策问题。

强化学习中Q_Learning算法被广泛应用于机器人路径规划技术，机器人通过Q_Learning学习与环境交互以此达到自主规划路径的目的。由于Q_Learning 算法是计算Q表中的值，然后从中选取Q值较大的动作作为要执行的动作，这样就容易造成计算速度慢和维数爆炸等问题，因此提出Deep Q_Learning算法，即DQN算法，DQN算法在Q_Learning算法的基础上增加了深度神经网络用于计算Q值，这样解决了Q_Learning算法造成维数爆炸等问题。

DQN算法的基本思路为将强化学习Q_Learning算法与深度神经网络相结合，通过神经网络计算回报值来代替Q表，通过不断学习来减小Q估计和Q现实之间的误差值，进而不断更新targetQ网络，优化权重，最终达到自主进行路径规划的目的。但是，DQN算法需要不断地对学习空间进行探索，这种搜索存在很大的盲目性与不必要性，这样算法就存在环境利用率低、搜索效率低等问题，进而容易造成算法学习效率低、搜索花费时间长、搜索出来路径较长等缺陷。

发明内容

本发明的目的是为了解决背景技术中所提出的问题，而提供一种快速搜索机制下改进DQN的机器人路径规划算法,改善了DQN算法存在的环境利用率低、搜索效率低等问题，能够使机器人在未知环境下搜索出最优路径。

本发明的目的是这样实现的：

一种快速搜索机制下改进DQN的机器人路径规划算法，包括如下步骤：

S1、设置实验所需参数，参数包括贪婪系数∈、记忆库大小M、折扣率γ、学习率α、批量学习值batch；

S2、根据三维地形环境的坡度特征和机器人运动几何学特性，建立一个二维的栅格地图用来模拟环境，地图中用灰色矩形代表机器人，用圆形代表目标点，用黑色矩形代表障碍物，机器人的起始坐标用S(x_s,y_s)，目标点坐标G (x_g,y_g)，当前坐标为C(x_c,y_c)；

S3、设计快速搜索机制，本设计采用一种快速搜索机制对当前位置环境进行部分建模，在建模的同时进行奖赏值的计算，对奖赏值最大的动作以及障碍物点进行深度记忆，深度记忆的形成，使机器人在动作选择上以及目标搜索上更加精确，较少不必要的搜索，提高搜索效率；

S4、建立机器人的动作集，将DQN算法中(上、下、左、右)四个动作扩充为(上、下、左、右、左上、右下、右上、右下)八个动作；

S5、在DQN算法的基础上，改进并引用启发式搜索算法，设计一个连续的报酬函数；

S6、设置n回合，当机器人达到目标点，一个合结束，当达到n回合，训练结束，机器人通过n回合训练输出一条最短路径。

进一步的，所述S1中Q_Learning算法包括如下步骤：

S1.1、强化学习问题可以描述为一个马尔科夫决策过程，即MDP，MDP过程由5元素构成：{A、S、P、R、γ}，其中S代表机器人的状态集，A是机器人的动作集，R是报酬函数，γ是折扣因子，即γ∈[0,1]，P代表转移概率，即机器人在t时刻执行动作a_t后状态由S_t转移到S_t+1的概率；

S1.2、通过强化学习，使机器人找到最优的行动序列π^*＝{a₁ ^*、a₂ ^*.....a_n ^*}，在给定的环境下最大化累计奖励，在给定的行动策略π中，累计奖励和状态价值函数定义如下：

其中，G_t为累计奖励，表示从时间步长t到动作序列借宿的奖励折扣的总和；

S1.3、根据S1.2中的(1)，G_t是累计激励的期望值，通过定义一个状态值函数来量化给定状态下累计奖励的期望值，如下式所示：

其中，V_π(S_t)代表机器人从状态S_t执行策略π得到的激励的期望。

将状态值函数转换成状态-动作值函数来描述累计奖励，如下式所示：

根据(3)，Q_Learning算法为求得最大的状态-动作值函数，即q^*(s_t a_t)。

进一步的，S1中，DQN算法包括如下步骤：

S1.11、根据Q_leaning算法，首先建立一张Q值表，通过机器人与环境交互，得到奖赏函数值，通过不断迭代修改Q值表，使选择正奖赏值的动作的概率不断增加，随着不断与环境交互，更该动作策略集，是机器人的动作最终趋于最优动作集；

S1.12、强化学习采用状态-动作对Q(s,a)迭代方式来获得最优策略，算法再一次迭代使需要考察每一个状态-动作对Q(s,a)的值，Q_Learning算法的基本形式为：

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α[r_t+γmax_aQ(s_t+1,a_t)] (4)，

其中，s_t为t时刻移动机器人的状态，在s_t状态下执行动作a_t，移动机器人状态变为s_t+1，同时得到回报值r_t；

S1.13、构建两个神经网络，通过深度神经网络对回报值得计算代替Q表，一个神经网络用于计算Q现实，一个用于计算法Q估计，然后计算Q现实与Q 估计的差值进行训练，最终达到差值最小。

进一步的，Q现实与Q估计具有相同的网络结构但是参数不同，每个网络由输入层、两个隐藏层、输出层四层构成，输入层为机器人当前状态S，输出层输出为每一个动作对应的Q值，每一个隐藏层由10个神经元构成，激励函数选用 Relu函数。

进一步的，S3中，建立快速搜索机制包括如下步骤：

S3.1、设计快速搜索机制，采用快速搜索机制对当前位置环境进行部分建模，在建模的同时进行奖赏值的计算，对奖赏值最大的动作以及障碍物点进行深度记忆；

S3.2、设计路径快速下降线，机器人从起始点到目标点沿着某一条线走路径减少最快，这条路径减少最快的线称为路径快速下降线，机器人沿着路径快速下降线行走，能够实现路程最短达到目标点，根据两点之间线段最短原理，将由目标点与起始点所构成的线段设计为快速降线；

S3.3、设计搜索器，将机器人与其目标点方位相同的一个身为的大小设计为搜索器的大小，搜索器的功能是提取当前坐标、计算回报值并提取回报值最大的动作，并返回最大回报值的动作与障碍物坐标，形成深度记忆库。

进一步的，S4中，建立机器人的动作集包括如下步骤：

S4.1、在设计的动作集中，机器人能执行(上、下、左、右、左上、左下、右上、右下)八个动作，用机器人当前坐标(x,y)表示当前状态S(x,y)；

S4.2、机器人通过执行动作集中的动作达到邻近位置；

S4.3、机器人在状态S_i执行动作a_i达到状态S_i+1，描述为如下过程：

S_i＝(x,y)，S_i+1＝(x_i+1，y_i+1)；

进一步的，S5中，连续的报酬函数的设计包括如下步骤：

S5.1、机器人每执行一个动作，会有相应的回报值作为奖励，回报值用来给机器人反馈，机器人通过回报值来改变自己的动作；

S5.2、灰色矩形代表机器人，黑色矩形代表障碍物，圆形代表目标点，定义机器人的起始坐标为S(x_s,y_s)，当前坐标为C(x_c,y_c)，目标点坐标G(x_g,y_g)， D为起始点与目标点之间的距离，L₁为起始点与当前位置之间的距离，L₂为当前位置与目标点之间的距离，如下式所示：

其中，机器人达到目标点回报值为+1；机器人达到障碍物回报值为-1；机器人即没有达到目标点也没有碰到障碍物回报值为

进一步的，S1中，参数设置如下：

S1.1、强化学习中参数如下：α代表学习率设置为0.1，γ代表折扣因子为 0.9，ε为贪婪策略设置为0.9，batch为批量学习大小为32，记忆库大小为M 为500，回报函数R；

S1.2、DQN算法有一个记忆库，记忆库用来前期搜索训练样本，定义记忆库的大小为M步，记忆库有两部分构成，一部分是由搜索器搜索出来的深层记忆，一部分是浅层记忆，搜索器搜索出来的深层记忆包括两部分，一部分是障碍物坐标，另一部分是回报值最大的动作。将搜索器搜索出来的回报值最大的动作，按先后顺序排列起来，构成一组最佳运动策略，供以后的学习训练；

S1.3、Q现实与Q估计的均方差，如下所示：

S1.4、每5步学习一次，每300步对Q现实的参数更新一次，更新公式如下：

进一步的，S6中，设置n回合进行训练，当机器人到达目标点则本回合结束，达到n回合时训练结束，输入最优路径。

与现有技术相比，本发明的有益效果在于：

本发明提供的一种基于快速搜索机制的改进的DQN算法，在DQN算法中引入启发式搜索算法的思想，设计了一种快速搜索机制下的连续报酬函数，机器人在连续报酬函数的作用下对执行的每一步动作，能够得到及时的反馈；本发明在DQN算法的基础上设计一种快速搜索机制，采用一种快速搜索机制对当前位置环境进行部分建模，在建模的同时进行奖赏值的计算，对奖赏值最大的动作以及障碍物点进行深度记，深度记忆的形成，使机器人在动作选择上以及目标搜索上更加精确，较少不必要的搜索，提高搜索效率。本发明不仅改善了DQN 算法存在的环境利用率低、搜索效率低等问题，还能够使机器人在未知环境下搜索出最优路径。

附图说明

图1是本发明流程示意图。

图2本发明参数设计图。

图3是本发明20*20仿真环境图。

图4是本发明30*30仿真环境图。

图5是快速降线图。

图6是搜索器图。

图7是本发明20*20环境下损失函数图。

图8是本发明30*30环境下损失函数图。

图9是本发明20*20仿真环境最优路径图。

图10是本发明30*30仿真环境最优路径图。

具体实施方式

下面结合附图对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

结合图1，一种快速搜索机制下改进DQN的机器人路径规划算法，包括如下步骤：

S3、设计快速搜索机制，采用一种快速搜索机制对当前位置环境进行部分建模，在建模的同时进行奖赏值的计算，对奖赏值最大的动作以及障碍物点进行深度记忆，深度记忆的形成，使机器人在动作选择上以及目标搜索上更加精确，减少不必要的搜索，提高搜索效率；

S6、设置n回合，当机器人达到目标点，本回合结束，重复步骤S1，当达到n回合，训练结束，机器人通过n回合训练输出一条最短路径。

实施例2

结合图3，仿真环境采用python tkinter进行编写，大小为20*20的栅格地图，地图中灰色矩形代表机器人，圆形代表目标点，黑色矩形代表障碍物，机器人的起始坐标用S(x_s,y_s),目标点坐标G(x_g,y_g)，当前坐标为C(x_c,y_c)。

实施例3

根据图3、图5、图6、图7和图9所示，建立一个20*20的栅格地图用来模拟当前环境，地图中灰色矩形代表机器人，圆形代表目标点，黑色矩形代表障碍物，机器人的起始坐标用S(x_s,y_s),目标点坐标G(x_g,y_g)，当前坐标为 C(x_c,y_c)。

快速搜索机制的设计，设计快速搜索机制，本设计采用一种快速搜索机制对当前位置环境进行部分建模，在建模的同时进行奖赏值的计算，对奖赏值最大的动作以及障碍物点进行深度记忆。深度记忆的形成，使机器人在动作选择上以及目标搜索上更加精确，较少不必要的搜索，提高搜索效率。

动作集的设计，本发明将原DQN算法中(上、下、左、右)四个动作扩充为(上、下、左、右、左上、右下、右上、右下)八个动作，扩充动作集，曾达机器人可选动作，提高机器人的学习能力。

报酬函数的设计，报酬函数是评价机器人所做动作好坏的重要标志，报酬函数设计的越精确，机器人越能够得到及时的反馈，以此提高学习效率。本发明设计一个连续的报酬函数，连续报酬函数是机器人对当前所做的动作能够得到精确反馈，提高了环境利用率和学习效率。

DQN算法有一个记忆库，记忆库用来前期搜索训练样本，定义记忆库的大小为n步，记忆库有两部分构成，一部分是由搜索器搜索出来的深层记忆，一部分是浅层记忆，搜索器搜索出来的深层记忆包括两部分，一部分是障碍物坐标，另一部分是回报值最大的动作。将搜索器搜索出来的回报值最大的动作，按先后顺序排列起来，构成一组最佳运动策略，供以后的学习训练。

本发明设置500回合，当机器人达到目标点一个回合结束，重复上述步骤，当达到500回合，训练结束，机器人通过500回合训练能够找到一条最优路径。

实施例4

S1中Q_Learning算法包括如下步骤：

S1.3、根据S3.2中的(1)，G_t是累计激励的期望值，通过定义一个状态值函数来量化给定状态下累计奖励的期望值，如下式所示：

其中，V_π(S_t)代表机器人从状态S_t执行策略π得到的激励的期望，将状态值函数转换成状态-动作值函数来描述累计奖励，如下式所示：

实施例4

S1中，DQN算法包括如下步骤：

S1.11、根据Q_Learning算法，首先建立一张Q值表，通过机器人与环境交互，得到奖赏函数值，通过不断迭代修改Q值表，使选择正奖赏值的动作的概率不断增加，随着不断与环境交互，更该动作策略集，是机器人的动作最终趋于最优动作集；

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α[r_t+γmax_aQ(s_t+1,a_t)] (4)，

由于Q_Learning算法容易造成为爆炸等问题，研究人员提出Deep Q_Learning即DQN算法，深度强化学习算法结合了深度学习的感知能力与强化学习的决策能力，通过深度神经网络对回报值得计算代替Q表，这样大大提高了运算速度并且很好地解决了Q_Learning算法存在的维数爆炸问题。

Q现实与Q估计具有相同的网络结构但是参数不同，每个网络由输入层、两个隐藏层、输出层四层构成，输入层为机器人当前状态S，输出层输出为每一个动作对应的Q值，每一个隐藏层由10个神经元构成，激励函数选用Relu函数。

实施例5

建立机器人的动作集包括如下步骤：

在设计的动作集中，机器人能执行(上、下、左、右、左上、左下、右上、右下)八个动作，用机器人当前坐标(x,y)表示当前状态S(x,y)；

机器人通过执行动作集中的动作达到邻近位置；

机器人在状态S_i执行动作a_i达到状态S_i+1，可以描述如下过程：

S_i＝(x,y)，S_i+1＝(x_i+1，y_i+1)；

实施例6

S5中，连续的报酬函数的设计包括如下步骤：

S5.2、灰色矩形代表机器人，黑色矩形代表障碍物，圆形代表目标点，定义机器人的起始坐标为S(x_s,y_s)，当前坐标为C(x_c,y_c)，目标点坐标G(x_g,y_g)， D为起始点与目标点之间的距离，L₁为起始点与当前位置之间的距离，L₂为当前位置与目标点之间的距离，如下式：

实施例7

S1中，参数设置如下：α代表学习率设置为0.1，γ代表折扣因子为0.9，ε为贪婪策略设置为0.9，batch为批量学习大小为32，记忆库大小为M为500，回报函数R。

DQN算法有一个记忆库，记忆库用来前期搜索训练样本，定义记忆库的大小为n步，记忆库有两部分构成，一部分是由搜索器搜索出来的深层记忆，一部分是浅层记忆，搜索器搜索出来的深层记忆包括两部分，一部分是障碍物坐标，另一部分是回报值最大的动作，将搜索器搜索出来的回报值最大的动作，按先后顺序排列起来，构成一组最佳运动策略，供以后的学习训练。

Q现实与Q估计的均方差；如下所示：

每5步学习一次，每300步对Q现实的参数更新一次，更新公式如下：

设置500回合进行训练，当机器人到达目标点则本回合结束，达到500回合时训练结束，输入最短路径，结果如图7-10所示。

由图5可知，灰色为起始点，为目标点，图中给出L1、L2、L3三条路径，则路径快速降线为L1。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的保护范围内所做的任何修改，等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：包括如下步骤：

S1、设置实验所需参数，参数包括贪婪系数、记忆库大小、折扣率、学习率、批量学习值；

S2、根据三维地形环境的坡度特征和机器人运动几何学特性，建立一个二维的栅格地图用来模拟环境；

S3、设计快速搜索机制，采用快速搜索机制对当前位置环境进行部分建模，在建模的同时进行奖赏值的计算，对奖赏值最大的动作以及障碍物点进行深度记忆；

S4、建立机器人的动作集，将DQN算法中四个动作扩充为八个动作；

S5、设计连续报酬函数：改进并引用启发式搜索算法，设计一个连续的报酬函数；

S6、设置n回合，当机器人达到目标点，一个回合结束，当达到n回合，训练结束，机器人通过n回合训练输出一条最优路径。

2.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：所述S1中Q_Learnin算法包括如下步骤：

S1.1、强化学习问题为一个马尔科夫决策过程，即MDP，MDP过程由5元素构成：{A、S、P、R、γ}，其中S代表机器人的状态集，A是机器人的动作集，R是报酬函数，γ是折扣因子，即γ∈[0,1]，P代表转移概率，即机器人在t时刻执行动作a_t后状态由S_t转移到S_t+1的概率；

S1.2、通过强化学习，使机器人找到最优的行动序列π^*＝{a₁ ^*、a₂ ^*.....a_n ^*}，在给定的环境下最大化累计奖励。

3.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：S1中，DQN算法包括如下步骤：

S1.11、根据Q_Learnin算法，建立一张Q值表，通过机器人与环境交互，得到奖赏函数值，通过不断迭代修改Q值表，使选择正回报值的动作的概率不断增加，随着不断与环境交互，更该动作策略集，是机器人的动作最终趋于最优动作集；

S1.12、强化学习采用状态-动作对Q(s,a)迭代方式来获得最优策略；

S1.13、构建两个神经网络，通过深度神经网络对回报值得计算代替Q表，一个神经网络用于计算Q现实，一个用于计算法Q估计，然后计算Q现实与Q估计的差值进行训练，最终达到差值最小。

4.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：S2中，根据三维地形环境的坡度特征和机器人运动几何学特性，建立一个二维的栅格地图用来模拟环境，采用python tkinter搭建仿真环境，仿真环境分为简单环境和复杂环境两种，环境地图中地图中用灰色矩形代表机器人，用圆形代表目标点，用黑色矩形代表障碍物，机器人的起始坐标用S(x_s,y_s)，目标点坐标G(x_g,y_g)，当前坐标为C(x_c,y_c)。

5.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：S3中，快速搜索机制的设计，包括如下步骤：

S3.1、设计路径快速下降线，机器人沿着路径快速下降线行走，将由目标点与起始点所构成的线段设计为快速降线；

S3.2、设计搜索器，将机器人与其目标点方位相同的一个身为的大小设计为搜索器的大小。

6.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：S4中，机器人能执行上、下、左、右、左上、左下、右上、右下八个动作，用机器人当前坐标(x,y)表示当前状态S(x,y)。

7.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于：S5中，设计连续的报酬函数，机器人每执行一个动作，会有相应的回报值作为奖励，回报值用来给机器人反馈，机器人通过回报值来改变自己的动作，地图中用灰色矩形代表机器人，用圆形代表目标点，用黑色矩形代表障碍物。

8.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法，其特征在于，其特征在于：S6中，设置n回合进行训练，当机器人到达目标点则本回合结束，达到n回合时训练结束，输入最优路径。