CN113848911A

CN113848911A - 基于Q-learning和RRT*的移动机器人全局路径规划方法

Info

Publication number: CN113848911A
Application number: CN202111140913.XA
Authority: CN
Inventors: 严怀成; 洪朱超; 张皓; 李郅辰; 王孟; 田永笑; 陈辉; 张长驻; 王曰英; 施开波; 秦博
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-28
Anticipated expiration: 2041-09-28
Also published as: CN113848911B

Abstract

本发明涉及一种基于Q‑learning和RRT*的移动机器人全局路径规划方法，包括以下步骤：1)根据环境地图中确定起始点与目标点，并以起始点为根节点构建拓展树；2)对地图栅格化并初始化Q值矩阵；3)以初始化的Q值矩阵作为初始Q值矩阵，从起始点位置开始对地图进行探索学习并更新Q值矩阵，将探索点所经过的位置添加到探索列表中；4)搜索探索列表，概率选择Q值最大节点作为新节点拓展方向，将新节点插入拓展树中更新最优路径。与现有技术相比，本发明通过结合强化学习方法提高节点拓展的目的性，环境复杂度上升时，使整体路径规划任务的成功率上升，并且能够应用于移动机器人的全局路径规划任务中，在环境复杂度上升时依然能保持较高的成功率。

Description

基于Q-learning和RRT*的移动机器人全局路径规划方法

技术领域

本发明涉及机器人路径规划技术领域，尤其是涉及一种基于Q-learning和RRT*的移动机器人全局路径规划方法。

背景技术

近些年来，移动机器人的技术正在不断发展与突破，能在越来越多的场景下看见机器人的身影，得益于机器人的应用，机器人代替了人类在危险或者极端环境中作业，完成原本需要消耗大量人力或是承受极大风险的任务。

随着机器人的应用越来越广泛，执行任务的环境更加多元化，因此对移动机器人的自主导航能力要求越来越高，现有的路径规划方法在普遍的任务中有较好的效果，但是当环境复杂度极具上升，各种未知情况层出不穷时，现有方法会遇到各种想不到的难题，缺乏任务的泛化性以及对环境的认识，难以保证方法的有效性与成功率，因此提升路径规划方法的智能性十分关键。

基于采样的路径规划方法通过随机采样的方式对环境进行探索，由于无需对状态空间建模，因此能快速完成在空间的搜索，并且具有连通性。RRT*方法是一种经典的基于RRT改进的采样路径规划方法，采样方法属于具有概率完备性的路径规划方法，理论上可行解能通过在环境中选取足够数量的采样点而找到。

RRT方法将机器人的起始点作为拓展树的根节点，在地图中随机生成采样点作为拓展树的叶节点，当拓展树中的叶节点距离目标点在一定范围内时，从该叶节点逆向寻找每一叶节点的父节点直至根节点，RRT方法即完成了路径规划任务，通过拓展树中的节点从移动机器人的起始点延伸至目标点生成与障碍物无碰撞的路径。RRT方法搜索能力强且效率较高，但是由于采样点的随机性，每次执行方法都会规划出不相同的路径，因此稳定性较差。

RRT*方法针对RRT方法随机性较强、稳定性差等缺点，在原有RRT方法上进行了一定改进，RRT*方法整体拓展思路与RRT方法相同，在节点拓展过程中添加了剪枝优化步骤，RRT*方法解决了RRT方法路径规划长度不稳定的缺点，保留其高效的搜索能力，但是RRT*依然采用随机采样的方式，导致大量盲目的搜索，当地图环境较为复杂时可能无法规划出一条有效路径。

因此RRT*方法存在以下问题：

(1)采用随机采样的节点拓展方式目的性弱；

(2)当环境复杂度上升容易导致规划成功率降低。

因此需要对RRT*方法进行一定改进，提高其成功率和速度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Q-learning和RRT*的移动机器人全局路径规划方法。

本发明的目的可以通过以下技术方案来实现：

一种基于Q-learning和RRT*的移动机器人全局路径规划方法，用以提升在环境复杂度上升后路径规划的成功率，包括以下步骤：

1)根据环境地图中的障碍物进行建模，初始化参数，确定起始点与目标点，并以起始点为根节点构建拓展树；

2)对地图栅格化并进行强化学习MDP建模，并初始化Q值矩阵；

3)初始化本回合探索列表，地图内设置Q-learning强化学习探索点，以初始化的Q值矩阵作为Q-learning强化学习探索阶段的初始Q值矩阵，从起始点位置开始对地图进行探索学习并更新Q值矩阵，在当前回合探索学习期间，将探索点所经过的位置添加到探索列表中；

4)搜索探索列表，概率选择Q值最大节点作为新节点拓展方向，根据拓展方向获得新节点并进行碰撞检测，若无碰撞则将新节点插入拓展树中并进行剪枝优化操作并更新最优路径，否则重新选择节点拓展方向；

5)若到达迭代次数则返回最优规划路径，否则返回步骤3)。

所述的步骤1)中，构建拓展树具体为：

移动机器人在2D环境中每一点的位置均通过坐标表示，移动机器人起始点为s_init，目标点为s_goal，对每一个新加入的树节点记录其父节点，并且为每一节点设置权值，权值代表当前节点沿着拓展树中父节点至根节点所花费的距离，即累计花费。

所述的步骤2)中，MDP建模具体为：

定义状态s代表地图中每个栅格的坐标位置，定义动作a代表Q-learning探索点所能执行的动作为{向上，向下，向左，向右}，则状态转移方程为：

其中，s_t、s_t+1分别为t和t+1步迭代的状态；

采用稀疏奖励的方式定义环境提供的奖励值r_t，则有：

所述的步骤2)中，初始化Q值矩阵具体包括以下步骤：

21)初始化list列表与closed列表，所述的list列表用于存放即将更新Q值的位置状态，所述的closed列表用于存放已被更新Q值的位置状态；

22)将目标点位置状态首先加入list列表中，并且以目标点位置开始向起始点位置进行搜索；

23)遍历list列表中所有状态

更新初始Q值矩阵

则有：

其中，

为list列表汇总存放的第i个位置状态，a_i为位置状态

上可执行的有效动作，

为位置状态

执行动作a_i后得到的下一位置状态，Q(s,a)表示评价状态-动作对的Q值，r为环境提供的奖励值，α为学习速率，γ为折扣因子；

24)将list列表中所有状态

存入closed列表中表示该状态已被初始化，并对每一个状态

进行判断，若

不存在于closed列表中，则将

存入list列表中，否则不执行操作；

25)判断closed列表中是否包含起始点s_init，若包含起始点s_init，即完成目标点位置向起始点位置的搜索，结束流程，否则，返回步骤23)。

所述的步骤3)中，对于Q-learning强化学习探索阶段的每个回合，Q值矩阵的更新公式具体为：

其中，Q^p(s_t,a_t)、Q^p+1(s_t,a_t)分别为第p和p+1次更新后的Q值矩阵，

为在位置状态s_t+1处，4个动作a中最大的Q值，α为学习速率，且α∈[0,1]，当学习速率α为0时，Q值仅与已有经验相关，与新获得的经验无关，当学习速率α为1时，则新Q值完全抛弃过去经验，更新为新经验，γ为折扣因子，且γ∈[0,1]，当折扣因子γ为0时，代表仅考虑当前奖励值，不考虑未来影响，当折扣因子为1时，代表当前状态-动作对与下一状态-动作对的奖励值有关。

在Q-learning强化学习探索阶段中，强化学习动作选择策略采用ε-greedy策略，通过设置策略选择因子ε₁对策略的利用与探索进行权衡，使得探索点随着训练次数增加不断迭代而使动作选择策略从探索策略向利用策略过渡，对于随机生成的数值rand∈[0,1]，当rand＞ε₁时选择利用策略，即选择当前Q值最大的动作，当rand＜ε₁时选择探索策略，即随机选择动作。

所述的策略选择因子ε₁的表达为：

其中，iter_max为总迭代次数，iter_t为当前迭代次数。

所述的步骤4)具体包括以下步骤：

401)初始化参数，设置起始点坐标s_init、目标点坐标s_goal、拓展步长δ、剪枝半径R和总迭代次数K；

402)将起始点坐标s_init加入拓展树T中；

403)若在总迭代次数内，则在探索列表中概率选择Q值最大节点或随机节点作为Q值节点s_Q；

404)遍历拓展树T，从拓展树中找到与Q值节点s_Q最近的邻近点s_nearest；

405)根据Q值节点s_Q与邻近点s_nearest的相对位置，从邻近点拓展步长δ得到新节点s_new；

406)判断新节点s_new与邻近点s_nearest之间是否存在碰撞，若存在碰撞则执行步骤412)，否则继续执行407)；

407)以新节点s_new为圆心，将半径R内拓展树中节点放入搜索列表nearList；

408)在搜索列表nearList中选择新节点s_new的父节点，使新节点s_new的累计花费最小；

409)将新节点s_new插入拓展树T中；

410)计算新节点s_new至搜索列表nearList中各节点s_i∈nearList的累计花费，若新累计花费小于旧累计花费，则执行剪枝操作，改变该节点s_i的父节点并指向新节点s_new；

411)若已到达目标点s_goal，从目标点s_goal搜索父节点回溯至起始点s_init，更新最优路径；

412)若当前迭代次数达到总迭代次数则结束，否则返回步骤403)。

所述的步骤403)中，通过设置阈值ε₂平衡探索列表中的节点选择，当随机生成数rand＜ε₂时，则在探索列表中随机选择一节点作为Q值节点，当随机生成数rand＞ε₂时，则选择Q值最大的节点作为Q值节点。

所述的阈值ε₂为一定值。

与现有技术相比，本发明具有以下优点：

一、由于奖励值稀疏的缘故，在训练初期，Q值矩阵无任何学习策略，只有当抵达目标点才能获得正向奖励值，当地图环境较大时，在Q-learning探索点初期处于无任何反馈阶段，盲目随机探索容易造成的训练速度缓慢，因此本发明提出Q值矩阵初始化的方式，以使Q-learning探索点能更快收敛至最优策略，使方法整体迭代次数减小。

二、本发明每一回合Q-learning训练阶段通过探索点对地图环境的探索获得探索列表，RRT*采样节点从探索列表中选择，减少随机采样的盲目性，训练阶段的探索方式保持了一定的随机探索空间，使方法更易趋于最优，提高规划成功率。

附图说明

图1为基于Q-learning和RRT*路径规划方法流程图。

图2为栅格图示意图。

图3a为地图1中RRT*方法规划路径结果图。

图3b为地图2中RRT*方法规划路径结果图。

图4a为地图1中基于Q-learning和RRT*方法规划路径结果图。

图4b为地图2中基于Q-learning和RRT*方法规划路径结果图。

图5a为在复杂环境中RRT*方法规划路径结果图。

图5b为在复杂环境中基于Q-learning和RRT*方法规划路径结果图。

图6a为基于Q-learning和RRT*方法未初始化时路径规划结果图。

图6b为基于Q-learning和RRT*方法初始化后路径规划结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本发明提出一种基于Q-learning和RRT*的移动机器人全局路径规划方法，提高节点拓展的目的性，在环境复杂度上升时，保持采样的成功率，以此使整体路径规划任务的成功率上升，如图1所示，包括以下步骤：

(1)获得环境地图中的障碍物进行建模，初始化参数，获得起始点与目标点，以起始点为根节点构建拓展树；

(2)对地图栅格化并进行强化学习MDP建模，初始化Q值矩阵；

(3)初始化本回合探索列表，地图内设置一Q-learning强化学习探索点，从起始点开始对地图进行探索学习、更新Q值矩阵，在本回合探索学习期间，将探索点所经过的位置添入探索列表；

(4)搜索探索列表，概率选择Q值最大节点作为新节点拓展方向，根据拓展方向获得新节点并进行碰撞检测，若无碰撞则将新节点插入拓展树中并进行剪枝优化操作、更新最优路径，否则重新选择节点拓展方向；

(5)若到达迭代次数则返回最优路径，否则返回步骤(3)。

步骤(1)中拓展树在地图中的构建具体为：

移动机器人处在2D环境中，每一点的位置均可用坐标s＝(x,y)表示，移动机器人起始点为s_init，目标点为s_goal，每一个新加入的树节点记录其父节点，并且每一节点设置权值，权值代表当前节点沿着拓展树中父节点至根节点所花费的距离。

步骤(2)中强化学习方法采用Q-learning方法，移动机器人(智能体)在环境中根据设定好的目标要求不断探索、试错，通过环境的反馈更新自身策略，在多个回合之后获得能够完成指定任务的最优策略。策略就是智能体根据当前状态选择相应动作的方式，Q-learning方法将策略具体化为状态-动作对的集合并且将集合存储在Q值矩阵中，Q值矩阵的每一个单元为相应状态-动作对的Q值，Q值的大小用于评判当前状态执行该动作的好坏。同时环境的反馈可以设置成为奖励函数，作用是对Q值矩阵中的Q值进行更新，使智能体在多次训练后可以完成目标任务。奖励函数评判状态-动作对的好坏，若当前状态下执行动作后的效果不佳，则环境会给予惩罚，减小Q值矩阵中相对应的Q值，使智能体减小选择该动作的概率；若该动作效果较好，则环境会给予一正向奖励，增大Q值以鼓励智能体选择该动作，经过多次迭代更新后，Q值矩阵会趋于稳定，最终智能体获得最优策略。

步骤(2)中MDP建模包含3个部分，状态与动作可参考图2：

(1)状态s，代表地图中每个栅格的坐标位置(x,y)；

(2)动作a，Q-learning探索点所能执行的动作为{向上，向下，向左，向右}，状态转移方程为：

其中，s_t、s_t+1分别为t和t+1步的状态；

Q值矩阵用来存储状态-动作对的Q值，其大小由状态和动作的数量决定。

(3)奖励函数，奖励值的设计反应了在设计者的目的，但是奖励函数设计不佳可能会带来陷入局部最优的情况，因此本发明采用稀疏奖励的方式，希望探索点能获得从起始点趋向目标点的策略，则奖励值r_t的表达式为：

步骤(2)中进行Q值矩阵初始化，目的是为了解决在地图较大时Q-learning探索度较低导致Q值矩阵无法更新完全的问题，这里提出初始化Q值矩阵加速Q-learning训练的思想，使Q-learning同样适用于目标点距离较远的路径规划问题。

Q值矩阵初始化过程如下：

(1)初始化list列表与closed列表，list列表用于存放即将更新Q值的状态，closed列表用于存放已被更新Q值的状态；

(2)将目标点位置状态加入list列表；

(3)遍历list列表中所有状态

更新Q值矩阵：

式中，

为list列表汇总存放的状态，a_i为

状态上可执行的有效动作，

为

执行动作a_i后得到的下一位置；

(4)将list列表中所有状态

存入closed列表中表示该状态已被初始化，并对每一个状态

进行判断，若

不存在于closed列表中，则将

存入list列表中，否则不执行操作；

(5)判断closed列表中是否包含起始点s_init，若包含起始点s_init则结束流程，否则返回步骤(3)。

本发明提出的Q值矩阵初始化方式，以唯一拥有正向奖励值的目标点为中心向周围状态点传播更新，使Q值矩阵快速初始化，将已更新后的Q值矩阵作为Q-learning阶段的初始矩阵，使Q-learning探索点前期探索时依然能获得正向反馈，减少稀疏奖励带来的影响。

步骤(3)中Q-learning探索点的更新方式：

Q-learning方法通常以下方形式更新Q值：

式中，Q(s_t,a_t)为第t步评价状态-动作对的Q值，r为环境提供的奖励值。α为学习速率，通常设置为α∈[0,1]，代表Q值更新的快慢程度。当学习速率α为0时，Q值仅与已有经验相关，与新获得的经验无关；当学习速率α为1时，则新Q值完全抛弃过去经验，更新为新经验，γ为折扣因子，通常设置为γ∈[0,1]，体现未来奖励值对当前状态的影响大小。当折扣因子γ为0时，代表智能体仅考虑当前奖励值，不考虑未来影响；当折扣因子为1时，代表当前状态-动作对与下一状态-动作对的奖励值有关。

为了使智能体能更好更新策略，每一次的动作选择也至关重要。在某些环境下状态空间巨大，若智能体总是执行当前最优动作则无法探知所有状态，容易陷入局部最优。因此将探索与利用的思想作为两种动作选择策略，探索策略(Exploration)代表智能体从动作集合中随机选择一动作，使智能体更新的状态能更加广泛；利用策略(Exploitation)根据已更新的策略，选择当前状态下的最优动作。Q-learning中通常使用ε-greedy策略来平衡探索与利用两种策略，通过改变策略选择因子ε∈[0,1]的大小来调节探索和利用的比例，使智能体的策略能收敛至最优。

强化学习动作选择策略：动作选择策略采用如上所述Q-learning方法传统的ε-greedy策略，方法初期ε定为一较大数值，在选择动作策略时随机生成一数值rand∈[0,1]，当rand＞ε时选择利用策略；当rand＜ε时选择探索策略。因此方法初期会大量选择探索策略随机对环境进行探索，策略选择因子ε随回合数增加而衰减，由探索策略逐渐转为利用策略。

Q-learning环境探索策略通过策略选择因子ε₁对策略的利用与探索进行权衡，由于希望探索点能随着训练次数增加不断迭代而使动作选择策略从探索策略向利用策略过渡，因此设置策略选择因子：

式中iter_max为总迭代次数，iter_t为当前迭代次数。奖励函数作为环境给予的唯一反馈，反映了设计者对任务的期望，设置稀疏奖励函数仅对到达目标点时产生一个正向奖励，通过抵达目标点获取正向奖励，使趋向目标点动作的Q值上升，选择相应动作的概率增大，每一次迭代中利用探索点对地图进行学习更新Q值矩阵。

步骤(4)中新节点拓展方式：

(1)初始化各个参数，设置起始点s_init与目标点坐标s_goal，拓展步长δ，剪枝半径R，总迭代次数K；

(2)将起始点s_init加入拓展树T中；

(3)若在总迭代次数内，则在Q-learning探索列表中概率选择Q值最大节点或是随机节点作为Q值节点s_Q，否则结束；

(4)遍历拓展树T，从树中找到与s_Q最近邻近点s_nearest；

(5)根据Q值节点s_Q与邻近点s_nearest相对位置，从邻近点拓展步长δ得到新节点s_new；

(6)检查s_new与s_nearest之间是否存在碰撞，若存在碰撞则执行步骤(12)，否则继续执行(7)；

(7)以s_new为圆心，将半径R内树中节点放入搜索节点列表nearList；

(8)在搜索节点列表nearList中选择s_new的父节点，使s_new的累计花费最小；

(9)将s_new插入拓展树T中；

(10)计算s_new至搜索节点列表nearList中各节点s_i∈nearList累计花费，若新累计花费小于旧累计花费，则执行剪枝操作，改变该节点s_i的父节点并指向s_new；

(11)若已到达目标点s_goal，从目标点s_goal搜索父节点回溯至起始点s_init，更新最优路径；

(12)达到迭代次数则结束方法，否则返回步骤(3)；

概率选择Q值最大节点具体为：

概率选择探索列表中Q值最大的位置作为Q值节点，设置ε₂来平衡探索列表中的节点选择，当rand＜ε₂时在探索列表中随机选择一节点作为Q值节点；当rand＞ε₂时选择Q值最大的节点作为Q值节点。

实施例：

对比基于采样的全局路径规划方法包括所提出的基于Q-learning和RRT*路径规划方法(命名为QRRT*)以及传统RRT*方法。搭建地图大小为100*100，白色区域为无障碍区域，黑色区域为障碍物区域，深灰色点代表起始点，浅灰色点代表目标点，起始点与目标点均选择与障碍物无碰撞的位置，浅灰色轨迹为最终规划路径，黑线为拓展树各节点的拓展与连接。QRRT*方法中Q-learning探索点学习速率α＝0.8，折扣因子γ＝0.3，QRRT*迭代次数200次，训练最大步数500，拓展步长δ＝3，剪枝半径R＝5，RRT*迭代次数1000次。

表1全局路径规划方法比较

传统RRT*与QRRT*的路径规划效果可参考图3a、图3b、图4a、图4b，从图中可以看出探索的区别，RRT*在较大范围对全地图进行探索可以增加采样的多样性，更有可能得到最优路径，当采样点数足够多时，由于概率完备性能得到渐近最优路径，但同时大范围的搜索会产生不必要的采样。当复杂度急剧上升后，由于探索盲目性会导致规划失败。QRRT*由于采用强化学习Q-learning作为拓展树拓展方式，概率选择Q值最大的点作为拓展方向，因此拓展树节点的拓展与探索更具目的性。

通过表1对各路径规划方法性能进行分析，若规划失败则用0表示。RRT*由于拓展盲目性导致速度很慢，QRRT*减少了节点拓展失败的概率能更快获得首次连接并且更快完成规划。RRT*始终保持随机采样的策略，连接与目标点大量不相关的点，使得更新速度较慢。QRRT*通过Q-learning探索点的策略使采样范围集中在最优路径附近，同时探索点的探索能力保持采样多样性，搜索范围更小，能稳定规划出最短路径。在不同的环境下相同方法会产生不同路径规划的成功率，由于RRT*作为采样方法因此并不会次次成功。当环境复杂度上升时由于采样大量失败导致的节点不足而无法通过拓展树从起点拓展至终点，因此RRT*成功率有所影响。QRRT*方法由Q-learning探索点引导拓展方向，即使环境改变也能保持良好的成功率。

参考图5a、图5b可以看出当环境复杂度大幅度增加，环境中存在大量狭窄通道以及障碍物时，传统RRT*方法的成功率会急剧下降，由于采样点不成功，无法有效延伸并探索，通常会困在某一被障碍物包围的区域。QRRT*通过Q-learning对环境进行学习探索获得探索列表再进行拓展，大幅度提高了采样成功率，减少被障碍物阻挡阻止节点拓展的几率，得以顺利拓展至目标点，并且对路径进行优化，提高路径规划的成功率。

参考图6a、图6b可以看出未初始化QRRT*方法的学习速度较慢，因此无法及时更新Q值矩阵，花费大量时间进行探索仅在起始点附近徘徊，导致规划失败。QRRT*对Q值矩阵快速初始化，加快了Q-learning探索点的学习速度，当规划距离较长、地图范围较大时依然能快速得到规划路径。

Claims

1.一种基于Q-learning和RRT*的移动机器人全局路径规划方法，用以提升在环境复杂度上升后路径规划的成功率，其特征在于，包括以下步骤：

2)对地图栅格化并进行强化学习MDP建模，并初始化Q值矩阵；

5)若到达迭代次数则返回最优规划路径，否则返回步骤3)。

2.根据权利要求1所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的步骤1)中，构建拓展树具体为：

3.根据权利要求1所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的步骤2)中，MDP建模具体为：

其中，s_t、s_t+1分别为t和t+1步迭代的状态；

采用稀疏奖励的方式定义环境提供的奖励值r_t，则有：

4.根据权利要求3所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的步骤2)中，初始化Q值矩阵具体包括以下步骤：

23)遍历list列表中所有状态

更新初始Q值矩阵

则有：

其中，

为list列表汇总存放的第i个位置状态，a_i为位置状态

上可执行的有效动作，

为位置状态

24)将list列表中所有状态

存入closed列表中表示该状态已被初始化，并对每一个状态

进行判断，若

不存在于closed列表中，则将

存入list列表中，否则不执行操作；

5.根据权利要求4所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的步骤3)中，对于Q-learning强化学习探索阶段的每个回合，Q值矩阵的更新公式具体为：

6.根据权利要求5所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，在Q-learning强化学习探索阶段中，强化学习动作选择策略采用ε-greedy策略，通过设置策略选择因子ε₁对策略的利用与探索进行权衡，使得探索点随着训练次数增加不断迭代而使动作选择策略从探索策略向利用策略过渡，对于随机生成的数值rand∈[0,1]，当rand＞ε₁时选择利用策略，即选择当前Q值最大的动作，当rand＜ε₁时选择探索策略，即随机选择动作。

7.根据权利要求6所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的策略选择因子ε₁的表达为：

其中，iter_max为总迭代次数，iter_t为当前迭代次数。

8.根据权利要求1所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的步骤4)具体包括以下步骤：

402)将起始点坐标s_init加入拓展树T中；

409)将新节点s_new插入拓展树T中；

9.根据权利要求8所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的步骤403)中，通过设置阈值ε₂平衡探索列表中的节点选择，当随机生成数rand＜ε₂时，则在探索列表中随机选择一节点作为Q值节点，当随机生成数rand＞ε₂时，则选择Q值最大的节点作为Q值节点。

10.根据权利要求9所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法，其特征在于，所述的阈值ε₂为一定值。