CN109947098A

CN109947098A - 一种基于机器学习策略的距离优先最佳路径选择方法

Info

Publication number: CN109947098A
Application number: CN201910166452.XA
Authority: CN
Inventors: 张德干; 龚倡乐; 刘晓欢; 张婷; 崔玉亚; 宋金杰
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-06-28

Abstract

一种基于机器学习策略的距离优先最佳路径选择方法(OPABRL)。针对智能驾驶车辆在实际应用中遇到的路径方向、宽度、曲率道路交叉以及路障细节信息，对局部路径进行规划。通过对强化学习算法的了解和学习，设计了一种基于先验知识的强化学习策略的最佳路径选择方法，并在程序中改进了最短路径的搜索方向设置，简化了最短路径搜寻的过程。这种路径优化方法可以有效帮助不同类型智能驾驶车辆顺利规划存在限制高度，宽度和重量以及事故和拥堵障碍条件下的交通网络中的最优路径。通过仿真实验和场景实验，与现有的ACO、GA、ANNs和PSO算法相比较，证明了本发明所提出的算法具有更好的高效性和实用性。

Description

一种基于机器学习策略的距离优先最佳路径选择方法

【技术领域】

本发明属于物联网领域，涉及一种基于机器学习策略的距离优先最佳路径选择方法。

【背景技术】

强化学习中最常用的Q-Learning算法通过建立一个评价函数来评价动作的好坏，从而学习出一条整体的最优策略。马尔科夫决策过程为强化学习提供了理论框架，其过程可以用四元数组<S，A，P，R>来描述，其中S代表状态合集；A代表动作合集；P代表状态转移概率矩阵，且即智能体在当前时刻所处状态为s时，执行动作a转移到状态s′的概率；R代表奖励函数，且即智能体在状态s时，做出动作a能够获得的奖励。Q-Learning解决这类问题的思路是首先学会一个动作值函数Q(s，a)，即在状态S下执行动作a后得到的Q值，然后根据某些策略进行动作的选择。策略就是在给定状态下，智能体选择动作的规则。比如随机贪婪法策略，就是小于某个概率值就随机选取动作，大于某个概率值就选取Q值最大的动作。同时这样的动作-值函数，也称为奖励函数或者评价函数，学习成功以后，最优策略即可通过选择Q值最大的动作序列来构建，而值函数则是奖励函数累积效应的一种表示，即用来决定最终奖赏值最大的函数，在进行策略选择动作时，要根据目标值函数的最大而不是当前的瞬时奖励函数最大进行。

强化学习又称再励学习，它通过感知动态环境的变化并从产生的动作中获取不确定的奖惩值，对动作的优劣做出评价，从而学习动态系统的最优行为策略。这种方法在实际领域中应用的一个重要方面就是智能驾驶车辆的路径规划，通过车辆对环境的不断感知，将获取的信息通过强化学习策略不断学习和反馈，最终获得最优路径。

通过引入频率最大Q值启发式学习算法，研究人员对递阶强化学习方法进行改进，解决在庞大状态空间和动态变化环境中对Agent进行最优行为策略学习的问题，引入属性维护算子以及承诺和规划意识属性，使Agent具有在动态环境中进行在线学习的能力，通过对行驶环境的组态设定，和对行驶状态的不断学习，最终获得最优路径。针对路径规划算法收敛速度慢及效率低的问题，有人提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上，提高学习算法的性能，并通过三维仿真，证明了算法的在效率和收敛速度等方面的优势。

另外，也有学者将模糊神经网络与强化学习相结进行路径规划研究，通过预处理和后置处理策略优化路径的方法来研究在复杂网络环境中移动体的路径规划成功率和最短路径问题。另外在蚁群算法，遗传算法以及粒子群优化算法等为基础的研究领域也吸引了很多研究学者的注意。这些研究都能够有针对性地解决移动路径规划中的一些突出问题：1)路径规划算法收敛速度慢及效率低；2)初始规划路径转弯数多；3)在复杂网络环境中移动体的路径规划成功率和最短路径选择；但是也都需要在未来的研究中进一步地去解决和平衡。

当前在智能机器人路径规划和路径选择中常被应用的算法有遗传算法(GeneticAlgorithm,GA)、蚁群优化算法(Ant Colony Optimization,ACO)、人工神经网络算法(Artificial Neural Networks,ANNs)以及粒子群算法(Particle Swarm Optimization,PSO)。但是，在迭代次数和稳定性上，这些算法都有不足，并且在大规模的交通网络下的路径规划和路径选择表现欠佳。

【发明内容】

本发明的目的是解决智能车辆行进过程中的路径规划以及路径选择两方面的问题。拟采用强化学习技术以及最短路径算法的搜索方式优化相结合的方式实现智能驾驶车辆路径优先考虑的路径优化，设计一种基于先验知识的强化学习策略的最佳路径选择方法。这种路径优化方法可以有效帮助不同类型智能驾驶车辆顺利规划存在限制高度，宽度和重量以及事故和拥堵障碍条件下的交通网络中的最优路径。

本发明设计的OPABRL智能驾驶车辆路径选择算法，车辆通过适当先验知识与强化学习Q-Learning算法结合的方式，获得基于先验知识的强化学习策略，并根据这种策略，在未知环境中实现智能驾驶车辆路径规划。本算法中设计解决这种问题的原理是通过智能体执行一个动作集内的动作以后，从一个状态转换成为另一个状态。并同时会提供一个立即回报值。智能体的目标就是最大化它的总回报值，通过学习使每个状态对应的选择动作是最优的。这里的动作最优指的是这个动作执行以后，从最终结果来看可以获得最大的回报值。这个回报值的计算是将当前状态执行所有接下来动作的各个预测回报值乘以它的权重然后加和。强化学习算法的一个好处就是，它不需要知道环境模型就可以比较可选动作的期待回报值。另一个好处是不用作任何修改，就可以处理随机转换和回报值的问题。

本发明的基于机器学习策略的距离优先最佳路径选择方法主要步骤为：

第1、强化学习先验知识训练，车辆控制器与已知环境交互，获得先验知识，将这一次训练过程记为一次学习过程；同时通过不断学习，定时更新参数设定中参考预估值，参数可以是最短行驶路程，也可以是最少行驶时间，或者是综合代价最小作为标准，这种标准可以由所有代价分别按照不同权值进行换算，而这种权值的规定则需要强化学习在不断学习的过程中进行多次动态调整，直至变化保持在设定阈值范围内；

第2、通过用户输入的起始点和终点位置生成初始路径，并对路径进行预处理，将不含负权边的交通网络抽象表示为拓扑图G(V，E，W)，其中V，E，W分别表示节点集合，边集合和边的权值集合，并简化为数学模型；

第3、根据预处理后的路径，进行对智能驾驶车辆的路径规划：

第3.1、对所规划范围区域进行栅格化，建立网络拓扑；

结合智能驾驶车辆行驶环境，采用栅格法来构建环境地图；这一过程分为两个步骤：

第3.1.1、对于车辆行驶的区域进行边界学习；

第3.1.2、采用矩形网格的形式，将整个环境区域划分为网格，然后把整个实际环境与每个网格区域相映射，最终实现实际环境的离散化，生成环境地图；

第3.2、优化最短路径算法求最短路径，考虑智能驾驶车辆在工作中的动态变化的环境，结合A*算法进行路径规划，提出OPABRL算法；

第3.2.1、对于最短路径算法的优化；

第3.2.2、与动态变化的环境进行交互，判断行径过程中的障碍栅格并进行处理；

第4、选择和判定最优路径，到达终点。

OPABRL最佳路径选择方法流程图如附图1所示。其中，在第1步所述的强化学习先验知识训练的部分与第3.1步所述对规划范围区域进行栅格化，建立网络拓扑部分在逻辑上可以并列进行，但是因为在算法运行过程中，不涉及整体的学习过程，只应用其结果并不断更新和完善先验数据，因此可以将第1步的先验知识学习训练的部分先单独进行，然后在算法运行过程中，通过更新参考预估值来进行不断的调整，以此对数据进行定时的更新。

本发明的优点和积极效果

本发明主要针对智能驾驶车辆的路径规划问题设计了一种优化算法。首先设计了基于先验知识强化学习策略，结合最短路径算法提出了一种智能驾驶车辆路径规划的优化算法。这种算法在使用中可以通过不断训练学习，在后面的搜索和使用中，对已经归为先验知识的障碍的处理变得快捷，并优化最短路径算法的搜索设置，对路径的优化进行了指标分析。通过仿真实验，将本发明算法与常用的几种路径规划算法对比，证明了该算法在路径规划功能和算法本身性能等方面的优势。仿真实验表明，本发明算法可以在设置有障碍的仿真路网环境中，成功规划出智能驾驶车辆的优化路径，与其它算法相比，所规划路径在长度，虚拟等价增比等方面有明显优势，并且算法本身的运行时间和搜索效率方面也具有优势。

【附图说明】

图1是OPABRL最佳路径选择方法流程图；

图2是生成的环境地图；

图3是本发明OPABRL算法规划路径图；

图4是本发明OPABRL算法收敛状况图；

图5是现有技术中的ACO算法收敛状况图；

图6是现有技术中的GA算法收敛状况图；

图7是现有技术中的神经网络算法收敛状况图；

图8是现有技术中的粒子群算法收敛状况图；

图9是不同算法规划路径对比图；

图10是不同算法规划路径对比；

图11是规划路径长度对比；

图12是算法运行时间对比图；

图13是行车网络示例；

图14是测试区域地图；

图15是路径规划结果图；

图16是路径长度对比图；

图17是路径转弯与绕开障碍情况对比图；

图18是算法运行时间对比图。

【具体实施方式】

针对在智能机器人路径规划中常被应用的遗传算法(GeneticAlgorithm,GA)、蚁群优化算法(Ant Colony Optimization,ACO)、人工神经网络算法(Artificial NeuralNetworks,ANNs)以及粒子群算法(Particle Swarm Optimization,PSO，与本设计算法OPABRL在算法功能和性能两个方面进行仿真对比，通过分析方针结果对所设计算法的优缺点进行说明。

第1、强化学习先验知识训练；

在智能车辆行进过程中，我们要解决的问题包括两方面：路径规划和路径选择。为了简化系统，我们首先对基于先验知识的强化学习策略以及更新规则进行描述：

假设智能驾驶车辆一直行驶在宽度一定的道路上，路径规划的问题可以理解为在智能驾驶车辆行驶的道路环境下，解决规划出一条或者多条能够从起点到达终点，并且成功绕过障碍的问题，最短路径算法可以解决前半部分，对于后半部分，我们考虑将路网栅格化，并将根据这些栅格是否安全为标准首先确定是否是障碍，此处障碍主要考虑三种情况，包括限制通行，交通事故和通行拥堵。其中限制通行主要考虑限高，限宽和限重三种情况；交通事故按实际分为轻度，中度和重度拥堵三种程度；通行拥堵则视情况分为轻微拥堵，缓行和拥堵三种，凡所划栅格包括以上任何一种，则认为是障碍。当系统检测到安全栅格即非障碍时，分为两种情况：正确的判断和错误的判断。正确的判断即此栅格符合作为路径下一步的条件，可以被最优路径选择步骤作为一个选项；错误的判断是指栅格不安全即为障碍而未被检测出来，车辆经过这样的栅格，其总通过代价会因为错误识别而增加。

我们将这种由于错误判断导致增加的代价等价为虚拟时间t_ee，这里的错误等价时间包括因为错判导致的多走路程的代价等价时间t_de，多经过转弯和路口的代价等价时间t_ce。

于是

t_ee＝t_de+t_ce (1)

当系统检测到非安全栅格即障碍时，由于先验知识的加入，使得错误的判断即栅格为非障碍安全栅格被检测为障碍栅格的概率几乎为零，这里我们忽略这种情况，此时直接进入绕障过程。路径选择的问题可以理解为，在路径规划成功的基础上，我们按照用户设定的判断标准进行选择，即筛选出相对优化的路径，这种优化路径满足用户要求的参数最优。以路程最佳为例，在式(1)中，我们将虚拟等价时间t_ee的计算与初始节点和目的节点连线的最短长度l_i和躲避障碍所需最少转弯数n_i结合，在实际应用中，我们将路口红绿灯的通行情况理想化为每种灯的概率都为1/3，而车辆在路口直接通过的概率则为1/3，即只有绿灯时，可以直接通过。记实际路径的长度和转弯数分别为l和n。

定义虚拟等价增比

虚拟等价增比越小，路径规划算法误判代价越小，算法的性能越优越。

根据实际情况，我们知道：

其中t_r表示车辆实际行进时间。假设智能驾驶车辆的行驶速度为v，则有：

即虚拟等价时间与实际行驶距离之间满足：

变换可得：

即在速度一定时，虚拟等价增比越小，实际规划路径的长度越小；路径规划中错误判断导致增加的代价越小，算法性能越优秀。

当以路径代价为参考标准时，问题简化为求解最小t_ee的路径。此时总代价时间t_ee越大，奖励越来越小，Q值的更新越来越慢，Q-learning收敛也慢。

在马尔科夫过程中，四元数组(S，A，P，R)分别表示有限状态集，有限动作集，转移概率和奖励函数，其新规则如式(7)和式(8)所示：

其中，Q(s，a)是初始化状态，当系统在状态s，执行动作a时，转移至状态s′的概率记为p(s，a，s′)，学习因子α决定后来学习的新值覆盖原有值的比例。例如学习因子为0代表不学习任何新的东西，只存储旧值，则学习因子为1，代表全部用新学习的值代替。当环境问题需要通过猜测进行定性的时候，可以给学习因子设置一个固定的常量，且其范围为α∈[0，1]。此时获得的报酬可以先表示为R(s，a)＝∑_s，p(s，a，s′)R(s，a，s′)，我们的目标是找到最大的奖励和，记为其中0≤p＜1,r_t为t时刻的瞬时奖励。

Q值函数来实现未知情况下的最优策略，而获得最优策略时的Q值函数称为最优Q值函数，它可以理解为某个算子GM的不动点，且满足：

(G_MQ)(s，a)＝R(s，a)+α∑_s′p(s，a，s′)R(s′) (9)

而在时间连续的复杂系统中，Q-learning的收敛需要每一状态-动作对被访问无数次，因此可以考虑将上述离散过程连续化，即将得到连续系统中的奖励函数表达式。

在连续系统中，强化学习的奖励函数为：

其中：θ为系统的连续折扣因子,用来表示在连续系统中的折扣抵消。折扣因子决定了未来回报值的重要性。如果折扣因子为0，表示仅仅考虑当前的回报值，不考虑以后的动作的影响；如果折扣因子为1，将会认为后面的所有动作都对当前的动作回报值有最高的一样大影响。当折扣因子介于0和1之间时，值越大表示越前面的动作影响越大。

根据Q-learning定义的更新规则：

连续的时间系统由于栅格化操作，获得报酬R(s，a)离散化后可以表示为:

R(s，a)＝∑_s′p(s，a，s′)R(s，a，s′) (12)

此时R(s，a)与t_ee满足：

假设所有情况下车辆都能找到一条从起点到达终点的路径，最优路径选择问题是指在避开障碍的前提下，如何合理选择起点到终点的路径。本设计中提到的最优路径包括以下衡量指标：首先考虑完成所选路径所花费的时间T，包括算法执行时间t_a和车辆行进时间t_r两部分。

有

T＝t_a+t_r (15)

因此当以时间为主要考虑参数时，即选择T最小的路径。此时总花费时间T越大，奖励越小，Q值的更新越来越慢，Q-learning收敛也慢。

另外根据不同路径的车辆实际行驶距离，也可以将最短行驶距离路径做为最优路径。假设每个栅格为一步，则将路程问题转化为步数问题，此时问题化简为寻找从出发点到目标地点避开障碍的经过栅格步数最少的问题。即最优路径优化问题可以理解为最小步数N的问题，可以通过算法运行中的计数器实现。在本发明研究的问题中，路径选择的部分是按照用户设定参数进行的，而这个参数如前面所提到一样，可以是最短行驶路程，也可以是最少行驶时间，当然也可以是综合代价最小作为标准，这种标准可以由所有代价分别按照不同权值进行换算，而这种权值的规定则需要强化学习在不断学习的过程中进行多次动态调整，直至变化保持在设定阈值范围内。

第2、对路径进行预处理；

将不含负权边的交通网络抽象表示为拓扑图G(V，E，W)，其中V，E，W分别表示节点集合，边集合和边的权值集合。并且：

连边e＝(i，j)∈E表征以节点i为起点、节点j为终点所对应的路段，w(e)表征边e的权值，w′(e)表示边e发生变化后的权值.

Dist(s，t)表示从节点s出发到达节t的最短路径，其对应的最短路径值为d(s，t)。此处Dist(s，t)与Dist(t，s)并不等价，且d(s，t)与d(t，s)也不一定相等.

求解点对(s，t)的最短路径问题的数学模型表示为：

min d(s，t)＝∑_{e∈Dist(s，t)}w(e) (16)

其中mind(s，t)为常规最短路径表示，在实际应用中，例如以路程最短为最优路径评价标准时，我们将A*算法的评价函数中预算代价h(n)与上文所述智能驾驶车辆躲避障碍的虚拟时间t_ee联系起来，即在运行最短路径算法时，每次计算后续几点的估计代价时，以算法中每次迭代时的等价虚拟时间为基础进行评价。即将从初始节点到任意节点n的代价g(n)与从节点n到目标点的启发式评估代价h(n)结合起来评价当前节点，其评价函数为：

f(n)＝g(n)+h(n) (17)

式中：f(n)表示从初始点经由节点n到达目标点的估价函数；g(n)表示从初始节点到n节点的实际代价；h(n)则代表当前节点n至目标节点路径的预算代价，具体求法如下：

g(n)＝t′_ee (18)

h(n)＝d(s，t) (19)

且根据式(6)：

其中速度v为常数，即将启发式评估代价转换为路程的函数进行评价。

根据预处理后的路网拓扑，进行先验强化学习训练，获得经验后根据优化的最短路径算法计算的参考路径决定起点的下一步栅格位置，同时通过与环境不断交互获取信息判断参考路径是否安全，重复此操作直至获得到达终点的路径。

第3.1、对所规划范围区域进行栅格化，建立网络拓扑

为了实现智能驾驶车辆的自主定位和全区域范围内的完全覆盖路径规划，需要凭借自己携带的传感器去探知外界的工作环境，以获取相关的环境数据，并且利用这些数据来对外部环境进行建模。栅格地图的基本思想是把智能驾驶车辆的工作环境分割成一个个一模一样的网格，每个网格都对应着环境中一个特定的小区域，每当传感器探知到外界环境出现了些许改变时，栅格地图就会及时地更改维护。在采用这个方法对环境地图建立模型时，对于同一个工作环境，划分的网格数量愈高，网格就会愈小，地图的精度就会愈高。结合本发明研究的智能驾驶车辆行驶环境，我们采用栅格法来构建环境地图，分为两个步骤：

第3.1.1、边界学习过程

边界学习的过程是指智能驾驶车辆由一个特定的地方开始沿着行驶区域的边界或与边界紧挨着的障碍的边界按某一特定方向搜索一周，在此过程中获知整个行驶环境的轮廓及靠边界的障碍物的分布情况。所记录地图中黑色代表的是障碍，白色部分则代表可以行驶区域。

第3.1.2、环境地图生成

环境地图采用矩形网格的形式，通过将整个环境区域划分为网格，把整个实际环境与每个网格区域的映射，实现实际环境的离散化。若车辆的尺寸为d，且网格大小同车辆尺寸一样，则可获知这个地图中网格数目为：XY/d²。栅格用G表示，用G(x，y)表示该栅格所代表的区域的数据，x，y依次代表栅格在整个栅格区域中的横纵坐标；G(x，y)表示是否含有障碍物，G(x，y)为1时，代表栅格为不安全区域(即此栅格含障碍物)，G(x，y)为0时，代表栅格为安全区域(即此栅格不含障碍物)。然后将整个工作区域用一个二进制的矩阵表示，该矩阵里的数值只有0和1。环境地图如附图2所示。

从附图2中可以看出，栅格地图可以清晰的标识出障碍物区域和自由区域，我们可以在此基础上来对智能驾驶车辆的路径进行规划。

第3.2、优化最短路径算法求最短路径，考虑智能驾驶车辆在工作中的动态变化的环境，结合A*算法进行路径规划，提出OPABRL算法。

智能驾驶车辆优化路径算法在智能驾驶车辆在行驶过程中，需要一定的评判标准来评价这种算法功能和性能的好坏，因此我们设定以下评价参数来评估算法：

首先在车辆行驶过程中，路径的长度需要提前计算，才能根据计算结果选择出符合条件的最优路径。

在车辆路径规划中，将所规划路径经过路网栅格的个数作为路径长度的计算依据。另外要完成的主要任务是能够从起始点到达终点，即成功规划路径，也就是路径规划算法的求得最优解概率p。

我们将在多次求解最短路径过程中，能够成功求解出最优路径占所有求解次数的比例叫做求得最优解概率。

在实际应用中，由于障碍和交通网络的时变性等复杂原因，并不是每次都能求得最优解，因此求得最优解概率是评价一种路径规划算法的重要指标。即使求得从起始点到终点的路径，这条路径的代价也是十分重要的参数，在不同应用场景下，这种代价的含义并不完全相同。

在成功规划的路径中，根据实际需要，可以分别将实际行驶路程最短，实际行驶时间最短，转弯数最少和实际油耗最低等代价参数作为最优路径的判定依据，本发明中这些参数都可以通过换算转换为虚拟等价比的计算。

在实际路网中，由于城市建设，桥和地下通道等都会设置不同级别的限高标准，对于不同高度的限高障碍，在路径规划中，根据智能驾驶车辆的高度，我们将车辆通过这些限高障碍的时间分别转换为不同虚拟等价增比，来选择最佳路径，由于假定智能驾驶车辆匀速行驶，因此可以直接转换为行驶距离的换算。同样的，对于不同等级的交通事故和堵车严重情况，分别设置不同预估绕行距离l_est，而这个预估绕行距离和无障碍通过距离l之间也满足：

如表1所示，需要指出的是，这只是为了研究而根据经验设置的合理范围内的参考值，在实际应用中，强化学习策略的不断学习和更正可以更好的修正甚至固定不同等级的障碍通过时的虚拟等价增比值在一个更合理的范围内。

表1不同障碍对应虚拟等价增比设置

本发明中我们将最佳路径的判定转换为虚拟等价增比的换算和绕开障碍所需转弯数量来判定。

第3.2.1、对于最短路径算法的优化

以栅格思想路径规划为基础的算法目前有很多，包括A*，D*，D*Lite等等，其中A*可以进行计算已知两点间的相对快速计算。但是基于栅格的A*路径规划算法存在一个问题，其立足于栅格的中心点，在状态空间中作为节点是能够被搜索的。但路径搜索方向会产生限定，这样求解最终产生的路径实际上不是最优的，就路径长度而言也并非属于最短的，存在大量的转弯及大量的折点。而A*算法的优点是它将Dijkstra算法和BFS算法的信息块结合起来，将从初始节点到任意节点n的代价g(n)与从节点n到目标点的启发式评估代价h(n)结合起来评价当前节点，其评价函数为：

f(n)＝g(n)+h(n) (22)

式中：f(n)表示从初始点经由节点n到达目标点的估价函数；g(n)表示从初始节点到n节点的实际代价；h(n)则代表当前节点n至目标节点路径的预算代价，它在评价函数中起关键性作用，决定了A*算法效率的高低。A*算法可以结合具体路径规划要达到的目的，设计与之相适应的启发函数，从而使搜索方向越来越接近目标状态。A*算法寻找路径过程如下：

(1)在open表纳入起点，close表纳入障碍点。

(2)选取open表中具有最小f值的节点n，将其纳入close表。

(3)判断n是否为目标点，若n是目标点，则根据它的前向指针生成最优路径；若n不是目标点，则扩展节点n，生成后继节点m。

(4)在open表中建立从后继节点m返回到n的指针，计算f(m)＝g(m)+h(m)。

(5)增加判断语句来判断open表中是否已有节点m，如果判断失败，就应在open表纳入m；若判断成功，则比较拥有不同前向指针的f(m)值的大小，选取较小的f(m)值。

(6)更新g(m)，f(m)以及后继节点m的前向指针。

(7)按照数值大小的正序排列，把f值在open表中进行重新排序，并返回步骤(2)。

而在本发明中使用A*算法时，我们结合全局路网，将算法步骤(2)进行优化设计，当表中具有最小f值的节点多于一个选择时，我们加入备选节点与初始点和目的节点连接点距离的计算，优先考虑选取距离值较小者。而在算法步骤(2)开始前，这条连接线也将对A*算法本身设置的八个连续搜索方向进行条件限制，尝试忽略与连接线方向夹角较大的四个方向的计算，只搜索包含起始点和终点连线方向的四个方向，这样虽然在对每个节点的下一节点备选节点选择时虽然增加了计算量，但是通过实验表明在算法整体上，仍然简化了计算量，提高算法的计算效率，这将在接下来的实验中给出证明。

其搜索优化部分伪代码如下：

while tempstrcmp(fieldpointers{posind},'S')％当查询到的点不是起点时

setpointers(setOpen(I))＝movementdirections(jj)；％更新此点的方向

if(jj-ii>0)％如果获得该点的来源点方向为坐标正方向

case'R'

px＝px+1；％搜索方向坐标右移，即正向移动

case'U'

py＝py-1；％搜索方向坐标上移，即正向移动

elseif(jj-ii<0)％如果获得该点的来源点方向为坐标负方向

case'L'

px＝px-1；％搜索方向坐标左移，即负向移动

case'D'

py＝py+1；％搜索方向坐标下移，即负向移动

end

如果在行进过程中，车辆控制器遇到障碍栅格，首先判断是否属于先验知识存储，根据遇到栅格的障碍参数与存储障碍参数进行对比：

如果两组参数符合属于关系，则按照已经学习和记录的趋势采取措施躲避，并对这种操作的反馈进行加权，即对良性操作进行反馈权重增加；

如果两组参数不符合属于关系，记为新的障碍，则分别调用障碍栅格属性对应的子算法，进行不同情景下的试错过程。

每一次试错过程首先根据Q-learning算法按照未知环境执行，即当车辆控制器检测到栅格障碍，根据在当前状态下，根据贪心策略进行动作选择，执行一个动作，并获得经验知识，得到下一状态和瞬时奖赏，根据迭代规则更新状态动作对的值，直至达到目标状态，完成试错过程。

其执行判断过程伪代码如下：

[temp,ii]＝min(setOpenCosts+setOpenHeuristics)；％从OPEN表中选择花费最低的点

if(ii>＝1&&ii<＝length(setOpen))％temp在先验知识中训练过

setOpen＝[setOpen(1:ii-1)；setOpen(ii+1:end)]；

setOpenCosts＝setOpenCosts(ii:end)+1；％反馈权重增加

ri＝Virtualincrease(ii,goali,n,N)；调用的计算子算法

else％temp没有训练过

setOpen＝setOpen(1:end-1)；

setOpenCosts＝setOpenCosts(ii:end)-1；％反馈权重减小

end

调用子算法为计算虚拟等价增比的过程，即：

function r＝Virtualincrease(ii,goali,n,N)

r＝(goali-ii)/ii+(N-n)/n_i*1/3；

end

第4、选择和判定最优路径，到达终点；

当进行路程最优路径选择时，所规划路径途径栅格数多少作为路径优劣的判断标准。

因为在路径规划过程中，车辆并未实际行进，因此无法获得实际行驶路程，但是在路网栅格化部分已经介绍过，栅格的大小是固定的，因此我们可以将实际规划路径的路程长短等价为所规划路径途径栅格数量进行比较，虽然不能直接指示出路程的具体数值，但是可以准确判断出此条件下的最短路程路径即为栅格数计数最小的路径。

在进行包含不可预见参数的情况下(包括拥堵，限行，事故情况下的油耗，时间等)，根据参数设定中的预估值进行虚拟等价比计算，并依据此作为最优路径的判定标准。

本发明中设计的局部优化方法，在未知环境下，智能驾驶车辆通过传感器获得环境信息，实时调整和选择一条无碰撞的最优路径。在实际应用中，为了降低工作量，我们可以考虑车辆先以最短路径算法计算的初始路径正常进行，当发现障碍并识别和处理后，重新规划路径。实际上，传统的A*算法虽然能够很好的解决最短路径寻找问题，但是在未知的环境下，单纯靠最短路径算法并不能实现智能驾驶车辆的路径规划和优化，因此我们设计这种基于强化学习和最短路径算法的最优路径选择策略。首先通过智能驾驶车辆控制器进行基于先验知识的强化学习训练，通过缩小状态集计算时间，加快强化学习算法的收敛速度，减轻因大量样本学习和训练造成的时间耗费。然后通过车辆的传感器系统在未知环境下的不断与环境交互获得反馈，根据强化学习算法获取相应的动作指示，在避开障碍的同时，按照选择的参考标准，沿着最短路径算法的路径行进，而这种参考标准都可以通过虚拟等价增比换算为实际的数值进行对比，实现从起始点到终点的优化路径选择。

需要说明的是，此处的预估值是初始的，随着算法的进行，强化学习策略会不断定时的更新参考预估值，以调整到合理的范围内，因此在使用算法时，我们以初始时预估值进行判断，但是当数值更新时，以更新的数值计算更为准确。

仿真过程将在MATLAB平台上分两个部分进行，第一部分首先对所设计算法进行路径规划和障碍躲避功能进行证明；第二部分将先对在设置了障碍的相同环境下，相同起始点之间进行路径规划，对比几种算法在同等环境下所规划路径的差异。仿真测试主要测量参数包括：

(1)算法收敛速度；

(2)相同条件下不同算法规划路径的长度与转弯数量；

(3)求得最优解概率P；

(4)虚拟等价增比

(5)算法运行时间。

参数设置如表2所示：

表2参数设置

实验一：经过多次仿真实验，为了更好的展示和说明效果，本发明将首先在35*35的栅格中，对本发明算法从起始点到终点的路径规划进行仿真实验，证明算法的可行性，然后再设置随机障碍，且障碍栅格百分比先设置为5％。得到仿真结果分别如附图3所示。

从附图3中可以看出，在未设置障碍时，本算法可以成功规划出从起点到终点的路径，且该路径十分近似起点和终点的直线连接线，但稍有偏离，原因主要是因为在实际行驶中，车辆很多条件限制，不是每次都能沿着起点和终点的直线连接线直接行驶，因此为了尽量缩短路程，本设计中的算法规划的路径在趋势上与起点和终点的直线连接线十分靠近，但也能避开不能直接行驶区域行驶。实验中添加了随机障碍的情况仿真结果，从图中可以看出，虽然随机生成了很多障碍，占据了部分栅格，导致最短路径规划算法必须躲避这些区域，但是本算法可以成功躲避这些区域，规划出一条趋近于从起点到终点最短连线的路径，虽然转弯情况明显增多，但是在接下来的多次仿真实验中，我们将验证这样的路径与其他算法相比仍存在的优势。

实验二：这一部分仿真实验将针对本发明算法与传统的路径规划算法：ACO算法，GA算法，ANNs算法和PSO算法进行比较，对设定起始点和终点的情况使用几种算法分别进行路径规划。实验将针对几种算法在收敛状况方面进行对比分析，其仿真实验结果如附图4-附图8所示。

上述实验结果中，纵坐标为算法运行中最短路径时的路径长度变化，横坐标表示迭代次数。从以上实验结果可以看出，几种算法在整体上都呈现收敛趋势，虽然在计算开始时，都存在波动，但随着计算进行，随机搜索数量也来越少，使最优路径长度趋于稳定，最后都达到收敛的效果。除了PSO算法以外其它几种算法虽然也都可以在多次迭代以后达到收敛，只是达到收敛的迭代次数明显要多于本发明算法，而且从实验结果可以看出ACO算法在收敛以后存在一定的不稳定性。本发明提出的OPABRL算法虽然前期波动比较明显，但是随着迭代进行，可以在同样实验环境下较早收敛在最短路径结果上，并保持很好的稳定性。

为了更好展示实验结果，将本发明算法分别与上述几种算法在同样环境下所规划路径对比，实验结果如附图9所示。

从以上实验结果可以看出，与几种传统算法相比，本发明提出的OPABRL算法能够规划出长度和转弯数都相对较少的更为合理的路径。为了更好地展示仿真实验结果，我们将几种算法在不同规模网络下(仅改变节点数目，障碍比例不变)的路径规划仿真实验结果进行对比，具体情况如附图10，11所示。

附图10和附图11为不同网络规模下的几种算法所规划路径对比结果，其中附图10展示了在不同网络规模下，几种算法规划路径的平均转弯数。其中横坐标为节点数目N，此时网络规模大小为N×N，网络中随机障碍的比例仍为0.5，而所展示数据为对不同参数设置情况下，20次重复实验的平均值。从图中可以明显看出本问所提出算法多次仿真中，所规划路径能明显减少行驶转弯的数目，优化路径成本。

附图11为几种算法规划路径长度在不同网络规模时的对比情况，同样，其中所展示数据仍为不同参数设置时20次重复实验的平均值。由图中可以看出，在网络规模较小时，几种算法所规划路径虽然各有不同，但差距不大，但是随着网络规模的增大，本发明算法在路径长度的规划方面的优势逐渐变得明显，这种趋势充分说明了本算法将在越大的网络中表现出越大的优势，由于实际的交通网络是大而复杂的，这也从侧面说明了本算法的实用性。

表3展示了在网络大小为35×35的多次仿真实验中，对几种算法平均求得最优解的概率进行的统计，并根据式(7)对几种算法的虚拟等待时间增比进行对比。从表中数据可以看出，本发明算法在求得最优解概率和虚拟时间增比方面，都有很好的优势，相比其他几种算法，本发明算法能够在较小的虚拟时间增比下，求解出最优路径，并能在绝大多数情况下求得最优解，规划出最优路径。

表3不同算法对比情况

接下来对几种算法在运行时间方面进行对比，因为在实际应用中，衡量路径算法的指标除了所规划路径的行驶时间和长度等，还应包含算法本身在使用时的运行时间。接下来我们针对不同网络大小情况下几种算法规划路径运行时间随网络节点变化的改变情况，实验结果如附图12所示。

由上图所示实验结果可以看出随着网络节点数的增加，几种算法的运行时间都会呈现出相应的增长趋势，这是由于拓扑结构带来的固有时间消耗。初始时，因为节点数目少，网络结构简单，种算法都表现出较好的性能，能够在较短时间内计算出结果，随着网络节点增加，几种算法的计算时间开始增加，并且增加速度会加快，这是由于此时网络节点的增加，不仅会增大算法整体需要搜索的范围，也会增加每个节点可选的下一节点的数量。而另一个主要的原因是在复杂的网络中，考虑路网中存在障碍时，算法需要判断增加的网络节点处于安全或非安全栅格，这会大大增加算法的运行时间。而当节点数增加到一定数量时，算法时间虽然都又继续增加，但增加的速度明显减慢，这是由于算法在当前网络规模下，可以自动将搜索的方向，也就是每一加入最短路径的节点向下一节点行进的方向，智能的与起点和终点连接线的方向相一致，所以搜索时间不再像之前一样迅速增加。当网络达到一定规模后，几种算法的计算时间会逐渐趋于稳定，不再随着节点数增加而增加，这是由于遗传算法和蚁群算法的本身特性决定的，这两种算法具有生物基因特性，当需要搜索的范围过大时，各参数对计算结果的影响减弱，计算结果会趋于一个平稳范围。而本发明算法OPABRL在搜索范围增大到一定程度时，由于基于先验知识的强化学习算法一直进行，会使得后面的搜索工作中随机性操作减少，而直接判断并规划节点是否属于可行节点，因此其计算明显少于其他几种算法。从实验结果分析，本发明算法的运行时间可以在数值上明显优于其它几种算法。随着搜索进行，直到绝大多数可能的障碍都被强化学习算法归为先验知识，OPABRL算法则也呈现出计算时间趋于平稳的趋势，表现出良好的实用性和高效性。

附图13为天津市某区域的截取地图网络，我们将路网进行标注，在从劝业场街(A点)至天津现代城(K点)的路径规划中，我们将其中可能用到的节点分别进行标记，可以发现途中有多种路径选择，包括：

(1)A-B-E-F-H-I-K；

(2)A-C-G-H-I-K；

(3)A-C-D-J-I-K；

(4)A-B-D-J-I-K；

(5)A-B-E-G-J-I-K；

(6)A-C-G-J-I-K；

而根据经验，锦州道段(E-G-J)部分多为拥堵路段，所以包含此路段的路径在规划的选择中将按照拥堵程度设置为障碍区域，在路径规划中会绕开此区域；另外像(6)这样的路径由于转弯数过多，也不会被作为首选选择，这样的优化可以通过基于先验知识的强化学习策略直接实现。经过强化学习策略的筛选，前三条路径会作为最优路径选择，接下来需要按照用户要求，选择路程较短或者代价较小的一条作为最优路径，其中代价可以按照不同要求，分别换算成综合代价作为选择的标准。本发明中在算法设计部分将给出对应的参数设置，在使用本算法进行路径规划时可以直接按照设置参数作为不同最优路径选择的参考参数。

智能驾驶车辆的应用领域十分广阔，其并不局限于城市智慧交通或恶劣环境运输和探索等情况，而对未知环境信息路径的规划是智能驾驶车辆研究的重点问题，我们设计并研究智能驾驶车辆的路径规划算法，起目的也是为了让智能驾驶车辆更好的应用在实际场景中。因此经过多次仿真实验和对结果进行分析后，我们将OPABRL算法在设置场景中进行实验测试，以验证该算法的实用性和可行性以及其它性能。我们通过进行路径规划的实验，证明本算法规划路径在长度，转弯数，运行时间以及时延方面的优势。

在天津理工大学主校区校内路段随机选取约500m×500m区域内，设置所有路口都可以转弯和双向行驶，所有行人，建筑物，车辆等交通参与者均为障碍物，需躲避行驶。我们测试几种算法规划从附图14所示实际地图测试区域中起点11号教学楼到终点化学化工学院的路径情况。

测试路径规划结果如附图15所示，几种算法都能够合理规划出从起点到达终点的路径。其中可以直观看出本发明算法所规划路径的合理性和实用性，其他几种算法虽然也可以规划出从起点到达终点的路径，但是对于障碍区域(标记黑色×处)的绕行方面存在劣势。在测试中，由于实际情况所限，道路结构并不复杂，因此会有路径重叠的情况，因此我们将通过实验数据对几种算法规划路径的情况进行说明和分析。

附图16和附图17分别为几种算法在实验中的测量结果，其中附图16为几种算法所规划路径的长度对比，附图17为几种算法规划路径转弯数与成功躲避的障碍情况结果。由这两图所示结果可以明显看出本发明所示算法具有明显的优势，这种算法即使在简单网络中也能尽量减少转弯数，并能规划出避开障碍后的最优路径。需要说明的是由于实验环境所限，虽然算法能够成功躲避行人，车辆等障碍，但在本实验中并不需要重新规划路径，只在多车道情况下避开障碍，稍弯曲行驶即可，整体路径不会体现明显重新规划情形。而在前面的仿真实验中我们已经证实本算法在越大网络中将体现出更加明显的优势，因此可以推测在实际的复杂道路交通网络中，本算法将表现出更好的实用性和优越性。

附图18为几种算法运行时间对比，由于环境所限，几种算法在运行时间上没有表现出明显过大的差距，但从结果中仍然可以明显看出本发明算法在较短时间计算出了优化的行驶路径，体现了算法本身的优越性。

表4记录了几种算法在实验中测得用于计算虚拟等价增比，从表中可以看出，本发明算法在实际测验中，表现出良好的特性，根据定理1，本发明算法能够以较小的虚拟等价增比，规划出行驶路径，这为算法的实际应用提供了很好的依据。具体如表4所示：

表4算法虚拟等价增比

Claims

1.一种基于机器学习策略的距离优先最佳路径选择方法，其特征在于包括如下步骤：

第3.1、对所规划范围区域进行栅格化，建立网络拓扑；

第3.1.1、对于车辆行驶的区域进行边界学习；

第3.2.1、对于最短路径算法的优化；

第4、选择和判定最优路径，到达终点。

2.根据权利要求1所述的基于机器学习策略的距离优先最佳路径选择方法，其特征在第1步所述的强化学习先验知识训练的部分与第3.1步所述对规划范围区域进行栅格化，建立网络拓扑部分在逻辑上可以并列进行，但是因为在算法运行过程中，不涉及整体的学习过程，只应用其结果并不断更新和完善先验数据，因此可以将第1步的先验知识学习训练的部分先单独进行，然后在算法运行过程中，通过更新参考预估值来进行不断的调整，以此对数据进行定时的更新。