CN110081893A

CN110081893A - 一种基于策略重用和强化学习的导航路径规划方法

Info

Publication number: CN110081893A
Application number: CN201910255926.8A
Authority: CN
Inventors: 郝建业; 王汉超; 侯韩旭
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-08-02
Anticipated expiration: 2039-04-01
Also published as: CN110081893B

Abstract

一种基于策略重用和强化学习的导航路径规划方法，它属于导航路径规划技术领域。本发明解决了现有方法对源策略的重用不充分的问题。本发明引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构，实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法，本发明的算法ARES‑TL采用了基于策略重用的强化学习算法，并实时更新完整的策略库，通过占用一些空间存储策略库来节约算法时间，且强化学习算法能应对在线微量更新的地图，同时相对于同类型的策略重用方法，本发明的算法ARES‑TL相对于PRQL以及OPS‑TL规避了对不相干的源策略的重用导致的负迁移，提高了探索效率且能准确地完成导航任务。本发明可以应用于导航路径规划技术领域。

Description

一种基于策略重用和强化学习的导航路径规划方法

技术领域

本发明属于导航路径规划技术领域，具体涉及一种导航路径规划方法。

背景技术

导航路径规划是导航系统的重要组成部分，其应用体现在自动驾驶以及物流运输等领域。导航路径规划的目的是在给定的路网地图下，计算出起始位置以及目标位置之间连通的一条最短路径。在实际应用中，导航路径规划算法对于给定的路网以及目标位置可以生成一个对应的导航策略，导航策略能够通过已有的知识给出在实时位置的行进方向。现有的导航系统一般通过确定的动态规划方法来实现路径规划，常见的方法包括Dijkstra算法，Floyd算法以及A*算法等。然而。这些确定性的算法在针对规模较大的问题时复杂度较高，且不能针对动态路网计算生成实时的行走路径。因此，导航路径规划算法需要提高其自学习能力和自适应性以面对不确定的路网环境。

在人工智能领域中，强化学习(Reinforcement Learning，RL)是解决序贯决策问题的一个重要框架。其优点体现在对环境的自适应性以及很少依赖人类经验的自学习能力，适合作为解决导航路径规划问题的新的算法框架。然而，强化学习中智能体(Agent)若不借助人类或历史的经验，从零开始学习(learning from tabula rasa)到完成困难的目标任务(例如前往未到过目标位置)通常很缓慢。

一般的思路是通过迁移学习(Transfer Learning)来借助历史经验来帮助强化学习提升学习效率，可以使强化学习智能体能够对环境有更广泛地认识和更有效地探索。在导航领域中，对于固定或有细微变化的路网地图内容，利用迁移学习可以免去对不同目标位置的路径规划中对于基本路网信息相关知识的重复训练,能够节约训练时间从而更快地提供所需路径的导航策略。

策略重用作为一种迁移学习方法，通过重用过去的类似学习策略来加速新任务的强化学习过程。关于策略重用的现有研究包括再利用专家的建议，以奖励形成方式定义政策模拟集，将策略选择模型化为贝叶斯最优化问题，以及通过重用实例来估计奖励函数从而将源任务的经验实例迁移到目标任务等。然而这些方法还需要更多的额外知识来迁移源策略。Fernandez和Veloso提出了策略重用(Policy Reuse Q-Learning，PRQL)方法和策略库重构(Policy Library through Policy Reuse，PLPR)方法。其中：PRQL引入了用于促进探索的先前策略的库，使得包含车辆导航系统在内的智能体(Agent)能够快速收集相关信息而加速学习。然而负迁移的存在使得PRQL可能收敛到次优策略。而PLPR构建一个没有明确理论保证的政策库。之后出现了对PRQL的策略选择进行优化的方法(OPS-TL)，该方法借鉴了解决多臂赌博机(Multi-Armed Bandits，MAB)问题的UCB1方法在线学习。然而OPS-TL需要更多的性能反馈来评估选择源，这需要一段时间来锁定早已了解的合适的策略，并且还需要人工设置学习率以达到一定时间后的独立学习。

由于现有方法在重用策略时采取了步步趋离的方式，且其后期的学习率很低，导致现有方法对源策略的重用很不充分。

发明内容

本发明的目的是为了解决现有方法对源策略的重用不充分的问题。

本发明为解决上述技术问题采取的技术方案是：一种基于策略重用和强化学习的导航路径规划方法，该方法包括以下步骤：

步骤一、选取当前路网地图对应的策略库，计算策略库中未包含关键地图位置的源策略的重要状态；

步骤二、设置最大训练周期的个数为K，利用置信度从策略库的源策略中选取出重用策略，并对自身策略或选取出的重用策略进行重用；

步骤三、策略重用获得的新策略通过强化学习进行更新，获得更新后的新策略；

步骤四、判断是否将更新后的新策略加入策略库中，若加入，则获得新的策略库继续用于导航路径规划；若不加入，则将原策略库继续用于导航路径规划。

本发明的有益效果是：本发明的一种基于策略库的策略重用和强化学习的导航路径规划方法，本发明引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构，实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法，本发明的算法ARES-TL采用了基于策略重用的强化学习算法，并实时更新完整的策略库，通过占用一些空间存储策略库来节约算法时间，且强化学习算法能应对在线微量更新的地图，同时相对于同类型的策略重用方法，本发明的算法ARES-TL相对于PRQL以及OPS-TL规避了对不相干的源策略的重用导致的负迁移，提高了探索效率且能准确地完成导航任务。

附图说明

图1是各任务在环境Gridworld2006的分布图；

图2是任务1的C函数归一化后分布的可视化图；

图3是任务2的C函数归一化后分布的可视化图；

图4是任务3的C函数归一化后分布的可视化图；

图5是任务4的C函数归一化后分布的可视化图；

图6是任务46的C函数归一化后分布的可视化图；

图7是任务29的C函数归一化后分布的可视化图；

图8是策略库包含相似源任务的情况下，ε-greedy，PRQL，OPS-TL，ARQL和ARES-TL五种方法的累积折合收益对比图；

图9是策略库不包含相似源任务的情况下，ε-greedy，PRQL，OPS-TL，ARQL和ARES-TL五种方法的累积折合收益对比图；

图10是策略库包含相似源任务的情况下，任务1、2、3、4在PRQL方法下对源任务的重用频率对比图；

图11是策略库包含相似源任务的情况下，任务1、2、3、4在OPS-TL方法下对源任务的重用频率对比图；

图12是策略库包含相似源任务的情况下，任务1、2、3、4在ARQL方法下对源任务的重用频率对比图；

图13是策略库包含相似源任务的情况下，任务1、2、3、4在ARES-TL方法下对源任务的重用频率对比图；

图14是策略库不包含相似源任务的情况下，任务1、2、3、4在PRQL方法下对源任务的重用频率对比图；

图15是策略库不包含相似源任务的情况下，任务1、2、3、4在OPS-TL方法下对源任务的重用频率对比图；

图16是策略库不包含相似源任务的情况下，任务1、2、3、4在ARQL方法下对源任务的重用频率对比图；

图17是策略库不包含相似源任务的情况下，任务1、2、3、4在ARES-TL方法下对源任务的重用频率对比图。

具体实施方式

具体实施方式一：本实施方式所述的一种基于策略重用和强化学习的导航路径规划方法，该方法包括以下步骤：

步骤二、设置最大训练周期的个数为K(K可以设置大一些，实际达到自学习条件则自动跳出不再进行策略重用)，利用置信度从策略库的源策略中选取出重用策略，并对自身策略或选取出的重用策略进行重用；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一的具体过程为：

选取当前路网地图对应的策略库，对于策略库中未包含关键地图位置(重要状态)的源策略，则需要计算未包含关键地图位置的源策略的重要状态；

对于需要计算重要状态的任一源策略，初始化浮动阈值θ＝0，再进入M’(M’≥8，较小)个策略执行周期，每个策略执行周期的第一步均选取路网地图的一个边缘位置作为初始状态s₀(前八个可以取路网地图的八个方向的边缘位置作为初始状态)，对于每个策略执行周期的第t步，车辆导航系统的当前状态为s_t-1，选取使得数值函数Q(s_t-1,a)值最大的动作a_t来行动到达s_t，并在第t+1步判断s_t是否为更新重要状态，若

其中：s_t为第t+1步车辆导航系统的当前状态；C(s_t)为状态s_t上的数值函数，C(s_t+1)为状态s_t+1上的数值函数，C(s_t-1)为状态s_t-1上的数值函数；

则将源策略的临时的重要状态更新为s_t，并更新θ：

M’个策略执行周期结束后，将最终保留下来的临时的重要状态作为该源策略的重要状态

同理，计算出全部的需要计算重要状态的源策略的重要状态。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤二的具体过程为：

源策略的选择考量了策略库中各个策略的状态值函数，并实时基于置信度变化将策略库中的一些策略从备选策略排除：

步骤二一、在第一个训练周期将各个源策略π_k的初始置信度p_k均设置为0.5；对于之后的每一个训练周期，各个源策略π_k的置信度将通过在前一个训练周期车辆导航系统是否达到目标位置s_G且通过源策略π_k的重要状态来确定，如式(3)所示：

其中：I_k代表判决条件；

设τ′为上一训练周期包含所有经过的状态的一条轨迹，则有：

s_G∈τ′且代表上一训练周期达到目标位置s_G且通过源策略π_k的重要状态

显然，当I_k＝1时，该源策略的置信度就会增加，反之，置信度会衰减；

每一个训练周期开始，若某源策略的置信度低于最高置信度的源策略的置信度max_k(p_k)的一半时，则置信度低于max_k(p_k)的一半的源策略将不再作为备选源策略重用于当前任务；

步骤二二、继续在剩余的备选源策略中选取，若第n-1个训练周期的轨迹τ_n-1达到任务终止状态s_G(当前导航任务的目标位置)且经过至少一个备选源策略的重要状态，则取τ_n-1中从s_G开始到最后一个重要状态期间所经过的所有状态组成的集合S_n-1，且集合S_n-1中包含s_G和分别计算出每个源策略π_k在集合S_n-1中所有状态上的C值的均值

若中最大的值超过阈值(由于数值函数C已经在其定义域S(包含所有状态的集合)上归一化了，一般设置为状态数的倒数，则取使最大的k对应的源策略π_k作为重用策略π′；若第n-1个训练周期的轨迹τ_n-1未达到任务终止状态s_G和任何备选源策略的重要状态，或求得的中最大的值未超过阈值则依次取各源策略以及自身策略作为重用策略π′；

步骤二三、每个训练周期均对当前训练周期内选定的重用策略π′进行重用，设置最大限定步数为H，第一步迭代开始时随机选取路网地图的一个位置作为初始状态s₀′，每一步迭代车辆导航系统均将执行一个动作；

迭代过程中车辆导航系统的探索行为分为以下两种情况：

若以源策略作为重用策略且还未到达该源策略的重要状态，则选取使得选定的重用策略的状态-动作值函数Q(s_h-1,a)值最大的动作；

若以自身策略作为重用策略或以源策略作为重用策略且该策略的重要状态在当前训练周期已经经过，则依概率∈(0<∈<1，∈一般设置为0.95)选取使得自身策略的状态-动作值函数Q(s_h-1,a)值最大的动作，或依概率(1-∈)随机选择一个动作；

每一步迭代均获得对自身策略更新后的策略，每一步迭代都对更新后策略的Q函数和C函数进行处理；

对于第h步迭代，车辆导航系统的当前状态为s_h-1，经过选择的动作a_h-1到达s_h，并得到一个收益r_h，每一步迭代中更新Q值、并预更新C值：

C′(s_h)←(1-α)C(s_h)+α·C(s_h-1)+1 (8)

其中：γ是折扣因子，取值为[0,1]；α为更新步长，C′函数对于重复经过的状态只在第一次经过时进行预备更新，且在当前训练周期到达目的位置时候才将C′函数的值直接赋值给C，作为正式对C的更新；

当到达终止状态或达到最大限定步数H后，停止当前训练周期；

若经过K’个训练周期(K’与地图大小有关，实验设置|S|为路网地图划分的区块对应的状态数)，备选策略数目仍然多于一个，则跳出步骤二直接执行步骤三；

若已经持续重用某一源策略超过K’个训练周期且最近K’个训练周期达到目标位置的次数占比不高于或不低于则跳出步骤二直接执行步骤三；否则继续步骤二的下一个训练周期，直至跳出步骤二来执行步骤三；

若步骤二的训练周期已经达到K步，则跳出步骤二来执行步骤三。

具体实施方式四：本实施方式与具体实施方式一不同的是：所述步骤三的具体实现过程为：

对策略重用获得的新策略进行强化学习，每个训练周期的最大迭代步数为H步，每个训练周期开始时随机选取路网地图的一个位置作为初始状态s₀″，在第h步车辆导航系统的当前状态s_h-1下，依概率∈选取使得自身策略的状态-动作值函数Q(s_h-1,a)值最大的动作且依概率(1-∈)随机选择一个动作，并经过选择的动作a_h-1到达s_h，得到一个收益r_h，在每一步中更新Q值，并预更新C值，更新方式与式(7)和式(8)相同：

C′(s_h)←(1-α)C(s_h)+α·C(s_h-1)+1 (8)

若步数超过H或车辆导航系统到达终止状态，则跳出当前周期；

设ε＝0.001，若Q函数值满足收敛条件：

max_s,a(|Q_n(s,a)-Q′_n-N′(s,a)|)≤ε (9)

Q_n(s,a)代表第n个训练周期更新后的Q值,Q′_n-N′(s,a)代表第n-N′个训练周期更新后的Q值；

Q函数值满足收敛条件后得到训练好的Q函数，从真实环境的当前位置出发依次按照各个位置s上使得函数Q(s,a)最大的动作a行动，并到达终止状态跳出步骤三进入步骤四；否则继续步骤三的下一个周期；

结束步骤三后即获得更新后的新策略。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述判断是否将更新后的新策略加入策略库中，其具体过程为：

单向KL散度方法(uni-PLKL)和双向KL散度方法(bi-PLKL)，两者均借助各策略对应的C函数分布的KL散度(相对熵)来表示其策略之间的不相似程度，单向KL散度方法将与所有源策略均不相似的新策略加入策略库，双向KL散度方法进一步依据KL散度的不对称性来对源策略库的某些代表性弱的策略进行替换。

不失一般性，对于导航对象在路网地图的不同拓扑位置的集合S，可以将其看作对强化学习环境中所有可能的离散状态s的集合，C函数是定义在S内各个状态s上的一个分布值函数。将训练好的C函数对应在新策略和原策略上分别记作C_task和C_source；

计算源策略相对于更新后的新策略的KL散度D_KL来判定源策略是否能够代表更新后的新策略，如式(10)所示:

式(10)中D_KL值越大，越表明源策略不能代表更新后的新策略，当D_KL超过设定阈值δ，单向KL散度方法决定将更新后的新策略加入策略库中；

计算更新后的新策略相对于源策略的KL散度D_KL-inv来判定更新后的新策略是否能代表源策略，如式(11)所示:

式(11)中D_KL-inv值越小，表示更新后的新策略能够替代源策略，当D_KL值超过设定阈值δ，而DK_L-inv值却低于设定阈值δ时，决定用更新后的新策略替换掉策略库中代表性弱的源策略。

实验设置

本发明采用格子世界(Gridworld)是作为导航路径规划问题的模拟实验环境，这个环境由n个相同大小的方格子组成(多组成为大的矩形)，其对应到马尔科夫决策过程:每个格子为一个状态s，每个格子到相邻格子的过程为一个动作a，每执行一次动作根据新的格子的属性给予一个回报r。为便于对比，本发明的格子世界取2006年Fernando用的只有普通，墙壁，终点这三类格子属性的格子世界。格子世界唯一目标就是更快地到达终点。在迁移强化学习中一般认为每个终点对应一个任务task，考虑到算法的泛化性，有4个实验假设。为了对接下来的实验有个直观的认识，本发明对接下来的实验环境Grid2006进行task编号，并采用1，2，3，4号任务作为源策略组成策略库，采用46号作为策略重用的正向对比图,采用29号(没有合适的源策略)作为实验的逆向对比图,各个任务在环境Gridworld2006的分布如图1所示；

实验假设

车辆导航系统在环境运动过程中不能确定下一个状态和对应的回报；

车辆导航系统不知任意两个格子的相对距离(曼哈顿距离，L1-范数)；

车辆导航系统不知每次任务终点的绝对位置(只有到达终点才知道)；

所将到达的新状态只与当前状态以及所执行的动作有关；

第一组实验对一些代表性策略的C函数归一化后分布进行可视化，以表明C函数引入的是否有效。

第二组实验分别对比ε-greedy，PRQL，OPS-TL，ARQL和ARES-TL这五种方法在在学习新任务时的表现，新任务分为与源策略库中有适合策略的任务和完全独立的任务两种情况。

第三组实验主要通过比较生成的策略库对环境结构的表示来评价算法的有效性。实验分别采取基于单向KL散度的策略库更新方法和基于双向KL散度的策略库重构方法，依次学习任务1至50，观察两者得到的最终的源策略库并与PLPR方法的结果作对比分析。

实验结果

对于重要值函数C表有效性的可视化分析：

本发明对源策略对应的任务1,2,3,4和两个实验策略的任务46，29的C函数归一化后分布进行可视化(其中越深，表示状态越重要)，可视化图见图2-7所示：

从图2-7的六个Cout子图就可以看出Task 5的C值的重要状态分布与Task 2很大程度的接近(深色区域)，而Task 6的C值的重要状态分布比较独立，与源任务哪个都不相同，故不应该完全重用源策略或直接放弃迁移学习这个方法(若不一定程度可能导致出现负迁移)。

对两种新任务在各种策略重用方法中的学习效果验证：

本发明实验中对比ε-greedy，PRQL，OPS-TL，ARQL和ARES-TL这五种方法在策略库中有无合适策略两种情况下的表现，采用1，2，3，4号任务作为源策略组成策略库，采用46号作为存在其相似源策略的策略重用的目标任务，采用29号作为不存在相似源策略的典型目标任务，任务的位置分布见图1。本发明对目标任务学习的Q值和C值进行4000轮训练，并在每100轮时输出此时对应的整体累计折合收益的期望以及此时各个源任务在每100轮被重用的频率(ε-greedy不存在重用频率)，实验每个方法进行了10次取平均值，其方差大小用经过对应点的竖直的短线长度表示，如图8和9所示:

从图8可以看出以收益期望，起跳，以及收敛时间作为评价指标，均有较优顺序ARQL～ARES-TL>OPS>PRQL>ε-greedy。可以判断在有合适的源策略的情况下:ARQL和ARES-TL起跳很高，于2000轮左右便完全收敛。从图9可以看出以收益期望，起跳，以及收敛时间作为评价指标，均有较优顺序ε-greedy～ARES-TL～OPS-TL>ARQL>PRQL。同时可以看到AERS-TL最终基本接近ε-greedy。

从图10-13可以看出task 2在三个图中都是选取频率比较高的一项，这也与本发明策略重用的目的相一致，但是PRQL开始锁定最优策略较晚，故训练结果不如ARES-TL，ARQL和OPS-TL，同时OPS在500轮左右快速复用并丢弃了源策略task 2，这表明其学习源策略不是很完全。图14-17可以发现由于没有适合的源策略,过于锁定源策略的ARQL方法表现并不好。快速取舍的ARES-TL方法较快收敛于ε-greedy，说明对应源策略重要状态的C值做判断进行对源策略复用的取舍是可采用的。综合比较，ARES-TL表现最好。

对基于KL散度的策略库重构方法的效果验证

实验分别采取基于单向KL散度的策略库更新方法和基于双向KL散度的策略库重构方法依次处理50个任务，阈值均取δ＝49/90。实验得到：PLPR的构成的策略库的目标分布不一定均匀，出现两个源策略存在相同房间，同时有的房间没有源策略的情况，其生成策略库的渐进公式也不严格。单向KL散度和双向KL散度形成的策略库均很好地将各个房间的独特的策略进行了筛选，能够很好地帮助迁移到该环境下的一个新任务。其中：双向KL散度的结果更为平衡，但对应的双向算法耗时是单向的两倍。综合比较，本发明提出的基于C函数分布和其之间KL散度的两个重构策略库的方法都十分好，比PRQL的构建方式更具有稳定性和合理性。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于策略重用和强化学习的导航路径规划方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于策略重用和强化学习的导航路径规划方法，其特征在于，所述步骤一的具体过程为：

选取当前路网地图对应的策略库，对于策略库中未包含关键地图位置的源策略，则需要计算未包含关键地图位置的源策略的重要状态；

对于需要计算重要状态的任一源策略，初始化浮动阈值θ＝0，再进入M’个策略执行周期，每个策略执行周期的第一步均选取路网地图的一个边缘位置作为初始状态s₀，对于每个策略执行周期的第t步，车辆导航系统的当前状态为s_t-1，选取使得数值函数Q(s_t-1,a)值最大的动作a_t来行动到达s_t，并在第t+1步判断s_t是否为更新重要状态，若

则将源策略的临时的重要状态更新为s_t，并更新θ：

3.根据权利要求2所述的一种基于策略重用和强化学习的导航路径规划方法，其特征在于，所述步骤二的具体过程为：

其中：I_k代表判决条件；

步骤二二、继续在剩余的备选源策略中选取，若第n-1个训练周期的轨迹τ_n-1达到任务终止状态s_G且经过至少一个备选源策略的重要状态，则取τ_n-1中从s_G开始到最后一个重要状态期间所经过的所有状态组成的集合S_n-1，且集合S_n-1中包含s_G和分别计算出每个源策略π_k在集合S_n-1中所有状态上的C值的均值

若中最大的值超过阈值则取使最大的k对应的源策略π_k作为重用策略π′；若第n-1个训练周期的轨迹τ_n-1未达到任务终止状态s_G和任何备选源策略的重要状态，或求得的中最大的值未超过阈值则依次取各源策略以及自身策略作为重用策略π′；

迭代过程中车辆导航系统的探索行为分为以下两种情况：

若以自身策略作为重用策略或以源策略作为重用策略且该策略的重要状态在当前训练周期已经经过，则依概率∈选取使得自身策略的状态-动作值函数Q(s_h-1,a)值最大的动作，或依概率(1-∈)随机选择一个动作；

C′(s_h)←(1-α)C(s_h)+α·C(s_h-1)+1 (8)

若经过K’个训练周期，备选策略数目仍然多于一个，则跳出步骤二直接执行步骤三；

4.根据权利要求1所述的一种基于策略重用和强化学习的导航路径规划方法，其特征在于，所述步骤三的具体实现过程为：

C′(s_h)←(1-α)C(s_h)+α·C(s_h-1)+1 (8)

设ε＝0.001，若Q函数值满足收敛条件：

max_s,a(|Q_n(s,a)-Q′_n-N′(s,a)|)≤ε (9)

结束步骤三后即获得更新后的新策略。

5.根据权利要求4所述的一种基于策略重用和强化学习的导航路径规划方法，其特征在于，所述判断是否将更新后的新策略加入策略库中，其具体过程为：