CN112362066A

CN112362066A - 一种基于改进的深度强化学习的路径规划方法

Info

Publication number: CN112362066A
Application number: CN202011311727.3A
Authority: CN
Inventors: 杨宁; 赵可贺; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-12
Anticipated expiration: 2040-11-20
Also published as: CN112362066B

Abstract

本发明涉及一种基于改进的深度强化学习的路径规划方法，针对不同学习阶段对经验的深度和广度不同需求，提出了一种改进的学习策略，即深度Q网络采用密集网络框架计算Q值。在学习的初始阶段，创建经验值评估网络来增加深度经验的比例，以便更快地了解环境规则。当路径游荡现象发生时，使用并行探索结构来提高经验库的广度。另外，通过引用密集连接方法来改进网络结构，从而提高了网络的学习和表达能力。

Description

一种基于改进的深度强化学习的路径规划方法

技术领域

本发明属于用于导航的路径规划技术，涉及一种基于改进的深度强化学习的路径。

规划方法

背景技术

路径规划技术是导航的重要组成部分，它是机器人技术的核心研究。强化学习是通过智能体在环境中探索获得知识，在试错过程中进行学习，是机器学习领域的一个重要的分支。智能体在未知环境中缺乏环境相关的先验知识，这就要求其具有较强的灵活性与适应性来应对各种状况。同时智能体在路径规划过程中不可避免的会遇到各种障碍物，就要求所设计的路径规划方法能够灵活规划和对环境有一定的适应性，因此赋予智能体自主学习能力有非常重要的实际意义。学习新技能时，全面而多样的经验会有助于完善对新技能的掌握，被称为经验的深度和广度。

随着科学技术、特别是信息科学技术的迅猛发展，移动机器人在现实生活中扮演了越来越重要的角色。从简单的扫地机器人、机器人轮椅，到无人驾驶汽车，移动机器人的应用领域快速扩展。为了成功地完成各种工作任务，必须避免碰撞到环境中的障碍物，同时完成从一点到另一个点的导航。应用路径规划可以使移动机器人获得最佳的导航，减少了不必要的冗余路径，提高了移动机器人工作效率。

强化学习方法是一种基于数据的智能学习控制方法，无需模型信息，可以在移动机器人运动过程中采集样本数据进行学习，通过与环境进行交互收到环境反馈的评价，在迭代中获得近似最优策略，是解决移动机器人在复杂环境中路径规划的有效方法。强化学习算法通过试错的方式进行学习，在先验信息较少的复杂优化决策问题中具有广阔的应用前景。设计基于强化学习的路径规划方法能够使移动机器人具有自主学习能力，能够解决移动机器人在不确定环境中的路径规划问题。

在人工智能领域，在给定网格环境中如何找到一条从起点到目标点的最佳路径是一个知名且重要的问题。长期以来，研究人员在路径规划问题上，提出了许多处理路径搜索和优化问题的算法。具有代表性和启发性的算法，例如A*算法、模拟退火算法、人工势场算法、粒子群算法和蚁群算法。随着研究的深入，路径规划的速度和准确性不断提高，但是这些传统算法总有缺点，例如实时性能差和易于陷入本地最佳状态，不具备对环境的适应性。同时，Q学习、SARSA和其他强化学习算法在相当大的状态空间和动作空间也存在限制。而深度Q网络(DQN)将深度学习与强化学习相结合，使用经验库结构用于破坏样本顺序，以解决从强化学习中获得的经验与时间相关的问题。DQN可以很好地解决Q学习算法存在的容量局限性问题，因此DQN框架在路径规划方面具有巨大潜力。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于改进的深度强化学习的路径规划方法，即基于优化的DQN算法的路径规划方法。

技术方案

一种基于改进的深度强化学习的路径规划方法，其特征在于步骤如下：

步骤1、对传统深度Q网络在策略和网络结构上进行优化：

策略的改进：对下述ε-greedy策略进行改进，

μ是每轮随机生成的，大小在0和1之间，ε表示探索率，

表示随机动作；

1、经验深度的策略：以当前点为中心的八个邻域的矩形，并评估选择一个特定动作时所获得的经验珍贵程度；价值估计网络E的t时刻损失函数为：

根据奖励功能的稀疏形式，将

转换为：

价值估计网络E在Q网络训练之前的预训练阶段完成训练，然后选择动作；

所述奖励功能的稀疏形式为：

给r^reach正值鼓励模型找到目标，给r^crash负值来惩罚碰撞行为；随着当前点和目标点距离的增加，正常动作所对应的奖励值会减小，并且γ需要小于1来促使智能体到达目标点；

2、经验广度的策略：模型创建并行结构处理训练过程中的路径游荡现象，模型选择动作来最大化在

提取在游荡点ex_t-1＝(s_t-1,a_t-1,r_t-1,s_t)和ex_t＝(s_t,a_t,r_t,s_t+1)前两步和当前步的经验，模型通过贪婪随机策略与环境互动，并判断在更新策略后网络权重是否能够跳出游荡点；如果模型能够识别该点，或者步数达到了一张地图预设的最大探索步骤，那么结构结束；如果没有，它将继续增加游荡点经验；

3、避免不正确估计的策略：在每个迭代过程中设置智能体所能移动的最大步数：

termial指的是到达目标点和障碍物或者当前步数达到最大值时，如果没有发生碰撞或者达到目标点，值函数为

当当前步数等于最大步数时，模型的估计函数等于r_i，这会引起价值函数估计的巨大损失，从而导致模型训练的不稳定性；

4、网络结构的改进：价值评估网络由卷积层组成和全连接层组成，用relu激活函数减少梯度消失并加快训练速度，Q网络包括预处理层、密集块和全连接层，为了训练模型，计算损失和均方误差，然后更新网络参数；

步骤2：将步骤1的策略和网络结构生成Improve-DQN算法，用于路径规划，规划时输入需要规划的地形图，起始点，终点以及障碍点坐标值。

有益效果

本发明提出的一种基于改进的深度强化学习的路径规划方法，针对不同学习阶段对经验的深度和广度不同需求，提出了一种改进的学习策略，即深度Q网络采用密集网络框架计算Q值。在学习的初始阶段，创建经验值评估网络来增加深度经验的比例，以便更快地了解环境规则。当路径游荡现象发生时，使用并行探索结构来提高经验库的广度。另外，通过引用密集连接方法来改进网络结构，从而提高了网络的学习和表达能力。

附图说明

图1：本发明方法的模型结果

图2：本发明方法的算法流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本实施方式选取硬件环境：2GHz 2*E5 CPU，128G内存，12G显存计算机；

操作系统包括Windows10系统。

本发明的基本思想是：对传统的深度Q网络在策略和网络结构上进行改进。在学习的初始阶段，创建经验估值网络以便更快地了解环境规则。当路径游荡现象发生时通过使用并行探索结构来提高经验池的广度。另外，通过密集连接方法来改善网络结构，提高网络的表达能力。最后，结果表明此模型在收敛速度，规划成功率和路径准确性方面都有一定的提高。在相同实验条件下，将本文方法与传统深度Q网络进行比较。

本发明的步骤如下：

步骤1构建一个Q learning算法框架。在一个有限的markov过程中包含一个智能体Agent；一个状态集S，表示它在环境中的状态；以及在每个状态可以执行的动作集A。Agent在起始状态s，通过动作选择策略选择并执行一个动作a，a∈A，在与环境的交互中Agent会从当前状态s_t转移到下一状态s_t+1，并且会得到环境的一个即时奖赏r_t，根据更新规则修改Q值。Agent学习的目的是使从环境中获得的累积奖赏最大，即在每个状态都执行获得奖赏最大的那个动作。更新Q值的方法如下：

其中是学习率α，γ∈[0,1]是折扣因子。学习率α影响未来学到的新值置换原值的比例。如果α＝0，表示Agent学不到新的知识；而α＝1，则表示不储存学到的知识，全部用新的知识置换。折扣因子代表Agent的远见，它的大小影响未来的动作的预测回报所占的权重，γ＝0表示Agent只看重眼前动作的回报；γ＝1时Agent将会把未来所有动作的回报值跟眼前动作的回报看的同等重要；当γ∈[0,1]时表示越靠前的动作影响越大，而后面的动作影响变小，甚至可以忽略。

Q-learning从起始状态开始，在每一个情节中执行：在t时刻执行动作α_t从环境中获得奖赏值r_t，算法完成一次的状态-动作值更新，并存在Q值表中，直到到达终止状态，然后把Agent复位到起始状态，多次学习更新Q值表，最终达到收敛。

经过步骤1，得到了本发明的一个基本的Q learning模型框架。

步骤2用卷积神经网络取代Q值表，解决Q learning容量受限的问题。

使用深度卷积神经网络q(s,a；θ)表示q(s,a)，避免了Q表容量受限和各状态作用值函数的问题。提出经验重放的结构，解决样本时间相关性问题，提高训练的稳定性；建立一个单独的目标网络来处理时间差(TD)目标，估计状态作用值和TD目标并更新权重。

通过梯度下降法更新网络参数θ，公式如下：

DQN基于Q-Learning来确定Loss Function，估计值网络的输出为q(s_t,a_t；θ_t)，目标网络的输出为

误差函数的计公式如下：

对比Q-learning算法在开始时要初始化建立Q值表，DQN算法在开始时也要初始化神经网络参数。首先开辟内存空间用来存储训练过程中的数据称之为记忆库，用随机数初始化参数θ作为价值网络参数，令θ^TD＝θ用以计算TD目标。DQN算法在训练过程中不断学习知识，但学习到的不是存储在表格中的Q值，而是对神经网络参数的学习。

经过步骤2，我们可以得到传统的深度Q网络。

步骤3在对传统深度Q网络在策略和网络结构上进行优化。

(a)算法描述。模型的目的是从随机生成的地图中的找到一条从起点到终点的最佳路径且没有碰撞。智能体在由可通过和不可通过四连接格子的环境中。起点s和目标g是可连接的，智能体的任务是找到可行的从s到g的动作序列。也就是策略π(s,a)。在以下两方面改善策略：

1.在刚开始训练时，建立动作经验估值网络来增加特殊经验的比例(比如遇到障碍时或到达终点)，可以帮助模型更快地学习环境规则；

2.创建并行探索结构。如果路径游荡现象发生，将继续探索游荡点并考虑地图上的其他点，帮助模型在细节上掌握技能。

为了更快的训练速度和更高的精度，将Q网络与密集网络相结合以改善图片特征的提取和传播。结合有效的学习策略，改善网络结构并得到Improved-DQN模型。

(b)奖励函数的设计

奖励值是模型可以从中环境中获得的唯一反馈，这是模型的学习定位。奖励决定了模型学习的技能以及模型的效率。奖励设计着重于两个方面：达到目标和避免障碍。奖励功能为定义为稀疏形式：

一般给r^reach正值鼓励模型找到目标，给r^crash负值来惩罚碰撞行为。随着当前点和目标点距离的增加，正常动作所对应的奖励值会减小，并且γ需要小于1来促使智能体到达目标点。

(c)对于策略的改进

DQN通常会使用ε-greedy策略来平衡模型的探索与利用，具体算法如下：

μ是每轮随机生成的，大小在0和1之间，ε表示探索率，

表示随机动作。对该策略进行以下改进：

1.经验深度的策略

为了在训练开始阶段获得更多的特殊经验，创建了一个经验价值估计网络。该估计网络仅考虑以当前点为中心的八个邻域的矩形，并评估选择一个特定动作时所获得的经验珍贵程度。价值估计网络E的t时刻损失函数定义为：

结合公式(4),可以将

转换为：

价值估计网络E在Q网络训练之前的预训练阶段完成训练，然后选择动作。

2.经验广度的策略

模型创建并行结构处理训练过程中的路径游荡现象。模型选择动作来最大化在

当游荡现象发生时，并行结构就会触发。并行结构用贪婪随机策略探索地图的其余部分，同时获得游荡点的经验。贪婪随机策略以一定的概率随机选取动作，在不考虑障碍的情况下从当前点移动到离目标点更近的位置。

提取在游荡点ex_t-1＝(s_t-1,a_t-1,r_t-1,s_t)和ex_t＝(s_t,a_t,r_t,s_t+1)前两步和当前步的经验，模型通过贪婪随机策略与环境互动，并判断在更新策略后网络权重是否可以跳出游荡点。如果模型可以识别该点，或者步数达到了一张地图预设的最大探索步骤，那么结构结束。如果没有，它将继续增加游荡点经验。

3.避免不正确估计的策略

为了节省时间，我们通常在每个迭代过程中设置智能体所能移动的最大步数：

这里的termial指的是到达目标点和障碍物或者当前步数达到最大值时，如果没有发生碰撞或者达到目标点，值函数为

当当前步数等于最大步数时，模型的估计函数等于r_i，这会引起价值函数估计的巨大损失，从而导致模型训练的不稳定性。

(d)对于网络结构的改进

为了成功完成导航任务，提出适用于当前任务的学习模型Improved-DQN。该模型包括价值评估网络E和Q网络Q和具有相同的结构目标网络Q_t。

价值评估网络由卷积层和全连接层组成。所有卷积层包括卷积和批量归一化，用于提取特征、改变维度并减少过拟合的可能性。用relu激活函数减少梯度消失并加快训练速度。卷积层输入的特征图尺度为W_in，输出的特征图尺度为W_out，步长为S,可以表示为：

Q网络包括预处理层、密集块和全连接层。输入为80*80*4的灰度矩阵，第一层是卷积层，使用relu激活函数，卷积核尺度为8*8，步长为4，该层缩小图像尺寸，减少后续计算并提取特征。卷积层之后是一个2*2的重叠的池化层。该层保持特征图的大小并且提高模型的泛化性能避免过拟合。接下来是三个密集块和过渡层，增长率分别是8、16和16，瓶颈取2，这决定了3*3卷积层的输出。输出通道数为瓶颈*增长率。密集块使用密集连接并使用多个小卷积核来改善特征传播和重用并且增加非线性。在过渡层中不使用池化层，并且卷积层用于降低维度，主要目的是保留更多的高维特征和位置信息。过渡层的输入和输出信道比例是2：1，用来压缩特征使网络更轻便。全连接层整合特征并输出四个动作的状态动作。

(e)环境观察

在这种环境下，形成了80*80*3的RGB像素矩阵，然后对RGB图像矩阵执行灰度处理以得到80*80的灰色矩阵。通常，灰色矩阵包括四种类型的图像值。通过预处理，四种类型像素值重新写入矩阵[P_b,P_o,p_c,p_g]，包括背景像素集P_b，障碍像素集P_o，当前点像素p_c和目标像素p_g。预处理是为了更准确地区分不同对象并获得更易于管理的观察矩阵。

(f)动作空间

有两种通用的动作空间在网格路径规划任务，就是四区和八区。这些对动作空间的定义可以控制当前位置的更改。本发明使用四区，因为研究目的是获得最佳路径而不是运动规划。

经过步骤3，我们可以得到对策略和网络结构改进的Improve-DQN算法。

经过上述步骤，最终得到Improved-DQN的算法。

以Improve-DQN算法，用于路径规划；在规划时输入需要规划的地形图，起始点，终点以及障碍点坐标值。

为了评估模型的性能，定义了以下指标：

1.成功率：成功找到目标点回合数占总回合数的比率；

2.精度：在成功回合中最短路径步数占总步数的比率；

3.损失：训练期间的损失。

表1各类融合算法客观评价结果比较