CN110515303B

CN110515303B - 一种基于ddqn的自适应动态路径规划方法

Info

Publication number: CN110515303B
Application number: CN201910879532.XA
Authority: CN
Inventors: 张建明; 陈新
Original assignee: Yuyao Zhejiang University Robot Research Center; Zhejiang University ZJU
Current assignee: Yuyao Zhejiang University Robot Research Center; Zhejiang University ZJU
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-09-09
Anticipated expiration: 2039-09-17
Also published as: CN110515303A

Abstract

本发明公开了一种基于DDQN的自适应动态路径规划方法,解决了不同环境下的路径规划问题。本发明主要分为两个部分，第一部分先利用多个障碍物分布不同的地图训练神经网络，直到定义的损失函数不再减小或者减小到一定范围。第二个部分利用训练完成的神经网络在没有经过训练的全新地图上找到最优策略，实现端到端的路径规划。本发明对于不同的地图具有一定的适应性，经过一次训练后可以快速实现从不同的地图任意位置到指定的终点之间决策出一条最优路径。

Description

一种基于DDQN的自适应动态路径规划方法

技术领域

本发明属于深度强化学习和路径规划领域，具体涉及到一种基于DDQN的自适应动态路径规划方法。

背景技术

未知环境的动态路径规划一直是移动机器人技术领域的一个重要领域，路径规划其定义就是要求在一定限制条件下比如最短路径、最少的机械运动，移动机器人能够避障的同时有效的达到目标点。随着各行各业的智能化、自动化，路径规划等机器人技术广泛应用于工业、农业、军事等各个领域。

根据所能获得的环境信息，路径规划技术分为全局路径规划和局部路径规划。全局路径规划技术对先验知识的要求较高，具有代表性的算法有Voronoi图法，A*算法，Dijkstra算法，粒子群算法，蚁群算法等，但是此类算法在实际的应用中经常出现高时间复杂性和陷入局部最优值的缺陷。局部路径规划算法主要根据机器人自身的传感器感知到的局部环境的信息做出即使的决策，相比较全局路径规划具有低复杂性和可迁移性等优点。

近年来随着神经网络技术的发展，产生了各种深度强化学习算法，强化学习为具有马尔可夫性的过程问题提供了良好的解决方案，局部路径规划可以看作是移动机器人根据当前的状态获得的信息做出即时决策，所以能够将其转化为一个马尔可夫决策过程。强化学习由四个元素组成，代理，环境，行为，即时奖励，其主要是通过代理采取行为不断与环境交互产生不同的马尔可夫决策过程同时获得即时奖励，在这个过程中评估当前策略的价值和改善策略同步进行，策略的价值通过每个状态或者状态行为对的值来表示，改善策略通过不完全贪婪策略来实现，最终两个过程收敛到最优策略上。

DQN由Deep Mind首次提出，该算法在Atari游戏上取得显著的成果，经过训练后代理能够以超越人类职业玩家的水平完成该游戏。DQN算法具有收敛性差，训练不稳定和训练困难等缺陷，之后又涌现出一批针对DQN算法的改进版本，诸如经验回放、目标网络、双重Q网络等方法。DQN过于乐观的估计了TD目标值，带来最大化的偏差，而DDQN可以消除最大化偏差，经验回放打乱了代理和环境交互的状态转换顺序，降低了样本之间的关联性，使喂入算法的样本数据更加平滑，训练过程更加稳定。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于DDQN的新型局部路径规划算法，具有决策及时性、可迁移性、适应多种动态环境、不需要收集过多环境信息、神经网络简单、训练代价低等特点，只需经过一次训练就可以在不同的地图的任意位置规划一条通往终点的路径。

本发明采用的技术方案是：一种基于DDQN的自适应动态路径规划方法，该方法包含以下步骤：

步骤1：根据移动机器人和实际环境的大小将环境转化成一定精度的栅格地图。

步骤2：在栅格地图中放置固定数量的固定位置的障碍物，同时在随机位置生成障碍物。同理生成足够数量的训练地图和测试地图，不同地图的固定障碍物位置相同，随机障碍物的位置不同。

步骤3：设计多层神经网络，代理的行为空间，行为选择策略以及奖励函数，初始化经验池,复制主神经网络的结构和参数形成一个目标网络。

经验池的设计提高了样本的利用率，相当于将不同的马尔可夫轨迹碎片化处理，打断了不同轨迹之间的隔离，减小了当前策略决定的样本分布对训练的局限性影响。

步骤4：在所有的训练地图中随机初始化代理的位置，根据当前位置s提取状态特征，将状态特征输入神经网络，根据神经网络的输出值和行为选择策略选择当前的行为a，代理执行该行为获得即时奖励r且到达下一个位置s_，将此过程记为一个步骤。

将元组(s,a,r,s_)存入经验池中。根据经验池中的元组对神经网络参数进行更新。每四个步骤更新一次目标网络的参数。

目标网络用之前的主网络参数更新，这样可以使过程更加稳定。

不断重复步骤四，直到代理到达终点或者步骤数达到上限时重新初始化代理的位置，这个过程记为一个回合。当回合数到达上限时更换训练地图，重复步骤4。

步骤5：经过一段时间训练后神经网络的损失函数不断减小并趋于稳定时训练完毕。在随机生成的测试地图中任意起始位置的代理根据神经网络和贪婪策略选择最优行为均可到达固定的终点。

本发明提出的方法和现有路径规划技术相比的优点：其具有简单的神经网络，不需要将原始图像当作神经网络的输入，节省的大量的计算资源和时间成本，本发明中采取的代理位置初始化的方法提高了重要样本的利用率，采取的行为选择策略有效的平衡了探索和利用的作用，并且本发明提出的算法可以适应多种环境，经过一定时间的训练后可以在各种不同障碍物分布的环境的任意位置找到能够达到固定终点的最优路径。

附图说明

图1是本发明的算法流程图；

图2是策略收敛示意图；

图3是损失函数示意图；

图4是训练过程的奖励趋势图；

图5a-5d是测试地图路径图。

具体实施方式

下面详述本发明的具体实施例，用于解释本发明的具体优点和技术方案。

如图1所示，本案例包括以下步骤：

步骤一：生成50张7*7的栅格地图，其中40张是训练地图，10张是测试地图。

每张地图设置4个固定障碍物和4个移动障碍物，不同地图的固定障碍物位置相同，移动障碍物随机分布且位置不同，所有地图的终点都在(6,6)坐标位置。

步骤二：搭建由三层全连接层构成的神经网络作为主网络。

主网络激活函数为relu函数，输入层为10个神经元，第二层为64个神经元，第三层为32个神经元，输出层为4个神经元，输出代表上下左右四个行为的Q值。

完全复制主网络的结构和参数生成一个目标网络。

步骤三：设计一个容量为5000的经验池用来存储代理和环境交互的经历。

设计奖励函数，当代理遇到障碍物时r＝-10，到达终点时r＝10，出界r＝-10，正常移动时r＝-1，训练过程中的奖励变化趋势如图4所示。

设计行为空间A，A中共有四个行为上下左右，分别用0，1，2，3表示。

步骤四：在训练地图中随机初始化代理的位置s，根据当前位置选取行为a，执行行为获得即时奖励r并且到达下一个位置s_。

步骤四全过程记为一个步骤，将每个步骤以元组(s,a,r,s_)的形式存入经验池中。

每执行一个步骤之后从经验池中随机选取64个样本喂入神经网络进行参数更新。

100个步骤记为一个回合，每个地图训练30个回合。当代理达到终点或每个回合开始时重新初始化代理位置。

步骤四(1):代理位置初始化位置范围随着回合数增大而增大。

每个地图训练20个回合，前2个回合将代理位置初始化到距离终点两个栅格的范围内。

2-6回合期间将代理位置初始化到距离终点4个栅格范围内。

6-10回合期间将代理位置初始化到距离终点6个栅格的范围内。

10-20回合期间将代理位置初始化在地图全局，这样的初始化方式有利于采样到重要价值的样本。

步骤四(2)：根据代理当前位置提取状态特征具体方式：用一个10维数组表示代理状态特征，前八位数字分别表示代理周围8个栅格，若该栅格为障碍物或者界外，则该数字为1，否则为-1，后两位数字为当前位置和终点的相对坐标。

步骤四(3):行为选取策略具体方法如公式(6)所示：

greedy＝0.6+episode×0.35÷total_episode

其中ε为随机生成的0-1之间的自然数。

这样的行为选择策略在训练前期专注于探索，在训练后期专注于利用，可以保证最优策略和最优Q值同时收敛值同一个方向如图2所示。

步骤四(4):神经网络参数具体更新方式：随机从经验池中选取64个样本，计算损失函数的方法如公式(7)所示：

U_i＝r_i+γQ_T(s_i_,argmax_{a_}Q(s_i_,a_；w)；w_T) (8)

在确定策略下，每个状态行为对的Q值是确定的，根据公式(9)所示贝尔曼期望方程可以计算每个状态行为对的Q值。期望的计算通过从经验池中选取样本减少目标值和Q值的差来实现。

q_pai(s,a)＝E[R_t+1+γq_pai(S_t+1,A_t+1)|S_t＝s,A_t＝a] (9)

其中γ是奖励折扣率，其中Q是主网络的输出结果，Q_T是目标网络的输出结果。公式(7)改善了DQN的损失函数计算方法的高偏差和过于乐观的估计了S_的Q值的缺点。

对损失函数进行Adam梯度下降，更新参数w的方法如公式(10)所示:

步骤四(5):每执行10个步骤将目标网络的参数替换为主网络参数。

步骤五：训练完所有训练地图，损失函数不断减小直到稳定在一个极小的范围内可以看作算法收敛，将主网络的所有参数和结构保存到本地，训练过程的损失函数图如图3所示。

步骤六：从每由经过训练的测试地图中任意选取若干地图,在地图全局任意位置初始化代理位置，通过完全贪婪策略选取行为，代理到达终点前走过的路径即为最优路径，图5a-5d所示是同一个模型在不同的环境中的路径规划图，四张图中终点栅格坐标都为(6,6),起点位于不同坐标的栅格，灰色区域为障碍物分布位置，白色区域为算法规划出的栅格路径。

Claims

1.一种基于DDQN的自适应动态路径规划方法，其特征在于，包括以下步骤：

步骤(1)根据应用场景的实际大小产生一批相同大小，具有相同终点的网格地图，再根据实际应用场景的需要在地图中布置多个障碍物，且所有地图的障碍物分布不同，这些地图组成一个训练地图库，同样的方式生成一个测试地图库；

步骤(2)根据地图大小和实际环境复杂程度生成一个神经网络，生成完全由3-5层全连接层构成的神经网络作为主网络，其输入变量个数与地图中每个网格的状态维度相同，输出层为四个神经元，分别代表上下左右四个行为，中间层的激活函数采用RELU函数，并随机初始化主网络的参数；完全复制主网络的结构和参数生成目标网络；

步骤(3)任意从训练地图库中取出一个地图，随机在地图中终点之外没有障碍物的网格生成一个代理，在代理与地图交互过程中，记录下所有交互的步骤，并利用这些交互的经历来训练主网络，直到遍历所有训练地图；

所述步骤(3)的具体过程为：

将训练地图库中的所有地图用来训练主网络，首先在每个地图上产生一个代理，每个地图训练多个回合，每个回合开始前初始化代理的位置，将其随机定义在障碍物之外的网格，每个回合具有步数上限，每一步由强化学习中的状态转移定义，其构成有s，a，r，s_,其中s是当前代理所在网格的特征表示，a是根据s和公式(1)所示策略选择的行为，r是得到的即时奖励，当代理遇到障碍物时即时奖励为-10，遇到终点时即时奖励为10，同时返回重新初始化代理的位置，其他时候即使奖励为-0.1，s_是选择a后到达的下一个网格的状态特征，每一步都会被存储到经验存储器中；

greedy＝0.5+episode×0.3÷total_episode (2)

当经验存储器中存储的步骤到达目标数量之后，代理每走一步主网络训练一次，每训练多次之后将主网络的参数复制给目标网络；具体训练过程为：从经验存储器中随机选取若干个样本，每个样本都是一个完整的状态转移，将样本的s输入到主网络，根据a的值选出对应的状态行为对的Q值Q(s，a),将s_输入主网络，选出每个样本输出值最大行为a_,再将s_输入目标网络，在目标网络的输出中根据a_选出对应的Q值Q_T(s_，a_),再根据公式(3)所示的loss损失函数对其进行梯度下降从而更新了主网络的参数

U_i＝r_i+γQ_T(s_i_,argmax_{a_}Q(s_i_,a_；w)；w_T) (4)

代理从初始位置到达终点的整个过程在强化学习中称作完整的马尔可夫过程{s₁,s₂.....s_T}；每个完整的马尔可夫过程都有自己的累计奖励，由公式(5)所示：

训练的过程就是将每个状态行为对应的Q值不断提升的过程，再经过公式(1)定义的ε-greedy策略大概率选择Q值最大的行为，不断提高整个马尔可夫过程的累计回报；

执行完全部的回合，回到步骤(3)一直重复此过程直到遍历所有的地图使得公式(3)中的loss减小到目标范围为止；

步骤(4)训练完成之后的模型可用于测试任意没有经过训练的障碍物分布不同的测试地图，在测试地图上随机位置生成一个代理，将代理所处的当前网格的状态特征输入目标网络，根据ε-greedy策略选出最优行为,执行该行为之后代理移动到下一个状态，不断重复此步骤直到找到终点状态。