CN112325897A

CN112325897A - 基于启发式深度强化学习的路径规划方法

Info

Publication number: CN112325897A
Application number: CN202011304737.4A
Authority: CN
Inventors: 李婕; 刘宪杰; 于瑞云; 唐佳奇; 王兴伟
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-05
Anticipated expiration: 2040-11-19
Also published as: CN112325897B

Abstract

本发明公开一种基于启发式深度强化学习的路径规划方法，属于路径规划技术领域。该方法包括：使用栅格化方法对地图环境进行建模；对环境进行特征提取，建立价值地图；利用Actor Critic强化学习算法进行训练；采用经典启发式算法A*作为强化学习的启发式函数，建立启发式信息；设计注意力机制平衡特征提取模块和启发式模块的权重；使用分层强化学习进行任务划分。本发明的优点为：收敛速度快、稳定性强；路径规划效果更为准确；适应复杂的未知环境；将模块封装成强化学习系统便于算法调用与改进。

Description

基于启发式深度强化学习的路径规划方法

技术领域

本发明涉及路径规划技术领域，尤其涉及一种基于启发式深度强化学习的路径规划方法。

背景技术

当前对路径规划任务主要采用传统方法，这些方法主要以算法的细节优化和针对环境的优化为主，虽然在特定环境下取得了比较优秀的效果，但并不能作为复杂环境的通用解决方法。近年来，深度学习方法发展迅速，并广泛的应用在科研和工业的各个领域中。但是目前基于强化学习的路径规划方法只是简单的设定智能体在环境中的奖励值，这种方式使训练完成后的策略网络具有一定的局限性，难以适应未知复杂的环境。

发明内容

针对上述现有技术的不足，本发明提供一种基于启发式深度强化学习的路径规划方法。

为解决上述技术问题，本发明所采取的技术方案是：基于启发式深度强化学习的路径规划方法，包括如下步骤：

步骤1：使用栅格化方法对地图环境进行建模；

所述栅格化方法为将复杂地图环境抽象在二维栅格地图上并初始化，赋予目标点正的奖赏，障碍物负的奖赏。

步骤2：对步骤1建完模的地图环境基于价值迭代网络和ConvLSTM构建特征提取模块，生成价值地图，过程如下：

步骤2.1：将奖励函数R，转移概率P和上一次迭代的价值函数PreV作为价值迭代网络的输入，输入到具有A个通道和线性激活函数的卷积层中，如公式(1)所示；

其中，卷积层中的卷积核参数

代表转移概率P，a为每个通道对应的动作，Q为价值函数；i、j为当前次迭代通道上的位置坐标，i'、j'为上一次的位置坐标，r为奖励函数，其表现形式是二维数组，目标点的奖励设置为正值，障碍物的惩罚设置为负值；

步骤2.1.1：将价值迭代网络中的迭代的卷积层更换为ConvLSTM层，对迭代过程进行信息存储，有效地使用记忆信息近似价值迭代，产生更精确的地图价值，同时提取到空间特征；

步骤2.2：进行通道上的最大池化，来生成此次迭代的价值函数V输出，如公式(2)所示：

V_i,j＝maxQ(a,i,j) (2)

其中，V_i,j为此次迭代输出的价值函数，a为每个通道对应的动作，i，j为当前次迭代通道上的位置坐标；

步骤2.3：将此次迭代输出的价值函数v和奖励函数r作为下一次迭代的输入，输出的是动作概率，计算预测概率和标签的误差来更新网络，重复步骤2.1至步骤2.3；

步骤2.4：经过k次价值迭代后，位于通道m上i，j位置的Q值被输入到完全连接的softmax输出层y中，如公式(3)所示。训练完成后，使用输出的价值地图作为强化学习的环境奖励信息。

其中，

为输出层参数，m'为通道m对应的动作，i_s,j_s为通道m对应的位置坐标，y(m)为通道m输出的价值函数。

步骤3：采用启发式算法A*作为强化学习的启发式函数指导动作选择，建立启发式信息，过程如下：

步骤3.1：利用A*的距离信息作为启发式信息，A*算法的启发式距离计算主要是两点在南北方向的直线距离加上东西方向的直线距离的曼哈顿距离h_straight，如公式(4)所示：

h_straight(n)＝D*(abs(n_x-goal_x)+abs(n_y-goal_y)) (4)

其中，D为从某一位置移动到另一位置的最小代价，n_x为当前节点的横坐标，n_y为当前节点的纵坐标，goal_x为目标节点的横坐标，goal_y为目标节点的纵坐标；

步骤3.2：曼哈顿距离比较适合四方向的路径规划算法中，而对于八方向的对角运动中则需要一个对角线距离，除了要计算曼哈顿距离外，计算沿着斜线可以移动的距离h_diagonal，如公式(5)所示：

h_diagonal(n)＝min(abs(n_x-goal_x),abs(n_y-goal_y)) (5)

其中，min(.)表示计算最小值函数；

步骤3.3：最后合并曼哈顿距离和斜线距离，将所有斜线距离乘sqrt(2)*D，曼哈顿距离减去2倍的斜线距离后乘D，如公式(6)所示：

h(n)＝sqrt(2)*D*h_diagonal(n)+D*(h_straight(n)-2*h_diagonal(n))) (6)

其中，sqrt(2)*D表示计算从对角线的一端移动到另一端的最小代价，h(n)为从节点n到目标节点的估计代价。

步骤4：将价值地图和启发式算法A*的启发式距离信息一同作为奖励构建强化学习环境，引入注意力机制平衡二者作为奖励的权重，过程如下：

引入注意力机制平衡A*启发式距离信息和价值地图一同作为奖励的权重，使用地图大小和价值地图的价值区间来决定权重w1和w2的比重关系，同时设定超参对奖励值进行微调，如公式(7)所示：

reward＝w1*θ₁*V(A*)+w2*θ₂*V(ValueMap)+PV (7)

其中，PV为消极惩罚，为了鼓励智能体在环境中做出各种移动动作，而不是在停留在原地，所设置的值通常为负值，θ₁、θ₂分别为基于A*算法和价值地图两种奖励方式的超参数，用于对奖励值进行微调，reward为奖励函数，V(A*)和V(ValueMap)分别表示当前次的启发式距离和价值地图与分别与上一次迭代产生的差值。

所述使用地图大小和价值地图的价值区间来决定权重w1和w2的比重关系的方法如下：

假设地图大小为M，价值地图中的左上角至右下角的对角线距离为最大距离Lmax，价值地图的价值区间为F，则w1和w2的比值等于Lmax和F的比值。

步骤5：在Actor Critic强化学习算法的Actor网络中使用分层强化学习的方法，将路径规划任务作为高维任务，其下分为趋向目标点和障碍躲避两个子任务，来减小强化学习的状态空间，过程如下：

步骤5.1：在Actor Critic强化学习算法的Actor网络中使用分层强化学习的方法将整个路径规划任务作为高维任务，划分成趋向目标点和躲避障碍物两个子任务；

步骤5.2：通过价值地图设定目标点的奖励函数和障碍物的惩罚函数，当智能体抵达目标点时获得奖励函数，当智能体触碰障碍点时获得惩罚函数，如公式(8)所示：

其中，s为智能体所处的状态，到达目标点或障碍物点，goal为目标点，obstacle为障碍物点，R(a)为执行动作a的奖励函数，A*(s)为通过A*算法到达目标点的回报，V(s)为奖惩函数。

步骤6：利用Actor Critic强化学习算法进行训练，得到规划的路径，过程如下：

步骤6.1：采用Actor-Critic算法作为主体架构，为智能体制定了3种动作空间，包括前进方向、四方向和八方向；

步骤6.2：Actor模块基于概率选择动作空间中的行为动作，智能体通过动作和环境交互产生新的状态；

步骤6.3：将当前状态和新状态输入到Critic模块，Critic模块根据环境真实奖赏值和当前状态价值差输出动作评价；

步骤6.4：Critic模块通过时间差分方法更新自身和Actor模块，最终训练好的Actor模块输出正确的路径规划动作。

步骤7：将提出的算法框架封装成独立的强化学习系统，方便对不同数据集的使用，同时对特征提取出的价值地图作为环境价值可视化，方便在训练过程中对实时状况进行观察。采用上述技术方案所产生的有益效果在于：

1、本发明的方法收敛速度快、稳定性强；

当前对路径规划任务主要采用传统方法，这些方法主要以算法的细节优化和针对环境的优化为主，虽然在特定环境下取得了比较优秀的效果，但并不能作为复杂环境的通用解决方法。而本发明通过特征提取模块构建价值地图，再输入到带有启发式信息的Actor-Critic算法中，最终输出智能体在二维栅格环境中的移动动作，具有在收敛速度快，稳定性强的特点。

2、采用本发明的方法实现路径规划，效果更为准确；

本发明通过卷积可以得到二维栅格地图的高维特征，使所学特征不局限于数据集之中，从而增强了本方法的环境适应力。本发明使用价值迭代模块和ConvLSTM构建特征提取模块。训练过程中，卷积层的每个通道代表在当前状态下一个方向的动作，网络最终输出是二维栅格地图上某个位置的动作策略概率。通过训练完成的特征提取模块可以生成价值地图，地图上包含了各个位置从高维特征中计算的价值，因此更加准确。

3、本发明的方法适应复杂的未知环境；

本发明通过价值地图信息和启发式信息建立奖励机制，使环境模型奖励值更贴近真实环境，进而训练出具有路径规划策略的模型。

4、模块封装便于算法调用与改进；

将算法中的特征提取模块和强化学习训练模块封装。首先，封装数据预处理及生成模块，使特征提取模块不局限于自身数据集，并且提供训练、测试、可视化等功能相应接口。之后，将强化学习模型训练系统封装并可视化，方便算法设计及模型参数的改进。

附图说明

图1为本发明具体实施方式中基于启发式深度强化学习的路径规划方法的示意图；

图2为本发明具体实施方式中具有VIN层与ConvLSTM层的两种网络错误率对比图；

图3为本发明具体实施方式中具有VIN层与ConvLSTM层的两种网络损失值对比图；

图4为本发明具体实施方式中具有VIN层与ConvLSTM层的两种网络的最佳度对比图；

图5为本发明具体实施方式中具有VIN层与ConvLSTM层的两种网络成功率对比图；

图6为本发明具体实施方式中Visdom输出网络各层地图示意图；

图7为本发明具体实施方式中HFEAC与基线算法AC的累积奖励对比图；

图8为本发明具体实施方式中Actor模块loss函数对比图；

图9为本发明具体实施方式中Critic模块时间差分误差TD_Error对比图；

图10为本发明具体实施方式中的价值地图信息和A*信息对比图；

图11为本发明具体实施方式中HFEAC算法与Actor-Critic算法以及传统算法A*提供的路径规划路线对比图；

图12为本发明具体实施方式中带价值地图的强化学习训练系统图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例中基于启发式深度强化学习的路径规划方法的具体步骤如下：

步骤1：使用栅格化方法对地图环境进行建模；

其中，卷积层中的卷积核参数

V_i,j＝maxQ(a,i,j) (2)

其中，

h_straight(n)＝D*(abs(n_x-goal_x)+abs(n_y-goal_y)) (4)

h_diagonal(n)＝min(abs(n_x-goal_x),abs(n_y-goal_y)) (5)

其中，min(.)表示计算最小值函数；

h(n)＝sqrt(2)*D*h_diagonal(n)+D*(h_straight(n)-2*h_diagonal(n))) (6)

reward＝w1*θ₁*V(A*)+w2*θ₂*V(ValueMap)+PV (7)

步骤7：将提出的算法框架封装成独立的强化学习系统，方便对不同数据集的使用，同时对特征提取出的价值地图作为环境价值可视化，方便在训练过程中对实时状况进行观察，如图12所示，图中黄色圆点表示目标点，红色方框表示当前位置点，蓝色框表示起点。

1、本实施例中，基于启发式深度强化学习的路径规划方法的设计实现：

(1)使用栅格化方法对地图环境进行建模；

首先从设置参数中根据动作公式加载动作空间，之后根据数据集大小参数设定迭代次数，在每次迭代中生成随机地图，初始化终点，生成最佳路径等，起点由训练时随机生成，最后分别划分训练集和测试集，方法具体步骤如下所示：

①首先从设置中加载各项参数，包括数据集大小，训练集与测试集划分，地图大小，动

作空间等；

②通过障碍生成算法在二维栅格矩阵上生成随机数量和大小的障碍块，构建迷宫地图；

③将生成好的地图，目标点对应保存，最后根据参数设置划分训练集和测试集；

通过算法生成的模拟数据集以二维矩阵存储，其中，地图、目标点分别存储，以便分析训练情况。二维栅格地图，存储方式为二维权值矩阵，其中0代表自由栅格，1代表障碍栅格，通过算法生成不同地图大小、不同动作空间及训练集大小的地图。

(2)对步骤1建完模的地图环境基于价值迭代网络和ConvLSTM构建特征提取模块，生成价值地图；

(2.1)设计实现

特征提取模块使用PyTorch深度学习框架实现，分别使用了普通卷积层VIN和ConvLSTM卷积层的价值迭代网络，并使用visdom进行价值地图可视化。同时为了验证网络能在不同的环境下都具有提取特征的作用，本实施例将不同的数据集分别输入到网络中训练，并且更改价值迭代的次数、卷积层中卷积核的大小，最终通过策略最佳程度以及和数据集中的策略成功率为评价标准。具体如表1所示：

表1特征提取模块不同情况下网络参数及结果对比

其中，策略最佳是指在每个位置做出的动作是否是最佳动作，将做出最佳动作的次数和做出所有动作次数的比值作为策略最佳度Opt。策略成功率是指在某一地图上能生成随机的起点和目标点间的路径，将在数据集中成功规划出路径的次数和地图集大小作为策略成功率Suc。

经过实验得出结论，当卷积层的通道数略大于动作空间大小时的结果更准确，价值迭代模块的迭代次数和卷积核大小需要和迷宫地图大小相对应。

通过实验发现即使扩大了价值迭代次数和卷积核大小，网络训练出的策略最佳度和策略成功率仍然出现了明显的下降，并且在训练过程中发现网络出现了明显的震荡现象，导致训练缓慢，因此引入时空卷积层ConvLSTM，将迭代层的Conv2d替换为ConvLSTM，增加不同迭代层之间的时间联系，通过时空卷积层记录在某一位置不同迭代层次下的策略信息，达到减少震动，增加训练速度的目的。

(2.2)特征提取模块中的卷积层使用ConvLSTM后有效性评价：

训练过程中的损失函数变化对比情况如图2所示。

通过对比可以发现普通卷积层VIN的错误率初始值较低，经过多个迭代次数后错误率逐渐下降并稳定在18％。而使用ConvLSTM后，训练错误率的初始值较大，但是经过几次迭代后迅速下降，并且最终稳定在14.5％。

训练的损失函数如图3所示，VIN的初始误差较低，约为0.6，经过30次迭代后逐渐下降并稳定到0.4。而ConvLSTM的初始误差较高，但经过几次迭代后就可以迅速下降至0.4，并经过30次迭代后稳定在0.25左右。

将训练过程的每个阶段策略最佳度变化绘制折线图如图4所示，可以发现VIN的策略最佳度初始值较高，但是在迭代过程中发生了明显的震荡现象，最终在0.9左右频繁发生震荡并难以稳定，而ConvLSTM的策略最佳度初始值非常低，但是在几次迭代后迅速升高，并且在训练过程中没有明显的震荡现象，网络较稳定，最终稳定在0.97左右。

成功率变化曲线如图5所示，通过这种情况可以确定单独使用价值迭代模块会使网络更新难以稳定，而加入时空卷积层ConvLSTM后可以增强网络稳定性、加快训练速度并提高最终准确率。对比实验结果如表3所示。

表3VIN和ConvLSTM结果对比

使用Visdom工具将特征提取模块的输入地图，输入层输出和最终输出的价值地图可视化，如图6所示。

(3)采用启发式算法A*作为强化学习的启发式函数指导动作选择，建立启发式信息，具体步骤如下：

(3.1)在价值地图上通过A*算法计算各个起点和终点间的路径，A*算法主要通过open表和close表实现，具体步骤如下：

①首先将起始节点s放入open表中，close表初始化为空，之后开始一段循环算法；

②如果open表不为空，则从表头取出一个节点n，判断n是否为目标解，将n的所有后继节点继续展开；

③如果后继节点不在close表中就将它们放入open表中，并将s放入close表中，同时计算每一个后继节点的f(n)，将open表按照f(n)排序，最小的放在表头；

④重复步骤②③直到open表为空，当循环结束后，close表中存放了当前最短路径中所有的点。

(3.2)将A*算法生成的最佳策略集保存；

(4)将价值地图和启发式算法A*的启发式距离信息一同作为奖励构建强化学习环境，引入注意力机制平衡二者作为奖励的权重；

实验具体步骤如下：

①根据Actor模块输出的动作在环境中移动，并且改变环境信息，得到移动后的位置状态。

②根据启发式函数A*分别计算移动前的点Current和目标点Goal的距离DistanceA，移动后的点Next和目标点Goal的距离DistanceB，并计算两者的距离差DistanceError用于智能体在移动距离上的奖励。

③根据价值地图分别计算移动前的点Current和目标点Goal的价值差ValueA，移动后的点Next和目标点Goal的价值差ValueB，并计算两者的价值差ValueError用于智能体在价值地图上的奖励。

④通过注意力机制为距离奖励和价值奖励分别设置不同的权重参数，通过权重和各项奖励值的乘积来控制不同奖励在总奖励中的占比，除此之外，加入消极惩罚PassiveValue，鼓励智能体在环境中进行移动。

(5)在Actor Critic强化学习算法的Actor网络中使用分层强化学习的方法，将路径规划任务作为高维任务，其下分为趋向目标点和障碍躲避两个子任务，来减小强化学习的状态空间，具体步骤如下：

①在步骤(4)的过程中判断移动后的点Next是否是目标点或障碍点，如果是则可以结束当前训练过程，并且如果是目标点则额外增加价值地图的目标点奖励，如果是障碍点则额外减去障碍点惩罚。

②将计算的奖励值Reward、移动之后的位置信息Next，以及根据移动之后的位置信息判断的当前路径规划过程是否结束的信息isFinished返回给函数调用者。

(6)利用Actor Critic强化学习算法进行训练，得到规划的路径；

将Actor模块和Critic模块以及环境模块结合后就可以进行Actor-Critic算法的训练，训练过程中的超参如表4所示。

表4强化学习训练参数

其中MAX_EPISODE定义了训练的总迭代次数，MAX_ONE_STEPS用于控制单次训练过程中的迭代次数，此变量主要用于解决智能体在地图中在两个位置状态间进行往返运动的情况，即局部最优问题。GAMMA是奖励折扣因子，用于控制在马尔科夫决策过程中的奖励衰减幅度，LearningRate_Actor和LearningRate_Critic分别是Actor模块和Critic模块的学习率，通常Critic模块的学习率较大，因为Critic模块是策略的评价者，需要比Actor模块更快的学习才能对Actor模块输出的动作做出正确的指导评价。训练的主过程是一个循环，每次代表了一个训练过程，在单次训练过程中，具体步骤如下：

①根据数据集初始化地图信息及随机初始点。

②把当前状态输入到Actor模块，根据网络模块输出的移动方向概率选择移动方向。

③使用当前移动方向在环境中移动并且得到训练过程是否结束的信息、奖励值、移动后的点。

④将当前位置点、奖励值、移动后的点输入到Critic模块计算得到时间差分误差，同时通过策略梯度方法更新自身网络参数。

⑤将时间差分误差反馈给Actor模块，通过输出的动作概率和时间差分误差的乘积均值更新网络参数。

⑥最后根据结束信息和当前训练过程的迭代次数判断是否结束当前训练过程，如果结束，计算当前累积奖励。

在Actor-Critic算法的训练过程中，使用e-greedy策略进行动作选择，e-greedy的核心思想，是花费e的时间用来探索，花费1-e的时间用来预测。探索是指根据环境规则完全随机地选择行动，用以Critic模块学习每个行动的预测奖励值，同时防止网络产生局部最优等问题。而预测是指根据当前已经学习好的策略选择奖励值最高的动作，即根据输出的行动方向概率来选择移动方向。当e比较高时，算法探索的效率高，当e比较低时，算法对策略的应用比较好，因此在训练好的Actor模块使用过程中，直接使用e等于0的完全贪心算法选择动作。

其中，环境重置方法Reset是用于当训练过程结束后重置环境模型并重新从数据集中读取地图信息和价值地图等信息，因为价值地图中的价值取值范围是0到某一最大正值，0表示在障碍或障碍附近的点，某一最大正值表示在目标点或附近的点，而在训练过程中需要通过分层强化学习的方法将障碍惩罚和目标奖励分开累积，因此根据价值地图的取值区间定义基本惩罚阈值，最终地图奖励等于价值地图中的价值减阈值。

环境交互方法Step是用于智能体在二维栅格中的行进规则和奖励制定等，因为A*提供的距离信息和价值地图信息具有较大的差值，并且在不同的地图上，A*的距离信息具有较大的变化，因此注意力机制在本发明的算法中是不可缺少的模块，用于平衡两个信息之间的权重占比。注意力机制的权重通过地图大小和价值地图的价值区间确定，比如当地图大小是8、价值地图的价值区间是100时，地图中的最大距离是左上角和右下角的对角线距离，即11.3，此时价值区间是最大距离的9倍，因此价值区间信息需要通过注意力机制缩小9倍。

(7)将提出的算法框架封装成独立的强化学习系统，方便对不同数据集的使用，同时对特征提取出的价值地图作为环境价值可视化，方便在训练过程中对实时状况进行观察。

2、与基准算法对比进行有效性评价；

本发明将提出的基于特征提取和启发式Actor-Critic算法的路径规划方法Heuristic Feature Extraction Actor Critic(HFEAC)和普通的Actor-Critic算法的路径规划方法与传统的Actor-Critic算法进行对比。

(2.1)累积奖励

在训练过程中记录了智能体在环境中获得的累积奖励，变化曲线如图7所示。在训练初期，由于Actor网络并没有任何关于环境的信息以及策略，因此所输出的动作概率近似随机，所以累积奖励会不断下降。可以发现，本发明提出的算法HFEAC算法在训练初期的累积奖赏下降更为缓慢，在初始存在负数的奖励是因为特征提取模块将环境中的障碍惩罚进行了扩散，而不是局限在障碍点的位置上，因此智能体能在趋近障碍的位置得到惩罚奖励，从而提前减少向障碍移动的趋势。在前500次的迭代过程中，HFEAC算法比AC算法的累计奖励下降更慢。在第500次左右的迭代中，智能体获得正值奖励基本和负值惩罚相等，此时智能体已经可以正常的趋向目标点，而AC算法达到此状态则在750次迭代次数附近。在第750次左右的迭代之后，HFEAC算法累积奖励曲线已经基本趋近于线性函数，说明算法已经基本稳定，智能体在环境中持续向目标点移动，这是因为算法可以更快的指示智能体向目标点的方向移动，从而获得更高的奖励。在第1000次迭代左右，AC算法才趋近稳定，比HFEAC算法慢了250次迭代左右。

(2.2)Actor模块损失函数

对训练过程中Actor模块的loss输出如图8所示。可以发现在训练初期HFEAC算法的Actor模块loss更小，并且下降趋势更为稳定，没有明显的震荡现象。而AC算法的loss波动更大，经常会出现较大的loss值，导致网络向某一方向大幅度更新，从而发生策略偏移。HFEAC算法和AC算法的loss值在第3500次迭代时基本稳定在0附近，但是AC算法在稳定之后仍出现了较大的loss值波动，比如在图中的5000次迭代附近时，AC算法产生了一个-70左右的loss值，说明在此时仍做出过错误的动作概率输出。

(2.3)Critic模块时间差分误差

将训练过程中Critic模块的时间差分误差TD_Error输出如图9所示。时间差分误差来自某一训练过程中两次状态的价值差。当TD_Error是一个比较大的正值时，说明网络第二次的状态价值函数输出大于第一次的状态价值函数，即智能体在向目标点的方向进行移动，而当TD_Error是一个比较小的负值时，说明网络第二次的状态价值函数输出小于第一次的状态价值函数，即智能体在向障碍点或远离目标点的方向移动。在训练开始的前1000次迭代阶段，HFEAC和AC算法均产生了较大的时间差分误差，两个算法的误差取值范围在-7到10左右，而在1000次之后，AC算法的时间差分误差在取值上限比HFEAC算法低2左右，说明在训练过程中的HFEAC算法更能引导智能体向目标点的方向进行移动。根据图中两个算法的曲线变化趋势可以判断，HFEAC算法在前4000次迭代过程中，时间差分误差变化曲线的斜率更大，说明网络更新的更快，而AC算法则更新的较慢。在训练的后期阶段，HFEAC算法相比与AC算法产生了较大的负值误差，这是因为进行了特征提取后的障碍惩罚不在局限在障碍点，而是有梯度的分布在价值地图上，相比于从稀疏的障碍点获得障碍惩罚，HFEAC算法从梯度变化较为平缓的价值地图上获得价值更为平缓，同时也更为频繁，因此能不断的获得负值惩罚更新网络。图中两个算法的时间差分误差均产生的明显的震荡是因为训练过程中采用了e-greedy策略进行学习，在使用随机动作时和真实奖励有明显偏差导致产生了较大的时间差分误差。最终两个算法的时间差分误差均趋近于0，但HFEAC要略低于AC算法。

3、单模块有效性分析；

除了将本发明提出的HFEAC算法整体和AC算法做了对比实验之外，针对本发明算法中的单个模块也做了有效性分析。

(3.1)特征提取模块和启发式函数比较分析

在保持HFEAC算法其他模块不变的情况下，分别通过价值地图的价值差和启发式函数AStar的距离信息获得强化学习中智能体的奖励值，产生的累积奖励如图10所示。发现使用价值地图和A*距离的两种方法都可以正常的训练本发明的强化学习模块，其中使用价值地图的方法在累积奖励上的曲线表现更好，证明了本发明的强化模块具有一定的通用性，但是和本发明的算法整体相比，本发明算法在2000次迭代时已经得到了1000左右的累积奖赏，而ValueMap的方法只得到了0左右的累积奖赏，使用了AStar的方法仅仅得到了-400左右的累积奖赏。因此可以证明本发明的特征提取模块是具有更强的奖励指引作用。并且在训练过程中发现，当扩大地图集大小时，AStar的距离信息会产生较大的变动，需要对环境中目标点的奖励和障碍点的惩罚以及消极移动惩罚等重新制定，否则两者的比例不同会使网络难以训练至收敛甚至难以正常规划路径。而使用价值地图的方法直接使用价值地图上的价值设置目标点的奖励及障碍点的惩罚，因此对不同环境具有更好的适应性。

(3.2)注意力机制有效性分析

在训练的调参过程中，使用了多种权重占比方式，因为价值地图的价值差和AStar方法的距离差在数值上具有较大的差距，并且在不同大小的地图上，AStar的距离信息具有较大的变化，因此选择合适的注意力机制权重对于平衡两个信息之间的影响力至关重要。在使用地图大小为8*8的数据集时，AStar的距离信息最大值是对角线距离11.3，而价值地图提供的价值区间是0到100，因此当需要控制两者的影响力相同时，设置价值信息的权重为0.1，启发式信息权重为0.9。在调参过程中，发现适当改变两个权重在某些数据集会有更好的效果。当使用地图大小为28*28的数据集时，AStar提供的距离信息最大值提高到了39.6，而价值地图提供的价值区间仍是0到100，此时使用相同权重时距离信息的影响力将远大于价值地图信息，价值地图信息将被无效化。因此需要对AStar提供的距离信息做通用性改进，本实验中使用两者的区间作为权重因子，控制两个信息的影响力在1:1，在实验中再对超参进行微调，提高实验结果。

(3.3)分层强化学习有效性分析

分层强化学习的使用主要是用来解决局部最优问题和强化学习状态空间维度爆炸的问题。在普通的Actor-Critic算法中，只有当智能体移动到目标点获得奖励时才能结束当前训练过程，而由于障碍点的存在，在此过程中智能体极易陷入局部最优环境中，此时只有当前训练过程执行到一定次数时才能强制退出，并且无法获得目标点的奖励。因此普通的训练方法智能体难以快速向目标点趋近，训练缓慢。而在本发明提出的HFEAC算法中，将目标点的奖励和障碍点的惩罚分开计算，并且都作为训练过程结束的标记，通过这种方式能分别计算在当前状态下目标点的正向奖励和障碍点的负向惩罚的相对程度，从而输出更加准确的动作概率，并且能在一定程度上解决局部最优问题。使用本发明的路径规划算法框架在前1000次迭代中只需要137秒，并且在单次训练过程达到最大次数的只有277次，而使用普通路径规划算法框架的算法在前1000次迭代中需要199秒，并且在单次训练过程达到最大次数高达601次，因此引入分层强化学习的概念建立路径规划算法框架具有加速训练和在一定程度上解决局部最优问题的效果。

4、HFEAC算法与Actor-Critic算法以及传统算法A*提供的路径规划路线对比；

将本发明提出的基于启发式深度强化学习的路径规划方法HFEAC和普通的强化学习方法Actor-Critic算法以及传统算法A*提供的路径规划可视化如图11所示，可以发现HFEAC算法规划的路径会更远离障碍点，即算法的策略更安全，在真实环境下实用性更高。

5、将在实验过程的软件封装成价值地图可视化的强化学习训练系统，方便对不同数据集及算法进行测试。

将本发明提出的算法框架封装成独立的强化学习系统，方便对不同数据集的使用，同时对特征提取出的价值地图作为环境价值可视化，方便在训练过程中对实时状况进行观察，图中黄色圆点表示目标点，红色方框表示当前位置点，蓝色框表示起点，系统如图12所示。

Claims

1.一种基于启发式深度强化学习的路径规划方法，其特征在于，包括如下步骤：

步骤1：使用栅格化方法对地图环境进行建模；

步骤2：对步骤1建完模的地图环境基于价值迭代网络和ConvLSTM构建特征提取模块，生成价值地图；

步骤3：采用启发式算法A*作为强化学习的启发式函数指导动作选择，建立启发式信息；

步骤4：将价值地图和启发式算法A*的启发式距离信息一同作为奖励构建强化学习环境，引入注意力机制平衡二者作为奖励的权重；

步骤5：在Actor Critic强化学习算法的Actor网络中使用分层强化学习的方法，将路径规划任务作为高维任务，其下分为趋向目标点和障碍躲避两个子任务，来减小强化学习的状态空间；

步骤6：利用Actor Critic强化学习算法进行训练，得到规划的路径；

步骤7：将提出的算法框架封装成独立的强化学习系统，方便对不同数据集的使用，同时对特征提取出的价值地图作为环境价值可视化，方便在训练过程中对实时状况进行观察。

2.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述步骤1的栅格化方法为将复杂地图环境抽象在二维栅格地图上并初始化，赋予目标点正的奖赏，障碍物负的奖赏。

3.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述步骤2的具体过程如下：

其中，卷积层中的卷积核参数

V_i,j＝maxQ(a,i,j) (2)

步骤2.4：经过k次价值迭代后，位于通道m上i，j位置的Q值被输入到完全连接的softmax输出层y中，如公式(3)所示，训练完成后，使用输出的价值地图作为强化学习的环境奖励信息；

其中，

4.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述步骤3的过程如下：

h_straight(n)＝D*(abs(n_x-goal_x)+abs(n_y-goal_y)) (4)

h_diagonal(n)＝min(abs(n_x-goal_x),abs(n_y-goal_y)) (5)

其中，min(.)表示计算最小值函数；

h(n)＝sqrt(2)*D*h_diagonal(n)+D*(h_straight(n)-2*h_diagonal(n))) (6)

5.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述步骤4的过程如下：

reward＝w1*θ₁*V(A*)+w2*θ₂*V(ValueMap)+PV (7)

6.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述使用地图大小和价值地图的价值区间来决定权重w1和w2的比重关系的方法如下：

7.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述步骤5的过程如下：

8.根据权利要求1所述的基于启发式深度强化学习的路径规划方法，其特征在于：所述步骤6的过程如下：