CN115033000A

CN115033000A - 基于深度强化学习的双目标路径规划方法

Info

Publication number: CN115033000A
Application number: CN202210799352.2A
Authority: CN
Inventors: 陈超; 徐靖涵; 李路嘉; 李明妍; 李瑞远; 古富强; 郭松涛; 谢志江; 蒲华燕; 罗均
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-09-09

Abstract

本发明涉及路径规划技术领域，具体涉及基于深度强化学习的双目标路径规划方法，包括以下步骤：S1、对道路网络进行状态表示，并构建奖励函数r，得到待训练的双目标深度强化学习路径规划模型；所述状态包括坐标状态、距离状态和cu状态；S2、对待训练的双目标路径规划模型进行训练，使其学习到能够获得最大累积奖励的最优策略π_*，得到训练后的双目标路径规划模型；所述累积奖励为奖励函数给出的即时奖励与神经网络估计的附加未来奖励之和；S3、使用训练后的双目标路径规划模型，进行双目标路径规划。本发明在具备最小化路径距离能力的同时，还具备优化不同场景下的损失和效用的通用性。

Description

基于深度强化学习的双目标路径规划方法

技术领域

本发明涉及路径规划技术领域，具体涉及基于深度强化学习的双目标路径规划方法。

背景技术

道路上的路径规划是智慧城市中最基本也是最重要的规划活动之一。通常，城市居民依靠GPS导航仪和谷歌Maps等导航平台来寻找到达目的地的理想路径，这些导航服务中的核心路径规划算法主要关注于最小化旅行距离或旅行时间。近些年来，随着对多样化路径规划服务需求逐渐增加，考虑更多优化目标的新型路径规划策略近年来受到广泛关注。在这些新型路径规划策略中，除了优化路径距离之外，也同时考虑其他指标作为第二优化目标，如路径上的风景优美程度、路径附近的犯罪风险、路径是否安静舒适等。在具体的场景中，可选择的第二优化目标可以被认为是损失或效用。例如，“安全”路线上犯罪风险和“安静”路线上的噪音大小是需要被最小化的损失，而“风景优美”路线沿途的景色分数是需要被最大化的效用。

现有的路径规划算法关注的要么是最小化损失，要么是最大化效用，缺乏能够同时优化损失和效用的能力。并且，即使是同一个指标，在不同的场景中既可以作为损失，也可以作为效用。以太阳辐射为例，在炎热的夏季，行人通常倾向于选择辐射较少的路径，而对于有充电需求的太阳能车辆，在规划路径时需要接收更多的太阳辐射。又如，在犯罪风险这个指标上，居民希望找到犯罪风险最小的安全路径，而巡逻的警察则希望在不安全的路径巡逻。现有的基于图搜索的方法通常是面向场景的，很难应用到其他路径规划任务中，例如，传统的最短距离算法(即Dijkstra)不能用于搜索最大化效用的路径。对于这类即可以作为损失又可以作为效用的指标，可以采用两种不同的算法分别进行损失和效用优化，但是这样的解决方案将引入额外的算法部署成本和复杂性。

因此，怎样才能在具备最小化路径距离能力的同时，还具备优化不同场景下的损失和效用的通用性，成为当前双目标路径规划算法亟待解决的问题。

发明内容

针对上述现有技术的不足，本发明提供了一种基于深度强化学习的双目标路径规划方法，在具备最小化路径距离能力的同时，还具备优化不同场景下的损失和效用的通用性。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于深度强化学习的双目标路径规划方法，包括以下步骤：

S1、对道路网络进行状态表示，并构建奖励函数r，得到待训练的双目标深度强化学习路径规划模型；所述状态包括坐标状态、距离状态和cu状态；

所述坐标状态包括起点的经纬度坐标和终点的经纬度坐标；所述距离状态为当前节点的所有相邻节点到终点的最短距离；所述cu为除路径距离和行程时间之外的边属性；所述cu 状态通过连接到当前节点的所有边的cu的权重来表示，用于表示第二优化目标的状态，帮助智能体学习cu的空间特征；所述第二优化目标为最小化损失或最大化效用；所述奖励函数r 用于计算当前步骤中主要目标和第二目标的综合奖励；所述主要目标为最小化路径距离；

S2、对待训练的双目标路径规划模型进行训练，使其学习到能够获得最大累积奖励的最优策略π_*，得到训练后的双目标路径规划模型；所述累积奖励为奖励函数给出的即时奖励与双目标路径规划模型中神经网络估计的附加未来奖励之和；

S3、使用训练后的双目标路径规划模型，进行双目标路径规划。

优选的，S1中，所述奖励函数

其中，r_dest表示主要目标奖励， r_cu表示第二目标奖励，所述主要目标奖励为路径距离最小化的奖励，所述第二目标奖励为路径cu优化的奖励；α为预设的用于权衡主要目标和第二目标的超参数，当cu表示效用时，α 为正，cu表示损失时，α为负；

为0或1，

为0表示智能体未到达终点，

为1表示智能体到达终点；r_T为附加未来奖励。

优选的，S1中，所述主要目标奖励r_dest＝norm_-1,1(dis_eff)，式中，dis_eff表示路径的有效距离。

优选的，dis_eff＝(|N_oN_d|-|A₁N_d|)-|A₁N_a|，其中，|N_oN_d|-|A₁N_d|为智能体沿

方向移动的距离；|A₁N_a|为偏离

方向的距离；N_o为起点；N_d为终点；A₁为以终点N_d为坐标原点、以

方向为x轴、以法线方向

为y轴建立坐标系后，从N_a点向x轴作垂线的垂足点；N_a点为起点N_o的一个相邻节点，

优选的，S1中，r_cu＝norm_0,1(cu_a)，其中，cu_a为智能体的动作对应的边上的cu权重。

优选的，S1中，所述积累奖励

其中，t为当前步骤；T为终止步骤；r_t表示智能体根据对应策略执行当前步骤后的即时奖励；γ 为折扣因子且γ∈[0,1]，用于衡量未来步骤产生的奖励的重要性。

优选的，S2中，对待训练的双目标路径规划模型进行训练时，采用双重深度Q网络进行训练，所述双重深度网络包括Q网络与目标网络，通过Q网络和目标网络将动作选择和评估解耦；所述Q网络与目标网络均为神经网络。

优选的，S2中，对待训练的双目标路径规划模型进行训练时，还包括转移预处理，预处理被输入到双目标路径规划模型的神经网络中的转移；所述转移为一个动作完成后，与该动作相对应的经验。

优选的，所述预处理包括到达检测和奖励修正；到达检测用于识别出能够最终引导智能体到达终点的动作；奖励修正用于对产生循环路径的动作给予惩罚，避免智能体被困在一个循环中。

优选的，S2中，对待训练的双目标路径规划模型进行训练时，通过Q值Q_π(s,a)，表示在给定的状态s和策略π的情况下，采取a动作的质量；

其中，E_π[·]计算策略π下的期望值；

并将找到最优策略π_*的问题转换为寻找最优的Q值Q_*(s,a)的问题；

a_*是指状态s下的最优动作；基于贝尔曼方程，

本发明与现有技术相比，具有如下有益效果：

1、本发明设计了一种状态表示方法来捕获环境中智能体的状态，它不仅包含了当前位置的空间状态，还提供了待优化指标的关键信息；通过这样的方式，将路径距离和其他优化指标(损失或效用)进行统一化的表示。这种综合的状态可以促进深度强化学习路径规划策略的有效训练。除此，本发明还设计了有效的奖励函数，其中损失和效用可以用统一的方式表示。与现有的面向具体场景的路径规划方法不同，本方法是一种通用的方法，通过利用深度强化学习而可以应用于各种双目标路径规划问题，在最小化路径距离的同时最小化损失和最大化效用。本发明中训练后的双目标路径规划模型，在具备最小化路径距离能力的同时，还具备优化不同场景下的损失和效用的通用性。

2、本发明设计的奖励函数，同时兼顾了主要目标奖励和第二目标奖励，可以做到最短距离和其他优化目标之间的平衡。

3、除了对损失和效用的奖励外，还引入了有效距离的新概念，以便建立一个双目标间的权衡机制。从而保证了奖励函数的有效性和适用性。

4、在训练阶段，本发明还包括转移预处理，预处理被输入到网络中的转移(Transition)，转移预处理包括到达检测和奖励修正。到达检测的目的是识别出能够最终引导智能体到达终点的动作。奖励修正功能对产生循环路径的动作给予惩罚，从而避免智能体被困在一个循环中。通过这两个功能，可以使训练更加高效。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明基于深度强化学习的双目标路径规划方法的流程图；

图2为双目标路径规划模型的整体框架图；

图3为以太阳辐射为cu，双目标路径规划的最佳路径示例图；

图4为有效距离的计算实例示意图；

图5为验证实验中cu在道路网络中的分布示意图；

图6为验证实验中不同应用场景的评价结果示意图；

图7为验证实验中奖励函数中设置不同的α时的评价结果示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

深度强化学习(DRL)具有灵活的奖励机制和强大的学习能力，其中的奖励可以集成多个目标，从而满足损失和效用最优化的场景，因此，基于DRL的路径规划是一种潜在的可行解决方案。近年来，DRL已被广泛应用于机器人控制、自动驾驶等众多顺序决策研究领域。类似地，路径规划问题也是一个顺序决策过程，当前的道路选择对未来的决策有很大的影响。最近的研究也显示了将DRL应用于路径规划的可能性，DRL中的智能体利用深度神经网络 (DNN)在反复的实验中获取经验，逐步学习到路径规划策略。但是现有的基于DRL的路径规划方法也不是通用的，不能同时满足损失和效用最优化的需求。申请人期望找到一个通用的双目标路径规划方法，以优化路径距离和各种多样化的指标。但是，要实现上述目的，需要应对以下挑战：

首先，路径距离和其他优化指标(损失或效用)需要进行统一化的表示；

其次，多样化的优化指标的权值在相邻路段上缺乏空间邻近性，甚至在城市中分布稀疏，在DRL框架中难以被表示和学习。例如，道路上的犯罪风险水平受到道路条件、公共设施、经济水平等多种因素的影响，在不同的路段上分布差异较大。并且，一些没有任何犯罪报告的道路被视为绝对安全的，使得犯罪风险在整个城市稀疏分布；

第三，路径规划策略在优化损失或效用时可能会导致较多的绕路，这与最小化路径距离的目标相矛盾。因此，要在距离和其他优化目标之间取得平衡。

基于上述原因，虽然已经有将深度强化学习已经有应用于路径规划的尝试，但还未出现具备通用性的双目标规划的技术内容。

实施例：

为了便于理解，首先对本实施例中的部分名词进行解释说明。

本实施例中的cuRL，即为双目标路径规划模型，为了叙述以及附图中的标记方便，本实施例中将双目标路径规划模型命名为cuRL。

道路网络：道路网络是由节点和边组成的图G＝(N，E)，其中N表示节点集，包括路口和道路终点；

表示有向边(道路)的集合。

边属性：道路网络(即图)中的边可能根据实际应用带有某些属性。例如，最常见的边属性是路径距离或行程时间。对于本文所述的多样化优化准则，边可以承载更多种类的属性，包括风景程度、安静程度、舒适度、犯罪风险等，从而实现更广泛的城市路径规划服务。

cu，损失和效用：对于边缘属性，根据实际应用场景，它可以是损失或效用。以犯罪风险属性为例，对于普通道路行人或车辆，它应该是边上的损失；相反，对于巡逻的警察来说，它变成了边上的效用。因此，即使对于相同的属性，是损失还是效用也应该由实际应用场景决定。对于损失，人们希望尽量避免；而对于效用来说，它是令人愉快的、有帮助的，人们会期望获得更多。为了便于表述，只需使用cu来统一表示边缘属性。另外，本实施例中的cu 特指除路径距离和行程时间之外的边属性。

路径：路径是道路网络中连通的边或节点的序列。需要注意的是，不同于像距离这样的每条边都有一定权重的边属性，cu在路网上可以是不连续的甚至是非常稀疏的。换句话说， cu缺乏空间上的邻近性和连续性，在某些边上可能为零，这取决于具体属性的物理意义。再次以犯罪风险属性为例，在一个城市中，只有一部分附近曾经发生或犯罪事件的道路被视为是危险的，而犯罪事件越多，犯罪风险则越大。

双目标最优路径：对于给定的OD(起点-终点)对，双目标最优路径定义为在路径距离和路径cu之间实现最佳权衡的路径，即具有最小距离和最小化损失c(或最大化效用u)。

路网中的路径规划问题通常表示为在图上的搜索问题。事实上，它也是一个自然的序列决策问题，与RL框架(即强化学习框架)相匹配。路径规划的目的是学习决策策略π_*以便根据当前环境及时找到最优路径。RL通常表示为一个顺序马尔可夫决策进程(MDP)，可以用五元组形式<S,A,P,R,γ>表示。s∈S表示智能体在环境中的状态,A是包含所有智能体可采取动作的动作空间,p∈P是智能体在给定状态s_t下，采取动作a_t后转到下一个状态s_t+1的概率， r_t∈R表示智能体根据策略π执行一个行为后的即时奖励。一旦一个动作完成，与该动作相对应的经验称为转移(Transition)，表示为Tr＝(s_t,a_t,r_t,s_t+1)。

如图1所示，本实施例中公开了一种基于深度强化学习的双目标路径规划方法，包括以下步骤：

S1、对道路网络进行状态表示，并构建奖励函数r，得到待训练的双目标深度强化学习路径规划模型。双目标路径规划模型的整体框架如图2所示。

其中，所述状态包括坐标状态、距离状态和cu状态。所述坐标状态包括起点的经纬度坐标和终点的经纬度坐标；所述距离状态为当前节点的所有相邻节点到终点的最短距离；所述 cu为除路径距离和行程时间之外的边属性；所述cu状态通过连接到当前节点的所有边的cu 的权重来表示，用于表示第二优化目标的状态，帮助智能体学习cu的空间特征；所述第二优化目标为最小化损失或最大化效用；所述奖励函数r用于计算当前步骤中主要目标和第二目标的综合奖励。

为便于更好的理解，对状态的设置原理及作用进行详细说明。

状态表示智能体在道路网络中的当前状态。首先，它应该包含当前点N_c和终点N_d的位置信息，告诉智能体它当前的位置以及要去哪里。直观地说，在RL框架中有两种方法来表示状态中的节点的位置，即经纬度坐标和独热编码。

当节点用经纬度坐标表示时，它在道路网络中的附近节点也会有近似的表示，这可能最终导致智能体为有着近似起点的情形选择相同的动作。很显然这样的结果可能不适用于双目标路径规划问题。以最小化太阳辐射为例，智能体1和智能体2有两个接近的起点(N₁和N₂) 和一个相同的终点(N_d)，如图3所示。

和

分别表示这两个OD对的双目标最优路径。虽然N₁和N₂在路网中非常接近，但很明显，智能体1和智能体2的最优路径完全不同，因为它们相连的边上的太阳辐射分布也完全不同。如果简单地使用经纬度坐标来完成状态表示，则无法很好地区分太阳辐射分布的差异，智能体1和智能体2可能由于状态表示的接近而采取相同的动作。

采用独热编码表示时，无论两个节点在地理空间中有多接近，它们在表示空间中的距离都足够远，两个点能够被区分开。然而，它也有以下两个主要缺点。首先，独热编码的维数随着路网规模的增加而增加，使神经网络更加复杂，导致维数灾难。第二，道路网络中所有的地理特征会完全丢失，将导致新的训练样本不能利用其他训练样本的经验，这大大降低了网络收敛的速度，因为使用独热编码作为状态表示时DDQN(Double Deep Q-network，双重深度Q网络)是以一种低效的记忆方式工作的，而学习不到有用的知识。

基于上述分析，本发明设计了一种新的状态表示，它不仅为智能体学习提供了足够的道路中的特征信息，而且对相邻节点进行了足够地区分。具体来说，本发明设计的状态包括以下三个部分：

坐标状态。起点和终点的经纬度坐标仍然保留，因为坐标数据提供了最直观的空间信息。

距离状态。本方法还将最短距离的先验知识整合到表示中。距离状态定义为当前点的所有相邻节点到终点的最短距离。

cu状态。它用来表示第二优化目标的状态，帮助智能体学习cu的空间特征。用连接到当前点的所有边的cu的权重来表示cu状态。

总的来说，状态s由一个二元组(X_c,X_d)定义，其中两个元素X_c、X_d分别表示当前点N_c和终点N_d的状态。注意，X_c包含所有这三种状态，而X_d省略了距离状态。

基于此状态，中央智能体每次都进行动作选择操作。在模型中，动作空间a被设置为八元组的形式(即北、西北、西、西南、南、东南、东、东北)，每个元素在坐标系中覆盖45度。如果所选动作方向上没有相连的道路，则环境将再次选择一个动作，直到有道路为止。当智能体在道路网络中执行从一个节点到下一个节点的动作后，会立即为这个动作返回一个奖励 r，这个奖励r应该被精心设计，以保证双目标路径规划模型的高效学习。

所述奖励函数

其中，r_dest表示主要目标奖励，r_cu表示第二目标奖励，所述主要目标奖励为路径距离最小化的奖励，所述第二目标奖励为路径cu优化的奖励；α为预设的用于权衡主要目标和第二目标的超参数，当cu表示效用时，α为正，cu表示损失时，α为负；

为0或1，

为0表示智能体未到达终点，

为1表示智能体到达终点；r_T为附加未来奖励。

具体地，所述主要目标奖励r_dest＝norm_-1,1(dis_eff)，式中，dis_eff表示路径的有效距离；

dis_eff＝(|N_oN_d|-|A₁N_d|)-|A₁N_a|，其中，|N_oN_d|-|A₁N_d|为智能体沿

方向移动的距离；|A₁N_a|为偏离

方向为x轴、以法线方向

如图4所示。

所述积累奖励

其中，t为当前步骤； T为终止步骤；r_t表示智能体根据对应策略执行当前步骤后的即时奖励；γ为折扣因子且γ∈ [0,1]，用于衡量未来步骤产生的奖励的重要性。

S2、对待训练的双目标路径规划模型进行训练，使其学习到能够获得最大累积奖励的最优策略π*，得到训练后的双目标路径规划模型；所述双目标路径规划模型包括神经网络；所述累积奖励为奖励函数给出的即时奖励与神经网络估计的附加未来奖励之和。

其中，对待训练的双目标路径规划模型进行训练时，采用一个双重深度Q网络(Double Deep Q-network，DDQN)通过两个网络(即Q网络和目标网络)将动作选择和评估解耦，从而解决传统DQN的Q值过估计的问题。带有DDQN的中央智能体在与路网环境(即地图环境)交互时逐步学习到能够获得最大累积奖励的最优策略。

具体实施时，通过Q值Q_π(s,a)，表示在给定的状态s和策略π的情况下，采取a动作的质量；

其中，E_π[·]计算策略π下的期望值；并将找到最优策略π_*的问题转换为寻找最优的Q值Q_*(s,a)的问题；

a_*是指状态s下的最优动作；基于贝尔曼方程，

还包括转移预处理，预处理被输入到双目标路径规划模型的神经网络中的转移；所述转移为一个动作完成后，与该动作相对应的经验。所述预处理包括到达检测和奖励修正；到达检测用于识别出能够最终引导智能体到达终点的动作；奖励修正用于对产生循环路径的动作给予惩罚，避免智能体被困在一个循环中。为便于理解，对转移预处理进行如下说明：

在深度强化学习领域，∈-greedy方法通常被用作动作选择的策略，它倾向于选择具有最大神经网络输出值的行为，并以∈的概率来考虑对其他行为的探索。使用∈-greedy方法生成的转移集合{T_r＝(s_t,a_t,r_t,s_t+1)}会被存储在DDQN的经验回收池中。但是如果仅仅采用原始的 ∈-greedy方法，实验结果是不令人满意的。具体地说，在模型的推理阶段，∈被设置为0，智能体经常在路网中徘徊或在循环中绕圈而不能到达终点。因此，本发明在训练阶段设计了一个包含到达检测功能和奖励修正功能的转移预处理来缓解这些问题。

到达检测使用缓冲区存储转移集{T_r＝(s_t,a_t,r_t,s_t+1)}，然后选择是否将它们送入DDQN 的经验回收池。只有能够成功到达终点的路径上的转移才会从缓冲区移动到经验回收池来训练模型。奖励修正负责循环路径检测。如果循环路径内的所有动动作都不是以∈-greedy方法中的探索方式产生的，则其相应的奖励将被修改为负值。负的奖励会对循环中的行为进行惩罚，从而避免智能体在之后的阶段被困在循环中。然后，新的转移被存储在经验回收池中。由于学习率的存在，即使新转移的奖励为负，DDQN中的参数也会平滑地更新，不会出现剧烈的波动。

图2中展示了双目标路径规划模型的算法框架以及训练和推理阶段的数据流。为了使训练过程更清晰，本实施例中，进一步提供了相应的伪代码如下：

其中，所述损失计算公式为：

其中，Q_targe表示目标Q值，θ为Q网络参数。在具体实施时，目标网络参数用θ′表示。且

在RL中，训练过程由多个周期(episodes)组成，每个周期对应一个路径规划的实例。在算法中，一个周期是指智能体在预设的最大步长T内从一个随机起点到一个随机终点的过程。如果智能体在给定的最大步长后仍未到达终点，则在此步终止，开始下一个周期。在每一个周期的每一步，状态向量s＝(X_c,X_d)都会输入到网络中，智能体会采用∈-greedy策略(算法1第6～10行)来平衡探索过程(exploration)和利用过程(exploitation)。在探索过程中，智能体会在动作空间中随机选择一个动作；而在利用过程，智能体将选取DDQN网络产生的 Q值最高的行为。利用过程使用智能体从历史数据中学习到的经验，而探索过程则随机选择动作，以避免陷入局部最优，生成潜在的更好的路径规划策略。在最开始的周期中，还没有可以利用的经验，因此∈被设为1。随着训练阶段经验的积累，如算法的第11行所示，∈会随着迭代的进行逐渐变小，其中δ是一个调整∈衰减速度的超参数。在最后的周期中，∈趋于0，只有利用过程被算法采用。

为了便于理解，本实施例中t表示某周期中当前步骤的序列标识符。在智能体采取一个动作a_t后，它从环境中得到一个即时奖励r_t，环境状态由s_t转移为到s_t+1。转移T_r被临时存储在转移预处理的缓冲区B中，然后到达检测和奖励修正功能开始工作。根据转移预处理的判断，缓冲区B中的转移可能会被移动到DDQN中的经验回收池M中。M是一个具有有限长度(|M|)的队列，初始为空并逐渐被转移填充。一旦M中存储的转移数量达到了|M|，最早存储的转移就会被弹出并替换为新的转移。神经网络的训练频度是可调的，本实施例中将其设置为与智能体的周期次数相同，即对于每个OD对神经网络更新一次。DDQN中的目标网络和Q网络有着相同的网络结构，权值参数分别为θ′和θ。目标Q值Q_targe用于估计最优Q值。在每次训练中，如算法1第24～30行所示，Q网络参数θ和目标网络参数θ′都会被更新。

需要说明的是，预训练阶段是必要的，因为它能够使模型具有到达终点的基本能力。在预训练阶段，将奖励函数中的参数α设为0，表示只优化了主要目标而忽略第二目标。此外，在转移预处理中也禁用到达检测功能，以探索到终点的可能路径。其他设置与算法1中显示的训练完全相同。在预训练阶段之后，α逐渐增大以优化第二目标。如图2所示。智能体只是一步一步地执行具有最高Q值的操作，直到到达终点。虽然转移预处理在训练阶段确实有效，但仍然存在一小部分OD对会使智能体进入循环路径。在这种情况下，对这些OD对再进行一次∈-greedy算法，帮助智能体跳出循环路径。

本发明设计了一种状态表示方法来捕获环境中智能体的状态，它不仅包含了当前位置的空间状态，还提供了待优化指标的关键信息；通过这样的方式，将路径距离和其他优化指标 (损失或效用)进行统一化的表示。这种综合的状态可以促进深度强化学习路径规划策略的有效训练。除此，本发明还设计了有效的奖励函数，其中损失和效用可以用统一的方式表示。与现有的面向具体场景的路径规划方法不同，本方法是一种通用的方法，通过利用深度强化学习而可以应用于各种双目标路径规划问题，在最小化路径距离的同时最小化损失和最大化效用。本发明中训练后的双目标路径规划模型，在具备最小化路径距离能力的同时，还具备优化不同场景下的损失和效用的通用性。

本发明设计的奖励函数，同时兼顾了主要目标奖励和第二目标奖励，可以做到最短距离和其他优化目标之间的平衡。除了对损失和效用的奖励外，还引入了有效距离的新概念，以便建立一个双目标间的权衡机制。从而保证了奖励函数的有效性和适用性。在训练阶段，本发明还包括转移预处理，预处理被输入到网络中的转移(Transition)，转移预处理包括到达检测和奖励修正。到达检测的目的是识别出能够最终引导智能体到达终点的动作。奖励修正功能对产生循环路径的动作给予惩罚，从而避免智能体被困在一个循环中。通过这两个功能，可以使训练更加高效。

为了验证本发明中训练后的双目标路径规划模型的性能，申请人进行如下实验。

实验设置

数据描述:以某市N的公路网中两个具有代表性的cu(太阳辐射和犯罪风险)进行实验。从众包平台OpenStreetMap爬取了有998个节点和3326条边的路网。cu的值的具体计算方式如下所述：

太阳辐射。这里的太阳辐射概念指的是水平辐射强度，太阳辐射强度的计算采用中提出的方法，该方法考虑了街道两侧人类设施的遮挡。在同一时刻，由于城市的不同道路两侧的树木、建筑物等人类设施会不同程度地阻挡太阳辐射，所以不同道路上的太阳辐射也会不同。此外，人类设施的高度、密度和分布方向也不同。因此，道路与道路之间的太阳辐射是缺乏空间邻近性的。在实验中，cu的权重使用了在11点到12点一小时内的平均太阳辐射强度。该平均太阳辐射在路网中的空间分布如图5左边的示意图所示。可以看出，对于太阳辐射属性，路网中每条边都有一定的权重值。

犯罪风险。犯罪风险通过对某一路段附近的历史犯罪数据进行统计，表示出道路的不安全程度。参照前文使用的测量方法对某条边的犯罪风险进行加权求和，如下述公式所示：

公式中，n为以路段长度为直径的圆内历史犯罪报告的数量；c_j为第j个犯罪报告，x_m为路段的中点；distance(c_j,x_m)计算c_j和x_m之间的欧氏距离；l表示路段的长度。犯罪数据来自前述某市N开放数据，包括犯罪时间、坐标、类型等。由于本实施例中更关注街道层面的安全，所以使用了袭击、抢劫、使用危险武器等类型的犯罪。有些边在历史上没有发生过犯罪，这些边的犯罪风险为0。因此，犯罪风险权重在路网中的分布较为稀疏，如图5右边的示意图所示。可以看出，与太阳辐射属性相比，只有一部分边缘具有不同程度的犯罪风险。

基线算法和评估指标:由于在路径规划目标中同时考虑了距离和cu，因此它们被用作评价指标。如果一个算法生成的路径距离较短，且在需要最大化cu时生成较大的cu，在需要最小化cu时生成较小的cu，则该算法被认为具有更好的性能。为了进行直观的对比，申请人还测试了一些基线算法，如下所示。

最短路径(Shortest)。它在路径规划时只考虑距离，使用经典的Dijkstra算法生成距离最短的路径。它是距离优化的上界。

最小cu(Least cu)。它只考虑cu最小化，这只适用于以cu作为损失的情况。它是最小化cu的上界。

SPTH。即前面提出的路径规划算法，它同时考虑了沿途的风景值和安静程度。该算法的核心思想包括:1)生成top-k最短路径；2)在k条路径中选择第二目标得分最高的路径。在本实施例的实验中，使用SPTH来寻找cu最小的路径。

2TD-AOP。它的目标是在路网中找到沿途风景最优美的路径，边的属性(风景优美程度值)是稀疏且随时间变化的。它只在最大化犯罪风险时被用作比较。此外，在运行2TD-AOP 时，可以简单地将cu权重在不同时间设置为相同。换句话说，边权值的时间依赖特性在计算中被忽略。

反转cu(Reversed cu)。首先根据

对cu的值进行反转，然后使用 Least cu算法找到cu_rev最小的路径。本实施例中设置该算法去求证是否可以通过反转边属性的权值的方式，将边属性最小化算法转化为边属性最大化算法。

对于不同的应用场景，评价结果的维度不同。为了更全面地比较实验结果，采用各个算法的路径距离d(τ)和路径cucu(τ)与Shortest(最短路径)算法路径距离和路径cu的比值来衡量其性能。换句话说，用Shortest算法得到的路径距离和路径cu作为参考。将所有测试OD 对的平均比值作为评价指标，分别称为距离比率和cu比率，定义如下式：

式中P为所有测试OD对的集合；τ_i为第i个OD对的测试算法得到的路径；

是指用Shortest算法得到的第i个OD对的路径。很明显，Shortest算法的路径距离和cu比率都等于1。此外，距离比率越接近1和cu比率越远离1的算法性能越好。

根据cu的分布和基线算法的特点，当最小化cu(太阳辐射和犯罪风险)时，本实施例中选择Shortest，Least cu和SPTH作为基线；当最大化太阳辐射时，选择Shortest和Reversed cu作为基线；当最大化犯罪风险时,选择Shortest，Reversed cu和2TD-AOP作为基线。

评估环境和参数设置:所有的评估实验使用带有TensorFlow-1.4和Keras-2.3的Python 3.7 编程，运行在一台带有4块NVIDIA GeForce RTX 2080Ti的GPU和192GB RAM的PC上。

在路网中总共产生了5000对具有随机起点和终点的OD对(即|P|＝5000)。在训练阶段，周期数N＝50000，周期内最大步数T＝100，训练过程中的∈范围为0.5～0，折扣因子γ＝0.96。在DDQN网络中，经验回收池大小|M|＝200000，小批量大小M_batch＝64,Q网络和目标网络的神经网络采用全连接层实现，隐层大小分别为1024、512、128,目标网络的同步频率Δ＝300。在神经网络的学习过程中，学习率lr＝0.00001。

整体结果

将不同应用场景的评价结果进行汇总，总体结果如图6所示。在最小化太阳辐射和犯罪风险的情况下，如图6(a)和图6(b)所示，与基线算法相比，cuRL通常更有能力平衡路径cu和路径距离。毫不奇怪，Shortest在距离比率上表现最好，而Least cu获得了最好的cu比率，因为他们的目标是只优化距离或cu。当最小化太阳辐射时，cuRL能够生成距离比率为1.04、cu比率为0.95的路径，而Least cu生成的路径距离比率为1.11，cu比率为0.86。一个比较意外的结果是，SPTH在距离比率和cu比率方面都略优于cuRL，其值分别为1.01和0.94。对这种现象的一个可能解释是SPTH得到的top-k最短路径中恰好包含了cu最小的路径。为了验证这一结论，进一步给出了图6(b)中最小化犯罪风险的结果，而犯罪风险属性在路网中的分布非常不均匀和不规则。可以看出，SPTH得到的路径距离比率和cu比率分别为1.03和0.67，而cuRL的cu比率性能要好得多，距离比率和cu比率分别为1.08和0.34。

如图6(c)和图6(d)所示的结果所示，当最大化太阳辐射和犯罪风险时，cuRL在大多数情况下仍然优于其他基线算法。如上述，2TD-AOP的结果只在最大化犯罪风险时进行比较。更具体地说，当最大化太阳辐射时，cuRL的距离比率为1.09，cu比率为1.13，在距离比率上远好于Reversed cu，在cu比率上略差。这是因为Reversed cu的提出是为了最大化cu，而忽略了路径距离优化。本实施例中，进一步考察在最大化犯罪风险的情况下，Reversed cu是否仍能获得比cuRL更好的cu比率，结果如图6(d)所示。可以看到，Reversedcu生成的路径的cu比率为1.16，与2TD-AOP和cuRL相比性能最差。由此可以得出结论：在路径规划过程中，通过简单的权重反转将最小化问题转化为最大化问题并不总是可行的。在cu比率方面， 2TD-AOP的性能最好，为1.27，但是它在距离比率方面并没有得到令人满意的结果。更糟糕的是，它只适用于边缘属性稀疏的情况。相比之下，cuRL能得到双目标的最佳路径，因为它同时优化了距离和cu。

综上所述，虽然cuRL有时不如一些比较算法，但由于cuRL在保持路径距离较短的同时，更能实现损失最小化或效用最大化，并且在边缘属性密集或稀疏的路网下都能稳定工作，因此具有更强的通用性。

奖励设计的有效性验证

为了验证cuRL中奖励设计的有效性，本实施例中，以优化犯罪风险为例，考察了训练过程中不同α下模型的表现。从图7中可以看出，当α发生变化时，距离比率在一定范围内波动，在α＝0时达到最小值1.04，说明预训练模型是有效的，得到的路径距离与最短距离算法非常相似。在这种情况下，该模型可以看作是寻找最短路径的模型，因为只有主要目标包含在奖励函数中。另外，α<0的模型对应cu最小化，α>0的模型对应cu最大化，具体分析如下。

在最大化犯罪风险场景下，如图7右半边所示，距离和cu比率都随着α的增加而逐渐上升。与cu比率相比，距离比率的波动较小，表明cu最大化的实现不需要在路径距离上付出太多额外损失。当α大于0.5时，cu比率停止增长。更糟糕的是，距离比率反而增加。一种可能的解释是，智能体试图获得更多的r_cu，但不向终点移动，导致路径规划时不必要的绕路。 α值为0.5时，cu的最大化能力达到极限。因此，继续增加α是没有意义的，在这种情况下训练可以终止。对于犯罪风险最小化情景也可以得出类似的结论，结果如图7左半边所示。在这种情况下，cu比率总是比1小。同样，在α为不同的负值时，距离比率波动范围较小，表明也以增加较少的路径距离作为代价完成路径cu的最小化。当α值为-2时，模型达到最小化cu 的极限。

状态表示的有效性

在cuRL算法框架中，状态表示是经过精心设计的，以便有效地学习和优化主要目标和第二目标。如第四章所述，状态包括坐标状态、距离状态和cu状态三部分。为了评估每种状态类型的有效性，进行了消融研究。此外，还进一步比较了使用经纬度坐标和独热编码作为状态表示的算法表现。

综上所述，所有比较的状态表示方法如下所示。

Coord。状态表示只包括经纬度坐标状态。

Onehot。状态仅由独热编码表示。

cuRL-coord。状态表示包括距离状态和cu状态。

cuRL-dis。状态表示包括坐标状态和cu状态。

cuRL-cu。状态表示包括坐标状态和距离状态。

采用最小化太阳辐射的场景来评估不同的状态表示方法。关于距离比率和cu比率的整体结果如表1所示。需要注意的是，所有的结果都是在奖励函数中的参数α被仔细调整后得到的。根据表1中显示的结果，可以得出以下结论:

Coord既不能优化路径距离，也不能优化路径cu。如表1所示。Coord的距离比率和cu 比率都大于1。这是因为Coord只考虑经纬度坐标，没有对路径cu进行优化。此外，在距离优化方面，Onehot和cuRL的性能都优于Coord，这验证了申请人之前的分析，即经纬度坐标不足以让智能体对路径距离进行优化。

与Coord相比，Onehot取得了更好的效果。虽然Onehot没有在状态表示中显式地编码cu 和坐标信息，但仍然可以很好地区分节点。具体来说，它不需要学习任何路径规划的深层知识就能记住在每个点的最佳动作，它的性能优于Coord，可以优化cu。然而，由于输入维度的影响，Onehot计算量非常大，且收敛较慢，不能高效地学习。更详细地说，Onehot所表示的状态向量维度非常高，达到了1996，而Coord的维数只有4。

坐标状态和距离状态都是必不可少的。一方面，不考虑距离状态后，cuRL-dis的距离比率大于1；另一方面，cuRL-coord的cu比率也大于1，说明路径cu实际上没有得到优化。

cu状态可以有效地改善cu的优化。比较cuRL-cu和cuRL的结果，可以很容易地发现，它们得到的距离比率是相近的(即1.033)，但是二者的cu比率相差较多。cuRL-cu的cu比率大于1，太阳辐射并没有被优化，相比之下cuRL的cu比率要小得多，达到了较好的优化效果。

表1不同状态表示方法的评价结果

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于深度强化学习的双目标路径规划方法，其特征在于，包括以下步骤：

所述坐标状态包括起点的经纬度坐标和终点的经纬度坐标；所述距离状态为当前节点的所有相邻节点到终点的最短距离；所述cu为除路径距离和行程时间之外的边属性；所述cu状态通过连接到当前节点的所有边的cu的权重来表示，用于表示第二优化目标的状态，帮助智能体学习cu的空间特征；所述第二优化目标为最小化损失或最大化效用；所述奖励函数r用于计算当前步骤中主要目标和第二目标的综合奖励；所述主要目标为最小化路径距离；

2.如权利要求1所述的基于深度强化学习的双目标路径规划方法，其特征在于：S1中，所述奖励函数

为0或1，

为0表示智能体未到达终点，

为1表示智能体到达终点；r_T为附加未来奖励。

3.如权利要求2所述的基于深度强化学习的双目标路径规划方法，其特征在于：S1中，所述主要目标奖励r_dest＝norm_-1，1(dis_eff)，式中，dis_eff表示路径的有效距离。

4.如权利要求3所述的基于深度强化学习的双目标路径规划方法，其特征在于：dis_eff＝(|N_oN_d|-|A₁N_d|)-|A₁N_a|，其中，|N_oN_d|-|A₁N_d|为智能体沿

方向移动的距离；|A₁N_a|为偏离

方向为x轴、以法线方向

5.如权利要求4所述的基于深度强化学习的双目标路径规划方法，其特征在于：S1中，r_cu＝norm_0，1(cu_a)，其中，cu_a为智能体的动作对应的边上的cu权重。

6.如权利要求5所述的基于深度强化学习的双目标路径规划方法，其特征在于：S1中，所述积累奖励

其中，t为当前步骤；T为终止步骤；r_t表示智能体根据对应策略执行当前步骤后的即时奖励；γ为折扣因子且γ∈[0，1]，用于衡量未来步骤产生的奖励的重要性。

7.如权利要求6所述的基于深度强化学习的双目标路径规划方法，其特征在于：S2中，对待训练的双目标路径规划模型进行训练时，采用双重深度Q网络进行训练，所述双重深度网络包括Q网络与目标网络，通过Q网络和目标网络将动作选择和评估解耦；所述Q网络与目标网络均为神经网络。

8.如权利要求7所述的基于深度强化学习的双目标路径规划方法，其特征在于：S2中，对待训练的双目标路径规划模型进行训练时，还包括转移预处理，预处理被输入到双目标路径规划模型的神经网络中的转移；所述转移为一个动作完成后，与该动作相对应的经验。

9.如权利要求8所述的基于深度强化学习的双目标路径规划方法，其特征在于：所述预处理包括到达检测和奖励修正；到达检测用于识别出能够最终引导智能体到达终点的动作；奖励修正用于对产生循环路径的动作给予惩罚，避免智能体被困在一个循环中。

10.如权利要求9所述的基于深度强化学习的双目标路径规划方法，其特征在于：S2中，对待训练的双目标路径规划模型进行训练时，通过Q值Q_π(s，a)，表示在给定的状态s和策略π的情况下，采取a动作的质量；

其中，E_π[·]计算策略π下的期望值；

并将找到最优策略π_*的问题转换为寻找最优的Q值Q_*(s，a)的问题；

a_*是指状态s下的最优动作；基于贝尔曼方程，