CN113516277B

CN113516277B - 一种基于路网动态定价的网联智能交通路径规划方法

Info

Publication number: CN113516277B
Application number: CN202110392345.6A
Authority: CN
Inventors: 周海波; 赵斌; 伍汉霖; 许云霆; 钱博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2023-10-17
Anticipated expiration: 2041-04-13
Also published as: CN113516277A

Abstract

本发明提供了一种基于路网动态定价的网联智能交通路径规划方法，首先交通管理者根据历史交通流数据，使用卷积神经网络预测每条道路的车流密度，并且制定通行价格，发布至智能交通系统，每个车辆通过路网时均需支付相应通行费用；用户车辆到达十字路口时，获取实时路网的状态信息，使用强化学习计算下一时刻的最优行驶路径；接着用户车辆将执行的行驶路径实时反馈至智能交通系统，交通管理者接收到交通流数据后，重复使用卷积神经网络进行实时更新车流密度，并同步制定下一阶段的道路通行价格；本发明提供的网联智能交通路径规划方法能够应对高速变化的城市交通状况，强化学习过程在用户车辆端完成，降低智能交通系统的计算量。

Description

一种基于路网动态定价的网联智能交通路径规划方法

技术领域

本发明涉及网联智能交通技术领域，主要涉及一种基于路网动态定价的网联智能交通路径规划方法。

背景技术

伴随城市中私家车数量的爆发式增长，城市交通承担着越来越大的负担，

传统的缓解交通拥堵状况的尝试主要包括修建更多的道路或者通过限制交通出行需求如限号、限购等措施来扩大路网的通行能力。然而，这些措施往往只能够在应用初期达到缓解交通拥堵的目的，随着车辆数目的进一步增多导致道路容量饱和，会再次导致拥堵状况的产生，长期拥堵已经成为了许多城市急需解决的社会性问题之一。随着V2X通信技术以及人工智能技术的迅猛发展，智能交通系统车路协同一体化管理的管理方案为缓解城市交通拥堵问题提供了新的解决思路。同时，网联智能交通技术的发展能够使得道路管理部门获取更多的道路实时信息，使得道路管理者可以根据道路实时信息对路网的交通状况做出反应。

网联智能交通技术基于无线通信、传感探测等技术进行道路信息获取，通过车车、车路信息交互和共享，并实现车辆和基础设施之间的智能协同和配合，达到优化利用系统资源、提高道路安全、缓解交通拥堵的目标。近些年来基于深度学习的预测技术也被广泛应用到智能交通领域。车辆在城市道路上的行驶主要受到道路的拓扑结构、速度限制，交通拥堵等因素的影响，所以车辆在接下来的时刻出现在相邻区域的概率会大于出现在其他较远区域的概率；同时，城市道路中的车辆数目会随着工作日早晚高峰的变化情况呈现出明显的周期性，这就是城市中车辆的移动的时空相关性。智能交通系统管理部门可以利用深度学习的算法如卷积神经网络(CNN)来提取这种时空相关性特征，进一步根据这种特征来预测未来一段时间路网的车流数据。大量研究表明，基于深度学习的预测算法具有较高的准确性和可靠性。

智能交通系统车辆管理部门根据预测到的车流信息，来为道路制定通行费用，这就是道路拥堵定价技术(Road Pricing Technology)。道路拥堵定价技术的基本原理就是把经济学中理论的应用到道路交通场景中，把道路看作是一种可以交易的商品，通过给道路制定不同的通行价格，诱导拥堵区域的车辆转移到拥堵情况较轻或者非拥堵的区域，使用市场供需关系理论来解决交通拥堵问题。道路管理者通过给拥堵区域制定较高的价格提高了出行者选择拥堵路段的成本，从而使得出行者选择其他非拥堵区域出行或者选择其他时段出行。国外如新加坡等城市的实践结果显示道路拥堵定价方案能够在一定程度上达到缓解交通拥堵的目的，对于解决交通拥堵问题具有很高的实用价值。本发明根据路网的实时状态信息来为路网中的车辆规划行驶路径，一方面达到了缓解城市交通拥堵、提升路网整体通行效率的目的；一方面也能够平衡道路管理者和车辆用户的利益，提升大部分车辆用户的出行体验。

发明内容

发明目的：本发明提供了一种基于路网动态定价的网联智能交通路径规划方法，通过诱导城市拥堵区域的车辆用户行驶到非拥堵区域，同时能够均衡路网的交通流量，提高整个路网的通行效率，缓解城市中心的交通拥堵情况。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于路网动态定价的网联智能交通路径规划方法，包括以下步骤：

步骤S1、设定路网G＝(V，E)，其中V代表十字路口，E表示普通路口；在时间T内，所有车辆完成一次从起点到达终点的行驶；路网起点和终点依次为O，D，在每一个起点-终点对之间之间存在多条路径，每一条路径由多个路段组成r∈R_od；用a∈A表示所有路段的集合，l_a表示每一条路段的长度；交通管理者为每一条道路设置一个最大车流密度C_a，每条道路上的最大车辆数目不能够超过道路的最大容量；

交通管理者每隔一段时间根据历史交通流数据，使用卷积神经网络CNN预测路网中每条道路的车流密度，并且根据车流密度为每条道路制定通行价格，将通行价格发布至智能交通系统；其中车流密度高于预设阈值的道路通行价格高于车流密度低于预设阈值的道路；每个车辆通过路网时均需支付相应通行费用；

步骤S2、用户车辆到达十字路口时，通过车载通信单元与智能交通系统交互，获取实时路网的状态信息，使用强化学习计算下一时刻的最优行驶路径。

步骤S3、用户车辆将执行的行驶路径实时反馈至智能交通系统，交通管理者接收到交通流数据后，重复使用卷积神经网络进行实时更新车流密度，并同步制定下一阶段的道路通行价格。

进一步地，步骤S1中使用卷积神经网络CNN预测每条道路的车流密度具体方法包括：

设定历史交通流数据如下表示：

{X_t|t＝1，2，…，n}

所述卷积神经网络CNN包括输入层，卷积层，池化层，全连接层和输出层；其中历史交通流数据作为卷积神经网络的输入层，卷积层用于提取交通信息的特征，池化层用于对数据进行降维处理，经过一次卷积池化之后网络的输出如下表示：

其中σ表示激活函数，池化函数用pool表示；l层的输入、输出和参数依次用和/>表示；j代表通道索引；c_l表示卷积核的数量，最大池化函数为：

f(x)＝max(x)

卷积神经网络使用全连接层将卷积池化操作之后的结果展开成一个长向量，并进行分类，其中L表示CNN的深度；模型的输出为：

其中W_f和b_f是全连接层的参数，表示卷积池化操作之后的结果展开成的长向量；/>是模型预测到的交通信息，即预测到的车流密度信息；使用T个时刻的交通流数据来预测未来一个时刻的车流数据。

进一步地，步骤S1中交通管理者根据车流密度为每条道路制定通行价格的具体步骤包括：

用二元组h＝(x，y)∈H表示交通网络在任意时刻的车流密度信息；其中，x代表当前时刻路网上的车辆数量，y表示路网中每一条道路的车流密度；给定一条道路a的车流密度，这条道路的平均速度用下式来计算：

其中表示车辆自由行驶的速度，C_a表示道路的最大车流密度，y_a表示道路a的当前车流密度；

道路通行时间用τ(y_a)来表示，τ(y_a)是道路密度的严格递增的凸函数，那么用户车辆i选择路径r的通行时间成本为：

即一条路径的通行时间为这条路径上所有路段的通行时间之和；交通管理者为每一条道路制定一个通行价格p_a，定价方案中的价格p_a由道路管理部门根据道路上的实时车流密度和道路长度来共同决定，具体如下：

P_a＝f(l_a，y_a)

其中l_a为道路的长度，而y_a为道路的车流密度，道路管理部门依据车流密度的变化来实时更新道路价格；

用户车辆选择路径r的效益函数为：

v_i,r＝-(λτ_r+p_r)

交通管理者在缓解交通拥堵的同时均衡整个网络的交通流量，目标为最大化所有车辆用户的效益之和,其中N代表所有车辆用户的集合：

进一步地，所述步骤S2中用户车辆使用强化学习计算下一时刻的最优行驶路径的具体步骤包括：

采用元胞自动机的方式来表示整个交通网络的状态；某双向两车道道路a的车辆位置状态用二维矩阵X_a来表示：

其中X_a(i，j)＝1表示位置(i，j)上有车，X_a(i，j)＝0表示位置(i，j)上没有车；对于每个用户车辆，它的状态state即为它在N个路口的位置，即

state＝random{0，N}

用户车辆在t时刻执行动作a_t之后，获取的奖励值r_t如下：

其中w为常数；

定义用户车辆在十字路口时出现的动作如下：

ACTION＝{advance，left，right，back}

advance，left，right，back依次表示前进、左转、右转和掉转方向；

当用户车辆经过十字路口时，状态值函数更新迭代过程如下：

其中α代表强化学习的学习率，代表了实现数据的重要程度，而γ表示折扣因子，表车辆用户对奖励值的重视程度。

用户车辆经过每一个十字路口时，均会结合当前路口交通信息进行重新强化学习，选择最优路径。

有益效果：

本发明所提出的基于路网动态定价的网联智能交通路径规划方法相比于传统的车辆路径规划算法具有明显的优势，传统的车辆路径规划算法通常会一次性规划好所有车辆的行驶路径，在路网车辆数目发生变化的时候，会造成重新出现拥堵的情况，并且集中式的计算方式在车辆数目增加的时候会产生大量的计算资源开销。本发明提出的动态车辆路径规划算法能够更好的对高速变化的城市交通状况作出反应，在现有道路系统的基础上达到缓解城市交通拥堵，提升路网的整体通行效率的目的。此外，本发明所提出的算法在车辆上完成，能够降低智能交通系统计算资源的消耗。

附图说明

图1是本发明提供的动态定价交通路径规划方法应用场景图；

图2是本发明提供的卷积神经网络模型图；

图3是本发明提供的动态定价交通路径规划方法流程图；

图4是本发明实施例采用的算法与现有最短路算法的路网吞吐量对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明实例中主要有两类交通参与者，分别是用户车辆和交通管理者。道路交通场景图如图1所示。交通管理者的目标是缓解交通网络拥堵并均衡整个网络的交通流量，为了达到这个目的，交通管理者需要预测每一条道路的实时车流量，为每一条道路制定一个最大通行容量并向车辆用户收取道路拥堵费。用户车辆的目标是最小化自己的出行成本，为了达到这个目的，车辆用户会根据自己的的效益函数选取一条最优的行驶路径。同时在选取完最优路径之后车辆用户会把自己的路径选择结果告诉道路交通管理部门，之后交通管理部门根据用户的选择调整价格以使路网达到最优运行状态。

设定路网G＝(V，E)，其中V代表十字路口，E表示普通路口；在时间T内，所有车辆完成一次从起点到达终点的行驶；路网起点和终点依次为O，D，在每一个起点-终点对之间之间存在多条路径，每一条路径由多个路段组成r∈R_od；用a∈A表示所有路段的集合，l_a表示每一条路段的长度；交通管理者为每一条道路设置一个最大车流密度C_a，每条道路上的最大车辆数目不能够超过道路的最大容量。

交通管理者使用卷积神经网络来预测路网中每条道路的车流密度，卷积神经网络的结构如图2所示，

设定历史交通流数据如下表示：

{X_t|t＝1，2，…，n}

其中σ表示激活函数，在本实施例中使用Relu激活函数。池化函数用pool表示；l层的输入、输出和参数依次用和/>表示；j代表通道索引；c_l表示卷积核的数量，最大池化函数为：

f(x)＝max(x)

在得到车流密度之后，交通管理者根据车流密度为每条道路制定通行价格，将通行价格发布至智能交通系统；其中车流密度高于预设阈值的道路通行价格高于车流密度低于预设阈值的道路；每个车辆通过路网时均需支付相应通行费用。具体地，

用二元组h＝(x,y)∈H表示交通网络在任意时刻的车流密度信息；其中，x代表当前时刻路网上的车辆数量，y表示路网中每一条道路的车流密度；给定一条道路a的车流密度，这条道路的平均速度用下式来计算：

其中表示车辆自由行驶的速度，C_a表示道路的最大车流密度，y_a表示道路a的当前车流密度。

每一条路段的通行时间可以用τ(y_a)来表示，它是道路密度的严格递增的凸函数，那么车辆用户i选择路径r的通行时间成本为：

即一条路径的通行时间为这条路径上所有路段的通行时间之和。同时道路管理部门会为每一条道路制定一个通行价格p_a，那么用户选择路径r的效益函数为

v_i,r＝-(λτ_r+p_r)

道路交通管理部门缓解交通拥堵，均衡整个网络的交通流量，所以最后的目标为最大化所有车辆用户的效益之和,其中N代表所有车辆用户的集合:

为了达到选择最优行驶路径的目的，到达十字路口的车辆用户与道路管理部门通信获得整个网络的实时交通状态信息，之后使用强化学习的算法来获得下一时刻的最优路径。每个车辆都有相同的强化学习框架，同时为了避免干扰，再到达下一个十字路口时，车辆会重新学习。

本实施例采用元胞自动机的方式来表示整个交通网络的状态，整个网络中每一条道路被分成了大小相同的元胞(格子)，车辆在路网中的移动可以看成是从一个网格移动到下一个网络或者下几个网格(根据车辆速度的不同)，那么这条道路a(双向两车道)的车辆位置状态可以用一个二维矩阵X_a来表示：

即X_a(i,j)＝1表示位置(i,j)上有车，反之则表示没有车辆，整个交通路网有多少条道路，那么就有多少个这样的状态位置矩阵。对于每一个车辆用户来说，它的状态即为它在N个路口的位置。即：

state＝random{0，N}

这种表示方式能够简化交通信息，能够时车辆用户快速的抽取有效信息从而做出出行决策。相比于其他表达方式，这种表达方式能够简化计算的复杂度，从而降低计算资源的消耗。

在发明场景中，为了能够达到缓解交通拥堵的目的，设置奖励函数与道路的长度和道路上的车流密度相关。车流密度越高，奖励值越小，这样车辆在强化学习的过程中就会选择车流密度较低的区域去行驶。车辆在t时刻执行动作a_t之后，环境执行这个动作一段时间并产生某种影响，返回该动作的量化数值，就是奖励值r_t：

其中w为常数，在实际使用中可以根据道路的网络结构修改这一参数值。

在本发明场景中，为了更好的适应城市交通路网动态变化的场景，在车辆到达下一个路口时，它们会重新进行强化学习的过程。这样车辆在道路的行驶过程被分成了若干段过程，使得车辆可以迅速对路网中的车流变化情况做出反应。以路网中的一个十字路口为例子，车辆的动作定义为前进，左转，右转和掉头四个动作，即：

ACTION＝{advance,left,right,back}

之后到达十字路口车辆用户使用强化学习的算法来选择下一时刻的最优行驶路径。

最后用户车辆将执行的行驶路径实时反馈至智能交通系统，交通管理者接收到交通流数据后，重复使用卷积神经网络进行实时更新车流密度，并同步制定下一阶段的道路通行价格。

本发明所提的动态定价车辆路径规划算法流程图如图3所示。具体步骤如下：

Step1:输入路网的结构n×n，以及每条路段的长度L，设定整个网络的交通需求为每隔T₁时间随机产生0到M辆车，车辆的起点和终点都是随机设定的。所有车辆在调度前按照最短路算法(Dijkstra Algorithm)去行驶，设总的运行步数T；

Step2:对于任何一个时间步t∈T，执行如下步骤：

Step2.1:道路管理部门预测每条道路的车流密度信息H＝(x,y)∈H，并根据密度信息设定每条道路的价格P_a；

Step 2.2:所有路口查询到达十字路口的车辆C，对于的到达十字路口的车辆，执行如下学习过程：

a.初始化s,a,Q(s,a),r,π,α,γ，终止状态s为到达终点，和训练步数k,π为随机选择策略，γ＝0.7；

b.随机选择初始状态s₀∈S；

c.重复k＝1,2,3,…

根据策略π选择一个动作a_t；

执行动作，得到奖赏和下一个状态；

k＝k+1；

直到s_t＝s_T；

Step 2.3:根据道路密度计算每条道路的车流速度，车辆运行一个时间步。

Step 2.4t＝t+1；

Step 3重复步骤2直至路网中的所有车辆到达终点或者到达系统的终止状态t＝T。

如图4所示为本发明提供的实施例和传统最短路算法在路网吞吐量指标下的对比图，仿真结果显示本发明所提算法能够在现有道路基础上达到缓解城市交通拥堵的效果。相比与传统的最短路径算法，本发明所提的算法能够更好的适应城市交通路网动态变化的场景，同时路网的整体通行效率也高于传统的最短路径算法。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于路网动态定价的网联智能交通路径规划方法，其特征在于，包括以下步骤：

步骤S1、设定路网G＝(V,E)，其中V代表十字路口，E表示普通路口；在时间T内，所有车辆完成一次从起点到达终点的行驶；路网起点和终点依次为O，D，在每一个起点-终点对之间存在多条路径，每一条路径由多个路段组成r∈R_od；用a∈A表示所有路段的集合，l_a表示每一条路段的长度；交通管理者为每一条道路设置一个最大车流密度C_a，每条道路上的最大车辆数目不能够超过道路的最大容量；

步骤S2、用户车辆到达十字路口时，通过车载通信单元与智能交通系统交互，获取实时路网的状态信息，使用强化学习计算下一时刻的最优行驶路径；

步骤S3、用户车辆将执行的行驶路径实时反馈至智能交通系统，交通管理者接收到交通流数据后，重复使用卷积神经网络进行实时更新车流密度，并同步制定下一阶段的道路通行价格；

步骤S1中使用卷积神经网络CNN预测每条道路的车流密度具体方法包括：

设定历史交通流数据如下表示：

{X_t|t＝1,2,…,n}

其中σ表示激活函数，池化函数用pool表示；l层的输入、输出和参数依次用和表示；j代表通道索引；c_l表示卷积核的数量，最大池化函数为：

f(x)＝max(x)

其中W_f和b_f是全连接层的参数，表示卷积池化操作之后的结果展开成的长向量；/>是模型预测到的交通信息，即预测到的车流密度信息；使用T个时刻的交通流数据来预测未来一个时刻的车流数据；

步骤S1中交通管理者根据车流密度为每条道路制定通行价格的具体步骤包括：

其中表示车辆自由行驶的速度，C_a表示道路的最大车流密度,y_a表示道路a的当前车流密度；

P_a＝f(l_a,y_a)

用户车辆选择路径r的效益函数为：

v_i,r＝-(λτ_r+p_r)

所述步骤S2中用户车辆使用强化学习计算下一时刻的最优行驶路径的具体步骤包括：

其中X_a(i,j)＝1表示位置(i,j)上有车，X_a(i,j)＝0表示位置(i,j)上没有车；对于每个用户车辆，它的状态state即为它在N个路口的位置，即

state＝random{0，N}

用户车辆在t时刻执行动作a_t之后，获取的奖励值r_t如下：

其中w为常数；

定义用户车辆在十字路口时出现的动作如下：

ACTION＝{advance,left,right,back}

advance,left,right,back依次表示前进、左转、右转和掉转方向；

当用户车辆经过十字路口时，状态值函数更新过程如下：

其中α代表强化学习的学习率，代表了实现数据的重要程度，而γ表示折扣因子，表车辆用户对奖励值的重视程度；