CN117373243A

CN117373243A - 地下道路的立体路网交通诱导与应急救援协同管理方法

Info

Publication number: CN117373243A
Application number: CN202311343259.1A
Authority: CN
Inventors: 俞山川; 宋浪; 江维维; 胡玉如; 马璐; 谢耀华; 王少飞; 骆中斌; 李敏; 陈晨; 周欣
Original assignee: China Merchants Chongqing Communications Research and Design Institute Co Ltd
Current assignee: China Merchants Chongqing Communications Research and Design Institute Co Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-09

Abstract

本发明公开了一种地下道路的立体路网交通诱导与应急救援协同管理方法，包括：S1.基于视觉能量场，建立考虑周围车辆及地下路域环境的驾驶行为决策模型；S2.通过交通事故场景驱动的多智能体仿真，基于驾驶行为决策模型，预测立体路网交通状态演化；S3.面向分散交通流量和防止二次事故，考虑二次事故风险时空特性，建立路网信号控制路径诱导和资源配置动态调度的耦合优化模型；S4.基于所述耦合优化模型，对交通事件下地下道路所在区域立体路网交通进行管控。本发明能够实现交通流量分散和二次事故防止的协同，保证地下道路所在区域立体路网交通的正常运行。

Description

地下道路的立体路网交通诱导与应急救援协同管理方法

技术领域

本发明涉及道路交通领域，具体涉及一种地下道路的立体路网交通诱导与应急救援协同管理方法。

背景技术

地下道路作为超大城市高密度核心区交通发展和扩容的重要手段，以多点进出、环形放射等复杂隧道的形式逐渐向系统化、网络化趋势发展，在交通运行功能上，复杂地下道路和地面高架道路承担着相似作用。然而，地下道路特有的路域环境让其交通特征有所差别。

首先，为了避开已被建筑物和地铁等占用的地下空间，复杂地下道路曲线段和分合流区线形条件通常受限，而隧道内光照变化和侧墙效应对驾驶人产生视觉负荷和压迫感，从而频发小型交通事故等突发事件。其次，发生突发事件后，由于光照变化和侧墙效应，驾驶人在地下道路中呈现出与地上不同的跟驰和变道行为，在大交通量场景下极易发生二次事故；随着电动汽车的流行和普及，当电动汽车卷入交通事故，一旦电池受损将会迅速着火，而隧道内现有消防设施却难以有效扑灭电池起火，隧道的半封闭特点可能会造成大规模火灾，使原有交通事故升级。可见，复杂地下道路交通事故在大交通量场景下容易次生发展成多车事故或火灾等中大突发应急事件，导致地下道路运行性能长时间严重退化。

因此，面向复杂地下道路的交通事故，需要一种地下道路的立体路网交通诱导与应急救援协同管理方法，能兼顾分散交通流量和防止二次事故，保持地下道路所在区域立体路网的交通运行状态。

发明内容

有鉴于此，本发明的目的是克服现有技术中的缺陷，提供地下道路的立体路网交通诱导与应急救援协同管理方法，能够实现交通流量分散和二次事故防止的协同，保证地下道路所在区域立体路网交通的正常运行。

本发明的地下道路的立体路网交通诱导与应急救援协同管理方法，包括如下步骤：

S1.基于视觉能量场，建立考虑周围车辆及地下路域环境的驾驶行为决策模型；

S2.通过交通事故场景驱动的多智能体仿真，基于驾驶行为决策模型，预测立体路网交通状态演化；

S3.面向分散交通流量和防止二次事故，考虑二次事故风险时空特性，建立路网信号控制路径诱导和资源配置动态调度的耦合优化模型；

S4.基于所述耦合优化模型，对交通事件下地下道路所在区域立体路网交通进行管控。

进一步，所述步骤S1，具体包括：

结合驾驶人视觉亮度和隧道侧墙，建立分区段的路域环境基态场强模型；

基于轨迹数据形成的车流动态场强和路域环境基态场强，量化驾驶人视觉能量场，形成隧道跟驰和变道行为的决策模型；

对自然和模拟驾驶的车辆运行轨迹进行时空离散化处理，以跟驰和变道行为决策变量，形成驾驶过程状态-动作序贯决策数据；

利用正向和逆向强化学习协同的方法构建驾驶行为决策模型：

初始化随机策略，在路域环境和智能体仿真模型中采样，并将采样得到的轨迹和自然、模拟驾驶决策数据进行合并，共同用于实现逆强化学习过程；

利用深度神经网络生成智能体的视觉能量场函数，基于得到的视觉能量场函数来更新智能体策略，不断进行迭代，通过建立仿真采样与自然、模拟驾驶行为决策数据进行对比评估，形成迭代结束规则。

进一步，所述步骤S2，具体包括：

针对复杂地下道路交通需求时空变化特征，结合多智能体仿真平台，构建不同交通场景；基于驾驶行为决策模型，面向交通事故、路网交通诱导、信号控制、应急资源调度的运行策略，模拟路网交通流演化过程；其中，信号控制包括平面交叉口信号控制以及地下道路匝道信号控制。

进一步，建立路网信号控制路径诱导和资源配置动态调度的耦合优化模型，具体包括：

以交通事故下的复杂地下道路立体路网交通状态演化为基础，结合区域立体路网交叉口、地下道路合流区的信号控制参数和路径诱导下的交叉口转向比例，针对路网路段总延误和合流区行程时间，建立多目标规划模型；

以交通事故下的复杂地下道路立体路网交通状态演化为基础，获取路网状态的平均值，以道路救援路侧停车容量、消防资源和医疗资源为约束，以资源配置消耗为目标，建立第一阶段的救援车辆空间配置静态规划模型；

以路网状态动态演化和二次事故概率时空分布产生的随机需求为基础，在给定道路救援车辆、消防和医疗资源空间配置的情况下，以抵达事故位置的时长为目标，建立第二阶段的多种资源调度的随机动态规划模型；

将第一阶段的救援车辆空间配置静态规划模型与第二阶段的多种资源调度的随机动态规划模型进行融合，得到两阶段规划模型；

分别为多目标规划模型的目标函数以及两阶段规划模型的目标函数配置不同的权重系数，并进行权重求和，得到配置后的目标函数；根据交通事故类型的不同，以多目标规划模型与两阶段规划模型中的约束条件为基础，设置耦合约束条件；以配置后的目标函数作为耦合优化模型的协同目标函数，以耦合约束条件作为耦合优化模型的约束条件，形成耦合优化模型。

进一步，所述多目标规划模型的目标函数包括第一目标函数以及第二目标函数；

所述第一目标函数为：

其中，表示地面路网总延误；/>是地面路网信号控制节点集合，在时段t内加载在路网上的随机需求为Λ_t；k表示决策阶段序号，k₀为初始阶段，阶段k的交通状态和控制策略分别表示为x_k和u_k；x_k+1由需求Λt下的x_k和u_k决定，即x_k+1～P(x_k，u_k，|Λ_t)，转换矩阵P由交通流的元胞传输模型CTM得出；d_k为阶段k的路网总延误，K表示规划的控制阶段，γ^k为折扣系数，/>表示数学期望；

所述第二目标函数为：

其中，TTS为复杂地下道路的总行程时间；k表示复杂地下道路的元胞，l_k、ρ_k(t)和q_k(t)分别表示元胞k的长度、在时段t的交通密度和排队长度；n为元胞总数；Δt为仿真步长；T为总时段。

进一步，所述两阶段规划模型的目标函数包括第三目标函数；

所述第三目标函数为：

其中，Z为应急资源配置消耗和最小应急救援时间之和；V_S表示应急资源点候选位置的集合，x_i和d_i分别表示在路网节点i处存储的应急资源数量和采购消耗；Q(x，Γ₁，Γ₂)表示最小应急救援时间，Γ₁和Γ₂分别是控制路网道路中断和交通需求不确定性的参数。

进一步，根据如下公式确定协同目标函数C：

其中，ω₁、ω₂以及ω₃分别为权重系数。

进一步，所述步骤S4，具体包括：

基于交通流仿真搭建复杂地下道路所在区域立体路网的交通环境，模拟在交通事故发生后的交通流演化状态，以交通信号灯、救援车辆建立环境中的智能体，实现智能体和环境的交互；

基于交通冲突指标TTC，随机生成二次事故，实现应急资源配置和随机动态调度的模拟；以节点和路段总延误、基于交通冲突TTC的交通事故发生概率、救援车辆抵达事故位置的时长为Q值建立深度Q网络；其中，事故发生概率的量化可实现路网信号控制和路径诱导的可靠性设计；

在多智能体的深度Q网络内循环里，基于价值函数进行策略优化，采用柔性行动者-评论家的框架，利用深度神经网络易于参数共享的特点，协同训练行动者与评论家模块：

基于经验回放，评论家通过评估已采用策略的质量估算价值函数；行动者根据评论家提供的信息更新策略参数并采取动作，实现行动者高鲁棒性的路网运行管控决策输出；在价值函数的回溯评估过程中用耦合优化模型进行快速估算，对路网运行管控策略进行回溯更新。

本发明的有益效果是：本发明公开的一种地下道路的立体路网交通诱导与应急救援协同管理方法，通过优化区域路网交通信号控制、路径诱导方式分散交通流量，通过应急资源优化配置及动态调度防止二次事故，两者协同实施，从而实现交通事件下的复杂地下道路所在区域立体路网的交通运行保持，提升了立体交通系统的运行韧性。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的协同管理方法流程示意图；

图2(a)为本发明的地下道路路域环境示意图；

图2(b)为本发明的策略规划路径在共用路段和节点处耦合示意图；

图3(a)为本发明的隧道侧墙和车辆位置关系示意图；

图3(b)为本发明的跟驰场景车流动态能量场示意图；

图3(c)为本发明的变道场景车流动态能量场示意图；

图4为本发明的正向和逆向强化学习协同的驾驶行为决策模型框架示意图；

图5为本发明的多智能体仿真场景构建及交通状态推演示意图；

图6为本发明的耦合优化模型参数解析示意图；

图7为本发明的数据和模型混合驱动的立体路网运行管控示意图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明，如图所示：

如图2(a)所示，在交通流层面，地下道路的光照变化、曲线和侧墙等路域环境因素影响下的驾驶人跟驰、变道行为和地上道路差别明显，从而影响了交通流演化和管控策略的建模；如图2(b)所示，本发明考虑了二次事故发生、电动车起火等风险，以及信号控制路径诱导下的交通流路径和动态调度下的应急救援车辆路径在共用路段和节点处的耦合，实现了交通流量分散和二次事故防止的协同。

本实施例中，步骤S1中，如图3所示，视觉能量场分成环境基态和车流动态的能量场。环境基态主要为道路基础设施的能量状态，其能量分布与车流状态无关且不随时间改变。车流动态主要为周围车辆的能量状态，其能量分布受车辆相对位置、相对运动状态、车流密度等因素影响，该能量层级随时间改变。

结合驾驶人视觉亮度和隧道侧墙，建立曲线段、分合流区等分区段的路域环境基态场强模型。基于轨迹数据形成的车流动态场强和路域环境基态场强，量化驾驶人视觉能量场，并以此为基础，形成隧道跟驰和变道行为决策模型。

利用逆强化学习方法学习训练自生成复杂地下道路驾驶行为的视觉能量场函数，搭建行为决策模型框架：

首先，对自然和模拟驾驶的车辆运行轨迹进行时空离散化处理，跟驰、变道等行为决策变量，形成驾驶过程状态-动作序贯决策数据。

然后，利用正向和逆向强化学习协同的方法构建驾驶行为决策模型框架，如图4所示。

通过初始化随机策略，在路域环境和智能体仿真模型中采样，并将采样得到的轨迹和自然、模拟驾驶决策数据进行合并，共同用于实现逆强化学习过程。

利用深度神经网络生成智能体的视觉能量场函数，基于得到的视觉能量场函数以此更新智能体策略，不断进行迭代，通过建立仿真采样与自然、模拟驾驶行为决策数据对比评估，形成迭代结束规则。其中，智能体可以是物理实体，如机器人、自动驾驶汽车，也可以是虚拟实体，如计算机程序、虚拟助手；智能体采用现有技术，具体的类型和复杂度可以根据实际工况进行选择。

本实施例中，步骤S2中，针对复杂地下道路交通需求时空变化的特征，结合多智能体仿真平台构建不同交通场景(如图5所示)，基于驾驶行为决策模型，面向交通事故、路网交通诱导、信号控制、应急资源调度的运行策略，模拟路网交通流演化过程；其中，信号控制包括平面交叉口信号控制以及地下道路匝道信号控制。

本实施例中，步骤S3中，如图6所示，以交通事故下的复杂地下道路立体路网交通状态演化为基础，结合区域立体路网交叉口、地下道路合流区的信号控制参数和路径诱导下的交叉口转向比例，针对路网路段总延误和合流区行程时间，建立多目标规划模型。其中，所得的最优路段总延误和合流区行程时间为深度强化学习控制策略的回溯评价中的价值函数构建提供基础。

以交通事故下的复杂地下道路立体路网交通状态演化为基础，获取路网状态的平均值，以道路救援路侧停车容量、消防和医疗等资源为约束，以资源配置消耗和抵达交通事故位置的期望时间之和为目标函数，建立第一阶段的救援车辆空间配置静态规划模型；

以路网状态动态演化和二次事故概率时空分布产生的随机需求为基础，在给定道路救援车辆、消防和医疗资源空间配置的情况下，以抵达事故位置的时长为目标函数，建立第二阶段的多种资源调度的随机动态规划模型(多种资源调度的随机动态规划模型)；其中，所得的最优救援时长为深度强化学习控制策略的价值函数的构建提供基础。

考虑两种策略的优先权重，构建协同优化目标函数：分别为多目标规划模型的目标函数以及两阶段规划模型的目标函数配置不同的权重系数，并进行权重求和，得到配置后的目标函数；

根据交通事故类型的不同，以多目标规划模型与两阶段规划模型中的约束条件为基础，设置耦合约束条件；以配置后的目标函数作为耦合优化模型的协同目标函数，以耦合约束条件作为耦合优化模型的约束条件，形成耦合优化模型。其中，对于电动汽车小型交通事故，需要考虑道路、医疗、消防救援的优先性；对于其他小型交通事故，需要考虑区域交通流量分散策略的优先性。

所述多目标规划模型的目标函数包括第一目标函数以及第二目标函数；

所述第一目标函数为：

其中，表示地面路网总延误；/>是地面路网信号控制节点集合，在时段t内加载在路网上的随机需求为Λ_t；k表示决策阶段序号，k₀为初始阶段，阶段k的交通状态和控制策略分别表示为x_k和u_k；x_k+1由需求Λ_t下的x_k和u_k决定，即x_k+1～P(x_k，u_k，||Λ_t)，转换矩阵P由交通流的元胞传输模型CTM得出；d_k为阶段k的路网总延误，K表示规划的控制阶段，γ^k为折扣系数，/>表示数学期望；

上述优化问题的底层模型为CTM(元胞传输模型)：

其中，f_ij(t)、β_ij(t)和分别是节点m连接的上游路段i和下游路段j在时段t的流量、转向比例和绿信比。λ_i(t)是路段i上通过节点m的总流量。l表示路段i的元胞，ρ_l(t)和f_l(t)分别表示元胞l在时段t的交通密度和流出流量。Δt和Δx_l分别为仿真步长和元胞l的长度。Q_l为元胞l的通行能力。/>元胞(l+1)的拥堵密度。/>和/>分别表示元胞l的自由流速度和拥堵向后传播速度。

延误的计算：

d_l(t)、d_i(t)、d_t，m和d_t分别表示元胞延误、路段延误、节点延误和时段t路网总延误。I_m表示上游路段i的集合，I表示所有路段的集合。

所述第二目标函数为：

上述优化问题的底层模型为CTM(元胞传输模型)：

q_k(t+1)＝q_k(t)+Δt·(w_k(t)-r_k(t))

其中，φ_k(t)、r_k(t)和w_k(t)分别表示元胞k在时段t的流出流量、匝道汇入率和外部流入需求。β_k表示汇出匝道元胞k的汇出比例。

所述两阶段规划模型的目标函数包括第三目标函数；

所述第三目标函数为：

第一阶段：应急资源配置，约束条件：

道路救援路侧停车容量约束：∑_i∈Vf_iy_i≤G

医疗消防资源约束：

其中，f_i为建设应急资源存储节点i的固定消耗。y_i为0-1变量，如果i被选中为应急资源存储节点，y_i＝1；反之，y_i＝0。C_i为应急资源存储节点i的存储容量。G为应急资源配置的总投入。V或N表示路网节点的集合。

第二阶段：应急救援时间最小化

其中，前一项表示已发生需求的救援时间，后一项表示随机需求的救援时间。E或A表示路网路段的集合，f_ij和c_ij分别表示路段(i，j)上运送应急资源的交通流量和单位消耗。V_d表示随机需求所产生节点的集合，z_i和s_i分别表示随机需求所产生节点i上的需求和补偿消耗。

第二阶段优化问题的约束条件如下：

二次事故产生随机动态需求：

其中，E₁表示二次事故产生风险高的路段的集合。r_ij为0-1变量，如果路段(i，j)产生了二次事故，r_ij＝1；反之，r_ij＝0。

路网宏观交通流动态特性描述：

其中，和/>分别表示在事件类型s下在t时段，第k类应急资源运载交通流在路段(j，i)或节点i上的流量、保有量量、需求量和随机需求产生率。D为时段时长。/>为提前在节点i上准备的救援拖车数量，/>表示在事件类型s下第k类应急资源运载交通流剩余比例。

可以通过权重求和或者分别归一化处理各目标函数的方式构建协同目标函数。其中，根据如下公式确定协同目标函数C：

其中，ω₁、ω₂以及ω₃分别为权重系数。可以根据实际工况，为三个目标函数分别设置相应的权重值。

本实施例中，步骤S4中，如图7所示，基于交通流仿真搭建复杂地下道路所在区域立体路网的交通环境，模拟在交通事故发生后的交通流演化状态，以交通信号灯、救援车辆等建立环境中的智能体，实现智能体和环境的交互；

基于交通冲突指标TTC，随机生成二次事故，实现应急资源配置和随机动态调度的模拟；以节点和路段总延误、基于交通冲突TTC的交通事故发生概率、救援车辆抵达事故位置的时长为Q值建立深度Q网络；其中，事故发生概率的量化可实现路网信号控制(包括地下道路匝道控制)和路径诱导的可靠性设计；

基于经验回放，评论家通过评估已采用策略的质量估算价值函数；行动者根据评论家提供的信息更新策略参数并采取动作，从而实现行动者高鲁棒性的路网运行管控决策输出；在价值函数的回溯评估过程中用耦合优化模型进行快速估算，从而对路网运行管控策略进行回溯更新，实现数据和模型的混合驱动。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：所述步骤S1，具体包括：

3.根据权利要求1所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：所述步骤S2，具体包括：

4.根据权利要求1所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：建立路网信号控制路径诱导和资源配置动态调度的耦合优化模型，具体包括：

5.根据权利要求4所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：所述多目标规划模型的目标函数包括第一目标函数以及第二目标函数；

所述第一目标函数为：

其中，表示地面路网总延误；/>是地面路网信号控制节点集合，在时段t内加载在路网上的随机需求为Λ_t；k表示决策阶段序号，k₀为初始阶段，阶段k的交通状态和控制策略分别表示为x_k和u_k；x_k+1由需求Λ_t下的x_k和u_k决定，即x_k+1～P(x_k,u_k,|Λ_t)，转换矩阵P由交通流的元胞传输模型CTM得出；d_k为阶段k的路网总延误，K表示规划的控制阶段，γ^k为折扣系数，/>表示数学期望；

所述第二目标函数为：

6.根据权利要求5所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：所述两阶段规划模型的目标函数包括第三目标函数；

所述第三目标函数为：

其中，Z为应急资源配置消耗和最小应急救援时间之和；V_S表示应急资源点候选位置的集合，x_i和d_i分别表示在路网节点i处存储的应急资源数量和采购消耗；Q(x,Γ₁,Γ₂)表示最小应急救援时间，Γ₁和Γ₂分别是控制路网道路中断和交通需求不确定性的参数。

7.根据权利要求6所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：根据如下公式确定协同目标函数C：

其中，ω₁、ω₂以及ω₃分别为权重系数。

8.根据权利要求1所述的地下道路的立体路网交通诱导与应急救援协同管理方法，其特征在于：所述步骤S4，具体包括：