CN113936475A

CN113936475A - 一种多道路资源优化的交通控制方法和系统

Info

Publication number: CN113936475A
Application number: CN202110955483.0A
Authority: CN
Inventors: 方乐恒; 林伟; 孙毅; 杨伟
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-01-14

Abstract

本发明涉及一种多道路资源优化的交通控制方法和系统，方法包括以下步骤：通过传感器采集某一交叉口的车辆排队长度、车辆平均速度和车辆位置信息，从而计算当前交叉口的道路通行能力，构建以道路通行能力最大、平均延误最小的目标函数，计算预设的各个交叉口通行相位顺序的目标函数值，从而获取最优的交叉口通行相位顺序，作为下个周期该交叉口的交叉口通行相位顺序，所述平均延误根据交叉口通行相位顺序、车辆排队长度、车辆平均速度和车辆位置计算。与现有技术相比，本发明通过减少特定拥塞区域内的车辆输入来降低拥塞程度，从而从整体上解决交通拥塞的问题，改善路况，实现无人化和智慧化的交通管理。

Description

一种多道路资源优化的交通控制方法和系统

技术领域

本发明涉及交通控制技术领域，尤其是涉及一种多道路资源优化的交通控制方法和系统。

背景技术

近年来大量的交通研究人员对智能交通系统进行研究和实验，提出对交通灯配时进行优化控制的策略。徐东玲等人依赖模糊逻辑控制和神经网络算法对单交叉口交通灯进行动态配时，该算法通过模糊逻辑控制模糊化路网中的车流量信息，利用神经网络为交通灯提供一个优化的交通灯控制策略，从而缓解交叉口拥堵；陈森发等人在研究车流的显著特征的基础上，把车流分为关键车流和非关键车流，并给出它们不同定义，研究了主要交通行息交通流对交通灯配时优化算法的影响；段宣翡、唐泽杭等人通过模糊逻辑控制对交叉口车道队列长度进行模糊，通过模糊化后的值得到优化的配时方案对交通灯进行控制；夏新海等人实现MDP下基于特征表示强化学习的自适应交通行号控制，利用强化学习算法实现交通灯Agent与环境交互为交通灯选择最优动作，解决交叉口拥堵问题；何兆成，佘锡伟等人通过 Q-Learning算法与环境交互，并且利用模糊逻辑控制对当前交叉口的队列长度进行模糊化或者对Q-Learning的回报函数进行模糊化，来选择交通灯的最优动作，模糊逻辑控制主要应用于Q-Learning状态空间的划分；孙建平等人在基于Agent 的理论上提出交通灯控制与车辆诱导协同模型，并对基于知识模型的多智能体交通控制进行研究；龚等人在对交通灯控制和车辆诱导分别进行研究的基础上，提出了融合算法来提高两系统之间的协同效果，从而提高了交通系统的性能。

由于交通系统的复杂多变和不确定性，基于精确数学模型的交通控制算法难以实现，并且控制效果不是十分理想。因此对于数学模型要求较低的智能化技术成为很多学者的研究内容，该技术适合应用在动态交通系统中，能够获得最优控制策略。其中，遗传算法和基于智能体的控制策略已经应用到交通控制中，这些控制策略对复杂多变的交通系统可以很好的描述，并且交通控制效果要好于传统控制方法，但这些方案很难保证智能交通系统的实时性和自适应性。

近年来，强化学习由于其自学习性和自适应性被应用到交通控制中，并在复杂多变的交通系统被验证有很好的控制效果。可见，强化学习算法在处理交通控制方面有很好的研究前景。但是，强化学习的主要不足之处是在搜索空间大的情况下算法收敛速度慢，如何提高强化学习的收敛速度是强化学习应用于交通控制中的关键。此外，从提升整个交通系统性能的角度来说，实现交通灯控制和车辆诱导两个系统的协同控制是十分关键的。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种通过减少特定拥塞区域内的车辆输入来降低拥塞程度，从而从整体上解决交通拥塞的问题的多道路资源优化的交通控制方法和系统。

本发明的目的可以通过以下技术方案来实现：

一种多道路资源优化的交通控制方法，包括以下步骤：

通过传感器采集某一交叉口的车辆排队长度、车辆平均速度和车辆位置信息，从而计算当前交叉口的道路通行能力，构建以道路通行能力最大、平均延误最小的目标函数，计算预设的各个交叉口通行相位顺序的目标函数值，从而获取最优的交叉口通行相位顺序，作为下个周期该交叉口的交叉口通行相位顺序，所述平均延误根据交叉口通行相位顺序、车辆排队长度、车辆平均速度和车辆位置计算。

进一步地，所述当前交叉口包括常规车道和逆向可变车道，所述当前交叉口的道路通行能力包括，所述常规车道的道路通行能力的计算表达式为：

式中，i为交叉口常规车道组编号，i为1、2、3时分别表示左转、直行、右转；c_i为i车道组的通行能力；s_i为i车道组饱和流率；λ_i为i车道组绿信比；m_i为 i车道组车道数，W为交叉口常规车道组集合。

进一步地，所述逆向可变车道的道路通行能力的计算表达式为：

c_n＝m_n·s_n·λ_n·f

式中，c_n为逆向可变车道通行能力；s_n为逆向可变车道饱和流率；λ_n为逆向可变车道绿信比；m_n为逆向可变车道数；f为折减系数，0<f<1。

进一步地，所述平均延误由交叉口总延误除以交叉口总流量计算，所述交叉口总延误的计算表达式为：

式中，D为交叉口总延误，d_i为交叉口常规i车道组平均延误，d_n为逆向可变车道平均延误，q_i为i车道组流量(pcu/h)；q_n为逆向可变车道流量。

进一步地，所述交叉口常规i车道组平均延误的计算表达式为：

式中，d_i为i车道组平均延误；C为信号周期时长；x_i为i车道组饱和度；T 为分析时段的持续时长；e为单个交叉口信号控制类型校正系数；

所述逆向可变车道平均延误d_n的计算表达式为：

式中，g_e2为东西直行相位有效绿灯时间；I为绿灯间隔时间(s)；Δt₁为预信号绿灯开启时间与东西直行相位绿灯开启时间之差；l₁为逆向可变车道长度；v为车辆驶过交叉口的平均速度。

进一步地，所述目标函数的计算表达式为：

式中，f(g)为逆向可变交叉口综合效益值；D为交叉口总延误；q为交叉口总流量；c_i为i车道组通行能力；c_n为逆向可变车道通行能力；β₁为第一加权系数，β₂为第二加权系数。

进一步地，对所述第一加权系数和第二加权系数进行归一化，所述第一加权系数和第二加权系数的归一化表达为：

式中，y_i为i车道组流量比；Y为流量比总和，s_i为i车道组饱和流率，C为信号周期时长。

进一步地，所述方法还包括根据车辆排队长度和车辆位置信息计算道路剩余容量，从而计算道路流量处理能力，然后根据道路流量处理能力、车辆排队长度和车辆平均排队时间，确定当前周期交叉口各个相位的优先级，从而从预设的各个交叉口通行相位顺序获取较优的交叉口通行相位顺序，计算目标函数值。

进一步地，所述道路流量处理能力的计算表达式为：

RTPC_i,j(k+1)＝C_i,j(k)-L_i,leave(k)

L_i,leave(k)＝L_i1,leave(k)+L_i2,leave(k)+L_i3,leave(k)

C_i,j(k)＝blank_i,j(k)+leave_i,j(k)

式中，RTPC_i,j(k+1)为第k+1个周期开始时道路(i,j)的道路流量处理能力，L_i,leave(k)为第k个周期即将从路口i进入道路(i,j)的车辆长度，C_i,j(k)为第k个周期道路(i,j)的道路剩余容量，blank_i,j(k)为第k个周期开始时道路(i,j)没有车辆的道路长度，leave_i,j(k)为第k个周期中车辆离开道路(i,j)的车辆排长度。

进一步地，所述交通控制方法还包括采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，从而计算所述目标函数值；

所述DQN算法将各道路车辆位置以及对应的车辆速度作为状态，对初始绿灯时长的操作作为动作，奖赏由车辆平均等待时长和车辆通行量共同决定。

本发明还提供一种多道路资源优化的交通控制系统，包括客户端和服务器端，所述客户端通信连接所述服务器端，用于显示服务器端的回传数据，所述服务器端的主体为实时模拟程序，用于执行如上所述的一种多道路资源优化的交通控制方法。

进一步地，所述客户端包括实时模拟后端交互部分和高性能前端渲染部分，所述实时模拟后端交互部分用于建立与服务器端的通讯、建立与服务器端实时模拟入口测试通讯、分析服务器回传数据和调用所述高性能前端渲染部分；所述高性能前端渲染部分用于将图像资源载入GPU，以实现百万辆车级别的实时渲染。

与现有技术相比，本发明具有以下优点：

本发明多道路资源优化的交通控制系统优势在于以下几个方面：一是无需额外的基础交通建设，改变现有的地面交通设施利用方法，提高现有设施的利用率，以此缓解交通拥堵，减少交通事故，实现收费以及货车出入境检查的自动化，保障各种道路设施的畅通运行。二是提供众多的信息以及相关建议，便于出行者更加合理的安排出行的时间、路线的选择。三是由于使用实时交通信息，能够及时探知道路系统中的交通事故，小范围的拥堵等各种交通状况，增强了道路系统的应变能力，能够更为有效，快速地提供救助服务清理事故现场，使其对交通的影响最小，保证交通系统旳稳定运行。

多道路资源优化的交通控制系统的上述优点，使其成为解决城市道路交通网络拥堵的有效方法之一。多道路资源优化的交通控制系统的采用能够有效地提高城市道路交通网络中车辆行驶效率，减少交通事故，维持系统稳定。智能交通系统给人们提供了一个新的思路，跳出了单靠修路限车的传统方法，尝试使用技术以及算法改进来增强人、车、路之间的联系，提高交通系统的效率。

本发明由服务器端进行所有模拟计算及训练优化，根据深度强化学习的交通灯动态配时策略和各类传感器采集到的实时交通信息如车辆排队长度、车辆平均速度和车辆位置等，计算当前路口各车道的道路处理能力。根据雾节点综合道路流量处理能力、车辆排队长度等信息，计算下个周期的相位优先级以及初始绿灯时长。对停车场、路边停车、可变车道、红绿灯、诱导牌的多种道路资源进行优化。可见这样能够通过减少特定拥塞区域内的车辆输入来降低拥塞程度，从而从整体上解决交通拥塞的问题，改善路况，实现无人化和智慧化的交通管理。

附图说明

图1为本发明实施例中提供的一种多道路资源优化的交通控制系统的结构示意图；

图2为本发明实施例中提供的一种交叉口示意图；

图3为本发明实施例中提供的一种道路车辆容纳示意图；

图4为本发明实施例中提供的一种道路剩余容量示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例1

本实施例提供一种多道路资源优化的交通控制方法，用于可变车道的交叉口，可变车道设置在交叉口出口道内侧，根据信号周期内不同相位交通流的通行规则，可作为进口道供左转车流使用，也可作为出口道。逆向可变车道能充分利用闲置的道路空间资源，在主信号与预信号的协调控制下，排队的左转车流能一次通过交叉口，提高交叉口通行效率，当左转交通量较大且饱和度较高、进口道无法拓宽时可以考虑设置逆向可变车道。图2为南进口设置逆向可变车道交叉口，假设该交叉口相序为：东西左转、东西直行、南北左转、南北直行，则车流通行规则为：当东西左转车流通行时，逆向可变车道为出口道；当东西直行车流通行时，南出口道闲置，南进口左转车流可在预信号绿灯的控制下驶入逆向可变车道等待通行，并在南北左转相位开启时通过交叉口，如图2(a)所示；当南北进口直行车流通行时，逆向可变车道由进口道转化为出口道，如图2(b)所示，为避免南进口左转车流与出口道车流冲突，预信号绿灯须在南北左转相位结束前关闭。

多道路资源优化的交通控制方法，包括以下步骤：

通过传感器采集某一交叉口的车辆排队长度、车辆平均速度和车辆位置信息，从而计算当前交叉口的道路通行能力，构建以道路通行能力最大、平均延误最小的目标函数，计算预设的各个交叉口通行相位顺序的目标函数值，从而获取最优的交叉口通行相位顺序，作为下个周期该交叉口的交叉口通行相位顺序，平均延误根据交叉口通行相位顺序、车辆排队长度、车辆平均速度和车辆位置计算。

交叉口常规车道组通行能力采用饱和流率法按式(1)计算。逆向可变车道通过预信号控制后可达到常规左转车道的运行效果，但考虑到不熟悉逆向可变车道交叉口运行方式或认为逆向可变车道存在安全隐患而不愿驶入逆向可变车道的驾驶员，所以逆向可变车道的通行能力根据常规左转车道组通行能力进行折减，按式(2) 计算。

c_n＝m_n·s_n·λ_n·f (2)

式中：i为交叉口常规车道组编号，i为1、2、3时分别表示左转、直行、右转；c_i为i车道组的通行能力(pcu/h)；s_i为i车道组饱和流率；λ_i为i车道组绿信比；m_i为i车道组车道数；c_n为逆向可变车道通行能力(pcu/h)；s_n为逆向可变车道饱和流率；λ_n为逆向可变车道绿信比；m_n为逆向可变车道数；f为折减系数，0<f<1；W为交叉口常规车道组集合。

假设车辆达到交叉口服从泊松分布，对设置逆向可变车道后的交叉口进行延误分析。交叉口常规车道组延误根据HCM2010计算为

式中：d_i为i车道组平均延误(s)；C为信号周期时长(s)；x_i为i车道组饱和度；T为分析时段的持续时长，取0。25h；e为单个交叉口信号控制类型校正系数，取0.5。

预信号绿灯与交叉口左转相位的开启时间存在时间差。预信号绿灯开启后，驶入逆向可变车道的左转车辆到达交叉口停车线仍需停车等待，因此，逆向可变车道延误可用相位差计算。

以泊松分布驶入逆向可变车道的第1辆左转车辆延误d_n1为

式中：g_e2为东西直行相位有效绿灯时间(s)；I为绿灯间隔时间(s)；Δt₁为预信号绿灯开启时间与东西直行相位绿灯开启时间之差(s)；l₁为逆向可变车道长度(m)；v为车辆驶过交叉口的平均速度(m/s)。

以泊松分布驶入逆向可变车道最后1辆左转车驶入逆向可变车道时，逆向可变车道内排队的车辆已消散，车辆以自由流状态通过交叉口，延误为零。因此，逆向可变车道平均延误d_n为

交叉口总延误D为

式中：q_i为i车道组流量(pcu/h)；q_n为逆向可变车道流量(pcu/h)。

以交叉口通行能力最大、平均延误最小为目标，建立优化模型目标函数为

式中：f(g)为逆向可变交叉口综合效益值；D为交叉口总延误(s)；q为交叉口总流量(pcu/h)；c_i为i车道组通行能力(pcu/h)；c_n为逆向可变车道通行能力(pcu/h)；β₁、β₂为加权系数。

一般情况下，饱和流量越大延误越大，所以延误系数与饱和流量成正比；交通量越大，通行能力在目标函数中所占比例越大，且周期越长通行能力越大。因此，当交通拥堵程度增加时，延误在目标函数中所占比例减小，而通行能力所占比例增大。则将加权系数β₁、β₂归一化为

式中：y_i为i车道组流量比；Y为流量比总和。

作为一种优选的实施方式，方法还包括根据车辆排队长度和车辆位置信息计算道路剩余容量，从而计算道路流量处理能力(RTPC)，然后根据道路流量处理能力、车辆排队长度和车辆平均排队时间，确定当前周期交叉口各个相位的优先级，从而从预设的各个交叉口通行相位顺序获取较优的交叉口通行相位顺序，计算目标函数值。

若计算出RTPC<0(道路流量处理能力)则表示道路有很大可能在下个周期发生拥堵或者已经略微拥堵。相邻交通灯在雾层进行信息共享，因此交通灯可以直接获得相邻路口的RTPC信息。因此当检测到当前路口发生拥堵的可能性大时，应找寻其上游相邻路口的交通灯确定其RTPC，若上游相邻路口也有拥堵的高倾向或者已发生拥堵则继续寻找上游路口，直至找到最开始发生拥堵的路段，从源头解决拥堵。相反若计算出RTPC>0则表示该道路目前发生拥堵的可能性低，可以适当增加进入该道路的车辆数，增加道路吞吐量也可帮助相邻拥堵道路缓解拥堵。

事实上当拥堵已经形成时再去缓解的效果并不佳，因此应当提前或者在拥堵形成的初期就及时解决拥塞问题。当一个路口发生拥堵时应利用相邻路口的交通能力来缓解，然而如果过多的减少上游路口进入当前路口的车辆数或过多的增加离开当前路口的车辆则会使得拥塞向上下游蔓延，交通网中拥塞会越来越严重。因此根据相邻路口的剩余交通能力合理分配相应绿灯时长与绿灯相位顺序十分重要。如图3 所示，绿色部分表示道路(i,j)在周期开始时所没有车辆的道路长度；黄色部分表示当前周期道路(i,j)新产生的排队车辆长度；蓝色部分表示上个周期未能离开道路(i, j)的车辆长度；红色部分表示当前周期即将进入道路(i,j)的车辆长度。

道路剩余容量如图4所示，首先说明一下图中的标识含义：

M_i,j：道路(i,j)的道路长度；

blank_i,j(k)：第k个周期开始时道路(i,j)没有车辆的道路长度；

leave_i,j(k)：第k个周期中车辆离开道路(i,j)的车辆排长度；

remain_i,j(k-1)：第k-1个周期结束时道路(i,j)中未能离开道路(i,j)的车辆排长度。

remain_i,j(k)：第k个周期结束时道路(i,j)中未能离开道路(i,j)的车辆排长度；

queue_i,j(k)：第k个周期开始时道路(i,j)中的停车等待的车辆排队长度；

其中leave_i,j(k)包括了上个周期未能离开的道路(i,j)的车辆；

方法定义道路剩余容量C_i,j(k)为第k个周期中道路(i,j)所能容纳的新车辆长度，即，

C_i,j(k)＝blank_i,j(k)+leave_i,j(k) (10)

利用道路剩余容量可以得到RTPC，也就是将道路剩余容量与道路输入需求做差，并以此作为相位顺序的影响因素之一。

RTPC_i,j(k+1)＝C_i,j(k)-L_i,leave(k) (11)

L_i,leave(k)＝L_i1,leave(k)+L_i2,leave(k)+L_i3,leave(k) (12)

式中：

L_i,leave(k)：第k个周期即将从路口i进入道路(i,j)的车辆长度，即图4中 L_i,leave(k)标记部分所示；

RTPC_i,j(k+1)：第k+1个周期开始时道路(i,j)的道路流量处理能力。

RTPC>0则说明该道路剩余容量可以满足道路的输入需求，可以容纳更多的车辆以适当增加进入该道路的车辆；相反若RTPC<0则说明道路剩余容量不能满足该道路的输入需求，这意味着下个周期本应从路口i进入道路(i,j)的车辆不能完全被容纳，会带来拥堵问题。因此需要适当增加离开道路(i,j)的车辆并且适当减少进入道路(i,j)的车辆数以此增大道路(i,j)的RTPC。

由上述可知，道路的流量处理能力受到其上下游道路的车辆数和相邻交通灯的影响。因此改善当前道路的RTPC意味着要改变其相邻道路的RTPC。增加离开道路(i,j)的车辆数意味着减少下游道路的道路剩余容量，从而降低下游道路的 RTPC；减少进入道路(i,j)的车辆数意味着减少上游道路的车辆输出，从而降低上游道路的RTPC。总而言之就是通过牺牲相邻道路的RTPC来改善当前道路的 RTPC，实现RTPC的局部平衡进而一点点化散拥塞。

方法利用RTPC给不同的道路分配权重，权重表示道路发生拥堵的可能性。

ω_i,j(k)＝-RTPC_i,j(k+1)/L_i,leave(k) (13)

其中ω_i,j(k)<0且ω_i,j(k)的值越小表示道路(i,j)越没有拥堵的风险，可以适当增加上游道路的输入车辆数；ω_i,j(k)>0且ω_i,j(k)的值越接近于1表示该道路拥堵越严重，此时就要适当减少上游道路的输入车辆和增加离开道路(i,j)的输出车辆以改善该道路的RTPC。

给不同的道路分配权重，体现在修正不同道路的车辆等待时间所受惩罚上(如某条路平时发生拥堵的可能性较高则需重点考量等待时间惩罚并重点优化)，并最终优化交通行为的控制。

方法设定一个周期内一个路口每个相位至多有一次绿灯时间。相位优先级分为三个部分组成：RTPC优先级、车辆排队长度优先级和车辆平均等待时间优先级。首先根据采集到的实时交通流量信息分别对各道路进行RTPC优先级排列、车辆排队长度优先级和车辆平均等待时间优先级排列。然后通过式14计算各周期各道路的优先级，再结合相位搭配即可得到各周期的相位搭配与相位顺序。

Priority_i,j(k)＝α×PR_i,s(k)+β×PQ_i,s(k)+γ×AW_i,s(k) (14)

α+β+γ＝1 (15)

式中：

Priority_i,j(k)：第k个周期路口i的相位s的优先级，Priority_i,j(k)越小优先级越高；

PR_i,s(k)：第k个周期路口i的相位s的RTPC优先级；

PQ_i,s(k)：第k个周期路口i的相位s的车辆排队长度优先级；

AW_i,s(k)：第k个周期路口i的相位s的车辆平均等待时间优先级；

α、β、γ——常系数，取值范围均在[0,1]之间，且满足公式15。

上述PR_i,s(k)、PQ_i,s(k)和AW_i,s(k)的值均根据实时交通流量信息或仿真系统数据，进行设定，设定过程中，针对各路口各相位的道路流量，为能承载较大流量压力的相位配置更高优先级。

作为一种优选的实施方式，交通控制方法还包括采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，从而计算目标函数值；

DQN算法将各道路车辆位置以及对应的车辆速度作为状态，对初始绿灯时长的操作作为动作，奖赏由车辆平均等待时长和车辆通行量共同决定。

本实施例设定车辆以λ为参数的泊松流到达路口，各车辆已知自己的当前车辆速度v和自身与停止线的距离x。

DQN算法采用ε-greedy(0≤ε≤1)策略，即每次选取行为时以ε的概率选取Q值最大的行为，以1–ε的概率随机选择行为。设定交通灯绿灯时长控制行为一共有三种，即

奖励由两部分组成：基于车辆平均等待时长的惩罚和基于车辆通行量的奖赏。计算奖励共分为两种情况。设初始绿灯时长采取行为后绿灯时长为a秒：

1)交通灯即将从红灯转为绿灯

各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排的时间t。若 t<a则说明该车辆可以在接下来的绿灯时间内通过该路口。由于本研究设定车辆以λ为参数的泊松流到达路口，已知泊松流关于时间ω的概率密度函数如17所示，则a配时策略下该车道车辆通行量如公式18所示。

式中，ω为观测时间，λ为泊松流参数，n为车辆到达数；

所以该车道车辆通行总量为

式中NUM_vehicle表示绿灯开始时已经排队等待的车辆数。η是车辆通过路口的时间，根据在实际路口观察到车辆通过路口大约需要2s，a为采取动作后的绿灯时长，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排的时间。因此车道车辆通行总量如18所示。

2)交通灯即将从绿灯转为红灯

各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间为 t。则该车等待时间为a-t，后面的车辆以λ为参数的泊松流到达路口。设p时刻(0≤p≤a-t)有车辆到达并开始等待，则Agent会因车辆等待受到惩罚，并以等待时长定义惩罚度，

式中，0≤p≤a-t，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间，a为采取动作后的绿灯时长，k为单位等待时间惩罚系数；

则Agent因为n辆车在[t,a]时间段内到达形成车辆排并且进行等待的过程中受到的惩罚为：

则Agent因该道路的车辆等待时间所受惩罚为：

式中，NUM_vehicle为绿灯开始时已经排队等待的车辆数。

若t>a，意味着对于公式18和公式21中没有停车等待的车辆部分的奖赏和惩罚为0。因此，由上述可以得到，设j路口的Agent在状态s下采取行为后获得的奖赏为：

r_j＝α×reward_j+β×[reward_jA+reward_jB+reward_jC+reward_jD] (22)

α+β＝1 (23)

公式22中：

reward_jA——路口j相邻路口A的最近一次的奖励；

reward_jB——路口j相邻路口B的最近一次的奖励；

reward_jC——路口j相邻路口C的最近一次的奖励；

reward_jD——路口j相邻路口D的最近一次的奖励。

公式24中：

reward_NS(s_j,a_j)——南北方向转绿灯的奖励；

reward_WE(s_j,a_j)——东西方向转绿灯的奖励。

公式25和26分别是南北方向转绿灯的奖励和东西方向转绿灯的奖励，如下所示：

式中，reward_jA为路口j相邻路口A的最近一次的奖赏，reward_jB为路口j相邻路口B的最近一次的奖赏，reward_jC为路口j相邻路口C的最近一次的奖赏，reward_jD为路口j相邻路口D的最近一次的奖赏，reward_NS(s_j,a_j)为南北方向转绿灯的奖赏， reward_WE(s_j,a_j)为东西方向转绿灯的奖赏，λ为泊松流参数，η为车辆通过路口的时间，a为采取动作后的绿灯时长，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间，NUM_vehicle为绿灯开始时已经排队等待的车辆数， N为北向，S为南向，W为西向，E为东向，k为单位等待时间惩罚系数。

本实施例还提供一种多道路资源优化的交通控制系统，包括：

客户端包含实时模拟和回放模拟两部分。其中实时模拟为连接服务器进行实时计算，又包含人工控制沙盒模式和强化学习训练模式，分别对应自定义初始参数配置下的无优化实时模拟和优化实时模拟。自定义初始参数包括人数投放设置和停车场容量设置。人数投放设置包含每小时总入场人数配置，小车、大车、出租车与地铁各自占总人数比例配置，各条道路进入人数占比配置。停车场容量设置包含内部停车场配置，地铁站P+R停车场配置，道路停车场配置，商场停车场配置。服务器端包含模拟大厅主程序，实时模拟入口两部分。实时模拟入口又分无优化和优化两种，分别对应不使用和使用深度神经网络进行强化学习训练情况下运行实时模拟程序。实时模拟程序作为服务器端以及整个项目系统的核心，主要包含载入模拟配置，载入路网，配置红绿灯，配置诱导牌，配置停车场，配置导航，配置动态导航规则，配置神经网络训练接口，配置神经网络前馈控制红绿灯相位切换接口功能，配置实时保存模拟数据，配置实时网络传输模拟结果功能等模块。

具体地，所述交通控制系统分为客户端和服务器端，客户端负责呈现交互界面及显示实时或回放模拟结果，服务器端负责进行所有模拟计算及训练优化。

所述客户端主要构成为含强化学习的实时模拟后端交互部分(Core-RL)和高性能前端渲染部分(Render)。客户端的Core-RL包含以下模块：

建立与服务器端大厅通讯：与服务器大厅连接后调用服务器端实时模拟入口程序。

建立与服务器端实时模拟入口测试通讯：直接连接实时模拟入口程序，开发调试用。

分析服务器回传数据：包含实时模拟训练的状态数据、实时红绿灯相位切换动作数据、实时服务器计算日志数据、实时诱导牌生效数据、实时模拟训练步数数据、静态红绿灯配置数据、静态路网配置数据等。分析后将结果传给Render。

调用Render：当实时模拟开始运行时，启用Render，并根据显示器刷新率计算每秒帧数，逐帧绘制模拟状况。

所述客户端的Render包含以下模块：

将图像资源载入GPU，以实现百万辆车级别的实时渲染。具体的，静态图像资源包含6种不同类型的汽车、自行车、摩托车、行人，和八种红绿灯的状态。

载入我们为车道级模拟显示优化的瓦片地图资源。

逐帧渲染车的状态、红绿灯状态。

动态显示实时服务器计算日志。

无优化实时模拟动态显示平均Time Loss图像。优化实时模拟动态显示训练奖励图像。

动态显示所有停车场已停大小车数量。

动态显示地铁站滞留人数、到访总人数、行驶种车辆平均车速图像。

所述服务器端的主体为实时模拟程序，用于执行上述多道路资源优化的交通控制，包含以下模块：

载入模拟配置：载入配置文件，生成路网、红绿灯、导航原始文件。

载入路网：依据临港地区UTM 51 WGS84坐标映射体系将路网原始文件中的所有经纬度坐标转换为欧式坐标。

配置红绿灯：根据红绿灯原始文件配置各红绿灯路口的红绿灯相位数组。

配置诱导牌：根据客户端传入的诱导牌配置，寻找路网中诱导牌对应的位置(包含路段编号，所在车道编号，车道上的具体位置)。

配置停车场：并根据客户端传入的停车场配置，生成每个诱导牌的诱导规则。

配置导航：利用已配置的诱导牌和停车场和客户端传入的到达率参数，根据泊松分布生成多条车辆导航。

配置动态导航规则：根据停车容量满则诱导至其的诱导牌诱导至其他最优停车场，经过这些诱导牌的车实时变更目的地，生成动态导航规则。

配置神经网络训练接口：每步模拟可将<观测状态、奖励、是否终局、其他信息>四元组传入深度神经网络并实时训练DQN Agent。

配置神经网络前馈控制红绿灯相位切换接口：每步模拟前可根据DQN Agent 的动作输出实时控制红绿灯相位的切换。

配置实时保存模拟数据功能：每步模拟可将所有模拟数据保存记录以便回放。

配置实时网络传输模拟结果功能：每步模拟可将所有模拟数据实时传至客户端演示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种多道路资源优化的交通控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多道路资源优化的交通控制方法，其特征在于，所述当前交叉口包括常规车道和逆向可变车道，所述当前交叉口的道路通行能力包括，所述常规车道的道路通行能力的计算表达式为：

式中，i为交叉口常规车道组编号，i为1、2、3时分别表示左转、直行、右转；c_i为i车道组的通行能力；s_i为i车道组饱和流率；λ_i为i车道组绿信比；m_i为i车道组车道数，W为交叉口常规车道组集合。

3.根据权利要求2所述的一种多道路资源优化的交通控制方法，其特征在于，所述逆向可变车道的道路通行能力的计算表达式为：

c_n＝m_n·s_n·λ_n·f

4.根据权利要求1所述的一种多道路资源优化的交通控制方法，其特征在于，所述平均延误由交叉口总延误除以交叉口总流量计算，所述交叉口总延误的计算表达式为：

5.根据权利要求4所述的一种多道路资源优化的交通控制方法，其特征在于，所述交叉口常规i车道组平均延误的计算表达式为：

式中，d_i为i车道组平均延误；C为信号周期时长；x_i为i车道组饱和度；T为分析时段的持续时长；e为单个交叉口信号控制类型校正系数；

所述逆向可变车道平均延误d_n的计算表达式为：

6.根据权利要求1所述的一种多道路资源优化的交通控制方法，其特征在于，所述目标函数的计算表达式为：

7.根据权利要求6所述的一种多道路资源优化的交通控制方法，其特征在于，对所述第一加权系数和第二加权系数进行归一化，所述第一加权系数和第二加权系数的归一化表达为：

8.根据权利要求1所述的一种多道路资源优化的交通控制方法，其特征在于，所述方法还包括根据车辆排队长度和车辆位置信息计算道路剩余容量，从而计算道路流量处理能力，然后根据道路流量处理能力、车辆排队长度和车辆平均排队时间，确定当前周期交叉口各个相位的优先级，从而从预设的各个交叉口通行相位顺序获取较优的交叉口通行相位顺序，计算目标函数值；

所述道路流量处理能力的计算表达式为：

RTPC_i,j(k+1)＝C_i,j(k)-L_i,leave(k)

L_i,leave(k)＝L_i1,leave(k)+L_i2,leave(k)+L_i3,leave(k)

C_i,j(k)＝blank_i,j(k)+leave_i,j(k)

9.根据权利要求1所述的一种多道路资源优化的交通控制方法，其特征在于，所述交通控制方法还包括采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，从而计算所述目标函数值；

10.一种多道路资源优化的交通控制系统，包括客户端和服务器端，其特征在于，所述客户端通信连接所述服务器端，用于显示服务器端的回传数据，所述服务器端的主体为实时模拟程序，用于执行如权利要求1所述的一种多道路资源优化的交通控制方法。