CN113724507A

CN113724507A - 基于深度强化学习的交通控制与车辆诱导协同方法和系统

Info

Publication number: CN113724507A
Application number: CN202110955481.1A
Authority: CN
Inventors: 方乐恒; 林伟; 孙毅; 杨伟
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-30
Anticipated expiration: 2041-08-19
Also published as: CN113724507B

Abstract

本发明涉及一种基于深度强化学习的交通控制与车辆诱导协同方法和系统，方法包括：构建交通灯Agent和车辆Agent；根据交通灯Agent和车辆Agent，设定并初始化DQN算法模型，该DQN算法模型中的动作集包括车辆动作和交通灯动作；根据Q值表选取并执行各车辆Agent的动作，并在各车辆Agent的动作执行结束后，根据执行完毕的车辆Agent的反馈信息更新对应的Q值表；根据各车辆Agent的动作，对交通灯进行动态配时，以削减车辆平均等待时间为目标选择交通灯最优动作；判断各交通灯Agent所选动作是否结束，对所选动作执行完毕的交通灯Agent根据实时反馈信息来更新对应的Q值表；重复更新，直至满足预设的停止条件。与现有技术相比，本发明具有较好的感知和决策能力并且具有很好的适应性。

Description

基于深度强化学习的交通控制与车辆诱导协同方法和系统

技术领域

本发明涉及交通控制技术领域，尤其是涉及基于深度强化学习的交通控制与车辆诱导协同方法和系统。

背景技术

伴随着大数据，5G通信技术、物联网、云计算、人工智能等新技术正在落地生根，并得到广泛应用，为智能交通系统(Intelligent Transportation Systems,ITS)提供了强有力的技术支持。近十年来，ITS在交通诱导、驾驶员疲劳监测、交通运行状况监测、紧急救援、流量预测等方面发挥了重要作用。在这些因素中，交通控制与诱导一直是ITS研究的重点和难点，为更方便、更准确地判断交通变化趋势，缓解城市交通拥挤，交通控制与诱导技术是其研究的核心问题。由于受各种复杂因素的影响，交通拥堵问题呈现出非线性、突发性、难以捕捉变化规律等特点，使得交通控制和诱导的协同研究变得十分困难。现有的研究大多采用两种模型来缓解城市网络中的交通拥挤，即信号优化模型和交通分配模型。所以，在完成交通流量预测之后，将流量预测信息应用于交通控制和交通诱导的协同研究，可以缓解交通拥挤问题。

一种方法是把交通分配看成是固定的，采用信号配时的最优方案，并提出了一种实时学习计算交叉路口信号配时的算法，以达到实时调节参数，精确计算的效果，最后通过仿真显示出效果良好，但没有把各车辆的偏好和车辆之间的动态协作结合起来，无法满足各车辆的交通需求。目前，随着人工智能的发展，一些智能算法，如增强学习(MARL)、多代理(MARL)等，都有了很大的发展空间，但是还缺乏对交通诱导的探索分析，只考虑控制算法，不结合交通诱导技术。从大量的研究经验中可以看出，交叉口信号灯配时与诱导交通相结合是实现最佳交通状态的关键，但是大多数研究者仅仅考虑了交叉口的行驶时间，对交叉口车辆的等待时间几乎没有研究。在过度依赖路网交通诱导系统的情况下，会产生诱导效应，影响交通信号控制现象。

另一类是以交通分配为决策变量，考虑固定的信号控制方式，如路线导航算法。将算法分为确定性算法和智能算法。这两种方法都有其缺点，比如计算情况只针对当前的实际情况，对交通流量随时间的变化是捕捉不到准确的变化趋势，还是无法对未来交通流量的变化趋势进行预测分析。该方法由于受条件的限制，在构建路网时并未考虑到整个路网的完整性，因而在设计诱导方案时精度不高。

传统的交通控制系统与交通流量诱导系统是两个独立的系统，仅是共享各自的数据而已，无法有效缓解交通拥挤问题。

发明内容

本发明的目的就是为了克服上述现有技术存在传统的交通控制系统与交通流量诱导系统是两个独立的系统，仅是共享各自的数据而已，无法有效缓解交通拥挤问题的缺陷而提供一种基于深度强化学习的交通控制与车辆诱导协同方法和系统。

本发明的目的可以通过以下技术方案来实现：

一种基于深度强化学习的交通控制与车辆诱导协同方法，包括以下步骤：

S1：构建交通灯Agent和车辆Agent；

S2：根据所述交通灯Agent和车辆Agent，设定并初始化DQN算法模型，该DQN算法模型中的动作集包括车辆动作和交通灯动作；

S3：根据Q值表选取并执行各车辆Agent的动作，并在各车辆Agent的动作执行结束后，根据执行完毕的车辆Agent的反馈信息更新对应的Q值表；

S4：根据步骤S3中各车辆Agent的动作，对交通灯进行动态配时，以削减车辆平均等待时间为目标选择交通灯最优动作；

S5：判断各交通灯Agent所选动作是否结束，对所选动作执行完毕的交通灯Agent根据实时反馈信息来更新对应的Q值表；

S6：返回步骤S3，直至满足预设的停止条件。

进一步地，采用Boltzmann策略从所述Q值表中选择动作，所述Boltzmann策略的计算表达式为：

式中，A为车辆的动作集合，p[a∣s]为车辆在状态s选择动作a的概率，τ为温控参数，Q(s,a)为状态s和动作a对应的Q值。

进一步地，所述方法还包括根据交通拥堵状况对τ值进行调整：交通拥堵状况越拥堵，τ值越大。

进一步地，所述Q值表的更新表达式为：

Q_d(s,k)＝(1-α)Q_d(s,k)+α(t_sk+γQ_d(k,n))

式中，Q_d(s,k)为车辆从节点s出发使用动作k的行动价值，α是学习率，表示Agent对当前动作的重视程度，γ是折扣率，表示Agent对当前动作的回报的重视程度，t_sk为Agent的动作作用于环境的反馈值，Q_d(k,n)为从节点k出发使用动作n的行动价值。

进一步地，所述交通控制方法还包括采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，从而以削减车辆平均等待时间为目标选择交通灯最优动作；

所述DQN算法将各道路车辆位置以及对应的车辆速度作为状态，对初始绿灯时长的操作作为动作，奖赏由车辆平均等待时长和车辆通行量共同决定。

进一步地，所述DQN算法采用ε-greedy策略选取动作，所述ε-greedy策略在每次选取动作时以ε的概率选取Q值最大的动作，以1–ε的概率随机选择动作，0≤ε≤1)，所述动作的表达式为：

式中，A为动作。

进一步地，所述奖赏由车辆平均等待时长和车辆通行量共同决定，具体为：所述奖赏包括基于车辆平均等待时长的惩罚和基于车辆通行量的奖赏；

当交通灯即将从红灯转为绿灯时，设定车辆以λ为参数的泊松流到达路口，则所述车辆通行量f(ω)的表达式为：

式中，ω为观测时间，λ为泊松流参数，n为车辆到达数；

所述基于车辆通行量的奖赏基于某一车道的车辆通行总量计算，所述某一车道的车辆通行总量的计算表达式为：

式中，NUM_vehicle为绿灯开始时已经排队等待的车辆数，η为车辆通过路口的时间，a为采取动作后的绿灯时长，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排的时间。

进一步地，当交通灯即将从绿灯转为红灯时，设p时刻有车辆到达并开始等待，后面的车辆以λ为参数的泊松流到达路口，则当前计算的车辆的惩罚度定义为：

式中，0≤p≤a-t，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间，a为采取动作后的绿灯时长，k为单位等待时间惩罚系数；

则当前计算的车辆因为n辆车在[t,a]时间段内到达形成车辆排并且进行等待的过程中受到的惩罚为：

则当前计算的车辆因该道路的车辆等待时间所受惩罚为：

式中，NUM_vehicle为绿灯开始时已经排队等待的车辆数。

进一步地，在j路口的当前计算的车辆在状态s下采取动作后获得的奖赏的计算表达式为：

r_j＝α×reward_j+β×[reward_jA+reward_jB+reward_jC+reward_jD]

α+β＝1

式中，reward_jA为路口j相邻路口A的最近一次的奖赏，reward_jB为路口j相邻路口B的最近一次的奖赏，reward_jC为路口j相邻路口C的最近一次的奖赏，reward_jD为路口j相邻路口D的最近一次的奖赏，reward_NS(s_j,a_j)为南北方向转绿灯的奖赏，reward_WE(s_j,a_j)为东西方向转绿灯的奖赏，λ为泊松流参数，η为车辆通过路口的时间，a为采取动作后的绿灯时长，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间，NUM_vehicle为绿灯开始时已经排队等待的车辆数，N为北向，S为南向，W为西向，E为东向，k为单位等待时间惩罚系数。

本发明还提供一种基于深度强化学习的交通控制与车辆诱导协同系统，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如上所述的方法的步骤。

与现有技术相比，本发明具有以下优点：

(1)本发明在交通灯控制系统中每个交通灯之间协同，优化交通灯的配时。在车辆诱导系统中，车辆相互协同，优化车辆路径选择；车辆的行驶时间和通过交通灯是的延误时间分别受两个系统影响；交通灯控制系统所决定的策略依赖于车辆诱导系统更新过程后产生新的车辆控制方案进行制定，从而提高了整个交通系统的性能。

(2)本发明采用Boltzmann策略从所述Q值表中选择动作，实现根据状态动作对所对应的Q值的优劣确定动作选择概率，并可根据所在交叉节点处的拥堵状况调整其中的τ值，使得当拥堵状况良好时，将τ调整为比较小的值，这样可以选择到最优Q值所对应的动作；当拥堵状况严重时，将τ调整为比较大的值，对可选动作进行随机性的选择，避免了某一条车道的过度拥堵状况。

(3)本发明将深度学习与强化学习两者相结合，应用于交通灯动态配时策略，同时具有较好的感知和决策能力并且具有很好的适应性。

(4)本发明采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，实现根据步骤S3中各车辆Agent的动作，对交通灯进行动态配时，以削减车辆平均等待时间为目标选择交通灯最优动作；DQN算法将各道路车辆位置以及对应的车辆速度作为状态，对初始绿灯时长的操作作为动作，奖赏由车辆平均等待时长和车辆通行量共同决定；奖赏的设定考虑了基于车辆平均等待时长的惩罚和基于车辆通行量的奖赏、当前时刻的路口奖赏以及最近一次各相邻路口的奖赏，整体考虑符合实际，控制准确率高、效果好。

附图说明

图1是本发明基于强化学习的交通灯控制与车辆诱导协同流程示意图；

图2是本发明基于Sarsa学习的车辆诱导算法示意图；

图3是本发明DQN网络设计规格示意图；

图4是本发明一实施例的仿真结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

本发明提供的一种基于深度强化学习的交通控制与车辆诱导协同方法和系统如图1所示，图1为本发明提供的一种基于强化学习的交通灯控制与车辆诱导协同流程示意图，所述方法包括步骤S1至步骤S8：

S1：交通控制中心统计所有交通灯Agent和车辆Agent，存入集合中；

S2：交通控制中心对中所有Agent的Q值进行初始化；

S3：交通控制中心根据路网上控制节点发送的动作控制请求对车辆进行诱导过程；

S4：交通控制中心实时验证各车辆Agent所选动作是否结束，对所选动作执行完毕的车辆Agent根据实时反馈信息来更新对应Agent的Q值表；

S5：交通控制中心把车辆诱导信息和诱导方案发送到交通灯控制系统中；

S6：交通灯Agent根据接收到的诱导信息对交通灯进行动态配时，以削减车辆平均等待时间为目标选择交通灯最优动作；

S7：交通控制中心实时验证各交通灯Agent所选动作是否结束，对所选动作执行完毕的交通灯Agent根据实时反馈信息来更新对应Agent的Q值表；

S8：如未满足停止条件，返回步骤S3。

参见图2，本发明提出的基于Sarsa学习的车辆诱导算法。应用基于Sarsa学习的车辆诱导策略与复杂的交通环境进行交互对路网中的交通流进行分流。在该诱导策略中，交通路网中的车辆是Sarsa学习的Agent，交通路网中的交叉口信息节点与交通控制中心进行信息传递，并和每个通过交叉口的车辆进行通信，Agent利用Sarsa学习过程指导车辆进行动作选择，即选择下一条车道，Sarsa学习算法与环境交互的回报函数值为车辆在车道上的行驶时间。自学习系统不断的与环境进行交互，获得反馈信息，从而修改状态动作之间的映射。

Sarsa算法的更新公式如下所示：

Q_d(s,k)＝(1-α)Q_d(s,k)+α(t_sk+γQ_d(k,n)) (1)

式中，参数α是学习率，表示Agent对当前动作的重视程度，如果α为1，则忽视历史动作对Q值的影响。参数γ是折扣率，表示Agent对当前动作的回报的重视程度，如果γ为0，则只考虑当前回报不考虑长远回报。Q_d(s,k)是车辆从节点s出发使用动作k的行动价值。t_sk即为Agent的动作作用于环境的反馈值。Q_d(s,k)是环境反馈值的累积值，Agent将根据环境实时的反馈值和历史的数据信息来进行Q_d(s,k)的更新。更新后的Q值表优化了车辆的行动，并最终通过优化后的车辆行动统计出路口处的平均等待时间，并进一步优化红绿灯时长控制动作(让等待时间长的路口绿灯时间变长即可)。

所述方法提出的基于Sarsa学习的车辆诱导算法的状态描述，在对车辆进行诱导时，首选确定Agent的状态，才能获得更好的诱导模式。决定车辆Agent状态的参数主要有车辆所在的车道和车辆所在的交叉口。因为本文中车辆的终点是某个信息节点，所以把车辆所在的交叉口定义为车辆Agent的状态。如果把车辆所在的车道定义为车辆Agent的状态，这么多状态如果都进行考虑，那么状态空间会十分巨大，将会增大Sarsa学习算法的收敛难度。

所述方法提出的基于Sarsa学习的车辆诱导算法的动作选择，Agent动作选择策略中Agent根据Q值进行车辆诱导，即为车辆选择下一下车道。Boltzmann策略的原理是Agent的动作选择概率根据状态动作对所对应的Q值的优劣进行等级划分，优的Q值对应的动作选择概率偏大，劣的Q值对应的动作选择概率偏小，本文使用Boltzmann策略进行动作选择，公式如下：

式中，A为车辆的动作集合，p[a∣s]为车辆在状态s选择动作a的概率，τ为温控参数。Agent学习过程中τ的值根据所在交叉节点处的拥堵状况进行调整，当拥堵状况良好时，将τ调整为比较小的值，这样可以选择到最优Q值所对应的动作。当拥堵状况严重时，将τ调整为比较大的值，对可选动作进行随机性的选择，避免了某一条车道的过度拥堵状况。

当车辆与交通控制中心进行交互，车辆通过信息节点将自身的状态信息与动作信息发送到交通控制中心，车辆执行从控制中心接受到的动作，动作结束时环境实时反馈奖惩值，Sarsa学习算法根据实时奖惩值进行Q值表的更新。

所述方法提出的基于Sarsa学习的车辆诱导算法整体流程如下：

步骤1：交通控制中心统计所有车辆Agent，存入集合中；

步骤2：交通控制中心对中所有Agent的Q值进行初始化；

步骤3：交通控制中心根据路网上控制节点发送的动作控制请求对车辆进行诱导控制；

步骤4：交通控制中心实时各Agent所选动作是否结束，对所选动作执行完毕的Agent根据实时反馈信息来更新对应Agent的Q值表；

步骤5：判断未终止，执行步骤3。

所述方法提出的车辆动作选择的流程如下所示：

步骤1：路网中车辆到达某一状态时向交通控制中心发出动作选择请求；

步骤2：交通控制中心获取车辆在控制节点所执行的动作；

步骤3：交通控制中心根据车辆的状态动作对得到其所对应的Q值表中Q值；

步骤4：根据公式1计算交通灯应该分配的下一个动作，即下一个车道；

步骤5：将该车辆的下一动作的控制信息发送给车辆Agent；

步骤6：交通控制中心将该信息节点的车辆执行动作期间的车辆的平均行驶时间T记录下来。

所述方法提出的评价函数更新的流程如下：

步骤1：用V对应任意的车辆，用a对应车辆的动作；

步骤2：交通控制中心从记录信息中获取车辆的所选动作期间车辆的平均行驶时间T；

步骤3：从Q值表中得到状态动作对所对应的Q值；

步骤4：在记录当前车辆状态下对应的所有状态动作对的Q值；

步骤5：根据公式2更新Agent的当前状态动作对的Q值；

步骤6：在车辆新状态下选择最优动作，并返回步骤2。

作为一种优选的实施方式，基于深度强化学习的交通控制与车辆诱导协同方法中步骤S4具体为：采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，实现根据步骤S3中各车辆Agent的动作，对交通灯进行动态配时，以削减车辆平均等待时间为目标选择交通灯最优动作；

DQN算法将各道路车辆位置以及对应的车辆速度作为状态，对初始绿灯时长的操作作为动作，奖赏由车辆平均等待时长和车辆通行量共同决定。

本实施例设定车辆以λ为参数的泊松流到达路口，各车辆已知自己的当前车辆速度v和自身与停止线的距离x。

DQN算法采用ε-greedy(0≤ε≤1)策略，即每次选取动作时以ε的概率选取Q值最大的动作，以1–ε的概率随机选择动作。设定交通灯绿灯时长控制动作一共有三种，即

奖赏由两部分组成：基于车辆平均等待时长的惩罚和基于车辆通行量的奖赏。计算奖赏共分为两种情况。设初始绿灯时长采取动作后绿灯时长为a秒：

1)交通灯即将从红灯转为绿灯

各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排的时间t。若t<a则说明该车辆可以在接下来的绿灯时间内通过该路口。由于本实施例设定车辆以λ为参数的泊松流到达路口，已知泊松流关于时间ω的概率密度函数如4所示，则a配时策略下该车道车辆通行量如公式5所示。

式中，ω为观测时间，λ为泊松流参数，n为车辆到达数；

所以该车道车辆通行总量为

式中NUM_vehicle表示绿灯开始时已经排队等待的车辆数。η是车辆通过路口的时间，根据在实际路口观察到车辆通过路口大约需要2s。因此车道车辆通行总量如式5所示。

2)交通灯即将从绿灯转为红灯

各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间为t。则该车等待时间为a-t，后面的车辆以λ为参数的泊松流到达路口。设p时刻(0≤p≤a-t)有车辆到达并开始等待，则Agent会因车辆等待受到惩罚，并以等待时长定义惩罚度，

式中，k为单位等待时间惩罚系数；

则Agent因为n辆车在[t,a]时间段内到达形成车辆排并且进行等待的过程中受到的惩罚为：

则Agent因该道路的车辆等待时间所受惩罚为：

式中，NUM_vehicle为绿灯开始时已经排队等待的车辆数。

若t>a，意味着对于公式5和公式8中没有停车等待的车辆部分的奖赏和惩罚为0。因此，由上述可以得到，设j路口的Agent在状态s下采取动作后获得的奖赏为：

r_j＝α×reward_j+β×[reward_jA+reward_jB+reward_jC+reward_jD] (9)

α+β＝1 (10)

公式9中：

reward_jA——路口j相邻路口A的最近一次的奖赏；

reward_jB——路口j相邻路口B的最近一次的奖赏；

reward_jC——路口j相邻路口C的最近一次的奖赏；

reward_jD——路口j相邻路口D的最近一次的奖赏。

公式11中：

reward_NS(s_j,a_j)——南北方向转绿灯的奖赏；

reward_WE(s_j,a_j)——东西方向转绿灯的奖赏。

公式12和13分别是南北方向转绿灯的奖赏和东西方向转绿灯的奖赏，如下所示：

参见图3，本发明红绿灯相位控制核心模块，其核心函数切换相位是由一个非人工设定的智能体驱动，该智能体搭载具有1024个非线性神经元的网络，利用DQN算法在实时数据不断传入的过程中进行实时训练，能够快速训练不同车流状况下的多路口红绿灯并行相位切换控制，并能实时生效，优化交通。改DQN网络设计规格如图3所示。

经过仿真，仿真结果如图4所示，为仿真场景下未优化方案与所述方法的对比例子。以海洋公园入场车流模拟的默认配置场景为例，展示红绿灯控制的效果。初始配置如下：

一级诱导牌为：申港大道诱导牌，临港大道诱导牌(西向东)，茉莉路诱导牌(南向北)，沪城环路诱导牌(南向北)，沪城环路诱导牌(北向南)。

具体配置参数为：

1.configFile:lingang

2.endTime:7200

3.nb_steps:7200

4.renderInterval:10

5.stepLength:1

6.recordName:‘’

7.isTrain:True

8.routes:

entrys{'临港大道':{'latLon':[30.92898,121.90287],'destinations':['东昌海洋世界内部停车场','临港大道地铁站PR停车场','雪绒花路停车场','港城新天地停车场'],'lambda':0.08277777777777778,'busRate':0.025653923541247486,'id':0},'申港大道':{'latLon':[30.89984,121.8823],'destinations':['东昌海洋世界内部停车场','临港大道地铁站PR停车场','雪绒花路停车场','港城新天地停车场'],'lambda':0.2761111111111111,'busRate':0.025653923541247486,'id':1},'橄榄路':{'latLon':[30.88676,121.8857],'destinations':['东昌海洋世界内部停车场','临港大道地铁站PR停车场','雪绒花路停车场','港城新天地停车场'],'lambda':0.19305555555555556,'busRate':0.025653923541247486,'id':2}}

parks{'东昌海洋世界内部停车场':{'latLon':[30.91794,121.90032],'max':1246,'id':0},'临港大道地铁站PR停车场':{'latLon':[30.92455,121.90849],'max':950,'id':1},'雪绒花路停车场':{'latLon':[30.9108,121.91455],'max':860,'id':2},'港城新天地停车场':{'latLon':[30.89976,121.89973],'max':857,'id':3}}

guidances{'申港大道诱导牌':{'latLon':[30.89982,121.88817],'destinations':['东昌海洋世界内部停车场','雪绒花路停车场','临港大道地铁站PR停车场','港城新天地停车场'],'id':0},'临港大道诱导牌(西向东)':{'latLon':[30.92824,1 21.90371],'destinations':['东昌海洋世界内部停车场','临港大道地铁站PR停车场','雪绒花路停车场','港城新天地停车场'],'id':1},'茉莉路诱导牌(南向北)':{'latLon':[30.89938,121.90271],'destinations':['东昌海洋世界内部停车场','雪绒花路停车场','港城新天地停车场'],'id':2},'沪城环路诱导牌(南向北)':{'latLon':[30.91398,121.89504],'destinations':['东昌海洋世界内部停车场','雪绒花路停车场','临港大道地铁站PR停车场','港城新天地停车场'],'id':3},'沪城环路诱导牌(北向南)':{'latLon':[30.92745,121.9039],'destinations':['东昌海洋世界内部停车场','临港大道地铁站PR停车场','雪绒花路停车场','港城新天地停车场'],'id':4}}

从图4可以看出，所述方法已被验证在模拟配置上对红绿灯的优化充分有效，具有接入真实数据并优化交通运行的重要价值。

本实施例还提供一种基于深度强化学习的交通控制与车辆诱导协同系统，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如上所述的基于深度强化学习的交通控制与车辆诱导协同方法的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，包括以下步骤：

S1：构建交通灯Agent和车辆Agent；

S6：返回步骤S3，直至满足预设的停止条件。

2.根据权利要求1所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，采用Boltzmann策略从所述Q值表中选择动作，所述Boltzmann策略的计算表达式为：

式中，A为车辆的动作集合，p[a∣s]为车辆在状态s选择动作a的概率，τ为温控参数，Q(s，a)为状态s和动作a对应的Q值。

3.根据权利要求2所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，所述方法还包括根据交通拥堵状况对τ值进行调整：交通拥堵状况越拥堵，τ值越大。

4.根据权利要求1所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，所述Q值表的更新表达式为：

Q_d(s，k)＝(1-α)Q_d(s，k)+α(t_sk+γQ_d(k，n))

式中，Q_d(s，k)为车辆从节点s出发使用动作k的行动价值，α是学习率，表示Agent对当前动作的重视程度，γ是折扣率，表示Agent对当前动作的回报的重视程度，t_sk为Agent的动作作用于环境的反馈值，Q_d(k，n)为从节点k出发使用动作n的行动价值。

5.根据权利要求1所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，所述交通控制方法还包括采用DQN算法确定交叉口通行相位顺序中各相位的绿灯时长，从而以削减车辆平均等待时间为目标选择交通灯最优动作；

6.根据权利要求5所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，所述DQN算法采用ε-greedy策略选取动作，所述ε-greedy策略在每次选取动作时以ε的概率选取Q值最大的动作，以1–ε的概率随机选择动作，0≤ε≤1)，所述动作的表达式为：

式中，A为动作。

7.根据权利要求5所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，所述奖赏由车辆平均等待时长和车辆通行量共同决定，具体为：所述奖赏包括基于车辆平均等待时长的惩罚和基于车辆通行量的奖赏；

式中，ω为观测时间，λ为泊松流参数，n为车辆到达数；

8.根据权利要求5所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，当交通灯即将从绿灯转为红灯时，设p时刻有车辆到达并开始等待，后面的车辆以λ为参数的泊松流到达路口，则当前计算的车辆的惩罚度定义为：

则当前计算的车辆因为n辆车在[t，a]时间段内到达形成车辆排并且进行等待的过程中受到的惩罚为：

则当前计算的车辆因该道路的车辆等待时间所受惩罚为：

式中，NUM_vehicle为绿灯开始时已经排队等待的车辆数。

9.根据权利要求5所述的一种基于深度强化学习的交通控制与车辆诱导协同方法，其特征在于，在j路口的当前计算的车辆在状态s下采取动作后获得的奖赏的计算表达式为：

r_j＝α×reward_j+β×[reward_jA+reward_jB+reward_jC+reward_jD]

α+β＝1

式中，reward_jA为路口j相邻路口A的最近一次的奖赏，reward_jB为路口j相邻路口B的最近一次的奖赏，reward_jC为路口j相邻路口C的最近一次的奖赏，reward_jD为路口j相邻路口D的最近一次的奖赏，reward_NS(s_j，a_j)为南北方向转绿灯的奖赏，reward_WE(s_j，a_j)为东西方向转绿灯的奖赏，λ为泊松流参数，η为车辆通过路口的时间，a为采取动作后的绿灯时长，t为各车道第一辆没排队的车根据自身信息计算自己到达形成车辆排所需时间，NUM_vehicle为绿灯开始时已经排队等待的车辆数，N为北向，S为南向，W为西向，E为东向，k为单位等待时间惩罚系数。

10.一种基于深度强化学习的交通控制与车辆诱导协同系统，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如权利要求1～9任一所述的方法的步骤。