CN117116064A

CN117116064A - 一种基于深度强化学习的乘客延误最小化信号控制方法

Info

Publication number: CN117116064A
Application number: CN202310811117.7A
Authority: CN
Inventors: 吴宗远; 李世明; 丁深圳; 尹春娥
Original assignee: North China University of Water Resources and Electric Power
Current assignee: North China University of Water Resources and Electric Power
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-24

Abstract

本发明提出了一种基于深度强化学习的乘客延误最小化信号控制方法，步骤为：确定各信号相位及其非冲突相位，计算饱和流量；收集所有联网车的实时车辆数据；计算初始阶段各相位车辆在持续绿灯条件下通过停车线所需时间；基于乘客延误的指标定义深度强化学习的状态、动作和奖励,将车辆状态和信号状态通过矩阵合并和压缩；采用预训练与双重DQN结合的深度强化学习训练方法，估算状态和动作对应的价值函数，并采用主网络选取动作策略、目标网络评估价值函数、定期更新的双重DQN方法避免陷入局部最优，找到能获得最大乘客收益的相位方案。本发明结合实时收集的实时车辆数据自适应地进行灵活的信号相位优化，使交叉口的平均乘客延误达到最低。

Description

一种基于深度强化学习的乘客延误最小化信号控制方法

技术领域

本发明涉及智能交通的技术领域，尤其涉及一种基于深度强化学习的乘客延误最小化信号控制方法。

背景技术

随着城市的发展，机动车数量逐年攀升，城市拥堵问题带来的巨大交通压力导致了大量的乘客延误及经济损失。城市交叉口信号控制是管理不同方向交通流，减少行车延误的一种重要手段。随着智能交通系统的发展，车联网技术已被运用到智能信号控制中，该技术可以通过无线网络传输技术高频地向交叉口控制者传输实时准确多样的车辆数据，从而开发出更智能的自适应信号控制系统。

传统信号控制方法受限于交通流数据采集设备，多采用源于历史记录数据的线下信号参数优化和基于感应式线圈的驱动式或交通响应式信号优化方法，难以制定合理的信号优化方案。在当前信息化发展中，联网车可以将车辆自身各类传感器，如GPS、速度传感器、压力传感器等收集到的数据，通过提前规定好的网络协议和信息格式以无线网络传输技术高频传输给交叉口控制者，从而开发出更智能的信号控制系统。目前，对于车联网的信号控制研究主要停留在以车辆为函数优化指标及固定的信号相位组合队列顺序两个方面，虽然这两方面的研究相较于传统信号控制能够降低平均车辆延误，然而，美国、欧盟和英国等地的数据调查和城市未来发展方向等报告中指出，以乘客为函数优化指标的自适应信号控制，比基于车辆的信号控制在节省乘客行车时间和减少经济损失等方面更具优势。而从公交优先的经验中可知，基于乘客数量的信号控制方案需要更为灵活的信号相位组合、相位分布、队列顺序等策略，并根据不同车辆的优先度权重调整信号方案；同时，包含车辆乘客数等更为复杂的车辆环境和更灵活的信号相位之间的组合会产生更高维度的计算复杂度，需要提出新的方法减少复杂度以用于实时场景中，这是目前研究中的空缺。

申请号为201611242350.4的发明专利公开了一种车联网环境下的交叉口信号优化控制方法，路侧单元将车辆状态信息发送给交通信息计算中心进行处理，在考虑车辆的最大停车等待时间限定条件的基础上，获得优化的信号配时方案。本发明利用交通信息计算中心考虑实时状态下各相位对应车道的车辆运行情况，并在考虑车辆的最大停车等待时间限定条件的基础上，以各相位的总延误最小为优化目标，通过采用本发明提出的基于乘客延误优化的深度强化学习方法，使信号配时方案能够满足时变的交通需求，并且提高了不同车道上车辆通行的公平性；该发明实现了车联网技术在信号交叉口处的实际应用，结合信号交叉口处实时获取的车辆状态信息来以延误最小为目标的信号优化配时方案，减少车辆通过交叉口时的延误时间，能够明显提高信号交叉口的运行效率，从而解决由于现有的信号交叉口处停车时间过长并且无法满足实时变化的道路交通需求而引起的交通拥堵和交通延误问题。同时，上述发明采用的深度强化学习方法可以通过反复线下训练，提前训练出神经网络的参数用于预测每种状态和动作对应的价值函数，可以极大减少基于乘客的信号控制优化的运算复杂度。然而，本发明的效果依赖于车辆实时信息测量的精度，且对联网车在路网中的比例有一定要求；另外，将该发明扩展到更大规模路网中也是未来的发展方向。

发明内容

针对现有交叉口信号控制方法无法有效减少乘客延误，且信号控制方案不灵活的技术问题，本发明提出一种基于深度强化学习的乘客延误最小化信号控制方法，实现了在单个城市交叉口联网车场景下更为灵活的基于车辆中乘客的自适应信号控制；整体采用深度强化学习和滚动优化的方法，按照乘客延误的方式定义强化学习的状态和奖励，并采用灵活的动作策略；在预训练阶段通过深度神经网络构建模型参数，预估每个状态和动作对应的价值函数，之后采用反复训练的方式找出使乘客延误指标达到收敛的最优信号控制策略，为交通管理和规划部门制定有效的自适应信号控制方案，以减少乘客延误及经济损失。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于深度强化学习的乘客延误最小化信号控制方法，其步骤如下：

步骤1)：线下确定车辆模型参数、各信号相位及其非冲突相位，计算饱和流量、排队车辆初始延误时间和自由流速度；

步骤2)：在实时信号相位优化的时间点，通过车联网技术收集无线传输范围内所有联网车的实时车辆数据，进行数据预处理生成车辆位置、速度、载客数和额外等待时间矩阵；

步骤3)：基于当前信号相位、车辆模型参数和数据预处理后的实时车辆数据，计算在初始阶段的初始时刻各相位车辆在持续绿灯条件下通过停车线所需时间；

步骤4)：确定深度强化学习中每一阶段基于乘客延误最小化的车辆状态和信号状态，以乘客延误最小化作为优化指标确定深度强化学习的状态、动作、奖励；

步骤5)：基于步骤4)确定的状态、动作和奖励进行预训练，在不同状态下随机选取动作，观测并记录包含状态、动作和奖励的随机经验，采用强化深度学习构造深度Q网络的两个不同参数的主网络和目标网络；

步骤6)：采用∈-贪婪动作选取策略进行多次深度强化学习训练，观测并在记忆存储中记录每一步生成的经验，每隔固定步数使用新的经验训练生成用于评估每一组状态和动作组合的价值函数；

步骤7)：使用训练好的深度Q网络选取每一种状态下的乘客延误最小化优化策略并时间段内执行。

优选地，确定各信号相位及其非冲突相位的方法为：结合城市交叉口各进口车道的车道数和车道渠化方案信息确定各信号相位，根据相位冲突表确定非相位冲突相位；

通过对进口道车辆在自由行驶路段和排队路段的流量观测，计算饱和流量、排队车辆初始延误时间和自由流速度；

实时车辆数据包括车辆的标识号、实时坐标、实时速度、行驶方向和乘客数；对实时车辆数据进行数据预处理的方法为：基于交叉口地理坐标、车道位置及车辆的实时坐标和行驶方向，匹配每辆车所在的进口车道和距停车线距离，对每个进口车道所在相位p将联网的车辆i在初始时刻0收集到的停车线距离速度/>载客数A(i,p)的信息，按照交叉口距离由近到远排列生成停车线距离、速度和载客数的列表；其中，相位p属于[1,P]，P为最大相位数，车辆i属于[1,N]，N为车联网无线传输范围内车辆数；则乘客数矩阵

相位p下车辆i的额外等待时间其中，R_curr为当前时间点，/>为相位p下车辆i的到达时间点；按照相位序号和车辆序号排列额外等待时间矩阵

优选地，所述计算在初始阶段的初始时刻各相位车辆在持续绿灯条件下通过停车线所需时间的方法为：

当初始时刻状态为s₀时，分别计算相位p下车辆i在持续绿灯条件下通过停车线所需时间其中，距停车线最近车辆通过时间/>为：

其中，α为排队首辆车启动损失时间，h_s为饱和流量状态下车头时距且s为观测的饱和流量；g_p为初始时刻0之前该相位已持续绿灯时间，/>和/>分别为距停车线最近车辆在初始时刻的停车线距离和速度，v_s为饱和流量下车队驶离进口道的速度；

除最近车辆外，相位p后方车辆通过停车线所需时间由近及远分别为：

其中，和/>分别为后方车辆i在初始时刻的距离和速度，i取值范围为[2,N]；相位p为正整数；

按照车辆序号排列生成车辆通过停车线时间矩阵为

优选地，以乘客延误最小化作为优化指标确定深度强化学习的状态、动作、奖励的表达方式：1)根据车辆通过停车线时间矩阵、乘客数矩阵和额外等待时间矩阵构建车辆状态矩阵，采用卷积神经网络压缩车辆状态矩阵和信号状态并提取价值信息；2)基于采用灵活信号相位策略的考量，从交叉口所有可能绿灯信号相位组合中选出动作策略且执行时间段不固定；3)利用通过停车线时间、交叉口内乘客延误减少量及额外等待时间确定每一种状态和动作对应的奖励。

优选地，所述车辆状态矩阵为：

其中，为权重系数，Vc为通过停车线时间矩阵，O为乘客数矩阵，Ex为额外等待时间矩阵，Re是一个取值反转矩阵，且取值反转矩阵的元素：

其中，为当前时刻起持续绿灯条件下相位p下车辆通过停止线所需最长时间，为相位p下车辆i预计通过停止线时间；

所述卷积神经网络包括两个依次连接的卷积层和池化层以及两个全连接层，车辆状态矩阵经过两个卷积层和两个池化层过滤之后生成一个512×1维的向量，与输入的信号状态合并之后经过两个全连接层压缩成一个8×1维的向量。

优选地，对应当前时刻的状态，选取动作策略及执行时间段需满足以下三个原则：1)四进口道八相位的交叉口每个动作策略包含两个绿灯相位且不为冲突相位；2)任一绿灯相位执行时间需大于最小绿灯时间；3)任一绿灯相位连续执行时间需小于最大绿灯时间，具体实施方法为：

设定动作策略集合，动作策略集合包括该交叉口所有可能的两个绿灯行相位组合，每一步动作均从动作策略集合中选取；

确定动作策略执行最短时间，若当前两个绿灯相位都未出现在上一个动作策略的绿灯相位中，最短执行时间为绿灯间隔与最小绿灯时间之和；若当前两个绿灯相位其中之一出现在上一个动作策略绿灯相位中，最短执行时间为该绿灯相位最大剩余时间与绿灯间隔和最小绿灯时间之和的最小值；否则，最短执行时间为两个绿灯相位最大剩余时间与最小绿灯时间的最小值；

确定动作策略最长执行时间为两绿灯相位最大剩余时间的最小值与时间段T之间的最小值；

每一个动作策略执行时间应在动作策略执行最短时间与动作策略最长执行时间的区间中选取，在随机动作选取策略中，动作策略的执行时间随机。

优选地，深度强化学习的即时奖励考虑不同乘客数车辆的累积延误和不同状态下的额外等待时间，两步动作之间的即时奖励为：

其中，若相位p下车辆i能在时间段T内通过交叉口，为车辆i通过停车线的时间节点；若该车辆在规划时间段内不能通过交叉口，/>和/>分别为车辆i在动作执行之前和之后的预估通过时间；/>和/>分别是相位p下车辆i的乘客数和额外等待时间，β和μ为权重系数；

期望奖励G_t为在时间段T内的累积折扣奖励且：

其中，γ∈[0,1]是计算未来奖励折扣的因子；

奖励折扣的因子γ的取值根据时间段T的变化而变化且：γ＝-0.4*e^0.03T+1.4。

优选地，采用强化深度学习构造深度Q网络的两个不同参数的主网络和目标网络的方法为：找到能够使期望奖励G_t达到最大值的最优策略π^*，预训练得到主网络的参数组合θ和目标网络的参数组合θ^-，实施方法为：

5.1)用Q函数估计在某一状态s下给予特定策略π中的动作a，对应的折扣奖励的期望值为动作价值

其中，s′和a′分别代表下一阶段的状态和动作，表示累积奖励的期望值，P(s′,R_t|s,a)代表由当前状态s和动作a转换成下一状态s′的概率；

Q^*(s,a)是使预期回报达到最大的动作价值Q^π(s,a)的最优函数，则最优策略π^*通过挑选在给定状态下使得Q值达到最大的动作a^*找到，且：a^*＝argmax_a∈AQ^*(s,a)；A为动作策略集合；

5.2)将交叉口控制者与车辆环境每一步迭代产生的状态、动作、奖励、下一步转移的状态经验信息(s,a,R_t,s′)存储在经验回放空间D中；

5.3)判断经验回放空间中存储的经验值是否达到最大值，如果不够，继续执行步骤5.2)，否则，执行步骤5.4)；

5.4)从经验池中随机抽取两组各3000条数据作为训练样本，将两个训练样本中的状态s和动作a分别作为主网络和目标网络的输入值，进行批量处理，得到每个状态和动作对应的Q值为时序差分目标y_t，即为更新之后的Q值：y_t＝R_t+γmax_a′∈AQ_t(s′,a′)；其中，Q_t(s′,a′)为下一阶段的状态s′和动作a′的Q值。

分别计算两组训练样本对应的Q值表和Q目标值表，以Q值和Q目标值作为主网络和目标网络的输出，训练出主网络和目标网络的参数组合θ和θ^-。

优选地，采用∈-贪婪动作选取策略进行深度强化学习双重DQN强化学习训练，方法是：

6.1)在训练开始阶段，初始化经验回放空间尺寸D、批量尺寸b、最大存放空间限制N_r，获取主网络参数组合θ和目标网络参数组合θ^-；

6.2)在每轮训练过程中，初始化环境和状态，在每一阶段，观察当前状态S_t，通过∈-贪婪动作选取当前动作；

6.3)在仿真环境中执行动作，与环境交互后计算即时奖励，并观察下一步生成的状态，状态经验信息(s,a,R_t,s′)存储在经验回放空间D中，若经验回放空间D超出最大存放空间限制N_r，用最新的经验数据替换经验回放空间D中最旧的数据；

6.4)从经验回放空间D中随机选取批量尺寸b的样本，更新时序差分目标作为新的Q值估计依据；

其中，代表双重DQN中时序差分目标y_t且：

其中，γ表示折扣系数，Q_t(s′,a′；θ)表示下一阶段状态s′和动作a′在参数组合为θ的神经网络中输出的Q值，Q_t(s′,max_a′∈AQ_t(s′,a′；θ)；θ^-)表示下一阶段状态s′和根据max_a′∈AQ_t(s′,a′；θ)选取的动作策略在参数组合为θ^-的神经网络中输出的Q值；

6.5)执行梯度下降策略使得损失函数最小化，并更新主网络的参数组合θ；每过20个阶段，将目标网络的参数组合θ^-替换为网络的参数组合θ。

优选地，所述通过∈-贪婪动作选取当前动作的方法为：

其中，∈∈[0,1]代表动作选择概率，即有动作选择概率∈的选择随机动作，否则按照主网络生成的价值函数选取使得Q值达到最大的动作argmax_a∈AQ_t(s,a；θ)；

动作选择概率∈的取值随着训练轮数的增大而减小且∈＝0.3-0.001*N_e；

N_e表示训练次数，代表控制者随着训练的进行会逐渐偏向于选取导致Q值最大的动作，以达到加快收敛速度的目的。

与现有技术相比，本发明的有益效果：1)本发明通过采用基于乘客的深度强化学习算法将车辆乘客数据融入到强化学习的车辆权重状态及对应的奖励中，能够有效地改善平均乘客延误及损失；2)此外，本发明还通过设计灵活相位组合和执行时间段的动作策略，使交叉口控制者在满足信号相位不冲突、相位绿灯最大时间和绿灯最小时间的前提下，试图探索所有可能的信号相位方案以应对更为复杂的车辆状态，打破了传统信号相位固定周期时长、相位组合、相位顺序的局限性；3)另外，通过深度强化学习线下反复的试错训练，使得交叉口控制者能够在提前搜寻出一种使得乘客整体延误与额外等待时间达到最优的信号相位策略，在线上优化过程中不必搜寻每一种车辆状态与动作策略对应的价值奖励，极大地减小了运算负担，使基于乘客延误的信号控制能在实时场景中运行；4)最后，本发明采用双重深度Q网络，每隔固定周期通过目标网络更新主网络中的参数，避免采用一个网络同时估计Q价值和选取动作策略导致Q价值函数估计过高的问题。本发明能够依据交叉口实际车辆轨迹参数和所有可能的相位方案，结合实时收集的联网车位置、速度、乘客数等数据，自适应地进行灵活的信号相位方案优化，可使交叉口的平均乘客延误达到最低。本发明采用的深度强化学习方法可以反复线下训练，提前训练出神经网络的参数用于预测每种状态和动作对应的价值函数，可以极大减少基于乘客的信号控制优化的运算复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的总体流程图。

图2为本发明的线下信号相位和车辆模型参数确定流程图。

图3为具体四进口道八相位交叉口的车道及对应的相位冲突表，其中，a)为各相位的编号所对应的车道，b)为相位冲突表。

图4为本发明的车联网数据预处理的流程图。

图5为基于乘客延误的三个状态矩阵简化示意图。

图6为卷积神经网络压缩车辆状态矩阵和信号状态向量示意图。

图7为本发明的动作策略信号相位组合和执行时间选取流程图。

图8为本发明的信号相位组合及其编号示意图。

图9为本发明的深度神经网络预训练流程图。

图10为本发明的深度神经网络损失函数梯度下降训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于深度强化学习的乘客延误最小化信号控制方法，是在单个城市交叉口联网车场景下更为灵活的基于车辆中乘客的自适应信号控制的方法。在信号相位优化之前，需先线下收集信号相位分布与车辆模型参数，并收集实时距离、实时速度、车载乘客数等车联网信息。车联网信息经过数据预处理之后生成各相位的车辆通过时间、车载乘客数和额外等待时间的列表。算法整体采用深度强化学习和滚动优化方法，综合考虑平均乘客延误、额外等待时间、灵活相位策略等因素定义强化学习的状态、动作和奖励，每一阶段的动作策略选取灵活的相位组合和执行时间；采用预训练和累积价值收敛训练逐步找到使累积奖励收益达到最大的动作策略，从而达到减小平均乘客延误的目的。本发明主要四个方面：线下信号相位及车辆参数获取，收集实时车联网数据并处理，依据线下参数和实时数据计算各相位车辆初始阶段在持续绿灯条件下通过停车线所需时间；将车辆通过时间、乘客数和额外等待时间折算成代表车辆权重的矩阵并用卷积神经网络压缩数据维度，以乘客延误最小化作为优化指标定义强化学习的状态和奖励，每一阶段的动作策略选取灵活的相位组合和执行时间；在预训练阶段选取随机动作策略和灵活执行时间，观察并记录不同的状态和动作组合下环境反馈的奖励，通过深度神经网络模型训练生成主网络和目标网络用于估计每一种状态和动作对应的价值函数；在累积价值收敛训练过程中采用∈-贪婪动作选取策略使累积收益逐渐达到收敛，找出基于平均乘客延误的累积收益达到最大的相位策略。本发明包括以下步骤：

步骤1)：在实时信号相位优化之前，先线下确定各信号相位、非冲突相位及车辆模型参数，计算饱和流量、排队车辆初始延误时间、自由流速度。

如图2所示，先线下确定信号相位、非冲突相位及饱和流量、排队车辆初始延误时间、自由流速度等车流模型参数，以便后续实施信号相位转换算法和车辆轨迹更新理论。通过实地观测得到的城市交叉口各进口车道的车道数和车道渠化方案信息，确定各信号相位，进而根据相位冲突表确定每个相位的非冲突相位。相位冲突表由各相位车辆从进口道进入交叉口的行车轨迹线是否冲突来确定。以典型的四进口道八相位交叉口为例，每个相位车道渠化方案包含一个直右合并车道和一个左转车道，a)为各相位的编号所对应的车道，b)为相位冲突表，如图3所示。在相位冲突表中，数值1代表两相位互为非冲突相位，其行车轨迹没有交叉，可以同时分配绿灯时间；数值0则表示为冲突相位，因其行车轨迹交叉，同时分配绿灯会存在很大的交通事故隐患。每个相位存在两个非冲突相位，例如相位1的非冲突相位为相位2和5。

通过对自由行驶路段和排队路段的流量观测，获得饱和流量、排队车辆初始延误时间、自由流速度等参数。临界速度即为饱和流量下车辆驶离进口道的平均速度，饱和流量车头时距为饱和流量下相邻两辆车通过同一断面的时间间隔，启动损失时间由排队启动至第四辆车或之后车辆通过停车线累积时间与对应车辆以饱和流量车头时距的累积实际之差。在后续车辆出发时间预测与更新的计算中需要用到这些参数。

步骤2)：在实时信号相位优化的时间点，通过车联网技术收集无线传输范围内所有联网车的实时车辆数据并进行预处理，生成车辆位置、速度、载客数、额外等待时间矩阵。

实时车辆数据是借助车联网技术，对无线通讯范围内所有驶来车辆的数据进行收集、处理，车辆数据的信息包括车辆的标识号、实时坐标、实时速度、行驶方向、乘客数等。

自适应信号相位优化需以车联网技术收集到的车辆实时数据作为输入。车联网技术是一中新兴的通信与交通结合的智能交通系统技术，主要由车载元件数据采集系统和短程无线通讯系统两部分组成。联网车主体可以通过车辆内部的车载元件，如全球定位系统、速度传感器、压力传感器等收集自身的实时数据，并通过提前设定好的信息格式对信息进行编译处理。之后联网车主体通过预先规定的网络协议，以专用短距无线网络传输技术，将信息高频地、完整地、受较小通讯干扰地传输给交叉口控制者。如图4所示，对车联网数据进行预处理，应使控制者将收集到的车辆标识号、实时坐标、实时速度、行驶方向、车载乘客数等实时信息，基于交叉口地理坐标、车道位置及车辆的实时坐标和行驶方向等信息，匹配每辆车所在的进口车道和到停车线距离，对每个进口车道所在相位p,将联网的车辆i在初始时刻0收集到的停车线距离速度/>载客数A(i,p)信息，按照各车辆距停车线距离由近到远排列,生成停车线距离、速度和载客数的列表。后续计算通过对列表中每个元素循环计算，更新一个相位中所有车辆的轨迹预测。这种处理方法可以压缩车辆信息，同时也作为强化学习计算乘客延误即时奖励的一部分指标。

步骤3)：基于信号相位、车辆模型参数和预处理后的实时车辆数据，计算在初始阶段的初始时刻各相位车辆在持续绿灯条件下通过停车线所需时间。

原始数据列表无法直接作为输入应用于信号控制算法中，需对各列表做进一步数据处理。对各相位车辆从近到远依次执行：若该车辆为最近车辆，按式(1)计算其初始阶段持续绿灯条件下通过时间，否则按式(2)计算。当遍历所有相位所有车辆后，输出各相位车辆初始通过时间和载客数的列表。对每一个相位中的车辆，当初始时刻状态为s₀时，分别计算相位p下车辆i在持续绿灯条件下通过停车线所需时间其中，距停车线最近车辆通过时间/>按照下式进行计算：

其中，α为排队首辆车启动损失时间，h_s为饱和流量状态下车头时距，可通过观测饱和流量S由计算求得；g_p为初始时刻0之前该相位已持续绿灯时间，/>和/>分别为距停车线最近车辆在初始时刻的停车线距离和速度，v_s为饱和流量下车队驶离进口道的速度。除最近车辆外，相位p后方车辆通过停车线所需时间/>由近及远分别按照下式进行计算：

其中，和/>分别为后方车辆i在初始时刻的停车线距离和速度，i取值范围[2,N]，N为该相位车联网通讯范围内车辆数。p为正整数，取值范围[1,P]，P为最大相位数，本发明中取值为8。后方车辆通过停车线所需时间/>根据前方车辆通过停车线所需时间/>而定，若速度大于饱和流量下车队排出速度v_s，通过时间为前车通过时间与饱和流量车头时距之和/>和自由状态通过时间/>的最大值，否则通过时间按前者计算即/>这种处理方法可以压缩车辆信息的同时，也作为强化学习计算乘客延误即时奖励的一部分指标。

按照车辆到交叉口距离远近计算并生成各相位车辆额外等待时间列表，具体计算方法为：

其中，为相位p下车辆i的额外等待时间，T_curr为当前时间点，/>为相位p下车辆i的到达时间点。

按照相位序号和车辆序号排列生成车辆通过时间矩阵Vc、乘客数矩阵O、额外等待时间矩阵Ar，具体表达方式见式(4)-(6)。

其中，A(i,p)为载客数。

步骤4)：以减少乘客延误和实施灵活的信号相位控制方案为目标，确定深度强化学习的状态、动作和奖励。

4.1)基于乘客延误的信号控制在优化时刻需要获取的车辆状态除了车辆位置和速度，还需要车内乘客数作为判断车辆通行权重的依据。此外由于本发明采取灵活的信号相位，舍弃了固定信号周期时长和信号相位顺序的限制，为防止权重较小的车辆在交叉口等待时间过长而引发危险驾驶行为，引入车辆额外等待时间的定义相应地提升等待较长时间的车辆权重。因此，深度强化学习的车辆状态的输入需要3个33×8维度矩阵。为了减少输入的状态矩阵维度，降低模型的运算负担，每辆车权重由车辆停车线所需时间、车内乘客数和额外等待时间综合计算得出，按式(7)将三个矩阵按权重简化为总的车辆状态矩阵S_veh，状态矩阵简化流程如图5所示。

其中，为权重系数、取值0.2，Ex为额外等待时间矩阵，Re是一个取值反转矩阵，可以为通过时间更短的车辆赋予更高的权重系数，矩阵Re中每个元素的取值由式(8)表示：

其中，为当前时刻起持续绿灯条件下相位p下车辆通过停止线所需最长时间，为相位p下车辆i预计通过停止线时间。除了车辆状态，强化学习中的状态还包括信号灯状态，即当前时刻的相位组合和该相位组合在当前相位开始之前持续的时长。然而车辆状态矩阵和信号状态的大空间维度使得深度强化学习难以找出状态、动作以及价值函数之间的对应关系。因此，本发明采用卷积神经网络压缩车辆状态矩阵和信号状态并提取其中的价值信息。卷积神经网络的结构如图6所示，车辆状态矩阵S_veh经过两个卷积层和两个池化层过滤之后生成一个512×1维的向量，与输入的信号状态合并之后经过两个全连接层压缩成一个8×1维的向量，作为强化学习的状态输入。

4.2)对应当前时刻状态，基于乘客延误的强化学习为实现探索灵活的信号相位方案带来的收益，选取动作策略及执行时间段需满足以下三个原则：1)四进口道八相位的交叉口每个动作策略包含两个绿灯相位且不为冲突相位；2)任一绿灯相位执行时间需大于最小绿灯时间；3)任一绿灯相位连续执行时间需小于最大绿灯时间，具体实施方法如图7所示：

4.2.1)预先设定动作策略集合，该集合表示为A＝＜a₁,a₂,...,a₈>，如图8所示，包括该交叉口所有可能的两个绿灯行相位组合，每一步动作均从动作策略集合中选取；

4.2.2)确定该动作策略执行最短时间a_min，若当前两个绿灯相位都未出现在上一个动作策略绿灯相位中，最短执行时间为绿灯间隔F与最小绿灯时间g_min之和，按(9)式计算。

a_min＝g_min+F (9)

若当前两个绿灯相位其中之一出现在上一个动作策略绿灯相位中，最短执行时间为该绿灯相位最大剩余时间g_rest与绿灯间隔f和最小绿灯时间g_min之和的最小值，按(10)式计算。

a_min＝min[g_rest,g_min+F] (10)

否则，最短执行时间为两个绿灯相位最大剩余时间g_rest与最小绿灯时间g_min的最小值，按(11)式计算。

a_min＝min[g_rest,g_min] (11)

4.2.3)确定该动作策略最长执行时间a_max，最长执行时间为两绿灯相位最大剩余时间和/>的最小值与优化时段T之间的最小值，按(12)式计算。

4.2.4)每一个动作策略的执行时间应在最小值与最大值区间[a_min,a_max]中选取，在随机动作选取策略中，动作策略的执行时间随机。输出动作策略和执行时间。便于控制者在应对不同状态时可以选取不同的策略动作并更新Q值。

4.3)强化学习的奖励代表了在特定状态下控制者选取某一种动作能获得的最大收益，分为即时奖励和累积奖励，即时奖励可通过与环境交互获得。在本发明中，即时奖励的设定需要考虑不同乘客数车辆的累积延误和不同状态下的额外等待时间，据此，两步动作之间的即时奖励按式(13)定义：

其中，若相位p下车辆i能在规划时间段T内通过交叉口，为其通过停车线的时间节点。若该车辆在规划时间段内不能通过交叉口，/>和/>分别为车辆i在动作执行之前和之后的预估通过时间。/>和/>分别是相位p下车辆i的乘客数和额外等待时间，上述参数可以在动作执行后通过微观仿真观测获得。β和μ为权重系数，分别取值0.5和0.2。额外等待时间惩罚以平方和的形式累加，以加重等待时间过长的车辆对即时奖励的影响。

步骤5)：基于步骤4)确定的状态、动作和奖励，在不同状态下随机选取动作，观测并记录包含状态、动作和奖励的随机经验，采用深度强化学习分别构造两个不同参数的神经网络：主网络和目标网络，主网络用于评估每一组状态和动作组合的价值函数，目标网络用于定时更新主网络的参数。具体原理和实施方法如下所述：

5.1)深度强化学习的核心原理是找到能够使期望奖励达到最大值的最优策略π^*。基于步骤4.3)中定义的基于乘客延误的即时奖励R_t，期望奖励G_t被定义为在有限时间段T内的累积折扣奖励，如式(14)所示：

其中，γ∈[0,1]是计算未来奖励折扣的因子，t+n表示最终时刻。根据步骤4.2)所述，本发明采用灵活的相位持续时长探索各种车辆状态下动作产生的乘客延误减少收益，因此有限时间段T取值不固定。奖励折扣的因子γ的取值也应根据时间段T的变化而变化，如式(15)所示。不同的折扣因子取值可以消除不同动作执行时间对累积奖励的影响。

γ＝-0.4*e^0.03T+1.4 (15)

深度强化学习用Q函数估计在某一状态s下给予特定策略π中的动作a，对应的折扣奖励的期望值Q^π(s,a)，该值由式(16)表示：

其中，表示累积收益的期望。式(16)也可拆Bellman公式的形式，如式(17)所示：

Q^π(s,a)＝∑_s′,rP(s′,R_t|s,a)[R_t+γQ^π(s′,a′)] (17)

其中，s′和a′分别代表下一阶段的状态和动作，P(s′,R_t|s,a)代表由当前状态s和动作a转换成下一状态s′的概率。假设Q^*(s,a)是动作价值的最优函数，可以使预期回报达到最大，则最优策略π^*可以通过挑选在给定状态下使得动作价值的最优函数的Q值达到最大的动作a^*找到，如式(18)所示。

a^*＝argmax_a∈AQ^*(s,a) (18)

由于在初始时刻优化函数Q^*(s,a)的值未知且步骤4)定义的状态、动作和奖励及其产生的组合种类很多，模型难以完全覆盖每一种状态和动作的价值函数Q^*(s,a)值的估计。同时，深度强化学习为了保证训练效率和收敛速度，会在一定概率下选择当前对Q^*(s,a)值估计最大的动作，从而导致模型陷入局部最优而很少探索其它可能性。为了避免这种情况，本发明采用预训练的方法通过随机动作选取预先构建主网络和目标网络的Q值估计模型，尽可能探索不同的状态动作组合产生的价值收益。本发明经过预训练产生足够多的状态、动作及与环境交互获得的即时奖励的样本，并将这些样本作为训练集采用深度神经网络的方式构建估计优化价值函数Q^*(s,a)值的模型。采用深度神经网络估计Q值的优势在于其可以避免Q表法存储Q^*(s,a)造成的计算负担过大、搜索效率低、存储占用空间高等问题。深度神经网络通过输入层、隐藏层、输出层等结构构建神经网络函数估计器的模型参数，并使用经验回放空间中存储的过去经验训练该模型，使得在输入检索状态和动作后可以得到相应的Q值。具体步骤如图9所示。

5.2)基于步骤4)确定的状态、动作和奖励进行预训练，在不同状态的状态节点，随机选取信号相位组合类型和执行时间，观测并记录包含状态、动作和奖励的随机经验，将交叉口控制者与车辆环境每一步迭代产生的状态、动作、奖励、下一步转移的状态经验信息(s,a,R_t,s′)存储在经验回放空间D中，经验回放空间D的总容量为20000。

5.3)判断经验回放空间中存储的经验值是否达到10000条，如果不够，继续执行步骤5.2)，否则，执行步骤5.4)；

5.4)从经验池中随机抽取两组各3000条数据作为训练样本，将两个训练样本中的s和a分别作为两组神经网络的输入值进行批量处理，得到每个状态和动作对应的Q值，Q值的计算可将式(17)的Bellman公式改写为迭代更新过程的形式：

Q_t+1(s,a)＝Q_t(s,a)+αδ(s,a) (19)

其中，Q_t+1(s,a)是在下一步t+1阶段更新之后的Q值，α∈[0,1]代表学习率，δ(s,a)为时序差分误差，可由式(20)计算：

δ(s,a)＝R_t+γmax_a′∈AQ_t(s′,a′)-Q_t(s,a) (20)

由于R_t+γmax_a′∈AQ_t(s′,a′)是在当前阶段对Q值的回报估计，其也可简写为时序差分目标y_t，即为更新之后的Q值：

y_t＝R_t+γmax_a′∈AQ_t(s′,a′) (21)

按式(21)分别计算两组训练样本对应的Q值表和Q目标值表，以Q值和Q目标值作为两个神经网络的输出，训练出主网络和目标网络的参数组合θ和θ^-。

步骤6)：结合步骤4)和步骤5)，采用∈-贪婪动作选取策略进行500次双重DQN强化学习训练，观测并在记忆存储中记录每一步生成的经验，每隔固定步数使用新的经验训练生成深度Q网络用于评估每一组状态和动作组合的价值函数，使平均累积收益逐渐下降并收敛，整体流程如图10所示，按照如下流程进行具体计算：

6.1)在训练开始阶段，初始化经验回放空间尺寸D、批量尺寸b、最大存放空间限制N_r，从步骤5)获取主网络模型参数组合θ和目标网络参数组合θ^-。

6.2)在每轮训练过程中，初始化环境和状态，在每一阶段，观察当前状态S_t，通过∈-贪婪动作选取策略选取当前动作，具体如式(22)所示：

其中，∈∈[0,1]代表动作选择概率，即有∈的概率选择随机动作，否则按照主网络生成的价值函数模型选取使得Q值达到最大的动作argmax_a∈AQ_t(s,a；θ)，在本发明中，∈的取值随着训练轮数的增大而减小，如式(23)所示。

∈＝0.3-0.001*N_e (23)

N_e表示训练次数，∈取值随着训练次数的增多而减少，代表控制者随着训练的进行会逐渐偏向于选取导致Q值最大的动作，以达到加快收敛速度的目的。

6.3)在仿真环境中执行该动作，与环境交互后按式(13)计算即时奖励，并观察下一步生成的状态，状态经验信息(s,a,R_t,s′)存储在经验回放空间D中，若经验回放空间D尺寸超出最大存放空间限制N_r，用最新的经验数据替换经验回放空间D中最旧的数据；

6.4)从经验回放空间D中随机选取尺寸b的样本，按照下式(24)更新时序差分目标y_t，作为新的Q值估计依据：

其中，代表双重DQN中时序差分目标y_t的计算方式，如式(25)所示：

从式(25)中可以看出，选取达成最大价值函数max_a′∈AQ_t(s′,a′；θ)的动作由主网络的参数组合θ决定，而对未来Q值的估算由目标网络的参数组合θ^-决定。双重DQN的这种计算方法可以避免典型DQN中使用同一套权重参数进行动作策略选取和Q值估计，进而避免对估计值的过高估计导致最优策略陷入局部最优之中。

6.5)执行梯度下降策略使得损失函数最小化，并以此更新主网络的参数组合θ，损失函数定义为：

6.6)每过20个阶段，将目标网络的参数组合θ^-替换为主网络的参数组合θ，确保目标网络参数迭代更新的同时又不同于主网络的参数。

步骤7)：强化学习训练完成后，使用训练好的深度Q网络为控制者选取[0,T]时段内每一种状态下的乘客延误最小化优化策略，在该时间段执行；当信号策略执行完毕后，控制者循环收集新的车辆实时数据并通过深度Q网络搜寻新的乘客延误最优策略。在规划时间时段内实施优化后的信号相位方案，信号方案实施结束后，交叉口控制者再次激活信号相位算法并循环执行步骤1)-6)，依次实行滚动优化使交叉口控制者能够适应不断进入控制区域的随机交通流量。

本发明提出了一种基于深度强化学习理论的灵活信号相位方案优化乘客延误方法，包括预先车道流量参数校正、依据车联网实时信息和流量参数预估初始车辆出发时间、基于乘客指标的深度强化学习、车辆和信号状态压缩、灵活信号相位方案优化、滚动优化、结合交叉口的相位布局减少平均乘客延误。

本发明的主要发明点和创新包括三点：其一，基于乘客延误的指标定义强化学习的状态、动作和奖励,在考虑车辆预计出发时间、乘客数、额外等待时间等因素下将车辆状态和信号状态通过矩阵合并和卷积神经网络压缩为一维向量，减少计算复杂度；其二，在动作选取策略中考虑所有可能出现的信号相位组合，在不违反最大绿灯时间、最小绿灯时间等原则下采取灵活相位组合、相位分布、信号顺序；其三，采用预训练与双重DQN结合的深度强化学习训练方法，使用两个深度神经网络估算状态和动作对应的价值函数，通过预训练尽可能多的探索不同的状态动作组合对应的预期奖励，并采用主网络选取动作策略、目标网络评估价值函数、定期更新的双重DQN方法避免陷入局部最优，找到能获得最大乘客收益的相位方案。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，其步骤如下：

2.根据权利要求1所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，确定各信号相位及其非冲突相位的方法为：结合城市交叉口各进口车道的车道数和车道渠化方案信息确定各信号相位，根据相位冲突表确定非相位冲突相位；

相位p下车辆i的额外等待时间其中，T_curr为当前时间点，/>为相位p下车辆i的到达时间点；按照相位序号和车辆序号排列额外等待时间矩阵

3.根据权利要求2所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，所述计算在初始阶段的初始时刻各相位车辆在持续绿灯条件下通过停车线所需时间的方法为：

按照车辆序号排列生成车辆通过停车线时间矩阵为

4.根据权利要求1-3中任意一项所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，以乘客延误最小化作为优化指标确定深度强化学习的状态、动作、奖励的表达方式：1)根据车辆通过停车线时间矩阵、乘客数矩阵和额外等待时间矩阵构建车辆状态矩阵，采用卷积神经网络压缩车辆状态矩阵和信号状态并提取价值信息；2)基于采用灵活信号相位策略的考量，从交叉口所有可能绿灯信号相位组合中选出动作策略且执行时间段不固定；3)利用通过停车线时间、交叉口内乘客延误减少量及额外等待时间确定每一种状态和动作对应的奖励。

5.根据权利要求4所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，所述车辆状态矩阵为：

其中，为当前时刻起持续绿灯条件下相位p下车辆通过停止线所需最长时间，/>为相位p下车辆i预计通过停止线时间；

6.根据权利要求4所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，对应当前时刻的状态，选取动作策略及执行时间段需满足以下三个原则：1)四进口道八相位的交叉口每个动作策略包含两个绿灯相位且不为冲突相位；2)任一绿灯相位执行时间需大于最小绿灯时间；3)任一绿灯相位连续执行时间需小于最大绿灯时间，具体实施方法为：

7.根据权利要求6所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，深度强化学习的即时奖励考虑不同乘客数车辆的累积延误和不同状态下的额外等待时间，两步动作之间的即时奖励为：

期望奖励G_t为在时间段T内的累积折扣奖励且：

其中，γ∈[0,1]是计算未来奖励折扣的因子；

8.根据权利要求5-7中任意一项所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，采用强化深度学习构造深度Q网络的两个不同参数的主网络和目标网络的方法为：找到能够使期望奖励G_t达到最大值的最优策略π^*，预训练得到主网络的参数组合θ和目标网络的参数组合θ^-，实施方法为：

5.4)从经验池中随机抽取两组各3000条数据作为训练样本，将两个训练样本中的状态s和动作a分别作为主网络和目标网络的输入值，进行批量处理，得到每个状态和动作对应的Q值为时序差分目标y_t，即为更新之后的Q值：y_t＝R_t+γmax_a′∈AQ_t(s′,a′)；其中，Q_t(s′,a′)为下一阶段的状态s′和动作a′的Q值；

9.根据权利要求8所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，采用∈-贪婪动作选取策略进行深度强化学习双重DQN强化学习训练，方法是：

其中，代表双重DQN中时序差分目标y_t且：

10.根据权利要求9所述的基于深度强化学习的乘客延误最小化信号控制方法，其特征在于，所述通过∈-贪婪动作选取当前动作的方法为：

N_e表示训练次数，代表控制者随着训练的进行会逐渐偏向于选取导致Q值最大的动作。