CN115171408B

CN115171408B - 一种交通信号优化控制方法

Info

Publication number: CN115171408B
Application number: CN202210805314.3A
Authority: CN
Inventors: 张惠臻; 陈友庆; 刘明蕾; 潘玉彪; 王成; 王靖; 缑锦
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2023-05-30
Anticipated expiration: 2042-07-08
Also published as: CN115171408A

Abstract

本发明提供一种交通信号优化控制方法，所述方法包括：获取交叉路口的各个进车道的车辆信息，基于离散交通编码的状态描述方法，构建车辆位置矩阵和车辆速度矩阵；获取原始固定配时方案下交叉口的交通信号灯动作及相位序列，设定信号灯的动作集合，进行智能体对交通信号的协调调度；依据所构建的路网环境和动作设置方法进行仿真，获取固定配时方案的平均排队车辆数目，并构建奖励函数；创建基于自适应权重均值的深度双Q网络模型，结合奖励值对网络模型参数进行更新，得到最终的网络模型，并利用所述网络模型优化控制交通信号。采用本发明的交通信号控制方式可实现缓解车辆通过交叉口的拥堵情况，达到降低应用场景汽车排队长度的优化效果。

Description

一种交通信号优化控制方法

技术领域

本发明涉及智慧交通技术领域，特别涉及一种基于自适应权重均值深度双Q网络的交通信号优化控制方法。

背景技术

随着经济水平的飞速发展，我国的人均汽车保有量急剧增加，在给人们的生活带来便利的同时，交通拥堵也成为全国大中小城市普遍存在的交通问题。随之而来的城市道路利用率不足、公共交通服务水平低下等负面问题愈加严重。道路交叉口作为城市交通网络的关键节点和主要瓶颈，也是车辆阻塞和安全事故的多发地。合理优化交叉口的交通信号控制，能够有效提高交叉口流量吞吐能力，提升城市交通体系的运行效率。因此，基于原有交通信号灯设施进行配时优化，在城市交通管理建设中起到了极为关键的作用。

交通信号灯作为交叉口车流控制的主要手段，周期性的固定配时是当下信号灯控制方案的主流方法，主要是利用道路历史车流数据特点，根据道路平峰和高峰时段的车流量相应调整各个相位的红绿灯时间分配。这一方法简单有效，能够有效降低交叉口车辆的排队长度。然而在大量的实际应用案例中，固定配时方案也表现出了明显的局限性，即无法通过实时的交通流信息自适应地调整信号灯的控制方案。

发明内容

本发明要解决的技术问题，在于提供一种交通信号优化控制方法，通过所述方法可减缓传统深度Q网络模型更新时可能带来的估计偏差，以此来提高模型训练的稳定性，同时本发明方法考虑因素全面，自适应性强，提高了原始算法在状态价值评价的准确性，能够有效地提高道路的通行效率，减少车辆通行时间并缓解交通拥堵。

本发明是这样实现的：一种交通信号优化控制方法，所述方法包括：

步骤S1、获取交叉路口的各个进车道的车辆信息，基于离散交通编码的状态描述方法，构建车辆位置矩阵和车辆速度矩阵；

步骤S2、获取原始固定配时方案下交叉口的交通信号灯动作及相位序列，设定信号灯的动作集合，进行智能体对交通信号的协调调度；

步骤S3、依据步骤S1、步骤S2所构建的路网环境和动作设置方法进行仿真，获取固定配时方案的平均排队车辆数目，并构建奖励函数；

步骤S4、创建基于自适应权重均值的深度双Q网络模型，结合奖励值对网络模型参数进行更新，得到最终的网络模型，并利用所述网络模型优化控制交通信号。

进一步的，所述步骤S1具体为：

步骤S11、获取交叉口各个进车道方向的车道数，并将距离停车线前的一定距离划定为观测区域，进入步骤S12；

步骤S12、以固定的长度划分观测区域内每个车道的长度，从而构成同等规格的元胞，所述元胞的长度设定为8m，然后在元胞中以整型数值表示车辆的位置信息，构成车辆位置矩阵，进入步骤S13；

步骤S13、在获取每个进车道方向的车辆位置矩阵后，根据道路上的车辆速度构建与车辆位置矩阵同规模的车辆速度矩阵，速度矩阵的数值表示为元胞内车辆的实时速度。

进一步的，所述步骤S2具体为：

步骤S21、获取原始固定配时方案下交叉口的交通信号灯动作及相位序列，进入步骤S22；

步骤S22、设定信号灯智能体的动作集合为A＝{0，1}，信号灯智能体根据当前状态选择最优的动作a_t∈A，当a_t＝0时,信号灯保持当前相位不变；当a_t＝1时，信号灯切换至相位序列中当前相位的下一个相位，进入步骤S23；

步骤S23、定义最短相位持续时间为t_min，最长相位持续时间为t_max，同时，相位发生切换时，绿灯切换至红灯间隙需要设置一定时长的黄灯时间，进入步骤S24；

步骤S24、基于以上相位序列和动作集合，信号灯智能体对交通信号进行协调调度。

进一步的，所述步骤S3具体为：

步骤S31、通过仿真实验得出固定配时方案下的平均排队车辆数queueVehicles_fixed，在完整的仿真过程下，实时获取的排队车辆数为各车道满足排队车速的车辆数之和，所述实时获取的排队车辆数的计算公式如下：

其中，Queue_average表示实时获取的排队车辆数，n_lane表示为交叉口中所有进车道的数量，Queue_lane_i表示为第i条进车道的实时获取的排队车辆数；

步骤S32、记录强化学习模型训练过程中每个仿真步长的全局平均速度，所述全局平均速度的计算公式如下：

其中，Speed_average表示全局平均速度，n_veh表示为全局所有车辆的数量，Speed_veh_i表示为车辆i的实时速度；

步骤S33、定义当前时间步全局平均速度与上一时间步全局平均速度的差作为reward₁；计算实时获取的排队车辆数Queue_average，利用固定配时方案下的平均排队车辆数queueVehicles_fixed的rate倍与Queue_average做差得出reward₂；

步骤S34、基于以上全局平均速度和实时获取的排队车辆数两部分的交通要素，并根据固定配时方案下的平均排队车辆数设定奖励函数的基线l，以此强调所采取动作的优劣，并对reward₁和reward₂分配不同的权重k₁和k₂，具体公式如下：

/>

其中，r为奖励值，Speed_average_current表示当前时间步全局平均速度，Speed_average_pre表示上一时间步全局平均速度，Queue_average表示实时获取的排队车辆数，queueVehicles_fixed表示固定配时方案下的平均排队车辆数，rate表示奖励基线排队车辆数比率；

步骤S35、通过上述的参数设定方式构建奖励，算法在对模型进行训练时依据奖励值对动作进行评价。

进一步的，所述步骤S4进一步包括：

步骤S41、利用传统DDQN具有评价网络和目标网络的结构作为模型的基础，传统DDQN的误差函数如下:

Loss＝(y^DDQN-Q(s,a；θ))²

其中，s表示为当前时刻的状态,a表示当前时刻选择的动作,r表示当前时刻所获得的奖励值，γ表示折扣系数，s'表示下一时刻的状态，a'表示下一时刻选择的动作，a_u表示为在下一时刻动作集合中评价值最高的动作，θ表示评价网络参数，θ^-表示目标网络参数，

表示目标网络对于(s',a_u)的评价，Q(s,a；θ)表示评价网络对于(s,a)的评价，y^DDQN表示DDQN算法的时序差分目标值；

在DDQN的网络结构上，利用原有的评价网络产生状态s'下具有最大动作值的动作a^*和具有最小动作值的动作a_L，而目标网络则用于评估a^*和a_L的动作值再求差后得出绝对值，通过所构成绝对值与常数作比值计算生成权重β，之后进入步骤S42；

步骤S42、在每一个时间步所记录下的评价网络和目标网络的网络参数，在两个网络计算状态s'下a^*和a_L的动作值时利用相邻K个网络参数分别进行评估，最终生成目标函数时采用K个评估值进行评价网络和目标网络均值和的计算，完成后进入步骤S43；

步骤S43、将进行平均网络估值计算的个数K值设定为从K_max逐渐减至K_min的计算方式，同时，将用于计算权重的超参数C经由神经网络进行全连接层的计算，根据先前存储的Q和

网络参数计算的Q(s′，a^*；θ)和/>

作为全连接层的输入从而拟合出数值，完成后进入步骤S44；

步骤S44、最后，本发明在计算时序差分目标函数y^AWA-DDQN时分配给评价网络的权重为β，分配给目标网络的权重为(1-β)，通过以上分配的权重进行目标值的计算，最终再由误差函数进行网络参数更新，计算公式如下：

/>

其中,r表示当前时刻所获得的奖励值，β为目标函数分配评价网络的权重，γ表示折扣系数，K为目标函数使用的网络参数个数，a*为s'状态评价网络的最优动作，a_L为s'状态评价网络的最差动作，θ_k为第k个评价网络的参数，

为第k个目标网络的参数，K_max为设定K值的最大值，K_min为设定K值的最小值，global_step为全局的训练步长，λ为K值的递减系数，y^AWA-DDQN为自适应的交通信号控制方法的时序差分目标值，C为步骤43中拟合得到的数值。

本发明具有如下技术效果或优点：本发明利用基于离散交通编码的状态描述方法获取更为全面的车流实时信息；采用基于固定相位顺序的动作集合设定方法，使得信号灯的变化更加符合现实的驾驶状况；同时提供基于固定配时方案的平均排队车辆数目的奖励设置方法，提升控制方法对于不同交叉口环境的适用性；结合基于自适应权重均值的深度双Q网络模型，有效减缓传统深度Q网络模型更新时可能带来的估计偏差，以此来提高模型训练的稳定性。本发明方法考虑因素全面，自适应性强，提高了原始深度强化学习算法在状态价值评价的准确性，能够有效地优化道路的通行效率，减少车辆通行时间并缓解交通拥堵。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种交通信号优化控制方法的执行流程图；

图2为本发明一种交通信号优化控制方法的原理框图；

图3为本发明方法的基于自适应权重均值的深度双Q网络模型的原理示意图；

图4为本发明方法中网络模型的超参计算流程示意图；

图5为本发明方法中基于离散交通编码的状态描述方法的原理图；

图6为本发明实施1中的道路交叉口平面示意图；

图7为本发明实施1中交叉口交通信号灯动作及相位序列示意图；

图8为本发明构建的神经网络使用过程示意图；

图9为采用不同算法下的车辆平均延误对比图；

图10为采用不同算法下的车辆平均排队长度对比图。

具体实施方式

本申请的自适应的交通信号控制方法，致力于根据实时的交通流特征和优化目标动态调整信号配时。人工智能等相关技术的不断发展加快了智慧交通建设的进程，也使得交通信号控制逐渐走向了具有自适应特性的智能化发展。深度强化学习作为人工智能领域一个新的研究热点，利用深度神经网络的拟合能力和强化学习的决策优势，在交通信号配时优化方法上表现出了巨大潜力。

本发明的一种交通信号优化控制方法，如图1至图4所示，所述方法包括：

较佳的，所述步骤S1具体为：

步骤S13、在获取每个进车道方向的车辆位置矩阵后，根据道路上的车辆速度构建与车辆位置矩阵同规模的车辆速度矩阵，速度矩阵的数值表示为元胞内车辆的实时速度。若一个元胞内存在多辆车辆，则所述元胞内车辆的实时速度为所述元胞内多辆车辆的实时速度的平均值。

基于深度强化学习的状态设定依赖于对环境的描述，而在交通信号灯控制的场景下所采取的主流方法为离散交通编码，通过这种方式可以获得更为详细的车流信息，且本发明在传统的离散交通编码的基础上，对元胞的计算进行了一定的改进，相较于传统的离散交通编码，本发明拓宽了元胞的长度，从而使得车辆位置矩阵的数值表示可大于1，利用该方式可表示出停车排队长度的车头距信息，更好地表示交通环境的状态。

通过堆叠道路上实时的位置和速度矩阵信息达到类似图像的细节描述，以此作为深度强化学习模型的输入有效地刻画进车道的车流信息，有助于挖掘更深层次的内部特征。

较佳的，所述步骤S2具体为：

步骤S22、设定信号灯智能体的动作集合为A＝{0，1}，信号灯智能体根据当前状态选择最优的动作a_t∈A，当at＝0时,信号灯保持当前相位不变；当a_t＝1时，信号灯切换至相位序列中当前相位的下一个相位，进入步骤S23；

基于固定相位顺序的动作集合设定方法，交通信号灯智能体通过观察当前的交通状态，从动作集合中按照一定规则选择最佳动作，环境在所执行动作的作用下改变当前信号灯的相位，从而实现对不同相位信号灯的控制。为了更加符合现实的驾驶状况，信号灯相位的变化应该具有周期性，避免在不同相位之间无规律切换，且为了保证各个方向信号分配的公平性，定义了最短相位持续时间和最长相位持续时间，在相位发生切换时，绿灯切换至红灯间隙需要设置一定时长的黄灯时间，以此保证过渡阶段的交通安全。

较佳的，为提高强化学习算法奖励设置的合理性，提出一种基于固定配时方案下的平均排队车辆数的奖励设置方法。智能体执行动作之后，从交通环境变化中所得到的奖励是对信号控制决策的评估，并将对下一个信号控制决策产生影响，高效的信号控制策略应该把握全局车辆的行驶状况，并将车辆排队长度控制在合理的范围之内。具体的，所述步骤S3具体为：

其中，r为奖励值，Speed_average_current表示当前时间步全局平均速度，Speed_average_pre表示上一时间步全局平均速度，Queue_average表示实时获取的排队车辆数，queueVehicles_fixed表示固定配时方案下的平均排队车辆数，rate表示奖励基线排队车辆数比率，所述rate设定为2/3，queueVehicles_fixed经计算得数为25，k₁和k₂设定为0.2和0.1；

步骤S35、通过上述的参数设定方式构建奖励，自适应的交通信号控制方法在对模型进行训练时依据奖励值对动作进行评价。

较佳的，为了解决实际道路控制场景的多样性和实时控制需求等问题对算法的自适应性提出的更高要求，本发明提出基于自适应权重均值深度双Q网络的交通信号优化控制方法，所述步骤S4进一步包括：

步骤S41、利用传统DDQN具有评价网络和目标网络的结构作为模型的基础，网络模型的输出为动作集合中所有动作集合的评价值Q(s,a；θ)，并根据评价值Q(s,a；θ)的大小确定要执行的动作，传统DDQN的误差函数如下:

Loss＝(y^DDQN-Q(s,a；θ))²

表示目标网络对于(s',a_u)的评价，Q(s,a；θ)表示评价网络对于(s,a)的评价，y^DDQN表示DDQN算法的时序差分目标值，模型利用时序差分目标值与当前对动作的评价值进行基于损失函数的参数更新。

网络参数计算的Q(s′，a^*；θ)和/>

作为全连接层的输入从而拟合出数值，完成后进入步骤S44；

/>

为第k个目标网络的参数，K_max为设定K值的最大值，K_min为设定K值的最小值，global_step为全局的训练步长，λ为K值的递减系数，y^AWA-DDQN为自适应的交通信号控制方法的时序差分目标值，C为步骤43中利用先前存储的Q和/>

网络参数计算的Q(s′，a^*；θ)和/>

作为全连接层的输入从而拟合出的数值。

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明：

本实例中采用泉州市2019年8月20日丰泽路-田安南路的交叉口信号灯上午09:00-10:00的视频数据进行分析。请参考如图5至图7。

一、通过本发明的步骤S1方法获取指定交叉口的实时车流状况，具体如下：

1)首先，根据交叉口2019年8月20日的监控视频生成车流量文本数据，数据文件采用MicrosoftExcel文件格式进行存储。交叉口车流的监控视频由泉州市交通局提供，为泉州市丰泽路-田安南路2019年8月20日的交叉口监控视频，存储格式为MP4文件。通过人工统计的办法将视频数据转换为车流量文本数据，文本数据的格式如下表1所示。

表1人工统计的丰泽-田安交叉口车流数据

/>

2)其次，依据泉州市丰泽路-田安南路的交叉口的实际结构，利用Vissim交通仿真软件搭建路网环境，以该交叉口选定的时间段所对应的配时方案和历史车流量作为环境的仿真参数，如表2所示。

表2丰泽-田安交叉口Vissim仿真参数设定

同时，依据泉州市交通局提供的泉州市2019年8月20日丰泽路-田安南路的交叉口上午09:00-10:00的视频数据，可以获取交叉口周边路段的数据。车流量数据如参考表格3所示：以西向东各个方向车流为例：

表3车流量数据表

设定路网的信号灯配时方案为上述的时间分配，根据车流量数据表设定路网仿真的车辆数目，由此构建实例1的路网仿真文件。

3)取交叉口四个进车道停车线前200m的路段作为检测对象，分隔离散交通编码的元胞长度为8m，进行15min的仿真过程，取仿真的时间步长为5s。在仿真的每个时间间隔，自适应的交通信号控制方法利用各个进车道的速度矩阵和位置矩阵作为模型的输入。通过离散交通编码的状态输入可以准确地反映交叉口进车道车辆的实时到达状态和道路拥堵情况。

二、本发明步骤S2提出一种基于固定相序的动作集合设定方法，对应用交叉口的原始配时方案的相位顺序进行获取，从而按照原始相序进行交叉口路权的分配。通过采用具有固定信号灯相位的变化顺序，从而达到符合现实的驾驶情况的目的，具体步骤如下所示：

1)首先，将实例1的信号相位定义为集合Phase＝{NslSrEr,NrSslWr,WsEs,NrSrWlrElr}。相位按照原配时NslSrEr→NrSslWr→WsEs→NrSrWlrElr的顺序变换。NslSrEr表示北至南方向允许直行和左转，南至北方向允许右转，东至西方向允许右转；NrSslWr表示北至南方向允许右转，南至北方向允许直行和左转，西至东方向允许右转；WsEs表示西至东方向允许直行，东至西方向允许直行；NrSrWlrElr表示北至南方向允许右转，南至北方向允许右转，西至东方向允许左转和右转，东至西方向允许左转和右转。

2)其次，设定动作集合定义为A＝{0,1}。在与环境交互的任一时刻t，交叉口的车流状态为s_t，智能体根据当前状态选择最优的动作a_t∈A。当a_t＝0时，信号灯保持当前相位不变；当a_t＝1时，信号灯切换至相位序列中当前相位的下一个相位。

3)其次，为了保证各个方向信号分配的公平性，定义了最短相位持续时间为10s，最长相位持续时间为40s。同时，相位发生切换时，绿灯切换至红灯间隙需要设置一定时长的黄灯时间，以此保证过渡阶段的交通安全。

4)基于以上相位序列和动作集合，智能算法对选定交叉口的信号灯进行协调调度。

三、为解决强化学习算法奖励函数设置的难点，本发明提出一种基于固定配时方案的平均排队车辆数目的奖励设置方法，提出将全局速度差与排队车辆数结合的思路，将奖励函数的组成划分为两部分：通过计算固定配时方案下的平均排队车辆数目的一定比例作为基线，加上当前全局速度与上一时间步的全局速度差作为奖励函数。具体如下：

依据上述一、二所构建的路网环境和动作设置方法进行仿真，奖励函数构建的具体步骤如下所示：

1)首先，通过仿真实验得出固定配时方案下的平均排队车辆数queueVehicles_fixed，在完整的仿真过程下，实时获取的排队车辆数为各车道满足排队车速的车辆数之和，所述实时获取的排队车辆数的计算公式如下：

2)其次，记录下强化学习模型训练过程中每个仿真步长的全局平均速度，计算公式如下：

3)定义当前时间步全局平均速度与上一时间步全局平均速度的差作为reward₁；计算实时获取的排队车辆数Queue_average，利用固定配时方案下的平均排队车辆数queueVehicles_fixed的rate倍与Queue_average做差得出reward₂；

4)基于以上全局平均速度和实时获取的排队车辆数两部分的交通要素，并根据固定配时方案下的平均排队车辆数设定奖励函数的基线l，以此强调所采取动作的优劣，并对reward₁和reward₂分配不同的权重k₁和k₂，具体公式如下：

其中，r为奖励值，Speed_average_current表示当前时间步全局平均速度，Speed_average_pre表示上一时间步全局平均速度，Queue_average表示实时获取的排队车辆数，queueVehicles_fixed表示固定配时方案下的平均排队车辆数，rate表示奖励基线排队车辆数比率，rate设定为2/3，queueVehicles_fixed经计算得数为25，k₁和k₂设定为0.2和0.1。

5)通过上述的参数设定方式构建本发明的奖励设置方法，算法在对模型进行训练时依据奖励值对动作进行评价。

四、通过本发明步骤S4的基于自适应权重均值的深度双Q网络模型对交通信号灯的控制进行优化，步骤S4的主要工作是依据上述步骤的参数初始化设置，应用于改进的深度双Q网络算法的交叉口信号灯配时优化，并对交叉口信号灯优化前后进行评价验证，验证方案的正确性，具体如下：

1)首先，依照所选定的交叉口的实地数据进行获取，依据泉州市交通局所提供的丰泽路-田安南路交叉口的道路平面图和道路的基本信息，构建符合实际交通场景的Vissim仿真文件。得到Vissim仿真底图的基本参数如表4所示:

表4丰泽-田安交叉口Vissim仿真底图参数表

依据上述基本信息可以构建此交叉口的仿真底图，完成仿真作业。

2)其次，在DDQN的网络结构上，利用原有的评价网络产生状态s'下具有最大动作值的动作a^*和具有最小动作值的动作a_L，而目标网络则用于评估a^*和a_L的动作值再求差后得出绝对值，通过所构成绝对值与常数作比值计算生成权重β。之后进入步骤3。

3)、然后，在每一个时间步所记录下的评价网络和目标网络的网络参数，在两个网络计算状态s'下a^*和a_L的动作值时利用相邻K个网络参数分别进行评估，最终生成目标函数时采用K个评估值进行评价网络和目标网络均值和的计算。完成后进入步骤4。

4)、将进行平均网络估值计算的个数K值设定为从K_max(设定为10)逐渐减至K_min(设定为5)的计算方式。同时，将权重计算的超参数C经由神经网络进行全连接层的计算，根据先前存储的Q和

网络参数计算的Q(s′，a^*；θ)和/>

作为全连接层的输入从而拟合出C值。完成后进入步骤5。

5)、最后，本发明在计算时序差分目标函数y^AWA-DDQN时分配给评价网络的权重为β，分配给目标网络的权重为(1-β)。通过以上分配的权重进行目标值的计算，最终再由误差函数对评价网络和超参网络进行参数的更新。计算公式如下：

根据上述步骤的基于自适应权重均值深度双Q网络的信号灯配时结果，应用于仿真交叉口信号灯的相位分配，观察基于仿真路优化后平均车辆延误与排队长度的对比结果，评价上述步骤的正确性。

如图8所示，本发明在网络参数更新完毕之后，只需要按照步骤S1的方式对获取到的交叉路口的各个进车道的车辆信息，构建车辆位置矩阵和车辆速度矩阵，之后输入到神经网络中，即可输出动作集合中所有动作集合的评价值Q(s,a；θ)，从而根据评价值Q(s,a；θ)的大小确定要执行的动作，达到对交通信号灯动作的优化控制。

实验将本发明提出的基于AWA-DDQN的交通信号优化控制方法对比于传统的深度Q网络(DQN,Deep Q Network)、深度双Q网络(DDQN,Double DeepQNetwork)、基于权重均值的深度双Q网络(WA-DDQN,Weighted Averaged Double Deep Q Network)和原始的固定配时方案，利用平均延误和平均排队两个指标进行实验优化效果的比较。数据对比参照表5所示：

表5实验结果分析表

根据上述实验结果结合图7至图10可以得出，DQN及其改进模型DDQN、WA-DDQN等基于深度强化学习的信号控制策略，相较于原始的固定配时方案均有明显的优化效果，而本发明提出的AWA-DDQN模型则表现出了更为优越的控制效果，其通过自适应参数的训练方式，使得模型所计算的时序差分目标值更为准确，提高了对于动作评价值的Q(s,a；θ)的准确性，能够指导信号灯更合理地选择动作，有效地提高道路的通行效率，减少车辆通行时间并缓解交通拥堵。

本发明与已有基于深度强化学习的信号灯配时方法有较大区别，可从自适应性、目标函数精确度等方面进行综合分析对比，具体如下表6所示；

表6算法不同点分析比对表

上述表6为本发明与已有基于深度强化学习的信号灯配时方法的不同点分析比对列表，传统DQN系列算法对于状态的评价值与实际的状态动作值还有一定的误差，这类误差会影响模型收敛时对于状态估计的准确性。为了提高对于强化学习算法对于环境和动作决策的准确性，本发明提出基于离散交通编码的状态描述方法，同时利用基于固定相位顺序的动作集合设定方法来指导信号灯智能体的行为决策，最后利用基于固定配时方案的平均排队车辆数目的奖励设置方法，优化了算法在不同应用场景下的算法设置方法；另外为了解决DQN系列算法对于动作估计值的不准确性。本发明提出的一种基于自适应权重均值深度双Q网络的交通信号优化控制方法，通过网络历史参数计算动作评估的均值作为目标值，并利用神经网络拟合出评价网络和目标网络的权重来更新网络模型。在此基础上，将一定数量的相邻动作评估值通过全连接层生成权重计算的常数项，并逐步减少用于均值计算的动作值数量以增强模型训练的稳定性。

本发明中的改进的离散交通编码表示方法与传统的离散交通编码表示方法相比，状态表示精度更高，本发明的基于固定配时方案的平均排队车辆数目的奖励设置方法较传统的信号灯场景下的奖励设置方法的自适应性更高，本发明的目标函数求解精度较传统的DQN系列算法的求解精度更高。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

采用基于深度强化学习的状态设定依赖于对环境的描述，在交通信号灯控制的场景下采取离散交通编码方式，可以获得更为详细的车流信息，且本发明在传统的离散交通编码的基础上，对元胞的计算进行了一定的改进；

交通信号灯智能体通过观察当前的交通状态，从动作集合中按照一定规则选择最佳动作，环境在所执行动作的作用下改变当前信号灯的相位，从而实现对不同相位信号灯的控制，且为了更加符合现实的驾驶状况，设置信号灯相位的变化具有周期性，避免在不同相位之间无规律切换；

为提高强化学习算法奖励设置的有效性，本发明还提出基于固定配时方案的平均排队车辆数目的奖励设置方法，信号灯智能体执行动作之后，从交通环境变化中所得到的奖励是对信号控制决策的评估，并将对下一个信号控制决策产生影响，高效的信号控制策略应该把握全局车辆的行驶状况，并将车辆排队长度控制在合理的范围之内；

本发明提出的一种基于自适应权重均值深度双Q网络的交通信号优化控制方法，根据实际道路控制场景的多样性和实时控制需求等问题对算法的自适应性提出了更高的要求。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种交通信号优化控制方法，其特征在于：所述方法包括：

步骤S1、获取交叉路口的各个进车道的车辆信息，基于离散交通编码的状态描述方法，构建车辆位置矩阵和车辆速度矩阵；所述步骤S1具体为：

步骤S12、以固定的长度划分观测区域内每个车道的长度，从而构成同等规格的元胞，然后在元胞中以整型数值表示车辆的位置信息，构成车辆位置矩阵，进入步骤S13；

步骤S13、在获取每个进车道方向的车辆位置矩阵后，根据道路上的车辆速度构建与车辆位置矩阵同规模的车辆速度矩阵，速度矩阵的数值表示为元胞内车辆的实时速度；

步骤S2、获取原始固定配时方案下交叉口的交通信号灯动作及相位序列，设定信号灯的动作集合，进行智能体对交通信号的协调调度；所述步骤S2具体为：

步骤S24、基于以上相位序列和动作集合，信号灯智能体对交通信号进行协调调度；

步骤S3、依据步骤S1、步骤S2所构建的路网环境和动作设置方法进行仿真，获取固定配时方案的平均排队车辆数目，并构建奖励函数；所述步骤S3具体为：

步骤S35、通过上述的参数设定方式构建奖励，算法在对模型进行训练时依据奖励值对动作进行评价；

步骤S4、创建基于自适应权重均值的深度双Q网络模型，结合奖励值对网络模型参数进行更新，得到最终的网络模型，并利用所述网络模型优化控制交通信号；所述步骤S4进一步包括：

Loss＝(y^DDQN-Q(s,a；θ))²

其中，s表示为当前时刻的状态,a表示当前时刻选择的动作,r表示当前时刻所获得的奖励，γ表示折扣系数，s'表示下一时刻的状态，a'表示下一时刻选择的动作，a_u表示为在下一时刻动作集合中评价值最高的动作，θ表示评价网络参数，θ^-表示目标网络参数，

网络参数计算的Q(s′，a^*；θ)和/>

作为全连接层的输入从而拟合出数值，完成后进入步骤S44；/>

步骤S44、最后，在计算时序差分目标函数y^AWA-DDQN时分配给评价网络的权重为β，分配给目标网络的权重为(1-β)，通过以上分配的权重进行目标值的计算，最终再由误差函数进行网络参数更新，计算公式如下：

为第k个目标网络的参数，K_max为设定K值的最大值，K_min为设定K值的最小值，global_step为全局的训练步长，λ为K值的递减系数，y^AWA-DDQN为自适应的交通信号控制方法的时序差分目标值，C为步骤43中拟合得到的数值。/>