CN114299732B

CN114299732B - 一种同时考虑行程时间和公平性的交通灯控制方法及系统

Info

Publication number: CN114299732B
Application number: CN202111641916.1A
Authority: CN
Inventors: 余超; 梁泽年
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-04-14
Anticipated expiration: 2041-12-29
Also published as: CN114299732A

Abstract

本发明提供一种同时考虑行程时间和公平性的交通灯控制方法及系统，其中方法包括：将行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；通过DQN算法，根据行程时间策略Q网络的元组型数据缓存器中的数据对行程时间策略Q网络进行更新，根据公平性策略Q网络的元组型数据缓存器中的数据对公平性策略Q网络进行更新；建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至中心Q网络。本发明同时考虑路网中车辆的平均行程时间以及公平性，达到在行程时间相同下，公平性更好的效果。

Description

一种同时考虑行程时间和公平性的交通灯控制方法及系统

技术领域

本发明涉及交通灯控制技术领域，特别是涉及一种同时考虑行程时间和公平性的交通灯控制方法及系统。

背景技术

交通灯控制的目的是为了减少交通拥堵问题，交通拥堵问题不仅影响驾驶人乘车人的心情，浪费时间，浪费燃料，车辆等待时候的多排出的CO2、尾气也会影响环境，此外，该问题也会影响城市面貌；再进一步，人们通勤时间的增加也会影响所在企业的生产效率。现有的交通灯控制方法可以分为两大类：传统方法和基于深度强化学习的方法。

传统方法分为定时控制、感应控制和自适应控制。定时控制：交通信号根据预设的配时方案运行。感应控制：事先设定好相位顺序，每个相位先持续预设的相位绿灯最短时间，而后根据车道车辆状态来决定是否继续延长绿灯时间(多次延长不能超过预设的最大值)。自适应控制：根据检测到交通流状态，对信号配时进行调整，按照自适应程度不同，可分为多方案切换自适应控制和实时自适应控制，多方案切换的自适应控制根据不同的交通状态预先计算多组信号灯配时方案，而后根据实时监测到的交通流状态来判定下一周期运行哪组方案；实时自适应控制则根据实时监测到的交通流状态，重新计算最新的交通信号灯配时方案，而后在下一周期运行。

但是，现实中的交通情况可能受很多其他因素的影响，例如驾驶员的偏好，受行人，骑行的人的行为影响，天气和道路本身的特点也会影响交通情况。固定配时和感应控制等方法无法合理应对这样的变化。自适应控制方法虽然能够根据交通状况调整信号灯方案，但是其引入了很强的假设条件，与现实交通情况不一致，因此也无法更好地优化交通状况。并且传统的方法没有考虑每辆车之间的公平性。

基于深度强化学习的方法：该类方法将交通信号灯控制建模成强化学习问题，将路口看作智能体，智能体的动作是交通灯相位，状态是路口目前的交通状况(各车道的车辆数，排队长度等)。智能体根据当前时刻的状态选择一个动作，持续运行一段时间，得到奖励(由优化的目标决定)，根据奖励来改进自身的策略。如IntelliLight采用DQN算法，状态为本路口每个车道的车辆数，排队长度，图像表示；动作为是否切换到下一相位；奖励为进口道上排队长度，等待时间，延迟等指标的加权和。Colight采用DQN算法+图神经网络，状态为本路口以及周围4个路口每个车道的车辆数，动作为下一相位，奖励为进口道上排队长度的相反数。

但是，现有的基于深度强化学习的方法通常只优化单个目标，即车辆的平均行程时间，没有考虑每辆车之间的公平性。

发明内容

针对城市路网中的交通灯控制问题，本发明提供一种同时考虑行程时间和公平性的交通灯控制方法及系统，同时考虑路网中车辆的平均行程时间以及公平性，使得让每辆车延误时间占总行程时间的比例尽量接近。

本发明第一方面提供一种同时考虑行程时间和公平性的交通灯控制方法，包括：

建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器；

通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值；

将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；

通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新；

建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。

进一步地，所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境，具体地：

选定交通仿真环境，并初始化两个相同的交通仿真环境，分别作为行程时间策略Q网络的交通仿真环境和公平性策略Q网络的交通仿真环境；其中，所述交通仿真环境包括：路网，交通信号灯及车辆。

进一步地，所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维，输出维度为8维。

进一步地，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前，还包括：

通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处理。

进一步地，所述冷启动处理，包括：

初始化仿真回合数；

设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。

进一步地，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值，包括：

分别获取行程时间策略Q网络的交通仿真环境及公平性策略Q网络的交通仿真环境中各个路口的交通状态，并将行程时间策略Q网络的交通仿真环境中各个路口的交通状态输入至行程时间策略Q网络中，将公平性策略Q网络的交通仿真环境中各个路口的交通状态输入至公平性策略Q网络中，得到行程时间策略Q值和公平性策略Q值；

根据ε–greedy策略选择行程时间策略Q值的最大的动作和公平性策略Q值的最大的动作，得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值。

进一步地，所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数；所述公平性策略Q网络的交通仿真环境中每个路口的奖励通过以下公式计算：

其中，R_Fairness为公平性策略Q网络的交通仿真环境中每个路口的奖励，i表示车辆，n为车辆总数，tti_i为第i辆车的实际行程时间/已通行路程的理想行程时间，tti_mean为当前时刻所有车辆tti_i的均值。

进一步地，所述通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新，包括：

分别从行程时间策略Q网络的元组型数据缓存器和公平性策略Q网络的元组型数据缓存器中各随机抽样128个样本，并将抽取到的样本输入至对应的Q网络，得到行程时间策略Q网络的Q值分布和公平性策略Q网络的Q值分布；

选取样本中的当前动作，得到对应的Q值；

将样本中的下一状态输入至对应的Q网络中，并选取最大的Q网络作为Q_next；

将每个路口的奖励与Q_next相加，得到Q_target；

重复更新过程满足更新次数。

进一步地，所述将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络，包括：

分别从行程时间策略Q网络的元组型数据缓存器中和公平性策略Q网络的元组型数据缓存器中随机抽样128个样本分别输入至所述中心Q网络和所述行程时间策略Q网络中，分别得到述中心Q网络的Q值和行程时间策略Q网络的Q值；

对所述中心Q网络的Q值和行程时间策略Q网络的Q值进行Softmax操作，得到中心Q网络的概率分布值和行程时间策略Q网络的概率分布值；

根据中心Q网络的概率分布值和行程时间策略Q网络的概率分布值计算KL散度，并设置蒸馏过程的学习率，

重复蒸馏过程满足更新次数。

本发明第二方面提供一种同时考虑行程时间和公平性的交通灯控制系统，包括：

建立模块，用于建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器；

迭代模块，用于通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值；

计算模块，用于将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；

更新模块，用于通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新；

蒸馏模块，用于建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。

与现有技术相比，本发明实施例的有益效果在于：

本发明提出了交通灯控制问题中车辆的公平性指标，用来避免其他方法可能出现的，对少数车辆的不公平对待，具有很强的现实意义。基于公平性指标，本发明设计了能直接用于训练过程每个路口的公平程度奖励。本发明同时考虑路网中车辆的平均行程时间以及公平性，与其他方法相比，可以达到在行程时间相同下，公平性更好的效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的一种同时考虑行程时间和公平性的交通灯控制方法的流程图；

图2是本发明某一实施例提供的一种同时考虑行程时间和公平性的交通灯控制系统的装置图；

图3是本发明某一实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

第一方面。

请参阅图1，本发明一实施例提供一种同时考虑行程时间和公平性的交通灯控制方法，包括：

S10、建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器。

S20、通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值。

S30、将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态。

S40、通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新。

S50、建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。

优选地，所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境，具体地：

优选地，所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维，输出维度为8维。

优选地，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前，还包括：

优选地，所述冷启动处理，包括：

初始化仿真回合数；

设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。

优选地，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值，包括：

优选地，所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数；所述公平性策略Q网络的交通仿真环境中每个路口的奖励通过以下公式计算：

优选地，所述通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新，包括：

选取样本中的当前动作，得到对应的Q值；

将每个路口的奖励与Q_next相加，得到Q_target；

重复更新过程满足更新次数。

优选地，所述将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络，包括：

重复蒸馏过程满足更新次数。

在某一具体实施例中，本发明提供一种同时考虑行程时间和公平性的交通灯控制方法，包括：

Step0：选定交通仿真环境CityFlow，初始化两个相同的仿真环境，对应两个子策略。其中交通场景由路网，交通信号灯，车辆组成。新建一个智能体，让该智能体分别收集所有路口的经验来学习，并且分别指导所有路口行动。

Step1：智能体初始化一个中心Q网络，以及两个子策略Q网络(代表子策略优化的目标：行程时间和公平性)，分别记作Q_Center，Q_Time，Q_Fairness。神经网络的输入维度均为52维，输出均为8维。为两个子策略分别建立缓存用于储存元组型数据。都是以队列的方式进行存储，当队列满了之后，最先放入的数据就会被丢弃掉，让新放进去的数据覆盖掉。使用DQN算法(Deep Q Network)对Q网络做冷启动处理。初始化仿真回合数epi＝0，更新间隔step_per_update＝10，每轮更新次数num_update＝4，每回合仿真步数max_step＝120(1step＝仿真环境内的30秒，一回合＝仿真环境1小时)，缓存大小buffer_length＝100000。

Step2：epi＝epi+1,设置探索系数ε＝1.0-0.02*epi,初始化该回合仿真步数step＝0，重置仿真环境。获取各个路口的交通状态，将交通状态分别输入Q_Time，Q_Fairness网络，得到两组Q值。根据ε–greedy策略，以概率ε随机选择一个动作，以概率1-ε来选择Q值最大的动作，得到a_Time,a_Fairness,把a_Time,a_Fairness输入到仿真环境中，得到每个路口的奖励以及下一步的状态，step＝step+1。其中两个仿真环境有不一样的奖励函数：子策略Q_Time对应的仿真环境里，一个路口的奖励是该路口所有进口道的排队长度之和的相反数；子策略Q_Fairness对应的仿真环境里，一个路口的奖励是：

其中，n是路口进口道的车辆数，tti意为travel time index，其定义为：实际行程时间/已通行路程的理想行程时间。tti_i为第i辆车的tti，tti_mean为当前时刻所有车辆tti的均值。最终公平程度为整个路网所有车辆的R_Fairness。

把两个子策略的一步经历，即<状态，动作，奖励，下一状态>存储到对应的缓存中。如果step％step_per_update＝＝0，则进行Step3的子策略更新以及Step4的策略蒸馏，否则重复上述单步仿真过程，直到step达到max_step，再重复整个Step2。

Step3：使用DQN算法进行子策略更新，首先从中随机抽样128个样本(<状态，动作，奖励，下一状态>)，把样本中的状态输入Q_Time网络，得到每个动作的Q值分布，再选取样本中的动作，得到对应的Q。把样本中下一状态输入Q_Time网络，选取最大的Q值作为Q_next。把奖励加上Q_next得到Q_target。损失函数为MSE(Q,Q_target)，MSE为均方误差。子策略学习率采用0.0002。

对另一个子策略，从中随机抽样128个样本，同样用上述方式更新。

重复以上过程num_update次。

Step4：使用监督学习的方法把两个子策略蒸馏到中心策略上。首先从中随机抽样128个样本，把状态分别输入Q_center，Q_Time，得到两组Q值，把两组Q值分别进行Softmax操作得到两组概率分布D_Center，D_Time，损失函数为D_Center对于D_Time的KL散度。蒸馏过程的学习率选取0.001。

对另一个子策略，从中随机抽样128个样本，同样用上述方式进行策略蒸馏。

重复以上过程num_update次。转Step2。

第二方面。

请参阅图2，本发明一实施例提供一种同时考虑行程时间和公平性的交通灯控制系统，包括：

建立模块10，用于建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器；

迭代模块20，用于通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值；

计算模块30，用于将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；

更新模块40，用于通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新；

蒸馏模块50，用于建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。

优选地，所述冷启动处理，包括：

初始化仿真回合数；

设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。

选取样本中的当前动作，得到对应的Q值；

将每个路口的奖励与Q_next相加，得到Q_target；

重复更新过程满足更新次数。

重复蒸馏过程满足更新次数。

第三方面。

本发明提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的一种同时考虑行程时间和公平性的交通灯控制方法对应的操作。

在一个可选实施例中提供了一种电子设备，如图3所示，图3所示的电子设备5000包括：处理器5001和存储器5003。其中，处理器5001和存储器5003相连，如通过总线5002相连。可选地，电子设备5000还可以包括收发器5004。需要说明的是，实际应用中收发器5004不限于一个，该电子设备5000的结构并不构成对本申请实施例的限定。

处理器5001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器5001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线5002可包括一通路，在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器5003用于存储执行本申请方案的应用程序代码，并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

第四方面。

本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的一种同时考虑行程时间和公平性的交通灯控制方法。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

Claims

1.一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，包括：

建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络；

所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数；所述公平性策略Q网络的交通仿真环境中每个路口的奖励通过以下公式计算：

其中，R_Fairness为公平性策略Q网络的交通仿真环境中每个路口的奖励，i表示车辆，n为车辆总数，tti_i为第i辆车的实际行程时间/已通行路程的理想行程时间，tti_mean为当前时刻所有车辆tti_i的均值；

所述将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络，包括：

重复蒸馏过程满足更新次数。

2.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境，具体地：

3.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维，输出维度为8维。

4.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前，还包括：

5.如权利要求4所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述冷启动处理，包括：

初始化仿真回合数；

设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。

6.如权利要求5所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值，包括：

7.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新，包括：

选取样本中的当前动作，得到对应的Q值；

将每个路口的奖励与Q_next相加，得到Q_target；

重复更新过程满足更新次数。

8.一种同时考虑行程时间和公平性的交通灯控制系统，其特征在于，包括：

蒸馏模块，用于建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络；

重复蒸馏过程满足更新次数。