CN113257016A

CN113257016A - 一种交通信号控制方法、装置以及可读存储介质

Info

Publication number: CN113257016A
Application number: CN202110682631.6A
Authority: CN
Inventors: 由长喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-08-13
Anticipated expiration: 2041-06-21
Also published as: CN113257016B

Abstract

本申请公开了一种交通信号控制方法、装置以及可读存储介质，应用于交通领域，该方法包括：获取目标路口以及相邻路口中的路口车辆状态；获取目标路口的历史相位切换记录和相位切换集合；相位切换集合包括一个或多个相位切换序列；历史相位切换记录包括至少两个互不相同的相位；对相位切换集合中的一个或多个相位切换序列进行遍历，将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据历史相位切换记录在目标相位切换序列中获取候选相位；根据路口车辆状态从候选相位中选取目标相位，根据目标相位对目标路口的路口信号标识进行控制。采用本申请，可以发挥区域内多路口之间的协同控制作用，提升路网整体通行效率。

Description

一种交通信号控制方法、装置以及可读存储介质

技术领域

本申请涉及路口协同控制技术领域，尤其涉及一种交通信号控制方法、装置以及可读存储介质。

背景技术

随着经济的快速发展，城市交通拥堵问题日益严重，尤其是道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征，很难建立起精确的数学模型，导致基于传统交通规则的交通信号控制策略面临新的挑战。

为了有效缓解交通拥堵，业内提出了很多交通信号灯控制方案，比较典型的包括MaxPressure（最大压力控制法）、Webster（韦伯斯特配时法）、SCATS（Sydney CoordinatedAdaptive Traffic System，悉尼自适应交通控制系统）等。其中，MaxPressure属于比较典型的实时性方案，通过计算交通需求压力来控制交通信号灯的颜色切换，理论上可以最大程度增加单个路口的吞吐量。Webster则依赖对路口数据的分析来设计固定的周期方案。然而，这些方案都具有较大的局限性，一般仅适用于单一路口的优化控制，而难以对一个区域内的多个路口进行综合优化，导致路网整体通行效率较为低下。

发明内容

本申请实施例提供了一种交通信号控制方法、装置以及可读存储介质，可以发挥区域内多路口之间的协同控制作用，提升路网整体通行效率。

本申请实施例一方面提供了一种交通信号控制方法，包括：

获取目标路口以及相邻路口中的路口车辆状态；相邻路口为与目标路口具有相邻连通关系的路口；

获取目标路口的历史相位切换记录和相位切换集合；相位切换集合包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位；历史相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对目标路口中的路口信号标识进行有序排列所得到的组合；

对相位切换集合中的一个或多个相位切换序列进行遍历，将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据历史相位切换记录在目标相位切换序列中获取候选相位；

根据路口车辆状态从候选相位中选取目标相位，根据目标相位对目标路口的路口信号标识进行控制。

其中，目标路口以及相邻路口包括驶入车道L_i，i为正整数，且i小于或等于目标路口以及相邻路口中的驶入车道总数；

上述获取目标路口以及相邻路口中的路口车辆状态，包括：

获取目标时间戳下位于驶入车道L_i上的车队长度；

获取目标时间戳下驶入车道L_i对应的首车等待时长；

获取目标时间戳下位于驶入车道L_i上的车辆的行驶速度，根据行驶速度生成驶入车道L_i的平均车速；

将车队长度、首车等待时长以及平均车速确定为驶入车道L_i的路口车辆状态。

本申请实施例基于观测到的目标路口以及相邻路口中的每个驶入车道的路口车辆状态，可以制定目标路口下一时刻的目标相位，从而可以实现多个路口的协同控制作用。

其中，上述根据历史相位切换记录在目标相位切换序列中获取候选相位，包括：

若历史相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在目标相位切换序列中，将切换顺序位于历史相位切换记录后的第一个相位确定为候选相位；末位相位是指历史相位切换记录中具有最晚历史时间戳的相位；

若历史相位切换记录中的末位相位的相位持续总时长小于时长阈值，则在目标相位切换序列中，将切换顺序位于历史相位切换记录后的第一个相位以及历史相位切换记录中的末位相位均确定为候选相位。

本申请实施例可以融合多种相位切换方案得到相位切换集合，进而可以根据历史相位切换记录，为目标路口提供合适的候选相位，从而可以维护合理的相位切换顺序，实现灵活可控的在线方案选择和切换。

其中，上述根据路口车辆状态从候选相位中选取目标相位，根据目标相位对目标路口的路口信号标识进行控制，包括：

获取用于表征所有相位的原始相位数组，将候选相位映射至原始相位数组，得到目标相位数组，将目标相位数组和路口车辆状态输入交通相位预测模型；目标相位数组中候选相位的标识符与非候选相位的标识符不相同，非候选相位是指相位切换集合中除了候选相位外的相位；

在交通相位预测模型中，对目标相位数组和路口车辆状态进行特征提取，得到目标相位数组中的每个相位分别对应的目标状态特征；

通过交通相位预测模型的输出层输出每个目标状态特征分别对应的预测概率；

若具有最大预测概率的候选相位对应的相位持续总时长小于时长阈值，则将具有最大预测概率的候选相位确定为目标相位，根据目标相位控制目标路口的路口信号标识的显示方式；

若具有最大预测概率的候选相位对应的相位持续总时长等于时长阈值，则将具有目标预测概率的候选相位确定为目标相位，根据目标相位控制目标路口的路口信号标识的显示方式；目标预测概率是指所有预测概率中除了最大预测概率外数值最大的预测概率。

本申请实施例通过对候选相位进行映射，可以得到目标相位数组，进而可以将目标相位数组和路口车辆状态作为输入信息输入预先训练好的交通相位预测模型，通过交通相位预测模型可以保证目标路口下一时刻的目标相位在候选相位中选取，从而可以确保相应路口信号标识的状态过渡有条不紊，由此可以在线调整各个路口的相位切换，从而实现通过路口信号标识间的配合缓解区域的交通拥堵。

其中，交通相位预测模型包括第一全连接层、第二全连接层、第三全连接层、第四全连接层以及长短期记忆网络层；

上述在交通相位预测模型中，对目标相位数组和路口车辆状态进行特征提取，得到目标相位数组中的每个相位分别对应的目标状态特征，包括：

通过第一全连接层对路口车辆状态中的每个驶入车道的车队长度进行特征提取，得到长度特征；

通过第二全连接层对路口车辆状态中的每个驶入车道的首车等待时长进行特征提取，得到时长特征；

通过第三全连接层对路口车辆状态中的每个驶入车道的平均车速进行特征提取，得到车速特征；

通过第四全连接层对目标相位数组进行特征提取，得到相位特征；

将长度特征、时长特征、车速特征以及相位特征确定为中间特征，将中间特征输入长短期记忆网络层中的时序特征序列中，在长短期记忆网络层中，通过时序特征序列对中间特征进行时序处理，得到目标相位数组中的每个相位分别对应的目标状态特征；目标状态特征用于存储在时序特征序列中，目标状态特征对应的特征生成时间戳为时序特征序列中的一个或多个状态特征对应的特征生成时间戳中的最晚时间戳。

本申请实施例提供了一种交通相位预测模型，可以包括多个全连接层以及长短期记忆网络层，通过多个全连接层可以分别提取到长度特征、时长特征、车速特征以及相位特征，通过长短期记忆网络层可以对上述特征进行时序处理，得到每个相位分别对应的目标状态特征，长短期记忆网络层在处理中间特征时会考虑到过去时刻网络的状态，因此可以妥善处理信控相位切换的相关逻辑，得到更合适于目标路口真实路况的相位，并可以极大减少产生错误的状态转换和逻辑问题。

本申请实施例一方面提供了一种交通信号控制方法，包括：

获取样本路口以及相邻路口中的样本路口车辆状态；相邻路口为与样本路口具有相邻连通关系的路口；

获取样本路口的历史样本相位切换记录和样本相位切换集合；样本相位切换集合包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位；历史样本相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对样本路口中的路口信号标识进行有序排列所得到的组合；

对样本相位切换集合中的一个或多个样本相位切换序列进行遍历，将遍历到的与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位；

将候选样本相位和样本路口车辆状态输入初始交通相位预测模型，通过初始交通相位预测模型从候选样本相位中选取目标样本相位，根据目标样本相位对样本路口的路口信号标识进行控制；

获取由目标样本相位所控制的样本路口的更新路口车辆状态，根据更新路口车辆状态生成全局奖励函数，基于全局奖励函数对初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型；交通相位预测模型用于预测目标路口对应的目标相位。

其中，初始交通相位预测模型包括初始决策网络；

上述将候选样本相位和样本路口车辆状态输入初始交通相位预测模型，通过初始交通相位预测模型从候选样本相位中选取目标样本相位，包括：

获取用于表征所有相位的原始相位数组，将候选样本相位映射至原始相位数组，得到样本相位数组，将样本相位数组和样本路口车辆状态输入初始决策网络；样本相位数组中候选样本相位的标识符与非候选样本相位的标识符不相同，非候选样本相位是指样本相位切换集合中除了候选样本相位外的相位；

在初始决策网络中，对样本相位数组和样本路口车辆状态进行特征提取，得到样本相位数组中的每个相位分别对应的第一状态特征；

通过初始决策网络的输出层输出每个第一状态特征分别对应的预测概率，将具有最大预测概率的相位确定为目标样本相位。

本申请实施例提供的初始交通相位预测模型可以包括初始决策网络，通过不断训练初始决策网络，可以保证训练好的的决策网络会在候选相位中选取目标路口下一时刻的目标相位，从而可以确保相应路口信号标识的状态过渡有条不紊。

其中，样本路口以及相邻路口包括路口N_j，j为正整数，且j小于或等于样本路口以及相邻路口的路口总数；

上述获取由目标样本相位所控制的样本路口的更新路口车辆状态，根据更新路口车辆状态生成全局奖励函数，包括：

获取路口N_j对应的每个驶入车道的更新车队长度和更新首车等待时长，根据更新车队长度和更新首车等待时长生成路口N_j对应的局部奖励函数r_j；

当获取到样本路口以及相邻路口分别对应的局部奖励函数时，获取距离系数，根据局部奖励函数以及距离系数生成全局奖励函数；距离系数与相邻路口与样本路口之间的图形距离相关。

本申请实施例可以根据每个驶入车道的更新车队长度和更新首车等待时长生成相应的全局奖励函数，也就是说，可以设计一个基于路口整体车队长度和延误时间的全局奖励函数作为优化指标来训练初始交通相位预测模型，因此最终训练好的交通相位预测模型可以为目标路口找到一个最优的行为策略（即目标相位）从而获取最大的全局奖励函数，相应的，此时目标路口的整体排队长度和延误时间可以实现最小化，从而可以有效缓解区域内的交通拥堵，提升整个区域的通行效率。

其中，初始交通相位预测模型还包括初始评估网络；上述方法还包括：

在初始评估网络中，对样本相位数组和样本路口车辆状态进行特征提取，得到至少两个第二状态特征；

将至少两个第二状态特征输入初始评估网络的输出层，通过初始评估网络的输出层输出状态值函数；状态值函数用于对目标样本相位进行评估；

则基于全局奖励函数对初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型，包括：

基于全局奖励函数和状态值函数生成第一损失函数，根据第一损失函数对初始评估网络的网络参数进行调整，得到评估网络；

基于全局奖励函数和目标样本相位生成第二损失函数，根据第二损失函数对初始决策网络的网络参数进行调整，得到决策网络；

将包含评估网络和决策网络的初始交通相位预测模型，确定为交通相位预测模型。

本申请实施例在初始交通相位预测模型中设计了两种神经网络（包括初始决策网络和初始评估网络），在模型训练过程中，通过初始评估网络可以对初始决策网络预测得到的目标样本相位进行评估，相应的，初始评估网络可以根据初始决策网络的反馈调整相应的网络参数，同时，通过全局奖励函数不断对初始决策网络和初始评估网络进行优化，最终可以得到用于预测目标路口对应的目标相位的交通相位预测模型，通过该交通相位预测模型可以实现区域内路口的协同控制。

其中，还包括：

若目标样本相位不属于候选样本相位，则根据候选样本相位确定状态修正参数，根据状态修正参数对全局奖励函数进行修正。

本申请实施例通过在模型训练过程中对全局奖励函数进行修正，可以极大减少出现错误状态转换的情况，从而可以保证后续得到的交通相位预测模型会在提供的候选相位中选取目标相位，维护合理的相位切换顺序。

本申请实施例一方面提供了一种交通信号控制装置，包括：

状态获取模块，用于获取目标路口以及相邻路口中的路口车辆状态；相邻路口为与目标路口具有相邻连通关系的路口；

第一相位获取模块，用于获取目标路口的历史相位切换记录和相位切换集合；相位切换集合包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位；历史相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对目标路口中的路口信号标识进行有序排列所得到的组合；

第二相位获取模块，用于对相位切换集合中的一个或多个相位切换序列进行遍历，将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据历史相位切换记录在目标相位切换序列中获取候选相位；

决策模块，用于根据路口车辆状态从候选相位中选取目标相位，根据目标相位对目标路口的路口信号标识进行控制。

其中，上述目标路口以及相邻路口包括驶入车道L_i，i为正整数，且i小于或等于目标路口以及相邻路口中的驶入车道总数；

上述状态获取模块，具体用于获取目标时间戳下位于驶入车道L_i上的车队长度；获取目标时间戳下驶入车道L_i对应的首车等待时长；获取目标时间戳下位于驶入车道L_i上的车辆的行驶速度，根据行驶速度生成驶入车道L_i的平均车速；将车队长度、首车等待时长以及平均车速确定为驶入车道L_i的路口车辆状态。

其中，上述第二相位获取模块，包括：

第一相位确定单元，用于若历史相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在目标相位切换序列中，将切换顺序位于历史相位切换记录后的第一个相位确定为候选相位；末位相位是指历史相位切换记录中具有最晚历史时间戳的相位；

第二相位确定单元，用于若历史相位切换记录中的末位相位的相位持续总时长小于时长阈值，则在目标相位切换序列中，将切换顺序位于历史相位切换记录后的第一个相位以及历史相位切换记录中的末位相位均确定为候选相位。

其中，上述决策模块，包括：

映射单元，用于获取用于表征所有相位的原始相位数组，将候选相位映射至原始相位数组，得到目标相位数组，将目标相位数组和路口车辆状态输入交通相位预测模型；目标相位数组中候选相位的标识符与非候选相位的标识符不相同，非候选相位是指相位切换集合中除了候选相位外的相位；

特征提取单元，用于在交通相位预测模型中，对目标相位数组和路口车辆状态进行特征提取，得到目标相位数组中的每个相位分别对应的目标状态特征；

概率输出单元，用于通过交通相位预测模型的输出层输出每个目标状态特征分别对应的预测概率；

第一决策单元，用于若具有最大预测概率的候选相位对应的相位持续总时长小于时长阈值，则将具有最大预测概率的候选相位确定为目标相位，根据目标相位控制目标路口的路口信号标识的显示方式；

第二决策单元，用于若具有最大预测概率的候选相位对应的相位持续总时长等于时长阈值，则将具有目标预测概率的候选相位确定为目标相位，根据目标相位控制目标路口的路口信号标识的显示方式；目标预测概率是指所有预测概率中除了最大预测概率外数值最大的预测概率。

其中，上述交通相位预测模型包括第一全连接层、第二全连接层、第三全连接层、第四全连接层以及长短期记忆网络层；

上述特征提取单元，包括：

第一提取子单元，用于通过第一全连接层对路口车辆状态中的每个驶入车道的车队长度进行特征提取，得到长度特征；通过第二全连接层对路口车辆状态中的每个驶入车道的首车等待时长进行特征提取，得到时长特征；通过第三全连接层对路口车辆状态中的每个驶入车道的平均车速进行特征提取，得到车速特征；通过第四全连接层对目标相位数组进行特征提取，得到相位特征；

第二提取子单元，用于将长度特征、时长特征、车速特征以及相位特征确定为中间特征，将中间特征输入长短期记忆网络层中的时序特征序列中，在长短期记忆网络层中，通过时序特征序列对中间特征进行时序处理，得到目标相位数组中的每个相位分别对应的目标状态特征；目标状态特征用于存储在时序特征序列中，目标状态特征对应的特征生成时间戳为时序特征序列中的一个或多个状态特征对应的特征生成时间戳中的最晚时间戳。

本申请实施例一方面提供了一种交通信号控制装置，包括：

状态获取模块，用于获取样本路口以及相邻路口中的样本路口车辆状态；相邻路口为与样本路口具有相邻连通关系的路口；

第一相位获取模块，用于获取样本路口的历史样本相位切换记录和样本相位切换集合；样本相位切换集合包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位；历史样本相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对样本路口中的路口信号标识进行有序排列所得到的组合；

第二相位获取模块，用于对样本相位切换集合中的一个或多个样本相位切换序列进行遍历，将遍历到的与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位；

决策模块，用于将候选样本相位和样本路口车辆状态输入初始交通相位预测模型，通过初始交通相位预测模型从候选样本相位中选取目标样本相位，根据目标样本相位对样本路口的路口信号标识进行控制；

调整模块，用于获取由目标样本相位所控制的样本路口的更新路口车辆状态，根据更新路口车辆状态生成全局奖励函数，基于全局奖励函数对初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型；交通相位预测模型用于预测目标路口对应的目标相位。

其中，上述初始交通相位预测模型包括初始决策网络；

上述决策模块，包括：

映射单元，用于获取用于表征所有相位的原始相位数组，将候选样本相位映射至原始相位数组，得到样本相位数组，将样本相位数组和样本路口车辆状态输入初始决策网络；样本相位数组中候选样本相位的标识符与非候选样本相位的标识符不相同，非候选样本相位是指样本相位切换集合中除了候选样本相位外的相位；

特征提取单元，用于在初始决策网络中，对样本相位数组和样本路口车辆状态进行特征提取，得到样本相位数组中的每个相位分别对应的第一状态特征；

相位确定单元，用于通过初始决策网络的输出层输出每个第一状态特征分别对应的预测概率，将具有最大预测概率的相位确定为目标样本相位。

其中，上述样本路口以及相邻路口包括路口N_j，j为正整数，且j小于或等于样本路口以及相邻路口的路口总数；

上述调整模块，包括：

函数生成单元，用于获取路口N_j对应的每个驶入车道的更新车队长度和更新首车等待时长，根据更新车队长度和更新首车等待时长生成路口N_j对应的局部奖励函数r_j；当获取到样本路口以及相邻路口分别对应的局部奖励函数时，获取距离系数，根据局部奖励函数以及距离系数生成全局奖励函数；距离系数与相邻路口与样本路口之间的图形距离相关。

其中，上述初始交通相位预测模型还包括初始评估网络；

上述装置还包括：

评估模块，用于在初始评估网络中，对样本相位数组和样本路口车辆状态进行特征提取，得到至少两个第二状态特征；将至少两个第二状态特征输入初始评估网络的输出层，通过初始评估网络的输出层输出状态值函数；状态值函数用于对目标样本相位进行评估；

上述调整模块，包括：

调整单元，用于基于全局奖励函数和状态值函数生成第一损失函数，根据第一损失函数对初始评估网络的网络参数进行调整，得到评估网络；基于全局奖励函数和目标样本相位生成第二损失函数，根据第二损失函数对初始决策网络的网络参数进行调整，得到决策网络；将包含评估网络和决策网络的初始交通相位预测模型，确定为交通相位预测模型。

其中，上述装置还包括：

修正模块，用于若目标样本相位不属于候选样本相位，则根据候选样本相位确定状态修正参数，根据状态修正参数对全局奖励函数进行修正。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

本申请实施例可以获取目标路口以及相邻路口中的路口车辆状态，并获取目标路口的历史相位切换记录和相位切换集合，进而可以对相位切换集合中的一个或多个相位切换序列进行遍历，直到将所有与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，从而可以根据历史相位切换记录在目标相位切换序列中获取候选相位，进一步，可以根据上述路口车辆状态从候选相位中选取目标相位，最终可以根据目标相位对目标路口的路口信号标识进行控制。由此可知，本申请提供了一种实时的多路口协同控制方案，支持在相位切换集合中融合多种相位切换方案，并根据历史相位切换记录为目标路口提供合适的候选相位，同时，为了实现多个路口的协同控制作用，每个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，进而可以根据区域内多个路口的实时路口车辆状态在线调整各个路口的相位切换，从而可以维护合理的相位切换顺序，发挥多个路口之间的协同控制作用，提升路网整体通行效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种交通信号控制的场景示意图；

图3a是本申请实施例提供的一种十字路口的相位集合示意图；

图3b是本申请实施例提供的一种相位切换示意图；

图4是本申请实施例提供的一种交通信号控制方法的流程示意图；

图5是本申请实施例提供的一种交通信号控制的场景示意图；

图6是本申请实施例提供的一种交通相位预测模型的结构示意图；

图7是本申请实施例提供的一种交通信号控制方法的流程示意图；

图8是本申请实施例提供的一种交通信号控制装置的结构示意图；

图9是本申请实施例提供的一种交通信号控制装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

智能交通系统(Intelligent Traffic System，ITS)又称智能运输系统(Intelligent Transportation System)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

本申请实施例提供的方案涉及智能交通系统以及深度学习等技术，具体过程通过如下实施例进行说明。

请参见图1，是本申请实施例提供的一种系统架构示意图。如图1所示，该系统架构可以包括业务服务器100以及终端集群，终端集群可以包括：终端设备200a、终端设备200b、…、终端设备200n，其中，终端集群之间可以存在通信连接，例如终端设备200a与终端设备200b之间存在通信连接，终端设备200a与终端设备200n之间存在通信连接。同时，终端集群中的任一终端设备可以与业务服务器100存在通信连接，例如终端设备200a与业务服务器100之间存在通信连接，其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，如图1所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的业务服务器100之间进行数据交互，使得业务服务器100可以向每个终端设备下发业务数据，且业务服务器100也可以接收来自于每个终端设备的业务数据。其中，该应用客户端具体可以为交通信号控制系统，可用于在线调整区域内各个路口的信控相序及配时，实现交通信号优化控制的目的。其中，各终端设备可以存储并执行交通信号控制系统相关计算机程序，实现本申请实施例公开的功能。

在一种实施方式中，以终端设备200a为例，图1中的业务服务器100可以为交通信号控制系统对应的数据库代理服务器，用于存储和提供各类业务数据，如控制方案数据、日志数据、路口车辆状态、轨迹数据、人工操作数据、地理信息数据等，根据使用情况可以这些业务数据分为历史业务数据和实时业务数据，历史业务数据可用于发现某个区域范围内的交通运行规律，如利用历史业务数据进行算法的训练学习，或者对历史业务数据进行统计分析，构建交通运行模型；而实时业务数据则用于反映当前交通运行规律，如利用实时业务数据可推算当前的交通状态。需要说明的是，业务服务器100可以通过路网中布设的监控设备、交通信号灯、检测器等交通设备获取到历史业务数据和实时业务数据，也可以通过互联网、地理和地图数据提供者获取历史业务数据和实时业务数据，本申请对此不做限定。可以理解，每个终端设备均可以通过上述交通信号控制系统对应的应用客户端与业务服务器100进行数据传输，如终端设备200a可以向业务服务器100发送数据访问请求，业务服务器100接收到该请求后，可以采用数据库语句直接查询的方式或采用接口等方式获取终端设备200a所需的业务数据，并将这些业务数据返回给终端设备200a。进一步，终端设备200a可以对接收到的业务数据进行处理，并将处理后的需要保存和共享的业务数据再发送至业务服务器100进行存储。

例如，针对一个包含多个路口的区域，为了选取出信号控制优化方案以缓解该区域中的道路交通拥堵，终端设备200a可以通过业务服务器100获取目标路口以及相邻路口中的路口车辆状态（属于实时业务数据，包括车队长度、平均车速等数据），同时可以获取目标路口的历史相位切换记录和相位切换集合，其中，相邻路口与目标路口互相连通，相位切换集合可以包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位，历史相位切换记录则包括至少两个历史时间戳对应的互不相同的相位。其中，相位（phase）是指对目标路口中的路口信号标识进行有序排列所得到的组合。进一步，终端设备200a可以调用交通信号控制系统，对相位切换集合中的一个或多个相位切换序列进行遍历，然后将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，进而可以根据历史相位切换记录在目标相位切换序列中获取候选相位，随后，可以根据上述路口车辆状态从候选相位中选取目标相位，并根据目标相位对目标路口的路口信号标识（例如交通信号灯的显示颜色）进行控制。例如，假设目标路口为十字路口，终端设备200a经过上述步骤后选取出的目标相位为“东西直行”相位，则终端设备200a可以向业务服务器100发送相位切换请求，业务服务器100接收到该请求后，可以对该目标相位进行记录，并向目标路口的交通信号灯广播相应通知，随后目标路口中指示东西方向的相关交通信号灯将会显示为绿色，表示允许车辆/行人通行；而指示南北方向的相关交通信号灯则会显示为红色，表示禁止车辆/行人通行。

可选的，可以理解的是，系统架构中可以包括多个业务服务器，每个业务服务器均可以存储并执行交通信号控制系统相关计算机程序，且每个业务服务器均可以获取到路口车辆状态，从而可以根据路口车辆状态从候选相位中选取目标相位，并根据目标相位对目标路口的路口信号标识进行控制。

需要说明的是，上述信号控制方案可以应用于区域级、城市级路网的交通信号灯协同控制场景，根据区域内实时的车况（如行驶速度）、车流密度、路口车队长度等信息在线调整区域内各个路口的信控相序（即相位切换顺序）及配时，可以发挥区域内路口的协同作用，有效提升路网整体通行效率，极大程度缓解道路交通拥堵。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端设备或业务服务器。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是台式计算机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（mobile internet device，MID）、智能电脑、车载终端等可以运行上述应用客户端的智能终端。其中，终端设备以及业务服务器的数量不做限制，且终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接，本申请在此不做限制。

进一步地，请参见图2，是本申请实施例提供的一种交通信号控制的场景示意图。实现该交通信号控制场景的计算机设备可以为如图1所示的业务服务器100，也可以为终端设备（如图1所示的终端设备200a、终端设备200b或终端设备200n中的任意一个），还可以由终端设备和业务服务器共同执行，此处不做限制。如图2所示，在区域300中存在由各种道路组成的相互联络、交织成网状分布的道路系统（即道路网，也可简称路网），需要说明的是，一般的区域级（或城市级）路网中可以包括多个路口以及路口和路口之间的路段，部分路口会布设监控设备、交通信号灯、检测器等交通设备。计算机设备400可以通过上述交通设备（或互联网、地图数据提供者等）实时获取每个路口的路口车辆状态，并基于路口车辆状态为每个路口在线调度匹配合适的相位方案，维护合理的相位切换顺序。由于本申请重点针对区域性路网进行协调控制和优化，因此，在本申请实施例中，需要观测目标路口及其相邻路口的交通运行状态来制定目标路口下一时刻的目标相位。

以路口A为例，如图2所示，路口A是一个十字路口，在区域300中，与路口A具有相邻连通关系的路口即为路口A的相邻路口，具体包括路口B、路口C、路口D、路口E，计算机设备400可以实时获取路口A、路口B、路口C、路口D以及路口E分别对应的路口车辆状态，在本申请实施例中，可以采用一个路口对应的每个驶入车道的车队长度、首车等待时长、平均车速来描述该路口对应的路口车辆状态，例如可以用集合L_A表示路口A所有驶入车道的集合，假设路口A共有16条驶入车道，则集合L_A具体可以包括驶入车道L_A1、驶入车道L_A2、驶入车道L_A3、…、驶入车道L_A15、驶入车道L_A16，因此路口A的路口车辆状态可以用驶入车道L_A1、驶入车道L_A2、驶入车道L_A3、…、驶入车道L_A15以及驶入车道L_A16分别对应的车队长度、首车等待时长、平均车速来表示，同理，可以获取路口B、路口C、路口D以及路口E分别对应的路口车辆状态，其它路口的路口车辆状态的表示方法与路口A类似，这里不再进行赘述。进一步，计算机设备400可以获取路口A的历史相位切换记录和相位切换集合，其中，历史相位切换记录是指路口A在至少两个历史时间戳下所采用的相位，且至少两个相位是互不相同的。相位切换集合则可以包括一个或多个相位切换序列，每个相位切换序列可以包括至少两个按照切换顺序排列的相位。需要说明的是，相位是指对目标路口中的路口信号标识进行有序排列所得到的组合。

为便于理解和说明，请一并参见图3a，是本申请实施例提供的一种十字路口的相位集合示意图。需要说明的是，通常车辆执行右转操作时无需单独设计信号灯指令（右转时自动避让直行车辆，依序自由通过路口），故不单独设计右转信号灯。如图3a所示，一般来说，一个十字路口主要存在8个相位（即action set，指一个路口可采取的行为所构成的集合/空间，也就是相位组成的集合），包含不同方向的直行、左转和全通相位，具体包括相位①、相位②、相位③、相位④、相位⑤、相位⑥、相位⑦、相位⑧，其中，相位①是“东西直行”相位，相位②是“东西左转”相位，相位③是“南北直行”相位，相位④是“南北左转”相位，相位⑤是“由西向东全部放行”相位，相位⑥是“由东向西全部放行”相位，相位⑦是“由南向北全部放行”相位，相位⑧是“由北向南全部放行”相位，根据不同的相位，可以控制十字路口各个方向上的交通信号灯的显示颜色。可以理解，其它类型路口（如丁字路口）的相位集合为图3a所示的相位集合的子集，此处不再另外介绍。请一并参见图3b，是本申请实施例提供的一种相位切换示意图。结合上述图3a的相关描述，针对一个十字路口，可以融合多种相位切换方案（如经典的两相式、三相式和四相式信控方案）设计需要的相位切换集合，如图3b所示可以表示其中一种可选的相位切换集合，该相位切换集合包括多个相位切换序列，例如，相位切换序列T1中的相位按照切换顺序排列为：相位①→相位③→相位①（即经典的两相式方案），相位切换序列T2中的相位按照切换顺序排列为：相位①→相位②→相位③→相位④→相位①（即经典的四相式方案），相位切换序列T3中的相位按照切换顺序排列为：相位①→相位⑦→相位⑧→相位①→…→相位③，其它相位切换序列的表示方式类似，这里不再赘述。可以理解，针对不同路口可以设计不同的相位切换序列，具体需要设计者根据实际需求进行专门设计，本申请对此不做限制。

假设路口A的相位切换集合如图3b所示，且过去最近两个历史时间戳下路口A采用的两个不同的相位分别是相位①、相位②，则根据该历史相位切换记录，计算机设备400可以对图3b所示的多个相位切换序列进行遍历，进而可以将遍历到的与该历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，可以理解，此时选出的目标相位切换序列包括相位切换序列：相位①→相位②→相位③→…，以及相位切换序列：相位①→相位②→相位⑦→…，进而可以根据上述历史相位切换记录在这些目标相位切换序列中获取候选相位，此处候选相位即为路口A下一个时刻允许采用的相位，可以理解，此时的候选相位包括相位③、相位⑦以及相位②，将相位②作为候选相位的意思是允许路口A在两个相邻时间戳下保持相同的相位。最终，计算机设备400可以根据路口A~路口E的路口车辆状态，从上述候选相位（包括相位②、相位③、相位⑦）中选取出最优的一个相位作为目标相位，随后可以根据该目标相位对路口A的所有交通信号灯进行控制。请再次参见图2，车辆可以在路口A的驶入车道上行驶，其中车辆可以采用如三角标识300e所示的标识进行表示，假设路口A中主要存在四个方向上的交通信号灯，分别为正北方向的交通信号灯300a、正东方向的交通信号灯300b、正南方向的交通信号灯300c以及正西方向的交通信号灯300d。假设通过上述步骤最后确定的目标相位为相位③，即路口A会由“东西左转”相位切换为“南北直行”相位，也就是说，交通信号灯300a和交通信号灯300c将会响应“南北直行”相位，显示相应的颜色（实际应用中包括红色、绿色和黄色），交通信号灯300b和交通信号灯300d也会响应“南北直行”相位，显示相应的颜色，即表示此刻允许车辆在南北方向上行驶通过路口A，禁止车辆在东西方向上行驶通过路口A。

可以理解，针对其它路口（如路口B、路口C、路口D、路口E）的相位选择和切换过程与路口A的相位选择和切换过程一致，本申请实施例仅以路口A为例进行说明。

需要说明的是，计算机设备可以利用具有海量历史业务数据（如样本路口车辆状态、历史样本相位切换记录、样本相位切换集合等）的数据库，训练深度神经网络生成交通相位预测模型，用于预测目标路口对应的目标相位（即执行上述根据路口车辆状态从候选相位中选取目标相位的步骤），并可以将交通相位预测模型集成到交通信号控制系统中，交通相位预测模型的具体生成过程可以参见后续图7所对应的实施例。

上述可知，本申请实施例提供了一种实时的多路口协同控制方案，通过获取目标路口以及相邻路口中的路口车辆状态，并获取目标路口的历史相位切换记录和相位切换集合，可以对相位切换集合中的一个或多个相位切换序列进行遍历，直到将所有与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，从而可以根据历史相位切换记录在目标相位切换序列中获取候选相位，进一步，可以根据上述路口车辆状态从候选相位中选取目标相位，最终可以根据目标相位对目标路口的路口信号标识进行控制。也就是说，本申请支持在相位切换集合中融合多种相位切换方案，并根据历史相位切换记录为目标路口提供合适的候选相位，同时，为了实现多个路口的协同控制作用，每个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，进而可以根据区域内多个路口的实时路口车辆状态在线调整各个路口的相位切换，从而可以维护合理的相位切换顺序，发挥多个路口之间的协同控制作用，提升路网整体通行效率。

请参见图4，图4是本申请实施例提供的一种交通信号控制方法的流程示意图。该交通信号控制方法可以由计算机设备执行，计算机设备可以包括如图1所述的终端设备或业务服务器。如图4所示，该交通信号控制方法至少可以包括以下步骤S101-步骤S104：

步骤S101，获取目标路口以及相邻路口中的路口车辆状态；相邻路口为与目标路口具有相邻连通关系的路口；

为了实现多个路口的协同控制作用，每一个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，具体的，计算机设备可以获取目标路口以及相邻路口中的路口车辆状态，这些路口车辆状态将作为后续步骤中神经网络的主要输入信息。其中，目标路口可以为区域路网中的任意一个路口，相邻路口为与目标路口具有相邻连通关系的路口，也就是说，相邻路口与目标路口之间存在直接连接的路段，例如可以参见上述图2所示的路口A，其相邻路口包括路口B、路口C、路口D、路口E。在一种实施方式中，可以采用路口的每个驶入车道的车队长度、首车等待时长、平均车速来描述该路口的路口车辆状态，且这些数据均为实时测量得到的数据而非统计某个时间段得到的数据。假设目标路口以及相邻路口包括驶入车道L_i，i为正整数，且i小于或等于目标路口以及相邻路口中的驶入车道总数，则计算机设备可以获取目标时间戳下位于驶入车道L_i上的车队长度（即车辆总数）、驶入车道L_i对应的首车等待时长，以及获取目标时间戳下位于驶入车道L_i上的所有车辆的行驶速度，根据该行驶速度可以生成驶入车道L_i的平均车速，进而可以将上述车队长度、首车等待时长以及平均车速确定为驶入车道L_i的路口车辆状态。当获取到一个路口所有驶入车道的路口车辆状态时，即可得到该路口对应的路口车辆状态。其中，目标时间戳是指获取路口车辆状态时所对应的实时时间戳，具体可以为一个执行周期开始的时间戳。首车等待时长是指路口第一辆车静止等待的时长，可以理解，若检测到路口第一辆车处于运动状态，则相应的首车等待时长默认为零秒。

请再次参见图2，以路口A为例，假设用L_A表示路口A所有驶入车道的集合，则路口A 的路口车辆状态（也可称为路口状态）可以定义为

，其中，q_i表示路口A中车道i的车队长度，w_i表示车道i的首车等待时长，v_i表示车道i的平均车速。同理，路口B~路口E各自的路口车辆状态可以采用类似的定义方式。如果采用N_A表示路口A及其相邻路口（即路口B~路口E）的集合，则路口A~路口E的路口车辆状态（也可称为路口邻域状态）可以表示为

。

步骤S102，获取目标路口的历史相位切换记录和相位切换集合；相位切换集合包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位；历史相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对目标路口中的路口信号标识进行有序排列所得到的组合；

具体的，计算机设备可以获取至少两个历史时间戳下目标路口采用过的互不相同的相位作为历史相位切换记录，具体数量不做限制，也就是说，历史相位切换记录保留的是过去最近几个时刻采用的不相同的相位，用于表征相位之间的切换。例如，历史时间戳M1和历史时间戳M2（历史时间戳M1晚于历史时间戳M2，但两者均早于目标时间戳）为相邻的记录时间戳，若历史时间戳M1和历史时间戳M2均采用同一个相位，则仅保留较晚的历史时间戳M1对应的相位即可；若历史时间戳M1和历史时间戳M2采用不同的相位，则两个相位均可以保留。此外，计算机设备还需要获取目标路口的相位切换集合，其中，由于不同类型的路口（如十字路口、丁字路口）可以采取不同的相位，因此相位切换集合可以根据目标路口的实际需求预先设计，例如可以整合经典的两相式、三相式、四相式等多种相位切换方案，相位切换集合具体可以包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位，参考案例可以参见上述图3a-图3b所对应实施例中的相关描述。

步骤S103，对相位切换集合中的一个或多个相位切换序列进行遍历，将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据历史相位切换记录在目标相位切换序列中获取候选相位；

具体的，计算机设备可以对相位切换集合中的一个或多个相位切换序列进行遍历，将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，也就是说，历史相位切换记录相当于目标相位切换序列中的子序列，例如可以再次参见上述图3b，假设有一个历史相位切换记录为：相位②→相位③，则在图3b所示的相位切换集合中进行遍历，匹配到的目标相位切换序列包括：相位①→相位②→相位③→相位⑤→…，相位①→相位②→相位③→相位④→…，相位①→相位②→相位③→相位①→…。

进一步，计算机设备可以根据历史相位切换记录在目标相位切换序列中获取候选相位。可选的，考虑到一个相位的相位持续总时长（即连续采用该相位的时长）不能超过设置的时长阈值，因此可以在选取候选相位时进行如下判断：若历史相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在目标相位切换序列中，可以将切换顺序位于历史相位切换记录后的第一个相位确定为候选相位；若历史相位切换记录中的末位相位的相位持续总时长小于时长阈值，则在目标相位切换序列中，可以将切换顺序位于历史相位切换记录后的第一个相位以及历史相位切换记录中的末位相位均确定为候选相位，其中，末位相位是指历史相位切换记录中具有最晚历史时间戳的相位。时长阈值可以根据实际情况进行分类设置，本申请对此不做限制。例如，在一种实施方式中，可以将黄灯的持续总时长限制为5秒，将单独的左转灯（例如图3a中的相位②和相位④）相位持续总时长限制为15秒~30秒，即相应的时长阈值为30秒，其它相位的相位持续总时长则均限制为30秒~120秒，即相应的时长阈值为120秒。

可选的，也可以先不考虑时长阈值的限制，也就是说，在目标相位切换序列中，可以将切换顺序位于历史相位切换记录后的第一个相位以及历史相位切换记录中的末位相位均默认为候选相位。例如，结合前述所说，根据历史相位切换记录“相位②→相位③”确定目标相位切换序列后，可以将相位⑤、相位④、相位①、相位③均确定为候选相位。

可选的，本申请实施例也可以支持设计人员自行选择是否将历史相位切换记录中的末位相位作为候选相位，也就是说，设计人员可以根据一个相位的相位持续总时长来动态修正候选相位，从而实现主动控制某一个相位的最小/最大持续时长。

需要说明的是，相位切换集合可以为后续步骤中的神经网络提供目标可选的相位子集（即候选相位），通过模型训练可以保证目标相位在候选相位中选取，从而确保路口信号标识的状态过渡有条不紊。

步骤S104，根据路口车辆状态从候选相位中选取目标相位，根据目标相位对目标路口的路口信号标识进行控制。

具体的，计算机设备可以先获取用于表征所有相位的原始相位数组，进而可以将候选相位映射至原始相位数组，得到目标相位数组，需要说明的是，目标相位数组是后续步骤中神经网络的另外一部分输入信息。其中，目标相位数组中候选相位的标识符与非候选相位的标识符不相同，非候选相位是指相位切换集合中除了候选相位外的相位。目标相位数组具体可以是布尔型数组，因此可以用不同的布尔值作为标识符，分别用于表示候选相位和非候选相位，例如，假设目标相位数组为[0,1,0,0,1,1,0,0]，在该数组中采用布尔值“1”表示候选相位，用布尔值“0”表示非候选相位，表示候选相位包括相位②、相位⑤、相位⑥，也就是说，下一刻允许的目标相位为这三个候选相位中的一个。可以理解，还可以使用其它方法进行映射，本申请对此不做限制。请一并参见图5，是本申请实施例提供的一种交通信号控制的场景示意图。如图5所示，结合上述步骤S103中举例的相关描述，计算机设备可以将由相位①、相位③、相位④、相位⑤组成的候选相位500a映射到原始相位数组500b，可以理解，原始相位数组500b是一个布尔型数组，由于此时共有8个相位，因此原始相位数组500b的长度为8，该数组中的一个元素对应一个相位，刚开始时还未进行相位映射，因此原始相位数组500b中的所有元素均默认为布尔值“0”，将候选相位500a映射到原始相位数组500b，即分别将相位①、相位③、相位④、相位⑤映射为布尔值“1”，并更新至原始相位数组500b中的相应位置上，从而可以得到目标相位数组500c：[1,0,1,1,1,0,0,0]。

进一步，计算机设备可以将目标相位数组和路口车辆状态输入交通相位预测模型，在交通相位预测模型中，可以对目标相位数组和路口车辆状态进行特征提取，从而得到目标相位数组中的每个相位分别对应的目标状态特征。请一并参见图6，是本申请实施例提供的一种交通相位预测模型的结构示意图。如图6所示，交通相位预测模型可以包括第一全连接层F1、第二全连接层F2、第三全连接层F3、第四全连接层F4以及长短期记忆网络层L，特征提取的具体过程为：通过第一全连接层F1对路口车辆状态中的每个驶入车道的车队长度进行特征提取，可以得到长度特征；通过第二全连接层F2对路口车辆状态中的每个驶入车道的首车等待时长进行特征提取，可以得到时长特征；通过第三全连接层F3对路口车辆状态中的每个驶入车道的平均车速进行特征提取，可以得到车速特征；通过第四全连接层F4对目标相位数组进行特征提取，可以得到相位特征。进而可以将长度特征、时长特征、车速特征以及相位特征确定为中间特征，随后将中间特征输入长短期记忆网络层L中的时序特征序列中，在长短期记忆网络层L中，通过时序特征序列对中间特征进行时序处理，可以得到目标相位数组中的每个相位分别对应的目标状态特征。其中，目标状态特征用于存储在时序特征序列中，目标状态特征对应的特征生成时间戳为时序特征序列中的一个或多个状态特征对应的特征生成时间戳中的最晚时间戳。可以理解，长短期记忆网络层L是用于处理时序的，它会保留交通相位预测模型中的一些状态值（如目标状态特征），而保留下来的状态值会通过时序特征序列体现在模型内部的状态变化上，相当于对过去的历史输入数据进行了一定的记忆，因此当前做出的决策是基于历史决策的一些信息得到的。在一种可选的实施方式中，考虑到一个路口的邻域有多个路口（包括该路口及其相邻路口），通过实验可得到能涵盖大多数特征的网络结构，具体来说，第一全连接层F1可以为包含64个神经元的一层全连接层，第二全连接层F2可以为包含32个神经元的一层全连接层，第三全连接层F3可以为包含32个神经元的一层全连接层，第四全连接层F4可以为包含16个神经元的一层全连接层，长短期记忆网络层L则是一个有状态的LSTM（long short term memory，长短期记忆）网络层，输出维度为64，其中，有状态的网络指的是每次处理输入信息时，都可以将当前网络的状态记录下来，在下一次处理新的输入信息时可以将上一次网络的状态作为本次处理时的网络初始状态。其中，LSTM是一种特殊的RNN（Recurrent Neural Network，循环神经网络），主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题，相比普通的RNN，LSTM能够在更长的序列中有更好的表现。LSTM通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息，而不像普通的RNN那样仅有一种记忆叠加方式，因此更适用于需要“长期记忆”的任务。可以理解，还可以采用具有其它网络结构的交通相位预测模型来实现不同的优化性能，本申请对此不做限制。

需要说明的是，本申请通过设计相应的优化指标（例如整体车队长度和延误时间等）来训练初始交通相位预测模型，得到交通相位预测模型，因此采用交通相位预测模型预测得到的目标相位，可以有效提升区域路口的通行效率。

进一步，如图6所示，通过在交通相位预测模型的输出层S1中使用softmax激活函数（即归一化指数函数）可以输出每个目标状态特征分别对应的预测概率，请再次参见图5，将目标相位数组500c和路口车辆状态500d输入交通相位预测模型后，通过交通相位预测模型可以输出预测概率数组500e，用于表示每个相位对应的概率分布，预测概率数组500e包括预测概率P₁、预测概率P₂、预测概率P₃、预测概率P₄、预测概率P₅、预测概率P₆、预测概率P₇、预测概率P₈，可以理解，一般情况下，与非候选相位相比，候选相位500a（包括相位①、相位③、相位④、相位⑤）对应的预测概率会占有更大比重，因此根据这些预测概率可以从候选相位500a中选取出一个最合适的目标相位。需要说明的是，一般可以直接将具有最大预测概率的候选相位确定为目标相位，但考虑到每个相位都有持续时长的限制，因此，在一种可选的实施方式中，可以设置时长阈值作为选择目标相位的依据，具体的，若具有最大预测概率的候选相位对应的相位持续总时长小于时长阈值，则可以将具有最大预测概率的候选相位确定为目标相位；若具有最大预测概率的候选相位对应的相位持续总时长等于时长阈值，则可以将具有目标预测概率的候选相位确定为目标相位。可以理解，此处的候选相位可以包括末位相位，也可以不包括末尾相位，本申请对此不做限制。其中，目标预测概率是指所有预测概率中除了最大预测概率外数值最大的预测概率。例如，请再次参见图5，基于预测概率数组500e和时长阈值可以确定目标相位500f，若预测概率数组500e中预测概率P₄的数值最大，则最后选取出的目标相位500f即为相位④；若预测概率数组500e中预测概率P₃的数值最大，预测概率P₄次之，则需要进一步判断相位③的相位持续总时长是否已经等于对应的时长阈值，若相等，则表示下一时刻不能再采用相位③，因此可以选取预测概率P₄对应的相位④作为目标相位500f；若不相等，则表示相位③的相位持续总时长还未达到上限，因此可以将相位③确定为目标相位500f。

经过上述步骤确定目标相位后，计算机设备可以根据目标相位控制目标路口的路口信号标识的显示方式（如显示颜色、显示时长等），这里的路口信号标识具体指路网中的交通信号灯，包括但不限于车道信号灯、方向指示信号灯、机动车信号灯、非机动车信号灯、人行横道信号灯、闪光警告信号灯。

需要说明的是，由于区域路网中的交通状况处于动态变化的状态，即路口车辆状态是时刻变化的，因此本申请实施例可以支持设计人员为交通相位预测模型设置执行周期，当一个执行周期启动时，计算机设备就去获取该时刻下目标路口以及其相邻路口中的实时的路口车辆状态，然后通过交通相位预测模型预测下一个时刻目标路口应该采用的目标相位。例如，在一种实施方式中，可以将执行周期设置为15秒或30秒，则计算机设备需要每隔15秒或30秒就去获取一次路口车辆状态，随后调用交通相位预测模型快速做出相应决策，因此每次决策采用的相位均可以持续一个执行周期，即交通信号灯显示相应颜色的显示时长可以为15秒或30秒，若连续多次选取到同一个相位，则该相位的相位持续总时长延长为多个执行周期，但其最大相位持续总时长不能超过对应的时长阈值。

本申请实施例提供了一种实时的多路口协同控制方案，通过获取目标路口以及相邻路口中的路口车辆状态，并获取目标路口的历史相位切换记录和相位切换集合，可以对相位切换集合中的一个或多个相位切换序列进行遍历，直到将所有与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，从而可以根据历史相位切换记录在目标相位切换序列中获取候选相位，进一步，可以对候选相位进行相位映射，得到目标相位数组，进而可以将上述路口车辆状态和目标相位数组输入交通相位预测模型，通过交通相位预测模型可以从候选相位中选取目标相位，最终可以根据目标相位对目标路口的路口信号标识进行控制。也就是说，本申请支持在相位切换集合中融合多种相位切换方案，并根据历史相位切换记录为目标路口提供合适的候选相位，同时，为了实现多个路口的协同控制作用，每个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，进而可以根据区域内多个路口的实时路口车辆状态在线调整各个路口的相位切换，从而实现通过交通信号灯间的配合缓解区域的交通拥堵。此外，通过基于深度学习的交通相位预测模型处理信控相位切换的相关逻辑，可以极大减少产生错误的状态转换和逻辑问题，而通过优化车队长度等指标可以提升区域路口的通行效率，从而可以维护合理的相位切换顺序，发挥多个路口之间的协同控制作用，提升路网整体通行效率。

请参见图7，图7是本申请实施例提供的一种交通信号控制方法的流程示意图。该交通信号控制方法可以由计算机设备执行，计算机设备可以包括如图1所述的终端设备或业务服务器。如图7所示，该交通信号控制方法至少可以包括以下步骤S201-步骤S205：

步骤S201，获取样本路口以及相邻路口中的样本路口车辆状态；相邻路口为与样本路口具有相邻连通关系的路口；

具体的，计算机设备可以获取样本路口以及相邻路口中的样本路口车辆状态，其中，相邻路口为与样本路口具有相邻连通关系的路口，样本路口车辆状态可以包括相邻路口与样本路口中每个驶入车道的车队长度、首车等待时长以及平均车速，这些数据可以是在真实环境中过去某些时刻采集到的历史数据，也可以是在仿真环境下产生的仿真数据，本申请对此不做限制。其中，样本路口车辆状态的定义方式可以参见上述图4所对应实施例的步骤S101中对路口车辆状态的定义方式，这里不再进行赘述。

步骤S202，获取样本路口的历史样本相位切换记录和样本相位切换集合；样本相位切换集合包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位；历史样本相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对样本路口中的路口信号标识进行有序排列所得到的组合；

具体的，计算机设备可以获取至少两个历史时间戳下样本路口采用过的互不相同的相位作为历史样本相位切换记录，具体数量不做限制，同时，还需要获取样本路口的样本相位切换集合，其中，由于不同类型的路口（如十字路口、丁字路口）可以采取不同的相位，因此样本相位切换集合可以根据样本路口的实际需求预先设计，例如可以整合经典的两相式、三相式、四相式等多种相位切换方案，样本相位切换集合具体可以包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位，参考案例可以参见上述图3a-图3b所对应实施例中的相关描述。

步骤S203，对样本相位切换集合中的一个或多个样本相位切换序列进行遍历，将遍历到的与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位；

具体的，在样本相位切换集合中，计算机设备可以对其中的一个或多个样本相位切换序列进行遍历，并将遍历到的与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列。进一步，可以根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位，可选的，可以在选取候选样本相位时考虑时长阈值的限制，也就是说，一个相位的相位持续总时长不能超过设置的时长阈值，其中，时长阈值可以根据实际情况进行分类设置，本申请对此不做限制。因此，可以根据历史样本相位切换记录中的末位相位的相位持续总时长与时长阈值之间的大小关系进行判断：若历史样本相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在目标相位切换序列中，可以将切换顺序位于历史样本相位切换记录后的第一个相位确定为候选样本相位；若历史样本相位切换记录中的末位相位的相位持续总时长小于时长阈值，则在目标相位切换序列中，可以将切换顺序位于历史样本相位切换记录后的第一个相位以及末位相位均确定为候选样本相位，其中，末位相位是指历史样本相位切换记录中具有最晚历史时间戳的相位。

可选的，也可以先不考虑时长阈值的限制，也就是说，在目标相位切换序列中，可以将切换顺序位于历史样本相位切换记录后的第一个相位以及历史样本相位切换记录中的末位相位均默认为候选样本相位。

可选的，本申请实施例还可以支持设计人员自行选择是否将历史样本相位切换记录中的末位相位作为候选样本相位。

步骤S204，将候选样本相位和样本路口车辆状态输入初始交通相位预测模型，通过初始交通相位预测模型从候选样本相位中选取目标样本相位，根据目标样本相位对样本路口的路口信号标识进行控制；

具体的，计算机设备可以先获取用于表征所有相位的原始相位数组，进而可以将候选样本相位映射至原始相位数组，得到样本相位数组，其中，样本相位数组中候选样本相位的标识符与非候选样本相位的标识符不相同，非候选样本相位是指样本相位切换集合中除了候选样本相位外的相位。样本相位数组具体可以是布尔型数组，因此可以用不同的布尔值作为标识符，分别用于表示候选样本相位和非候选样本相位，例如，可以采用布尔值“1”表示候选样本相位，用布尔值“0”表示非候选样本相位。

进一步，计算机设备可以将样本相位数组和样本路口车辆状态输入初始交通相位预测模型中的初始决策网络，在初始决策网络中，对样本相位数组和样本路口车辆状态进行特征提取，可以得到样本相位数组中的每个相位分别对应的第一状态特征，进而可以通过初始决策网络的输出层输出每个第一状态特征分别对应的预测概率，然后可以将具有最大预测概率的相位确定为目标样本相位，最终可以根据目标样本相位对样本路口的路口信号标识进行控制。

在一种实施方式中，初始交通相位预测模型的具体网络结构可以参见上述图6，如图6所示，初始交通相位预测模型包括初始决策网络，初始决策网络具体可以包括第一全连接层F1、第二全连接层F2、第三全连接层F3、第四全连接层F4、长短期记忆网络层L以及输出层S1，通过初始决策网络输出每个第一状态特征分别对应的预测概率的具体过程可以参见上述图4所对应实施例中的步骤S104，这里不再进行赘述。其中，输出层S1可采用softmax函数或其它函数作为激活函数，其它的网络结构参数也可以根据实际需求进行调整，本申请对此不做限制。

步骤S205，获取由目标样本相位所控制的样本路口的更新路口车辆状态，根据更新路口车辆状态生成全局奖励函数，基于全局奖励函数对初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型；交通相位预测模型用于预测目标路口对应的目标相位。

需要说明的是，本申请可以使用强化学习的算法进行在线相位方案选择和切换，实现区域范围内多路口之间的协同控制作用，也就是说，本申请可以采用多智能体强化学习（multi-agent reinforcement learning，MARL）的方法，把路网内每一个路口视为一个控制对象（agent），每一个控制对象通过观测本路口及相邻路口的交通运行状态来制定本路口下一时刻的目标相位。其中，多智能体强化学习就是将强化学习的算法与方法论运用在真实复杂的多智能体环境中来解决最优决策的问题，即强化学习的目标是为智能体找到一个最优的行为策略（policy）从而获取最大的回报。因此，本申请实施例可以通过设计一些优化指标来训练神经网络，优化指标可以包括但不限于整体车队长度、延误时间等，为便于理解和说明，后续在本申请实施例中会用一个全局奖励函数表示，且会使用全局奖励函数来不断调整相应的网络参数，也就是说，模型训练的目的就是要最大化全局奖励函数，即最大化整个区域的通行效率，相应的，路口的整体排队长度和延误时间可以实现最小化。MARL算法主要分为两大类：基于值的算法（Value-Based，例如Q-learning算法）和基于策略的算法（Policy-Based，例如策略梯度算法），而本申请将采用一种将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。

在模型训练过程中，针对每一个样本路口，本申请实施例可以采用A2C（AdvantageActor Critic，优势动作评论算法，是在Actor-Critic框架下的一种强化学习算法）的训练方法，设计由两个神经网络组成的初始交通相位预测模型，分别为初始决策网络（即Actornet）和初始评估网络（即Critic net），例如可以参见上述图6所示的网络结构，图6中的初始交通相位预测模型可以包括初始决策网络600a以及初始评估网络600b，通过设计一个全局奖励函数作为样本路口对应的优化指标（例如可针对整体车队长度和延误时间）来训练初始决策网络600a和初始评估网络600b，从而得到用于预测目标路口对应的目标相位的交通相位预测模型。在A2C算法中，Actor网络可以基于多个行为对应的概率分布来选择一个最优的行为，Critic网络基于Actor网络生成的行为进行评判得分，Actor网络可以再根据Critic网络的评分调整相应的网络参数。可以理解，在本申请实施例中，初始决策网络用于预测目标样本相位，具体过程可参见上述步骤S204，而初始评估网络则主要对目标样本相位进行评估，具体的，初始评估网络可以基于其输出的状态值函数生成优势函数，若优势函数大于零，则表示目标样本相位较好，反之，若优势函数小于零，则表示目标样本相位较差，初始决策网络可以接收到初始评估网络的反馈，进而根据这些反馈去调整相关的网络参数，以在下一次预测时得到更合适的相位。

当将候选样本相位和样本路口车辆状态输入初始交通相位预测模型时，针对初始评估网络，有以下处理过程：在初始评估网络中，对样本相位数组和样本路口车辆状态进行特征提取，可以得到至少两个第二状态特征，进而将至少两个第二状态特征输入初始评估网络的输出层，通过初始评估网络的输出层可以输出状态值函数。其中，初始评估网络的具体网络结构可以参见图6，如图6所示，初始评估网络600b可以包括第一全连接层F1、第二全连接层F2、第三全连接层F3、第四全连接层F4、长短期记忆网络层L以及输出层S2，也就是说，初始评估网络600b和上述初始决策网络600a可以共享一部分网络层，因此通过初始评估网络600b对样本相位数组和样本路口车辆状态进行特征提取的过程可以参见上述图4所对应实施例中进行特征提取的处理过程，这里不再进行赘述。与初始决策网络600a中的输出层S1不同的是，初始评估网络600b的输出层S2主要执行线性运算，最终输出的是状态值函数（即value函数），该状态值函数可用于对初始决策网络600a输出的目标样本相位进行评估。

上述可知，在模型训练过程中，初始交通相位预测模型每次执行一个动作（即目标样本相位）后，都可以采集更新后的相应数据生成全局奖励函数。具体的，首先计算每个路口对应的局部奖励函数，以一个路口为例，假设样本路口以及相邻路口包括路口N_j，j为正整数，且j小于或等于样本路口以及相邻路口的路口总数，则计算机设备可以先获取路口N_j对应的每个驶入车道的更新车队长度和更新首车等待时长，然后根据更新车队长度和更新首车等待时长生成路口N_j对应的局部奖励函数r_j。进一步，当获取到所有路口（包括样本路口以及相邻路口）分别对应的局部奖励函数时，获取距离系数，进而可以根据这些局部奖励函数以及距离系数生成全局奖励函数，其中，距离系数与相邻路口与样本路口之间的图形距离相关。可以理解，本申请可以通过设计的全局奖励函数（也可称为reward函数）来实现区域内路口的协同控制。

请再次参见上述图2，这里仍以路口A为例，本申请实施例关心的主要是路口的整体排队长度和延误时间，假设用L_A表示路口A所有驶入车道的集合，因此路口A对应的局部奖励函数可以定义为

，其中，α是更新首车等待时长的权重系数，q_i表示路口A中车道i的更新车队长度，w_i表示车道i的更新首车等待时长。同理，路口B~路口E各自对应的局部奖励函数可以采用类似的定义方式。用N_A表示路口A及其相邻路口（即路口B~路口E）的集合，则路口A及其相邻路口对应的全局奖励函数可以定义为

，其中，β^d(A,j)为距离系数，α和β的大小均可以根据实际情况进行设计，一般情况下两者均为小于1的正数，d(A,j)为路口j到路口A的图形距离（graph distance），由于此处路口A的邻域仅由路口A及其相邻路口组成，故d(A,j)的定义可参见下述公式（1）：

(1)

进一步，计算机设备可以基于全局奖励函数对初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型，具体过程为：基于全局奖励函数和状态值函数生成第一损失函数，进而根据第一损失函数对初始评估网络的网络参数进行调整，得到评估网络；基于全局奖励函数和目标样本相位生成第二损失函数，进而根据第二损失函数对初始决策网络的网络参数进行调整，得到决策网络，最终可以将包含评估网络和决策网络的初始交通相位预测模型，确定为交通相位预测模型，后续在使用交通相位预测模型时仅使用决策网络的输出即可。仍以路口A为例，本申请实施例中神经网络的训练数据（即候选样本相位和样本路口车辆状态）以batch（批）为单位，表示t时刻一个长度为M的batch的训练数据为：

(2)

其中，s_τ表示τ时刻路口A及其相邻路口的路口车辆状态，u_τ为τ时刻路口A采用的相位，R_τ为执行u_τ获得的全局奖励函数，则训练初始评估网络/初始决策网络需要的损失函数分别由下述公式给出：

(3)

(4)

其中，

(5)

(6)

其中，L(w)为第一损失函数，V_w表示初始评估网络，w表示初始评估网络的网络参数，L(θ)为第二损失函数，π_θ表示初始决策网络，θ表示初始决策网络的网络参数，V_w(s_τ)表示τ时刻的状态值函数，

则表示执行本次训练前尚未优化L(w)的初始评估网络，

则是对不同时刻获得的全局奖励函数进行折扣累计求和所得的结果，γ为折扣系数，其取值范围具体可以为(0,1)，用于描述未来时刻收益的权重随时间的衰减速度，由上述公式可知，在训练过程中，第二损失函数L(θ)会受到初始评估网络的影响，且生成第一损失函数L (w)和第二损失函数L(θ)时会考虑到本次训练前神经网络中的一些状态。

上述可知，模型训练的目的就是要最大化全局奖励函数，即最大化整个区域的通行效率，相应的，路口的整体排队长度和延误时间最小，因此采用训练好的交通相位预测模型应用于区域或城市级路网路口协同控制场景，可以非常有效地缓解区域内交通拥堵，减少车辆的停车次数，提高路口车辆通过率和车辆平均通行速度。需要说明的是，还可以考虑改变模型结构、改变路口车辆状态和全局奖励函数的设计来实现不同的优化性能，本申请对此不做限制。

此外，对于上述步骤S204给定的样本相位数组，在模型训练过程中，神经网络的输出未必会遵守，即出现错误的状态转换，这种情况下需要根据候选样本相位对全局奖励函数进行修正，也就是说，当初始决策网络选择的目标样本相位不属于候选样本相位时，可以根据候选样本相位确定状态修正参数，进而根据状态修正参数对全局奖励函数进行修正。仍以路口A及其相邻路口对应的全局奖励函数R_A为例，可以对R_A进行如下修正：

(7)

其中，R_false为状态修正参数，用于表征错误状态切换的代价，可以根据实际需要设计，在一种实施方式中，R_false=-300。

在一种可选的实施方式中，可以使用SUMO（Simulation of Urban Mobility，一款开源微观交通流仿真软件）来构建交通流仿真平台以及模拟城市道路车辆行为，通过SUMO提供的Traci API（一个应用程序接口）来控制仿真环境的交通信号灯状态并访问路口交通仿真数据（即样本路口车辆状态）。本申请实施例可设计单步仿真时间为15秒（即执行周期），黄灯时间为5秒，单独的左转灯相位持续时间为15秒~30秒，其它相位持续时间为30秒~120秒。若使用曲线描述整个仿真区域中全局奖励函数随训练时间的变化，可以看到算法的收敛过程。随着仿真区域大小以及仿真车辆数目的变化，单机训练时间介于4小时~24小时不等，视具体仿真案例而定。本方案应用于实际仿真场景中，经验证非常适用于处理特别拥堵的城市交通任务。

本申请实施例提供了一种基于MA-A2C的多路口协同控制方案，通过获取样本路口以及相邻路口中的样本路口车辆状态，并获取样本路口的历史样本相位切换记录和样本相位切换集合，可以对样本相位切换集合中的一个或多个样本相位切换序列进行遍历，直到将所有与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，从而可以根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位，进一步，可以将上述样本路口车辆状态和候选样本相位输入初始交通相位预测模型进行训练，通过设计的全局奖励函数对网络参数进行调整，可以得到交通相位预测模型。实际应用中可以通过交通相位预测模型预测目标相位，并可以根据目标相位对目标路口的路口信号标识进行控制，也就是说，本申请可以融合多种相位切换方案，并根据历史相位切换记录为目标路口提供合适的候选相位，同时，为了实现多个路口的协同控制作用，每个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，进而可以根据区域内多个路口的实时路口车辆状态在线调整各个路口的相位切换，从而实现通过交通信号灯间的配合缓解区域的交通拥堵。此外，通过强化学习的算法妥善处理信控相位切换的相关逻辑，可以极大减少产生错误的状态转换和逻辑问题，而通过优化车队长度等指标可以提升区域路口的通行效率，从而可以维护合理的相位切换顺序，发挥多个路口之间的协同控制作用，提升路网整体通行效率。

请参见图8，是本申请实施例提供的一种交通信号控制装置的结构示意图。该交通信号控制装置可以是运行于计算机设备的一个计算机程序（包括程序代码），例如该交通信号控制装置为一个应用软件；该装置可以用于执行本申请实施例提供的交通信号控制方法中的相应步骤。如图8所示，该交通信号控制装置1可以包括：状态获取模块11、第一相位获取模块12、第二相位获取模块13、决策模块14；

状态获取模块11，用于获取目标路口以及相邻路口中的路口车辆状态；相邻路口为与目标路口具有相邻连通关系的路口；

在一种实施方式中，上述目标路口以及相邻路口包括驶入车道L_i，i为正整数，且i小于或等于目标路口以及相邻路口中的驶入车道总数；

上述状态获取模块11，具体用于获取目标时间戳下位于驶入车道L_i上的车队长度；获取目标时间戳下驶入车道L_i对应的首车等待时长；获取目标时间戳下位于驶入车道L_i上的车辆的行驶速度，根据行驶速度生成驶入车道L_i的平均车速；将车队长度、首车等待时长以及平均车速确定为驶入车道L_i的路口车辆状态；

第一相位获取模块12，用于获取目标路口的历史相位切换记录和相位切换集合；相位切换集合包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位；历史相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对目标路口中的路口信号标识进行有序排列所得到的组合；

第二相位获取模块13，用于对相位切换集合中的一个或多个相位切换序列进行遍历，将遍历到的与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据历史相位切换记录在目标相位切换序列中获取候选相位；

决策模块14，用于根据路口车辆状态从候选相位中选取目标相位，根据目标相位对目标路口的路口信号标识进行控制。

其中，状态获取模块11的具体功能实现方式可以参见上述图4所对应实施例中的步骤S101，第一相位获取模块12的具体功能实现方式可以参见上述图4所对应实施例中的步骤S102，第二相位获取模块13的具体功能实现方式可以参见上述图4所对应实施例中的步骤S103，决策模块14的具体功能实现方式可以参见上述图4所对应实施例中的步骤S104，这里不再进行赘述。

请一并参见图8，上述第二相位获取模块13可以包括：第一相位确定单元131、第二相位确定单元132；

第一相位确定单元131，用于若历史相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在目标相位切换序列中，将切换顺序位于历史相位切换记录后的第一个相位确定为候选相位；末位相位是指历史相位切换记录中具有最晚历史时间戳的相位；

第二相位确定单元132，用于若历史相位切换记录中的末位相位的相位持续总时长小于时长阈值，则在目标相位切换序列中，将切换顺序位于历史相位切换记录后的第一个相位以及历史相位切换记录中的末位相位均确定为候选相位。

其中，第一相位确定单元131、第二相位确定单元132的具体功能实现方式可以参见上述图4所对应实施例中的步骤S103，这里不再进行赘述。

请一并参见图8，上述决策模块14可以包括：映射单元141、特征提取单元142、概率输出单元143、第一决策单元144、第二决策单元145；

映射单元141，用于获取用于表征所有相位的原始相位数组，将候选相位映射至原始相位数组，得到目标相位数组，将目标相位数组和路口车辆状态输入交通相位预测模型；目标相位数组中候选相位的标识符与非候选相位的标识符不相同，非候选相位是指相位切换集合中除了候选相位外的相位；

特征提取单元142，用于在交通相位预测模型中，对目标相位数组和路口车辆状态进行特征提取，得到目标相位数组中的每个相位分别对应的目标状态特征；

概率输出单元143，用于通过交通相位预测模型的输出层输出每个目标状态特征分别对应的预测概率；

第一决策单元144，用于若具有最大预测概率的候选相位对应的相位持续总时长小于时长阈值，则将具有最大预测概率的候选相位确定为目标相位，根据目标相位控制目标路口的路口信号标识的显示方式；

第二决策单元145，用于若具有最大预测概率的候选相位对应的相位持续总时长等于时长阈值，则将具有目标预测概率的候选相位确定为目标相位，根据目标相位控制目标路口的路口信号标识的显示方式；目标预测概率是指所有预测概率中除了最大预测概率外数值最大的预测概率。

其中，映射单元141、特征提取单元142、概率输出单元143、第一决策单元144、第二决策单元145的具体功能实现方式可以参见上述图4所对应实施例中的步骤S104，这里不再进行赘述。

在一种实施方式中，上述交通相位预测模型包括第一全连接层、第二全连接层、第三全连接层、第四全连接层以及长短期记忆网络层；

请一并参见图8，上述特征提取单元142可以包括：第一提取子单元1421、第二提取子单元1422；

第一提取子单元1421，用于通过第一全连接层对路口车辆状态中的每个驶入车道的车队长度进行特征提取，得到长度特征；通过第二全连接层对路口车辆状态中的每个驶入车道的首车等待时长进行特征提取，得到时长特征；通过第三全连接层对路口车辆状态中的每个驶入车道的平均车速进行特征提取，得到车速特征；通过第四全连接层对目标相位数组进行特征提取，得到相位特征；

第二提取子单元1422，用于将长度特征、时长特征、车速特征以及相位特征确定为中间特征，将中间特征输入长短期记忆网络层中的时序特征序列中，在长短期记忆网络层中，通过时序特征序列对中间特征进行时序处理，得到目标相位数组中的每个相位分别对应的目标状态特征；目标状态特征用于存储在时序特征序列中，目标状态特征对应的特征生成时间戳为时序特征序列中的一个或多个状态特征对应的特征生成时间戳中的最晚时间戳。

其中，第一提取子单元1421、第二提取子单元1422的具体功能实现方式可以参见上述图4所对应实施例中的步骤S104，这里不再进行赘述。

本申请实施例通过获取目标路口以及相邻路口中的路口车辆状态，并获取目标路口的历史相位切换记录和相位切换集合，可以对相位切换集合中的一个或多个相位切换序列进行遍历，直到将所有与历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，从而可以根据历史相位切换记录在目标相位切换序列中获取候选相位，进一步，可以对候选相位进行相位映射，得到目标相位数组，进而可以将上述路口车辆状态和目标相位数组输入交通相位预测模型，通过交通相位预测模型可以从候选相位中选取目标相位，最终可以根据目标相位对目标路口的路口信号标识进行控制。也就是说，本申请支持在相位切换集合中融合多种相位切换方案，并根据历史相位切换记录为目标路口提供合适的候选相位，同时，为了实现多个路口的协同控制作用，每个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，进而可以根据区域内多个路口的实时路口车辆状态在线调整各个路口的相位切换，从而实现通过交通信号灯间的配合缓解区域的交通拥堵。此外，通过基于深度学习的交通相位预测模型处理信控相位切换的相关逻辑，可以极大减少产生错误的状态转换和逻辑问题，而通过优化车队长度等指标可以提升区域路口的通行效率，从而可以维护合理的相位切换顺序，发挥多个路口之间的协同控制作用，提升路网整体通行效率。

请参见图9，是本申请实施例提供的一种交通信号控制装置的结构示意图。该交通信号控制装置可以是运行于计算机设备的一个计算机程序（包括程序代码），例如该交通信号控制装置为一个应用软件；该装置可以用于执行本申请实施例提供的交通信号控制方法中的相应步骤。如图9所示，该交通信号控制装置2可以包括：状态获取模块21、第一相位获取模块22、第二相位获取模块23、决策模块24、调整模块25；

状态获取模块21，用于获取样本路口以及相邻路口中的样本路口车辆状态；相邻路口为与样本路口具有相邻连通关系的路口；

第一相位获取模块22，用于获取样本路口的历史样本相位切换记录和样本相位切换集合；样本相位切换集合包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位；历史样本相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对样本路口中的路口信号标识进行有序排列所得到的组合；

第二相位获取模块23，用于对样本相位切换集合中的一个或多个样本相位切换序列进行遍历，将遍历到的与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位；

决策模块24，用于将候选样本相位和样本路口车辆状态输入初始交通相位预测模型，通过初始交通相位预测模型从候选样本相位中选取目标样本相位，根据目标样本相位对样本路口的路口信号标识进行控制；

调整模块25，用于获取由目标样本相位所控制的样本路口的更新路口车辆状态，根据更新路口车辆状态生成全局奖励函数，基于全局奖励函数对初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型；交通相位预测模型用于预测目标路口对应的目标相位。

其中，状态获取模块21的具体功能实现方式可以参见上述图7所对应实施例中的步骤S201，第一相位获取模块22的具体功能实现方式可以参见上述图7所对应实施例中的步骤S202，第二相位获取模块23的具体功能实现方式可以参见上述图7所对应实施例中的步骤S203，决策模块24的具体功能实现方式可以参见上述图7所对应实施例中的步骤S204，调整模块25的具体功能实现方式可以参见上述图7所对应实施例中的步骤S205，这里不再进行赘述。

在一种实施方式中，上述初始交通相位预测模型还包括初始评估网络；

请一并参见图9，上述装置还可以包括：评估模块26；

评估模块26，用于在初始评估网络中，对样本相位数组和样本路口车辆状态进行特征提取，得到至少两个第二状态特征；将至少两个第二状态特征输入初始评估网络的输出层，通过初始评估网络的输出层输出状态值函数；状态值函数用于对目标样本相位进行评估。

其中，评估模块26的具体功能实现方式可以参见上述图7所对应实施例中的步骤S205，这里不再进行赘述。

请一并参见图9，上述装置还可以包括：修正模块27；

修正模块27，用于若目标样本相位不属于候选样本相位，则根据候选样本相位确定状态修正参数，根据状态修正参数对全局奖励函数进行修正。

其中，修正模块27的具体功能实现方式可以参见上述图7所对应实施例中的步骤S205，这里不再进行赘述。

在一种实施方式中，上述初始交通相位预测模型包括初始决策网络；

请一并参见图9，上述决策模块24可以包括：映射单元241、特征提取单元242、相位确定单元243；

映射单元241，用于获取用于表征所有相位的原始相位数组，将候选样本相位映射至原始相位数组，得到样本相位数组，将样本相位数组和样本路口车辆状态输入初始决策网络；样本相位数组中候选样本相位的标识符与非候选样本相位的标识符不相同，非候选样本相位是指样本相位切换集合中除了候选样本相位外的相位；

特征提取单元242，用于在初始决策网络中，对样本相位数组和样本路口车辆状态进行特征提取，得到样本相位数组中的每个相位分别对应的第一状态特征；

相位确定单元243，用于通过初始决策网络的输出层输出每个第一状态特征分别对应的预测概率，将具有最大预测概率的相位确定为目标样本相位。

其中，映射单元241、特征提取单元242、相位确定单元243的具体功能实现方式可以参见上述图7所对应实施例中的步骤S204，这里不再进行赘述。

在一种实施方式中，上述样本路口以及相邻路口包括路口N_j，j为正整数，且j小于或等于样本路口以及相邻路口的路口总数；

请一并参见图9，上述调整模块25可以包括：函数生成单元251、调整单元252；

函数生成单元251，用于获取路口N_j对应的每个驶入车道的更新车队长度和更新首车等待时长，根据更新车队长度和更新首车等待时长生成路口N_j对应的局部奖励函数r_j；当获取到样本路口以及相邻路口分别对应的局部奖励函数时，获取距离系数，根据局部奖励函数以及距离系数生成全局奖励函数；距离系数与相邻路口与样本路口之间的图形距离相关；

调整单元252，用于基于全局奖励函数和状态值函数生成第一损失函数，根据第一损失函数对初始评估网络的网络参数进行调整，得到评估网络；基于全局奖励函数和目标样本相位生成第二损失函数，根据第二损失函数对初始决策网络的网络参数进行调整，得到决策网络；将包含评估网络和决策网络的初始交通相位预测模型，确定为交通相位预测模型。

其中，函数生成单元251、调整单元252的具体功能实现方式可以参见上述图7所对应实施例中的步骤S205，这里不再进行赘述。

本申请实施例通过获取样本路口以及相邻路口中的样本路口车辆状态，并获取样本路口的历史样本相位切换记录和样本相位切换集合，可以对样本相位切换集合中的一个或多个样本相位切换序列进行遍历，直到将所有与历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，从而可以根据历史样本相位切换记录在目标相位切换序列中获取候选样本相位，进一步，可以将上述样本路口车辆状态和候选样本相位输入初始交通相位预测模型进行训练，通过设计的全局奖励函数对网络参数进行调整，可以得到交通相位预测模型。实际应用中可以通过交通相位预测模型预测目标相位，并可以根据目标相位对目标路口的路口信号标识进行控制，也就是说，本申请可以融合多种相位切换方案，并根据历史相位切换记录为目标路口提供合适的候选相位，同时，为了实现多个路口的协同控制作用，每个路口在制定目标相位决策之前，除了需要观察本路口的路口车辆状态，还需要观察附近相邻路口的路口车辆状态，进而可以根据区域内多个路口的实时路口车辆状态在线调整各个路口的相位切换，从而实现通过交通信号灯间的配合缓解区域的交通拥堵。此外，通过强化学习的算法妥善处理信控相位切换的相关逻辑，可以极大减少产生错误的状态转换和逻辑问题，而通过优化车队长度等指标可以提升区域路口的通行效率，从而可以维护合理的相位切换顺序，发挥多个路口之间的协同控制作用，提升路网整体通行效率。

请参见图10，是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图4所对应实施例中对该交通信号控制方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图11，是本申请实施例提供的一种计算机设备的结构示意图。如图11所示，该计算机设备2000可以包括：处理器2001，网络接口2004和存储器2005，此外，上述计算机设备2000还可以包括：用户接口2003，和至少一个通信总线2002。其中，通信总线2002用于实现这些组件之间的连接通信。其中，用户接口2003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器2004可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图11所示，作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图11所示的计算机设备2000中，网络接口2004可提供网络通讯功能；而用户接口2003主要用于为用户提供输入的接口；而处理器2001可以用于调用存储器2005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备2000可执行前文图7所对应实施例中对上述交通信号控制方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的交通信号控制装置1、交通信号控制装置2所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图4、图7任一个所对应实施例中对上述交通信号控制方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的交通信号控制装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital，SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图4、图7任一个所对应实施例提供的方法。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种交通信号控制方法，其特征在于，包括：

获取目标路口以及相邻路口中的路口车辆状态；所述相邻路口为与所述目标路口具有相邻连通关系的路口；

获取所述目标路口的历史相位切换记录和相位切换集合；所述相位切换集合包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位；所述历史相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对所述目标路口中的路口信号标识进行有序排列所得到的组合；

对所述相位切换集合中的所述一个或多个相位切换序列进行遍历，将遍历到的与所述历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据所述历史相位切换记录在所述目标相位切换序列中获取候选相位；

根据所述路口车辆状态从所述候选相位中选取目标相位，根据所述目标相位对所述目标路口的路口信号标识进行控制。

2.根据权利要求1所述的方法，其特征在于，所述目标路口以及所述相邻路口包括驶入车道L_i，i为正整数，且i小于或等于所述目标路口以及所述相邻路口中的驶入车道总数；

所述获取目标路口以及相邻路口中的路口车辆状态，包括：

获取目标时间戳下位于所述驶入车道L_i上的车队长度；

获取所述目标时间戳下所述驶入车道L_i对应的首车等待时长；

获取所述目标时间戳下位于所述驶入车道L_i上的车辆的行驶速度，根据所述行驶速度生成所述驶入车道L_i的平均车速；

将所述车队长度、所述首车等待时长以及所述平均车速确定为所述驶入车道L_i的路口车辆状态。

3.根据权利要求1所述的方法，其特征在于，所述根据所述历史相位切换记录在所述目标相位切换序列中获取候选相位，包括：

若所述历史相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在所述目标相位切换序列中，将切换顺序位于所述历史相位切换记录后的第一个相位确定为候选相位；所述末位相位是指所述历史相位切换记录中具有最晚历史时间戳的相位；

若所述历史相位切换记录中的末位相位的相位持续总时长小于所述时长阈值，则在所述目标相位切换序列中，将切换顺序位于所述历史相位切换记录后的第一个相位以及所述历史相位切换记录中的末位相位均确定为候选相位。

4.根据权利要求2所述的方法，其特征在于，所述根据所述路口车辆状态从所述候选相位中选取目标相位，根据所述目标相位对所述目标路口的路口信号标识进行控制，包括：

获取用于表征所有相位的原始相位数组，将所述候选相位映射至所述原始相位数组，得到目标相位数组，将所述目标相位数组和所述路口车辆状态输入交通相位预测模型；所述目标相位数组中所述候选相位的标识符与非候选相位的标识符不相同，所述非候选相位是指所述相位切换集合中除了所述候选相位外的相位；

在所述交通相位预测模型中，对所述目标相位数组和所述路口车辆状态进行特征提取，得到所述目标相位数组中的每个相位分别对应的目标状态特征；

通过所述交通相位预测模型的输出层输出每个目标状态特征分别对应的预测概率；

若具有最大预测概率的候选相位对应的相位持续总时长小于时长阈值，则将所述具有最大预测概率的候选相位确定为目标相位，根据所述目标相位控制所述目标路口的路口信号标识的显示方式；

若所述具有最大预测概率的候选相位对应的相位持续总时长等于所述时长阈值，则将具有目标预测概率的候选相位确定为目标相位，根据所述目标相位控制所述目标路口的路口信号标识的显示方式；所述目标预测概率是指所有预测概率中除了所述最大预测概率外数值最大的预测概率。

5.根据权利要求4所述的方法，其特征在于，所述交通相位预测模型包括第一全连接层、第二全连接层、第三全连接层、第四全连接层以及长短期记忆网络层；

所述在所述交通相位预测模型中，对所述目标相位数组和所述路口车辆状态进行特征提取，得到所述目标相位数组中的每个相位分别对应的目标状态特征，包括：

通过所述第一全连接层对所述路口车辆状态中的每个驶入车道的车队长度进行特征提取，得到长度特征；

通过所述第二全连接层对所述路口车辆状态中的每个驶入车道的首车等待时长进行特征提取，得到时长特征；

通过所述第三全连接层对所述路口车辆状态中的每个驶入车道的平均车速进行特征提取，得到车速特征；

通过所述第四全连接层对所述目标相位数组进行特征提取，得到相位特征；

将所述长度特征、所述时长特征、所述车速特征以及所述相位特征确定为中间特征，将所述中间特征输入所述长短期记忆网络层中的时序特征序列中，在所述长短期记忆网络层中，通过所述时序特征序列对所述中间特征进行时序处理，得到所述目标相位数组中的每个相位分别对应的目标状态特征；所述目标状态特征用于存储在所述时序特征序列中，所述目标状态特征对应的特征生成时间戳为所述时序特征序列中的一个或多个状态特征对应的特征生成时间戳中的最晚时间戳。

6.一种交通信号控制方法，其特征在于，包括：

获取样本路口以及相邻路口中的样本路口车辆状态；所述相邻路口为与所述样本路口具有相邻连通关系的路口；

获取所述样本路口的历史样本相位切换记录和样本相位切换集合；所述样本相位切换集合包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位；所述历史样本相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对所述样本路口中的路口信号标识进行有序排列所得到的组合；

对所述样本相位切换集合中的所述一个或多个样本相位切换序列进行遍历，将遍历到的与所述历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，根据所述历史样本相位切换记录在所述目标相位切换序列中获取候选样本相位；

将所述候选样本相位和所述样本路口车辆状态输入初始交通相位预测模型，通过所述初始交通相位预测模型从所述候选样本相位中选取目标样本相位，根据所述目标样本相位对所述样本路口的路口信号标识进行控制；

获取由所述目标样本相位所控制的所述样本路口的更新路口车辆状态，根据所述更新路口车辆状态生成全局奖励函数，基于所述全局奖励函数对所述初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型；所述交通相位预测模型用于预测目标路口对应的目标相位。

7.根据权利要求6所述的方法，其特征在于，所述初始交通相位预测模型包括初始决策网络；

所述将所述候选样本相位和所述样本路口车辆状态输入初始交通相位预测模型，通过所述初始交通相位预测模型从所述候选样本相位中选取目标样本相位，包括：

获取用于表征所有相位的原始相位数组，将所述候选样本相位映射至所述原始相位数组，得到样本相位数组，将所述样本相位数组和所述样本路口车辆状态输入所述初始决策网络；所述样本相位数组中所述候选样本相位的标识符与非候选样本相位的标识符不相同，所述非候选样本相位是指所述样本相位切换集合中除了所述候选样本相位外的相位；

在所述初始决策网络中，对所述样本相位数组和所述样本路口车辆状态进行特征提取，得到所述样本相位数组中的每个相位分别对应的第一状态特征；

通过所述初始决策网络的输出层输出每个第一状态特征分别对应的预测概率，将具有最大预测概率的相位确定为目标样本相位。

8.根据权利要求6所述的方法，其特征在于，所述样本路口以及所述相邻路口包括路口N_j，j为正整数，且j小于或等于所述样本路口以及所述相邻路口的路口总数；

所述获取由所述目标样本相位所控制的所述样本路口的更新路口车辆状态，根据所述更新路口车辆状态生成全局奖励函数，包括：

获取所述路口N_j对应的每个驶入车道的更新车队长度和更新首车等待时长，根据所述更新车队长度和所述更新首车等待时长生成所述路口N_j对应的局部奖励函数r_j；

当获取到所述样本路口以及所述相邻路口分别对应的局部奖励函数时，获取距离系数，根据所述局部奖励函数以及所述距离系数生成全局奖励函数；所述距离系数与所述相邻路口与所述样本路口之间的图形距离相关。

9.根据权利要求7所述的方法，其特征在于，所述初始交通相位预测模型还包括初始评估网络；所述方法还包括：

在所述初始评估网络中，对所述样本相位数组和所述样本路口车辆状态进行特征提取，得到至少两个第二状态特征；

将所述至少两个第二状态特征输入所述初始评估网络的输出层，通过所述初始评估网络的输出层输出状态值函数；所述状态值函数用于对所述目标样本相位进行评估；

则所述基于所述全局奖励函数对所述初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型，包括：

基于所述全局奖励函数和所述状态值函数生成第一损失函数，根据所述第一损失函数对所述初始评估网络的网络参数进行调整，得到评估网络；

基于所述全局奖励函数和所述目标样本相位生成第二损失函数，根据所述第二损失函数对所述初始决策网络的网络参数进行调整，得到决策网络；

将包含所述评估网络和所述决策网络的初始交通相位预测模型，确定为交通相位预测模型。

10.根据权利要求8所述的方法，其特征在于，还包括：

若所述目标样本相位不属于所述候选样本相位，则根据所述候选样本相位确定状态修正参数，根据所述状态修正参数对所述全局奖励函数进行修正。

11.一种交通信号控制装置，其特征在于，包括：

状态获取模块，用于获取目标路口以及相邻路口中的路口车辆状态；所述相邻路口为与所述目标路口具有相邻连通关系的路口；

第一相位获取模块，用于获取所述目标路口的历史相位切换记录和相位切换集合；所述相位切换集合包括一个或多个相位切换序列，每个相位切换序列包括至少两个按照切换顺序排列的相位；所述历史相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对所述目标路口中的路口信号标识进行有序排列所得到的组合；

第二相位获取模块，用于对所述相位切换集合中的所述一个或多个相位切换序列进行遍历，将遍历到的与所述历史相位切换记录相匹配的相位切换序列确定为目标相位切换序列，根据所述历史相位切换记录在所述目标相位切换序列中获取候选相位；

决策模块，用于根据所述路口车辆状态从所述候选相位中选取目标相位，根据所述目标相位对所述目标路口的路口信号标识进行控制。

12.根据权利要求11所述的方法，其特征在于，所述交通信号控制装置，包括：

第一相位确定单元，用于若所述历史相位切换记录中的末位相位的相位持续总时长等于时长阈值，则在所述目标相位切换序列中，将切换顺序位于所述历史相位切换记录后的第一个相位确定为候选相位；所述末位相位是指所述历史相位切换记录中具有最晚历史时间戳的相位；

第二相位确定单元，用于若所述历史相位切换记录中的末位相位的相位持续总时长小于所述时长阈值，则在所述目标相位切换序列中，将切换顺序位于所述历史相位切换记录后的第一个相位以及所述历史相位切换记录中的末位相位均确定为候选相位。

13.一种交通信号控制装置，其特征在于，包括：

状态获取模块，用于获取样本路口以及相邻路口中的样本路口车辆状态；所述相邻路口为与所述样本路口具有相邻连通关系的路口；

第一相位获取模块，用于获取所述样本路口的历史样本相位切换记录和样本相位切换集合；所述样本相位切换集合包括一个或多个样本相位切换序列，每个样本相位切换序列包括至少两个按照切换顺序排列的相位；所述历史样本相位切换记录包括至少两个历史时间戳对应的互不相同的相位；相位是指对所述样本路口中的路口信号标识进行有序排列所得到的组合；

第二相位获取模块，用于对所述样本相位切换集合中的所述一个或多个样本相位切换序列进行遍历，将遍历到的与所述历史样本相位切换记录相匹配的样本相位切换序列确定为目标相位切换序列，根据所述历史样本相位切换记录在所述目标相位切换序列中获取候选样本相位；

决策模块，用于将所述候选样本相位和所述样本路口车辆状态输入初始交通相位预测模型，通过所述初始交通相位预测模型从所述候选样本相位中选取目标样本相位，根据所述目标样本相位对所述样本路口的路口信号标识进行控制；

调整模块，用于获取由所述目标样本相位所控制的所述样本路口的更新路口车辆状态，根据所述更新路口车辆状态生成全局奖励函数，基于所述全局奖励函数对所述初始交通相位预测模型的网络参数进行调整，得到交通相位预测模型；所述交通相位预测模型用于预测目标路口对应的目标相位。

14.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-10任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-10任一项所述的方法。