CN113870589B

CN113870589B - 一种交叉路口信号灯及可变车道联合控制系统和方法

Info

Publication number: CN113870589B
Application number: CN202111032828.1A
Authority: CN
Inventors: 孙未未; 蒋骐泽
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2023-05-02
Anticipated expiration: 2041-09-03
Also published as: CN113870589A

Abstract

本发明属于智能交通技术领域，具体为一种交叉路口信号灯及可变车道联合控制系统和方法。本发明系统包括车道信息收集模块、交叉路口信号决策节点以及信号灯及可变车道控制指示模块；车道信息收集模块用于采集当前交叉路口及其相邻道路的交通数据；交叉路口信号决策节点收集并记录这些交通数据，结合历史数据记录，使用强化学习算法，训练得到信号决策策略；信号灯及可变车道控制指示模块从交叉路口信号决策节点获取交叉路口实时相位，并根据当前信号灯及可变车道指示，设置未来信号灯及可变车道指示。本发明系统可以根据路况变化对信号灯及可变车道实时联合控制，适用于不同岔路数的交叉路口，极大提升交叉路口车辆的通行效率。

Description

一种交叉路口信号灯及可变车道联合控制系统和方法

技术领域

本发明属于智能交通技术领域，具体涉及适用于不同岔路数交叉路口的信号灯及可变车道联合控制系统和方法。

背景技术

随着全国机动车保有量屡创新高，造成城市中的交通环境每况愈下，居民出行效率降低，社会资源被浪费。在人口密度高、市区面积广的超大型城市中，交通拥堵已经成为了影响城市居民生活质量、制约城市快速发展的重要原因之一。

随着电气化交通设施的普及，几乎每个路口都配备有交通信号灯。同时，在一些繁忙的路口，为了应对不同时刻车流方向不同的特点，使用了可变车道。可变车道为一些驶入路口的车道，在不同时间沿该车道驶入路口的车辆驶离路口方向不同。信号灯和可变车道对改善交通起到了一定效果，但是目前信号灯和可变车道的控制策略多为预先设置的切换时间，对于一个交叉路口的信号灯和可变车道配置难以用于其它岔路数不同的交叉路口中，同时信号灯和可变车道的控制相互独立。这些问题导致了目前的信号灯和可变车道控制策略无法最优化交叉路口的车辆通行效率。

发明内容

鉴于上述问题，本发明提供了一种交叉路口信号灯及可变车道联合控制系统和方法，以解决目前信号灯和可变车道算法不能根据实时车流进行信号灯切换，同时信号灯和可变车道的控制策略无法协同优化的缺陷。

本发明的一个方面提供了一种交叉路口信号灯及可变车道联合控制系统，该系统包括：车道信息收集模块，交叉路口信号决策节点，以及信号灯及可变车道控制指示模块；所述交叉路口信号决策节点一端与所述车道信息收集模块连接，另一端与所述信号灯及可变车道控制指示模块连接；其中：

所述车道信息收集模块，用于采集当前交叉路口及其相邻道路的交通数据，将交通数据按照不同车道划分，并传递给交叉路口信号决策节点；所述交通数据包括地磁线圈数据、道路交通摄像头数据、信号灯及可变车道相位数据；所述信号灯及可变车道相位为信号灯所指示的车道通行状态及可变车道所指示的可变车道通行方向；

所述交叉路口信号决策节点，包括：历史数据记录模块，信号决策模块；其中：

历史数据记录模块，用于收集并记录所述车道信息收集模块传递的交通数据，同时提供历史数据的查询；

信号决策模块，用于从所述历史数据记录模块和所述车道信息收集模块获取交通数据，使用强化学习算法，训练得到信号决策策略，计算选择交叉路口实时相位，并传递给信号灯及可变车道控制指示模块；

所述信号灯及可变车道控制指示模块，用于从所述交叉路口信号决策节点获取交叉路口实时相位，并根据当前信号灯及可变车道指示，设置未来信号灯及可变车道指示。

进一步地，所述车道信息收集模块，具体包括：数据获取单元，数据划分单元，车道特征融合单元；其中：

数据获取单元，用于采集当前交叉路口及其相邻道路的交通数据；数据获取单元包括交通摄像头、地磁感应器等；

数据划分单元，用于从所述数据获取单元获取交通数据，根据数据是否能够按车道划分，将数据分类为总体数据和车道数据两类；总体数据包含信号灯及可变车道相位数据，车道数据包含基于地磁感应器线圈数据和道路交通摄像头数据得到的每条车道的车辆数量，以及基于所述信号灯及可变车道相位数据得到的每条车道的通行状态和可变车道的通行方向；

车道特征融合单元，用于将车道数据按照不同车道进行划分，整合提取每个车道的数据特征，获得每条车道的车道交通状态数据，将总体数据和车道交通状态数据传递给所述交叉路口信号决策节点。

进一步地，所述历史数据记录模块，包括：历史数据存储单元，历史数据获取单元；其中：

历史数据存储单元，用于持续获取所述车道信息收集模块的总体数据和车道交通状态数据，将数据存储于存储介质中，并在存储介质剩余空间不足时移除低重要度历史数据；使用随机存取存储器和队列数据结构存储所述历史数据，保持队列中数据条目数恒小于等于队列最长长度k，当队列长度为k时，向队列尾部添加新数据时会同时移除队列首部相同数量的旧数据；

历史数据获取单元，用于从所述历史数据存储单元中，以均等概率随机取出指定数量的历史数据用于训练。

进一步地，所述信号决策模块，包括：策略存储单元，策略函数更新单元；其中：

策略存储单元，用于存储学习到的策略函数，使用随机策略初始化；

策略函数更新单元，用于所述策略存储单元中存储的策略函数，并获取所述历史数据记录模块中的历史数据，使用所述历史数据和强化学习方法训练策略函数；所述策略函数计算方法为，将所述车道交通状态数据作为所述策略存储单元中的神经网络输入时，根据车道在所选动作下是否可以通行将车道交通状态数据分为两组，并使用聚合函数将车道交通状态数据表示为两个车道组数据，将所述车道组数据和所述总体数据输入所述神经网络，得到累计动作奖励预测；所述强化学习算法为，基于所述历史数据记录模块中的历史数据，将所述历史数据作为所述策略函数的输入，得到输出的累计动作奖励，结合所述历史数据中的历史获得动作奖励，使用梯度下降方法训练所述策略函数的参数，使所述策略函数的累计动作奖励预测更接近真实值。

进一步地，所述信号灯及可变车道控制指示模块，包括：信号灯指示单元，可变车道指示单元；其中：

信号灯指示单元，用于对每条车道展示当前的通行状态，在接收到所述交叉路口相位选择模块选择的相位后，根据选择相位和当前相位是否相同，调整信号灯指示，使信号灯指示从当前相位过渡到选择相位；具体地，若相位中车道通行状态和当前车道通行状态相同，则保持信号灯指示不变；若相位中车道通行状态和当前车道通行状态不同，所述信号灯指示单元会将当前可通行车道的信号灯指示改为黄灯一定时间，之后切换为相位中车道通行状态对应的信号灯指示；

可变车道指示单元，用于对每条可变车道展示当前的车道通行方向，在接收到所述交叉路口相位选择模块选择的相位后，根据选择可变车道相位和当前相位是否相同，调整可变车道指示，使可变车道指示从当前相位过渡到选择相位；具体地，若相位中可变车道方向和当前可变车道方向相同，则保持可变车道指示不变；若相位中可变车道方向和当前可变车道方向不同，所述可变车道指示单元会将可变车道指示改为禁止驶入一段时间，期间已在可变车道中的车辆可以保持原先通行方向继续通行，其他车辆禁止驶入，之后等待所有可变车道中的车辆驶离车道后，切换为相位中可变车道方向对应的可变车道指示。

另一方面，本发明还提供基于上述系统的交叉路口信号灯及可变车道联合控制方法，包括：

(1)从交叉路口及其相邻道路获取交通数据，将数据分为可按车道划分的车道数据和不可按车道划分的总体数据分为两组；对于所述车道数据，按照车道对数据划分，对每个车道数据使用全连接神经网络结构，根据每个车道的数据计算车道交通状态表示，作为车道交通状态数据；其中：

所述全连接神经网络的结构为，对于每个车道数据，其向量表示为X，所述车道交通状态表示Y的计算公式如下：

Y＝WX+b， (1)

其中，W和b是所述全连接神经网络结构中可学习的参数；所有车道的所述车道交通状态表示集合为Y＝{Y₁，Y₂，…，Y_N}；其中N为车道总数。

(2)基于所述总体数据和车道交通状态数据，使用所述历史数据记录模块存储数据，并基于所述策略存储单元中初始化的随机策略，采用强化学习方法训练策略，获得信号灯和可变车道的策略函数；其中：

所述策略存储单元中的策略函数为一个神经网络，以当前路口的状态数据s＝{M，Y}和选择的路口相位a作为输入，输出累计动作奖励的预测Q(s，a)，其计算公式如下：

G₁＝{Y_i|i∈路口相位a允许通行的车道}，G₂＝{V_j|j∈路口相位a不允许通行的车道}， (2)

A₁＝Aggregate(G₁)，A₂＝Aggregate(G₂)， (3)

其中，M为所述车道信息收集模块输出的总体数据，Y_i为车道i的所述车道交通状态数据，G₁为路口相位a允许通行车道的交通状态数据集合，G₂为路口相位a不允许通行车道的交通状态数据集合，Aggregate为聚合函数，A₁为所述G₁使用聚合函数得到的车道数据集合的表示，A₂为所述G₂使用聚合函数得到的车道数据集合的表示，W和b为全连接神经网络的可学习参数，

为将向量进行拼接的运算符；其中，聚合函数可以为最大值函数、平均值函数、最小值函数或注意力机制函数。

进一步，所述策略存储单元中所述强化学习方法训练策略包括：将所述数据输入所述策略函数，策略函数输出不同交叉路口相位下预测的累计动作奖励，其计算公式如下：

其中，Q为所述策略函数，Q^*为最优策略函数，s₀为当前路口的状态数据，a₀为当前选择的路口相位，γ为折旧系数，r_i为从状态s₀选择路口相位a₀，然后采取最优策略依次选择路口相位a_i，在第i次交互时获得的动作奖励；

其中，最优策略为使所述最优策略函数最大化的策略；折旧系数γ∈[0，1]越大，策略函数越关注长时间下的动作奖励，反之越关注短时间内的动作奖励；动作奖励r用于表示当前交叉路口的通行状态，数值越大表明通行状态越好，可以使用交叉路口车辆平均速度、通过交叉路口的车辆数目、交叉路口总车辆数量取反作为动作奖励；策略更新的目标是使所述策略函数输出结果尽可能逼近所述最优策略函数Q^*的结果；

所述策略函数更新单元根据所述历史数据中采取的动作和得到的动作奖励，对所述策略更新，提升策略预测准确度，然后将更新后的策略存储于所述策略存储单元中，其更新公式如下：

Q′(s，a)＝(1-LR)·Q(s，a)+LR·(r+γmax_a′Q(s′，a′))， (6)

其中，Q为所述策略函数，s为当前路口的状态数据，a为当前选择的路口相位，γ为折旧系数，LR为策略函数学习率，r为得到的动作奖励，s′为在路口状态s、执行动作a后转移到的新路口状态，a′为路口状态s′下能够最大化策略函数预测值的路口相位，Q′为经过一次训练后新的策略函数；

所述策略函数Q预测该路口状态s和路口相位a下获得的累计动作奖励R，并基于历史数据中记录的r对策略函数进行训练，使策略函数能够更准确的预测；其中α越大，则策略函数的一次训练更新幅度也就越大；

(3)交叉路口相位选择单元获取所述策略存储单元中的策略函数及所述车道信息收集模块的总体数据和车道交通状态数据，将所述总体数据和车道交通状态数据输入至训练完成的策略函数，得到交叉路口的信号灯及可变车道选择的相位。

其中，选择最大化所述策略函数动作奖励的相位作为交叉路口可变车道选择的相位；具体的选择公式如下：

a^*＝argmax_a Q(s，a)， (7)

其中，Q为所述策略函数，s为当前路口的总体数据和车道交通状态数据，a为当前可以选择的路口相位，a^*为能够使所述策略函数Q最大的路口相位，并传递给所述信号灯及可变车道控制指示模块。

从所述策略存储单元中的策略函数计算公式可以看出，由于将所述车道交通状态数据集合进行分组，并使用聚合函数得到车道集合的表示，该方法适用于任意数量的车道作为输入，因此所述信号灯及可变车道联合控制方法可以用于不同岔路数和车道结构的交叉路口。

附图说明

图1为本发明提出的信号灯及可变车道联合控制系统的结构示意图。

图2为部署了本发明提出的信号灯及可变车道联合控制系统的四岔交叉路口示意图。

具体实施方式

下面结合具体实例和附图进一步说明本发明。

图1为本发明提出的信号灯及可变车道联合控制系统的结构示意图，系统包括车道信息收集模块，交叉路口信号决策节点，以及信号灯及可变车道控制指示模块；所述交叉路口信号决策节点一端与所述车道信息收集模块连接，另一端与所述信号灯及可变车道控制指示模块连接。

图2为部署了本发明提出的信号灯及可变车道联合控制系统的四岔交叉路口示意图。普通驶入车道201，预先标明从该车道驶入路口时可以驶向哪个方向；可变车道202，在车道两边用短斜线表示，从该车道驶入路口的方向由可变车道指示单元203标明；在所有驶入车道首端和末端安装有地磁线圈204，用于感应车辆驶入驶出并计数；在每条驶入路口的车道末端同时安装有信号灯指示单元205和交通摄像头206；在道路旁安装有所述交叉路口信号决策节点207。

其中，所述车道信息收集模块包括数据获取单元，数据划分单元和车道特征融合单元。所述数据获取单元包括地磁线圈和交通摄像头，采集交叉路口每条驶入车道上的车辆数目n＝{n₀，n₁，…，n_N}，以及当前信号灯和可变车道的相位a＝{p，v|p∈P，v∈V}；其中N＝12为总驶入车道数量，P＝{东西直行，东西左转，南北直行，南北左转}为所有信号灯相位，V＝{左转，直行}为所有可变车道相位，p为当前采用的信号灯相位，v为当前采用的可变车道相位。所述数据划分单元将当前信号灯和可变车道的相位a作为总体数据M，并通过当前信号灯和可变车道的相位a计算得到每条车道当前的通行状态g_i和每条可变车道当前的朝向x_i，结合每条驶入车道上的车辆数目n_i，得到每个车道的数据X_i＝{g_i，x_i，n_i}。所述车道特征融合单元使用全连接神经网络结构，将车道数据X_i融合为车道交通状态数据Y_i，其公式为：Y_i＝WX_i+b，其中W为大小16×3的矩阵，b为长度16的向量，W和b的参数使用随机实数初始化，并可以使用梯度下降方法进行训练更新。所述车道信息收集模块最终将所述总体数据M和每条车道的车道交通状态数据Y＝{Y₁，Y₂，…，Y_N}传递至所述交叉路口信号决策节点。

其中，所述交叉路口信号决策节点与所述车道信息收集模块和所述信号灯及可变车道控制指示模块连接，包括历史数据记录模块，用于收集并记录所述车道信息收集模块传递的交通数据，同时提供历史数据的查询；和信号决策模块，用于从所述历史数据记录模块和所述车道信息收集模块获取交通数据，使用强化学习算法，训练得到信号决策策略，计算选择交叉路口实时相位，并传递给信号灯及可变车道控制指示模块。

所述历史数据记录模块包含历史数据存储单元和历史数据获取单元。所述历史数据存储单元由一个队列数据结构Q组成，每次从所述车道信息收集模块收集到信息s＝{M，Y}后，将信息加入队列末尾；同时若队列中元素个数超过预设最大长度k_max＝5000，将队首的信息移出队列。所述历史数据获取单元接受一个正整数i∈[0，k_max]作为输入，并随机输出一个历史数据集合

|G|＝i。

所述信号决策模块包括策略存储单元和策略函数更新单元。所述策略存储单元将策略函数存储于随机访问存储器中，所述策略函数以路口的状态数据s＝{M，Y}和选择的信号灯和可变车道相位a作为输入，预测的累计动作奖励R作为输出，其计算式如下：

M，Y＝s，

G₁＝{Y_i|i∈路口相位a允许通行的车道}，G₂＝{Y_j|j∈路口相位a不允许通行的车道}，

A₁＝average(G₁)，A₂＝average(G₂)，

其中，M为所述总体数据，Y为每条车道的车道交通状态数据，average函数为平均值函数；

为向量拼接运算符；W为大小34×1的矩阵，b为一个实数，W和b的参数使用随机实数初始化，并可以使用梯度下降方法进行训练更新。所述策略函数更新单元使用如下公式更新策略函数：

Q′(s，a)＝(1-LR)·Q(s，a)+LR·(r+γmax_a′Q(s′，a′))，

其中，Q为所述策略函数，s为所述历史数据中路口的状态数据{M，Y}，a为当前选择的路口相位，γ＝0.8为折旧系数，LR＝0.001为策略函数学习率，r为所述历史数据中得到的动作奖励，s′为在路口状态s、执行动作a后转移到的新路口状态，a′为路口状态s′下能够最大化策略函数预测值的路口相位，Q′为经过一次训练后新的策略函数。对策略函数完成训练后，基于所述策略函数选择信号灯和可变车道相位的方法为：

a^*＝argmax_a Q(s，a)，

其中，s＝{M，Y}为路口实时总体数据和每条车道的车道交通状态数据，a为所有可行信号灯和可变车道相位，a^*为能够使所述策略函数Q最大的信号灯和可变车道相位，并将a^*传递给信号灯及可变车道控制指示模块。

其中，所述信号灯及可变车道控制指示模块包括信号灯指示单元和可变车道指示单元。信号灯指示单元以信号灯相位p作为输入，并将p与当前采用的信号灯相位p₀进行比较。如果p＝p₀，则所述信号灯指示单元保持当前信号灯相位不变；否则信号灯指示单元会先将当前状态为可以通行的车道信号指示更改为黄灯并持续Δt_p＝3秒，然后将信号灯指示切换为输入信号灯相位p。可变车道指示单元以可变车道相位v作为输入，并将v与当前采用的可变车道相位v₀进行比较。如果v＝v₀，则所述可变车道指示单元保持当前可变车道相位不变；否则可变车道指示单元会先切换为禁止车辆驶入该车道的相位，目前已驶入可变车道的车辆保持其行驶方向不变，并持续Δt_v＝300秒，待经过Δt_v秒，且可变车道内已无车辆后，将可变车道指示切换为输入可变车道相位v。

将本具体实施例于CityFlow交通模拟器中测试，并使用中国上海部分路口和葡萄牙波尔图部分路口的车流数据进行测试。与目前主流信号灯及可变车道控制算法的测试结果比较如表1所示。

表1

上海数据集	小流量1	小流量2	小流量3	大流量1	大流量2	大流量3
							定时切换方法	1031.7	722.1	1058.8	3499.6	2340.8	4551.9
SOTL方法	195.4	84.6	209.8	2182.2	1221.8	3237.2
							强化学习方法	23.3	30.5	16.6	133.6	65.1	39.6
本发明	20.4	26.2	16.1	70.1	56.1	32.8
							波尔图数据集	小流量1	小流量2	小流量3	大流量1	大流量2	大流量3
定时切换方法	98.8	638.3	104.3	1753.8	3024.9	1810.7
							SOTL方法	59.6	218.1	58.0	477.7	2118.2	294.7
强化学习方法	23.5	61.5	23.5	209.1	1032.6	179.8
							本发明	23.4	49.9	24.3	104.9	706.6	95.2

其中表中数据为使用该方法在指定数据集测试时所有车辆通过路口的平均用时。其中所述定时切换方法为不考虑实际车流，仅依次切换信号灯和可变车道相位；所述SOTL方法为最出色的非强化学习智能信号灯控制方法之一，根据当前可以通行车道上车辆数量和不可以通行车道上车辆数量设定切换规则，进行信号灯和可变车道相位切换；所述强化学习方法为将所述车道信息收集模块中数据获取单元采集到的交通数据直接作为策略函数输入，同时策略函数使用全连接神经网络进行累计动作奖励预测的方法；所述本发明指所述信号灯及可变车道联合控制系统和方法，将数据进行分组，并在策略函数中使用聚合函数。在所有测试路口中，使用本具体实施例作为信号灯及可变车道控制方法时，车辆通过路口的平均耗时最短。

Claims

1.一种基于交叉路口信号灯及可变车道联合控制系统的信号灯及可变车道联合控制方法，其特征在于，

该系统包括车道信息收集模块、交叉路口信号决策节点以及信号灯及可变车道控制指示模块；所述交叉路口信号决策节点一端与所述车道信息收集模块连接，另一端与所述信号灯及可变车道控制指示模块连接；其中：

所述车道信息收集模块，用于采集当前交叉路口及其相邻道路的交通数据，将交通数据按照不同车道划分，并传递给交叉路口信号决策节点；所述交通数据包括地磁感应器线圈数据、道路交通摄像头数据、信号灯及可变车道相位数据；所述信号灯及可变车道相位为信号灯所指示的车道通行状态及可变车道所指示的可变车道通行方向；

所述历史数据记录模块，用于收集并记录所述车道信息收集模块传递的交通数据，同时提供历史数据的查询；

所述信号决策模块，用于从所述历史数据记录模块和所述车道信息收集模块获取交通数据，使用强化学习算法，训练得到信号决策策略，计算选择交叉路口实时相位，并传递给信号灯及可变车道控制指示模块；

所述信号灯及可变车道控制指示模块，用于从所述交叉路口信号决策节点获取交叉路口实时相位，并根据当前信号灯及可变车道指示，设置未来信号灯及可变车道指示；

所述车道信息收集模块，具体包括：数据获取单元，数据划分单元，车道特征融合单元；其中：

所述数据获取单元，用于采集当前交叉路口及其相邻道路的交通数据；数据获取单元包括交通摄像头、地磁感应器；

所述数据划分单元，用于从所述数据获取单元获取交通数据，根据数据是否能够按车道划分，将数据分类为总体数据和车道数据两类；总体数据包含信号灯及可变车道相位数据，车道数据包含基于地磁感应器线圈数据和道路交通摄像头数据得到的每条车道的车辆数量，以及基于所述信号灯及可变车道相位数据得到的每条车道的通行状态和可变车道的通行方向；

所述车道特征融合单元，用于将车道数据按照不同车道进行划分，整合提取每个车道的数据特征，获得每条车道的车道交通状态数据，将总体数据和车道交通状态数据传递给所述交叉路口信号决策节点；

所述信号决策模块，包括：策略存储单元，策略函数更新单元；其中：

所述策略存储单元，用于存储学习到的策略函数，使用随机策略初始化；

所述策略函数更新单元，用于策略存储单元中存储的策略函数，并获取所述历史数据记录模块中的历史数据，使用历史数据和强化学习方法训练策略函数；所述策略函数计算方法为，将所述车道交通状态数据作为所述策略存储单元中的神经网络输入时，根据车道在所选动作下是否可以通行将车道交通状态数据分为两组，并使用聚合函数将车道交通状态数据表示为两个车道组数据，将所述车道组数据和所述总体数据输入所述神经网络，得到累计动作奖励预测；所述强化学习算法为，基于历史数据记录模块中的历史数据，将历史数据作为策略函数的输入，得到输出的累计动作奖励，结合历史数据中的历史获得动作奖励，使用梯度下降方法训练策略函数的参数，使策略函数的累计动作奖励预测更接近真实值；

具体步骤为：

(1)从交叉路口及其相邻道路获取交通数据，将数据分为可按车道划分的车道数据和不可按车道划分的总体数据分为两组；对于车道数据，按照车道对数据划分，对每个车道数据使用全连接神经网络结构，根据每个车道的数据计算车道交通状态表示，作为车道交通状态数据；

(2)基于所述总体数据和车道交通状态数据，使用所述历史数据记录模块存储数据，并基于所述策略存储单元中初始化的随机策略，采用强化学习方法训练策略，获得信号灯和可变车道的策略函数；所述策略存储单元中的策略函数为一个神经网络；

(3)交叉路口相位选择模块获取所述策略存储单元中的策略函数及所述车道信息收集模块的总体数据和车道交通状态数据，将所述总体数据和车道交通状态数据输入至训练完成的策略函数，得到交叉路口的信号灯及可变车道选择的相位；

步骤(1)中所述全连接神经网络的结构为，对于每个车道数据，设其向量表示为X，所述车道交通状态表示Y的计算公式如下：

Y＝WX+b， (1)

其中，W和b是所述全连接神经网络结构中可学习的参数；所有车道的所述车道交通状态表示集合为Y＝{Y₁,Y₂,…,Y_N}；其中N为车道总数；

步骤(2)中所述策略存储单元中的策略函数为一个神经网络，以当前路口的状态数据s＝{M,Y}和选择的路口相位a作为输入，输出累计动作奖励的预测Q(s,a)，其计算公式如下：

G₁＝{Y_i|i∈路口相位a允许通行的车道},G₂＝{Y_j|j∈路口相位a不允许通行的车道}，(2)

A₁＝Aggregate(G₁),A₂＝Aggregate(G₂)， (3)

其中，M为所述车道信息收集模块输出的总体数据，Y_i为车道i的所述车道交通状态数据，G₁为路口相位a允许通行车道的交通状态数据集合，G₂为路口相位a不允许通行车道的交通状态数据集合，Aggregate为聚合函数，A₁为所述G₁使用聚合函数得到的车道数据集合的表示，A₂为所述G₂使用聚合函数得到的车道数据集合的表示，W和b为全连接神经网络的可学习参数，⊕为将向量进行拼接的运算符；其中，聚合函数为最大值函数、平均值函数、最小值函数或注意力机制函数；

所述策略存储单元中所述强化学习方法训练策略包括：将所述数据输入所述策略函数，策略函数输出不同交叉路口相位下预测的累计动作奖励，其计算公式如下：

其中，最优策略为使所述最优策略函数最大化的策略；折旧系数γ∈[0,1]越大，策略函数越关注长时间下的动作奖励，反之越关注短时间内的动作奖励；动作奖励r用于表示当前交叉路口的通行状态，数值越大表明通行状态越好；具体使用交叉路口车辆平均速度、通过交叉路口的车辆数目、交叉路口总车辆数量取反作为动作奖励；策略更新的目标是使所述策略函数输出结果尽可能逼近所述最优策略函数Q^*的结果；

Q′(s,a)＝(1-LR)·Q(s,a)+LR·(r+γmax_a′Q(s′,a′))， (6)

其中，Q为策略函数，s为当前路口的状态数据，a为当前选择的路口相位，γ为折旧系数，LR为策略函数学习率，r为得到的动作奖励，s′为在路口状态s、执行动作a后转移到的新路口状态，a′为路口状态s′下能够最大化策略函数预测值的路口相位，Q′为经过一次训练后新的策略函数；

所述策略函数Q预测该路口状态s和路口相位a下获得的累计动作奖励R，并基于历史数据中记录的r对策略函数进行训练，使策略函数能够更准确的预测；其中α越大，则策略函数的一次训练更新幅度也就越大。

2.根据权利要求1所述的联合控制方法，其特征在于，步骤(3)中选择最大化策略函数动作奖励的相位作为交叉路口可变车道选择的相位；具体选择公式如下：

a^*＝argmax_a Q(s,a)， (7)

3.根据权利要求1所述的联合控制方法，其特征在于，所述历史数据记录模块，包括：历史数据存储单元，历史数据获取单元；其中：

所述历史数据存储单元，用于持续获取车道信息收集模块的总体数据和车道交通状态数据，将数据存储于存储介质中，并在存储介质剩余空间不足时移除低重要度历史数据；使用随机存取存储器和队列数据结构存储所述历史数据，保持队列中数据条目数恒小于等于队列最长长度k，当队列长度为k时，向队列尾部添加新数据时同时移除队列首部相同数量的旧数据；

所述历史数据获取单元，用于从所述历史数据存储单元中，以均等概率随机取出指定数量的历史数据用于训练。

4.根据权利要求1所述的联合控制方法，其特征在于，所述信号灯及可变车道控制指示模块，包括：信号灯指示单元，可变车道指示单元；其中：

所述信号灯指示单元，用于对每条车道展示当前的通行状态，在接收到所述交叉路口相位选择模块选择的相位后，根据选择相位和当前相位是否相同，调整信号灯指示，使信号灯指示从当前相位过渡到选择相位；

所述可变车道指示单元，用于对每条可变车道展示当前的车道通行方向，在接收到所述交叉路口相位选择模块选择的相位后，根据选择可变车道相位和当前相位是否相同，调整可变车道指示，使可变车道指示从当前相位过渡到选择相位。