CN113643543B

CN113643543B - 一种具有隐私保护的交通流控制方法、交通信号控制系统

Info

Publication number: CN113643543B
Application number: CN202111189603.7A
Authority: CN
Inventors: 梁予之; 陈易翔; 董文俊; 雷凯; 张良杰; 何晟; 闵江松
Original assignee: Peking University Shenzhen Graduate School; Kingdee Software China Co Ltd
Current assignee: Peking University Shenzhen Graduate School; Kingdee Software China Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-11
Anticipated expiration: 2041-10-13
Also published as: CN113643543A

Abstract

一种具有隐私保护的交通流控制方法、交通信号控制系统，其中的系统包括一个区域层控制器和多个本地层控制器，区域层控制器和本地层控制器均为一强化学习控制模型，区域层控制器协调控制区域中多个本地层控制器，本地层控制器对各自所在路口的交通信号灯的状态进行学习和控制，并间隔固定时间将各路口的车辆队列长度汇总反馈给区域层控制器。其中本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度反馈给区域层控制器，保证了没有任何一个控制器能够一一获得所有本地层控制器所辖路口的拥堵情况，只能得到混合后的数据，实现了隐私保护。

Description

一种具有隐私保护的交通流控制方法、交通信号控制系统

技术领域

本发明涉及交通信号控制技术领域，具体涉及一种具有隐私保护的交通流控制方法、交通信号控制系统。

背景技术

在世界上各大都市区、连接两都市间的高速公路，及汽车使用率高的地区，常会出现交通拥堵问题。交通拥堵问题指的是一种车多拥挤且车速缓慢的现象，通常在节假日或上下班高峰期等时刻出现。在我国，大部分城市均存在着交通拥堵问题。交通拥堵问题给人们的生活和工作带来了许多不便，影响了出行效率，降低了生活质量。

从大框架来看，解决交通拥堵问题的方法主要有扩宽道路、发展公共交通、收费、限行、优化交通信号控制等等。优化交通信号控制的方法是解决交通拥堵问题的一种有效手段。随着技术的发展，已经出现了很多基于强化学习的交通信号控制方法。一般来说基于强化学习的交通信号控制方法需要进行交通建模，可分为：宏观交通建模和微观交通建模。交通信号控制的状态描述可分为：基于信号灯的状态和基于车辆的状态。建立好上述模型后，就可以建立全局拥堵因子，然后基于全局拥堵因子对交通信号进行控制。

为了更有效地进行交通信号的控制，同一区域中各个路口的交通信号控制器需要进行协同合作，难以避免的是多个交通信号控制器之间的信息交流、共享。然而在考虑协同合作时还应当考虑到隐私保护问题，在某些情况下路口中车辆的流量情况不能被广泛传播，在协调控制交通信号的时候应当保证没有任何一个交通信号控制器能够获得所有交通信号控制器所辖路口的拥堵情况。

发明内容

本申请提供一种具有隐私保护的交通流控制方法、交通信号控制系统和计算机可读存储介质，旨在缓解交通拥堵的同时，满足隐私保护的要求。

根据第一方面，一种实施例中提供一种具有隐私保护的交通流控制方法，应用于交通信号控制系统，所述交通信号控制系统包括一个区域层控制器和多个本地层控制器，所述区域层控制器和所述本地层控制器均为一强化学习控制模型；

所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值为其所在路口的车辆队列长度的负值；

所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值为所有本地层控制器所在路口的车辆队列长度的平均值的负值；

所述交通流控制方法包括：

所述本地层控制器获取其所在路口的车辆队列长度，并据此向其所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；然后获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练；

每过t分钟，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器；

所述区域层控制器接收所述平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器；

所述本地层控制器接收所述区域层控制器发送的贪婪系数作为其新的贪婪系数，然后继续对其所在路口的交通信号灯进行控制；

t分钟后，所述区域层控制器接收到所述本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练；

其中，所述所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器，包括：

将所有的N个本地层控制器按照0，1，2，…，N-1的编号排序，每两个相邻的本地层控制器为一个集合，令j=1，执行以下步骤：

所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，其中k取所有非负整数且

；

对于所有编号为2jk的本地层控制器，若其接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度

，则将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

；若没有接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度

，则不更新，其中i表示本地层控制器的编号；

令j=2*j，若此时对任意的k都不存在编号为2jk + j的本地层控制器，则执行下一步骤，否则继续执行上述步骤，直至对任意的k都不存在编号为2jk + j的本地层控制器为止，从而最终使编号为0 的本地层控制器的车辆队列长度为所有本地层控制器所在路口的平均车辆队列长度；

编号为0 的本地层控制器将其车辆队列长度发送给所述区域层控制器。

根据第二方面，一种实施例中提供一种具有隐私保护的交通流控制方法，应用于本地层控制器，所述本地层控制器为一强化学习控制模型，所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值与其所在路口的车辆队列长度成反比，所述交通流控制方法包括：

获取所述本地层控制器所在路口的车辆队列长度，并据此向所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；

获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练；

每过t分钟，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给区域层控制器，所述区域层控制器为一强化学习控制模型；

接收所述区域层控制器发送的贪婪系数作为新的贪婪系数，然后继续对所在路口的交通信号灯进行控制；

t分钟后，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给所述区域层控制器，以使所述区域层控制器根据平均车辆队列长度计算奖励值，进行一次强化学习的训练；

其中，所述与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给区域层控制器，包括：

将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；

将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；

依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度；

若判断自身为最后一个接收控制器，则将所述平均车辆队列长度发送给区域层控制器。

根据第三方面，一种实施例中提供一种具有隐私保护的交通流控制方法，应用于区域层控制器，所述区域层控制器为一强化学习控制模型，所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值与所有本地层控制器所在路口的车辆队列长度的平均值成反比，所述本地层控制器为一强化学习控制模型；所述交通流控制方法包括：

每过t分钟，接收所有本地层控制器所在路口的平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器，其中，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所述平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器；

t分钟后，接收所述本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练；

依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度，将其发送给所述区域层控制器。

根据第四方面，一种实施例中提供一种交通信号控制系统，包括一个区域层控制器和多个本地层控制器，所述区域层控制器和所述本地层控制器均为一强化学习控制模型；

所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值与其所在路口的车辆队列长度成反比；

所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值与所有本地层控制器所在路口的车辆队列长度的平均值成反比；

所述本地层控制器用于获取其所在路口的车辆队列长度，并据此向其所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；然后获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练；并且，每过t分钟，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器；

所述区域层控制器用于接收所述本地层控制器发送的所述平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器，以使所述本地层控制器更新其贪婪系数；并在t分钟后，接收所述本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练；

根据第五方面，一种实施例中提供一种计算机可读存储介质，所述计算机可读存储介质包括程序，所述程序能够被处理器执行以实现如上述第二方面或第三方面所述的交通流控制方法。

依据上述实施例的具有隐私保护的交通流控制方法、交通信号控制系统和计算机可读存储介质，由于采用了分层的强化学习控制结构，通过一个区域层控制器协调控制区域中多个本地层控制器，本地层控制器对各自所在路口的交通信号灯的状态进行学习和控制，并间隔固定时间将各路口的车辆队列长度进行汇总反馈给区域层控制器，区域层控制器据此对各本地层控制器的贪婪系数进行调整，从而能够调整本地层控制器的探索倾向，调节各本地层控制器之间争夺最大通畅程度的矛盾，避免因为有本地层控制器占据了优势使其所在路口的车流顺畅但导致整体拥堵的情况。同时本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度反馈给区域层控制器，保证了没有任何一个控制器能够一一获得所有本地层控制器所辖路口的拥堵情况，只能得到混合后的数据，实现了隐私保护。

附图说明

图1为一种实施例中交通信号控制系统的结构示意图；

图2为一种实施例的树状通讯算法的示意图；

图3为一种实施例的具有隐私保护的交通流控制方法的流程图；

图4为一种实施例的树状通讯算法的流程图；

图5为另一种实施例的具有隐私保护的交通流控制方法的流程图；

图6为另一种实施例的树状通讯算法的流程图；

图7为又一种实施例的具有隐私保护的交通流控制方法的流程图；

图8为又一种实施例的树状通讯算法的流程图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接（联接）。

在介绍本发明技术方案之前，先对现有技术进行介绍。本发明属于一种多代理强化学习的交通信号控制（Multi-Agent Reinforcement Learning-Traffic SignalControl）方法，在多代理强化学习的交通信号控制中，技术人员为每个交通信号控制器设计一个独立的强化学习控制模型。下面对几种多代理强化学习的交通信号控制方法进行介绍。

最初的TC-1、TC-2和TC-3方法将道路状况传感器置于交通信号控制器和车辆中，每一个红绿灯周期自主学习制定信号切换时间，最终在一个有3 x 2个路口的道路网络中取得了比固定时间控制法更好的效果。随后又出现了在TC-1上进行改进的TC-SBC、TC-GAC、TC-SBA和TC-SBAC方法，尽管这些方法在一定程度上解决了复杂路况下的交通拥堵问题，但由于对环境变量过于细致的考量，都没能在大规模环境下获得实践。

在另一种方法中，则对路况问题进行了简化：将每个路口的状态简化为平均车辆等待时长，将每个路口可以执行的控制动作简化为红绿灯的时间占比。最终在含有50个路口的模型上取得了较好的结果。然而尽管该方法可以应用在更大的道路网络中，它依然存在如下缺陷：每个路口都独立地进行决策，以获得本地最优的结果。而考虑到相邻的路口之间的决策结果会相互影响，某一路口获得最优解后往往会导致其它路口难以获得良好的解，最终导致整体上控制效果较差。对于这种最优解冲突问题，技术人员提出了两大类解决方案：协调的强化学习与分层级的强化学习。

协调的强化学习包括使用集成奖励（collaborative reward）作为强化学习的奖励的策略。如SoilseC方法将多个与之相邻的控制器奖励（如它们的通畅程度）汇总成集成奖励，作为本地控制器的优化目标，每一个强化学习模型都根据集成奖励来制定自己的策略。这样的协调方式可以取得一定的作用，但是由于每个控制器的奖励都与多个控制器的奖励有关，在策略调整时可能缺乏针对性，最终或有可能导致模型收敛慢。

此外，协调的强化学习还包括基于信息交流的强化学习，如Max-Plus方法和MARLIN-ATSC方法。这两者都允许控制器之间相互交流，后者比前者更受欢迎，其原因在于它只让直接相邻的控制器之间交流，这样的协调策略需要考虑计算的复杂性和信息传输的实时性，在实际操作中相对复杂。

分层级的强化学习则将整个模型分为两个层次：本地层和区域层。本地层包括各个独立的路口控制器，而多个地理上邻近的路口控制器归由一个区域控制器进行调控，后者则属于区域层。区域层控制器和本地层控制器均为一强化学习控制模型。其中，本地层控制器基于自己所在路口的路况控制路口的交通信号变化，而区域层控制器接收本地层的路况信息对本地层控制器进行调控。具体而言，区域层控制器会将每个本地层控制器设置为三种状态中的一种，三种状态包括：无限制，半限制和全限制。每种状态规定了本地层控制器可以采取的控制动作集合。这种策略可以实现各个本地层控制器之间的协调运作，但是需要每个本地层控制器将各自路口的路况信息上传至区域层控制器，这样一来区域层控制器就获得了所有路口的路况信息，无法满足隐私保护的要求，且一定程度上耗费不少时间。

在另一种分层级的强化学习中，本地层控制器是强化学习模型而区域层控制器则使用长短时间记忆模型（LSTM，Long Short Time Memory）。这种方法中，需要由LSTM模型接收本地层控制器传入的信息，进行交通流的预测，并找到最优的联合控制策略，下发给本地层控制器执行。同样地，这种方法也无法满足隐私保护的要求。

可以看到，现有技术中，在进行交通信号控制的同时考虑隐私保护的方法较少。不同控制器在进行协调合作时，需要进行信息的交流、共享，如果没有信息则无法合作，而信息过于充分则又会导致隐私暴露或者传输时间长无法满足实时性的问题。在分层级的强化学习中，为了实现隐私保护，本地层要向区域层传递更少的信息，则区域层在直观上来看，就会对本地层有更少的了解，进而其所能做的控制也更为少和粗略，甚至可能因为难以把握问题核心而不起任何作用。针对这一矛盾，申请人发现区域层需要的仅仅是整体的平均拥堵情况即可。

为了能够在缓解交通拥堵的同时满足隐私保护的要求，本发明提供一种具有隐私保护的交通流控制方法和交通信号控制系统。请参考图1，本发明的交通信号控制系统采用分层级的结构，分为区域层和本地层，系统主要包括两部分：区域层控制器1和本地层控制器2。每个控制器都是一个强化学习控制模型，例如可以是Q-学习模型。本地层包含多个本地层控制器2，每个本地层控制器2用于控制各自所在路口的红绿灯信号时间，并在控制的同时接收各自所在路口拥堵状况的反馈，据此进行学习，对自己的控制方案进行调整，以缩短所在路口经过车辆的平均等待时间。本地层控制器2调控、学习一段时间后，将各自所在路口的车辆队列长度进行汇总，得到所有路口的平均车辆队列长度并反馈给区域层控制器1。区域层控制器1则以其所辖所有路口的平均车辆队列长度为输入，协调所辖的各个路口的本地层控制器2，使后者相互协作，以缩短所有路口的平均车辆队列长度。此外，为了保护各个路口的数据隐私且加快数据传递速度，提出了一种树状的信息传递结构，称之为树状通讯算法，用在本地层控制器2向区域层控制器1传输数据的过程中，以实现隐私保护，提高数据传输效率。

本发明中采用路口的车辆队列长度衡量路口的拥堵程度，车辆队列长度可以通过设置于路口的摄像头或者地感线圈等交通传感器获得。如上文所述，区域层需要的仅仅是整体的平均拥堵情况即可，而所有路口的平均车辆队列长度能够反映整体的平均拥堵情况，因此实际上区域层控制器1不需要一一获得每个路口的车辆队列长度，只需获得所有路口的平均车辆队列长度即可。

本地层控制器2将其所在路口的车辆队列长度作为其状态空间；将各个方向放行的占比时间离散化，然后将增加或减少一个单位的某一方向放行的占比时间作为动作空间，例如本地层控制器2输出的动作可以是增加或减少一个单位的东西方向放行或南北方向放行的占比时间；奖励值则与其所在路口的车辆队列长度成反比，例如可以是车辆队列长度的负值。

本地层控制器2实时地对其所在的路口的交通信号进行调控，并不断地获取反馈进行学习，通过交通传感器获取其所在路口的车辆队列长度，并据此向其所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间，缩短车辆队列长度，从而减少车辆的等待时间；然后获取调整后路口的车辆队列长度，计算奖励值，进行一次强化学习的训练。每经过t分钟的调控和学习后，所有本地层控制器2通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器2中得到所有本地层控制器2所在路口的平均车辆队列长度，该本地层控制器2将平均车辆队列长度发送给区域层控制器1。在一种实施例中，t可以取10。

区域层控制器1将所有本地层控制器2所在路口的车辆队列长度的平均值作为状态空间；将各本地层控制器2的贪婪系数离散化，然后将增加或减少一个单位的本地层控制器2的贪婪系数作为动作空间；奖励值与所有本地层控制器2所在路口的车辆队列长度的平均值成反比，例如可以是所有本地层控制器2所在路口的车辆队列长度的平均值的负值。

区域层控制器1接收到本地层控制器2发送的平均车辆队列长度后，据此对各个本地层控制器2的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器2，以使本地层控制器2更新其贪婪系数。t分钟后，区域层控制器1再次接收到本地层控制器2发送的平均车辆队列长度，据此计算奖励值，进行一次强化学习的训练，改进自己对于本地层控制器2的贪婪系数的调整策略。

在强化学习模型中，贪婪系数控制着模型是倾向于进行“探索”还是倾向于进行“利用”。如果强化学习模型选择“利用”，则会使用已知的最好、能获得最大奖励的动作，但是这会失去潜在的探索得到更好的策略的机会；如果选择“探索”，则会使用一种随机的动作，这样便有机会观察这个特定动作的效益。在一般的强化学习中，贪婪系数会随时间的推移自动递减。而在本发明中，本地层控制器2在不停地学习如何给出本地的最优交通信号控制策略，而区域层控制器1有权利更改本地层控制器2的“探索”倾向性。由于各个本地层控制器2之间为了争夺各自最优的控制策略，可能存在此消彼长的竞争问题，区域层控制器1被用于调节本地层控制器2之间的矛盾。具体而言，当有本地层控制器2占据了优势使它所在路口的车流顺畅，但导致整体拥堵时，区域层控制器1能及时发现并增加该本地层控制器2的贪婪系数，使该本地层控制器2更换新的控制策略，缓解整体拥堵的问题。

在树状通讯算法中，本地层控制器2按照树的结构传递信息，具体为：将所有本地层控制器2划分为若干集合，每个集合中预定一个本地层控制器2作为第一轮接收控制器，集合中的其他本地层控制器2将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器2所在路口的平均车辆队列长度，将其发送给区域层控制器1。树可以是二叉树、三叉树或多叉树等，对应的集合中可以有两个、三个或更多个本地层控制器2，下面以二叉树为例对树状通讯算法进行进一步说明。

如图2所示，在使用二叉树的树状通讯算法中，每两个相邻的本地层控制器2为一个集合，首先将所有的N个本地层控制器2按照0，1，2，…，N-1的编号排序，令j=1，然后所有本地层控制器2按以下步骤执行：所有编号为2jk + j的本地层控制器2，将自己的车辆队列长度发送给对应编号2jk的本地层控制器2，即此时编号2jk的本地层控制器2为接收控制器，其中k取所有非负整数且

；对于所有编号为2jk的本地层控制器2，若其接收到来自编号为2jk + j的本地层控制器2发送的车辆队列长度

，则将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

，若不存在对应的编号为2jk + j的本地层控制器2

，则没有接收到来自编号为2jk + j的本地层控制器2发送的车辆队列长度

，则不更新，其中i表示本地层控制器2的编号；令j=2*j，若此时对任意的k都不存在编号为2jk + j的本地层控制器2

，则执行下一步骤，否则继续执行上述步骤，直至对任意的k都不存在编号为2jk + j的本地层控制器2为止，最终编号为0 的本地层控制器2为最后一个接收控制器，其车辆队列长度为所有本地层控制器2所在路口的平均车辆队列长度；编号为0 的本地层控制器2将其车辆队列长度发送给区域层控制器1。图2中用6个本地层控制器2作为示例，并不代表本地层控制器2只能是6个。

可以看到，使用树状通讯算法使得信息被有层次地混合，保证了没有任何一个控制器能够一一获得所有本地层控制器2所辖路口的拥堵情况，只能得到混合后的数据，实现了隐私保护。同时，只需要由其中一个本地层控制器2向区域层控制器1传输平均车辆队列长度，减少了数据量，加快了数据传递速度。

在上述交通信号控制系统的基础上，本发明还提供一种具有隐私保护的交通流控制方法，请参考图3，一种实施例中该方法包括步骤110~160，下面具体说明。

步骤110：本地层控制器实时获取其所在路口的车辆队列长度，并据此向其所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间，缩短车辆队列长度，从而减少车辆的等待时间，例如调整东西方向或南北方向放行的占比时间。车辆队列长度可以通过设置于路口的摄像头或者地感线圈等交通传感器获得。

步骤120：本地层控制器获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练。奖励值与车辆队列长度成反比，例如可以是车辆队列长度的负值。

步骤130：每过t分钟，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将平均车辆队列长度发送给区域层控制器。

在树状通讯算法中，本地层控制器按照树的结构传递信息，具体为：将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度，将其发送给区域层控制器。树可以是二叉树、三叉树或多叉树等，对应的集合中可以有两个、三个或更多个本地层控制器，下面以二叉树为例对树状通讯算法进行进一步说明。

请参考图2和图4，在使用二叉树的树状通讯算法中，每两个相邻的本地层控制器为一个集合，首先将所有的N个本地层控制器按照0，1，2，…，N-1的编号排序，令j=1，然后所有本地层控制器按以下步骤执行：

步骤131：所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，即编号2jk的本地层控制器为接收控制器，其中k取所有非负整数且

。

步骤132：对于所有编号为2jk的本地层控制器，由于可能不存在对应的编号为2jk + j的本地层控制器

，此时并没有接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度

，因此需要进行判断，若其接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度

，则执行步骤133，否则执行步骤134。其中i表示本地层控制器的编号。

步骤133：将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

。

步骤134：保持原有的车辆队列长度

，不进行更新。

步骤135：令j=2*j，判断此时对任意的k是否都不存在编号为2jk + j的本地层控制器

，若是则执行步骤136，否则返回步骤131。

步骤136：此时编号为0 的本地层控制器为最后一个接收控制器，其车辆队列长度为所有本地层控制器所在路口的平均车辆队列长度，编号为0 的本地层控制器将其车辆队列长度发送给区域层控制器。

下面继续介绍步骤140~160。

步骤140：区域层控制器接收本地层控制器发送的平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器。

步骤150：本地层控制器接收区域层控制器发送的贪婪系数作为其新的贪婪系数，然后继续对其所在路口的交通信号灯进行控制。

步骤160：t分钟后，区域层控制器再一次接收到本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练，改进自己对于本地层控制器的贪婪系数的调整策略。

请参考图5，另一种实施例中的具有隐私保护的交通流控制方法包括步骤210~290，该方法应用于本地层控制器，下面具体说明。

步骤210：获取所在路口的车辆队列长度，并据此向所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间，缩短车辆队列长度，从而减少车辆的等待时间，例如调整东西方向或南北方向放行的占比时间。车辆队列长度可以通过设置于路口的摄像头或者地感线圈等交通传感器获得。

步骤220：获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练。奖励值与车辆队列长度成反比，例如可以是车辆队列长度的负值。

步骤230：每过t分钟，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度。

步骤240：判断自身是否为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，若是则执行步骤250，否则直接执行步骤260。

步骤250：将平均车辆队列长度发送给区域层控制器。

步骤260：接收区域层控制器发送的贪婪系数作为新的贪婪系数，然后继续对所在路口的交通信号灯进行控制。

步骤270：t分钟后，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度。

步骤280：判断自身是否为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，若是则执行步骤290，否则不执行步骤290。

步骤290：将平均车辆队列长度发送给区域层控制器，以使区域层控制器根据平均车辆队列长度计算奖励值，进行一次强化学习的训练。

其中步骤230~250和步骤270~290涉及树状通讯算法，在树状通讯算法中，本地层控制器按照树的结构传递信息，具体为：将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度；若本地层控制器判断自身为最后一个接收控制器，则将平均车辆队列长度发送给区域层控制器。树可以是二叉树、三叉树或多叉树等，对应的集合中可以有两个、三个或更多个本地层控制器，下面以二叉树为例对树状通讯算法进行进一步说明。

请参考图2和图6，在使用二叉树的树状通讯算法中，每两个相邻的本地层控制器为一个集合，首先将所有的N个本地层控制器按照0，1，2，…，N-1的编号排序，令j=1，然后按以下步骤执行：

步骤211：所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，即编号2jk的本地层控制器为接收控制器，其中k取所有非负整数且

。

步骤212：对于所有编号为2jk的本地层控制器，由于可能不存在对应的编号为2jk + j的本地层控制器

，则执行步骤213，否则执行步骤214。其中i表示本地层控制器的编号。

步骤213：将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

。

步骤214：保持原有的车辆队列长度

，不进行更新。

步骤215：令j=2*j，判断此时对任意的k是否都不存在编号为2jk + j的本地层控制器

，若是则执行步骤216，否则返回步骤211。

步骤216：此时编号为0 的本地层控制器为最后一个接收控制器，其车辆队列长度为所有本地层控制器所在路口的平均车辆队列长度，判断自身是否为编号为0 的本地层控制器，若是则执行步骤217，否则不执行步骤217。

步骤217：将自身的车辆队列长度发送给区域层控制器。

请参考图7，另一种实施例中的具有隐私保护的交通流控制方法包括步骤310~320，该方法应用于区域层控制器，下面具体说明。

步骤310：每过t分钟，接收所有本地层控制器所在路口的平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器，其中，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到平均车辆队列长度，该本地层控制器将平均车辆队列长度发送给区域层控制器。

请参考图2和图8，在使用二叉树的树状通讯算法中，每两个相邻的本地层控制器为一个集合，首先将所有的N个本地层控制器按照0，1，2，…，N-1的编号排序，令j=1，然后所有本地层控制器按以下步骤执行：

步骤311：所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，即编号2jk的本地层控制器为接收控制器，其中k取所有非负整数且

。

步骤312：对于所有编号为2jk的本地层控制器，由于可能不存在对应的编号为2jk + j的本地层控制器

，则执行步骤313，否则执行步骤314。其中i表示本地层控制器的编号。

步骤313：将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

。

步骤314：保持原有的车辆队列长度

，不进行更新。

步骤315：令j=2*j，判断此时对任意的k是否都不存在编号为2jk + j的本地层控制器（即

），若是则执行步骤316，否则返回步骤311。

步骤316：此时编号为0 的本地层控制器为最后一个接收控制器，其车辆队列长度为所有本地层控制器所在路口的平均车辆队列长度，编号为0 的本地层控制器将其车辆队列长度发送给区域层控制器。

下面继续介绍步骤320。

步骤320：t分钟后，再一次接收到本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练，改进自己对于本地层控制器的贪婪系数的调整策略。

依据上述实施例的具有隐私保护的交通流控制方法和交通信号控制系统，由于采用了分层的强化学习控制结构，通过一个区域层控制器协调控制区域中多个本地层控制器，本地层控制器对各自所在路口的交通信号灯的状态进行学习和控制，并间隔固定时间将各路口的车辆队列长度进行汇总反馈给区域层控制器，区域层控制器据此对各本地层控制器的贪婪系数进行调整，从而能够调整本地层控制器的探索倾向，调节各本地层控制器之间争夺最大通畅程度的矛盾，避免因为有本地层控制器占据了优势使其所在路口的车流顺畅但导致整体拥堵的情况。同时本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度反馈给区域层控制器，保证了没有任何一个控制器能够一一获得所有本地层控制器所辖路口的拥堵情况，只能得到混合后的数据，实现了隐私保护。

本发明的技术方案与SoilseC方法相比，SoilseC 使用集成奖励，每个控制器的奖励都是多个（与之相邻的）控制器的平均通畅情况，在策略调整时可能缺乏针对性；而本发明的技术方案中，高层（区域层）对下层（本地层）有调配权，可以对下层的某一或某多个控制器进行有针对性的调控。

分层级的强化学习与本发明类似，都是两层的分层结构，且两层均为强化学习模型。但是本发明中高层（区域层）对下层（本地层）的调整在于调整下层的强化学习的探索倾向，而分层级的强化学习则是调整下层的可选的动作空间，这在一定程度上限制了后者对本地交通流的控制能力，与分层级的强化学习相比，本发明的技术方案具有更高的自由度。同时，由于采用了树状通讯算法，本发明中区域层控制器不会单独获得任何一个本地层控制器所在路口的拥堵情况，而是只知道总体的平均拥堵情况，提升了数据隐私的安全性。

本文参照了各种示范实施例进行说明。然而，本领域的技术人员将认识到，在不脱离本文范围的情况下，可以对示范性实施例做出改变和修正。例如，各种操作步骤以及用于执行操作步骤的组件，可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现（例如一个或多个步骤可以被删除、修改或结合到其他步骤中）。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外，如本领域技术人员所理解的，本文的原理可以反映在计算机可读存储介质上的计算机程序产品中，该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用，包括磁存储设备（硬盘、软盘等）、光学存储设备（CD至ROM、DVD、Blu Ray盘等）、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器，使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行，这样存储在计算机可读存储器中的指令就可以形成一件制造品，包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上，从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程，使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

虽然在各种实施例中已经示出了本文的原理，但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。

前述具体说明已参照各种实施例进行了描述。然而，本领域技术人员将认识到，可以在不脱离本披露的范围的情况下进行各种修正和改变。因此，对于本披露的考虑将是说明性的而非限制性的意义上的，并且所有这些修改都将被包含在其范围内。同样，有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而，益处、优点、问题的解决方案以及任何能产生这些的要素，或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体，皆属于非排他性包含，这样包括要素列表的过程、方法、文章或设备不仅包括这些要素，还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外，本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。

具有本领域技术的人将认识到，在不脱离本发明的基本原理的情况下，可以对上述实施例的细节进行许多改变。因此，本发明的范围应仅由权利要求确定。

Claims

1.一种具有隐私保护的交通流控制方法，应用于交通信号控制系统，其特征在于，所述交通信号控制系统包括一个区域层控制器和多个本地层控制器，所述区域层控制器和所述本地层控制器均为一强化学习控制模型；

所述交通流控制方法包括：

；

，则将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

，则不更新，其中i表示本地层控制器的编号；

2.一种具有隐私保护的交通流控制方法，应用于本地层控制器，其特征在于，所述本地层控制器为一强化学习控制模型，所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值与其所在路口的车辆队列长度成反比，所述交通流控制方法包括：

3.如权利要求2所述的交通流控制方法，其特征在于，所述将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为最后一个接收控制器，则将所述平均车辆队列长度发送给区域层控制器，包括：

；

，则将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

，则不更新，其中i表示本地层控制器的编号；

若判断自身为编号为0 的本地层控制器，则将其车辆队列长度发送给所述区域层控制器。

4.一种具有隐私保护的交通流控制方法，应用于区域层控制器，其特征在于，所述区域层控制器为一强化学习控制模型，所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值与所有本地层控制器所在路口的车辆队列长度的平均值成反比，所述本地层控制器为一强化学习控制模型；所述交通流控制方法包括：

5.如权利要求4所述的交通流控制方法，其特征在于，所述将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度，将其发送给所述区域层控制器，包括：

；

，则将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

，则不更新，其中i表示本地层控制器的编号；

6.一种交通信号控制系统，其特征在于，包括一个区域层控制器和多个本地层控制器，所述区域层控制器和所述本地层控制器均为一强化学习控制模型；

7.如权利要求6所述的交通信号控制系统，其特征在于，所述区域层控制器和所述本地层控制器均为一Q-学习模型。

8.如权利要求6所述的交通信号控制系统，其特征在于，所述本地层控制器将其所在路口的车辆队列长度取负值后作为奖励值；所述区域层控制器将所有本地层控制器所在路口的车辆队列长度的平均值取负值后作为奖励值。

9.如权利要求6至8中任一项所述的交通信号控制系统，其特征在于，所述将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度，将其发送给所述区域层控制器，包括：

；

，则将接收到的车辆队列长度

与自身的车辆队列长度

按以下方式取平均，作为自己新的车辆队列长度：

，则不更新，其中i表示本地层控制器的编号；

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求2至5中任一项所述的交通流控制方法。