CN109615885A

CN109615885A - 一种智能交通信号控制方法、装置及系统

Info

Publication number: CN109615885A
Application number: CN201811615184.7A
Authority: CN
Inventors: 金峻臣; 吴越; 李瑶; 杨宪赞; 周浩敏; 郭海锋
Original assignee: Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co.,Ltd.
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-04-12
Anticipated expiration: 2038-12-27
Also published as: CN109615885B

Abstract

一种智能交通信号控制方法、装置及系统，构建了交通信号控制模型，交通信号控制模型采集交通状态数据，通过算法计算累积奖励函数值，形成多维的长期控制目标，交通信号控制模型具有记忆可以用于选择决策，输出最优控制指令，输出的最优控制指令用于信号控制，产生新的交通状态。本发明根据实时的交通状态，可自动生成最优控制指令，实现实时智能最优自适应信号控制。采用阈值字典排序方法处理多目标控制问题，让最优控制指令与目标的优先级相适应，提高信号控制的适用范围。

Description

一种智能交通信号控制方法、装置及系统

技术领域

本发明属于交通信号控制领域，涉及一种智能交通信号控制方法、装置及系统。

背景技术

随着全球范围内交通需求的增加，交通拥堵已经成为生活中的常见问题，城市道路的快速增长破坏了人类社会在能源效率和环境污染方面的可持续发展，城市交通引起的空气污染对健康和生活环境造成了严重的影响。因此，交通的问题需要考量不同维度的控制目标。

现代城市道路和高速公路的交通管控，广泛应用了各种不同的控制工具，其中城市交通信号是城市交通控制中一个至关重要的组成部分。现有信号控制方法多针对某一目标或基于某一路口进行优化，存在工程应用性差，难以实现全区域的、多维目标、便于调整控制目标的交通信号控制。

发明内容

针对上述背景技术介绍中存在的问题，本发明的目的在于提供一种智能交通信号控制方法、装置及系统，在结合城市全域交通状态条件下，可自动生成控制方案，实现实时智能自适应信号控制，有效缓解交通拥堵。

本发明采用的技术方案是：

一种智能交通信号控制方法,包括步骤：

采集交通状态数据、若干奖励函数、协调信息、控制指令集，输入已构建的交通信号控制模型，输出最优控制指令；

交通信号控制模型，包括若干奖励函数、一控制指令集、一转移概率、一协调信息，奖励函数以交通状态与控制指令为变量，控制指令集与协调信息相关联；

交通信号控制模型求解包括：

多目标决策步骤，获得若干个信号控制目标，信号控制目标为在未来时间段的积累奖励函数值最优，奖励函数值由所述奖励函数、转移概率计算获得，将控制目标转化为可迭代目标；

多目标控制步骤，在可迭代目标约束下，求解满足可迭代目标的最优控制指令。

进一步地，交通信号控制模型，具体为：

其中，i＝1,2,…,n^obj为奖励函数的数量，x为交通状态，u为控制指令，r_i(x,u) 为第i个奖励函数，π(x)为控制指令集，P(x^sub|x,u)∈[0,1]为给定交通状态x与控制指令u的后续交通状态x^sub的转移概率；c为协调信息；γ∈[0,1]为考虑重要性水平的折扣因子。

进一步地，多目标决策步骤，获得若干个信号控制目标，具体为：

将控制目标转化为可迭代目标，具体为：

Q^*(x_t,u_t)＝r(x_t,u_t)+γQ^*(x_t+1,u_t+1)

r(x_t,u_t)＝[r₁(x_t,u_t),r₂(x_t,u_t),...,r_n(x_t,u_t)]^T。

进一步地，多目标控制步骤，在可迭代目标约束下，求解满足可迭代目标的最优控制指令，具体为：

识别可迭代目标的优先级；

以最高优先级的积累奖励函数值最大为目标，求解获得最优控制指令：可迭代目标约束：s.t.其中，q^thre为预定义阈值向量；

求解的过程，具体为：

假设交通状态x_t，执行控制指令u_t，下一刻获得奖励r_t+1，交通状态演变为 x_t+1，满足关系：

Q_t+1(x_t,u_t)＝Q_t(x_t,u_t)+αδ_t(x_t,u_t)

δ_t(x_t,u_t)＝r_t+1+γQ_t(x_t+1,u_t+1)-Q_t(x_t,u_t)

其中，Q_t(x_t,u_t)和δ_t(x_t,u_t)分别表示累积奖励向量和时间差向量，α表示学习率；

初始化控制指令集合U，阈值-q^thre，空的可用控制指令集-U^avai；

搜索控制指令集U中的各个控制指令u，计算Q(x_t，u)，如果满足 Q(x_t，u)≥q^thre，则将该控制指令u加入可用控制指令集-U^avai，将令Q1最大值的以冒泡方式排到可用控制指令集的第一位，作为最优控制指令；如果在遍历控制指令集U后可用控制指令集U^avai仍为空，则从固定概率(0≤ε≤1)的所有控制指令中选择随机控制指令，作为最优控制指令

进一步地，采集交通状态数据，具体为：

其中，j＝1,2，...，n^int，l＝1,2，...，n^int表示交叉口的数量，表示入口车道数量，N_j，l，t表示t时刻与第j个交叉口相关联的第l车道上的车辆数，q_j，l，t表示同一车道t时刻前累积时间内的交通流量，所述前累积时间为5分钟。

进一步地，采集若干奖励函数，具体为：采集2个奖励函数，分别为

其中，表示第j个交叉口的入口车道数，表示在周期时长内第l车道交通流量的最大值和T_j，l，t表示第l车道当前周期时长内通过的车辆数，C_j,t表示当前运行的周期时长，表示在第j个交叉口被指定提供更高操作优先级的车道数集合。

进一步地，采集协调信息、控制指令集，具体为：

第j个交叉口的控制指令集变化量

满足条件：

s.t.Δg_j,m,t∈S^adj,

其中，表示第j个交叉口的相位数量，S^adj表示持续调整时间的集合，指的是监督控制器建议的第m个相位的绿灯时间，g_j,m,t，y_j,m,t和r_j,m,t分别表示第m个相位的绿灯时间，黄灯时间和全红时间，M是无穷大整数，Z+表示正整数的集合，协调信息δ表示如下：

进一步地，交通信号控制模型，还包括：设置初始奖励函数值步骤，初始奖励函数值通过预学习方式获得，具体步骤：

设置初始知识值为零，确定预学习的学习集的数量和每一集中的学习步骤的数量，设置不同的策略的奖励，学习集包括交通状态数据集；

引入监督控制器，监督控制器存有交通状态数据与控制指令集的对应关系；

每集中的一步学习过程从交通状态数据和奖励开始，得到的t+1时刻控制指令发送给监督控制器；

监督控制器基于存有的交通状态数据与控制指令集的对应关系，输出控制指令集；

更新累积知识值，如下：

Q_t+1(x_t,u_t)＝Q_t(x_t,u_t)+αδ_t(x_t,u_t)

δ_t(x_t,u_t)＝r_t+1+γQ_t(x_t+1,u_t+1)-Q_t(x_t,u_t)

不断重复此过程，直到学习完成所有学习集，获得最终的积累知识值，以最终的积累知识值为初始奖励函数值。

一种智能交通信号控制装置，包括交通状态获取单元、奖励函数生成单元、协调信息单元、初始知识生成单元、控制指令集单元、交通信号控制模型单元、最优控制指令输出单元，其中，

交通状态获取单元，获取初始交通状态数据并进行预处理；

初始知识生成单元，提供初始知识值；

奖励函数生成单元，提供一个或多个奖励函数；

协调信息单元，确定工作模式，所述工作模式包括协调模式、非协调模式；

控制指令集单元，根据协调信息单元确定的工作模式，生成可选择的控制指令集；

交通信号控制模型单元，存储有积累知识值，根据交通状态获取单元提供的交通状态数据、奖励函数单元提供的奖励函数、累积知识值、转移概率，计算获得知识优化目标；

在控制指令集单元提供的可选择的控制指令集中搜索，获得满足知识优化目标的最优控制指令集；

并更新积累知识值；

最优控制指令输出单元，输出交通信号控制模型单元提供的最优控制指令集。

一种智能交通信号控制系统，包括一总协调控制器和若干智能交通信号控制装置，其中，

总协调控制器，传输指令给所述智能交通信号控制装置，确定所述智能交通信号控制装置的工作模式、初始知识值、奖励函数；

交通状态获取单元，获取初始交通状态数据并进行预处理；

初始知识生成单元，接收总协调控制器传输的指令，提供初始知识值；

奖励函数生成单元，接收总协调控制器传输的指令，提供一个或多个奖励函数；

协调信息单元，接收总协调控制器传输的指令，确定工作模式，所述工作模式包括协调模式、非协调模式；

并更新积累知识值；

本发明与现有技术相比，其显著优点包括：(1)考虑多个维度的长期控制目标，根据实时的交通状态，可自动生成最优控制指令，实现实时智能最优自适应信号控制。(2)采用阈值字典排序方法处理多目标控制问题，让最优控制指令与目标的优先级相适应，提高信号控制的适用范围。

附图说明

图1为本发明实施例提供的Agent框架示意图。

图2为本发明实施例提供的预学习和自学习流程图。

图3为本发明实施例提供的阈值字典排序方法伪代码。

图4为本发明实施例提供的交叉口示意图。

图5为本发明实施例提供的交叉口相序示意图。

图6为本发明实施例提供的智能交通信号控制装置示意图。

图7为本发明实施例提供的智能交通信号控制系统示意图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

实施例1，一种智能交通信号控制方法,包括步骤：采集交通状态数据、若干个奖励函数、协调信息、控制指令集，输入已构建的交通信号控制模型，输出最优控制指令。

1)交通信号控制模型，参见图1，可以建模为Agent，建模信息如下所示：

交叉口独立运行时，即各路口之间不存在协调关系。即单Agent控制方法， Agent从各自的运行环境中获取交通状态和奖励函数值，形成自身累积奖励值。

交叉口协调运行时，即各路口之间存在协调关系，可通过通信单元模块，建立直接或者间接通信。即多Agent控制方法，Agent从各自的运行环境中获取交通状态和奖励函数值，结合协调交叉口Agent运行环境，形成自身累积奖励函数值。

将交叉口依据地理位置、交叉口结构、拥堵程度、交叉口重要性等原因区分定义关键交叉口和从属交叉口，关键交叉口可以为主干道交叉口或者相比较大流量路口。交叉口协调运行时，从属交叉口的信号控制策略受关键交叉口的信号控制策略影响。协调的交叉口周期时间应相同，且每一周期的启动时间应按照预先确定的协调方向进行适当的设置，使车辆行驶过程中可以不停车不间断地通过协调的交叉口。

交通信号控制模型通过输出最优控制指令，影响交通信号控制，作用于交通状态，产生新的交通状态，交通信号控制模型采集新的交通状态，通过算法计算累积奖励函数值，使交通信号控制模型具有记忆可以用于选择决策，输出最优控制指令。具体包括：

1.1)多目标决策步骤，多目标决策过程基于可约束马尔可夫决策过程，获得若干个信号控制目标，其中转移概率P(x^sub|x,u)、P(x_t+1|x_t,u_t)依据马尔可夫过程计算而来，信号控制目标为在未来时间段的积累奖励函数值最优，奖励函数值由奖励函数、转移概率计算获得，可表示为：

其中，(x₀,u₀)为初始交通状态和初始控制指令，P(x_t+1|x_t,u_t)为转移概率，γ∈[0,1]为折扣因子，更高的γ值给出了更高的重要性。

考虑长期信号控制的效果，优化积累奖励函数值，表示为：

用向量来表示：

类似等式(3)，最优累积奖励由如下(5)表示：

将控制目标转化为可迭代目标，根据处理多个目标的方法，向量的最大化计算广泛使用的方法是Pareto最优排序。由于在实际应用中获得多目标优化问题并不容易获得整个Pareto排序，因此一种简化的方法是找到一组近似于真实 Pareto排序的解。

可以使用方程递归求解:

Q^*(x_t,u_t)＝r(x_t,u_t)+γQ^*(x_t+1,u_t+1) (6)

r(x_t,u_t)＝[r₁(x_t,u_t),r₂(x_t,u_t),...,r_n(x_t,u_t)]^T (7)

1.2)多目标控制步骤，在可迭代目标约束下，求解满足可迭代目标最优的最优控制指令。

最优控制指令由公式表示：

其中，表示最高优先级的累积奖励，并且q^thre指的是对应于累积奖励的预定义阈值向量。向量q^thre中的第一个元素始终设置为负无穷大，而具有最高优先级的目标则不受约束。

基于时间差分的强化学习算法使用表格表示法将累积奖励存储到高维的连续状态操作系统。该强化学习算法，假设交通状态是x_t，在任意时间步长t执行控制指令u_t。下一时刻获得奖励r_t+1，其交通状态演变为u_t+1。更新积累奖励值：

Q_t+1(x_t,u_t)＝Q_t(x_t,u_t)+αδ_t(x_t,u_t) (10)

δ_t(x_t,u_t)＝r_t+1+γQ_t(x_t+1,u_t+1)-Q_t(x_t,u_t) (11)

其中，α表示学习率，Q_t(x_t,u_t)表示累积奖励向量，δ_t(x_t,u_t)表示时间差分向量。

利用阈值词典排序方法求解获得最优控制指令，参见图3：

初始化控制指令集合U，阈值q^thre，空的可用控制指令集U^avai；

搜索控制指令集U中的各个控制指令u，计算Q(xt，u)，如果满足 Q(x_t，u)≥q^thre，则将该控制指令u加入可用控制指令集U^avai，将令Q1为最大值的控制指令以冒泡方式排到可用控制指令集的第一位，作为最优控制指令；如果在遍历控制指令集U后可用控制指令集U^avai仍为空，则从固定概率(0≤ε≤1)的所有控制指令中选择随机控制指令，作为最优控制指令。

ε以确定的速率λ来衰减每一次过程。该情况表明系统性能不佳或阈值设置不合理，将挑选所有可用操作中的贪婪动作作为下一个动作。确定阈值的正确值需要一定的先验知识，因此在实际应用算法时需要对阈值设置进行灵敏度分析。

1.3)还可以包括，设置初始奖励函数值步骤，参见图2，在获取初始奖励函数值的基础上，多目标决策步骤中的信号控制目标可以表示为：

初始奖励函数值可以通过预先设置，也可以通过预学习方式获得，具体步骤：

设置初始知识值为零，确定预学习的学习集的数量和每一集中的学习步骤的数量，设置不同的策略的奖励，学习集包括交通状态数据集

监督控制器基于存有的交通状态数据与控制指令子集的对应关系，输出控制指令子集；

根据强化学习中时间差分算法，更新累积知识值；

不断重复此过程，直到学习完成所有学习集，获得最终的积累知识值，以最终的积累知识值为初始奖励函数值Qs。

2)采集交通状态数据，交通状态数据包括但不限于车速、流量、饱和度、拥堵指数等数据。

在一个实施方式中，流量是描述交叉口情况的常用指标，可以通过相机检测系统直接获得，环路检测器，即线圈或者地磁数据也可用于估计车流量。

其中，j＝1,2，...，n^int，l＝1,2，...，n^int表示交叉口的数量，表示入口车道数量，N_j，l，t表示与第j个交叉口相关联的第l车道中的车辆数，q_j，l，t表示同一车道前累积时间内的交通流量，所述前累积时间为5分钟。交通状态向量表示为：

3)采集若干个奖励函数，奖励函数反映不同的控制目标，可以根据需求进行采集选择。

在一个实施方式中，奖励函数的主要因素是车道容量与一个周期内排队车辆的数量之间的差异，可表示为：

其中表示第j个交叉口的入口车道数，表示在第l车道排队车辆的最大值和T_j，l，t表示第l车道当前周期(t)通过的车辆数，C_j,t表示当前运行的周期时长。

在一个实施方式中，奖励函数的设计与关键路口和协调相位对应的车道相关联，城市路网中，主干道路通常比其他道路具有更高的操作优先级。可以根据主干道路容量与一个周期内排队车辆的数量之间的差异，可表示为：

其中，为主干道集合。

在协调工作模式下，控制目标可以为所有交叉口奖励函数值的求和或加权求和。

参见图4、图5，三个相邻交叉节点组成的交通网络，交叉口分别定义为I1， I2和I3。交叉口均包含四个相位，以预先定义的相序运行。三个交叉口的交通信号控制模型均从交通环境中获取交通状态，计算奖励函数值，并根据不断更新的累积奖励函数值输出最优控制指令。

其中，I1是关键交叉口，而I2和I3是从属交叉口，周期时长由关键交叉口确定，关键交叉口与从属交叉口相互通信。交叉口I1，I2和I3的主要干道车道ID的集合是且

4)采集协调信息、控制指令集，控制指令可控制信息包括但不限于：相位顺序、绿灯时间、周期时长、绿信比等信息。

在一个实施方式中，以监督控制器建议的绿灯时间调整步长为控制指令的一个元素。监督控制器存有交通状态数据与控制指令集的对应关系，可以采用现有的信号控制逻辑器，或以预先设置的方式获得。

与第j个节点相关联的第m个相位的绿灯时间由定义的下限和上限限定。假设关键交叉口的索引为1，则第j个交叉口的控制指令定义为如下：

s.t.Δg_j，m，t∈S^adj (18)

其中，表示第j个节点的相位数量，S^adj表示持续调整时间的集合。指的是监督控制器建议的第m个相位的绿灯时间。g_j，m，t，y_j，m，t和r_j，m，t分别表示第 m个相位的绿灯时间，黄灯时间和全红时间。M是无穷大整数，Z+表示正整数的集合。δ表示：

根据采集的协调信息，确定是否处于协调模式，当处于协调模式时，从属交叉节点的周期时长被限制为与关键交叉节点的相同。

实施例2，参见图6，一种智能交通信号控制装置，包括交通状态获取单元、奖励函数生成单元、协调信息单元、初始知识生成单元、控制指令集单元、交通信号控制模型单元、最优控制指令输出单元。

交通状态获取单元，获取初始交通状态数据并进行预处理，初始交通状态数据可以通过其他交通检测系统、或数据库、或交通检测器获取。

奖励函数生成单元，提供一个或多个奖励函数。奖励函数与每一时段的交通状态和控制指令相关，通过多个时段奖励函数的累积，可以反映长期的多维信号控制目标。

初始知识生成单元，提供初始知识值。可以根据奖励函数的数量提供一个或多个初始知识值。可以采用预设值的方式或预学习方式获得初始知识值，预学习方式如下：

设置初始知识值为零，确定预学习的学习集的数量和每一集中的学习步骤的数量，设置不同的策略的奖励，学习集包括交通状态数据集；引入监督控制器，监督控制器存有交通状态数据与控制指令集的对应关系；每集中的一步学习过程从交通状态数据和奖励开始，得到的t+1时刻控制指令发送给监督控制器；监督控制器基于存有的交通状态数据与控制指令集的对应关系，输出控制指令集；根据强化学习中时间差分算法更新累积知识值；不断重复此过程，直到学习完成所有学习集，获得最终的积累知识值。

预学习结束后，在非协调模式下，智能交通信号控制器可以输出与监督控制器相同或相似的控制指令子集。

协调信息单元，确定工作模式，所述工作模式包括协调模式、非协调模式。处于协调模式时，与关键交叉口的智能交通信号控制装置进行通信，协调运行；处于非协调模式时，智能交通信号控制装置独立运行。

控制指令集单元，根据协调信息单元确定的工作模式，生成可选择的控制指令集；处于协调模式时，可选择的控制指令集接收关键交叉口的控制指令集的约束。

并更新积累知识值；

在一个实施方式中，智能交通信号控制装置的工作流程：

1、预先进行如下设置：

交通状态获取单元，与流量检测系统连接，每隔5分钟获取交通流量数据，进行预处理，获得交通状态数据x_t。

奖励函数生成单元，设置2个奖励函数r₁、r₂。

初始知识生成单元，设置2个初始知识值Q_s1、Q_s2，分别对应2个奖励函数 r₁、r₂。

协调信息单元，设置为协调模式，与关键交叉口的智能交通信号控制装置进行通信。

控制指令集单元，根据协调单元的协调模式，接收关键交叉口的控制指令 gg_m，t、yy_m，t、rr_m，t，生成可选择的控制指令集变化量进而输出可选择的控制指令集；

交通信号控制模型单元，以初始知识值Q_s1、Q_s2为积累知识值。

2、假设早上8:00时，作为t＝0，此时，初始知识单元、奖励函数生成单元、协调信息单元暂时不工作。

交通状态获取单元提供交通状态数据x₀；

控制指令集单元，根据协调单元的协调模式，接收关键交叉口的控制指令gg_m，0、yy_m，0、rr_m，0，生成可选择的控制指令集

交通信号控制模型单元，根据交通状态获取单元提供的交通状态数据、奖励函数单元提供的奖励函数、累积知识值、转移概率，计算获得知识优化目标

在控制指令集单元提供的可选择的控制指令集中搜索，获得满足积累知识优化目标的最优控制指令子集

更新积累知识值，

最优控制指令输出单元，输出

3、则8:05时，t＝1，重复8:00时的操作。

4、工作一段时间后，用户可以按需同时或不同时设置初始知识生成单元、奖励函数生成单元、协调信息单元。

实施例3，参见图7，一种智能交通信号控制系统，包括一总协调控制器和若干智能交通信号控制装置，其中，总协调控制器，可以通过有线或无线方式，传输指令给所述智能交通信号控制装置，确定所述智能交通信号控制装置的工作模式、初始知识值、奖励函数；智能交通信号控制装置采用实施例2中所述智能交通信号控制装置。

一个实施方式中，智能交通信号控制系统，包括1总协调控制器，3智能交通信号控制装置A1、A2、A3，分别位于交叉口I1、I2、I3处。总协调控制器识别出交叉口I1为关键交叉口，I2、I3为从属交叉口。总协调控制器传输指令，装置A1、A2、A3工作模式为协调模式，确定A1、A2、A3的关键-从属关系， A2、A3的周期时长被限制为与A1的相同。

Claims

1.一种智能交通信号控制方法,其特征在于：包括步骤：

所述交通信号控制模型，包括若干奖励函数、一控制指令集、一转移概率、一协调信息，所述奖励函数以交通状态与控制指令为变量，所述控制指令集与所述协调信息相关联；

所述交通信号控制模型求解包括：

多目标决策步骤，获得若干个信号控制目标，所述信号控制目标为在未来时间段的积累奖励函数值最优，所述奖励函数值由所述奖励函数、所述转移概率计算获得，将控制目标转化为可迭代目标；

多目标控制步骤，在可迭代目标约束下，求解满足所述可迭代目标的最优控制指令。

2.根据权利要求1所述的一种智能交通信号控制方法，其特征在于：所述交通信号控制模型，具体为：

[r₁(x,u),r₂(x,u),...,r_i(x,u),...,r_nobj(x,u),π(x)，P(x^sub|x,u),c,γ]

其中，i＝1,2,…,n^obj为奖励函数的数量，x为交通状态，u为控制指令，r_i(x,u)为第i个奖励函数，π(x)为控制指令集，P(x^sub|x,u)∈[0,1]为给定交通状态x与控制指令u的后续交通状态x^sub的转移概率；c为协调信息；γ∈[0,1]为考虑重要性水平的折扣因子。

3.根据权利要求2所述的一种智能交通信号控制方法，其特征在于：所述多目标决策步骤，获得所述若干个信号控制目标，具体为：

所述将控制目标转化为可迭代目标，具体为：

Q^*(x_t,u_t)＝r(x_t,u_t)+γQ^*(x_t+1,u_t+1)

r(x_t,u_t)＝[r₁(x_t,u_t),r₂(x_t,u_t),...,r_n(x_t,u_t)]^T。

4.根据权利要求1所述的一种智能交通信号控制方法，其特征在于：所述多目标控制步骤，在可迭代目标约束下，求解满足所述可迭代目标的所述最优控制指令，具体为：

识别所述可迭代目标的优先级；以最高优先级的积累奖励函数值最大为目标，求解获得所述最优控制指令：所述可迭代目标约束：其中，q^thre为预定义阈值向量；

所述求解的过程，具体为：

假设交通状态x_t，执行控制指令u_t，下一刻获得奖励r_t+1，交通状态演变为x_t+1，满足关系：

Q_t+1(x_t,u_t)＝Q_t(x_t,u_t)+αδ_t(x_t,u_t)

δ_t(x_t,u_t)＝r_t+1+γQ_t(x_t+1,u_t+1)-Q_t(x_t,u_t)

初始化控制指令集合U，阈值q^thre，空的可用控制指令集-U^avai；

搜索控制指令集U中的各个控制指令u，计算Q(x_t，u)，如果满足Q(x_t，u)≥q^thre，则将该控制指令u加入可用控制指令集U^avai，将令Q1最大值的以冒泡方式排到可用控制指令集的第一位，作为最优控制指令；如果在遍历控制指令集U后可用控制指令集U^avai仍为空，则从固定概率(0≤ε≤1)的所有控制指令中选择随机控制指令，作为最优控制指令

5.根据权利要求1所述的一种智能交通信号控制方法，其特征在于：所述采集交通状态数据，具体为：

6.根据权利要求5所述的一种智能交通信号控制方法，其特征在于：所述采集若干奖励函数，具体为：采集2个奖励函数，分别为

其中，表示第j个交叉口的入口车道数，表示在t时刻前的周期时长内第l车道最大的排队长度和T_j，l，t表示第l车道t时刻前周期时长内通过的车辆数，C_j，t表示当前运行的周期时长，表示在第j个交叉口被指定提供更高操作优先级的车道数集合。

7.根据权利要求6所述的一种智能交通信号控制方法，其特征在于：所述采集协调信息、控制指令集，具体为：

第j个交叉口的控制指令集的变化量

满足条件：

s.t.Δg_j,m,t∈S^adj,

其中，表示第j个交叉口的相位数量，S^adj表示持续调整时间的集合，指的是监督控制器建议的第m个相位的绿灯时间，g_j，m，t，y_j，m，t和r_j，m，t分别表示第m个相位的绿灯时间，黄灯时间和全红时间，M是无穷大整数，Z+表示正整数的集合，协调信息δ表示如下：

8.根据权利要求1所述的一种智能交通信号控制方法，其特征在于：所述交通信号控制模型，还包括：设置初始奖励函数值步骤，初始奖励函数值通过预学习方式获得，具体步骤：

更新累积知识值，如下：

Q_t+1(x_t,u_t)＝Q_t(x_t,u_t)+αδ_t(x_t,u_t)

δ_t(x_t,u_t)＝r_t+1+γQ_t(x_t+1,u_t+1)-Q_t(x_t,u_t)

9.一种智能交通信号控制装置，包括交通状态获取单元、奖励函数生成单元、协调信息单元、初始知识生成单元、控制指令集单元、交通信号控制模型单元、最优控制指令输出单元，其中，

所述交通状态获取单元，获取初始交通状态数据并进行预处理；

所述初始知识生成单元，提供初始知识值；

所述奖励函数生成单元，提供一个或多个奖励函数；

所述协调信息单元，确定工作模式，所述工作模式包括协调模式、非协调模式；

所述控制指令集单元，根据协调信息单元确定的工作模式，生成可选择的控制指令集；

所述交通信号控制模型单元，存储有积累知识值，根据交通状态获取单元提供的交通状态数据、奖励函数单元提供的奖励函数、累积知识值、转移概率，计算获得知识优化目标；

并更新积累知识值；

所述最优控制指令输出单元，输出交通信号控制模型单元提供的最优控制指令集。

10.一种智能交通信号控制系统，包括一总协调控制器和若干智能交通信号控制装置，其中，

所述总协调控制器，传输指令给所述智能交通信号控制装置，确定所述智能交通信号控制装置的工作模式、初始知识值、奖励函数；

所述一种智能交通信号控制装置，包括交通状态获取单元、奖励函数生成单元、协调信息单元、初始知识生成单元、控制指令集单元、交通信号控制模型单元、最优控制指令输出单元，其中，

所述初始知识生成单元，接收总协调控制器传输的指令，提供初始知识值；

所述奖励函数生成单元，接收总协调控制器传输的指令，提供一个或多个奖励函数；

所述协调信息单元，接收总协调控制器传输的指令，确定工作模式，所述工作模式包括协调模式、非协调模式；

并更新积累知识值；