CN103177589A

CN103177589A - 基于演化博弈的交通信号周期自适应控制方法

Info

Publication number: CN103177589A
Application number: CN2013101398098A
Authority: CN
Inventors: 余春艳; 李建明; 吴丽丽
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2013-04-22
Filing date: 2013-04-22
Publication date: 2013-06-26
Anticipated expiration: 2033-04-22
Also published as: CN103177589B

Abstract

本发明设计了一种基于演化博弈的交通信号周期自适应控制方法，将演化博弈理论应用于交通信号自适应控制中，充分考虑了交通流和信号控制的动态特性，建立了信号灯自适应控制模型，应用于解决当前区域城市交通号灯控制的问题。该方法是一种完全分布式的控制方法，可以很好的解决交通系统的不确定性、随机性、非线性、局部性等特点，此外，相对于其他一些智能算法的应用，该方法的结构简单，性能稳定，具有良好的可修改性和可扩展性。

Description

基于演化博弈的交通信号周期自适应控制方法

技术领域

本发明涉及智能交通技术领域，特别是一种基于演化博弈的交通信号周期自适应控制方法。

背景技术

随着社会经济的不断发展，城市交通拥堵问题日益严重。城市交通控制系统作为智能交通系统的一个重要子系统，一直是研究的热点。由于交通系统具有复杂性，不确定性，时变性以及非线性等特点，现有的控制技术难以有效对其进行控制。随着科技的不断进步，采用新的控制理论和方法设计出先进的城市交通信号控制系统，改善交通控制效果，是当前智能交通控制研究的重点。

交通系统是典型的复杂系统，是城市交通设施与参与者之间共同作用的成果，难以用数学模型进行描述。交通信号控制问题可以诠释为交叉口之间的决策问题。通常利用博弈论求解多个交叉口之间的冲突、协调和竞争问题，但该理论难以描述实际系统的动态特性，且要求每个交叉口都是理性的参与者。针对经典博弈论存在的缺陷，演化博弈理论从有限理性的博弈参与人出发，不要求在完全信息下进行决策，认为交叉口不是行为最优化者，交叉口之间的决策是通过交叉口之间的模仿、学习和突变等动态过程实现的，非常适合用于描述交通系统的动态特性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于演化博弈的交通信号周期自适应控制方法，相对于其他一些智能算法的应用，该方法的结构简单，性能稳定，具有良好的可修改性和可扩展性。

本发明采用以下方案实现：

一种基于演化博弈的交通信号周期自适应控制方法，其特征在于：采用两层递阶分布式结构，上层是区域控制层，下层是路口控制层；区域控制层主要负责每个时段周期和相位差的优化，路口控制层则负责在每一周期内绿信比的优化；所述的基于演化博弈的交通信号周期自适应控制方法按如下过程进行：

S1：在时段内的每个周期结束前的若干秒，根据实时检测的路网交通流量数据以及路口参数信息和预测信息，优化得到下一周期路口使用的绿信比；

S2：在每一个时段的最后一个周期，通过前面若干个周期采集到的路网交通流量数据，优化得到下一个时段内区域共用的周期和相位差；

S3：各路口根据过程S1、S2得到的配时方案，配置运行。

在本发明一实施例中，所述过程S1中绿信比的优化方法指在时段内的每个周期结束前的若干秒，根据实时检测的路网交通流量数据和预测信息，以基于演化博弈的优化方法得到下一周期路口使用的绿信比，具体步骤如下：

S21:演化的每一时期t，从单交叉路口的所有相位中随机挑选两个相位进行有限次数的博弈，并确定相位的博弈收益值u_t；

S22：重复步骤S21直到两个相位之间达到最大的博弈次数MaxNum，并计算使用纯策略s_i的相位的平均博弈收益值

S23：确定相位选择纯策略s_i的增长率，并更新演化下一时期采用纯策略s_i的相位在单交叉路口的所有相位中所占的比例；

S24：重复上述步骤S22至S23，直至单交叉路口的所有相位达到演化稳定策略或者演化终止代数；

S25：根据步骤S24的结果配置单交叉路口各相位的绿灯时长，转到步骤S22。

在本发明一实施例中，所述的博弈收益值u_t指第t时期，相位在博弈开始前对各种可能的纯策略带来的收益的一种预测，选择一个周期内单交叉路口平均延误时长的预测值倒数作为博弈收益值，即：，其中，n1为单交叉路口相位总数；d_it为第t时期单交叉路口第i个相位由Webster方法计算得到的延误值，延误值d=(c(1-λ)²)/(2(1-λx))+x²/(2q(1-x))-0.65(c/q²)^1/3x^2+5λ，其中c为周期时长，λ为绿信比，q为到达率，x为饱和度，x=q/(λs)，s表示驶出率；相位在博弈之初，遵循以下规则预测下一周期采用某个纯策略获得的收益值，其中，纯策略s_i指交叉路口上的一个合理有效的配时方案；相位若选择纯策略s₁，那么纯策略s₁中绿灯所对应相位上的绿灯时长延长△t_ex(△t_ex>0)，纯策略s₁中红灯所对应相位上的绿灯时长增加△t_ex′(△t_ex′<0)，并满足(n-1)*|△t_ex′|=△t_ex；同理可得相位选择纯策略s₂,s₃,...,s_n的预测收益值u(s₂),u(s₃),...,u(s_n)；这里通过多次观测统计历史数据的平均值来预测单交叉路口下一周期内车流量。

在本发明一实施例中，所述的确定相位选择纯策略s_i的增长率，并更新演化下一时期采用纯策略s_i的相位在单交叉路口的所有相位中所占的比例的方法如下：在演化时期t使用纯策略s_i的相位集合用X_t(s_i)表示，在演化时期t使用纯策略s_i的相位在单交叉路口的所有相位中所占比例，其中n2表示该单交叉路口可选策略的个数，在演化时期t单交叉路口的所有相位的平均收益

{\overset{&OverBar;}{u}}_{t} = Σ_{i = 1}^{n 2} θ_{t} (s_{i}) {\overset{&OverBar;}{u}}_{t} (s_{i})

，相位选择纯策略s_i的增长率

{\overset{\cdot}{θ}}_{t} (s_{i}) = θ_{t} (s_{i}) [θ_{t} (s_{i}) - {\overset{&OverBar;}{u}}_{t}] .

在本发明一实施例中，所述过程S2的实现方式是：每个时段起始，首先Webster方法确定干线的共同周期，并在所述过程S1的基础上确定单交叉路口绿信比，然后采用RDOC方法进行优化，并将所获得的最优相位差可行方案应用于交通干线系统；具体的控制步骤下:

S51：初始化时段包含N₀个周期,p=0；

S52：当p=N₀，确定干线的共同周期和交叉口绿信比；根据当前的交通需求，应用RDOC方法优化相邻交叉口之间的相位差，最后根据所得的方案调整当前干线上相邻交叉口之间的相位差；

S53：第p个周期结束，p=p+1；若p>N₀,p=0；返回步骤S52。

在本发明一实施例中，所述RDOC方法的具体实现步骤如下：

S61：初始化，在可行解空间中随机挑选K个不重复的候选相位差可行方案作为第一代；

S62：相位差可行方案的收益计算；在交通干线系统中，通过计算相位差可行方案的收益值来判断相位差可行方案适应当前动态交通需求的程度；相位差可行方案的收益通过(U_max-D)计算得到，其中U_max为一个相对较大的数，D表示整个交通干线总延误；

S63：计算相位差可行方案的增长率，然后根据相位差可行方案增长率大小进行排序，选取最大增长率的相位差可行方案配置当前交通需求的交通干线系统的相位差；

S64：若此时演化代数达到规定最大演化代数T或者连续t′代所有单交叉路口的平均收益之差不超过0.1，则演化结束；否则转入下一步骤；

S65：生成下一代；按照“优胜劣汰”的自然选择机制，将上一代的K个不重复的相位差可行方案按相位差可行方案增长率排序，并确定要淘汰的相位差可行方案数量K′；从可行解空间中随机挑选K′个不重复的候选相位差可行方案替代上一代淘汰的相位差可行方案，并将增长率最高的相位差可行方案直接复制到下一代，然后根据相位差可行方案的增长率用轮盘赌选择生成下一代；这里要注意的是，所挑选K′个不重复的相位差可行方案也必须与上一代中K个相位差可行方案不同；转到步骤S61。

在本发明一实施例中，所述的交通干线相位差可行方案指对于一个由n个交叉口组成的交通干线系统，其含有的优化相位差个数为

为从交叉口c_i下行至交叉口c_i+1东西直行相位上c_i+1相对于c_i的相位差,T表示交通干线共同周期；

所有可能采取行动的集合记为A(m)，其中m为行动的个数，定义下行所有

随机选择的行动构成的行动组合称为交通干线相位差可行方案；所述的可行解空间指所有可行行动组合的集合,记为X，并满足

，且X_i∩X_j=φ.i,j∈{1,2,...,mⁿ}。

在本发明一实施例中，所述的交通干线总延误

D = Σ_{i = 2}^{n} α_{i} {delay}_{id} + (1 - α_{i}) {delay}_{id}^{'} + Σ_{i = 1}^{n - 1} β_{i} {delay}_{iu} + (1 - β_{i}) {delay}_{iu}^{'}

，其中n表示该交通干线有n个路口，delay_(i+1)d=0.5q_dτ_d(τ_d+t₁)，delay′_(i+1)d=0.5q_dτ′_d ²+q_dτ′_d(t_r-τ′_d)+0.5t′_dτ′_dq_d，q_d表示交通干线下行的交通量，τ_d表示从车流头部行至交叉口J_i+1受阻开始直至交叉口J_i+1红灯结束的时长，

表示第i+1个交叉口对第i个交叉口的相位差，l_i表示第i+1个交叉口与第i个交叉口间的距离，v_d表示交通干线下行的车速，T表示交通干线共同周期，t₁表示交叉口某相位绿灯开启后，该相位路口累积的车辆全部疏散所需要的时长，t₁=q_dτ_d/(C-q_d)，C表示交叉口绿灯时间内相位最大通行能力，τ′_d表示车流中第一辆车遇红灯受阻开始直到车流中的最后一辆车到该交叉口所需要的时长，

，t′_d=q_dτ′_d/C，t_r表示一个周期内的红灯时长，delay_(i+1)u=0.5q_uτ_u(τ_u+t_u)，delay′_(i+1)u=0.5q_uτ_u′²+q_uτ_u′(t_r-τ_u′)+0.5t_u′τ_u′q_u，q_u表示交通干线上行的交通量，τ_u表示从车流头部行至交叉口J_i受阻开始直至交叉口J_i红灯结束的时长，

表示第i个交叉口对第i+1个交叉口的相位差，

，c为周期时期时长，v_u表示交通干线上行的车速，t_u=q_uτ_u/(C-q_u)，τ_u′表示车流中第一辆车遇红灯受阻开始直到车流中的最后一辆车到该交叉口所需要的时长，

，t_u′=q_uτ_u′/C，如果

则α_i为1，反之α_i为0，如果

，则β_i为1，反之β_i为0。

在本发明一实施例中，所述相位差可行方案的增长率的计算方法如下：在演化的第t代，相位差可行方案X_i收益为u_t(X_i)，用P_t(X_i)度量在时期t使用相位差可行方案X_i的集合；用

表示在时期t使用X_i在演化第t代的全部相位差可行方案中所占份额，n表示演化第t代中包含的相位差可行方案的个数；用状态变量θ_t表示这一比例构成的向量，则可得在时期t群体中平均收益

，相位差可行方案X_i的增长率

{\overset{\cdot}{θ}}_{t} (X_{i}) = θ_{t} (X_{i}) [u_{t} (X_{i}) - {\overset{&OverBar;}{u}}_{t}] .

本发明设计一种基于演化博弈的交通信号周期自适应控制方法，将演化博弈理论应用于交通信号灯控制中，充分考虑了交通流和信号灯控制的动态特性，建立了自适应信号灯控制模型，应用于解决城市信号控制的协调问题。该方法是一种分布式的控制方法，可以很好的解决交通系统的不确定性、随机性、非线性、局部性等特点，此外，相对于其他一些智能算法的应用，该方法的结构简单，性能稳定，具有良好的可修改性和可扩展性。

附图说明

图1是本发明实施例的交通信号灯控制示意图。

图2是信号灯控制流程示意图。

图3是RDOC方法流程。

具体实施方式

本实施例提供一种基于演化博弈的交通信号周期自适应控制方法，其特征在于：采用两层递阶分布式结构，上层是区域控制层，下层是路口控制层；区域控制层主要负责每个时段周期和相位差的优化，路口控制层则负责在每一周期内绿信比的优化；所述的基于演化博弈的交通信号周期自适应控制方法按如下过程进行：

S3：各路口根据过程S1、S2得到的配时方案，配置运行。

请参考图1和图2及图3，本发明基于演化博弈的交通信号周期自适应控制优化方法，具体过程如下：

1、在时段内的每个周期结束前的若干秒，根据实时检测的路网交通流量数据和预测信息，优化得到下一周期路口使用的绿信比。具体步骤如下：

⑴演化的每一时期t，从单交叉路口的所有相位中随机挑选两个相位进行有限次数的博弈，并确定相位的博弈收益u_t。第t时期，博弈收益值u_t指相位在博弈开始前对各种可能的纯策略带来的收益的一种预测，选择一个周期内单交叉路口平均延误时长的预测值倒数作为博弈收益值，即：

，其中，n1为单交叉路口相位总数；d_it为第t时期单交叉路口第i个相位由Webster方法计算得到的延误值，延误值d=(c(1-λ)²)/(2(1-λx))+x²/(2q(1-x))-0.65(c/q²)^1/3x^2+5λ，其中c为周期时长，λ为绿信比，q为到达率，x为饱和度，x=q/(λs)，s表示驶出率。相位在博弈之初，遵循以下规则预测下一周期采用某个纯策略获得的收益值，纯策略s_i指交叉路口上的一个合理有效的配时方案。相位若选择纯策略s₁，那么s₁纯策略中绿灯所对应相位上的绿灯时长延长△t_ex(△t_ex>0)，s₁纯策略中红灯所对应相位上的绿灯时长增加△t_e′_x(△t_e′_x<0)，并满足(n-1)*|△t_e′_x|=△t_ex。同理可得相位选择纯策略s₂,s₃,...,s_n的预测收益值u(s₂),u(s₃),...,u(s_n)。这里通过多次观测统计历史数据的平均值来预测单交叉路口下一周期内车流量。

⑵重复步骤（1）直到两个相位之间达到最大的博弈次数MaxNum，并计算使用纯策略s_i的相位的平均收益

⑶确定相位选择纯策略s_i的增长率，并更新演化下一时期采用纯策略s_i的相位在单交叉路口的所有相位中所占的比例的方法如下：在演化时期t使用纯策略s_i的相位集合用X_t(s_i)表示，那么在演化时期t使用纯策略s_i的相位在单交叉路口的所有相位中所占比例

，其中n2表示该单交叉路口可选策略的个数，在演化时期t单交叉路口的所有相位的平均收益

{\overset{&OverBar;}{u}}_{t} = Σ_{i = 1}^{n 2} θ_{t} (s_{i}) {\overset{&OverBar;}{u}}_{t} (s_{i})

，相位选择纯策略s_i的增长率

{\overset{\cdot}{θ}}_{t} (s_{i}) = θ_{t} (s_{i}) [θ_{t} (s_{i}) - {\overset{&OverBar;}{u}}_{t}] .

⑷重复上述步骤（2）至（3），直至单交叉路口的所有相位达到演化稳定策略或者演化终止代数。

⑸根据步骤（4）的结果配置单交叉路口各相位的绿灯时长，转到步骤（2）。

2、在每一个时段的最后一个周期，通过前面若干个周期采集到的路网交通流量数据，优化得到下一个时段内区域共用的周期和相位差。每个时段起始，首先确定Webster干线的共同周期，并在过程1的基础上确定单交叉路口绿信比，然后采用RDOC方法进行优化，并将所获得的最优相位差可行方案应用于交通干线系统。具体的控制步骤下:

⑴初始化时段包含N₀个周期,p=0。

⑵当p=N₀，确定干线的共同周期和交叉口绿信比。根据当前的交通需求，应用RDOC方法优化相邻交叉口之间的相位差，最后根据所得的方案调整当前干线上相邻交叉口之间的相位差。

⑶第p个周期结束，p=p+1。若p>N₀,p=0。返回步骤(2)。

其中RDOC方法通过如下具体步骤实现：

1)初始化。在可行解空间中随机挑选K个不重复的候选相位差可行方案作为第一代。对于一个由n个交叉口组成的交通干线系统，其含有的优化相位差个数为为从交叉口c_i下行至交叉口c_i+1东西直行相位上c_i+1相对于c_i的相位差,T表示交通干线共同周期。

随机选择的行动构成的行动组合称为交通干线相位差可行方案。可行解空间即为所有可行行动组合的集合,记为X，并满足

，且X_i∩X_j=φ.i,j∈{1,2,...,mⁿ}。

2)相位差可行方案的收益计算。在交通干线系统中，可以通过计算相位差可行方案的收益值来判断相位差可行方案适应当前动态交通需求的程度。相位差可行方案的收益通过(U_max-D)计算得到，其中U_max为一个相对较大的数，D表示整个交通干线总延误。总延误

D = Σ_{i = 2}^{n} α_{i} {delay}_{id} + (1 - α_{i}) {delay}_{id}^{'} + Σ_{i = 1}^{n - 1} β_{i} {delay}_{iu} + (1 - β_{i}) {delay}_{iu}^{'}

表示第i+1个交叉口对第i个交叉口的相位差，l_i

表示第i+1个交叉口与第i个交叉口间的距离，v_d表示交通干线下行的车速，T表示交通干线共同周期，t₁表示交叉口某相位绿灯开启后，该相位路口累积的车辆全部疏散所需要的时长，t₁=q_dτ_d/(C-q_d)，C表示交叉口绿灯时间内相位最大通行能力，τ′_d表示车流中第一辆车遇红灯受阻开始直到车流中的最后一辆车到该交叉口所需要的时长，

表示第i个交叉口对第i+1个交叉口的相位差，

，t_u′=q_uτ_u′/C，如果

则α_i为1，反之α_i为0，如果

，则β_i为1，反之β_i为0。

3)计算相位差可行方案的增长率，然后根据相位差可行方案增长率大小进行排序，选取最大增长率的相位差可行方案配置当前交通需求的交通干线系统的相位差。相位差可行方案的增长率的计算方法如下：在演化的第t代，相位差可行方案X_i收益为u_t(X_i)，用P_t(X_i)度量在时期t使用相位差可行方案X_i的集合；用

{\overset{&OverBar;}{u}}_{t} = \underset{X_{i}}{Σ} θ_{t} (X_{i}) u_{t} (X_{i})

，相位差可行方案X_i的增长率

{\overset{\cdot}{θ}}_{t} (X_{i}) = θ_{t} (X_{i}) [u_{t} (X_{i}) - {\overset{&OverBar;}{u}}_{t}] .

4)若此时演化代数达到规定最大演化代数T或者连续t′代所有单交叉路口的平均收益之差不超过0.1，则演化结束。否则转入下一步骤。

5)生成下一代。按照“优胜劣汰”的自然选择机制，将上一代的K个不重复的相位差可行方案按相位差可行方案增长率排序，并确定要淘汰的相位差可行方案数量K′。从可行解空间中随机挑选K′个不重复的候选相位差可行方案替代上一代淘汰的相位差可行方案，并将增长率最高的相位差可行方案直接复制到下一代，然后根据相位差可行方案的增长率用轮盘赌选择生成下一代。这里要注意的是，所挑选K′个不重复的相位差可行方案也必须与上一代中K个相位差可行方案不同。转到步骤1)。

3、各路口根据过程1、2得到的配时方案，配置运行。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于演化博弈的交通信号周期自适应控制方法，其特征在于：采用两层递阶分布式结构，上层是区域控制层，下层是路口控制层；区域控制层主要负责每个时段周期和相位差的优化，路口控制层则负责在每一周期内绿信比的优化；所述的基于演化博弈的交通信号周期自适应控制方法按如下过程进行：

S3：各路口根据过程S1、S2得到的配时方案，配置运行。

2.根据权利要求1所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述过程S1中绿信比的优化方法指在时段内的每个周期结束前的若干秒，根据实时检测的路网交通流量数据和预测信息，以基于演化博弈的优化方法得到下一周期路口使用的绿信比，具体步骤如下：

3.根据权利要求2所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述的博弈收益值u_t指第t时期，相位在博弈开始前对各种可能的纯策略带来的收益的一种预测，选择一个周期内单交叉路口平均延误时长的预测值倒数作为博弈收益值，即：

，其中，n1为单交叉路口相位总数；d_it为第t时期单交叉路口第i个相位由Webster方法计算得到的延误值，延误值d=(c(1-λ)²)/(2(1-λx))+x²/(2q(1-x))-0.65(c/q²)^1/3x^2+5λ，其中c为周期时长，λ为绿信比，q为到达率，x为饱和度，x=q/(λs)，s表示驶出率；相位在博弈之初，遵循以下规则预测下一周期采用某个纯策略获得的收益值，其中，纯策略s_i指交叉路口上的一个合理有效的配时方案；相位若选择纯策略s₁，那么纯策略s₁中绿灯所对应相位上的绿灯时长延长△t_ex(△t_ex>0)，纯策略s₁中红灯所对应相位上的绿灯时长增加△t_e′_x(△t_e′_x<0)，并满足(n-1)*|△t_e′_x|=△t_ex；同理可得相位选择纯策略s₂,s₃,...,s_n的预测收益值u(s₂),u(s₃),...,u(s_n)；这里通过多次观测统计历史数据的平均值来预测单交叉路口下一周期内车流量。

4.根据权利要求2所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述的确定相位选择纯策略s_i的增长率，并更新演化下一时期采用纯策略s_i的相位在单交叉路口的所有相位中所占的比例的方法如下：在演化时期t使用纯策略s_i的相位集合用X_t(s_i)表示，在演化时期t使用纯策略s_i的相位在单交叉路口的所有相位中所占比例

{\overset{&OverBar;}{u}}_{t} = Σ_{i = 1}^{n 2} θ_{t} (s_{i}) {\overset{&OverBar;}{u}}_{t} (s_{i})

，相位选择纯策略s_i的增长率

{\overset{\cdot}{θ}}_{t} (s_{i}) = θ_{t} (s_{i}) [θ_{t} (s_{i}) - {\overset{&OverBar;}{u}}_{t}] .

5.根据权利要求1所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述过程S2的实现方式是：每个时段起始，首先Webster方法确定干线的共同周期，并在所述过程S1的基础上确定单交叉路口绿信比，然后采用RDOC方法进行优化，并将所获得的最优相位差可行方案应用于交通干线系统；具体的控制步骤下:

S51：初始化时段包含N₀个周期,p=0；

S53：第p个周期结束，p=p+1；若p>N₀,p=0；返回步骤S52。

6.根据权利要求5所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述RDOC方法的具体实现步骤如下：

7.根据权利要求6所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述的交通干线相位差可行方案指对于一个由n个交叉口组成的交通干线系统，其含有的优化相位差个数为

为从交叉口c_i下行至交叉口c_i+1东西直行相位上c_i+1相对于c_i的相位差,T表示交通干线共同周期；所有可能采取行动的集合记为A(m)，其中m为行动的个数，定义下行所有随机选择的行动构成的行动组合称为交通干线相位差可行方案；所述的可行解空间指所有可行行动组合的集合,记为X，并满足，且X_i∩X_j=φ.i,j∈{1,2,...,mⁿ}。

8.根据权利要求6所述的基于演化博弈的交通信号周期自适应控制方法，其特征在于：所述的交通干线总延误