CN111126687A

CN111126687A - 一种交通信号的单点离线优化系统及方法

Info

Publication number: CN111126687A
Application number: CN201911316903.XA
Authority: CN
Inventors: 金峻臣; 庞钰琪; 周浩敏; 刘多; 戎丁丁; 费亚英; 王辉; 郭海锋
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111126687B

Abstract

本发明涉及一种交通信号的单点离线优化系统及方法，本发明能够基于当前交叉口的数据情况，制定符合当前交叉口的适宜优化策略，利用数据信息优化信号配时。本发明根据路口数据情况将单点路口分类，对不同分类采用不同离线优化策略和方法，并定义了两种单点离线优化策略，能更有效地利用数据资源，实现对单点路口的高效优化。

Description

一种交通信号的单点离线优化系统及方法

技术领域

本发明涉及智慧交通领域，尤其涉及一种交通信号的单点离线优化系统及方法。

背景技术

随着人民生活水平的提高，城市人口日益增多，汽车拥有量不断增加，城市交通压力越来越大，交通堵塞在大中城市日益严重，经济增长与交通拥挤之间的矛盾日趋突出，滞后的交通状况已严重制约了经济的发展。据不完全统计，中国每年因为交通拥堵造成的经济损失约为2000亿元，城市交通问题已成为国内外共同关注的焦点，关系到城市的可持续发展。

交通拥堵常发于道路交叉口处，通过合理地为交叉口各股车流分配路权可以有效地降低车辆延误、减少车辆排队，从而有助于防治交通拥堵现象的发生。单点交叉口交通信号控制占城市交叉口的90％以上，即使未来实现线控、面控，但在线控、面控不能覆盖的区域还会有大量独立控制的交叉口存在，因此，单点交叉口的交通信号优化仍有较大的应用空间，对于防堵治堵有着重要意义。在实际应用中，由于受到环境限制，由常规检测器收集、传输的数据通常存在一定缺陷，例如数据缺失严重等，在应用中存在一定困难。

发明内容

本发明为克服上述的不足之处，目的在于提供一种交通信号的单点离线优化系统及方法，本发明能够基于当前交叉口的数据情况，制定符合当前交叉口的适宜优化策略，利用数据信息优化信号配时。本发明根据路口数据情况将单点路口分类，对不同分类采用不同离线优化策略和方法，并定义了两种单点离线优化策略，能更有效地利用数据资源，实现对单点路口的高效优化。

本发明是通过以下技术方案达到上述目的：一种交通信号的单点离线优化方法，具体如下：

收集单点路口的地磁数据，交叉口判定模块基于地磁数据的完整性判断区分单点路口的类型，并根据地磁数据的完整程度确定不同的优化策略进行优化：

(i)对于地磁数据完整或地磁数据不完整但可修复的单点路口，则调用自适应策略模块执行自适应优化策略控制，以流量调整配时；

(ii)对于地磁数据不完整且地磁数据不可修复的单点路口，则调用固定方案策略模块执行固定方案策略控制，以基于档案的遗传算法和交通仿真的强化学习优化框架进行调整配时。

作为优选，所述的地磁数据可修复的条件为路口各进口路段的各转向方向均至少有一个车道流量数据完整；数据修复时，认为同路段同方向的各车道流量相等，将数据缺失的车道的流量补充为同路段同方向车道流量，完成数据修复。

作为优选，所述的自适应优化策略控制的方法步骤如下：

1)历史数据处理单元获取路口的历史数据，通过历史数据获得配时参数；

2)同放相位判断单元判断同放相位是否开启，并统计开启的同放相位数，确定相位方案；

3)时段划分单元根据采集的历史数据，通过计算进行排序并划分时段，计算时段内的交通数据；

4)周期优化单元判断当前路口当前控制方案的相位个数，划分路口类型，并设定最小周期；在设定最小周期后，根据流量情况适当增加周期值获得周期初始值，并进行周期优化；

5)配时单元根据配时指标，计算自适应优化策略下的配时方案。

作为优选，所述步骤1)具体包括如下步骤：

1.1)对历史数据进行初步处理：选择一定时间段的历史数据，数据种类包括流量、相位、周期、绿信比，以预设的时间间隔为时间粒度，记为k；对各个车道，每时间粒度对一个车道求平均值，作为该车道每时间粒度的流量，每时间粒度的配时方案中出现次数最多的为该时间粒度的配时方案；

1.2)求取进口路段方向流量q_{n_dir}(k)：对各进口路段B_in，求每时间粒度内各转向方向一条车道的流量平均值；若一个转向方向有多条车道，取该方向各车道的平均值作为该方向的流量；

1.3)求取进口路段每小时的平均速度v_n(k)：对各进口路段B_in1、B_in2、B_in3、B_in4，求每时间粒度的速度平均值；若多条车道测得的速度不同，取该路段各车道的平均值作为该路段的速度。

作为优选，所述步骤2)具体如下：

2.1)同放相位判断单元判断同放相位是否开启，其中同放相位可开启条件如下：

Δq_left(k)≥Q或Δq_straight(k)≥Q

其中，Q为同放阈值，Δq_left(k)，Δq_straight(k)分别为k时段内同放相位左转车道、直行车道流量与同放相位的进口路段的对向的进口路段左转车道、直行车道流量的差；

同放相位不可开启或关闭条件为：

Δq_left(k)＜Q且Δq_straight(k)＜Q

2.2)统计开启的同放相位数，确定相位方案；

(1)若同放相位数若为0，则仅开启基础相位；

(2)若同放相位数若等于1，则开启基础相位+同放相位；

(3)若同放相位数若大于1，则判断开启的同放相位中，是否包含对向路段，具体如下：

(3.1)若两个同放相位的进口路段不是对向路段，则两个同放相位均可以开启；

(3.2)若两个同放相位的进口路段是对向路段，则将两个同放相位全部关闭。

作为优选，所述步骤3)具体如下：

3.1)计算各开启相位的关键车道的流量q_{i_cri_lane}(k)；具体为：

(A)对于仅有基础相位的相位方案，则选取流量最大的车道作为关键车道，该车道的流量即为q_{i_cri_lane}(k)，i为相位名；

(B)对于包含了同放相位的相位方案，则按照下面的方法选择关键车道：

(B.1)针对每一个同放相位，计算该同放相位左转车道、直行车道流量与同放相位的进口路段的对向的进口路段左转车道、直行车道流量的差Δq_left(k)和Δq_straight(k)；

(B.2)对于每一个同放相位，关键车道流量q_{i_cri_lane}(k)为同放相位与对象路段的左转车道、直行车道流量差值中的最大值，即：

q_{i_cri_lane}(k)＝＝max{Δq_left(k)，Δq_straigh(k)}

(B.3)对于基础相位，先排除在同放相位时放行的流量，再进行各车道在该相位放行的流量的比较，取流量最大的车道作为关键车道；

3.2)计算一小时内，各小时关键相位的关键车道流量q_{k_cri_phase}，具体为：取一小时内，各基础相位中，关键车道流量最大的相位作为该小时的关键相位，该相位的关键车道流量即为关键相位的关键车道流量Q_{k_cri_phase}；

q_{cri_phase}(k)＝＝max{q_{A1_cri_lane}(k)，q_{A2_cri_lane}(k)，q_{A3_cri_lane}(k)，q_{A4_cri_lane}(k)}一天包括24小时，形成了包含24个关键相位的关键车道流量：

q_{cri_phase}

＝[q_{cri_phase}(1)、q_{cri_phase}(2)、...、q_{cri_phase}(k)、...、q_{cri_phase}(24)]

3.3)对24个关键车道流量取四分位，在同一分位且相邻的小时为一个时段，取关键车道流量最大值：

q_{cri_phase_max}＝max{q_{cri_phase}(k)}

四分位划分形成了四个阈值范围：

[0，25％*q_{cri_phase_max})、[25％*q_{cri_phase_max}，50％*q_{cri_phase_max})、[50％*q_{criphase_max}，75％*q_{cri_phase_max})、[75％*q_{cri_phase_max}，q_{cri_phase_max}]

若相邻两个时间段处于同一分位距内，则是同一控制时段，若不处于同一分位距内，则划分为不同的控制时段；

3.4)计算各时段T内的交通数据，流量、速度。

作为优选，所述步骤4)包括如下步骤：

4.1)计算最小周期C_min：令左转相位的分离程度为S，根据在实践中的人工经验拟合，n的取值和推荐的路口最小周期C_min计算公式为：

其中ROUNDUP为向上取整；

4.2)设置周期初始值C：根据各进口路段的方向流量q_{n_dir}(T)调整初始周期值C(T)：

其中，Q₁、Q₂分别为流量阈值，ΔC₁、ΔC₂分别为对应情况的周期增量；

4.3)对各个控制时段的周期进行优化，优化后的周期调整值C′为：

C′＝C+D

其中，D为路口各进口路段的平均延误时间，计算方法如下：

式中，N(n)为进口路段数；D_n为其中一个进口路段的延误时间，

L_n为该进口路段长度；V_n为该时段该进口路段的平均速度；V_free为自由流速度。

作为优选，所述在步骤5)中，采用各相位的关键车道流量q_{i_cri_lane}(T)作为配时指标，其中i为相位号，计算自适应策略下的配时方案：

5.1)该相位初始绿信比λ_i(k)为：

其中A为k小时内开启相位的集合；

5.2)根据最小绿灯时间校验绿灯时间和周期，若实际绿灯时间小于该相位绿灯时间，即

λ_i(k)·(C′-I)＜g_{i_min}，

则调整周期：

其中I为周期损耗时间，每个相位损耗3s；g_{i_min}为最小绿灯时间如下所示：

其中4为模型经验值，L_p为该相位内行人过街的道路长度，v_p为行人过街步行速度，可取1.0m/s。

作为优选，所述的固定方案策略控制的方法步骤如下：

(I)基于历史数据库对待优化路口模型进行参数校正，完善优化路口模型；

(II)对路口模型中的数据进行格式转换后输入强化学习优化单元中进行强化学习，输出优化控制参数至交通控制器；其中，所述强化学习优化单元中的强化学习框架由环境和Agent构成，包括状态、动作、奖励、策略，具体如下：

(a)状态State，t时段的状态标记为s_t,t+1时段的状态标记为s_t+1；用于描述一定时间段内的状况，在环境中生成，会受到动作的影响；

(b)动作Action，at时段的状态标记为a,t+1时段的状态标记为a_t+1，动作集合中的动作标记为a′)在agent中通过一定的策略选择下一个时间段的动作，在环境中发挥作用，推动状态在下一个时间段变化；

(c)奖励Reward，t时段的状态标记为r_t或r_t(s_t，a_t),t+1时段的状态标记为r_t+1或r_t+1(s_t+1，a_t+1))是针对动作生成的，由环境产生，记录了一个动作对状态的影响，可以为agent选择动作提供指导；

(d)策略，策略是agent选择动作的方法；优选选择深度确定性策略梯度方法，其中深度确定性策略梯度方法中的参数利用基于档案的遗传算法进行优化；

(III)交通控制器制定优化控制方案，并经控制仿真程序输出优化控制方案。

作为优选，所述的深度确定性策略梯度是利用深度神经网络逼近值函数和确定性策略，采用经验回放和独立的目标网络的选择策略；深度确定性策略梯度采用Actor-Critic结构，结构中总共有2个网络：

Actor网络μ(s|θ^μ)：根据Q值计算动作损失值Loss，选择动作a_t，用于和环境交互生成s_t+1和r_t；

Loss＝-y_t

y_t由Critic网络输出，详情见下；

θ^μ是Actor网络的梯度初始化参数，每一次学习的过程都需要对网络进行随机的初始化；

θ^μ′←τθ^μ+(1-τ)θ^μ′

Critic网络Q(s，α|θ^Q):计算当前动作a_t的期望长期价值y_t，价值考虑了当前的奖励r_t和后续时刻的奖励的价值Q；

y_t＝r_t+γQ(s_t+1，α_t+1)

其中，θ^Q是Critic网络的梯度初始化参数，每一次学习的过程都需要对网络进行随机的初始化；

θ^Q′←τθ^Q+(1-τ)θ^Q′

其中，Q为下一个状态下，采取期望中所能带来最优未来长期奖励的行为对应的奖励，即，Q(s_t，a_t)＝E(r_t+1+γ·r_t+2+γ²r_t+3+…+γ^T-1r_t+T)

E为求期望函数；T为全部学习时段；γ为折扣因子；

学习开始时，状态s_t是从环境中获得，首先由Actor网络随机从动作集a′中选择不同的动作，由Critic网络分别计算y_t值，再根据Actor网络计算损失值，选择损失值最小的动作作为a_t输出；由actor网络选择出a_t后，进行两个增加随机性的步骤：

①利用随机行为次数比∈：

②当a_t传递至环境前，需要在a_t上加一个高斯噪声，该噪声为η；

即，a_t←a_t+η

由此，共有以下4个参数影响DDPG网络的性能：折扣因子y，polyak平均系数τ，采取随机行为的次数百分比∈，和高斯噪声η；所有参数的范围是0-1。

作为优选，所述基于档案的遗传算法包括如下步骤：

Step 1，编码参数；使用二进制来编码每个参数形成基因，并按②的顺序依次连接这些基因，形成档案遗传算法的一个染色体；

Step 2，创建一个档案数据库D，以用来存储优化过的强化学习框架参数；

Step 3，定义父类n的大小和归档文件m的大小；

Step 4，定义适应度；初始化强化学习优化器，经过学习，第一次接近最大成功率所需要的过程数的倒数即为每个染色体的适应度，由此，通过遗传算法即可获得最大的适应度的参数；

Step 5，在此过程中初始种群的解决方案将复制到存档中，并保存到库存数据库D中；此后，在每一代的诞生过程中，都会从档案中提取出一些执行良好的解决方案，即微观精英策略解决方案，并将其作为父类种群的一部分；

Step 6，利用基于档案的遗传算法迭代运行：在每一代中，从微观精英策略解决方案中选出n个个体(P_micro)，在P_micro中的每一个个体依次作为父母之一，使用比赛选择与另一个父母(Q)一起形成子代；在比赛选择中，随机挑选一定数量的个体，被选中的个体参加比赛，具有最适宜价值的个体成为优胜者；重复此过程，直到收集到预先定义的赢家数量；被视为在下一代的父母中，优胜者必须彼此不同；

Step 7，利用引入的二进制编码、均匀交叉、位翻转突变和译码操作获得子序列(P_new)；其中，利用自适应交叉概率和变异概率，调整勘探新远程区域的容量与开发新远程区域的能力之间的平衡关系；根据描述种群解空间多样性的标准种群多样性(SPD)信息，这两个概率在预先定义的范围内变化；

具体地，根据SPD将亲本种群划分为勘探区和开发区；在勘探阶段，变异算子以高概率被用于探索潜在的未访问区域，而在开发阶段，变异算子以低概率被用于局部搜索机制；新获得的后代的适应度值是逐个获得的；检查子代中的每个个体是否在数据库D中存储了相同的控制参数集；如果个体已存储在数据库中，则将存储的适应度值分配给该个体，否则，从交通模拟中提取适应度值；在每一代结束时，使用新创建的个体更新数据库；档案由适应度相对较好的父类更新。

一种交通信号的单点离线优化系统，包括交叉口判定模块、自适应策略模块和固定方案策略模块；所述的交叉口判定模块用于判断区分单点路口的类型，并根据地磁数据的完整程度确定不同的优化策略进行优化：对于地磁数据完整或地磁数据不完整但可修复的单点路口，则调用自适应策略模块执行自适应优化策略控制，以流量调整配时，其中自适应策略模块包括历史数据处理单元、同放相位判断单元、时段划分单元、周期优化单元、配时单元，用于输出相位及配时指标方案；对于地磁数据不完整且地磁数据不可修复的单点路口，则调用固定方案策略模块执行固定方案策略控制，以基于档案的遗传算法和交通仿真的优化框架进行调整配时。

作为优选，所述的固定方案策略模块包括强化学习单元和软件在环仿真单元；所述的软件在环仿真单元包括交通仿真器、交通控制器和仿真控制器程序；交通仿真器用于在优化开始前，校正车路模型参数，完善路口模型；并在优化过程中，将通过优化得到的方案在模型中运行，评价方案效果；交通控制器产生一个固定时间的信号控制，绿灯持续时间、绿信比方案，是交通控制器生成的控制指示；仿真控制程序负责交通控制器和交通仿真之间的通信，通过接口程序将交通控制器的控制指示输入到交通模拟器的交通模型中，并将交通状态提供给控制器进行控制决策；在交通控制单元中可以实现不同的交通控制；所述的强化学习单元用于构建适宜的强化学习框架，并利用基于档案的遗传算法优化参数搜索过程，提升强化学习框架的效率和性能。

本发明的有益效果在于：本发明能够基于当前交叉口的数据情况，制定符合当前交叉口的适宜优化策略，利用数据信息优化信号配时。本发明根据路口数据情况将单点路口分类，对不同分类采用不同离线优化策略和方法，并定义了两种单点离线优化策略，能更有效地利用数据资源，实现对单点路口的高效优化。

附图说明

图1是本发明的系统流程示意图；

图2是本发明的自适应策略模块框架示意图；

图3是本发明实施例的路口相位组成示意图；

图4是本发明实施例的仅开启基础相位的方案示意图；

图5是本发明实施例的基础相位+一个同放相位的方案示意图；

图6是本发明实施例的基础相位+两个非对向的同放相位的方案示意图；

图7是本发明实施例的基础相位+两个对向的同放相位的方案示意图；

图8是本发明实施例的两个对向的同放相位代替基础相位的方案示意图；

图9是本发明的固定方案策略模块框架示意图；

图10是本发明的强化学习单元框架示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：一种交通信号的单点离线优化系统由交叉口判定模块、自适应策略模块和固定方案策略模块组成。

一种交通信号的单点离线优化方法，具体如下：

如图1所示，交叉口判定模块用于判断区分单点路口的类型，并根据地磁数据的完整程度确定不同的优化策略进行优化：对于地磁数据完整或地磁数据不完整但可修复的单点路口，则调用自适应策略模块执行自适应优化策略控制，以流量调整配时；对于地磁数据不完整且地磁数据不可修复的单点路口，则调用固定方案策略模块执行固定方案策略控制，以基于档案的遗传算法和交通仿真的强化学习优化框架进行调整配时。

在实际应用中，区域流量数据多来自于信号系统的检测器，利用检测器检测各路段的流量等微观指标，但流量检测受设备硬件条件影响，可能存在较为严重的数据缺失；同时，地图供应商提供的区域浮动车速度数据通常较为全备。交叉口判定模块的标准为检测器的地磁数据，区分地磁数据完整和不完整的两种类型单点路口，优化信号配时：对于地磁数据完整的路口，以流量调整配时；不完整的路口，以基于档案的遗传算法和交通仿真的强化学习优化框架调整配时。其中对于一个单点路口进行优化，需根据其路口各灯组是否有完整地磁信息(各进口路段的各车道全天有完整的流量数据)确定不同的优化策略：

1)若地磁信息完整，或虽不完整但可以修复(可修复的条件是，各进口路段的各转向方向均至少有一个车道流量数据完整。若满足条件，则认为同路段同方向的各车道流量相等，将数据缺失的车道的流量补充为同路段同方向车道流量)，则调用自适应策略模块，执行自适应控制；

2)若地磁信息不完整，且不满足流量修复条件，则调用固定方案策略模块，执行固定方案控制。

如图2所示，自适应策略制定模块由历史数据处理单元、同放相位判断单元、时段划分单元、周期优化单元、配时单元组成，输出相位及配时指标方案。自适应控制方式在计算机技术和通信技术发展到一定水平的情况下产生的。通过检测器检测到交通流信息，然后将这些数据实时的通过网络传到上位机，上位机实时的产生最佳的绿灯配时方案，并付诸实施，可以使一段时间内车辆放行最大，或者使其它交通控制评价指标如延误、停车次数等最小。这种控制方式适合与区域管理或干线协调时使用，上位机可以对多个路口信号机进行协调，使其运行方案可以根据交通流的变化而自适应的调整，从而提高整个区域或干线上的运行效率。

其中，历史数据处理单元的功能如下：

由于路口流量数据完整，路口的交通信号控制系统能够根据检测到的实时流量调整下一时刻的信号方案。故自适应优化策略只需根据历史流量情况，制定符合历史流量情况的控制方案，供交通信号控制系统实时选择即可。由此，首先通过历史数据获得配时参数。

(1)初步处理：选择一定时间段的工作日(非工作日同理)的历史数据(流量、相位、周期、绿信比)，以1小时(可以其他时间间隔)为时间粒度(标记为k，如0:00-1:00时，k＝1)，对各个车道，每小时(时间粒度)对一个车道求平均值，作为工作日该车道每小时的流量，每小时的配时方案(开放的相位、周期、绿信比)出现次数最多的为该小时配时方案。

(2)进口路段方向流量q_{n_dir}(k)：对各进口路段B_in，求每小时(k)各转向方向一条车道的流量平均值(如一个转向方向有多条车道，取该方向各车道的平均值作为该方向的流量)。

如：十字路口B，4个进口分别为B_in1、B_in2、B_in3、B_in4，进口分别左中右车道B_{in1_left}、B_{in1_straight}、B_{in1_right}，4个基础相位分别为相位A1、A2、A3、A4，4个同放相位分别为A5、A6、A7、A8,这8个相位均配置在信号控制系统中，但不一定需要全部开启，如图3所示；例如，B_in1左转方向在9:00-10:00的流量为

(3)进口路段每小时的平均速度v_n(k)：对各进口路段B_in1、B_in2、B_in3、B_in4，求每小时(k)的速度平均值(如多条车道测得的速度不同，取该路段各车道的平均值作为该路段的速度)。例如以上案例中，路段B_in1在9:00-10:00的平均速度为v_in1(10)。

同放相位判断单元的功能如下：

同放相位是一种用单口放行的信号控制相位，将一个进口路段作为1个单独相位，让其左转车辆和直行车辆同时放行，之后再放行其他相位。对于设置了同放相位的灯组路口，需首先判断同放相位是否开启。

(1)同放相位可开启条件：

Δq_left(k)≥Q或Δq_straight(k)≥Q

其中，Q为同放阈值，Δq_left(k)，Δq_straight(k)分别为k时段内(1小时)同放相位左转车道、直行车道流量与同放相位的进口路段的对向的进口路段左转车道、直行车道流量的差。

同放相位不可开启或关闭条件：

Δq_left(k)＜Q且Δq_straight(k)＜Q

参照上面的举例，对于同放相位A5，相位进口路段B_in1，对向路段为B_in3，第k小时的B_in1左转车道流量和B_in3左转车道流量差为：

直行车道流量差为：

当Δq_left(k)≥Q或Δq_straight(k)≥Q时，进口路段B_in1开启同放相位(A5)。

(2)统计开启的同放相位数，确定相位方案。

1)同放相位数若为0，则仅开启基础相位，参考上面的举例，对路口B，仅包含A1、A2、A3、A4四个相位，如图4所示。

2)同放相位数若等于1，开启基础相位+同放相位。参考上面的举例，对路口B，若仅有A5相位满足条件，则方案仅包含A1、A2、A3、A4、A5五个相位，如图5所示。

3)同放相位数若大于1，则需判断开启的同放相位中，是否包含对向路段(根据静态路网数据库中的路网数据自动识别)。

①若两个同放相位的进口路段不是对向路段，则两个同放相位均可以开启；例如，参考上面的举例，若进口路段B_in1和进口路段B_in2均满足同放相位开放条件，即同放相位A5和A8均满足开启条件，此时同放相位数为2，且两个进口路段不是对向路段，路口相位组合为A1、A2、A3、A4、A5、A8,如图6所示。

②若两个同放相位的进口路段是对向路段，要考虑两个同放相位与相同功能的基础相位的功能情况。例如，参考上述举例，若进口路段B_in1符合同放相位条件，同理，进口路段B_in3满足同放相位开启要求，也开启同放相位，此时同放相位数为2，即同放相位A5和A6均满足开启条件。

若全部开启，则A1、A2相位和A5、A6相位相同(如图7所示)，车辆行人容易产生困扰；

若用A5、A6相位代替A1、A2相位(如图8所示)，对于左转的非机动车需要二次过街，在一定程度上不符合现实的通行习惯，在没有交警、辅警的配合下，会有一定的安全隐患。

综上，在现实情况下，若两个对向路段的同放相位均满足放行条件，则将两个同放相位全部关闭。

时段划分单元的功能如下：

由于交通流的波动性，即使是一天中的交通状态也会发生明显变化，此时根据不同的交通状态选择最适宜的控制参数显得尤为重要。多时段(time-of-day，TOD)控制就是一种被广泛使用的控制方案选择方法，它根据采集的历史交通数据，将一天划分为若干个控制时段；然后为每个时段选择最佳的控制参数。由于多时段控制的实施对交通检测器的依赖程度和实施成本都很低，且可靠性好，在国内外很多城市中均发挥着重要作用。研究表明，时段划分的优化能显著提高交通控制的效果，降低网络的车均延误和停车次数。

(1)计算各开启相位的关键车道的流量q_{i_cri_lane}(k)。

一个相位中通常包含多个方向的车道，这个相位的关键车道是该相位放行的各车道中，流量最大的车道。本发明是离线优化，采用的是历史数据(详情见历史数据处理单元)。

通过同放相位判断单元的判断，相位方案将有①仅基础相位，②基础相位+一个同放相位，③基础相位+两个非对向的同放相位等三种组成方式。对于仅有基础相位的方案，直接选取流量最大的车道作为关键车道，该车道的流量即为q_{i_cri_lane}(k)，i为相位名，如上述举例中的Al相位的关键车道的流量为q_{A1_cri_lane}(k)。

对于包含了同放相位的方案，按照下面的方法选择关键车道：

1)在同放相位判断单元，已针对每一个同放相位，计算了该同放相位左转车道、直行车道流量与同放相位的进口路段的对向的进口路段左转车道、直行车道流量的差Δq_left(k)和Δq_straight(k)。例如对于上述举例中，采用基础相位+两个非对向的同放相位的方案的路口B，对于A5相位，有Δq_{A5_left}(k)和Δq_{A5_straight}(k)，A8相位同理。

2)对于每一个同放相位，关键车道流量q_{i_cri_lane}(k)为同放相位与对象路段的左转车道、直行车道流量差值中的最大值，即：

q_{i_cri_lane}(k)＝max{Δq_left(k)，Δq_straigh(k)}

例如A5相位q_{A5_cri_lane}(k)＝max{Δq_{A5_left}(k)，Δq_{A5_straight}(k)}，A8相位同理。

3)对于基础相位，需首先排除在同放相位时放行的流量，再进行各车道在该相位放行的流量的比较，取流量最大的车道作为关键车道。

参考上述案例，基础相位Al放行了路段B_in1的直行和B_in3的直行，其中B_in1的直行在同放相位A5也有部分放行，因同放相位A5同时放行B_in1的直行和左转，故在同放相位A5放行的B_in1直行和左转流量均为q_{A5_cri_lane}(k)，由此，B_in1在基础相位Al放行的直行流量q_{A1_in1}(k)为：

q_{A1_in1}(k)＝q_{in1_straight}(k)-q_{A5_i_max}(k)

B_in1在基础相位A2放行的左行流量q_{A2_in1}(k)为：

q_{A2_in1}(k)＝q_{in1_left}(k)-q_{A5_i_max}(k)

由于B_in3没有在同放相位放行，故B_in3在基础相位Al放行的直行流量q_{A1_in3}(k)为：q_{A1_in3}(k)＝q_{in3_straight}(k)

由此，基础相位Al的关键车道流量为：

q_{A1_cri_lane}(k)＝＝max{q_{A1_in1}(k)，q_{A1_in3}(k)}

(2)计算一小时内，各小时关键相位的关键车道流量q_{k_cri_phase}。

取一小时内，各基础相位中，关键车道流量最大的相位作为该小时的关键相位，该相位的关键车道流量即为关键相位的关键车道流量Q_{k_cri_phase}。

q_{cri_phase}(k)＝＝max{q_{A1_cri_lane}(k)，q_{A2_cri_lane}(k)，q_{A3_cri_lane}(k)，q_{A4_cri_lane}(k)}

一天共24小时，形成了包含24个关键相位的关键车道流量：

q_{cri_phase}

(3)对24个关键车道流量取四分位，在同一分位且相邻的小时为一个时段。

取关键车道流量最大值，q_{cri_phase_max}＝max{q_cri-phase(k)}

四分位划分形成了四个阈值范围：

[0，25％*q_{cri_phase_max})、[25％*q_{cri_phase_max}，50％*q_{cri_phase_max})、[50％*q_{cri_phase_max}，75％*q_{cri_phase_max})、[75％*q_{cri_phase_max}，q_{cri_phase_max}]

若相邻两个时间段处于同一分位距内，则是同一控制时段，若不处于同一分位距内，则划分为不同的控制时段

如：q_{cri_phase}(k)在[0，25％*q_{cri_phase_max})内，如果q_{cri_phase}(k+1)也在[0，25％*q_{cri_phase_max})内，则第k小时和第k+1小时划为同一控制时段，如果q_{cri_phase}(k+1)不在[0，25％*q_{cri_phase_max})内，则第k+1小时划为另一个控制时段。

(4)计算各时段T内的交通数据，流量、速度等。

对前文所述的k小时内的进口路段方向流量q_{n_dir}(k)和路段平均速度v_n(k)等，求时段T内的平均。

例如时段T1包含9:00-10:00和10:00-11:00两个小时，则T1时段的进口路段方向流量q_{n_dir}(T1)为

q_{n_dir}(T1)＝[q_{n_dir}(10)+q_{n_dir}(11)]/2

其他指标同理。

周期优化单元的功能如下：

信号周期的初始值与路口类型和相位设置有关，判断当前路口当前控制方案相位个数，划分路口类型，并设定最小周期。在设定最小周期后，根据流量情况适当增加周期值获得初始相位。

(1)计算最小周期C_min

对于十字路口，左转相位的分离程度直接影响了路口的最小周期。左转相位分离程度越高，则一个周期内的相位数越多(未分离左转相位的路口，一周期通常只有2相位，部分分离的路口，通常有3相位，全部分离的路口，通常有4相位，同放相位通常在5相位以上)，每个相位的绿灯时长需大于该相位最小绿灯时间，由此，左转相位分离程度越高，相位数越多，最小周期一般应越大。

令左转相位的分离程度为S，根据在实践中的人工经验拟合，n的取值和推荐的路口最小周期C_min计算公式为：

其中ROUNDUP为向上取整。

(2)设置周期初始值C

根据各进口路段的方向流量q_{n_dir}(T)调整初始周期值C(T)：

其中，Q₁、Q₂分别为流量阈值，ΔC₁、ΔC₂分别为对应情况的周期增量。

例如，在上述案例中，路口B有4个进口路段，每个进口路段各有左、直、右3个车道，全路口有12个进口车道，在T时段，B_in1左转车道的流量为q_{in1_left}(T)。

如果12个车道流量均小于等于Q1，则周期为C_min，若12个车道流量中任一车道流量大于Q₁但小于等于Q₂，周期增量为ΔC₁，若12个车道流量中任一车道流量大于Q₂，周期增量为ΔC₂。

(3)对各个控制时段的周期进行优化

优化后的周期调整值C′为：

C′＝C+D

其中，D为路口各进口路段的平均延误时间，计算方法为

N(n)为进口路段数；D_n为其中一个进口路段的延误时间，

L_n为该进口路段长度；V_n为该时段该进口路段的平均速度，如时段内有多个小时，取时段内各小时速度的平均值；V_free为自由流速度，根据道路建设相关规范，城市道路自由流速度暂取50km/h。

对上述案例的路口B，共有4个进口路段，则:

配时单元的功能如下：

本发明采用各相位的关键车道流量q_{i_cri_lane}(T)作为配时指标，其中i为相位号，计算自适应策略下的配时方案。

(1)该相位初始绿信比λ_i(k)为：

其中A为k小时内开启相位的集合。

如上文案例，

其中A＝{A1、A2、A3、A4、A5、A8}。

(2)根据最小绿灯时间校验绿灯时间和周期。

若实际绿灯时间小于该相位绿灯时间，即

λ_i(k)·(C′-1)＜g_{i_min}，

则调整周期

其中I为周期损耗时间，每个相位损耗3s，如案例中B路口开放6个相位，损耗时间I＝6*3＝18s；

g_{i_min}为最小绿灯时间，

对于采用固定方案策略的路口，检测器信息较差，流量数据不完整，方案优化及现实控制方案的选择无法利用流量数据。针对此问题，本发明采用基于档案的遗传算法和交通仿真的优化框架。如图9所示，固定方案策略模块包括强化学习优化单元和软件在环仿真(SILS)单元。

(1)软件在环仿真(SILS)单元

软件在环仿真(SILS)单元主要由三部分组成:交通仿真器、交通控制器和仿真控制器程序。

1)交通仿真器

交通仿真器是描述车辆动态特性的程序。在实际应用中，有不同的仿真模型。交通模型可以根据其保真度进行分类表示真实的交通事件。最低度的模型被称为描述交通流的宏观模型，通常由解析方程控制的，将交通流类比为液体或气体的运动。微观模型描述了个体驾驶员的行为，例如加速、制动和换道动作等，作为详细的车辆运动。除此之外，还有中观综合的方法。例如，研究人员将部分微观和宏观模型结合，形成所谓的中观模型观测仪的方法。对于交通管控，因为车辆轨迹信息是通常需要对交通措施进行评估，采用微观模型这种高保真的仿真模型是较为客观的。在交通工程应用中，一些商业或开源的微观交通仿真工具已经被规划人员、研究人员和其他专业人员广泛使用，包括VISSIM、AIMSUN、TransModeler、SUMO等。

交通仿真器的作用主要有两个：

一是在优化开始前，校正车路模型参数，完善路口模型。

①利用路网中流量数据较好的路口的静态道路信息(长度、车道数等)、速度、流量、配时方案等，校正仿真器中的车路模型参数(例如驾驶员个体加速度、反应时间、车道变换参数、流量的随机种子、车辆构成、道路的摩擦系数等)，使得仿真的模型可以接近现实运行情况；

②对于待优化的路口(流量数据较差)，在校正好的仿真模型中，采用与实际情况相同的配时方案，试用多种流量，选择运行结果最接近实际速度的流量，近似地认为是现实流量，由此补充待优化路口的流量数据。

例如在上述案例中，路口B的各项数据较好，但路口C的检测器数据缺失，两个路口处于同一个路网中，道路条件相似，可先搭建B的仿真模型，调整车路模型参数，使得输入现实的流量和配时方案时，B的各路段的运行速度与现实接近；搭建C的仿真模型时，速度和配时方案信息是可靠的，但流量数据缺失，可以将C的车路模型参数设置与B相同，输入与现实相同的配时方案，调整输入的流量，当运行速度与现实类似时，则可认为现实流量也与仿真流量类似。

二是在优化过程中，将通过优化得到的方案在模型中运行，评价方案效果。

2)交通控制器

交通控制器产生一个固定时间的信号控制，绿灯持续时间、绿信比方案等是交通控制器生成的控制指示。

3)仿真控制程序

仿真控制程序负责交通控制器和交通仿真之间的通信，通过接口程序将交通控制器的控制指示输入到交通模拟器的交通模型中，并将交通状态提供给控制器进行控制决策。在交通控制单元中可以实现不同的交通控制。

(2)强化学习单元，如图10所示：

利用强化学习框架进行交通控制优化是现阶段AI治理的发展方向。本发明在强化学习优化器的基础上，利用基于档案的遗传算法优化参数搜索过程，提升强化学习框架的效率和性能。本发明针对单点路口，构建适宜的强化学习框架。

强化学习框架由环境和Agent构成，包括状态、动作、奖励、策略等。这里的策略选择DDPG(深度确定性策略梯度)方法，其中DDPG方法中的参数利用基于档案的遗传算法对DDPG进行优化。

①强化学习框架：

本发明针对单点路口，构建适宜的强化学习框架。

强化学习框架由环境和Agent构成，包括状态、动作、奖励、策略等。

1)状态(State，t时段的状态标记为s_t,t+1时段的状态标记为s_t+1)描述一定时间段内的状况，在环境中生成，会受到动作的影响。本案例中，用路口的压力平均值p_B(t)表征，

其中，路口为B，进口路段为n，B_in为路口B进口路段n的集合，p_n(t)为t时间内进口路段n的压力值，N(n)为路口B的进口路段数。

如图4所示，针对路口B，有4个进口路段，进口路段数为4，有4个出口路段，分别为B_out1、B_out2、B_out3、B_out4。

p_n(t)的计算方法为：

其中，m为n进口路段各转向方向的出口路段；B_{out_n}为m的集合，例如对路口B的进口路段B_in1，左转方向的出口路段为B_out4，直行方向的出口路段为B_out3，右转方向的出口路段为B_out2，则B_{out_n}＝[B_out2、B_out3、B_out4]；v_n，max为进口路段n近一周历史速度中的最大速度；v_n(t)是t时段内进口路段n的平均速度，v_m(t)为t时段内出口路段m的速度；L_n，L_m分别是进口路段n和出口路段m的长度，从而使一定速度的短路段的压力比更长但相同速度的路段压力更大；β_B，m(t)为t时段内，由进口路段n转向出口路段m的相位的绿信比；

2)动作(Action，at时段的状态标记为a，t+1时段的状态标记为a_t+1，动作集合中的动作标记为a′)在agent中通过一定的策略选择下一个时间段的动作，在环境中发挥作用，推动状态在下一个时间段变化，。本案例中，以路口B各相位的绿信比作为动作；

3)奖励(Reward，t时段的状态标记为r_t或r_t(s_t，a_t)，t+1时段的状态标记为r_t+1或r_t+1(s_t+1，a_t+1))是针对动作生成的，由环境产生，记录了一个动作对状态的影响，可以为agent选择动作提供指导。本案例的奖励为p_n的变化量。

4)策略，是agent选择动作的方法。根据环境生成的状态、奖励确定一个动作是有用并应该重复的，还是无用应该避免的。本案例中，选择较为成熟的DDPG(深度确定性策略梯度)方法。

②DDPG方法及参数。

本发明的动作选择策略采用DDPG(深度确定性策略梯度)方法，并对DDPG所需要的参数进行了优化，利用优化后的参数改进强化学习优化器的性能。

DDPG(Deep Deterministic Policy Gradient)是利用深度神经网络逼近值函数和确定性策略，采用经验回放和独立的目标网络的选择策略。它使用了Actor-Critic结构，可以进行单步更新,相较于传统的回合学习更新要快；同时融合了DQN方法,提高了Actor-Critic结构的稳定性和收敛性。

DDPG结构总共有2个网络：

①Actor网络μ(s|θ^μ)：根据Q值计算动作损失值Loss，选择动作a_t，用于和环境交互生成s_t+1和r_t。

Loss＝-y_t

y_t由Critic网络输出，详情见下；

θ^μ是Actor网络的梯度初始化参数，每一次学习的过程都需要对网络进行随机的初始化。

θ^μ′←τθ^μ+(1-τ)θ^μ′

②Critic网络Q(s，a|θ^Q):计算当前动作a_t的期望长期价值y_t，价值考虑了当前的奖励r_t和后续时刻的奖励的价值Q。

y_t＝r_t+γQ(s_t+1，a_t+1)

其中，θ^Q是Critic网络的梯度初始化参数，每一次学习的过程都需要对网络进行随机的初始化。

θ^Q′←τθ^Q+(1-τ)θ^Q′

E为求期望函数；T为全部学习时段。

γ为折扣因子，允许我们决定相对于当前就可以获得的奖励，未来的可能奖励的相对重要性。

学习开始时，状态s_t是从环境中获得，首先由Actor网络随机从动作集a′中选择不同的动作，由Critic网络分别计算y_t值，再根据Actor网络计算损失值，选择损失值最小的动作作为a_t输出。

由actor网络选择出a_t后，进行两个增加随机性的步骤，提升学习过程的覆盖度。

①利用随机行为次数比∈：

②当a_t传递至环境前，需要在a_t上加一个高斯噪声，该噪声为η。

即，a_t←a_t+η

由此，共有以下4个参数影响DDPG网络的性能：折扣因子y，polyak平均系数τ，采取随机行为的次数百分比∈，和高斯噪声η。所有参数的范围是0-1。

这些参数值的取值将影响Agent的学习次数，但并没有以线性或易于识别的模式增加或减少agent的学习。因此，一个简单的登山模型可能不会很好地找到优化的参数。现有的参数优化方法中，遗传算法在原理上较为可行，但其运算需要耗费大量时间，本发明采用基于档案的遗传算法(Archived GA algorithm)，对参数的寻优过程进行优化。

②利用基于档案的遗传算法对DDPG进行参数优化

基于档案的遗传算法使用一个非常小的种群规模与一个大的外部档案进行选择。外部档案存储着曾被寻到并应用过的全局最佳解决方案。选择过程得益于算法的搜索历史(即，外部档案)，并尝试将获得期望收敛所需的评估函数数量降到最小。与普通遗传算法相比，该算法在基准优化问题上具有更快的收敛速度。

Step 1，编码参数。使用二进制来编码每个参数形成基因，并按②的顺序依次连接这些基因，形成档案遗传算法的一个染色体。由于每个参数都需要11位二进制编码来表示为三位小数，所以我们需要66位来表示6个参数，即，每个染色体有66位。

Step 2，创建一个档案数据库D，以用来存储优化过的强化学习框架参数。

Step 3，定义父类n的大小和归档文件m的大小。

Step 4，定义适应度。初始化强化学习优化器，经过学习，第一次接近最大成功率(≥0.85)所需要的过程数的倒数即为每个染色体的适应度(参数值集)，由此，通过遗传算法即可获得最大的适应度的参数(即，周期数最小的参数)。

Step 5，在此过程中，初始种群的解决方案将复制到存档中，并保存到库存数据库D中。此后，在每一代的诞生过程中，都会从档案中提取出一些执行良好的解决方案，即微观精英策略解决方案，并将其作为父类种群的一部分。

Step 6，利用基于档案的遗传算法迭代运行。在每一代中，从微观精英策略解决方案中选出n个个体(P_micro)，这些方案在档案中具有最佳的适合度值(E)。在P_micro中的每一个个体依次作为父母之一，使用比赛选择与另一个父母(Q)一起形成子代。在比赛选择中，随机挑选一定数量的个体，被选中的个体参加比赛，具有最适宜价值的个体成为优胜者。重复此过程，直到收集到预先定义的赢家数量。被视为在下一代的父母中，优胜者必须彼此不同。

Step 7，利用引入的二进制编码、均匀交叉、位翻转突变和译码操作获得子序列(P_new)。本发明利用自适应交叉概率和变异概率，调整勘探新远程区域的容量与开发新远程区域的能力之间的平衡关系，从而避免了过早收敛(过度利用)和盲目随机搜索(过度探索)现象。根据描述种群解空间多样性的标准种群多样性(SPD)信息，这两个概率在预先定义的范围内变化。

特别地，根据SPD将亲本种群划分为勘探区和开发区。在勘探阶段，变异算子以高概率被用于探索潜在的未访问区域，而在开发阶段，变异算子以低概率被用于局部搜索机制。新获得的后代的适应度值是逐个获得的。检查子代中的每个个体是否在数据库D中存储了相同的控制参数集。如果个体已存储在数据库中，则将存储的适应度值分配给该个体，否则，从交通模拟中提取适应度值。在每一代结束时，使用新创建的个体更新数据库。档案由适应度相对较好的父类更新。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种交通信号的单点离线优化方法，其特征在于，具体如下：

2.根据权利要求1所述的一种交通信号的单点离线优化方法，其特征在于：所述的自适应优化策略控制的方法步骤如下：

3.根据权利要求2所述的一种交通信号的单点离线优化方法，其特征在于：所述步骤1)具体包括如下步骤：

4.根据权利要求2所述的一种交通信号的单点离线优化方法，其特征在于：所述步骤2)具体如下：

Δq_left(k)≥Q或Δq_straight(k)≥Q

同放相位不可开启或关闭条件为：

Δq_left(k)＜Q且Δq_straight(k)＜Q

2.2)统计开启的同放相位数，确定相位方案；

(1)若同放相位数若为0，则仅开启基础相位；

(2)若同放相位数若等于1，则开启基础相位+同放相位；

5.根据权利要求2所述的一种交通信号的单点离线优化方法，其特征在于：所述步骤3)具体如下：

q_{i_cri_lan}(k)＝max{Δq_left(k)，Δq_straigh(k)}

3.2)计算一小时内，各小时关键相位的关键车道流量q_{k_cri_phase}，具体为：取一小时内，各基础相位中，关键车道流量最大的相位作为该小时的关键相位，该相位的关键车道流量即为关键相位的关键车道流量Q_{k_cri_phass}；

q_{cri_phase}(k)＝max{q_{A1_cri_lane}(k)，q_{A2_cri_lane}(k)，q_{A3_cri_lane}(k)，q_{A4_cri_lane}(k)}

一天包括24小时，形成了包含24个关键相位的关键车道流量：

q_{cri_phase}

q_{cri_phase_max}＝max{q_{cri_phase}(k)}

四分位划分形成了四个阈值范围：

[0，25％*q_{cri_phase_max})、[25％*q_{cri_phase_max}，50％*q_{cri_phass_max})、[50％*q_{cri_phase_max}，75％*q_{cri_phase_max})、[75％*q_{cri_phase_max}，q_{cri_phase_max}]

3.4)计算各时段T内的交通数据，流量、速度。

6.根据权利要求2所述的一种交通信号的单点离线优化方法，其特征在于：所述步骤4)包括如下步骤：

其中ROUNDUP为向上取整；

C′＝C+D

其中，D为路口各进口路段的平均延误时间，计算方法如下：

7.根据权利要求2所述的一种交通信号的单点离线优化方法，其特征在于：所述在步骤5)中，采用各相位的关键车道流量q_{i_cri_lane}(T)作为配时指标，其中i为相位号，计算自适应策略下的配时方案：

5.1)该相位初始绿信比λ_i(k)为：

λ_i＝q_{i_cri_lane}(T)/Σ_i∈Aq_{i_cri_lane}(T)

其中A为k小时内开启相位的集合；

λ_i(k)·(C′-I)＜g_{i_min}，

则调整周期：

其中4为模型经验值，L_p为该相位内行人过街的道路长度，v_p为行人过街步行速度。

8.根据权利要求1所述的一种交通信号的单点离线优化方法，其特征在于：所述的固定方案策略控制的方法步骤如下：

(b)动作Action，t时段的状态标记为a,t+1时段的状态标记为a_t+1，动作集合中的动作标记为a′，在agent中通过一定的策略选择下一个时间段的动作，在环境中发挥作用，推动状态在下一个时间段变化；

9.根据权利要求8所述的一种交通信号的单点离线优化方法，其特征在于：所述的深度确定性策略梯度是利用深度神经网络逼近值函数和确定性策略，采用经验回放和独立的目标网络的选择策略；深度确定性策略梯度采用Actor-Critic结构，结构中总共有2个网络：

Loss＝-y_t

y_t由Critic网络输出，详情见下；

θ^μ′←τθ^μ+(1-τ)θ^μ′

Critic网络Q(s，a|θ^Q)：计算当前动作a_t的期望长期价值y_t，价值考虑了当前的奖励r_t和后续时刻的奖励的价值Q；

y_e＝r_t+γQ(s_t+1，a_t+1)

θ^Q′←τθ^Q+(1-τ)θ^Q′

E为求期望函数；T为全部学习时段；γ为折扣因子；

①利用随机行为次数比∈：

即，a_t←a_t+η

由此，共有以下4个参数影响DDPG网络的性能：折扣因子y，polyak平均系数T，采取随机行为的次数百分比∈，和高斯噪声η；所有参数的范围是0-1。

10.根据权利要求9所述的一种交通信号的单点离线优化方法，其特征在于：所述基于档案的遗传算法包括如下步骤：

Step1，编码参数；使用二进制来编码每个参数形成基因，并按②的顺序依次连接这些基因，形成档案遗传算法的一个染色体；

Step2，创建一个档案数据库D，以用来存储优化过的强化学习框架参数；

Step3，定义父类n的大小和归档文件m的大小；

Step4，定义适应度；初始化强化学习优化器，经过学习，第一次接近最大成功率所需要的过程数的倒数即为每个染色体的适应度，由此，通过遗传算法即可获得最大的适应度的参数；

Step5，在此过程中初始种群的解决方案将复制到存档中，并保存到库存数据库D中；此后，在每一代的诞生过程中，都会从档案中提取出一些执行良好的解决方案，即微观精英策略解决方案，并将其作为父类种群的一部分；

Step6，利用基于档案的遗传算法迭代运行：在每一代中，从微观精英策略解决方案中选出n个个体(P_micro)，在P_micro中的每一个个体依次作为父母之一，使用比赛选择与另一个父母(Q)一起形成子代；在比赛选择中，随机挑选一定数量的个体，被选中的个体参加比赛，具有最适宜价值的个体成为优胜者；重复此过程，直到收集到预先定义的赢家数量；被视为在下一代的父母中，优胜者必须彼此不同；

Step7，利用引入的二进制编码、均匀交叉、位翻转突变和译码操作获得子序列(P_new)；其中，利用自适应交叉概率和变异概率，调整勘探新远程区域的容量与开发新远程区域的能力之间的平衡关系；根据描述种群解空间多样性的标准种群多样性(SPD)信息，这两个概率在预先定义的范围内变化；

特别地，根据SPD将亲本种群划分为勘探区和开发区；在勘探阶段，变异算子以高概率被用于探索潜在的未访问区域，而在开发阶段，变异算子以低概率被用于局部搜索机制；新获得的后代的适应度值是逐个获得的；检查子代中的每个个体是否在数据库D中存储了相同的控制参数集；如果个体已存储在数据库中，则将存储的适应度值分配给该个体，否则，从交通模拟中提取适应度值；在每一代结束时，使用新创建的个体更新数据库；档案由适应度相对较好的父类更新。

11.一种交通信号的单点离线优化系统，其特征在于，包括交叉口判定模块、自适应策略模块和固定方案策略模块；所述的交叉口判定模块用于判断区分单点路口的类型，并根据地磁数据的完整程度确定不同的优化策略进行优化：对于地磁数据完整或地磁数据不完整但可修复的单点路口，则调用自适应策略模块执行自适应优化策略控制，以流量调整配时，其中自适应策略模块包括历史数据处理单元、同放相位判断单元、时段划分单元、周期优化单元、配时单元，用于输出相位及配时指标方案；对于地磁数据不完整且地磁数据不可修复的单点路口，则调用固定方案策略模块执行固定方案策略控制，以基于档案的遗传算法和交通仿真的优化框架进行调整配时；

所述的固定方案策略模块包括强化学习单元和软件在环仿真单元；所述的软件在环仿真单元包括交通仿真器、交通控制器和仿真控制器程序；交通仿真器用于在优化开始前，校正车路模型参数，完善路口模型；并在优化过程中，将通过优化得到的方案在模型中运行，评价方案效果；交通控制器产生一个固定时间的信号控制，绿灯持续时间、绿信比方案，是交通控制器生成的控制指示；仿真控制程序负责交通控制器和交通仿真之间的通信，通过接口程序将交通控制器的控制指示输入到交通模拟器的交通模型中，并将交通状态提供给控制器进行控制决策；在交通控制单元中可以实现不同的交通控制；

所述的强化学习单元用于构建适宜的强化学习框架，并利用基于档案的遗传算法优化参数搜索过程，提升强化学习框架的效率和性能。