CN105513380A

CN105513380A - Eadp控制器的离线训练方法和系统及其在线控制方法和系统

Info

Publication number: CN105513380A
Application number: CN201511009719.2A
Authority: CN
Inventors: 王飞跃; 刘裕良; 吕宜生; 段艳杰; 陈松航
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Qingdao Vehicle Intelligence Pioneers Inc
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-04-20
Anticipated expiration: 2035-12-29
Also published as: CN105513380B

Abstract

本发明公开了一种用于交叉路口交通信号控制的EADP控制器离线训练方法和系统以及EADP控制器在线控制方法和系统。其中，该方法包括：根据得到的系统状态和构建好的各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标；并根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络，以更新Critic网络的权值和Action网络的权值；确定在训练达到训练目标时，记录各子ADP控制器的Action网络的权值和Critic网络的权值。通过本发明实施例解决了传统ADP控制器稳定性难以保证的技术问题，进而实现了对交通信号的自适应控制。

Description

EADP控制器的离线训练方法和系统及其在线控制方法和系统

技术领域

本发明实施例涉及城市交通管理技术领域，尤其是涉及一种用于交叉路口交通信号控制的EADP控制器离线训练方法和系统以及用于交叉路口交通信号控制的EADP控制器在线控制方法和系统。

背景技术

随着机动车保有量的增加，交通拥堵成为日趋严重的问题。交通设施兴建和改善的速度远远赶不上人们日益增长的交通需求，同时由于城市空间的限制，也很难通过不断新建道路来缓解交通压力。因此，如何最大限度地利用好现有的交通资源，减少交通延误，提高通行效率，使道路交通的安全、有序、畅通，成为交通管控的重要议题。由于城市交通问题的特殊性，很难建立起精确的数学模型，传统的交叉口信号控制作为交通管控的关键手段，在交通控制系统中并未能发挥最大作用。

自适应动态规划(ADP)理论融合了动态规划、强化学习以及函数逼近等方法，其利用在线或离线数据，采用函数近似结构来估计系统的性能指标函数，然后依据最优性原理来获得近似最优的控制测量。ADP控制器可以在无先验知识的情况下得到一个有效的控制器。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺陷：

该控制器的稳定性较难保证。

有鉴于此，特提出本发明。

发明内容

本发明实施例的主要目的在于提供一种用于交叉路口交通信号控制的EADP控制器离线训练方法，解决了传统ADP控制器稳定性难以保证的技术问题。此外，还提供一种用于交叉路口交通信号控制的EADP控制器离线训练系统。

另外，本发明实施例还提供了一种用于交叉路口交通信号控制的EADP控制器在线控制方法，其解决了如何根据交通状态，实现对交通信号的自适应控制的技术问题。此外，还提供一种用于交叉路口交通信号控制的EADP控制器在线控制系统。

为了实现上述目的，根据本发明的一个方面，提供了以下技术方案：

一种用于交叉路口交通信号控制的EADP控制器离线训练方法，其中，所述EADP控制器包括多个子ADP控制器，该方法至少可以包括：

获取所述交叉路口的系统状态；

构建所述各子ADP控制器的Action网络和Critic网络；

根据所述系统状态和所述各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标；

根据所述性能指标和所述回报函数交替地训练各子ADP控制器的Critic网络以及根据所述性能指标和所述系统控制参数交替地训练所述各子ADP控制器的Action网络，以更新所述Critic网络的权值和所述Action网络的权值；

确定上述训练达到训练目标时，记录所述各子ADP控制器的所述Action网络的权值和所述Critic网络的权值。

根据本发明的另一个方面，还提供一种用于交叉路口交通信号控制的EADP控制器在线控制方法，其中，所述EADP控制器包括多个在线学习的子ADP控制器，所述方法至少可以包括：

利用上述方法训练所述各在线学习的子ADP控制器；

获取所述交叉路口的实时系统状态；

将所述实时系统状态输入至所述训练之后的各在线学习的子ADP控制器，确定所述各在线学习的子ADP控制器的实时系统控制参数；

对所述各在线学习的子ADP控制器的实时系统控制参数进行加权平均，得到所述EADP控制器的实时系统控制参数；

将所述EADP控制器的实时系统控制参数加载至交通信号控制系统。

根据本发明的再一个方面，还提供一种用于交叉路口交通信号控制的EADP控制器离线训练系统，其中，该EADP控制器包括多个子ADP控制器，所述系统至少包括：

第一获取模块，被配置为获取所述交叉路口的系统状态；

构建模块，被配置为构建所述各子ADP控制器的Action网络和Critic网络；

第一确定模块，被配置为根据所述系统状态和所述各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标；

第一训练模块，被配置为根据所述性能指标和所述回报函数交替地训练各子ADP控制器的Critic网络以及根据所述性能指标和所述系统控制参数交替地训练所述各子ADP控制器的Action网络，以更新所述Critic网络的权值和所述Action网络的权值；

记录模块，被配置为确定上述训练达到训练目标时，记录所述各子ADP控制器的所述Action网络的权值和所述Critic网络的权值。

根据本发明的又一个方面，还提供一种用于交叉路口交通信号控制的EADP控制器在线控制系统，其中，所述EADP控制器包括多个在线学习的子ADP控制器，所述系统至少包括：

第二训练模块，被配置为利用权利要求8至13任一所述的系统训练所述各在线学习的子ADP控制器；

第二获取模块，被配置为获取所述交叉路口的实时系统状态；

第二确定模块，被配置为将所述实时系统状态输入至所述训练之后的各在线学习的子ADP控制器，确定所述各在线学习的子ADP控制器的实时系统控制参数；

加权平均模块，被配置为对所述各在线学习的子ADP控制器的实时系统控制参数进行加权平均，得到所述EADP控制器的实时系统控制参数；

加载模块，被配置为将所述EADP控制器的实时系统控制参数加载至交通信号控制系统。

与现有技术相比，上述技术方案至少具有以下有益效果：

本发明实施例通过提供一种用于交叉路口交通信号控制的EADP控制器离线训练方法，根据得到的系统状态和构建好的各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标；并根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络，以更新Critic网络的权值和Action网络的权值；确定在训练达到训练目标时，记录各子ADP控制器的Action网络的权值和Critic网络的权值。从而可以确保ADP控制器的稳定性。

本发明实施例通过提供一种用于交叉路口交通信号控制的EADP控制器在线控制方法，利用离线训练方法训练各在线学习的子ADP控制器；然后获取交叉路口的实时系统状态；将实时系统状态输入至训练之后的各在线学习的子ADP控制器，确定各在线学习的子ADP控制器的实时系统控制参数；再对各在线学习的子ADP控制器的实时系统控制参数进行加权平均，得到EADP控制器的实时系统控制参数；最后将EADP控制器的实时系统控制参数加载至交通信号控制系统。该方法能够根据交通状态，模拟人脑通过环境反馈进行在线学习，计算出交叉路口的配时参数，从而实现对交通信号的自适应控制。

当然，实施本发明的任一产品不一定需要同时实现以上所述的所有优点。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。

需要说明的是，发明内容部分并非旨在标识出请求保护的主题的必要技术特征，也并非是用来确定请求保护的主题的保护范围。所要求保护的主题不限于解决在背景技术中提及的任何或所有缺点。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1为根据一示例性实施例示出的用于交叉路口交通信号控制的EADP控制器离线训练方法的流程示意图；

图2为根据一示例性实施例示出的训练子ADP控制器的示意图；

图3为根据一示例性实施例示出的Action网络和Critic网络结构示意图；

图4为根据一示例性实施例示出的EADP控制器进行在线控制的示意图；

图5为根据一示例性实施例示出的用于交叉路口交通信号控制的EADP控制器离线训练系统的结构示意图；

图6为根据一示例性实施例示出的用于交叉路口交通信号控制的EADP控制器在线控制系统的结构示意图。

这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，并不是全部实施例。基于本申请中的实施例，本领域普通技术人员在不付出创造性劳动的前提下，所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。

需要说明的是，在下面的描述中，为了方便理解，给出了许多具体细节。但是很明显，本发明的实现可以没有这些具体细节。

需要说明的是，在没有明确限定或不冲突的情况下，本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。

如图1所示，本发明实施例提供一种用于交叉路口交通信号控制的EADP控制器离线训练方法。其中，该EADP控制器包括多个子ADP控制器，该方法至少包括步骤S100至步骤S140。

步骤S100：获取交叉路口的系统状态。

可以假设每个控制周期内有P个相位，各车道的相位时间长度为T_i，每个相位有L_i个车道获得通行权限。本文均基于该假设进行有关参数的计算。但是本领域技术人员应该能够理解，该假设仅仅是为了更好地说明本发明，不应视为是对本发明的不当限定。

可以通过对交叉路口的交通状况进行参数采集而得到系统状态。系统状态可以包括各车道的流量、各车道的最大排队长度和相位饱和度。

步骤S110：构建各子ADP控制器的Action网络和Critic网络。

具体地，该步骤可以包括：将各子ADP控制器的Action网络构建为具有一隐层的第一BP神经网络；设置第一BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，输出层神经元个数为：P^E-1，其中，P^E表示所述输入层神经元个数，取自然数；将各子ADP控制器的Critic网络构建为具有一隐层的第二BP神经网络；设置第二BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，输入层神经元个数为2P^E-1，输出层神经元个数为1。

在实际应用中，首先要选择子ADP控制器的数量。考虑到时间成本，子ADP控制器一般不宜超过100个，在本实施例中，优选地，选取20个子ADP控制器。为了描述方便，子ADP控制器都选取ADHDP(控制依赖启发式动态规划)控制器。然后将第E个子ADP控制器的Action网络构建为具有一个隐层的第一BP神经网络，其中，输入层神经元个数为P^E，P^E取自然数，输出层神经元个数为P^E-1，隐层的神经元个数为E取正整数，优选地，1≤E≤20；将所述第E个子ADP控制器的Critic网络构建为具有一个隐层的第二BP神经网络，其中，输入层神经元个数为2P^E-1，输出层神经元个数为1，隐层的神经元个数为

其中，在构建Action网络时，隐层的神经元个数为经验值，优选地，该值在5～25之间选取。在构建Critic网络时，隐层的神经元个数为经验值，优选地，该值在5～25之间选取，最优地，该值可按照以下公式进行选取：

下面以一优选实施例来对上述Action网络和Critic网络的设置进行详细说明。

在两相位的示例中，各子ADP控制器的Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2，输出层神经元个数为2，隐层的神经元个数为 Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为3，输出层神经元个数为1，隐层的神经元个数为

步骤S120：根据系统状态和各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标。

其中，系统状态至少包括交叉路口各车道的最大排队长度，则该步骤具体可以包括：将交叉路口各车道的最大排队长度中最大的最大排队长度确定为相位排队长度；根据相位排队长度，按照以下公式确定回报函数：

r (k) = \sqrt{\frac{1}{N} Σ_{i = 0}^{N} {(H_{i} - \overset{&OverBar;}{H})}^{2}}

其中，r(k)表示所述回报函数；H_i表示所述相位排队长度；表示相位平均排队长度，P表示控制周期内的相位个数，1≤i≤P，N＝P-1，P≥2；

将系统状态输入至各子ADP控制器的Action网络，确定系统控制参数；将系统状态和系统控制参数输入至各子ADP控制器的Critic网络，确定性能指标。

其中，交叉路口各车道的最大排队长度可以通过仿真软件接收采集到的交叉路口各车道的最大排队长度而获得。在确定相位平均排队长度时，可以设各车道最大排队长度为h_i，相位排队长度H_i＝max{h_i}，则由来确定相位平均排队长度。

图2为根据一示例性实施例示出的子ADP控制器结构和训练示意图。如图2所示，S(k)为系统第k步的状态，u(k)为此时Action的输出，其代表系统的控制参数，将u(k)输入到系统后可得到系统(其可以为交通控制系统)第k+1步的状态S(k+1)，将S(k)和u(k)输入Critic网络，Critic网络的输出为J(k)，其代表系统的性能指标；r(k)为系统的回报函数，其可根据S(k)并通过系统数据计算得到，α为折扣因子。图3为根据一示例性实施例示出的Action网络和Critic网络结构示意图。如图3所示，两个第k步的系统状态s₁(k)和s₂(k)输入至Action网络，Action网络输出系统控制参数u(k)，然后将s₁(k)和s₂(k)以及u(k)输入Critic网络，最后Critic网络输出性能指标J(k)。

例如，在实际应用中，可以在每个控制周期结束前，获取系统状态S^E(k)。系统状态S^E(k)可以分别从仿真软件接收采集到的路口各车道的流量以及排队长度数据而得到。将系统状态S^E(k)输入至Action网络，则Action网络输出系统控制参数u^E。将系统控制参数u^E(k)输出至仿真软件，并且将S^E(k)和u^E(k)输入Critic网络，此时Critic网络的输出为性能指标J^E(k)，用以指导下一个周期的运行。在本实施例中，采用paramic仿真软件与控制器进行连接，控制器与仿真软件通过共享文件交互信息。

在一个优选地实施例中，系统状态还可以包括交叉路口各车道的相位饱和度。其中相位饱和度按照以下方式来确定：

将交叉路口各车道流量中的最大流量确定为相位流量；根据相位流量，按照以下公式确定相位饱和度：

s_{i} = ϵ \frac{Q_{i}}{T_{i} - 1}

其中，s_i表示所述相位饱和度；Q_i表示所述相位流量；T_i表示各车道的相位时间长度；ε为归一化常数。

在一个更优选的实施例中，系统状态还可以包括交叉路口各车道的流量。

其中，交叉路口各车道的流量可以通过仿真软件接收采集到的交叉路口各车道的流量而获得。在确定相位流量时，可以设各车道的流量为q_j，则相位流量为Q_i＝max{q_j}。在确定系统状态S(k)时，仿真步数的步长为第k个控制周期的时间长度C_k，周期长度可根据历史流量用Webster方法确定。优选地，周期长度取值在30秒到120秒之间。

在上述优选的实施例中，根据系统状态确定回报函数，以及根据系统状态和各子ADP控制器的Action网络和各子ADP控制器的Critic网络确定系统控制参数和性能指标的步骤可以参考上述实施例，在此不再赘述。

步骤S130：根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络，以更新Critic网络的权值和Action网络的权值。

在本步骤中，根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络具体可以包括：

根据以下公式确定Critic网络的训练误差：

σ_{c}^{E} (k) = \frac{1}{2} {[{αJ}^{E} (k) - J^{E} (k - 1) + r^{E} (k)]}^{2}

其中，表示第k步仿真步数时的训练误差；J^E(k)表示第k步仿真步数时的性能指标；J^E(k-1)表示第k-1步仿真步数时的性能指标；r^E(k)表示第k步仿真步数时的回报函数；α在0～1之间取值；

根据以下公式对Critic网络的权值进行更新：

w_{c}^{E} (k + 1) = w_{c}^{E} (k) + {Δw}_{c}^{E} (k)

{Δw}_{c}^{E} (k) = - \frac{\partial σ_{c}^{E} (k)}{\partial w_{c}^{E} (k)} = - \frac{\partial σ_{c}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial w_{c}^{E} (k)}

其中，表示第k+1步仿真步数时的权值；表示第k步仿真步数时的权值；表示第k步仿真步数时的权值增量。

根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络具体可以包括：

根据以下公式确定Action网络的训练误差：

σ_{a}^{E} (k) = \frac{1}{2} {[J^{E} (k) - G_{c}^{E} (k)]}^{2}

其中，表示第k步仿真步数时的训练误差；J^E(k)表示第k步仿真步数时的性能指标；表示第k步仿真步数时的控制目标；

根据以下公式对Action网络的权值进行更新：

w_{a}^{E} (k + 1) = w_{a}^{E} (k) + {Δw}_{a}^{E} (k)

{Δw}_{a}^{E} (k) = - \frac{\partial σ_{a}^{E} (k)}{\partial w_{a}^{E} (k)} = - \frac{\partial σ_{a}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial u^{E} (k)} \frac{\partial u^{E} (k)}{\partial w_{a}^{E} (k)}

其中，在确定Critic网络的训练误差时，以两相位为例，α可以取0.2。在确定Action网络的训练误差时，以两相位为例，可以将取0。

在实际应用中，可以采取以下方式来交替训练各子ADP控制器的Critic网络和Action网络：将由仿真软件产生的路口各车道的流量以及排队长度等交通数据输入至Action网络，得到系统控制参数u^E(k)，将系统状态和系统控制参数u^E(k)输入到评价网络，得到性能指标。根据性能指标和回报函数计算Critic网络的训练误差，并根据该训练误差和性能指标来更新Critic网络的权值。根据性能指标计算Action网络的训练误差，并根据该训练误差、性能指标和系统控制参数来更新Action网络的权值。如此循环往复，至达到预期设定的目标为止。

步骤S140：确定上述训练达到训练目标时，记录各子ADP控制器的Action网络的权值和Critic网络的权值。

在本步骤中，可以将训练目标设定为：其中，为Action网络的训练误差，为Critic网络的训练误差，达到训练目标后记录各个子ADP控制器的Action网络和Critic网络的权值。

在上述实施例的基础上，构建各子ADP控制器的Action网络和Critic网络之后还可以包括：通过设置学习率和训练次数，初始化各子ADP控制器的Action网络和Critic网络的权值。

具体地，可以将Action网络的学习率设置为学习率关系到网络学习速度，优选地，学习率为0～1之间的常数，将各步训练次数设置为训练次数为经验值，优选地，在5～50之间选取。可以将Critic网络的学习率设置为优选地，学习率为0～1之间的常数，将各步训练次数设置为训练次数为经验值，优选地，在5～50之间选取。对于Action网络和Critic网络，均可以采用Sigmoid函数作为激活函数，优选地，β取1。

例如，在两相位的示例中，初始化Action网络权值取0到1之间的随机数，学习率为0.3，各步训练次数为5。初始化Critic网络权值取0到1之间的随机数，学习率为0.1，各步训练次数为5。

本发明实施例通过构建各个子ADP控制器的Action网络和Critic网络，并根据所构建的网络以及获得的系统状态，计算得到系统控制参数和性能指标。然后根据所述性能指标和所述回报函数交替地训练各子ADP控制器的Critic网络以及根据所述性能指标和所述系统控制参数交替地训练所述各子ADP控制器的Action网络，以更新所述Critic网络的权值和所述Action网络的权值，当训练达到训练目标时，记录最终的各子ADP控制器的所述Action网络的权值和所述Critic网络的权值。可见，本发明实施例提供的方法不需要建立交通模型，能够根据交通状态，有效地训练ADP控制器，可以确保ADP控制器的稳定性。

此外，本发明实施例还提供一种用于交叉路口交通信号控制的EADP控制器在线控制方法，该方法至少包括：利用上述EADP控制器离线训练方法训练各在线学习的子ADP控制器。获取交叉路口的实时系统状态。将实时系统状态输入至训练之后的各在线学习的子ADP控制器，确定各在线学习的子ADP控制器的实时系统控制参数。对各在线学习的子ADP控制器的实时系统控制参数进行加权平均，得到EADP控制器的实时系统控制参数。将EADP控制器的实时系统控制参数加载至交通信号控制系统。

在本实施例中，以最终离线训练好的子ADP控制器的Action网络的权值和Critic网络的权值初始化在线学习的子ADP控制器的Action网络和Critic网络。在将各子ADP控制器的Action网络和Critic网络的权值更新之后，将在线系统的实时状态，如路口各车道的流量以及排队长度等数据输入到每个子ADP控制器中，分别得到每个子ADP控制器输出u^E(k)。将每个子ADP控制器的输出u^E(k)进行加权平均，得到EADP的输出u(k)。例如，每个子ADP控制器输出的权重分别为W^E>0，其中则图4为根据一示例性实施例示出的EADP控制器进行在线控制的示意图。其中，S(k)输入至训练好的各个子ADP控制器，以更新各个子ADP控制器的Action网络的权值和Critic网络的权值，然后将每个子ADP控制器的输出进行加权平均，得到u(k)，最后将u(k)输入至实际的交通信号控制系统。

本发明实施例提供的方法能够根据交通状态，模拟人脑通过环境反馈进行在线学习，计算出交叉路口的配时参数，从而实现对交通信号的自适应控制；该方法还能改善传统ADP方法在学习过程中容易陷入局部极小的缺点，提高其神经网络的泛化能力，可以应用在在交通流量发生变化、非机动车流比例较大等实际工程应用的复杂环境中。

本发明的以上方法步骤并非必须以所例示的顺序执行。在不脱离本发明精神的前提下，在变型实施例中，可以以不同顺序执行上述步骤并且/或者并行执行某些步骤。这些变型均落入本发明的保护范围。

基于与方法实施例相同的技术构思，本发明实施例还提供了一种用于交叉路口交通信号控制的EADP控制器离线训练系统50，其中，该EADP控制器包括多个子ADP控制器，如图5所示，该系统至少包括：第一获取模块51、构建模块52、第一确定模块53、第一训练模块54和记录模块55。其中，第一获取模块51被配置为获取交叉路口的系统状态。构建模块52被配置为构建各子ADP控制器的Action网络和Critic网络。第一确定模块53被配置为根据系统状态和各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标。第一训练模块54被配置为根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络，以更新Critic网络的权值和Action网络的权值。记录模块55被配置为确定上述训练达到训练目标时，记录各子ADP控制器的Action网络的权值和Critic网络的权值。

在上述实施例中，构建模块具体可以包括：第一构建子模块、第一设置模块、第二构建子模块和第二设置模块。其中，第一构建子模块被配置为将各子ADP控制器的Action网络构建为具有一隐层的第一BP神经网络。第一设置模块被配置为设置第一BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，输出层神经元个数为：P^E-1，其中，P^E表示输入层神经元个数，取自然数。第二构建子模块被配置为将各子ADP控制器的Critic网络构建为具有一隐层的第二BP神经网络。第二设置模块被配置为设置第二BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，输入层神经元个数为2P^E-1，输出层神经元个数为1。

在上述实施例中，系统状态至少包括交叉路口各车道的最大排队长度。此时，第一确定模块具体可以包括：第一确定子模块、第二确定子模块、第三确定子模块和第四确定子模块，其中，第一确定子模块被配置为将交叉路口各车道的最大排队长度中最大的最大排队长度确定为相位排队长度。第二确定子模块被配置为根据相位排队长度，按照以下公式确定回报函数：

r (k) = \sqrt{\frac{1}{N} Σ_{i = 0}^{N} {(H_{i} - \overset{&OverBar;}{H})}^{2}}

其中，r(k)表示所述回报函数；H_i表示所述相位排队长度；表示相位平均排队长度，P表示控制周期内的相位个数，1≤i≤P，N＝P-1，P≥2。第三确定子模块被配置为将系统状态输入至各子ADP控制器的Action网络，确定系统控制参数。第四确定子模块被配置为将系统状态和系统控制参数输入至各子ADP控制器的Critic网络，确定性能指标。

在上述实施例的基础上，系统状态还可以包括交叉路口各车道的相位饱和度，此时，该系统还可以包括第五确定子模块和第六确定子模块。其中，第五确定子模块被配置为将交叉路口各车道流量中的最大流量确定为相位流量。第六确定子模块被配置为根据相位流量，按照以下公式确定相位饱和度：

s_{i} = ϵ \frac{Q_{i}}{T_{i} - 1}

在上述实施例中，第一训练模块具体可以包括：第一误差确定模块、第一更新模块、第二误差确定模块和第二更新模块。其中，第一误差确定模块被配置为根据以下公式确定Critic网络的训练误差：

σ_{c}^{E} (k) = \frac{1}{2} {[{αJ}^{E} (k) - J^{E} (k - 1) + r^{E} (k)]}^{2}

其中，表示第k步仿真步数时的训练误差；J^E(k)表示第k步仿真步数时的性能指标；J^E(k-1)表示第k-1步仿真步数时的性能指标；r^E(k)表示第k步仿真步数时的回报函数；α在0～1之间取值。第一更新模块被配置为根据以下公式对Critic网络的权值进行更新：

w_{c}^{E} (k + 1) = w_{c}^{E} (k) + {Δw}_{c}^{E} (k)

{Δw}_{c}^{E} (k) = - \frac{\partial σ_{c}^{E} (k)}{\partial w_{c}^{E} (k)} = - \frac{\partial σ_{c}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial w_{c}^{E} (k)}

其中，表示第k+1步仿真步数时的权值；表示第k步仿真步数时的权值；表示第k步仿真步数时的权值增量。第二误差确定模块被配置为根据以下公式确定Action网络的训练误差：

σ_{a}^{E} (k) = \frac{1}{2} {[J^{E} (k) - G_{c}^{E} (k)]}^{2}

其中，表示第k步仿真步数时的训练误差；J^E(k)表示第k步仿真步数时的性能指标；表示第k步仿真步数时的控制目标。第二更新模块被配置为根据以下公式对Action网络的权值进行更新：

w_{a}^{E} (k + 1) = w_{a}^{E} (k) + {Δw}_{a}^{E} (k)

{Δw}_{a}^{E} (k) = - \frac{\partial σ_{a}^{E} (k)}{\partial w_{a}^{E} (k)} = - \frac{\partial σ_{a}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial u^{E} (k)} \frac{\partial u^{E} (k)}{\partial w_{a}^{E} (k)}

在上述实施例的基础上，该系统还包括初始化模块。其中，初始化模块被配置为通过设置学习率和训练次数，初始化各子ADP控制器的Action网络和Critic网络的权值。

需要说明的是：上述实施例提供的EADP控制器离线训练系统在进行离线训练时，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将EADP控制器离线训练系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

基于与方法实施例相同的技术构思，本发明实施例还提供一种用于交叉路口交通信号控制的EADP控制器在线控制系统，其中，EADP控制器包括多个在线学习的子ADP控制器，如图6所示，该系统60至少包括：第二训练模块61、第二获取模块62、第二确定模块63、加权平均模块64和加载模块65，其中，第二训练模块61被配置为利用EADP控制器离线训练系统训练各在线学习的子ADP控制器。第二获取模块62被配置为获取交叉路口的实时系统状态。第二确定模块63被配置为将实时系统状态输入至训练之后的各在线学习的子ADP控制器，确定各在线学习的子ADP控制器的实时系统控制参数。加权平均模块64被配置为对各在线学习的子ADP控制器的实时系统控制参数进行加权平均，得到EADP控制器的实时系统控制参数。加载模块65被配置为将EADP控制器的实时系统控制参数加载至交通信号控制系统。

需要说明的是：上述实施例提供的EADP控制器在线控制系统在进行在线控制时，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将EADP控制器在线控制系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

上述系统实施例可以用于执行上述方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

应指出的是，上面分别对本发明的系统实施例和方法实施例进行了描述，但是对一个实施例描述的细节也可应用于另一个实施例。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。本领域技术人员应该理解：本发明实施例中的模块或者步骤还可以再分解或者组合。例如上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述，但是，上述实施例的说明仅适用于帮助理解本发明实施例的原理；同时，对于本领域技术人员来说，依据本发明实施例，在具体实施方式以及应用范围之内均会做出改变。

需要说明的是：附图中的标记和文字只是为了更清楚地说明本发明，不视为对本发明保护范围的不当限定。

术语“包括”、“包含”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备/装置中还存在另外的要素，即“包括一个”的意思还涵盖“包括另一个”的意思。

术语“第一”、“第二”等仅用来表示名称，不表示任何特定的顺序。

本发明的各个步骤可以用通用的计算装置来实现，例如，它们可以集中在单个的计算装置上，例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置，也可以分布在多个计算装置所组成的网络上，它们可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此，本发明不限于任何特定的硬件和软件或者其结合。

本发明提供的方法可以使用可编程逻辑器件来实现，也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等)，例如根据本发明的实施例可以是一种计算机程序产品，运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如：采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如：RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的范围。

尽管上文已经示出、描述和指出了适用于各种实施方式的本发明的基本新颖特征的详细描述，但是将会理解，在不脱离本发明意图的情况下，本领域技术人员可以对系统的形式和细节进行各种省略、替换和改变。

Claims

1.一种用于交叉路口交通信号控制的EADP控制器离线训练方法，其中，所述EADP控制器包括多个子ADP控制器，其特征在于，所述方法至少包括：

获取所述交叉路口的系统状态；

构建所述各子ADP控制器的Action网络和Critic网络；

2.根据权利要求1所述的方法，其特征在于，所述构建所述各子ADP控制器的Action网络和Critic网络具体包括：

将所述各子ADP控制器的Action网络构建为具有一隐层的第一BP神经网络；

设置所述第一BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，所述输出层神经元个数为：P^E-1，其中，所述P^E表示所述输入层神经元个数，取自然数；

将所述各子ADP控制器的Critic网络构建为具有一隐层的第二BP神经网络；

设置所述第二BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，所述输入层神经元个数为2P^E-1，所述输出层神经元个数为1。

3.根据权利要求1所述的方法，其特征在于，所述系统状态至少包括所述交叉路口各车道的最大排队长度；

所述根据所述系统状态和所述各子ADP控制器的Action网络和Critic网络，确定回报函数、系统控制参数和性能指标，具体包括：

将所述交叉路口各车道的最大排队长度中最大的最大排队长度确定为相位排队长度；

根据所述相位排队长度，按照以下公式确定回报函数：

r (k) = \sqrt{\frac{1}{N} Σ_{i = 0}^{N} {(H_{i} - \overset{&OverBar;}{H})}^{2}}

其中，所述r(k)表示所述回报函数；所述H_i表示所述相位排队长度；所述表示相位平均排队长度，P表示控制周期内的相位个数，1≤i≤P，N＝P-1，P≥2；

将所述系统状态输入至所述各子ADP控制器的Action网络，确定所述系统控制参数；

将所述系统状态和所述系统控制参数输入至所述各子ADP控制器的Critic网络，确定所述性能指标。

4.根据权利要求3所述的方法，其特征在于，所述系统状态还包括所述交叉路口各车道的相位饱和度，其中所述相位饱和度按照以下方式来确定：

将所述交叉路口各车道流量中的最大流量确定为相位流量；

根据所述相位流量，按照以下公式确定相位饱和度：

s_{i} = ϵ \frac{Q_{i}}{T_{i} - 1}

其中，所述s_i表示所述相位饱和度；所述Q_i表示所述相位流量；所述T_i表示各车道的相位时间长度；所述ε为归一化常数。

5.根据权利要求1所述的方法，其特征在于，所述根据所述性能指标和所述回报函数交替地训练各子ADP控制器的Critic网络以及根据所述性能指标和所述系统控制参数交替地训练所述各子ADP控制器的Action网络，以更新所述Critic网络的权值和所述Action网络的权值，具体包括：

根据以下公式确定所述Critic网络的训练误差：

σ_{c}^{E} (k) = \frac{1}{2} {[{αJ}^{E} (k) - J^{E} (k - 1) + r^{E} (k)]}^{2}

其中，所述表示第k步仿真步数时的训练误差；所述J^E(k)表示第k步仿真步数时的性能指标；所述J^E(k-1)表示第k-1步仿真步数时的性能指标；所述r^E(k)表示第k步仿真步数时的回报函数；所述α在0～1之间取值；

根据以下公式对所述Critic网络的权值进行更新：

w_{c}^{E} (k + 1) = w_{c}^{E} (k) + {Δw}_{c}^{E} (k)

{Δw}_{c}^{E} (k) = - \frac{\partial σ_{c}^{E} (k)}{\partial w_{c}^{E} (k)} = - \frac{\partial σ_{c}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial w_{c}^{E} (k)}

其中，所述表示第k+1步仿真步数时的权值；所述表示第k步仿真步数时的权值；所述表示第k步仿真步数时的权值增量；

根据以下公式确定所述Action网络的训练误差：

σ_{a}^{E} (k) = \frac{1}{2} {[J^{E} (k) - G_{c}^{E} (k)]}^{2}

其中，所述表示第k步仿真步数时的训练误差；所述J^E(k)表示第k步仿真步数时的性能指标；所述表示第k步仿真步数时的控制目标；

根据以下公式对所述Action网络的权值进行更新：

w_{a}^{E} (k + 1) = w_{a}^{E} (k) + {Δw}_{a}^{E} (k)

{Δw}_{a}^{E} (k) = - \frac{\partial σ_{a}^{E} (k)}{\partial w_{a}^{E} (k)} = - \frac{\partial σ_{a}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial u^{E} (k)} \frac{\partial u^{E} (k)}{\partial w_{a}^{E} (k)}

其中，所述表示第k+1步仿真步数时的权值；所述表示第k步仿真步数时的权值；所述表示第k步仿真步数时的权值增量。

6.根据权利要求1所述的方法，其特征在于，所述构建所述各子ADP控制器的

Action网络和Critic网络之后还包括：

通过设置学习率和训练次数，初始化所述各子ADP控制器的Action网络和Critic网络的权值。

7.一种用于交叉路口交通信号控制的EADP控制器在线控制方法，其中，所述EADP控制器包括多个在线学习的子ADP控制器，其特征在于，所述方法至少包括：

利用权利要求1至6任一所述的方法训练所述各在线学习的子ADP控制器；

获取所述交叉路口的实时系统状态；

8.一种用于交叉路口交通信号控制的EADP控制器离线训练系统，其中，该EADP控制器包括多个子ADP控制器，其特征在于，所述系统至少包括：

第一获取模块，被配置为获取所述交叉路口的系统状态；

9.根据权利要求8所述的系统，其特征在于，所述构建模块具体包括：

第一构建子模块，被配置为将所述各子ADP控制器的Action网络构建为具有一隐层的第一BP神经网络；

第一设置模块，被配置为设置所述第一BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，所述输出层神经元个数为：P^E-1，其中，所述P^E表示所述输入层神经元个数，取自然数；

第二构建子模块，被配置为将所述各子ADP控制器的Critic网络构建为具有一隐层的第二BP神经网络；

第二设置模块，被配置为设置所述第二BP神经网络的输入层神经元个数、输出层神经元个数及隐层的神经元个数，其中，所述输入层神经元个数为2P^E-1，所述输出层神经元个数为1。

10.根据权利要求8所述的系统，其特征在于，所述系统状态至少包括所述交叉路口各车道的最大排队长度；

所述第一确定模块具体包括：

第一确定子模块，被配置为将所述交叉路口各车道的最大排队长度中最大的最大排队长度确定为相位排队长度；

第二确定子模块，被配置为根据所述相位排队长度，按照以下公式确定回报函数：

r (k) = \sqrt{\frac{1}{N} Σ_{i = 0}^{N} {(H_{i} - \overset{&OverBar;}{H})}^{2}}

第三确定子模块，被配置为将所述系统状态输入至所述各子ADP控制器的Action网络，确定所述系统控制参数；

第四确定子模块，被配置为将所述系统状态和所述系统控制参数输入至所述各子ADP控制器的Critic网络，确定所述性能指标。

11.根据权利要求10所述的系统，其特征在于，所述系统状态还包括所述交叉路口各车道的相位饱和度，所述系统还包括：

第五确定子模块，被配置为将所述交叉路口各车道流量中的最大流量确定为相位流量；

第六确定子模块，被配置为根据所述相位流量，按照以下公式确定相位饱和度：

s_{i} = ϵ \frac{Q_{i}}{T_{i} - 1}

12.根据权利要求8所述的系统，其特征在于，所述第一训练模块具体包括：

第一误差确定模块，被配置为根据以下公式确定所述Critic网络的训练误差：

σ_{c}^{E} (k) = \frac{1}{2} {[{αJ}^{E} (k) - J^{E} (k - 1) + r^{E} (k)]}^{2}

第一更新模块，被配置为根据以下公式对所述Critic网络的权值进行更新：

w_{c}^{E} (k + 1) = w_{c}^{E} (k) + {Δw}_{c}^{E} (k)

{Δw}_{c}^{E} (k) = - \frac{\partial σ_{c}^{E} (k)}{\partial w_{c}^{E} (k)} = - \frac{\partial σ_{c}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial w_{c}^{E} (k)}

第二误差确定模块，被配置为根据以下公式确定所述Action网络的训练误差：

σ_{a}^{E} (k) = \frac{1}{2} {[J^{E} (k) - G_{c}^{E} (k)]}^{2}

第二更新模块，被配置为根据以下公式对所述Action网络的权值进行更新：

w_{a}^{E} (k + 1) = w_{a}^{E} (k) + {Δw}_{a}^{E} (k)

{Δw}_{a}^{E} (k) = - \frac{\partial σ_{a}^{E} (k)}{\partial w_{a}^{E} (k)} = - \frac{\partial σ_{a}^{E} (k)}{\partial J^{E} (k)} \frac{\partial J^{E} (k)}{\partial u^{E} (k)} \frac{\partial u^{E} (k)}{\partial w_{a}^{E} (k)}

13.根据权利要求8所述的系统，其特征在于，所述系统还包括：

初始化模块，被配置为通过设置学习率和训练次数，初始化所述各子ADP控制器的Action网络和Critic网络的权值。

14.一种用于交叉路口交通信号控制的EADP控制器在线控制系统，其中，所述EADP控制器包括多个在线学习的子ADP控制器，其特征在于，所述系统至少包括：