CN105279978B

CN105279978B - 交叉口交通信号控制方法和设备

Info

Publication number: CN105279978B
Application number: CN201510665966.1A
Authority: CN
Inventors: 王飞跃; 刘裕良; 段艳杰; 吕宜生; 朱凤华; 苟超
Original assignee: Qingdao Huicheng Intelligent Technology Co Ltd; Qingdao Intelligent Industry Institute For Research And Technology
Current assignee: Qingdao Huicheng Intelligent Technology Co Ltd; Qingdao Intelligent Industry Institute For Research And Technology
Priority date: 2015-10-15
Filing date: 2015-10-15
Publication date: 2018-05-25
Anticipated expiration: 2035-10-15
Also published as: CN105279978A

Abstract

本发明涉及一种交叉口交通信号控制方法，该方法能够根据交通状态，通过环境反馈进行学习，从而实现对交通信号的自适应控制。该方法包括：定义系统参数；建立Action网络和Critic网络；初始化控制器；根据系统状态得到相应系统控制参数；根据状态和动作得到性能指标；交替训练Critic网络和Action网络；达到训练目标之后记录网络权值；以及使用训练好的Critic网络和Action网络进行在线控制。本发明利用ADHDP方法对交叉口交通信号的自适应控制提供了一种有效途径。

Description

交叉口交通信号控制方法和设备

技术领域

本发明涉及城市交通信号控制领域，具体涉及一种交叉口交通信号控制方法和设备。

背景技术

随着中国经济的高速增长以及城市化进程的加快，大量人口涌入城市，交通设施兴建和改善的速度远远赶不上人们日益增长的交通需求，交通拥堵问题日益突出。

交通拥堵问题出现的原因是多方面的，除去交通设施不充足、交通规划不合理以及公众交通意识淡薄等因素外，一个很重要的因素是现有的城市交通信号控制系统并未充分发挥作用。由于城市交通问题的特殊性，难以建立起精确的数学模型。简单的定时控制、感应控制方法很难适应越来越复杂的交通状况。

自适应动态规划(ADP)理论融合了动态规划、强化学习以及函数逼近等方法，其利用在线或离线数据，采用函数近似结构来估计系统的性能指标函数，然后依据最优性原理来获得近似最优的控制测量。动作倚赖启发式动态规划(ADHDP)方法是一种典型的自适应动态规划方法，因其具有无模型自适应的特点，能够满足系统参数变化频繁，实时性要求较高，难以建立精确模型的城市交通系统的控制要求。

发明内容

本发明的一个方面提供了一种用于交叉口交通信号控制的ADHDP控制器离线训练方法，该ADHDP控制器包括Action网络和Critic网络，该方法包括：在步骤S1，定义系统状态、回报函数、绿信比和系统控制参数；在步骤S2，建立Action网络和Critic网络，其中：Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M_a，M_a为经验值；以及Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为M_c，M_c为经验值；在步骤S3，初始化ADHDP控制器，包括：初始化Action网络权值和初始化Critic网络权值；在步骤S4，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数u(k)，将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行；在步骤S5，将系统状态S(k)和系统控制参数u(k)输入至Critic网络，输出性能指标J(k)；在步骤S6，交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络，以更新Critic网络的权值和Action网络的权值；以及在步骤S7，判断是否达到预期设定的目标：当达到预期设定的目标时，在步骤S8，离线训练结束，记录最终的Action网络的权值和Critic网络的权值；否则，返回步骤S6继续训练。

本发明的另一个方面提供了一种使用根据以上方法训练的ADHDP控制器来在线控制交叉口交通信号的方法，包括：分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络；将在线系统的实时交通数据输入到ADHDP控制器；以及根据步骤S1中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。

本发明的另一方面提供了一种用于交叉口交通信号控制的ADHDP控制器离线训练设备，该ADHDP控制器包括Action网络和Critic网络，该设备包括：第一装置，定义系统状态、回报函数、绿信比和系统控制参数；第二装置，建立Action网络和Critic网络，其中：Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M_a，M_a为经验值；以及Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为M_c，M_c为经验值；第三装置，初始化ADHDP控制器，包括：初始化Action网络权值和初始化Critic网络权值；第四装置，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数u(k)，将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行；第五装置，将系统状态S(k)和系统控制参数u(k)输入至Critic网络，输出性能指标J(k)；第六装置，交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络，以更新Critic网络的权值和Action网络的权值；以及第七装置，判断是否达到预期设定的目标：当达到预期设定的目标时，离线训练结束，记录最终的Action网络的权值和Critic网络的权值；否则，使用第六装置继续训练。

本发明的另一个方面提供了一种使用以上设备训练的ADHDP控制器来在线控制交叉口交通信号的设备，包括：第八装置，分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络；第九装置，将在线系统的实时交通数据输入到ADHDP控制器；以及第十装置，根据第一装置中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。

本发明有效地克服了现有技术中的不足。本发明的交叉口交通信号控制方法具有在线学习能力，能在交通流量发生变化、非机动车流比例较大等实际工程应用的复杂环境中，通过对环境反馈的学习，计算出交叉口的配时参数，实现对交通流多变的交叉口的有效控制。该方法不需要建立交通模型，能够根据交通状态，模拟人脑通过环境反馈进行学习，从而实现对交通信号的自适应控制。

附图说明

图1示意性示出了本发明的离线训练方法流程图。

图2示意性示出了ADHDP结构和训练示意图。

图3示意性示出了Action网络和Critic网络结构示意图。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步详细说明。以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。

参考图1和图2说明本发明的实施例。图1示意性示出了本发明的ADHDP控制器离线训练方法流程图。图2示意性示出了ADHDP结构和训练示意图。在下文中，以一个两相位的交叉口为例进行说明。

如图1所示，该方法开始于步骤S0。

在步骤S1，定义系统状态、回报函数、绿信比和系统控制参数。

以如下方式定义系统状态。假设每个控制周期内有P个相位，相位时间长度为T_i，每个相位有L_i个车道获得通行权限，各车道最大排队长度为h_i，相位排队长度H_i＝max{h_i}，相位平均排队长度各车道的流量为q_j，相位流量为Q_i＝max{q_j}，定义相位饱和度为其中1≤i≤P，1≤j≤L_i，ε为归一化常数。

定义系统状态为S(k)＝{s_i(k)}，1≤i≤P，其中k为仿真步数，步长为第k个控制周期的时间长度C_k，周期长度可根据历史流量用Webster方法确定，取值通常在30秒到120秒之间。

定义回报函数为其中N＝P-1，P≥2。

定义绿信比为a_i，其中1≤i≤P-1。最后一个相位的绿信比

系统控制参数为u(k)＝{a_i(k)}，1≤i≤P。

在两相位的示例中，系统状态为S(k)＝{s_i(k)}，其中i＝1，2。第一个相位的绿信比为a₁，则有第二个相位绿信比为a₂＝1-a₁。

在步骤S2，建立Action网络和Critic网络。如图3所示，Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M_a，隐层神经元个数M_a为经验值，通常在5～20之间。Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为M_c，隐层神经元个数M_c为经验值，通常在5～20之间。

在两相位的示例中，Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2，输出层神经元个数为2，隐层的神经元个数为8。Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为3，输出层神经元个数为1，隐层的神经元个数为8。

在步骤S3，初始化控制器，包括初始化Action网络权值和Critic网络权值。可以将Action网络的学习率设置为l_a，学习率l_a通常为0～1之间的常数，每一步训练次数设置为N_a，训练次数N_a为经验值，通常在5～50之间。可以将Critic网络的学习率设置为l_c，学习率l_c通常为0～1之间的常数，每一步训练次数设置为N_c，训练次数N_c为经验值，通常在5～50之间。对于Action网络和Critic网络，均可以采用Sigmoid函数作为激活函数，β通常取1。

在两相位的示例中，初始化Action网络权值取0到1之间的随机数，学习率为0.3，每一步训练次数为5。初始化Critic网络权值取0到1之间的随机数，学习率为0.1，每一步训练次数为5。

在步骤S4，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数u(k)。例如，可以从仿真软件接收采集到的路口各车道的流量q_j以及排队长度h_i数据，得到系统状态S(k)，将系统状态作为Action网络的输入，得到对应的输出u(k)，将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行。在本实施例中，采用paramic仿真软件与控制器进行连接，控制器与仿真软件通过共享文件交互信息。

在步骤S5，将系统状态S(k)和系统控制参数u(k)输入至Critic网络，输出性能指标J(k)。

在步骤S6，交替训练Critic网络和Action网络，包括：

将Critic网络的训练误差定义为：

α取值通常在0～1之间，在两相位的示例中α＝0.2。

Critic网络的权值更新采用如下方式：

w_c(k+1)＝w_c(k)+Δw_c(k)

将Action网络的训练误差定义为：

式中G_c(k)为控制目标，在两相位的示例中G_c(k)＝0。

Action网络的权值更新采用如下方式：

w_a(k+1)＝w_a(k)+Δw_a(k)

交替训练流程如下：将基于路口各车道的流量q_j以及排队长度h_i等交通数据的网络状态输入至Action网络，得到系统控制参数u(k)，输入系统状态和系统控制参数u(k)到评价网络，得到性能指标。根据性能指标和回报函数计算Critic网络的训练误差，并根据该训练误差更新Critic网络的权值。根据性能指标计算Action网络的训练误差，并根据该训练误差更新Action网络的权值。如此循环往复，至达到预期设定的目标为止。

在步骤S7，判断是否达到训练目标。当达到预取设定的目标时，在步骤S8，离线训练结束，记录最终的Action网络的权值和Critic网络的权值。否则，返回步骤S6继续训练。

在本实施例中，预期设定的目标为：|e_a|＜0.05，|e_c|＜0.05，其中：e_a＝J(k)，e_c＝αJ(k)-J(k-1)+r(k)。达到目标后记录Action网络和Critic网络的权值。

本发明还提供了一种使用以上方法训练的ADHDP控制器来在线控制交叉口交通信号的方法，包括：

分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络，将在线系统的实时数据(包括路口各车道的流量q_j以及排队长度h_i)输入到ADHDP控制器，根据步骤S1中的定义得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。可选地，该方法还可以包括根据步骤S5和S6进行在线训练，以实时更新Action网络的权值和Critic网络的权值。

本发明的以上方法步骤并非必须以所例示的顺序执行。在不脱离本发明精神的前提下，在变型实施例中，可以以不同顺序执行上述步骤并且/或者并行执行某些步骤。这些变型均落入本发明的保护范围。

本发明的上述方法可以通过具有计算功能的设备(例如处理器)执行存储在存储设备中的计算机指令来实现。这种实现方式的一个示例是一种用于交叉口交通信号控制的ADHDP控制器离线训练设备，该ADHDP控制器包括Action网络和Critic网络，该设备包括：第一装置，定义系统状态、回报函数、绿信比和系统控制参数；第二装置，建立Action网络和Critic网络，其中：Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M_a，M_a为经验值；以及Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为M_c，M_c为经验值；第三装置，初始化ADHDP控制器，包括：初始化Action网络权值和初始化Critic网络权值；第四装置，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数u(k)，将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行；第五装置，将系统状态S(k)和系统控制参数u(k)输入至Critic网络，输出性能指标J(k)；第六装置，交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络，以更新Critic网络的权值和Action网络的权值；以及第七装置，判断是否达到预期设定的目标：当达到预期设定的目标时，离线训练结束，记录最终的Action网络的权值和Critic网络的权值；否则，使用第六装置继续训练。

这种实现方式的另一个示例是一种使用以上设备训练的ADHDP控制器来在线控制交叉口交通信号的设备，包括：第八装置，分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络；第九装置，将在线系统的实时交通数据输入到ADHDP控制器；以及第十装置，根据第一装置中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。

在这种实现方式中，上述各个装置是计算设备执行指令而产生的相应功能模块。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种用于交叉口交通信号控制的ADHDP控制器离线训练方法，该ADHDP控制器包括Action网络和Critic网络，该方法包括：

在步骤S1，定义系统状态、回报函数、绿信比和系统控制参数；

在步骤S2，建立Action网络和Critic网络，其中：

Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M_a，M_a为经验值；以及

Critic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为M_c，M_c为经验值；

在步骤S3，初始化ADHDP控制器，包括：初始化Action网络权值和初始化Critic网络权值；

在步骤S4，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数u(k)，将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行；

在步骤S5，将系统状态S(k)和系统控制参数u(k)输入至Critic网络，输出性能指标J(k)；

在步骤S6，交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络，以更新Critic网络的权值和Action网络的权值；以及

在步骤S7，判断是否达到预期设定的目标：当达到预期设定的目标时，在步骤S8，离线训练结束，记录最终的Action网络的权值和Critic网络的权值；否则，返回步骤S6继续训练。

2.根据权利要求1所述的方法，其中定义系统状态、回报函数、绿信比和系统控制参数包括：

定义系统状态，包括：假设每个控制周期内有P个相位，相位时间长度为T_i，每个相位有L_i个车道获得通行权限，各车道最大排队长度为h_i，相位排队长度H_i＝max{h_i}，相位平均排队长度各车道的流量为q_j，相位流量为Q_i＝max{q_j}，定义相位饱和度为其中1≤i≤P，1≤j≤L_i，ε为归一化常数，定义系统状态为S(k)＝{s_i(k)}，1≤i≤P，其中k为仿真步数，步长为第k个控制周期的时间长度C_k，根据历史流量用Webster方法确定C_k；

定义回报函数为其中N＝P-1，P≥2；

定义绿信比为α_i，其中1≤i≤P-1，绿信比是第i个相位的绿灯亮时长与控制周期的时长之比，最后一个相位的绿信比以及

定义系统控制参数为u(k)＝{a_i(k)}，1≤i≤P。

3.根据权利要求2所述的方法，其中每个控制周期是给定路口的一个完整的交通信号变化周期。

4.根据权利要求2所述的方法，其中每个相位对应于给定路口的一种交通信号状态。

5.根据权利要求1所述的方法，其中初始化ADHDP控制器还包括：

将Action网络的学习率设置为l_a，学习率l_a的值在为0～1之间，每一步训练次数设置为N_a，训练次数N_a的值在5～50之间；

将Critic网络的学习率设置为l_c，学习率l_c的值在0～1之间，每一步训练次数设置为N_c，训练次数N_c的值在5～50之间；以及

对于Action网络和Critic网络，均使用Sigmoid函数作为激活函数，β等于1。

6.根据权利要求2所述的方法，其中获取系统状态包括：从仿真软件接收路口各车道的流量q_j以及排队长度h_i数据，得到系统状态S(k)。

7.根据权利要求2所述的方法，其中训练Critic网络和Action网络包括：

根据性能指标和回报函数计算Critic网络的训练误差；

根据该训练误差更新Critic网络的权值；

根据性能指标计算Action网络的训练误差；以及

根据该训练误差更新Action网络的权值。

8.根据权利要求7所述的方法，其中：

将Critic网络的训练误差定义为：

α取值在0～1之间，

Critic网络的权值更新采用如下方式：

w_c(k+1)＝w_c(k)+Δw_c(k)

<mrow> <msub> <mi>&Delta;w</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

将Action网络的训练误差定义为：

式中G_c(k)为控制目标，G_c(k)＝0；

Action网络的权值更新采用如下方式：

w_a(k+1)＝w_a(k)+Δw_a(k)

<mrow> <msub> <mi>&Delta;w</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>E</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>E</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>u</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mfrac> <mrow> <mo>&part;</mo> <mi>u</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>w</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

9.根据权利要求1所述的方法，其中M_a的值在5～20之间，M_c的值在5～20之间。

10.根据权利要求1所述的方法，其中：

预期设定的目标是交叉口总延误时间或各车道平均车辆速度；

如果预期设定的目标是交叉口总延误时间，则在步骤S7，当总延误时间小于或接近预期设定的总延误时间时，该方法进行到步骤S8，否则返回步骤S6继续训练；

如果预期设定的目标是各车道平均车辆速度，则当各车道平均车辆速度大于或接近预期设定的平均车辆速度时，该方法进行到步骤S8，否则返回步骤S6继续训练。

11.根据权利要求2所述的方法，其中C_k取值在30秒到120秒之间。

12.一种使用根据权利要求1-11中任一项的方法训练的ADHDP控制器来在线控制交叉口交通信号的方法，包括：

分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络；

将在线系统的实时交通数据输入到ADHDP控制器；以及

根据步骤S1中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。

13.根据权利要求12所述的方法，其中在线系统的实时交通数据包括路口各车道的流量q_j以及排队长度h_i。

14.根据权利要求12所述的方法，还包括根据步骤S5和S6进行在线训练，以实时更新Action网络的权值和Critic网络的权值。

15.一种用于交叉口交通信号控制的ADHDP控制器离线训练设备，该ADHDP控制器包括Action网络和Critic网络，该设备包括：

第一装置，定义系统状态、回报函数、绿信比和系统控制参数；

第二装置，建立Action网络和Critic网络，其中：

第三装置，初始化ADHDP控制器，包括：初始化Action网络权值和初始化Critic网络权值；

第四装置，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数u(k)，将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行；

第五装置，将系统状态S(k)和系统控制参数u(k)输入至Critic网络，输出性能指标J(k)；

第六装置，交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络，以更新Critic网络的权值和Action网络的权值；以及

第七装置，判断是否达到预期设定的目标：当达到预期设定的目标时，离线训练结束，记录最终的Action网络的权值和Critic网络的权值；否则，使用第六装置继续训练。

16.根据权利要求15所述的设备，其中定义系统状态、回报函数、绿信比和系统控制参数包括：

定义回报函数为其中N＝P-1，P≥2；

定义系统控制参数为u(k)＝{a_i(k)}，1≤i≤P。

17.根据权利要求16所述的设备，其中每个控制周期是给定路口的一个完整的交通信号变化周期。

18.根据权利要求16所述的设备，其中每个相位对应于给定路口的一种交通信号状态。

19.根据权利要求15所述的设备，其中初始化ADHDP控制器还包括：

20.根据权利要求16所述的设备，其中获取系统状态包括：从仿真软件接收路口各车道的流量q_j以及排队长度h_i数据，得到系统状态S(k)。

21.根据权利要求16所述的设备，其中训练Critic网络和Action网络包括：

根据性能指标和回报函数计算Critic网络的训练误差；

根据该训练误差更新Critic网络的权值；

根据性能指标计算Action网络的训练误差；以及

根据该训练误差更新Action网络的权值。

22.根据权利要求21所述的设备，其中：

将Critic网络的训练误差定义为：

α取值在0～1之间，

Critic网络的权值更新采用如下方式：

w_c(k+1)＝w_c(k)+Δw_c(k)

将Action网络的训练误差定义为：

式中G_c(k)为控制目标，G_c(k)＝0；

Action网络的权值更新采用如下方式：

w_a(k+1)＝w_a(k)+Δw_a(k)

23.根据权利要求15所述的设备，其中M_a的值在5～20之间，M_c的值在5～20之间。

24.根据权利要求15所述的设备，其中：

如果预期设定的目标是交叉口总延误时间，则在第七装置中，当总延误时间小于或接近预期设定的总延误时间时，离线训练结束，记录最终的Action网络的权值和Critic网络的权值，否则使用第六装置继续训练；

如果预期设定的目标是各车道平均车辆速度，则当各车道平均车辆速度大于或接近预期设定的平均车辆速度时，该离线训练结束，记录最终的Action网络的权值和Critic网络的权值，否则使用第六装置继续训练。

25.根据权利要求16所述的设备，其中C_k取值在30秒到120秒之间。

26.一种使用根据权利要求15-25中任一项的设备训练的ADHDP控制器来在线控制交叉口交通信号的设备，包括：

第八装置，分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络；

第九装置，将在线系统的实时交通数据输入到ADHDP控制器；以及

第十装置，根据第一装置中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。

27.根据权利要求26所述的设备，其中在线系统的实时交通数据包括路口各车道的流量q_j以及排队长度h_i。

28.根据权利要求26所述的设备，还包括使用第五装置和第六装置进行在线训练，以实时更新Action网络的权值和Critic网络的权值。