CN105279978B - 交叉口交通信号控制方法和设备 - Google Patents
交叉口交通信号控制方法和设备 Download PDFInfo
- Publication number
- CN105279978B CN105279978B CN201510665966.1A CN201510665966A CN105279978B CN 105279978 B CN105279978 B CN 105279978B CN 201510665966 A CN201510665966 A CN 201510665966A CN 105279978 B CN105279978 B CN 105279978B
- Authority
- CN
- China
- Prior art keywords
- mrow
- networks
- msub
- critic
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种交叉口交通信号控制方法,该方法能够根据交通状态,通过环境反馈进行学习,从而实现对交通信号的自适应控制。该方法包括:定义系统参数;建立Action网络和Critic网络;初始化控制器;根据系统状态得到相应系统控制参数;根据状态和动作得到性能指标;交替训练Critic网络和Action网络;达到训练目标之后记录网络权值;以及使用训练好的Critic网络和Action网络进行在线控制。本发明利用ADHDP方法对交叉口交通信号的自适应控制提供了一种有效途径。
Description
技术领域
本发明涉及城市交通信号控制领域,具体涉及一种交叉口交通信号控制方法和设备。
背景技术
随着中国经济的高速增长以及城市化进程的加快,大量人口涌入城市,交通设施兴建和改善的速度远远赶不上人们日益增长的交通需求,交通拥堵问题日益突出。
交通拥堵问题出现的原因是多方面的,除去交通设施不充足、交通规划不合理以及公众交通意识淡薄等因素外,一个很重要的因素是现有的城市交通信号控制系统并未充分发挥作用。由于城市交通问题的特殊性,难以建立起精确的数学模型。简单的定时控制、感应控制方法很难适应越来越复杂的交通状况。
自适应动态规划(ADP)理论融合了动态规划、强化学习以及函数逼近等方法,其利用在线或离线数据,采用函数近似结构来估计系统的性能指标函数,然后依据最优性原理来获得近似最优的控制测量。动作倚赖启发式动态规划(ADHDP)方法是一种典型的自适应动态规划方法,因其具有无模型自适应的特点,能够满足系统参数变化频繁,实时性要求较高,难以建立精确模型的城市交通系统的控制要求。
发明内容
本发明的一个方面提供了一种用于交叉口交通信号控制的ADHDP控制器离线训练方法,该ADHDP控制器包括Action网络和Critic网络,该方法包括:在步骤S1,定义系统状态、回报函数、绿信比和系统控制参数;在步骤S2,建立Action网络和Critic网络,其中:Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经元个数为Ma,Ma为经验值;以及Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mc,Mc为经验值;在步骤S3,初始化ADHDP控制器,包括:初始化Action网络权值和初始化Critic网络权值;在步骤S4,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相应系统控制参数u(k),将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行;在步骤S5,将系统状态S(k)和系统控制参数u(k)输入至Critic网络,输出性能指标J(k);在步骤S6,交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络,以更新Critic网络的权值和Action网络的权值;以及在步骤S7,判断是否达到预期设定的目标:当达到预期设定的目标时,在步骤S8,离线训练结束,记录最终的Action网络的权值和Critic网络的权值;否则,返回步骤S6继续训练。
本发明的另一个方面提供了一种使用根据以上方法训练的ADHDP控制器来在线控制交叉口交通信号的方法,包括:分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络;将在线系统的实时交通数据输入到ADHDP控制器;以及根据步骤S1中的定义,从在线系统的实时交通数据得到系统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。
本发明的另一方面提供了一种用于交叉口交通信号控制的ADHDP控制器离线训练设备,该ADHDP控制器包括Action网络和Critic网络,该设备包括:第一装置,定义系统状态、回报函数、绿信比和系统控制参数;第二装置,建立Action网络和Critic网络,其中:Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经元个数为Ma,Ma为经验值;以及Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mc,Mc为经验值;第三装置,初始化ADHDP控制器,包括:初始化Action网络权值和初始化Critic网络权值;第四装置,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相应系统控制参数u(k),将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行;第五装置,将系统状态S(k)和系统控制参数u(k)输入至Critic网络,输出性能指标J(k);第六装置,交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络,以更新Critic网络的权值和Action网络的权值;以及第七装置,判断是否达到预期设定的目标:当达到预期设定的目标时,离线训练结束,记录最终的Action网络的权值和Critic网络的权值;否则,使用第六装置继续训练。
本发明的另一个方面提供了一种使用以上设备训练的ADHDP控制器来在线控制交叉口交通信号的设备,包括:第八装置,分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络;第九装置,将在线系统的实时交通数据输入到ADHDP控制器;以及第十装置,根据第一装置中的定义,从在线系统的实时交通数据得到系统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。
本发明有效地克服了现有技术中的不足。本发明的交叉口交通信号控制方法具有在线学习能力,能在交通流量发生变化、非机动车流比例较大等实际工程应用的复杂环境中,通过对环境反馈的学习,计算出交叉口的配时参数,实现对交通流多变的交叉口的有效控制。该方法不需要建立交通模型,能够根据交通状态,模拟人脑通过环境反馈进行学习,从而实现对交通信号的自适应控制。
附图说明
图1示意性示出了本发明的离线训练方法流程图。
图2示意性示出了ADHDP结构和训练示意图。
图3示意性示出了Action网络和Critic网络结构示意图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步详细说明。以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
参考图1和图2说明本发明的实施例。图1示意性示出了本发明的ADHDP控制器离线训练方法流程图。图2示意性示出了ADHDP结构和训练示意图。在下文中,以一个两相位的交叉口为例进行说明。
如图1所示,该方法开始于步骤S0。
在步骤S1,定义系统状态、回报函数、绿信比和系统控制参数。
以如下方式定义系统状态。假设每个控制周期内有P个相位,相位时间长度为Ti,每个相位有Li个车道获得通行权限,各车道最大排队长度为hi,相位排队长度Hi=max{hi},相位平均排队长度各车道的流量为qj,相位流量为Qi=max{qj},定义相位饱和度为其中1≤i≤P,1≤j≤Li,ε为归一化常数。
定义系统状态为S(k)={si(k)},1≤i≤P,其中k为仿真步数,步长为第k个控制周期的时间长度Ck,周期长度可根据历史流量用Webster方法确定,取值通常在30秒到120秒之间。
定义回报函数为其中N=P-1,P≥2。
定义绿信比为ai,其中1≤i≤P-1。最后一个相位的绿信比
系统控制参数为u(k)={ai(k)},1≤i≤P。
在两相位的示例中,系统状态为S(k)={si(k)},其中i=1,2。第一个相位的绿信比为a1,则有第二个相位绿信比为a2=1-a1。
在步骤S2,建立Action网络和Critic网络。如图3所示,Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经元个数为Ma,隐层神经元个数Ma为经验值,通常在5~20之间。Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mc,隐层神经元个数Mc为经验值,通常在5~20之间。
在两相位的示例中,Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2,输出层神经元个数为2,隐层的神经元个数为8。Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为3,输出层神经元个数为1,隐层的神经元个数为8。
在步骤S3,初始化控制器,包括初始化Action网络权值和Critic网络权值。可以将Action网络的学习率设置为la,学习率la通常为0~1之间的常数,每一步训练次数设置为Na,训练次数Na为经验值,通常在5~50之间。可以将Critic网络的学习率设置为lc,学习率lc通常为0~1之间的常数,每一步训练次数设置为Nc,训练次数Nc为经验值,通常在5~50之间。对于Action网络和Critic网络,均可以采用Sigmoid函数作为激活函数,β通常取1。
在两相位的示例中,初始化Action网络权值取0到1之间的随机数,学习率为0.3,每一步训练次数为5。初始化Critic网络权值取0到1之间的随机数,学习率为0.1,每一步训练次数为5。
在步骤S4,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相应系统控制参数u(k)。例如,可以从仿真软件接收采集到的路口各车道的流量qj以及排队长度hi数据,得到系统状态S(k),将系统状态作为Action网络的输入,得到对应的输出u(k),将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行。在本实施例中,采用paramic仿真软件与控制器进行连接,控制器与仿真软件通过共享文件交互信息。
在步骤S5,将系统状态S(k)和系统控制参数u(k)输入至Critic网络,输出性能指标J(k)。
在步骤S6,交替训练Critic网络和Action网络,包括:
将Critic网络的训练误差定义为:
α取值通常在0~1之间,在两相位的示例中α=0.2。
Critic网络的权值更新采用如下方式:
wc(k+1)=wc(k)+Δwc(k)
将Action网络的训练误差定义为:
式中Gc(k)为控制目标,在两相位的示例中Gc(k)=0。
Action网络的权值更新采用如下方式:
wa(k+1)=wa(k)+Δwa(k)
交替训练流程如下:将基于路口各车道的流量qj以及排队长度hi等交通数据的网络状态输入至Action网络,得到系统控制参数u(k),输入系统状态和系统控制参数u(k)到评价网络,得到性能指标。根据性能指标和回报函数计算Critic网络的训练误差,并根据该训练误差更新Critic网络的权值。根据性能指标计算Action网络的训练误差,并根据该训练误差更新Action网络的权值。如此循环往复,至达到预期设定的目标为止。
在步骤S7,判断是否达到训练目标。当达到预取设定的目标时,在步骤S8,离线训练结束,记录最终的Action网络的权值和Critic网络的权值。否则,返回步骤S6继续训练。
在本实施例中,预期设定的目标为:|ea|<0.05,|ec|<0.05,其中:ea=J(k),ec=αJ(k)-J(k-1)+r(k)。达到目标后记录Action网络和Critic网络的权值。
本发明还提供了一种使用以上方法训练的ADHDP控制器来在线控制交叉口交通信号的方法,包括:
分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络,将在线系统的实时数据(包括路口各车道的流量qj以及排队长度hi)输入到ADHDP控制器,根据步骤S1中的定义得到系统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。可选地,该方法还可以包括根据步骤S5和S6进行在线训练,以实时更新Action网络的权值和Critic网络的权值。
本发明的以上方法步骤并非必须以所例示的顺序执行。在不脱离本发明精神的前提下,在变型实施例中,可以以不同顺序执行上述步骤并且/或者并行执行某些步骤。这些变型均落入本发明的保护范围。
本发明的上述方法可以通过具有计算功能的设备(例如处理器)执行存储在存储设备中的计算机指令来实现。这种实现方式的一个示例是一种用于交叉口交通信号控制的ADHDP控制器离线训练设备,该ADHDP控制器包括Action网络和Critic网络,该设备包括:第一装置,定义系统状态、回报函数、绿信比和系统控制参数;第二装置,建立Action网络和Critic网络,其中:Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经元个数为Ma,Ma为经验值;以及Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mc,Mc为经验值;第三装置,初始化ADHDP控制器,包括:初始化Action网络权值和初始化Critic网络权值;第四装置,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相应系统控制参数u(k),将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行;第五装置,将系统状态S(k)和系统控制参数u(k)输入至Critic网络,输出性能指标J(k);第六装置,交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络,以更新Critic网络的权值和Action网络的权值;以及第七装置,判断是否达到预期设定的目标:当达到预期设定的目标时,离线训练结束,记录最终的Action网络的权值和Critic网络的权值;否则,使用第六装置继续训练。
这种实现方式的另一个示例是一种使用以上设备训练的ADHDP控制器来在线控制交叉口交通信号的设备,包括:第八装置,分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络;第九装置,将在线系统的实时交通数据输入到ADHDP控制器;以及第十装置,根据第一装置中的定义,从在线系统的实时交通数据得到系统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。
在这种实现方式中,上述各个装置是计算设备执行指令而产生的相应功能模块。
尽管已经参照本发明的特定示例性实施例示出并描述了本发明,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下,可以对本发明进行形式和细节上的多种改变。因此,本发明的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (28)
1.一种用于交叉口交通信号控制的ADHDP控制器离线训练方法,该ADHDP控制器包括Action网络和Critic网络,该方法包括:
在步骤S1,定义系统状态、回报函数、绿信比和系统控制参数;
在步骤S2,建立Action网络和Critic网络,其中:
Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经元个数为Ma,Ma为经验值;以及
Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mc,Mc为经验值;
在步骤S3,初始化ADHDP控制器,包括:初始化Action网络权值和初始化Critic网络权值;
在步骤S4,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相应系统控制参数u(k),将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行;
在步骤S5,将系统状态S(k)和系统控制参数u(k)输入至Critic网络,输出性能指标J(k);
在步骤S6,交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络,以更新Critic网络的权值和Action网络的权值;以及
在步骤S7,判断是否达到预期设定的目标:当达到预期设定的目标时,在步骤S8,离线训练结束,记录最终的Action网络的权值和Critic网络的权值;否则,返回步骤S6继续训练。
2.根据权利要求1所述的方法,其中定义系统状态、回报函数、绿信比和系统控制参数包括:
定义系统状态,包括:假设每个控制周期内有P个相位,相位时间长度为Ti,每个相位有Li个车道获得通行权限,各车道最大排队长度为hi,相位排队长度Hi=max{hi},相位平均排队长度各车道的流量为qj,相位流量为Qi=max{qj},定义相位饱和度为其中1≤i≤P,1≤j≤Li,ε为归一化常数,定义系统状态为S(k)={si(k)},1≤i≤P,其中k为仿真步数,步长为第k个控制周期的时间长度Ck,根据历史流量用Webster方法确定Ck;
定义回报函数为其中N=P-1,P≥2;
定义绿信比为αi,其中1≤i≤P-1,绿信比是第i个相位的绿灯亮时长与控制周期的时长之比,最后一个相位的绿信比以及
定义系统控制参数为u(k)={ai(k)},1≤i≤P。
3.根据权利要求2所述的方法,其中每个控制周期是给定路口的一个完整的交通信号变化周期。
4.根据权利要求2所述的方法,其中每个相位对应于给定路口的一种交通信号状态。
5.根据权利要求1所述的方法,其中初始化ADHDP控制器还包括:
将Action网络的学习率设置为la,学习率la的值在为0~1之间,每一步训练次数设置为Na,训练次数Na的值在5~50之间;
将Critic网络的学习率设置为lc,学习率lc的值在0~1之间,每一步训练次数设置为Nc,训练次数Nc的值在5~50之间;以及
对于Action网络和Critic网络,均使用Sigmoid函数作为激活函数,β等于1。
6.根据权利要求2所述的方法,其中获取系统状态包括:从仿真软件接收路口各车道的流量qj以及排队长度hi数据,得到系统状态S(k)。
7.根据权利要求2所述的方法,其中训练Critic网络和Action网络包括:
根据性能指标和回报函数计算Critic网络的训练误差;
根据该训练误差更新Critic网络的权值;
根据性能指标计算Action网络的训练误差;以及
根据该训练误差更新Action网络的权值。
8.根据权利要求7所述的方法,其中:
将Critic网络的训练误差定义为:
α取值在0~1之间,
Critic网络的权值更新采用如下方式:
wc(k+1)=wc(k)+Δwc(k)
<mrow>
<msub>
<mi>&Delta;w</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
将Action网络的训练误差定义为:
式中Gc(k)为控制目标,Gc(k)=0;
Action网络的权值更新采用如下方式:
wa(k+1)=wa(k)+Δwa(k)
<mrow>
<msub>
<mi>&Delta;w</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>u</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>u</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>.</mo>
</mrow>
9.根据权利要求1所述的方法,其中Ma的值在5~20之间,Mc的值在5~20之间。
10.根据权利要求1所述的方法,其中:
预期设定的目标是交叉口总延误时间或各车道平均车辆速度;
如果预期设定的目标是交叉口总延误时间,则在步骤S7,当总延误时间小于或接近预期设定的总延误时间时,该方法进行到步骤S8,否则返回步骤S6继续训练;
如果预期设定的目标是各车道平均车辆速度,则当各车道平均车辆速度大于或接近预期设定的平均车辆速度时,该方法进行到步骤S8,否则返回步骤S6继续训练。
11.根据权利要求2所述的方法,其中Ck取值在30秒到120秒之间。
12.一种使用根据权利要求1-11中任一项的方法训练的ADHDP控制器来在线控制交叉口交通信号的方法,包括:
分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络;
将在线系统的实时交通数据输入到ADHDP控制器;以及
根据步骤S1中的定义,从在线系统的实时交通数据得到系统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。
13.根据权利要求12所述的方法,其中在线系统的实时交通数据包括路口各车道的流量qj以及排队长度hi。
14.根据权利要求12所述的方法,还包括根据步骤S5和S6进行在线训练,以实时更新Action网络的权值和Critic网络的权值。
15.一种用于交叉口交通信号控制的ADHDP控制器离线训练设备,该ADHDP控制器包括Action网络和Critic网络,该设备包括:
第一装置,定义系统状态、回报函数、绿信比和系统控制参数;
第二装置,建立Action网络和Critic网络,其中:
Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经元个数为Ma,Ma为经验值;以及
Critic网络为具有一个隐层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mc,Mc为经验值;
第三装置,初始化ADHDP控制器,包括:初始化Action网络权值和初始化Critic网络权值;
第四装置,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相应系统控制参数u(k),将系统控制参数u(k)输出至仿真软件以指导下一个周期的运行;
第五装置,将系统状态S(k)和系统控制参数u(k)输入至Critic网络,输出性能指标J(k);
第六装置,交替地根据性能指标和回报函数训练Critic网络以及根据性能指标训练Action网络,以更新Critic网络的权值和Action网络的权值;以及
第七装置,判断是否达到预期设定的目标:当达到预期设定的目标时,离线训练结束,记录最终的Action网络的权值和Critic网络的权值;否则,使用第六装置继续训练。
16.根据权利要求15所述的设备,其中定义系统状态、回报函数、绿信比和系统控制参数包括:
定义系统状态,包括:假设每个控制周期内有P个相位,相位时间长度为Ti,每个相位有Li个车道获得通行权限,各车道最大排队长度为hi,相位排队长度Hi=max{hi},相位平均排队长度各车道的流量为qj,相位流量为Qi=max{qj},定义相位饱和度为其中1≤i≤P,1≤j≤Li,ε为归一化常数,定义系统状态为S(k)={si(k)},1≤i≤P,其中k为仿真步数,步长为第k个控制周期的时间长度Ck,根据历史流量用Webster方法确定Ck;
定义回报函数为其中N=P-1,P≥2;
定义绿信比为αi,其中1≤i≤P-1,绿信比是第i个相位的绿灯亮时长与控制周期的时长之比,最后一个相位的绿信比以及
定义系统控制参数为u(k)={ai(k)},1≤i≤P。
17.根据权利要求16所述的设备,其中每个控制周期是给定路口的一个完整的交通信号变化周期。
18.根据权利要求16所述的设备,其中每个相位对应于给定路口的一种交通信号状态。
19.根据权利要求15所述的设备,其中初始化ADHDP控制器还包括:
将Action网络的学习率设置为la,学习率la的值在为0~1之间,每一步训练次数设置为Na,训练次数Na的值在5~50之间;
将Critic网络的学习率设置为lc,学习率lc的值在0~1之间,每一步训练次数设置为Nc,训练次数Nc的值在5~50之间;以及
对于Action网络和Critic网络,均使用Sigmoid函数作为激活函数,β等于1。
20.根据权利要求16所述的设备,其中获取系统状态包括:从仿真软件接收路口各车道的流量qj以及排队长度hi数据,得到系统状态S(k)。
21.根据权利要求16所述的设备,其中训练Critic网络和Action网络包括:
根据性能指标和回报函数计算Critic网络的训练误差;
根据该训练误差更新Critic网络的权值;
根据性能指标计算Action网络的训练误差;以及
根据该训练误差更新Action网络的权值。
22.根据权利要求21所述的设备,其中:
将Critic网络的训练误差定义为:
α取值在0~1之间,
Critic网络的权值更新采用如下方式:
wc(k+1)=wc(k)+Δwc(k)
<mrow>
<msub>
<mi>&Delta;w</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
将Action网络的训练误差定义为:
式中Gc(k)为控制目标,Gc(k)=0;
Action网络的权值更新采用如下方式:
wa(k+1)=wa(k)+Δwa(k)
<mrow>
<msub>
<mi>&Delta;w</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>u</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>u</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>.</mo>
</mrow>
23.根据权利要求15所述的设备,其中Ma的值在5~20之间,Mc的值在5~20之间。
24.根据权利要求15所述的设备,其中:
预期设定的目标是交叉口总延误时间或各车道平均车辆速度;
如果预期设定的目标是交叉口总延误时间,则在第七装置中,当总延误时间小于或接近预期设定的总延误时间时,离线训练结束,记录最终的Action网络的权值和Critic网络的权值,否则使用第六装置继续训练;
如果预期设定的目标是各车道平均车辆速度,则当各车道平均车辆速度大于或接近预期设定的平均车辆速度时,该离线训练结束,记录最终的Action网络的权值和Critic网络的权值,否则使用第六装置继续训练。
25.根据权利要求16所述的设备,其中Ck取值在30秒到120秒之间。
26.一种使用根据权利要求15-25中任一项的设备训练的ADHDP控制器来在线控制交叉口交通信号的设备,包括:
第八装置,分别以最终的Action网络的权值和Critic网络的权值初始化Action网络和Critic网络;
第九装置,将在线系统的实时交通数据输入到ADHDP控制器;以及
第十装置,根据第一装置中的定义,从在线系统的实时交通数据得到系统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。
27.根据权利要求26所述的设备,其中在线系统的实时交通数据包括路口各车道的流量qj以及排队长度hi。
28.根据权利要求26所述的设备,还包括使用第五装置和第六装置进行在线训练,以实时更新Action网络的权值和Critic网络的权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510665966.1A CN105279978B (zh) | 2015-10-15 | 2015-10-15 | 交叉口交通信号控制方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510665966.1A CN105279978B (zh) | 2015-10-15 | 2015-10-15 | 交叉口交通信号控制方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105279978A CN105279978A (zh) | 2016-01-27 |
CN105279978B true CN105279978B (zh) | 2018-05-25 |
Family
ID=55148906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510665966.1A Active CN105279978B (zh) | 2015-10-15 | 2015-10-15 | 交叉口交通信号控制方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105279978B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108459506B (zh) * | 2018-03-20 | 2020-12-08 | 清华大学 | 一种风机虚拟惯量控制器的参数整定方法 |
CN114973698B (zh) * | 2022-05-10 | 2024-04-16 | 阿波罗智联(北京)科技有限公司 | 控制信息的生成方法和机器学习模型的训练方法、装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010046291A (ko) * | 1999-11-11 | 2001-06-15 | 정환도 | 코드분할다중접속 방식의 무선통신을 이용한 교통신호제어 시스템 및 그 방법 |
KR20050051956A (ko) * | 2003-11-28 | 2005-06-02 | 주식회사 비츠로시스 | 지역 분할형 교통신호 제어시스템 및 제어 방법 |
JP2007122584A (ja) * | 2005-10-31 | 2007-05-17 | Sumitomo Electric Ind Ltd | 交通信号制御システム、および交通信号制御システムの制御方法 |
CN102568220A (zh) * | 2010-12-17 | 2012-07-11 | 上海市长宁区少年科技指导站 | 一种自适应交通控制系统 |
CN104882006A (zh) * | 2014-07-03 | 2015-09-02 | 中国科学院沈阳自动化研究所 | 一种基于消息的复杂网络交通信号优化控制方法 |
-
2015
- 2015-10-15 CN CN201510665966.1A patent/CN105279978B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010046291A (ko) * | 1999-11-11 | 2001-06-15 | 정환도 | 코드분할다중접속 방식의 무선통신을 이용한 교통신호제어 시스템 및 그 방법 |
KR20050051956A (ko) * | 2003-11-28 | 2005-06-02 | 주식회사 비츠로시스 | 지역 분할형 교통신호 제어시스템 및 제어 방법 |
JP2007122584A (ja) * | 2005-10-31 | 2007-05-17 | Sumitomo Electric Ind Ltd | 交通信号制御システム、および交通信号制御システムの制御方法 |
CN102568220A (zh) * | 2010-12-17 | 2012-07-11 | 上海市长宁区少年科技指导站 | 一种自适应交通控制系统 |
CN104882006A (zh) * | 2014-07-03 | 2015-09-02 | 中国科学院沈阳自动化研究所 | 一种基于消息的复杂网络交通信号优化控制方法 |
Non-Patent Citations (2)
Title |
---|
张鹏程.基于核的连续空间增强学习方法及应用研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2011,(第S2期), * |
齐驰.近似动态规划方法及其在交通中的应用.《中国博士学位论文全文数据库 工程科技Ⅱ辑》.2012, * |
Also Published As
Publication number | Publication date |
---|---|
CN105279978A (zh) | 2016-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Belletti et al. | Expert level control of ramp metering based on multi-task deep reinforcement learning | |
Zhang et al. | Ship motion attitude prediction based on an adaptive dynamic particle swarm optimization algorithm and bidirectional LSTM neural network | |
CN106548475A (zh) | 一种适用于空间非合作自旋目标运动轨迹的预测方法 | |
CN108197739A (zh) | 一种城市轨道交通乘客流量预测方法 | |
CN103489039B (zh) | 具有在线自整定优化能力的高速公路交通流量融合预测方法 | |
CN106373160B (zh) | 一种基于深度强化学习的摄像机主动目标定位方法 | |
CN104217258B (zh) | 一种电力负荷条件密度预测方法 | |
CN109739218A (zh) | 一种基于gru网络的仿优秀驾驶员换道模型建立方法 | |
CN108008627A (zh) | 一种并行优化的强化学习自适应pid控制方法 | |
CN107464023A (zh) | 生命周期预测模型的在线学习方法和设备 | |
CN110415462A (zh) | Atm设备加钞优化方法及装置 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
CN108520155A (zh) | 基于神经网络的车辆行为模拟方法 | |
TWI550530B (zh) | 用於產生尖峰定時依賴可塑性曲線的緊湊表示的方法、設備、電腦可讀取媒體及電腦程式產品 | |
WO2020259504A1 (zh) | 一种强化学习的高效探索方法 | |
CN107807909A (zh) | 一种区域土地用途调控政策模拟与效应分析方法 | |
CN109936860A (zh) | 网络信息流量分配方法、流量分配模型训练方法及装置 | |
CN108983605A (zh) | 一种基于深度强化学习进行流体导向的刚体控制的方法 | |
EP4216098A1 (en) | Methods and apparatuses for constructing vehicle dynamics model and for predicting vehicle state information | |
CN105279978B (zh) | 交叉口交通信号控制方法和设备 | |
Andersen et al. | The dreaming variational autoencoder for reinforcement learning environments | |
Tagliaferri et al. | A real-time strategy-decision program for sailing yacht races | |
Deng et al. | Advanced self-improving ramp metering algorithm based on multi-agent deep reinforcement learning | |
CN108027896A (zh) | 用于解码具有连续突触可塑性的脉冲储层的系统和方法 | |
CN113821903B (zh) | 温度控制方法和设备、模块化数据中心及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |