CN112233458B - 一种面向二次事故预防动态车道与可变限速协同控制方法 - Google Patents

一种面向二次事故预防动态车道与可变限速协同控制方法 Download PDF

Info

Publication number
CN112233458B
CN112233458B CN202011030968.0A CN202011030968A CN112233458B CN 112233458 B CN112233458 B CN 112233458B CN 202011030968 A CN202011030968 A CN 202011030968A CN 112233458 B CN112233458 B CN 112233458B
Authority
CN
China
Prior art keywords
control
traffic
speed limit
section
lane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011030968.0A
Other languages
English (en)
Other versions
CN112233458A (zh
Inventor
徐铖铖
彭畅
刘攀
季彦婕
李志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011030968.0A priority Critical patent/CN112233458B/zh
Publication of CN112233458A publication Critical patent/CN112233458A/zh
Application granted granted Critical
Publication of CN112233458B publication Critical patent/CN112233458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/167Driving aids for lane monitoring, lane changing, e.g. blind spot detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Abstract

本发明提出了一种面向二次事故预防动态车道与可变限速协同控制方法。在事故发生后,交管中心基于摄像头获取的实时交通流数据评估事故影响与上游交通状态,控制不同断面处的可变信号标识发布动态车道与可变限速协同控制指令,引导上游来车提前于上游自由流段合理换道并适当减速以减少下游事故影响,从而降低下游事故引发的二次事故风险,保障交通安全并提高城市快速路通行能力。本发明基于深度强化学习算法,设置奖励函数时兼顾安全与效率两项指标,并针对动态车道与可变限速的不同效果设置修正因子以充分发挥两类控制策略的协同效果。模型采用演员‑评论家(Actor Critic,AC)框架优化。

Description

一种面向二次事故预防动态车道与可变限速协同控制方法
技术领域
本发明属于道路交通安全设计、智能交通管理与控制技术领域,尤其涉及一种面向二次事故预防的动态车道与可变限速协同控制方法。
背景技术
快速道路属于少数能提供完全不间断高速交通流的公路设施类型,在区域交通运输体系中起骨架作用,而事故的发生会形成固定瓶颈,造成伤亡与财产损失,还会产生额外的排放和能源浪费。另外,事故的发生还可能引发二次事故,不仅进一步加剧已有事故的影响,还会极大危害应急人员的生命健康。因此对二次事故发生概率及严重程度的有效控制即是事故预防管理领域的重要任务。
在事故影响下将会形成沿纵向的速度差与横向各车道间的速度差。前者会迫使上游来车剧烈减速,而后者也会产生强烈的换道需求从而形成时走时停波。两类现象叠加一方面降低通行能力,另一方面也增加了追尾等二次事故风险。
动态车道控制与可变限速控制技术均以此出发,基于探测器获取的交通信息在事故发生后于上游交通条件较好处发布合理换道建议和速度建议以降低二次事故风险。前者旨在缓解事故形成的横向速度差,而后者则以平滑纵向速度差为目的。因为控制中心可获取全局交通状态,其发布的换道建议和速度建议具有较高的合理性。
发明内容
发明目的:本发明的目的是提出面向二次事故预防的动态车道与可变限速协同控制方法,通过动态车道与可变限速协同控制降低快速道路事故发生后因受迫换道、盲目换道及受迫减速等行为形成的追尾等二次事故风险。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种面向二次事故预防的动态车道与可变限速协同控制方法,该方法包括以下步骤:
1)构建面向二次事故预防的动态车道与可变限速协同控制系统,包括交通指令发布设备、交通数据采集设备、协同控制模型(Actor)与评价模型(Critic),交通指令发布设备与交通数据采集设备沿快速道路布设,协同控制模型与评价模型均为神经网络模型,协同控制模型与评价模型共同组成控制-评价模型(Actor-Critic);
2)选择可变信号板作为交通指令发布设备,布设于交通龙门架上,悬于道路横断面上方;一台龙门架即为一道控制断面,挂有多片可变信号板,一片可变信号板针对一车道同时发布动态车道与可变限速指令,其中动态车道指令包括“正常通行”、“建议向左换道”、“建议向右换道”三种;可变限速指令包括“保持默认限速”、“下调限速20km/h”两种,可变限速控制指令不区分车道,同一断面的所有车道具有相同的限速,控制断面间距设为500米;
3)选择流量监测摄像头作为交通数据采集设备,间隔地布设于交通龙门架与单悬臂杆上,悬于道路横断面上方,一台龙门架或一支悬臂杆即为一道探测断面,挂有多台摄像头,一台摄像头针对一车道,监控上游50米长区间,每隔1秒采集监控区间内的车道占用率(%)、速度(m/s)、排队长度(m)等交通信息(车道占用率反映交通密度,当一车道被机动车完全占满时对应的占用率为100%)。多道探测断面共同采集的交通信息经过预处理后共同组成交通状态。探测断面间距设为250米。当探测断面与控制断面重合时,摄像头与可变信号板共用相同的龙门架;当探测断面位于两控制断面中间时,摄像头安装于单臂悬臂杆上;
4)构造一神经网络作为控制-评价模型,包含协同控制模型与评价模型两部分,协同控制模型与评价模型共用相同的输入层和中间层,仅输出层不同,每隔一个控制周期T,神经网络以交通状态作为输入值,同时输出控制策略与控制策略的“价值”(Value),其中,控制策略为动态车道与可变限速协同控制,一方面引导上游来车提前于合理断面处减速,一方面引导上游来车提前于合理断面处换道至相邻开放车道;“价值”为一个实数,是对控制策略的长短期综合效益的量化,越大表示相应控制策略在相应交通状态下具有越大的效益,也就是越合适。
进一步的,所述步骤3)中,交通状态由摄像头采集。记摄像头每隔1秒采集实时交通状态为矩阵
Figure BDA0002703651980000021
下标t为相应的时刻,其中t=1指代事故开始的时刻,矩阵
Figure BDA0002703651980000022
由各车道各摄像头采集所得占用率(%)、速度(m/s)、排队长度(m)共同组成,前两项交通变量为宏观交通流基本变量,描述宏观交通特征,最后一项变量更具体地刻画事故影响,在
Figure BDA0002703651980000023
基础上计算修正交通状态St,递推式如下:
Figure BDA0002703651980000024
注意到修正交通状态St不仅包括当前的交通状态
Figure BDA0002703651980000025
也包括此前的所有交通状态
Figure BDA0002703651980000026
从而反映了t时刻及之前的综合交通状态,α表示遗忘因子,以确保在决定St的所有交通状态
Figure BDA0002703651980000027
中近期的交通状态对St具有更大的影响,α越接近1意味着近期信息影响越大,本发明设置其为0.3。
Figure BDA0002703651980000028
与St具有相同的维度3×M×N,其中,3表示采集的3类交通变量,M为路段的车道数,N为路段中探测断面的数量。
进一步的,所述步骤4)中控制-评价模型每隔一个控制周期T=25s,基于该时刻的修正交通状态St,t=kT,
Figure BDA0002703651980000029
输出一次协同控制指令At,t=kT,
Figure BDA00027036519800000210
和对控制指令的期望“价值”V(St),t=kT,
Figure BDA00027036519800000211
AkT通过可变信号板发布,引导上游来车于适当断面减速并换道,持续整个控制周期。
进一步的,所述步骤4)中,为量化控制-评价模型于kT时刻输出的动作AkT的实际效果,计算该控制周期结束后的(k+1)T时刻的奖励值R(k+1)T
Figure BDA0002703651980000031
Figure BDA0002703651980000032
Figure BDA0002703651980000033
式中,SkT,spd即为修正交通状态SkT中与速度有关的元素集合,路段速度均值MEAN(SkT,spd)与标准差S.D.(SkT,spd)共同定义实际奖励值
Figure BDA0002703651980000034
其中速度均值越大说明运输效率越高,而速度变异性越低则意味着相对越安全;
Figure BDA0002703651980000035
定义为修正奖励值,在
Figure BDA0002703651980000036
的基础上加入针对限速控制的修正因子
Figure BDA0002703651980000037
以约束限速控制策略的复杂性与不合理性,具体定义如下:
Figure BDA0002703651980000038
在至少一个断面的限速控制被激活时,修正因子
Figure BDA0002703651980000039
由两项乘积而成,第一项中Vlimit(m/s)为具体的限速大小,MEAN(SkT,spd)为路段速度均值,由此避免于交通条件相对较好的情况下激活限速控制,从而限制策略的不合理性,第二项中
Figure BDA00027036519800000310
为期望的限速控制断面占总断面的比例,由此避免过多的控制断面被激活,从而限制策略的复杂性。(k+1)T时刻的奖励值R(k+1)T定义为
Figure BDA00027036519800000311
相对于
Figure BDA00027036519800000312
的增量,以引导模型尝试超越上一控制周期的效果。
进一步的,所述步骤4)中,控制-评价模型的训练算法采用深度强化学习PPO算法,并引入演员-评论家(Actor-Critic)框架加速收敛。
进一步的,所述步骤4)中,因为强化学习要求模型与环境多次交互,故模型训练过程在交通仿真平台上进行。在仿真平台上初始化事故仿真环境,包括路段长度、车道数、限速、流量、事故位置、事故开始时间、事故结束时间,并布设摄像头和可变信号板,形成探测断面和控制断面。开始事故仿真后基于修正交通状态SkT,控制-评价模型输出的控制指令AkT及“价值”V(SkT),并观察奖励值RkT,计算策略梯度与估值误差并更新控制-评价模型。在交通仿真平台重复进行事故仿真,直至误差收敛得到最优控制-评价模型。
进一步的,所述步骤4)中,在得到最优控制-评价模型后,仅需其中的控制模型即可进行实际控制,即每隔一个控制周期基于修正交通状态SkT输出动态车道与可变限速协同控制指令AkT,既不需要评价模型输出“价值”V(SkT),也不需要观测奖励值RkT
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
1、丰富了面向二次事故预防的控制策略选择。在各项动态控制技术中,可变限速因其高效的控制效果而在安全、效率、环境等领域得到广泛研究,相比之下动态车道控制所得关注较少。然而考虑到两类技术应用原理、适用范围不同,特别是在低流量时可变限速的应用存在一定的局限性,动态车道控制技术在此环境下更有助于兼顾安全与速度两项指标,应用潜力更大。将动态车道控制技术与可变限速控制结合,共同引入二次事故预防策略有助于增强控制手段的利灵活性;
2、同时考虑交通安全与运输效率两项指标。动态车道控制技术提出之初即为了缓解下游部分车道封闭后上游来车频繁低效换道的现象,然而在引导上游来车提前避开封闭车道的同时又不可避免地造成部分车道资源的浪费。同样地,可变限速控制在压缩事故影响的同时也不可避免地形成了新的瓶颈,需要在新的减速瓶颈与原有事故瓶颈之间充分权衡。本研究在动态车道与可变限速协同控制策略训练时设置了由路段速度均值与标准差组成的奖励函数,基于深度强化学习算法进行在线优化,尽可能兼顾交通安全与运输效率两项指标。
3、在考虑控制策略效果的同时也对策略复杂度与不合理性进行限制。本研究在设置策略奖励函数时引入针对策略复杂度与不合理性的修正因子,以避免强化学习时控制模型落入某些复杂且不合理的局部最优值。
附图说明
图1是本发明的控制系统组成与模型训练、决策机制示意图。
图2是本发明的快速道路设备布设示意图。
图3是本发明中协同控制模型的决策流程图。
图4是本发明中控制-评价模型的训练流程图。
图5是本发明中控制-评价模型的结构示意图。
具体实施方式
图1为本发明的控制系统组成与模型训练、决策机制示意图,包括以下步骤:
步骤一,选择可变信号板作为交通指令发布设备,布设于交通龙门架上,悬于道路横断面上方。一台龙门架即为一道控制断面,挂有多片可变信号板,一片可变信号板针对一车道同时发布动态车道与可变限速指令。其中动态车道指令包括“正常通行”、“建议向左换道”、“建议向右换道”三种;可变限速指令包括“保持默认限速”、“下调限速20km/h”两种。可变限速控制指令不区分车道,同一断面的所有车道具有相同的限速。控制断面间距设为500米。
步骤二,选择流量监测摄像头作为交通数据采集设备,沿快速道路布设,间隔地布设于交通龙门架与单悬臂杆上,悬于道路横断面上方。一台龙门架或一支悬臂杆即为一道探测断面,挂有多台摄像头,一台摄像头针对一车道,监控上游50米长区间,每隔1秒采集监控区间内的车道占用率(%)、速度(m/s)、排队长度(m)等交通信息(车道占用率反映交通密度,当一车道被机动车完全占满时对应的占用率为100%)。多道探测断面共同采集的交通信息经过预处理后共同组成交通状态。探测断面间距设为250米。当探测断面与控制断面重合时,摄像头与可变信号板共用相同的龙门架;当探测断面位于俩控制断面中间时,摄像头安装于单臂悬臂杆上。
步骤二中,交通状态由摄像头采集,记摄像头每隔1秒采集实时交通状态为矩阵
Figure BDA0002703651980000051
下标t为相应的时刻,其中t=1指代事故开始的时刻。矩阵
Figure BDA0002703651980000052
由各车道各摄像头采集所得占用率(%)、速度(m/s)、排队长度(m)共同组成。前两项交通变量为宏观交通流基本变量,描述宏观交通特征,最后一项变量更具体地刻画事故影响。在
Figure BDA0002703651980000053
基础上计算修正交通状态St,递推式如下
Figure BDA0002703651980000054
注意到修正交通状态St不仅包括当前的交通状态
Figure BDA0002703651980000055
也包括此前的所有交通状态
Figure BDA0002703651980000056
从而反映了t时刻及之前的综合交通状态。α表示遗忘因子,以确保在决定St的所有交通状态
Figure BDA0002703651980000057
中近期的交通状态对St具有更大的影响。α越接近1意味着近期信息影响越大,本发明设置其为0.3。
Figure BDA0002703651980000058
与St具有相同的维度。考虑一段三车道宽、包含7道监控断面的单向快速道路路段,则
Figure BDA0002703651980000059
与St的维度为3×3×7,其中第一个3表示3类交通变量,后面的3×7表示分布在3车道7个断面的21台摄像头。
步骤三,构造一神经网络作为控制-评价模型,包含协同控制模型与评价模型两部分。协同控制模型与评价模型共用相同的输入层和中间层,仅输出层不同。每隔一个控制周期T,神经网络以交通状态作为输入值,同时输出控制策略与控制策略的“价值”(Value)。其中控制策略为动态车道与可变限速协同控制,一方面引导上游来车提前于合理断面处减速,一方面引导上游来车提前于合理断面处换道至相邻开放车道;“价值”为一个实数,是对控制策略的长短期综合效益的量化,越大表示相应控制策略在相应交通状态下具有越大的效益,也就是越合适。
步骤三中,神经网络结构见图5,为带残差结构的CNN-GRU神经网络。卷积层(CNN)与GRU层起到提取、整合交通流空间特征的效果。加入残差结构加速收敛。经过全连接层过渡后进入两个输出层,同时输出协同控制策略与控制策略的“价值”。考虑一段三车道宽、包含7道监控断面、3道控制断面的单向快速道路路段,则控制-评价模型一次输出的控制指令包括15个变量,前3个变量分别表示于三道控制断面激活可变限速控制的概率,之后6个变量分别表示于两条外侧车道的三道控制断面引导车辆向内侧换道的概率,还有6个变量分别表示于中间车道的三道控制断面引导车辆向两侧车道换道的概率。此时图5所示神经网络各层参数如表1。
表格1控制-评价模型各层参数
Figure BDA0002703651980000061
步骤三中,控制-评价模型每隔一个控制周期T=25s,基于该时刻的修正交通状态St,t=kT,
Figure BDA0002703651980000062
输出一次协同控制指令At,t=kT,
Figure BDA0002703651980000063
和对控制指令的期望“价值”V(St),t=kT,
Figure BDA0002703651980000064
AkT通过可变信号板发布,引导上游来车于适当断面换道并减速,持续整个控制周期。
步骤三中,为量化控制-评价模型于kT时刻输出的动作AkT的实际效果,计算该控制周期结束后的(k+1)T时刻的奖励值R(k+1)T
Figure BDA0002703651980000065
Figure BDA0002703651980000066
Figure BDA0002703651980000067
式中,SkT,spd即为修正交通状态SkT中与速度有关的元素集合,路段速度均值MEAN(SkT,spd)与标准差S.D.(SkT,spd)共同定义实际奖励值
Figure BDA0002703651980000068
其中速度均值越大说明运输效率越高,而速度变异性越低则意味着相对越安全;
Figure BDA0002703651980000069
定义为修正奖励值,在
Figure BDA00027036519800000610
的基础上加入针对限速控制的修正因子
Figure BDA00027036519800000611
以约束限速控制策略的复杂性与不合理性,具体定义如下:
Figure BDA0002703651980000071
在至少一个断面的限速控制被激活时,修正因子
Figure BDA0002703651980000072
由两项乘积而成,第一项中Vlimit(m/s)为具体的限速大小,MEAN(SkT,spd)为路段速度均值,由此避免于交通条件相对较好的情况下激活限速控制,从而限制策略的不合理性,第二项中
Figure BDA0002703651980000073
为期望的限速控制断面占总断面的比例,由此避免过多的控制断面被激活,从而限制策略的复杂性。(k+1)T时刻的奖励值R(k+1)T定义为
Figure BDA0002703651980000074
相对于
Figure BDA0002703651980000075
的增量,以引导模型尝试超越上一控制周期的效果。
步骤三中,控制-评价模型的训练算法采用深度强化学习PPO算法,并引入演员-评论家(Actor-Critic)框架。深度强化学习是一类基于试错的机器学习算法。模型通过不断地与环境交互,尝试做出整体效益最高的决策,并通过观测每一次交互的实际奖励进行优化改进。演员-评论家框架是深度强化学习算法中的一类,与其它类型算法相比具有更快的收敛速度与更高的学习效果。
步骤三中,因为强化学习要求模型与环境多次交互,故模型训练过程在交通仿真平台上进行(见图4)。在仿真平台上初始化事故仿真环境,包括路段长度、车道数、限速、流量、事故位置、事故开始时间、事故结束时间,并布设摄像头和可变信号板,形成探测断面和控制断面。开始事故仿真后基于修正交通状态SkT,控制-评价模型输出的控制指令AkT及“价值”V(SkT),并观察奖励值RkT,计算策略梯度与估值误差并更新控制-评价模型。在交通仿真平台重复进行事故仿真,直至误差收敛得到最优控制-评价模型。
步骤三中,在得到最优控制-评价模型后,仅需其中的控制模型即可进行实际控制。图3所示,每隔一个控制周期基于修正交通状态SkT输出动态车道与可变限速协同控制指令AkT。既不需要评价模型输出“价值”V(SkT),也不需要观测奖励值RkT
本方法在可变限速的基础上引入动态车道控制,丰富了面向二次事故预防的控制策略选择,可在快速道路事故发生后基于交通状态发布合理的动态车道与可变限速协同控制指令,引导上游来车提前合理换道并适当速度调整,降低受迫换道、盲目换道与受迫减速形成的二次事故风险。综上所述本方法在快速道路事故预警、管理与二次事故预防领域具有实际工程应用价值。

Claims (6)

1.一种面向二次事故预防动态车道与可变限速协同控制方法,其特征在于,该方法包括以下步骤:
1)构建面向二次事故预防的动态车道与可变限速协同控制系统,包括交通指令发布设备、交通数据采集设备、协同控制模型与评价模型,交通指令发布设备与交通数据采集设备沿快速道路布设,协同控制模型与评价模型均为神经网络模型,协同控制模型与评价模型共同组成控制-评价模型;
2)选择可变信号板作为交通指令发布设备,布设于交通龙门架上,悬于道路横断面上方;一台龙门架即为一道控制断面,挂有多片可变信号板,一片可变信号板针对一车道同时发布动态车道与可变限速指令,其中,动态车道指令包括“正常通行”、“建议向左换道”、“建议向右换道”三种;可变限速指令包括“保持默认限速”、“下调限速”两种,可变限速控制指令不区分车道,同一断面的所有车道具有相同的限速,控制断面间距设为L1米;
3)选择流量监测摄像头作为交通数据采集设备,间隔地布设于交通龙门架与单悬臂杆上,悬于道路横断面上方,一台龙门架或一支悬臂杆即为一道探测断面,挂有多台摄像头,一台摄像头针对一车道,监控上游L2米长区间,每隔t秒采集监控区间内的车道占用率%、速度m/s、排队长度m的交通信息,车道占用率反映交通密度,当一车道被机动车完全占满时对应的占用率为100%;多道探测断面共同采集的交通信息经过预处理后共同组成交通状态,探测断面间距设为L3米,当探测断面与控制断面重合时,摄像头与可变信号板共用相同的龙门架;当探测断面位于两控制断面中间时,摄像头安装于单臂悬臂杆上;
4)构造一神经网络作为控制-评价模型,包含协同控制模型与评价模型两部分,协同控制模型与评价模型共用相同的输入层和中间层,仅输出层不同,每隔一个控制周期T,神经网络以交通状态作为输入值,同时输出控制策略与控制策略的价值,其中,控制策略为动态车道与可变限速协同控制,一方面引导上游来车提前于合理断面处减速,一方面引导上游来车提前于合理断面处换道至相邻开放车道;价值为一个实数,是对控制策略的综合效益的量化;所述步骤4)中,量化控制-评价模型于kT时刻输出的动作AkT的实际效果,计算该控制周期结束后的(k+1)T时刻的奖励值R(k+1)T
Figure FDA0003158026760000011
Figure FDA0003158026760000012
Figure FDA0003158026760000013
式中,SkT,spd即为修正交通状态SkT中与速度有关的元素集合,路段速度均值MEAN(SkT,spd)与标准差S.D.(SkT,spd)共同定义实际奖励值
Figure FDA0003158026760000014
Figure FDA0003158026760000015
定义为修正奖励值,在
Figure FDA0003158026760000021
的基础上加入针对限速控制的修正因子
Figure FDA0003158026760000022
以约束限速控制策略的复杂性与不合理性,具体定义如下:
Figure FDA0003158026760000023
在至少一个断面的限速控制被激活时,修正因子
Figure FDA0003158026760000024
由两项乘积而成,第一项中Vlimit(m/s)为具体的限速大小,MEAN(SkT,spd)为路段速度均值,第二项中
Figure FDA0003158026760000025
为期望的限速控制断面占总断面的比例,(k+1)T时刻的奖励值R(k+1)T定义为
Figure FDA0003158026760000026
相对于
Figure FDA0003158026760000027
的增量。
2.根据权利要求1所述的一种面向二次事故预防动态车道与可变限速协同控制方法,其特征在于,所述步骤3)中,交通状态由摄像头采集,记摄像头每隔t秒采集实时交通状态为矩阵
Figure FDA0003158026760000028
下标t为相应的时刻,其中,t=1指代事故开始的时刻,矩阵
Figure FDA0003158026760000029
由各车道各摄像头采集所得占用率%、速度m/s、排队长度m共同组成,前两项交通变量为宏观交通流基本变量,描述宏观交通特征,最后一项变量刻画事故影响,在
Figure FDA00031580267600000210
基础上计算修正交通状态St,递推式如下:
Figure FDA00031580267600000211
其中,修正交通状态St不仅包括当前的交通状态
Figure FDA00031580267600000212
也包括此前的所有交通状态
Figure FDA00031580267600000213
从而反映了t时刻及之前的综合交通状态,α表示遗忘因子,以确保在决定St的所有交通状态
Figure FDA00031580267600000214
中近期的交通状态对St具有的影响,
Figure FDA00031580267600000215
与St具有相同的维度3×M×N,其中,3表示采集的3类交通变量,M为路段的车道数,N为路段中探测断面的数量。
3.根据权利要求1所述的一种面向二次事故预防动态车道与可变限速协同控制方法,其特征在于,所述步骤4)中控制-评价模型每隔一个控制周期T,基于t时刻的修正交通状态
Figure FDA00031580267600000216
输出一次协同控制指令
Figure FDA00031580267600000217
和对控制指令的期望价值
Figure FDA00031580267600000218
AkT通过可变信号板发布,引导上游来车于适当断面减速并换道,持续整个控制周期。
4.根据权利要求1所述的一种面向二次事故预防动态车道与可变限速协同控制方法,其特征在于,所述步骤4)中,控制-评价模型的训练算法采用深度强化学习PPO算法,并引入演员-评论家框架加速收敛。
5.根据权利要求1所述的一种面向二次事故预防动态车道与可变限速协同控制方法,其特征在于,所述步骤4)中,模型训练过程在交通仿真平台上进行,在仿真平台上初始化事故仿真环境,包括路段长度、车道数、限速、流量、事故位置、事故开始时间、事故结束时间,并布设摄像头和可变信号板,形成探测断面和控制断面,开始事故仿真后基于修正交通状态SkT,控制-评价模型输出的控制指令AkT及价值V(SkT),并观察奖励值RkT,计算策略梯度与估值误差并更新控制-评价模型,在交通仿真平台重复进行事故仿真,直至误差收敛得到最优控制-评价模型。
6.根据权利要求1所述的一种面向二次事故预防动态车道与可变限速协同控制方法,其特征在于,所述步骤4)中,在得到最优控制-评价模型后,仅需其中的控制模型即可进行实际控制,即每隔一个控制周期基于修正交通状态SkT输出动态车道与可变限速协同控制指令AkT,既不需要评价模型输出价值V(SkT),也不需要观测奖励值RkT
CN202011030968.0A 2020-09-27 2020-09-27 一种面向二次事故预防动态车道与可变限速协同控制方法 Active CN112233458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030968.0A CN112233458B (zh) 2020-09-27 2020-09-27 一种面向二次事故预防动态车道与可变限速协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030968.0A CN112233458B (zh) 2020-09-27 2020-09-27 一种面向二次事故预防动态车道与可变限速协同控制方法

Publications (2)

Publication Number Publication Date
CN112233458A CN112233458A (zh) 2021-01-15
CN112233458B true CN112233458B (zh) 2021-09-07

Family

ID=74107168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030968.0A Active CN112233458B (zh) 2020-09-27 2020-09-27 一种面向二次事故预防动态车道与可变限速协同控制方法

Country Status (1)

Country Link
CN (1) CN112233458B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067561B (zh) * 2021-10-25 2022-11-18 东南大学 城市快速道路车路协同主动管控系统的虚拟现实测试方法
CN114495577A (zh) * 2022-01-21 2022-05-13 华设设计集团股份有限公司 预防快速路二次事故的车路协同动态车道控制系统及方法
CN115862329B (zh) * 2022-11-28 2023-09-15 上海理工大学 一种基于高速公路交通事故下的车辆协同换道引导方法
CN116460860B (zh) * 2023-06-19 2023-10-20 中国科学技术大学 一种基于模型的机器人离线强化学习控制方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383091B (zh) * 2008-10-14 2011-11-09 北京交通大学 交通诱导室外屏的网络化控制系统
US20180299284A1 (en) * 2014-12-02 2018-10-18 Kevin Sunlin Wang Method and System For Avoidance of Accidents
CN109492763B (zh) * 2018-09-17 2021-09-03 同济大学 一种基于强化学习网络训练的自动泊车方法
CN109377752A (zh) * 2018-10-19 2019-02-22 桂林电子科技大学 短时交通流变化预测方法、装置、计算机设备及存储介质
KR102114683B1 (ko) * 2018-11-02 2020-06-05 주식회사 에프엠웍스 무인비행장치를 이용한 거대구조물 안전진단 방법, 이를 수행하기 위한 장치 및 기록매체
CN109816978B (zh) * 2019-01-28 2023-11-14 上海海事大学 考虑驾驶员动态响应行为的区域群体交通诱导系统及方法
CN110164128B (zh) * 2019-04-23 2020-10-27 银江股份有限公司 一种城市级智能交通仿真系统
CN110570675B (zh) * 2019-10-17 2020-10-27 中国公路工程咨询集团有限公司 一种车路协同环境下高速公路施工区的路侧控制系统
CN111640304B (zh) * 2020-06-04 2021-01-08 扬州大学 面向连续流交通设施的交通拥堵传播特征自动化量化提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Risk Factors of Secondary Accidents Based on the Bayesian Hierarchical Model;Zhang Z.Y. 等;《Journal of Engineering Science and Technology Review》;20181231;第53-60页 *

Also Published As

Publication number Publication date
CN112233458A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112233458B (zh) 一种面向二次事故预防动态车道与可变限速协同控制方法
CN112233418B (zh) 智能网联混合交通流环境下二次交通事故预防控制方法
CN108806252B (zh) 一种高速公路混合交通流协同优化控制方法
CN113781806A (zh) 一种用于智能网联环境下的混合交通流通行方法
CN109062273B (zh) 基于事件触发pid控制的列车速度曲线跟踪控制方法和系统
CN106503804A (zh) 一种基于Pareto多目标遗传算法的列车定时节能运行方法
CN107161155A (zh) 一种基于人工神经网络的车辆协同换道方法及其系统
WO2013057969A1 (ja) 走行計画作成装置および自動列車運転装置
CN113947929B (zh) 一种针对高速公路改扩建连续施工区的可变限速控制方法
DE10345319A1 (de) Voraussagende Geschwindigkeitssteuerung für ein Kraftfahrzeug
CN110703761A (zh) 一种基于事件触发的网络化自主车队调度与协同控制方法
CN103955135B (zh) 一种基于双层模式曲线的机车优化操纵序列计算方法
CN107187447A (zh) 一种基于车联网的车辆自适应巡航控制系统及其控制方法
CN112735126A (zh) 一种基于模型预测控制的混合交通流协同优化控制方法
CN109204390A (zh) 一种基于深度学习的列车控制方法
CN107544254A (zh) 一种期望安全裕度跟驰模型的自适应动态滑模控制方法
CN109765801A (zh) 基于vissim仿真的车联网设计速度调整的实现方法
CN106781555A (zh) 一种设置双左转车道的信号交叉口调头区域设计方法
Cheng et al. Enhancing mixed traffic flow safety via connected and autonomous vehicle trajectory planning with a reinforcement learning approach
CN113223324B (zh) 高速匝道入口合流的控制方法
Yi-Fei et al. Research on polling based traffic signal control strategy with fuzzy control
Fan et al. Developing a merge lane change decision policy for autonomous vehicles by deep reinforcement learning
CN116756916A (zh) 基于ddpg的智能网联公交车车重自适应全局车速规划方法
CN110162045B (zh) 一种基于自适应三步法的卡车编队行驶跟随车控制方法
CN104809898B (zh) 一种突发事件状态下的车辆换道诱导系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant