CN116189464A

CN116189464A - 基于精细化回报机制的交叉熵强化学习可变限速控制方法

Info

Publication number: CN116189464A
Application number: CN202310130498.2A
Authority: CN
Inventors: 郑思; 李志斌; 冯汝怡; 黎萌; 王顺超; 王秉通
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-30
Anticipated expiration: 2043-02-17
Also published as: CN116189464B

Abstract

本发明公开了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，首先获得连续多瓶颈路段高速公路的交通流信息

；再设计同时考虑安全和效率的孤立瓶颈路段的综合回报值函数；接着设计附加修正函数对综合回报值精细化处理；再计算各个瓶颈的基于历史交通流和道路线型设计的重要性系数，得到各个瓶颈回报值的组成重要性系数并计算出高速公路全局回报值；然后采用交叉熵强化学习算法训练神经网络模型直至收敛；神经网络计算得到各瓶颈路段的最优协同控制值，对各个控制区进行限速控制生成新的交通流状态。本发明提出的可变限速控制方法能够获得最优的协调控制动作，能够有效地降低系统的总通行时间，改善道路安全性能。

Description

基于精细化回报机制的交叉熵强化学习可变限速控制方法

技术领域

本发明属于智能交通和交通控制技术领域，具体涉及一种基于精细化回报机制的交叉熵强化学习可变限速控制方法。

背景技术

在过去的几十年里，交通拥堵已成为高速公路上常见的交通问题。拥堵发生在高速公路瓶颈附近，有时会向上游和下游蔓延。当今可用的高速公路实时交通流数据使智能交通系统(ITS)服务的实际应用能够用作改善交通的交通控制措施。可变限速(VSL)控制已被引入作为缓解拥堵和改善高速公路瓶颈处交通运营的有效方法。高速公路中经常出现连续瓶颈的场景，但是以往的可变限速控制策略针对局部的瓶颈路段进行控制，缺乏对于不同瓶颈处限速控制器的协同控制。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法。

为了实现上述技术目的，本发明的技术方案为：

一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，其特征在于，包括以下步骤：

S1、获得连续多瓶颈高速公路各路段的交通流数据，对交通流数据归一化处理并生成当前时间步交通流状态信息s；

S2、在每个瓶颈路段部署一个智能体进行限速控制，建立每个瓶颈路段的综合回报值函数，综合回报值r_j包括道路通行效率回报值r_efficiency和道路安全回报值r_safety；

S3、建立r_efficiency和r_safety的附加修正函数，对步骤S2建立的每个瓶颈路段的回报值进行精细化处理，得到修正后的综合回报值r′_j；

S4、根据交通状态信息s计算得到各瓶颈回报值并存储在数据集中，计算各个瓶颈回报值的历史交通流重要性系数w^s(j)和道路线型设计重要性系数w^p(j)，得到组成重要性系数w(j)，计算整条高速公路所有瓶颈的全局回报值R；

S5、设计用于训练智能体的深度强化学习算法神经网络，为所有的智能体建立一个回放记忆库

存放训练过程中产生的数据；其中，所述回放记忆库存放的数据包括：当前时间步交通流状态信息s、限速控制动作值α、全局回报值R；选取回放记忆库/>

中位于前20％的R对应的数据进行训练，以交叉熵作为损失函数更新神经网络直至收敛；

S6、根据步骤S5收敛后的神经网络计算得到各瓶颈的最优协同限速控制动作，对整条高速公路各个控制区执行限速动作，生成新的交通流状态。

优选地，步骤S1具体包括以下步骤：

S11、通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度，确定当前车辆的位置信息，将车辆位置信息进行封装，封装的格式包括：车辆标识、速度、车辆GPS信息和时间戳；

S12、对步骤S11采集的数据进行归一化处理，生成道路的实时交通状态信息s，s信息包括：瓶颈j上游主路的需求d_j ^up，瓶颈j上游匝道的需求d_j ^ramp，瓶颈上游主路的密度k_j ^up，瓶颈处密度k_j，瓶颈j上游匝道的密度k_j ^ramp，瓶颈区域每辆车d的速度v_d(k)，位置x_d(k)。

优选地，步骤S2具体包括以下步骤：

S21、计算高速公路瓶颈路段通行效率的回报值，公式表达如下：

式中，k_cr是瓶颈路段的关键密度，当高速公路瓶颈路段的密度在关键密度附近时，高速公路的通行效率回报值最高，回报值为1；当高速公路瓶颈路段的密度大于40辆/英里，即高速公路非常拥堵时，回报值为-1，表示惩罚。其它情况下，高速公路的通行效率回报值为0；

S22、获得瓶颈区域内道路车辆i的实时位置和速度信息，计算出车辆d碰撞时间TTC，公式表达如下：

式中，TTC_d(t)表示两辆车相撞之前的剩余时间量，其中d为车辆编号，x_d-1(t)表示前车的位置，x_d(t)表示后车的位置，x_d-1(t)-x_d(t)表示两车间的距离，v_d(t)表示后车的速度，v_d-1(t)表示前车的速度，v_d(t)-v_d-1(t)表示两车的相对速度；

S23、计算累计碰撞时间TET(t)，公式表达如下：

式中，TET(t)指的是前后车处于危险跟随状态所花费的总时间，即实际值TTC小于设定TTC^*阈值所持续的时间，TTC^*安全阈值设定为5秒，N为瓶颈路段的车辆总数；

S24、计算瓶颈路段安全的回报值，公式表达如下：

式中，N为瓶颈路段的车辆总数，ξ为安全回报的阈值；

S25、计算孤立瓶颈的安全和效率的综合回报值，公式表达如下：

r_j＝ε₁r_safety+ε₂r_efficiency

式中，r_j表示第j个瓶颈的回报值，ε₁为安全回报系数；ε₂为效率回报系数，且ε₁和ε₂都是正数。

优选地，步骤S3具体包括以下步骤：

S31、设计效率性能函数，设计S2中回报值r_efficiency的附加修正函数，公式表达如下：

/>

式中，f¹(s→s′)是回报r_efficiency的附加修正函数，表示从s状态到s′的效率性能差，Θ₁(s)表示在s状态下的效率性能，Θ₁(s′)表示在s′状态下的效率性能，γ₁，a₁和β₁为系数，且都是正数，k_s表示瓶颈路段在s状态下的密度，k_cr表示瓶颈路段的关键密度；

S32、设计安全性能函数，并构造回报值r_safety的附加修正函数，公式表达如下：

式中，f²(s→s′)是回报r_safety的附加修正函数，表示从s状态到s′的安全性能差，Θ₂(s)表示在s状态下的安全性能，Θ₂(s′)表示在s′状态下的安全性能，γ₂，a₂和β₂为系数，且都是正数。TET(s)表示在s状态下前后车处于危险跟随状态所花费的总时间，N为瓶颈路段的车辆总数；

S33、计算修正后的效率回报函数r′_efficiency，公式表达如下：

r′_efriciency＝r_efficiency+f¹(s→s′)

S34、计算修正后的安全回报函数r′_safety，公式表达如下：

r′_safety＝r_safety+f²(s→s′)

S35、计算瓶颈处修正后的安全和效率的综合回报值，公式表达如下：

r′_j＝ε₁r′_safety+ε₂r′_efficiency

式中，ε₁为安全回报系数；ε₂为效率回报系数，且ε₁和ε₂都是正数。

优选地，步骤S4具体包括以下步骤：

S41、根据实时收集的交通状态信息计算获得各瓶颈回报值并存储在数据集中，计算各个瓶颈的回报值的历史交通流重要性系数w^s(j)，公式表达如下：

式中，i为数据集中利用随机抽样法获取的回报值编号，n为回报值总数，j为高速公路瓶颈编号，m为瓶颈总数，r′_ij为经过去量纲化处理后的第i条数据的第j个瓶颈的回报值，p_ij为第j个瓶颈回报值在第i条数据中占总回报值的比例，E_j为第j个瓶颈回报值函数的信息熵；

S42、依据三项指标：道路曲率变化率、纵坡坡度、单向车道数，通过标度法得到各个瓶颈指标分数计算各个瓶颈回报值的道路线型设计重要性系数w^p(j)，公式表达如下：

式中，

是瓶颈j的道路曲率变化率分数、/>

是瓶颈j的纵坡坡度分数、/>

是瓶颈j的单向车道数分数；

当道路曲率变化率取值区间为0～100(gon/km)时，评分为4；当道路曲率变化率取值区间为101～200(gon/km)时，评分为3；当道道路曲率变化率取值区间为201～300(gon/km)时，评分为2；当道路曲率变化率取值大于301(gon/km)时，评分为1；

当纵坡坡度的取值区间为0～2.9％时，评分为4；当纵坡坡度的取值区间为3～5.9％时，评分为3；当纵坡坡度的取值区间为6～8.9％时，评分为2；当纵坡坡度的取值区间大于≥9％时，评分为1；

当单向车道数为4条时，评分为4；当单向车道数为3条时，评分为3；当单向车道数为2条时，评分为2；当单向车道数为1条时，评分为1；

S43、利用基于历史交通流数据得到的重要性系数w^s(j)以及道路线型设计得到的重要性系数w^p(j)，计算组成重要性系数w(j)，公式表达如下：

式中，j为高速公路瓶颈编号，m为瓶颈总数，；

根据组成重要性系数w(j)计算出整个路段的全局回报值R，公式表达如下：

式中，R表示整条公路的全局回报值，r′_j表示第j个瓶颈的回报值，ω_j表示第j个瓶颈回报值权重，m为瓶颈总数。

优选地，步骤S5具体包括以下步骤：

S51、设计一个用于智能体训练的神经网络，神经网络包含一个输入层、一个输出层和一个隐藏层，初始化神经网络；

S52、每隔一个仿真步长k＝30秒，可变限速控制的m个智能体同时与真实的道路场景进行实时交互，智能体神经网络计算出限速控制动作a，收集每个仿真步长产生的数据，包括交通状态s、限速控制动作a，以及回报值R，并以元祖的形式存储在回放记忆库

中，元祖的具体形式为(s，s′，a，R)，其中s′为下一时间步交通流状态信息；再判断仿真步数是否大于10000，若是则进入步骤S53，若不是则智能体继续回到S52；

限速控制动作值应在路段允许的最高和最低限速值之间，即a_v∈{V_min，V_max}，同时考虑到驾驶员对限速值的接受情况，发布的限速值取为5或10的整数倍；大量测试可知动作集合中限速值的取值范围为5mph至65mph，选取步长定为5mph，因此动作集合中元素为{5mph，10mph，15mph，20mph，25mph，30mph，35mph，40mph，45mph，50mph，55mph，60mph，65mph}；

S53、判断仿真步数是否为100的倍数，若是则进入S54，若不是则依然以当前神经网络生成下一步的限速动作。

S54、选取回放记忆库

中位于前20％的R对应的元祖数据，以这20％的经验数据中所采用的控制策略(本质是动作选择的概率分布)作为标签，以交叉熵作为损失函数来更新智能体的神经网络，神经网络生成下一步的限速动作，交叉熵的计算公式如下：/>

式中，H(y，g)为交叉熵，y(a_v)为选取的位于前20％的数据中动作的概率，g(a_v)为智能体未来选择动作的概率，v为动作的编码，L为可选的限速动作的总数；

重复S53-S54直至神经网络收敛。

采用上述技术方案带来的有益效果：

本发明公开了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，设计附加修正函数对综合回报值函数精细化处理，计算各个瓶颈智能体回报值的组成重要性系数并得到全局回报值函数，然后采用交叉熵强化学习算法训练神经网络模型得到最优限速值。本发明提出的可变限速控制方法能够平衡不同瓶颈限速值公平性，收敛速度快，控制动作精准，有效地提升了连续多瓶颈高速公路的通行效率、改善了交通安全。

附图说明

图1是发明的流程示意图；

图2是基于精细化回报机制的交叉熵强化学习可变限速控制方法与真实道路的交互模块图；

图3是不同控制策略下的道路系统总行程时间图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明公开了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，具体步骤如图1所示。

本发明的以高速公路路段作为实施例，如图2所示，该路段包含四个连续的瓶颈。高速公路的长度为4.2英里。在高速公路上布设了检测器，实时地采集道路的交通流的数据。仅考虑东行交通，四个瓶颈分别位于距路段起点0.7、1.7、2.7和3.7英里处。在瓶颈区域上游路段设置了可变限速控制指示牌。主线包含四个车道。高速公路的自由流速度为65英里/小时。通行能力下降前高速公路主路的通行能力为1750辆/小时/英里。通行能力下降的幅度为7.6％，运动波的速度估计为9.5英里/小时。

结合图1的流程图，实施例的具体步骤如下：

步骤1，通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度，确定当前车辆的位置信息，将车辆位置信息进行封装，封装的格式包括：车辆标识、速度、车辆GPS信息和时间戳。

步骤2，对采集的交通流状态进行归一化处理，生成道路的实时交通状态信息s，s信息包括：瓶颈j上游主路的需求d_j ^up，瓶颈j上游匝道的需求d_j ^ramp，瓶颈上游主路的密度k_j ^up，瓶颈处密度k_j，瓶颈j上游匝道的密度k_j ^ramp，瓶颈区域每辆车d的速度v_d(k)，位置x_d(k)。采用最大最小标准化(Min-Max Normalization)的方法进行归一化的方式，计算方法如下：

/>

分别列出各个值的区间：

瓶颈j上游主路的需求d_j ^up∈{4000,6500}辆/小时，

瓶颈j上游匝道的需求d_i ^ramp∈{350,1200}辆/小时，

瓶颈上游主路的密度k_j ^up∈{10,80}辆/英里，

瓶颈处密度k_j∈{10,80}辆/英里，

瓶颈j上游匝道的密度k_i ^ramp∈{10,50}辆/英里，

瓶颈区域每辆车d的速度v_d(k)∈{5,65}英里/小时，位置x_d(k)。

步骤3，计算回报值；

计算通行效率的回报值，关键密度k_cr为26.75辆/英里/车道。

计算安全的回报值。

获取瓶颈路段所有车辆的速度、位置，计算碰撞时间TTC。

计算累计碰撞时间TET，TTC^*为5秒。

其中，ξ的缺省值为3.5；

计算瓶颈处安全和效率的综合回报值：

r_j＝ε₁r_safety+ε₂r_efficiency

其中，ε₁和ε₂的缺省值均为0.5。

步骤4，对综合回报函数进行精细化处理，获取瓶颈位置分别在s和s′状态下的密度，通过r_efficiency的附加修正函数计算出更新的回报值。

r′_efficiency＝r_efficiency+f¹(s→s′)

其中，参数的缺省值分别为：a₁＝0.7，β₁＝1，γ₁＝0.9，k_cr＝26.75。

获取瓶颈位置分别在s和s′状态下的所有车辆的速度、位置，通过r_safety的附加修正函数更新回报值。

/>

r′_safety＝r_safety+f²(s→s′)

其中，参数的缺省值分别为：a₂＝0.5，β₂＝1，γ₂＝0.9

r′_j＝ε₁r′_safety+ε₂r_efficiency

其中，参数的缺省值分别为：ε₁＝0.5，ε₂＝0.5

步骤5，构造整条高速公路所有(4个)瓶颈的全局回报函数

基于历史的交通数据计算各个瓶颈回报值的重要性系数w^s(j)。

计算得到w^s(1)＝0.11，w^s(2)＝0.32，w^s(3)＝0.21，w^s(4)＝0.36。

依据三项指标：道路曲率变化率、纵坡坡度、单向车道数，通过标度法得到各个瓶颈线型设计指标分数，如表1所示。

表1

w^j(1)＝0.92，w^j(2)＝0.58，w^j(3)＝0.58，w^j(4)＝0.75。

综合利用基于历史交通流数据得到的重要性系数w^s(j)以及道路线型设计得到的重要性系数w^p(j)，得到组合重要性系数。

得到组合重要性系数，ω₁＝0.23，ω₂＝0.25，ω₃＝0.24，ω₄＝0.28。

最终计算出整个路段的全局回报值。

步骤6，进行训练。训练参数如表2所示

表2

参数	数值
		学习率	0.01
折扣系数	0.9
		经验池大小	1000000
单次训练的样本数	1024
		神经网络参数更新频率	1次/100回合
计算机处理器型号	AMD Ryzen 7 3700X 8-Core Processor 3.60GHz

步骤6.1，设计一个用于智能体训练的神经网络，神经网络包含一个输入层、一个输出层和一个隐藏层，初始化神经网络。

步骤6.2，能体神经网络计算出限速控制动作a，收集每个仿真步长产生的数据，包括交通状态s、限速控制动作a，以及回报值R，并以元祖的形式存储在回放记忆库

中，元祖的具体形式为(s，s′，a，R)，其中s′为下一时间步交通流状态信息。

限速控制动作集合中元素为{5mph，10mph，15mph，20mph，25mph，30mph，35mph，40mph，45mph，50mph，55mph，60mph，65mph}；

步骤6.3，判断仿真周期数目是否大于10000，若是则进入步骤6.4，若不是则智能体继续回到步骤6.2。

步骤6.4，判断仿真步数是否为100的倍数，若是则进入步骤6.5，若不是则依然以当前神经网络生成下一步的限速动作。

步骤6.5，选取回放记忆库

中位于前20％的R对应的元祖数据，以这20％的经验数据中所采用的控制策略作为标签，以交叉熵作为损失函数来更新智能体的神经网络，神经网络生成下一步的限速动作，交叉熵的计算公式如下：

重复步骤6.4-步骤6.5直至神经网络收敛。

步骤7，利用收敛后的神经网络进行可变限速控制，基于采集到的交通流数据，智能体神经网络实时计算高速公路各个控制区最优限速值，将限速值传输到可变限速控制板进行发布。

据统计，不同控制方式下(无可变限速控制、交叉熵强化学习、传统强化学习、反馈算法)的高速公路内车辆总通行时间、事故风险如表3所示，由下表可知，在稳定需求下，交叉熵强化学习控制下通行时间比无控情况减少了14.84％；在波动需求下，比无控情况减少了19.68％。交叉熵强化学习控制和其它控制策略相比，更有效改善瓶颈路段的通行效率，降低了事故风险。不同控制策略下的总行程时间，事故风险对比如图3，在稳定需求和波动需求两种场景中，所提出的交叉熵强化学习方法有效地降低了总行程时间，提升了通行效率，改善了道路行车安全。

表3

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，其特征在于，包括以下步骤：

存放训练过程中产生的数据；其中，所述回放记忆库存放的数据包括：当前时间步交通流状态信息s、限速控制动作值a、全局回报值R；选取回放记忆库D中位于前20％的R对应的数据进行训练，以交叉熵作为损失函数更新神经网络直至收敛；

2.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，其特征在于，步骤S1具体包括以下步骤：

S12、对步骤S11采集的数据进行归一化处理，生成道路的实时交通状态信息s,s信息包括：瓶颈j上游主路的需求d_j ^up，瓶颈j上游匝道的需求d_j ^ramp，瓶颈上游主路的密度k_j ^up，瓶颈处密度k_j，瓶颈j上游匝道的密度k_j ^ramp，瓶颈区域每辆车d的速度v_d(k)，位置x_d(k)。

3.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法，其特征在于，步骤S2具体包括以下步骤