CN115691196B

CN115691196B - 智能网联环境下公交运行多策略融合控制方法

Info

Publication number: CN115691196B
Application number: CN202211282278.3A
Authority: CN
Inventors: 聂庆慧; 张海洋; 欧吉顺; 敬鹏; 岳鹏祥; 周扬; 石皓天; 肖枭
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-10-03
Anticipated expiration: 2042-10-19
Also published as: CN115691196A

Abstract

本发明公开了一种智能网联环境下公交运行多策略融合控制方法，通过智能网联自动驾驶汽车技术获取公交站台、公交运行路段以及交叉口信号信息，构建公交运行仿真环境，基于深度强化学习构建公交运行多策略融合鲁棒控制优化模型，基于分布式近端策略优化算法训练公交运行多策略融合鲁棒控制优化模型，利用训练好的公交运行多策略融合鲁棒控制优化模型实时控制公交运行，更新公交运行环境，通过公交控制效果指标、控制鲁棒性指标和可移植性指标评估公交运行多策略融合鲁棒控制优化模型的有效性，可视化分析公交运行时的实时精准控制优势，对公交运行实时精准控制，从而减少公交串车现象发生频率。

Description

智能网联环境下公交运行多策略融合控制方法

技术领域

本发明涉及智能公交管理与控制技术领域，具体是一种智能网联环境下公交运行多策略融合控制方法。

背景技术

高效可靠的公共交通服务一直是设计公交系统的主要关注点。公交串车现象已成为公交系统设计和运营中的一个主要问题，这通常是由于公交系统中公交运行出现较大的车头时距偏差造成的。

解决公交串车问题的传统方法是基于调度的方法，包括基于时刻表控制和基于车头时距控制。富裕停靠时间已在时刻表中用于处理公交串车问题，公交运营机构在他们的时刻表安排中加入了富裕停靠时间来解决这个问题。但是缺点是松弛过多会降低公交服务频率，并且可能无法解决网络中存在的局部中断问题。与基于时刻表的方法和基于车头时距的方法相比，公交自适应协同控制是解决该问题的新方向。公交驻站策略也是主要的解决方案，还有其他策略包括限制上下车和车辆替代等。

然而，在现实中由于交通条件限制和公交车站的条件(容量)有限等多种原因，这些控制可能不适用。在某些交通条件下，调整车头时距或调整时刻表的空间可能非常有限。

随着CAV(智能网联自动驾驶汽车)技术的发展，获得公交系统中的乘客需求、道路交通速度、信号信息等实时信息成为可能。随着可获得的信息越来越多，利用多种信息源应用多种策略的可能性越来越大。

与传统的控制方法相比，深度学习可以平衡目标，使控制更加容易，而且不需要对系统进行复杂的物理控制建模，特别是当涉及到多个控制变量时。深度强化学习被广泛应用于多智能体系统的控制中。在公交控制方面，许多学者开发了基于深度强化学习的公交协调控制算法，以缓解公交串车现象。但是目前方法的一个主要缺点是没有明确考虑各个智能体的行为，缺乏多种控制方法的综合应用。

本申请旨在通过智能网联自动驾驶汽车技术获得的实时信息，综合考虑多种控制策略，具体包括公交驻站、运行速度调整以及公交信号优先等策略的协同应用，对公交运行实时精准控制，从而减少公交串车现象发生频率。

发明内容

本发明的目的在于提供一种智能网联环境下公交运行多策略融合控制方法，以解决现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：

智能网联环境下公交运行多策略融合控制方法：

S1：通过智能网联自动驾驶汽车技术获取公交站台、公交运行路段以及交叉口信号信息，设置公交系统结构，输入公交运行的数据，构建计划公交运行模型，对计划公交运行所受到的时空变化干扰进行建模，从而构建公交运行仿真环境；

S2：基于深度强化学习构建公交运行多策略融合鲁棒控制优化模型，分别定义公交运行多策略融合鲁棒控制优化模型的状态、动作、奖励、动作成本和策略；

S3：基于分布式近端策略优化算法训练公交运行多策略融合鲁棒控制优化模型，利用多智能体网络获取数据，利用全局网络基于不同智能体收集数据更新参数，持续更新公交控制策略以达期望控制性能；

S4：利用训练好的公交运行多策略融合鲁棒控制优化模型实时控制公交运行，更新公交运行环境，使各辆公交实现最优控制；

S5：通过公交控制效果指标、控制鲁棒性指标和可移植性指标评估公交运行多策略融合鲁棒控制优化模型的有效性，可视化分析公交运行时的实时精准控制优势。

进一步设置：步骤S1中，通过智能网联自动驾驶汽车技术获取公交站台、公交运行路段以及交叉口信号信息，设置公交系统结构，输入公交运行的数据，构建计划公交运行模型，对计划公交运行所受到的时空变化干扰进行建模，从而构建公交运行仿真环境，包括以下步骤：

S11：对公交运行系统结构进行设置，将公交运行系统构建为具有j个实施控制动作位置站台的环形结构，实施控制动作位置包括三种类型，分别为公交站台、信号交叉口和站间路段，其中，设定公交系统的站台编号从0增至N，设定所有的运营公交车在各个站点都有一个计划停靠时间，且所有的交叉路口都配备了交通信号灯；

S12：根据公交运行的数据进行输入，收集公交乘客的历史需求数据，集合历史需求数据作为库存信息，通过智能网联自动驾驶汽车技术实时获取道路交通流量、道路空间平均速度以及前方交叉口的交通信号信息，其中，将车头时距偏差和时刻表偏差标记为公交运行不确定性的两个因素；

S13：构建计划公交运行模块用以描述理想化情况下到达各站台的计划时间，定义公交到达不同位置站台的计划时间，根据公式设定某一公交i到达为位置站台j+1的计划时间：

其中，为公交i在位置站台j的计划到达时间，β_jH为公交在位置站台j服务乘客的预期停留时间，H为计划车头时距，β_j为乘客期望需求率，r_j为平均行程时间，s_j为富裕停靠时间；

S14：对计划公交运行所受到的时空变化干扰进行建模，其中，时空变化干扰包括延误干扰和乘客需求不确定性，将其服从特定分布用以描述真实运行环境；

S15：构建实际公交运行模型，基于计划公交运行模型，考虑处理时空变化干扰数据后进行控制，根据公式设定某一公交i到达位置站台j+1的实际时间：

其中，为公交i在位置站台j的实际到达时间，/>为公交i在位置站台j的实际车头时距，/>为公交i在位置站台j的乘客实际需求率，/>为公交i从位置站台j行驶到位置站台j+1对行程时间的延误干扰，/>为多种策略的综合控制力；

S16：对公交控制策略动作进行设计，集合多种策略融合应用，包括站间运行速度调整、提前发车、公交信号优先控制，用以调整公交到下一特定位置站台的运行，根据公式：

其中，表示在公交车站的公交车驻站等待时间的调整，/>表示公交i从位置站台j到位置站台j+1的信号交叉口的公交信号时间调整，/>表示公交i通过站间运行速度控制从位置站台j到位置站台j+1的时间调整。

进一步设置：步骤S2中，基于深度强化学习构建公交运行多策略融合鲁棒控制优化模型，分别定义公交运行多策略融合鲁棒控制优化模型的状态、动作、奖励、动作成本和策略，包括以下步骤：

S21：对控制优化模型的状态进行定义，设定控制优化模型的状态为定义为各公交在特定位置接收的融合信息，根据公式：

其中，表示时刻表偏差，即到达特定位置的实际时间与计划时间之差，/>表示整合下游公交信息的车头时距偏差的加权平均值，/>表示与实际需求率相关的实际停留时间。

S22：对控制优化模型的动作进行定义，设定在位置站台j的公交i，当强化学习智能体接收到控制优化模型的状态信息时，输出动作a，定义为/>具体包括三种控制力以根据当前策略π在三个不同地点的实行多种时间调整策略控制公交运行；

S23：对控制优化模型的奖励进行定义，根据控制优化模型的奖励描述控制目标，包括时刻表偏差、加权车头时距偏差和输出控制力最小化，以使用低成本的控制力在不同的干扰下保持时刻表遵从度和车头时距规律性，构造立即奖励函数，对立即奖励函数进行定义；

S24：控制优化模型中动作成本进行定义，通过分析每种控制策略类型的可行控制范围，以考虑不同交通路况下不同控制策略实行的可行性；

S25：将策略π定义为一个隐函数，通过训练过程更新来实现最优控制，同时制定了一种基于奖励函数的无界最优控制问题，对控制优化模型的策略进行定义，设定最优策略为π^*，对于j位置站台的公交车i，最优策略π^*的目标是在无限时间范围内最大化累积折扣奖励，根据公式：

其中，表示奖励函数，奖励在深度强化学习结构中实施以激活。

进一步设置：步骤S23中，构造立即奖励函数，对立即奖励函数进行定义，包括以下步骤：

设定立即奖励为根据公式：

其中，设定为三个控制目标的运行成本，根据公式：

其中，α_1,i为时刻表偏差系数，α_2,i为车头时距偏差系数，α_3,i,b为使用公交驻站策略的控制力系数，α_3,i,k为使用公交信号优先策略的控制力系数，α_3,i,c为使用运行速度调整策略的控制力系数；

设定q_j为信号调节系数，表示信号调节灵活性受限制，根据公式：

其中，c_j,k表示在公交位置站台j的附近交叉口k处的交通量成本，根据公式：

表示在公交位置站台j的附近交叉口k处的主要交通运行路段m的V/C比，表示各个方向交通运行路段的V/C比总和。

进一步设置：步骤S24中，控制优化模型中动作成本进行定义，通过分析每种控制策略类型的可行控制范围，以考虑不同交通路况下不同控制策略实行的可行性，包括以下步骤：

设定使用公交站台时间调整策略的控制力定义为根据公式：

其中，t_j(b),max为公交车可以停在公交站台的最大额外时间；

设定使用公交信号调整策略的控制力定义为根据公式：

其中，t_j(k),max为在信号交叉口处为在位置站台j处的公交车使用信号优先策略所提供的最大节省扩展时间的绝对值；

设定使用公交运行速度调整策略的控制力定义为根据公式：

其中，t_j(C),min为一辆公交车从位置站台j加速到下一位置站台所节省的最小时间的绝对值，t_j(C),max为公交车在位置站台j通过减速到下一位置站台所能得到的最大拓展时间的绝对值，对上述公式中t_j(C),min、t_j(C),max进行表示，根据公式：

其中，M_j,j+1表示位置j与位置j+1之间的距离，v_j,min表示可以降低的最小平均速度，v_j,max表示可以达到的最大速度。

进一步设置：步骤S3中，基于分布式近端策略优化算法训练公交运行多策略融合鲁棒控制优化模型，利用多智能体网络获取数据，利用全局网络基于不同智能体收集数据更新参数，持续更新公交控制策略以达期望控制性能，包括以下步骤：

S31：利用多智能体网络获取数据，多智能体网络中每个智能体与自己的独立环境交互以获取数据，包括每个智能体对应公交的状态动作/>和奖励/>将数据保存于缓冲区；

S32：根据全局网络基于所有智能体收集的一批数据对参数进行更新，当缓冲区中保存足够的数据后，更新Actor网络和Critic网络，分别进行优化策略和最小化Critic损失；

S33：持续更新公交控制策略，在每次策略更新后，清除缓冲区，重复步骤S31～S32进行更新策略，不断进行迭代训练学习，至训练奖励轨迹趋于稳定，使得基于深度强化学习的公交运行多策略融合控制优化模型收敛。

进一步设置：步骤S32中，当缓冲区中保存足够的数据后，更新Actor网络和Critic网络，分别进行优化策略和最小化Critic损失，包括以下步骤：

设定目标函数为L^CLIP(θ)，通过使目标函数L^CLIP(θ)最大化来更新Actor网络中的参数，设定Actor网络中的参数为θ，根据公式：

其中，p_t(θ)表示更新策略与旧策略概率比值，表示强化学习中的优势函数，即在状态s_t下，动作a_t相对于平均而言的优势；

设定损失函数为L_c(φ)，通过使Critic损失函数L_c(φ)最小化来更新Critic网络，根据公式：

其中，R_t表示累积折扣奖励，表示状态/>的期望奖励。

进一步设置：步骤S4中，利用训练好的公交运行多策略融合鲁棒控制优化模型实时控制公交运行，更新公交运行环境，使各辆公交实现最优控制，包括以下步骤：

S41：利用多策略公交控制器根据实际真实的公交运行环境输出实时公交的时刻表偏差、加权车头时距偏差以及实际停留时间作为状态信息，将其传输给多策略融合公交控制优化模型；

S42：根据输入的状态信息输出最优的公交控制动作，将最优控制动作传输给公交，执行动作采取相应的公交控制策略，以调整公交到下一位置的运行；

S43：随着运行环境的更新，多策略公交控制器继续根据当前公交运行环境，重复步骤S41～S42，将公交状态信息实时传送至多策略融合公交控制优化模型，并获取新的最优控制动作，最终使各辆公交实现最优控制。

进一步设置：步骤S5中，通过公交控制效果指标、控制鲁棒性指标和可移植性指标评估公交运行多策略融合鲁棒控制优化模型的有效性，可视化分析公交运行时的实时精准控制优势，包括以下方法：

S51：利用公交控制效果指标分析时刻表的偏差和车头时距偏差/>根据公式：

其中表示公交i在位置j的计划到达时间，/>表示公交i在位置j的实际到达时间，/>表示公交i在位置站台j的实际车头时距，H表示计划车头时距，当/>和/>越小，基于时刻表的计划运行轨迹和公交实际运行轨迹重合程度越高，公交串车现象发生频率越低；

S52：利用控制鲁棒性指标分析计划时间鲁棒性和车头时距鲁棒性，设定计划时间鲁棒性为γ和车头时距鲁棒性为ε，根据公式：

其中，表示公交i从位置站台j行驶到位置站台j+1对行程时间的延误干扰，/>为线路中公交站台数目，γ和ε是指当模型参数变化时，维持控制性能的特性，指标越小，模型控制性能波动越小，公交运行越稳定；

S53：利用可移植性指标分析计划时间鲁棒性γ和车头时距鲁棒性ε的变化幅度，设定计划时间鲁棒性γ的变化幅度为Δγ，车头时距鲁棒性ε的变化幅度为Δε，根据公式：

Δγ＝γ_i-γ_l

Δε＝ε_i-ε_l

其中，γ_i和γ_l表示不同交通运行场景下的计划时间鲁棒性，ε_i和ε_l表示不同交通运行场景下的车头时距鲁棒性。Δγ和Δε越小，可移植性越好。

与现有技术相比，本发明的有益效果是：旨在通过智能网联自动驾驶汽车技术获得的实时信息，综合考虑多种控制策略，具体包括公交驻站、运行速度调整以及公交信号优先等策略的协同应用，对公交运行实时精准控制，在控制效果、控制鲁棒性和可移植性方面都具有显著优越性，从而减少公交串车现象发生频率，切实提升公交运行整体效率和公交出行服务质量，增强公交车辆吸引力以提升公共交通出行分担率。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明智能网联环境下公交运行多策略融合控制方法的步骤示意图；

图2为本发明智能网联环境下公交运行多策略融合控制方法的步骤S1的具体示意图；

图3为本发明智能网联环境下公交运行多策略融合控制方法的步骤S2的具体示意图；

图4为本发明智能网联环境下公交运行多策略融合控制方法的步骤S3的具体示意图；

图5为本发明智能网联环境下公交运行多策略融合控制方法的步骤S4的具体示意图；

图6为本发明智能网联环境下公交运行多策略融合控制方法的步骤S5的具体示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1～6，本发明实施例中，智能网联环境下公交运行多策略融合控制方法：

具体参照图2，步骤S1中，包括以下步骤：

其中，为公交i在位置站台j的实际到达时间，/>为公交i在位置站台j的实际车头时距，/>为公交i在位置站台j的实际需求率，/>为公交i从位置站台j行驶到位置站台j+1对行程时间的延误干扰，/>为多种策略的综合控制力；

S16：对公交控制策略动作进行设计，集合多种策略融合应用，包括站间运行速度调整、提前发车、公交信号优先控制，用以调整公交到下一位置站台的运行，根据公式：

具体参照图3，步骤S2中包括以下步骤：

其中需要说明的是，步骤S23中，构造立即奖励函数，对立即奖励函数进行定义，包括以下步骤：

设定立即奖励为根据公式：

其中，设定为三个控制目标的运行成本，根据公式：

其中，α_1,i为时刻表偏差系数，α_2,i为车头时距偏差系数，α_3,i,b为使用公交驻站策略的控制力系数，α_3,i,k为使用公交信号优先策略的控制力系数，α_3,i,c为运行速度调整策略的控制力系数；

其中，c_j,k表示在公交位置站台j的交叉口k处的交通量成本，根据公式：

表示在公交位置站台j的交叉口k处的主要交通运行路段m的V/C比，表示各个方向交通运行路段的V/C比总和。

其中需要说明的是，步骤S24中，控制优化模型中动作成本进行定义，通过分析每种控制策略类型的可行控制范围，以考虑不同交通路况下不同控制策略实行的可行性，包括以下步骤：

设定使用公交站台时间调整策略的控制力定义为根据公式：

其中，t_j(b),max为公交车可以停在公交站台的最大额外时间其中，考虑到公交站台的需求，提前离开策略由于实施困难被禁止使用；

设定使用公交信号调整策略的控制力定义为根据公式：

设定使用公交运行速度调整策略的控制力定义为根据公式：

具体参照图4，步骤S3中，包括以下步骤：

需要具体说明的是，步骤S32中，当缓冲区中保存足够的数据后，更新Actor网络和Critic网络，分别进行优化策略和最小化Critic损失，包括以下步骤：

其中，R_t表示累积折扣奖励，表示状态/>的期望奖励。

具体参照图5，步骤S4中，包括以下步骤：

具体参照图6，步骤S5中，包括以下方法：

其中表示公交i在位置j的计划到达时间，/>表示公交i在位置j的实际到达时间，表示公交i在位置站台j的实际车头时距，H表示计划车头时距，当/>和/>越小，基于时刻表的计划运行轨迹和公交实际运行轨迹重合程度越高，公交串车现象发生频率越低；

/>

Δγ＝γ_i-γ_l

Δε＝ε_i-ε_l

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种智能网联环境下公交运行多策略融合控制方法，其特征在于：所述方法包括以下步骤:

S3：基于分布式近端策略优化算法训练公交运行多策略融合鲁棒控制优化模型，利用多智能体网络获取数据，利用全局网络基于不同智能体收集数据并更新参数，持续更新公交控制策略以达期望控制性能；

S5：通过公交控制效果指标、控制鲁棒性指标和可移植性指标评估公交运行多策略融合鲁棒控制优化模型的有效性，可视化分析公交运行时的实时精准控制优势；

所述步骤S1包括以下步骤：

其中，表示公交i在公交车站的公交车驻站等待时间的调整，/>表示公交i从位置站台j到位置站台j+1的信号交叉口的公交信号时间调整，/>表示公交i通过站间运行速度控制从位置站台j到位置站台j+1的时间调整；

所述步骤S2包括以下步骤：

其中，表示时刻表偏差，即到达特定位置的实际时间与计划时间之差，/>表示整合下游公交信息的车头时距偏差的加权平均值，/>表示与实际需求率相关的实际停留时间；

S22：对控制优化模型的动作进行定义，设定在位置站台j的公交i，当强化学习智能体接收到控制优化模型的状态信息时，输出动作a，定义为/>具体包括三种控制力

使用公交站台时间调整策略的控制力定义为

使用公交信号调整策略的控制力定义为

使用公交运行速度调整策略的控制力定义为

以根据当前策略π在三个不同地点的实行多种时间调整策略控制公交运行；

其中，表示奖励函数，奖励在深度强化学习结构中实施以激活；

所述步骤S3包括以下步骤：

2.根据权利要求1所述的智能网联环境下公交运行多策略融合控制方法，其特征在于:所述步骤S23中，构造立即奖励函数，对立即奖励函数进行定义，包括以下步骤：

设定立即奖励为根据公式：

其中，设定为三个控制目标的运行成本，根据公式：

表示在公交位置站台j的交叉口k处的主要交通运行路段m的V/C比，/>表示各个方向交通运行路段的V/C比总和。

3.根据权利要求2所述的智能网联环境下公交运行多策略融合控制方法，其特征在于:所述步骤S24中，控制优化模型中动作成本进行定义，通过分析每种控制策略类型的可行控制范围，以考虑不同交通路况下不同控制策略实行的可行性，包括以下步骤：

设定使用公交站台时间调整策略的控制力定义为根据公式：

其中，t_j(b),max为公交车可以停在公交站台的最大额外时间；

设定使用公交信号调整策略的控制力定义为根据公式：

设定使用公交运行速度调整策略的控制力定义为根据公式：

4.根据权利要求3所述的智能网联环境下公交运行多策略融合控制方法，其特征在于:所述步骤S32中，当缓冲区中保存足够的数据后，更新Actor网络和Critic网络，分别进行优化策略和最小化Critic损失，包括以下步骤：

其中，R_t表示累积折扣奖励，表示状态/>的期望奖励。

5.根据权利要求1所述的智能网联环境下公交运行多策略融合控制方法，其特征在于:所述步骤S4包括以下步骤：

6.根据权利要求1所述的智能网联环境下公交运行多策略融合控制方法，其特征在于:所述步骤S5包括以下方法：

Δγ＝γ_i-γ_l

Δε＝ε_i-ε_l

其中，γ_i和γ_l表示不同交通运行场景下的计划时间鲁棒性，ε_i和ε_l表示不同交通运行场景下的车头时距鲁棒性，Δγ和Δε越小，可移植性越好。