CN113771918B

CN113771918B - 用于高速列车应对动态客流的自动驾驶控制方法

Info

Publication number: CN113771918B
Application number: CN202111072218.4A
Authority: CN
Inventors: 徐凯; 刘清山; 黄大荣; 吴仕勋; 许仕壮; 彭菲桐
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-10-20
Anticipated expiration: 2041-09-14
Also published as: CN113771918A

Abstract

本发明提供了一种用于高速列车应对动态客流的自动驾驶控制方法，其特征在于：首先利用Pareto支配原理、拥挤距离计算和k‑means聚类算法从人工驾驶曲线数据中获取专家驾驶曲线数据包；然后利用专家驾驶曲线数据包采用行为克隆的模仿学习方法和强化学习法获取强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型；然后利用上述三种策略网络模型针对三种客流峰值时段生成相应的自动驾驶曲线控制列车运行。采用本发明所述的自动驾驶控制方法，高速列车的驾驶策略能根据路段的客流峰值的变化进行调整，使路段上列车运行的效率和能耗配置更合理，从而使整个路段运营的效率提高、能耗降低。

Description

用于高速列车应对动态客流的自动驾驶控制方法

技术领域

本发明涉及交通运输技术领域，特别是一种用于高速列车应对动态客流的自动驾驶控制方法。

背景技术

随着目前高速铁路网络日趋完善、运输能力日趋饱和，运输能力紧张问题亟待解决；另一方面，高速铁路的客流量呈动态变化，在不同运营时段，客流量不同：在节假日和周末时段，客流量大，而正常工作日，客流量较小；就每一天而言，同样也存在客流高、低峰情况。

现有技术中，虽然高速列车自动驾驶技术以及虚拟连挂技术能在一定程度上提高高速列车运输效率，但是针对不同的客流量，如果自动驾驶的列车不能在运行方式上做相应调整，在客流高峰情况下以能耗为目标运行，将降低列车的运行效率，无法满足运力需求；相反，如果在客流低峰情况下以时间为目标运行，将会平白增加能耗，造成能耗的浪费。所以如何根据客流量的不同，使高速列车根据相应的目标采取更合理的运行方式，以达到运行效率和能耗的最佳匹配，使自动驾驶的高速列车运营既能在客流低峰时段最大限度降低能耗，又能在客流高峰时段满足运输能力的需要，从而使整个线路运营在运行效率和能耗两方面达到更合理配置是目前亟待解决的问题。

发明内容

针对背景技术的问题，本发明提供一种用于高速列车应对动态客流的自动驾驶控制方法，以解决现有技术中无法根据客流变化对高速列车的自动驾驶进行动态调整，列车的运行效率和能耗配置不合理，运行效率低、能耗高的问题。

为实现本发明的目的，本发明提供了一种用于高速列车应对动态客流的自动驾驶控制方法，其创新点在于：设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行，将从A站到B站的路段记为AB路段，AB路段的客流状况包括高峰客流、平峰客流和低峰客流；每个列车上均设置有自动驾驶曲线生成模块；所述自动驾驶控制方法还涉及地面中央控制模块，地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据；各个列车的自动驾驶曲线生成模块之间无线通信连接，每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接；

列车运行前，地面中央控制模块根据方法一对多个所述人工驾驶曲线数据进行处理，得到专家驾驶曲线数据包；然后地面中央控制模块将AB路段的基础数据和所述专家驾驶曲线数据包均发送给各个列车的自动驾驶曲线生成模块；

然后根据方法二训练获取每个列车各自的强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型；

当AB路段当前的客流状况为高峰客流时，地面中央控制模块控制n个列车按虚拟连挂的模式运行，虚拟连挂的各个列车的驾驶曲线生成模块利用各自的强化节时策略网络模型生成对应的自动驾驶曲线，各个列车根据对应的自动驾驶曲线运行；

当AB路段当前的客流状况为平峰客流时，地面中央控制模块控制n个列车独立运行，各个列车的驾驶曲线生成模块利用各自的强化准点策略网络模型生成对应的自动驾驶曲线，各个列车根据对应的自动驾驶曲线运行；

当AB路段当前的客流状况为低峰客流时，地面中央控制模块控制n个列车独立运行，各个列车的驾驶曲线生成模块利用各自的强化节能策略网络模型生成对应的自动驾驶曲线，各个列车根据对应的自动驾驶曲线运行；

所述方法一包括：

地面中央控制模块存储的AB路段的人工驾驶曲线数据包括多个人工驾驶曲线，单个所述人工驾驶曲线对应一个时间和能耗两目标优化的可行解，多个所述人工驾驶曲线对应多个所述可行解；

1)将全部所述可行解进行Pareto支配，剔除被支配解，得到多个Pareto前沿解，多个所述Pareto前沿解形成Pareto前沿解集；然后利用拥挤距离计算对Pareto前沿解集进行裁剪，得到优化Pareto前沿解集，优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线，优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应；

2)采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据；其中聚类中心的个数k值取3，3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点，所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解，所述节能中心点为Pareto前沿解集中能耗最低的Pareto前沿解，将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时，所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解；

通过k-means聚类算法处理，以节时中心点为初始聚类中心点得到的多个Pareto前沿解组成节时类子数据；以准点中心点为初始聚类中心点得到的多个Pareto前沿解组成准点类子数据；以节能中心点为初始聚类中心点得到的多个Pareto前沿解组成节能类子数据；所述节时类子数据、准点类子数据和节能类子数据组成专家驾驶曲线数据包；

所述方法二包括：

A)每个列车的自动驾驶曲线生成模块均采用行为克隆的模仿学习方法利用节时类子数据训练生成对应的初始节时策略网络模型、利用准点类子数据训练生成对应的初始准点策略网络模型、利用节能类子数据生成对应的初始节能策略网络模型；

B)n个列车的自动驾驶曲线生成模块按方法三生成强化节时策略网络模型；各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始准点策略网络模型进行训练得到强化准点策略网络模型；各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始节能策略网络模型进行训练得到强化节能策略网络模型；

所述方法三包括：

所述地面中央控制模块还设置有价值网络；将单个列车的自动驾驶曲线生成模块记为一个智能体，则n个所述列车的自动驾驶曲线生成模块对应n个智能体，n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型；

其中，每个智能体拥有一个所述初始节时策略网络模型，n个初始节时策略网络模型共用一个所述价值网络；所述智能体的初始节时策略网络模型能独立做决策；所述价值网络能对多个智能体的决策做出评判，并将评判结果反馈给各个智能体以更新各自对应的初始节时策略网络模型。

作为优化，所述步骤A)中的克隆模仿学习的输入特征从所述基础数据中选取，包括：列车当前所处的位置、列车工况转换点的位置、列车当前位置之前的历史平均速度、列车在当前位置的运行速度、列车在当前位置所处坡度值、列车在当前位置所处坡度段起始位置、列车在当前位置所处坡度段的终止位置、列车在当前位置距所处坡度段终止位置的剩余长度、列车在当前位置所处坡度段的平均速度、列车在当前位置的最大限速值、所述最大限速值的起始位置、所述最大限速值的终止位置、列车在AB路段的标准运行总时间、列车型号、列车长度、列车重量；所述克隆模仿学习的输出特征包括档位操纵信息。

本发明的原理如下：

发明人通过研究发现，高速列车在站间运行时，列车在准点到站基础上，通常都规定了一个正负偏差时间的可调整范围，可在规定的范围内提前或晚点到达。另一方面，列车在某个区间内的运行时间和能耗之间是相互矛盾的，即列车运行时间越长，能耗越低，列车运行时间越短，能耗越高。基于上述规定和规律，在不同客流峰值时段，一些有经验的列车驾驶员会根据不同的客流量调整其操纵策略：高峰时段客流量大，造成运输压力大，驾驶员会较少考虑能耗，较多考虑节约时间，让列车在区间尽量高速运行，在调度规定时间内让列车提前到站为最佳，以便腾出更多的停站时间让拥挤的乘客上车，以提高运输效率；低峰时段客流量小，此时乘客人数较少，可在调度规定时间内让列车晚点到站，此时驾驶员会更多考虑节能问题，让列车尽量惰行来节约能耗，以降低运行成本；平峰时段客流量适中，驾驶员更多考虑列车准点运行。可以看出，对于不同客流峰值时段，驾驶员操纵列车的习惯也有所不同，有经验的驾驶员会根据不同的客流量采取相应的列车运行目标操控列车运行。

受此启发，发明人首先想到利用智能学习的方法来模拟上述操控模式来实现自动驾驶的高速列车在动态客流情况下的控制。然而，发明人通过试验发现，由于高速列车的线路复杂且站间距离较长，状态空间巨大，如果直接通过智能学习(如强化学习)的方法来针对不同的客流量和列车的所有状态进行探索从而得到列车的自动驾驶曲线，从初始化到训练好策略网络会耗费大量的时间和资源。而另一方面，列车的中央运行控制系统中存储了大量驾驶员人工驾驶曲线的数据，这些数据中不乏优秀驾驶员的人工驾驶曲线数据，而优秀驾驶员的人工驾驶曲线数据对应的驾驶策略在各项技术性能指标上均有非常好的表现，现有技术中，缺乏对此类数据的有效利用。

本发明中，发明人创造性地将优秀驾驶员的人工驾驶曲线数据与智能学习相结合，获取针对不同客流峰值的决策网络，利用这些决策网络，高速列车能快速、高效地部署相应的自动驾驶策略。

基于上述基本构思，本发明首先要解决的是如何根据时间和能耗双目标从众多的人工驾驶曲线数据中甄选出优秀驾驶员驾驶曲线数据。目前，现有技术中还没有恰当的方法和手段来区分和筛选优秀驾驶员驾驶曲线数据。本发明不仅利用Pareto支配原理和拥挤距离裁剪法以时间和能耗为目标甄选出多个优秀驾驶员驾驶曲线数据，更创造性地根据客流峰值对多个优秀驾驶员驾驶曲线数据进行分类，以便于后续根据不同的客流峰值建立不同的策略网络，其分类的原则即：三个客流峰值时段即客流高峰、客流平峰和客流低峰分别对应节时、准点和节能三种驾驶策略，分类过程中，为了避免主观性，本发明采用了k-means聚类算法来对上述数据进行了分类处理，得到以节时类子数据、准点类子数据和节能类子数据组成的专家驾驶曲线数据包，上述方法，降低了对数据分类利用的偏差，提高了后续智能学习的准确性和收敛速度。

接下来，本发明利用行为克隆的模仿学习采用专家驾驶曲线数据包中的三类子数据分别训练得到三个初始的策略网络模型：初始节时策略网络模型、初始准点策略网络模型、初始节能策略网络模型，然后再利用强化学习对上述三种初始策略网络模型中的数据进行微调，从而在其附近探索出更多、更精细的优秀驾驶员驾驶曲线数据，最终得到强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型。当路段上的客流峰值在发生变化时，即可根据客流峰值选择对应的强化策略网络模型来生成列车的自动驾驶曲线来控制列车运行，以满足不同客流峰值对列车运行效率和能耗的合理配置。

事实上，为了进一步提高路段在客流的高峰时段的运行效率，本发明在高峰客流时段对多个列车采取虚拟连挂的运行模式，而平峰客流和低峰客流则对各个列车采取独立运行模式，进一步区分不同客流峰值对运行效率和能耗的要求，更加优化对路段列车运行效率和能耗的配置效果。而对于虚拟连挂的运行模式，由于各个列车是完全合作关系，利益一致，有相同的奖励和相同的目标，本发明采用多智能体强化学习MARL的方式(即中心化训练+去中心化决策结构)对各列车的初始节时策略网络模型进行处理，得到各列车的强化节时策略网络模型，以使强化节时策略网络模型执行速度更快，更高效，同时还能提高各虚拟连挂列车的协调性。而对于初始准点策略网络模型和初始节能策略网络模型则采用策略梯度方法(基于策略的单智能体强化学习算法)得到强化准点策略网络模型和强化节能策略网络模型即可满足使用需要。

由此可见，本发明具有如下的有益效果：采用本发明所述的自动驾驶控制方法，高速列车的驾驶策略能根据路段的客流峰值的变化进行调整，使路段上列车运行的效率和能耗配置更合理，从而使整个路段运营的效率提高、能耗降低。

附图说明

本发明的附图说明如下。

附图1为Pareto支配前的可行解示意图；

附图2为Pareto前沿解集示意图；

附图3为优化Pareto前沿解集示意图；

附图4为多智能体强化学习的模型结构示意图。

具体实施方式

下面结合实施例对本发明作进一步说明。

设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行，将从A站到B站的路段记为AB路段，AB路段的客流状况包括高峰客流、平峰客流和低峰客流；每个列车上均设置有自动驾驶曲线生成模块；所述自动驾驶控制方法还涉及地面中央控制模块，地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据；各个列车的自动驾驶曲线生成模块之间无线通信连接，每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接；其中，AB路段的基础数据包括线路参数、列车参数和运营参数；

当AB路段当前的客流状况为高峰客流时，地面中央控制模块控制n个列车按虚拟连挂的模式运行，虚拟连挂的各个列车的驾驶曲线生成模块利用各自的强化节时策略网络模型生成对应的自动驾驶曲线，各个列车根据对应的自动驾驶曲线运行；虚拟连挂列车之间的发车时间间隔可根据现有技术或经验设置；

所述方法一包括：

地面中央控制模块存储的AB路段的人工驾驶曲线数据包括多个人工驾驶曲线，单个所述人工驾驶曲线对应一个时间和能耗两目标优化的可行解，多个所述人工驾驶曲线对应多个所述可行解；如附图1所示的时间-能耗坐标系，横坐标为时间T(单位s)，纵坐标为能耗E(单位J)，坐标系中所示的每个小圆圈即为一个可行解；

1)将全部所述可行解进行Pareto支配，剔除被支配解，得到多个Pareto前沿解，多个所述Pareto前沿解形成Pareto前沿解集，如附图2坐标系中所示的剩下的每个小圆圈即为一个Pareto前沿解；然后利用拥挤距离计算对Pareto前沿解集进行裁剪，得到优化Pareto前沿解集，如附图3坐标系中所示的剩下的每个小圆圈即为一个优化后的Pareto前沿解，优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线，优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应；

2)采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据；其中聚类中心的个数k值取3，3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点，所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解，所述节能中心点为Pareto前沿解集中能耗最低(即耗时最长)的Pareto前沿解，将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时，所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解；在如附图3所示的坐标系中，初始的节时中心点即为时间850s对应的那个Pareto前沿解，初始的准点中心点即为时间900s对应的那个Pareto前沿解，初始的节能中心点即为时间950s对应的那个Pareto前沿解；

所述方法二包括：

其中行为克隆的输入状态的输入特征从所述基础数据中选取，包括列车当前所处的位置、列车工况转换点的位置、列车当前位置之前的历史平均速度、列车在当前位置的运行速度、列车在当前位置所处坡度值、列车在当前位置所处坡度段起始位置、列车在当前位置所处坡度段的终止位置、列车在当前位置距所处坡度段终止位置的剩余长度、列车在当前位置所处坡度段的平均速度、列车在当前位置的最大限速值、所述最大限速值的起始位置、所述最大限速值的终止位置、列车在AB路段的标准运行总时间、列车型号、列车长度、列车重量；然后，可利用卷积网络进一步提取特征向量，再由全连接层和softmax激活函数处理得到输出的档位操纵信息；

所述方法三包括：

如附图4所示的多智能体强化学习的模型结构，所述地面中央控制模块还设置有价值网络；将单个列车的自动驾驶曲线生成模块记为一个智能体，则n个所述列车的自动驾驶曲线生成模块对应n个智能体，n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型；

其中，每个智能体拥有一个所述初始节时策略网络模型，n个初始节时策略网络模型共用一个所述价值网络；所述智能体的初始节时策略网络模型能独立做决策；所述价值网络能对多个智能体的决策做出评判，并将评判结果反馈给各个智能体以更新各自对应的初始节时策略网络模型。在具体训练的过程中，设n个智能体中的一个智能体为第i号智能体，第i号智能体对环境的观测为oⁱ，并随机选出决策aⁱ，即档位信息。价值网络的输入是所有智能体对环境观测的集合S[o¹，...，oⁱ，...，oⁿ]，并通过计算将时间差分(TD)的误差δ传送给每个智能体，第i号智能体用于更新自己的策略π(aⁱ|oⁱ；θⁱ)参数θⁱ。上述过程，所有的智能体共同参与改进策略网络参数θ¹，θ²...θⁿ以及价值网络参数w。在训练完成后，第i号列车根据自己本地的策略网络π(aⁱ|oⁱ；θⁱ)就可做决策，得到包含档位信息的自动驾驶曲线，做到实时决策，执行速度更快。

本发明中应用到的Pareto支配原理、拥挤距离计算、k-means聚类算法、行为克隆的模仿学习方法、策略梯度方法以及多智能体强化学习都为现有技术中十分常见的处理手段，相关的内容，本领域技术人员可从现有技术的相关文献中获取。

Claims

1.一种用于高速列车应对动态客流的自动驾驶控制方法，其特征在于：

设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行，将从A站到B站的路段记为AB路段，AB路段的客流状况包括高峰客流、平峰客流和低峰客流；每个列车上均设置有自动驾驶曲线生成模块；所述自动驾驶控制方法还涉及地面中央控制模块，地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据；各个列车的自动驾驶曲线生成模块之间无线通信连接，每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接；

所述方法一包括：

1）将全部所述可行解进行Pareto支配，剔除被支配解，得到多个Pareto前沿解，多个所述Pareto前沿解形成Pareto前沿解集；然后利用拥挤距离计算对Pareto前沿解集进行裁剪，得到优化Pareto前沿解集，优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线，优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应；

2）采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据；其中聚类中心的个数k值取3，3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点，所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解，所述节能中心点为Pareto前沿解集中能耗最低的Pareto前沿解，将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时，所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解；

所述方法二包括：

A）每个列车的自动驾驶曲线生成模块均采用行为克隆的模仿学习方法利用节时类子数据训练生成对应的初始节时策略网络模型、利用准点类子数据训练生成对应的初始准点策略网络模型、利用节能类子数据生成对应的初始节能策略网络模型；

B）n个列车的自动驾驶曲线生成模块按方法三生成强化节时策略网络模型；各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始准点策略网络模型进行训练得到强化准点策略网络模型；各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始节能策略网络模型进行训练得到强化节能策略网络模型；

所述方法三包括：

所述地面中央控制模块还设置有价值网络；将单个列车的自动驾驶曲线生成模块记为一个智能体，则n个列车的自动驾驶曲线生成模块对应n个智能体，n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型；

2.如权利要求1所述的用于高速列车应对动态客流的自动驾驶控制方法，其特征在于：所述步骤A）中的克隆模仿学习的输入特征从所述基础数据中选取，包括：列车当前所处的位置、列车工况转换点的位置、列车当前位置之前的历史平均速度、列车在当前位置的运行速度、列车在当前位置所处坡度值、列车在当前位置所处坡度段起始位置、列车在当前位置所处坡度段的终止位置、列车在当前位置距所处坡度段终止位置的剩余长度、列车在当前位置所处坡度段的平均速度、列车在当前位置的最大限速值、所述最大限速值的起始位置、所述最大限速值的终止位置、列车在AB路段的标准运行总时间、列车型号、列车长度、列车重量；所述克隆模仿学习的输出特征包括档位操纵信息。