CN113771918B - 用于高速列车应对动态客流的自动驾驶控制方法 - Google Patents

用于高速列车应对动态客流的自动驾驶控制方法 Download PDF

Info

Publication number
CN113771918B
CN113771918B CN202111072218.4A CN202111072218A CN113771918B CN 113771918 B CN113771918 B CN 113771918B CN 202111072218 A CN202111072218 A CN 202111072218A CN 113771918 B CN113771918 B CN 113771918B
Authority
CN
China
Prior art keywords
train
saving
driving curve
automatic driving
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111072218.4A
Other languages
English (en)
Other versions
CN113771918A (zh
Inventor
徐凯
刘清山
黄大荣
吴仕勋
许仕壮
彭菲桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jiaotong University
Original Assignee
Chongqing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jiaotong University filed Critical Chongqing Jiaotong University
Priority to CN202111072218.4A priority Critical patent/CN113771918B/zh
Publication of CN113771918A publication Critical patent/CN113771918A/zh
Application granted granted Critical
Publication of CN113771918B publication Critical patent/CN113771918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mechanical Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于高速列车应对动态客流的自动驾驶控制方法,其特征在于:首先利用Pareto支配原理、拥挤距离计算和k‑means聚类算法从人工驾驶曲线数据中获取专家驾驶曲线数据包;然后利用专家驾驶曲线数据包采用行为克隆的模仿学习方法和强化学习法获取强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型;然后利用上述三种策略网络模型针对三种客流峰值时段生成相应的自动驾驶曲线控制列车运行。采用本发明所述的自动驾驶控制方法,高速列车的驾驶策略能根据路段的客流峰值的变化进行调整,使路段上列车运行的效率和能耗配置更合理,从而使整个路段运营的效率提高、能耗降低。

Description

用于高速列车应对动态客流的自动驾驶控制方法
技术领域
本发明涉及交通运输技术领域,特别是一种用于高速列车应对动态客流的自动驾驶控制方法。
背景技术
随着目前高速铁路网络日趋完善、运输能力日趋饱和,运输能力紧张问题亟待解决;另一方面,高速铁路的客流量呈动态变化,在不同运营时段,客流量不同:在节假日和周末时段,客流量大,而正常工作日,客流量较小;就每一天而言,同样也存在客流高、低峰情况。
现有技术中,虽然高速列车自动驾驶技术以及虚拟连挂技术能在一定程度上提高高速列车运输效率,但是针对不同的客流量,如果自动驾驶的列车不能在运行方式上做相应调整,在客流高峰情况下以能耗为目标运行,将降低列车的运行效率,无法满足运力需求;相反,如果在客流低峰情况下以时间为目标运行,将会平白增加能耗,造成能耗的浪费。所以如何根据客流量的不同,使高速列车根据相应的目标采取更合理的运行方式,以达到运行效率和能耗的最佳匹配,使自动驾驶的高速列车运营既能在客流低峰时段最大限度降低能耗,又能在客流高峰时段满足运输能力的需要,从而使整个线路运营在运行效率和能耗两方面达到更合理配置是目前亟待解决的问题。
发明内容
针对背景技术的问题,本发明提供一种用于高速列车应对动态客流的自动驾驶控制方法,以解决现有技术中无法根据客流变化对高速列车的自动驾驶进行动态调整,列车的运行效率和能耗配置不合理,运行效率低、能耗高的问题。
为实现本发明的目的,本发明提供了一种用于高速列车应对动态客流的自动驾驶控制方法,其创新点在于:设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行,将从A站到B站的路段记为AB路段,AB路段的客流状况包括高峰客流、平峰客流和低峰客流;每个列车上均设置有自动驾驶曲线生成模块;所述自动驾驶控制方法还涉及地面中央控制模块,地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据;各个列车的自动驾驶曲线生成模块之间无线通信连接,每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接;
列车运行前,地面中央控制模块根据方法一对多个所述人工驾驶曲线数据进行处理,得到专家驾驶曲线数据包;然后地面中央控制模块将AB路段的基础数据和所述专家驾驶曲线数据包均发送给各个列车的自动驾驶曲线生成模块;
然后根据方法二训练获取每个列车各自的强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型;
当AB路段当前的客流状况为高峰客流时,地面中央控制模块控制n个列车按虚拟连挂的模式运行,虚拟连挂的各个列车的驾驶曲线生成模块利用各自的强化节时策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
当AB路段当前的客流状况为平峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化准点策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
当AB路段当前的客流状况为低峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化节能策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
所述方法一包括:
地面中央控制模块存储的AB路段的人工驾驶曲线数据包括多个人工驾驶曲线,单个所述人工驾驶曲线对应一个时间和能耗两目标优化的可行解,多个所述人工驾驶曲线对应多个所述可行解;
1)将全部所述可行解进行Pareto支配,剔除被支配解,得到多个Pareto前沿解,多个所述Pareto前沿解形成Pareto前沿解集;然后利用拥挤距离计算对Pareto前沿解集进行裁剪,得到优化Pareto前沿解集,优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线,优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应;
2)采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据;其中聚类中心的个数k值取3,3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点,所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解,所述节能中心点为Pareto前沿解集中能耗最低的Pareto前沿解,将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时,所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解;
通过k-means聚类算法处理,以节时中心点为初始聚类中心点得到的多个Pareto前沿解组成节时类子数据;以准点中心点为初始聚类中心点得到的多个Pareto前沿解组成准点类子数据;以节能中心点为初始聚类中心点得到的多个Pareto前沿解组成节能类子数据;所述节时类子数据、准点类子数据和节能类子数据组成专家驾驶曲线数据包;
所述方法二包括:
A)每个列车的自动驾驶曲线生成模块均采用行为克隆的模仿学习方法利用节时类子数据训练生成对应的初始节时策略网络模型、利用准点类子数据训练生成对应的初始准点策略网络模型、利用节能类子数据生成对应的初始节能策略网络模型;
B)n个列车的自动驾驶曲线生成模块按方法三生成强化节时策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始准点策略网络模型进行训练得到强化准点策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始节能策略网络模型进行训练得到强化节能策略网络模型;
所述方法三包括:
所述地面中央控制模块还设置有价值网络;将单个列车的自动驾驶曲线生成模块记为一个智能体,则n个所述列车的自动驾驶曲线生成模块对应n个智能体,n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型;
其中,每个智能体拥有一个所述初始节时策略网络模型,n个初始节时策略网络模型共用一个所述价值网络;所述智能体的初始节时策略网络模型能独立做决策;所述价值网络能对多个智能体的决策做出评判,并将评判结果反馈给各个智能体以更新各自对应的初始节时策略网络模型。
作为优化,所述步骤A)中的克隆模仿学习的输入特征从所述基础数据中选取,包括:列车当前所处的位置、列车工况转换点的位置、列车当前位置之前的历史平均速度、列车在当前位置的运行速度、列车在当前位置所处坡度值、列车在当前位置所处坡度段起始位置、列车在当前位置所处坡度段的终止位置、列车在当前位置距所处坡度段终止位置的剩余长度、列车在当前位置所处坡度段的平均速度、列车在当前位置的最大限速值、所述最大限速值的起始位置、所述最大限速值的终止位置、列车在AB路段的标准运行总时间、列车型号、列车长度、列车重量;所述克隆模仿学习的输出特征包括档位操纵信息。
本发明的原理如下:
发明人通过研究发现,高速列车在站间运行时,列车在准点到站基础上,通常都规定了一个正负偏差时间的可调整范围,可在规定的范围内提前或晚点到达。另一方面,列车在某个区间内的运行时间和能耗之间是相互矛盾的,即列车运行时间越长,能耗越低,列车运行时间越短,能耗越高。基于上述规定和规律,在不同客流峰值时段,一些有经验的列车驾驶员会根据不同的客流量调整其操纵策略:高峰时段客流量大,造成运输压力大,驾驶员会较少考虑能耗,较多考虑节约时间,让列车在区间尽量高速运行,在调度规定时间内让列车提前到站为最佳,以便腾出更多的停站时间让拥挤的乘客上车,以提高运输效率;低峰时段客流量小,此时乘客人数较少,可在调度规定时间内让列车晚点到站,此时驾驶员会更多考虑节能问题,让列车尽量惰行来节约能耗,以降低运行成本;平峰时段客流量适中,驾驶员更多考虑列车准点运行。可以看出,对于不同客流峰值时段,驾驶员操纵列车的习惯也有所不同,有经验的驾驶员会根据不同的客流量采取相应的列车运行目标操控列车运行。
受此启发,发明人首先想到利用智能学习的方法来模拟上述操控模式来实现自动驾驶的高速列车在动态客流情况下的控制。然而,发明人通过试验发现,由于高速列车的线路复杂且站间距离较长,状态空间巨大,如果直接通过智能学习(如强化学习)的方法来针对不同的客流量和列车的所有状态进行探索从而得到列车的自动驾驶曲线,从初始化到训练好策略网络会耗费大量的时间和资源。而另一方面,列车的中央运行控制系统中存储了大量驾驶员人工驾驶曲线的数据,这些数据中不乏优秀驾驶员的人工驾驶曲线数据,而优秀驾驶员的人工驾驶曲线数据对应的驾驶策略在各项技术性能指标上均有非常好的表现,现有技术中,缺乏对此类数据的有效利用。
本发明中,发明人创造性地将优秀驾驶员的人工驾驶曲线数据与智能学习相结合,获取针对不同客流峰值的决策网络,利用这些决策网络,高速列车能快速、高效地部署相应的自动驾驶策略。
基于上述基本构思,本发明首先要解决的是如何根据时间和能耗双目标从众多的人工驾驶曲线数据中甄选出优秀驾驶员驾驶曲线数据。目前,现有技术中还没有恰当的方法和手段来区分和筛选优秀驾驶员驾驶曲线数据。本发明不仅利用Pareto支配原理和拥挤距离裁剪法以时间和能耗为目标甄选出多个优秀驾驶员驾驶曲线数据,更创造性地根据客流峰值对多个优秀驾驶员驾驶曲线数据进行分类,以便于后续根据不同的客流峰值建立不同的策略网络,其分类的原则即:三个客流峰值时段即客流高峰、客流平峰和客流低峰分别对应节时、准点和节能三种驾驶策略,分类过程中,为了避免主观性,本发明采用了k-means聚类算法来对上述数据进行了分类处理,得到以节时类子数据、准点类子数据和节能类子数据组成的专家驾驶曲线数据包,上述方法,降低了对数据分类利用的偏差,提高了后续智能学习的准确性和收敛速度。
接下来,本发明利用行为克隆的模仿学习采用专家驾驶曲线数据包中的三类子数据分别训练得到三个初始的策略网络模型:初始节时策略网络模型、初始准点策略网络模型、初始节能策略网络模型,然后再利用强化学习对上述三种初始策略网络模型中的数据进行微调,从而在其附近探索出更多、更精细的优秀驾驶员驾驶曲线数据,最终得到强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型。当路段上的客流峰值在发生变化时,即可根据客流峰值选择对应的强化策略网络模型来生成列车的自动驾驶曲线来控制列车运行,以满足不同客流峰值对列车运行效率和能耗的合理配置。
事实上,为了进一步提高路段在客流的高峰时段的运行效率,本发明在高峰客流时段对多个列车采取虚拟连挂的运行模式,而平峰客流和低峰客流则对各个列车采取独立运行模式,进一步区分不同客流峰值对运行效率和能耗的要求,更加优化对路段列车运行效率和能耗的配置效果。而对于虚拟连挂的运行模式,由于各个列车是完全合作关系,利益一致,有相同的奖励和相同的目标,本发明采用多智能体强化学习MARL的方式(即中心化训练+去中心化决策结构)对各列车的初始节时策略网络模型进行处理,得到各列车的强化节时策略网络模型,以使强化节时策略网络模型执行速度更快,更高效,同时还能提高各虚拟连挂列车的协调性。而对于初始准点策略网络模型和初始节能策略网络模型则采用策略梯度方法(基于策略的单智能体强化学习算法)得到强化准点策略网络模型和强化节能策略网络模型即可满足使用需要。
由此可见,本发明具有如下的有益效果:采用本发明所述的自动驾驶控制方法,高速列车的驾驶策略能根据路段的客流峰值的变化进行调整,使路段上列车运行的效率和能耗配置更合理,从而使整个路段运营的效率提高、能耗降低。
附图说明
本发明的附图说明如下。
附图1为Pareto支配前的可行解示意图;
附图2为Pareto前沿解集示意图;
附图3为优化Pareto前沿解集示意图;
附图4为多智能体强化学习的模型结构示意图。
具体实施方式
下面结合实施例对本发明作进一步说明。
设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行,将从A站到B站的路段记为AB路段,AB路段的客流状况包括高峰客流、平峰客流和低峰客流;每个列车上均设置有自动驾驶曲线生成模块;所述自动驾驶控制方法还涉及地面中央控制模块,地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据;各个列车的自动驾驶曲线生成模块之间无线通信连接,每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接;其中,AB路段的基础数据包括线路参数、列车参数和运营参数;
列车运行前,地面中央控制模块根据方法一对多个所述人工驾驶曲线数据进行处理,得到专家驾驶曲线数据包;然后地面中央控制模块将AB路段的基础数据和所述专家驾驶曲线数据包均发送给各个列车的自动驾驶曲线生成模块;
然后根据方法二训练获取每个列车各自的强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型;
当AB路段当前的客流状况为高峰客流时,地面中央控制模块控制n个列车按虚拟连挂的模式运行,虚拟连挂的各个列车的驾驶曲线生成模块利用各自的强化节时策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;虚拟连挂列车之间的发车时间间隔可根据现有技术或经验设置;
当AB路段当前的客流状况为平峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化准点策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
当AB路段当前的客流状况为低峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化节能策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
所述方法一包括:
地面中央控制模块存储的AB路段的人工驾驶曲线数据包括多个人工驾驶曲线,单个所述人工驾驶曲线对应一个时间和能耗两目标优化的可行解,多个所述人工驾驶曲线对应多个所述可行解;如附图1所示的时间-能耗坐标系,横坐标为时间T(单位s),纵坐标为能耗E(单位J),坐标系中所示的每个小圆圈即为一个可行解;
1)将全部所述可行解进行Pareto支配,剔除被支配解,得到多个Pareto前沿解,多个所述Pareto前沿解形成Pareto前沿解集,如附图2坐标系中所示的剩下的每个小圆圈即为一个Pareto前沿解;然后利用拥挤距离计算对Pareto前沿解集进行裁剪,得到优化Pareto前沿解集,如附图3坐标系中所示的剩下的每个小圆圈即为一个优化后的Pareto前沿解,优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线,优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应;
2)采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据;其中聚类中心的个数k值取3,3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点,所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解,所述节能中心点为Pareto前沿解集中能耗最低(即耗时最长)的Pareto前沿解,将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时,所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解;在如附图3所示的坐标系中,初始的节时中心点即为时间850s对应的那个Pareto前沿解,初始的准点中心点即为时间900s对应的那个Pareto前沿解,初始的节能中心点即为时间950s对应的那个Pareto前沿解;
通过k-means聚类算法处理,以节时中心点为初始聚类中心点得到的多个Pareto前沿解组成节时类子数据;以准点中心点为初始聚类中心点得到的多个Pareto前沿解组成准点类子数据;以节能中心点为初始聚类中心点得到的多个Pareto前沿解组成节能类子数据;所述节时类子数据、准点类子数据和节能类子数据组成专家驾驶曲线数据包;
所述方法二包括:
A)每个列车的自动驾驶曲线生成模块均采用行为克隆的模仿学习方法利用节时类子数据训练生成对应的初始节时策略网络模型、利用准点类子数据训练生成对应的初始准点策略网络模型、利用节能类子数据生成对应的初始节能策略网络模型;
其中行为克隆的输入状态的输入特征从所述基础数据中选取,包括列车当前所处的位置、列车工况转换点的位置、列车当前位置之前的历史平均速度、列车在当前位置的运行速度、列车在当前位置所处坡度值、列车在当前位置所处坡度段起始位置、列车在当前位置所处坡度段的终止位置、列车在当前位置距所处坡度段终止位置的剩余长度、列车在当前位置所处坡度段的平均速度、列车在当前位置的最大限速值、所述最大限速值的起始位置、所述最大限速值的终止位置、列车在AB路段的标准运行总时间、列车型号、列车长度、列车重量;然后,可利用卷积网络进一步提取特征向量,再由全连接层和softmax激活函数处理得到输出的档位操纵信息;
B)n个列车的自动驾驶曲线生成模块按方法三生成强化节时策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始准点策略网络模型进行训练得到强化准点策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始节能策略网络模型进行训练得到强化节能策略网络模型;
所述方法三包括:
如附图4所示的多智能体强化学习的模型结构,所述地面中央控制模块还设置有价值网络;将单个列车的自动驾驶曲线生成模块记为一个智能体,则n个所述列车的自动驾驶曲线生成模块对应n个智能体,n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型;
其中,每个智能体拥有一个所述初始节时策略网络模型,n个初始节时策略网络模型共用一个所述价值网络;所述智能体的初始节时策略网络模型能独立做决策;所述价值网络能对多个智能体的决策做出评判,并将评判结果反馈给各个智能体以更新各自对应的初始节时策略网络模型。在具体训练的过程中,设n个智能体中的一个智能体为第i号智能体,第i号智能体对环境的观测为oi,并随机选出决策ai,即档位信息。价值网络的输入是所有智能体对环境观测的集合S[o1,...,oi,...,on],并通过计算将时间差分(TD)的误差δ传送给每个智能体,第i号智能体用于更新自己的策略π(ai|oi;θi)参数θi。上述过程,所有的智能体共同参与改进策略网络参数θ1,θ2...θn以及价值网络参数w。在训练完成后,第i号列车根据自己本地的策略网络π(ai|oi;θi)就可做决策,得到包含档位信息的自动驾驶曲线,做到实时决策,执行速度更快。
本发明中应用到的Pareto支配原理、拥挤距离计算、k-means聚类算法、行为克隆的模仿学习方法、策略梯度方法以及多智能体强化学习都为现有技术中十分常见的处理手段,相关的内容,本领域技术人员可从现有技术的相关文献中获取。

Claims (2)

1.一种用于高速列车应对动态客流的自动驾驶控制方法,其特征在于:
设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行,将从A站到B站的路段记为AB路段,AB路段的客流状况包括高峰客流、平峰客流和低峰客流;每个列车上均设置有自动驾驶曲线生成模块;所述自动驾驶控制方法还涉及地面中央控制模块,地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据;各个列车的自动驾驶曲线生成模块之间无线通信连接,每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接;
列车运行前,地面中央控制模块根据方法一对多个所述人工驾驶曲线数据进行处理,得到专家驾驶曲线数据包;然后地面中央控制模块将AB路段的基础数据和所述专家驾驶曲线数据包均发送给各个列车的自动驾驶曲线生成模块;
然后根据方法二训练获取每个列车各自的强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型;
当AB路段当前的客流状况为高峰客流时,地面中央控制模块控制n个列车按虚拟连挂的模式运行,虚拟连挂的各个列车的驾驶曲线生成模块利用各自的强化节时策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
当AB路段当前的客流状况为平峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化准点策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
当AB路段当前的客流状况为低峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化节能策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;
所述方法一包括:
地面中央控制模块存储的AB路段的人工驾驶曲线数据包括多个人工驾驶曲线,单个所述人工驾驶曲线对应一个时间和能耗两目标优化的可行解,多个所述人工驾驶曲线对应多个所述可行解;
1)将全部所述可行解进行Pareto支配,剔除被支配解,得到多个Pareto前沿解,多个所述Pareto前沿解形成Pareto前沿解集;然后利用拥挤距离计算对Pareto前沿解集进行裁剪,得到优化Pareto前沿解集,优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线,优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应;
2)采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据;其中聚类中心的个数k值取3,3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点,所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解,所述节能中心点为Pareto前沿解集中能耗最低的Pareto前沿解,将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时,所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解;
通过k-means聚类算法处理,以节时中心点为初始聚类中心点得到的多个Pareto前沿解组成节时类子数据;以准点中心点为初始聚类中心点得到的多个Pareto前沿解组成准点类子数据;以节能中心点为初始聚类中心点得到的多个Pareto前沿解组成节能类子数据;所述节时类子数据、准点类子数据和节能类子数据组成专家驾驶曲线数据包;
所述方法二包括:
A)每个列车的自动驾驶曲线生成模块均采用行为克隆的模仿学习方法利用节时类子数据训练生成对应的初始节时策略网络模型、利用准点类子数据训练生成对应的初始准点策略网络模型、利用节能类子数据生成对应的初始节能策略网络模型;
B)n个列车的自动驾驶曲线生成模块按方法三生成强化节时策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始准点策略网络模型进行训练得到强化准点策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始节能策略网络模型进行训练得到强化节能策略网络模型;
所述方法三包括:
所述地面中央控制模块还设置有价值网络;将单个列车的自动驾驶曲线生成模块记为一个智能体,则n个列车的自动驾驶曲线生成模块对应n个智能体,n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型;
其中,每个智能体拥有一个所述初始节时策略网络模型,n个初始节时策略网络模型共用一个所述价值网络;所述智能体的初始节时策略网络模型能独立做决策;所述价值网络能对多个智能体的决策做出评判,并将评判结果反馈给各个智能体以更新各自对应的初始节时策略网络模型。
2.如权利要求1所述的用于高速列车应对动态客流的自动驾驶控制方法,其特征在于:所述步骤A)中的克隆模仿学习的输入特征从所述基础数据中选取,包括:列车当前所处的位置、列车工况转换点的位置、列车当前位置之前的历史平均速度、列车在当前位置的运行速度、列车在当前位置所处坡度值、列车在当前位置所处坡度段起始位置、列车在当前位置所处坡度段的终止位置、列车在当前位置距所处坡度段终止位置的剩余长度、列车在当前位置所处坡度段的平均速度、列车在当前位置的最大限速值、所述最大限速值的起始位置、所述最大限速值的终止位置、列车在AB路段的标准运行总时间、列车型号、列车长度、列车重量;所述克隆模仿学习的输出特征包括档位操纵信息。
CN202111072218.4A 2021-09-14 2021-09-14 用于高速列车应对动态客流的自动驾驶控制方法 Active CN113771918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111072218.4A CN113771918B (zh) 2021-09-14 2021-09-14 用于高速列车应对动态客流的自动驾驶控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111072218.4A CN113771918B (zh) 2021-09-14 2021-09-14 用于高速列车应对动态客流的自动驾驶控制方法

Publications (2)

Publication Number Publication Date
CN113771918A CN113771918A (zh) 2021-12-10
CN113771918B true CN113771918B (zh) 2023-10-20

Family

ID=78843472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111072218.4A Active CN113771918B (zh) 2021-09-14 2021-09-14 用于高速列车应对动态客流的自动驾驶控制方法

Country Status (1)

Country Link
CN (1) CN113771918B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503804A (zh) * 2016-10-11 2017-03-15 南京理工大学 一种基于Pareto多目标遗传算法的列车定时节能运行方法
CN106777717A (zh) * 2016-12-23 2017-05-31 南京理工大学 一种考虑载客量变化的ato速度命令节能优化方法
CN111016979A (zh) * 2019-11-29 2020-04-17 卡斯柯信号有限公司 基于实时客流的城市轨道交通列车自动调整方法
CN112158238A (zh) * 2020-10-28 2021-01-01 重庆交通大学 基于目标和客流差异的列车自动驾驶曲线生成方法
AU2021100503A4 (en) * 2020-12-04 2021-04-15 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108163012B (zh) * 2017-12-27 2019-12-03 卡斯柯信号有限公司 一种支持列车动态连挂和解编的控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503804A (zh) * 2016-10-11 2017-03-15 南京理工大学 一种基于Pareto多目标遗传算法的列车定时节能运行方法
CN106777717A (zh) * 2016-12-23 2017-05-31 南京理工大学 一种考虑载客量变化的ato速度命令节能优化方法
CN111016979A (zh) * 2019-11-29 2020-04-17 卡斯柯信号有限公司 基于实时客流的城市轨道交通列车自动调整方法
CN112158238A (zh) * 2020-10-28 2021-01-01 重庆交通大学 基于目标和客流差异的列车自动驾驶曲线生成方法
AU2021100503A4 (en) * 2020-12-04 2021-04-15 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Train trajectory optimisation of ATO systems for metro lines;Ning Zhao et.al.;17th International IEEE Conference Intelligent Transportation Systems(ITSC);全文 *
基于动态客流的城市轨道交通列车牵引能耗仿真及优化;贺力霞;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN113771918A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN110060475B (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN106875710B (zh) 一种面向网联自动驾驶车辆的交叉口自组织控制方法
Chen et al. An intelligent path planning scheme of autonomous vehicles platoon using deep reinforcement learning on network edge
CN109410561B (zh) 一种高速路车辆匀异质编队行驶控制方法
CN108877256B (zh) 基于无线通信的交叉口附近分散协同自适应巡航控制方法
CN114241778B (zh) 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN105577771B (zh) 一种基于车车通信和车路通信的车辆协同驾驶方法
CN108973998B (zh) 一种基于mpc的异质车辆队列分布式节能控制方法
CN108475465A (zh) 用于移动、特别是控制或者调整车队的方法
CN111619624B (zh) 一种基于深度强化学习的有轨电车运行控制方法和系统
CN108510764A (zh) 一种基于q学习的多路口自适应相位差协调控制系统及方法
CN109360409A (zh) 一种基于驾驶风格的智能网联混合动力汽车编队控制方法
CN107331182A (zh) 一种面向连续信号交叉口的网联环境下自动驾驶车速控制方法
CN109213148A (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN111724602B (zh) 一种城市非信控多交叉路口环境下的多车协同控制方法
CN107818377A (zh) 基于云计算平台的车辆全局优化控制方法、系统、车辆和云计算平台
CN107507430A (zh) 一种城市路口交通控制方法及系统
CN107730920A (zh) 一种基于道钉灯的动态可变车道控制方法
CN112382109B (zh) 智能网联状态下应急救援车辆协同控制方法、系统及介质
CN107704975A (zh) 基于生物地理算法的地铁列车节能运行优化方法与系统
CN113269963A (zh) 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113264060B (zh) 一种基于云端训练模型的自动驾驶节能系统及方法
CN106843210A (zh) 一种基于仿生学的自动驾驶车辆运行控制方法
CN109765801A (zh) 基于vissim仿真的车联网设计速度调整的实现方法
CN111785088B (zh) 一种网联车辆匝道合并的双层协同优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant