CN115392111B - 一种列车追踪控制方法、设备、存储介质 - Google Patents

一种列车追踪控制方法、设备、存储介质 Download PDF

Info

Publication number
CN115392111B
CN115392111B CN202210892072.6A CN202210892072A CN115392111B CN 115392111 B CN115392111 B CN 115392111B CN 202210892072 A CN202210892072 A CN 202210892072A CN 115392111 B CN115392111 B CN 115392111B
Authority
CN
China
Prior art keywords
train
time
state
action
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210892072.6A
Other languages
English (en)
Other versions
CN115392111A (zh
Inventor
刘杨帆
宋亚京
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Priority to CN202210892072.6A priority Critical patent/CN115392111B/zh
Publication of CN115392111A publication Critical patent/CN115392111A/zh
Application granted granted Critical
Publication of CN115392111B publication Critical patent/CN115392111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L23/00Control, warning or like safety means along the route or between vehicles or trains
    • B61L23/08Control, warning or like safety means along the route or between vehicles or trains for controlling traffic in one direction only
    • B61L23/14Control, warning or like safety means along the route or between vehicles or trains for controlling traffic in one direction only automatically operated
    • B61L23/18Control, warning or like safety means along the route or between vehicles or trains for controlling traffic in one direction only automatically operated specially adapted for changing lengths of track sections in dependence upon speed and traffic density
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请提供一种列车追踪控制方法、设备、存储介质,该方法构建强化学习模型,强化学习模型包括数据预测模型和目标函数;获取当前策略序列,策略序列与动作对应;根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态;根据下一时刻的状态,生成对应的下一时刻策略序列;根据目标函数,从下一时刻策略序列中选择目标策略序列;基于目标策略序列进行列车追踪控制。本申请的方法基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

Description

一种列车追踪控制方法、设备、存储介质
技术领域
本申请涉及轨道交通技术领域,尤其涉及一种列车追踪控制方法、设备、存储介质。
背景技术
随着我的轨道交通的蓬勃发展,未来的交通运输压力对轨道交通领域提出了新的要求。为了应对通行高峰时刻的运量,运力不匹配的问题,提出了虚拟编组技术。虚拟编组是指基于车车通信技术,通过先进的控制手段使得列车之间速度趋同,保持较短间隔运行达到虚拟重联的效果其核心在于虚拟编队中的列车追踪控制。
在现有的列车常见控制算法中,PID(Proportional-Integral-Derivative,比例-积分-微分)控制算法广泛的应用于单列车控制当中,其稳定性得到了充分的肯定。
但是对于多目标追踪,PID控制效果表现一般,由于PID具有超调问题,在列车多目标追踪控制上表现欠佳。而模型预测控制(Model predictive control,MPC)针对多目标优化问题,模型控制参数较多,不容易确定。
发明内容
为了解决上述技术缺陷之一,本申请提供了一种列车追踪控制方法、设备、存储介质。
本申请第一个方面,提供了一种列车追踪控制方法,所述方法包括:
构建强化学习模型,所述强化学习模型包括数据预测模型和目标函数;
获取当前策略序列,所述策略序列与动作对应;
根据所述数据预测模型,预测当前策略序列对应的动作在下一时刻的状态;
根据下一时刻的状态,生成对应的下一时刻策略序列;
根据所述目标函数,从下一时刻策略序列中选择目标策略序列;
基于所述目标策略序列进行列车追踪控制。
可选地,所述构建强化学习模型,包括:
构建状态空间和动作空间;
构建奖励函数;
根据状态空间,动作空间,奖励函数构建目标函数;
构建数据预测模型。
可选地,所述状态空间的数据项包括:位置,速度,加速度,冲击率;
且,所述数据项满足如下约束:
si(k)-si-1(k)-li-sm≥0,其中,i为列车标识,k为时刻标识,si(k)为列车i在k时刻的位置,si-1(k)为列车i-1在k时刻的位置,li为列车i的车长,sm为列车静止时的安全裕量;
0≤vi(k)≤vlim(si(k)),其中,vi(k)为列车i在k时刻的速度,vlim(si(k))为列车i在k时刻的位置的线路限速值;
Umin≤Ui(k)≤Umax,其中,Umin为列车最大制动加速度,Ui(k)为列车i在k时刻的加速度,Umax为列车最大牵引加速度;
Jmin≤Ji(k)≤Jmax,其中,Jmin为列车最小冲击率,Ji(k)为列车i在k时刻的冲击率,Jmax为列车最大冲击率。
可选地,所述奖励函数为:
R=Lδ(v,vf)+L(s,sf);
其中,v为列车速度,vf为列车期望速度,s为追踪间隔,sf为期望追踪间隔,Lδ()为惩罚函数,L()为损失函数;
Figure BDA0003767981850000021
δ为波动阈值;
L(s,sf)=(s-sf)2
可选地,目标函数为:
Figure BDA0003767981850000031
其中,π为执行策略,k为时刻标识,T为总时刻,γ为折扣因子,R(stak,actk)为状态stak下,执行动作actk时的奖励函数,状态stak属于状态空间,actk属于动作空间。
可选地,数据预测模型为:
Figure BDA0003767981850000032
其中,k为时刻标识,si(k)为列车i在k时刻的位置,si(k+1)为列车i在k+1时刻的位置,vi(k)为列车i在k时刻的速度,vi(k+1)为列车i在k+1时刻的速度,Δt为单位时刻差,ui(k)为列车i在k时刻的牵引/制动系统指令输出的加速度,ui(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度,wi(k)为列车i在k时刻基本阻力产生的加速度,gi(k)为列车i在k时刻附加阻力产生的加速度,ti为Ui,des(k)为列车i在k时刻的期望加速度,τi为时延阈值。
可选地,所述构建强化学习模型之前,还包括:
基于前n个周期的状态值,训练神经网络动力学模型;
其中,所述神经网络动力学模型输出为下一周期的状态值;n为预设的周期数;所述神经网络动力学模型为由1个输入层,3个隐藏层,1个输出层构成的全连接神经网络。
可选地,所述强化学习模型还包括状态转移;
所述构建强化学习模型,还包括:
获取动作及所述动作的当前状态;
根据动作及当前状态,通过所述神经网络动力学模型,确定所述动作的下一周期的状态;
将所述动作,所述当前状态,所述下一周期的状态构成状态转移。
本申请第二个方面,提供了一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。
本申请第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。
本申请提供一种列车追踪控制方法、设备、存储介质,该方法构建强化学习模型,强化学习模型包括数据预测模型和目标函数;获取当前策略序列,策略序列与动作对应;根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态;根据下一时刻的状态,生成对应的下一时刻策略序列;根据目标函数,从下一时刻策略序列中选择目标策略序列;基于目标策略序列进行列车追踪控制。
本申请的方法基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
另外,在一种实现中,明确了对强化学习模型的确定方案,确保了强化学习模型的精准性,进而保证了列车追踪控制效果。
另外,在一种实现中,明确了强化学习模型中的状态空间的数据项,确保了强化学习模型的精准性,进而保证了列车追踪控制效果。
另外,在一种实现中,明确了强化学习模型中的奖励函数,确保了强化学习模型的精准性,进而保证了列车追踪控制效果。
另外,在一种实现中,明确了强化学习模型中的目标函数,确保了强化学习模型的精准性,进而保证了列车追踪控制效果。
另外,在一种实现中,明确了强化学习模型中的数据预测模型,确保了强化学习模型的精准性,进而保证了列车追踪控制效果。
另外,在一种实现中,在构建强化学习模型之前,还会训练神经网络动力学模型,通过训练神经网络动力学模型有效的提升了强化学习模型的精准性以及运行效率。
另外,在一种实现中,通过神经网络动力学模型确定强化学习模型中的状态转移,确保了强化学习模型的精准性,进而保证了列车追踪控制效果。
本申请提供的电子设备,其上计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
本申请提供的计算机可读存储介质,其上的计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种列车追踪控制方法的流程示意图;
图2为本申请实施例提供的强化学习模型的训练流程示意图;
图3为本申请实施例提供的模型预测模块的流程示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在实现本申请的过程中,发明人发现,对于多目标追踪,PID控制效果表现一般,由于PID具有超调问题,在列车多目标追踪控制上表现欠佳。而模型预测控制(Modelpredictive control,MPC)针对多目标优化问题,模型控制参数较多,不容易确定。
针对上述问题,本申请实施例中提供了一种列车追踪控制方法、设备、存储介质,该方法构建强化学习模型,强化学习模型包括数据预测模型和目标函数;获取当前策略序列,策略序列与动作对应;根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态;根据下一时刻的状态,生成对应的下一时刻策略序列;根据目标函数,从下一时刻策略序列中选择目标策略序列;基于目标策略序列进行列车追踪控制。本申请的方法基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
参见图1,本实施例提供的列车追踪控制方法实现流程如下:
101,构建强化学习模型。
其中,强化学习模型包括数据预测模型和目标函数。
除此之外,强化学习模型还包括状态转移,而状态转移可以基于神经网络动力学模型确定。
因此,在执行步骤101之间还会训练神经网络动力学模型,训练过程为:基于前n个周期的状态值,训练神经网络动力学模型。
其中,神经网络动力学模型输出为下一周期的状态值。n为预设的周期数。神经网络动力学模型为由1个输入层,3个隐藏层,1个输出层构成的全连接神经网络。
例如,若n=10,则利用平台历史行车数据训练神经网络动力学模型。该模型为5层全连接神经网络,包含1个输入层,3个隐藏层,1个输出层。模型输入为前10个周期的速度,级位,坡度。模型输出为下周期的状态值(如列车速度)。记所得神经动力学模型为F,该模型将作为强化学习模型的交互环境。
本步骤的实现过程为:
1、构建状态空间和动作空间。
1)状态空间
状态空间的数据项包括:位置,速度,加速度,冲击率。
且,数据项满足如下约束:
(1)编队内部列车之间的距离要保证大于所需要的安全间隔,即:
si(k)-si-1(k)-li-sm≥0。
其中,i为列车标识,k为时刻标识,si(k)为列车i在k时刻的位置,si-1(k)为列车i-1在k时刻的位置,li为列车i的车长,sm为列车静止时的安全裕量。
(2)列车在线路运行时要满足线路的限速,即:
0≤vi(k)≤vlim(si(k))。
其中,vi(k)为列车i在k时刻的速度,vlim(si(k))为列车i在k时刻的位置的线路限速值。
Umin≤Ui(k)≤Umax
其中,Umin为列车最大制动加速度,Ui(k)为列车i在k时刻的加速度,Umax为列车最大牵引加速度。
(3)冲击率需满足舒适性要求,即:
Jmin≤Ji(k)≤Jmax
其中,Jmin为列车最小冲击率,Ji(k)为列车i在k时刻的冲击率,Jmax为列车最大冲击率。
2)动作空间
对于列车模型,列车的可能动作包含牵引(加速>0)、惰行(加速=0)以及制动(减速加速<0)。列的可能动作构成动作空间。
所有的动作需满足状态空间中所提的列车加速度约束。
2、构建奖励函数。
奖励函数为:
R=Lδ(v,vf)+L(s,sf)。
其中,v为列车速度,vf为列车期望速度,s为追踪间隔,sf为期望追踪间隔,Lδ()为惩罚函数,L()为损失函数。
Figure BDA0003767981850000081
δ为波动阈值。
L(s,sf)=(s-sf)2
在具体实现时,列车追踪问题主要是控制目标为追踪速度误差,以及追踪距离误差。
控制趋势为:
1)前后车速度趋同:
Figure BDA0003767981850000082
其中,vi,des(k)为列车i在k时刻的目标速度。
2)前后车相对距离趋于期望间隔:
Figure BDA0003767981850000083
其中,di,des(k)为列车i在k时刻的期望间隔。di,des(k)由ATP防护曲线+安全裕量两部分组成,为了简化期望间隔计算,采用固定时间间隔追踪策略确定期望间隔,计算公式为:
di,des(k)=hvi(k)+sm
其中,h为时间间隔。
(1)速度项
在实际后车追踪前车的过程中,以前车速度为目标速度,后车速度允许一定的波动,这个波动记为波动阈值δ。Δt≤δ视作处于理想的控制范围内,其他情况,视为非理想状态,需要给予较大的惩罚。
Figure BDA0003767981850000091
δ可以为20cm/s。
(2)追踪间隔项
在实际追踪过程中,理想的追踪间隔为一条与安全防护距离平行的曲线,实际的追踪间隔应分布在理想曲线的两侧。对此离散程度可看作速度控制的精度,因而在考虑到损失函数复杂度的前提下,追踪间隔的损失函数模型可以采用平方损失函数。
L(s,sf)=(s-sf)2
则最终奖励函数R=Lδ(v,vf)+L(s,sf)
3、根据状态空间,动作空间,奖励函数构建目标函数。
确定优化目标,即在追踪过程中要求整体的累计惩罚值最小,即奖励最大。则有当前策略下的目标函数为:
Figure BDA0003767981850000092
其中,π为执行策略,k为时刻标识,T为总时刻,γ为折扣因子,R(stak,actk)为状态stak下,执行动作actk时的奖励函数,状态stak属于状态空间,actk属于动作空间。
4、构建数据预测模型。
数据预测模型的主要作用在于根据当前状态与动作,从而获得下一时刻的状态,将下一时刻状态输出给智能体,智能体给出动作,即完成了一步预测。由于这里强调的是预测,即强调趋势。因而数据预测模型为:
Figure BDA0003767981850000093
其中,k为时刻标识,si(k)为列车i在k时刻的位置,si(k+1)为列车i在k+1时刻的位置,vi(k)为列车i在k时刻的速度,vi(k+1)为列车i在k+1时刻的速度,Δt为单位时刻差,ui(k)为列车i在k时刻的牵引/制动系统指令输出的加速度,ui(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度,wi(k)为列车i在k时刻基本阻力产生的加速度,gi(k)为列车i在k时刻附加阻力产生的加速度,ti为Ui,des(k)为列车i在k时刻的期望加速度,τi为时延阈值。
具体是爱系那是,位置的单位为m,速度的单位为m/s,加速度的单位为m/s2
除此之外,还会确定状态转移。在强化学习模型中,状态转移的实现,依托神经网络的动力学模型。通过动作,以及当前状态从而获得下一状态。
即,获取动作及动作的当前状态。根据动作及当前状态,通过神经网络动力学模型,确定动作的下一周期的状态。将动作,当前状态,下一周期的状态构成状态转移。
在构建上述强化学习模型之后,还可以对其进行模型训练。将各个工况下的列车历史运行数据注入数据经验池。从经验池中随机采样一组数据注入给智能体,智能体处理,输出动作。可以通过图2所示的流程进行训练。进入离线训练后,构建环境(列车神经网络动力学模型),其将奖励值发送至模型预测,并从模型预测获取动作,同时,将环境生成数据(如列车在k时刻的状态,在k+1时刻的状态,在k时刻的加速度等)输入至数据经验池。与此同时,换将确定下一周期状态,将其作为模型预测中的当前状态。智能体从数据经验池中随机采样数据,并基于采样数据进行模型预测,进而优化状态、动作序列。智能体将满足要求的确定性控车策略以及期望加速度输出至下层控制器,进而通过级位转化,控制级位,输出值被控列车。
102,获取当前策略序列。
其中,策略序列与动作对应。
例如,根据当前状态stak,以及输入动作actk,随机生成M条长度为H,的策略序列,将其作为当前策略序列。
H为预测步长,H太大会导致模型预测时间过长,综合选取一般取10以内。
103,根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态。
104,根据下一时刻的状态,生成对应的下一时刻策略序列。
例如,取第m条控制序列下的第z个动作actm,z,计算下一时刻状态stam,z+1并与智能体进行交互,获得下一时刻控制策略。
判断当前策略是否预测完成(z==H),若没有反复执行,直至获得当前策略下的控制序列Am,z:z+H=(actm,z,…,actm,z+H),以及预测状态序列。
计算当前控制序列的对应回报G=(staz,actm,z)。
判断是否完成完成所有策略序列预测,若没有则重复执行取第m条控制序列下的第z+1个动作的步骤及后续步骤,即对动作的预测。若完成则记录素所有的回报序列。
105,根据目标函数,从下一时刻策略序列中选择目标策略序列。
106,基于目标策略序列进行列车追踪控制。
例如,
1、输出最优控制序列的第一个动作,传递给交互环境。
2、交互环境根据当前动作更新一组状态数据,并将当前数据存入数据经验池中。
3持续训练模型,直至速度追踪误差,距离追踪误差达到控制要求,且保持稳定,完成模型训练。
4、输出当前强化学习模型控制策略。
5、强化学习控制模型根据当前追踪状态输出期望动作(加速度)给列车下层控制器。控制器完成级位转换,输出控制级位,从而完成列车控制。
在具体实现时,上述过程可以在图2的模型预测模块实现,详见图3,模型预测模块的流程为:
开始后,初始化智能体网络,输入初始状态,生成M条控制序列,计算第m条控制序列下第z个的动作,计算下一个状态,确定是否达到预测步长(即z<H),若是,则z++,重复执行计算下一个状态的步骤及后续步骤。若否,则生成动作序列Am,z:z+H,生成回报G=(staz,actm,z),确定控制序列是否已处理完成,若未已处理完成,则z++,重复执行计算第m条控制序列下第z个的动作的步骤及后续步骤,若已处理完成,则生成控制序列,根据回报挑选最优序列,并输出第一个动作。
本实施例提供的列车追踪控制方法是一种基于强化学习和模型预测的列车追踪控制方法。主要解决了:传统MPC控制算法针对复杂被控对象的精确屋里建模困难,通用性差的问题。本实施例采用神经网络进行离线训练获得的列车动力学模型,从而提升了算法的通用性,能够适应各种列车模型。
另外,解决了传统控制算法如MPC,参数复杂,且在控制过程中参数难以动态调整或只能添加有限的策略,无法保证在各个工况下表现出良好的效果。本实施例采用强化学习模型,通过与环境的交互学习,在充分学习后,可以获得更加全面的控制策略,同时,在学习中引入模型预测,生成高效的数据提供给智能体学习,从而提升学习效率,减少训练时间。
本实施例提供一种列车追踪控制方法,构建强化学习模型,强化学习模型包括数据预测模型和目标函数;获取当前策略序列,策略序列与动作对应;根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态;根据下一时刻的状态,生成对应的下一时刻策略序列;根据目标函数,从下一时刻策略序列中选择目标策略序列;基于目标策略序列进行列车追踪控制。本实施例的方法基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
基于列车追踪控制方法的同一发明构思,本实施例提供一种电子设备,该电子设备包括:存储器,处理器,以及计算机程序。
其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现上述列车追踪控制方法。
具体的,
具体的,
构建强化学习模型,强化学习模型包括数据预测模型和目标函数。
获取当前策略序列,策略序列与动作对应。
根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态。
根据下一时刻的状态,生成对应的下一时刻策略序列。
根据目标函数,从下一时刻策略序列中选择目标策略序列。
基于目标策略序列进行列车追踪控制。
可选地,构建强化学习模型,包括:
构建状态空间和动作空间。
构建奖励函数。
根据状态空间,动作空间,奖励函数构建目标函数。
构建数据预测模型。
可选地,状态空间的数据项包括:位置,速度,加速度,冲击率。
且,数据项满足如下约束:
si(k)-si-1(k)-li-sm≥0,其中,i为列车标识,k为时刻标识,si(k)为列车i在k时刻的位置,si-1(k)为列车i-1在k时刻的位置,li为列车i的车长,sm为列车静止时的安全裕量。
0≤vi(k)≤vlim(si(k)),其中,vi(k)为列车i在k时刻的速度,vlim(si(k))为列车i在k时刻的位置的线路限速值。
Umin≤Ui(k)≤Umax,其中,Umin为列车最大制动加速度,Ui(k)为列车i在k时刻的加速度,Umax为列车最大牵引加速度。
Jmin≤Ji(k)≤Jmax,其中,Jmin为列车最小冲击率,Ji(k)为列车i在k时刻的冲击率,Jmax为列车最大冲击率。
可选地,奖励函数为:
R=Lδ(v,vf)+L(s,sf)。
其中,v为列车速度,vf为列车期望速度,s为追踪间隔,sf为期望追踪间隔,Lδ()为惩罚函数,L()为损失函数。
Figure BDA0003767981850000141
δ为波动阈值。
L(s,sf)=(s-sf)2
可选地,目标函数为:
Figure BDA0003767981850000142
其中,π为执行策略,k为时刻标识,T为总时刻,γ为折扣因子,R(stak,actk)为状态stak下,执行动作actk时的奖励函数,状态stak属于状态空间,actk属于动作空间。
可选地,数据预测模型为:
Figure BDA0003767981850000143
其中,k为时刻标识,si(k)为列车i在k时刻的位置,si(k+1)为列车i在k+1时刻的位置,vi(k)为列车i在k时刻的速度,vi(k+1)为列车i在k+1时刻的速度,Δt为单位时刻差,ui(k)为列车i在k时刻的牵引/制动系统指令输出的加速度,ui(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度,wi(k)为列车i在k时刻基本阻力产生的加速度,gi(k)为列车i在k时刻附加阻力产生的加速度,ti为Ui,des(k)为列车i在k时刻的期望加速度,τi为时延阈值。
可选地,构建强化学习模型之前,还包括:
基于前n个周期的状态值,训练神经网络动力学模型。
其中,神经网络动力学模型输出为下一周期的状态值。n为预设的周期数。神经网络动力学模型为由1个输入层,3个隐藏层,1个输出层构成的全连接神经网络。
可选地,强化学习模型还包括状态转移。
构建强化学习模型,还包括:
获取动作及动作的当前状态。
根据动作及当前状态,通过神经网络动力学模型,确定动作的下一周期的状态。
将动作,当前状态,下一周期的状态构成状态转移。
本实施例提供的电子设备,其上计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
基于列车追踪控制方法的同一发明构思,本实施例提供一种计算机可其上存储有计算机程序。计算机程序被处理器执行以实现上述列车追踪控制方法。
具体的,
构建强化学习模型,强化学习模型包括数据预测模型和目标函数。
获取当前策略序列,策略序列与动作对应。
根据数据预测模型,预测当前策略序列对应的动作在下一时刻的状态。
根据下一时刻的状态,生成对应的下一时刻策略序列。
根据目标函数,从下一时刻策略序列中选择目标策略序列。
基于目标策略序列进行列车追踪控制。
可选地,构建强化学习模型,包括:
构建状态空间和动作空间。
构建奖励函数。
根据状态空间,动作空间,奖励函数构建目标函数。
构建数据预测模型。
可选地,状态空间的数据项包括:位置,速度,加速度,冲击率。
且,数据项满足如下约束:
si(k)-si-1(k)-li-sm≥0,其中,i为列车标识,k为时刻标识,si(k)为列车i在k时刻的位置,si-1(k)为列车i-1在k时刻的位置,li为列车i的车长,sm为列车静止时的安全裕量。
0≤vi(k)≤vlim(si(k)),其中,vi(k)为列车i在k时刻的速度,vlim(si(k))为列车i在k时刻的位置的线路限速值。
Umin≤Ui(k)≤Umax,其中,Umin为列车最大制动加速度,Ui(k)为列车i在k时刻的加速度,Umax为列车最大牵引加速度。
Jmin≤Ji(k)≤Jmax,其中,Jmin为列车最小冲击率,Ji(k)为列车i在k时刻的冲击率,Jmax为列车最大冲击率。
可选地,奖励函数为:
R=Lδ(v,vf)+L(s,sf)。
其中,v为列车速度,vf为列车期望速度,s为追踪间隔,sf为期望追踪间隔,Lδ()为惩罚函数,L()为损失函数。
Figure BDA0003767981850000163
δ为波动阈值。/>
L(s,sf)=(s-sf)2
可选地,目标函数为:
Figure BDA0003767981850000161
其中,π为执行策略,k为时刻标识,T为总时刻,γ为折扣因子,R(stak,actk)为状态stak下,执行动作actk时的奖励函数,状态stak属于状态空间,actk属于动作空间。
可选地,数据预测模型为:
Figure BDA0003767981850000162
其中,k为时刻标识,si(k)为列车i在k时刻的位置,si(k+1)为列车i在k+1时刻的位置,vi(k)为列车i在k时刻的速度,vi(k+1)为列车i在k+1时刻的速度,Δt为单位时刻差,ui(k)为列车i在k时刻的牵引/制动系统指令输出的加速度,ui(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度,wi(k)为列车i在k时刻基本阻力产生的加速度,gi(k)为列车i在k时刻附加阻力产生的加速度,ti为Ui,des(k)为列车i在k时刻的期望加速度,τi为时延阈值。
可选地,构建强化学习模型之前,还包括:
基于前n个周期的状态值,训练神经网络动力学模型。
其中,神经网络动力学模型输出为下一周期的状态值。n为预设的周期数。神经网络动力学模型为由1个输入层,3个隐藏层,1个输出层构成的全连接神经网络。
可选地,强化学习模型还包括状态转移。
构建强化学习模型,还包括:
获取动作及动作的当前状态。
根据动作及当前状态,通过神经网络动力学模型,确定动作的下一周期的状态。
将动作,当前状态,下一周期的状态构成状态转移。
本实施例提供的计算机可读存储介质,其上的计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制,可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (5)

1.一种列车追踪控制方法,其特征在于,所述方法包括:
构建强化学习模型,所述强化学习模型包括数据预测模型和目标函数;
获取当前策略序列,所述策略序列与动作对应;
根据所述数据预测模型,预测当前策略序列对应的动作在下一时刻的状态;
根据下一时刻的状态,生成对应的下一时刻策略序列;
根据所述目标函数,从下一时刻策略序列中选择目标策略序列;
基于所述目标策略序列进行列车追踪控制;
所述构建强化学习模型,包括:
构建状态空间和动作空间;
构建奖励函数;
根据状态空间,动作空间,奖励函数构建目标函数;
构建数据预测模型;
所述状态空间的数据项包括:位置,速度,加速度,冲击率;
且,所述数据项满足如下约束:
si(k)-si-1(k)-li-sm≥0,其中,i为列车标识,k为时刻标识,si(k)为列车i在k时刻的位置,si-1(k)为列车i-1在k时刻的位置,li为列车i的车长,sm为列车静止时的安全裕量;
0vi(k)≤vlim(si(k)),其中,vi(k)为列车i在k时刻的速度,vlim(si(k))为列车i在k时刻的位置的线路限速值;
Umin≤Ui(k)≤Umax,其中,Umin为列车最大制动加速度,Ui(k)为列车i在k时刻的加速度,Umax为列车最大牵引加速度;
Jmin≤Ji(k)≤Jmax,其中,Jmin为列车最小冲击率,Ji(k)为列车i在k时刻的冲击率,Jmax为列车最大冲击率;
所述奖励函数为:
R=Lδ(v,vf)+L(s,sf);
其中,v为列车速度,vf为列车期望速度,s为追踪间隔,sf为期望追踪间隔,Lδ()为惩罚函数,L()为损失函数;
Figure FDA0004285435640000021
δ为波动阈值;
L(s,sf)=(s-sf)2
目标函数为:
Figure FDA0004285435640000022
其中,π为执行策略,k为时刻标识,T为总时刻,γ为折扣因子,R(stak,actk)为状态stak下,执行动作actk时的奖励函数,状态stak属于状态空间,actk属于动作空间;
数据预测模型为:
Figure FDA0004285435640000023
其中,k为时刻标识,si(k)为列车i在k时刻的位置,si(k+1)为列车i在k+1时刻的位置,vi(k)为列车i在k时刻的速度,vi(k+1)为列车i在k+1时刻的速度,Δt为单位时刻差,ui(k)为列车i在k时刻的牵引/制动系统指令输出的加速度,ui(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度,wi(k)为列车i在k时刻基本阻力产生的加速度,gi(k)为列车i在k时刻附加阻力产生的加速度,ti为Ui,des(k)为列车i在k时刻的期望加速度,τi为时延阈值。
2.根据权利要求1所述的方法,其特征在于,所述构建强化学习模型之前,还包括:
基于前n个周期的状态值,训练神经网络动力学模型;
其中,所述神经网络动力学模型输出为下一周期的状态值;n为预设的周期数;所述神经网络动力学模型为由1个输入层,3个隐藏层,1个输出层构成的全连接神经网络。
3.根据权利要求2所述的方法,其特征在于,所述强化学习模型还包括状态转移;
所述构建强化学习模型,还包括:
获取动作及所述动作的当前状态;
根据动作及当前状态,通过所述神经网络动力学模型,确定所述动作的下一周期的状态;
将所述动作,所述当前状态,所述下一周期的状态构成状态转移。
4.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-3任一项所述的方法。
5.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-3任一项所述的方法。
CN202210892072.6A 2022-07-27 2022-07-27 一种列车追踪控制方法、设备、存储介质 Active CN115392111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210892072.6A CN115392111B (zh) 2022-07-27 2022-07-27 一种列车追踪控制方法、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210892072.6A CN115392111B (zh) 2022-07-27 2022-07-27 一种列车追踪控制方法、设备、存储介质

Publications (2)

Publication Number Publication Date
CN115392111A CN115392111A (zh) 2022-11-25
CN115392111B true CN115392111B (zh) 2023-07-14

Family

ID=84117210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210892072.6A Active CN115392111B (zh) 2022-07-27 2022-07-27 一种列车追踪控制方法、设备、存储介质

Country Status (1)

Country Link
CN (1) CN115392111B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115837899B (zh) * 2023-02-16 2023-05-16 华东交通大学 动车组制动系统的多模型自适应故障补偿控制方法及系统
CN116395006B (zh) * 2023-05-15 2024-03-08 北京交通大学 一种面向虚拟编组列车同步进站控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016008A (zh) * 2020-08-27 2020-12-01 广州地铁集团有限公司 一种多场景下城市轨道交通客流精准诱导系统
CN114514411A (zh) * 2019-10-08 2022-05-17 移动眼视觉科技有限公司 用于交通工具导航的系统和方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065929A (ja) * 2005-08-30 2007-03-15 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
CN102442332B (zh) * 2011-11-17 2015-05-06 广东工业大学 一种用于太阳能铁道标签的智能跟踪系统的处理方法
CA3052953C (en) * 2017-02-10 2021-11-09 Nissan North America, Inc. Autonomous vehicle operational management blocking monitoring
CN107505895B (zh) * 2017-08-24 2020-06-09 深圳国泰安教育技术有限公司 一种沙盘控制方法及装置
CN109062273B (zh) * 2018-08-15 2021-11-02 北京交通大学 基于事件触发pid控制的列车速度曲线跟踪控制方法和系统
CN109740839B (zh) * 2018-11-23 2021-06-18 北京交通大学 一种突发事件下的列车动态调整方法及系统
CN111619624B (zh) * 2020-06-01 2022-06-21 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN113052372B (zh) * 2021-03-17 2022-08-02 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法
CN113139655B (zh) * 2021-03-31 2022-08-19 北京大学 一种基于强化学习的目标追踪的训练方法、追踪方法
CN113492892B (zh) * 2021-07-13 2022-08-30 交控科技股份有限公司 虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质
CN113562039B (zh) * 2021-09-09 2022-04-29 中国铁道科学研究院集团有限公司通信信号研究所 一种面向多车协同的运行图自动调整方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114514411A (zh) * 2019-10-08 2022-05-17 移动眼视觉科技有限公司 用于交通工具导航的系统和方法
CN112016008A (zh) * 2020-08-27 2020-12-01 广州地铁集团有限公司 一种多场景下城市轨道交通客流精准诱导系统

Also Published As

Publication number Publication date
CN115392111A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN115392111B (zh) 一种列车追踪控制方法、设备、存储介质
CN112193280B (zh) 一种重载列车强化学习控制方法及系统
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN104881527B (zh) 城市轨道交通列车ato速度命令优化方法
CN111158349B (zh) 基于多步线性化策略的无人驾驶车辆模型预测控制方法
CN106777717B (zh) 一种考虑载客量变化的ato速度命令节能优化方法
CN109204390B (zh) 一种基于深度学习的列车控制方法
CN106056238B (zh) 列车区间运行轨迹的规划方法
CN114967676A (zh) 基于强化学习的模型预测控制轨迹跟踪控制系统及方法方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN116476825B (zh) 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN114852105A (zh) 一种自动驾驶车辆换道轨迹规划方法及系统
CN114355897B (zh) 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN113655794A (zh) 基于鲁棒模型预测控制的多车协同控制方法
CN113815679B (zh) 一种高速列车自主驾驶控制的实现方法
CN112124310B (zh) 一种车辆的路径变换方法和装置
CN113391553B (zh) 具有执行器饱和的异构cacc系统的自适应最优控制方法
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN114488799A (zh) 汽车自适应巡航系统控制器参数优化方法
CN114179861A (zh) 用于列车的编队运行控制方法、装置及存储介质
CN116176654A (zh) 一种场景自适应的轨道交通ato控制系统
CN111598311B (zh) 一种新型列车运行速度曲线智能优化方法
CN115520188A (zh) 节能型车辆速度规划方法、系统、电子设备、存储介质
CN113674529A (zh) 一种自主超车方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40078382

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant