CN115392111B

CN115392111B - 一种列车追踪控制方法、设备、存储介质

Info

Publication number: CN115392111B
Application number: CN202210892072.6A
Authority: CN
Inventors: 刘杨帆; 宋亚京; 张蕾
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-07-14
Anticipated expiration: 2042-07-27
Also published as: CN115392111A

Abstract

本申请提供一种列车追踪控制方法、设备、存储介质，该方法构建强化学习模型，强化学习模型包括数据预测模型和目标函数；获取当前策略序列，策略序列与动作对应；根据数据预测模型，预测当前策略序列对应的动作在下一时刻的状态；根据下一时刻的状态，生成对应的下一时刻策略序列；根据目标函数，从下一时刻策略序列中选择目标策略序列；基于目标策略序列进行列车追踪控制。本申请的方法基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

Description

一种列车追踪控制方法、设备、存储介质

技术领域

本申请涉及轨道交通技术领域，尤其涉及一种列车追踪控制方法、设备、存储介质。

背景技术

随着我的轨道交通的蓬勃发展，未来的交通运输压力对轨道交通领域提出了新的要求。为了应对通行高峰时刻的运量，运力不匹配的问题，提出了虚拟编组技术。虚拟编组是指基于车车通信技术，通过先进的控制手段使得列车之间速度趋同，保持较短间隔运行达到虚拟重联的效果其核心在于虚拟编队中的列车追踪控制。

在现有的列车常见控制算法中，PID(Proportional-Integral-Derivative，比例-积分-微分)控制算法广泛的应用于单列车控制当中，其稳定性得到了充分的肯定。

但是对于多目标追踪，PID控制效果表现一般，由于PID具有超调问题，在列车多目标追踪控制上表现欠佳。而模型预测控制(Model predictive control，MPC)针对多目标优化问题，模型控制参数较多，不容易确定。

发明内容

为了解决上述技术缺陷之一，本申请提供了一种列车追踪控制方法、设备、存储介质。

本申请第一个方面，提供了一种列车追踪控制方法，所述方法包括：

构建强化学习模型，所述强化学习模型包括数据预测模型和目标函数；

获取当前策略序列，所述策略序列与动作对应；

根据所述数据预测模型，预测当前策略序列对应的动作在下一时刻的状态；

根据下一时刻的状态，生成对应的下一时刻策略序列；

根据所述目标函数，从下一时刻策略序列中选择目标策略序列；

基于所述目标策略序列进行列车追踪控制。

可选地，所述构建强化学习模型，包括：

构建状态空间和动作空间；

构建奖励函数；

根据状态空间，动作空间，奖励函数构建目标函数；

构建数据预测模型。

可选地，所述状态空间的数据项包括：位置，速度，加速度，冲击率；

且，所述数据项满足如下约束：

s_i(k)-s_i-1(k)-l_i-s_m≥0，其中，i为列车标识，k为时刻标识，s_i(k)为列车i在k时刻的位置，s_i-1(k)为列车i-1在k时刻的位置，l_i为列车i的车长，s_m为列车静止时的安全裕量；

0≤v_i(k)≤v_lim(s_i(k))，其中，v_i(k)为列车i在k时刻的速度，v_lim(s_i(k))为列车i在k时刻的位置的线路限速值；

U_min≤U_i(k)≤U_max，其中，U_min为列车最大制动加速度，U_i(k)为列车i在k时刻的加速度，U_max为列车最大牵引加速度；

J_min≤J_i(k)≤J_max，其中，J_min为列车最小冲击率，J_i(k)为列车i在k时刻的冲击率，J_max为列车最大冲击率。

可选地，所述奖励函数为：

R＝L_δ(v，v_f)+L(s，s_f)；

其中，v为列车速度，v_f为列车期望速度，s为追踪间隔，s_f为期望追踪间隔，L_δ()为惩罚函数，L()为损失函数；

δ为波动阈值；

L(s，s_f)＝(s-s_f)²。

可选地，目标函数为：

其中，π为执行策略，k为时刻标识，T为总时刻，γ为折扣因子，R(sta_k，act_k)为状态sta_k下，执行动作act_k时的奖励函数，状态sta_k属于状态空间，act_k属于动作空间。

可选地，数据预测模型为：

其中，k为时刻标识，s_i(k)为列车i在k时刻的位置，s_i(k+1)为列车i在k+1时刻的位置，v_i(k)为列车i在k时刻的速度，v_i(k+1)为列车i在k+1时刻的速度，Δt为单位时刻差，u_i(k)为列车i在k时刻的牵引/制动系统指令输出的加速度，u_i(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度，w_i(k)为列车i在k时刻基本阻力产生的加速度，g_i(k)为列车i在k时刻附加阻力产生的加速度，t_i为U_i，des(k)为列车i在k时刻的期望加速度，τ_i为时延阈值。

可选地，所述构建强化学习模型之前，还包括：

基于前n个周期的状态值，训练神经网络动力学模型；

其中，所述神经网络动力学模型输出为下一周期的状态值；n为预设的周期数；所述神经网络动力学模型为由1个输入层，3个隐藏层，1个输出层构成的全连接神经网络。

可选地，所述强化学习模型还包括状态转移；

所述构建强化学习模型，还包括：

获取动作及所述动作的当前状态；

根据动作及当前状态，通过所述神经网络动力学模型，确定所述动作的下一周期的状态；

将所述动作，所述当前状态，所述下一周期的状态构成状态转移。

本申请第二个方面，提供了一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。

本申请第三个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。

本申请提供一种列车追踪控制方法、设备、存储介质，该方法构建强化学习模型，强化学习模型包括数据预测模型和目标函数；获取当前策略序列，策略序列与动作对应；根据数据预测模型，预测当前策略序列对应的动作在下一时刻的状态；根据下一时刻的状态，生成对应的下一时刻策略序列；根据目标函数，从下一时刻策略序列中选择目标策略序列；基于目标策略序列进行列车追踪控制。

本申请的方法基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

另外，在一种实现中，明确了对强化学习模型的确定方案，确保了强化学习模型的精准性，进而保证了列车追踪控制效果。

另外，在一种实现中，明确了强化学习模型中的状态空间的数据项，确保了强化学习模型的精准性，进而保证了列车追踪控制效果。

另外，在一种实现中，明确了强化学习模型中的奖励函数，确保了强化学习模型的精准性，进而保证了列车追踪控制效果。

另外，在一种实现中，明确了强化学习模型中的目标函数，确保了强化学习模型的精准性，进而保证了列车追踪控制效果。

另外，在一种实现中，明确了强化学习模型中的数据预测模型，确保了强化学习模型的精准性，进而保证了列车追踪控制效果。

另外，在一种实现中，在构建强化学习模型之前，还会训练神经网络动力学模型，通过训练神经网络动力学模型有效的提升了强化学习模型的精准性以及运行效率。

另外，在一种实现中，通过神经网络动力学模型确定强化学习模型中的状态转移，确保了强化学习模型的精准性，进而保证了列车追踪控制效果。

本申请提供的电子设备，其上计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

本申请提供的计算机可读存储介质，其上的计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种列车追踪控制方法的流程示意图；

图2为本申请实施例提供的强化学习模型的训练流程示意图；

图3为本申请实施例提供的模型预测模块的流程示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在实现本申请的过程中，发明人发现，对于多目标追踪，PID控制效果表现一般，由于PID具有超调问题，在列车多目标追踪控制上表现欠佳。而模型预测控制(Modelpredictive control，MPC)针对多目标优化问题，模型控制参数较多，不容易确定。

针对上述问题，本申请实施例中提供了一种列车追踪控制方法、设备、存储介质，该方法构建强化学习模型，强化学习模型包括数据预测模型和目标函数；获取当前策略序列，策略序列与动作对应；根据数据预测模型，预测当前策略序列对应的动作在下一时刻的状态；根据下一时刻的状态，生成对应的下一时刻策略序列；根据目标函数，从下一时刻策略序列中选择目标策略序列；基于目标策略序列进行列车追踪控制。本申请的方法基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

参见图1，本实施例提供的列车追踪控制方法实现流程如下：

101，构建强化学习模型。

其中，强化学习模型包括数据预测模型和目标函数。

除此之外，强化学习模型还包括状态转移，而状态转移可以基于神经网络动力学模型确定。

因此，在执行步骤101之间还会训练神经网络动力学模型，训练过程为：基于前n个周期的状态值，训练神经网络动力学模型。

其中，神经网络动力学模型输出为下一周期的状态值。n为预设的周期数。神经网络动力学模型为由1个输入层，3个隐藏层，1个输出层构成的全连接神经网络。

例如，若n＝10，则利用平台历史行车数据训练神经网络动力学模型。该模型为5层全连接神经网络，包含1个输入层，3个隐藏层，1个输出层。模型输入为前10个周期的速度，级位，坡度。模型输出为下周期的状态值(如列车速度)。记所得神经动力学模型为F，该模型将作为强化学习模型的交互环境。

本步骤的实现过程为：

1、构建状态空间和动作空间。

1)状态空间

状态空间的数据项包括：位置，速度，加速度，冲击率。

且，数据项满足如下约束：

(1)编队内部列车之间的距离要保证大于所需要的安全间隔，即：

s_i(k)-s_i-1(k)-l_i-s_m≥0。

其中，i为列车标识，k为时刻标识，s_i(k)为列车i在k时刻的位置，s_i-1(k)为列车i-1在k时刻的位置，l_i为列车i的车长，s_m为列车静止时的安全裕量。

(2)列车在线路运行时要满足线路的限速，即：

0≤v_i(k)≤v_lim(s_i(k))。

其中，v_i(k)为列车i在k时刻的速度，v_lim(s_i(k))为列车i在k时刻的位置的线路限速值。

U_min≤U_i(k)≤U_max。

其中，U_min为列车最大制动加速度，U_i(k)为列车i在k时刻的加速度，U_max为列车最大牵引加速度。

(3)冲击率需满足舒适性要求，即：

J_min≤J_i(k)≤J_max。

其中，J_min为列车最小冲击率，J_i(k)为列车i在k时刻的冲击率，J_max为列车最大冲击率。

2)动作空间

对于列车模型，列车的可能动作包含牵引(加速＞0)、惰行(加速＝0)以及制动(减速加速＜0)。列的可能动作构成动作空间。

所有的动作需满足状态空间中所提的列车加速度约束。

2、构建奖励函数。

奖励函数为：

R＝L_δ(v，v_f)+L(s，s_f)。

其中，v为列车速度，v_f为列车期望速度，s为追踪间隔，s_f为期望追踪间隔，L_δ()为惩罚函数，L()为损失函数。

δ为波动阈值。

L(s，s_f)＝(s-s_f)²。

在具体实现时，列车追踪问题主要是控制目标为追踪速度误差，以及追踪距离误差。

控制趋势为：

1)前后车速度趋同：

其中，v_i，des(k)为列车i在k时刻的目标速度。

2)前后车相对距离趋于期望间隔：

其中，d_i，des(k)为列车i在k时刻的期望间隔。d_i，des(k)由ATP防护曲线+安全裕量两部分组成，为了简化期望间隔计算，采用固定时间间隔追踪策略确定期望间隔，计算公式为：

d_i，des(k)＝hv_i(k)+s_m

其中，h为时间间隔。

(1)速度项

在实际后车追踪前车的过程中，以前车速度为目标速度，后车速度允许一定的波动，这个波动记为波动阈值δ。Δt≤δ视作处于理想的控制范围内，其他情况，视为非理想状态，需要给予较大的惩罚。

δ可以为20cm/s。

(2)追踪间隔项

在实际追踪过程中，理想的追踪间隔为一条与安全防护距离平行的曲线，实际的追踪间隔应分布在理想曲线的两侧。对此离散程度可看作速度控制的精度，因而在考虑到损失函数复杂度的前提下，追踪间隔的损失函数模型可以采用平方损失函数。

L(s，s_f)＝(s-s_f)²

则最终奖励函数R＝L_δ(v，v_f)+L(s，s_f)

3、根据状态空间，动作空间，奖励函数构建目标函数。

确定优化目标，即在追踪过程中要求整体的累计惩罚值最小，即奖励最大。则有当前策略下的目标函数为：

4、构建数据预测模型。

数据预测模型的主要作用在于根据当前状态与动作，从而获得下一时刻的状态，将下一时刻状态输出给智能体，智能体给出动作，即完成了一步预测。由于这里强调的是预测，即强调趋势。因而数据预测模型为：

具体是爱系那是，位置的单位为m，速度的单位为m/s，加速度的单位为m/s²。

除此之外，还会确定状态转移。在强化学习模型中，状态转移的实现，依托神经网络的动力学模型。通过动作，以及当前状态从而获得下一状态。

即，获取动作及动作的当前状态。根据动作及当前状态，通过神经网络动力学模型，确定动作的下一周期的状态。将动作，当前状态，下一周期的状态构成状态转移。

在构建上述强化学习模型之后，还可以对其进行模型训练。将各个工况下的列车历史运行数据注入数据经验池。从经验池中随机采样一组数据注入给智能体，智能体处理，输出动作。可以通过图2所示的流程进行训练。进入离线训练后，构建环境(列车神经网络动力学模型)，其将奖励值发送至模型预测，并从模型预测获取动作，同时，将环境生成数据(如列车在k时刻的状态，在k+1时刻的状态，在k时刻的加速度等)输入至数据经验池。与此同时，换将确定下一周期状态，将其作为模型预测中的当前状态。智能体从数据经验池中随机采样数据，并基于采样数据进行模型预测，进而优化状态、动作序列。智能体将满足要求的确定性控车策略以及期望加速度输出至下层控制器，进而通过级位转化，控制级位，输出值被控列车。

102，获取当前策略序列。

其中，策略序列与动作对应。

例如，根据当前状态sta_k，以及输入动作act_k，随机生成M条长度为H，的策略序列，将其作为当前策略序列。

H为预测步长，H太大会导致模型预测时间过长，综合选取一般取10以内。

103，根据数据预测模型，预测当前策略序列对应的动作在下一时刻的状态。

104，根据下一时刻的状态，生成对应的下一时刻策略序列。

例如，取第m条控制序列下的第z个动作act_m，z，计算下一时刻状态sta_m，z+1并与智能体进行交互，获得下一时刻控制策略。

判断当前策略是否预测完成(z＝＝H)，若没有反复执行，直至获得当前策略下的控制序列A_m，z：z+H＝(act_m，z，…，act_m，z+H)，以及预测状态序列。

计算当前控制序列的对应回报G＝(sta_z，act_m，z)。

判断是否完成完成所有策略序列预测，若没有则重复执行取第m条控制序列下的第z+1个动作的步骤及后续步骤，即对动作的预测。若完成则记录素所有的回报序列。

105，根据目标函数，从下一时刻策略序列中选择目标策略序列。

106，基于目标策略序列进行列车追踪控制。

例如，

1、输出最优控制序列的第一个动作，传递给交互环境。

2、交互环境根据当前动作更新一组状态数据，并将当前数据存入数据经验池中。

3持续训练模型，直至速度追踪误差，距离追踪误差达到控制要求，且保持稳定，完成模型训练。

4、输出当前强化学习模型控制策略。

5、强化学习控制模型根据当前追踪状态输出期望动作(加速度)给列车下层控制器。控制器完成级位转换，输出控制级位，从而完成列车控制。

在具体实现时，上述过程可以在图2的模型预测模块实现，详见图3，模型预测模块的流程为：

开始后，初始化智能体网络，输入初始状态，生成M条控制序列，计算第m条控制序列下第z个的动作，计算下一个状态，确定是否达到预测步长(即z＜H)，若是，则z++，重复执行计算下一个状态的步骤及后续步骤。若否，则生成动作序列A_m，z：z+H，生成回报G＝(sta_z，act_m，z)，确定控制序列是否已处理完成，若未已处理完成，则z++，重复执行计算第m条控制序列下第z个的动作的步骤及后续步骤，若已处理完成，则生成控制序列，根据回报挑选最优序列，并输出第一个动作。

本实施例提供的列车追踪控制方法是一种基于强化学习和模型预测的列车追踪控制方法。主要解决了：传统MPC控制算法针对复杂被控对象的精确屋里建模困难，通用性差的问题。本实施例采用神经网络进行离线训练获得的列车动力学模型，从而提升了算法的通用性，能够适应各种列车模型。

另外，解决了传统控制算法如MPC，参数复杂，且在控制过程中参数难以动态调整或只能添加有限的策略，无法保证在各个工况下表现出良好的效果。本实施例采用强化学习模型，通过与环境的交互学习，在充分学习后，可以获得更加全面的控制策略，同时，在学习中引入模型预测，生成高效的数据提供给智能体学习，从而提升学习效率，减少训练时间。

本实施例提供一种列车追踪控制方法，构建强化学习模型，强化学习模型包括数据预测模型和目标函数；获取当前策略序列，策略序列与动作对应；根据数据预测模型，预测当前策略序列对应的动作在下一时刻的状态；根据下一时刻的状态，生成对应的下一时刻策略序列；根据目标函数，从下一时刻策略序列中选择目标策略序列；基于目标策略序列进行列车追踪控制。本实施例的方法基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

基于列车追踪控制方法的同一发明构思，本实施例提供一种电子设备，该电子设备包括：存储器，处理器，以及计算机程序。

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现上述列车追踪控制方法。

具体的，

构建强化学习模型，强化学习模型包括数据预测模型和目标函数。

获取当前策略序列，策略序列与动作对应。

根据数据预测模型，预测当前策略序列对应的动作在下一时刻的状态。

根据下一时刻的状态，生成对应的下一时刻策略序列。

根据目标函数，从下一时刻策略序列中选择目标策略序列。

基于目标策略序列进行列车追踪控制。

可选地，构建强化学习模型，包括：

构建状态空间和动作空间。

构建奖励函数。

根据状态空间，动作空间，奖励函数构建目标函数。

构建数据预测模型。

可选地，状态空间的数据项包括：位置，速度，加速度，冲击率。

且，数据项满足如下约束：

s_i(k)-s_i-1(k)-l_i-s_m≥0，其中，i为列车标识，k为时刻标识，s_i(k)为列车i在k时刻的位置，s_i-1(k)为列车i-1在k时刻的位置，l_i为列车i的车长，s_m为列车静止时的安全裕量。

0≤v_i(k)≤v_lim(s_i(k))，其中，v_i(k)为列车i在k时刻的速度，v_lim(s_i(k))为列车i在k时刻的位置的线路限速值。

U_min≤U_i(k)≤U_max，其中，U_min为列车最大制动加速度，U_i(k)为列车i在k时刻的加速度，U_max为列车最大牵引加速度。

可选地，奖励函数为：

R＝L_δ(v，v_f)+L(s，s_f)。

δ为波动阈值。

L(s，s_f)＝(s-s_f)²。

可选地，目标函数为：

可选地，数据预测模型为：

可选地，构建强化学习模型之前，还包括：

基于前n个周期的状态值，训练神经网络动力学模型。

可选地，强化学习模型还包括状态转移。

构建强化学习模型，还包括：

获取动作及动作的当前状态。

根据动作及当前状态，通过神经网络动力学模型，确定动作的下一周期的状态。

将动作，当前状态，下一周期的状态构成状态转移。

本实施例提供的电子设备，其上计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

基于列车追踪控制方法的同一发明构思，本实施例提供一种计算机可其上存储有计算机程序。计算机程序被处理器执行以实现上述列车追踪控制方法。

具体的，

获取当前策略序列，策略序列与动作对应。

根据下一时刻的状态，生成对应的下一时刻策略序列。

根据目标函数，从下一时刻策略序列中选择目标策略序列。

基于目标策略序列进行列车追踪控制。

可选地，构建强化学习模型，包括：

构建状态空间和动作空间。

构建奖励函数。

根据状态空间，动作空间，奖励函数构建目标函数。

构建数据预测模型。

且，数据项满足如下约束：

可选地，奖励函数为：

R＝L_δ(v，v_f)+L(s，s_f)。

δ为波动阈值。/>

L(s，s_f)＝(s-s_f)²。

可选地，目标函数为：

可选地，数据预测模型为：

可选地，构建强化学习模型之前，还包括：

基于前n个周期的状态值，训练神经网络动力学模型。

可选地，强化学习模型还包括状态转移。

构建强化学习模型，还包括：

获取动作及动作的当前状态。

将动作，当前状态，下一周期的状态构成状态转移。

本实施例提供的计算机可读存储介质，其上的计算机程序被处理器执行以基于数据预测模型和目标函数进行列车追踪控制，可以有效解决现有控制算法针对复杂系统精确建模困难、参数整定不易以及动态参数调整等问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种列车追踪控制方法，其特征在于，所述方法包括：

获取当前策略序列，所述策略序列与动作对应；

根据下一时刻的状态，生成对应的下一时刻策略序列；

基于所述目标策略序列进行列车追踪控制；

所述构建强化学习模型，包括：

构建状态空间和动作空间；

构建奖励函数；

根据状态空间，动作空间，奖励函数构建目标函数；

构建数据预测模型；

所述状态空间的数据项包括：位置，速度，加速度，冲击率；

且，所述数据项满足如下约束：

0v_i(k)≤v_lim(s_i(k))，其中，v_i(k)为列车i在k时刻的速度，v_lim(s_i(k))为列车i在k时刻的位置的线路限速值；

J_min≤J_i(k)≤J_max，其中，J_min为列车最小冲击率，J_i(k)为列车i在k时刻的冲击率，J_max为列车最大冲击率；

所述奖励函数为：

R＝L_δ(v,v_f)+L(s,s_f)；

δ为波动阈值；

L(s,s_f)＝(s-s_f)²；

目标函数为：

其中，π为执行策略，k为时刻标识，T为总时刻，γ为折扣因子，R(sta_k,act_k)为状态sta_k下，执行动作act_k时的奖励函数，状态sta_k属于状态空间，act_k属于动作空间；

数据预测模型为：

其中，k为时刻标识，s_i(k)为列车i在k时刻的位置，s_i(k+1)为列车i在k+1时刻的位置，v_i(k)为列车i在k时刻的速度，v_i(k+1)为列车i在k+1时刻的速度，Δt为单位时刻差，u_i(k)为列车i在k时刻的牵引/制动系统指令输出的加速度，u_i(k+1)为列车i在k+1时刻的牵引/制动系统指令输出的加速度，w_i(k)为列车i在k时刻基本阻力产生的加速度，g_i(k)为列车i在k时刻附加阻力产生的加速度，t_i为U_i,des(k)为列车i在k时刻的期望加速度，τ_i为时延阈值。

2.根据权利要求1所述的方法，其特征在于，所述构建强化学习模型之前，还包括：

基于前n个周期的状态值，训练神经网络动力学模型；

3.根据权利要求2所述的方法，其特征在于，所述强化学习模型还包括状态转移；

所述构建强化学习模型，还包括：

获取动作及所述动作的当前状态；

4.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-3任一项所述的方法。

5.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行以实现如权利要求1-3任一项所述的方法。