CN113762464A

CN113762464A - 一种基于学习的列车运行参考曲线动态生成方法

Info

Publication number: CN113762464A
Application number: CN202110868286.5A
Authority: CN
Inventors: 王悉; 朱力; 辛天鹏; 王洪伟
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-12-07
Anticipated expiration: 2041-07-30
Also published as: CN113762464B

Abstract

本发明提出了一种基于学习的列车运行参考曲线动态生成方法。基于条件GAN的概念，提出了基于时间戳条件生成对抗网络的数据生成方法，通过设计生成器和判别器，学习数据和时间戳之间的隐藏关系，从而生成不规则采样的新数据。在此基础上，考虑列车实际运行数据集中包含时间序列和非时间序列不同属性数据的特点，利用深度学习方法，构建参考曲线混合学习模型，对列车未来时间段内的目标运行曲线进行预测，从而实现目标运行曲线的动态生成。本发明增加了大量的数据样本点，极大的丰富了原始数据量，便于提高算法精度。生成的列车运行参考曲线既可以用于既有列车自动驾驶系统中，也可以适用于下一代列车自主驾驶系统，具有广阔的应用价值。

Description

一种基于学习的列车运行参考曲线动态生成方法

技术领域

本发明涉及一种基于学习的列车运行参考曲线动态生成方法。

背景技术

在过去的几十年里，人们对列车自动驾驶的研究给予了极大的关注。人工智能和通信技术的快速发展使自动驾驶列车有可能进入广泛的交通应用。在现有的列车自动控制系统中，列车的运行参考曲线通常是离线计算得到的，并且提前存储在车载计算机中。在实际运行过程中，人工驾驶员根据实时的线路状况选择合适的参考运行曲线，在当前位置和目标位置之间产生一个可行的轨迹。列车自动驾驶功能将此运行参考曲线作为跟踪目标实现列车的自动控制。考虑到列车运行环境的动态变化，如何适应复杂的外部环境以及高速度、高密度运行的特点，根据列车的动态运行生成相应的运行参考曲线成为一项具有挑战性的任务。在既有文献中，列车自动驾驶参考运行曲线的生成方法一般可以分为三类。第一类是基于搜索的轨迹规划算法。如采用增量搜索算法来计算列车的目标曲线。第二类方法利用概率模型来处理规划范围内的不确定性。第三类利用机器学习算法实现基于观测数据的动态曲线生成。

随着人工智能技术的广泛应用，基于学习的解决方案由于其在处理复杂环境中的良好表现而变得备受关注。但是学习算法需要大量的数据进行训练，才能保证预测的准确性。然而，在实践中，要获得列车的历史运行数据往往是不可行的，而且成本很高。由于数据的私密性和安全性，原始数据由各个车载设备供应商保存，很少在不同的研究机构之间共享。因此克服样本量不足的难题，设计高精度的列车参考曲线预测算法，实现列车自动驾驶运行参考曲线的动态是亟待解决的问题。

发明内容

为了应对传统深度学习中因数据量不足而严重降低预测性能的问题，本发明提出了一种基于生成对抗网络(Generative Adversarial Network，GAN)的数据生成方案，以生成与原有数据样本具有相同分布的数据样本。在此基础上，考虑列车实际运行数据集中包含时间序列和非时间序列不同属性数据的特点，构建了一个混合学习模型，对列车未来时间段内的目标运行曲线进行预测，从而实现目标运行曲线的动态生成。

本发明提出了一种基于学习的列车运行参考曲线动态生成方法。基于条件GAN的概念，提出了基于时间戳条件生成对抗网络(Time Stamp Conditional GenerativeAdversarial Network，TSCGAN)的数据生成方法，通过设计生成器(Generator，G)和判别器(Discriminator，D)，学习数据和时间戳之间的隐藏关系，从而生成不规则采样的新数据。在此基础上，考虑列车实际运行数据集中包含时间序列和非时间序列不同属性数据的特点，利用深度学习方法，构建参考曲线混合学习(Hybrid Reference TrajectoryLearning，HRTL)模型，对列车未来时间段内的目标运行曲线进行预测，从而实现目标运行曲线的动态生成。

一种基于学习的列车运行参考曲线动态生成方法，具体步骤如下所示：

S1：初始化TSCGAN模型中生成器的神经网络权重参数θ_g和判别器的神经网络权重参数θ_d；

S2：初始化训练迭代数n₁，训练步数n₂，小批量训练样本数量ρ；更新生成器的权重参数θ_g和判别器的权重参数θ_d；

S3：利用更新后的θ_g和θ_d，通过TSCGAN模型生成M_g个样本数据集。

S4:若判别器能够区分出生成器生成的样本数据集与原始数据集，转至步骤S2；若判别器不能区分出生成器生成的样本数据集与原始数据集，则转至步骤S5。

S5：将生成的样本数据集与原始数据集相结合，并组成训练数据集D_train。样本的总数为M＝M_g+M₀，M₀是原始数据集的数量。

S6：初始化HRTL模型中的权重参数集W_L和W_F，W_L是长短时记忆网络的权重参数集，W_F是全连接网络的权重参数集。

S7：从训练数据集D_train中随机选择一批数据集。

S8：计算损失目标函数，并采用时间反向传播算法和自适应梯度算法更新HRTL模型参数W_L和W_F，使损失目标函数趋于最小，直到终止条件得到满足。

S9：保存使损失目标函数趋于最小的权重参数集W_L和W_F，并作为HRTL模型的参数。

S10：采集列车运行的实时状态数据。

S11：将采集到的列车的实时状态数据输入到HRTL模型中，得到预测的目标速度。

步骤S2中，更新生成器的权重参数θ_g和判别器的权重参数θ_d的步骤具体如下：

S21：为了训练判别器，从噪声分布p_z ^(z)中采样ρ个噪声样本数据{z(¹),...,z(^ρ)}，其中z(¹),...,z(^ρ)是从噪声分布p_z ^(z)中采样得到的第1至ρ个噪声样本数据。

S22：从实际数据分布p_r ^(ξ)中采样ρ个实际样本数据{ξ(¹),...,ξ(^ρ)}，其中ξ⁽¹⁾,...,ξ^(ρ)从实际数据分布p_r ^(ξ)中采样得到的第1至ρ个实际样本数据。

S23：通过上升公式(1)的随机梯度来更新判别器的权重参数θ_d。

其中，

指计算判别器的梯度；ξ⁽ⁱ⁾|t，z⁽ⁱ⁾|t分别代表添加时间戳t后的第i个实际样本和噪声样本；D，G分别代表判别器和生成器的输出函数。

S24：为了训练生成器，从噪声分布p_z ^(z)中采样ρ′个噪声样本数据{z⁽¹⁾,...,z^(ρ′)}，其中z⁽¹⁾,...,z^(ρ′)是从噪声分布p_z ^(z)中采样得到的第1至ρ′个噪声样本数据。

S25：通过下降公式(2)的随机梯度更新生成器的权重参数θ_g。

其中，

指计算生成器的梯度。

损失目标函数如式(3)所示：

其中T代表预测的步长；y^j和

分别代表第j个真实值与模型的预测值。

实时状态数据包括：列车位置、列车速度、相邻列车之间的间隔、相对于前一列车的速度和到下一个限速区的剩余距离、运行模式、控制手柄级位和限速值。

本发明的有益效果：本发明研究调查了列车自动驾驶的决策问题，实现了一种基于学习的列车运行参考曲线动态生成方法，发明的效益主要体现在两方面。

第一方面，针对深度学习预测算法原始数据量不足的问题，本发明通过构建TSCGAN模型以生成与实际数据样本具有相同分布的数据样本，增加大量的数据样本点，极大的丰富了原始数据量，便于提高算法精度。

第二方面，本发明提出的基于HRTL模型的预测算法，能够适应列车实际数据既包含与时间相关的序列又包含与时间无关的序列的特点，从而使得预测效果更佳。

本发明生成的列车运行参考曲线既可以用于既有列车自动驾驶系统中，也可以适用于下一代列车自主驾驶系统，具有广阔的应用价值。

附图说明

本发明有如下附图：

图1本发明的总体框架示意图；

图2 TSCGAN模型的结构示意图；

图3 HRTL模型的结构示意图；

图4算法流程示意图；

图5本发明一实施例中TSCGAN模型生成的数据曲线图；

图6本发明一实施例中训练的收敛曲线图；

图7本发明一实施例中HRTL预测模型的预测性能曲线图。

具体实施方式

以下结合附图1-7对本发明作进一步说明。

本发明的总体框架图如下图1所示。

基于图1所示的总体框架，利用TSCGAN和HRTL模型实现列车运行参考曲线动态生成。

S21：为了训练判别器，从噪声分布p_z ^(z)中采样ρ个噪声样本数据{z⁽¹⁾,...,z^(ρ)}，其中z⁽¹⁾,...,z^(ρ)是从噪声分布p_z ^(z)中采样得到的第1至ρ个噪声样本数据。

S22：从实际数据分布p_r ^(ξ)中采样ρ个实际样本数据{ξ⁽¹⁾,...,ξ^(ρ)}，其中ξ⁽¹⁾,...,ξ^(ρ)从实际数据分布p_r ^(ξ)中采样得到的第1至ρ个实际样本数据。

其中，

S24：为了训练生成器，从噪声分布p_z ^(z)中采样ρ′个噪声样本数据{z⁽¹⁾,...,z^(ρ′)}，其中z(¹),...,z(^ρ′)是从噪声分布p_z ^(z)中采样得到的第1至ρ′个噪声样本数据。

S25：通过下降公式(2)的随机梯度更新生成器的权重参数θ_g。

其中，

指计算生成器的梯度。

S6：初始化HRTL模型中的权重参数集W_L和W_F，W_L是长短时记忆(Long Short TermMemory，LSTM)网络的权重参数集，W_F是全连接(Fully Connected，FC)网络的权重参数集。

S7：从训练数据集D_train中随机选择一批数据集。

S8：计算损失目标函数，如(3)式所示，并采用时间反向传播算法(BackPropagation Through Time，BPTT)和自适应梯度算法(Adaptive moment，Adam)更新HRTL模型参数W_L和W_F，使损失目标函数趋于最小，直到终止条件得到满足。

其中T代表预测的步长；y^j和

分别代表第j个真实值与模型的预测值。

若损失目标函数未趋于最小，转至步骤S7；若损失目标函数趋于最小，转至步骤S9。

S10：采集列车运行的实时状态数据，包括列车位置、列车速度、相邻列车之间的间隔、相对于前一列车的速度和到下一个限速区的剩余距离、运行模式、控制手柄级位和限速值。

二、TSCGAN数据生成模型的设计

由于数据不足可能会严重降低学习算法的性能，我们采用基于GAN的数据生成方案来生成与实际数据样本具有相同分布的数据样本。然而，车载记录系统的机制导致了记录数据中样本数据的采样是不均匀的，使其更难以真实地模仿数据集中的时间序列。通过采用条件GAN的概念，我们利用时间戳对生成器和判别器进行条件控制，并设计了一种基于时间戳的条件GAN模型，即TSCGAN模型，其结构如图2所示。

TSCGAN模型包括生成器和判别器，在TSCGAN模型中，生成器G和判别器D都是由多层FC网络组成的。G网络的输出层神经元的数量与实际样本的维度相同。在训练过程中，生成器G根据判别器D的判别结果调整参数，以生成更真实的列车运行数据来欺骗判别器D，同时，判别器D为了更准确地区分生成器G生成的数据，也在调整其参数。当生成器G生成的数据与真实的样本数据没有区别时，判别器D便无法区分它们，生成器G就可以用来生成列车运行的数据集。通过这种方式，生成器G和判别器D以采样时间戳为条件，从而学习到数据和时间戳之间的隐藏关系，并由此产生新的时间序列，其相应的时间戳在原始训练集中是没有的。

三、面向多属性数据的参考曲线生成HRTL模型设计

参考曲线生成模型的设计目标是利用前N个列车历史驾驶状态数据的信息

来预测参考运行序列y_i。预测模型的输入数据中，列车速度、位置等信息呈现出时间上的依赖性，而列车运行模式的信息，如控制牵引或制动的级位，无明显的数据关联关系，通常被视为静态数据。因此，参考曲线生成问题涉及到多属性数据的预测问题。对于传统的前馈神经网络，它假定所有的输入都是相互独立的，因此不适用于包含时间相关的输入序列的学习模型设计。为了完成时间序列预测任务，循环神经网络(RecurrentNeural Networks，RNN)模型因其链状结构而备受关注，该模型使用带有循环的内部存储单元来处理任意的输入序列。

然而，当内部循环的深度增加时，与反向传播过程有关的梯度在训练过程中开始消失。为了解决这个问题，LSTM模型将记忆单元与门结构结合起来，以学习何时忘记以前的记忆、何时更新记忆。为了更好地处理具有不同属性的数据，我们将LSTM与FC神经网络相结合，提出了一种新的面向参考曲线生成的学习模型，即HRTL模型，其中，LSTM网络用于处理与时间有关的特征序列，而FC网络则用于处理与时间无关的特征序列。LSTM网络由输入层、递归隐藏层和输出层组成。记忆单元是递归隐藏层的基本单元，它根据当前的输入信息和之前的时间步骤的单元状态进行更新。在输入层和记忆单元之间有不同类型的门，包括输入门、遗忘门和输出门，这使得LSTM网络能够学习何时遗忘先前的值，并随着新输入的到来更新状态。具体来说，输入门用来控制读取新输入的时间步骤，遗忘门用来决定是否遗忘当前状态，输出门o_t用来计算是否输出新值。通过结合LSTM和FC网络，提出的HRTL模型的结构如图3所示。

在HRTL模型中，LSTM和FC网络被用来分别学习不同属性的数据样本特征。在训练过程中，HRTL模型被送入一系列的N个步骤序列

其中，与时间相关的序列被送入LSTM网络，而与时间无关的序列则被送入FC网络。前一个单元状态c_t-1和前一个隐藏状态h_t-1通过反向传播更新为c_t和h_t，并将当前的单元格状态c_t和当前隐藏状态h_t被传送到LSTM通道作为下一时刻的初始状态。同时，FC网络的加权参数在完成反向传播后也被更新，更新后的加权参数作为下一时刻的初始状态被传送到FC通道。LSTM和FC网络的输出通过一个连接层结合在一起，并通过一系列的FC层与输出层相连，由此可以得到理想的参考位置和参考速度。

由于设计目标是获得具有高预测精度的轨迹(列车运行参考曲线)，可使用预测范围内输出的均方根误差(Root Mean Squared Error，RMSE)作为损失函数，具体的算法流程如图4所示。

本发明选择京沪高速铁路北京南(BS)至天津南(TS)段作为研究实例，该段总长约122公里，高速列车的行驶时间约为30分钟。现场数据集包括从2019年3月16日至2019年4月15日收集的实际列车运行数据。在对原始数据集进行归一化处理并去除不相关的信息后，我们得到了实际的样本数据集用于进一步训练。样本数据集中与时间相关的信息包括列车位置、列车速度、相邻列车之间的间隔、相对于前一列车的速度以及到下一个限速区的剩余距离。与时间无关的特征包括运行模式、控制手柄级位和限速值。实验环境如表I所示。

表I实验环境

在TSCGAN模型中，判别器由七个FC层组成。从第一层到第七层的神经节点的数量分别设定为1430、2860、4290、5720、4290、2860和1430。生成器包括六个FC层，沿前向传播方向的神经节点数量为1430个。前向传播方向的神经节点数量分别为1430，2860，4290，5720，2860和1430。sigmoid激活函数应用于鉴别器和生成器中最后一层的输出，其他的FC层则采用LeakyReLU激活函数和批量归一化。

经过大约700次迭代，通过sigmoid激活函数的判别器的输出接近0.5，这意味着判别器并不能区分真实的列车运行数据和生成器生成的假列车运行数据，也就是说，生成器已经学会了真实数据的分布，可以用来生成列车运行数据。我们选择一组生成的数据样本，并描绘出相应的参考速度轨迹，如图5所示。可以看出，所提出的TSCGAN可以学习数据和时间戳之间的隐藏关系，并因此产生与实际参考速度曲线密切相关的新数据。

为了获得一个准确的预测模型，我们设计实验来确定HRTL网络参数和训练步长。网络参数包括网络深度和每层的神经元数量。由于这两个变量是相互依赖的，所以通常要手动设置每层的神经元数量并确定深度。我们首先用一个LSTM层和一个FC层训练模型，每层的神经元数量为64个。选择不同网络参数下的预测值和实际值之间的均方根误差作为验证损失，实验结果见表Ⅱ。结果表明，在层数较少的情况下，网络是欠拟合的，而且预测损失也不理想。随着层数的增加，预测结果变得更好，随后验证损失开始增加，这表明模型是过拟合的。根据表Ⅱ的结果，LSTM网络和FC网络都被设置为两层。

表Ⅱ不同层的LSTM和FC网络的实验结果

之后，确定预测网络每层的神经元数量。一般来说，神经网络各层的神经元数量为128、64和32，并沿前进方向递减。最初，我们将第一层和第二层的神经元数量设置为128个，然后逐渐减少，即在第二次训练中，第一层的神经元数量为128个，第二层的神经元数量为64个。验证损失如表Ⅲ所示，表明当第一层和第二层的神经元数量分别为128和64时，预测网络取得了更好的性能。因此，我们选择上述设置作为这两层的神经元数量。

表Ⅲ第一层(N1)和第二层(N2)中不同数量的神经元的仿真结果

最后，我们确定预测模型训练的步长。一般来说，步长越长，可以获得更多的前一段时间的状态信息。在实验中，我们首先选择步长为20，每次减少2步，直到步长等于4。对于所使用的步长，我们发现当训练样本的步长为14时，均方根误差指数具有最佳值，因此将其作为步长。详细的仿真结果见表Ⅳ。通过以上实验，我们得到了预测模型的具体网络结构和参数。

表Ⅳ不同步长的模拟结果

将通过TSCGAN模型生成的样本数据集与原始数据集结合起来，用增加的数据集，经过400次迭代训练出预测模型，损失函数的收敛曲线如图6所示。很明显损失函数的值在开始时迅速下降。在50次迭代后，验证损失逐渐趋于稳定。这意味着预测模型与训练数据集的拟合情况良好。

为了验证所得到的模型的预测性能，我们用高速列车G123在BS站和TS站之间的实际运行状态来反馈预测模型，预测的结果如图7所示。很明显，参考速度轨迹是由加速、巡航和减速三个阶段组成的。由于列车在通过某些地点(如站区)时应该减速，因此在巡航阶段，参考速度曲线会有一些波动。对于整体运动来说，预测的速度轨迹与实际的目标速度曲线密切吻合。具体来说，我们引入两个指标，即均方根误差(RMSE)和平均绝对误差(MeanAbsolute Error，MAE)，来评价所提方法的预测精度。通过计算，可以得到预测速度曲线和实际参考速度曲线之间的RMSE和MAE分别为0.644和0.501，这说明本发明的参考曲线生成方法在实际情况下效果良好。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的实质和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的保护范围。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。