CN109204390B

CN109204390B - 一种基于深度学习的列车控制方法

Info

Publication number: CN109204390B
Application number: CN201811150477.2A
Authority: CN
Inventors: 刘波; 杜恒
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-03-12
Anticipated expiration: 2038-09-29
Also published as: CN109204390A

Abstract

本发明实施例公开了一种基于深度学习的列车控制方法，包括：从历史数据中筛选得到驾驶经验丰富的司机驾驶列车时的司机驾驶数据；根据司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型；将不同时刻的列车状态输入训练好的深度网络模型，计算得到不同时刻的列车控制量。通过采用深度学习技术对ATO控制算法建模，不需要考虑内在控制过程，极大地简化了问题的复杂性；通过采用驾驶经验丰富的司机的驾驶数据训练深度网络模型，输出不同时刻的列车控制量，当获得新的司机驾驶数据时，对深度网络模型重新进行训练便可得到具有新数据特征的列车控制量，能够在保证列车的准时性和停车精度的前提下，改善列车舒适度，提高乘客乘坐体验。

Description

一种基于深度学习的列车控制方法

技术领域

本发明实施例涉及轨道交通技术领域，具体涉及一种基于深度学习的列车控制方法。

背景技术

随着轨道交通的迅捷发展，轨道交通客运量也迅速增加。人们在追求快捷出行的同时，也对列车舒适度提出了更高的需求。在实际应用的ATO(Automatic TrainOperation，列车自动控制)控制算法中，多是利用PID控制算法来计算列车控制量以追踪目标速度，根据当前线路条件的不同，列车控制量的值可能出现较大幅度变化。这会导致列车运行过程不平稳，列车舒适度难以有效保证。

在具备ATO功能的轨道交通线路中，列车可以由ATO控制，也可以由司机控制。通过对两种操作模式下的驾驶数据进行对比可以得出，列车舒适度在由具有丰富驾驶经验司机驾驶列车时较ATO控制条件下具有更好的效果。因此，如何利用司机驾驶列车的经验数据设计更符合人类驾驶习惯的ATO控制算法，以此改善ATO控制条件下的列车舒适度是亟需解决的问题。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种基于深度学习的列车控制方法。

本发明实施例提出一种基于深度学习的列车控制方法，包括：

从历史数据中筛选得到驾驶经验丰富的司机驾驶列车时的司机驾驶数据；

根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型；

将不同时刻的列车状态输入所述训练好的深度网络模型，计算得到不同时刻的列车控制量。

可选地，所述根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型，具体包括：

根据自编码器或受限玻尔兹曼机的预训练方法，采用所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型。

将所述司机驾驶数据输入初始的深度网络模型，得到目标列车控制量，根据所述目标列车控制量计算得到各时刻的列车状态，并将各时刻的列车状态输入所述初始的深度网络模型进行训练，得到训练好的深度网络模型。

将所述司机驾驶数据输入初始的深度网络模型，得到当前时刻列车的驾驶策略，并根据当前时刻列车的驾驶策略计算代价函数中各评价部分的值；

其中，所述代价函数的评价部分包括：当前时刻模型输出与司机驾驶数据差异部分、当前时刻下的驾驶策略准时性部分、当前时刻下的驾驶策略停车精度部分以及当前时刻下的驾驶策略舒适度部分；

所述代价函数中各评价部分的值为各评价部分对应的权重。

可选地，所述方法还包括：

若判断获知所述初始的深度网络模型的训练次数小于第一阈值，则增加所述当前时刻模型输出与司机驾驶数据差异部分的权重；

若判断获知所述初始的深度网络模型的训练次数大于第二阈值，则增加所述当前时刻下的驾驶策略停车精度部分的权重。

可选地，所述根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型之后，还包括：

根据随机梯度下降算法、动量梯度下降算法、Rmsprop梯度下降算法、Adam梯度下降算法或正则化方法对所述训练好的深度网络模型进行微调。

可选地，所述初始的深度网络模型的输入为归一化处理后的列车位置、速度、目标速度、移动授权MA终点、线路坡度、曲率、是否精度停车和区间剩余运行时间，输出为列车控制量。

由上述技术方案可知，本发明实施例通过采用深度学习技术对ATO控制算法建模，不需要考虑内在控制过程，极大地简化了问题的复杂性；通过采用驾驶经验丰富的司机的驾驶数据训练深度网络模型，输出不同时刻的列车控制量，能够改善列车ATO控制过程中的舒适度；另外，深度网络模型具有较强的学习能力，当获得新的司机驾驶数据时，对深度网络模型重新进行训练便可得到具有新数据特征的列车控制量，能够在保证列车的准时性和停车精度的前提下，改善列车舒适度，提高乘客乘坐体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种基于深度学习的列车控制方法的流程示意图；

图2为本发明一实施例提供的深度网络模型的结构示意图；

图3为本发明一实施例提供的深度网络模型生成驾驶策略的示意图；

图4为本发明另一实施例提供的一种基于深度学习的列车控制方法的流程示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种基于深度学习的列车控制方法的流程示意图，包括：

S101、从历史数据中筛选得到驾驶经验丰富的司机驾驶列车时的司机驾驶数据。

所述的司机驾驶数据包括但不限于列车在不同时刻的状态和该状态下输出的控制量。

进一步地，所述的不同时刻的状态包括但不限于列车位置、速度、目标速度、MA终点、线路坡度、曲率、是否精度停车和区间剩余运行时间等。

S102、根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型。

其中，所述初始的深度网络模型的输入为归一化处理后的列车在不同时刻的状态，包括列车位置、速度、目标速度、移动授权MA终点、线路坡度、曲率、是否精度停车和区间剩余运行时间，输出为列车控制量。

本实施例中的深度网络模型由输入层、隐藏层和输出层组成，其输入为归一化处理后的列车在不同时刻的状态，输出为列车控制量。根据模型当时时刻所输出的控制量，能够计算得到下一时刻列车的状态，将列车下一时刻状态输入深度网络模型，可以得到下一时刻列车的控制量，依次类推，当列车位置大于等于MA终点时，类推结束，此时可以得到一系列列车控制量，这一系列列车控制量称为当前时刻下的列车驾驶策略，如图3所示。在该策略下，可以对列车运行是否准时、停车精度是否达标、舒适度是否较好进行评价。

根据自编码器(Autoencoder)或受限玻尔兹曼机(RBM，Restricted BoltzmannMachine)的预训练方法，采用所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型。

S103、将不同时刻的列车状态输入所述训练好的深度网络模型，计算得到不同时刻的列车控制量。

所述的不同时刻的状态包括但不限于列车位置、速度、目标速度、MA终点、线路坡度、曲率、是否精度停车和区间剩余运行时间等。

当训练过程结束时，所得到的深度网络模型便可根据列车当前时刻的状态计算得到当前时刻列车的控制量，所述的训练过程结束条件为代价函数的值满足各评价条件要求。

本实施例通过采用深度学习技术对ATO控制算法建模，不需要考虑内在控制过程，极大地简化了问题的复杂性；通过采用驾驶经验丰富的司机的驾驶数据训练深度网络模型，输出不同时刻的列车控制量，能够改善列车ATO控制过程中的舒适度；另外，深度网络模型具有较强的学习能力，当获得新的司机驾驶数据时，对深度网络模型重新进行训练便可得到具有新数据特征的列车控制量，能够在保证列车的准时性和停车精度的前提下，改善列车舒适度，提高乘客乘坐体验。

进一步地，在上述方法实施例的基础上，所述S102具体包括：

具体地，本实施例提供的基于深度学习的列车控制方法分为离线训练阶段和在线计算阶段：离线训练阶段是指利用已获得的司机驾驶数据来训练深度网络模型，所述的司机驾驶数据包括但不限于列车在不同时刻的状态和该状态下输出的控制量，利用司机驾驶数据对深度网络模型进行训练，可以得到一个更符合人类驾驶经验的ATO控制模型；在线计算阶段是指将列车当前时刻的状态输入已经训练好的深度网络模型，深度网络模型计算得到该时刻输出的控制量，根据该控制量控制列车的牵引或制动，能够在保证列车运行准时，停车精准的条件下，改善列车在ATO控制时的舒适度。

进一步地，在上述方法实施例的基础上，所述S102具体包括：

将所述司机驾驶数据输入初始的深度网络模型，得到当前时刻列车的驾驶策略，并根据当前时刻列车的驾驶策略计算代价函数中各评价部分的值。

其中，所述代价函数的评价部分包括：当前时刻模型输出与司机驾驶数据差异部分、当前时刻下的驾驶策略准时性部分、当前时刻下的驾驶策略停车精度部分以及当前时刻下的驾驶策略舒适度部分。

所述代价函数中各评价部分的值为各评价部分对应的权重。

具体地，深度网络模型训练过程是尽可能减少代价函数值的过程，为使模型输出的控制量与人类驾驶经验接近，同时满足准时性、停车精度和舒适度的要求，代价函数中需要包括至少四个评价部分：(1)评价当前时刻模型输出与司机驾驶数据差异部分；(2)评价当前时刻下的驾驶策略准时性部分；(3)评价当前时刻下的驾驶策略停车精度部分；(4)评价当前时刻下的驾驶策略舒适度部分。每一部分均有与之对应的权重。根据模型训练次数、列车状态是否处于精确停车阶段等其他参数，可以将训练分为不同阶段。不同阶段下，代价函数的四个部分的权重值不同，以体现不同阶段的主要训练目的不同。

进一步地，在上述方法实施例的基础上，所述方法还包括：

S104、若判断获知所述初始的深度网络模型的训练次数小于第一阈值，则增加所述当前时刻模型输出与司机驾驶数据差异部分的权重；

S105、若判断获知所述初始的深度网络模型的训练次数大于第二阈值，则增加所述当前时刻下的驾驶策略停车精度部分的权重。

具体地，当网络训练次数较少时，代价函数中的第一部分所对应的权重可适当增加，此时网络训练的主要目的是使网络输出具有司机驾驶数据的特征；当列车进行精确停车阶段时，代价函数中的第三部分所对应的权重可适当增加，此时网络训练的主要目的是提高停车精度。

进一步地，在上述方法实施例的基础上，S102之后，还包括：

S1023、根据随机梯度下降(Stochastic Gradient Descent)算法、动量(MomentumGradient Descent)梯度下降算法、Rmsprop梯度下降算法、Adam梯度下降算法或正则化方法对所述训练好的深度网络模型进行微调。

具体地，训练过程使用深度学习中常见的训练算法，训练算法可以分为预训练阶段和微调阶段，预训练阶段是对深度网络模型参数进行初始化的过程；微调阶段是对整个深度网络模型参数进行微调的过程。

图4示出了离线训练过程和在线计算过程系统图，具体包括如下步骤：

步骤S1：筛选出具有丰富驾驶经验司机驾驶列车时所得到的司机驾驶数据。

步骤S2：建立深度网络模型。深度网络模型是一种具有较多隐藏层、较多神经元的深度神经网络，如图2所示。该深度神经网络的输入为分别进行归一化处理后的列车位置、速度、目标速度、MA终点、线路坡度、曲率、是否精度停车、区间剩余运行时间，输出为列车控制量。

步骤S3：对深度网络模型参数进行初始化，即预训练。预训练阶段采用的方法包括但不限于使用自编码器、受限玻尔兹曼机进行预训练的方法。

步骤S4：将训练数据输出深度网络模型，并计算网络输出。

步骤S5：根据网络输出类推计算其他时刻列车状态，得到当前时刻列车的驾驶策略。

步骤S6：根据当前时刻驾驶策略计算代价函数中各评价部分的值。

步骤S7：更改权重系数。当网络训练次数较少时，代价函数中的第一部分所对应的权重可适当增加，例如使该部分的权重在70％至80％，此时网络训练的主要目的是使网络输出具有司机驾驶数据的特征；当列车进行精确停车阶段时，代价函数中的第三部分所对应的权重可适当增加，例如使该部分的权重在60％至70％，此时网络训练的主要目的是提高停车精度。

步骤S8：对深度网络模型参数进行优化更新，即微调。微调阶段采用的方法包括但不限于随机梯度下降算法、动量梯度下降算法、Rmsprop梯度下降算法以及Adam梯度下降算法。为避免深度网络模型出现过拟合现象，微调阶段还可以采用一些正则化方法如L1正则化、L2正则化以及Dropout等具有抑制过拟合作用的方法。

步骤S9：根据代价函数的值是否得到所设定要求判断训练过程是否结束。如训练过程未达到结束条件，重新进行步骤S4；若训练过程结束，进行步骤S10。

步骤S10：将不同时刻的列车状态输入训练好的深度网络模型，计算得到不同时刻的列车控制量。

与现有技术相比，本实施例提供的基于深度学习的列车控制方法具有以下优点：第一，采用深度学习的技术对ATO控制算法建模，不需要考虑内在控制过程，极大地简化了问题的复杂性；第二，具有与司机驾驶数据类似的输出，能够改善列车ATO控制过程中的舒适度；第三，适用性强，根据司机驾驶数据来源不同，可以方便地用于其他线路；第四，具有较强的学习能力，当获得新的司机驾驶数据时，对深度网络模型重新进行训练便可得到具有新数据特征的列车控制量。

本发明实施例适用于改善ATO控制条件下的列车舒适度。在具有足够多的司机驾驶数据的前提下，通过利用深度学习的技术来学习一种具有司机驾驶特征的ATO控制算法，该算法输出的列车控制量能够在保证列车的准时性和停车精度的前提下，改善列车舒适度，提高乘客乘坐体验。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的列车控制方法，其特征在于，包括：

根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型；具体包括：

所述代价函数中各评价部分的值为各评价部分对应的权重；

若判断获知所述初始的深度网络模型的训练次数大于第二阈值，则增加所述当前时刻下的驾驶策略停车精度部分的权重；

将不同时刻的列车状态输入所述训练好的深度网络模型，计算得到不同时刻的列车控制量；

所述初始的深度网络模型的输入为归一化处理后的列车位置、速度、目标速度、移动授权MA终点、线路坡度、曲率、是否精度停车和区间剩余运行时间，输出为列车控制量。

2.根据权利要求1所述的方法，其特征在于，所述根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述司机驾驶数据对初始的深度网络模型进行训练，得到训练好的深度网络模型之后，还包括：