CN107563426B

CN107563426B - 一种机车运行时序特征的学习方法

Info

Publication number: CN107563426B
Application number: CN201710738298.XA
Authority: CN
Inventors: 黄晋; 夏雅楠; 赵曦滨; 高跃; 卢莎
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2020-05-22
Anticipated expiration: 2037-08-25
Also published as: CN107563426A; WO2019037557A1

Abstract

本发明提供了一种机车运行时序特征学习方法，其首先完成数据的补全融合和特征选择，对源数据进行去冗余和降维得出初始特征集合；并从中找出关键特征子集；然后具备时序数据学习能力的目标应用模型，直接将这些关键特征子集作为输入并进行深度学习；针对不具备时序数据学习能力的目标应用模型，则提取出关键特征的时序特征信息，并针对这些时序特征信息进行深度学习，扩充该目标应用模型的学习能力。本发明能够根据应用场景的不同，为不同特征数据的输入提供相应的目标应用模型。

Description

一种机车运行时序特征的学习方法

技术领域

本发明涉及机车数据处理领域，尤其涉及一种机车运行时序特征的学习方法。

背景技术

数据分析是智能制造的基础，随着机器学习技术的快速发展，越来越多的机器学习模型被用于工业数据的挖掘和分析中，机车自动驾驶便是其中一个重要的应用方向。然而由于所采数据具有大体量、多源性、连续采样、价值密度低、复杂度高和动态性强等特点，这些特点使其不同于互联网等数据流，分析难度与对分析精度的要求相对较高。这就使得特征学习越来越成为工业数据学习和分析的关键步骤。因此，为了更加准确地进行数据的分析与预测，需对数据进行有效的特征学习来实现工业数据的降维和有效紧致表达，利用原始的特征空间构建一个新的低维空间，从而消除原始数据中的冗余特征及不相关特征，有效降低数据的维度，优化数据挖掘和分析效果。

机车自动驾驶所用到的司机历史驾驶数据与机车运行监控日志具有明显的时序性，可以被看做时序数据。时序数据和其它数据相比具有如下特征：(1)时序数据往往包含更多的噪声数据并且维度更高；(2)往往不能确定所能够得到的时序数据集对于挖掘出其潜在变化规律来说规模是否足够；(3)时间序列对时间变量有明确的依赖。这些特征使得时序数据在进行特征提取时往往会面临着更大的挑战。近年来深度学习在模式识别、计算机视觉、语音识别等问题上取得了突破性的进展，如何将深度学习的高功效应用于时间序列的分析目前还缺乏标志性的研究成果。

发明内容

本发明针对现有技术的问题，提出了一种机车运行时序特征的学习方法，其能够解决工业数据冗余性强、数据量大、纬度高等问题，能够减小数据获取对人的依赖度，从而能够显著提高工程设计与实现的效率。

本发明通过如下技术方案实现：

本发明提供一种机车运行时序特征学习方法，其包括：

步骤S101，提取司机历史驾驶数据和机车监控日志作为源数据；

步骤S102，对源数据进行数据清洗；对清洗后得到的有效数据进行数据补全和数据融合，得到去冗降维后的初始特征集合；

步骤103，从初始特征集合中搜索出重要特征子集，并针对重要特征子集进行特征选择，得出关键特征子集；

步骤S104，调取应用场景所使用的挖掘模型；

步骤S105，判断应用场景所使用的挖掘模型是否具有时序信息处理能力，若挖掘模型不具有时序信息处理能力，则执行步骤S106-步骤S107；若挖掘模型具有时序信息处理能力，则直接转入执行步骤S108；

步骤S106，提取出关键特征子集的时序特征信息；

步骤S107，将该时序特征信息作为挖掘模型的输入，利用该挖掘模型进行时序特征信息的学习；

步骤S108，直接将关键特征子集中的关键特征作为这类挖掘模型的输入，利用该挖掘模型进行时序特征信息的学习，挖掘模型的输出为所需的时序特征信息。

更优选地，所述步骤S103包括：

采用先验知识确定包含重要特征数据的样本空间，在包含重要特征数据的样本空间中进行随机搜索，从初始特征集合中搜索出重要特征子集；

采用独立评价函数从搜索出的多个重要特征子集中选出关键特征，并组成关键特征子集。

更优选地，所述步骤S106包括：利用深度学习模型提取关键特征子集中的时序特征信息；所述深度学习模型包括但不限于如下的深度学习模型：深度自编码器、深度信念网络。

更优选地，所述步骤S102中的对源数据进行数据清洗的过程包括如下中的一种或多种：

检查工业数据的完整性和一致性，去噪声，填补丢失数据，删除无效数据。

更优选地，步骤S102中的对清洗后得到的有效数据进行数据补全和数据融合得到去冗降维后的初始特征集合的过程包括：

计算出清洗后得到的有效数据中的所有空缺属性各种取值的概率，选取概率最大的属性值对清洗后得到的有效数据进行数据补全，得到完整特征数据；

针对数据补全后得到的完整特征数据进行数据融合，经过数据融合去冗降维处理后得到初始特征集合。

由上述本发明的技术方案可以看出，本发明具有如下技术效果：

面向机车自动驾驶所用到的司机历史驾驶数据与机车运行监控日志数据，设计一种较为个性化的特征学习方案，利用相应的数据清洗、补全融合等处理过程解决工业数据冗余性强、数据量大、纬度高等问题，利用深度学习模型中的非监督或半监督的思想克服工业数据进行样本标注需要过高成本的瓶颈，极大减小数据获取对人的依赖度，显著提高工程设计与实现的效率。同时，根据应用场景所使用的挖掘模型是否具有时序信息处理能力作为划分，分别为两类模型提供不同的特征学习方案，实现不同类型的特征对接的目标。

附图说明

图1为本发明的实施流程图。

具体实施方式

为使本发明更为清晰，下面结合附图对本发明进行详细地说明。

实施例一：

本实施例一提供一种机车运行时序特征的学习方法，其面向时序工业数据，首先完成数据的补全融合和特征选择，对源数据进行去冗余和降维得出初始特征集合；并从中找出关键特征子集；然后具备时序数据学习能力的目标应用模型，直接将这些关键特征子集作为输入并进行深度学习；针对不具备时序数据学习能力的目标应用模型，则提取出关键特征的时序特征信息，使用机器学习算法进行工业数据的时序特征信息学习，扩充该目标应用模型的学习能力。最终实现根据应用场景的不同，为不同特征数据的输入提供相应的目标应用模型。

实施例一的实施流程如图1所示，其包括：

步骤S101，提取司机历史驾驶数据和机车监控日志作为源数据。

从铁路机车中的LKJ(列车运行控制记录装置)能够获得铁路机车司机的历史驾驶数据和机车运行监控日志。针对一个特定的司机在特定的路线上的机车驾驶数据，应该收集的数据包括：机车属性、线路属性以及机车行驶日志。其中，机车属性包括车重、车长、重车辆数和轻车辆数。线路属性包括线路的坡度、限速信息、车站信息、两站之间的运行时间信息。机车行驶日志包括时间戳、行驶速度、机车行驶档位、耗油量记录等信息。将收集到的数据构成源数据。

步骤S102，对源数据进行数据清洗，包括但不限于如下中的一种或多种：检查工业数据的完整性和一致性，去噪声，填补丢失数据，删除无效数据；对清洗后得到的有效数据进行数据补全和数据融合，得到去冗降维后的初始特征集合。

初始特征集合的形成需要数据补全和数据融合两个关键步骤：

第一个步骤是数据补全。数据缺失在工业数据中非常常见，产生原因可能是设备异常、与其它数据不一致而被删除，或者数据改变没有进行日志记载等等。对于其它规模不大的数据，一般可以手工补全或者忽略相关数据；而针对数据量规模非常庞大的工业数据，这类手工补全或者忽略的方法效率过低且会丢失大量信息，因此是十分不适用的。本实施例针对数据量规模非常庞大的工业数据进行数据补全时，先计算每个属性的先验概率；然后计算当某个属性值X_i＝C_K(其中C_k表示样本空间，X_i表示样本空间C_k的任一属性)时，X_i的条件概率；最后如果属性X_i缺失了一个属性值并且此属性值属于X_i，设J为X记录里所有非缺失值的索引集合，计算该属性值的后验概率。该数据补全过程的具体执行情况如下：

取C₁，…C_k,…C_L是样本空间，对于样本空间C_k的任一属性X，采用贝叶斯定理，都满足如下公式1：

其中，P(C_k|X)是属性X的后验概率，P(C_k)是属性X的先验概率， P(X|_k)是在样本空间C_k中X发生的概率。

对于P(C_k)，容易从源数据中计算出，但是当计算高维数据的P(X|_k)，需要花费大量的计算过程，为了避免这个问题，本实施例采用朴素贝叶斯方法假设属性间是互相条件独立的。这样采用公式2就容易计算出P(X|_k)：

设共有M个属性，X＝(X₁,X₂，…,X_M)这样分类，其中属性X_j划分为样本空间C_k，k＝1，…,L中，则有下面的公式2成立。

公式2中，X是指属性集；X_j是指属性集X所包含的第j个属性； Px_j|C_k)是样本空间C_k发生时属性集X中的某一属性X_j的属性值的概率。

将贝叶斯方法应用在数据补全方面，具体应用方法可描述如下：

给定数据集有N条记录和M个属性X₁,…,X_M，L_i代表属性X_i的分类个数，N_i代表包含已知X_i属性的记录个数，N_ik是当X_i等于它的第K个分类c_ik的记录个数，N_jr|ik是当X_j等于它的第r个分类c_jr的记录个数，且当 X_i＝c_ik，j≠i时，执行如下步骤：

首先计算每个属性的先验概率：

P(X_i＝c_ik)＝N_ik/N_i,i＝1,…,L_i

................公式3

公式3中，X_i表示给定数据属性集X中的第i个属性；L_i表示属性X_i的分类个数；N_i表示包含属性X_i的记录个数；N_ik表示当属性X_i等于它的第K个分类c_ik时的记录个数。

其次计算当X_i＝c_ik时，X_j的条件概率：

P(X_j＝c_jr|(X_i＝c_ik))＝N_jr|ik/N_ik,j＝1,…,M,j≠i,r＝1,…L_j

................公式4

公式4中，N_jr|ik是当属性X_j等于它的第r个分类c_jr时的记录个数；N_ik表示当属性X_i等于它的第K个分类c_ik时的记录个数；L_i表示属性X_i的分类个数；M表示给定数据集中属性集X中的属性个数；X_j表示X中的第j 个属性；X_i表示X中的第i个属性。

如果属性集X中的某一属性X_i缺失了一个属性值，并且此属性值属于 X_i，设J为属性集X记录里所有非缺失值的索引集合，利用公式5计算属性集X的后验概率。这里P(X_J)值不需要计算出来，因为在计算过程中可以约掉。

公式5中，J为属性X_j的记录里所有非缺失值的索引集合；X_J表示X_j属性值为某一缺失值这一事件发生；X_i表示给定数据集中的属性集X中的第i个属性；L_i表示属性X_i的分类个数；c_ik表示给定数据集中的第K个分类；c_jr表示给定数据集中的第r个分类。

通过以上步骤分别计算出清洗后得到的有效数据中的所有空缺属性各种取值的概率，选取概率最大的属性值对清洗后得到的有效数据进行数据补全，得到完整特征数据。

第二个步骤是针对数据补全后得到的完整特征数据进行数据融合，经过数据融合去冗降维处理后得到初始特征集合。

数据融合解决的第一个问题主要是模式集成和对象匹配问题。来源不同机车驾驶数据在类型、表现形式、内容上存在极大差异。数据语义的异构和结构对数据集成提出了巨大挑战。模式集成需要合并这些来自多个数据源中的数据，同意原始数据中的所有矛盾之处，如数据的同名异义、异名同义等问题，把这些原始数据在最低层次上加以转换、提炼和聚集。对象匹配过程中，需要针对来自多个信息源的现实工业过程中的等价实体的进行实体识别。以机车驾驶数据为例，一个数据源的train_num和另一个数据源的locomotive_id为等价实体，则二者属于同一个属性。

数据融合解决的第二个问题是数据冗余问题，一个属性可能是冗余的，它能由另一个或另一组属性导出，比如机车自动驾驶数据中，机车所运行的公里数是可以由其经过的站台数计算出来的。属性或维命名的不一致也可能导致结果数据集中的冗余，有些冗余可以被相关分析检测到。对于数值属性，通过计算属性A和B之间的相关系数又称皮尔逊积矩系数，可以估计这两个属性的相关系数r_A,B。相关系数的计算公式如下：

其中N是元组个数；a_i和b_i分别是元组i中属性A和B的值；

和

分别表示A和B的均值。

根据公式6计算得到属性A和B之间的相关系数r_A,B后，将r_A,B与0 进行比较，如果r_A,B等于0则属性A和B毫无关联，则无需进行去除数据冗余操作；如果r_A,B大于0，则表示属性A和B正相关；如果r_A,B小于0，则表示属性A和B是负相关；无论属性A和B之间呈正相关或者负相关，则表示属性A和B为冗余属性，则需要进行去冗余操作，只保留其中一个属性。

步骤103，从初始特征集合中搜索出重要特征子集，并针对重要特征子集进行特征选择，得出关键特征子集。

经过上述步骤S102预处理过程，可以得到时序工业数据的初始特征集合。但由于工业数据的规模很庞大，这些初始特征集合中的特征数目往往非常大，其中包含了大量不重要的或者不相关的特征。为了解决因特征数目不断增加、维度多且复杂而导致分类系统分类性能下降的问题，需要从大量的工业数据特征中选择出初始特征集合中的关键特征子集。为此，本实施例采用设定的特征搜索策略和特征搜索结果评价规则，对初始特征集合进行搜索，搜索出重要特征子集；然后从这些重要特征子集中进行特征选择，得出关键特征子集。具体执行过程如下：

首先，采用先验知识确定包含重要特征数据的样本空间，在包含重要特征数据的样本空间中进行随机搜索，从初始特征集合中搜索出重要特征子集。

因为列车运行数据是从实际驾驶现场搜集来的，往往各个现场均有大量的工作人员在负责，这些工作人员积累了大量的工作经验，这些工作经验被称之为先验知识。可以把这些先验知识加入到特征搜索策略中进行搜索。根据先验知识确定可能出现最优解的样本空间，并利用特征搜索策略对可能出现最优解的样本空间进行搜索，最终得到多个重要特征子集。以机车自动驾驶应用场景为例，机车的车重车场、所运行的线路场景和运行过程中的速度和档位等都是非常重要的特征数据，通过特征搜索算略可以引导特征搜索算法从包含这些数据的样本空间进行搜索，这样既利用了先验知识，又避免了随机搜索过于发散。

然后，采用独立评价函数从搜索出的多个重要特征子集中选出关键特征，并组成关键特征子集。

独立评价函数是指与学习算法无关，根据训练样本的固有特征去评价每个特征优劣的函数。其中固有特征包括特征的相关度等等。从搜索出的重要特征子集中选取出其中一个特征作为当前特征，利用评价函数判断当前特征的优劣，如果当前特征优于之前的特征，则用当前特征替代之前的特征，迭代此过程直至最终得到关键特征。将每个重要特征子集中选出的关键特征归集到关键特征子集中。通过上述独立评价函数，得出的关键特征子集能适用于多种应用模型，灵活性更强，且需要更少的计算成本。

步骤S104，调取应用场景所使用的挖掘模型。

步骤S105，判断应用场景所使用的挖掘模型是否具有时序信息处理能力，若挖掘模型不具有时序信息处理能力，则执行步骤S106-步骤S107；若挖掘模型具有时序信息处理能力，则直接转入执行步骤S108。

利用应用场景所使用的挖掘模型是否具有时序特征信息处理能力作为划分依据，分别为两类挖掘模型提供不同的特征学习方案，可以实现不同类型特征的对接。

经过上述步骤S101至步骤S103后，筛选出关键特征子集，此时对于很多应用场景来说，这些关键特征子集已经可以直接作为其挖掘模型的输入，因为它们使用的挖掘模型大都具备对输入数据有很强的时序特征信息学习能力，如LSTM、HMM等挖掘模型。而部分应用场景所采用的挖掘模型不适合直接用于时序性很强的学习，而有些应用场景所使用的挖掘模型不能挖掘出数据的时序特征信息，比如超图模型等，不适合直接用于时序性很强的工业数据(如机车驾驶数据)的学习，针对此类挖掘模型，需要执行后续的步骤S106至步骤S107。

步骤S106，提取出关键特征子集的时序特征信息。

本发明利用深度学习模型提取关键特征子集中的时序特征信息。深度学习模型得出的结果即为所需要提取的时序特征信息。

在选深度学习模型时，需要从以下几个方面考虑：

(1)可生成性：所选的深度学习模型需要能够重构源数据，重构后的数据可以表征源数据的一些隐藏信息并可用于后期分类模型。

(2)时序性：所选的深度学习模型需要对时序特征信息敏感，可以挖掘出输入数据的时序特征信息。

(3)非监督or半监督性：所选的深度学习模型需要适应机车驾驶数据标签不均衡的特征，对于少标或者无标的数据也可以有效地进行学习。

针对上述考虑，筛选出的深度学习模型包括但不限于如下的深度学习模：深度自编码器、深度信念网络。

其中的深度自动编码器是一种特殊类型的深度神经网络，网络的输入层和输出层有相同的维度，所期望得到的输出即为网络原始输入，可以提取数据在隐含层的特征。深度自动编码器不需要预先知道训练样本的类别信息，以原始输入作为校验，进行无监督地特征学习，非常适合对海量未标注工业数据的处理。特别的，当设置的隐含层节点数比输入层少时，该深度自动编码器还可实现特征压缩。

其中的深度信念网络(DBN)是一种深层次的神经网络，它也是无监督学习算法的一种。DBN采用若干RBM级联的方式逐层贪婪训练，通过对比散度(ContrastiveDivergence,CD)的高效近似算法，能够较好的提取出训练数据中的层次化结构性特征，更适合处理本发明所要研究的时序机车驾驶数据。

步骤S107，将该时序特征信息作为挖掘模型的输入，利用该挖掘模型进行时序特征信息的学习。

对于不具有时序特征信息处理能力的挖掘模型，比如DBN挖掘模型，需要将步骤S106得到的时序特征信息进行抽象表示，作为该类挖掘模型的输入，利用该挖掘模型进行时序特征信息学习。这类挖掘模型采用的学习方法非常统一，比如采用梯度下降法等等机器学习算法进行时序特征信息学习。通过上述步骤S107，能够解决时序工业数据隐含的时序特征信息丢失的问题。

步骤S108，直接将关键特征子集中的关键特征作为这类挖掘模型的输入，挖掘模型的输出即为所需的时序特征信息。

对于具有时序信息能力挖掘的挖掘模型，如LSTM、HMM等挖掘模型，直接将关键特征子集中的关键特征作为这类挖掘模型的输入，挖掘模型的输出即为所需的时序特征信息。

本发明面向时序工业数据，设计一种较为个性化的特征学习方案，利用相应的数据清洗、特征子集搜索方法完成特征选择、对源数据进行去冗余和降维等处理过程解决工业数据冗余性强、数据量大、纬度高等问题；

利用深度学习模型中的非监督或半监督的思想克服了工业数据进行样本标注需要过高成本的瓶颈，极大减小数据获取对人的依赖度，显著提高工程设计与实现的效率。

根据应用场景所使用的挖掘模型是否具有时序信息处理能力作为划分，分别为两类模型提供不同的特征学习方案：对于不具备时序数据学习能力的目标应用挖掘模型，先提取出关键特征中的时序特征信息，然后将该时序特征信息作为该类挖掘模型的输入，并进行后续的时序特征信息学习，通过这种方法能够扩充该类挖掘模型的学习能力；对于具备时序特征信息学习能力的目标应用挖掘模型，直接将关键特征作为其输入。本发明能够实现不同类型的机车运行特征对接到适合的目标应用挖掘模型。

虽然本发明已以较佳实施例公开如上，但实施例并不是用来限定本发明的。在不脱离本发明之精神和范围内，所做的任何等效变化或润饰，同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims

1.一种机车运行时序特征学习方法，其特征在于，所述的方法包括：

步骤S102，对源数据进行数据清洗；计算出清洗后得到的有效数据中的所有空缺属性各种取值的概率，选取概率最大的属性值对清洗后得到的有效数据进行数据补全，得到完整特征数据；针对数据补全后得到的完整特征数据进行数据融合，经过数据融合去冗降维处理后得到初始特征集合；

步骤S103，从初始特征集合中搜索出重要特征子集，并针对重要特征子集进行特征选择，得出关键特征子集；

步骤S104，调取应用场景所使用的挖掘模型；

步骤S106，提取出关键特征子集的时序特征信息；

步骤S108，直接将关键特征子集中的关键特征作为挖掘模型的输入，利用该挖掘模型进行时序特征信息的学习，挖掘模型的输出为所需的时序特征信息。

2.根据权利要求1所述的机车运行时序特征学习方法，其特征在于，所述步骤S103包括：

3.根据权利要求1或2所述的机车运行时序特征学习方法，其特征在于，

所述步骤S106包括：利用深度学习模型提取关键特征子集中的时序特征信息；

所述深度学习模型包括但不限于如下的深度学习模型：深度自编码器、深度信念网络。

4.根据权利要求3所述的机车运行时序特征学习方法，其特征在于，所述步骤S102中的对源数据进行数据清洗的过程包括如下中的一种或多种：