CN108536123B

CN108536123B - 基于长短时记忆神经网络的列控车载设备故障诊断方法

Info

Publication number: CN108536123B
Application number: CN201810252504.0A
Authority: CN
Inventors: 蔡伯根; 上官伟; 杨嘉明; 石锡尧; 王剑
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2019-08-30
Anticipated expiration: 2038-03-26
Also published as: CN108536123A

Abstract

本发明提供了一种基于长短时记忆神经网络的列控车载设备故障诊断方法。该方法包括：利用车载设备的日志文件通过文本数据挖掘处理构建车载设备运行信息语料库，并构建原始样本数据；构造LSTM网络和BP网络级联的多层网络系统，采用贝叶斯正则化算法对多层网络系统进行优化；利用训练样本数据来对优化后的多层网络系统进行训练，利用训练好的多层网络系统构成列控车载设备的故障诊断模型，利用故障诊断模型对列控车载设备的未知故障样本进行诊断，得到未知故障样本的诊断结果。本发明提出了基于LSTM网络和BP网络级联的列控车载设备的故障诊断方法，实现列车运行信息的智能分类，减少现场对人工经验的需求，有效进行列控车载设备的故障诊断。

Description

基于长短时记忆神经网络的列控车载设备故障诊断方法

技术领域

本发明涉及列车故障诊断技术领域，尤其涉及一种基于长短时记忆神经网络的列控车载设备故障诊断方法。

背景技术

典型的BP(back propagation，神经网络)结构学习训练的过程即输入信息从输入层经隐藏层传向输出层的过程。BP的特别之处在于当实际输出值达不到期望值时，可通过误差反向传播来修改各层神经元的连接权值，继续训练直到输出误差在允许范围内。网络学习训练结束后神经元间的连接权值就表示了诊断对象特有的知识。

神经网络的前向传播过程仅用于计算网络的输出，而后向传播过程则是根据误差反馈调整网络权值和偏置。不同神经元之间的网络权重是不同的，在初始化阶段，给每个网络权重和偏置一个很小的随机数，该随机数一般为(-1,1)，神经元的偏置可以看作是其自身的权重。

传统的神经网络结构一般分为输入层、隐含层和输出层三层，LSTM(Long ShortTerm Memory Network，长短时记忆网络)与传统神经网络的根本不同之处在于LSTM模型的隐含层具有更复杂的结构。LSTM是一种特殊的RNN(Recurrent Neural Networks，循环神经网络)结构。原始RNN的隐藏层只有一个状态h，对于短期的输入较为敏感，而LSTM实质上是通过记忆单元实现对RNN隐含层的改进。在RNN隐含层的基础上，LSTM网络模型中，隐含层增加了一个状态c，称为细胞状态(cell state)，用它来保存长期状态。

目前，现有技术中的列控车载设备的故障诊断与定位主要依赖大量维修人员的人工诊断，费时费力，并且诊断准确率低。

发明内容

本发明的实施例提供了一种基于长短时记忆神经网络的列控车载设备故障诊断方法，以实现有效地利用LSTM网络和BP网络进行列控车载设备的故障诊断。

为了实现上述目的，本发明采取了如下技术方案。

一种基于长短时记忆神经网络的列控车载设备故障诊断方法，包括：

利用车载设备的日志文件通过文本数据挖掘处理构建车载设备运行信息语料库，利用车载设备运行信息语料库构建原始样本数据；

构造LSTM网络和BP网络级联的多层网络系统，采用贝叶斯正则化算法从权值优化和结构调整两方面对所述多层网络系统进行优化；

对原始样本数据进行分类，分为训练样本数据、验证样本数据和测试样本数据。利用训练样本数据来对优化后的所述多层网络系统进行训练，利用训练好的多层网络系统构成列控车载设备的故障诊断模型，利用所述列控车载设备的故障诊断模型对列控车载设备的未知故障样本进行诊断，得到未知故障样本的诊断结果。

进一步地，所述的利用车载设备的日志文件通过文本数据挖掘处理构建车载设备运行信息语料库，包括：

采集车载设备的日志文件为原始数据，对原始数据进行数据清理，该数据清理过程包括收集原始数据中的AE-log文件、统一原始数据模式、提取原始数据中的关键信息，并将关键信息存入数据库中，利用数据清理后的原始数据构建车载设备运行信息语料库，所述车载设备运行信息语料库包括车载设备的日志文件、正常运行信息以及故障信息；

对车载设备运行信息语料库中的文件进行分词、统计词频、去停用词、标注词性处理，采用Skip-gram模型实现车载设备运行信息语料的向量表达，以词向量的形式表达语义信息。

进一步地，所述的采用Skip-gram模型实现车载设备运行信息语料的向量表达，以词向量的形式表达语义信息，包括：

扫描车载设备运行信息语料库并统计每个词出现的次数，然后根据各个词的词频建立Huffman树，其中每个词以词向量的形式对应一个二进制编码，该编码表示根节点到该词的路径；初始化词向量与Huffman非叶子节点，词向量的维度大小为给定的参数K，每个维度的值随机初始化为0或1，非叶子节点每个维度初始化为0，目标为预测词的二进制编码概率最大；

对Skip-gram模型进行训练：Skip-gram模型逐句读取车载设备运行信息语料库中的词，利用梯度下降法计算出词的梯度，根据词的梯度更新词向量和非叶子节点处向量的词，当遍历完车载设备运行信息语料库中的所有词后，训练终止，得到每个词最终的词向量结果，最后以词向量的形式表达语义信息。

进一步地，所述的利用车载设备运行信息语料库构建原始样本数据，包括：

利用向量表达后的车载设备运行信息语料库构建原始样本数据，将原始样本数据随机划分为3部分，其中70％为训练样本数据，用于调整网络结构参数，减小误差；15％为验证样本数据，用来验证网络的泛化能力，并且在网络泛化能力不再提高时终止网络的训练；其余15％作为测试样本数据，作用是检验网络的性能。

进一步地，所述的构造LSTM网络和BP网络级联的多层网络系统，采用贝叶斯正则化算法从权值优化和结构调整两方面对所述多层网络系统进行优化，包括：

构造LSTM网络和BP网络级联的三层网络系统，该三层网络系统包括：输入层、隐藏层和输出层，输入层、隐藏层中包括LSTM网络，输出层中包括BP网络；

采用贝叶斯正则化算法从权值优化和结构调整两方面对所述三层网络系统进行优化，优化后的所述三层网络系统的目标误差函数被调整为：

E＝k₁E_D+k₂E_W

式中：

其中，w_i为网络权值，ε是以ε^p为元素的向量，W_k表示第k次迭代的网络权值向量，J为Jacabi矩阵，参数μ的作用是控制步长；

比例系数k₁,k₂通过贝叶斯方法确定，具体公式如下：

式中：γ为神经网络的有效参数个数，γ＝N-2k₂tr(H)^-1；N为神经网络参数总数；H为E的Hessian矩阵，tr(H)表示矩阵H的迹。

进一步地，所述的利用训练样本数据来对优化后的所述多层网络系统进行训练，利用训练好的多层网络系统构成列控车载设备的故障诊断模型，包括：

利用训练样本数据来对优化后的LSTM网络和BP网络级联的三层网络系统进行训练，在训练过程中，首先在输入层中输入训练样本数据中的列车运行数据，输入层将所述列车运行数据传输给隐藏层中的LSTM网络模型，利用LSTM网络的记忆特性，对具有时间特性的数据进行处理，分析前后样本的关系，对原始列车运行数据进行处理；将隐藏层中的LSTM网络模型的输出数据作为输出层中的BP神经网络模型的输入数据，通过优化后的BP网络结构完成列车运行数据的训练学习；

训练结束后，利用测试样本数据来检验训练好的LSTM和BP网络级联的三层网络系统，判断测试误差的均方根误差最大值、最小值及平均值是否都达到预定的误差要求，如果是，则所述三层网络系统模型建成，利用训练好所述三层网络系统构成列控车载设备的故障诊断模型；否则，继续训练所述三层网络系统模型。

进一步地，所述的利用所述列控车载设备的故障诊断模型对列控车载设备的未知故障样本进行诊断，得到未知故障样本的诊断结果，包括：

将列控车载设备的未知故障样本输入到所述列控车载设备的故障诊断模型，所述故障诊断模型通过诊断输出所述未知故障样本的诊断结果，该诊断结果包括未知故障样本是正常样本还是故障样本，如果是故障样本，还输出故障类型；

根据一定数量的未知故障样本的诊断结果评估所述列控车载设备的故障诊断模型的泛化能力。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提出了基于LSTM网络和BP网络级联的列控车载设备的故障诊断方法，该方法从列控车载设备的功能、结构和运行模式出发，将BP神经网络用作分类器，建立简单的分类模型，实现列车运行信息的智能分类，减少现场对人工经验的需求。针对BP神经网络局部收敛和收敛速度慢的缺点，采用贝叶斯正则化算法对原始BP网络模型的权值和网络结构进行优化，以提高网络模型的泛化能力。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于LSTM-BP级联网络结构的车载设备故障诊断方法的处理流程图；

图2为本发明实施例提供的一种车载设备运行信息语料库的构建过程示意图；

图3为本发明实施例提供的一种词向量生成过程示意图；

图4为本发明实施例提供的一种列控车载设备的故障诊断模型的结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

科学有效的故障诊断是保证系统高可用性和高可靠性以及降低运营成本的重要环节。目前，在车载设备发生故障后，数据分析工作人员通过专家经验推断可能的故障模式，诊断耗时长、效率低，且诊断结果的准确率较低。低效率的故障诊断方式严重影响铁路运输的安全和高效，考虑到设备的复杂性及诊断时的快速性，依靠人工经验来完成车载设备的故障诊断工作已无法满足现场需求。复杂设备的故障诊断方法一般采用基于规则的诊断方法和基于故障树的诊断方法，其自学能力差，不能诊断规则、模型之外的故障，在车载设备故障诊断领域发挥不出其优势。所以，为满足现场的实际需求，迫切需要开展车载设备的智能故障诊断方法研究，从而实现故障的高效诊断和定位并减少对维修人员的依赖。

本发明实施例提供的一种基于LSTM-BP级联网络结构的车载设备故障诊断方法的处理流程如图1所示，包括如下的处理步骤：

步骤S110、利用车载设备的日志文件通过文本数据挖掘处理构建车载设备运行信息语料库，利用车载设备运行信息语料库构建原始样本数据。

本发明实施例提供的一种车载设备运行信息语料库的构建过程示意图如图2所示，具体处理过程包括：采集车载设备的日志文件为原始数据，对原始数据进行数据清理，数据清理过程主要是收集原始数据中的AE-log文件、统一原始数据模式、提取原始数据中的关键信息(如时间，运行信息语句等)，并将关键信息存入数据库中。然后，利用数据预处理后的原始数据构建车载设备运行信息语料库，该车载设备运行信息语料库由3384个提取了关键信息的AE-log文件组成，文件大小为64.1M。上述车载设备运行信息语料库中包括了车载设备的所有运行信息，包括海量的车载设备的日志文件、正常运行信息以及故障信息。

对车载设备运行信息语料库中的文件进行分词、统计词频、去停用词、标注词性等处理，构建具有词性标注的车载设备运行信息语料库，为后续的数据的向量化奠定基础。

采用Skip-gram模型等基于深度学习的语言模型实现车载设备运行信息语料的向量表达，以词向量的形式表达语义信息，为故障诊断模型提供准确有效的数据支撑。词向量生成过程如图3所示，具体处理过程包括：

(1)首先扫描车载设备运行信息语料库，统计车载设备运行信息语料库中每个词出现的次数，根据各词的词频建立Huffman树。建立好Huffman树之后，每个词都有一个二进制的编码，该编码表示根节点到该词的路径。

(2)以词向量的形式表达每个词对应的二进制的编码，初始化词向量与Huffman非叶子节点，词向量的维度大小为给定的参数K，每个维度的值随机初始化为0或1，非叶子节点每个维度初始化为0。目标为预测词的二进制编码概率最大。

(3)对语言模型进行训练：语言模型逐句读取车载设备运行信息语料库中的词，利用梯度下降法计算出词的梯度，根据词的梯度更新词向量和非叶子节点处向量的词。当遍历完车载设备运行信息语料库时，训练终止，得到最终的词向量结果，以词向量的形式表达语义信息。

利用实现了车载设备运行信息的向量表达后的车载设备运行信息语料库构建原始样本数据。

AE-log文件中的车载设备运行信息是以自然语言形式存储，计算机无法直接识别自然语言，所以对车载设备运行信息进行向量表达，转换为计算机可以直接识别的词向量，作为后续故障诊断模型的特征表示。

步骤S120、对原始样本数据进行分类，分为训练样本数据、验证样本数据和测试样本数据。

将原始样本数据随机划分为3部分，其中70％为训练样本数据，用于调整网络结构参数，减小误差；15％为验证样本数据，用来验证网络的泛化能力，并且在网络泛化能力不再提高时终止网络的训练；其余15％作为测试样本数据，作用是检验网络的性能。

步骤S130、构造和训练LSTM(Long Short Term Memory Network，长短时记忆网络)和BP网络级联的多层网络系统，采用贝叶斯正则化算法，从权值优化和结构调整两方面对上述多层网络系统进行优化。

本发明实施例根据所采集的数据，构造和训练LSTM和BP网络级联的三层网络系统，包括：输入层、隐藏层和输出层。输入层、隐藏层中包括LSTM网络，输出层中包括BP网络。

然后，采用贝叶斯正则化算法从权值优化和结构调整两方面对上述多层网络系统进行优化。在神经网络中，贝叶斯正则化的作用实际上就是通过修正网络的训练性能函数来防止模型过拟合，提高模型的泛化能力。

优化后的上述三层网络系统的目标误差函数被调整为：

E＝k₁E_D+k₂E_W

式中：

其中，w_i为网络权值。优化后的误差指标函数可以在保证网络训练误差小的情况的同时使得网络具有较小的权值，一定程度上可以看作是缩小了网络的规模。而比例系数k₁,k₂则是通过贝叶斯方法确定的，具体公式如下：

式中：γ为神经网络的有效参数个数，γ＝N-2k₂tr(H)^-1；N为神经网络参数总数；H为E的Hessian矩阵。

步骤S140、利用训练样本数据来对优化后的所述多层网络系统进行训练，利用训练好的多层网络系统构成列控车载设备的故障诊断模型。

利用训练样本数据来对优化后的LSTM和BP网络级联的三层网络系统进行训练，网络训练的同时利用验证样本数据来评估网络的误差，若误差持续下降，则继续训练直到满足预定的误差精度；若误差连续6次不下降，即使没有达到预定误差也要终止训练。

在上述训练过程中，首先在输入层中输入训练样本数据中的列车运行数据，输入层将所述列车运行数据传输给隐藏层中的LSTM网络，利用LSTM网络的记忆特性，对具有时间特性的数据进行处理，分析前后样本的关系，对原始列车运行数据进行处理；然后将隐藏层中的LSTM网络模型的输出数据作为输出层中的BP神经网络模型的输入数据，实现信息的传递，通过优化后的BP网络结构完成列车运行数据的训练学习。

上述列控车载设备的故障诊断模型的结构如图4所示，该故障诊断模型的具体构建步骤如下：

1)首先是将原始的列车运行信息经数据清洗后进行特征表示和特征提取，构成的训练集可以表示为F_tr＝{f₁,f₂,...,f_n}；

2)对训练集中的数据进行标准化，处理后的训练集可以表示为

X＝{X₁,X₂,...,X_L}

对应的理论输出为

Y＝{Y₁,Y₂,...,Y_L}

3)初始化LSTM网络。给定初始权值矩阵，初始权值为均匀分布在(0，1)之间的随机数。设置最大迭代训练次数和最小误差值。

4)前向计算过程：将X输入隐藏层，LSTM隐藏层包括L个按时间顺序排列的LSTM细胞，输入经过隐藏层之后的输出可以表示为：

P＝{P₁,P₂,...,P_L}

P_t＝LSTM_f(X_t,C_t-1,H_t-1)

其中C_t-1,H_t-1分别为前一个样本隐藏层的细胞状态和输出，LSTM_f是LSTM前向计算方法。

5)误差反向传播：LSTM网络的输出作为优化后的BP网络模型的输入，BP网络的实际输出与理论输出的均方误差作为误差计算公式，通过梯度下降法调整LSTM网络的权值和偏置，使网络误差不断减小，从而实现网络的优化。

6)当训练次数或误差值满足要求时模型停止训练，将未知样本输入建立好的故障诊断模型中，对故障诊断模型的性能进行验证。

步骤S150、利用上述列控车载设备的故障诊断模型对列控车载设备的未知故障样本进行诊断，得到未知故障样本的诊断结果。

将列控车载设备的未知故障样本输入到上述列控车载设备的故障诊断模型，该故障诊断模型输出未知故障样本的诊断结果，该诊断结果包括未知故障样本是正常样本还是故障样本，如果是故障样本，还可以输出故障类型。

根据一定数量的未知故障样本的诊断结果可以评估所述列控车载设备的故障诊断模型的泛化能力。

综上所述，本发明实施例提出了基于LSTM网络和BP网络级联的列控车载设备的故障诊断方法，该方法从列控车载设备的功能、结构和运行模式出发，将BP神经网络用作分类器，建立简单的分类模型，实现列车运行信息的智能分类，减少现场对人工经验的需求。针对BP神经网络局部收敛和收敛速度慢的缺点，采用贝叶斯正则化算法对原始BP网络模型的权值和网络结构进行优化，以提高网络模型的泛化能力。

本发明实施例的方法针对初步诊断对关机误报和引发故障分类不准确的问题，采用LSTM和BP神经网络级联的混合结构，充分发挥LSTM算法的记忆特性，结合车载设备故障特征信息的长时记忆，充分利用列车运行信息样本的前后关联信息，判断当前样本信息类型，实现关机误报，引发故障等样本的有效识别，提高模型的故障分类准确率，实现高分类准确率的车载设备故障诊断。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于长短时记忆神经网络的列控车载设备故障诊断方法，其特征在于，包括：

对原始样本数据进行分类，分为训练样本数据、验证样本数据和测试样本数据，利用训练样本数据来对优化后的所述多层网络系统进行训练，利用训练好的多层网络系统构成列控车载设备的故障诊断模型，利用所述列控车载设备的故障诊断模型对列控车载设备的未知故障样本进行诊断，得到未知故障样本的诊断结果。

2.根据权利要求1所述的方法，其特征在于，所述的利用车载设备的日志文件通过文本数据挖掘处理构建车载设备运行信息语料库，包括：

3.根据权利要求2所述的方法，其特征在于，所述的采用Skip-gram模型实现车载设备运行信息语料的向量表达，以词向量的形式表达语义信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述的利用车载设备运行信息语料库构建原始样本数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述的构造LSTM网络和BP网络级联的多层网络系统，采用贝叶斯正则化算法从权值优化和结构调整两方面对所述多层网络系统进行优化，包括：

E＝k₁E_D+k₂E_W

式中：

比例系数k₁,k₂通过贝叶斯方法确定，具体公式如下：

6.根据权利要求5所述的方法，其特征在于，所述的利用训练样本数据来对优化后的所述多层网络系统进行训练，利用训练好的多层网络系统构成列控车载设备的故障诊断模型，包括：

训练结束后，利用测试样本数据来检验训练好的LSTM和BP网络级联的三层网络系统，判断测试误差的均方根误差最大值、最小值及平均值是否都达到预定的误差要求，如果是，则所述三层网络系统建成，利用训练好的所述三层网络系统构成列控车载设备的故障诊断模型；否则，继续训练所述三层网络系统。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述的利用所述列控车载设备的故障诊断模型对列控车载设备的未知故障样本进行诊断，得到未知故障样本的诊断结果，包括：