CN110232415B

CN110232415B - 一种基于生物信息特征的列车转向架故障识别方法

Info

Publication number: CN110232415B
Application number: CN201910506772.5A
Authority: CN
Inventors: 刘辉; 杨睿
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2020-10-30
Anticipated expiration: 2039-06-12
Also published as: CN110232415A

Abstract

本发明公开了一种基于生物信息特征的列车转向架故障识别方法，包括：获取列车转向架的历史振动信号，并进行预处理转化为人工DNA序列；通过滑动窗口法获取所有窗口序列，并从中选择满足预设要求的特征序列；以人工DNA序列中四个碱基的含量、序列长度以及各特征序列的数量，作为人工DNA序列的基因特征向量；利用人工DNA序列的基因特征向量构建训练样本，并针对每种故障类型均训练相应的LPBoost二分类器；从而在故障检测时，将相应的基因特征向量输入至每个LPBoost二分类器，通过投票表决方法确定待检测列车转向架的故障类型。本发明通过挖掘导致各故障类型的特征序列，从而实现准确地进行多种故障类别的识别与分类。

Description

一种基于生物信息特征的列车转向架故障识别方法

技术领域

本发明涉及故障识别领域，具体是指一种基于生物信息特征的列车转向架故障识别方法。

背景技术

近年来，随着高速铁路、地铁、磁悬浮列车等轨道交通行业技术的迅速发展，铁路运输已成为我国人民出行的主要交通方式。正因为铁路在国民经济中的地位如此重要，其安全问题自然成了人民关心的大事。在列车不断大幅增速的今天，这个问题显得尤为重要。人们对列车运行安全越来越加以重视。而在众多轨道车辆系统中，转向架(走行部)是最为核心的部分之一，对转向架的运行转台监测是保证列车安全运行的重点。近年来一些由转向架故障引起的列车安全事故已对社会稳定造成了威胁，因此，提升列车走行部的性能势在必行，而对列车转向架实施有效的实时监测对于提升其性能起着重要作用。

目前，常用的列车转向架故障检测方法有：

1、人工诊断，包括整体外观监测和异响诊断，即让经验丰富的人员通过外观检查异状或根据其运行过程中的声响来判断是否工作正常。这种故障检测方法由经验丰富的人员进行主观判断，对检修人员的门槛要求较高，而且人为干扰因素较大，不适于目前故障判断智能化的发展趋势。

2、转向架部件的拆解检查，即按照段修的修程将走行部分解后对各部分(轮对轴箱装置、弹性悬挂装置、构架、基础制动装置、支撑装置、牵引电机与齿轮变速传动装置等)进行检查和判断。这种故障检测方法对行走部分解检测的工作量大，使得故障检测效率过低。

3、磁粉探伤、渗透法探伤、超声探伤。这是除目检外，较为高科技的故障检测方法，结果很直观准确，但是容易破坏原有的磨合状态，不提倡普遍使用。

发明内容

针对列车转向架故障检测方法目前存在技术缺陷，本发明提供一种基于生物信息特征的列车转向架故障识别方法，可以提高列车转身架故障检测工作的效率，准确高效地实现对各种故障类别的识别。

为实现上述技术目的，本发明采用如下技术方案：

一种基于生物信息特征的列车转向架故障识别方法，包括以下步骤：

步骤1，针对每种故障类型均构建相应的DNA序列集；

步骤1.1，获取列车转向架的历史振动信号，且已知列车转向架的故障类型，对历史振动信号进行预处理得到由4种构成元素排列组合而成的预处理信号；

步骤1.2，以4种构成元素分别作为A、T、C、G四个碱基，将预处理信号作为人工DNA序列，并将人工DNA序列存放在与故障类型对应的序列文件中；其中，每个序列文件中的所有人工DNA序列，构成与故障类型对应的DNA序列集；

步骤2，提取特征序列；

步骤2.1，利用滑动窗口法，从所有DNA序列集的所有人工DNA序列中获取预设长度的窗口序列，并计算窗口序列的特征值；

步骤2.2，利用特征值从所有窗口序列中，选择部分窗口序列作为特征序列；

步骤3，每条人工DNA序列均生成基因特征向量；

计算当前人工DNA序列中A、T、C、G四个碱基的含量、当前人工DNA序列的长度以及预设特征序列分别在当前人工DNA序列中的数量，并组成当前人工DNA序列的基因特征向量；所述预设特征序列是指从所有特征序列中预选得到的部分特征序列；

步骤4，构建训练样本集；

获取v个历史振动信号，均按步骤1-3获取相应的人工DNA序列和基因特征向量，构建v个训练样本(x_i,y_i)，所有训练样本构成训练样本集；其中，y_i表示相应历史振动信号的类别标号；

步骤5，针对每种故障类型，均按以下步骤训练相应的LPBoost二分类器，用于负责检测相应的故障类型；

步骤5.1，确定正负训练样本；

按照负责检测的故障类型，从训练样本集中选取训练样本作为正训练样本，其余训练样本作为负训练样本，所述正训练样本的类别标号y_i＝1，所述负训练样本的类别标号y_i＝-1；

步骤5.2，训练弱分类器；

构建M个SVM模型，设定迭代次数t＝1,2,...,T，利用训练样本集并采用LPBoost算法对M个SVM模型进行迭代训练，得到M个弱分类器f_m(x_i)以及相应的权重a_m，m＝1,2,…,M；

步骤5.3，将步骤5.2训练得到的M个弱分类器按以下公式集成，得到LPBoost二分类器：

步骤6，对列车转向架进行故障类型检测；

获取待检测列车转向架的实时振动信号，按步骤1获取相应的人工DNA序列，按步骤3生成相应的基因特征向量，并将基因特征向量输入至步骤5得到的每个LPBoost二分类器中，每个LPBoost二分类器均根据基因特征向量进行二分类；最终，对所有LPBoost二分类器的输出值采取投票表决方法，确定待检测列车转向架的故障类型。

本发明将列车转向架故障监测问题转化为故障类型识别问题，通过获取大量的历史振动信号，再将其处理转换为人工DNA序列进行分析，找到每种故障类型所特定的特征序列，以作为基因特征向量中的特征量进行模型深度学习，从而用于对列车转向架进行故障分析，并准确地辨别出故障类型。

本发明将待测故障类型的振动信号这种浅层的数据信息进行转化，得到人工DNA序列，相当于发掘待测故障类型的振动信号的本质，再输入至各个LPBoost二分类器中，相当于与已有的人工DNA数据库中的数据作比较，若该人工DNA数据库中有该故障类型的数据，则将该数据所对应的故障类型，作为待测列车转向架的故障类型。

同时，通过建立包含多种故障类型的机械故障设备DNA序列的数据库，可以凭借人工DNA序列是数字式的优势，提供不受人主观判断影响、没有地域性限制的平台。加快信息交流速度，提高故障分类工作的效率，降低人员门槛，减少转向架设备的维修和改进的盲目性。

此外，由多个弱分类器集成融合得到的LPBoost二分类器，相比于单独的SVM，其分类精度更高，且不用担心出现过度拟合的问题。

进一步地，步骤2.1的具体过程为：

步骤B1，设置窗口的宽度初始值l＝l_min及滑动步长

取第1个序列文件作为当前序列文件；

步骤B2，针对当前序列文件，首先将窗口定位在当前序列文件的第1个字符，顺序读出l个字符并组成字符串，作为1个窗口序列；

步骤B3，将窗口向前滑动

个字符，顺序读出l个字符并组成字符串，作为另1个新的窗口序列；重复执行步骤B3，直到读出当前序列文件的最后1个字符；

步骤B4，修改l＝l+1，返回步骤B2，直到得到所有字符长度范围为[l_min,l_max]的窗口序列；

步骤B5，取下一个序列文件作为当前序列文件，取窗口的宽度初始值为l＝l_min，并返回步骤B2。

进一步地，l_min＝3，l_max＝7。

进一步地，在步骤2.1中每次获取得到预设长度的窗口序列x(l)时，均按以下公式计算该窗口序列x(l)的单条序列重复度F_L(x(l))、置信度S(x(l))、序列集重复度F(x(l))：

其中，F(x(l))表示窗口序列x(l)在人工DNA序列中的单条序列重复度，T(x(l))表示窗口序列x(l)在人工DNA序列中出现的次数，W(l)表示人工DNA序列中序列长度为l的所有窗口序列的总数，且W(l)＝L-1+l；

其中，S(x(l))表示窗口序列x(l)在序列集{L_i},i＝1,2,…,n的置信度，C(x(l))表示窗口序列x(l)在序列集{L_i}的所有人工DNA序列中出现的总序列数，n表示序列集{L_i}中包括的人工DNA序列的数量；

其中，F(x(l))表示窗口序列x(l)在序列集{L_i}的序列集重复度；

表示窗口序列x(l)在序列集{L_i}的所有人工DNA序列中出现的总次数；

为序列集{L_i}中序列长度为l的所有窗口序列的总数；

所述步骤2.2的具体过程为：

步骤C1，对每个得到的窗口序列的x(l)，均判断其单条序列重复度F(x(l))、置信度S(x(l))、序列集重复度F(x(l))，分别是否在预设的单条序列重复度阈值范围、置信度阈值范围和序列集重复度阈值范围内，若均在相应的阈值范围内，则将该窗口序列x(l)作为当前序列集的候选序列y(l)；

步骤C2，计算候选序列y(l)在该序列集{L_i}与其余各序列集的相对差α(x(l))，再取平均值作为候选序列y(l)在序列集{L_i}的平均相对差

其中，候选序列y(l)在该序列集{L_i}与序列集A的相对差α(x(l))的计算公式为：

式中，F^A(y(l))、

分别为候选序列y(l)在A、{L_i}这两个DNA序列集中的DNA序列集重复度；

步骤C3，对候选序列y(l)，判断其在序列集{L_i}的平均相对差

是否在预设的平均相对差阈值范围内，则将该候选序列y(l)作为当前序列集{L_i}的特征序列。

进一步地，在步骤3中，第i条人工DNA序列中A、T、C、G四个碱基的含量的计算方法为：

其中，x_i表示第i条人工DNA序列的基因特征向量，x_1i、x_2i x_3i x_4i分别为基因特征向量x_i中的前4个属性，Length(x_i)表示第i条人工DNA序列的长度，count_bases(x_i)(bases＝A,T,C,G)分别表示第i条DNA序列所含有的碱基A、T、C、G的数量。

进一步地，还需要对步骤3得到的基因特征向量进行归一化预处理，后续步骤对归一化预处理得到的基因特征向量进行处理。

进一步地，在步骤5.2中，对M个SVM模型进行第t次迭代训练的具体过程为：

步骤d1，归一化各训练样本的样本权重

并在当前样本权重下训练第m个弱分类器

其中归一化公式为：

步骤d2，计算第m个弱分类器

的分类错误率

式中，

x_j表示多个样本x_i的集合，y_j表示弱分类器的值；

如果

或者

则停止训练过程；

步骤d3，计算弱分类器

的权值

式中，

步骤d4，更新各训练样本的样本权重：

式中，

为概率分布的归一化因子；

步骤d5，返回步骤d1，训练下一个弱分类器

直到训练完M个弱分类器或者满足训练终止条件，则完成对M个弱分类器的第t次训练；

其中，在第1次迭代训练对第1个弱分类器进行训练时，各训练样本的初始样本权重

设为：

以上一次迭代训练对最后1个弱分类器训练完毕后更新的样本权重，作为下一次迭代训练对第1个弱分类器进行训练的样本权重。

在LPBoost算法中，所有分类器的权重在每次迭代中被整体调整，算法收敛速度更快，减少分类器的训练时间，加快分类器的故障分类时间；而早期的Boosting算法不具有这种特性(Boosting算法收敛速度较慢)。

进一步地，步骤A1中对历史振动信号进行的预处理包括：小波阈值滤波和PCA降维处理，得到预处理信号的4种构成元素分别数字1、2、3、4。

进一步地，所述投票表决方法具体为：判断每个LPBoost二分类器的输出值是否均为0，若是，则将待检测列车转向架的故障类型作为未知的新故障类型；否则将每个输出值为1的LPBoost二分类器所对应的故障类型，均作为待检测列车转向架的故障类型。

若人工DNA数据库中没有该故障类型的数据，则对该未知故障类型的待测振动信号加以标记，给检修人员和研究人员进行进一步的故障查询提供建议，以便后续的检修，同时可提高故障识别的准确率。

有益效果

本发明在现有的列车设备故障监测技术的基础上，提供了一种高效率、高精度的列车转向架故障识别和分类的方法，丰富了现有的技术方法。本发明将列车转向架故障监测问题转化为故障类型识别问题，通过获取大量的历史振动信号，再将其处理转换为人工DNA序列进行分析，找到每种故障类型所特定的特征序列，以作为基因特征向量中的特征量进行模型深度学习，从而用于对列车转向架进行故障分析，并准确地辨别出故障类型。

本发明将待测故障类型的振动信号这种浅层的数据信息进行转化，得到人工DNA序列，相当于发掘待测故障类型的振动信号的本质，再输入至各个LPBoost二分类器中，相当于与已有的人工DNA数据库中的数据作比较，若该人工DNA数据库中有该故障类型的数据，则将该数据所对应的故障类型，作为待测列车转向架的故障类型；若人工DNA数据库中没有该故障类型的数据，则对该未知故障类型的待测振动信号加以标记，给检修人员和研究人员进行进一步的故障查询提供建议，以便后续的检修。

附图说明

图1为本发明所述方法的流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

如图1所示，本发明提供的基于生物信息特征的列车转向架故障识别方法，包括以下步骤：

步骤1，针对每种故障类型均构建相应的DNA序列集；

步骤A1，通过振动采集仪采集列车转向架的历史振动信号；然后对历史振动信号进行小波阈值滤波，以消除历史振动信号中的干扰噪声；再对消除干扰噪声后的振动信号进行PCA降维处理，得到由4种构成元素(分别为数字1、2、3、4)组成的预处理信号；

步骤A2，以4个构成元素分别作为A、T、C、G四个碱基，将预处理信号作为人工DNA序列；由于已知列车转向架在历史振动信号采集时的故障类型，故此时将预处理信号按故障类型，将人工DNA序列存放在与故障类型对应的序列文件中；其中，每个序列文件中的所有人工DNA序列，构成与故障类型对应的DNA序列集。

步骤2，提取列车转向架的特征序列；

步骤2.1，利用滑动窗口法，从所有DNA序列集的所有人工DNA序列中获取预设长度的窗口序列，具体过程为：

步骤B1，设置窗口的宽度初始值l＝l_min及滑动步长

取第1个序列文件作为当前序列文件；在本实施例中，窗口宽度初始值l_min＝3，滑动步长

其中，窗口序列实际上是由A、T、C、G四个碱基组成的字符串，另外对于类别不同的人工DNA序列，会出现不同的特征序列，也就是说有一些特征序列在第一类中频繁出现，而在其他类中出现的很少，以此类推。

步骤B3，将窗口向前滑动

个字符，顺序读出l个字符并组成字符串，作为另1个新的窗口序列；重复执行步骤B3，直到读出当前序列文件的最后1个字符组成1个窗口序列；

步骤B4，修改l＝l+1，返回步骤B2，直到得到所有字符长度范围为[l_min,l_max]的窗口序列；在本实施例中，l_max＝7，因此采用滑动窗口法可从当前序列文件中获取得到所有长度为l＝3,4,5,6,7的窗口序列。

其中，在步骤2.1的整个过程中，每次获取到1个窗口序列，均按以下公式计算该窗口序列x(l)的单条序列重复度F_L(x(l))、置信度S(x(l))、序列集重复度F(x(l))：

其中，F(x(l))表示窗口序列x(l)在人工DNA序列中的单条序列重复度，T(x(l))表示窗口序列x(l)在人工DNA序列中出现的次数，W(l)表示人工DNA序列中序列长度为l的窗口序列总数，且W(l)＝L-1+l；

其中，S(x(l))表示窗口序列x(l)在序列集{L_i},i＝1,2,…,n的置信度，C(x(l))表示窗口序列x(l)在序列集{L_i}的所有序列中出现的总序列数，n表示序列集{L_i}中包括的人工DNA序列的数量；

其中，F(x(l))表示窗口序列x(l)在序列集{L_i}的序列集重复度；

为序列集{L_i}中序列长度为l的所有窗口序列的总数。

步骤2.2，从所有窗口序列中，选择满足预设要求的窗口序列作为特征序列，具体过程为：

步骤C1，对每个得到的窗口序列的x(l)，均判断其单条序列重复度F(x(l))、置信度S(x(l))、序列集重复度F(x(l))，分别是否在预设的单条序列重复度阈值范围、置信度阈值范围和序列集重复度阈值范围内，若均在相应的阈值范围内，则将该窗口序列x(l)作为当前序列集的候选序列y(l)；在本实施例中，单条序列重复度阈值范围设置为[0,100]，置信度阈值范围设置为[0,40]，序列集重复度阈值范围设置为[0,20]。

式中，F^A(y(l))、

步骤C3，对候选序列y(l)，判断其在序列集{L_i}的平均相对差

是否在预设的平均相对差阈值范围内，，则将该候选序列y(l)作为当前序列集{L_i}的特征序列。在本实施例中，平均相对差阈值范围设置为[-1,1]。

按上述公式(4)所示的候选序列在A、B两个DNA序列集之间的相对差α(y(l))可以看出，当候选序列y(l)在故障类型为A的DNA序列集和故障类型为B的DNA序列集的重复度差别很大时，相对差α(y(l))的绝对值也会较大，而这个候选序列y(l)可能成为特征序列。因此相对差α(y(l))在某种程度上体现了候选序列y(l)在两个需要区分的DNA序列集中出现频率的差别，便将其作为判别候选序列是否为特征序列的一个指标。此外，置信度能够保证候选序列在DNA序列集中的多条人工DNA序列中出现，而不是少数几条人工DNA序列里反复出现，所以，置信度也可以作为判别候选序列是否为特征序列的一个指标。

步骤3，每条人工DNA序列均生成基因特征向量；

计算当前人工DNA序列中A、T、C、G四个碱基的含量、当前人工DNA序列的长度以及所有特征序列分别在当前人工DNA序列中的数量，并组成当前人工DNA序列的基因特征向量；其中第i条人工DNA序列中A、T、C、G四个碱基的含量的计算方法为：

在本实施例中，记x_i＝(x_1i,x_2i,...,x_25i)为第i条DNA序列的25维基因特征向量，前4个属性即为A、T、C、G四个碱基的含量，第5个属性为第i条DNA序列的长度，后面20个属性分别对应为20个特征序列在第i条DNA序列中的数量。

由此得到的第i条DNA序列的基因特征向量中，可能存在奇异样本数据，即相对其他数据相差很多的数据，而奇异样本数据的存在可能会引起算法训练时间的增加，为了方便处理和得到较好的分类效果，本发明对上述得到的基因特征向量先进行归一化，将数据限制在需要的范围之内，实际中一般归一到[0,1]或者[-1,1]区间，后续再对归一化预处理得到的基因特征向量进行处理。

步骤4，构建训练样本集；

步骤5.1，确定正负训练样本；

步骤5.2，训练弱分类器；

其中，对M个SVM模型进行第t次迭代训练的具体过程为：

步骤d1，归一化各训练样本的样本权重

并在当前样本权重下训练第m个弱分类器

其中归一化公式为：

步骤d2，计算第m个弱分类器

的分类错误率

式中，

x_j表示多个样本x_i的集合，y_j表示弱分类器的值；

如果

或者

则停止训练过程；

步骤d3，计算弱分类器

的权值

式中，

步骤d4，更新各训练样本的样本权重：

式中，

为概率分布的归一化因子，其作用是确保

是一个分布，即使所有训练样本的权重分布在[-1,1]的范围内；

步骤d5，返回步骤d1，训练下一个弱分类器

设为：

在本发明中，线性规划增强算法，即LPBoost(Linear Programming Boosting的简称)算法，是一种监督多分类器集成算法，它使不同类训练样本之间的软间隔最大化。针对同一个训练集训练不同的分类器(弱分类器)，并优化各个弱分类器的占比权值(即a_t)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)，即LPBoost二分类器，其能得到比单个弱分类器性能更优越的分类结果。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的分类错误率，来更新每个训练样本的权值。将修改过权值的新训练样本集对各分类器进行下一轮次的迭代训练，迭代训练结束后，将最终得到的分类器最后融合起来，作为负责相应故障类型检测的LPBoost二分类器。使用LPBoost分类器可以排除一些不必要的训练数据特征，并放在关键的训练数据上面，提高对故障类型检测的准确性。

步骤6，对列车转向架进行故障类型检测；

其中，投票表决方法具体为：判断每个LPBoost二分类器的输出值是否均为0，若是，则将待检测列车转向架的故障类型作为未知的新故障类型；否则将每个输出值为1的LPBoost二分类器所对应的故障类型，均作为待检测列车转向架的故障类型

本发明通过对列车转向架的振动信号先进行预处理，再将得到的预处理信号作为人工DNA序列，由于每种故障类型具有特定的特征序列，从而可通过大量的历史振动信号，并分别转化为人工DNA序列，从而可充分利用海量的生物分子信息，进而揭示这些数据的内涵，得到对列车转向架故障分析有用的特征序列，这样就可以建立一个包含多种机械故障设备DNA序列的数据库。人工DNA序列又是数字式的，不受人主观判断影响，没有地域性限制。一旦建立了这样的数据库，借助互联网，就可以为机械故障监测信息的积累和获取提供一个易于使用的平台，即本发明所述方法的识别系统，可加快信息交流速度，提高故障分类工作的效率，可以准确高效地实现对各种故障类型的识别，降低人员门槛，减少转向架设备的维修和改进的盲目性，对保障列车安全稳定运行有着重要的意义。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。