CN112884179A

CN112884179A - 基于机器故障和文本主题分析的城轨折返故障诊断方法

Info

Publication number: CN112884179A
Application number: CN202110340750.3A
Authority: CN
Inventors: 马思琦; 王鑫; 王笑辰; 刘涵宇; 赵步天; 张润彤
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-01
Anticipated expiration: 2041-03-30
Also published as: CN112884179B

Abstract

本发明提供了一种基于机器故障和文本主题分析的城轨折返故障诊断方法，步骤1，获取各个城轨的通信码和工程师的维修报告并构建数据库；步骤2，对数据库中各个城轨的通信码通过基于Spark的频繁项集生成算法挖掘频繁出现在各个城轨通信码中的特征组合并分析，得到故障发生的规则。本发明采用频繁项集生成算法挖掘数据集中频繁出现特征组合，对挖掘出的频繁特征进行分析得到故障发生的规则，并在挖掘出的频繁项集的基础上进行特征交叉，训练分类算法，以分别在无人自动折返，自动换端和点式换端中发生故障时进行自动分类，通过故障规则和算法结合，更好的了解列车发生折返故障时内、外部的特征，从而加快对故障的处理。

Description

基于机器故障和文本主题分析的城轨折返故障诊断方法

技术领域

本发明涉及列车故障诊断技术领域，特别涉及一种基于机器故障和文本主题分析的城轨折返故障诊断方法。

背景技术

城市轨道交通是一种采用轨道结构承载和引导的车辆运输系统，根据城市交通总体规划的要求，建立了一条全封闭或部分封闭的专用铁路线，这是一种公共交通方式，以列车的形式运输大量的客流，系统的任何故障都可能导致巨大的人员伤亡和财产安全损失。因此，故障诊断对确保人民群众生命安全和社会稳定具有重要意义。

随着城市轨道交通的发展，积累了大量与折返故障相关的数据，有助于算法和人员实时分析数据，城市轨道故障涉及交通风险，因此除了需要通过机器自动诊断外，还需要人工监督，对于折返故障，机器适合学习火车内部通信代码的复杂而详细的规则，而工程师则需要了解简单的外部功能以进行快速判断。

发明内容

本发明提供了一种基于机器故障和文本主题分析的城轨折返故障诊断方法，其目的是为了传统的故障诊断方法的对数据不平衡的分类效果较差，故障诊断准确率不高的问题。

为了达到上述目的，本发明的实施例提供了一种基于机器故障和文本主题分析的城轨折返故障诊断方法，包括：

步骤1，获取各个城轨的通信码和工程师的维修报告并构建数据库；

步骤2，对数据库中各个城轨的通信码通过基于Spark的频繁项集生成算法挖掘频繁出现在各个城轨通信码中的特征组合并分析，得到故障发生的规则，通过笛卡尔积算法将各个城轨通信码中单独的离散特征进行特征交叉，通过所有通信码的特征训练梯度提升决策树算法，以分别在城轨无人自动折返、自动换端和点式换端中发生故障时进行自动分类，并分别计算各个类别预测的F1-Score并分析，得到机器诊断结果；

步骤3，对数据库中各个城轨的维修报告中的数据进行中文文本清洗；

步骤4，对文本清洗后的各个城轨的维修报告进行主题分析，并计算维修报告文本的主题概率分布，得到人工检测的判断规则；

步骤5，根据机器诊断结果和人工检测的判断规则进行城轨折返故障诊断。

其中，所述步骤2具体包括：

通过基于Spark的频繁项集生成算法对所有城轨通信码中的特征进行扫描和计数，将一个特征作为一个项集，生成一阶候选项集，预设最小频繁项集生成支持度，将一阶候选项集中的每个项集的计数值与预设的最小频繁项集生成支持度进行比较，当当前项集的计数值大于或等于预设的最小频繁项集生成支持度时，将当前项集和当前项集的计数值保存，继续将下一个项集的计数值与预设的最小频繁项集生成支持度进行判断；当当前判断的项集的计数值小于预设的最小频繁项集生成支持度时，将当前项集和当前项集的计数值删除，继续将下一个项集的计数值与预设的最小频繁项集生成支持度进行判断，直到判断完一阶候选项集中的所有项集，基于所有保存的项集和项集相对应的计数值，生成频繁项集；将当前频繁项集中的两个相关特征组合为一个项集并计数，生成二阶候选项集，将二阶候选项集中的每个项集的计数值与预设的最小频繁项集生成支持度进行比较，得到比较后保存的项集和项集的计数值，基于保存的项集和项集的计数值生成新的频繁项集；将新的频繁项集中的三个相关特征组合为一个项集并计数，生成三阶候选项集，将以上过程进行循环迭代，直到没有频繁项集生成时，结束算法，获得所有的频繁项集，对频繁项集进行分析得到故障发生的规则。

其中，所述步骤2还包括：

计算包括特征X和特征Y的频繁项集生成支持度，如下所示：

其中，X表示特征，Y表示特征，T表示所有城轨通信码的数量，σ表示特征出现的次数。

其中，所述步骤2还包括：

通过笛卡尔积算法将各个城轨通信码中单独的离散特征进行组合，如下所示：

P×Q＝{(x,y)|x∈P∧y∈Q} (2)

其中，P和Q表示特征，x表示从属于特征P的类别，y表示从属于特征Q的类别。

其中，所述步骤2还包括：

采用梯度提升决策树算法对所有通信码的特征进行分类，如下所示：

其中，F_m(a)表示特征回归问题提升树，a表示特征，T(a；β_m)表示特征决策树，β_m表示特征类别，m表示特征类别的编号，M表示所有特征决策树的总个数，其损失为：

L[b,F_m-1(a)+T(a；β_m)]＝[b-F_m-1(a)-T(a；β_m)]² (4)

其中，将所有通信码的特征作为训练集I，I＝{(a₁,b₁),(a₂,b₂),...,(a_n,b_n)}，b表示特征，F_m-1(a)表示当前特征回归问题提升树。

其中，所述步骤2还包括：

通过以下公式分别计算各个类别的F1-Score，F1-Score的计算公式如下所示：

将获得的各个类别的F1-Score分别求平均值macro F1-Score，通过macro F1-Score平均值分别对各个类别预测的F1-Score进行分析，得到机器诊断结果。

其中，所述步骤3具体包括：

将各个维修报告中的大写字母转化为小写字母，利用Jieba对中文文本数据进行分割，将各个维修报告中包含的中文标点符号和数字用正则表达式匹配对中文标点符号和数字进行定位和统计后将中文标点符号和数字删除，通过结合多种停用词表将各个维修报告中所有与故障场景无关的词删除，得到文本清洗后的各个维修报告。

其中，所述步骤4具体包括：

采用LDA文档主题生成模型对文本清洗后的各个维修报告进行主题分析，将文档的集合定义为C，将文档的集合C中的每个文档c作为单词序列＜c₁,c₂,...,c_n＞，将文档中主题集合定义为D，确定生成的文档词的个数n～Possion(α)，确定文档c的主题分布θ～Dirichlet(β)，文档c的概率分布函数，如下所示：

其中，θ表示一篇文章的主题分布，β表示Dirichlet的参数，q表示各个维修报告中全部文档要训练出的主题序号，p表示Dirichlet分布标号顺序，β_p表示第p个参数为β的Dirichlet分布；

在生成文档中的字段c_i时，为字段c_i选择一个主题D_i～Multinomial(θ)，多项分布为二维分布扩展的离散分布与Dirichlet组成共轭分布，如下所示：

其中，n表示一篇文档中词的个数，q表示各个维修报告中全部文档所要训练出的主题序号，Q表示表示语料库中全部文档所要训练出的主题总数；

以P(c_n|D_n,μ)的概率生成字段，其中，μ表示每一行代表该主题的词分布的矩阵。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，采用频繁项集生成算法挖掘数据集中频繁出现特征组合，对挖掘出的频繁特征进行分析得到故障发生的规则，并在挖掘出的频繁项集的基础上进行特征交叉，训练分类算法，以分别在无人自动折返，自动换端和点式换端中发生故障时进行自动分类，通过故障规则和算法结合，相较于仅使用规则的研究更准确，并且提升了有监督算法的可解释性，可以更好的了解列车发生折返故障时内、外部的特征，从而加快对故障的处理，保障了人民生命财产安全，分析维修报告的主题概率分布及折返故障特征，可以帮助机器、专家和测试人员合作分析城市轨道交通折返的故障。

附图说明

图1为本发明的流程图；

图2为本发明的框架结构示意图；

图3为本发明的故障规则韦恩图；

图4为本发明的每类功能的重要性得分示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的故障诊断方法的对数据不平衡的分类效果较差，故障诊断准确率不高的问题，提供了一种基于机器故障和文本主题分析的城轨折返故障诊断方法。

如图1至图4所示，本发明的实施例提供了一种基于机器故障和文本主题分析的城轨折返故障诊断方法，包括：步骤1，获取各个城轨的通信码和工程师的维修报告并构建数据库；

其中，所述步骤2具体包括：

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，频繁项集生成算法被用作挖掘数据集中频繁出现字段组合。在本研究中结合城市轨道交通领域的先验知识，对挖掘出的频繁字段进行分析可以得到故障发生的规则，假设A＝(a₁；a₂；...；a_m)是一个项目的集合。

其中，所述步骤2还包括：计算包括特征X和特征Y的频繁项集生成支持度，如下所示：

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，通过简单地二元交叉，实现了离散型特征之间的交互，可以反映出城轨列车中两个通信模块之间信息的交互，从而在频繁项集挖掘出的规则的基础上建立更细致的规则。

其中，所述步骤2还包括：通过笛卡尔积算法将各个城轨通信码中单独的离散特征进行组合，如下所示：

P×Q＝{(x,y)|x∈P∧y∈Q} (2)

其中，所述步骤2还包括：采用梯度提升决策树算法对所有通信码的特征进行分类，如下所示：

L[b,F_m-1(a)+T(a；β_m)]＝[b-F_m-1(a)-T(a；β_m)]² (4)

其中，所述步骤2还包括：通过以下公式分别计算各个类别的F1-Score，F1-Score的计算公式如下所示：

其中，所述步骤3具体包括：将各个维修报告中的大写字母转化为小写字母，利用Jieba对中文文本数据进行分割，将各个维修报告中包含的中文标点符号和数字用正则表达式匹配对中文标点符号和数字进行定位和统计后将中文标点符号和数字删除，通过结合多种停用词表将各个维修报告中所有与故障场景无关的词删除，得到文本清洗后的各个维修报告。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，维修报告内容包括故障发生的时间、发现故障的人员、故障发生的地点、当时的场景描述、专业的维修人员在现场对于该故障的初步分析、与故障相关的子系统和专业维修人员详细的分析，以上数据是安全员快速做出的宏观判断，可以帮助从外部大致判断列车发生的故障类别。

其中，所述步骤4具体包括：采用LDA文档主题生成模型对文本清洗后的各个维修报告进行主题分析，将文档的集合定义为C，将文档的集合C中的每个文档c作为单词序列＜c₁,c₂,...,c_n＞，将文档中主题集合定义为D，确定生成的文档词的个数n～Possion(α)，确定文档c的主题分布θ～Dirichlet(β)，文档c的概率分布函数，如下所示：

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，LDA是一个文档主题生成的模型，通过词袋“bag-of-words”的假设，即在同一语料库内，文档的顺序可以相互调换，在同一个文档内，词的顺序可以相互调换，简化了问题。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，图2中的框架中结合了智能算法和人工监督两个角度：(1)对列车内部大量的通信码数据应用分类算法进行细致微观的分析，训练出具有高准确度和高响应能力的预测算法。(2)对工程师的诊断报告文本数据应用主题建模进行宏观的分析，得到可用于人工检测的判断规则。该框架有四个主要的模块。第一，对于城市轨道列车工作日志中返回的不同通信码进行预处理，然后使用规则挖掘和特征交叉进行特征工程。第二，使用分类算法进行表现评估及不同特征的重要性分析。第三，对于工作日报中的原始数据通过删除标点符号及数字、变换大小写、分词和删除停用词等方法进行中文文本清洗。第四，计算报告文本的主题概率分布。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，从图3中可以得知两个主要结论：第一，自动换端故障(AEC)和无人自动折返故障(ATB)内部的规则较为相似，现实场景中，由于列车无人自动折返故障的数据和相关规则较多，更容易被算法识别和区分。第二，点式换端故障(PEC)和安全(Safe)情况下的通信码规则较为相似，但安全的数据远大于其他三类折返故障的数据，导致安全的数据较易被区分，点式换端的数据则不容易得到区分。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，特征交叉前采用不同分类算法的四种诊断类型的F1-Score对比，如下所示：

表1特征交叉前不同算法下的四种诊断类型的F1-Score

如表1所示，采用了随机森林(RF)、分类回归树(CART)、梯度提升决策树(GBDT)、AdaBoost、支持向量机线性核SVM(Linear)、支持向量机放射核SVM(Radial)、逻辑回归(LR)和朴素贝叶斯(NB)分类算法、计算不同分类算法对每一种类别(安全和三类折返故障)预测的F1-Score和均值(即Macro F1 Score)。均值会导致展示的分数被拉低，但是在该业务场景中，算法的表现其实已经较好。使用分数较低的F1-Score，是为更明显地展现故障类别不平衡和规则重合导致的业务难点，在八种分类算法中，基于树的模型和基于放射核的SVM的的算法表现较好。在业务场景中，基于树的模型运算快，成本低且可解释性好，比较适用。安全(Safe)类的预测表现远优于其它类别，这是因为实验设计中保持数据集的类别比例分布与真实场景一致，而现实中故障的发生频率是比较少的，算法受到分布不均衡的影响，对故障的识别是很困难的。还可以发现无人自动折返故障(ATB)类的预测表现明显优于其它两类故障，这符合图3中故障规则韦恩图的分析。单个通信码特征组成的各类故障规则存在很多重合，需要构建更多的二元特征来更细致地反映发生故障时列车模块之间的信号交互，从而更好地区分三种故障类别。

分类回归树(CART)可以被应用于解决分类和回归的问题。在构建二叉决策树的过程中生成了尽量较大的决策树，在遍历的过程中每个节点都选择最好的属性来分裂从而减少其杂质。父节点的样本集合为A，CART选择特征B进行分裂对应集合为D1,D2.

最后选择最小损失函数对其进行剪枝，防止其过拟合，子树X损失函数为：

F_α(X)＝F(X)+α|X| (9)

随机森林(RF)是由多个决策树组成的分类器。更准确地说，随机森林是由多个弱分类器组成的强分类器，并且其输出的类别是由个别树输出的类别的众数而定，它的优点在于它可以处理大量的输入变数，它可以平衡误差，同时在内部对于一般化后的误差产生无偏估计

AdaBoost训练不同的弱分类器，通过阈值确定最佳的弱分类器。最终将每次迭代出来的弱分类器构建为强分类器。在该算法中，对多个分类器的训练使它拥有灵活、精确度高等优点，同时也会导致算法运行的时间较长、对异常样本敏感的缺点。以二元分类为例，计算中第k个弱分类器Fi(x)加权误差率为：

权重系数为：

第k+1个弱分类器权重系数为：

最终分类器为：

支持向量机(SVM)是寻找最佳分类超平面的算法。它的基本思想是根据结构风险最小化的原则构造一个目标函数，以尽可能地将两种模式分开。它的多目标函数也被视为核方法。在本研究中使用了线性核：

kernel(χ,ε)＝χ^Tε+c (15)

和放射核：

kernel(χ,ε)＝exp(-β||χ-ε||²) (16)

对于软边距SVM的优化问题表示如下：

s.t.n_i(α^Tn_i+j)≥1-Fi,Fi≥0 (18)

逻辑回归(LR)的原理与SVM十分相似。区别在于SVM不需要任何关于数据分布的假设。逻辑回归是一个参数模型，它假设数据服从一定的分布，如下所示：

其中，α是参数，设f(x)是当x为一定值时y＝1的概率。损失函数为：

朴素贝叶斯(NB)是贝叶斯概率论公式和特征条件的实际应用。NB具有简单和高效的特点,对于不同的数据集也不会有较大的分类性能差异。但是与此同时，它有一个非常严格的要求，它要求预测功能彼此独立，这在真实世界中难以满足。使样本数据集P＝{p₁,p₂,…,p_n}，特征属性集为Q＝{q₁,q₂,…,q_m}，类变量为R＝{r₁,r₂,…,r_a}。贝叶斯计算为：

表2特征交叉后不同算法下的四种诊断类型的F1-Score

如表2所示，当进行特征交叉后，各项类别的F1-Score均有所提升。在城轨系统中，列车的模块信号发生相互交互，与折返有较强的关联。因此，使用特征交叉具有实际意义，产生的结果也有较好的可解释性。可以看出在八种分类算法中，本发明采用的梯度提升决策树算法(GBDT)更好地学习到了通信码的交互信息，有较好的预测表现，F1-Score是召回率和准确率的调和平均数，常常被用于信息检索和计算机视觉领域，使用了均值macro F1-Score(Average)，即在本四分类问题中，把其他三类故障并为一类，再对这两类问题进行二分类。最终，对结果获得的4个F1-Score取平均值便获得macro F1-Score。它帮助我们分析每一类具体折返中的F1-Score，使用F1-Score可以分析当类别不平衡时对每一类的预测情况。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，通过图4可视化特征对每个类别预测的正向或负向的贡献程度，可以明显看到交叉的特征有比较高的重要性。Foldbackindicator，workmode，trainspeed特征有比较好的表现。结合图3的故障规则韦恩图，可以发现这三个特征与其它特征的交叉提供了更多的无人自动折返(ATB)和自动换端(AEC)故障类别的信号交互信息，有助于分类算法更好地区分这两个非常相似的类别，从而提升故障准确度。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，通过对维修报告的LDA分析，可以让检修员做出粗略的判断，从而更好地监督机器的工作保障交通安全。针对城轨自动换端，城轨无人自动折返和城轨点式换端三种折返类型，LDA分析得到三张表，根据以往的维修报告提取了十个主题和相应的十个高频关键词，结合城轨领域的先验知识，用于分析列车故障的规则。

表3自动换端(AEC)主题分析

表3展示了自动换端(AEC)这种折返类型发生故障时的特点，从topic 0中得知，列车的监督装置(ATS：自动列车监督系统)在进路过程中，开口方向提示接受的命令中断或消失。从topic 1中可以看到，列车需满足安全包络完全进入满足自动换端业务的站台或换端轨内才满足自动换端的条件。且结合topic 0和topic 4中可以得知，当AEC列车处在进路段时，首端(头端)容易发生故障，这就可以当作AEC故障的特点等等。

表4无人自动折返(ATB)主题分析

表6展示了无人自动折返(ATB)的特点，根据topic 0，ATB列车的监督装置(ATS：自动列车监督系统)在后下(下行)时，轨停的流程较为成功，这可能说明轨停失败不能作为判断是否为ATB故障的特点之一，topic 1表示无人自动折返过程中，原首端车载ATP与CI的通信流程与正常通信流程一致。原尾端车载ATP应在确定首端车载ATP与CI注销成功，或判断首端车载ATP已与CI通信断开后，方可向CI发送控制信息，此前应发送心跳信息。同时topic2与topic 1一致包含心跳信息。再看topic 8，列车在进站过程中灯常亮，头端和尾端的计轴逻辑失败。这说明计轴失败可能是ATB故障的一个特点。

表5点式换端(PEC)主题分析

表5展示了点式换端(PEC)的特点，表中多次出现的ATO(列车自动运行系统)表示了这是列车常出现PEC故障的系统。topic 1表示司机按下下行按钮，列车插入两个下行轨内，分析转入区间分析。topic 2表示车载ATP判断可进行自动换端后，应点亮AR灯。AR灯点亮后，司机按压“折返”按钮，首端AR灯闪烁，MMI显示进入点式换端图标。首端ATP开始向尾端ATP发送“处于折返状态”信息，并往尾端发送列车位置、当前模式等折返相关信息，同时输出驻车制动。topic 4表示位于国展站的列车应答器故障，丢失了部分日志，这说明当看到某列车应答器故障时，测试人员可以优先认为此故障属于PEC类型。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，通过故障规则生成和梯度提升决策树算法对各个列车进行机器诊断，再通过维修报告的主题分析，对各个列车进行人工检修，提高了列车故障判断的准确性，通过梯度提升决策树算法提高了数据不平衡的分类效果较差。

本发明的上述实施例所述的基于机器故障和文本主题分析的城轨折返故障诊断方法，分析了三种折返故障的类型及特征，从而为交通安全和城市轨道交通做出了贡献，通过基于机器故障和文本主题分析的城轨折返故障诊断方法城市轨道交通的管理者可以更好地了解列车发生折返故障时内、外部的特征，从而加快对故障的处理，保障人民生命财产安全。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。