CN113609302B

CN113609302B - 基于非结构化数据的铁路事故根因识别系统及识别方法

Info

Publication number: CN113609302B
Application number: CN202110787702.9A
Authority: CN
Inventors: 李克平; 杨柳; 刘岩岩
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-06-21
Filing date: 2021-07-13
Publication date: 2024-03-22
Anticipated expiration: 2041-07-13
Also published as: CN113609302A

Abstract

本发明属于铁路智能安全技术领域，涉及一种基于非结构化数据的铁路事故根因识别系统及识别方法，系统包括：状态监测子系统、数据存储模块、数据处理计算模块、决策支持模块和人机交互模块；方法包括：建立第一部分词典Dic₁；建立句网络；建立词网；计算节点的综合特征值，形成第二部分词典Dic₂；将列车的基本信息收集为停用词表ST₁；使用Apriori算法建立停用词列表ST₂；得到词典ND＝Dic₁+Dic₂‑ST；使用词典ND匹配根因名词；得到铁路事故根因文本。本申请的优点是：采用网络方法，所有不必要的细节都将删除，数据可视化效果好；识别系统不需特定语言知识，且具有移植性；易于实现，费用低，应用范围广。

Description

基于非结构化数据的铁路事故根因识别系统及识别方法

技术领域

本发明属于铁路智能安全技术领域，涉及一种在铁路系统监测和维护过程中,基于非结构化数据的事故根因识别方法，尤其涉及一种基于非结构化数据的铁路事故根因识别系统及识别方法。

背景技术

安全永远是铁路系统运行的重要主题；在铁路系统的运行管理中，为保证运行安全，工作人员需要对历史的事故进行调查分析，为将来的铁路系统科学合理的日常监测、定期检测和维护提供依据；因此，积累了大量的非结构化文本数据。由于非结构化文本数据相对结构化数据的信息更加抽象，不能直接被计算机处理，因而开发难度大。通常，对于处理非结构化文本数据往往采取省略、替换或删除的策略，不仅需要大量人工投入，还需要消耗大量的资金和时间，而且效率不高。为实现从非结构化文本数据中提取重要信息，满足铁路信息化和智能化的发展需求，迫切需要从非结构化文本数据中快速和准确地识别出事故根因文本，以节约时间成本和经济成本，提高职能部门的风险管理水平。

发明内容

本发明提供一种铁路事故根因识别系统，它是建立在网络化模型的基础上，根据铁路事故记录中非结构化文本数据特点，考虑句子对词语影响，构建一种双层网络化模型。该模型中的词网以词语为节点，句网以句子为节点，进一步，基于复杂网络理论计算网络中各个节点的综合特征值(重要性)，最终选取综合特征值较高的词作为该文本数据集的关键词,并识别为事故根因。为进一步从非结构化文本数据记录中快速和准确地识别出事故的根因文本，以便更好地进行风险管理，则需先在非结构化文本数据预处理的过程中，生成与根因文本有关的用户词典和停用词表来实现根因文本的识别。

本发明的技术方案如下：

一种基于非结构化数据的铁路事故根因识别系统(又称为：事故数据根因识别系统或铁路事故根因识别系统)，包括：状态监测子系统、数据存储模块、数据处理计算模块、决策支持模块和人机交互模块；

所述状态监测子系统与数据存储模块连接，所述数据存储模块与数据处理计算模块连接，所述数据处理计算模块与决策支持模块连接，所述决策支持模块与人机交互模块连接；

所述状态监测子系统用于：记录铁路事故过程中各种传感器的数据，形成原始铁路文本数据，并通过网络传输发送到数据存储模块；

所述传感器的数据包括：铁路事故发生的时间、地点、起因、过程、结果及事故所造成的损失等等，涉及到铁路事故过程中的人员、设备、环境和管理各个方面。

所述传感器因铁路事故的类型不同，而涉及到的传感器不同；同一类型的铁路事故，因涉及到的部件或子系统不同，传感器的类型也有所不同。例如：对于列车脱轨事故，可能涉及到铁路轨坡度检测仪、铁轨磨耗检测仪、红外轴温探测器、铁路视频监测设备、供电安全检测监测设备、热导检测器和脱轨设备检测器等。

所述数据存储模块用于：存储原始铁路文本数据；

所述数据处理计算模块用于：实现对原始铁路文本数据的预处理及根因辨识；

所述对原始铁路文本数据的预处理是指：对原始铁路文本数据进行去噪、异常值剔除及格式转换等；

所述格式转换是指：对格式不统一的文本进行统一的格式变化，例如：将字母均变为大写，符号采用同一种表达方式等。

所述决策支持模块用于：基于数据处理计算模块的根因辨识结果决定铁路系统日常监测和维护的对象，以及相应的处理方式等；

所述人机交互模块用于：通过人机交互方式，完成所述铁路事故根因识别系统和使用者之间的信息的接收、显示和发送。

在上述技术方案的基础上，所述传感器的数据包括：线路、车辆和环境等状态信息。

在上述技术方案的基础上，所述数据存储模块为：存储器。

在上述技术方案的基础上，所述数据处理计算模块由高性能数据处理器组成。

一种应用上述基于非结构化数据的铁路事故根因识别系统的铁路事故根因识别方法，包括以下步骤：

步骤1：根据《铁路专业词汇》(又称为：铁路列车规划词典或铁路列车词典中)中的词语，获取铁路事故致因文本，形成铁路事故致因文本集合DC；

根据现有文献，获取铁路事故致因文本，形成铁路事故致因文本集合LW；

所述现有文献包括：[1]马欣.基于复杂网络的铁路事故致因研究[D].北京交通大学,2015；[2]辛汇文.铁路事故致因建模分析研究[D].北京交通大学,2016和[3]http://weibo.com/bjsubway等。

将DC与LW合并，建立第一部分词典(即已有词典)Dic₁＝{DC，LW}；

步骤2：对预处理后的原始铁路文本数据进行句子分割，建立以句子为节点的句网络；

步骤3：将预处理后的原始铁路文本数据作为事故根因记录进行处理，获得事故根因文本FCR＝{cw₁,cw₂,cw₃...cw_n}，建立以词(又称为：分词)为节点的词网；

其中，cw_i为：对事故根因记录分词后的第i个词，1≤i≤n，n为词总数；

以词为节点的词网和以句子为节点的句网络构成文本双层网络；

词网和句网络通过词网与句网络之间的文本关系进行联系；

文本关系：是指在使用复杂网络研究单词网络时采用的一个网络构建规则，句子中的词与其它句子之间可用线相连，表示存在一条边关系。

在所述句网络中，当两两句子存在共同词，则存在一条边；

步骤4：基于复杂网络理论，采用新词网关键词提取方法(NWS，New Word Sentencekeyword extraction method)计算文本双层网络中各个节点的综合特征值，将综合特征值排序最高的前N个词形成关键词，作为铁路事故致因文本，形成第二部分词典(即用户词典)Dic₂，N通常设定为5；

步骤5：将列车的基本信息收集为停用词表ST₁；

例如：停用词表ST₁＝{T，Loc，Date，SN}；其中，T表示事故发生时间，Loc表示发生事故列车车次，Date表示事故发生日期，SN表示事故列车发生故障的主要部件；

收集为停用词表ST₁时，需进行特征分析；考虑分词特征、文本的语义特征、文本的词长和文本的关键词特性；

步骤6：使用Apriori算法获得出现频率高且无意义的停用词，以建立必要的停用词列表ST₂；

步骤7：合并词典Dic₁和词典Dic₂，得到一个新词典D；

合并停用词表ST₁和停用词表ST₂，得到一个新停用词表ST＝{ST₁,ST₂}；

然后用停用词表ST＝{ST₁,ST₂}过滤上述新词典的D，得到词典ND＝Dic₁+Dic₂-ST，即获得提取目标；

步骤8：使用词典ND匹配根因名词；

如果《铁路专业词汇》中的词语，也存在于词典ND中，则此词语成为根因名词cw；

步骤9：通过文本依存关系寻找根因名词cw是否存在相关的根因动词；如果存在根因动词cv，则得到铁路事故根因文本为cf(cw，cv)；如果根因名词cw不存在相关的根因动词，则将根因名词与设定的默认词default结合，得到铁路事故根因文本为cf(cw，default)，即得到文本最终目标。

在词与词之间存在主从关系，在句子中，如果一个词修饰另一个词，则修饰词为从属词，被修饰的词语称为支配词，二者之间的语法关系称为文本依存关系。

在上述技术方案的基础上，步骤4所述计算文本双层网络中各个节点的综合特征值的具体步骤如下：

步骤4.1：计算词网节点的特征值和句网节点的特征值；

所述词网节点的特征值是指：节点介数和紧密中心度的线性组合，按照式(1)计算，

WE_i＝α·bc_i+β·cc_i (1)

其中，bc_i为：第i个词的节点介数，cc_i为：第i个词的紧密中心度(又称为：接近中心度)，α和β均为系数，且α+β＝1；WE_i为：第i个词节点的特征值；

句网节点的特征值按照式(2)计算，

SWE_j＝w_j (2)

其中，w_j表示：对第j个句网节点中包含的词网节点的特征值先累加，然后计算平均值；

步骤4.1：计算综合特征值；

所述综合特征值是指：将词网节点的特征值和句网节点的特征值建立线性关系，如式(3)所示，

E_i＝λWE_i+γSWE_j (3)

其中，E_i为：第i个词的综合特征值，λ和γ均为系数，且λ+γ＝1。

在上述技术方案的基础上，所述Apriori算法的关联规则中的两个条件为：X,Y∈I和

X,Y∈I表示：X和Y均存在于项集I；表示：X与Y的交集为空，即X与Y没有交集；

所述Apriori算法支持确定项目集在数据集中出现的频率，如式(4)所示，而置信度确定项目被发现为真实的频率，如式(5)所示；

其中，σ为：求和符号，N为：出现总数；式(4)表示：Support支持确定项目集在数据集中出现的频率，Confidence指的是条件X和条件Y同时发生的概率。

本发明具有以下有益技术效果：

本发明基于一种非结构化文本关键词提取方法，其优点是：(1)采用网络方法，所有不必要的细节都将删除，数据可视化效果好；(2)该识别系统不需要特定的语言知识，并且具有可移植性；(3)易于实现，费用低，应用范围广。

附图说明

本发明有如下附图：

图1为本申请所述基于非结构化数据的铁路事故根因识别方法的流程示意图；

图2为本申请所述基于非结构化数据的铁路事故根因识别系统示意结构框图；

图3为不同关键字提取方法的实验对比示意图；

图4为比较RCI-NWS和基准实验方法的实验结果示意图；

图5为比较RCI-MF和基准实验方法的实验结果示意图；

图6为比较RCI-NWS和RCI-MF方法的实验结果示意图。

具体实施方式

下面结合附图和实施方式对本发明的技术方案做详细的描述。

如图1-6所示，在本发明中，铁路事故根因识别系统包括：4个层次，如图2所示。状态监测层(即状态监测子系统)是指：利用安装在线路、车辆和环境等位置的各种传感器，记录线路、车辆和环境等的状态信息，并通过存储器存储，建立数据库。数据处理及数据计算层(即数据处理计算模块)由高性能数据处理器完成，它是计算机系统和服务器中的计算部件，主要是通过所构建的模型和算法实现对存储数据的预处理及根因辨识。决策支持层(即决策支持模块)基于数据处理及数据计算层的输出结果，制定铁路系统日常监测和维护等管理措施。人机交换层(即人机交互模块)作为铁路事故根因识别系统和使用者之间的接口，进行信息的接收、显示和发送。

所提出的事故根因识别方法是本发明的核心部分，它通过构建一种文本双层网络模型，实现对词网中的节点进行综合特征值共享。具体来说，在以词为节点的词网中增加句网络，定义每一个句子作为句网络中的节点，当两两句子存在共同词则存在一条边。因此，在提出的双层网络方法中，词语最终将获得两种不同的特征值，它们分别来自词网络的节点特征值和句网络的节点特征值。为能够准确地从铁路文本数据中识别铁路事故的根因文本,用关键词提取得到的关键文本对根因词进行筛选，以提高停用词表和用户词典的有效性，还需要对原始文本进行基本特征的分析，包括：对文献根因文本的特征分析，原始文本的词长、词性以及根因词所在的位置。

具体包括以下步骤：

包括以下步骤：

词网和句网络通过词网与句网络之间的文本关系进行联系；

在所述句网络中，当两两句子存在共同词，则存在一条边；

步骤4：基于复杂网络理论，采用新词网关键词提取方法(NWS，New Word Sentencekeyword extraction method)计算文本双层网络中各个节点的综合特征值，将综合特征值排序最高的前N个词形成关键词，作为铁路事故致因文本，形成第二部分词典(即用户词典)Dic₂，N通常设定为5，

步骤5：将列车的基本信息收集为停用词表ST₁；

步骤7：合并词典Dic₁和词典Dic₂，得到一个新词典D；

步骤8：使用词典ND匹配根因名词；

步骤4.1：计算词网节点的特征值和句网节点的特征值；

WE_i＝α·bc_i+β·cc_i (1)

句网节点的特征值按照式(2)计算，

SWE_j＝w_j (2)

步骤4.1：计算综合特征值；

E_i＝λWE_i+γSWE_j (3)

在事故数据根因的辨识过程中，首先，通过构建新用户词典和停用词表得到根因词典，主要是将列车技术术语作为词典1，并按照名词和动词，车体和状态对术语进行标注，得到词典2，通过合并词典1和词典2得到初始根因词典。然后,对初始的K个关键词进行人工识别，将其分成三类：可行词，参考词和不相关词。将不相关词作为停用词，通过每条记录分词后的词对，找出与停用词有关联的其他停用词，不断更新加进停用词表。最后,计算关键词的覆盖率，当覆盖率达到85％，即可停止用户词典和停用词表的更新，以此得到事故数据的根因文本。

实验结果：

为了验证本发明所提出的方法对于根因文本的识别效果，设计了不同的实验来说明关键字提取方法在构建词典中的作用，主要区别在于：是否考虑关键字提取方法。为了说明本发明所提出的关键字提取方法(NWS)在事故根因文本识别中的性能，实验选用MF关键字方法关键词提取方法的对比。所设计的对比实验中还考虑了是否使用停用词列表和文本相似性，并将基准实验结果作为一组实验结果进行比较。基准实验是通过人工识别根因文本的平均水平。

图3给出了各个对比实验中所考虑的不同因素。其中，字母R、N和M表示词典构建部分中使用的关键字提取方法。R是Raw的缩写，表示：没有使用关键字提取方法，且仅使用初始词典。N表示：使用NWS关键字提取方法，M表示：使用MF(Most Frequent，最频繁方法)关键字方法。字母后的数字(0和1)分别表示：在所进行实验的方法中是否考虑了停用词表和是否考虑文字相似度，0表示没有，1表示有。各个实验的具体结果如表1所示。

在实验中，R00和N00是一组实验对比组，两者的不同之处仅在于所使用的用户词典。R00表示：仅使用初始词典，且在识别根因文本过程中，并未考虑停用词表和文本相似度。N00表示：在初始词典基础上，通过NWS关键词提取方法对初始词典进行了更新；在识别过程中，也未考虑停用词表和文本相似度。结果表明(如图4和图6对比所示)，N00识别根因文本的效果优于R00，说明了关键词提取方法在用户词典中的作用。

(R10，R00)和(N10，N00)是另外两组实验对比组，(R10，R00)考察只用初始词典，是否考虑停用词表的情况；(N10，N00)为：通过NWS对初始词典进行更新后，是否考虑停用词表的情况。结果表明，考虑停用词表比不考虑停用词表识别事故根因的效果更好。进一步比较(R10,N10),结果表明了关键词提取方法在用户词典中的作用(如图4和图6所示)，同时说明考虑停用词表的情况下，根因文本识别的正确率更好。而为比较NWS和MF的性能，本发明进行了三组对比实验。

图4、图5和图6给出图3对比实验中主要的结果。从图4中可以看到N01(图例中的第二个)和N11(图例中的第四个)的值(包括：准确率、召回率和F值)始终都高于基准BASE(图例中的第五个)，表示使用了NWS关键词提取方法所识别的根因文本水平要高于平均值。由图6可以观察到，比较RCI-NWS(N11)、RCI-MF(M11)、基准实验(BASE)和初始词典(R00，R10)的性能，最高值是N11(图6中图例的第一个)，表示N11各个性能值在本发明所设计的根因文本方法识别效果最好。其中，RCI为root cause identification的缩写，表示：根因识别。具体来说，如表1所示，比较M11和N11，精准准确率(即准确率)从47.28％增加到54％，提高了6.72％；召回率和从37.72％增至71.67％，F值从39.68％增至56.71％。N11的所有三个指标都高于对应基准的平均性能。这说明N11中将NWS关键字提取方法与停用词表和文本相似性相结合，关键词提取方法能通过原始文本中的信息丰富用户词典而提高根因文本的识别率。因此，本发明所提出的根因文本识别方法(N11)能够更好地实现：提取根因文本的目的，不仅提高了识别结果的准确度，还减少了使用人工处理所消耗的时间，这为未来的分析和评估提供基础。

表1不同条件下的实验结果比较表

上述实施例对本发明的技术方案进行了详细说明。显然，本发明并不局限于所描述的实施例。基于本发明中的实施例，熟悉本技术领域的人员还可据此做出多种变化，但任何与本发明等同或相类似的变化都属于本发明保护的范围。

本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于非结构化数据的铁路事故根因识别系统，其特征在于，包括：状态监测子系统、数据存储模块、数据处理计算模块、决策支持模块和人机交互模块；

所述数据存储模块用于：存储原始铁路文本数据；

所述对原始铁路文本数据的预处理是指：对原始铁路文本数据进行去噪、异常值剔除及格式转换；

所述决策支持模块用于：基于数据处理计算模块的根因辨识结果决定铁路系统日常监测和维护的对象，以及相应的处理方式；

所述人机交互模块用于：通过人机交互方式，完成所述铁路事故根因识别系统和使用者之间的信息的接收、显示和发送；

该系统执行以下方法，具体包括以下步骤：

步骤1：根据《铁路专业词汇》中的词语，获取铁路事故致因文本，形成铁路事故致因文本集合DC；

将DC与LW合并，建立第一部分词典Dic₁＝{DC，LW}；

步骤3：将预处理后的原始铁路文本数据作为事故根因记录进行处理，获得事故根因文本FCR＝{cw₁,cw₂,cw₃...cw_n}，建立以词为节点的词网；

词网和句网络通过词网与句网络之间的文本关系进行联系；

在所述句网络中，当两两句子存在共同词，则存在一条边；

步骤4：基于复杂网络理论，采用新词网关键词提取方法计算文本双层网络中各个节点的综合特征值，将综合特征值排序最高的前N个词形成关键词，作为铁路事故致因文本，形成第二部分词典Dic₂；

步骤5：将列车的基本信息收集为停用词表ST₁；

步骤6：使用Apriori算法获得出现频率高且无意义的停用词，以建立停用词列表ST₂；

步骤7：合并词典Dic₁和词典Dic₂，得到一个新词典D；

然后用停用词表ST＝{ST₁,ST₂}过滤上述新词典D，得到词典ND＝Dic₁+Dic₂-ST；

步骤8：使用词典ND匹配根因名词；

步骤9：通过文本依存关系寻找根因名词cw是否存在相关的根因动词；如果存在根因动词cv，则得到铁路事故根因文本为cf(cw，cv)；如果根因名词cw不存在相关的根因动词，则将根因名词与设定的默认词default结合，得到铁路事故根因文本为cf(cw，default)；

步骤4所述计算文本双层网络中各个节点的综合特征值的具体步骤如下：

步骤4.1：计算词网节点的特征值和句网节点的特征值；

所述词网节点的特征值按照式(1)计算，

WE_i＝α·bc_i+β·cc_i (1)

其中，bc_i为：第i个词的节点介数，cc_i为：第i个词的紧密中心度，α和β均为系数，且α+β＝1；WE_i为：第i个词节点的特征值；

句网节点的特征值按照式(2)计算，

SWE_j＝w_j (2)

步骤4.1：计算综合特征值；

E_i＝λWE_i+γSWE_j (3)

2.如权利要求1所述的基于非结构化数据的铁路事故根因识别系统，其特征在于：所述传感器的数据包括：线路、车辆和环境状态信息。

3.如权利要求1所述的基于非结构化数据的铁路事故根因识别系统，其特征在于：所述数据存储模块为：存储器。

4.如权利要求1所述的基于非结构化数据的铁路事故根因识别系统，其特征在于：所述数据处理计算模块由数据处理器组成。

5.一种应用权利要求1-4任一权利要求所述的基于非结构化数据的铁路事故根因识别系统的铁路事故根因识别方法，其特征在于，包括以下步骤：

将DC与LW合并，建立第一部分词典Dic₁＝{DC，LW}；

词网和句网络通过词网与句网络之间的文本关系进行联系；

在所述句网络中，当两两句子存在共同词，则存在一条边；

步骤5：将列车的基本信息收集为停用词表ST₁；

步骤7：合并词典Dic₁和词典Dic₂，得到一个新词典D；

步骤8：使用词典ND匹配根因名词；

步骤4.1：计算词网节点的特征值和句网节点的特征值；

所述词网节点的特征值按照式(1)计算，

WE_i＝α·bc_i+β·cc_i (1)

句网节点的特征值按照式(2)计算，

SWE_j＝w_j (2)

步骤4.1：计算综合特征值；

E_i＝λWE_i+γSWE_j (3)

6.如权利要求5所述的基于非结构化数据的铁路事故根因识别系统的铁路事故根因识别方法，其特征在于：所述Apriori算法的关联规则中的两个条件为：X,Y∈I和

X,Y∈I表示：X和Y均存在于项集I；表示：X与Y的交集为空；