CN111881670A

CN111881670A - 一种铁路安监数据处理方法、系统、装置和存储介质

Info

Publication number: CN111881670A
Application number: CN202010536830.1A
Authority: CN
Inventors: 凌政; 董选明
Original assignee: Guangzhou Wangping Information Technology Co ltd
Current assignee: Guangzhou Wangping Information Technology Co ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-11-03

Abstract

本发明公开了一种铁路安监数据处理方法、系统、装置和存储介质，铁路安监数据处理方法包括获取TextCNN模型，将铁路安监数据分别进行多种词嵌入处理；各词嵌入处理的种类数与TextCNN模型的通道数量相匹配，各词嵌入处理分别产生一个第一词向量，将各第一词向量输入到TextCNN模型，以及获取TextCNN模型的输出结果等步骤。使用经过训练的TextCNN模型对自然语言文本形式的铁路安监数据进行分类和整理，具有较高的效率和较低的出错率，可以应对海量铁路安监数据，能够挖掘出日常安全管理工作中积累的原始记录信息，对后续总结安监工作、汲取历史经验具有重要价值。本发明广泛应用于自然语言处理技术领域。

Description

一种铁路安监数据处理方法、系统、装置和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其是一种铁路安监数据处理方法、系统、装置和存储介质。

背景技术

铁路路网规模的不断扩张和新技术新设备大量投入使用，给铁路运输安全带来新的挑战，确保铁路生产和旅客安全已经上升到国家安全发展的战略高度。在铁路安监领域，安监工作会产生铁路安监风险问题字典库和铁路发牌问题描述记录等铁路安监数据，这些铁路安监数据中包含了日常安全管理工作中积累的原始记录信息，对后续总结安监工作、汲取历史经验具有重要价值。铁路安监数据是以自然语言文本的方式展现的，现有技术中是由人工对铁路安监数据进行分类和整理，但是人工操作的低效率和高出错率难以应对实际生产中的海量铁路安监数据。

发明内容

针对上述至少一个技术问题，本发明的目的在于提供一种铁路安监数据处理方法、系统、装置和存储介质。

一方面，本发明实施例包括一种铁路安监数据处理方法，包括以下步骤：

获取TextCNN模型；所述TextCNN模型有多个通道；

将所述铁路安监数据分别进行多种词嵌入处理；各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配，各所述词嵌入处理分别产生一个第一词向量；

将各所述第一词向量输入到所述TextCNN模型；

获取所述TextCNN模型的输出结果。

进一步地，所述铁路安监数据包括铁路安监风险问题字典库和/或铁路发牌问题描述记录。

进一步地，铁路安监数据处理方法还包括以下步骤：

使用Jieba分词算法对所述铁路安监数据进行分词处理；

对所述铁路安监数据进行去停用词处理；

确定所述铁路安监数据的标签；所述标签用于对所述铁路安监数据进行车务二级分类、车务三级分类或车务四级分类。

进一步地，所述TextCNN模型经过以下训练：

将所述铁路安监数据分别进行多种词嵌入处理；各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配，各所述词嵌入处理分别产生一个第二词向量；

获取部分或全部所述第二词向量以组成训练数据集和测试数据集；

设置所述TextCNN模型训练参数；

将所述训练数据集和测试数据集作为所述TextCNN模型的输入数据，将所述训练数据集和测试数据集中的所述第二词向量对应的所述标签作为所述TextCNN模型的期望输出，执行对所述TextCNN模型的训练。

进一步地，所述训练参数包括批量大小、迭代次数、测试间隔、保存模型间隔、最长输入长度、词向量维度、卷积核大小、卷积核深度、学习率和dropout率中的至少一个。

进一步地，所述多种词嵌入处理包括Word2vec、Glove、TF-IDF、BOW和One-Hot中的至少两种。

进一步地，铁路安监数据处理方法还包括以下步骤：

当所述铁路安监数据的数据量大于第一数据量阈值，对所述TextCNN模型中的嵌入层进行随机初始化，在对所述TextCNN模型进行训练时，对所述嵌入层进行更新；

当所述铁路安监数据的数据量小于第二数据量阈值，对所述第一词向量进行预训练，用经过预训练的所述第一词向量初始化所述嵌入层；

所述第一数据量阈值不小于所述第二数据量阈值。

另一方面，本发明实施例还包括一种铁路安监数据处理系统，包括：

TextCNN模型模块，用于获取TextCNN模型；所述TextCNN模型有多个通道；

词嵌入处理模块，用于将所述铁路安监数据分别进行多种词嵌入处理；各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配，各所述词嵌入处理分别产生一个第一词向量；

输入模块，用于将各所述第一词向量输入到所述TextCNN模型；

输出模块，用于获取所述TextCNN模型的输出结果。

另一方面，本发明实施例还包括一种计算机装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行实施例所述方法。

另一方面，本发明实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行实施例所述方法。

本发明的有益效果是：本发明的实施例使用经过训练的TextCNN模型代替人工对自然语言文本形式的铁路安监数据进行分类和整理，具有较高的效率和较低的出错率，可以应对海量铁路安监数据；通过对铁路安监数据进行分类，能够挖掘出日常安全管理工作中积累的原始记录信息，对后续总结安监工作、汲取历史经验具有重要价值。

附图说明

图1为实施例中所使用的TextCNN模型的结构图；

图2为实施例中的铁路安监数据处理方法流程图。

具体实施方式

本发明的实施例中，所要处理的铁路安监数据包括铁路安监风险问题字典库和/或铁路发牌问题描述记录。

在执行铁路安监数据处理方法对铁路安监数据进行处理之前，可以先训练TextCNN模型。训练TextCNN模型所使用的铁路安监数据，可以先经过如下预处理步骤处理：

P1.使用Jieba分词算法对所述铁路安监数据进行分词处理；

P2.对所述铁路安监数据进行去停用词处理；

P3.确定所述铁路安监数据的标签；所述标签用于对所述铁路安监数据进行车务二级分类、车务三级分类或车务四级分类。

步骤P1中使用Python+Jieba分词工具进行分词处理，步骤P1涉及的过程包括：

(1)基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)；

(2)采用了动态规划查找最大概率路径，找出基于词频的最大切分组合；

(3)对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

结巴分词支持繁体分词和自定义字典方法。结巴中文分词支持的三种分词模式包括：

(1)精确模式：试图将句子最精确地切开，适合文本分析；

(2)全模式：把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义问题；

(3)搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

步骤P2用于去除铁路安监数据中的日期、时间、地点、人名以及噪音符号如["\"","＝","\\","/",":","-","(",")",",",".","\n"]等的冗余信息。具体地，可以使用基于Numpy工具中的pandas数据分析函数来执行步骤P2。

步骤P3中，根据铁路安监数据的车务二级分类、车务三级分类或车务四级分类结果，使用标签对铁路安监数据进行标记，即铁路安监数据的分类结果体现在其标签中。例如，车务二级分类的分类结果包括调车作业和接发列车，车务三级分类的分类结果包括表簿台账、监视信号、交接班接发列车用语和立岗接发车。如果对铁路安监数据进行车务二级分类，铁路安监数据所标记的标签用于表示铁路安监数据属于调车作业或接发列车。

本发明的实施例中，执行以下步骤以对TextCNN模型进行训练：

T1.将所述铁路安监数据分别进行多种词嵌入处理；各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配，各所述词嵌入处理分别产生一个第二词向量；

T2.获取部分或全部所述第二词向量以组成训练数据集和测试数据集；

T3.设置所述TextCNN模型训练参数；

T4.将所述训练数据集和测试数据集作为所述TextCNN模型的输入数据，将所述训练数据集和测试数据集中的所述第二词向量对应的所述标签作为所述TextCNN模型的期望输出，执行对所述TextCNN模型的训练。

本发明的实施例中，所使用的TextCNN模型的结构如图1所示，TextCNN模型包括依次连接的嵌入层、卷积层、池化层和全连接层。嵌入层(Embedding)可以接收第二词向量。多个第二词向量组成的句子矩阵相当于图像处理过程中的图像，句子矩阵中的一个元素相当于图像中的像素点。卷积层(Convolution)中所包含的每个卷积核(kernel)有两个输出通道(channel)。本发明的实施例中，TextCNN模型中的池化层是一个1-max池化层(pooling)，可以使得不同长度的句子经过池化层之后都变为相同长度的数据。最后的全连接层(FullConnection)是一个Softmax层，可以输出对第二词向量的分类结果，即第二词向量属于每个分类结果的概率。

TextCNN模型中的通道与图像处理技术所使用的人工智能模型中的通道相似，在图像处理技术中，图像的R、G、B等色彩数据可以分别输入到人工智能模型的不同通道中。本发明的实施例中，所使用的TextCNN模型有两个通道，因此对于一个铁路安监数据，可以选择两种词嵌入处理技术来分别进行词嵌入处理，每种词嵌入处理能够得到一个第二词向量，两种词嵌入处理能够得到两个第二词向量。本发明的实施例中，可以从Word2vec、Glove、TF-IDF、BOW和One-Hot中选择出两种词嵌入处理技术来对每个铁路安监数据进行词嵌入处理。例如，可以选择Word2vec和Glove这两种词嵌入处理技术来对每个铁路安监数据进行词嵌入处理，每个铁路安监数据对应一个经Word2vec处理得到的第二词向量以及一个经Glove处理得到的第二词向量。

本发明的实施例中，所使用的Word2vec是一种无监督的学习模型，可以在一个语料集上实现词汇信息到语义空间的映射，最终获得一个词向量模型，每个词汇对应一个指定维度的数组。无监督的学习模型意味着其训练数据不需要标记，主要思想是“具有相似邻近词分布的中心词之之间具有一定的语义相似度”。Word2vec主要包括CBOW和Skip-gram两个核心算法，它们的优势就是实现了两个词汇信息之间的语义相似度的可计算性，也可以理解为是一种迁移学习的思想，Word2vec获取的意义空间信息作为后续文本分类模型的输入。

本发明的实施例中，步骤T3所设置的训练参数包括批量大小、迭代次数、测试间隔、保存模型间隔、最长输入长度、词向量维度、卷积核大小、卷积核深度、学习率和dropout率中的至少一个。

本发明的实施例中，执行步骤T4时，TextCNN模型所接收的输入数据是训练数据集和测试数据集。训练数据集和测试数据集中的每个第二词向量都是由一个铁路安监数据经过词嵌入处理得到的，而一个铁路安监数据对应一个标签，因此一个第二词向量对应一个标签。在执行步骤T4时，以第二词向量对应的标签作为TextCNN模型的期望输出，执行对TextCNN模型的训练。

本发明的实施例中，当步骤T4中TextCNN模型接收输入数据进行处理后的输出数据与期望输出之间的偏差小于预设阈值时，或者输入到TextCNN模型中的输入数据的量达到预设阈值时，认为完成对TextCNN模型的训练。

在执行步骤T1-T4对TextCNN模型进行训练时，可以根据铁路安监数据的数据量，选择在执行步骤T1-T4的同时对TextCNN模型中的嵌入层进行训练或不进行训练。具体步骤包括：

T5.当所述铁路安监数据的数据量大于第一数据量阈值，对所述TextCNN模型中的嵌入层进行随机初始化，在对所述TextCNN模型进行训练时，对所述嵌入层进行更新；

T6.当所述铁路安监数据的数据量小于第二数据量阈值，对所述第一词向量进行预训练，用经过预训练的所述第一词向量初始化所述嵌入层。

步骤T5和T6中，第一数据量阈值不小于第二数据量阈值，第一数据量阈值和第二数据量阈值与人工智能训练中的数据量大小直观认识相匹配，是对“数据量较小”和“数据量较大”的一个精确界定，即本实施例中如果铁路安监数据的数据量大于第一数据量阈值，那么在本技术领域习惯中可以认为铁路安监数据的数据量较大，如果铁路安监数据的数据量小于第二数据量阈值，那么在本技术领域习惯中可以认为铁路安监数据的数据量较小。

步骤T5是在铁路安监数据的数据量较大时的训练方法，通过对TextCNN模型中的嵌入层进行随机初始化，在对TextCNN模型进行训练时，对TextCNN模型中的嵌入层进行更新，实现非静态(non-state)方式的训练，可以在训练过程中对嵌入层进行更新和微调(fine tune)，能够加速TextCNN模型参数的收敛，更快地完成对TextCNN模型的训练。

步骤T6是在铁路安监数据的数据量较小时的训练方法，通过对第一词向量进行预训练，用经过预训练的第一词向量初始化嵌入层，可以在对TextCNN模型的训练过程中不更新嵌入层，属于静态(state)方式的训练，实质上属于迁移学习，能够有效应对铁路安监数据的数据量较小导致的训练量不足。

在完成对TextCNN模型的训练后，可以将训练好的TextCNN模型应用于铁路安监数据处理方法。

本发明的实施例中，参照图2，铁路安监数据处理方法包括以下步骤：

S1.获取TextCNN模型；所述TextCNN模型有多个通道；

S2.将所述铁路安监数据分别进行多种词嵌入处理；各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配，各所述词嵌入处理分别产生一个第一词向量；

S3.将各所述第一词向量输入到所述TextCNN模型；

S4.获取所述TextCNN模型的输出结果。

本发明的实施例中铁路安监数据处理方法中所使用的TextCNN模型的结构如图1所示，TextCNN模型包括依次连接的嵌入层、卷积层、池化层和全连接层。嵌入层(Embedding)可以接收第一词向量。多个第一词向量组成的句子矩阵相当于图像处理过程中的图像，句子矩阵中的一个元素相当于图像中的像素点。卷积层(Convolution)中所包含的每个卷积核(kernel)有两个输出通道(channel)。本发明的实施例中，TextCNN模型中的池化层是一个1-max池化层(pooling)，可以使得不同长度的句子经过池化层之后都变为相同长度的数据。最后的全连接层(Full Connection)是一个Softmax层，可以输出对第一词向量的分类结果，即第一词向量属于每个分类结果的概率。

TextCNN模型中的通道与图像处理技术所使用的人工智能模型中的通道相似，在图像处理技术中，图像的R、G、B等色彩数据可以分别输入到人工智能模型的不同通道中。本发明的实施例中，所使用的TextCNN模型有两个通道，因此对于一个铁路安监数据，可以选择两种词嵌入处理技术来分别进行词嵌入处理，每种词嵌入处理能够得到一个第一词向量，两种词嵌入处理能够得到两个第一词向量。本发明的实施例中，可以从Word2vec、Glove、TF-IDF、BOW和One-Hot中选择出两种词嵌入处理技术来对每个铁路安监数据进行词嵌入处理。例如，可以选择Word2vec和Glove这两种词嵌入处理技术来对每个铁路安监数据进行词嵌入处理，每个铁路安监数据对应一个经Word2vec处理得到的第一词向量以及一个经Glove处理得到的第一词向量。

申请人利用2019年产生的两万三千余条铁路安监数据执行步骤S1-S4，处理结果如表1、表2、表3所示。其中，表1所示的是执行步骤S1-S4使用TextCNN模型对铁路安监数据进行车务二级分类的结果，所使用的TextCNN模型的训练过程所使用的训练数据，其标签是以车务二级分类标准进行标记的，即每个标签用于标记训练数据属于哪个车务二级分类结果。表2所示的是执行步骤S1-S4使用TextCNN模型对铁路安监数据进行车务三级分类的结果，所使用的TextCNN模型的训练过程所使用的训练数据，其标签是以车务三级分类标准进行标记的，即每个标签用于标记训练数据属于哪个车务三级分类结果。表3所示的是执行步骤S1-S4使用TextCNN模型对铁路安监数据进行车务四级分类的结果，所使用的TextCNN模型的训练过程所使用的训练数据，其标签是以车务四级分类标准进行标记的，即每个标签用于标记训练数据属于哪个车务四级分类结果。

表1

表2

表3

表1、表2和表3所示的测试结果表明，对实际铁路安监数据执行步骤S1-S4进行分类，按照车务二级分类、车务三级分类和车务四级分类的准确率分别为96.30％、85.54％和77.71％，均达到了较高的水平，表明本发明的实施例中的铁路安监数据处理方法能够取得较高的分类准确率。

本发明的实施例中的铁路安监数据处理方法具有如下有益效果：使用经过训练的TextCNN模型代替人工对自然语言文本形式的铁路安监数据进行分类和整理，具有较高的效率和较低的出错率，可以应对海量铁路安监数据；通过对铁路安监数据进行分类，能够挖掘出日常安全管理工作中积累的原始记录信息，对后续总结安监工作、汲取历史经验具有重要价值。

本发明的实施例中的铁路安监数据处理系统包括：

输入模块，用于将各所述第一词向量输入到所述TextCNN模型；

输出模块，用于获取所述TextCNN模型的输出结果。

其中TextCNN模型模块、词嵌入处理模块、输入模块和输出模块可以是具有相应功能的硬件模块、软件模块或者硬件模块和软件模块的结合。

本实施例中，一种计算机装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行实施例中的铁路安监数据处理方法，实现与实施例所述的相同的技术效果。

本实施例中，一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行实施例中的铁路安监数据处理方法，实现与实施例所述的相同的技术效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种铁路安监数据处理方法，其特征在于，包括以下步骤：

获取TextCNN模型；所述TextCNN模型有多个通道；

将各所述第一词向量输入到所述TextCNN模型；

获取所述TextCNN模型的输出结果。

2.根据权利要求1所述的铁路安监数据处理方法，其特征在于，所述铁路安监数据包括铁路安监风险问题字典库和/或铁路发牌问题描述记录。

3.根据权利要求1所述的铁路安监数据处理方法，其特征在于，还包括以下步骤：

使用Jieba分词算法对所述铁路安监数据进行分词处理；

对所述铁路安监数据进行去停用词处理；

4.根据权利要求1所述的铁路安监数据处理方法，其特征在于，所述TextCNN模型经过以下训练：

设置所述TextCNN模型训练参数；

5.根据权利要求4所述的铁路安监数据处理方法，其特征在于，所述训练参数包括批量大小、迭代次数、测试间隔、保存模型间隔、最长输入长度、词向量维度、卷积核大小、卷积核深度、学习率和dropout率中的至少一个。

6.根据权利要求1所述的铁路安监数据处理方法，其特征在于，所述多种词嵌入处理包括Word2vec、Glove、TF-IDF、BOW和One-Hot中的至少两种。

7.根据权利要求1所述的铁路安监数据处理方法，其特征在于，还包括以下步骤：

所述第一数据量阈值不小于所述第二数据量阈值。

8.一种铁路安监数据处理系统，其特征在于，包括：

输入模块，用于将各所述第一词向量输入到所述TextCNN模型；

输出模块，用于获取所述TextCNN模型的输出结果。

9.一种计算机装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-7任一项所述方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。