CN112084332A

CN112084332A - 一种基于深度双向语言文本处理网络的违章分类方法

Info

Publication number: CN112084332A
Application number: CN202010886124.XA
Authority: CN
Inventors: 陈松波; 郭创新
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-15

Abstract

本发明公开了一种基于深度双向语言文本处理网络的违章分类方法，该方法采用词向量表示文本特征，利用神经网络提取文本信息的本质特征，对华南电网的数据进行了仿真研究。本发明方法有效地提高了分类的准确率和标注的效率；分类网络会随着违规数据库的更新而不断学习和训练；如果电网出现新的违规类型，分类网络将对新的违规类型进行培训和学习，确保分类网络的可靠性和准确性。本发明准确度高，漏报率低，可靠性强，能够对电力企业中的大量违章记录进行自动标注，能够更好地处理文本数据，将数据资源最大化的利用起来，处理文本的速度更加迅捷。

Description

一种基于深度双向语言文本处理网络的违章分类方法

技术领域

本发明属于文本自动分类和标注领域，尤其涉及一种基于深度双向语言文本处理网络的违章分类方法。

背景技术

虽然目前电力系统自愈能力越来越强，而且其稳定性和可靠性越来越高，但是安全生产事故也无法完全避免。安全事故、现场违章记录、检查审计问题等各类安全监督资料，是安全生产的第一手资料，是安全生产的指导依据。全面研究供电企业的历史安全数据，不仅可以降低事故发生的概率，而且可以提高安全生产水平，具有重要的现实意义。

历史安全数据是典型的多源异构数据，首先要解决的问题是数据的标准化和格式化。在数据标准化过程中，大量历史安全数据的分类和标注是非常重要的。传统的文本分类方法主要分为知识工程分类和机器学习分类。

知识工程分类是根据定义的规则对文本进行人工分类。人工分析数据的方式有很多缺点：工作效率太低，数据格式不规范；人工处理能力有限，安全数据分析不够全面、充分；自动化、智能化水平低，基于人类经验的安全措施缺乏可靠性。

目前，最常用的分类方法是基于机器学习的分类方法。支持向量机(SVM)、朴素贝叶斯分类器NBC、逻辑回归LR都是常用的机器方法。NBC是一种经典的基于概率计算的机器学习分类方法。不幸的是，它的性能很差，因为它不能很好地处理文本数据。支持向量机将长文本作为研究对象。在处理短文本时，由于短文本特征少，数据不规则，支持向量机的性能较差。LR是一种基于线性回归理论的分类方法。由于极大似然法的缺点，当数据集维数较高时，估计结果可能不稳定。

大数据和人工智能技术的出现，为电力行业安全监管带来了新的发展机遇。人工智能的深度学习技术在文本分类方面取得了良好的效果，并逐渐取代了传统的机器学习方法。深度学习可以从大量数据中自动提取特征，更精确地描述目标。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于深度双向语言文本处理网络的违章分类方法。

本发明的目的是通过以下技术方案来实现的：一种基于深度双向语言文本处理网络的违章分类方法，包括以下步骤：

(1)采集违章记录的文本；

(2)采用jieba分词器作为过滤工具对违规记录进行预处理，过滤出违规记录中的停用词，提取出违规记录中具有代表性的关键词；

(3)利用词向量技术将得到的关键词转化为特征向量；

(4)将每个违规记录中所有关键词的特征向量作为矩阵行向量合并在一起形成一个特征矩阵，每一个特征矩阵代表一条违规记录，并对每一条违规记录打上相应的类别标签；

(5)将表示违规记录的特征矩阵作为深度双向语言文本处理网络的输入，对应的标签作为目标对照值进行训练；

(6)训练完成后，对待分类违规记录数据进行分类和标注。

进一步地，所述类别包括管理违规、行为违规、两票违规、工器具违规和作业环境违规。

进一步地，在深度双向语言文本处理网络中，特征矩阵X⁰对应由T+1个关键词构成的一条违规记录，

是第t+1个关键词，t＝0～T；模型包括多层，特征矩阵X⁰输入模型第一层；

第一层中，顺向循环层的隐状态

取决于前一关键词的隐状态

和第一层输入

其中，f表示sigmoid函数，U^f表示前向循环中隐藏层与各门之间的权值参数矩阵，W^if表示前向循环中输入门与各门之间的权值参数矩阵，b^f表示前向权值矩阵的偏移值；而逆向循环层的隐状态

取决于下一关键词的隐状态

和输入

其中，U^b表示逆向循环中隐藏层与各门之间的权值参数矩阵，W^ib表示逆向循环中输入门与各门之间的权值参数矩阵，b^b表示逆向权值矩阵的偏移值；则第一层的输出

为：

其中，W^fo表示前向循环中输出门与各门之间的权值参数矩阵，W^bo表示逆向循环中输出门与各门之间的权值参数矩阵；

模型每一层的网络结构相同，将第一层的输出作为第二层的输入，第二层的输出作为第三层的输入，以此类推，最后用softmax分类器进行分类；整个网络最后的输出的结果为输入违章记录的违章类别。

进一步地，所述深度双向语言文本处理网络共128层。

本发明的有益效果是：本发明采用词向量表示文本特征，利用神经网络提取文本信息的本质特征，对华南电网的数据进行了仿真研究；分类网络会随着违规数据库的更新而不断学习和训练；如果电网出现新的违规类型，分类网络将对新的违规类型进行培训和学习，确保分类网络的可靠性和准确性：

(1)本发明准确度高，漏报率低，可靠性强，能够对电力企业中的大量违章记录进行自动标注；有效地提高了分类的准确率和标注的效率；

(2)本发明可以对长且变文本进行智能分类和自动标注，相对于传统的方法，能够更好地处理文本数据，将数据资源最大化的利用起来；

(3)本发明对可以从大量的文本数据中自动提取特征，更精确的描述目标，这也就能够使我们的结果更加精确，处理文本的速度更加迅捷。

附图说明

图1为本发明方法中提出的深度双向语言文本处理网络模型示意图；

图2为本发明方法中采集的华南电网违章数据各类别数据量示意图；

图3是本发明的三种模型下Pre的结果示意图；

图4是本发明的三种模型下Rec的结果示意图；

图5是本发明的三种模型下F1的结果示意图；

图6是本发明的三种模型下MA的结果示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例一种基于深度双向语言文本处理网络的违章分类方法，包括以下步骤：

(1)采集违章记录的文本；

(2)采用jieba分词器作为过滤工具对违规记录进行预处理，过滤出违规记录中的停止词，提取出违规记录中具有代表性的关键词，例如对违规记录“一名工作人员工作服未扣好扣子”进行滤词，则“工作服”、“未扣好”、“扣子”作为此条违规记录的关键词，“一名”、“工作人员”被作为停用词给滤去；

(3)利用词向量技术将得到的每一个关键词转化为特征向量，例如用特征向量“a＝[x₁,x₂,…,x_n]”表示关键词“安全帽”，用特征向量“b＝[y₁,y₂,…,y_n]”表示关键词“工作服”；

(4)将每个违规记录中所有关键词的特征向量作为矩阵行向量合并在一起形成一个特征矩阵，每一个特征矩阵代表一条违规记录，并对每一条违规记录打上相应的类别标签(管理违规、行为违规、两票违规、工器具违规、作业环境违规)；

(5)将违规记录的特征矩阵和对应的标签放入深度双向语言文本处理网络(DBLTP)进行训练；

(6)对测试数据进行分类，分析损失率和分类精度。

本发明提出的模型由jieba分词器、词向量模型和深度双向语言文本处理网络(DBLTP)模型组成。本发明提出的模型利用jieba分词器将每一个违规词切分为若干个词。在这一步中，删除一些停止词，只选择具有代表性的关键字作为学习样本。然后利用词向量模型将关键词转化为特征向量。所有违规关键字的特征向量构成特征矩阵。在DBLTP模型中加入表示每一种违规行为的特征矩阵进行训练，经过充分训练，得到一个具有违规类别分类能力的深层信任网络。

DBLTP模型结构如图1所示，在DBLTP模型中，

是由T+1个词构成的一段文本，其作为输入进入模型中，其中

是这段文本的第t+1个单词。

是第一层的输出，并作为第二层的输入，第二层的输出作为第三层的输入，以此类推，共128层，模型每一层的网络结构相同，最后用softmax分类器进行分类，整个网络最后的输出的结果为输入违章记录的违章类别。

第一层中，顺向循环层的隐状态

取决于前一单词的隐状态

和第一层的输入值

其中，f()表示sigmoid函数，U^f表示前向循环中隐藏层与各门之间的权值参数矩阵，W^if表示前向循环中输入门与各门之间的权值参数矩阵，b^f表示前向权值矩阵的偏移值。

而逆向循环层的隐状态

则依然取决于下一单词的隐状态

和输入值

其中，f()表示sigmoid函数，U^b表示逆向循环中隐藏层与各门之间的权值参数矩阵，W^ib表示逆向循环中输入门与各门之间的权值参数矩阵，b^b表示逆向权值矩阵的偏移值。

第一层的输出

为：

其中，W^fo表示前向循环中输出门与各门之间的权值参数矩阵，W^bo表示逆向循环中输出门与各门之间的权值参数矩阵。

为了评价DBLTP的性能，对NBC模型和LR模型进行了对比实验。

本次实施例的数据来自华南电网。如图2所示，它包括五个类别：管理、行为、两张票、工具和环境，总共1660个样本。这些数据实际上包括了当前电网中所有类型的违规行为。如果电网出现新的违规类型，分类网络将对新的违规类型进行培训和学习，确保分类网络的可靠性和准确性。从每一类样本中随机抽取80％的样本作为训练数据，用于建立分类器模型，其余20％的样本用于验证分类器的准确性。

本发明选择四个评价标准：精确性(Pre)、召回率(Rec)、F1得分(F1)和漏报率(MA)对实验结果进行评价。本发明定义了四种分类结果：TP表示分类正确；FP表示不属于此类违章类别的被分到了此类；FN表示违反这一类别的行为被列为其他类别；TN：不属于此类别的违规行为被归类为其他类别。该四种评估标准的定义为：

其中，Pre反映了分类器的整体性能，Pre越高，分类器的精度就越高。Rec衡量分类器识别阳性样本的能力。F1是Rec和Pre的加权谐波平均值，F1越高，分类器的性能越好。MA反映了漏检的阳性案例数，MA越小，分类器的性能越好。

为了使本次实施例的结果更具有说服力，采用NBC和LR对同一数据进行了检验。三个模型的分类结果如图3、4、5和6所示。图3是三种模型对实例数据处理后的Pre值对比，DBLTP的Pre是三个模型中最高的，说明我们提出的模型查准率最高，图4是三种模型对实例数据处理后的Rec值对比，DBLTP的召回率是三个模型中最高，说明我们提出的模型的查全率是最高的，说明的图5是三种模型对实例数据处理后的F1值对比，DBLTP的F1是三个模型中最高的，即精确率与召回率的调和均值是最高的，F1反映的是预测模型的综合性能，F1越高分类器性能越好，因此最高的F1说明我们提出的模型分类性能最好，图6是三种模型对实例数据处理后的MA值对比，DBLTP的漏警率是最低的，这表明该模型在所有类别的三个模型中具有最高的识别准确度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。