CN112084332A - 一种基于深度双向语言文本处理网络的违章分类方法 - Google Patents

一种基于深度双向语言文本处理网络的违章分类方法 Download PDF

Info

Publication number
CN112084332A
CN112084332A CN202010886124.XA CN202010886124A CN112084332A CN 112084332 A CN112084332 A CN 112084332A CN 202010886124 A CN202010886124 A CN 202010886124A CN 112084332 A CN112084332 A CN 112084332A
Authority
CN
China
Prior art keywords
violation
layer
matrix
deep
text processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010886124.XA
Other languages
English (en)
Inventor
陈松波
郭创新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010886124.XA priority Critical patent/CN112084332A/zh
Publication of CN112084332A publication Critical patent/CN112084332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度双向语言文本处理网络的违章分类方法,该方法采用词向量表示文本特征,利用神经网络提取文本信息的本质特征,对华南电网的数据进行了仿真研究。本发明方法有效地提高了分类的准确率和标注的效率;分类网络会随着违规数据库的更新而不断学习和训练;如果电网出现新的违规类型,分类网络将对新的违规类型进行培训和学习,确保分类网络的可靠性和准确性。本发明准确度高,漏报率低,可靠性强,能够对电力企业中的大量违章记录进行自动标注,能够更好地处理文本数据,将数据资源最大化的利用起来,处理文本的速度更加迅捷。

Description

一种基于深度双向语言文本处理网络的违章分类方法
技术领域
本发明属于文本自动分类和标注领域,尤其涉及一种基于深度双向语言文本处理网络的违章分类方法。
背景技术
虽然目前电力系统自愈能力越来越强,而且其稳定性和可靠性越来越高,但是安全生产事故也无法完全避免。安全事故、现场违章记录、检查审计问题等各类安全监督资料,是安全生产的第一手资料,是安全生产的指导依据。全面研究供电企业的历史安全数据,不仅可以降低事故发生的概率,而且可以提高安全生产水平,具有重要的现实意义。
历史安全数据是典型的多源异构数据,首先要解决的问题是数据的标准化和格式化。在数据标准化过程中,大量历史安全数据的分类和标注是非常重要的。传统的文本分类方法主要分为知识工程分类和机器学习分类。
知识工程分类是根据定义的规则对文本进行人工分类。人工分析数据的方式有很多缺点:工作效率太低,数据格式不规范;人工处理能力有限,安全数据分析不够全面、充分;自动化、智能化水平低,基于人类经验的安全措施缺乏可靠性。
目前,最常用的分类方法是基于机器学习的分类方法。支持向量机(SVM)、朴素贝叶斯分类器NBC、逻辑回归LR都是常用的机器方法。NBC是一种经典的基于概率计算的机器学习分类方法。不幸的是,它的性能很差,因为它不能很好地处理文本数据。支持向量机将长文本作为研究对象。在处理短文本时,由于短文本特征少,数据不规则,支持向量机的性能较差。LR是一种基于线性回归理论的分类方法。由于极大似然法的缺点,当数据集维数较高时,估计结果可能不稳定。
大数据和人工智能技术的出现,为电力行业安全监管带来了新的发展机遇。人工智能的深度学习技术在文本分类方面取得了良好的效果,并逐渐取代了传统的机器学习方法。深度学习可以从大量数据中自动提取特征,更精确地描述目标。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于深度双向语言文本处理网络的违章分类方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度双向语言文本处理网络的违章分类方法,包括以下步骤:
(1)采集违章记录的文本;
(2)采用jieba分词器作为过滤工具对违规记录进行预处理,过滤出违规记录中的停用词,提取出违规记录中具有代表性的关键词;
(3)利用词向量技术将得到的关键词转化为特征向量;
(4)将每个违规记录中所有关键词的特征向量作为矩阵行向量合并在一起形成一个特征矩阵,每一个特征矩阵代表一条违规记录,并对每一条违规记录打上相应的类别标签;
(5)将表示违规记录的特征矩阵作为深度双向语言文本处理网络的输入,对应的标签作为目标对照值进行训练;
(6)训练完成后,对待分类违规记录数据进行分类和标注。
进一步地,所述类别包括管理违规、行为违规、两票违规、工器具违规和作业环境违规。
进一步地,在深度双向语言文本处理网络中,特征矩阵X0对应由T+1个关键词构成的一条违规记录,
Figure BDA0002655626950000021
是第t+1个关键词,t=0~T;模型包括多层,特征矩阵X0输入模型第一层;
第一层中,顺向循环层的隐状态
Figure BDA0002655626950000022
取决于前一关键词的隐状态
Figure BDA0002655626950000023
和第一层输入
Figure BDA0002655626950000024
Figure BDA0002655626950000025
其中,f表示sigmoid函数,Uf表示前向循环中隐藏层与各门之间的权值参数矩阵,Wif表示前向循环中输入门与各门之间的权值参数矩阵,bf表示前向权值矩阵的偏移值;而逆向循环层的隐状态
Figure BDA0002655626950000026
取决于下一关键词的隐状态
Figure BDA0002655626950000027
和输入
Figure BDA0002655626950000028
Figure BDA0002655626950000029
其中,Ub表示逆向循环中隐藏层与各门之间的权值参数矩阵,Wib表示逆向循环中输入门与各门之间的权值参数矩阵,bb表示逆向权值矩阵的偏移值;则第一层的输出
Figure BDA00026556269500000210
为:
Figure BDA00026556269500000211
其中,Wfo表示前向循环中输出门与各门之间的权值参数矩阵,Wbo表示逆向循环中输出门与各门之间的权值参数矩阵;
模型每一层的网络结构相同,将第一层的输出作为第二层的输入,第二层的输出作为第三层的输入,以此类推,最后用softmax分类器进行分类;整个网络最后的输出的结果为输入违章记录的违章类别。
进一步地,所述深度双向语言文本处理网络共128层。
本发明的有益效果是:本发明采用词向量表示文本特征,利用神经网络提取文本信息的本质特征,对华南电网的数据进行了仿真研究;分类网络会随着违规数据库的更新而不断学习和训练;如果电网出现新的违规类型,分类网络将对新的违规类型进行培训和学习,确保分类网络的可靠性和准确性:
(1)本发明准确度高,漏报率低,可靠性强,能够对电力企业中的大量违章记录进行自动标注;有效地提高了分类的准确率和标注的效率;
(2)本发明可以对长且变文本进行智能分类和自动标注,相对于传统的方法,能够更好地处理文本数据,将数据资源最大化的利用起来;
(3)本发明对可以从大量的文本数据中自动提取特征,更精确的描述目标,这也就能够使我们的结果更加精确,处理文本的速度更加迅捷。
附图说明
图1为本发明方法中提出的深度双向语言文本处理网络模型示意图;
图2为本发明方法中采集的华南电网违章数据各类别数据量示意图;
图3是本发明的三种模型下Pre的结果示意图;
图4是本发明的三种模型下Rec的结果示意图;
图5是本发明的三种模型下F1的结果示意图;
图6是本发明的三种模型下MA的结果示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例一种基于深度双向语言文本处理网络的违章分类方法,包括以下步骤:
(1)采集违章记录的文本;
(2)采用jieba分词器作为过滤工具对违规记录进行预处理,过滤出违规记录中的停止词,提取出违规记录中具有代表性的关键词,例如对违规记录“一名工作人员工作服未扣好扣子”进行滤词,则“工作服”、“未扣好”、“扣子”作为此条违规记录的关键词,“一名”、“工作人员”被作为停用词给滤去;
(3)利用词向量技术将得到的每一个关键词转化为特征向量,例如用特征向量“a=[x1,x2,…,xn]”表示关键词“安全帽”,用特征向量“b=[y1,y2,…,yn]”表示关键词“工作服”;
(4)将每个违规记录中所有关键词的特征向量作为矩阵行向量合并在一起形成一个特征矩阵,每一个特征矩阵代表一条违规记录,并对每一条违规记录打上相应的类别标签(管理违规、行为违规、两票违规、工器具违规、作业环境违规);
(5)将违规记录的特征矩阵和对应的标签放入深度双向语言文本处理网络(DBLTP)进行训练;
(6)对测试数据进行分类,分析损失率和分类精度。
本发明提出的模型由jieba分词器、词向量模型和深度双向语言文本处理网络(DBLTP)模型组成。本发明提出的模型利用jieba分词器将每一个违规词切分为若干个词。在这一步中,删除一些停止词,只选择具有代表性的关键字作为学习样本。然后利用词向量模型将关键词转化为特征向量。所有违规关键字的特征向量构成特征矩阵。在DBLTP模型中加入表示每一种违规行为的特征矩阵进行训练,经过充分训练,得到一个具有违规类别分类能力的深层信任网络。
DBLTP模型结构如图1所示,在DBLTP模型中,
Figure BDA0002655626950000041
是由T+1个词构成的一段文本,其作为输入进入模型中,其中
Figure BDA0002655626950000042
是这段文本的第t+1个单词。
Figure BDA0002655626950000043
是第一层的输出,并作为第二层的输入,第二层的输出作为第三层的输入,以此类推,共128层,模型每一层的网络结构相同,最后用softmax分类器进行分类,整个网络最后的输出的结果为输入违章记录的违章类别。
第一层中,顺向循环层的隐状态
Figure BDA0002655626950000044
取决于前一单词的隐状态
Figure BDA0002655626950000045
和第一层的输入值
Figure BDA0002655626950000046
Figure BDA0002655626950000047
其中,f()表示sigmoid函数,Uf表示前向循环中隐藏层与各门之间的权值参数矩阵,Wif表示前向循环中输入门与各门之间的权值参数矩阵,bf表示前向权值矩阵的偏移值。
而逆向循环层的隐状态
Figure BDA0002655626950000048
则依然取决于下一单词的隐状态
Figure BDA0002655626950000049
和输入值
Figure BDA00026556269500000410
Figure BDA00026556269500000411
其中,f()表示sigmoid函数,Ub表示逆向循环中隐藏层与各门之间的权值参数矩阵,Wib表示逆向循环中输入门与各门之间的权值参数矩阵,bb表示逆向权值矩阵的偏移值。
第一层的输出
Figure BDA00026556269500000412
为:
Figure BDA00026556269500000413
其中,Wfo表示前向循环中输出门与各门之间的权值参数矩阵,Wbo表示逆向循环中输出门与各门之间的权值参数矩阵。
为了评价DBLTP的性能,对NBC模型和LR模型进行了对比实验。
本次实施例的数据来自华南电网。如图2所示,它包括五个类别:管理、行为、两张票、工具和环境,总共1660个样本。这些数据实际上包括了当前电网中所有类型的违规行为。如果电网出现新的违规类型,分类网络将对新的违规类型进行培训和学习,确保分类网络的可靠性和准确性。从每一类样本中随机抽取80%的样本作为训练数据,用于建立分类器模型,其余20%的样本用于验证分类器的准确性。
本发明选择四个评价标准:精确性(Pre)、召回率(Rec)、F1得分(F1)和漏报率(MA)对实验结果进行评价。本发明定义了四种分类结果:TP表示分类正确;FP表示不属于此类违章类别的被分到了此类;FN表示违反这一类别的行为被列为其他类别;TN:不属于此类别的违规行为被归类为其他类别。该四种评估标准的定义为:
Figure BDA0002655626950000051
Figure BDA0002655626950000052
Figure BDA0002655626950000053
Figure BDA0002655626950000054
其中,Pre反映了分类器的整体性能,Pre越高,分类器的精度就越高。Rec衡量分类器识别阳性样本的能力。F1是Rec和Pre的加权谐波平均值,F1越高,分类器的性能越好。MA反映了漏检的阳性案例数,MA越小,分类器的性能越好。
为了使本次实施例的结果更具有说服力,采用NBC和LR对同一数据进行了检验。三个模型的分类结果如图3、4、5和6所示。图3是三种模型对实例数据处理后的Pre值对比,DBLTP的Pre是三个模型中最高的,说明我们提出的模型查准率最高,图4是三种模型对实例数据处理后的Rec值对比,DBLTP的召回率是三个模型中最高,说明我们提出的模型的查全率是最高的,说明的图5是三种模型对实例数据处理后的F1值对比,DBLTP的F1是三个模型中最高的,即精确率与召回率的调和均值是最高的,F1反映的是预测模型的综合性能,F1越高分类器性能越好,因此最高的F1说明我们提出的模型分类性能最好,图6是三种模型对实例数据处理后的MA值对比,DBLTP的漏警率是最低的,这表明该模型在所有类别的三个模型中具有最高的识别准确度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度双向语言文本处理网络的违章分类方法,其特征在于,包括以下步骤:
(1)采集违章记录的文本。
(2)采用jieba分词器作为过滤工具对违规记录进行预处理,过滤出违规记录中的停用词,可以提取出违规记录中具有代表性的关键词。
(3)利用词向量技术将得到的关键词转化为特征向量。
(4)将每个违规记录中所有关键词的特征向量作为矩阵行向量合并在一起形成一个特征矩阵,每一个特征矩阵可以代表一条违规记录,并对每一条违规记录打上相应的类别标签。
(5)将表示违规记录的特征矩阵作为深度双向语言文本处理网络的输入,对应的标签作为目标对照值进行训练。
(6)训练完成后,可以对待分类违规记录数据进行分类和标注。
2.如权利要求1所述基于深度双向语言文本处理网络的违章分类方法,其特征在于,所述类别包括管理违规、行为违规、两票违规、工器具违规和作业环境违规。
3.如权利要求1所述基于深度双向语言文本处理网络的违章分类方法,其特征在于,在深度双向语言文本处理网络中,特征矩阵X0对应由T+1个关键词构成的一条违规记录,
Figure FDA0002655626940000011
是第t+1个关键词,t=0~T;模型包括多层,特征矩阵X0输入模型第一层;
第一层中,顺向循环层的隐状态
Figure FDA0002655626940000012
取决于前一关键词的隐状态
Figure FDA0002655626940000013
和第一层输入
Figure FDA0002655626940000014
Figure FDA0002655626940000015
其中,f表示sigmoid函数,Uf表示前向循环中隐藏层与各门之间的权值参数矩阵,Wif表示前向循环中输入门与各门之间的权值参数矩阵,bf表示前向权值矩阵的偏移值;而逆向循环层的隐状态
Figure FDA0002655626940000016
取决于下一关键词的隐状态
Figure FDA0002655626940000017
和输入
Figure FDA0002655626940000018
Figure FDA0002655626940000019
其中,Ub表示逆向循环中隐藏层与各门之间的权值参数矩阵,Wib表示逆向循环中输入门与各门之间的权值参数矩阵,bb表示逆向权值矩阵的偏移值;则第一层的输出
Figure FDA00026556269400000110
为:
Figure FDA00026556269400000111
其中,Wfo表示前向循环中输出门与各门之间的权值参数矩阵,Wbo表示逆向循环中输出门与各门之间的权值参数矩阵;
模型每一层的网络结构相同,将第一层的输出作为第二层的输入,第二层的输出作为第三层的输入,以此类推,最后用softmax分类器进行分类;整个网络最后的输出的结果为输入违章记录的违章类别。
4.如权利要求1所述基于深度双向语言文本处理网络的违章分类方法,其特征在于,所述深度双向语言文本处理网络共128层。
CN202010886124.XA 2020-08-28 2020-08-28 一种基于深度双向语言文本处理网络的违章分类方法 Pending CN112084332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010886124.XA CN112084332A (zh) 2020-08-28 2020-08-28 一种基于深度双向语言文本处理网络的违章分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010886124.XA CN112084332A (zh) 2020-08-28 2020-08-28 一种基于深度双向语言文本处理网络的违章分类方法

Publications (1)

Publication Number Publication Date
CN112084332A true CN112084332A (zh) 2020-12-15

Family

ID=73729702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010886124.XA Pending CN112084332A (zh) 2020-08-28 2020-08-28 一种基于深度双向语言文本处理网络的违章分类方法

Country Status (1)

Country Link
CN (1) CN112084332A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686762A (zh) * 2020-12-25 2021-04-20 中国平安人寿保险股份有限公司 保单数据违规检测方法、装置、计算机设备及存储介质
CN112686762B (zh) * 2020-12-25 2024-05-28 中国平安人寿保险股份有限公司 保单数据违规检测方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570170A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570170A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
COFISHE: "循环神经网络原理 -- GRU、LSTM、深度循环神经网络、双向循环神经网络", 《HTTPS://BLOG.CSDN.NET/QQ_36758914/ARTICLE/DETAILS/105045567》 *
龚千健: "基于循环神经网络模型的文本分类", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686762A (zh) * 2020-12-25 2021-04-20 中国平安人寿保险股份有限公司 保单数据违规检测方法、装置、计算机设备及存储介质
CN112686762B (zh) * 2020-12-25 2024-05-28 中国平安人寿保险股份有限公司 保单数据违规检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN107239529B (zh) 一种基于深度学习的舆情热点类别划分方法
CN106895975B (zh) 基于Stacked SAE深度神经网络的轴承故障诊断方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN111259947A (zh) 一种基于多模态学习的电力系统故障预警方法和系统
CN110837866A (zh) 基于XGBoost的电力二次设备缺陷程度评估方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN112990656A (zh) 一种it设备监测数据的健康评价系统及健康评价方法
CN112682273B (zh) 基于代价敏感轻量级梯度提升机的风电机组故障检测方法
CN112734154A (zh) 一种基于模糊数相似度的多因素舆情风险评估方法
CN102426585A (zh) 一种基于贝叶斯网络的网页自动分类方法
CN115238197B (zh) 一种基于专家思维模型的领域业务辅助分析方法
CN115419558A (zh) 一种风电机组运行状态评估方法及装置
CN110909542A (zh) 智能语义串并分析方法及系统
CN112884179A (zh) 基于机器故障和文本主题分析的城轨折返故障诊断方法
Kim et al. EnvBERT: multi-label text classification for imbalanced, noisy environmental news data
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN112084332A (zh) 一种基于深度双向语言文本处理网络的违章分类方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN113326371B (zh) 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
Zhou et al. A review of a text classification technique: K-Nearest Neighbor
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN111582622B (zh) 基于自然语言处理方法的空中交通管理系统危险分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201215

RJ01 Rejection of invention patent application after publication