CN115994216A - 电力运检故障文本分类方法及系统和设备 - Google Patents

电力运检故障文本分类方法及系统和设备 Download PDF

Info

Publication number
CN115994216A
CN115994216A CN202211087826.7A CN202211087826A CN115994216A CN 115994216 A CN115994216 A CN 115994216A CN 202211087826 A CN202211087826 A CN 202211087826A CN 115994216 A CN115994216 A CN 115994216A
Authority
CN
China
Prior art keywords
power operation
text
fault
fault text
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211087826.7A
Other languages
English (en)
Inventor
蔺家骏
李晨
闫玮丹
郭炳延
杨智
金凌峰
齐冬莲
闫云凤
金汪奥博
于兵
林浩凡
邵先军
郑一鸣
韩亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Zhejiang University ZJU
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202211087826.7A priority Critical patent/CN115994216A/zh
Publication of CN115994216A publication Critical patent/CN115994216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了电力运检故障文本分类方法及系统和设备,属于电力运检故障分类技术领域。现有的电力运检故障文本分类技术,具有成本高、难以迁移的缺点,难以用于实际。本发明的电力运检故障文本分类方法,通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理。

Description

电力运检故障文本分类方法及系统和设备
技术领域
本发明涉及电力运检故障文本分类方法及系统和设备,属于电力运检故障分类技术领域。
背景技术
电站和输电设备的运行操作、维护检修以及改造换代等工作,每年会产生大量不同类型的数据,比如停电记录清单等结构化数据、故障报告等半结构化数据和运行规程等非结构化数据。由于电力运检领域数据多样化、复杂化、孤岛化,运检人员查找资料耗时较长,运检工作对专家经验依赖较大。因此,提升变电站运检工作的数字化、智能化具有十分重大意义。
在运检人员发现设备异常时,按工作规范要求需填写故障报告,描述故障实际情况,并归纳故障类型。虽然运检部门有详细的故障归类导则文件,但很多现场运检人员并没有看过或者并不清楚导则文件的内容,所以常常发生故障类型与故障描述不对应的情况,对后续专家检修以及之后电力数据整理与规范造成很大影响。因此,根据运检工作人员对故障的描述,智能辅助系统能够自动填写故障类型或给出故障类型置信度,对实际运检生产具有重要作用。
文本分类是自然语言处理(Natural Language Processing,NLP)中一项经典且重要的任务,是许多现实应用的必要基础,比如情感分类、垃圾邮件识别、新闻主题分类等。目前,文本分类主要分为机器学习和深度学习两类方法。在大数据时代背景下,深度学习相比机器学习具有自动提取特征、准确度较高等优势,是研究的热点与重心。
文本分类虽然有很多性能优秀的算法,但其中绝大多数算法使用通用语料库进行评估,如果用电力运检故障文本测试,分类准确率、召回率、F1值都很低,效果十分不理想,这是因为电力运检故障文本中含有大量专业术语,通用文本分类算法无法学习或识别专业术语特征,进而无法分辨电力运检故障文本类别。因此,为了实现电力运检故障文本精准分类,需要能够学习专业领域术语特征的分类算法,即针对电力运检故障文本的分类算法。
但是现有的故障分析方法中,如果预先训练的语言模型或分类模型效果不理想,那么最后分类结果都会受到很大影响,并且前期语言模型和分类模型的训练会花费很长时间、占用大量算力;此外,每种文本类型都需要相对应不同参数的语言模型,已训练好的语言模型很难迁移。因此,现有的电力运检故障文本分类技术,具有成本高、难以迁移的缺点,并难以用于实际。
发明内容
针对现有技术的缺陷,本发明的目的一在于提供一种通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,捕捉大量邻点特征信息,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行的电力运检故障文本分类方法及系统和设备。
本发明的目的二在于提供一种利用规则提取模型、故障文本网图模型,能够学习电力运检故障文本中专业术语特征,从而提高模型对电力运检故障文本的辨识能力的电力运检故障文本分类方法。
本发明的目的三在于提供一种图卷积神经网络模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,解决了目前已有方案计算成本高、难以迁移的问题,促进了电力运检故障文本分类的实际应用的电力运检故障文本分类方法。
本发明的目的四在于提供一种通过设置规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块,得到故障文本网图,并对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;然后将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行的电力运检故障文本分类系统。
为实现上述目的之一,本发明的第一种技术方案为:
电力运检故障文本分类方法,
包括以下内容:
获取电力运检故障文本;
构建规则提取模型,对电力运检故障文本进行知识提取,得到特征词:
构建故障文本网图模型,对特征词进行处理,得到故障文本网图;
构建图卷积神经网络模型,利用图卷积神经网络,对故障文本网图进行迭代训练,得到文本特征矩阵;其中,文本特征矩阵包括若干行特征向量;特征向量的维度为故障类别数,特征向量的每个值为对应故障类别的置信概率;
选取特征向量中的最大值,作为分类置信概率;
将分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。
本发明经过不断探索以及试验,通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,捕捉大量邻点特征信息,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,能够识别并学习专业词汇特征,提高对电力运检故障文本类别的辨识能力,具有强专业性的优点;同时利用图卷积神经网络,对故障文本网图进行迭代训练,得到分类结果,无需使用预训练的语言模型和分类模型,具有成本低、易于迁移的优点,并提高了对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。
进一步,本发明是针对电力运检故障文本的分类方法,利用规则提取模型、故障文本网图模型,能够学习电力运检故障文本中专业术语特征,从而提高模型对电力运检故障文本的辨识能力。
更进一步,本发明的图卷积神经网络模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,并且利用多层图卷积神经网络可以让信息在节点间多次传递,使模型能够捕捉到更多邻点的特征信息,增加对电力运检故障文本的语义解释,从而改善电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,从而有效解决了目前已有方案计算成本高、难以迁移的问题,促进了电力运检故障文本分类的实际应用。
作为优选技术措施:
电力运检故障文本包括训练集、验证集、待分类电力运检故障文本集。
作为优选技术措施:
规则提取模型的构建方法如下:
构建专用电气词汇表;
利用专用电气词汇表,对自然语言处理NLP工具的语料库进行扩充;
利用自然语言处理NLP工具对电力运检故障文本进行分词,得到电力运检故障文本词汇;
对电力运检故障文本词汇,进行清洗和去除停用词,得到一串特征词,从而构建规则提取模型;
其中,特征词为由电力运检故障文本中的若干电力运检故障文本词汇组成的对应集合。
作为优选技术措施:
故障网网图模型为:G=(V,E),V(|V|=n)是节点的集合,E是无向边的集合,|V|为节点数量,节点数量是电力运检故障文本数与特征词数量之和;
故障文本网图模型的构建方法如下:
根据特征词和电力运检故障文本,构建节点;
根据节点三种类型,构建节点间无向边;
根据电力运检故障文本中特征词的词频统计结果、共现词信息,计算无向边的权重,即边权值;
根据节点间边权值,构建邻接矩阵
Figure BDA0003835891150000041
表示故障文本网图模型的结构特征。
作为优选技术措施:
无向边包括无向边一、无向边二、无向边三、无向边四;
无向边一为电力运检故障文本与电力运检故障文本之间的边,其权重为边权一;
无向边二为电力运检故障文本与特征词之间的边,其权重为边权二;
无向边三为特征词与特征词之间的边,其权重为边权三;
无向边四,用于加快模型收敛速度,其权重为边权四,所述边权四的取值直接为1。
作为优选技术措施:
边权一为电力运检故障文本之间的文本相似度,其通过TextRank算法计算得到;
边权二为特征词对于所属电力运检故障文本的重要程度,其通过词频-倒排文档频次TF-IDF算法得到;
边权三为两个特征词间的关联度,其利用共现词信息,使用固定大小的滑动窗口在电力运检故障文本的语料库中进行收集,然后用逐点交互信息法PMI计算特征词与特征词间的边权值,得到两个特征词间的关联度。
作为优选技术措施:
边权一的计算公式如下:
Figure BDA0003835891150000042
其中,i、j为两个电力运检故障文本,w是同时出现在两个电力运检故障文本中的词;
边权二的计算公式如下:
Figure BDA0003835891150000043
其中,i是特征词,j是电力运检故障文本,nij为特征词i在电力运检故障文本j中出现的次数,|D|为电力运检故障文本总数,dk为遍历的电力运检故障文本,k是遍历的序号,用于遍历语料库所有电力运检故障文本;
边权三的计算公式如下:
Figure BDA0003835891150000051
其中,i、j为两个特征词,Nsw(i)是在语料库中包含特征词i的滑窗数,Nsw(j)是在语料库中包含特征词j的滑窗数,Nsw(i,j)同时包含两个特征词的滑窗数,Nsw是语料库滑窗总数;
如果PMI>0,表示两个特征词间有着高度关联度;
如果PMI<0,则表示两个特征词间关联度很小或不相关;
边权一、边权二、边权三、边权四,形成节点i与节点j之间的边权,其计算公式如下:
Figure BDA0003835891150000052
其中,i、j分别为节点。
作为优选技术措施:
图卷积神经网络模型的构建方法如下:
利用图数据对图卷积神经网络进行训练,以捕捉到预设数量的邻点的特征信息,从而构建规则提取模型,其计算公式如下:
Figure BDA0003835891150000053
其中,
Figure BDA0003835891150000054
为归一化后的邻接矩阵,A是邻接矩阵,D为故障文本网图的度矩阵,ρ为网络激活函数,ρ(x)=max(0,x),j为图卷积层数,Wj为第j层权重矩阵,L(j)为第j层特征矩阵,L(j+1)为第j+1层特征矩阵,当j=0时,L(0)=X为初始特征矩阵;
在训练过程中,使用梯度下降法优化权重矩阵W,损失函数为交叉熵损失函数,其计算公式如下:
Figure BDA0003835891150000055
其中,
Figure BDA0003835891150000056
是交叉熵损失函数,
Figure BDA0003835891150000057
是带标签的电力运检故障文本的索引集合,F是输出特征向量维度,即故障类别数,Ydf是标签指标矩阵,Zdf是网络输出矩阵;
Figure BDA0003835891150000061
为文本特征矩阵,其每一行
Figure BDA0003835891150000062
为节点v的特征向量,m是特征向量的维度;D为故障文本网图的度矩阵,其中,Dii=∑jAij
为实现上述目的之一,本发明的第二种技术方案为:
电力运检故障文本分类系统,
采用上述的电力运检故障文本分类方法;
其包括:规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块;
规则提取模块,用于提取电力运检故障文本的知识,得到特征词:
故障文本网图模块,用于对特征词进行处理,得到故障文本网图;
图卷积神经网络模块,用于对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;
分类处理模块,用于将分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。
本发明经过不断探索以及试验,通过设置规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块,得到故障文本网图,并对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;然后将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。
为实现上述目的之一,本发明的第三种技术方案为:
电力运检故障文本分类设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的电力运检故障文本分类方法。
与现有技术相比,本发明具有以下有益效果:
本发明经过不断探索以及试验,通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,捕捉大量邻点特征信息,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。
进一步,本发明是针对电力运检故障文本的分类方法,利用规则提取模型、故障文本网图模型,能够学习电力运检故障文本中专业术语特征,从而提高模型对电力运检故障文本的辨识能力。
更进一步,本发明的图卷积神经网络模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,解决了目前已有方案计算成本高、难以迁移的问题,促进了电力运检故障文本分类的实际应用。
再进一步,本发明经过不断探索以及试验,通过设置规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块,得到故障文本网图,并对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;然后将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。
附图说明
图1为本发明电力运检故障文本分类方法的一种流程图。
图2为本发明电力运检故障文本分类方法的另一种流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。
本发明电力运检故障文本分类方法的第一种具体实施例:
电力运检故障文本分类方法,包括以下内容:
获取电力运检故障文本;
构建规则提取模型,对电力运检故障文本进行知识提取,得到特征词:
构建故障文本网图模型,对特征词进行处理,得到故障文本网图;
构建图卷积神经网络模型,利用图卷积神经网络,对故障文本网图进行迭代训练,得到文本特征矩阵;
所述文本特征矩阵包括若干行特征向量;
所述特征向量的维度为故障类别数,特征向量的每个值为对应故障类别的置信概率;
选取特征向量中的最大值,作为分类置信概率;
将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类。
如图1所示,本发明电力运检故障文本分类方法的第二种具体实施例:
电力运检故障文本分类方法,包括以下步骤:
第一步,获取电力运检故障文本;
第二步,构建规则提取模型,对第一步中的电力运检故障文本进行知识提取,得到特征词:
第三步,构建故障文本网图模型,对第二步中的特征词进行处理,得到故障文本网图;
第四步,构建图卷积神经网络模型,利用图卷积神经网络,对第三步中的故障文本网图进行迭代训练,得到文本特征矩阵;其中:
所述文本特征矩阵包括若干行特征向量;
所述特征向量的维度为故障类别数,特征向量的每个值为对应故障类别的置信概率;
第五步,选取第四步中的特征向量中的最大值,作为分类置信概率;
第六步,将第五步中的分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。
本发明规则提取模型的一种具体实施例:
所述规则提取模型的构建方法如下:
步骤21,通过人工或机器学习构建专用电气词汇表;
步骤22,利用步骤21中的专用电气词汇表,对自然语言处理NLP工具的语料库进行扩充;
步骤23,利用步骤22中的自然语言处理NLP工具对电力运检故障文本进行分词,得到电力运检故障文本词汇;
步骤24,对步骤23中的电力运检故障文本词汇,进行清洗和去除停用词,得到一串特征词,从而构建规则提取模型;
其中,所述特征词为由电力运检故障文本中的若干电力运检故障文本词汇组成的对应集合。
本发明故障文本网图模型的一种具体实施例:
故障网网图模型为:G=(V,E),V(|V|=n)是节点的集合,E是无向边的集合,|V|为节点数量,节点数量是电力运检故障文本数与特征词数量之和。
所述第三步中,故障文本网图模型的构建方法如下:
步骤31,根据特征词和电力运检故障文本,构建节点;
步骤32,根据步骤31中节点三种类型,构建节点间无向边;
步骤33,根据电力运检故障文本中特征词的词频统计结果、共现词信息,计算步骤32中无向边的权重,即边权值;
步骤34,根据步骤33中节点间边权值,构建邻接矩阵
Figure BDA0003835891150000092
表示故障文本网图模型的结构特征;
建立故障文本网图。
本发明无向边的一种具体实施例:
邻接矩阵利用无向边的权重进行构建;
无向边包括无向边一、无向边二、无向边三、无向边四;
无向边一为电力运检故障文本与电力运检故障文本之间的边,其权重为边权一;
无向边二为电力运检故障文本与特征词之间的边,其权重为边权二;
无向边三为特征词与特征词之间的边,其权重为边权三;
无向边四,用于加快模型收敛速度,其权重为边权四,所述边权四的取值直接为1。
本发明计算边权的一种具体实施例:
边权一为电力运检故障文本之间的文本相似度,其通过TextRank算法计算得到,其计算公式如下:
Figure BDA0003835891150000091
其中,i、j为两个电力运检故障文本,w是同时出现在两个电力运检故障文本中的词;
所述边权二为在电力运检故障文本中特征词的词频统计结果,其通过词频-倒排文档频次TF-IDF算法得到,其计算公式如下:
Figure BDA0003835891150000101
其中,i是特征词,j是电力运检故障文本,nij为特征词i在电力运检故障文本j中出现的次数,|D|为电力运检故障文本总数,d为遍历的电力运检故障文本,k是遍历的序号,用于遍历语料库所有电力运检故障文本。
词频是指电力运检故障文本中特征词出现的频率,倒排文档频次是将总电力运检故障文本数与包括该特征词的电力运检故障文本数之商取对数而得到;
所述边权三为两个特征词间的关联度,其利用共现词信息,使用固定大小的滑动窗口在电力运检故障文本的语料库中进行收集,然后用逐点交互信息法PMI计算特征词与特征词间的边权值,得到两个特征词间的关联度,其计算公式如下:
Figure BDA0003835891150000102
其中,i、j为两个特征词,Nsw(i)是在语料库中包含特征词i的滑窗数,Nsw(j)是在语料库中包含特征词j的滑窗数,Nsw(i,j)同时包含两个特征词的滑窗数,Nsw是语料库滑窗总数。
如果PMI>0,表示两个特征词间有着高度关联度;
如果PMI<0,则表示两个特征词间关联度很小或不相关。
所述边权一、边权二、边权三、边权四,形成节点i与节点j之间的边权,其计算公式如下:
Figure BDA0003835891150000103
其中,i、j分别为节点。
本发明图卷积神经网络模型的一种具体实施例:
图卷积神经网络模型的构建方法如下:
利用图数据对图卷积神经网络进行训练;
图卷积神经网络为在图数据中进行训练的多层神经网络,用于捕捉到更多邻点的特征信息,其计算公式如下:
Figure BDA0003835891150000111
其中,
Figure BDA0003835891150000112
为归一化后的邻接矩阵,A是邻接矩阵,D为故障文本网图的度矩阵,ρ为网络激活函数,ρ(x)=max(0,x),j为图卷积层数,Wj为第j层权重矩阵,L(j)为第j层特征矩阵,L(j+1)为第j+1层特征矩阵,当j=0时,L(0)=X为初始特征矩阵;
在训练过程中,使用梯度下降法优化权重矩阵W,损失函数为交叉熵损失函数,其计算公式如下:
Figure BDA0003835891150000113
其中,
Figure BDA0003835891150000114
是交叉熵损失函数,
Figure BDA0003835891150000115
是带标签的电力运检故障文本的索引集合,F是输出特征向量维度,即故障类别数,Ydf是标签指标矩阵,Zdf是网络输出矩阵;
Figure BDA0003835891150000116
为文本特征矩阵,其每一行
Figure BDA0003835891150000117
为节点v的特征向量,m是特征向量的维度;D为故障文本网图的度矩阵,其中,Dii=∑jAij
本发明电力运检故障文本分类系统的一种具体实施例:
电力运检故障文本分类系统,采用上述的电力运检故障文本分类方法;
其包括:规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块;
所述规则提取模块,用于提取电力运检故障文本的知识,得到特征词:
所述故障文本网图模块,用于对特征词进行处理,得到故障文本网图;
所述图卷积神经网络模块,用于对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;
所述分类处理模块,用于将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类。
如图2所示,本发明电力运检故障文本分类方法的第三种具体实施例:
电力运检故障文本分类方法,包括以下内容:
(1)输入电力运检故障文本;
(2)基于规则的知识提取;
(3)搭建大型故障文本网图;
(4)将大型故障文本网图送入图卷积神经网络模型,并进行迭代训练;
(5)电力运检故障文本特征矩阵类别对齐;
(6)输出待分类电力运检故障文本类型。
本发明电力运检故障文本的一种具体实施例:
所述电力运检故障文本至少包括:训练集、验证集、待分类电力运检故障文本集。
本发明基于规则的知识提取的一种具体实施例:
所述基于规则的知识提取至少包括:文本分词、文本清洗、去除停用词,最后将电力运检故障文本简化为一串特征词。
本发明文本分词方法的一种具体实施例:
所述基于规则的知识提取中文本分词方法至少包括:通过人工标注构建专用电气词汇表来扩充NLP工具的语料库,实现对电力运检故障文本的精准分词。
本发明故障文本网图的一种具体实施例:
对于所述故障文本网图:
(1)节点包括电力运检故障文本和特征词;
(2)边包括自环和不同节点间的无向边;
(3)自环边权为1;
(4)电力运检故障文本与电力运检故障文本节点间的边权由TextRank算法计算;
(5)电力运检故障文本与特征词节点间的边权由TF-IDF算法计算;
(6)特征词与特征词节点间的边权由PMI算法计算。
本发明卷积神经网络模型的一种具体实施例:
所述图卷积神经网络模型的激活函数至少包括:ReLU、Softmax。
线性整流函数ReLU(x)=max(0,x);
非线性函数Softmax一般作用于网络最后一层,Softmax(xi)=exp(xi)/∑jexp(xj),
其中,Softmax是非线性函数,假设输入序列为x,第i个元素对应的输出值为
Figure BDA0003835891150000121
其中,j为遍历输入序列的序号。
所述图卷积神经网络模型的层数至少为一层。
本发明特征矩阵类别对齐方法的一种具体实施例:
所述特征矩阵类别对齐方法至少包括:选取特征向量中最大值对应的类别。
本发明电力运检故障文本分类方法的第四种具体实施例:
电力运检故障文本分类方法,包括以下内容:
(1)输入电力运检故障文本,包括训练集、验证集、待分类电力运检故障文本集。
(2)基于规则的知识提取:
由于电气领域有很多专用词汇,比如“接地”、“拉闸”、“渗油”等,一般通用自然语言处理(NLP)工具都几乎无法对电气文本进行分词、词性标注、命名实体识别等通用处理,而本发明的算法需要得到电力运检故障文本中对应的词汇,即需要对电力运检故障文本进行分词。因此,采用通过人工标注构建专用电气词汇表的方式,扩充NLP工具的语料库,从而实现对电力运检故障文本的精准分词。
由于电气运检电力运检故障文本是工作人员现场记录的内容,有很多错字和口头(非正式)语言,所以需要进行前期文本清洗以及去除停用词。
在经过分词、清洗和去除停用词后,便可以得到由电力运检故障文本中带有重要信息词汇组成的对应集合,即将电力运检故障文本简化为一串特征词,例如将电力运检故障文本“A变#2主变本体油枕下方呼吸器硅胶变色。”简化为“A变主变本体油枕下方呼吸器硅胶变色”。
(3)搭建大型故障文本网图:
定义故障文本网图G=(V,E),其中V(|V|=n)是节点集合,E是边的集合。
故障文本网图中的节点为电力运检故障文本和特征词,节点数量|V|为电力运检故障文本数与特征词数量之和。
根据词频统计和共现词信息,分别为电力运检故障文本与电力运检故障文本、电力运检故障文本与特征词、特征词与特征词节点间搭建无向边。定义故障文本网图邻接矩阵
Figure BDA0003835891150000131
电力运检故障文本与电力运检故障文本节点间的边权是TextRank算法计算的文本相似度,公式如下:
Figure BDA0003835891150000132
其中,i、j为两个电力运检故障文本,w是同时出现在两个电力运检故障文本中的词。
电力运检故障文本与特征词节点间的边权为在电力运检故障文本中特征词的词频-倒排文档频次(term frequency–inverse document frequency,TF-IDF),其中,词频是指电力运检故障文本中特征词出现的频率,倒排文档频次是将总电力运检故障文本数与包含该特征词的电力运检故障文本数之商取对数而得到,具体公式如下:
Figure BDA0003835891150000133
其中,i是特征词,j是电力运检故障文本,nij为特征词i在电力运检故障文本j中出现的次数,|D|为电力运检故障文本总数,d为遍历的电力运检故障文本。
为了利用共现词信息,使用固定大小的滑动窗口在电力运检故障文本语料库中收集共现词统计信息,然后用逐点交互信息法(point-wise mutual information,PMI)计算特征词与特征词间的边权值,即衡量两个特征词间的关联度,公式如下:
Figure BDA0003835891150000141
其中,i、j为两个特征词,Nsw(i)、Nsw(j)分别是在语料库中包含特征词i、j的滑窗数,Nsw(i,j)是同时包含两个特征词的滑窗数,Nsw是语料库滑窗总数。如果PMI>0,表示两个特征词间有着高度关联度;如果PMI<0,则表示两个特征词间关联度很小,甚至是不相关。因此,本发明的算法只为PMI>0的两个特征词搭建无向边。
为了加快模型收敛速度,设置故障文本网图节点自连接,邻接矩阵A中对角线置为1。根据上面分析,可以得到节点i与节点j之间的边权:
Figure BDA0003835891150000142
(4)将大型故障文本网图送入图卷积神经网络模型,并进行迭代训练:
图卷积神经网络(Graph Convolutional Neural Networks,GCNN)是一种在图数据中进行训练的多层神经网络,输出的是带有邻点属性的节点特征向量。
记故障文本网图特征矩阵
Figure BDA0003835891150000143
每一行
Figure BDA0003835891150000144
为节点v的特征向量,m是特征向量的维度;D为故障文本网图的度矩阵,其中,Dii=∑jAij
在图卷积神经网络中,一层图卷积神经只能捕捉直接相连节点的信息,而将多层堆叠起来便能够捕捉到更多邻点的信息。对于一层图卷积神经网络,k维节点特征矩阵
Figure BDA0003835891150000145
的计算公式:
Figure BDA0003835891150000146
其中,
Figure BDA0003835891150000147
为归一化后的邻接矩阵,
Figure BDA0003835891150000148
是权重矩阵,ρ为网络激活函数,比如线性整流函数ReLU(x)=max(0,x)、非线性函数Softmax(xi)=exp(xi)/∑jexp(xj),一般Softmax函数作用于网络最后一层。通过堆叠多层图卷积,可以捕捉到更高阶的邻点信息:
Figure BDA0003835891150000151
其中,L(0)=X,j为图卷积层数,模型输出特征向量的维度为电力运检故障文本类别数。
在训练过程中,使用梯度下降法优化权重矩阵W,损失函数为交叉熵损失函数:
Figure BDA0003835891150000152
其中,
Figure BDA0003835891150000153
是带标签电力运检故障文本索引集合,F是输出特征向量维度,即故障类别数,Y是标签指标矩阵,Z是网络输出矩阵。
多层图卷积神经网络可以让信息在节点间多次传递,使模型能够捕捉到更多邻点的特征信息,增加对电力运检故障文本的语义解释,从而改善电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,但过多层图卷积神经网络堆叠可能导致模型过拟合,降低文本分类效果。
(5)电力运检故障文本特征矩阵类别对齐:
在模型迭代训练结束后,输出的特征矩阵每一行特征向量的维度是故障类别数,特征向量每个值为对应故障类别的置信概率,如果值越高,则该类别为电力运检故障文本所属类别的可能性越高。因此,将特征向量最大值对应的故障类别记为该电力运检故障文本的类别。
(6)输出待分类电力运检故障文本类型。
文本分类虽然有很多性能优秀的算法,但绝大多数文本分类算法由于无法学习专业术语词汇,并不适用于电力运检故障文本。
因此,本发明针对电力运检故障文本提出基于图卷积神经网络的文本分类算法,能够识别并学习专业词汇特征,提高对电力运检故障文本类别的辨识能力,具有强专业性的优点。
目前,只有一种针对电力运检故障文本的分类算法,该算法属于pipeline模型,需使用预训练的语言模型和分类模型,具有成本高、难以迁移的缺点,难以用于实际。本发明提出的算法属于灰箱模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,具有成本低、易于迁移的优点,促进了电力运检故障文本分类的实际应用。
此外,本发明提出的算法构建了大型故障文本网图,并利用图卷积神经网络模型进行训练,捕捉大量邻点特征信息,增加对电力运检故障文本的语义解释,从而改善电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力。
应用本发明方法的一种设备实施例:
一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的电力运检故障文本分类方法。
应用本发明方法的一种计算机介质实施例:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的电力运检故障文本分类方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.电力运检故障文本分类方法,其特征在于,
包括以下内容:
获取电力运检故障文本;
构建规则提取模型,对电力运检故障文本进行知识提取,得到特征词:
构建故障文本网图模型,对特征词进行处理,得到故障文本网图;
构建图卷积神经网络模型,利用图卷积神经网络,对故障文本网图进行迭代训练,得到文本特征矩阵;其中,文本特征矩阵包括若干行特征向量;特征向量的维度为故障类别数,特征向量的每个值为对应故障类别的置信概率;
选取特征向量中的最大值,作为分类置信概率;
将分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。
2.如权利要求1所述的电力运检故障文本分类方法,其特征在于,
电力运检故障文本包括训练集、验证集、待分类电力运检故障文本集。
3.如权利要求1所述的电力运检故障文本分类方法,其特征在于,
规则提取模型的构建方法如下:
构建专用电气词汇表;
利用专用电气词汇表,对自然语言处理NLP工具的语料库进行扩充;
利用自然语言处理NLP工具对电力运检故障文本进行分词,得到电力运检故障文本词汇;
对电力运检故障文本词汇,进行清洗和去除停用词,得到一串特征词,从而构建规则提取模型;
其中,特征词为由电力运检故障文本中的若干电力运检故障文本词汇组成的对应集合。
4.如权利要求1所述的电力运检故障文本分类方法,其特征在于,
故障网网图模型为:G=(V,E),V(|V|=n)是节点的集合,E是无向边的集合,|V|为节点数量,节点数量是电力运检故障文本数与特征词数量之和;
故障文本网图模型的构建方法如下:
根据特征词和电力运检故障文本,构建节点;
根据节点三种类型,构建节点间无向边;
根据电力运检故障文本中特征词的词频统计结果、共现词信息,计算无向边的权重,即边权值;
根据节点间边权值,构建邻接矩阵
Figure FDA0003835891140000021
表示故障文本网图模型的结构特征。
5.如权利要求4所述的电力运检故障文本分类方法,其特征在于,
邻接矩阵利用无向边的权重进行构建;
无向边包括无向边一、无向边二、无向边三、无向边四;
无向边一为电力运检故障文本与电力运检故障文本之间的边,其权重为边权一;
无向边二为电力运检故障文本与特征词之间的边,其权重为边权二;
无向边三为特征词与特征词之间的边,其权重为边权三;
无向边四,用于加快模型收敛速度,其权重为边权四,所述边权四的取值直接为1。
6.如权利要求5所述的电力运检故障文本分类方法,其特征在于,
边权一为电力运检故障文本之间的文本相似度,其通过TextRank算法计算得到;
边权二为特征词对于所属电力运检故障文本的重要程度,其通过词频-倒排文档频次TF-IDF算法得到;
边权三为两个特征词间的关联度,其利用共现词信息,使用固定大小的滑动窗口在电力运检故障文本的语料库中进行收集,然后用逐点交互信息法PMI计算特征词与特征词间的边权值,得到两个特征词间的关联度。
7.如权利要求6所述的电力运检故障文本分类方法,其特征在于,
边权一的计算公式如下:
Figure FDA0003835891140000022
其中,i、j为两个电力运检故障文本,w是同时出现在两个电力运检故障文本中的词;
边权二的计算公式如下:
Figure FDA0003835891140000023
其中,i是特征词,j是电力运检故障文本,nij为特征词i在电力运检故障文本j中出现的次数,|D|为电力运检故障文本总数,dk为遍历的电力运检故障文本,k是遍历的序号,用于遍历语料库所有电力运检故障文本;
边权三的计算公式如下:
Figure FDA0003835891140000031
其中,i、j为两个特征词,Nsw(i)是在语料库中包含特征词i的滑窗数,Nsw(j)是在语料库中包含特征词j的滑窗数,Nsw(i,j)同时包含两个特征词的滑窗数,Nsw是语料库滑窗总数;
如果PMI>0,表示两个特征词间有着高度关联度;
如果PMI<0,则表示两个特征词间关联度很小或不相关;
边权一、边权二、边权三、边权四,形成节点i与节点j之间的边权,其计算公式如下:
Figure FDA0003835891140000032
其中,i、j分别为节点。
8.如权利要求7所述的电力运检故障文本分类方法,其特征在于,
图卷积神经网络模型的构建方法如下:
利用图数据对图卷积神经网络进行训练,以捕捉到预设数量的邻点的特征信息,从而构建规则提取模型,其计算公式如下:
Figure FDA0003835891140000033
其中,
Figure FDA0003835891140000034
为归一化后的邻接矩阵,A是邻接矩阵,D为故障文本网图的度矩阵,ρ为网络激活函数,ρ(x)=max(0,x),j为图卷积层数,Wj为第j层权重矩阵,L(j)为第j层特征矩阵,L(j+1)为第j+1层特征矩阵,当j=0时,L(0)=X为初始特征矩阵;
在训练过程中,使用梯度下降法优化权重矩阵W,损失函数为交叉熵损失函数,其计算公式如下:
Figure FDA0003835891140000041
其中,
Figure FDA0003835891140000042
是交叉熵损失函数,
Figure FDA0003835891140000043
是带标签的电力运检故障文本的索引集合,F是输出特征向量维度,即故障类别数,Ydf是标签指标矩阵,Zdf是网络输出矩阵;
Figure FDA0003835891140000044
为文本特征矩阵,其每一行
Figure FDA0003835891140000045
为节点v的特征向量,m是特征向量的维度;D为故障文本网图的度矩阵,其中,Dii=∑jAij
9.电力运检故障文本分类系统,其特征在于,
采用如权利要求1-8任一所述的电力运检故障文本分类方法;
其包括:规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块;
规则提取模块,用于提取电力运检故障文本的知识,得到特征词:
故障文本网图模块,用于对特征词进行处理,得到故障文本网图;
图卷积神经网络模块,用于对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;
分类处理模块,用于将分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。
10.电力运检故障文本分类设备,其特征在于,
包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如权利要求1-8任一所述的电力运检故障文本分类方法。
CN202211087826.7A 2022-09-07 2022-09-07 电力运检故障文本分类方法及系统和设备 Pending CN115994216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211087826.7A CN115994216A (zh) 2022-09-07 2022-09-07 电力运检故障文本分类方法及系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211087826.7A CN115994216A (zh) 2022-09-07 2022-09-07 电力运检故障文本分类方法及系统和设备

Publications (1)

Publication Number Publication Date
CN115994216A true CN115994216A (zh) 2023-04-21

Family

ID=85994297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211087826.7A Pending CN115994216A (zh) 2022-09-07 2022-09-07 电力运检故障文本分类方法及系统和设备

Country Status (1)

Country Link
CN (1) CN115994216A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN113961708A (zh) * 2021-11-10 2022-01-21 北京邮电大学 一种基于多层次图卷积网络的电力设备故障溯源方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN113961708A (zh) * 2021-11-10 2022-01-21 北京邮电大学 一种基于多层次图卷积网络的电力设备故障溯源方法

Similar Documents

Publication Publication Date Title
US11656298B2 (en) Deep parallel fault diagnosis method and system for dissolved gas in transformer oil
CN113283027B (zh) 一种基于知识图谱和图神经网络的机械故障诊断方法
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN107798624B (zh) 一种软件问答社区中的技术标签推荐方法
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN111767397A (zh) 一种电力系统二次设备故障短文本数据分类方法
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111552803A (zh) 一种基于图小波网络模型的文本分类方法
CN112419096B (zh) 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法
CN110895565A (zh) 一种电力设备故障缺陷文本分类方法与系统
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111767398A (zh) 基于卷积神经网络的二次设备故障短文本数据分类方法
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN113268370B (zh) 一种根因告警分析方法、系统、设备及存储介质
CN114417913B (zh) 基于pc-tcn和迁移学习的轴承寿命预测方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116484262B (zh) 一种基于文本分类对纺织设备故障辅助处理方法
CN116910633B (zh) 一种基于多模态知识混合推理的电网故障预测方法
CN112699244A (zh) 基于深度学习的输变电设备缺陷文本分类方法及系统
CN111783464A (zh) 一种面向电力的领域实体识别方法、系统及存储介质
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN116522912B (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN117852541A (zh) 一种实体关系三元组抽取方法、系统及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination