CN114970508A

CN114970508A - 基于数据多源融合的电力文本知识发现方法及设备

Info

Publication number: CN114970508A
Application number: CN202210535149.4A
Authority: CN
Inventors: 李晨; 蔺家骏; 王雅雯; 蒋晨; 张博文; 马国明; 刘黎; 王劭鹤
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-30

Abstract

本发明公开了基于数据多源融合的电力文本知识发现方法及设备，属于电力设备技术领域。本发明的基于数据多源融合的电力文本知识发现方法，通过构建文本数据提取模型、规则引擎判断模型、图数据挖掘模型，能从电力自然语言数据及电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，并能判断出故障部位及原因；同时实现至少两种文本类型的多源融合，为电力设备故障诊断提供更精准的辅助决策，降低了对运维人员的文本记录信息质量要求，方案科学、合理，计算简单，诊断准确率高，切实可行。

Description

基于数据多源融合的电力文本知识发现方法及设备

技术领域

本发明涉及基于数据多源融合的电力文本知识发现方法及设备，属于电力设备技术领域。

背景技术

在电力设备日常巡检维护过程中，电网运维部门积累了大量设备运行状态文本。由于电力设备运行情况复杂多变，目前设备缺陷的判断与处理工作的开展仍大多依靠运维人员的知识与经验，但对于经验不足的运维人员很有可能无法根据巡检结果准确快速判断出电力设备是否存在缺陷以及存在缺陷的部件与原因。而电力公司积累的大量设备缺陷案例可以为设备缺陷诊断提供指导。案例记录有设备缺陷现象、处理过程、解决措施等信息，蕴含了丰富的专家经验，在设备的日常运维中具有较高参考价值。但由于案例众多且日常利用率低，设备缺陷案例尚无法发挥其应有的作用。如果可以借助计算机算法对案例中蕴藏的丰富知识进行学习并实现基于状态文本的电力设备的自动诊断可以大大提高设备运行可靠性并降低人力成本。

电力设备状态文本一般采用自然语言进行记录，但目前借助计算机实现自然语言信息的提取、表示、分析等过程尚存一定困难。目前基于浅层机器学习方法的知识发现设备在告警信号文本、配电线路跳闸填报文本的数据挖掘方面取得了一定成果，大多采用对电力文本进行停用词去除、词性标注等工作以选取文本特征，再利用如支持向量机、随机森林等算法对文本特征向量进行分析。但是电力文本一是由于专业特点以及编写人员记录风格不同，状态文本中所用词汇俗称较多；二是日常巡检中工作繁杂，各信息间往往存在多层嵌套关系；三是电力设备存在结构复杂，缺陷原因多样、逻辑关系复杂的特点，目前故障识别诊断准确率需要进一步提高。

经过检索，《基于数据挖掘的变压器故障诊断系统的构建》提出了针对变压器故障诊断现有方法中存在的不足，运用故障树分析法，构建了变压器故障树诊断模型，并基于聚类分析、判定树归纳分类等传统模式识别方法，实现了对变压器各项故障数据的深入发掘。但此方法存在如下问题：仅能针对一个特定事故作分析，而不是针对一个过程或设备系统作分析，具有局部性；对于复杂的诊断模型，故障树规模庞大，计算复杂，诊断准确率低。

经过检索，《基于知识图谱技术的电力设备缺陷记录检索方法》提出了利用现有电力设备缺陷记录语料构建电力设备缺陷知识图谱；然后基于所构建的知识图谱，利用图搜索进行电力设备缺陷检索。但此方法未利用句法分析等自然语言处理技术，无法在共指消解和关系抽取中得到更加丰富有效的语义特征，从而知识图谱的精确性以及完整性存在不足，故障诊断准确率低。

经过检索，《基于卷积神经网络的电力设备缺陷文本分类模型研究》在电力文本处理中引入卷积神经网络模型，构建了电力缺陷文本分类模型。但上述方法所处理的文本故障严重程度分类简单(一般、重要和紧急)，难以处理文本中存在多种故障原因嵌套的情况，不利于诊断的准确开展。

发明内容

针对现有技术的缺陷，本发明的目的一在于提供一种通过构建文本数据提取模型、规则引擎判断模型、图数据挖掘模型，能从电力自然语言数据及电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，并能判断出故障部位及原因；同时实现至少两种数据类型的多源融合，为电力设备故障诊断提供更精准的辅助决策，降低了对运维人员的文本记录信息质量要求，方案科学、合理，计算简单，诊断准确率高，切实可行的基于数据多源融合的电力文本知识发现方法。

本发明的目的二在于提供一种通过设置可触控显示屏、处理器、电源模块、文本数据提取模块、图数据挖掘模块、规则引擎判断模块、设备内存，能够有效结合基础自然语言处理与信息抽取、规则引擎判断、图数据挖掘等深度学习技术，实现采样数据多元融合，并能从电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，为运检人员提供更精准的辅助决策的基于数据多源融合的电力文本知识发现设备。

为实现上述目的之一，本发明的第一种技术方案为：

基于数据多源融合的电力文本知识发现方法，

包括以下步骤：

第一步，获取电力自然语言数据以及监测指标数据；

第二步，根据第一步中的电力自然语言数据，构建文本数据提取模型；

所述文本数据提取模型用于对电力自然语言数据进行处理与关键信息抽取，得到关键特征信息；

根据历史监测指标数据，构建规则引擎判断模型；

所述规则引擎判断模型用于基于规则引擎对监测指标数据进行分析，将监测指标数据与比较规则进行对比，得到故障设备信息，对故障部件进行快速定位；

第三步，构建图数据挖掘模型，对第二步中的关键特征信息进行分析，得到电力文本中设备运行现象文本描述的故障信息，以降低系统内存要求，提高设备的计算速度与诊断准确率；

第四步，根据第三步中的图数据挖掘模型以及第二步中的规则引擎判断模型，对待判断的电力自然语言数据以及监测指标数据进行分析，实现至少两种数据类型的多源融合，并能判断出故障部位及原因。

电力自然语言数据(电力文本)记录了设备故障现象、处理过程、解决措施等设备故障信息，蕴含了丰富的设备质量信息及专家处理经验，在同类设备故障处理时具有较高参考价值。如果可以通过一条巡检记录或传感器数据报告利用计算机迅速检索出具有类似故障情况的故障案例，就可以借鉴前人的经验加快故障处理进度、发现同类潜伏异常或缺陷，对提高设备本质安全水平具有重大意义。

因此，本发明经过不断探索以及试验，通过构建文本数据提取模型、规则引擎判断模型、图数据挖掘模型，能从电力自然语言数据及电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，并能判断出故障部位及原因；同时实现至少两种数据类型的多源融合，为电力设备故障诊断提供更精准的辅助决策，降低了对运维人员的文本记录信息质量要求，方案科学、合理，计算简单，诊断准确率高，切实可行。

作为优选技术措施：

所述第二步中，文本数据提取模型对电力文本中设备运行现象描述的关键指标信息特征进行提取与初判断，得到包括设备、设备状态类型、设备状态参数的三元组；

其具体的构建方法如下：

S1：对电力自然语言数据的关键特征进行初步提取，得到初步提取结果；

S2：对S1中的初步提取结果进行标准化与泛化处理，得到特征增强数据；

S3：根据S2中的特征增强数据，进行设备状态参数判断。

作为优选技术措施：

所述S1中：关键特征初步提取，具体包括以下内容：

电力自然语言数据在进行三元组识别提取时，兼顾字符前后的一定语义关联，并获得电力自然语言数据的双向语义信息；

所述双向语义信息的获取方法如下：

采用双向长短时记忆模型对电力自然语言数据的正向和反向信息进行传输，得到隐状态序列(h₁,h₂,...,h_n)∈R^n*m，再接入一个线性层，转换隐状态序列的维度，从m维转换到k维，并对电力自然语言数据中字符所属关键特征信息的概率进行计算；

同时利用随机条件场获得电力自然语言数据中字符标签的相连关系，以获得最优关键特征信息抽取；

随机条件场在给定条件X下，其条件Y满足马尔可夫性，每个特征模版都要滑过每个位置，相加起来得到该特征模版对整个句子的打分，最后对多个特征模版进行加权求和，实现关键特征的初步提取，其计算公式如下：

其中λ_k为边特征函数的权重，μ_l为点特征函数的权重，t_k为在边上的特征函数，s_l为在节点上的特征函数，λ_k和μ_l为对应的权值；Z(x)为规范化因子，k为第k个状态特征的序号，i为第i个字符的序号。

作为优选技术措施：

若设备直接采用关键特征初步提取结果作为图数据挖掘模型的输入会导致诊断准确率低，图数据挖掘模型难以适用多种不同电力设备；

这是因为电力文本中设备运行现象描述中所记录的设备信息在记录过程中存在相同设备、部位以及现象的描述具有不同的表述方式的问题；

所述S2中，标准化与泛化处理，具体包括以下内容：

对同义词关系、上下位关系进行了知识标准化与词表梳理工作；

基于整理得到的同义词关系与上下位关系，对提取得到的关键特征信息进行同义词标准化比对与替换，实现了关键特征信息的标准化；

如“箱体本体”的标准化同义词为“油箱本体”，“油渍”的标准化同义词为“渗透油”；本发明通过对特征信息进行上下位关系修订，实现而为将具体的、个别的特征信息扩大为一般化的特征信息，进而完成对特征信息泛化；

作为优选技术措施：

所述S3：设备状态参数判断，具体包括以下内容：

S31，对任意给定电力自然语言数据识别出目标命名实体对应的属性与值；

S32，根据S31中的属性与值，得到设备、设备状态类型、设备状态参数三元组；

S33，根据S32中的三元组，判断设备状态参数为正常或异常；

作为优选技术措施：

所述规则引擎判断模型，利用业务准则、国家标准建立规则引擎系统，对监测指标数据进行判断；即将每个监测指标数据中提取出的纯数字信息集合作为一个事件，利用规则引擎系统对事件与规则之间是否匹配进行判断，并以此作为补充诊断；

其具体包括以下步骤：

步骤1：将监测指标数据以无线传输形式输入到预先存储在设备内存里的规则引擎的规则库中；

步骤2：使用模式匹配器比较规则库中的规则与步骤1中的监测指标数据；

步骤3：如果监测指标数据与步骤2中的规则库的规则匹配成功，则输出对应诊断结果；反之，则重新将监测指标数据与规则库的规则匹配，直至与全部规则进行匹配，以准确地判断出故障部位及原因，为电力设备故障诊断提供更精准的辅助决策。

作为优选技术措施：

所述图数据挖掘模型，将电力自然语言数据中关键指标信息与图结构进行对应，形成电力异构图，对电力设备运行状态诊断；

图结构是一种由顶点和边两部分组成的数据结构。图结构G内所包含的全部顶点构成顶点集合V，所包含的全部边构成边集合E，一个完整的图结构就是由上述顶点集合V和边集合E组成。图结构在数学上可以表示为如下形式：

G＝(V,E)

图神经网络算法是一种直接作用于图结构G上的神经网络算法。GNN原理为每层采样相邻节点信息并对节点状态不断更新，得到具有包含相邻节点信息以及图形拓扑结构的状态，并以特定方式输出所需结果(如本申请所选用的计算目标节点与邻接节点间的相似度)。

对应关系包括：设备、部件、指标对应为图结构中的节点，设备与部件、部件与指标节点间的关联关系对应为图结构中的边；

其中，图中各节点由于所对应的信息内容不同而具有不同性质。

作为优选技术措施：

所述电力异构图包括两大类节点，一类是新录入文本节点，所述新录入文本节点包括待诊断电力自然语言数据，另一类是单词节点，所述单词节点包括已有的电力文本，所述电力文本包括设备信息、现象信息、指标信息；

所述电力设备状态诊断的过程如下：

以新录入文本节点为目标节点，单词节点为邻接节点的图结构，且连接目标节点与邻接节点间的边表示两者间的相似程度。

作为优选技术措施：

所述图数据挖掘模型采用独热编码表示方法对基于Bi-LSTM+CRF多通道融合进行序列标注与抽取得到的三元组进行编码，用低维向量对节点信息进行表达，其包括以下步骤：

步骤31：为使诊断算法成功处理图结构信息，采用循环卷积神经网络的方法实现每个图中节点的向量化，实现对图结构进行图嵌入处理；循环卷积神经网络在t时刻接收到输入x_t之后，隐藏层的值是s_t，其计算公式如下：

s_t＝f(Ux_t+Ws_t-1)

其中，U_xt是输入x_t的权重矩阵，

是上一次的值s_t-1作为本次输入的权重矩阵，f为激活函数，若进行循环迭代，得到输出值o_t，其计算公式如下：

其中，V是输出权重的矩阵；W是权重矩阵。

由上可以看出，循环神经网络的输出值o_t是受前面所有输入值所影响的，所以循环神经网络可以看到前列任意多个输入值；

步骤32：用待诊断的目标节点的邻接节点对其进行编码，获取每个单词的独热编码，其具体包括以下内容：

首先需要建立一个代表词汇表总长度|V|的全零向量，

然后将每个单词在词汇表对应的索引index维度设置为1，其他元素保持不变，得到最终的独热向量，即相当于通过训练一个虚拟网络用于储存每个节点的结构信息；

输入邻接节点后该网络输出的向量即为待诊断目标节点的嵌入化结果

步骤33：采用基于注意力的图卷积网络进行节点迭代，用注意力机制对邻接节点的特征进行加权求和，而该特征的权重完全取决于节点特征，无需得到整个图结构的特征，独立于图结构；这大大提高了诊断问答模型在动态图规模增加过程中的泛化能力；图注意层的输入为节点特征向量集：

式中N为节点个数，F为节点特征的个数；矩阵维度是N×F，代表了所有节点的特征，而R代表某一个节点的特征，矩阵维度为F×1；优先的，节点个数为550+m(其中，550为收集得到电力文本节点，m为待诊断文本节点)；

对应节点特征为：方位、故障现象类型、状态，F取值为3；

步骤34：为了得到输入与输出间的转换，对输入的节点特征至少进行线性变换以得到对应的输出特征，故需要对所有节点设置权重矩阵W∈R^F′×F；

待诊断的电力自然语言数据对应目标节点初始状态设定为

邻接节点初始状态设定为

并通过电力异构图计算得到每层目标节点和邻居节点的相似度；

步骤35：为衡量电力异构图中邻接节点j与待诊断电力自然语言数据的目标节点i间的相似度，图数据挖掘模型利用构建完成的电力异构图对待诊断目标节点i与其每个邻接节点依次进行自注意力机制运算，第l层两节点间的注意力系数表示为：

式中：f(﹒)是局部变换函数，用于反映待诊断目标节点与其邻接节点相似度的计算结果，该函数由预训练模型损失函数的梯度下降策略确定；

l＝1,2,3,…；

预训练模型的损失函数通过受监督的节点得到，损失函数的计算公式如下：

式中p(﹒)为真实概率分布，q(﹒)为计算得到的预测概率分布；

步骤36：为了使得注意力系数更易于计算与比较，引入逻辑回归Softmax函数对目标节点i的邻接节点集合N_i中所有邻接节点j进行正则化，具体方法如下：

通过上述运算得到的第l层正则化后节点间注意力系数可以用来预测第l层各节点的输出特征，即作为l+1各节点的输入特征：

式中σ为非线性激活函数，采用线性整流函数ReLU作为激活函数；

步骤37：将待诊断目标节点经过图神经网络迭代更新得到的特征与嵌入化得到的各运行状态诊断特征进行相似度运算，通过逻辑回归Softmax函数计算并进行输出，此时输出结果就是待诊断电力自然语言数据的诊断结果。

为实现上述目的之一，本发明的第二种技术方案为：

基于数据多源融合的电力文本知识发现设备，

应用上述的基于数据多源融合的电力文本知识发现方法；

其包括可触控显示屏、处理器、电源模块、文本数据提取模块、图数据挖掘模块、规则引擎判断模块、设备内存；

所述文本数据提取模块、图数据挖掘模块、规则引擎判断模块均存储在设备内存里；文本数据提取模块，用于对自然语言自动进行处理与关键信息抽取；

图数据挖掘模块，用于对设备运行现象文本描述信息利用图神经网络算法进行分析；规则引擎判断模块，用于对监测指标数据利用规则引擎进行分析判断。

本发明通过设置可触控显示屏、处理器、电源模块、文本数据提取模块、图数据挖掘模块、规则引擎判断模块、设备内存，能够有效结合基础自然语言处理与信息抽取、规则引擎判断、图数据挖掘等深度学习技术，实现采样数据多元融合，并能从电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，为运检人员提供更精准的辅助决策，方案简单，诊断准确率高。

与现有技术相比，本发明具有以下有益效果：

本发明经过不断探索以及试验，通过构建文本数据提取模型、规则引擎判断模型、图数据挖掘模型，能从电力自然语言数据及电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，并能判断出故障部位及原因；同时实现至少两种文本类型的多源融合，为电力设备故障诊断提供更精准的辅助决策，降低了对运维人员的文本记录信息质量要求，方案科学、合理，计算简单，诊断准确率高，切实可行。

进一步，本发明通过设置可触控显示屏、处理器、电源模块、文本数据提取模块、图数据挖掘模块、规则引擎判断模块、设备内存，能够有效结合基础自然语言处理与信息抽取、规则引擎判断、图数据挖掘等深度学习技术，实现采样数据多元融合，并能从电力设备状态文本中自动提取出缺陷诊断所需的关键信息，并集合图神经网络技术和规则引擎技术对电力文本中记录的电力设备运行状态进行评估，为运检人员提供更精准的辅助决策，方案简单，诊断准确率高。

附图说明

图1为本发明规则引擎工作流程图；

图2为本发明基于数据多元融合的电力文本知识发现设备硬件配置图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明基于数据多源融合的电力文本知识发现方法的一种具体实施例：

基于数据多源融合的电力文本知识发现方法，包括以下步骤：

第一步，获取电力自然语言数据以及监测指标数据；

根据历史监测指标数据，构建规则引擎判断模型；

第四步，根据第三步中的图数据挖掘模型以及第二步中的规则引擎判断模型，对待判断的电力自然语言数据以及监测指标数据进行分析，实现至少两种文本类型的多源融合，并能判断出故障部位及原因。

本发明文本数据提取模型的一种具体实施例：

大量电力设备状态文本中通常详细记录着丰富的设备运行状态信息，如：设备基本信息、运行状态信息、设备的检测试验内容与结果等信息，但文本内容存在内容分布杂散、专业俗称多、记录水平不一的问题，难以直接对电力文本信息开展自动抽取。

本发明的文本数据提取模型，首先对电力文本中设备运行现象描述的关键指标信息特征进行提取与初判断，进而得到“设备、设备状态类型、设备状态参数”三元组，这是电力文本知识发现的基础，主要分为三步骤：关键特征初步提取、特征增强、设备状态参数判断。

所述关键特征初步提取，具体包括以下内容：

电力设备运行状态文本在进行三元组识别提取时，需要兼顾字符前后的一定语义关联。为了获得电力检修文本的双向语义信息，本发明采用双向长短时记忆模型(Bidirectional long short term memory，Bi-LSTM)对语句的正向和反向信息进行传输，得到隐状态序列(h₁,h₂,...,h_n)∈R^n*m，再接入一个线性层，转换隐状态序列的维度，从m维转换到k维，并对文本中字符所属关键特征信息的概率进行计算。同时本发明利用随机条件场(Conditional random field，CRF)以获得状态文本中字符标签的相连关系以获得最优关键特征信息抽取，CRF是给定X条件下，Y满足马尔可夫性，每个特征模版都要滑过每个位置，相加起来得到该特征模版对整个句子的打分，最后对多个特征模版进行加权求和，计算过程如下：

其中λ_k为边特征函数的权重，μ_l为点特征函数的权重。

基于上述方法，可以实现关键特征的初步提取。例如：当向设备输入文本信息“箱体本体有明显油渍”时，抽取得到的原词关键特征为“设备(箱体本体)_设备状态类型(油渍)”。

所述特征增强，具体包括以下内容：

若设备直接采用关键特征初步提取结果作为图数据挖掘模块的输入会导致诊断准确率低，图数据挖掘模块难以适用多种不同电力设备。这是因为电力文本中设备运行现象描述中所记录的设备信息在记录过程中存在相同设备、部位以及现象的描述具有不同的表述方式的问题。例如：“主变”和“主变压器”、“介质损耗”和“介损”、“油溶气体”和“油中溶解气体”分别各自指代同一特征信息。这将导致设备中的电力设备缺陷诊断模型难以实现对运行状态的准确诊断。

本发明对输入数据进行标准化与泛化处理。本发明对同义词关系、上下位关系进行了知识标准化与词表梳理工作。基于整理得到的同义词关系与上下位关系，本发明对提取得到的关键特征信息进行同义词标准化比对与替换，实现了关键特征信息的标准化。如“箱体本体”的标准化同义词为“油箱本体”，“油渍”的标准化同义词为“渗透油”。本发明通过对特征信息进行上下位关系修订，实现而为将具体的、个别的特征信息扩大为一般化的特征信息，进而完成对特征信息泛化。

当向设备输入文本信息“箱体本体有明显油渍”时，初始抽取特征为“设备(箱体本体)_设备状态类型(油渍)”。标准化后抽取特征为“设备(油箱本体)_设备状态类型(渗透油)”，而泛化后抽取特征为“设备(油箱)_设备状态类型(渗透油)”。

所述设备状态参数判断，具体包括以下内容：

本发明为任意给定文本均可识别出目标命名实体对应的属性与值，最终得到“设备、设备状态类型、设备状态参数”三元组，添加了一套以业务准则、国家标准为规则的规则引擎系统对结构化监测指标数据进行判断。本发明将电力文本中设备运行现象描述提取出的设备状态类型作为一个事件，利用规则引擎对事件与规则之间是否匹配进行判断，判断其设备状态参数为“正常”或“异常”等。例如当向设备输入文本信息“箱体本体有明显油渍”时，泛化后抽取判断得到的三元组为“设备(油箱)_设备状态类型(渗透油)_设备状态参数(异常)”。图数据挖掘模块将基于此三元组开展后续诊断过程。

本发明图数据挖掘模型的一种具体实施例：

电力设备状态文本中关键指标信息在图结构中的对应关系为：设备、部件、指标等对应为图结构中的节点，设备与部件、部件与指标等节点间的关联关系对应为图结构中的边。其中图中各节点由于所对应的信息内容不同而具有不同性质，如：设备、设备状态类型、设备状态参数、原因，等等；边的性质由于所连接的节点不同而具有不同的性质，如：“设备”与“具体设备部件之间”为包含关系，“故障现象”与“故障原因”之间为因果关系，等等。

本发明使用收集得到的550份电力文本作为语料库构建了大型电力领域异构图存储于设备的内存之中。此异构图中包含有两大类节点，一类是新录入文本节点(待诊断文本)，另一类是单词节点(以往大量电力文本，包含有设备、现象、指标等信息)。为实现基于状态文本的电力设备运行状态诊断，本发明以新录入文本信息为目标节点，以往文本信息为邻接节点的图结构，且连接目标节点与邻接节点间的边表示两者间的相似程度。

为实现基于关键信息的电力设备运行状态诊断，本发明采用one-hot编码表示方法对基于Bi-LSTM+CRF多通道融合进行序列标注与抽取得到的三元组进行编码，用低维向量对节点信息进行表达。

本发明基于图神经网络的图数据挖掘模型的一种具体实施例：

基于图神经网络的图数据挖掘模型，包括以下步骤：

S1：为使诊断算法成功处理图结构信息，本发明采用one-hot编码的方法实现每个图中节点的向量化，实现对图结构进行图嵌入处理，计算过程如下：

o_t＝g(Vs_t)

s_t＝f(Ux_t+Ws_t-1)

网络在t时刻接收到输入x_t之后，隐藏层的值是s_t，输出值是o_t，U是输入x的权重矩阵，W是上一次的值s_t-1作为本次输入的权重矩阵，f为激活函数，若进行循环迭代，可以得到：

O_t＝g(Vs_t)

＝Vf(Ux_t+Ws_t-1)

＝Vf(Ux_t+W_f(Ux_t-1+Ws_t-2))

＝Vf(Ux_t+Wf(Ux_t-1+Wf(Ux_t-2+Ws_t-3)))

＝Vf(Ux_t+Wf(Ux_t-1+Wf(Ux_t-2+Wf(Ux_t-3+...))))

由上可以看出，循环神经网络的输出值o_t是受前面所有输入值所影响的，所以循环神经网络可以看到前列任意多个输入值。

S2：本发明用待诊断目标节点的邻接节点对其进行编码，获取每个单词的one-hot编码首先需要建立一个代表词汇表总长度|V|的全零向量，然后再将每个单词在词汇表对应的索引index维度设置为1，其他元素保持不变，就可以得到最终的one-hot向量，即相当于通过训练一个虚拟网络用于储存每个节点的结构信息。输入邻接节点后该网络输出的向量即为待诊断目标节点的嵌入化结果

S3：本发明采用基于注意力的图卷积网络进行节点迭代，用注意力机制对邻接节点的特征进行加权求和，而该特征的权重完全取决于节点特征，无需得到整个图结构的特征，独立于图结构。这大大提高了诊断问答模型在动态图规模增加过程中的泛化能力。此方法中图注意层的输入为节点特征向量集：

式中N为节点个数，F为节点特征的个数。矩阵维度是N×F，代表了所有节点的特征，而R代表某一个节点的特征，矩阵维度为F×1。本申请中，节点个数为550+m(其中，550为收集得到电力文本节点，m为待诊断文本节点)；对应节点特征为：方位、故障现象类型、状态，因此F取值为3。

S4：为了得到输入与输出间的转换，本发明对输入特征至少进行线性变换以得到对应的输出特征，故需要对所有节点定义一个权重矩阵W∈R^F′×F。本发明中，待诊断文本对应目标节点初始状态设定为

邻接节点初始状态设定为

基于构建的电力领域异构图计算得到每层目标节点和邻居节点的相似度。

S5：为衡量电力领域异构图中邻接节点j与待诊断文本目标节点i间的相似度，图数据挖掘模块利用构建完成的异构图对待诊断目标节点i与其每个邻接节点依次进行自注意力机制运算，第l层(l＝1，2，3，…)两节点间的注意力系数可表示为：

式中：f(﹒)是局部变换函数，用于反映待诊断目标节点与其邻接节点相似度的计算结果，该函数由预训练模型损失函数的梯度下降策略确定。训练模型的损失函数由通过受监督的节点得到，本发明中GNN模型的损失函数表示为：

式中p(﹒)为真实概率分布，q(﹒)为算法得到的预测概率分布。

S6：为了使得注意力系数更易于计算与比较，本发明引入了逻辑回归Softmax函数对目标节点i的邻接节点集合N_i中所有邻接节点j进行正则化，具体方法如下：

式中σ为非线性激活函数，本发明中采用线性整流函数(ReLU函数)作为激活函数。

S7：最后将待诊断目标节点经过GNN迭代更新得到的特征与嵌入化得到的各运行状态诊断特征进行相似度运算，通过逻辑回归Softmax函数计算并进行输出，此时设备的输出结果就是待诊断电力设备状态文本的诊断结果。

如图1所示，本发明规则引擎判断模型的一种具体实施例：

本发明在图神经网络算法对电力文本中设备运行现象文本描述信息进行诊断的基础上，添加了一套以业务准则、国家标准为规则的规则引擎系统对结构化监测指标数据进行判断。将每个在线监测数据中提取出的纯数字信息集合即监测指标数据作为一个事件，利用规则引擎对事件与规则之间是否匹配进行判断，并以此作为补充诊断，其具体流程如下：

S1：以无线传输的形式向规则引擎的规则库中传入初始监测数据；

S2：提取出初始监测数据中的纯数字信息集合，并将监测指标数据作为一个事件；

S3：设备使用模式匹配器，在规则库中寻找可能的规则，比较规则库中的规则与事件；

S4：判断事件与规则是否匹配，如果事件与规则库的规则匹配成功，设备则输出对应诊断结果；反之，设备则重新返回规则库中寻找可能的规则，将事件与规则库的规则匹配，直至与全部规则进行匹配。

通过上述流程的处理，集合图神经网络技术和规则引擎技术，本发明根据电力文本中的关键信息快速准确地判断出故障部位及原因，为电力设备故障诊断提供更精准的辅助决策。

如图2所示，本发明基于数据多源融合的电力文本知识发现设备的一种具体实施例：

基于数据多源融合的电力文本知识发现设备，包括可触控显示屏、处理器、电源模块、文本数据提取模块、图数据挖掘模块、规则引擎判断模块、设备内存。

所述文本数据提取模块、图数据挖掘模块、规则引擎判断模块均存储在设备内存里；

可触控显示屏为10.2英寸2160x1620分辨率的显示屏；

处理器为AMD Ryzen 9 5900HX处理器；

文本数据提取模块，用于对自然语言自动进行处理与关键信息抽取；

设备内存是内存容量为6G，存储容量为1TB的存储设备。

本申请的术语解释：

电力文本

指完整记录了电力设备故障现象、处理过程、解决措施等不同阶段设备故障信息的文本，蕴含了丰富的设备隐含质量问题信息及专家处理经验,在同类设备故障处理时具有较高参考价值。主要包含有：故障案例、处置方案、规范、导则、标准、科研论文等形式。

多源数据融合

电力文本根据信息的来源、记录格式及时空特性等对信息表现形式进行划分，如历史数据与实时数据，传感数据与社会数据，故障现象文档描述与监测指标数据等。考虑机器学习模型的灵活性和异构数据融合自身的复杂性，分别在数据层融合、特征层融合、决策层融合等。

图神经网络

指一种直接作用于图结构上的神经网络算法，其核心为每层采样相邻节点信息并对节点状态不断更新，得到具有包含相邻节点信息以及图形拓扑结构的状态，并以特定方式输出所需结果。

规则引擎

指一种基于规则的推理引擎，通过将事实、数据与产生式规则进行模式匹配，并对冲突规则进行处理，最终按照业务规则输出执行相应指令，其核心就是获取知识，再应用获取得到的知识到特定数据上。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。