CN116993043A

CN116993043A - 一种电力设备故障溯源方法及装置

Info

Publication number: CN116993043A
Application number: CN202310806379.4A
Authority: CN
Inventors: 郑一鸣; 胡俊华; 韩亚东; 蔺家骏; 李晨; 齐冬莲; 邵先军; 李斐然; 姜雄伟; 闫云凤; 张凯煜
Original assignee: Zhejiang University ZJU; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-11-03

Abstract

本发明公开了一种电力设备故障溯源方法及装置，属于电力技术领域，目的在于克服现有快速图卷积网络技术应用于电力领域成本较高的缺陷。方法包括的步骤有对故障数据进行信息抽取，得到三元组数据；将三元组数据导入图数据库，构建出电力设备故障的知识图谱；设计构建基于快速图卷积网络的电力设备故障溯源模型；输入新的电力设备故障数据到构建好的电力设备故障溯源模型中，得到与新的电力设备故障数据相同或相似的历史故障案例以及处置措施。电力设备故障溯源模型为检修人员提供辅助，可以快速发现故障位置及原因并给出处理建议，降低电力设备故障溯源成本。

Description

一种电力设备故障溯源方法及装置

技术领域

本发明属于电力技术领域，涉及一种基于快速图卷积网络的电力设备故障溯源方法及装置。

背景技术

图卷积网络(Graph Convolutional Network,GCN)已成为基于图的学习任务的最先进方法。在GCN中，为了得到根节点的表达，需要从它一阶邻居节点获取信息。同样的，这些一阶邻居节点也需要再从它们的邻居节点里获取信息。这样随着层数的加深，需要计算的多跳邻居数量呈指数级增长。这种“邻居数量指数增加”的问题严重影响了GCN在大规模数据场景下的应用。为了解决上述问题，近几年有很多研究人员提出了快速图卷积网络训练的方法，可归纳成三类：按层采样法；子图采样法；控制变量法。有人提出了FastGCN模型，其主要思想是将图节点图的顶点解释为某种概率分布下的独立同分布的样本，并将损失和每个卷积层作为顶点嵌入函数的积分，再通过定义样本的损失和样本梯度的蒙特卡罗近似计算积分，并且可以进一步改变采样分布以减小近似方差，加快GCN训练。又有人提出了GraphSAINT，这是一种基于子图采样的归纳学习方法，通过从原图中采样子图，然后在得到的子图上进行GCN计算，同时显式地考虑了子图采样对GCN计算带来的偏差，可以保证采样后节点的聚合过程是无偏的，并且使采样带来的方差尽量小。还有人提出了基于控制变量的图卷积网络加速训练算法，在公开数据集上取得了最快的收敛速度。

现有的快速图卷积网络技术基本是针对通用领域的大规模图数据，而这些快速图卷积技术针对电力领域大规模图数据可能不适用，主要原因是电力领域数据的特殊性，具有领域特征。传统的基于图卷积网络的设备故障推理溯源任务通常需要消耗大量的资源和时间对网络进行训练，成本较大。

发明内容

本发明针对现有技术存在的问题提出一种电力设备故障溯源方法及装置，目的在于克服现有快速图卷积网络技术应用于电力领域成本较高的缺陷。

本发明是这样实现的：

一种电力设备故障溯源方法，包括以下步骤：

收集电力设备故障数据；

对故障数据进行信息抽取，得到三元组数据；

将三元组数据导入图数据库，构建出电力设备故障的知识图谱；

根据知识图谱设计构建基于快速图卷积网络的电力设备故障溯源模型；

输入新的电力设备故障数据到构建好的电力设备故障溯源模型中，得到与新的电力设备故障数据相同或相似的历史故障案例以及处置措施。

电力设备故障数据包括检修导则、历史案例、专家经验、故障等级、运行数据。

信息抽取包括实体抽取、属性抽取、关系抽取，得到的三元组数据为<实体1，关系，实体2>形式的结构化数据。

信息抽取通过信息抽取框架实现，信息抽取框架包括BERT、BiLSTM、CRF三个串行模型。

通过加入电力领域的语料信息进行预训练，预训练过程采用无标签的数据，预训练通过MLM任务和NSP任务得到电力领域的BERT模型。

电力设备故障数据通过BERT模型，获得一系列词向量；词向量通过BiLSTM模型，获得一系列输出的序列[x₀,x₁,…,x_n]；序列[x₀,x₁,…,x_n]作为CRF模型的观测序列，经过概率计算获得输出状态序列[y₀,y₁,…,y_n]。

CRF模型通过序列[x₀,x₁,…,x_n]计算状态分数P和转移分数A来计算句子标签对应预测的分数，

式中：为第i个词预测为第y_i个标签的分数；/>为第y_i个标签转移到标签y_i+1的分数，根据预测的分数即可输出句子中所包含的实体、属性以及关系的三元组数据。

将三元组数据构建出电力设备故障的知识图谱过程中，将三元组数据通过Python脚本导入到neo4j中，在Python脚本中通过API连接到neo4j并调用CREATE、MATCH、RETURN、DELETE相关函数，批量创建节点和关系，针对重复节点用neo4j的APOC库中的重构算法apoc.refactor实现对重复节点、关系的重构合并，对于较为复杂的逻辑，通过人工对知识图谱进行更新校核，从而完成电力设备故障的知识图谱的构建。

在电力设备故障溯源模型构建过程中，快速图卷积网络采用图神经网络模型GraphSAGE模型，在GraphSAGE模型中引入子图边界节点随机采样算法，将所述知识图谱划分成一系列子图，然后对子图的边界节点进行随机采样，以使图神经网络模型迭代，最终获得电力设备故障溯源模型。

构建过程如下：

1)初始化设置：创建内部节点集其中i为分区编号i＝0,1,2,…，G_i为第i个分区的子图，B_i为边界节点集合。初始化输入特征H⁽⁰⁾＝X_i，X_i为节点特征；

2)随机以概率p从边界节点集合B_i中采样边界节点，采样后的边界节点集合为U_i；构成子图节点集合F_i＝{V_i∪U_i}，并丢弃子图G_i中除F_i的其余节点；

3)在其他分区中传递采样后的边界节点集合U_i的信息，使其他分区知道该分区的采样节点，同时记录该分区内部V_i节点被其他分区选做边界节点的情况，即[S_i,1,…,S_i,m]＝[U₁∩V_i,…,U_m∩V_i]，m为分区个数；

4)在第l层的前向传播过程中，每个分区将先前记录的节点的特征发送到相应的第[1,…,m]个分区，同时接收其自己选择的边界节点的特征/>执行GCN操作，循环该步骤直到全部L层GCN都完成该操作过程，GCN操作过程如式：

其中w[t-1]为t-1次迭代后的训练模型；

5)计算损失函数：

其中为节点v的预测结果，y_v为节点v的真实标签；

6)梯度反向传播：

随后通过AllReduce方法将第i分区梯度g_i[t]共享给所有分区：

g[t]＝AllReduce(g_i[t])

更新模型即完成一次迭代过程，依次重复上述步骤2)至6)特定次即可完成对模型的训练，获得电力设备故障溯源模型。

一种电力设备故障溯源装置，包括：

故障数据收集模块，用于收集电力设备故障数据；

信息抽取模块，用于对所述故障数据进行信息抽取，得到三元组数据；

知识图谱构建模块，用于将所述三元组数据导入图数据库，构建出电力设备故障的知识图谱；

模型训练模块，用于根据所述知识图谱设计构建基于快速图卷积网络的电力设备故障溯源模型；

故障溯源模块，用于根据输入新的电力设备故障数据到构建好的电力设备故障溯源模型，得到与新的电力设备故障数据相同或相似的历史故障案例。

所述电力设备故障数据包括检修导则、历史案例、专家经验、故障等级、运行数据；

所述信息抽取包括实体抽取、属性抽取、关系抽取，得到的三元组数据为<实体1，关系，实体2>形式的结构化数据。

所述信息抽取模块包括信息抽取框架以实现信息抽取，所述信息抽取框架包括BERT、BiLSTM、CRF三个串行模型；

通过加入电力领域的语料信息进行预训练，预训练过程采用无标签的数据，预训练通过MLM任务和NSP任务得到电力领域的BERT模型；

电力设备故障数据通过BERT模型，获得一系列词向量；词向量通过BiLSTM模型，获得一系列输出的序列[x₀,x₁,…,x_n]；序列[x₀,x₁,…,x_n]作为CRF模型的观测序列，经过概率计算获得输出状态序列[y₀,y₁,…,y_n]；

所述知识图谱构建模块将三元组数据构建出电力设备故障的知识图谱过程中，将三元组数据通过Python脚本导入到neo4j中，在Python脚本中通过API连接到neo4j并调用CREATE、MATCH、RETURN、DELETE相关函数，批量创建节点和关系，针对重复节点用neo4j的APOC库中的重构算法apoc.refactor实现对重复节点、关系的重构合并，对于较为复杂的逻辑，通过人工对知识图谱进行更新校核，从而完成电力设备故障的知识图谱的构建。

所述模型训练模块在电力设备故障溯源模型构建过程中，快速图卷积网络采用图神经网络模型GraphSAGE模型，在GraphSAGE模型中引入子图边界节点随机采样算法，将所述知识图谱划分成一系列子图，然后对子图的边界节点进行随机采样，以使图神经网络模型迭代，最终获得电力设备故障溯源模型；

构建过程如下：

其中w[t-1]为t-1次迭代后的训练模型；

5)计算损失函数：

其中为节点v的预测结果，y_v为节点v的真实标签；

6)梯度反向传播：

随后通过AllReduce方法将第i分区梯度g_i[t]共享给所有分区：

g[t]＝AllReduce(g_i[t])

本发明所提供的一种电力设备故障溯源方法及装置，通过将新的故障数据输入到训练好的电力设备故障溯源模型中，模型可以根据已有训练数据学习到的知识输出设备故障的原因等结果，同时可以在已构建的知识图谱中进行检索推理得到历史相似故障案例，溯源设备故障相关的信息，为检修人员提供辅助，可以快速发现故障位置及原因并给出处理建议，降低电力设备故障溯源成本。

附图说明

图1为电力设备故障溯源方法流程图；

图2为知识图谱示意图；

图3为知识图谱划分成子图示意图；

图4为对边界节点随机采样后知识图谱的示意图；

图5为电力设备故障溯源装置的结构框图。

附图标注说明：100、节点；110、中心节点；120、边界节点；210、故障数据收集模块；220、信息抽取模块；230、知识图谱构建模块；240、模型训练模块；250、故障溯源模块。

具体实施方式

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

一种基于快速图卷积网络的电力设备故障溯源方法，如图1所示，包括以下步骤：

S1、收集电力设备故障数据。电力设备故障数据包括检修导则、历史案例、专家经验、故障等级、运行数据，大部分电力设备故障数据为非结构化或半结构化的文本数据。

S2、对故障数据进行信息抽取，得到三元组数据。这是对数据进行预处理，将非结构化和半结构化的数据处理成结构化数据。信息抽取包括实体抽取、属性抽取、关系抽取，得到的三元组数据为<实体1，关系，实体2>形式的结构化数据，从而将非结构化和半结构化数据转换为可以构建知识图谱的结构化数据。三元组数据形式具体可表示为<油浸式变压器，故障部位，中间继电器>、<油浸式变压器，故障原因，超期服役>等。

信息抽取通过信息抽取框架实现，信息抽取框架包括BERT、BiLSTM、CRF三个串行模块。

通过加入大量电力领域的语料信息进行预训练，预训练过程采用无标签的数据，预训练通过MLM任务和NSP任务得到电力领域的BERT模型。具体来说，MLM(掩盖部分单词)任务将每个句子中的20％的词进行mask(掩码)，用其上下文对mask的词进行预测；NSP(句子预测)任务为预测两个句子是否为上下文的关系。预训练的目的主要是让模型更好的适应电力领域语言特征。其次是进行微调，微调过程采用的是有标注的数据，标注采用BIO标注方法(B表示标签信息开始，I表示标签信息内部，O表示非标签信息)，针对电力设备信息抽取任务对预训练的模型进行微调后得到的电力领域信息抽取的BERT模型，简称EP-BERT(Electric Power BERT)。BERT是以中文BERT模型为基础，BERT模型核心结构是Transformer的编码器部分，该部分主要依靠多头注意力(Multi-headAttention)机制来获取词的重要特征，多头注意力机计算公式如下所示：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

Multi-head(Q,K,V)＝concat(head₁,…,head_N)W^Q (3)

其中在式(1)注意力计算过程中会为每个词创建3个不同的向量矩阵，分别为查询矩阵Q、值矩阵K、索引矩阵V，softmax(·)代表多分类函数，d_K代表值矩阵K的第二维度，W_i ^Q,W_i ^K,W_i ^V分别代表Q、K、V的权重，concat(·)代表拼接操作，N代表多头的数目。

CRF即条件随机场(Condition Random Field)是给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型，其中输出的随机变量构成马尔可夫随机场。

电力设备故障数据通过BERT模型，获得一系列词向量。词向量通过BiLSTM模型，获得一系列输出序列[x₀,x₁,…,x_n]，将BERT输出的词向量输入到BiLSTM模型进一步获取上下文特征，BiLSTM(Bi-directional Long Short-Term Memory)是双向长短期记忆网络，使用双向的LSTM作为上下文特征提取模块，既可以双向提取句子特征，又可以捕获长距离的两个字词之间的依赖，有效提高了实体抽取的性能指标。序列[x₀,x₁,…,x_n]作为CRF模型的观测序列，获得再经过概率计算获得输出状态序列

[y₀,y₁,…,y_n]。

具体来说，CRF模型通过序列[x₀,x₁,…,x_n]计算状态分数P和转移分数A来计算句子标签对应预测的分数，

BiLSTM模型虽然能够解决长距离的文本信息问题，但是相邻标签之间的依赖关系无法正确识别，而CRF模型能够根据自身一些约束条件正确识别相邻字符之间特征，例如，句子开头是以“B”或者“O”开始，而不是“I”；又或者“B-label1”后面预测是“I-label1”，而不是另一类标签的内部“I-label2”等，减少预测错误的标签。

信息抽取模型的评价指标采用准确率(Precision Rate,P)、召回率(RecallRate,R)和F1值作为模型效果的评价标准。其计算公式具体如下：

式中：T_P为模型正确识别的实体数量，F_P为模型识别错误的实体数量；F_N为模型未识别的相关实体数量。

S3、将三元组数据导入图数据库，构建出电力设备故障的知识图谱。图数据库为neo4j图数据库。

以开源的neo4j图数据库作为存储和可视化展示，将结构化的三元组数据通过Python脚本导入到neo4j中，在Python脚本中通过API连接到neo4j并调用CREATE(创建节点以及关系函数)、MATCH(查询函数)、RETURN(返回函数)、DELETE(删除函数)等相关函数，批量创建节点和关系，针对重复节点还需使用neo4j的APOC库中的重构算法apoc.refactor实现对重复节点、关系的重构合并，具体包括节点重构合并：apoc.refactor.mergeNodes、关系重构合并：apoc.refactor.mergeRelationships)，最后，对于较为复杂的逻辑，例如故障案例：X年X月X时X分，XXX站10kV母线电压越下限→110kVXXX站#2主变比率差动、有载调压重瓦斯保护动作→#2主变三侧开关跳闸→检查发现#2主变有载调压开关处喷油→进一步检查发现#2主变有载调压开关防爆膜爆开。该逻辑为故障报告记录的从现象到原因的过程，而针对已发生的故障案例，应该解释其发生的机理逻辑，即{主变有载调压开关防爆膜爆开}→[导致]→{主变有载调压开关处喷油}→[并发故障现象]→{10kV母线电压越下限；主变比率差动、有载调压重瓦斯保护动作；主变三侧开关跳闸}；{主变有载调压开关防爆膜爆开}→[故障原因]→{绝缘低或电压偏高；触头接触不到位}。针对这种故障报告记录的逻辑与故障发生机理逻辑不一致等的一些较为复杂的逻辑则需要通过人工的方式对知识图谱进行更新校核，从而完成电力设备故障的知识图谱的构建。

S4、设计构建基于快速图卷积网络的电力设备故障溯源模型。快速图卷积网络采用图神经网络模型GraphSAGE模型，在GraphSAGE模型中引入子图边界节点随机采样算法，将所述知识图谱划分成一系列子图，然后对子图的边界节点进行随机采样，以使图神经网络模型迭代，最终获得电力设备故障溯源模型。

具体来说，构建过程如下：

其中w[t-1]为t-1次迭代后的训练模型；

5)计算损失函数：

其中为节点v的预测结果，y_v为节点v的真实标签；

6)梯度反向传播：

随后通过AllReduce方法将第i分区梯度g_i[t]共享给所有分区：

g[t]＝AllReduce(g_i[t])

图卷积网络(Graph Convolutional Networks,GCN)将图结构数据(即本实施例的知识图谱)作为输入，并为图的每个节点学习特征向量(Embedding)。具体来说，GCN在每一层执行两个主要步骤，即邻居聚合和节点更新，可以表示为：

其中l为GCN的层数；表示节点v的邻居集合，即与v相连接的所有节点的集合；/>表示第l-1层邻居节点u学习到的特征向量；ζ^(l)表示聚合函数，他把节点v的邻居节点特征聚合起来生成聚合结果/>φ^(l)为节点更新函数，将聚合结果/>与第l-1层的特征向量/>组合更新得到新的特征向量/>

由于电力领域数据量庞大，普通的GCN存在训练开销较大、耗时长等问题，并且大多数方法都是采用单个GPU进行GCN训练。随着知识图谱规模的扩大，单个GPU的算力和内存也难以支撑其训练。最近深度神经网络中常用的分布式训练方法已经拓展到了图神经网络，即可以采用多个GPU对GCN进行分布式训练。由于电力领域数据量庞大，普通的GCN存在训练开销较大、耗时长等问题，并且大多数方法都是采用单个GPU进行GCN训练。随着知识图谱规模的扩大，单个GPU的算力和内存也难以支撑其训练。最近深度神经网络中常用的分布式训练方法已经拓展到了图神经网络，即可以采用多个GPU对GCN进行分布式训练。本实施例采用传统图神经网络模型GraphSAGE模型对电力领域知识图谱进行训练。

在GraphSAGE模型中引入子图边界节点随机采样算法使其可以进行分布式训练。子图边界节点随机采样算法架构如图2-4所示，图2表示整个知识图谱，知识图谱中的节点100包括母线、主变压器等，该算法首先对知识图谱全图进行划分，划分成一系列子图，如图3所示，三组子图分别放在三个区域对应三个gpu。节点包括中心节点110和边界节点120，对子图的边界节点进行随机采样，如图4所示，子图的边界节点主要作用是充当不同分区信息交换的桥梁。由于过多的边界节点会导致不同分区之间的通信和存储开销加大，造成分区并行效率低，对边界节点进行随机采样可以有效解决以上问题，从而在保持精度的同时实现高效的训练。子图的边界节点随机采样算法关键思想是独立地从每个分区中选择一个边界节点子集，然后只存储和通信这些被选中的节点，而不是所有边界节点集合。

S5、输入新的电力设备故障数据到构建好的电力设备故障溯源模型中，电力设备故障溯源模型可以输出该故障的原因，同时将电力设备故障溯源模型的输入输出进行组合(即故障-故障原因)并在已构建的知识图谱中进行查询检索，可以得到与该故障相同或相似的历史故障案例以及处置措施，从而实现对电力设备故障溯源任务。

实施例二

本实施例提供了一种对应实施例一电力设备故障溯源方法对应的装置，为实施例一的虚拟装置结构，如图5所示，电力设备故障溯源装置包括故障数据收集模块210、信息抽取模块220、知识图谱构建模块230、模型训练模块240和故障溯源模块250。

故障数据收集模210块用于收集电力设备故障数据。所述电力设备故障数据包括检修导则、历史案例、专家经验、故障等级、运行数据。

信息抽取模块220用于对所述故障数据进行信息抽取，得到三元组数据。所述信息抽取包括实体抽取、属性抽取、关系抽取，得到的三元组数据为<实体1，关系，实体2>形式的结构化数据。

所述信息抽取模块220包括信息抽取框架以实现信息抽取，所述信息抽取框架包括BERT、BiLSTM、CRF三个串行模型；

式中：P_i,yi为第i个词预测为第y_i个标签的分数；A_yi,yi+1为第y_i个标签转移到标签y_i+1的分数，根据预测的分数即可输出句子中所包含的实体、属性以及关系的三元组数据。

知识图谱构建模块230用于将所述三元组数据导入图数据库，构建出电力设备故障的知识图谱。所述知识图谱构建模块230将三元组数据构建出电力设备故障的知识图谱过程中，将三元组数据通过Python脚本导入到neo4j中，在Python脚本中通过API连接到neo4j并调用CREATE、MATCH、RETURN、DELETE相关函数，批量创建节点和关系，针对重复节点用neo4j的APOC库中的重构算法apoc.refactor实现对重复节点、关系的重构合并，对于较为复杂的逻辑，通过人工对知识图谱进行更新校核，从而完成电力设备故障的知识图谱的构建。

模型训练模块240用于根据所述知识图谱设计构建基于快速图卷积网络的电力设备故障溯源模型。所述模型训练模块在电力设备故障溯源模型构建过程中，快速图卷积网络采用图神经网络模型GraphSAGE模型，在GraphSAGE模型中引入子图边界节点随机采样算法，将所述知识图谱划分成一系列子图，然后对子图的边界节点进行随机采样，以使图神经网络模型迭代，最终获得电力设备故障溯源模型；

构建过程如下：

其中w[t-1]为t-1次迭代后的训练模型；

5)计算损失函数：

其中为节点v的预测结果，y_v为节点v的真实标签；

6)梯度反向传播：

随后通过AllReduce方法将第i分区梯度g_i[t]共享给所有分区：

g[t]＝AllReduce(g_i[t])

故障溯源模块250用于根据输入新的电力设备故障数据到构建好的电力设备故障溯源模型，得到与新的电力设备故障数据相同或相似的历史故障案例。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种电力设备故障溯源方法，其特征在于，包括以下步骤：

收集电力设备故障数据；

对所述故障数据进行信息抽取，得到三元组数据；

将所述三元组数据导入图数据库，构建出电力设备故障的知识图谱；

根据所述知识图谱设计构建基于快速图卷积网络的电力设备故障溯源模型；

输入新的电力设备故障数据到构建好的电力设备故障溯源模型中，得到与新的电力设备故障数据相同或相似的历史故障案例。

2.根据权利要求1所述的一种电力设备故障溯源方法，其特征在于，电力设备故障数据包括检修导则、历史案例、专家经验、故障等级、运行数据；

3.根据权利要求1所述的一种电力设备故障溯源方法，其特征在于，信息抽取通过信息抽取框架实现，信息抽取框架包括BERT、BiLSTM、CRF三个串行模型；

4.根据权利要求1所述的一种电力设备故障溯源方法，其特征在于，将三元组数据构建出电力设备故障的知识图谱过程中，将三元组数据通过Python脚本导入到neo4j中，在Python脚本中通过API连接到neo4j并调用CREATE、MATCH、RETURN、DELETE相关函数，批量创建节点和关系，针对重复节点用neo4j的APOC库中的重构算法apoc.refactor实现对重复节点、关系的重构合并，对于较为复杂的逻辑，通过人工对知识图谱进行更新校核，从而完成电力设备故障的知识图谱的构建。

5.根据权利要求1所述的一种电力设备故障溯源方法，其特征在于，在电力设备故障溯源模型构建过程中，快速图卷积网络采用图神经网络模型GraphSAGE模型，在GraphSAGE模型中引入子图边界节点随机采样算法，将所述知识图谱划分成一系列子图，然后对子图的边界节点进行随机采样，以使图神经网络模型迭代，最终获得电力设备故障溯源模型；

构建过程如下：

其中w[t-1]为t-1次迭代后的训练模型；

5)计算损失函数：

其中为节点v的预测结果，y_v为节点v的真实标签；

6)梯度反向传播：

随后通过AllReduce方法将第i分区梯度g_i[t]共享给所有分区：

g[t]＝AllReduce(g_i[t])

6.一种电力设备故障溯源装置，其特征在于，包括：

故障数据收集模块，用于收集电力设备故障数据；

7.根据权利要求6所述的一种电力设备故障溯源装置，其特征在于，所述电力设备故障数据包括检修导则、历史案例、专家经验、故障等级、运行数据；

8.根据权利要求6所述的一种电力设备故障溯源装置，其特征在于，所述信息抽取模块包括信息抽取框架以实现信息抽取，所述信息抽取框架包括BERT、BiLSTM、CRF三个串行模型；

9.根据权利要求6所述的一种电力设备故障溯源装置，其特征在于，所述知识图谱构建模块将三元组数据构建出电力设备故障的知识图谱过程中，将三元组数据通过Python脚本导入到neo4j中，在Python脚本中通过API连接到neo4j并调用CREATE、MATCH、RETURN、DELETE相关函数，批量创建节点和关系，针对重复节点用neo4j的APOC库中的重构算法apoc.refactor实现对重复节点、关系的重构合并，对于较为复杂的逻辑，通过人工对知识图谱进行更新校核，从而完成电力设备故障的知识图谱的构建。

10.根据权利要求6所述的一种电力设备故障溯源装置，其特征在于，所述模型训练模块在电力设备故障溯源模型构建过程中，快速图卷积网络采用图神经网络模型GraphSAGE模型，在GraphSAGE模型中引入子图边界节点随机采样算法，将所述知识图谱划分成一系列子图，然后对子图的边界节点进行随机采样，以使图神经网络模型迭代，最终获得电力设备故障溯源模型；

构建过程如下：

其中w[t-1]为t-1次迭代后的训练模型；

5)计算损失函数：

其中为节点v的预测结果，y_v为节点v的真实标签；

6)梯度反向传播：

随后通过AllReduce方法将第i分区梯度g_i[t]共享给所有分区：

g[t]＝AllReduce(g_i[t])