CN117370574A

CN117370574A - 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法

Info

Publication number: CN117370574A
Application number: CN202311326352.1A
Authority: CN
Inventors: 郑州; 郭俊; 谢炜; 林晨翔; 林锐; 黄建业; 钱健; 马腾; 翁宇游; 陈锦铭
Original assignee: Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-09

Abstract

本发明提出了提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，针对电力设备缺陷进行预测，采用基于BERT的微调和知识图谱嵌入模型KGEMs；首先，通过收集和整理电力主设备的缺陷信息，创建缺陷数据集；其次，定义本体并设计知识图谱；然后，利用预训练的BERT模型处理特定领域语料库，微调BERT以更好地理解句子语义并提取更有价值的特征；最后，通过结合KGEMs的训练和测试，实现更准确、有效的电力设备缺陷预测；本发明克服了直接使用BERT在专业领域词汇上的不足，并显著提高了预测任务的性能，可以实现对在有限资源环境下对电力主设备缺陷的高效准确识别与处理，提高知识图谱嵌入模型在电力主设备缺陷分析中的链接预测性能，进一步提高诊断准确率和维修效率。

Description

提高电力主设备知识图谱嵌入模型性能的缺陷分析方法

技术领域

本发明涉及电力认知智能技术领域，尤其是提高电力主设备知识图谱嵌入模型性能的缺陷分析方法。

背景技术

采用知识图谱链接预测技术对电力主设备缺陷进行分析，以更有结构化和全面的方式来表示缺陷事件、缺陷现象、缺陷属性及其关系。这种方法有助于确定缺陷的根本原因，从而进行有针对性的修复和维护。此外，链接预测能够显著提高电力主设备缺陷分析的效率和准确性，实现及时有效的维护，最终降低停机时间和成本。

为解决在分析电力主设备缺陷时使用基于嵌入的知识图谱嵌入模型(KGEMs)进行链接预测时遇到的性能低的问题，本发明使用了简单的PCA算法降低初始嵌入的维度，其效果良好。

本发明聚焦于电力主设备缺陷分析，为了更好地理解和分析电力主设备缺陷，我们提出了一种新颖的方法，该方法通过使用领域特定知识对BERT进行微调，提高了BERT理解领域特定知识的能力。这种方法的优势在于它可以利用从BERT中提取的特征信息作为初始嵌入，进而显著提高知识图谱嵌入模型(KGEMs)在链接预测性能方面的表现。此外，本发明还针对资源受限的环境进行了优化，只需很少的语料就能取得优异的结果。本发明的方法在只有少量专业领域语料和计算资源的情况下仍能取得满意的效果。

发明内容

本发明提出提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，可以实现对在有限资源环境下对电力主设备缺陷的高效准确识别与处理，提高知识图谱嵌入模型在电力主设备缺陷分析中的链接预测性能，进一步提高诊断准确率和维修效率。

本发明采用以下技术方案。

提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，用于知识图谱的链接预测，包括以下步骤；

步骤S1、缺陷数据集处理，数据集数据包括电力主设备的缺陷信息，通过手工收集和记录，整理成表格格式化数据；

步骤S2、构建知识图谱的本体定义；由表格结构化数据的表格表头模式设计知识图谱本体结构，根据本体设计将缺陷数据集转化为三元组；

步骤S3、通过为每个“头-尾”关系边添加“尾-头”关系边来创建逆边；

步骤S4、预训练数据集处理；收集电力缺陷相关的资料构建语料数据集；按照预设比例将语料数据集划分为训练集、验证集和测试集，训练集中使用双向边，验证集和测试集中使用单向边；

步骤S5、预训练用于处理电力缺陷相关领域语料库的BERT模型，通过微调来优化模型理解句子语义并提取有价值特征的功能；

其中，预训练的任务是掩码语言模型(Masked Language Model,MLM)，MLM的目标是预测输入句子中被掩码的词。给定一个输入序列X＝(x1,x2,...,xn)，其中某些位置的词xi被掩码，目标是最大化对被掩码词的对数似然。这里我们的输入序列是电力缺陷相关领域语料库的句子。

给定一个训练样本(x,y)，首先，我们将输入x传给BERT模型，得到输出

z＝BERT(x；Θ)----(1)

其中Θ是模型参数。

然后，我们通过一个softmax函数将z转化为预测概率p＝softmax(z)。

最后，微调的目标是最大化对y的对数似然。具体地说，我们希望最大化每个样本的对数似然之和，即最小化损失函数。L_fine-tune代表了微调阶段的损失函数。即：

L_fine-tune＝Σ(i＝1to N)logp(yi|xi；Θ)----(2)

等价于：

L_fine-tune＝Σ(i＝1to N)logp_i[yi]---(3)

其中N是训练样本的数量，p_i[yi]是第i个样本的真实标签yi的预测概率，Θ是模型参数。

步骤S6、结合知识图谱嵌入模型KGEMs对BERT模型进行训练和测试，利用主成分分析PCA算法对BERT的隐藏层输出降维，以减少计算和存储需求；

用主成分分析(PCA)对BERT的隐藏层输出进行降维处理。即

H＝BERT_hidden(x'；Θ)---(4)

H是BERT模型对输入x'的隐藏层输出，

H'＝PCA(H)---(5)

H'是通过PCA降维后的输出。

将降维后的三元组特征向量作为训练过程链接预测任务的初始嵌入，将经过预训练语言模型处理并降维后的实体和关系表示输入到知识图谱嵌入模型KGEMs中；

步骤S7、采用已处理的已有知识图谱嵌入模型KGEMs来构建链接预测模型，链接预测模型包括损失函数、优化器和评估指标。

链接预测任务使用我们的嵌入模型来进行预测，我们需要将知识图谱中的实体和关系嵌入到低维空间。设h,t和r分别是头实体、尾实体和关系，我们可以通过嵌入函数E来获取他们的嵌入表示：

h_emb＝E(h)---(6)

t_emb＝E(t)---(7)

r_emb＝E(r)---(8)

假设如果(h,r,t)在知识图谱中是一个正确的事实，那么h_emb+r_emb应该接近t_emb。

f(h,r,t)＝||h_emb+r_emb-t_emb||---(9)

这里||.||是一个范数，我们使用了L1范数或L2范数。

链接预测模型的目标是最小化正确事实的分数，同时最大化错误事实(负样本)的分数。这可以通过如下的损失函数L来实现。

L＝Σ[f(h,r,t)-f(h',r',t')+margin]_+---(10)

其中[x]_+是ReLU函数，表示如果x>0，则返回x，否则返回0。(h',r',t')是一个负样本，margin是一个超参数，用来控制正样本和负样本之间的间隔。

所述步骤S1中，收集电网领域文本数据，并对其进行数据清洗和预处理，以使其成为适合分析的结构化数据。

步骤S2中，一个三元组(Triple)是表示实体关系的方式，形式化地表示为(h,r,t)，其中h是头实体(Head Entity)，r是关系(Relation)，t是尾实体(Tail Entity)。三元组的实体清单包括缺陷现象、电站/线路、电力/线路类型、电压等级、缺陷属性、缺陷位置、缺陷性质、缺陷描述、设备类型、缺陷设备、设备部件类型、设备部件；

三元组的关系清单包括的内容，以头到尾的形式表述为：电力/线路类型->电站/线路，电站/线路->电压等级，电站/线路->缺陷现象，缺陷属性->缺陷现象，缺陷位置->缺陷现象，缺陷位置->设备部件，设备部件->缺陷现象，缺陷位置->缺陷描述，缺陷描述->缺陷现象，设备类型->缺陷设备，缺陷设备->设备部件类型，设备部件类型->设备部件。

在步骤S3中，关系清单的各关系类型均创建对应的逆关系类型并加入关系清单中，即为每个“头到尾”的关系边添加“尾到头”的关系边来创建逆边，以关系清单中所有的关系类型和对应的逆关系类型进行模型训练。

步骤S4中，语料数据集包括变电站运行维护题库、变电站一次设备缺陷分类标准和配电网故障分析案例，语料数据集中，每个句子作为一个单独的行，按照8:1:1的比例将语料数据集划分为训练集、验证集和测试集。

步骤S5中，预训练微调过程使用领域特定长文本进行微调，冻结除最后一层外的所有层，使用HuggingFace提供的预训练工具，选择使用bert-Chinese-base作为预训练模型；将学习率设置为2e-5，train_batch_size设置为128，按语料库的长度分布，将最大序列长度max_seq_length设定为256，任何超过此长度的句子都将被截断，而过短的句子将被填充，训练周期的数量设置为40。

缺陷分析方法还包括步骤S8，即通过模型测试评估链接预测模型的hit@1、5、10，根据评估结果来使用不同的策略来获得更好的模型训练结果。

本发明提出了一种针对电力设备缺陷预测的方法，采用基于BERT的微调和知识图谱嵌入模型(KGEMs)，在本发明中，首先，通过收集和整理电力主设备的缺陷信息，创建缺陷数据集；其次，定义本体并设计知识图谱；然后，利用预训练的BERT模型处理特定领域语料库，微调BERT以更好地理解句子语义并提取更有价值的特征；最后，通过结合KGEMs的训练和测试，实现了更准确、有效的电力设备缺陷预测。此方法克服了直接使用BERT在专业领域词汇上的不足，并显著提高了预测任务的性能。

本发明通过使用领域特定知识对BERT进行微调，提高了BERT理解领域特定知识的能力；本发明可以利用从BERT中提取的特征信息作为初始嵌入，进而显著提高知识图谱嵌入模型(KGEMs)在链接预测性能方面的表现。

本发明还针对资源受限的环境进行了优化，只需很少的语料就能取得优异的结果。本发明的方法在只有少量专业领域语料和计算资源的情况下仍能取得满意的效果。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明的知识图谱本体示意图；

附图2是本发明所述方法的架构示意图；

附图3是本发明实施例中，在模型测试步骤的TranH的hit@k的实验结果示意图；

附图4是本发明实施例中，在模型测试步骤的DistMult的hit@k的实验结果示意图。

具体实施方式

如图所示，提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，用于知识图谱的链接预测，包括以下步骤；

步骤S6、结合知识图谱嵌入模型KGEMs对BERT模型进行训练和测试，利用主成分分析PCA算法对BERT的隐藏层输出降维，以减少计算和存储需求；将降维后的三元组特征向量作为训练过程链接预测任务的初始嵌入，将经过预训练语言模型处理并降维后的实体和关系表示输入到知识图谱嵌入模型KGEMs中；

步骤S2中，三元组的实体清单包括缺陷现象、电站/线路、电力/线路类型、电压等级、缺陷属性、缺陷位置、缺陷性质、缺陷描述、设备类型、缺陷设备、设备部件类型、设备部件；

实施例：

本例中，语料数据集规模远小于BERT等公开数据集的训练语料，仅为4.96M。

在模型训练中，使用TransH和DistMult作为本例的KGEMs，通过Pykeen实现，所有其他设置保持与原始实现一致。

图2的下半部分为本发明的模型训练图示。预测任务涉及在给定头实体和关系的情况下，从所有实体的候选池中选择最可能的候选实体。

为实现这一目标，本例计算每个候选实体被选中的概率。在本例的KGEMs训练设置中，将最大训练轮数设为300，评估轮数设为10，并启用提前停止功能，容差为5，相对增量为0.01。

为通过将PCA应用于将BERT的隐藏层输出从768降低到300维，本例调整了KGEMs的输入维度为300。

在本例的模型测试中，进行了三个测试实验。第一个实验直接使用KGEMs进行链接预测任务。第二个实验利用预训练模型的原始设置从知识图谱节点和边提取特征，用于链接预测任务中的初始KGEMs嵌入。第三个实验，本例提出的方法，涉及在特定领域语料库上对预训练模型进行微调，并重复第二个实验。

在评估过程中，针对性能指标：Hit@k，其中k设为1、5和10。为了减轻偶然因素的影响，本例进行了10次实验，并报告最大的hit@k值。

实验结果表明，本例提出的方法克服了直接使用BERT带来的性能损失，并提高了KGEMs的有效性。

BERT在通用语料库上进行训练，难以应对专业领域词汇，这包括俚语、缩写和行话。提取不准确的语义信息可能导致误导性的节点特征初始化，使嵌入效果不如随机嵌入。

本例在特定领域语料库上对BERT进行微调，使其能更好地理解句子语义并提取更有价值的特征，使其成为一种有效的特征提取器。TranH的hit@k实验结果如图3所示。DistMult的hit@k实验结果如图4所示。

Claims

1.提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，用于知识图谱的链接预测，其特征在于：包括以下步骤；

2.根据权利要求1所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，其特征在于：所述步骤S1中，收集电网领域文本数据，并对其进行数据清洗和预处理，以使其成为适合分析的结构化数据。

3.根据权利要求2所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，其特征在于：步骤S2中，三元组的实体清单包括缺陷现象、电站/线路、电力/线路类型、电压等级、缺陷属性、缺陷位置、缺陷性质、缺陷描述、设备类型、缺陷设备、设备部件类型、设备部件；

4.根据权利要求3所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，其特征在于：在步骤S3中，关系清单的各关系类型均创建对应的逆关系类型并加入关系清单中，即为每个“头到尾”的关系边添加“尾到头”的关系边来创建逆边，以关系清单中所有的关系类型和对应的逆关系类型进行模型训练。

5.根据权利要求4所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，其特征在于：步骤S4中，语料数据集包括变电站运行维护题库、变电站一次设备缺陷分类标准和配电网故障分析案例，语料数据集中，每个句子作为一个单独的行，按照8:1:1的比例将语料数据集划分为训练集、验证集和测试集。

6.根据权利要求4所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，其特征在于：步骤S5中，预训练微调过程使用领域特定长文本进行微调，冻结除最后一层外的所有层，使用HuggingFace提供的预训练工具，选择使用bert-Chinese-base作为预训练模型；将学习率设置为2e-5，train_batch_size设置为128，按语料库的长度分布，将最大序列长度max_seq_length设定为256，任何超过此长度的句子都将被截断，而过短的句子将被填充，训练周期的数量设置为40。

7.根据权利要求6所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法，其特征在于：缺陷分析方法还包括步骤S8，即通过模型测试评估链接预测模型的hit@1、5、10，根据评估结果来使用不同的策略来获得更好的模型训练结果。