CN116975161A

CN116975161A - 电力设备局放文本的实体关系联合抽取方法、设备、介质

Info

Publication number: CN116975161A
Application number: CN202310607679.XA
Authority: CN
Inventors: 周录波; 王栋; 谢励耘; 朱荣华; 刘隰蒲; 宋辉; 钱勇; 盛戈皞
Original assignee: State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-10-31

Abstract

本发明涉及一种电力设备局放文本的实体关系联合抽取方法、设备、介质，包括：将局部放电文本句子输入编码模型中，得到各个字符对应的编码并按照文字顺序排列得到编码序列；将编码序列输入头实体编码器中，标记头实体的起止位置，基于头实体的起止位置对应字符的编码进行特征解析及语义提取，得到头实体语义向量；利用尾实体解码器，通过将头实体作为先验信息，匹配与预设的关系类型对应的尾实体的起止位置。通过将三元组抽取过程看作为两个实体的映射关系，首先抽取出头实体，作为先验信息，再针对每一种关系抽取对应的尾实体，从而实现头实体在特定关系类型下到尾实体的映射过程，使模型更加关注于关系相关的语义信息，减少冗余的抽取操作。

Description

电力设备局放文本的实体关系联合抽取方法、设备、介质

技术领域

本发明涉及电网故障诊断领域，尤其是涉及一种电力设备局放文本的实体关系联合抽取方法、设备、介质。

背景技术

随着国内外研究人员对局部放电领域的深入研究和配电设备检测技术的日益成熟，局放检测近年来获得了广泛的现场应用，并由此积累了大量的电力设备局放检测文本。这些文本中详细记录了经由局放检测发现的设备缺陷数据、运行状态、缺陷产生过程与设备解体维护经过等重要信息，对电力设备运行状态评估、家族性缺陷识别等具有重要意义。然而该类文本往往具有非结构化数据占比大、多源异构性高等特点，难以直接从中提取有效知识并进行知识整合，因此亟需一种能够聚集文本知识、可视化程度高的工具对电力设备局放数据进行分析处理。随着图论相关理论的不断完善，知识图谱技术在海量数据组织管理、知识表达与智能问答领域展现出巨大潜力与优势。因此，我们可以借助知识图谱来对电力设备局放文本数据进行分析、录入、展示与推理等，从而有效地学习到有关电力设备的先验知识以及消缺案例，并在此基础上进行逻辑推理、智能匹配等，进一步为输变电设备状态评估、设备画像构建、检修决策提供重要参考。

在知识图谱的构建过程中，需要对自然语言文本数据进行一定处理，即抽取出其中的头尾实体与关系类型，形成知识三元组SPO(Subject,Predicate,Object)。目前广泛用于实体及关系抽取的方法有两种：分别是流水线式抽取方法与联合抽取方法。流水线式抽取方法是指将实体抽取与关系抽取分开，各个任务依次处理，即在进行命名实体识别(NameEntity Recognition,NER)之后，再对两两实体之间的关系进行预测分类(RelationExtraction，RE)。两个子任务之间的分离导致这类方法存在误差传递、冗余实体推断、子任务间缺少交互等问题，因此具有较大的局限性。联合抽取方法则将三元组抽取看作一个整体，通过建立统一的模型进行联合训练，使得不同的子任务彼此交互，从而充分利用子任务中的信息，进一步提升模型的性能，在近年来深受研究者青睐。

中国专利申请号CN202210248594.2提供一种基于BERT的电网故障诊断方法，将电网故障诊断转化为一个自然语言处理问题，其中包括：采集告警信息样本，对样本进行切词预处理；对告警信息文本嵌入语义特征、句特征以及位置特征，将三大特征相加构成模型输入向量；构建基于BERT的电网故障诊断模型，利用Transformer编码器中的注意力机制，自主学习告警信息文本中的故障特征，利用解码器输出故障诊断结果。

上述申请通过输入的告警信息文本直接输出有关故障特征的概要性描述文本，实现了端到端的电网故障诊断，但是，并未从实体及实体间的关系考虑语义的识别和抽取，抽取得到的概要性描述文本的准确性和简洁性有所欠缺。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种电力设备局放文本的实体关系联合抽取方法、设备、介质，通过将头实体作为先验信息，匹配与预设的关系类型对应的尾实体的起止位置，构建包括头实体、尾实体和关系类型的三元组，实现实体关系的联合抽取。

本发明的目的可以通过以下技术方案来实现：

本发明的一个方面，提供了一种电力设备局放文本的实体关系联合抽取方法，包括如下步骤：

获取局部放电文本句子并输入编码模型中，得到各个字符对应的编码并按照文字顺序排列得到编码序列；

将所述编码序列输入头实体编码器中，标记头实体的起止位置，基于所述头实体的起止位置对应字符的编码进行特征解析与语义信息提取，得到头实体语义向量；

将所述编码序列和所述头实体语义向量输入尾实体解码器中，通过将头实体作为先验信息，匹配与预设的关系类型对应的尾实体的起止位置，构建包括头实体、尾实体和关系类型的三元组，实现实体关系的联合抽取。

作为优选的技术方案，所述的编码模型预先经过预训练，预训练的过程包括如下步骤：

获取包括多个样例文本句子的训练数据，依次对所述编码模型进行掩藏语言模型训练和下一句预测训练。

作为优选的技术方案，针对所述的头实体编码器和所述的尾实体解码器中的任一个，均包括两个不同的二进制分类器，用于分别标记头实体或尾实体的开始位置和结束位置。

作为优选的技术方案，所述的头实体语义向量的获取过程包括如下步骤：

抽取出所述头实体的起止位置之间的所有字符对应的长度相同的编码向量，将其输入到双向长短期记忆网络模型中进行特征解析，选取该双向长短期记忆网络模型的最后一个位置输出的隐藏层向量作为所述的头实体语义向量。

作为优选的技术方案，所述的实体编码器和/或所述的尾实体解码器采用交叉熵损失函数进行训练。

作为优选的技术方案，所述的起止位置的标记过程为：标记结束位置以及与结束位置最接近且处于结束位置左侧的起始位置。

作为优选的技术方案，通过将头实体作为先验信息，匹配与预设的关系类型对应的尾实体的起止位置的过程包括如下步骤：

针对每个头实体，将句子中其他实体作为候选尾实体，通过判断是否能够根据预设的多种关系类型将句子中的候选尾实体与头实体相关联，确定包括头尾实体与关系类型的三元组。

作为优选的技术方案，所述的编码模型为BERT模型。

本发明的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行上述电力设备局放文本的实体关系联合抽取方法的指令。

本发明的另一个方面，提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行上述电力设备局放文本的实体关系联合抽取方法的指令。

与现有技术相比，本发明具有以下优点：

(1)实现实体关系的准确抽取：将三元组抽取过程看作为两个实体的映射关系，即首先抽取出头实体，作为先验信息，再针对每一种关系抽取对应的尾实体，从而实现头实体在特定关系类型下到尾实体的映射过程，使模型更加关注于该关系相关的语义信息，减少冗余的抽取操作。

(2)应用范围广：本发明能够快速有效地识别出局放文本数据中各类实体以及其关系类型，进而构建大规模电力设备缺陷知识图谱，为输变电设备状态评估、设备画像构建、检修决策提供重要参考。

附图说明

图1为实施例中电力设备局放文本的实体关系联合抽取方法的示意图；

图2为实施例中头实体语义向量的获取操作示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例1

本发明提供了一种基于头实体导向机制的电力设备局部放电数据的实体关系联合抽取方法。该方法将三元组抽取过程看作为两个实体的映射关系，即首先抽取出头实体，作为先验信息，再针对每一种关系抽取对应的尾实体，从而实现头实体在特定关系类型下到尾实体的映射过程，使模型更加关注于该关系相关的语义信息，减少冗余的抽取操作。

本实施例在预训练语言模型BERT(Bidirectional Encoder Representationfrom Transformers)的基础上，通过共享编码层并以头实体为导向，对电力设备局部放电文本的知识三元组进行抽取，得到了一种准确率较高的中文电力设备局放文本的实体关系联合抽取模型，能够快速有效地识别出局放文本数据中各类实体以及其关系类型，用以构建大规模电力设备缺陷知识图谱。

本模型旨在识别出局放文本中所有可能存在的三元组，其中部分三元组可能存在重叠或嵌套问题。对此，本模型以头实体为导向，将三元组建模过程做如式(1)转换，即首先抽取出头实体，然后根据头实体的先验信息抽取出其在特定关系下对应的尾实体。

P(s,p,o|x)＝P(s|x)P(p,o|s,x) (1)

其中，x是输入的句子；s为模型首先抽取出来的头实体，p是特定的关系类型，需要预先定义；o为句子中与头实体s存在关系p的尾实体。可见，本模型中三元组抽取过程被转化为两个子任务：一是从句子x中抽取出头实体s，二是将不同的头实体s作为先验特征，与句子x共同解码得出关系p与对应的尾实体o。由此，本模型实现了对整个三元组的联合建模，同时保证了模型对三元组重叠或嵌套问题的处理能力。

参见图1，本实施例针对电力设备局部放电文本数据，提出了一种基于共享BERT编码层的头实体导向制联合抽取模型，其中具体步骤如下：

(1)准备训练数据：输入电力设备局部放电文本句子，并标注出每一句中存在关系的两个实体及其关系类型，形成三元组。其中，预设的关系类型有表1所述几种：

表1电力设备局部放电文本预设关系类型

序号	关系类型
		1	所属站点(场所)为
2	故障(缺陷)位置为
		3	故障(缺陷)类型为
4	故障(缺陷)现象为
		5	故障(缺陷)特征为
6	缺陷检测时间为
		7	停电检修时间为

(2)预处理：对输入的电力设备局部放电文本句子进行分词，每个词之间用空格隔开。

(3)BERT编码：将预处理结果输入BERT模型，利用遮盖语言模型(Masked languagemodel，MLM)与预测后续序列(Next sequence prediction，NSP)两个任务进行预训练，从而将句子中的汉字符转化为计算机能够理解的连续向量，并将其按顺序排列形成一个向量序列，作为后续两个子任务的共享编码层。

(4)头实体解码器学习：将BERT编码结果输入头实体解码器中，对头实体的起始与终止位置进行标记。头实体解码器采用两个独立的dense层实现，其输出为两个具有句子长度且取值全为0/1的向量，分别用以表示各头实体的起始与终止位置。

(5)头实体语义信息提取：将识别出的头实体起止位置之间所有编码向量提取出，输入到双向长短期记忆网络模型进行特征解析，通过多个记忆单元对头实体片段序列信息进行保存、更新、衰减。最终选取该双向长短期记忆网络模型中最后一个位置对应的隐藏层输出作为头实体语义向量。

(6)尾实体解码器学习：将BERT编码与步骤(5)中得到的头实体语义向量整合，输入到尾实体解码器中，为各个关系类型标记对应尾实体的起始、结束位置。尾实体解码器同样采用两个独立的dense层实现，其输出为两个取值全为0/1的矩阵，大小为句子长度×关系类型数量，可认为是对每个关系类型单独标记尾实体的起始与终止位置。

优选的，电力设备局放文本的联合抽取步骤(1)的具体方法为：

输入电力设备局部放电文本句子，并标注出每一句中存在关系的两个实体及其关系类型，形成三元组。将文本句子与三元组整合，形成训练数据，其标注方法如表2所示。

表2电力设备局部放电文本标注方法

优选的，电力设备局放文本的联合抽取步骤(3)的方法为：

将电力设备局部放电文本输入到BERT模型中进行预训练。BERT是从Transformer中衍生出来的预训练语言模型，其基于注意力机制对文本数据进行建模。BERT模型采用12或24层双向Transformer编码结构，通过使用大规模未标注语料进行自监督训练，从而有效学习到文本的通用语言特征，获取深层次文本词向量表示，并得到适应下游任务的模型网络参数。

在预训练过程中，首先对BERT模型进行掩藏语言模型训练(masked languagemodel,MLM)，将单条文本中的任意字或词用遮盖符号‘[MASK]’替换，然后依据上下文语义信息对随机掩盖的词进行预测，从而可以更好地学习上下文内容特征。其次对BERT模型进行下一句预测训练(next sentence predication，NSP)，为每个句子的句首和句尾分别插入‘[CLS]’和‘[SEP]’标签，通过学习句子间的关系特征预测两个句子的位置是否相邻，从而充分学习到不同句子的语法、语义特点。

电力设备局放文本的联合抽取步骤(4)的具体方法为：

通过直接解码BERT编码器产生的向量序列来获取句中所有实体的位置。其中，分别采用两个独立的二进制分类器，通过对每个位置赋予0或1来判定其是否为某个实体的开始或结束位置，从而可识别出句子中所有可能的实体。二进制分类器采用dense层实现，具体如下：

其中，与/>分别代表输入序列中的第i个位置作为头实体的开始或结束位置的概率。如果概率超过某个阈值(设置为0.5)，则为对应位置赋予标签1，否则赋予标签0。h_i是输入序列中第i个位置对应的BERT编码，其中W(·)表示权重，b(·)表示偏差，σ表示sigmoid激活函数。

优选的，电力设备局放文本的联合抽取步骤(5)的方法为：

将步骤(4)中识别为头实体所对应的BERT编码片段进行特征解析与语义提取，提取出头实体的特征信息，形成头实体语义向量。这里采用最近-匹配策略，即每个结束位置匹配最接近且处于其左边的起始位置，共同表示一个实体的边界。头实体语义向量的获取过程参见图2，抽取出实体边界内所有的BERT编码序列，将头实体编码序列输入到双向长短期记忆网络模型进行特征解析，通过多个记忆单元对头实体片段序列信息进行保存、更新、衰减，并分别训练一个向前与向后的长短期记忆网络来捕获输入序列中各位置的双向语义特征，最终选取该双向长短期记忆网络模型中最后一个位置对应的隐藏层输出作为表征该头实体特征的语义向量。

电力设备局放文本的联合抽取步骤(6)的具体方法为：

与步骤(4)中头实体解码器不同，尾实体的解码过程不仅需要句子本身的输入，还需要考虑头实体的特征。因此，尾实体解码器的输入为：

其中，h_N代表BERT编码层输出，表示步骤(5)中获得的第k个头实体的语义向量(0≤k≤n，n为步骤(4)中抽取获得的头实体个数)，二者相加结果作为尾实体解码器的输入。在尾实体解码器中，通过对每个头实体，检查在所有可能的关系下，是否可以将句子中的候选尾实体与该头实体相关联，从而同时确定头尾实体与关系三元组。其中，尾实体解码器同样采用两个独立的二进制分类器，通过为每个位置在不同关系类型下赋予0/1，来判断该位置是否为某个头实体在特定关系下的尾实体的开始或终止位置，从而获取该头实体对应的所有尾实体及其之间的关系类型。其中二进制分类器采用dense层实现，具体如下：

其中，与/>分别代表输入序列中的第i个位置为尾实体的开始或结束位置的概率。如果概率超过某个阈值(设置为0.5)，则为对应位置赋予标签1，否则赋予标签0。/>表示与第k个头实体对应的输入序列中第i个位置的向量。W(·)表示权重，b(·)表示偏差，σ表示sigmoid激活函数。

本发明提供一种电力设备局部放电文本的实体关系联合抽取方法。基于头实体导向机制，并通过共享BERT编码层，可以同时识别出电力设备局放文本中的不同实体与实体之间的关系类型，从而准确高效地从文本数据中抽取出知识三元组，是构建电力设备缺陷知识图谱中最为重要的步骤之一。

实施例2

与实施例1相比，本实施例中的编码模型可以采用BERT-wwm、XLNET、ALBERT、RoBERTa、ELECTRA、BART或PEGASUS等其他现有的编码模型实现。

实施例3

本实施例提供了一种电网故障诊断方法，首先利用基于实施例1提供的基于头实体导向机制的电力设备局部放电数据的实体关系联合抽取方法得到知识三元组SPO，利用知识三元组构建得到知识图谱。在设备发生故障后，利用实施例1提供的实体关系抽取模型完成对故障告警信息中关键内容的抽取，并提炼为SPO数据形式，再结合所建的知识图谱，通过Cypher语言或子图匹配等方式进行快速检索，返回与当前事件相似的案例记录，获取该类设备发生相似故障现象时对应的故障位置、原因等信息，完成故障的智能诊断。

实施例4

本实施例提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如实施例1或2所述电力设备局放文本的实体关系联合抽取方法的指令。

实施例5

本发明提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如实施例1或2所述电力设备局放文本的实体关系联合抽取方法的指令。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种电力设备局放文本的实体关系联合抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，所述的编码模型预先经过预训练，预训练的过程包括如下步骤：

3.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，针对所述的头实体编码器和所述的尾实体解码器中的任一个，均包括两个不同的二进制分类器，用于分别标记头实体或尾实体的开始位置和结束位置。

4.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，所述的头实体语义向量的获取过程包括如下步骤：

5.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，所述的实体编码器和/或所述的尾实体解码器采用交叉熵损失函数进行训练。

6.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，所述的起止位置的标记过程为：标记结束位置以及与结束位置最接近且处于结束位置左侧的起始位置。

7.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，通过将头实体作为先验信息，匹配与预设的关系类型对应的尾实体的起止位置的过程包括如下步骤：

8.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法，其特征在于，所述的编码模型为BERT模型。

9.一种电子设备，其特征在于，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述电力设备局放文本的实体关系联合抽取方法的指令。

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述电力设备局放文本的实体关系联合抽取方法的指令。