CN113569558A

CN113569558A - 一种电力设备局部放电实体关系抽取方法及系统

Info

Publication number: CN113569558A
Application number: CN202110761402.3A
Authority: CN
Inventors: 宋辉; 田嘉鹏; 盛戈皞; 孟祥麟; 张钊棋; 钱勇; 罗林根; 江秀臣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-29
Anticipated expiration: 2041-07-06
Also published as: CN113569558B

Abstract

本发明公开了一种电力设备局部放电实体关系抽取方法，其通过标注电力设备局部放电中文文本，获得训练样本和实测样本；构建自注意网络双向编译表示模型，用训练样本对其进行预训练，将训练样本或实测样本输入上述模型中，得到第一向量序列，并将第一向量序列输入多层自注意力网络得到第二向量序列，将需要进行关系抽取的两个实体的向量序列片段从第一向量序列中提取，用最大池化法得到两个实体的语义特征向量，计算得到两个实体的位置特征向量并与语义特征向量相加得到两个实体向量；用分段最大池化法将第二向量序列转化为句子向量，将句子向量与两个实体向量拼接在一起，而后输入全连接神经网络中进行关系分类，得到两个实体在文本句子中的关系。

Description

一种电力设备局部放电实体关系抽取方法及系统

技术领域

本发明涉及一种文本实体知识抽取方法，尤其涉及一种电力故障实体关系抽取方法。

背景技术

目前，在电力设备日常巡检维护的过程中，电网的运行维护部门常常需要积累大量的设备运行状态文本，局部放电文本便是其中重要的组成部分。

在实际应用过程中，电气设备运行状态文本一般采用自然语言进行记录，但在当前的现有技术中，借助计算机实现自然语言信息的提取、表示、分析等过程仍然面临着众多的困难。

近年来，伴随着电力设备状态检修数据不断地积累，利用局部放电案例文本的难度也在不断地增大，其效率在不断地降低。为了解决这一问题，目前急需一种能够聚集局部放电案例文本知识、便于工作人员学习分析、可视化程度高的工具。该工具需要面对众多的局部放电文本，且可以应用知识图谱技术来对文本信息进行分析、录入、展示、推理等。因此，为了构建知识图谱，必须要对局部放电案例文本的实体进行关系抽取。

电力设备局部放电实体关系抽取任务是将局部放电文本中两个不同实体(如变压器、绝缘套管等)之间的关系抽取出来，例如属于、位于、类型为等。这类任务文本篇幅较长、实体类别以及个数较多等特点，另外中文文本中词语之间没有空格隔开加以区分。因此在现有技术中，针对中文的电力设备局部放电实体关系抽取一直存在着准确度较低的问题。

目前，实体关系抽取技术在计算机、医疗、生物、金融等领域发展迅猛，但是在电力工业领域尚处于起步阶段。虽然实体抽取技术在计算机领域取得的突破在一定程度上可以为解决中文电力设备故障文本实体识别任务指明方向，但是由于电力设备故障文本自身前述的特殊性，其他领域的实体识别模型仍然难以直接应用在电力设备实体识别任务上。

基于此，本发明期望获得一种电力设备局部放电实体关系抽取方法，该电力设备局部放电实体关系抽取方法能够采用自注意网络双向编译表示模型(BidirectionalEncoder Representation from Transformers，BERT)将中文电力设备局部放电文本句子中的各个中文字符和句子实体转化为计算机能够理解的低维连续向量序列，其通过多层自注意力网络(Transformer)的编码器可以将代表文本语句的低维连续向量序列转换为具有高信息密度的向量序列。

在该电力设备局部放电实体关系抽取方法中，利用分段最大池化的方法，能够将具有高信息密度的向量序列转化为一个句子向量；另一方面，将句子中两个实体所对应的向量序列通过最大池化的方法可以分别转化为两个语义特征向量，计算并得到两个实体的位置特征向量并与所述语义特征向量相加得到两个实体向量。最后，将这两个实体向量与句子向量拼接在一起，输入到全连接神经网络(FC)中进行关系分类，可以得到两个实体在文本句子中的关系类别。

发明内容

本发明的目的之一在于提供一种电力设备局部放电实体关系抽取方法，在本发明所述的电力设备局部放电实体关系抽取方法中，本发明将自注意网络双向编译表示模型(BERT)与多层自注意力变换网络(Transformer)应用在电力设备局部放电文本的实体关系抽取中，继而得到了一种准确率较高的中文电力设备局部放电文本实体关系抽取模型，其能够有效快速地识别出局部放电文本中各类实体之间的关系，具有良好的推广应用前景。

采用本发明所述的电力设备局部放电实体关系抽取方法，可以挖掘出电力企业内部海量电力设备局部放电文本中不同实体之间的关系，其能够从文本中抽取出知识三元组，以此来辅助电力设备运维人员进行设备维护决策。

根据上述发明目的，本发明提出了一种电力设备局部放电实体关系抽取方法，其包括步骤：

对电力设备局部放电中文文本进行标注，以得到训练样本和实测样本；

按照下述步骤执行训练步骤：

(1)构建自注意网络双向编译表示模型，并采用训练样本对其进行预训练；

(2)将训练样本输入所述自注意网络双向编译表示模型，得到相对应的第一向量序列；

(3)将所述第一向量序列输入多层自注意力网络，以得到信息浓度更高的第二向量序列；

(4)将需要进行关系抽取的两个实体所对应的向量序列片段从所述第一向量序列中提取出来，采用最大池化的方法分别得到两个实体的语义特征向量，计算并得到两个实体的位置特征向量并与所述语义特征向量相加得到两个实体向量；采用分段最大池化的方法将所述第二向量序列转化为句子向量；

(5)将所述句子向量与所述两个实体向量拼接在一起，以形成特征向量；

(6)将所述特征向量输入全连接神经网络中进行关系分类，以得到两个实体在文本句子中的关系；

按照下述步骤对电力设备局部放电实体关系进行抽取：

(a)将实测样本输入所述自注意网络双向编译表示模型，得到相对应的第一向量序列；

(b)将所述第一向量序列输入多层自注意力网络，以得到信息浓度更高的第二向量序列；

(c)将需要进行关系抽取的两个实体所对应的向量序列片段从所述第一向量序列中提取出来，采用最大池化的方法分别得到两个实体的语义特征向量，计算并得到两个实体的位置特征向量并与所述语义特征向量相加得到两个实体向量；采用分段最大池化的方法将所述第二向量序列转化为句子向量；

(d)将所述句子向量与所述两个实体向量拼接在一起，以形成特征向量；

(e)将所述特征向量输入全连接神经网络中进行关系分类，以得到两个实体在文本句子中的关系。

在本发明所述的技术方案中，本发明所述的电力设备局部放电实体关系抽取方法能够采用自注意网络双向编译表示模型(Bidirectional Encoder Representation fromTransformers，BERT)将中文电力设备局部放电文本句子中的各个中文字符和句子实体转化为计算机能够理解的低维连续向量序列，其通过多层自注意力网络(Transformer)的编码器可以将代表文本语句的低维连续向量序列转换为具有高信息密度的向量序列。

在本发明所述的电力设备局部放电实体关系抽取方法中，通过进一步地利用分段最大池化的方法，能够将具有高信息密度的向量序列转化为一个句子向量；另一方面，将句子中需要进行关系抽取的两个实体所对应的向量序列通过最大池化的方法可以分别转化为两个语义特征向量，计算并得到两个实体的位置特征向量并与所述语义特征向量相加得到两个实体向量。最后，将这两个实体向量与句子向量拼接在一起，输入到全连接神经网络(FC)中进行关系分类，可以得到两个实体在文本句子中的关系类别。

进一步地，在本发明所述的电力设备局部放电实体关系抽取方法中，在对实测样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置。

进一步地，在本发明所述的电力设备局部放电实体关系抽取方法中，在对训练样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置，以及这两个实体之间的关系。

进一步地，在本发明所述的电力设备局部放电实体关系抽取方法中，其特征在于，在步骤(1)中，采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练。

进一步地，在本发明所述的电力设备局部放电实体关系抽取方法中，所述全连接神经网络采用softmax激活函数。

相应地，本发明的另一目的在于获得一种电力设备局部放电实体关系抽取系统，该电力设备局部放电实体关系抽取系统可以用于实施本发明所述的电力设备局部放电实体关系抽取方法。

为了实现上述发明目的，本发明提出了一种电力设备局部放电实体关系抽取系统，包括：

自注意网络双向编译表示模型，其被设置为：向其输入经过标注的电力设备局部放电中文文本，其输出相对应的第一向量序列；

多层自注意力网络，其被设置为：向其输入所述第一向量序列，其输出信息浓度更高的第二向量序列；

拼接模块，其被设置为：将需要进行关系抽取的两个实体所对应的向量序列片段从所述第一向量序列中提取出来，采用最大池化的方法分别得到两个实体的语义特征向量，计算并得到两个实体的位置特征向量并与所述语义特征向量相加得到两个实体向量；采用分段最大池化的方法将所述第二向量序列转化为句子向量；将所述句子向量与所述两个实体向量拼接在一起，以形成特征向量；

全连接神经网络，其被设置为：向其输入所述特征向量，以输出两个实体在文本句子中的关系；

进一步地，在本发明所述的电力设备局部放电实体关系抽取系统中，所述电力设备局部放电中文文本包括训练样本和实测样本，其中在对实测样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置。

进一步地，在本发明所述的电力设备局部放电实体关系抽取系统中，在对训练样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置，以及这两个实体之间的关系。

进一步地，在本发明所述的电力设备局部放电实体关系抽取系统中，所述自注意网络双向编译表示模型为采用遮盖语言模型与预测后续序列分别进行了预训练的对自注意网络双向编译表示模型。

进一步地，在本发明所述的电力设备局部放电实体关系抽取系统中，所述全连接神经网络采用softmax激活函数。

本发明所述的电力设备局部放电实体关系抽取方法及系统相较于现有技术具有如下所述的优点以及有益效果：

本发明所述的电力设备局部放电实体关系抽取方法能够采用自注意网络双向编译表示模型将中文电力设备局部放电文本句子中的各个中文字符和句子实体，转化为计算机能够理解的低维连续向量序列，其通过多层自注意力网络的编码器可以将代表文本语句的低维连续向量序列转换为具有高信息密度的向量序列。

在本发明所述的电力设备局部放电实体关系抽取方法中，进一步地利用分段最大池化的方法，能够将具有高信息密度的向量序列转化为一个句子向量；另一方面，将句子中需要进行关系抽取的两个实体所对应的向量序列通过最大池化的方法可以分别转化为两个语义特征向量，计算并得到两个实体的位置特征向量并与所述语义特征向量相加得到两个实体向量。最后，将这两个实体向量与句子向量拼接在一起，输入到全连接神经网络中进行关系分类，可以得到两个实体在文本句子中的关系类别。

由此可见，在本发明所述的电力故障中文文本实体识别方法中，本发明通过将自注意网络双向编译表示模型与多层自注意力变换网络应用在电力设备局部放电文本的实体关系抽取中，继而得到了一种准确率较高的中文电力设备局部放电文本实体关系抽取模型，其能够有效快速地识别出局部放电文本中各类实体之间的关系，具有良好的推广应用前景。

采用本发明所述的电力设备局部放电实体关系抽取方法可以挖掘出电力企业内部海量电力设备局部放电文本中不同实体之间的关系，其能够从文本中抽取出知识三元组，以此来辅助电力设备运维人员进行设备维护决策。

相应地，本发明所述的电力设备局部放电实体关系抽取系统可以用于实施本发明上述的电力设备局部放电实体关系抽取方法，其同样具有上述的优点以及有益效果。

附图说明

图1示意性地显示了采用本发明所述的电力设备局部放电实体关系抽取系统在一种实施方式下根据电力设备局部放电中文文本获取电力设备局部放电实体关系的流程示意图。

图2为本发明所述的电力设备局部放电实体关系抽取系统在一种实施方式下的自注意网络双向编译表示模型采用训练样本进行预训练的方法示意图。

图3为本发明所述的电力设备局部放电实体关系抽取系统在一种实施方式下的将第一向量序列输入多层自注意力网络自注意网络以得到第二向量序列的流程示意图。

图4示意性地显示了最大池化的操作示意图。

具体实施方式

下面将结合说明书附图和具体的实施例对本发明所述的电力设备局部放电实体关系抽取方法及系统做进一步的解释和说明，然而该解释和说明并不对本发明的技术方案构成不当限定。

如图1所示，在本发明中，本发明所述的电力设备局部放电实体关系抽取系统可以包括：自注意网络双向编译表示模型、多层自注意力网络、拼接模块和全连接神经网络。

需要说明的是，当向自注意网络双向编译表示模型输入经过标注的电力设备局部放电中文文本时，自注意网络双向编译表示模型可以输出相对应的第一向量序列；第一向量序列可以对应输入到多层自注意力网络中，当向多层自注意力网络输入上述第一向量序列时，其能够输出信息浓度更高的第二向量序列。

相应地，在本发明中，系统中的拼接模块可以被设置为：采用分段最大池化的方法可以将上述第二向量序列转化为句子向量；将需要进行关系抽取的两个实体所对应的向量序列片段从第一向量序列中提取出来，并采用最大池化的方法可以分别得到两个实体的语义特征向量，同时计算并得到两个实体的位置特征向量并与上述语义特征向量相加可以得到两个实体向量；将句子向量与两个实体向量拼接在一起，能够形成特征向量。

基于本发明所述的拼接模块所形成的特征向量，进一步地配合利用全连接神经网络可以对应输出两个实体在文本句子中的关系。

综上所述可以看出，采用本发明所述的电力设备局部放电实体关系抽取系统，根据电力设备局部放电中文文本，可以获取电力设备局部放电实体关系。相应地，在本发明中，采用本发明所述的电力设备局部放电实体关系抽取系统可以具体实施本发明的电力设备局部放电实体关系抽取方法。

结合参阅图1可以看出，在本实施方式中，本发明所述的电力设备局部放电实体关系抽取方法可以包括以下步骤：

按照下述步骤执行训练步骤：

按照下述步骤对电力设备局部放电实体关系进行抽取：

需要注意的是，在本发明中，需要首先对电力设备局部放电中文文本进行标注，利用标注可以获得训练样本和实测样本。在对实测样本进行标注时，需要将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置。

相应地，在对训练样本进行标注时，不仅需要将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且还要标注出两个实体在句子中的位置，以及这两个实体之间的关系。

在本发明中，对电力设备局部放电中文文本进行标注的标注方法可以如下述表1所示。

表1示意性地显示了电力设备局部放电中文文本的标注方法。

表1.

如图2所示，同时结合参阅本发明所述电力设备局部放电实体关系抽取方法的步骤(1)可以看出，在本发明中，可以将训练样本输入到自注意网络双向编译表示模型(BERT)中进行预训练。

相应地，进一步参阅图2可以看出，在本实施方式中，图2所示的E_i(1≤i≤n)可以表示文本中第i个汉字，n为文本字符长度；T_i(1≤i≤n)可以表示为E_i相对应的字向量。通过此步骤，自注意网络双向编译表示模型(BERT)可以将文本汉字序列转化为计算机能够理解的连续向量序列。在进行预训练前，可以先在文本的最前方添加符号‘[CLS]’作为起始符，并对应图2中的E_[CLS]。此外，还可以将样本中两个句子之间用符号‘[SEP]’隔开作为分隔符，对应图1的E_[SEP]。

需要说明的是，在输入训练样本对自注意网络双向编译表示模型(BERT)进行预训练时，可以进行MLM预训练和NSP预训练。在对BERT模型进行NSP预训练时，可以将训练样本中随机的15％的字(如E_j)用遮盖符号‘[MASK]’来代替，然后利用BERT模型去预测这个词是什么，其预测信息可从对应的输出端口获得(如T_j)。其次，在对BERT模型进行NSP预训练时，可以以此判断出输入样本中第二个句子从语法、语义上来是否是第一个句子的下半句，该预测信息可以从图2中所示的C获得。

由此，在完成BERT模型的预训练后，将训练样本输入到BERT模型中，可以得到相对应第一向量序列。随后将第一向量序列输入到多层自注意力网络中获得信息浓度更高的第二向量序列，如图3所示。

如图3所示，在本实施方式中，图3所示的输入向量序列表示第一向量序列，图3所示的输出向量序列表示第二向量序列，图3所示的位置向量表示的每个向量在向量序列中的位置信息，其可以通过下述公式(1)和公式(2)计算获得：

在上述公式(1)和公式(2)中，pos指的是向量处于向量序列中的位置；i指的是位置向量i的维度；d_model是缩放参数，其通常取2ⁿ，在本实施方式中可以取值为64。

相应地，参阅图3可以看出，图3所示的多头注意力层可以表示为下述公式(3)、公式(4)和公式(5)：

Multi(Q,K,V)＝concat(head₁,…,head_h)W^O (3)

head_i＝attention(XW_i ^Q,XW_i ^K,XW_i ^V) (4)

在上述公式中，concat(·)函数表示将head_i拼接在一起，head_i表示第i个自注意力网络计算结果；h表示为head的个数；参数矩阵W^O，W_i ^Q，W_i ^K，W_i ^V均为线性变换的权重；向量矩阵X为输入的向量序列矩阵；Q表示查询向量；K表示结果向量；V表示值向量；K^T表示向量K的转置；Multi(Q,K,V)表示多头注意力层；attention(Q,K,V)表示自注意网络；softmax(·)是激活函数；d_k为向量XW_i ^K的维度。

需要说明的是，在本发明中，经过多层自注意力网络实际上是对输入的第一向量序列进行多次自注意力计算并把其结果拼接在一起，而每次自注意力都将会去关注输入第一向量序列中的不同信息，从而获得信息浓度更高的第二向量序列。

图4示意性地显示了最大池化的示意图。

在本发明中，基于BERT模型输出的第一向量序列可以提取处需要进行关系抽取的两个实体所对应的向量序列片段。根据向量序列片段利用最大池化的方法可以分别得到两个实体的语义特征向量，如图4所示。

参阅图4可以看出，最大池化的具体操作是将向量序列片段横向排列，每一列代表一个汉字的列向量，将向量序列片段中的每一行进行排序将最大的数值提取出来作为新向量相应位置上的数值，最终可以得到一个代表这个实体的语义特征向量V。

此外，需要注意的是，在本发明中，两个实体的位置特征向量可以由上述公式(1)和公式(2)计算得出，计算得到的两个实体的位置特征向量可以与语义特征向量相加，进而可以得到两个实体向量。

另外，将多层自注意力网络输出得到信息浓度更高的第二向量序列，进行分段最大池化，其可以将句子分为三段，分别对这三段进行如图4所示的最大池化，最后将得到的三个向量拼接在一起，从而将高信息浓度的第二向量序列转化为一个句子向量。最后，将句子向量和两个实体向量拼接在一起形成一个特征向量。

相应地，参阅图1可以看出，在本实施方式中，可以将获得的特征向量输入到全连接神经网络(FC)中进行关系分类，以得到两个实体在文本句子中的关系。其中，上述全连接神经网络可以采用softmax激活函数。

综上所述可以看出，在本发明所述的电力故障中文文本实体识别方法中，本发明通过将自注意网络双向编译表示模型与多层自注意力变换网络应用在电力设备局部放电文本的实体关系抽取中，继而得到了一种准确率较高的中文电力设备局部放电文本实体关系抽取模型，其能够有效快速地识别出局部放电文本中各类实体之间的关系，具有良好的推广应用前景。

需要说明的是，本发明的保护范围中现有技术部分并不局限于本申请文件所给出的实施例，所有不与本发明的方案相矛盾的现有技术，包括但不局限于在先专利文献、在先公开出版物，在先公开使用等等，都可纳入本发明的保护范围。

此外，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

还需要注意的是，以上所列举的实施例仅为本发明的具体实施例。显然本发明不局限于以上实施例，随之做出的类似变化或变形是本领域技术人员能从本发明公开的内容直接得出或者很容易便联想到的，均应属于本发明的保护范围。

Claims

1.一种电力设备局部放电实体关系抽取方法，其特征在于，包括步骤：

按照下述步骤执行训练步骤：

按照下述步骤对电力设备局部放电实体关系进行抽取：

2.如权利要求1所述的电力设备局部放电实体关系抽取方法，其特征在于，在对实测样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置。

3.如权利要求1所述的电力设备局部放电实体关系抽取方法，其特征在于，在对训练样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置，以及这两个实体之间的关系。

4.如权利要求1所述的电力设备局部放电实体关系抽取方法，其特征在于，在步骤(1)中，采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练。

5.如权利要求1所述的电力设备局部放电实体关系抽取方法，其特征在于，所述全连接神经网络采用softmax激活函数。

6.一种电力设备局部放电实体关系抽取系统，其特征在于，包括：

全连接神经网络，其被设置为：向其输入所述特征向量，以输出两个实体在文本句子中的关系。

7.如权利要求6所述的电力设备局部放电实体关系抽取系统，其特征在于，所述电力设备局部放电中文文本包括训练样本和实测样本，其中在对实测样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置。

8.如权利要求7所述的电力设备局部放电实体关系抽取系统，其特征在于，在对训练样本进行标注时，将电力设备局部放电中文文本中的每一个句子以及句子中的实体进行标注，并且标注出两个实体在句子中的位置，以及这两个实体之间的关系。

9.如权利要求6所述的电力设备局部放电实体关系抽取系统，其特征在于，所述自注意网络双向编译表示模型为采用遮盖语言模型与预测后续序列分别进行了预训练的对自注意网络双向编译表示模型。

10.如权利要求1所述的电力设备局部放电实体关系抽取系统，其特征在于，所述全连接神经网络采用softmax激活函数。