CN116029295A

CN116029295A - 一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法

Info

Publication number: CN116029295A
Application number: CN202211693262.1A
Authority: CN
Inventors: 贾骏; 杨景刚; 付慧; 张国江; 胡成博; 路永玲; 李双伟
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-28

Abstract

本发明公开了一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法，包括：采用电力文本实体抽取模型对变压器运维巡检文本进行实体抽取，得到与变压器运维巡检相关的电力文本实体信息，帮助运检人员在海量信息源中迅速找到真正需要的信息；采用电力文本信息抽取模型对变压器运维巡检文本进行信息抽取，得到与变压器运维巡检相关的结构化信息，并根据结构化信息，定位变压器运维巡检文本中的设备类型、设备种类、部件、部件种类，准确的定位缺陷描述所适用的标准和管理规定；采用电力设备故障诊断模型，对变压器运维巡检文本进行缺陷诊断，得到缺陷对应的故障等级，辅助运检人员进行缺陷现象判断。

Description

一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法

技术领域

本发明属于电力设备故障诊断技术领域，具体涉及一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法。

背景技术

在电力设备的日常运维过程中，会产生大量缺陷信息被存储在生产管理系统中。这些缺陷记录需要根据具体的语义进行准确地辨识及理解，帮助运维人员精准定位及判断设备风险点。目前，大量输变电设备缺陷记录主要采用人工方法进行分类，其准确率受限于运维人员的知识储备，而自然语言具有抽象性、组合性、歧义性、进化性、非规范性、知识性等特点，对于自然语言数据的分析和理解通常需要专业的背景知识和概念推理过程，传统的句法分析、命名实体识别等文本分析技术已经无法满足要求。

发明内容

发明目的：为解决现有文本分析技术无法对电力设备的日常运维过程中产生的缺陷记录进行准确地辨识及理解的问题，本发明提出了一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法，针对变压器运维巡检文本的特点与分析要求，对变压器运维巡检文本进行文本实体识别、信息抽取和缺陷诊断等非结构化数据分析。

技术方案：一种电力文本实体抽取方法，包括：

采用电力文本实体抽取模型对变压器运维巡检文本进行实体抽取，得到与变压器运维巡检相关的电力文本实体信息；

其中，所述的电力文本实体抽取模型为PowerBERT-CRF模型，所述PowerBERT-CRF模型包括对变压器运维巡检文本进行编码的PowerBERT模型和用于对经过PowerBERT模型编码后的变压器运维巡检文本进行标注的CRF层。

进一步的，所述电力文本实体信息包括实体类词语以及电力专有名词。

进一步的，所述CRF层，表示为：

f(X,i,y_i,y_i-1)(1)

其中，i为当前的位置，y_i表示当前的输出标签，y_i-1表示前一时刻的输出标签；X＝{x₁,x₂,……x_n}表示经过PowerBERT模型编码后的变压器运维巡检文本；f为特征函数。

进一步的，所述PowerBERT模型包括嵌入层、多层Transformer-Encoder和输出层；所述嵌入层用于将输入的变压器运维巡检文本中的字符和位置转化成对应的向量信息；所述Transformer-Encoder用于捕获嵌入层输出的向量信息中的内在涵义，得到变压器运维巡检文本的编码矩阵。

进一步的，所述嵌入层包括：用于将输入的变压器运维巡检文本拆解成字向量的字嵌入模型、用于区分字属于哪一个块的块嵌入模型和用于表示每个字的绝对位置的位置嵌入模型；

每层Transformer-Encoder均包括一个Transformer结构和Encoder结构，第一层Transformer-Encoder的输入为嵌入层的输出，后一层Transformer-Encoder的输入是前一层Transformer-Encoder的输出，最后一层Transformer-Encoder的输出为输出层的输入；

所述Transformer结构包括多头注意力层，所述多头注意力层由多个自注意力层组合构成；

假设多头注意力层的输入为矩阵X_MHA，根据下式得到自注意力层的输入Q、K、V：

式中，W_Q、W_K、W_V为待优化的变换参数矩阵；

自注意力层的输出表示为：

式中，d_k为输入矩阵的维度，softmax(*)为激活函数；

将多层自注意力层的输出拼接后，作线性变换后作为当前Transformer结构的输出；

所述Encoder结构包括归一化层和全连接层，表示为：

式中，X_Encoder表示Encoder结构的输入，MHA(X_Encoder)表示Transformer结构的输出，LayerNorm(*)表示层归一化运算，FeedForward(L₁)表示全连接层的输出，Y_Encoder表示Encoder层的输出，L₁表示中间变量；

所述全连接层包括两层全连接神经网络，其中，第一层全连接神经网络采用Relu为激活函数，第二层全连接神经网络不使用激活函数，该全连接层表示为：

FeedForward(X)＝max(0,XW₁+b₁)W₂+b₂(5)

式中，X表示全连接层的输入，W₁、W₂、b₁、b₂表示全连接层中待优化的参数。

本发明还公开了一种基于电力文本的缺陷定位方法，包括：

采用电力文本信息抽取模型对变压器运维巡检文本进行信息抽取，得到与变压器运维巡检相关的结构化信息，并根据结构化信息，定位变压器运维巡检文本中的设备类型、设备种类、部件、部件种类；

其中，所述的电力文本信息抽取模型包括对变压器运维巡检文本进行编码的PowerBERT模型和作为输出层的单层全连接网络。

进一步的，作为输出层的单层全连接网络包括4个单层全连接网络，分别对经过PowerBERT模型编码后的变压器运维巡检文本中的设备类型、设备种类、部件、部件种类进行识别。

进一步的，所述的电力文本信息抽取模型为经过以下训练步骤得到的：

从电力设备标准缺陷库中具备设备类型、设备种类、部件和部件种类的记录，作为数据样本集；

将数据样本集分割为训练集、验证集和测试集；采用训练集输入至预先构建的电力文本信息抽取模型中，根据误差结果进行反向传播，每一轮训练后，采用验证集验证当前电力文本信息抽取模型的泛化能力，依据当前电力文本信息抽取模型的泛化能力判断是否停止训练；

采用测试集对训练完成后的电力文本信息抽取模型进行测试。

本发明还公开了一种电力设备故障诊断方法，包括：

采用电力设备故障诊断模型，对变压器运维巡检文本进行缺陷诊断，得到缺陷对应的故障等级；其中，所述的电力设备故障诊断模型包括对变压器运维巡检文本进行编码的PowerBERT模型和作为输出层的单层全连接网络；

所述PowerBERT模型包括嵌入层、多层Transformer-Encoder和输出层；所述嵌入层用于将输入的变压器运维巡检文本中的字符和位置转化成对应的向量信息；所述Transformer-Encoder用于捕获嵌入层输出的向量信息中的内在涵义，得到变压器运维巡检文本的编码矩阵。有益效果：本发明与现有技术相比，具有以下优点：

本发明通过研究模型参数结构对故障诊断性能的影响，使用文本分析工具对电力文本进行等级分类和信息挖掘，大大提高设备缺陷诊断的速度和精准率，有效提升电网智能化管理水平。

附图说明

图1为本发明的条件随机场结构模型示意图；

图2为本发明的基于LSTM-CRF的模型示意图；

图3为本发明的基于BERT的模型示意图；

图4为基于LSTM的信息抽取模型示意图。

具体实施方式

现结合附图和实施例对本发明的技术方案做进一步说明。

实施例1：

本实施例公开了一种电力文本实体抽取方法，包括：

针对电力文本的非结构化性，采用电力文本实体抽取模型，抽取电力文本中实体类词语以及电力专有名词，通过实体类词语以及电力专有名词可以帮助运检人员在海量信息源中迅速找到真正需要的信息。

其中，电力文本实体抽取模型的主要任务是：给定一段变压器运维巡检文本，从中抽取出实体类词语，其中实体类词语包括人名、地名、组织名、时间等名词性词语。

如何使电力文本实体抽取模型可以准确抽取所需词语，这需要电力文本实体抽取模型能够理解文本中每个词自身的含义，建立词语之间的联系，并且理解整段文本的语义。

本实施例的电力文本实体抽取模型本质上是对输入序列进行标注，即给序列中的每个元素打上标签集合中的某个标签，其主要包括用于进行文本编码的语言模型和分类层，其中，进行文本编码的语言模型可选用LSTM模型、通用BERT模型、电力文本BERT模型或PowerBERT模型中的任意一种。分类层的主要目的是进行序列标注，常见的序列标注任务主要采用条件随机场(Conditional Random Fields，CRFs)模型实现。

设X＝{x₁,x₂,…,x_n}表示经过PowerBERT编码后的电力变压器运维文本，同时作为CRF的输入符号序列，Y＝{y₁,y₂,…,y_n}为CRF的输出序列，表示标签序列，条件随机场结构模型如图1所示。

条件随机场以X＝{x₁,x₂,……x_n}为输入序列，Y＝{y₁,y₂……y_n}为输出标注序列，条件随机场为输入序列与输出状态之间构造特征函数：

f(X,i,y_i,y_i-1)(1)

其中，i为当前的位置，y_i表示当前的输出标签，y_i-1表示前一时刻的输出标签。而在训练过程中，特征函数f相当于已知的先验知识，也就是训练样本提供的特征。在已知特征函数的情况下，CRF的概率分布函数可以表示为下式(2)所示：

其中，λ为待优化参数，表征每一个特征函数的权重，通过最优化参数λ，从而使得预测的输出序列有最高的概率分布。

现对各电力文本实体抽取模型进行如下说明：

图2示出了基于LSTM-CRF的电力文本实体抽取模型：

LSTM-CRF模型采用word2vec向量初始化词嵌入层，将每一个字转换为300维字向量，通过LSTM层进行编码，其中LSTM层的隐藏节点个数为256，层数为1；再将LSTM输出作为CRF的输入，通过转移矩阵，获取每个字对应的标签；最终实现对电力变压器运维文本的实体抽取，识别出其中的电力专业词汇。

合理设置训练参数实现电力文本实体抽取，LSTM-CRF模型的训练参数如下：

LSTM-CRF模型使用词表大小20030，训练轮数为5轮、训练批次大小为4，使用Adam优化器，学习率为0.01，并加入大小为0.1的dropout层提升模型的泛化能力，最后使用BIOES标签进行实体识别。

图3示出了基于BERT-CRF的电力文本实体抽取模型：

BERT-CRF模型中的BERT结构，包括通用BERT、电力文本BERT和PowerBERT三种BERT模型；首先将文本输入预训练好的BERT模型，获取其文本的编码信息；再将其编码信息作为CRF结构的输入，通过转移矩阵，获取每个字对应的标签；最终实现对电力变压器运维文本的实体抽取，识别出其中的电力专业词汇。

为了训练模型完成电力文本实体抽取任务，需要首先构建电力文本实体抽取数据集。本实施例收集了电力设备运行规程及通用制度、电力设备相关技术标准、以及近十年PMS电力设备缺陷记录作为训练语料。

构建电力文本实体抽取数据集过程如下：按照电力专业词汇，在训练文本中搜索包含2至8个专业词汇的语句，经过人工校核比对得到样本840条，按照50％、25％和25％随机切割，50％为训练集，25％为验证集，25％为测试集，即将50％的训练语句输入模型，模型搜索其中的电力专业词汇，并根据误差结果进行反向传播，每一轮训练后，验证集验证当前模型泛化能力，以决定是否停止继续训练；模型测试完成后在测试集上进行测试验证。

通过合理设置训练参数实现电力文本实体抽取任务，BERT-CRF模型的训练参数如下：

对于BERT系列模型，微调过程，训练轮数为5轮、训练批次大小为4，使用AdamW优化器，学习率为5e-5，warmup概率为0.1，weight_decay为0.01，adam_epsilon为1e-8，dorpout大小为0.1，最后使用BIOES标签进行实体识别。

本实施例选取长短期记忆网络(LSTM)、通用BERT、电力文本BERT、PowerBERT作编码，并将编码结果输入到相同结构的CRF网络中，并在相同训练集上进行对比验证，试验结果如表1所示。

表1电力文本实体抽取实验结果

从表1中可以看出，通用BERT相比于传统LSTM模型在验证集和测试集的召回率和精准度上均有10％-20％提升。经过电力文本及改进训练策略的PowerBERT相比于其他模型在各项指标上均达到了最佳。

深度学习模型通常需要通过在大量带标注样本上训练以获得强泛化能力，但是要获取这些数据通常需要人工标注，费时费力，因此若能仅通过少量训练样本就训练出一个有强分类性能的深度学习模型，将为模型的实际工程应用提供便利。为了验证各模型在少量已标注训练样本下的实体抽取能力，本实施例采用长短期记忆网络(LSTM)、通用BERT、电力文本BERT、PowerBERT 4种模型在不同训练样本(30、50和80)下分析电力文本实体抽取性能，试验结果如表2所示。

表2修改训练样本数量电力文本实体抽取实验

分析表2，可以得出，在样本数小于等于50时，LSTM结果比通用BERT的效果要好，但是比电力文本BERT与PowerBERT效果要差，这说明通用BERT虽然具有较大的参数量，但是由于没有在电力文本上进行学习，缺少电力领域相关知识，导致迁移效果不理想；而电力文本BERT与PowerBERT具有电力领域相关知识，因此在小样本数据上表现更为优秀。并且随着数据量得增加，LSTM、通用BERT、电力文本BERT和PowerBERT得效果均随之增加。

在样本数为80时，PowerBERT的召回率达到81.26％，精确度达到81.6％，两者均超过80％，F1分数达到0.8015，三者均高于其他所有模型，其中，相比于LSTM模型召回率提升11.91％，精准度提升8.26％；与通用BERT相比召回率提升10.06％，精准度提升4.43％；与电力文本BERT相比召回率提升4.40％，精准度提升5.85％，均有显著提升。

并且在继续增加训练样本数的情况下，PowerBERT的性能也一直领先其他模型。而在实际应用当中，要获取80个以上的有标注样本是比较容易的，因此在实际工程应用上，PowerBERT能比LSTM、电力文本BERT和通用BERT有更好的表现。

模型对比研究：

基于PowerBERT-CRF模型进行电力文本实体抽取时，通过PowerBERT对文本的编码后，再通过一个CRF层获取最终的实体抽取结果。为了验证在PowerBERT后接入其他神经网络结构(如线性层、LSTM层)再将其输出输入到CRF中是否会对电力文本实体抽取的效果产生影响，本实施例以PowerBERT为文本编码，将BERT的输出输入到不同的神经网络结构中作进一步编码，最后输入到CRF中作实体抽取并比较他们的分类精度。本实施例中测试的模型类型有PowerBERT-CRF(指在PowerBERT后直接接入CRF层)、PowerBERT-Liner-CRF(指在PowerBERT后先接入一个线性层，再将线性层输出输入到CRF层)、PowerBERT-LSTM-CRF(指在PowerBERT后先接入一个LSTM层作进一步编码，再将LSTM的输出输入到CRF层)。

实验结果如下表3所示：

表3修改输出层个数电力文本实体抽取实验

从上表可以看出，就召回率而言，PowerBERT-LSTM-CRF结构有最高的召回率，相比另外两种结构提高了2％～3％，而PowerBERT-CRF和PowerBERT-Liner-CRF之间没有太大的差别。而就准确率而言，PowerBERT-Liner-CRF有最高的准确率，相比PowerBERT-CRF提升1％以上，相比PowerBERT-LSTM-CRF提升2％以上。虽然PowerBERT-LSTM-CRF结构的效果最优，但是由于LSTM结构是循环神经网络，后一步的输出需要前一步的结果，因此网络间无法并行计算，GPU使用率较低，大幅度增加了模型训练与预测耗时。因此在追求模型推理速度与内存、且对召回和准确度的要求不高的情况下可以优先考虑PowerBERT-CRF。

在本实施例中提及的基于PowerBERT-CRF模型进行电力文本实体抽取时，具体包括：

PowerBERT-CRF模型中的PowerBERT，由嵌入层、多层Transformer-Encoder和输出层构成，输入的原始语料记为X_PowerBERT。嵌入层包括字嵌入、块嵌入和位置嵌入，将输入的原始语料中的字符的编码和位置转化成对应的向量信息。每层Transformer-Encoder均包含一个Transformer结构和Encoder结构，Transformer结构用于捕获语料中的内在涵义，Encoder结构用于每一层权值的合并链接以及归一化，第一个Transformer-Encoder结构的输入为嵌入层的输出，即为Y_Embeddings，后续Transformer-Encoder结构的输入是前一个Transformer-Encoder结构的输出，最后一个Transformer-Encoder结构的输出为对电力语料的编码矩阵Y_Embeddings，用于最终训练(Fine-Tuning)以及后续下游任务。

现对嵌入层进行如下说明：

嵌入层用于将原始的文本输入序列处理成BERT能进行计算的向量矩阵，为了能完整地表示文本语料信息，每一段输入的文本都将拆解为字、块、位置三个嵌入矩阵。其中[CLS]表示语料的起始位置，[SEP]表示多个语料块之间的分割。

字嵌入模型是通过字向量矩阵W^t将原始文本X_PowerBERT转化成实值向量V^t，即：

V^t＝X_PowerBERT×W^t(7)

式(2)表示为词向量矩阵W^t中每一行代表的具体词汇记录采用独热编码(OneHotEncoding)方式记录在词表向量V^t中。

块嵌入模型是指编码当前字属于哪一个块，用于当同一个字重复出现在同一句子中不同位置时，通过块向量予以区分。

位置嵌入模型用于表示每个字的绝对位置，以记录每个字在句中的位置信息。

Transformer结构主要包括多头注意力层(Multi-Head Attention)，它由多个自注意力层(Self-Attention)组合形成。

假设多头注意力层的输入为矩阵X_MHA，则可以根据公式(3)计算得到自注意力层的输入Q、K、V。

式中W_Q、W_K、W_V为待训练的变换参数矩阵。

自注意力层(Self-Attention)对上述输入Q、K、V按照进行公式(3)计算，

式中，d_k为输入矩阵的维度，softmax(*)为激活函数。

通过将多层自注意力层的输出拼接后，作线性变换后作为本层的输出矩阵Y_MHA。

相比于传统循环神经网络模型(如LSTM、RNN、ELMO等)，采用自注意力层可以无视词的距离，所有字是全部同时训练的，不存在信息衰减，既提高了其运算效率，也解决了传统循环神经网络模型在运算过程中的长距离衰减问题。

本实施例的Encoder结构主要由归一化层和全连接层构成，其计算方法如公式(4)所示：

式中，X_Encoder表示Encoder结构的输入，MHA(X_Encoder)表示Transformer结构的输出，LayerNorm(*)表示对矩阵进行的层归一化运算，FeedForward(L₁)表示全连接层的输出，本实施例中，全连接层包括两层全连接神经网络，第一层采用Relu为激活函数，第二层不使用激活函数，具体模型如公式(5)所示。

FeedForward(X)＝max(0,XW₁+b₁)W₂+b₂(5)

式中，X表示全连接层的输入，W₁、W₂、b₁、b₂表示全连接层中待训练参数。

式(4)的输出Y_Encoder表示Encoder层的输出，即编码后的文本向量，它更能反映文本的语义信息。而上一层Transformer-Encoder结构的输出Y_Encoder可作为下一层Transformer-Encoder结构的输入，作更进一步的编码。多个Transformer-Encoder结构相连，就可以提取出文本深层次的语义信息。

针对PowerBERT的复杂性，采用多重文本交叉机制和动态加载策略对其进行训练，可以有效利用收集的电力文本高效训练PowerBERT；具体操作包括：

本实施例基于掩码训练思路进行PowerBERT预训练，预先将输入语料中的字词进行掩码，利用上下文信息还原掩码位置的词汇。该训练方式可以避免传统NLP算法中存在的信息暴露缺陷问题(算法从逆向模型中反推正向模型中需要预测的词)。同时，在通用BERT的字符掩码基础上增加实体掩码、片段掩码等多种掩码机制交叉组合的掩码机制，以及训练过程中的掩码机制动态加载策略，避免多轮训练时陷入局部最优问题，增强了模型的文本理解能力。

假设原始文本序列为a₁,a₂,a₃…a_n,掩码后序列为

其中被掩盖的字符的下标集合为T＝{t₁,t₂,…,t_s}，s表示被掩盖字符的总数量，且任意被掩盖字符t_n＜N。一次PowerBERT训练文本的输入如下式(8)所示。

假设PowerBERT每次训练输入样本长度为M，若文本序列长度小于M-2，则需要进行补齐操作，文本补齐操作标记为“[PAD]”，则训练文本的输入如下式(9)所示：

若文本序列长度大于M-2，则需将文本截断至M-2再进行输入。

在掩码训练过程中，传统的掩码方式为掩盖单个字符，这种情况下预训练模型可能根据前后词即可猜出被掩盖内容，从而弱化了对整个句子的理解能力，如“变压器冷却器潜油泵渗油”中，若“油”字被掩盖，变成“变压器冷却器潜[mask]泵渗油”，被训练后的模型根据“[mask]”前后的“潜”和“泵”即可大概率猜出“[mask]”为“油”，无需关注句子其他成分导致陷入局部最优。而若将“潜油泵”整个作为一个电力领域命名实体进行掩码，甚至将“冷却器潜油泵”整个片段进行掩码，则对模型来说则更加具有难度，更加需要结合上下文去猜测被掩盖的信息，从而提高训练的效果。

因此，本实施例在预训练模型时采用字符掩码+实体掩码+片段掩码的交叉训练策略，首先判断电力设备文本是否包含电力专业词汇，若包含，则采用40％字符掩码+30％实体掩码+30％片段掩码的交叉训练策略；若不包含，则采用40％字符掩码+60％片段掩码的交叉训练策略；而后，以80％替换为[mask]，10％替换为随机词，10％保持原样，最终得到掩码文本。

通用BERT模型的掩码训练在数据预处理阶段进行，导致同一个语料只有一种掩码模式，降低了训练数据的复用效率。此外，由于CPU与GPU串行工作降低了计算效率。因此，本实施例采用实时动态掩码(Dynamic Masking)机制，并将训练进程拆分为两个线程：CPU线程负责实时动态掩码操作，GPU线程负责对掩码的样本进行训练，在GPU训练的一批样本时，CPU对下一批样本进行掩码，从而充分利用计算资源并缩短了训练时间，提高了训练的效率和完整度。

PowerBERT模型的训练误差计算方法为：

首先，从PowerBERT的输出序列Y_PowerBERT和嵌入层输出序列Y_Embeddings中根据被掩盖字符的下标集合T＝{t₁,t₂,…,t_s}抽取被掩盖字符对应的列，形成输出序列的掩码表示

和

再根据公式(10)计算掩码位置对应的词表上的概率分布矩阵P^mask：

式中，W^t表示词向量矩阵，b为待训练的偏置系数，P^mask可以理解为输出的掩码字符

与词表中每一个位置y_i的单词相同的概率。随后，

与词表中每个单词的位置y_i按照式(11)计算交叉熵损失H(P^mask,w^t)。

再将该损失利用反向传播算法去优化PowerBERT模型中每一个Transformer-Encoder中的参数。

为了适应中文文本，本实施例基于中文维基百科作为通用BERT的训练语料。然而，由于电力文本包含大量专有名词和术语，基础语料训练的模型在电力文本挖掘任务中往往表现不佳。因此，本实施例还收集了电力设备运行规程及通用制度、电力设备相关技术标准、以及近十年电力生产管理系统(Power Production Management System，PMS)电力设备缺陷记录作为训练语料，详见表4。

表4PowerBERT训练语料库

预训练过程中，需要对实体进行掩码，所使用的电力专业词汇数据集如表5所示：

表5电力专业词汇数据表

本实施例基于上表4、表5，运用不同的语料库和训练方法开展多种模型预训练，多种模型包括：通用BERT和电力文本BERT；其中，基于维基百科中文版和通用BERT架构和训练方法得到通用BERT，在通用BERT上结合电力设备运行规程及管理规定、电力设备技术标准、电力设备缺陷记录得到电力文本BERT，

为了比较本实施例训练方法的优劣，将电力文本BERT和采用与电力文本BERT同样语料、基于本实施例所提出的训练方法得到的PowerBERT进行对比试验。模型训练参数如表6所示。

表6PowerBERT预训练参数

实施例2：

本实施例公开了一种基于电力文本的缺陷定位方法，包括：

针对电力文本的多样性，在设备运行维护管理中，设备检修、缺陷、故障、消缺等中文信息会以非结构化文本的形式存储在管理信息系统中。分析这些信息不仅能了解设备历史健康状态，还能捕捉同类设备的可靠性信息。通常一条文本信息会包含着一个设备不同部件的多条缺陷要素，如果不进行区分，可能会出现理解偏差，不利于对缺陷的精准分析。而分离这一工作，就是由电力文本信息抽取来实现。电力文本信息抽取是指根据缺陷的故障描述，从非结构化的文本中自动提取结构化信息，根据提取的结构化信息，可以更准确地定位该缺陷描述所适用的标准和管理规定，从而为缺陷的精确诊断奠定基础。

信息抽取模型在LSTM、通用BERT、电力文本BERT和PowerBERT 4种模型的基础上，增加4个全连接网络，分别为设备类型、设备种类、部件、部件种类的信息抽取。

图4示出了基于LSTM的信息抽取模型：

LSTM模型采用word2vec向量初始化词嵌入层，将每一个字转换为300维字向量，通过LSTM层进行编码，其中LSTM层的隐藏节点个数为256，层数为1；再将LSTM输出作为4个全连接层的输入，获取每个类别对应的标签；最终实现对电力检修文本的信息抽取，识别出其中的设备类型、设备种类、部件、部件种类。

BERT系列模型：

本实施例采用上文所述的BERT模型，包括通用BERT、电力文本BERT和PowerBERT三种BERT模型作模型编码，首先将文本输入预训练好的BERT模型，再将BERT模型输出作为4个全连接层的输入，获取每个类别对应的标签；最终实现对电力检修文本的信息抽取，识别出其中的设备类型、设备种类、部件、部件种类。

通用的文本信息抽取往往只需要在文本中找到相关实体词汇，以及分析其对应的关系即可。但电力缺陷文本信息中，往往使用大量简称、通俗说法，比如某段缺陷描述为：“1#主变电动调压拒动”，根据此文本，模型需要分析理解出的信息包括“设备类型：变压器”，“设备种类：油浸式变压器”，“部件：分接开关”，“部件种类：有载开关”。“变压器”、“分接开关”、“有载开关”这些名词均未直接出现在文本中，这要求算法在理解文本语义基础上还需要根据电力背景知识进行一定的联想和推理。部分样本示例如表7所示：

表7电力文本信息抽取样例

根据电力设备标准缺陷库，选取电力缺陷数据中设备类型、设备种类、部件、部件种类均比较完备的记录，经过专家人工审核后，按照50％、25％和25％随机切割，其中50％为训练集，25％为验证集，25％为测试集。

通过合理设置训练参数实现电力文本信息抽取任务，各模型的训练参数及训练方法如下：

对于LSTM模型，本实施例采用词表大小为20030，训练轮数为5轮、训练批次大小为4，使用Adam优化器作参数优化，学习率为0.01。以交叉熵为损失函数，由于本任务是一个四分类问题，将四个分类结果的交叉熵作为总损失函数。

对于BERT系列模型，训练轮数为5轮、训练批次大小为4，使用AdamW优化器，学习率为5e-5，warmup概率为0.1，weight_decay为0.01，adam_epsilon为1e-8。以交叉熵为损失函数，由于本任务是一个四分类问题，将四个分类结果的交叉熵作为总损失函数。

本实施例选取长短期记忆网络(LSTM)、通用BERT、电力文本BERT、PowerBERT(在实施例1中已做了说明)在相同训练集上进行对比验证，试验结果如表8所示。

表8电力文本信息抽取实验结果

通过表8可以看出，通用BERT相比于传统LSTM模型在验证集和测试集的召回率和精准度上均有20％左右提升。经过电力文本及改进训练策略的PowerBERT相比于其他模型在各项指标上均达到了最佳。

若模型能够仅在少量已标注数据集上训练就能够获得足够强的分类能力，将会对其工程实际应用提供便利。为了验证各模型在少量已标注训练样本下的信息抽取能力，本实施例采用长短期记忆网络(LSTM)、通用BERT、电力文本BERT、PowerBERT 4种模型在不同训练样本(30、50和80)下分析电力文本信息抽取性能，试验结果如表9所示，为方便起见，下表所示指标以F1分数表示。

表9不同模型作电力文本信息抽取的F1分数

从表9可以看出，随着训练样本数的增加，4个指标的F1分数都有一定的提升。在小样本任务下，基于BERT的模型的F1分数普遍高于LSTM模型。其原因是BERT模型前期已经经过了大量的预训练，有较强的语义提取能力，而在基于BERT的模型之间，PowerBERT的综合表现最好，在80个训练样本训练下，PowerBERT模型的设备类型和部件两个指标上都超过0.6，设备种类指标的F1也接近0.5。但是部件种类这一指标在所有模型上都无法取得较高的F1分数，因此如何提高这一指标还需继续研究。

在电力文本信息抽取任务中，PowerBERT作为文本编码器，即将输入文本中的每个字符编码为一个词向量，而对于每一个词作分类这一下游任务，还需要用一个分类网络以这些词向量作为输入进行分类。目前常用的分类网络为若干层全连接层相连，最后输出一个和待分类类别数相同维数的向量。为了探究全连接层的个数对模型分类能力的影响，从而为后续工作提供指导，本发明改变分类层层数，并测试模型的召回率和分类精度，实验结果如下表10所示。

表10修改训练样本数量电力文本信息抽取实验

网络结构	设备类型	设备种类	部件	部件种类
					1层全连接层	0.768	0.913	0.681	0.493
2层全连接层	0.717	0.8854	0.609	0.487
					3层全连接层	0.695	0.8637	0.609	0.463

从上表10可以看出，与1层全连接层相比，2层全连接层和3层全连接层在4个指标上都降低了，其原因可能是PowerBERT本身就有很强的文本编码能力，不需要更深的全连接网络结构作进一步编码，更深的网络结构可能会导致模型退化。由于1层全连接层的计算量小于2层和3层，并且测试效果也更好，因此建议在使用PowerBERT模型作电力文本信息抽取任务时，仅以单层全连接网络作为输出层。

实施例3：

本实施例公开了一种电力设备故障诊断方法，包括：

针对电力故障的复杂性，采用基于电力文本的故障诊断方法，可以利用电力文本语言模型判别电力文本对应的故障等级，从而为电力设备状态评估提供参考，辅助现场运维人员决策。具体包括：电力设备故障诊断是一项典型的文本分类任务。一般来说，缺陷现象根据严重程度可划分为：一般、重大和紧急。其中，一般缺陷是指发现后可在后期日常维护工作中进行消除的缺陷，不会因处置不及时造成安全风险；重大缺陷是指发现后需在短期内及时进行消除的严重缺陷，虽在短期内不影响设备安全，但须加强监测，尽快处置；紧急缺陷是指发现时必须立即处置的缺陷，会随时引发重大事故或造成人身伤害，影响设备的正常运行。在故障缺陷记录单中存在着大量描述缺陷产生的现象、位置及原因等要素，本实施例将依据缺陷程度将电力设备的缺陷性质定义为一般、重大和紧急三类。

本实施例的电力文本语言模型为LSTM模型或BERT系列模型。

LSTM模型采用word2vec向量初始化词嵌入层，将每一个字转换为300维字向量，通过LSTM层进行编码，其中LSTM层的隐藏节点个数为256，层数为1；再将LSTM输出作为1个全连接层的输入，获取类别标签；最终实现对电力检修文本的缺陷诊断，识别出缺陷等级。

BERT系列模型包括通用BERT、电力文本BERT和PowerBERT(已在实施例1中公开)三种BERT模型作模型编码，首先将文本输入预训练好的BERT模型，再将BERT模型输出作为1个全连接层的输入，获取类别标签；最终实现对电力检修文本的缺陷诊断，识别出缺陷等级。首先，将电力缺陷数据集中的数据筛选诊断信息较完备的记录，经过人工校核，按照50％、25％和25％随机切割，50％为训练集，25％为验证集，25％为测试集。电力缺陷诊断样例如表11所示。

表11电力设备缺陷诊断样例

缺陷内容	缺陷性质
		综合监控模块损坏	一般
2#主变本体瓦斯继电器处渗油	一般
		3#变本体呼吸器硅胶上层变色、整体硅胶潮解1/2。	严重
3#主变风冷控制开关故障合不上。	严重
		1#变有载调压呼吸器油杯底部有冰，呼吸器不能呼吸。	危急
10kVB相套管发热145度。	危急

在电力文本缺陷诊断任务中，PowerBERT作为文本编码器，即将输入文本中的每个字符编码为一个词向量，而对于文本分类这一下游任务，还需要用一个分类网络以这些词向量作为输入进行分类。目前常用的分类网络为若干层全连接层相连，最后输出一个和待分类类别数相同维数的向量。为了探究全连接层的个数对模型分类能力的影响，从而为后续工作提供指导，本实施例改变分类层层数，并测试模型的召回率和分类精度，实验结果如表12所示。

表12修改训练样本数量电力文本缺陷诊断实验

输出层	F1分数
		1层全连接层	0.77
2层全连接层	0.753
		3层全连接层	0.74

由表12可以看出，在电力文本缺陷诊断任务下，1层全连接层的效果要高于2层与3层全连接层，其中高于2层全连接层1.7％，高于3层全连接层3％，与电力文本信息抽取实验结论一致，其原因可能是PowerBERT本身就有很强的文本编码能力，不需要更深的全连接网络结构作进一步编码，更深的网络结构可能会导致模型退化。由于1层全连接层的计算量小于2层和3层，并且测试效果也更好，因此建议在使用PowerBERT模型作电力文本缺陷诊断任务时，仅以单层全连接网络作为输出层。

通过合理设置训练参数实现电力设备故障诊断任务，各模型的训练参数及训练方法如下

对于LSTM模型，本实施例采用词表大小为20030，训练轮数为5轮、训练批次大小为4，使用Adam优化器作参数优化，学习率为0.01。以交叉熵为损失函数。

对于BERT系列模型，训练轮数为5轮、训练批次大小为4，使用AdamW优化器，学习率为5e-5，warmup概率为0.1，weight_decay为0.01，adam_epsilon为1e-8。以交叉熵为损失函数。

本实施例选取长短期记忆网络(LSTM)、通用BERT、电力文本BERT、PowerBERT在相同训练集上进行对比验证，具体结果参见表13。

表13电力缺陷诊断实验结果

通过表13可以看出，通用BERT相比于传统LSTM模型在验证集和测试集的召回率和精准度上均有大幅提升。经过电力文本及改进训练策略的PowerBERT相比于其他模型在各项指标上均达到了最佳。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种电力文本实体抽取方法，其特征在于：包括：

2.根据权利要求1所述的一种电力文本实体抽取方法，其特征在于：所述电力文本实体信息包括实体类词语以及电力专有名词。

3.根据权利要求1所述的一种电力文本实体抽取方法，其特征在于：所述CRF层，表示为：

f(X,i,y_i,y_i-1)(1)

4.根据权利要求1所述的一种电力文本实体抽取方法，其特征在于：所述PowerBERT模型包括嵌入层、多层Transformer-Encoder和输出层；所述嵌入层用于将输入的变压器运维巡检文本中的字符和位置转化成对应的向量信息；所述Transformer-Encoder用于捕获嵌入层输出的向量信息中的内在涵义，得到变压器运维巡检文本的编码矩阵。

5.根据权利要求4所述的一种电力文本实体抽取方法，其特征在于：所述嵌入层包括：用于将输入的变压器运维巡检文本拆解成字向量的字嵌入模型、用于区分字属于哪一个块的块嵌入模型和用于表示每个字的绝对位置的位置嵌入模型；

式中，W_Q、W_K、W_V为待优化的变换参数矩阵；

自注意力层的输出表示为：

式中，d_k为输入矩阵的维度，softmax(*)为激活函数；

所述Encoder结构包括归一化层和全连接层，表示为：

FeedForward(X)＝max(0,XW₁+b₁)W₂+b₂(5)式中，X表示全连接层的输入，W₁、W₂、b₁、b₂表示全连接层中待优化的参数。

6.一种基于电力文本的缺陷定位方法，其特征在于：包括：

7.根据权利要求6所述的一种基于电力文本的缺陷定位方法，其特征在于：作为输出层的单层全连接网络包括4个单层全连接网络，分别对经过PowerBERT模型编码后的变压器运维巡检文本中的设备类型、设备种类、部件、部件种类进行识别。

8.根据权利要求6所述的一种基于电力文本的缺陷定位方法，其特征在于：所述PowerBERT模型包括嵌入层、多层Transformer-Encoder和输出层；所述嵌入层用于将输入的变压器运维巡检文本中的字符和位置转化成对应的向量信息；所述Transformer-Encoder用于捕获嵌入层输出的向量信息中的内在涵义，得到变压器运维巡检文本的编码矩阵。

9.根据权利要求6所述的一种基于电力文本的缺陷定位方法，其特征在于：所述的电力文本信息抽取模型为经过以下训练步骤得到的：

10.一种电力设备故障诊断方法，其特征在于：包括：

所述PowerBERT模型包括嵌入层、多层Transformer-Encoder和输出层；所述嵌入层用于将输入的变压器运维巡检文本中的字符和位置转化成对应的向量信息；所述Transformer-Encoder用于捕获嵌入层输出的向量信息中的内在涵义，得到变压器运维巡检文本的编码矩阵。