CN112632972A

CN112632972A - 一种电网设备故障报告内故障信息的快速提取方法

Info

Publication number: CN112632972A
Application number: CN202011556914.8A
Authority: CN
Inventors: 陈再发; 劳山; 付军
Original assignee: Zhejiang International Maritime College
Current assignee: Zhejiang International Maritime College
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-09
Anticipated expiration: 2040-12-25
Also published as: CN112632972B

Abstract

本发明涉及一种电网设备故障报告内故障信息的快速提取方法，解决现有模型对领域实体识别能力不足的问题。该模型使用基于Transformer的双向编码器BERT模型解决了BiLSTM上下文信息获取不足的问题，在获得全局的上下文信息的基础上，提高模型的识别精度，并使用基于迁移学习的预训练模型BERT，增强领域字词信息获取能力。而本发明在此基础上进行面向电网领域的本地微调训练，对BERT的部分Transformer层进行面向领域的重训练，在保留原始模型包含的中文句法语法信息的情况下，使得原本不适用于电网领域的通用模型能在电网故障报告文本上取得较好的结果。

Description

一种电网设备故障报告内故障信息的快速提取方法

技术领域

本发明涉及快速提取电网设备故障报告内故障信息的方法，具体涉及一种电网设备故障报告内故障信息的快速提取方法。

背景技术

变压器、输电线等电力设备在送电使用后，常因设备固有缺陷隐患、短路冲击、过载运行等因素产生故障。当设备发生故障后，技术人员通常会对设备从正常运行、到发现可能存在状态异常、到采取多种手段检测、以及停电检修、确诊存在隐患/故障的完整过程进行记录，通常包含设备类型、名称、故障发生时间、现象、原因、检修方法、检修结果等信息，并以故障报告的形式存档，为设备故障诊断、故障处理方法检修处理决策积累经验。电网设备故障报告基本以自然语言表述的文档，即非结构化形式存储，没有固定的格式和结构，难以快速、准确与相似故障情况关联，无法进一步辅助开展故障分析诊断。

另外人工智能已经在电网领域进行了广泛的应用，基于模型的人工智能在文本挖掘、图像识别、故障诊断、决策支持等多个领域取得了良好的成果。如秦善强，付志红，朱学贵，籍勇亮在2017年在电工技术学报上发表的论文：遗传神经网络的瞬变电磁视电阻率求解算法，提出用遗传神经网络中心回线装置下瞬变电磁法(TEM)来计算视电阻率。徐春华，陈克绪，马建，刘佳翰，吴建华.在2019年于电工技术学报上发表的论文，基于深度置信网络的电力负荷识别，提出一种基于深度置信网络架构(DBN)的电力负荷识别方法；李冬辉，尹海燕，郑博文，刘玲玲在2019年于电工技术学报上发表的论文，.改进的LSTM方法在冷水机组传感器故障检测中的应用，提出改进的 LSTM方法对冷水机组传感器进行故障检测。陈蕾，郑伟彦，余慧华，傅婧，刘宏伟，夏军强在2020年11月25日在电网技术上发表的论文，基于BERT的电网调度语音识别语言模型研究，使用BERT对电网调度语音进行模型识别，使用困惑度作为评价指标。

基于人工智能中自然语言处理(Natural Language Processing)的思想，使用深度模型识别出电网句子中的命名实体(named entity)，将故障报告文本结构化，通过实体对组合进行匹配，快速挖掘文本中的故障信息。

常见的基于规则的命名实体识别算法虽然能取得好的效果，但依赖专业人员的知识储备，泛用性差，同时需要大量的人力成本，耗时耗力。近年来，概率图模型在命名实体识别上获得了较大的进展，隐马尔可夫(Hidden Markov Model，HMM)和条件随机场(Conditional Random Field，CRF)都是在概率图的基础上建模以贴合实体与文本的分布规律。

随着机器学习的发展，深度模型在命名实体识别上也取得了良好的进展，其中将深度神经网络与概率图模型结合的方式较为常用，如吴超，王汉军在2020年于计算机系统应用上发表的论文.基于GRU 的电力调度领域命名实体识别方法，使用GRU神经网络与CRF结合的方式，对电力调度的领域命名实体识别进行智能识别，得到了较好的效果。王欢，朱文球，吴岳忠，何频捷，万烂军2020年在工程科学学报上发表的论文，基于数控机床设备故障领域的命名实体识别，将BiLSTM与CRF结合，对数控机床设备故障领域的命名实体识别进行了研究。祝春捷，潘坚跃，王译田，陈超在2019年于电子设计工程上发表的论文.基于结构化表达的电力运维文本分析，使用卷积神经网络和CRF组合模型对电力运维文本进行命名实体分析。但这类算法应用到电网领域仍存在不可忽视的技术问题：BiLSTM等神经网络对于上下文信息获取能力有所欠缺，而电网领域实体存在分布密集，上下文信息少而精的特性，对上下文信息获取不足会使得结果产生较大的偏差。

发明内容

本发明提出一种面向电网领域的基于微调的 BERT-BiLSTM-CRF命名实体识别模型，解决现有模型对领域实体识别能力不足的问题，具体公开了一种电网设备故障报告内故障信息的快速提取方法。

为实现上述目的，本发明提供了如下技术方案：

一种电网设备故障报告内故障信息的快速提取方法，其包括以下步骤：

步骤一、基于N层双向Transformer进行BERT模型构建，并利用构建的BERT模型对文本进行词嵌入转换，将输入的文本数据C＝{C₁，C₂，...，C_n)通过Transformer转化为向量E＝{E₁，E₂，...，E_n}，将文本以字的单位转换成字向量；

步骤二、利用BiLSTM模型结合前向LSTM的隐层

和后向 LSTM的隐层

对词嵌入处理后的数据进行分类得到向量 S＝{S₁，S₂，...，S_n}；

步骤三、使用CRF模型对模型的损失进行计算，基于位置信息转移矩阵进行矩阵相乘计算得到输出的概率，使输出更符合实体语法规则，得到输出向量y＝{y₁，y₂，...，y_n)，从而得到全局最优秀的序列，即输出各故障类别的概率，

其中，对步骤一中的BERT模型进行微调，其微调如下：

①基于迁移学习理论对预训练的中文模型进行参数初始化操作；

②冻结部分靠近输入的Transformer层的参数；

③训练剩下靠近输出的Transformer层和全连接层，使其跟随下游任务进行微调训练，

其中微调后的

loss_c＝loss(TransfoTmer_n，...，Transformer₁₂)+loss(FFN)+loss(BiLSTM)+loss(CRF)

wheren∈[1，12]。

所述BERT模型通过Transformer中的编码器对语句进行编码，其中包括多头自注意力机制。

多头自注意力机制通过构建多个自注意力中的Q、K、V矩阵得到的，对于每个K、Q、V矩阵，进行多个线性层映射，再通过缩放的点积注意力机制进行运算，拼接后得到结果。

经过多头自注意力机制进行句词加权计算后，句子中各个字的字嵌入信息被赋予权重，进而使用全连接神经网络和残差连接对输入向量进行特征提取，

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^Q，

代表着字向量维度大小的开平方。

在全连接神经网络部分，模型根据多个自注意力提取到的权重信息进行信息抽取，FFN(x)＝max(0，xW₁+b₁)W₂+b₂，x为随机变量，W₂与 b₂表示第2层神经网络权值和偏置项；

在全连接部分，使用GELU作为激活函数，GELU引入随机正则理论，以伯努利分布限制输入，使得输入随机， FFN(x)＝GELU(xW₁+b₁)W₂+b₂，

GELU(x)＝xP(X＜＝x)＝xΦ(x)，其中GELU(x)为激活函数，Φ(x)为伯努利分布表达式。

步骤二中，BiLSTM模型使用遗忘门、输入门、输出门合理的处理信息，合理丢弃与当前位置字信息冲突的细胞单元输入信息，输入当前位置字信息并传递至下一个细胞单元，输入为上一个细胞单元状态C_t、上一个隐层状态h_t-1和当前位置输入x_t。

将前向LSTM隐层的输出

与后向LSTM隐层的输出

进行拼接处理，得到LSTM的整体输出

在获得前后信息的情况下，拟合序列标注的输出，获得更准确的输出。

使用CRF模型的状态转移函数与位置状态函数计算整个模型的损失，其中通过CRF模型的状态转移矩阵

其中a_ij表示上一步在i状态的情况下转移成j状态的概率，通过对相邻状态变化和句子整体信息进行概率加权求和，获得最大可能的输出顺序，从而得到全局最优秀序列，

本发明的有益效果：

使用基于Transformer的双向编码器BERT模型(Bidirectional EncoderRepresentation from Transformers)解决了BiLSTM上下文信息获取不足的问题，在获得全局的上下文信息的基础上，提高模型的识别精度，并使用基于迁移学习的预训练模型BERT，增强领域字词信息获取能力。

在直接使用Google预训练完成的BERT模型进行命名实体识别的基础上进行面向电网领域的本地微调训练，对BERT的部分 Transformer层进行面向领域的重训练，在保留原始模型包含的中文句法语法信息的情况下，使得原本不适用于电网领域的通用模型能在电网故障报告文本上取得较好的结果。

附图说明

图1为通用领域模型架构图。

图2为本发明的微调模型架构图。

图3为本发明的Transfomer中编码器模型架构图。

图4为本发明的多头自注意力机制结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在机器学习和深度学习的框架下，学习任务的过程是基于训练数据学习一个合适的分类模型，再使用训练好的模型对测试样本集进行预测，目的是检验模型的准确性或使用模型预测的输出结果。然而，机器学习和深度学习算法在当前的模型研究中存在着一个不可忽视的问题：在一些新出现的领域中，大量的数据由于没有标签无法构建成训练样本，无法进行模型的学习训练，而传统的机器学习需要对每个领域都标定大量训练数据，而这些领域数据的标注离不开专家的指导，这将会耗费大量的人力成本。而没有大量的标注数据，会使得很多与深度学习模型相关研究与应用无法开展。如果现有的大量的分布合适的训练数据可以加以利用，那么可以很好的减少人力物力的消耗。迁移学习(TransferLearning)可以从现有的数据中迁移知识，用来帮助将来的学习。其目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。目前常见的处理方法是将已训练完成的模型参数迁移至新的模型，以帮助新模型在较少的训练数据下进行任务处理，该类模型被称为预训练模型(PretrainedModel)。预训练模型的使用方法是基于已在外部训练好的深度模型对文本或数值进行处理，无需在本地重训练。一是在通用领域任务下，预训练模型的表现良好，无需再进行调整，只需根据具体任务对下游模型进行训练，如全连接神经网络，BiLSTM等，以完成训练目标，二是因为外部训练的过程 (Google、OpenAI)是基于海量的样本数据，极佳的硬件配制和极长的训练时间，在本地完全重新训练是不可取的。常见的预训练模型有ELMo[15](Embedding from Language Model)、ERNIE[16] (Enhanced LanguageRepresentation with Informative Entities)、BERT 等。由于ELMo为基于BiLSTM的单向语言模型，只是单纯的对上下文信息进行一个拼接处理，对上下文信息获取能力不足，而ERNIE 引入了公开数据集的实体信息，会对领域实体识别造成干扰，本文选用BERT预训练模型作为基础模型，在较少训练数据的情况下，减少人力成本，提高模型指标。同时打破不再进行重训练的常规，对模型进行面向电网领域的微调训练，对模型的部分Transformer层进行重训练，使得不适用于领域任务的预训练模型在电网领域取得较好的效果。

为获取上下文信息，本文使用微调的BERT-BiLSTM-CRF的模型以补充BiLSTM上下文信息获取能力不足的问题。BERT是基于海量语料库运用自监督学习方法进行预训练得到的深度学习模型，内部由多层Transformer组成，可以有效提取文本中的自然语言特征，并以向量的形式输出。BiLSTM是基于循环神经网络的深度学习模型，可以根据输入的向量进行多分类。CRF是概率图模型，对输出结果进行语法规范，输出各个类别的分类概率。本文对BERT预训练模型进行面向电网领域的部分Transformer层重训练，使得在保留原模型对自然语言句法语法的拟合能力下，更贴近电网领域的语言表达。在BERT 模型模块，对BERT进行参数冻结，只使用包含固定参数的矩阵将输入文本映射成向量(Mapping)，不对BERT内部参数进行训练，只对下游模型BiLSTM、CRF进行参数训练。

而本发明在此基础上进行改进，如图1所示，本发明使用基于十二层双向连接的Transformer构成的。

本发明公开了一种电网设备故障报告内故障信息的快速提取方法，其包括以下步骤：

步骤一、基于N层双向Transformer进行BERT模型构建，其中 N为12，并利用构建的BERT模型对文本进行词嵌入转换，将输入的文本数据C＝{C₁，C₂，...，C_n}通过Transformer转化为向量 E＝{E₁，E₂，...，E_n}，将文本以字的单位转换成字向量；

BERT是一个强大的双向语言模型，在自然语言处理内多个领域获得的较好的效果，在中文的命名实体识别任务上也取得了成效。 BERT主要基于两个训练任务：遮蔽语言(masked language model) 和下一句预测(next sentence prediction)，使得BERT在海量无标注数据的输入下学习到语法信息。其中下一句预测对于智能问答任务有极佳的效果。模型BERT提供了预训练机制(pre-training)和微调机制(fine-tuning)以满足不同的场景需要，在多个领域如文本分类和命名实体识别等进行了广泛的运用。为应对专业领域的样本分布与普通文本样本分布差距较大的问题，本文基于BERT的微调机制进行电网领域命名实体识别任务，更精确的拟合使用场景。

由图1可见BERT基于12层的双向Transformer进行模型构建，对字向量进行表达转化，其中字向量包含字向量、位置向量、句子向量。拼接这三种向量得到模型的输入。本文聚焦于Transformer的编码器(Encoder)，主要结构如图2所示，根据输入的向量，进行基于字向量、位置向量、句子向量的位置编码后，通过多头注意力机制进行权重计算，并使用全连接神经网络进行特征提取，其中残差链接 (Add)和层归一化(Layer Normalization)可以防止深度模型过拟合。这样的过程重复N次，最后得到输出向量，本发明中N取12。

其中，对BERT模型进行部分微调。在基于迁移学习的思想使用预训练的中文模型进行参数初始化后，冻结部分靠近输入的 Transformer层参数，训练剩下靠近输出的Transformer层和全连接层，使其跟随下游任务进行微调训练，使其在获得迁移的基于通用领域的模型知识后，更贴合电网实体自然语言逻辑，得以拟合电网领域特征。

微调前loss计算：

loss_b＝loss(BiLSTM)+loss(CRF) (1)

微调后loss计算：

loss_c＝loss(Transformer_n，...，Transformer₁₂)+loss(FFN)+loss(BiLSTM)+loss(CRF)

(2)

where n∈[1，12]

同时，考虑到预训练模型本身已经收敛，loss波动较小 (loss(Transformer_n，...，Transformer₁₂))只需要较小学习率的特点，对模型进行分层学习率设置，减少BERT学习率小对下游模型的影响。架构如图2所示，一部分为参数训练部分，随着训练进行基于学习率的误差反向传播；一部分为参数冻结部分，不跟随整体训练，在测试的时候再进行调用。在保存部分预训练模型的效果下，使模型更贴合电网领域文本数据。

BERT模型对文本进行词嵌入转换，将输入的文本数据 C＝{C₁，C₂，...，C_n}通过Transformer(图中缩写为Trm_x，x∈[1，12])转化为向量E＝{E₁，E₂，...，E_n}，将文本以字的单位转换成字向量。

BERT使用Transformer中编码器(Encoder)对语句进行编码，其中包括多头自注意力机制(Multi-Head Self-Attention)，结构如图4 所示。多头自注意力机制中的多头(Multi-Head)结构是通过构建多个自注意力(Self-Attention)中的Q(query)、K(key)、V(value) 矩阵得到的，能更全面的获取文字信息。对于每个K、Q、V矩阵，进行多个线性层映射，达到多头(Multi-Head)的目的，再通过缩放的点积注意力机制(Scaled dot-productAttention)进行运算，拼接后得到结果，本文中h取8。该结构可以更好的捕捉同一句子中汉字之间的联系，其相对于LSTM，计算过程中远距离依赖特征之间的相对位置被大大缩短，快速且全面的获取字的上下文信息。公式中的

代表着字向量维度大小的开平方，使用除以

的方式进行注意力缩放。

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^o (3)

经过Multi-Head Self-Attention进行句词加权计算后，句子中各个字的字嵌入信息被赋予权重，进而使用全连接神经网络和残差连接对输入向量进行特征提取。在全连接神经网络部分，模型根据 Self-Attention提取到的权重信息进行信息抽取，公式如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (5)

在全连接部分，本文使用GELU作为激活函数，GELU引入随机正则的思想，以伯努利分布限制输入，使得输入随机，相当于一个参数随机失活操作。GELU与全连接神经网络公式如下，其中Φ(x)为伯努利分布表达式：

GELU(x)＝xP(x＜＝x)＝xΦ(x) (6)

FFN(x)＝GELU(xW₁+b₁)W₂+b₂ (7)

本文中使用BERT作为字向量表达层，将文本信息转化为字向量信息，通过BERT的Position Embedding、Segement Embedding、Token Emdedding对文本的位置信息、句子信息、字特征信息进行编码，在损失较少信息的情况下对文本进行转化，获得可便后续模型输入的字向量。

步骤二、利用BiLSTM模型结合前向LSTM的隐层

和后向 LSTM的隐层

由于Bert模型本身的结构造成的对文本中字的绝对位置的信息获取不足，本文使用双向长短记忆神经网络解决这个问题，通过 LSTM内部的细胞单元结构有效获取绝对位置信息。LSTM使用遗忘门、输入门、输出门合理的处理信息，合理丢弃与当前位置字信息冲突的细胞单元输入信息，输入当前位置字信息并传递至下一个细胞单元，输入为上一个细胞单元状态C_t、上一个隐层状态h_t-1和当前位置输入x_t，LSTM整体公式如下，其中W和LSTM整体公式如下，其中W和b是每一步的权值和偏置项：

输入门：

i_t＝σ(W_t·[h_t-1，x_t]+b_i) (8)

遗忘门：

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (9)

输出门：

o_t＝σ(W_o·[h_t-1，x_t]+b_o) (11)

h_t＝o_t*tanh(C_t) (13)

本文将前向LSTM隐层的输出

与后向LSTM隐层的输出

进行拼接处理，得到LSTM的整体输出。

步骤三、使用CRF模型对模型的损失进行计算，基于位置信息转移矩阵进行矩阵相乘计算得到输出的概率，使输出更符合实体语法规则，得到输出向量y＝{y₁，y₂，...，y_n}，从而得到全局最优秀的序列，即输出各故障类别的概率，

本发明利用了条件随机场的原理，使用CRF的状态转移函数与位置状态函数计算整个模型的损失，通过CRF的状态转移矩阵

其中a_ij表示上一步在i状态的情况下转移成j状态的概率，通过对相邻状态变化和句子整体信息进行概率加权求和，获得最大可能的输出顺序，从而得到全局最优秀序列，使得输出的结果合理。

当状态转移的过程符合序列逻辑，则权值为正，且权值越大越代表着认可该情况。而不符合序列逻辑时，如序列输出{O，I}时，权值为负，且权值越小越代表着认可这种情况，如此合理避免出现非法序列输出的情况。

实施例不应视为对本发明的限制，但任何基于本发明的精神所作的改进，都应在本发明的保护范围之内。