CN112632972A - 一种电网设备故障报告内故障信息的快速提取方法 - Google Patents
一种电网设备故障报告内故障信息的快速提取方法 Download PDFInfo
- Publication number
- CN112632972A CN112632972A CN202011556914.8A CN202011556914A CN112632972A CN 112632972 A CN112632972 A CN 112632972A CN 202011556914 A CN202011556914 A CN 202011556914A CN 112632972 A CN112632972 A CN 112632972A
- Authority
- CN
- China
- Prior art keywords
- model
- information
- power grid
- output
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 38
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 9
- 238000013526 transfer learning Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种电网设备故障报告内故障信息的快速提取方法,解决现有模型对领域实体识别能力不足的问题。该模型使用基于Transformer的双向编码器BERT模型解决了BiLSTM上下文信息获取不足的问题,在获得全局的上下文信息的基础上,提高模型的识别精度,并使用基于迁移学习的预训练模型BERT,增强领域字词信息获取能力。而本发明在此基础上进行面向电网领域的本地微调训练,对BERT的部分Transformer层进行面向领域的重训练,在保留原始模型包含的中文句法语法信息的情况下,使得原本不适用于电网领域的通用模型能在电网故障报告文本上取得较好的结果。
Description
技术领域
本发明涉及快速提取电网设备故障报告内故障信息的方法,具体涉及一种电网设备故障报告内故障信息的快速提取方法。
背景技术
变压器、输电线等电力设备在送电使用后,常因设备固有缺陷隐患、短路冲击、过载运行等因素产生故障。当设备发生故障后,技术人员通常会对设备从正常运行、到发现可能存在状态异常、到采取多种手段检测、以及停电检修、确诊存在隐患/故障的完整过程进行记录,通常包含设备类型、名称、故障发生时间、现象、原因、检修方法、检修结果等信息,并以故障报告的形式存档,为设备故障诊断、故障处理方法检修处理决策积累经验。电网设备故障报告基本以自然语言表述的文档,即非结构化形式存储,没有固定的格式和结构,难以快速、准确与相似故障情况关联,无法进一步辅助开展故障分析诊断。
另外人工智能已经在电网领域进行了广泛的应用,基于模型的人工智能在文本挖掘、图像识别、故障诊断、决策支持等多个领域取得了良好的成果。如秦善强,付志红,朱学贵,籍勇亮在2017年在电工技术学报上发表的论文:遗传神经网络的瞬变电磁视电阻率求解算法,提出用遗传神经网络中心回线装置下瞬变电磁法(TEM)来计算视电阻率。徐春华,陈克绪,马建,刘佳翰,吴建华.在2019年于电工技术学报上发表的论文,基于深度置信网络的电力负荷识别,提出一种基于深度置信网络架构(DBN)的电力负荷识别方法;李冬辉,尹海燕,郑博文,刘玲玲在2019年于电工技术学报上发表的论文,.改进的LSTM方法在冷水机组传感器故障检测中的应用,提出改进的 LSTM方法对冷水机组传感器进行故障检测。陈蕾,郑伟彦,余慧华,傅婧,刘宏伟,夏军强在2020年11月25日在电网技术上发表的论文,基于BERT的电网调度语音识别语言模型研究,使用BERT对电网调度语音进行模型识别,使用困惑度作为评价指标。
基于人工智能中自然语言处理(Natural Language Processing)的思想,使用深度模型识别出电网句子中的命名实体(named entity),将故障报告文本结构化,通过实体对组合进行匹配,快速挖掘文本中的故障信息。
常见的基于规则的命名实体识别算法虽然能取得好的效果,但依赖专业人员的知识储备,泛用性差,同时需要大量的人力成本,耗时耗力。近年来,概率图模型在命名实体识别上获得了较大的进展,隐马尔可夫(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)都是在概率图的基础上建模以贴合实体与文本的分布规律。
随着机器学习的发展,深度模型在命名实体识别上也取得了良好的进展,其中将深度神经网络与概率图模型结合的方式较为常用,如吴超,王汉军在2020年于计算机系统应用上发表的论文.基于GRU 的电力调度领域命名实体识别方法,使用GRU神经网络与CRF结合的方式,对电力调度的领域命名实体识别进行智能识别,得到了较好的效果。王欢,朱文球,吴岳忠,何频捷,万烂军2020年在工程科学学报上发表的论文,基于数控机床设备故障领域的命名实体识别,将BiLSTM与CRF结合,对数控机床设备故障领域的命名实体识别进行了研究。祝春捷,潘坚跃,王译田,陈超在2019年于电子设计工程上发表的论文.基于结构化表达的电力运维文本分析,使用卷积神经网络和CRF组合模型对电力运维文本进行命名实体分析。但这类算法应用到电网领域仍存在不可忽视的技术问题:BiLSTM等神经网络对于上下文信息获取能力有所欠缺,而电网领域实体存在分布密集,上下文信息少而精的特性,对上下文信息获取不足会使得结果产生较大的偏差。
发明内容
本发明提出一种面向电网领域的基于微调的 BERT-BiLSTM-CRF命名实体识别模型,解决现有模型对领域实体识别能力不足的问题,具体公开了一种电网设备故障报告内故障信息的快速提取方法。
为实现上述目的,本发明提供了如下技术方案:
一种电网设备故障报告内故障信息的快速提取方法,其包括以下步骤:
步骤一、基于N层双向Transformer进行BERT模型构建,并利用构建的BERT模型对文本进行词嵌入转换,将输入的文本数据C={C1,C2,...,Cn)通过Transformer转化为向量E={E1,E2,...,En},将文本以字的单位转换成字向量;
步骤三、使用CRF模型对模型的损失进行计算,基于位置信息转移矩阵进行矩阵相乘计算得到输出的概率,使输出更符合实体语法规则,得到输出向量y={y1,y2,...,yn),从而得到全局最优秀的序列,即输出各故障类别的概率,
其中,对步骤一中的BERT模型进行微调,其微调如下:
①基于迁移学习理论对预训练的中文模型进行参数初始化操作;
②冻结部分靠近输入的Transformer层的参数;
③训练剩下靠近输出的Transformer层和全连接层,使其跟随下游任务进行微调训练,
其中微调后的
lossc=loss(TransfoTmern,...,Transformer12)+loss(FFN)+loss(BiLSTM)+loss(CRF)
wheren∈[1,12]。
所述BERT模型通过Transformer中的编码器对语句进行编码,其中包括多头自注意力机制。
多头自注意力机制通过构建多个自注意力中的Q、K、V矩阵得到的,对于每个K、Q、V矩阵,进行多个线性层映射,再通过缩放的点积注意力机制进行运算,拼接后得到结果。
经过多头自注意力机制进行句词加权计算后,句子中各个字的字嵌入信息被赋予权重,进而使用全连接神经网络和残差连接对输入向量进行特征提取,
MultiHead(Q,K,V)=Concat(head1,...,headh)WQ,
在全连接神经网络部分,模型根据多个自注意力提取到的权重信息进行信息抽取,FFN(x)=max(0,xW1+b1)W2+b2,x为随机变量,W2与 b2表示第2层神经网络权值和偏置项;
在全连接部分,使用GELU作为激活函数,GELU引入随机正则理论,以伯努利分布限制输入,使得输入随机, FFN(x)=GELU(xW1+b1)W2+b2,
GELU(x)=xP(X<=x)=xΦ(x),其中GELU(x)为激活函数,Φ(x)为伯努利分布表达式。
步骤二中,BiLSTM模型使用遗忘门、输入门、输出门合理的处理信息,合理丢弃与当前位置字信息冲突的细胞单元输入信息,输入当前位置字信息并传递至下一个细胞单元,输入为上一个细胞单元状态Ct、上一个隐层状态ht-1和当前位置输入xt。
使用CRF模型的状态转移函数与位置状态函数计算整个模型的损失,其中通过CRF模型的状态转移矩阵其中aij表示上一步在i状态的情况下转移成j状态的概率,通过对相邻状态变化和句子整体信息进行概率加权求和,获得最大可能的输出顺序,从而得到全局最优秀序列,
本发明的有益效果:
使用基于Transformer的双向编码器BERT模型(Bidirectional EncoderRepresentation from Transformers)解决了BiLSTM上下文信息获取不足的问题,在获得全局的上下文信息的基础上,提高模型的识别精度,并使用基于迁移学习的预训练模型BERT,增强领域字词信息获取能力。
在直接使用Google预训练完成的BERT模型进行命名实体识别的基础上进行面向电网领域的本地微调训练,对BERT的部分 Transformer层进行面向领域的重训练,在保留原始模型包含的中文句法语法信息的情况下,使得原本不适用于电网领域的通用模型能在电网故障报告文本上取得较好的结果。
附图说明
图1为通用领域模型架构图。
图2为本发明的微调模型架构图。
图3为本发明的Transfomer中编码器模型架构图。
图4为本发明的多头自注意力机制结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在机器学习和深度学习的框架下,学习任务的过程是基于训练数据学习一个合适的分类模型,再使用训练好的模型对测试样本集进行预测,目的是检验模型的准确性或使用模型预测的输出结果。然而,机器学习和深度学习算法在当前的模型研究中存在着一个不可忽视的问题:在一些新出现的领域中,大量的数据由于没有标签无法构建成训练样本,无法进行模型的学习训练,而传统的机器学习需要对每个领域都标定大量训练数据,而这些领域数据的标注离不开专家的指导,这将会耗费大量的人力成本。而没有大量的标注数据,会使得很多与深度学习模型相关研究与应用无法开展。如果现有的大量的分布合适的训练数据可以加以利用,那么可以很好的减少人力物力的消耗。迁移学习(TransferLearning)可以从现有的数据中迁移知识,用来帮助将来的学习。其目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。目前常见的处理方法是将已训练完成的模型参数迁移至新的模型,以帮助新模型在较少的训练数据下进行任务处理,该类模型被称为预训练模型(PretrainedModel)。预训练模型的使用方法是基于已在外部训练好的深度模型对文本或数值进行处理,无需在本地重训练。一是在通用领域任务下,预训练模型的表现良好,无需再进行调整,只需根据具体任务对下游模型进行训练,如全连接神经网络,BiLSTM等,以完成训练目标,二是因为外部训练的过程 (Google、OpenAI)是基于海量的样本数据,极佳的硬件配制和极长的训练时间,在本地完全重新训练是不可取的。常见的预训练模型有ELMo[15](Embedding from Language Model)、ERNIE[16] (Enhanced LanguageRepresentation with Informative Entities)、BERT 等。由于ELMo为基于BiLSTM的单向语言模型,只是单纯的对上下文信息进行一个拼接处理,对上下文信息获取能力不足,而ERNIE 引入了公开数据集的实体信息,会对领域实体识别造成干扰,本文选用BERT预训练模型作为基础模型,在较少训练数据的情况下,减少人力成本,提高模型指标。同时打破不再进行重训练的常规,对模型进行面向电网领域的微调训练,对模型的部分Transformer层进行重训练,使得不适用于领域任务的预训练模型在电网领域取得较好的效果。
为获取上下文信息,本文使用微调的BERT-BiLSTM-CRF的模型以补充BiLSTM上下文信息获取能力不足的问题。BERT是基于海量语料库运用自监督学习方法进行预训练得到的深度学习模型,内部由多层Transformer组成,可以有效提取文本中的自然语言特征,并以向量的形式输出。BiLSTM是基于循环神经网络的深度学习模型,可以根据输入的向量进行多分类。CRF是概率图模型,对输出结果进行语法规范,输出各个类别的分类概率。本文对BERT预训练模型进行面向电网领域的部分Transformer层重训练,使得在保留原模型对自然语言句法语法的拟合能力下,更贴近电网领域的语言表达。在BERT 模型模块,对BERT进行参数冻结,只使用包含固定参数的矩阵将输入文本映射成向量(Mapping),不对BERT内部参数进行训练,只对下游模型BiLSTM、CRF进行参数训练。
而本发明在此基础上进行改进,如图1所示,本发明使用基于十二层双向连接的Transformer构成的。
本发明公开了一种电网设备故障报告内故障信息的快速提取方法,其包括以下步骤:
步骤一、基于N层双向Transformer进行BERT模型构建,其中 N为12,并利用构建的BERT模型对文本进行词嵌入转换,将输入的文本数据C={C1,C2,...,Cn}通过Transformer转化为向量 E={E1,E2,...,En},将文本以字的单位转换成字向量;
BERT是一个强大的双向语言模型,在自然语言处理内多个领域获得的较好的效果,在中文的命名实体识别任务上也取得了成效。 BERT主要基于两个训练任务:遮蔽语言(masked language model) 和下一句预测(next sentence prediction),使得BERT在海量无标注数据的输入下学习到语法信息。其中下一句预测对于智能问答任务有极佳的效果。模型BERT提供了预训练机制(pre-training)和微调机制(fine-tuning)以满足不同的场景需要,在多个领域如文本分类和命名实体识别等进行了广泛的运用。为应对专业领域的样本分布与普通文本样本分布差距较大的问题,本文基于BERT的微调机制进行电网领域命名实体识别任务,更精确的拟合使用场景。
由图1可见BERT基于12层的双向Transformer进行模型构建,对字向量进行表达转化,其中字向量包含字向量、位置向量、句子向量。拼接这三种向量得到模型的输入。本文聚焦于Transformer的编码器(Encoder),主要结构如图2所示,根据输入的向量,进行基于字向量、位置向量、句子向量的位置编码后,通过多头注意力机制进行权重计算,并使用全连接神经网络进行特征提取,其中残差链接 (Add)和层归一化(Layer Normalization)可以防止深度模型过拟合。这样的过程重复N次,最后得到输出向量,本发明中N取12。
其中,对BERT模型进行部分微调。在基于迁移学习的思想使用预训练的中文模型进行参数初始化后,冻结部分靠近输入的 Transformer层参数,训练剩下靠近输出的Transformer层和全连接层,使其跟随下游任务进行微调训练,使其在获得迁移的基于通用领域的模型知识后,更贴合电网实体自然语言逻辑,得以拟合电网领域特征。
微调前loss计算:
lossb=loss(BiLSTM)+loss(CRF) (1)
微调后loss计算:
lossc=loss(Transformern,...,Transformer12)+loss(FFN)+loss(BiLSTM)+loss(CRF)
(2)
where n∈[1,12]
同时,考虑到预训练模型本身已经收敛,loss波动较小 (loss(Transformern,...,Transformer12))只需要较小学习率的特点,对模型进行分层学习率设置,减少BERT学习率小对下游模型的影响。架构如图2所示,一部分为参数训练部分,随着训练进行基于学习率的误差反向传播;一部分为参数冻结部分,不跟随整体训练,在测试的时候再进行调用。在保存部分预训练模型的效果下,使模型更贴合电网领域文本数据。
BERT模型对文本进行词嵌入转换,将输入的文本数据 C={C1,C2,...,Cn}通过Transformer(图中缩写为Trmx,x∈[1,12])转化为向量E={E1,E2,...,En},将文本以字的单位转换成字向量。
BERT使用Transformer中编码器(Encoder)对语句进行编码,其中包括多头自注意力机制(Multi-Head Self-Attention),结构如图4 所示。多头自注意力机制中的多头(Multi-Head)结构是通过构建多个自注意力(Self-Attention)中的Q(query)、K(key)、V(value) 矩阵得到的,能更全面的获取文字信息。对于每个K、Q、V矩阵,进行多个线性层映射,达到多头(Multi-Head)的目的,再通过缩放的点积注意力机制(Scaled dot-productAttention)进行运算,拼接后得到结果,本文中h取8。该结构可以更好的捕捉同一句子中汉字之间的联系,其相对于LSTM,计算过程中远距离依赖特征之间的相对位置被大大缩短,快速且全面的获取字的上下文信息。公式中的代表着字向量维度大小的开平方,使用除以的方式进行注意力缩放。
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo (3)
经过Multi-Head Self-Attention进行句词加权计算后,句子中各个字的字嵌入信息被赋予权重,进而使用全连接神经网络和残差连接对输入向量进行特征提取。在全连接神经网络部分,模型根据 Self-Attention提取到的权重信息进行信息抽取,公式如下:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
在全连接部分,本文使用GELU作为激活函数,GELU引入随机正则的思想,以伯努利分布限制输入,使得输入随机,相当于一个参数随机失活操作。GELU与全连接神经网络公式如下,其中Φ(x)为伯努利分布表达式:
GELU(x)=xP(x<=x)=xΦ(x) (6)
FFN(x)=GELU(xW1+b1)W2+b2 (7)
本文中使用BERT作为字向量表达层,将文本信息转化为字向量信息,通过BERT的Position Embedding、Segement Embedding、Token Emdedding对文本的位置信息、句子信息、字特征信息进行编码,在损失较少信息的情况下对文本进行转化,获得可便后续模型输入的字向量。
由于Bert模型本身的结构造成的对文本中字的绝对位置的信息获取不足,本文使用双向长短记忆神经网络解决这个问题,通过 LSTM内部的细胞单元结构有效获取绝对位置信息。LSTM使用遗忘门、输入门、输出门合理的处理信息,合理丢弃与当前位置字信息冲突的细胞单元输入信息,输入当前位置字信息并传递至下一个细胞单元,输入为上一个细胞单元状态Ct、上一个隐层状态ht-1和当前位置输入xt,LSTM整体公式如下,其中W和LSTM整体公式如下,其中W和b是每一步的权值和偏置项:
输入门:
it=σ(Wt·[ht-1,xt]+bi) (8)
遗忘门:
ft=σ(Wf·[ht-1,xt]+bf) (9)
输出门:
ot=σ(Wo·[ht-1,xt]+bo) (11)
ht=ot*tanh(Ct) (13)
在获得前后信息的情况下,拟合序列标注的输出,获得更准确的输出。
步骤三、使用CRF模型对模型的损失进行计算,基于位置信息转移矩阵进行矩阵相乘计算得到输出的概率,使输出更符合实体语法规则,得到输出向量y={y1,y2,...,yn},从而得到全局最优秀的序列,即输出各故障类别的概率,
本发明利用了条件随机场的原理,使用CRF的状态转移函数与位置状态函数计算整个模型的损失,通过CRF的状态转移矩阵其中aij表示上一步在i状态的情况下转移成j状态的概率,通过对相邻状态变化和句子整体信息进行概率加权求和,获得最大可能的输出顺序,从而得到全局最优秀序列,使得输出的结果合理。
当状态转移的过程符合序列逻辑,则权值为正,且权值越大越代表着认可该情况。而不符合序列逻辑时,如序列输出{O,I}时,权值为负,且权值越小越代表着认可这种情况,如此合理避免出现非法序列输出的情况。
在获得前后信息的情况下,拟合序列标注的输出,获得更准确的输出。
实施例不应视为对本发明的限制,但任何基于本发明的精神所作的改进,都应在本发明的保护范围之内。
Claims (8)
1.一种电网设备故障报告内故障信息的快速提取方法,其特征在于:其包括以下步骤:
其中,对步骤一中的BERT模型进行微调,其微调如下:
①基于迁移学习理论对预训练的中文模型进行参数初始化操作;
②冻结部分靠近输入的Transformer层的参数;
③训练剩下靠近输出的Transformer层和全连接层,使其跟随下游任务进行微调训练,
其中微调后的
2.根据权利要求1所述的一种电网设备故障报告内故障信息的快速提取方法,其特征在于:所述BERT模型通过Transformer中的编码器对语句进行编码,其中包括多头自注意力机制。
3.根据权利要求2所述的一种电网设备故障报告内故障信息的快速提取方法,其特征在于:多头自注意力机制通过构建多个自注意力中的Q、K、V矩阵得到的,对于每个K、Q、V矩阵,进行多个线性层映射,再通过缩放的点积注意力机制进行运算,拼接后得到结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011556914.8A CN112632972B (zh) | 2020-12-25 | 2020-12-25 | 一种电网设备故障报告内故障信息的快速提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011556914.8A CN112632972B (zh) | 2020-12-25 | 2020-12-25 | 一种电网设备故障报告内故障信息的快速提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632972A true CN112632972A (zh) | 2021-04-09 |
CN112632972B CN112632972B (zh) | 2024-03-15 |
Family
ID=75324751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011556914.8A Active CN112632972B (zh) | 2020-12-25 | 2020-12-25 | 一种电网设备故障报告内故障信息的快速提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632972B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139069A (zh) * | 2021-05-14 | 2021-07-20 | 上海交通大学 | 面向知识图谱构建的电力故障中文文本实体识别方法及系统 |
CN113255780A (zh) * | 2021-05-28 | 2021-08-13 | 润联软件系统(深圳)有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113343633A (zh) * | 2021-06-10 | 2021-09-03 | 上海交通大学 | 动力锂电池热失控故障分类及风险预测方法、系统 |
CN113689851A (zh) * | 2021-07-27 | 2021-11-23 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN113865868A (zh) * | 2021-08-24 | 2021-12-31 | 东南大学 | 基于时频域表达的滚动轴承故障诊断方法 |
CN113901171A (zh) * | 2021-09-06 | 2022-01-07 | 特赞(上海)信息科技有限公司 | 语义情感分析方法及装置 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
CN114338083A (zh) * | 2021-12-03 | 2022-04-12 | 中汽创智科技有限公司 | 控制器局域网络总线异常检测方法、装置和电子设备 |
CN115129826A (zh) * | 2022-09-01 | 2022-09-30 | 国网智能电网研究院有限公司 | 电力领域模型预训练方法、精调方法、装置及设备 |
CN115858825A (zh) * | 2023-03-02 | 2023-03-28 | 山东能源数智云科技有限公司 | 基于机器学习的设备故障诊断知识图谱构建方法和装置 |
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
CN115983140A (zh) * | 2023-03-16 | 2023-04-18 | 河北工业大学 | 一种基于大数据深度学习的电磁场数值预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108599136A (zh) * | 2018-06-14 | 2018-09-28 | 浙江国际海运职业技术学院 | 一种直流微电网光伏系统的模式切换方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111666477A (zh) * | 2020-06-19 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、智能设备及介质 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
US20200388396A1 (en) * | 2019-06-04 | 2020-12-10 | Dana-Farber Cancer Institute, Inc. | System and method of using machine learning for extraction of symptoms from electronic health records |
-
2020
- 2020-12-25 CN CN202011556914.8A patent/CN112632972B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108599136A (zh) * | 2018-06-14 | 2018-09-28 | 浙江国际海运职业技术学院 | 一种直流微电网光伏系统的模式切换方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
US20200388396A1 (en) * | 2019-06-04 | 2020-12-10 | Dana-Farber Cancer Institute, Inc. | System and method of using machine learning for extraction of symptoms from electronic health records |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN111666477A (zh) * | 2020-06-19 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、智能设备及介质 |
Non-Patent Citations (3)
Title |
---|
DAN HENDRYCKS 等: "Bridging Nonlinearities and Stochastic Regularizers with Gaussian Error Linear Units", ARXIV:1606.08415V1, pages 1 - 6 * |
WANGSHU GUO 等: "Research and application of Chinese Entity Relation Extraction Based on Cyberspace Security", 2020 INTERNATIONAL CONFERENCE ON COMPUTER COMMUNICATION AND NETWORK SECURITY (CCNS), pages 206 - 210 * |
张秋颖 等: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 计算机应用研究, vol. 37, pages 47 - 49 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139069A (zh) * | 2021-05-14 | 2021-07-20 | 上海交通大学 | 面向知识图谱构建的电力故障中文文本实体识别方法及系统 |
CN113255780A (zh) * | 2021-05-28 | 2021-08-13 | 润联软件系统(深圳)有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113255780B (zh) * | 2021-05-28 | 2024-05-03 | 润联智能科技股份有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113343633B (zh) * | 2021-06-10 | 2022-04-26 | 上海交通大学 | 动力锂电池热失控故障分类及风险预测方法、系统 |
CN113343633A (zh) * | 2021-06-10 | 2021-09-03 | 上海交通大学 | 动力锂电池热失控故障分类及风险预测方法、系统 |
CN113689851A (zh) * | 2021-07-27 | 2021-11-23 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN113689851B (zh) * | 2021-07-27 | 2024-02-02 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN113865868A (zh) * | 2021-08-24 | 2021-12-31 | 东南大学 | 基于时频域表达的滚动轴承故障诊断方法 |
CN113865868B (zh) * | 2021-08-24 | 2023-12-22 | 东南大学 | 基于时频域表达的滚动轴承故障诊断方法 |
CN113901171A (zh) * | 2021-09-06 | 2022-01-07 | 特赞(上海)信息科技有限公司 | 语义情感分析方法及装置 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
CN114338083A (zh) * | 2021-12-03 | 2022-04-12 | 中汽创智科技有限公司 | 控制器局域网络总线异常检测方法、装置和电子设备 |
CN114338083B (zh) * | 2021-12-03 | 2024-05-28 | 中汽创智科技有限公司 | 控制器局域网络总线异常检测方法、装置和电子设备 |
CN115129826A (zh) * | 2022-09-01 | 2022-09-30 | 国网智能电网研究院有限公司 | 电力领域模型预训练方法、精调方法、装置及设备 |
CN115858825A (zh) * | 2023-03-02 | 2023-03-28 | 山东能源数智云科技有限公司 | 基于机器学习的设备故障诊断知识图谱构建方法和装置 |
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
CN115983140A (zh) * | 2023-03-16 | 2023-04-18 | 河北工业大学 | 一种基于大数据深度学习的电磁场数值预测方法 |
CN115983140B (zh) * | 2023-03-16 | 2023-06-09 | 河北工业大学 | 一种基于大数据深度学习的电磁场数值预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112632972B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632972A (zh) | 一种电网设备故障报告内故障信息的快速提取方法 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN109902293B (zh) | 一种基于局部与全局互注意力机制的文本分类方法 | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111353029B (zh) | 一种基于语义匹配的多轮对话口语理解方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN115081437B (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN110019795B (zh) | 敏感词检测模型的训练方法和系统 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN112434514A (zh) | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
Liu et al. | Research on advertising content recognition based on convolutional neural network and recurrent neural network | |
CN116680575A (zh) | 模型处理方法、装置、设备及存储介质 | |
CN115129826B (zh) | 电力领域模型预训练方法、精调方法、装置及设备 | |
CN114970497B (zh) | 基于预训练特征嵌入的文本分类方法及词义消歧方法 | |
Tian et al. | Text classification model based on BERT-capsule with integrated deep learning | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |