CN117828105A - 一种基于联合抽取的电力缺陷文本知识图谱构建方法 - Google Patents
一种基于联合抽取的电力缺陷文本知识图谱构建方法 Download PDFInfo
- Publication number
- CN117828105A CN117828105A CN202410100913.4A CN202410100913A CN117828105A CN 117828105 A CN117828105 A CN 117828105A CN 202410100913 A CN202410100913 A CN 202410100913A CN 117828105 A CN117828105 A CN 117828105A
- Authority
- CN
- China
- Prior art keywords
- layer
- sequence
- entity
- bert
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 230000007547 defect Effects 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000015654 memory Effects 0.000 claims abstract description 38
- 238000002372 labelling Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000007774 longterm Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 150000001408 amides Chemical class 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于联合抽取的电力缺陷文本知识图谱构建方法,该方法首先构建电力缺陷领域的联合标注体系,通过包含实体标签和关系标签的统一标注集,对文本进行标注,以识别出文本中的所有实体及实体对关系;该方法通过构建融合BERT、全连接层、双向长短期记忆网络和条件随机场的实体关系抽取模型,通过性能对比得出引入全连接层可较好提高模型性能,能捕捉重叠关系中的实际结构信息,对比其他三个模型,能更精细地表示电力缺陷实体在不同关系中的语义角色,便于后续下游任务利用结构化信息,为后续的知识图谱构建了良好的基础。
Description
技术领域
本发明电力缺陷文本关系抽取技术领域,具体涉及一种基于联合抽取的电力缺陷文本知识图谱构建方法。
背景技术
随着电网规模不断扩大,每天产生的各类数据呈现爆炸式增长,这些数据主要包括大量设备运行状态、故障报告、检修记录等非结构化的文本信息,但这些海量数据的利用率非常低,数据间的关联性和价值也没有被很好地发掘。与此同时,伴随着人工智能技术的不断发展,知识图谱作为一种先进的数据挖掘与知识表达技术,受到了广泛的关注,知识图谱可以直观地呈现文本中蕴含的知识体系与内在规律,为电力领域的知识管理与技术研究提供了非常有效的工具与手段,构建一个完整、准确的电力知识图谱,不仅可以充分描绘电力技术的框架与知识结构,还是电力行业实现智能化、信息化管理与运维的迫切需求。
构建高质量知识图谱的主要过程包含数据采集、知识抽取、知识融合与知识表达等关键环节;其中,知识抽取是最为关键的技术环节,需要考虑电力专业文本的语义复杂性、行业专业术语以及特定的语义表达方式,并结合电力行业背景进行深入分析,以提高抽取结果的准确性;建立高效的电力知识抽取模型,不仅可以大幅提高抽取质量,还可以深入挖掘文本中隐含的知识价值,是构建高质量知识图谱的重要基础,也可为电力技术人员提供有效的智能分析与决策支持;实体抽取和关系抽取是抽取领域的两个重要子任务,目前主流知识抽取采用先仅抽取文本中的实体,再单独抽取实体关系的流水线方式,但流水线方式存在以下几个问题:
1.错误累积风险大,在流水线方式下,实体抽取作为首要任务,其错误会逐步传递给后续的关系抽取任务,导致关系抽取质量直接受限于实体抽取的准确率。任何实体识别上的细小误差,扩大后都可能造成更多错综复杂的关系识别错误。
2.子任务独立性强,流水线方法中的实体识别和关系识别被分离建模,两个子任务的模型目标函数独立优化,无法实现多任务协同训练。因此模型无法利用两者之间的相互作用来实现正向反馈,提升联合效果。
3.语义约束不充分,文本中的实体和关系存在语义依赖性,这反映了文本的语义含义。但流水线方法忽略了这些内在关联,导致对文本语义理解的约束不充分,无法实现对完整语义的建模。
4.后期处理成本高,流水线方法输出的实体和关系结果离散分布,需要人工后期处理将其组合成知识图谱中的三元组格式,这增加人力成本。因此,需要设计一种基于联合抽取的电力缺陷文本知识图谱构建方法来解决上述问题。
发明内容
为解决上述技术问题,本发明提供了一种基于联合抽取的电力缺陷文本知识图谱构建方法,该方法解决了现有技术通过两个独立的模块分别进行实体识别和关系抽取,两模块之间独立优化目标函数,没有信息直接交互,任务关系建模较弱,实体关系约束不足的问题;本发明通过构建包含实体标签和关系标签的统一标注集,对文本进行标注,以识别出文本中的所有实体及实体对关系,能够解决参数共享困难、信息间接交互、语义约束不足的问题,从而提高联合抽取的准确度。
为了实现上述的技术效果,本发明采用的技术方案为:
一种基于联合抽取的电力缺陷文本知识图谱构建方法,包括:
S1,构建电力缺陷领域的联合标注体系;
S2,采用步骤S1的方法对电力缺陷实体联合标注;
S3,将上下文信息转换为高维向量;
S4,全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合;
S5,双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;
S6,进行全连接层优化标签的预测,找到最优标签序列,并对实验结果进行分析。
优选地,步骤S1中,将实体标注和实体关系标注融合在一起进行:
S101,实体标注:采用BIO标注法对实体进行标注,通过BIO三种标签识别和区分实体;
其中,B为Begin,表示实体的开始;I为Inside,表示实体的中间部分;O为Outside,表示非实体部分;
S102,实体关系标注:通过电压等级、设备、部位和现象表示实体类型;通过所属关系和缺陷描述表示关系类别。
优选地,步骤S3中,通过BERT预训练模型将上下文信息转换为高维向量,包括:
S301,建立BERT预训练模型:
给定输入序列x=[x1,x2,…,xn],BERT将输入序列的单词转换为d维的词嵌入向量,表示为ei=Embedding(xi),其中Embedding(·)是嵌入函数,ei是词嵌入向量;
将词嵌入向量送入由Transformer层堆叠而成的编码器中,在第l层,将每个词嵌入向量更新为一个新的向量,表示为:
其中是第l层的输出,/>是第l-1层的输出;
S302,实体识别:因为包含了词xi的上下文信息,这使得模型能够理解词的语义,从而能够识别出是否是一个实体;BERT通过自注意力机制和Transformer的堆叠,生成包含了词xi的上下文信息的向量/>BERT利用向量/>处理实体识别任务,包括:
将实体识别视为序列标注问题进行预测:
其中,We和be是实体识别任务的权重和偏置,yi是词xi的标签概率分布;
S303,实体关系抽取:因为不仅包含了词xi的上下文信息,还包含了词xi与其他词之间的关系信息;BERT通过自注意力机制和Transformer的堆叠,生成包含了词xi的上下文信息的向量/>BERT利用向量/>处理实体抽取任务,包括:
通过比较两个词的词嵌入向量来判断它们之间是否存在某种关系,将实体关系抽取视为分类问题进行预测:
其中,Wr和br是实体关系抽取任务的权重和偏置,rij是词xi和xj之间的关系类型的概率分布,表示将/>和/>进行拼接。
S304,BERT输出n维向量序列H,输出H表示输入序列中每个词的特征,特征包括上下文信息。
优选地,步骤S4中,全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合包括:
全连接层将从BERT层获得的特征向量转换为另一种形式的特征表示:
S401,设BERT层的输出表示为H,H是一个三维的张量,形状为(batch_size,sequence_length,bert_dim),其中,batch_size是批次大小,sequence_length是序列长度,bert_dim是BERT的隐藏层大小;
S402,对于输入的每一个文本序列,BERT输出编码后的语义表示都是一个固定维度的向量;上述向量在H张量中以三维结构组织,第一维索引每个样本,第二维索引序列位置,第三维表示向量维度;
S403,将全连接层表示为线性变换,用参数矩阵W和偏置b来表示,其中参数矩阵W用于执行该线性变换,形状是(bert_dim,fc_dim)的二维张量;b的形状是(fc_dim,)的一维张量,其中fc_dim表示全连接层的输出维度;全连接层的输出O表示对H中的每一个特征向量进行线性变换,公式为:
O=H*W+b;
全连接层的输出O的形状是(batch_size,sequence_length,fc_dim)的三维张量;
S404,全连接层的输出O被送入下一层的BiLSTM,全连接层的参数W和b在训练过程中被更新,使得全连接层的输出更适合下游任务;分类器FC层通过学习输入中特征的高阶关联提升关系分类任务的性能,弥补BERT前端模块忽略的信息。
优选地,步骤S5中,双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息包括:
在整体架构中,BiLSTM捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;BiLSTM由两个LSTM部分组成,一个从序列前向处理输入,另一个从序列后向处理输入,通过双向处理方式允许模型在每个位置都获得前后文信息;全连接层FC的输出为Ot,在每个时间步长,LSTM更新两个状态:隐藏状态h和记忆单元c,两个状态在整个序列长度内持续更新;LSTM的更新规则表示为:
ft=σ(Wf*[ht-1,Ot]+bf);
it=σ(Wi*[ht-1,Ot]+bi);
gt=tanh(Wg*[ht-1,Ot]+bg);
ot=σ(Wo*[ht-1,Ot]+bo);
ct=ft*ct-1+it*gt;
ht=Ot*tanh(ct);
其中,ft是“遗忘门”,决定模型从ct-1上一时刻的记忆单元中舍弃的信息量;如果ft中的某个元素接近0,在计算新的记忆单元时,模型将舍弃ct-1中对应的信息;σ是sigmoid激活函数;it是“输入门”,决定模型将新的候选记忆gt加入到记忆单元中的量;gt是“候选记忆单元状态”,产生候选加入到记忆单元的新信息;ot是"输出门",决定下一个隐藏状态应该包含记忆单元的信息的量;ct是在当前时刻的记忆单元,基于遗忘门和输入门的信息更新;ht是当前时刻的隐藏状态,基于输出门和当前的记忆单元计算得出;BiLSTM的输出ht的形状为(batch_size,sequence_length,2*lstm_dim)的三维张量,其中2*lstm_dim来自于前向LSTM和后向LSTM的输出连接;BiLSTM的输出ht被送入CRF层即条件随机场层。
优选地,步骤S6中,通过条件随机场层CRF进行全连接层优化标签的预测;条件随机场层为最后一层,对BiLSTM层的输出进行解码,预测出最终的序列标签;BiLSTM层输出概率分布,表示每个时间步长每个可能的标签的概率;CRF层通过模拟标签之间的依赖性来优化标签的预测;具体过程如下:
S601,在CRF层中,定义一转移矩阵T,其中T[i,j]表示从标签i转移到标签j的得分;
S602,计算给定输入序列的所有可能标签序列的分数,分数是由BiLSTM层的输出和转移矩阵T共同决定,计算公式如下:
S(X,Y)=Σ(BiLSTMt(yt)+T[yt-1,yt]);
式中,X是输入序列,Y是标签序列,yt是时间步长t的标签,BiLSTMt(yt)是BiLSTM层在时间步长t预测标签yt的分数,T[yt-1,yt]是从标签yt-1转移到标签yt的得分;
S603,计算给定输入序列X的所有可能标签序列的总分数:
Z(X)=Σexp(S(X,Y′));
式中,Y'表示X的所有可能的标签序列;
S604,计算给定输入序列X的真实标签序列Y的概率:
P(Y|X)=exp(S(X,Y))/Z(X);
式中,S(X,Y)和Z(X)通过S502和S503计算得出。
进一步地,在训练过程中,目标是通过最大化真实标签序列的概率来优化模型参数。而在预测过程中,通常会选择分数最高(或概率最大)的标签序列作为最终的预测结果。为了找到最优的标签序列,常常采用维特比算法,该算法能够高效地搜索最优路径。
优选地,步骤S6中对实验结果进行分析包括建立评价指标:
采用准确率、召回率以及F1值作为实体关系识别结果的评价标准,F1值计算公式如下
P为准确率(Precision Rate)、R为召回率(Recall Rate),TP、FP和FN分别表示模型正确识别出的实体数、模型错误识别的实体数和模型未能识别出的实体数。
本发明提供的一种基于联合抽取的电力缺陷文本知识图谱构建方法的有益效果如下:
1,本发明针对电力缺陷实体关系的类型特点,提出电力缺陷联合抽取方法,该方法能捕捉重叠关系中的实际结构信息,对比其他三个模型,能更精细地表示电力缺陷实体在不同关系中的语义角色,便于后续下游任务利用结构化信息;
2,本发明构建融合BERT、全连接层、双向长短期记忆网络和条件随机场的实体关系抽取模型,通过性能对比得出引入全连接层可较好提高模型性能;
3,本发明拥有较好的模型联合抽取性能,为后续的知识图谱构建了良好的基础。
附图说明
图1为本发明中电力缺陷文本联合抽取流程图;
图2为本发明中电力系统缺陷实体-关系结构示意图;
图3为本发明实施例二中标记示例示意图;
图4为本发明施例二中不同抽取模型性能对比示意图。
具体实施方式
实施例一:
如图1所示,一种基于联合抽取的电力缺陷文本知识图谱构建方法,包括:
S1,构建电力缺陷领域的联合标注体系;
S2,采用步骤S1的方法对电力缺陷实体联合标注;
S3,将上下文信息转换为高维向量;
S4,全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合;
S5,双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;
S6,进行全连接层优化标签的预测,找到最优标签序列,并对实验结果进行分析。
优选地,步骤S1中,将实体标注和实体关系标注融合在一起进行:
S101,实体标注:采用BIO标注法对实体进行标注,通过BIO三种标签识别和区分实体;
其中,B为Begin,表示实体的开始;I为Inside,表示实体的中间部分;O为Outside,表示非实体部分;
S102,实体关系标注:通过电压等级、设备、部位和现象表示实体类型;通过所属关系和缺陷描述表示关系类别。
优选地,步骤S3中,通过BERT预训练模型将上下文信息转换为高维向量,包括:
S301,建立BERT预训练模型:
给定输入序列x=[x1,x2,…,xn],BERT将输入序列的单词转换为d维的词嵌入向量,表示为ei=Embedding(xi),其中Embedding(·)是嵌入函数,ei是词嵌入向量;
将词嵌入向量送入由Transformer层堆叠而成的编码器中,在第l层,将每个词嵌入向量更新为一个新的向量,表示为:
其中是第l层的输出,/>是第l-1层的输出;
S302,实体识别:因为包含了词xi的上下文信息,这使得模型能够理解词的语义,从而能够识别出是否是一个实体;BERT通过自注意力机制和Transformer的堆叠,生成包含了词xi的上下文信息的向量/>BERT利用向量/>处理实体识别任务,包括:
将实体识别视为序列标注问题进行预测:
其中,We和be是实体识别任务的权重和偏置,yi是词xi的标签概率分布;
S303,实体关系抽取:因为不仅包含了词xi的上下文信息,还包含了词xi与其他词之间的关系信息;BERT通过自注意力机制和Transformer的堆叠,生成包含了词xi的上下文信息的向量/>BERT利用向量/>处理实体抽取任务,包括:
通过比较两个词的词嵌入向量来判断它们之间是否存在某种关系,将实体关系抽取视为分类问题进行预测:
其中,Wr和br是实体关系抽取任务的权重和偏置,rij是词xi和xj之间的关系类型的概率分布,表示将/>和/>进行拼接。
S304,BERT输出n维向量序列H,输出H表示输入序列中每个词的特征,特征包括上下文信息。
优选地,步骤S4中,全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合包括:
全连接层将从BERT层获得的特征向量转换为另一种形式的特征表示:
S401,设BERT层的输出表示为H,H是一个三维的张量,形状为(batch_size,sequence_length,bert_dim),其中,batch_size是批次大小,sequence_length是序列长度,bert_dim是BERT的隐藏层大小;
S402,对于输入的每一个文本序列,BERT输出编码后的语义表示都是一个固定维度的向量;上述向量在H张量中以三维结构组织,第一维索引每个样本,第二维索引序列位置,第三维表示向量维度;
S403,将全连接层表示为线性变换,用参数矩阵W和偏置b来表示,其中参数矩阵W用于执行该线性变换,形状是(bert_dim,fc_dim)的二维张量;b的形状是(fc_dim,)的一维张量,其中fc_dim表示全连接层的输出维度;全连接层的输出O表示对H中的每一个特征向量进行线性变换,公式为:
O=H*W+b;
全连接层的输出O的形状是(batch_size,sequence_length,fc_dim)的三维张量;
S404,全连接层的输出O被送入下一层的BiLSTM,全连接层的参数W和b在训练过程中被更新,使得全连接层的输出更适合下游任务;分类器FC层通过学习输入中特征的高阶关联提升关系分类任务的性能,弥补BERT前端模块忽略的信息。
优选地,步骤S5中,双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息包括:
在整体架构中,BiLSTM捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;BiLSTM由两个LSTM部分组成,一个从序列前向处理输入,另一个从序列后向处理输入,通过双向处理方式允许模型在每个位置都获得前后文信息;全连接层FC的输出为Ot,在每个时间步长,LSTM更新两个状态:隐藏状态h和记忆单元c,两个状态在整个序列长度内持续更新;LSTM的更新规则表示为:
ft=σ(Wf*[ht-1,Ot]+bf);
it=σ(Wi*[ht-1,Ot]+bi);
gt=tanh(Wg*[ht-1,Ot]+bg);
ot=σ(Wo*[ht-1,Ot]+bo);
ct=ft*ct-1+it*gt;
ht=Ot*tanh(ct);
其中,ft是“遗忘门”,决定模型从ct-1上一时刻的记忆单元中舍弃的信息量;如果ft中的某个元素接近0,在计算新的记忆单元时,模型将舍弃ct-1中对应的信息;σ是sigmoid激活函数;it是“输入门”,决定模型将新的候选记忆gt加入到记忆单元中的量;gt是“候选记忆单元状态”,产生候选加入到记忆单元的新信息;ot是"输出门",决定下一个隐藏状态应该包含记忆单元的信息的量;ct是在当前时刻的记忆单元,基于遗忘门和输入门的信息更新;ht是当前时刻的隐藏状态,基于输出门和当前的记忆单元计算得出;BiLSTM的输出ht的形状为(batch_size,sequence_length,2*lstm_dim)的三维张量,其中2*lstm_dim来自于前向LSTM和后向LSTM的输出连接;BiLSTM的输出ht被送入CRF层即条件随机场层。
优选地,步骤S6中,通过条件随机场层CRF进行全连接层优化标签的预测;条件随机场层为最后一层,对BiLSTM层的输出进行解码,预测出最终的序列标签;BiLSTM层输出概率分布,表示每个时间步长每个可能的标签的概率;CRF层通过模拟标签之间的依赖性来优化标签的预测;具体过程如下:
S601,在CRF层中,定义一转移矩阵T,其中T[i,j]表示从标签i转移到标签j的得分;
S602,计算给定输入序列的所有可能标签序列的分数,分数是由BiLSTM层的输出和转移矩阵T共同决定,计算公式如下:
S(X,Y)=Σ(BiLSTMt(yt)+T[yt-1,yt]);
式中,X是输入序列,Y是标签序列,yt是时间步长t的标签,BiLSTMt(yt)是BiLSTM层在时间步长t预测标签yt的分数,T[yt-1,yt]是从标签yt-1转移到标签yt的得分;
S603,计算给定输入序列X的所有可能标签序列的总分数:
Z(X)=Σexp(S(X,Y′));
式中,Y'表示X的所有可能的标签序列;
S604,计算给定输入序列X的真实标签序列Y的概率:
P(Y|X)=exp(S(X,Y))/Z(X);
式中,S(X,Y)和Z(X)通过S502和S503计算得出。
进一步地,在训练过程中,目标是通过最大化真实标签序列的概率来优化模型参数。而在预测过程中,通常会选择分数最高(或概率最大)的标签序列作为最终的预测结果。为了找到最优的标签序列,常常采用维特比算法,该算法能够高效地搜索最优路径。
优选地,步骤S6中对实验结果进行分析包括建立评价指标:
采用准确率、召回率以及F1值作为实体关系识别结果的评价标准,F1值计算公式如下
P为准确率(Precision Rate)、R为召回率(Recall Rate),TP、FP和FN分别表示模型正确识别出的实体数、模型错误识别的实体数和模型未能识别出的实体数。
实施例二:
根据本发明提供的一种基于联合抽取的电力缺陷文本知识图谱构建方法的步骤,对宜昌市某区域变电站设备进行电力缺陷实体联合标注的过程如下:
步骤1:构建电力缺陷领域的联合标注体系;
对于实体边界,采用BIO标注法对实体进行标注;BIO代表Begin,Inside和Outside,这三种标签用来识别和区分实体;B:Begin的缩写,表示实体的开始;I:Inside的缩写,表示实体的中间部分;O:Outside的缩写,表示非实体部分;
对于实体类型和关系类别,本发明定义的一系列标签如表1所示:
表1:实体类型和关系类别标签
表1中,可能出现的关系三元组类型包括:<电压等级,所属关系,设备>、<设备,所属关系,部位>、<部位,所属关系,部位>、<设备,缺陷描述,现象>以及<部位,缺陷描述,现象>。
图2展示了电力系统缺陷实体-关系结构,即“电压等级”与“设备”是所属关系,“设备”和“部位”是所属关系,且“设备”可以对应多个“部位”,部位也可以和部位是隶属关系,部位和现象的关系是“缺陷描述”,即描述某设备的某部位出现的一些故障现象为缺陷描述。
步骤2:电力缺陷实体联合标注;
本专利针对电力缺陷实体关系的类型特点,在BIO标注模式的基础上,提供一种序列标注模式。
如图3所示为标注形式,以“10KV隔离开关A相触头断裂”为例,通过“BIO”标注法标记该句文字的实体边界后,再对该句话进行独立的实体关系标记。标注的实体关系包括<110kv,OR,隔离开关>、<隔离开关,OR,A相>、<隔离开关,OR,触头>和<触头,DD,断裂>,其中<隔离开关,OR,A相>、<隔离开关,OR,触头>为重叠关系,即实体“隔离开关”在一句话中对应两种实体关系;该电力缺陷联合抽取方法能很好的捕捉重叠关系中的实际结构信息,更精细地表示电力缺陷实体在不同关系中的语义角色,便于后续下游任务利用结构化信息。
步骤3:将上下文信息转换为高维向量;
步骤4:全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合;
步骤5:双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;
步骤6:全连接层优化标签的预测,找到最优标签序列,并对实验结果进行验证:
基于数万余字电力设备缺陷文本,并经过电力缺陷实体联合标注得到的训练语料,经过模型训练,并将四个不同的模型进行对比,包括了BERT-FC-BiLSTM-CRF,BERT-BiLSTM-CRF,BERT-CRF和BERT。
图4展示了不同抽取模型的性能对比,从P值、R值和F1值可以看出,BERT-FC-BiLSTM-CRF模型在四个模型中表现优异,P值达94.72%,R值90.34%,F1值92.52%;相比第二名BERT-BiLSTM-CRF模型,BERT-FC-BiLSTM-CRF在P值上提升2.55个百分点,R值提升3.68个百分点,F1值提升3.18个百分点;通过FC层,模型可以学习到不同实体和关系之间的复杂依赖,如一个实体同时涉及多个关系;FC层可以对BiLSTM学习得到的特征进行充分利用,利用其强大的表达能力来进一步提炼出有效分类特征;由此可得出BERT-FC-BiLSTM-CRF在电力缺陷文本联合抽取任务上有良好的性能。
Claims (7)
1.一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于,包括:
S1,构建电力缺陷领域的联合标注体系;
S2,采用步骤S1的方法对电力缺陷实体联合标注;
S3,将上下文信息转换为高维向量;
S4,全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合;
S5,双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;
S6,进行全连接层优化标签的预测,找到最优标签序列,并对实验结果进行分析。
2.根据权利要求1所述的一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于:步骤S1中,将实体标注和实体关系标注融合在一起进行:
S101,实体标注:采用BIO标注法对实体进行标注,通过BIO三种标签识别和区分实体;
其中,B为Begin,表示实体的开始;I为Inside,表示实体的中间部分;O为Outside,表示非实体部分;
S102,实体关系标注:通过电压等级、设备、部位和现象表示实体类型;通过所属关系和缺陷描述表示关系类别。
3.根据权利要求1所述的一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于:步骤S3中,通过BERT预训练模型将上下文信息转换为高维向量,包括:
S301,建立BERT预训练模型:
给定输入序列x=[x1,x2,…,xn],BERT将输入序列的单词转换为d维的词嵌入向量,表示为ei=Embedding(xi),其中Embedding(·)是嵌入函数,ei是词嵌入向量;
将词嵌入向量送入由Transformer层堆叠而成的编码器中,在第l层,将每个词嵌入向量更新为一个新的向量,表示为:
其中是第l层的输出,/>是第l-1层的输出;
S302,实体识别:BERT通过自注意力机制和Transformer的堆叠,生成包含了词xi的上下文信息的向量BERT利用向量/>处理实体识别任务,包括:
将实体识别视为序列标注问题进行预测:
其中,We和be是实体识别任务的权重和偏置,yi是词xi的标签概率分布;
S303,实体关系抽取:BERT通过自注意力机制和Transformer的堆叠,生成包含了词xi的上下文信息的向量BERT利用向量/>处理实体抽取任务,包括:
通过比较两个词的词嵌入向量来判断它们之间是否存在某种关系,将实体关系抽取视为分类问题进行预测:
其中,Wr和br是实体关系抽取任务的权重和偏置,rij是词xi和xj之间的关系类型的概率分布,表示将/>和/>进行拼接。
S304,BERT输出n维向量序列H,输出H表示输入序列中每个词的特征,特征包括上下文信息。
4.根据权利要求1所述的一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于:步骤S4中,全连接层通过权重矩阵对输入向量进行线性变换,提取其中特征并融合包括:
全连接层将从BERT层获得的特征向量转换为另一种形式的特征表示:
S401,设BERT层的输出表示为H,H是一个三维的张量,形状为(batch_size,sequence_length,bert_dim),其中,batch_size是批次大小,sequence_length是序列长度,bert_dim是BERT的隐藏层大小;
S402,对于输入的每一个文本序列,BERT输出编码后的语义表示都是一个固定维度的向量;上述向量在H张量中以三维结构组织,第一维索引每个样本,第二维索引序列位置,第三维表示向量维度;
S403,将全连接层表示为线性变换,用参数矩阵W和偏置b来表示,其中参数矩阵W用于执行该线性变换,形状是(bert_dim,fc_dim)的二维张量;b的形状是(fc_dim,)的一维张量,其中fc_dim表示全连接层的输出维度;全连接层的输出O表示对H中的每一个特征向量进行线性变换,公式为:
O=H*W+b;
全连接层的输出O的形状是(batch_size,sequence_length,fc_dim)的三维张量;
S404,全连接层的输出O被送入下一层的BiLSTM,全连接层的参数W和b在训练过程中被更新,使得全连接层的输出更适合下游任务;分类器FC层通过学习输入中特征的高阶关联提升关系分类任务的性能,弥补BERT前端模块忽略的信息。
5.根据权利要求1所述的一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于:步骤S5中,双向长短期记忆网络捕获输入序列的长期依赖关系,并提取每个位置的上下文信息包括:
在整体架构中,BiLSTM捕获输入序列的长期依赖关系,并提取每个位置的上下文信息;BiLSTM由两个LSTM部分组成,一个从序列前向处理输入,另一个从序列后向处理输入,通过双向处理方式允许模型在每个位置都获得前后文信息;全连接层FC的输出为Ot,在每个时间步长,LSTM更新两个状态:隐藏状态h和记忆单元c,两个状态在整个序列长度内持续更新;LSTM的更新规则表示为:
ft=σ(Wf*[ht-1,Ot]+bf);
it=σ(Wi*[ht-1,Ot]+bi);
gt=tanh(Wg*[ht-1,Ot]+bg);
ot=σ(Wo*[ht-1,Ot]+bo);
ct=ft*ct-1+it*gt;
ht=Ot*tanh(ct);
其中,ft是“遗忘门”,决定模型从ct-1上一时刻的记忆单元中舍弃的信息量;如果ft中的某个元素接近0,在计算新的记忆单元时,模型将舍弃ct-1中对应的信息;σ是sigmoid激活函数;it是“输入门”,决定模型将新的候选记忆gt加入到记忆单元中的量;gt是“候选记忆单元状态”,产生候选加入到记忆单元的新信息;ot是"输出门",决定下一个隐藏状态应该包含记忆单元的信息的量;ct是在当前时刻的记忆单元,基于遗忘门和输入门的信息更新;ht是当前时刻的隐藏状态,基于输出门和当前的记忆单元计算得出;BiLSTM的输出ht的形状为(batch_size,sequence_length,2*lstm_dim)的三维张量,其中2*lstm_dim来自于前向LSTM和后向LSTM的输出连接;BiLSTM的输出ht被送入CRF层即条件随机场层。
6.根据权利要求5所述的一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于:步骤S6中,通过条件随机场层CRF进行全连接层优化标签的预测;条件随机场层为最后一层,对BiLSTM层的输出进行解码,预测出最终的序列标签;BiLSTM层输出概率分布,表示每个时间步长每个可能的标签的概率;CRF层通过模拟标签之间的依赖性来优化标签的预测;具体过程如下:
S601,在CRF层中,定义一转移矩阵T,其中T[i,j]表示从标签i转移到标签j的得分;
S602,计算给定输入序列的所有可能标签序列的分数,分数是由BiLSTM层的输出和转移矩阵T共同决定,计算公式如下:
S(X,Y)=Σ(BiLSTMt(yt)+T[yt-1,yt]);
式中,X是输入序列,Y是标签序列,yt是时间步长t的标签,BiLSTMt(yt)是BiLSTM层在时间步长t预测标签yt的分数,T[yt-1,yt]是从标签yt-1转移到标签yt的得分;
S603,计算给定输入序列X的所有可能标签序列的总分数:
Z(X)=Σexp(S(X,Y′));
式中,Y'表示X的所有可能的标签序列;
S604,计算给定输入序列X的真实标签序列Y的概率:
P(Y|X)=exp(S(X,Y))/Z(X);
式中,S(X,Y)和Z(X)通过S502和S503计算得出。
7.根据权利要求1所述的一种基于联合抽取的电力缺陷文本知识图谱构建方法,其特征在于:步骤S6中对实验结果进行分析包括建立评价指标:
采用准确率、召回率以及F1值作为实体关系识别结果的评价标准,F1值计算公式如下
P为准确率(Precision Rate)、R为召回率(Recall Rate),TP、FP和FN分别表示模型正确识别出的实体数、模型错误识别的实体数和模型未能识别出的实体数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410100913.4A CN117828105A (zh) | 2024-01-23 | 2024-01-23 | 一种基于联合抽取的电力缺陷文本知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410100913.4A CN117828105A (zh) | 2024-01-23 | 2024-01-23 | 一种基于联合抽取的电力缺陷文本知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117828105A true CN117828105A (zh) | 2024-04-05 |
Family
ID=90507928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410100913.4A Pending CN117828105A (zh) | 2024-01-23 | 2024-01-23 | 一种基于联合抽取的电力缺陷文本知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828105A (zh) |
-
2024
- 2024-01-23 CN CN202410100913.4A patent/CN117828105A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107798624B (zh) | 一种软件问答社区中的技术标签推荐方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN114418954A (zh) | 一种基于互学习的半监督医学图像分割方法及其系统 | |
CN112766507B (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
CN115510245B (zh) | 一种面向非结构化数据的领域知识抽取方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN113705238A (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及模型 | |
CN117171333A (zh) | 一种电力文件问答式智能检索方法及系统 | |
CN111783464A (zh) | 一种面向电力的领域实体识别方法、系统及存储介质 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
CN114037653A (zh) | 基于二阶段知识蒸馏的工业机器视觉缺陷检测方法和系统 | |
CN111898756B (zh) | 一种多目标信息关联神经网络损失函数计算方法及装置 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN116701665A (zh) | 基于深度学习的中医古籍知识图谱构建方法 | |
CN117056451A (zh) | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN117828105A (zh) | 一种基于联合抽取的电力缺陷文本知识图谱构建方法 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN116302953A (zh) | 一种基于增强嵌入向量语义表示的软件缺陷定位方法 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
Liu | GCN-BERT and memory network based multi-label classification for event text of the Chinese government hotline | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |