CN116010622A - 融合实体类型的bert知识图谱补全方法及系统 - Google Patents

融合实体类型的bert知识图谱补全方法及系统 Download PDF

Info

Publication number
CN116010622A
CN116010622A CN202310047134.8A CN202310047134A CN116010622A CN 116010622 A CN116010622 A CN 116010622A CN 202310047134 A CN202310047134 A CN 202310047134A CN 116010622 A CN116010622 A CN 116010622A
Authority
CN
China
Prior art keywords
layer
input
bert
sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310047134.8A
Other languages
English (en)
Inventor
夏东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Vision Miracle Intelligent Technology Co ltd
Original Assignee
Hunan Vision Miracle Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Vision Miracle Intelligent Technology Co ltd filed Critical Hunan Vision Miracle Intelligent Technology Co ltd
Priority to CN202310047134.8A priority Critical patent/CN116010622A/zh
Publication of CN116010622A publication Critical patent/CN116010622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了融合实体类型的BERT知识图谱补全方法及系统,将实体信息的外部知识即实体类型作为实体信息的补充,更好地获取实体的语义信息,提高模型输入端的文本增强表示,使用多头注意力机制的Transformer编码器实现特征获取和序列编码,使用少量的标注三元组进行微调,有效实现隐含关系的挖掘,实现快速、准确的对多源异构数据进行清洗。

Description

融合实体类型的BERT知识图谱补全方法及系统
技术领域
本发明涉及多源异构数据处理领域,尤其涉及融合实体类型的BERT知识图谱补全方法及系统。
背景技术
多源异构数据往往存在数据缺失、不一致等数据质量问题,而数据错误纠正和缺失填补是保证数据质量的重要手段之一。现有的数据错误纠正和缺失填补技术需要依赖大量外部知识来指导清洗过程,但由于外部知识规模较小、构建低效等特点,限制了效率。
发明内容
本发明提供了融合实体类型的BERT知识图谱补全方法及系统,用以解决多源异构数据清洗效率低的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种融合实体类型的BERT知识图谱补全方法,包括以下步骤:
构建BERT知识图谱补全模型:所述BERT知识图谱补全模型包括输入层、编码层和输出层,所述输入层用于构建输入文本的头实体、头实体类型、关系、尾实体和尾实体类型的表示序列;并将所述头实体、头实体类型、关系、尾实体和尾实体类型的表示序列拼接成输入序列;所述编码层用于对输入序列进行编码,并提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接;所述输出层用于计算拼接后的语义特征的预测概率,并计算模型预测概率与预期概率的距离来调整BERT知识图谱补全模型的网络参数。
训练所述BERT知识图谱补全模型,并使用训练好的BERT知识图谱补全模型对输入文本进行分类预测。
优选的,所述编码层采用双向Tansformer编码器对输入序列进行编码,并采用多头注意力机制对提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接;所述输出层采用sigmod函数计算拼接后的语义特征的预测概率,并计算模型预测概率与预期概率的距离,判断所述距离是否超过预设阈值,若距离超过阈值,则调整补全模型的网络参数;所述输出层使用[CLS]的最终隐藏状态作为输入序列的深层表示和模型的输出。
优选的,所述输入序列表示为:
Figure BDA0004056033280000011
其中,S表示输入序列,[CLS]为分类标签,
Figure BDA0004056033280000012
为头实体的表示序列;
Figure BDA0004056033280000021
为头实体类型的表示序列;
Figure BDA0004056033280000022
为关系的表示序列;
Figure BDA0004056033280000023
为尾实体的表示序列;
Figure BDA0004056033280000024
为尾实体类型的表示序列,[SEP]为分隔标记。
优选的,所述编码层包括输入嵌入层、位置嵌入层,所述输入嵌入层用于将输入文本映射成输入向量;所述位置嵌入层用于构建所述输入文本的位置向量,并将所述输入向量和位置向量拼接在一起形成输入序列的输入表示。
优选的,所述输入向量包括字向量和段嵌入向量,所述输入序列中每个字符si的输入表示为:
Vi=Ec+Es+Ei
Vi为字符si的输入表示,Ec为字符si的字向量,Es为字符si的段嵌入向量,Ei为字符si的位置向量。
优选的,所述编码层包括多头注意力层、第一残差&归一化层、前馈网络层、第二残差&归一化层。
所述多头注意力层用于将输入向量进行注意力计算,得到注意力序列bi
所述第一残差&归一化层用于将所述输入向量与注意力序列bi进行相加得到b'i,并对b'i做层归一化处理。
所述前馈网络层使用线性修正单元对层归一化处理后的b'i进行线性变换。
所述第二残差&归一化层用于对线性变换后的b'i做层归一化处理,并将层归一化处理后的b'i映射为一个表示序列。
优选的,所述编码层还包括以下步骤:
对于输入序列内的每个词,定义每个词位置向量与词向量大小相同,然后将每个词的输入向量和位置向量求和,其中,求和公式如下:
Figure BDA0004056033280000025
Figure BDA0004056033280000026
其中,i表示序列编号,2i表示偶数倍i,2i1表示偶数倍i的其中之一,PE(pos,2i)
Figure BDA0004056033280000027
分别表示为当前位置与对偶数其一的位置向量和,pos表示为位置,dmodel表示词模型。
优选的,训练所述BERT知识图谱补全模型,包括:
预训练阶段:使用大量无标注数据对BERT知识图谱补全模型进行预训练,在预训练阶段采用遮蔽词预训练和预测下一个句子的方法进行结合,得到预训练初始参数。
微调阶段:在不改变BERT内部结构的基础上,在编码层后面添加一个输出层,少量标注三元组参与BERT知识图谱补全模型的网络参数调整;最后,由[CLS]特殊标记的编码结果作为模型的输出。
优选的,计算模型预测概率与预期概率的距离通过交叉熵损失函数实现,具体为:
Figure BDA0004056033280000031
Figure BDA0004056033280000032
其中,
Figure BDA0004056033280000033
为预期概率,且
Figure BDA0004056033280000034
是一个二维实向量,为预测概率,且
Figure BDA0004056033280000035
Figure BDA0004056033280000036
Figure BDA0004056033280000037
Figure BDA0004056033280000038
分别为有效和无效三元组集合,
Figure BDA0004056033280000039
Figure BDA00040560332800000310
构建得到;
Figure BDA00040560332800000311
为距离;(h,r,t)表示三元组,h表示距离,r表示角度,t表示时间,
Figure BDA00040560332800000312
表示时间转换函数,
Figure BDA00040560332800000313
为模型输入的序列表示;H是预先训练好的BERT的隐藏状态大小;
Figure BDA00040560332800000314
为分类层权重。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明具有以下有益效果:
本发明中的融合实体类型的BERT知识图谱补全方法及系统,将实体信息的外部知识即实体类型作为实体信息的补充,更好地获取实体的语义信息,提高模型输入端的文本增强表示,使用多头注意力机制的Transformer编码器实现特征获取和序列编码,使用少量的标注三元组进行微调,有效实现隐含关系的挖掘,实现快速、准确的对多源异构数据进行清洗。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的融合实体类型的BERT知识图谱补全模型的结构简图;
图2是BERT知识图谱补全模型的输入表示;
图3是基于多头自注意力机制的特征提取示意图;
图4是基于Transformer编码器的序列编码示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
为了解决不确定环境下战场信息标注三元组稀缺问题,本发明利用BERT实现不确定环境下战场信息的知识图谱补全任务。此外,实体类型作为外部知识对实体语义增强,因此,将实体类型信息融合到三元组中作为模型的输入,以实现文本语义的增强。
具体的,本发明中融合实体类型的BERT知识图谱补全方法,包括以下步骤:
一、融合实体类型的BERT知识图谱补全模型的构建
受模型KG-BERT的启发,本发明中提出融合实体类型的BERT知识图谱补全框架来建模三元组,其中引用类似于Vaswani等人的多层双向Transformer编码器的原始实现,模型如图1所示。模型由输入层、编码层和输出层三部分构成。其中,输入层将头实体、头实体类型、关系、尾实体和尾实体类型分别表示为一个序列,并将五个序列组成的句子/词语作为BERT的输入;编码层采用双向Tansformer编码器对输入序列进行编码,并采用多头注意力机制对不同层次的文本表示的计算结果进行拼接,输出层,采用sigmod函数计算三元组的得分,最后计算模型预测概率与预期概率的距离,使用[CLS]的最终隐藏状态作为输入序列的深层表示和模型的输出。
BERT-KGC模型的输入在使用知识图谱中三元组的前提下引入外部知识,实体类型作为文本语义增强被应用到模型的输入中,以获得实体的补充信息。为了得到一个序列的向量表示,BERT-KGC模型的每个输入序列总是以一个特殊的分类标签[CLS]开始,并包含5个句子或词语组成一个序列,头尾实体的输入可以是实体描述句,也可以是实体本身的名称。第一个句子表示包含标记为
Figure BDA0004056033280000041
的头实体,第二个句子表示包含标记为
Figure BDA0004056033280000042
的头实体的类型,第三个句子表示包含标记为
Figure BDA0004056033280000043
的关系,第四个句子表示包含标记为
Figure BDA0004056033280000044
的尾实体,第五个句子表示包含标记为
Figure BDA0004056033280000045
的尾实体。这些序列的输入可以是实体/实体类型/关系描述句子或者是实体/实体类型/关系名本身。五段文本/词语中间分别标记[SEP]以示区分。
为了更好的捕捉词序信息,BERT对于输入的一个序列,其输入表示可以通过对相应的token嵌入、段嵌入和位置嵌入求和得到的。输入序列表示可以形象化为图2。
对于token嵌入,针对中文文本,本研究使用字嵌入,每个输入的汉字表示为字向量Ec
对于段嵌入Es,相同句子中的字有相同的段嵌入,不同句子中的字有不同的段嵌入,段嵌入用于辅助模型区别每个句子中的字的位置向量表示。本章分别将不同段嵌入表示为以下标记:包含在头实体句子中的字的段嵌入为位置向量Eh,包含在关系中的字的段嵌入为位置向量Er,包含在尾实体中的字的段嵌入为位置向量Et,包含在描述头实体和尾实体类型句子中的字的段嵌入分别为位置向量Ehl和Etl
对于位置嵌入,由于输入序列的顺序性无法由Transformer的多头注意力机制编码,为了理解序列中每个字的顺序信息,将每个输入序列合并后,每一个字在每一个位置都对应相应的位置嵌入,每个字的相应位置表示为位置向量Ei。在各个位置上学习一个向量来编码序列顺序的信息,让BERT学习到输入的顺序特征。
最后,输入表示记为
Figure BDA0004056033280000051
其中,m为序列的长度,即模型输入的5个句子或词语的长度之和,m与分类标签(1个[CLS])和分隔标记(4个[SEP])构成长度为m+1+4的序列S,S中的每个字符si的输入表示为Vi=Ec+Es+Ei
BERT基于多层双向Transformer编码器,每个编码器采用多头注意机制融合单词周围的上下文信息,建立单词之间联系的强度(权重)。在BERT的顶层,可以直接叠加简单的线性模型,精细微调后与特定任务相结合。Transformer完全不用递归和卷积网络,其全局信息可以通过Attention机制的并行化训练获取。为了可以关注一个句子中不同位置的句法特征或者语义特征,Transformer采用多头(Multi-headed)自注意力(SelfAttention)机制获取句子中单词之间的语义特征,从而提升模型的性能。
基于多头自注意力机制的特征获取。Transformer采用多头注意力机制(multi-headed attention),运用堆叠多头来扩大信息获取的范围,每一头关注自己所在范围内的信息,多头进行联合实现所有范围内信息的全关注,同时有效的实现了并行计算。多头自注意力机制的结构如图3所示,设Q表示查询Query,dq表示查询Query的特征维度;K表示键Key,dk表示键Key的特征维度;V表示值Value,dv表示值Value的特征维度;q表示查询序列,k表示键序列,v表示值序列。
用线性投影将查询Query,键Key和值Value投影,再进行相似度计算,这个过程迭代A次,得到dq,dk和dv维,每次线性变换都使用不同的参数矩阵W,然后,在每一个Query,Key和Value的结果上,执行注意力函数,得到dv维结果,将其连接后再投影,从而产生多头注意力的输出值。
每个q只与它相同位置的k进行运算,即qi,1只与ki,1和kj,1进行运算,即qi,1=Wq, 1qi,得到相应的
Figure BDA0004056033280000052
后,与相应的v进行运算得到bi,1…bi,6,将其连接后降维得到bi。可以看到,多头进行联合实现所有范围内信息的全关注,并通过重复h次计算让模型关注关键特征,其计算过程用如式(1)和(2)所示,多头注意力机制中每个头各司其职,关注点不同,将多个头得到的注意力矩阵进行拼接并进行线性变换。
Figure BDA0004056033280000053
Figure BDA0004056033280000061
其中,Concat表示拼接操作,headi表示第i个子层的Q、K和V经过线性投影层后得到的点乘自注意力计算结果,依次表示第i个子层的Q、K和V经过的线性投影层的权重;W0表示拼接结果后经过的线性投影层的权重。
基于Transformer编码器的序列编码。本研究提出的BERT-KGC模型基于Transformer的原始架构,在BERT-KGC模型中,Transformer用于编码融合实体类型信息的三元组输入序列中的字符表示,其结构如图4。
Transformer编码器由6个相同的层构成,且每层又划分为上下两部分,上面的部分则是全连接前馈网络,底下的部分是多头Attention机制。在上下两部分的外围分别增加了一个残差连接和归一化层。
(1)输入层:模型的输入被编码器接受后,由输入嵌入层将其映射成输入向量ai,加上位置向量ei后生成一个输入序列作为多头注意力机制层的输入。
(2)多头注意力层:在多头注意力机制层将输入向量进行注意力计算,得到bi序列。
(3)残差&归一化层:在残差链接层,将多头注意力机制层的输入序列ai和输出bi进行相加得到b'i,并对b'i做层归一化处理,每个子层归一化后的输出为LayerNorm(x+Sublayer(x)),其中,Sublayer(x)为子层输出结果。
(4)前馈网络层:这是一个全连接前馈神经网络,对于不同的位置都设置相应的全连接网络,位置相互独立,参数也不尽相同,同时使用两个线性变换实现并行计算,线性变换的激活函数使用线性修正单元(ReLU),见式(3)。
FFN(x)=max(0,xW1+b1)W2+b2        (3)
其中,W1与W2、b1与b2分别表示两个线性层的权重、偏置。
在前馈网络层将每一个输入向量都进行处理后,再次残差连接&层归一化,最后,将输入序列映射为一个表示序列,此序列是连续的。
(5)位置位置向量:在Self Attention层并未考虑词的位置信息,对于每一个词来说,跟它相邻的词还是跟它距离较远的词都是一样的操作,这显然不是我们想要的。位置嵌入添加到词嵌入中,在接下来的运算中,通过位置向量和单词之间的距离可以抽取语序信息以及位置信息。为了考虑输入序列中的词序,引入位置嵌入,将每个词的位置进行编号,每个位置都有一个唯一的位置向量ei,定义位置向量与词向量大小相同,然后将输入嵌入和位置嵌入求和,见式(4)和(5)。
Figure BDA0004056033280000062
Figure BDA0004056033280000071
其中,dmodel为系统模型的维度,pos表示位置信息;
二、BERT知识图谱补全模型的训练
在BERT框架的实现过程分为两个,分别是预训练和微调。首先,使用大量无标注数据进行预训练,即无监督预训练,BERT的初始化依赖于在预训练过程中的参数,通过使用无标注数据进行预训练,大大降低了语料库的开销。在下游任务中,使用少量标注三元组调整初始化参数,即有监督微调。
基于预训练-微调的知识图谱补全任务的主要思想是:首先大量无标注数据参与预训练,预训练阶段采用遮蔽词预训练和预测下一个句子的方法进行结合,得到预训练初始参数;然后,在不改变BERT内部结构的基础上,在编码层后面添加一个输出层,少量标注三元组参与参数调整;最后,由[CLS]特殊标记的编码结果作为模型的输出。
基于无监督的BERT模型预训练。将BERT模型的遮蔽词预测训练方法(Masked LM)与预测下一个句子(Predict the next sentence)两种方法结合,进行模型的预训练,使模型取得更好的预训练结果。由于大部分参数经预训练后已有相当足够的能力抽取更高级别的特征,所以,在下游应用时,更多参数保留,参数的调整在小范围内进行,从而提高了模型的速度。
在预训练阶段,训练好的BERT模型可以捕获句子中高层抽象特征。在微调阶段,不需要改变BERT的内部结构,只需在编码层的上面再添加一层特定的输出网络实现任务的输出,即使用少量标注数据和BERT预训练阶段的所有参数来训练模型输出层的参数。本研究将不确定环境下战场信息的知识图谱补全问题视为分类问题,将三元组及头尾实体的类型构成的五个句子同时作为模型的输入,使用编码后的向量作为句子的表征,使用[CLS]的最终隐藏状态编码结果作为模型的输出。
使用第一个令牌[CLS]的最终隐藏状态(即Transformer的编码结果)作为输入序列的深层表示,以得到模型输入的序列表示,用
Figure BDA0004056033280000072
来表示,
Figure BDA0004056033280000073
表示第i个输入的最终隐藏向量,其中,H是预先训练好的BERT的隐藏状态大小。最终隐藏层特殊标记[CLS]相关联的状态C作为三元组打分的总的序列表示。
在调优阶段引入的唯一的新参数是分类层权重
Figure BDA0004056033280000074
sigmoid函数取值为0到1之间的连续值,可以灵敏感知文本细微变化对结果的影响,所以,在输出层采用sigmoid函数作为激活函数,三元组(h,r,t)的得分函数记为公式(6)。
Figure BDA0004056033280000075
其中,
Figure BDA0004056033280000076
是一个二维实向量,且
Figure BDA0004056033280000077
Figure BDA0004056033280000081
Figure BDA0004056033280000082
分别为有效和无效三元组集合,
Figure BDA0004056033280000083
Figure BDA0004056033280000084
构建得到,其中,
Figure BDA0004056033280000085
中的伪三元组是将
Figure BDA0004056033280000086
中的有效三元组的h或t用
Figure BDA00040560332800000811
中的某个实体随机取代,或将其r用
Figure BDA0004056033280000087
中某个关系随机进行替换。最后,利用交叉熵损失函数实现实际和期望输出概率间距离的刻画,如下式(7)。
Figure BDA0004056033280000088
其中,
Figure BDA0004056033280000089
为期望输出概率,且
Figure BDA00040560332800000810
利用交叉熵损失函数实现实际和期望输出概率间距离后,再判断所述距离是否超过预设阈值,若距离超过阈值,则调整补全模型的网络参数。
此外,在本实施例中,还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
综上可知,本发明采用知识图谱补全技术提出了一种融合实体类型的BERT知识图谱补全方法,将实体信息的外部知识即实体类型作为实体信息的补充,更好地获取实体的语义信息,提高模型输入端的文本增强表示,使用多头注意力机制的Transformer编码器实现特征获取和序列编码,使用少量的标注三元组进行微调,有效实现隐含关系的挖掘。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种融合实体类型的BERT知识图谱补全方法,其特征在于,包括以下步骤:
构建BERT知识图谱补全模型:所述BERT知识图谱补全模型包括输入层、编码层和输出层,所述输入层用于构建输入文本的头实体、头实体类型、关系、尾实体和尾实体类型的表示序列;并将所述头实体、头实体类型、关系、尾实体和尾实体类型的表示序列拼接成输入序列;所述编码层用于对输入序列进行编码,并提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接;所述输出层用于计算拼接后的语义特征的预测概率,并计算模型预测概率与预期概率的距离来调整BERT知识图谱补全模型的网络参数;
训练所述BERT知识图谱补全模型,并使用训练好的BERT知识图谱补全模型对输入文本进行分类预测。
2.根据权利要求1所述的融合实体类型的BERT知识图谱补全方法,其特征在于,所述编码层采用双向Tansformer编码器对输入序列进行编码,并采用多头注意力机制对提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接;所述输出层采用sigmod函数计算拼接后的语义特征的预测概率,并计算模型预测概率与预期概率的距离,判断所述距离是否超过预设阈值,若距离超过阈值,则调整补全模型的网络参数;所述输出层使用[CLS]的最终隐藏状态作为输入序列的深层表示和模型的输出。
3.根据权利要求2所述的融合实体类型的BERT知识图谱补全方法,其特征在于,所述输入序列表示为:
Figure FDA0004056033270000011
其中,S表示输入序列,[CLS]为分类标签,
Figure FDA0004056033270000012
为头实体的表示序列;
Figure FDA0004056033270000013
为头实体类型的表示序列;
Figure FDA0004056033270000014
为关系的表示序列;
Figure FDA0004056033270000015
为尾实体的表示序列;
Figure FDA0004056033270000016
为尾实体类型的表示序列,[SEP]为分隔标记。
4.根据权利要求2所述的融合实体类型的BERT知识图谱补全方法,其特征在于,所述编码层包括输入嵌入层、位置嵌入层,所述输入嵌入层用于将输入文本映射成输入向量;所述位置嵌入层用于构建所述输入文本的位置向量,并将所述输入向量和位置向量拼接在一起形成输入序列的输入表示。
5.根据权利要求4所述的融合实体类型的BERT知识图谱补全方法,其特征在于,所述输入向量包括字向量和段嵌入向量,所述输入序列中每个字符si的输入表示为:
Vi=Ec+Es+Ei
Vi为字符si的输入表示,Ec为字符si的字向量,Es为字符si的段嵌入向量,Ei为字符si的位置向量。
6.根据权利要求5所述的融合实体类型的BERT知识图谱补全方法,其特征在于,所述编码层包括多头注意力层、第一残差&归一化层、前馈网络层、第二残差&归一化层;
所述多头注意力层用于将输入向量进行注意力计算,得到注意力序列bi
所述第一残差&归一化层用于将所述输入向量与注意力序列bi进行相加得到b'i,并对b'i做层归一化处理;
所述前馈网络层使用线性修正单元对层归一化处理后的b'i进行线性变换;
所述第二残差&归一化层用于对线性变换后的b'i做层归一化处理,并将层归一化处理后的b'i映射为一个表示序列。
7.根据权利要求6所述的融合实体类型的BERT知识图谱补全方法,其特征在于,所述编码层还包括以下步骤:
对于输入序列内的每个词,定义每个词位置向量与词向量大小相同,然后将每个词的输入向量和位置向量求和,其中,求和公式如下:
Figure FDA0004056033270000021
Figure FDA0004056033270000022
其中,i表示序列编号,2i表示偶数倍i,2i1表示偶数倍i的其中之一,PE(pos,2i)
Figure FDA0004056033270000023
分别表示为当前位置与对偶数其一的位置向量和,pos表示为位置,dmodel表示词模型。
8.根据权利要求7所述的融合实体类型的BERT知识图谱补全方法,其特征在于,训练所述BERT知识图谱补全模型,包括:
预训练阶段:使用大量无标注数据对BERT知识图谱补全模型进行预训练,在预训练阶段采用遮蔽词预训练和预测下一个句子的方法进行结合,得到预训练初始参数;
微调阶段:在不改变BERT内部结构的基础上,在编码层后面添加一个输出层,少量标注三元组参与BERT知识图谱补全模型的网络参数调整;最后,由[CLS]特殊标记的编码结果作为模型的输出。
9.根据权利要求8所述的融合实体类型的BERT知识图谱补全方法,其特征在于,计算模型预测概率与预期概率的距离通过交叉熵损失函数实现,具体为:
Figure FDA0004056033270000024
Figure FDA0004056033270000025
其中,
Figure FDA0004056033270000031
为预期概率,且
Figure FDA0004056033270000032
Figure FDA0004056033270000033
是一个二维实向量,为预测概率,且
Figure FDA0004056033270000034
Figure FDA0004056033270000035
Figure FDA0004056033270000036
Figure FDA0004056033270000037
分别为有效和无效三元组集合,
Figure FDA0004056033270000038
Figure FDA0004056033270000039
构建得到;
Figure FDA00040560332700000310
为距离;(h,r,t)表示三元组,h表示距离,r表示角度,t表示时间,
Figure FDA00040560332700000311
表示时间转换函数,
Figure FDA00040560332700000312
为模型输入的序列表示;H是预先训练好的BERT的隐藏状态大小;
Figure FDA00040560332700000313
为分类层权重。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
CN202310047134.8A 2023-01-31 2023-01-31 融合实体类型的bert知识图谱补全方法及系统 Pending CN116010622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310047134.8A CN116010622A (zh) 2023-01-31 2023-01-31 融合实体类型的bert知识图谱补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310047134.8A CN116010622A (zh) 2023-01-31 2023-01-31 融合实体类型的bert知识图谱补全方法及系统

Publications (1)

Publication Number Publication Date
CN116010622A true CN116010622A (zh) 2023-04-25

Family

ID=86035553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310047134.8A Pending CN116010622A (zh) 2023-01-31 2023-01-31 融合实体类型的bert知识图谱补全方法及系统

Country Status (1)

Country Link
CN (1) CN116010622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390497A (zh) * 2023-12-08 2024-01-12 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390497A (zh) * 2023-12-08 2024-01-12 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117390497B (zh) * 2023-12-08 2024-03-22 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Similar Documents

Publication Publication Date Title
Kim et al. Efficient dialogue state tracking by selectively overwriting memory
CN116010622A (zh) 融合实体类型的bert知识图谱补全方法及系统
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN111814844B (zh) 一种基于位置编码融合的密集型视频描述方法
CN111985205A (zh) 一种方面级情感分类模型
CN111460824A (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112699682A (zh) 一种基于可组合弱认证器的命名实体识别方法和装置
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN111444730A (zh) 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN110175330B (zh) 一种基于注意力机制的命名实体识别方法
CN114582448A (zh) 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116343239A (zh) 一种基于detr的端到端的图像描述方法
CN116090468A (zh) 一种基于层叠式指针网络的实体关系联合抽取方法及系统
CN115526149A (zh) 一种融合双注意力和生成对抗网络的文本摘要方法
CN115310445A (zh) 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统
CN114692649A (zh) 一种利用多视角信息的自动回答文本生成方法
CN113486180A (zh) 一种基于关系层级交互的远程监督关系抽取方法及系统
CN111158640B (zh) 一种基于深度学习的一对多需求分析识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination