CN116010622A

CN116010622A - 融合实体类型的bert知识图谱补全方法及系统

Info

Publication number: CN116010622A
Application number: CN202310047134.8A
Authority: CN
Inventors: 夏东
Original assignee: Hunan Vision Miracle Intelligent Technology Co ltd
Current assignee: Hunan Vision Miracle Intelligent Technology Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-04-25

Abstract

本发明公开了融合实体类型的BERT知识图谱补全方法及系统，将实体信息的外部知识即实体类型作为实体信息的补充，更好地获取实体的语义信息，提高模型输入端的文本增强表示，使用多头注意力机制的Transformer编码器实现特征获取和序列编码，使用少量的标注三元组进行微调，有效实现隐含关系的挖掘，实现快速、准确的对多源异构数据进行清洗。

Description

融合实体类型的BERT知识图谱补全方法及系统

技术领域

本发明涉及多源异构数据处理领域，尤其涉及融合实体类型的BERT知识图谱补全方法及系统。

背景技术

多源异构数据往往存在数据缺失、不一致等数据质量问题，而数据错误纠正和缺失填补是保证数据质量的重要手段之一。现有的数据错误纠正和缺失填补技术需要依赖大量外部知识来指导清洗过程，但由于外部知识规模较小、构建低效等特点，限制了效率。

发明内容

本发明提供了融合实体类型的BERT知识图谱补全方法及系统，用以解决多源异构数据清洗效率低的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种融合实体类型的BERT知识图谱补全方法，包括以下步骤：

构建BERT知识图谱补全模型：所述BERT知识图谱补全模型包括输入层、编码层和输出层，所述输入层用于构建输入文本的头实体、头实体类型、关系、尾实体和尾实体类型的表示序列；并将所述头实体、头实体类型、关系、尾实体和尾实体类型的表示序列拼接成输入序列；所述编码层用于对输入序列进行编码，并提取编码后的输入序列不同层次的语义特征，并对不同层次的语义特征进行拼接；所述输出层用于计算拼接后的语义特征的预测概率，并计算模型预测概率与预期概率的距离来调整BERT知识图谱补全模型的网络参数。

训练所述BERT知识图谱补全模型，并使用训练好的BERT知识图谱补全模型对输入文本进行分类预测。

优选的，所述编码层采用双向Tansformer编码器对输入序列进行编码，并采用多头注意力机制对提取编码后的输入序列不同层次的语义特征，并对不同层次的语义特征进行拼接；所述输出层采用sigmod函数计算拼接后的语义特征的预测概率，并计算模型预测概率与预期概率的距离，判断所述距离是否超过预设阈值，若距离超过阈值，则调整补全模型的网络参数；所述输出层使用[CLS]的最终隐藏状态作为输入序列的深层表示和模型的输出。

优选的，所述输入序列表示为：

其中，S表示输入序列，[CLS]为分类标签，

为头实体的表示序列；

为头实体类型的表示序列；

为关系的表示序列；

为尾实体的表示序列；

为尾实体类型的表示序列，[SEP]为分隔标记。

优选的，所述编码层包括输入嵌入层、位置嵌入层，所述输入嵌入层用于将输入文本映射成输入向量；所述位置嵌入层用于构建所述输入文本的位置向量，并将所述输入向量和位置向量拼接在一起形成输入序列的输入表示。

优选的，所述输入向量包括字向量和段嵌入向量，所述输入序列中每个字符s_i的输入表示为：

V_i＝E_c+E_s+E_i

V_i为字符s_i的输入表示，E_c为字符s_i的字向量，E_s为字符s_i的段嵌入向量，E_i为字符s_i的位置向量。

优选的，所述编码层包括多头注意力层、第一残差&归一化层、前馈网络层、第二残差&归一化层。

所述多头注意力层用于将输入向量进行注意力计算，得到注意力序列b_i。

所述第一残差&归一化层用于将所述输入向量与注意力序列b_i进行相加得到b'ⁱ，并对b'ⁱ做层归一化处理。

所述前馈网络层使用线性修正单元对层归一化处理后的b'ⁱ进行线性变换。

所述第二残差&归一化层用于对线性变换后的b'ⁱ做层归一化处理，并将层归一化处理后的b'ⁱ映射为一个表示序列。

优选的，所述编码层还包括以下步骤：

对于输入序列内的每个词，定义每个词位置向量与词向量大小相同，然后将每个词的输入向量和位置向量求和，其中，求和公式如下：

其中，i表示序列编号，2i表示偶数倍i，2i₁表示偶数倍i的其中之一，PE_(pos,2i)、

分别表示为当前位置与对偶数其一的位置向量和，pos表示为位置，d_model表示词模型。

优选的，训练所述BERT知识图谱补全模型，包括：

预训练阶段：使用大量无标注数据对BERT知识图谱补全模型进行预训练，在预训练阶段采用遮蔽词预训练和预测下一个句子的方法进行结合，得到预训练初始参数。

微调阶段：在不改变BERT内部结构的基础上，在编码层后面添加一个输出层，少量标注三元组参与BERT知识图谱补全模型的网络参数调整；最后，由[CLS]特殊标记的编码结果作为模型的输出。

优选的，计算模型预测概率与预期概率的距离通过交叉熵损失函数实现，具体为：

其中，

为预期概率，且

是一个二维实向量，为预测概率，且

和

分别为有效和无效三元组集合，

由

构建得到；

为距离；(h,r,t)表示三元组，h表示距离，r表示角度，t表示时间，

表示时间转换函数，

为模型输入的序列表示；H是预先训练好的BERT的隐藏状态大小；

为分类层权重。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

本发明具有以下有益效果：

本发明中的融合实体类型的BERT知识图谱补全方法及系统，将实体信息的外部知识即实体类型作为实体信息的补充，更好地获取实体的语义信息，提高模型输入端的文本增强表示，使用多头注意力机制的Transformer编码器实现特征获取和序列编码，使用少量的标注三元组进行微调，有效实现隐含关系的挖掘，实现快速、准确的对多源异构数据进行清洗。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的融合实体类型的BERT知识图谱补全模型的结构简图；

图2是BERT知识图谱补全模型的输入表示；

图3是基于多头自注意力机制的特征提取示意图；

图4是基于Transformer编码器的序列编码示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

为了解决不确定环境下战场信息标注三元组稀缺问题，本发明利用BERT实现不确定环境下战场信息的知识图谱补全任务。此外，实体类型作为外部知识对实体语义增强，因此，将实体类型信息融合到三元组中作为模型的输入，以实现文本语义的增强。

具体的,本发明中融合实体类型的BERT知识图谱补全方法，包括以下步骤：

一、融合实体类型的BERT知识图谱补全模型的构建

受模型KG-BERT的启发，本发明中提出融合实体类型的BERT知识图谱补全框架来建模三元组，其中引用类似于Vaswani等人的多层双向Transformer编码器的原始实现，模型如图1所示。模型由输入层、编码层和输出层三部分构成。其中，输入层将头实体、头实体类型、关系、尾实体和尾实体类型分别表示为一个序列，并将五个序列组成的句子/词语作为BERT的输入；编码层采用双向Tansformer编码器对输入序列进行编码，并采用多头注意力机制对不同层次的文本表示的计算结果进行拼接，输出层，采用sigmod函数计算三元组的得分，最后计算模型预测概率与预期概率的距离，使用[CLS]的最终隐藏状态作为输入序列的深层表示和模型的输出。

BERT-KGC模型的输入在使用知识图谱中三元组的前提下引入外部知识，实体类型作为文本语义增强被应用到模型的输入中，以获得实体的补充信息。为了得到一个序列的向量表示，BERT-KGC模型的每个输入序列总是以一个特殊的分类标签[CLS]开始，并包含5个句子或词语组成一个序列，头尾实体的输入可以是实体描述句，也可以是实体本身的名称。第一个句子表示包含标记为

的头实体，第二个句子表示包含标记为

的头实体的类型，第三个句子表示包含标记为

的关系，第四个句子表示包含标记为

的尾实体，第五个句子表示包含标记为

的尾实体。这些序列的输入可以是实体/实体类型/关系描述句子或者是实体/实体类型/关系名本身。五段文本/词语中间分别标记[SEP]以示区分。

为了更好的捕捉词序信息，BERT对于输入的一个序列，其输入表示可以通过对相应的token嵌入、段嵌入和位置嵌入求和得到的。输入序列表示可以形象化为图2。

对于token嵌入，针对中文文本，本研究使用字嵌入，每个输入的汉字表示为字向量E_c。

对于段嵌入E_s，相同句子中的字有相同的段嵌入，不同句子中的字有不同的段嵌入，段嵌入用于辅助模型区别每个句子中的字的位置向量表示。本章分别将不同段嵌入表示为以下标记：包含在头实体句子中的字的段嵌入为位置向量E_h，包含在关系中的字的段嵌入为位置向量E_r，包含在尾实体中的字的段嵌入为位置向量E_t，包含在描述头实体和尾实体类型句子中的字的段嵌入分别为位置向量E_hl和E_tl。

对于位置嵌入，由于输入序列的顺序性无法由Transformer的多头注意力机制编码，为了理解序列中每个字的顺序信息，将每个输入序列合并后，每一个字在每一个位置都对应相应的位置嵌入，每个字的相应位置表示为位置向量E_i。在各个位置上学习一个向量来编码序列顺序的信息，让BERT学习到输入的顺序特征。

最后，输入表示记为

其中，m为序列的长度，即模型输入的5个句子或词语的长度之和，m与分类标签(1个[CLS])和分隔标记(4个[SEP])构成长度为m+1+4的序列S，S中的每个字符s_i的输入表示为V_i＝E_c+E_s+E_i。

BERT基于多层双向Transformer编码器,每个编码器采用多头注意机制融合单词周围的上下文信息，建立单词之间联系的强度(权重)。在BERT的顶层，可以直接叠加简单的线性模型，精细微调后与特定任务相结合。Transformer完全不用递归和卷积网络，其全局信息可以通过Attention机制的并行化训练获取。为了可以关注一个句子中不同位置的句法特征或者语义特征，Transformer采用多头(Multi-headed)自注意力(SelfAttention)机制获取句子中单词之间的语义特征，从而提升模型的性能。

基于多头自注意力机制的特征获取。Transformer采用多头注意力机制(multi-headed attention)，运用堆叠多头来扩大信息获取的范围，每一头关注自己所在范围内的信息，多头进行联合实现所有范围内信息的全关注，同时有效的实现了并行计算。多头自注意力机制的结构如图3所示，设Q表示查询Query，d_q表示查询Query的特征维度；K表示键Key，d_k表示键Key的特征维度；V表示值Value，d_v表示值Value的特征维度；q表示查询序列，k表示键序列，v表示值序列。

用线性投影将查询Query，键Key和值Value投影，再进行相似度计算，这个过程迭代A次，得到d_q，d_k和d_v维，每次线性变换都使用不同的参数矩阵W，然后，在每一个Query，Key和Value的结果上，执行注意力函数，得到d_v维结果，将其连接后再投影，从而产生多头注意力的输出值。

每个q只与它相同位置的k进行运算，即q^i,1只与k^i,1和k^j,1进行运算，即q^i,1＝W^q, ¹qⁱ，得到相应的

后，与相应的v进行运算得到b^i,1…b^i,6，将其连接后降维得到bⁱ。可以看到，多头进行联合实现所有范围内信息的全关注，并通过重复h次计算让模型关注关键特征，其计算过程用如式(1)和(2)所示，多头注意力机制中每个头各司其职，关注点不同，将多个头得到的注意力矩阵进行拼接并进行线性变换。

其中，Concat表示拼接操作，head_i表示第i个子层的Q、K和V经过线性投影层后得到的点乘自注意力计算结果，依次表示第i个子层的Q、K和V经过的线性投影层的权重；W⁰表示拼接结果后经过的线性投影层的权重。

基于Transformer编码器的序列编码。本研究提出的BERT-KGC模型基于Transformer的原始架构，在BERT-KGC模型中，Transformer用于编码融合实体类型信息的三元组输入序列中的字符表示，其结构如图4。

Transformer编码器由6个相同的层构成，且每层又划分为上下两部分，上面的部分则是全连接前馈网络，底下的部分是多头Attention机制。在上下两部分的外围分别增加了一个残差连接和归一化层。

(1)输入层：模型的输入被编码器接受后，由输入嵌入层将其映射成输入向量aⁱ，加上位置向量eⁱ后生成一个输入序列作为多头注意力机制层的输入。

(2)多头注意力层：在多头注意力机制层将输入向量进行注意力计算，得到b_i序列。

(3)残差&归一化层：在残差链接层，将多头注意力机制层的输入序列aⁱ和输出b_i进行相加得到b'ⁱ，并对b'ⁱ做层归一化处理，每个子层归一化后的输出为LayerNorm(x+Sublayer(x))，其中，Sublayer(x)为子层输出结果。

(4)前馈网络层：这是一个全连接前馈神经网络，对于不同的位置都设置相应的全连接网络，位置相互独立，参数也不尽相同，同时使用两个线性变换实现并行计算，线性变换的激活函数使用线性修正单元(ReLU)，见式(3)。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (3)

其中，W₁与W₂、b₁与b₂分别表示两个线性层的权重、偏置。

在前馈网络层将每一个输入向量都进行处理后，再次残差连接&层归一化，最后，将输入序列映射为一个表示序列，此序列是连续的。

(5)位置位置向量：在Self Attention层并未考虑词的位置信息，对于每一个词来说，跟它相邻的词还是跟它距离较远的词都是一样的操作，这显然不是我们想要的。位置嵌入添加到词嵌入中，在接下来的运算中，通过位置向量和单词之间的距离可以抽取语序信息以及位置信息。为了考虑输入序列中的词序，引入位置嵌入，将每个词的位置进行编号，每个位置都有一个唯一的位置向量eⁱ，定义位置向量与词向量大小相同，然后将输入嵌入和位置嵌入求和，见式(4)和(5)。

其中，d_model为系统模型的维度，pos表示位置信息；

二、BERT知识图谱补全模型的训练

在BERT框架的实现过程分为两个，分别是预训练和微调。首先，使用大量无标注数据进行预训练，即无监督预训练，BERT的初始化依赖于在预训练过程中的参数，通过使用无标注数据进行预训练，大大降低了语料库的开销。在下游任务中，使用少量标注三元组调整初始化参数，即有监督微调。

基于预训练-微调的知识图谱补全任务的主要思想是：首先大量无标注数据参与预训练，预训练阶段采用遮蔽词预训练和预测下一个句子的方法进行结合，得到预训练初始参数；然后，在不改变BERT内部结构的基础上，在编码层后面添加一个输出层，少量标注三元组参与参数调整；最后，由[CLS]特殊标记的编码结果作为模型的输出。

基于无监督的BERT模型预训练。将BERT模型的遮蔽词预测训练方法(Masked LM)与预测下一个句子(Predict the next sentence)两种方法结合，进行模型的预训练，使模型取得更好的预训练结果。由于大部分参数经预训练后已有相当足够的能力抽取更高级别的特征，所以，在下游应用时，更多参数保留，参数的调整在小范围内进行，从而提高了模型的速度。

在预训练阶段，训练好的BERT模型可以捕获句子中高层抽象特征。在微调阶段，不需要改变BERT的内部结构，只需在编码层的上面再添加一层特定的输出网络实现任务的输出，即使用少量标注数据和BERT预训练阶段的所有参数来训练模型输出层的参数。本研究将不确定环境下战场信息的知识图谱补全问题视为分类问题，将三元组及头尾实体的类型构成的五个句子同时作为模型的输入，使用编码后的向量作为句子的表征，使用[CLS]的最终隐藏状态编码结果作为模型的输出。

使用第一个令牌[CLS]的最终隐藏状态(即Transformer的编码结果)作为输入序列的深层表示，以得到模型输入的序列表示，用

来表示，

表示第i个输入的最终隐藏向量，其中，H是预先训练好的BERT的隐藏状态大小。最终隐藏层特殊标记[CLS]相关联的状态C作为三元组打分的总的序列表示。

在调优阶段引入的唯一的新参数是分类层权重

sigmoid函数取值为0到1之间的连续值，可以灵敏感知文本细微变化对结果的影响，所以，在输出层采用sigmoid函数作为激活函数，三元组(h,r,t)的得分函数记为公式(6)。

其中，

是一个二维实向量，且

和

分别为有效和无效三元组集合，

由

构建得到，其中，

中的伪三元组是将

中的有效三元组的h或t用

中的某个实体随机取代，或将其r用

中某个关系随机进行替换。最后，利用交叉熵损失函数实现实际和期望输出概率间距离的刻画，如下式(7)。

其中，

为期望输出概率，且

利用交叉熵损失函数实现实际和期望输出概率间距离后，再判断所述距离是否超过预设阈值，若距离超过阈值，则调整补全模型的网络参数。

此外，在本实施例中，还公开了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

综上可知，本发明采用知识图谱补全技术提出了一种融合实体类型的BERT知识图谱补全方法，将实体信息的外部知识即实体类型作为实体信息的补充，更好地获取实体的语义信息，提高模型输入端的文本增强表示，使用多头注意力机制的Transformer编码器实现特征获取和序列编码，使用少量的标注三元组进行微调，有效实现隐含关系的挖掘。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合实体类型的BERT知识图谱补全方法，其特征在于，包括以下步骤：

构建BERT知识图谱补全模型：所述BERT知识图谱补全模型包括输入层、编码层和输出层，所述输入层用于构建输入文本的头实体、头实体类型、关系、尾实体和尾实体类型的表示序列；并将所述头实体、头实体类型、关系、尾实体和尾实体类型的表示序列拼接成输入序列；所述编码层用于对输入序列进行编码，并提取编码后的输入序列不同层次的语义特征，并对不同层次的语义特征进行拼接；所述输出层用于计算拼接后的语义特征的预测概率，并计算模型预测概率与预期概率的距离来调整BERT知识图谱补全模型的网络参数；

2.根据权利要求1所述的融合实体类型的BERT知识图谱补全方法，其特征在于，所述编码层采用双向Tansformer编码器对输入序列进行编码，并采用多头注意力机制对提取编码后的输入序列不同层次的语义特征，并对不同层次的语义特征进行拼接；所述输出层采用sigmod函数计算拼接后的语义特征的预测概率，并计算模型预测概率与预期概率的距离，判断所述距离是否超过预设阈值，若距离超过阈值，则调整补全模型的网络参数；所述输出层使用[CLS]的最终隐藏状态作为输入序列的深层表示和模型的输出。

3.根据权利要求2所述的融合实体类型的BERT知识图谱补全方法，其特征在于，所述输入序列表示为：