CN111581395A

CN111581395A - 一种基于深度学习的模型融合三元组表示学习系统及方法

Info

Publication number: CN111581395A
Application number: CN202010373485.4A
Authority: CN
Inventors: 饶元; 程家敏; 吴连伟; 丁毅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-25
Anticipated expiration: 2040-05-06
Also published as: CN111581395B

Abstract

本发明公开了一种基于深度学习的模型融合三元组表示学习系统及方法，使用预训练的BERT语言模型对单词进行嵌入表示，获取了单词更加语境化的表示；同时利用BERT结构的掩蔽语言建模任务将其三元组作为序列输入；本发明对于同实体多种语义的问题，利用投影或者转换矩阵使得映射实体关系在不同领域上能够有不同的表示，但是本发明中改造后的BERT可以将三元组或其描述信息作为文本输入并一同训练，而BERT本身的机制会对实体关系在不同句子中会有不同的词向量，有效解决了实体关系不同语义的问题，因此选择TransE不会受限于其模型本身，反而其模型的足够简单才真正反映了三元组之间的对应关系。同时降低了模型的复杂度。

Description

一种基于深度学习的模型融合三元组表示学习系统及方法

【技术领域】

本发明属于电子信息技术领域，涉及一种基于深度学习的模型融合三元组表示学习系统及方法。

【背景技术】

人们通常以网络的形式组织知识库中的知识，网络中每个节点代表实体(人名、地名、机构名、概念等)，而每条边代表实体间的关系。因此，大部分知识往往都可以用三元组(实体1，关系，实体2)来表示，对应着知识库网络中的一条边及其连接的2个实体。这是知识库的通用表示方式，例如万维网(W3C)发布的资源描述框架(resource descriptionframework，RDF)技术标准，就是以三元组表示为基础的。知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化推荐等)的重要基础技术。为了改进信息服务质量，国内外互联网公司(特别是搜索引擎公司)纷纷推出知识库产品，如谷歌知识图谱、微软Bing Satori、百度知心以及搜狗知立方等。在谷歌提出知识图谱(knowledge graphs)的概念后，以三元组结构表示知识的形式广受认可。知识图谱也由此产生。

知识图谱的实质是三元组的集合，然而完成实体关系抽取后得到的三元组其完备性仍不足，目前存储了海量的三元组的大规模知识图谱如Freebase、Wikidata、DBpedia等存在，但是它们仍然远远没有达到完备的程度。随着信息的爆炸式增长，确定知识识图谱存在，但是仍然远远没有达到完备的程度。随着信息的爆炸式增长，确定三元组中信息的正确性并对其进行补全也是至关重要的任务。

基于深度学习的三元组表示学习目前主要分为基于距离，融合文本和基于路径这三类方法。基于翻译的表示学习补全模型则通过将实体和关系嵌入到低维向量空间以得到实体和关系语义信息的表示。2013年word2vec词表示学习工具包被提出之后，通过该模型，找到了词向量空间中存在的平移不变的现象。如V(father)-V(mother)＝V(female)-V(male)，其中V(w)代表的是用word2vec学习得到的单词w的向量表示。即词向量表示能够捕获单词father和mother之间、female和male之间隐含的某种相同语义关系。并借助类比推理实验发现该种现象广泛存在于词汇的语义关系和句法关系中。受到该现象的启示，提出了TransE模型，在低维空间嵌入实体和关系，将关系表示为低维嵌入空间中实体间翻译操作，然后利用得分函数将实体和关系联系起来，并通过损失函数进行优化以取得最优目标值。其后，大多数基于翻译的表示学习模型都是在TransE的基础上进行扩展，虽然性能得到了提升，但是在模型的过于复杂和精密的设计上极大的影响了后续的可扩展性。融合文本的表示学习是指把不同的数据源所抽取的知识融合到一起。与传统的数据融合(datafusion)任务不同的是，知识融合技术能够利用多个不同的知识抽取工具为每一个数据项从每个数据源中抽取相应的值，而数据融合只考虑了单个抽取工具。缺陷和不足在于，融合多源数据过程中产生的噪音无法得到有效的处理和解决。多步关系路径也包含了实体之间丰富的推理模式。模型一般通过路径约束资源分配算法来度量关系路径的可达性，并利用关系嵌入的语义组合来表示关系路径，即将关系路径作为表示学习中实体间的翻译。不仅考虑了直接关系，同时也考虑了包含实体间丰富推理模式的多步关系路径，解决了仅从单一路径进行表示学习的问题。还可以通过利用关系路径的信息对知识图谱中的实体和关系进行表示学习，缺陷和不足在于，对于路径公式的选择和设计直接决定模型的性能，在泛用性上有所不足。

【发明内容】

本发明的目的在于解决现有技术中的问题，提供一种基于深度学习的模型融合三元组表示学习系统及方法，通过引入的词向量预训练机制将三元组自身结构和三元组词向量信息作联合表示学习。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于深度学习的模型融合三元组表示学习系统，包括：

BERT三元组输入模块，用于将三元组序列化通过掩蔽语言建模完成三元组的嵌入，并利用BERT自带的SpecialTokens机制将三元组的描述性信息输入；

TransE三元组输入模块，用于将三元组通过TransE的训练机制对三元组进行训练；学习三元组中的结构信息，使用距离公式计算三元组之间的相似度以学习实体关系之间的依赖关系，从而生成三元组的词向量表示；

联合表示学习模块，用于将BERT三元组输入模块和TransE三元组输入模块结合起来，将二者结合联合训练，最终得到三元组词向量表示的最佳优化。

本发明还公开了一种基于深度学习的模型融合三元组表示学习方法，包括以下步骤：

阶段0：数据预处理

步骤0：将数据集利用工具、众包或专家对其进行评价，除去无用错误的三元组集合，过滤掉与后续工作无关的噪声数据；

步骤1：给定数量为m的三元组集合，对其x实体和y关系进行初步的词向量初始化；

阶段1：基于BERT的三元组表示学习

步骤2：采用预训练的语言模型BERT作为单词嵌入工具，将每个单词映射到相应的向量空间中；使用[SEP]分隔符将三者分开，并且每个区域内部均为独立的位置编码；

步骤3：使用BERT的掩蔽语言模式来输入三元组，输入格式表示为“[CLS]头实体[SEP]关系[SEP]尾实体[SEP]”；通过BERT多头自注意力机制计算上下文以及评价对象之间的初级交互表示：

其中，

表示句子中第i个单词的输入，BERT^g表示嵌入阶段所使用的语言模型，

表示句子中第i个单词通过BERT生成的嵌入表示；

步骤4：Bert在进行词嵌入时，使用8层的Transformer作为基础框架，Transformer分为多头注意力和前馈层两个阶段；注意力为如下：

(attention_output)＝Attention(Q，K，V) (2)

多头注意力是通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来，每一个头当作独立的注意力机制，总共进行e次注意力计算，并将注意力结果拼接：

MultiHead(Q，K，V)＝Concat(head₁，...，head_e)W^o (3)

head_i＝Attention(QW_i ^O，QW_i ^K，VW_i ^V) (4)

使用scaleddot-product的方式进行计算：

其中，QK^T用于计算Q矩阵和K矩阵的相似度，根号

用于对矩阵里的每一个值进行放缩，相似度矩阵与V矩阵相乘得到经由注意力之后的矩阵表示；

步骤5：头实体h被表示为包含Tokens的句子，关系r被表示为包含Tokens的句子；对于给定的Token，其输入表示是通过将相应的Token、段和位置嵌入相加来构造的；由[SEP]分隔的不同元素具有不同的段嵌入，首尾实体句中的标记具有相同的segmentembedding段嵌入，而关系句中的标记具有不同的segmentembedding段嵌入，不同的tokens在相同的位置，即具有相同的嵌入位置模型训练是首先分别构建positivetripleset和negativetripleset，然后用BERT的[CLS]标签做一个sigmoid打分：

其中，得分函数s_τ是一个具有s_τ0，s_τ1∈[0，1]和s_τ0+s_τ1＝1的二维实向量；

步骤6：每个输入Token都有一个输入表示E_i；Token表示被输入到BERT模型架构中；特殊[CLS]Token和第i个输入Token的最终隐藏向量表示为

和

H表示预训练BERT的隐藏状态的大小；对应于[CLS]的最终隐藏状态C被用作组合三元组分数的聚集序列表示；在对(h，r，t)三元组分类微调中引入的唯一新参数是分类层的权重，即

步骤7：通过三元组分类用于判读是否是合理的三元组；将输入序列切分成头，关系和尾三部分，并用sep分割；训练阶段设置正负样进行训练，用BERT的[CLS]标签做一个sigmoid打分以及最后交叉熵损失训练模型最后计算交叉熵损失：

其中，y_τ∈{0，1}是该三元组的标签；负三元组

是通过用一个随机的头实体或尾实体去替换正三元组(h，r，t)中的一个三元组的头实体或者尾实体来生成的；

其中，

为实体集合；如果一个三元组已经在正的集合

中，则其不会被当作一个负的例子；通过梯度下降法更新训练好的参数权值和新的权重W；

阶段2：基于翻译模型TransE的三元组表示学习

步骤8：将三元组中h，r，t初始化，期间每次迭代更新都需归一化：

其中，uniform()为初始化函数，k为词向量维度，h，r，t分别为头实体、关系和尾实体；

步骤9：TransE是基于实体和关系的分布式向量表示，利用词向量的平移不变现象，将每个三元组实例(h，r，t)中的关系r看做从头实体h到尾实体t的翻译，通过不断调整h、r和t的向量，使h+r近似与t相等，即h+r≈t，进而定义三元组(h，r，t)中实体向量、关系向量和距离向量之间的相互关联；用来衡量h和t之间的距离在实际应用中可以使用L1或L2范数，其距离公式如下：

步骤10：在模型的训练过程中，通过替换h或t所得；α是取值大于0的间隔距离参数，[x]+表示正值函数，即x＞0时，[x]+＝x；当x≤0时，[x]+＝0；梯度更新只需计算距离d(h+r，t)和d(h′+r，t′)；模型训练完成后，得到实体和关系的向量表示；模型采用最大间隔方法，其目标函数如下：

[x]₊＝max(0，x) (12)

其中，S(h，r，t)是知识库中的三元组，S′(h′，r，t′)是负采样的三元组，对某一个正确关系组中的头元素的参数h_i来说：

在目标函数下增加约束条件：

||h||≤1，||r||≤1，||t||≤1 (14)

阶段3：联合表示学习

步骤11：将TransE的目标函数将其相加，构建基于BERT和TransE的模型目标函数：

L_total＝L₁+γL₂ (15)

其中，γ是平衡两个模型贡献比率的参数。

与现有技术相比，本发明具有以下有益效果：

本发明使用预训练的BERT语言模型对单词进行嵌入表示，获取了单词更加语境化的表示，解决了以往方法单词嵌入表示不够丰富，无法解决一词多义的问题；同时利用BERT结构的掩蔽语言建模任务将其三元组作为序列输入；其次，本发明对于同实体多种语义的问题，相较于以往的做法通常是采用对TransE模型进行维度上的改造，利用投影或者转换矩阵使得映射实体关系在不同领域上能够有不同的表示，但是本发明中改造后的BERT可以将三元组或其描述信息作为文本输入并一同训练，而BERT本身的机制会对实体关系在不同句子中会有不同的词向量，有效解决了实体关系不同语义的问题，因此选择TransE不会受限于其模型本身，反而其模型的足够简单才真正反映了三元组之间的对应关系。同时降低了模型的复杂度；最后，本发明使用了联合学习方法，充分的使三元组自身结构的信息与描述信息相结合，从而提升了三元组实体关系的向量化表示效果。

【附图说明】

图1为本发明的架构图；

图2为本发明中使用的BERT输入格式；

图3为本发明中使用的BERT描述性语句作为三元组头实体；

图4为本发明中使用的三元组示例；

图5为本发明中负样本三元组示例。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明基于深度学习的模型融合三元组表示学习系统，包括：

BERT三元组输入模块：利用预训练好的BERT将三元组序列化通过掩蔽语言建模完成三元组的嵌入，本发明所输入的三元组的格式如图4所示，为了模拟三元组的合理性，序列化的句子可以是两个实体也可以是多个三元组打包在一起，利用BERT完成词向量训练。此外，可以利用BERT自带的Special Tokens机制将三元组的描述性信息输入。这样做第一解决了传统预训练语言模型方法无法区分单词的多义特征的问题，还减轻了传统表示学习中由于三元组自身结构信息不足引入外部信息即多源信息融合表示学习的噪声问题。其描述性信息格式举例如图3所示。

TransE三元组输入模块：将三元组通过TransE的训练机制对三元组进行训练。该模型的作用是学习三元组中的结构信息，使用距离公式计算三元组之间的相似度以学习实体关系之间的依赖关系，从而生成更准确的三元组的词向量表示。

联合表示学习模块：利用两个模型的评价函数输入输出相同的情况下，将BERT三元组输入模块和TransE三元组输入模块结合起来，将二者结合联合训练，最终得到三元组词向量表示的最佳优化。

本发明基于深度学习的模型融合三元组表示学习，包括以下步骤：

阶段0：数据预处理

步骤0：将数据集利用工具、众包或专家对其进行评价，除去无用错误的三元组集合，过滤掉与后续工作无关的噪声数据。

步骤1：给定数量为m的三元组集合，对其x实体和y关系进行初步的词向量初始化。可通过word2vec或Glove等工具进行此项工作。

阶段1：基于BERT的三元组表示学习

步骤2：嵌入层是模型的基础层，目的是将每个单词通过嵌入层映射到向量空间中，采用预训练的语言模型BERT作为单词嵌入工具，该层将每个单词映射到相应的向量空间中。与传统的词嵌入方法相比，BERT具体有动态语义的功能，可以达到一词多义的效果。为了在嵌入过程中区分头实体，尾实体及关系，使用[SEP]分隔符将三者分开，并且每个区域内部均为独立的位置编码；

步骤3：为了三元组进行建模，使用BERT的掩蔽语言模式来输入三元组，输入格式可以表示为“[CLS]头实体[SEP]关系[SEP]尾实体[SEP]”，具体样例如图2所示。通过BERT自身的多头自注意力机制计算上下文以及评价对象之间的初级交互表示：

其中，

表示句子中第i个单词通过BERT生成的嵌入表示；

步骤4：Bert在进行词嵌入时，使用了8层的Transformer作为基础框架，Transformer分为多头注意力和前馈层两个阶段。注意力为如下形式：

(attention_output)＝Attention(Q，K，V) (2)

多头注意力则是通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来，每一个头都可以当作独立的注意力机制，总共进行e次注意力，并将注意力结果拼接：

MultiHead(Q，K，V)＝Concat(head₁，...，head_e)W^o (3)

head_i＝Attention(QW_i ^O，QW_i ^K，VW_i ^V) (4)

计算方法使用了scaled dot-product的方式

其中QK^T用于计算Q矩阵和K矩阵的相似度，根号

用于对矩阵里的每一个值进行放缩，相似度矩阵与V矩阵相乘可得到经由注意力之后的矩阵表示。注意力层结束后是前馈层，用于对特征做线性变化，并做LayerNorm，将特征里的值归一化的一定范围，使得训练更加稳定。

步骤5：每个输入序列的第一个标记总是一种特殊的分类Token[CLS]。头实体h被表示为包含Tokens的句子，例如“Steven Paul Jobs was a American business magnate，entrepreneur and investor.”或“Steve Jobs”，关系r被表示为包含Tokens的句子，例如，“founded”，t尾部实体表示为一个包含Tokens的句子，例如，“苹果公司是一家美国跨国技术公司，总部设在加利福尼亚州的库比蒂诺”或“苹果公司”。实体和关系的特殊时态由一个专有名词分隔开。对于给定的Token，它的输入表示是通过将相应的Token、段和位置嵌入相加来构造的。由[SEP]分隔的不同元素具有不同的段嵌入，首尾实体句中的标记具有相同的segment embedding段嵌入，而关系句中的标记具有不同的segment embedding段嵌入，不同的tokens在相同的位置，即具有相同的嵌入位置模型训练是首先分别构建positive triple set和negative triple set，然后用BERT的[CLS]标签做一个sigmoid打分：

步骤6：每个输入Token都有一个输入表示E_i。Token表示被输入到BERT模型架构中。特殊[CLS]Token和第i个输入Token的最终隐藏向量表示为

和

H表示预训练BERT的隐藏状态的大小。对应于[CLS]的最终隐藏状态C被用作组合三元组分数的聚集序列表示。在对(h，r，t)三元组分类微调中引入的唯一新参数是分类层的权重，即

步骤7：通过三元组分类用于判读是否是合理的三元组。将输入序列切分成头，关系和尾三部分，并用sep分割。训练阶段设置正负样本进行训练，其负样本的格式如图5所示，用BERT的[CLS]标签做一个sigmoid打分以及最后交叉熵损失训练模型最后计算交叉熵损失：

其中y_τ∈{0，1}是该三元组的标签(负或正)。负三元组

是简单地通过用一个随机的头实体或尾实体去替换正三元组(h，r，t)中的一个三元组的头实体或者尾实体来生成的，图5给出简单示例。

其中

为实体集合。如果一个三元组已经在正的集合

中，那么它将不会被当作一个负的例子。通过梯度下降法可以更新训练好的参数权值和新的权重W。

阶段2：基于翻译模型TransE的三元组表示学习

其中，uniform()为初始化函数，k为词向量维度，h，r，t分别为头实体、关系和尾实体。

步骤9：TransE是基于实体和关系的分布式向量表示，利用词向量的平移不变现象，将每个三元组实例(h，r，t)中的关系r看做从头实体h到尾实体t的翻译，通过不断调整h、r和t的向量，使h+r尽可能与t相等，即h+r≈t，进而定义三元组(h，r，t)中实体向量、关系向量和距离向量之间的相互关联。用来衡量h和t之间的距离在实际应用中可以使用L1或L2范数。其距离公式如下：

步骤10：在模型的训练过程中，通过替换h或t所得。α是取值大于0的间隔距离参数，[x]+表示正值函数，即x＞0时，[x]+＝x；当x≤0时，[x]+＝0。梯度更新只需计算距离d(h+r，t)和d(h′+r，t′)。模型训练完成后，可得到实体和关系的向量表示。模型采用最大间隔方法，其目标函数如下：

[x]₊＝max(0，x) (12)

其中，S(h，r，t)是知识库中的三元组，S′(h′，r，t′)是负采样的三元组，对某一个对某一个正确关系组中的头元素的参数h_i来说，

为了方便训练避免过拟合，需在目标函数下增加约束条件：

||h||≤1，||r||≤1，||t||≤1 (14)

阶段3：联合表示学习

步骤11：在我们的模型中，主要利用的是三元组自身结构信息，构成三元组信息，例如(USA，president，Trump)，假设此三元组是事实，一个基本想法就是在训练BERT过程中，加入这些三元组信息，使得关联的和某种程度上更接近，也可以说是一种正则化约束，例如三元组信息是类别信息，即词语属于哪个领域的信息。为了与BERT模型融合，利用TransE思想，将TransE的目标函数将其相加，这样一来，我们就可以构建基于BERT和TransE的模型目标函数，如下：

L_total＝L₁+γL₂ (15)

其中，γ是平衡两个模型贡献比率的参数。

BERT层输入的三元组由于BERT的预训练机制，可以将相同实体在文中不同词义分开训练，TransE的输入与BERT相同对标三元组输入。理论上拟合后的评价函数分阶段训练或同时训练较之单个模型都会有很好的提升。可通过不断试验调参得到最优解。

实施例：

Theappleisthecompanyofthetech.

Theappleisthekindofthefruit.

此文本中的三元组为(apple,company,the tech)其实体iphone,the Apple关系的表示学习向量表示是拟合BERT和TransE两个评价函数联合起来的得到的，其拟合结果与仅BERT和TransE拟合结果不同。训练得出的表示向量可以实现对不同语境语义不同的结果，其tech类的Apple与fruit类的Apple的表示学习向量不同。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。