CN115936115B

CN115936115B - 基于图卷积对比学习和XLNet的知识图谱嵌入方法

Info

Publication number: CN115936115B
Application number: CN202310015102.XA
Authority: CN
Inventors: 廖伟智; 梁铮琰; 阎德劲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-10-13
Anticipated expiration: 2043-01-05
Also published as: CN115936115A

Abstract

本发明涉及知识图谱嵌入技术领域，提供一种基于图卷积对比学习和XLNet的知识图谱嵌入方法，其包括以下步骤：1)知识图谱图结构构建；2)基于图对比学习框架的GNN‑XLNet模型训练；3)实体链接。本发明提出的知识图谱嵌入方法，既减少了数据标注的工作量，又使知识图谱具备了较高的精确度。本发明通过图对比学习，增加了知识图谱样本量，使得深度学习模型的训练效果得到提升。本发明通过GNN‑XLNet模型，使得知识图谱嵌入能同时从图结构特征和语义特征两个方面获得特征提取，从而完成更好的嵌入。本发明能较佳地进行知识图谱的嵌入。

Description

基于图卷积对比学习和XLNet的知识图谱嵌入方法

技术领域

本发明涉及知识图谱嵌入技术领域，提供一种基于图卷积对比学习和XLNet的知识图谱嵌入方法。

背景技术

知识图谱是构建多态异构大差异模型数据同源与自动适配，以及数据融合的关键技术。知识图谱嵌入(KGE)是将知识库中的实体和关系映射到低维密度空间的方法。从最初的翻译模型到概率空间模型，KGE一直在几何代数的方向上取得了不错的发展。随着深度学习的广泛应用，KGE结合图神经网络又发展形成了多种效果不错的深度学习模型。而计算机视觉方向对比学习的广泛提出，及其表现出的良好效果也使得对比学习被快速应用于NLP等领域。

现有的知识图谱嵌入方法中，存在主要的缺点为：

1.知识图谱包含的图样本数据不足：图对比学习是基于生化数据集训练得到的模型，而生化数据集与知识图谱本身不同的地方在于：生化数据集相当于是由一个个生物化学分子构成的集合，每个生化分子代表着一个小型的图结构；知识图谱的构建是以大量离散的三元组为基础的，较为繁琐，构建完成后只有一个图。所以正是由于知识图谱和生化数据集的构造不同，造成其样本容量不同，给模型的训练造成了样本不足的问题，使得模型训练效果不佳。

2.知识图谱嵌入过程缺少语义特征：现有的知识图谱嵌入技术主要分为两种：基于图结构的嵌入和基于三元组的嵌入。其中，基于图结构的嵌入是将三元组通过node2vec算法构建出知识图谱的结点和边，使知识图谱形成一个图结构，然后再将图进行嵌入，该方法未考虑存在大量知识的知识图谱本身包含的丰富语义信息。基于三元组的嵌入方法是trans系算法所提供的嵌入方法，该方法直接将三元组的头尾实体和关系进行低维向量映射，然后在同一平面或加一个超平面的情况下进行嵌入，这种方法考虑到了头尾实体以及关系之间映射成为矩阵向量后的关系，但未考虑数据本身结构是一个包含了节点和边的特征信息的图结构。

3.对比学习的损失函数训练效果并非为适应当前任务的最佳函数：对比学习的优势不仅在于使用了数据增强，而且其损失函数适用于当前任务使训练效果达到最佳。但对比学习的提出最初是针对图像样本，并不是针对图结构样本和文本样本，因此，难以达到预期效果。

据此，提出一种基于图卷积对比学习和XLNet的知识图谱嵌入方法来解决上述缺陷。

发明内容

本发明的内容是提供一种基于图卷积对比学习和XLNet的知识图谱嵌入方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的一种基于图卷积对比学习和XLNet的知识图谱嵌入方法，其包括以下步骤：

1)知识图谱图结构构建；

2)基于图对比学习框架的GNN-XLNet模型训练

2.1)图增强，用于增加知识图谱图结构正样本，得到Aug1和Aug2；

2.2)对比学习双塔结构第一层encoder编码器，Aug1经上分支GNN-XLNet转换成对应的特征表示h_i1，Aug2经下分支GNN-XLNet转换成对应的特征表示h_i2；

2.3)对比学习双塔结构第二层projector映射器，进一步将特征表示h_i映射成另外一个空间里的向量z_i，Projector由两层MLP构成；

2.4)优化损失函数，使得参数训练效果更好，同时使用相似性函数进行增强样本之间的距离测量；

2.5)当模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止模型的训练；

3)使用训练好的模型进行实体链接

3.1)将测试集数据的实体进行低维向量嵌入，使用wor2vec得到实体的向量表示；

3.2)使用基于图对比学习的GNN-XLNet模型获得知识图谱特征。

3.3)根据获得的特征将知识图谱嵌入，得到知识图谱的低维空间表示；

3.4)计算知识图谱中的实体与测试实体的相似度；

3.5)给出rank list，选取得分最高的为最佳匹配。

作为优选，步骤1)中，知识图谱图结构的构建具体包括：

1.1)知识表示

原始数据，按照数据的结构化程度，分为结构化数据、半结构化数据和非结构化数据，根据数据的不同结构化形式，采用不同的方法，将数据转换为三元组形式：

a、结构化数据处理

采用D2R技术转换为RDF数据；

b、半结构化数据处理

采用包装器的方式进行处理；

c、非结构化数据处理

抽取的知识包括实体、关系、属性。

1.2)抽象图结构

A、加载知识库数据集，数据集以RDF文件形式保存；

B、加载并解析RDF文件，得到数据集中的实体集合、关系集合和三元组集合以及对应的标签；

C、使用广度优先遍历算法，将实体集合作为节点集合，关系集合作为边集合进行图的构建，保存为邻接矩阵；

D、将构造出的图结构G输入模型进行训练。

作为优选，步骤2.1)中，针对图数据的数据增强策略包括以下四类：基于特征的增强、基于结构的增强、基于采样的增强和自适应的增强；

基于特征的增强方法随机或者手动的遮盖一小部分结点或者边的属性；对于给定的输入图G＝(A,X)，基于特征的增强只对结点的特征矩阵X或者边的特征矩阵Xe进行增强；

基于结构的增强方法随机或者手动从原图中添加或者删除一小部分边；对于给定的输入图G＝(A,X)，基于结构的增强支队邻接矩阵进行增强；

基于采样的增强方法从原图中按照一定规则采样结点和对应的连边；给定一个输入图G＝(A,X)，基于采样的增强同时对邻接矩阵A和特征矩阵X进行增强；

基于自适应的增强方法采用注意力机制或者基于梯度的方法根据注意力权重或者梯度规模进行自适应采样。

作为优选，步骤2.2)中，GNN-XLNet用于捕捉属性与图结构信息之间重要的关联关系，GNN-XLNet同时计算每个节点的属性和边的生成损失，因此只需要为输入的图运行一次GNN；此外，GNN-XLNet处理带有子图采样的大规模图，并通过自适应嵌入队列减轻负采样带来的不准确损失；

GNN-XLNet过程如下：用一新节点的已知结构信息去估计一个该新节点的属性，反之亦然；生成过程分解为两个耦合的部分：给定已知的边的信息，生成节点属性；给定已知的边和刚生成的节点属性，生成剩余的边；这样，模型能捕获每个节点的属性和结构之间的依赖关系。

作为优选，步骤2.3)中，MLP是多层感知机，是多层的全连接的前馈神经网络，输入样本后，样本在网络中逐层前馈，得到最终输出值。

作为优选，步骤2.4)中，采用优化后的互信息最大损失函数来训练参数，如下：

T(G)为增强图集，t(G)为增强图集子集，f为原始数据通过GNN编码器后的参数，I为互信息最大化函数，P_g为图参数，W为增强数据通过GNN编码器后的参数；

这样能优化原始图G与增强图Aug之间的互信息最大化，同时优化增强图集T(G)之间的互信息最小化，从而避免在表示学习中捕获冗余信息；采用的相似性计算函数采取对表示向量L2正则后的点积或者表示向量间的Cosine相似性：S(z_i,z_j)＝z_i ^Tz_j/(‖z_i‖₂‖_zj‖₂)

z_i为输入参数i的矩阵或向量，z_j为输入参数j的矩阵或向量，z_i ^T为参数i的转置，‖z_i‖₂为求z_i的L2正则化，S()为求cosine相似性。

为了解决当前知识图谱样本不足问题，本发明采用图增强算法将样本数据进行数据增强，原始样本和增强样本分别进入对比学习框架的双塔模型进行训练，框架的两个分支使用参数共享。在知识图谱嵌入方面，大部分的技术只考虑了图结构或者是离散的三元组，为了解决语义特征使用不够充分问题，本发明使用GNN-XLNet模型使得在获取图结构的同时也获取语义特征，使得特征提取更丰富，效果更好。为了使得训练效果更佳，本发明将对比学习的损失函数进行了调整和改进，能最大化优化原始图与增强图之间的互信息，能最小化优化增强图之间的互信息。

本发明提出的深度学习模型能够更高效的学习到知识图谱的图结构特征和语义特征，为知识图谱嵌入做出了更好的提升，也为下游的实体链接等任务做了一个良好的铺垫。

本发明提出的知识图谱嵌入方法，既减少了数据标注的工作量，又使知识图谱具备了较高的精确度。

附图说明

图1为实施例中一种基于图卷积对比学习和XLNet的知识图谱嵌入方法的示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例

如图1所示，本实施例提供了一种基于图卷积对比学习和XLNet的知识图谱嵌入方法，其包括以下步骤：

1)构建知识图谱图结构；

1.1)知识表示

a、结构化数据处理

针对结构化数据，通常是关系型数据库的数据，数据结构清晰，把关系型数据库中的数据转换为RDF数据(linked data)，采用的技术是D2R技术。

b、半结构化数据处理

半结构化数据，主要是指那些具有一定的数据结构，但需要进一步提取整理的数据。比如百科的数据，网页中的数据等。对于这类数据，采用包装器的方式进行处理。包装器是一个能够将数据从HTML网页中抽取出来，并且将它们还原为结构化的数据的软件程序。网页数据输入到包装器中，通过包装器的处理，输出为需要的信息。对于一般的有规律的页面，可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。但这样的通用性很差，因此也可以通过包装器归纳这种基于有监督学习的方法，自动从标注好的训练样例集合中学习数据抽取规则，用于从其他相同标记或相同网页模板抽取目标数据。

c、非结构化数据处理

对于非结构化的文本数据，抽取的知识包括实体、关系、属性。

1.2)抽象图结构

A、加载知识库数据集：FB15K-237/wn18rr/yago，数据集以RDF文件形式保存；

FB15k-237是Freebase数据集的子集，共14541个实体，237种关系。Freebase数据集类似于维基百科，Freebase的内容是由社区成员贡献的结构化知识。除了人工输入外，Freebase也主动导入如维基百科的结构化知识。

WN18rr是从WordNet抽取的子集，共40943个实体，11种关系。WordNet是一个大型的英语词汇数据库。其中，名词、动词、形容词以及副词被按照认知上的同义词分组，称为synsets，每一个synset表征一个确定的概念。synset之间通过概念语义以及词汇关系链接。WordNet是计算机语言学和自然语言处理中常用的工具。

YAGO3-10是YAGO数据集的子集，共123182个实体，37种关系。YAGO是一个开源的数据集，其中的数据是从维基百科、WordNet和GeoNames等多个数据源中自动提取得到的。截止到2012年，就包括超过1千万个实体和1.2亿条事实。

RDF文件的主要关联与资源描述框架(RDF)数据格式有关，该扩展名表示其内容是基于RDF的文件，RDF是用于语义描述数据，特别是元数据(语义网络概念)的模型。

其中构造RDGReader类解析RDF文件；

RDGReader类实现：

包含的参数有：

object：将文件作为一个对象传入类中

file：加载打开RDF文件

构造LinkDataset类和EntityDataset类描述从知识库构建出的图结构；

LinkDataset类实现：是对知识库的图结构的描述

包含参数有：

num_nodes：知识库实体的数量

num_rels：知识库关系的数量

train：训练时用到的关系三元组

valid：验证时用到的关系三元组

test：测试时用到的关系三元组

EntityDataset类实现：是对知识库的图结构的描述

包含参数有：

num_nodes：知识库实体的数量

num_rels：知识库关系的数量

num_classes：知识库中标签种类的数量

edge_src：所有边的源节点集合

edge_dst：所有边的目的节点集合

edge_type：所有边的类型

edge_norm：所有边的归一化因子

labels：节点实体的标签

train_idx：训练集使用的实体的集合

valid_idx：验证集使用的实体的集合

test_idx：测试集使用的实体的集合

三元组是一个包含主语、谓语和宾语的知识表示。

例如：“觉醒年代--出演--于和伟”就是一个“实体--关系--实体”结构的三元组。

广度优先遍历算法的描述：广度优先遍历，指的是从图的一个未遍历的节点出发，先遍历这个节点的相邻节点，再依次遍历每个相邻节点的相邻节点。

邻接矩阵描述：表示顶点之间相邻关系的矩阵。

D、将构造出的图结构G输入模型进行训练。

2)训练基于图对比学习框架的GNN-XLNet模型

针对图数据的数据增强策略包括以下四类：基于特征的增强、基于结构的增强、基于采样的增强和自适应的增强；

基于结构的增强方法随机或者手动从原图中添加或者删除一小部分边；比如边扰动，结点插入，边扩散等；对于给定的输入图G＝(A,X)，基于结构的增强支队邻接矩阵进行增强；

基于采样的增强方法从原图中按照一定规则采样结点和对应的连边；比如均匀采样，ego-net采样，随机游走采样，重要性采样和基于知识的采样；给定一个输入图G＝(A,X)，基于采样的增强同时对邻接矩阵A和特征矩阵X进行增强；

Attention-based基于注意力的方法为结点或边定义重要性权重，然后按照权重进行增强。保留重要的结构和特征信息，对不重要的部分进行扰动。例如GCA中根据结点的中心性计算权重，按照重要性扰动边和结点。

GNN-XLNet用于捕捉属性与图结构信息之间重要的关联关系，GNN-XLNet同时计算每个节点的属性和边的生成损失，因此只需要为输入的图运行一次GNN；此外，GNN-XLNet处理带有子图采样的大规模图，并通过自适应嵌入队列减轻负采样带来的不准确损失；

p_θ(X_i,E_i/X<i,E<i)的联合条件概率的分布为：

其中，E_i,o表示已知的边，表示生成的边，X_i表示要生成的第i个点，E_i表示要生成的第i条边，X<i表示前i-1个点属性，E<i表示前i-1条边属性，p_θ表示在输入参数为θ下的联合条件概率分布，E表示求对数，o表示已知结构信息。

可以清晰的看出，第一项p_θ(X_i|E_i,o,X<i,E<i)表示利用前i-1个点的属性信息与边信息，以及当前节点i的邻点信息，生成当前第i个节点的属性。第二项表示通过当前节点的已知边信息与前个i-1点的属性信息与边信息和刚生成的节点属性信息生成当前节点的余下连边信息。

2.3)对比学习双塔结构第二层projector映射器，进一步将特征表示h_i映射成另外一个空间里的向量z_i，Projector由两层MLP(FC->ReLU->FC)构成；

MLP：多层感知机，是多层的全连接的前馈神经网络。输入样本后，样本在网络中逐层前馈(前馈网络：从输入层到隐藏层到输出层，逐层计算结果)，得到最终输出值。

FC：在整个卷积神经网络中起到分类器的作用，由卷积操作实现，可以转化为卷积核为hw的全局卷积，hw分别为前层卷积结果的高和宽。

ReLU：是人工神经网络中常用的激活函数。即：f(x)＝max(0,x)。在神经网络中，ReLU作为神经元的激活函数，为神经元在线性变换w^Tx+b之后的非线性输出结果。

采用优化后的互信息最大损失函数来训练参数，如下：

这样能优化原始图G与增强图Aug之间的互信息最大化，同时优化增强图集T(G)之间的互信息最小化，从而避免在表示学习中捕获冗余信息；采用的相似性计算函数采取对表示向量L2正则后的点积或者表示向量间的Cosine相似性：S(z_i,z_j)＝z_i ^Tz_j/(‖z_i‖₂‖z_j‖₂)

3)使用训练好的模型进行实体链接

3.2)使用基于图对比学习的GNN-XLNet模型获得知识图谱特征；

3.4)计算知识图谱中的实体与测试实体的相似度；计算方法：计算两个向量之间的距离，两个向量间距离越近，则两个向量越相似给出相似度；

3.5)给出rank list，选取得分最高的为最佳匹配。

本实施例提出的深度学习模型能够更高效的学习到知识图谱的图结构特征和语义特征，为知识图谱嵌入做出了更好的提升，也为下游的实体链接等任务做了一个良好的铺垫。

本实施例提出的知识图谱嵌入方法，既减少了数据标注的工作量，又使知识图谱具备了较高的精确度。

本实施例通过图对比学习，增加了知识图谱样本量，使得深度学习模型的训练效果得到提升。

本实施例通过GNN-XLNet模型，使得知识图谱嵌入能同时从图结构特征和语义特征两个方面获得特征提取，从而完成更好的嵌入，并为下游任务实体链接等做出良好的铺垫。

本实施例通过对损失函数的改进，使得优化了原始图与增强图之间的互信息最大化，并且优化了增强图之间的互信息最小化。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于图卷积对比学习和XLNet的知识图谱嵌入方法，包括以下步骤：

1)知识图谱图结构构建；

2)基于图卷积对比学习框架的XLNet模型训练；

3)使用训练好的模型进行实体链接；

3.2)使用基于图对比学习的GNN-XLNet模型获得知识图谱特征；

3.4)计算知识图谱中的实体与测试实体的相似度；

3.5)给出rank list，选取得分最高的为最佳匹配；

步骤1)中，知识图谱图结构的构建具体包括：

1.1)知识表示

原始数据按照数据的结构化程度分为结构化数据、半结构化数据和非结构化数据，根据数据的不同结构化形式，采用不同的方法，将数据转换为三元组形式：

a、结构化数据处理

采用D2R技术转换为RDF数据；

b、半结构化数据处理

采用包装器的方式进行处理；

c、非结构化数据处理

抽取的知识包括实体、关系、属性；

1.2)抽象图结构

A、加载知识库数据集，数据集以RDF文件形式保存；

D、将构造出的图结构G输入模型进行训练；

步骤2.1)中，针对图数据的数据增强策略包括以下四类：基于特征的增强、基于结构的增强、基于采样的增强和自适应的增强；

2.根据权利要求1所述的基于图卷积对比学习和XLNet的知识图谱嵌入方法，其特征在于：步骤2.2)中，GNN-XLNet用于捕捉属性与图结构信息之间重要的关联关系，GNN-XLNet同时计算每个节点的属性和边的生成损失，因此只需要为输入的图运行一次GNN；此外，GNN-XLNet处理带有子图采样的大规模图，并通过自适应嵌入队列减轻负采样带来的不准确损失；

3.根据权利要求2所述的基于图卷积对比学习和XLNet的知识图谱嵌入方法，其特征在于：步骤2.3)中，MLP是多层感知机，是多层的全连接的前馈神经网络，输入样本后，样本在网络中逐层前馈，得到最终输出值。

4.根据权利要求3所述的基于图卷积对比学习和XLNet的知识图谱嵌入方法，其特征在于：步骤2.4)中，采用优化后的互信息最大损失函数来训练参数，如下：

采用的相似性计算函数采取对表示向量L2正则后的点积或者表示向量间的Cosine相似性：

S(z_i,z_j)＝z_i ^Tz_j/(||z_i||₂||z_j||₂)

z_i为输入参数i的矩阵或向量，z_j为输入参数j的矩阵或向量，z_i ^T为参数i的转置，||z_i||₂为求z_i的L2正则化，S()为求cosine相似性。