CN112699247B

CN112699247B - 一种基于多类交叉熵对比补全编码的知识表示学习方法

Info

Publication number: CN112699247B
Application number: CN202011545760.2A
Authority: CN
Inventors: 欧阳波; 朱纪洪; 史恒; 于帆; 刘彬彬; 叶梓轩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2023-10-17
Anticipated expiration: 2040-12-23
Also published as: CN112699247A

Abstract

本发明公开一种基于多类交叉熵对比补全编码的知识表示学习方法，该方法主要包括：语义结构特征提取模块S和自动对比补全编码模块G。语义结构特征提取模块S负责对实体、关系提取低级和高级语义结构特征并融合得到低级和高级语义结构特征；自动对比补全编码模块G负责预测出实体上下文向量，设置正负样本及其采样的方法C³NCE，计算多类交叉熵对比损失函数，并通过优化该目标函数训练模型，得到知识图谱实体和关系的向量表示，并完成三元组补全任务。本发明所提的知识表示学习的技术方案，能够快速、稳定、准确地补全知识图谱中缺失信息的三元组，并很好地完成了知识表示学习任务，极大地提高了知识图谱构建的准确性和效率，应用前景广阔。

Description

一种基于多类交叉熵对比补全编码的知识表示学习方法

技术领域

本发明涉及自然语言处理和机器学习领域，特别涉及一种基于多类交叉熵对比补全编码的知识表示学习方法。

背景技术

神经网络的进步极大地推动了自然语言处理的发展，改变了自然语言处理领域的研究面貌。传统特征工程的思维模式被神经网络模型学习自然语言特征的方式所取代。知识图谱是2012年由谷歌提出来的，随后在学术界和工业界都得到了广泛地运用，是自然语言知识存储的一种重要形式。自然语言处理的很多下游任务比如问答系统、关系抽取、实体分类等都越来越依赖于知识图谱的构建和表征的质量。同时，在大数据时代，知识产生和更新的速度十分快，依靠手工构造知识图谱需要耗费大量的人力、物力和财力，而且其速度也不能满足人们的要求，所以自动构建知识图谱的方法逐渐替代了传统手工构造的方法，但是这样就难免会发生信息丢失的情况，本发明就是通过学习已有三元组事实信息，补全缺失信息的三元组，并完成知识表示学习的任务。

目前，常见的知识表示学习方法，主要是通过设计打分函数score Function，例如TransE、TransR和TransH等，利用边缘损失函数Margin Loss对三元组的头、尾实体向量和关系向量进行打分，对正样本打高分，负样本打低分，从而学习到实体、关系的向量表示。但是，此类方法最大的问题在于打分函数是不可学习的，受到人先验知识的限制，且边缘损失函数不能对正负样本进行自适应的加权学习，大大限制了表示学习的效果。近期提出的一些知识表示学习的方法对打分函数进行了参数化设计，并采用逻辑回归损失函数或二分类交叉熵损失函数，使得打分函数可以通过损失函数进行学习优化，得到一个更合理的打分函数，将知识图谱实体、关系的表示向量投影到一个更合理的表示空间进行对比计算，但是逻辑回归损失函数同样不能对正负样本进行自适应的加权学习，而二分类交叉熵损失函数由于正负样本数量的巨大差异则存在显著的样本不平衡问题。还有一些方法通过在打分之前提取高级语义特征，来提升打分的效果，进而提升知识表示学习的效果，但是高级的语义特征并不一定适合知识图谱下游任务，就知识图谱三元组补全任务而言，既需要高级的语义类型特征也需要低级的细节特征。综上所述，针对目前知识表示学习方法存在的问题，本发明以对比学习原理为基础，将知识表示学习分解为两个步骤。第一步提取知识图谱实体、关系的不同层级的语义结构特征，将不同层级的特征进行融合，获得满足下游任务的语义特征；第二步对打分函数进行参数化设计，确保打分函数可学习，将三元组的表示向量投影到更有效的表示空间进行计算，同时使用带温度缩放因子的余弦相似度多类交叉熵损失函数，能够对正负样本进行自适应的加权学习，并避免了样本不平衡的问题，通过互信息估计的理论保证模型优化效果和可解释性。

发明内容

针对知识图谱三元组补全任务，本发明提供一种基于多类交叉熵对比补全编码的知识表示学习方法，其特征在于，包括以下步骤：

S1：采用语义结构特征提取的方法，通过嵌入神经网络Embedding提取实体和关系的低级语义特征l_v和l_r，再通过图卷积神经网络GCN提取知识图谱高级语义结构特征h_v和h_r，利用跳线连接Skip-connecting融合低级语义和高级语义结构特征得到：

s_v＝e(v)＝l_v+h_v，

s_r＝e(r)＝l_r+h_r，

其中s_v和s_r分别表示实体融合特征和关系融合特征；

S2：采用自动对比补全的编码方法，选择TransE、DistMult和ConvE三者其中之一作为补全函数g()，根据预测的实体位置不同，输入不同的拼接向量，具体地，当网络预测尾实体时，输入为头实体向量h和关系向量r的拼接向量(s_h，s_r)，经补全函数g()作用，输出为预测的尾实体上下文向量c＝g(s_h，s_r)，当网络预测头实体时，输入为尾实体向量t和关系向量r^-1的拼接向量经补全函数g()作用，输出为预测的头实体上下文向量/>

S3：采用实体银行Entity Bank的建立和正负样本采样的方法C³NCE，利用实体集中所有实体依次替换三元组中的头实体得到一批正负样本，再利用实体集中所有实体依次替换三元组中的尾实体得到另一批正负样本，两批正负样本合并构建正负样本集合并对其做标记，存储于实体银行Entity Bank中；

S4：采用计算多类交叉熵对比损失函数的方法NT-Xent，设置打分函数，密度比函数，通过计算多类交叉熵对比损失函数训练模型完成三元组补全任务，同时得到实体、关系的向量表示。

进一步地，上述步骤S3的具体实现过程为：

S31：补全尾实体，随机选取三元组集合中的一个三元组(h，r，t)，然后用实体集里的所有实体依次替换其尾实体t，得到(h，r，t^*)，若/>则对于(h，r)而言，t^*是正例t⁺，若/>则对于(h，r)而言，t^*是正例t^-，将正例t⁺和负例t^-的向量表示存储在集合大小为/>的实体银行Entity Bank中；

S32：补全头实体，随机选取三元组集合中的一个三元组(t，r^-1，h)，然后用实体集/>里的所有实体依次替换其实体h，得到(t，r^-1，h^*)，若/>则对于(t，r^-1)而言，h^*是正例h⁺，若/>则对于(t，r^-1)而言，h^*是负例h^-，将正例h⁺和负例h^-的向量表示存储在集合大小为/>的实体银行Entity Bank中；

S33：使用随机采样方法，从实体银行Entity Bank中采样1个正例和N-1个负例构成正负样本集合X＝{x₀，x₁，x₂，…，x_N-1}，完成自监督噪声对比估计正负样本集合X的构造。

进一步地，上述步骤S4的具体实现过程为：

S41：选择TransE、DistMult和ConvE三者其中之一作为能量函数，根据相似性假设设置新的打分函数score为带温度缩放因子τ的余弦相似度函数score(u，v)＝(u^Tv/||u||||v||)/τ，其中u和v分为需要计算余弦相似度的两个向量；

S42：根据打分函数计算score，设置密度比函数f(x，c)＝exp(score(e(x)，c))，其中e()为语义特征提取函数，exp()表示以自然常数e为底的指数函数，c为上下文向量，x为样本数据；

S43：按照正负样本采样的方法C³NCE构造的正负样本集合X，根据密度比函数f计算多类交叉熵对比损失函数NT-Xent：

其中log表示自然对数，表示在正负样本集合X计算数学期望，/>表示多类交叉熵对比损失函数，下标N表示训练数据的数量，x_i表示从正负样本集合中选取的第i个正样本，x_j表示从正负样本集合中选取的第j个负样本，c表示上下文向量，f表示密度比函数，通过优化该目标函数训练语义结构特征提取模块S和自动对比补全编码模块G，得到知识图谱实体和关系的向量表示。

由于本发明属于无监督学习，不需要设置额外的标签信息，极大地节省了人力、物力和财力，是一种有效的知识表示学习的方法。本发明通过设计自动补全三元组的知识图谱自监督学习任务，利用多类交叉熵的互信息估计方法充分挖掘知识图谱低级和高级语义结构特征，是一种有效的知识表示学习模型。

附图说明

图1：对比学习多类交叉熵互信息估计过程原理图；

图2：基于多类交叉熵对比补全编码的知识表示学习方法原理图。

具体实施方式

为使本发明所提的基于多类交叉熵对比补全编码的知识表示学习方法的特点更加清楚，所设计的自动补全三元组任务和知识表示学习方法的优势更加明显，下面结合附图和具体实施方式做进一步的详细说明。

首先进行知识图谱的基础符号定义，知识图谱定义为是实体集合，是关系集合，/>是三元组集合，/>是逆向关系集合，/>任意三元组/>r^-1是r的逆向关系，因此/> 语义特征提取函数为e()。

图1是本发明提出的对比学习多类交叉熵互信息估计过程原理图，以补全尾实体为例进行说明，白色点和黑色点分别表示所要预测的尾实体的正样本和负样本在连续空间中的向量表示，f是密度比函数，g是补全函数，q(t|h，r)在连续空间中预测的向量表示的分布，p(t|h，r)是向量表示的真实分布；通过对比学习多类交叉熵互信息估计方法优化密度比函数f，使得预测的上下文向量表示与正样本向量表示在表示空间逐渐拉近，与负样本向量表示在表示空间逐渐推远，从而训练本发明的语义结构特征提取模块S和自动对比补全编码模块G，使得预测的向量表示分布逼近真实分布，也就是q(t|h，r)≈p(t|h，r)。

图2是本发明提出的基于多类交叉熵对比补全编码的知识表示学习方法原理图，该原理图设计了自动补全三元组的知识图谱自监督学习任务，并高效地完成知识表示学习工作。下面以补全尾实体为例对本发明进行介绍。本发明所提的方法原理图包括两个模块：语义结构特征提取模块S和自动对比补全编码模块G。语义结构特征提取模块S包括嵌入神经网络Embedding，图卷积神经网络GCN，以及嵌入神经网络Embedding和图神经网络GCN之间的跳线连接Skip-connecting，分别负责对实体、关系向量提取低级语义特征，提取高级语义结构特征，以及融合低级和高级语义结构特征；自动对比补全编码模块G进行自动补全三元组的自监督学习任务，包括补全编码网络，负责根据实体向量和关系向量的拼接向量预测出实体上下文向量。本发明所提知识表示学习方法主要涉及两个训练方法：正负样本采样和损失函数的设置。实体银行Entity Bank的建立和正负样本采样的方法C³NCE包括生成所有的正负例并存储在实体银行Entity Bank中，以及从实体银行Entity Bank中采样1个正例和N-1个负例构成一个正负样本集合X，用于提供自监督噪声对比学习的训练数据；计算多类交叉熵对比损失函数的方法NT-Xent包括设置打分函数score，设置密度比函数f，以及按照正负样本采样的方法C³NCE构造的正负样本集合X，根据密度比函数f计算多类交叉熵对比损失函数NT-Xent；最后，通过优化目标函数训练语义结构特征提取模块S和自动对比补全编码模块G，得到知识图谱实体和关系的向量表示。图中的箭头代表三元组信息流的方向。以下逐个具体地介绍原理图中的各个部件。

语义结构特征提取模块S主要包括嵌入神经网络Embedding和图卷积神经网络GCN。

嵌入神经网络Embedding，entity_embedding＝nn.Embedding(M，d)初始化实体向量，entity_num_embeddings表示实体嵌入的数量为M，embedding_dim表示嵌入的维度为d；relation_embedding＝nn.Embedding(L，d)初始化关系向量，relation_num_embeddings表示关系嵌入的数量为L(含逆向关系)，embedding_dim表示嵌入的维度为d。利用Xavier初始化模型参数Embedding.weight，即从标准正态分布中初始化大小为(entity_num_embeddings，embedding_dim)和(relation_num_embeddings，embedding_dim)的矩阵，从矩阵对应行获取权重来表示对应标号的嵌入表示。通过嵌入神经网络Embedding得到知识图谱实体的低级语义特征l_v，以及关系/>的低级语义特征l_r。

图卷积神经网络GCN，这是专门处理图数据结构的神经网络。在多关系图中其中/>表示实体集合，/>表示关系集合，ε表示边的集合，边的集合ε包括三种类型的边，分别是三元组关系对应的边/>关系对应的反向关系边/>以及节点自己指向自己的自环边/> 是d维的实体输入向量。第i层的图卷积神经网络的输出表示为：

其中即实体输入向量，其中f_g是ReLU，Sigmoid，Tanh三种激活函数中任意一种，邻接矩阵/> W_r ⁽ⁱ⁾是每个关系对应一个的关系矩阵。通过图卷积神经网络GCN对知识图谱的实体/>的低级语义特征l_v和关系/>的低级语义特征l_r进行聚合传播得到知识图谱的实体v和关系r的高级语义结构特征h_v和h_r。

嵌入神经网络Embedding和图卷积神经网络GCN之间的跳线连接Skip-connecting，这是为综合考虑低级和高级语义结构特征而设计的连接方式，图中嵌入神经网络Embedding输出的是实体和关系的低级语义特征，而经过图卷积神经网络GCN后的特征为包含知识图谱的拓扑结构信息的高级语义结构特征。通过实验表明，高级语义结构特征更加关注于实体和关系的类别、属性等特征，而低级语义特征则更加关注于具体样本的细节特征。将低级语义特征和高级语义结构特征融合得到知识图谱实体和关系/>的语义结构特征：

s_v＝e(v)＝l_v+h_v

s_r＝e(r)＝l_r+h_r。

其中s_v表示融合低级和高级语义特征的实体特征，s_r表示融合低级和高级语义特征的关系特征，自动对比补全编码模块G，主要负责完成自动补全三元组的自监督学习任务，用于产生预测实体的上下文向量，其性能的好坏直接决定了整个模型的表征能力。选择能量函数TransE、DistMult和ConvE三者其中一个作为补全函数g()。自动对比补全编码网络得到预测的上下文向量包括以下步骤：

S1：当网络预测尾实体时，输入为头实体向量h和关系向量r的拼接向量(s_h，s_r)，经补全函数g()作用，输出为预测的尾实体上下文向量c＝g(s_h，s_r)；

S2：当网络预测头实体时，输入为尾实体向量t和关系的逆向关系r^-1的向量的拼接向量经补全函数g()作用，输出为预测的头实体上下文向量/>

实体银行Entity Bank的建立和正负样本采样的方法C³NCE，以及互信息估计的下界，满足其中I表示互消息，log()表示计算自然对数，/>表示损失函数。因此模型的效果与采样的样本数量N成正比，也就是说采样的数量越大，越接近互信息估计的理论下界，三元组补全和表征的效果就越好。为了增加采样样本的数量N，而不增加批大小batch size，本发明采用了存储银行Memory Bank的思想，使用了实体银行EntityBank来存储所有的正负样本，并对正负样本进行标记，这样在遍历所有的正样本时，大量的负样本不受批大小batch size限制，已经计算过并存储在实体银行Entity Bank中，只需要根据采样数N进行随机采样即可，避免了对负样本的重复计算，且当对所有负样本进行采样时，实体银行Entity Bank则能发挥最大的优势。实体银行Entity Bank的建立和正负样本采样的方法C³NCE包括以下步骤：

S1：补全尾实体。随机选取三元组集合中的一个三元组(h，r，t)，然后用实体集/>里的所有实体依次替换其尾实体t，得到(h，r，t^*)，若/>则对于(h，r)而言，t^*是正例t⁺，若/>则对于(h，r)而言，t^*是负例t^-，将正例t⁺和负例t^-的向量表示存储在集合大小为/>的实体银行Entity Bank中；

S2：补全头实体。随机选取三元组集合中的一个三元组(t，r^-1，h)，然后用实体集里的所有实体依次替换其实体h，得到(t，r^-1，h^*)，若/>则对于(t，r^-1)而言，h^*是正例h⁺，若/>则对于(t，r^-1)而言，h^*是负例h^-，将正例h⁺和负例h^-的向量表示存储在集合大小为/>的实体银行Entity Bank中；

S3：使用随机采样方法，从实体银行Entity Bank中采样1个正例和N-1个负例构成正负样本集合X＝{x₀，x₁，x₂，…，x_N-1}，完成自监督噪声对比学习正负样本集合X的构造。

获得训练样本集合X后，计算多类交叉熵对比损失函数的方法NT-Xent。本发明计算的知识图谱表征的对比损失函数NT-Xent，其表达式为：

其中log表示自然对数，表示在正负样本集合X计算数学期望，/>表示多类交叉熵对比损失函数，下标N表示训练数据的数量，x_i表示从正负样本集合中选取的第i个正样本，x_j表示从正负样本集合中选取的第j个负样本，c表示上下文向量，f表示密度比函数，用以表示观测样本x与上下文向量c的概率密度比/>密度比函数f(x，c)＝exp(score(e(x)，c))，其中e()为语义特征提取函数，exp()表示以自然常数e为底的指数函数，x为样本数据，c＝g(s_v，s_r)，根据相似性假设设置新的打分函数score为带温度缩放因子的余弦相似度函数score(u，v)＝(u^Tv/||u||||v||)/τ。然后，按照正负样本采样的方法C³NCE构造的正负样本集合X，根据密度比函数f计算多类交叉熵对比损失函数NT-Xent，并使用Adam优化器优化该目标函数训练S和G模块，得到知识图谱实体和关系的向量表示。

以上所述的具体实施方法，对本发明的目的，技术方案和有益效果进行了详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神原则之内，所做的任何修改、等同替换，改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多类交叉熵对比补全编码的知识表示学习方法，其特征在于，包括以下步骤：

S1：采用语义结构特征提取的方法，通过嵌入神经网络Embedding提取实体和关系的低级语义特征，再通过图卷积神经网络GCN提取知识图谱高级语义结构特征，利用跳线连接Skip-connecting融合低级语义和高级语义结构特征；

S2：采用自动对比补全的编码方法，选择TransE、DistMult和ConvE三者其中之一作为补全函数g()，根据预测的实体位置不同，输入不同的拼接向量，具体地，当网络预测尾实体时，输入为头实体向量h和关系向量r的拼接向量(s_h,s_r)，经补全函数g()作用，输出为预测的尾实体上下文向量c＝g(s_h,s_r)，当网络预测头实体时，输入为尾实体向量t和关系向量r^-1的拼接向量经补全函数g()作用，输出为预测的头实体上下文向量/>

S4：采用计算多类交叉熵对比损失函数的方法NT-Xent，设置打分函数score为带温度缩放因子τ的余弦相似度函数为score(u,v)＝(u^Tv/||u||||v||)/τ，其中u和v分别为需要计算余弦相似度的两个向量，而后设置密度比函数为f(x,c)＝exp(score(e(x),c))，其中e()为语义特征提取函数，exp()表示以自然常数e为底的指数函数，c为上下文向量，x为样本数据，按照正负样本采样的方法C³NCE构造正负样本集合X，计算多类交叉熵对比损失函数，

其中log表示自然对数，表示在正负样本集合X计算数学期望，/>表示多类交叉熵对比损失函数，下标N表示训练数据的数量，x_i表示从正负样本集合中选取的第i个正样本，x_j表示从正负样本集合中选取的第j个负样本，c表示上下文向量，f表示密度比函数，训练模型自动完成三元组补全任务，并得到实体和关系的向量表示。

2.根据权利要求1所述的一种基于多类交叉熵对比补全编码的知识表示学习方法，其特征在于，上述步骤S1所述语义结构特征提取的方法包括以下步骤：

S11：首先进行知识图谱的基础符号定义，知识图谱定义为是实体集合，/>是关系集合，/>是三元组集合，/>是逆向关系集合，/>任意三元组r^-1是r的逆向关系，因此/> 语义特征提取函数为e()；

S12：通过嵌入神经网络Embedding提取知识图谱实体的低级语义特征l_v，以及关系/>的低级语义特征l_r；

S13：通过图卷积神经网络GCN对知识图谱实体的低级语义特征l_v和关系/>的低级语义特征l_r进行聚合传播得到知识图谱实体v、关系r的高级语义结构特征h_v和h_r；

S14：在嵌入神经网络Embedding和图卷积神经网络GCN之间增加跳线连接Skip-connecting，将低级语义特征和高级语义结构特征融合得到知识图谱实体和关系的语义结构特征：

s_v＝e(v)＝l_v+h_v

s_r＝e(r)＝l_r+h_r

其中s_v和s_r分别表示实体融合特征和关系融合特征。

3.根据权利要求1所述的一种基于多类交叉熵对比补全编码的知识表示学习方法，其特征在于，上述步骤S3所述实体银行Entity Bank的建立和正负样本采样的方法C³NCE包括以下步骤：

S31：补全尾实体，随机选取三元组集合中的一个三元组(h,r,t)，然后用实体集/>里的所有实体依次替换其尾实体t，得到(h,r,t^*)，若/>则对于(h,r)而言，t^*是正例t⁺，若/>则对于(h,r)而言，t^*是正例t^-，将正例t⁺和负例t^-的向量表示存储在集合大小为/>的实体银行Entity Bank中；

S32：补全头实体，随机选取三元组集合中的一个三元组(t,r^-1,h)，然后用实体集/>里的所有实体依次替换其实体h，得到(t,r^-1,h^*)，若/>则对于(t,r^-1)而言，h^*是正例h⁺，若/>则对于(t,r^-1)而言，h^*是负例h^-，将正例h⁺和负例h^-的向量表示存储在集合大小为/>的实体银行Entity Bank中；

S33：使用随机采样方法，从实体银行Entity Bank中采样1个正例和N-1个负例构成正负样本集合X＝{x₀,x₁,x₂,…,x_N-1}，完成自监督噪声对比估计正负样本集合X的构造。