CN113987196B

CN113987196B - 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

Info

Publication number: CN113987196B
Application number: CN202111152202.4A
Authority: CN
Inventors: 张文; 朱渝珊; 赖亦璇; 徐雅静; 陈华钧
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-05-24
Anticipated expiration: 2041-09-29
Also published as: CN113987196A

Abstract

本发明公开了一种基于知识图谱蒸馏的知识图谱嵌入压缩方法，将充分捕捉高维知识图谱嵌入模型(Teacher模型)中的三元组信息和嵌入结构信息蒸馏到知识图谱嵌入模型(Student模型)中，在保证Student模型存储和推理效率的情况下，提升了Student模型的表达能力，在蒸馏过程中考虑了Teacher模型和Student模型之间的双重影响，提出了软标签评估机制来区分不同三元组的软标签的质量，并提出了先固定Teacher模型后解除固定Teacher模型的训练方式，来提高Student模型对Teacher模型的适应性，最终提升Student模型的性能。

Description

一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

技术领域

本发明属于知识图谱表示技术领域，具体涉及一种基于知识图谱蒸馏的知识图谱嵌入压缩方法。

背景技术

知识图谱(KG Knowledge Graph)，例如FreeBase，YAGO和WordNet等被逐渐构建起来，它们为许多重要的AI任务，例如语义搜索，推荐和问答等提供了有效的基础。知识图谱通常是一个多关系图，主要包含实体、关系和三元组，每一个三元组以实体作为节点和关系作为边缘，表示一条知识。三元组以(头部实体，关系，尾部实体)(简称为(h，r，t))的形式表示。

然而众所周知，当前大多数知识图谱还远远不够完整，这进而也促进了许多关于知识图谱完备性的研究，该任务旨在评估知识图中不存在的三元组的合理性。其中比较常见且广泛使用的方法是知识图谱嵌入(KGE Knowledge Graph Embedding)，该方法将三元组中的实体和关系映射到低维稠密的向量，并使用这些向量评估三元组的合理性，具有代表性知识图嵌入方法有翻译模型TransE、双线性模型DistMult、旋转模型RotatE等。知识图谱嵌入方法简单有效，因此被广泛利用，同时，为了获得更好的性能，通常首选为知识图谱训练具有更高维度的Embedding。

但是对很多现实场景的知识图谱来说，低维Embedding有很大甚至是不可或缺的方便之处。通常来说，模型大小(即参数的数量)以及模型推理的时间成本会随着Embedding维度的增加而快速增加。随着Embedding维度的增大，模型性能上所获得的增益越来越小，而模型大小和模型推理的时间成本却仍几乎保持线性增长。此外，高维Embedding在许多现实生活场景中的应用是不切实际的。例如，一个预训练的十亿级知识图谱应该以微调(fine-tuned)的方式来解决不同的下游任务，并且通常应以更低的成本进行部署，但是高维Embedding的设置给这种大规模知识图谱存储带来了巨大的存储挑战。另一方面，高维知识图谱Embedding对计算资源的要求很高，例如在边缘计算或移动设备上部署知识图谱，或者是在推理时间有限的情景下，由高维Embedding带来的高昂的推理时间成本也是难以被接受的，例如在线金融预测和需要实时更新用户表示的电商知识图谱等。

在上述提及的这些场景中，低维的知识图谱Embedding是必不可少的。然而，直接训练一个小尺寸Embedding的模型通常难以捕获到知识图谱中的重要信息，预测精度较差，缺乏实用价值。因此，需要提升知识图谱的低维Embedding的效果，使得低维Embedding在保持低存储和推理成本的情况下，依旧取得良好的补全和预测效果。

发明内容

鉴于上述，本发明的目的是提供一种基于知识图谱蒸馏的知识图谱嵌入压缩方法，旨在从预训练的高维KGE(Teacher)中学习获得低维KGE(Student)，使得低维KGE在保持低存储和推理成本的情况下取得良好的补全和预测效果。

为实现上述发明目的，本发明提供的技术方案为：

一种基于知识图谱蒸馏的知识图谱嵌入压缩方法，包括：

(1)获取预训练好的高维知识图谱嵌入模型作为老师模型，随机初始化一个低维知识图谱嵌入模型作为学生模型；

(2)对于每个三元组，分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后，计算两个模型输出的三元组分数差异，计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异，依据三元组分数差异和结构差异确定软标签优化目标；

(3)对于每个三元组，基于老师模型输出的三元组分数，利用软标签评估模块评估计算学生模型的第一软标签权重后，基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失，固定老师模型参数，利用第一软标签损失和第一硬标签损失优化学生模型参数；

(4)对于每个三元组，基于学生模型输出的三元组分数，利用软标签评估模块评估计算教师模型的第二软标签权重后，基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失，第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数，以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。

现有大多数知识图谱表示的方法不能很好地同时兼容高模型性能、低存储成本、推理成本，本发明提供的基于知识蒸馏的知识图谱嵌入压缩方法，相比于现有方法，具有的有益效果至少包括：

1、本发明能够充分捕捉高维知识图谱嵌入模型(Teacher模型)中的三元组信息和嵌入结构信息，并将这些信息蒸馏到知识图谱嵌入模型(Student模型)中，在保证Student模型存储和推理效率的情况下，提升了Student模型的表达能力；

2、本发明在蒸馏过程中考虑了Teacher模型和Student模型之间的双重影响，提出了软标签评估机制来区分不同三元组的软标签的质量，并提出了先固定Teacher模型后解除固定Teacher模型的训练方式，来提高Student模型对Teacher模型的适应性，最终提升Student模型的性能；

3、本发明可以从高维知识图谱嵌入中提取低维知识图谱嵌入，能够降低计算开销，在计算资源有限的应用中(例如在边缘计算或移动设备上部署知识图谱)，或者是在推理时间有限的情景下(例如基于知识图谱的在线金融预测)具有很好的实用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是本发明实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法的流程图。如图1所示，实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法，包括以下步骤：

步骤1，准备知识图谱，获取预训练好的高维知识图谱嵌入模型作为老师模型，随机初始化一个低维知识图谱嵌入模型作为学生模型。

实施例中，准备一个知识图谱G，知识图谱G中的实体集合为E，知识图谱G的关系集合R，知识图谱中三元组表示为(h,r,t)，其中h,t∈E,r∈R。用T表示知识图谱中的三元组(即用于训练的正三元组)集合，并生成用于训练的负三元组集合，记为T^-，用公式可以表示为：

准备一个预训练好的高维知识图谱嵌入模型，例如维度在500-2000的翻译模型TransE、双线性模型DistMult、旋转模型RotatE等，作为教师模型，简称Teacher模型，记Teacher模型的嵌入(embedding)维度为D^T，并随机初始化一个低维知识图谱嵌入模型作为学生模型，简称Student模型，记Student模型的嵌入(embedding)维度为D^S，其中D^T和D^S是可设置的超参数，其中D^T＞D^S，再者，还随时初始化软标签评估模块(SEM)中待学习的参数α₁,α₂,α₃,α₄,β₁,β₂,β₃和β₄。

步骤2，对于每个三元组，分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后，计算两个模型输出的三元组分数差异，计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异，依据三元组分数差异和结构差异确定软标签优化目标。

实施例中，对一个三元组(h,r,t)，记是Teacher模型给出的三元组分数，记/>是Student模型给出的三元组分数，/>和/>是两个数值，/>是Teacher模型中的头实体嵌入向量和尾实体嵌入向量，/>是Student模型中的头实体嵌入向量和尾实体嵌入向量。

采用以下公式计算老师模型和学生模型输出的三元组分数差异d_Score：

其中，分别表示三元组(h,r,t)经过老师模型T和学生模型S时，采用评分函数f_r(h,t)计算得到的三元组分数，l_δ(·)为Huber损失函数，δ为超参数，实施例中，δ取值为1，则/>为：

实施例中，三元组嵌入向量的结构通过头实体嵌入向量和尾实体嵌入向量的长度比和角度来反应，所以采用以下公式计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异d_Structure：

其中，h^T,t^T表示老师模型输出的头实体嵌入向量和尾实体嵌入向量，h^S,t^S表示表示学生模型输出的头实体嵌入向量和尾实体嵌入向量，表示表示头实体嵌入向量和尾实体嵌入向量之间的角度，/> 表示头实体嵌入向量和尾实体嵌入向量的长度比，/>l_δ(·)为Huber损失函数，δ为超参数。

在此基础上，依据三元组分数差异和结构差异确定软标签优化目标为：d_Soft＝d_Score+d_Structure。

步骤3，对于每个三元组，基于老师模型输出的三元组分数，利用软标签评估模块评估计算学生模型的第一软标签权重后，基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失，固定老师模型参数，利用第一软标签损失和第一硬标签损失优化学生模型参数。

实施例中，在获得老师模型输出的三元组分数基础上，利用软标签评估模块评估计算学生模型的第一软标签权重的过程为：

软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重，以保留高质量软标签的积极作用，避免低质量软标签的负面影响，具体来说，如果Teacher模型给一个负(正)三元组打高(低)分，这意味着老师倾向于将其判断为正(负)三元组，那么Teacher模型为这个三元组的软标签是不可靠的并可能对学生产生负面影响。对于这个三元组，我们需要削弱其软标签的权重，鼓励学生从硬标签中学习更多。通过以下公式计算学生模型的第一软标签权重：

对于正三元组，学生模型的第一软标签权重为：

对于负元组，学生模型的第一软标签权重为：

其中，表示三元组经过教师模型得到的三元组分数，α₁、β₁、α₂、β₂为要被学习的参数。

实施例中，基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失的过程为：

根据第一软标签权重、软标签优化目标构建学生模型的第一软标签损失为：

根据三元组的真实标签和第一软标签权重构建学生模型的第一硬标签损失为：

其中，d_soft为软标签优化目标，f_r ^S(h,t)表示三元组经过学生模型得到的三元组分数，T和T^-分别表示正三元组集合和负三元组集合，(h,r,t)∈T隐式表示正三元组的真实标签为1，(h,r,t)∈T^-隐式表示负三元组的真实标签为0。

对学生模型进行训练过程中，固定老师模型参数，采用基于梯度下降的优化算法仅优化学生模型参数，直至损失值收敛，优化目标为最小化以下损失函数

步骤4，对于每个三元组，基于学生模型输出的三元组分数，利用软标签评估模块评估计算教师模型的第二软标签权重后，基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失，第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数，以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。

实施例中，在获得老师模型输出的三元组分数的基础上，利用软标签评估模块评估计算教师模型的第二软标签权重的过程为：

软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重，以保留高质量软标签的积极作用，避免低质量软标签的负面影响，通过以下公式计算老师模型的第二软标签权重：

对于正三元组，老师模型的第二软标签权重为：

对于负元组，老师模型的第一软标签权重为：

其中，表示三元组经过学生模型得到的三元组分数，α₃、β₃、α₄、β₄为要被学习的参数。

实施例中，基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失的过程为：

根据第二软标签权重、软标签优化目标构建老师模型的第一软标签损失为：

根据三元组的真实标签和第二软标签权重构建老师模型的第一硬标签损失为：

其中，d_soft为软标签优化目标，表示三元组经过教师模型得到的三元组分数，T和T^-分别表示正三元组集合和负三元组集合，(h,r,t)∈T隐式表示正三元组的真实标签为1，(h,r,t)∈T^-隐式表示负三元组的真实标签为0。

联合训练过程中，解除老师模型参数的固定，采用基于梯度下降的优化算法同时优化老师模型参数和学生模型参数，直至损失值收敛，优化目标为最小化以下损失函数其中，/>分别为第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失。联合训练后，优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。

以上实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法可以应用到很多真实知识图谱场景，例如在千万级的大规模电商知识图谱的用户表示学习中，用户间的关联数据可以视为一个多关系图，用户作为实体，用户间的交互行为作为关系，例如三元组(用户A，分享商品链接，用户B)，表示用户A给用户B分享了一个商品的链接这一事实。此类电商知识图谱中用户实体数量通常在千万级，高维的Embedding(例如500-2000维)将给整个图谱的存储提出巨大挑战，应用本发明能将高维Embedding压缩到低维(50-200维)，在几乎不造成性能损失的条件下，将知识图谱的存储空间降低到10％，而推理速度也能增张将近10倍。压缩后的知识图谱嵌入模型可以用于商品搜索，商品推荐，好友推荐等任务，提升用户体验。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，包括以下步骤：

(4)对于每个三元组，基于学生模型输出的三元组分数，利用软标签评估模块评估计算教师模型的第二软标签权重后，基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失，第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数，以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型；

其中，利用软标签评估模块评估计算教师模型的第二软标签权重的过程为：

对于正三元组，老师模型的第二软标签权重为：

对于负元组，老师模型的第一软标签权重为：

2.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(2)中，采用以下公式计算老师模型和学生模型输出的三元组分数差异d_Score：

其中，分别表示三元组(h,r,t)经过老师模型T和学生模型S时，采用评分函数f_r(h,t)计算得到的三元组分数，l_δ(·)为Huber损失函数，δ为超参数。

3.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(2)中，采用以下公式计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异d_Structure：

其中，h^T,t^T表示老师模型输出的头实体嵌入向量和尾实体嵌入向量，h^S,t^S表示表示学生模型输出的头实体嵌入向量和尾实体嵌入向量，表示表示头实体嵌入向量和尾实体嵌入向量之间的角度，/>表示头实体嵌入向量和尾实体嵌入向量的长度比，l_δ(·)为Huber损失函数，δ为超参数。

4.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(3)中，利用软标签评估模块评估计算学生模型的第一软标签权重的过程为：

软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重，以保留高质量软标签的积极作用，避免低质量软标签的负面影响，通过以下公式计算学生模型的第一软标签权重：

对于正三元组，学生模型的第一软标签权重为：

对于负元组，学生模型的第一软标签权重为：

5.据权利要求4所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(3)中，基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失的过程为：

其中，d_soft为软标签优化目标，表示三元组经过学生模型得到的三元组分数，T和T^-分别表示正三元组集合和负三元组集合，(h,r,t)∈T隐式表示正三元组的真实标签为1，(h,r,t)∈T^-隐式表示负三元组的真实标签为0。

6.据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(3)中，固定老师模型参数，采用基于梯度下降的优化算法仅优化学生模型参数，直至损失值收敛，优化目标为最小化以下损失函数

7.据权利要求6所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(4)中，基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失的过程为：

8.据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法，其特征在于，步骤(4)中，解除老师模型参数的固定，采用基于梯度下降的优化算法同时优化老师模型参数和学生模型参数，直至损失值收敛，优化目标为最小化以下损失函数其中，/>分别为第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失。