CN113987196A - 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法 - Google Patents

一种基于知识图谱蒸馏的知识图谱嵌入压缩方法 Download PDF

Info

Publication number
CN113987196A
CN113987196A CN202111152202.4A CN202111152202A CN113987196A CN 113987196 A CN113987196 A CN 113987196A CN 202111152202 A CN202111152202 A CN 202111152202A CN 113987196 A CN113987196 A CN 113987196A
Authority
CN
China
Prior art keywords
soft
model
loss
tag
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111152202.4A
Other languages
English (en)
Other versions
CN113987196B (zh
Inventor
张文
朱渝珊
赖亦璇
徐雅静
陈华钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111152202.4A priority Critical patent/CN113987196B/zh
Publication of CN113987196A publication Critical patent/CN113987196A/zh
Application granted granted Critical
Publication of CN113987196B publication Critical patent/CN113987196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,将充分捕捉高维知识图谱嵌入模型(Teacher模型)中的三元组信息和嵌入结构信息蒸馏到知识图谱嵌入模型(Student模型)中,在保证Student模型存储和推理效率的情况下,提升了Student模型的表达能力,在蒸馏过程中考虑了Teacher模型和Student模型之间的双重影响,提出了软标签评估机制来区分不同三元组的软标签的质量,并提出了先固定Teacher模型后解除固定Teacher模型的训练方式,来提高Student模型对Teacher模型的适应性,最终提升Student模型的性能。

Description

一种基于知识图谱蒸馏的知识图谱嵌入压缩方法
技术领域
本发明属于知识图谱表示技术领域,具体涉及一种基于知识图谱蒸馏的知识图谱嵌入压缩方法。
背景技术
知识图谱(KG Knowledge Graph),例如FreeBase,YAGO和WordNet等被逐渐构建起来,它们为许多重要的AI任务,例如语义搜索,推荐和问答等提供了有效的基础。知识图谱通常是一个多关系图,主要包含实体、关系和三元组,每一个三元组以实体作为节点和关系作为边缘,表示一条知识。三元组以(头部实体,关系,尾部实体)(简称为(h,r,t))的形式表示。
然而众所周知,当前大多数知识图谱还远远不够完整,这进而也促进了许多关于知识图谱完备性的研究,该任务旨在评估知识图中不存在的三元组的合理性。其中比较常见且广泛使用的方法是知识图谱嵌入(KGE Knowledge Graph Embedding),该方法将三元组中的实体和关系映射到低维稠密的向量,并使用这些向量评估三元组的合理性,具有代表性知识图嵌入方法有翻译模型TransE、双线性模型DistMult、旋转模型RotatE等。知识图谱嵌入方法简单有效,因此被广泛利用,同时,为了获得更好的性能,通常首选为知识图谱训练具有更高维度的Embedding。
但是对很多现实场景的知识图谱来说,低维Embedding有很大甚至是不可或缺的方便之处。通常来说,模型大小(即参数的数量)以及模型推理的时间成本会随着Embedding维度的增加而快速增加。随着Embedding维度的增大,模型性能上所获得的增益越来越小,而模型大小和模型推理的时间成本却仍几乎保持线性增长。此外,高维Embedding在许多现实生活场景中的应用是不切实际的。例如,一个预训练的十亿级知识图谱应该以微调(fine-tuned)的方式来解决不同的下游任务,并且通常应以更低的成本进行部署,但是高维Embedding的设置给这种大规模知识图谱存储带来了巨大的存储挑战。另一方面,高维知识图谱Embedding对计算资源的要求很高,例如在边缘计算或移动设备上部署知识图谱,或者是在推理时间有限的情景下,由高维Embedding带来的高昂的推理时间成本也是难以被接受的,例如在线金融预测和需要实时更新用户表示的电商知识图谱等。
在上述提及的这些场景中,低维的知识图谱Embedding是必不可少的。然而,直接训练一个小尺寸Embedding的模型通常难以捕获到知识图谱中的重要信息,预测精度较差,缺乏实用价值。因此,需要提升知识图谱的低维Embedding的效果,使得低维Embedding在保持低存储和推理成本的情况下,依旧取得良好的补全和预测效果。
发明内容
鉴于上述,本发明的目的是提供一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,旨在从预训练的高维KGE(Teacher)中学习获得低维KGE(Student),使得低维KGE在保持低存储和推理成本的情况下取得良好的补全和预测效果。
为实现上述发明目的,本发明提供的技术方案为:
一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,包括:
(1)获取预训练好的高维知识图谱嵌入模型作为老师模型,随机初始化一个低维知识图谱嵌入模型作为学生模型;
(2)对于每个三元组,分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后,计算两个模型输出的三元组分数差异,计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异,依据三元组分数差异和结构差异确定软标签优化目标;
(3)对于每个三元组,基于老师模型输出的三元组分数,利用软标签评估模块评估计算学生模型的第一软标签权重后,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失,固定老师模型参数,利用第一软标签损失和第一硬标签损失优化学生模型参数;
(4)对于每个三元组,基于学生模型输出的三元组分数,利用软标签评估模块评估计算教师模型的第二软标签权重后,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失,第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数,以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。
现有大多数知识图谱表示的方法不能很好地同时兼容高模型性能、低存储成本、推理成本,本发明提供的基于知识蒸馏的知识图谱嵌入压缩方法,相比于现有方法,具有的有益效果至少包括:
1、本发明能够充分捕捉高维知识图谱嵌入模型(Teacher模型)中的三元组信息和嵌入结构信息,并将这些信息蒸馏到知识图谱嵌入模型(Student模型)中,在保证Student模型存储和推理效率的情况下,提升了Student模型的表达能力;
2、本发明在蒸馏过程中考虑了Teacher模型和Student模型之间的双重影响,提出了软标签评估机制来区分不同三元组的软标签的质量,并提出了先固定Teacher模型后解除固定Teacher模型的训练方式,来提高Student模型对Teacher模型的适应性,最终提升Student模型的性能;
3、本发明可以从高维知识图谱嵌入中提取低维知识图谱嵌入,能够降低计算开销,在计算资源有限的应用中(例如在边缘计算或移动设备上部署知识图谱),或者是在推理时间有限的情景下(例如基于知识图谱的在线金融预测)具有很好的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是本发明实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法的流程图。如图1所示,实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法,包括以下步骤:
步骤1,准备知识图谱,获取预训练好的高维知识图谱嵌入模型作为老师模型,随机初始化一个低维知识图谱嵌入模型作为学生模型。
实施例中,准备一个知识图谱G,知识图谱G中的实体集合为E,知识图谱G的关系集合R,知识图谱中三元组表示为(h,r,t),其中h,t∈E,r∈R。用T表示知识图谱中的三元组(即用于训练的正三元组)集合,并生成用于训练的负三元组集合,记为T-,用公式可以表示为:
Figure BDA0003287563880000051
准备一个预训练好的高维知识图谱嵌入模型,例如维度在500-2000的翻译模型TransE、双线性模型DistMult、旋转模型RotatE等,作为教师模型,简称Teacher模型,记Teacher模型的嵌入(embedding)维度为DT,并随机初始化一个低维知识图谱嵌入模型作为学生模型,简称Student模型,记Student模型的嵌入(embedding)维度为DS,其中DT和DS是可设置的超参数,其中DT>DS,再者,还随时初始化软标签评估模块(SEM)中待学习的参数α1234123和β4
步骤2,对于每个三元组,分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后,计算两个模型输出的三元组分数差异,计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异,依据三元组分数差异和结构差异确定软标签优化目标。
实施例中,对一个三元组(h,r,t),记
Figure BDA0003287563880000052
是Teacher模型给出的三元组分数,记
Figure BDA0003287563880000053
是Student模型给出的三元组分数,
Figure BDA0003287563880000054
Figure BDA0003287563880000055
是两个数值,
Figure BDA0003287563880000056
是Teacher模型中的头实体嵌入向量和尾实体嵌入向量,
Figure BDA0003287563880000057
是Student模型中的头实体嵌入向量和尾实体嵌入向量。
采用以下公式计算老师模型和学生模型输出的三元组分数差异dScore
Figure BDA0003287563880000058
其中,
Figure BDA0003287563880000059
分别表示三元组(h,r,t)经过老师模型T和学生模型S时,采用评分函数fr(h,t)计算得到的三元组分数,lδ(·)为Huber损失函数,δ为超参数,实施例中,δ取值为1,则
Figure BDA0003287563880000061
为:
Figure BDA0003287563880000062
实施例中,三元组嵌入向量的结构通过头实体嵌入向量和尾实体嵌入向量的长度比和角度来反应,所以采用以下公式计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异dStructure
Figure BDA0003287563880000063
其中,hT,tT表示老师模型输出的头实体嵌入向量和尾实体嵌入向量,hS,tS表示表示学生模型输出的头实体嵌入向量和尾实体嵌入向量,表示
Figure BDA0003287563880000064
表示头实体嵌入向量和尾实体嵌入向量之间的角度,
Figure BDA0003287563880000065
Figure BDA0003287563880000066
Figure BDA0003287563880000067
表示头实体嵌入向量和尾实体嵌入向量的长度比,
Figure BDA0003287563880000068
lδ(·)为Huber损失函数,δ为超参数。
在此基础上,依据三元组分数差异和结构差异确定软标签优化目标为:dSoft=dScore+dStructure
步骤3,对于每个三元组,基于老师模型输出的三元组分数,利用软标签评估模块评估计算学生模型的第一软标签权重后,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失,固定老师模型参数,利用第一软标签损失和第一硬标签损失优化学生模型参数。
实施例中,在获得老师模型输出的三元组分数基础上,利用软标签评估模块评估计算学生模型的第一软标签权重的过程为:
软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重,以保留高质量软标签的积极作用,避免低质量软标签的负面影响,具体来说,如果Teacher模型给一个负(正)三元组打高(低)分,这意味着老师倾向于将其判断为正(负)三元组,那么Teacher模型为这个三元组的软标签是不可靠的并可能对学生产生负面影响。对于这个三元组,我们需要削弱其软标签的权重,鼓励学生从硬标签中学习更多。通过以下公式计算学生模型的第一软标签权重:
对于正三元组,学生模型的第一软标签权重
Figure BDA0003287563880000071
为:
Figure BDA0003287563880000072
对于负元组,学生模型的第一软标签权重
Figure BDA0003287563880000073
为:
Figure BDA0003287563880000074
其中,
Figure BDA0003287563880000075
表示三元组经过教师模型得到的三元组分数,α1、β1、α2、β2为要被学习的参数。
实施例中,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失的过程为:
根据第一软标签权重、软标签优化目标构建学生模型的第一软标签损失
Figure BDA0003287563880000076
为:
Figure BDA0003287563880000077
根据三元组的真实标签和第一软标签权重构建学生模型的第一硬标签损失
Figure BDA0003287563880000078
为:
Figure BDA0003287563880000081
其中,dsoft为软标签优化目标,fr S(h,t)表示三元组经过学生模型得到的三元组分数,T和T-分别表示正三元组集合和负三元组集合,(h,r,t)∈T隐式表示正三元组的真实标签为1,(h,r,t)∈T-隐式表示负三元组的真实标签为0。
对学生模型进行训练过程中,固定老师模型参数,采用基于梯度下降的优化算法仅优化学生模型参数,直至损失值收敛,优化目标为最小化以下损失函数
Figure BDA0003287563880000082
步骤4,对于每个三元组,基于学生模型输出的三元组分数,利用软标签评估模块评估计算教师模型的第二软标签权重后,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失,第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数,以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。
实施例中,在获得老师模型输出的三元组分数的基础上,利用软标签评估模块评估计算教师模型的第二软标签权重的过程为:
软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重,以保留高质量软标签的积极作用,避免低质量软标签的负面影响,通过以下公式计算老师模型的第二软标签权重:
对于正三元组,老师模型的第二软标签权重
Figure BDA0003287563880000083
为:
Figure BDA0003287563880000084
对于负元组,老师模型的第一软标签权重
Figure BDA0003287563880000091
为:
Figure BDA0003287563880000092
其中,
Figure BDA0003287563880000093
表示三元组经过学生模型得到的三元组分数,α3、β3、α4、β4为要被学习的参数。
实施例中,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失的过程为:
根据第二软标签权重、软标签优化目标构建老师模型的第一软标签损失
Figure BDA0003287563880000094
为:
Figure BDA0003287563880000095
根据三元组的真实标签和第二软标签权重构建老师模型的第一硬标签损失
Figure BDA0003287563880000096
为:
Figure BDA0003287563880000097
其中,dsoft为软标签优化目标,
Figure BDA0003287563880000098
表示三元组经过教师模型得到的三元组分数,T和T-分别表示正三元组集合和负三元组集合,(h,r,t)∈T隐式表示正三元组的真实标签为1,(h,r,t)∈T-隐式表示负三元组的真实标签为0。
联合训练过程中,解除老师模型参数的固定,采用基于梯度下降的优化算法同时优化老师模型参数和学生模型参数,直至损失值收敛,优化目标为最小化以下损失函数
Figure BDA0003287563880000099
其中,
Figure BDA00032875638800000910
分别为第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失。联合训练后,优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。
以上实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法可以应用到很多真实知识图谱场景,例如在千万级的大规模电商知识图谱的用户表示学习中,用户间的关联数据可以视为一个多关系图,用户作为实体,用户间的交互行为作为关系,例如三元组(用户A,分享商品链接,用户B),表示用户A给用户B分享了一个商品的链接这一事实。此类电商知识图谱中用户实体数量通常在千万级,高维的Embedding(例如500-2000维)将给整个图谱的存储提出巨大挑战,应用本发明能将高维Embedding压缩到低维(50-200维),在几乎不造成性能损失的条件下,将知识图谱的存储空间降低到10%,而推理速度也能增张将近10倍。压缩后的知识图谱嵌入模型可以用于商品搜索,商品推荐,好友推荐等任务,提升用户体验。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,包括以下步骤:
(1)获取预训练好的高维知识图谱嵌入模型作为老师模型,随机初始化一个低维知识图谱嵌入模型作为学生模型;
(2)对于每个三元组,分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后,计算两个模型输出的三元组分数差异,计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异,依据三元组分数差异和结构差异确定软标签优化目标;
(3)对于每个三元组,基于老师模型输出的三元组分数,利用软标签评估模块评估计算学生模型的第一软标签权重后,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失,固定老师模型参数,利用第一软标签损失和第一硬标签损失优化学生模型参数;
(4)对于每个三元组,基于学生模型输出的三元组分数,利用软标签评估模块评估计算教师模型的第二软标签权重后,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失,第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数,以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。
2.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(2)中,采用以下公式计算老师模型和学生模型输出的三元组分数差异dScore
Figure FDA0003287563870000021
其中,
Figure FDA0003287563870000022
分别表示三元组(h,r,t)经过老师模型T和学生模型S时,采用评分函数fr(h,t)计算得到的三元组分数,lδ(·)为Huber损失函数,δ为超参数。
3.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(2)中,采用以下公式计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异dStructure
Figure FDA0003287563870000023
其中,hT,tT表示老师模型输出的头实体嵌入向量和尾实体嵌入向量,hS,tS表示表示学生模型输出的头实体嵌入向量和尾实体嵌入向量,表示
Figure FDA0003287563870000024
表示头实体嵌入向量和尾实体嵌入向量之间的角度,
Figure FDA0003287563870000025
表示头实体嵌入向量和尾实体嵌入向量的长度比,lδ(·)为Huber损失函数,δ为超参数。
4.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(3)中,利用软标签评估模块评估计算学生模型的第一软标签权重的过程为:
软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重,以保留高质量软标签的积极作用,避免低质量软标签的负面影响,通过以下公式计算学生模型的第一软标签权重:
对于正三元组,学生模型的第一软标签权重
Figure FDA0003287563870000026
为:
Figure FDA0003287563870000027
对于负元组,学生模型的第一软标签权重
Figure FDA0003287563870000028
为:
Figure FDA0003287563870000031
其中,
Figure FDA0003287563870000032
表示三元组经过教师模型得到的三元组分数,α1、β1、α2、β2为要被学习的参数。
5.据权利要求4所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(3)中,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失的过程为:
根据第一软标签权重、软标签优化目标构建学生模型的第一软标签损失
Figure FDA0003287563870000033
为:
Figure FDA0003287563870000034
根据三元组的真实标签和第一软标签权重构建学生模型的第一硬标签损失
Figure FDA0003287563870000035
为:
Figure FDA0003287563870000036
其中,dsoft为软标签优化目标,
Figure FDA0003287563870000037
表示三元组经过学生模型得到的三元组分数,T和T-分别表示正三元组集合和负三元组集合,(h,r,t)∈T隐式表示正三元组的真实标签为1,(h,r,t)∈T-隐式表示负三元组的真实标签为0。
6.据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(3)中,固定老师模型参数,采用基于梯度下降的优化算法仅优化学生模型参数,直至损失值收敛,优化目标为最小化以下损
失函数
Figure FDA0003287563870000041
7.据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(4)中,利用软标签评估模块评估计算教师模型的第二软标签权重的过程为:
软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重,以保留高质量软标签的积极作用,避免低质量软标签的负面影响,通过以下公式计算老师模型的第二软标签权重:
对于正三元组,老师模型的第二软标签权重
Figure FDA0003287563870000042
为:
Figure FDA0003287563870000043
对于负元组,老师模型的第一软标签权重
Figure FDA0003287563870000044
为:
Figure FDA0003287563870000045
其中,
Figure FDA0003287563870000046
表示三元组经过学生模型得到的三元组分数,α3、β3、α4、β4为要被学习的参数。
8.据权利要求6所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(4)中,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失的过程为:
根据第二软标签权重、软标签优化目标构建老师模型的第一软标签损失
Figure FDA0003287563870000047
为:
Figure FDA0003287563870000048
根据三元组的真实标签和第二软标签权重构建老师模型的第一硬标签损失
Figure FDA0003287563870000049
为:
Figure FDA0003287563870000051
其中,dsoft为软标签优化目标,
Figure FDA0003287563870000052
表示三元组经过教师模型得到的三元组分数,T和T-分别表示正三元组集合和负三元组集合,(h,r,t)∈T隐式表示正三元组的真实标签为1,(h,r,t)∈T-隐式表示负三元组的真实标签为0。
9.据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(4)中,解除老师模型参数的固定,采用基于梯度下降的优化算法同时优化老师模型参数和学生模型参数,直至损失值收敛,优化目标为最小化以下损失函数
Figure FDA0003287563870000053
其中,
Figure FDA0003287563870000054
分别为第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失。
CN202111152202.4A 2021-09-29 2021-09-29 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法 Active CN113987196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111152202.4A CN113987196B (zh) 2021-09-29 2021-09-29 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111152202.4A CN113987196B (zh) 2021-09-29 2021-09-29 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

Publications (2)

Publication Number Publication Date
CN113987196A true CN113987196A (zh) 2022-01-28
CN113987196B CN113987196B (zh) 2024-05-24

Family

ID=79737276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111152202.4A Active CN113987196B (zh) 2021-09-29 2021-09-29 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

Country Status (1)

Country Link
CN (1) CN113987196B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033718A (zh) * 2022-08-15 2022-09-09 浙江大学 一种业务应用部署方法、装置及设备
CN115438205A (zh) * 2022-11-08 2022-12-06 深圳长江家具有限公司 用于离线终端的知识图谱压缩存储方法
CN115544277A (zh) * 2022-12-02 2022-12-30 东南大学 一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509483A (zh) * 2018-01-31 2018-09-07 北京化工大学 基于知识图谱的机械故障诊断知识库构建方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法
US20190205748A1 (en) * 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112182245A (zh) * 2020-09-28 2021-01-05 中国科学院计算技术研究所 一种知识图谱嵌入模型的训练方法、系统和电子设备
CN113344205A (zh) * 2021-06-16 2021-09-03 广东电网有限责任公司 一种基于蒸馏关系的抽取加速方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205748A1 (en) * 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN108509483A (zh) * 2018-01-31 2018-09-07 北京化工大学 基于知识图谱的机械故障诊断知识库构建方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112182245A (zh) * 2020-09-28 2021-01-05 中国科学院计算技术研究所 一种知识图谱嵌入模型的训练方法、系统和电子设备
CN113344205A (zh) * 2021-06-16 2021-09-03 广东电网有限责任公司 一种基于蒸馏关系的抽取加速方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张文佳;: "基于CiteSpace的非虚构写作研究热点与趋势分析", 戏剧之家, no. 26, 15 September 2020 (2020-09-15) *
陈曦;陈华钧;张文;: "规则增强的知识图谱表示学习方法", 情报工程, no. 01, 15 February 2017 (2017-02-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033718A (zh) * 2022-08-15 2022-09-09 浙江大学 一种业务应用部署方法、装置及设备
CN115033718B (zh) * 2022-08-15 2022-10-25 浙江大学 一种业务应用部署方法、装置及设备
CN115438205A (zh) * 2022-11-08 2022-12-06 深圳长江家具有限公司 用于离线终端的知识图谱压缩存储方法
CN115544277A (zh) * 2022-12-02 2022-12-30 东南大学 一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法

Also Published As

Publication number Publication date
CN113987196B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN111291836B (zh) 一种生成学生网络模型的方法
CN110580500B (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
CN106649542B (zh) 用于视觉问答的系统和方法
CN113987196A (zh) 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法
CN109582956B (zh) 应用于句子嵌入的文本表示方法和装置
CN111741330A (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN111352965A (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN112364942B (zh) 信贷数据样本均衡方法、装置、计算机设备及存储介质
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN111737439B (zh) 一种问题生成方法及装置
CN111507406A (zh) 一种用于优化神经网络文本识别模型的方法与设备
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN114780768A (zh) 一种视觉问答任务处理方法、系统、电子设备及存储介质
CN107451617B (zh) 一种图转导半监督分类方法
CN117150026B (zh) 文本内容多标签分类方法与装置
CN117009547A (zh) 基于图神经网络与对抗学习的多模态知识图谱补全方法和装置
CN116738983A (zh) 模型进行金融领域任务处理的词嵌入方法、装置、设备
CN114444605B (zh) 一种基于双重不平衡场景下的无监督域适应方法
CN115599984A (zh) 一种检索方法
CN117795527A (zh) 使用自回归语言模型神经网络评估输出序列
CN114880536A (zh) 基于动量的数据评估方法、系统及存储介质
JP7148078B2 (ja) 属性推定装置、属性推定方法、属性推定器学習装置、及びプログラム
CN111737440B (zh) 一种问题生成方法及装置
CN117520551B (zh) 一种小样本文本自动分类方法及系统
CN116167434B (zh) 一种弱监督视觉语言预训练模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant