CN114741530A - 基于对比学习的知识图谱嵌入模型训练方法 - Google Patents

基于对比学习的知识图谱嵌入模型训练方法 Download PDF

Info

Publication number
CN114741530A
CN114741530A CN202210388163.6A CN202210388163A CN114741530A CN 114741530 A CN114741530 A CN 114741530A CN 202210388163 A CN202210388163 A CN 202210388163A CN 114741530 A CN114741530 A CN 114741530A
Authority
CN
China
Prior art keywords
training
samples
model
knowledge graph
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210388163.6A
Other languages
English (en)
Inventor
刘宇
王恺
单世民
赵哲焕
徐秀娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210388163.6A priority Critical patent/CN114741530A/zh
Publication of CN114741530A publication Critical patent/CN114741530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于知识表示技术领域,提供一种基于对比学习的知识图谱嵌入模型训练方法。通过训练输入三元组得分最小化,实现正样本特征对齐;通过对一部分采样三元组进行全负样本训练,实现全局实体向量分布均匀性;通过关系特异性非线性函数,实现难易样本权重分配。该训练框架可以为实体向量参数提供稳定的训练目标,帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。在大规模知识图谱构建和维护工程中,本发明大幅度降低知识图谱嵌入模型的训练成本,有效提高知识图谱表示的更新效率,使得知识图谱可以保持高质量知识表征。

Description

基于对比学习的知识图谱嵌入模型训练方法
技术领域
本发明属于知识图谱嵌入模型训练技术领域,适用于通用领域知识图谱的知识图谱嵌入模型训练过程,特别涉及在大规模知识图谱迭代更新过程中知识图谱嵌入模型的高效训练。
背景技术
知识图谱表示学习旨在将知识图谱中实体和关系投影到连续向量空间,通过训练知识图谱嵌入模型,学习每个实体关系的低维稠密向量,进而自动预测图谱三元组中任一缺失成分,实现知识图谱补全和知识图谱推理等核心任务。知识图谱表示学习的成功取决于丰富的图谱数据和强大的表征模型,同时高效的训练策略也是必不可少的。知识图谱表示学习的训练策略旨在从图谱数据中收集合适的训练样本,定义有效的训练目标和损失函数,监督知识图谱嵌入模型的参数训练,使得模型能够充分编码图谱语义信息。
在知识图谱嵌入模型训练阶段,常用的是基于负样本采样的训练策略。由于知识图谱中的所有实体关系随机组合产生的潜在三元组数量非常庞大,将所有可能的三元组全部纳入模型训练是不现实的。基于负样本采样的方法能够有效减少训练过程的样本数量,通过随机构造负样本让模型学习到正确三元组的特征信息。然而,基于负样本采样的训练策略在模型训练的每一轮中会随机生成负样本数据。这使得模型参数的训练梯度不稳定,实体向量在向量空间中的位置不断波动,从而影响模型的收敛速度,延长训练时间。
发明内容
为了克服上述现有技术的缺点,本发明提出了一种基于对比学习的训练策略和损失函数。与以往从全体实体集合中随机抽取一些实体作为负样本的方法不同,本发明中的训练损失函数通过训练输入三元组得分最小化,实现正样本特征对齐;通过对一部分采样三元组进行全负样本训练,实现全局实体向量分布均匀性;通过关系特异性非线性函数,实现难易样本权重分配。该训练方法可以为实体向量参数提供稳定的训练目标,可以帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。
本发明采用的技术方案是:
(1)基于查询损失的对比学习损失函数。
本发明深入剖析了知识表示学习和自监督对比学习之间的关联。针对现有基于负采样损失函数训练周期长,训练梯度不稳定的问题,本文设计了一种基于查询采样的新损失函数,它可以更高效的实现两个重要的训练目标,正样本特征对齐和实体分布均匀性。
(2)基于难度感知的样本权重分配策略。
本发明分析了低维双曲线模型中的非线性函数的难度感知能力,由此提出了一种轻量化的难度感知激活机制,用于样本权重分配。该策略的作用类似于对比学习中的温度软化技巧,可以根据当前样本评分进行自动权重调整,帮助知识图谱嵌入模型专注于困难训练样本并加快收敛速度。
(3)知识图谱嵌入模型高效训练方法。
在知识图谱嵌入模型训练阶段,本发明首先会对实体关系向量参数进行随机初始化,然后用训练集中的三元组,构造链接预测任务样本。将上述两个成果整合为一个完整的训练策略。利用查询采样损失函数可以提供稳定的训练目标,利用难度感知样本权重分配策略将损失函数聚焦在难以区分的样本上。
基于对比学习的知识图谱嵌入模型训练方法,主要过程如下:
在知识图谱嵌入模型训练阶段,首先会对实体关系向量参数进行随机初始化,然后用训练集中的三元组,构造链接预测任务样本,即包含一个实体和一个关系的查询项,和对应的目标实体。然后从样本集合中随机抽取一些任务样本,通过训练知识图谱嵌入模型让正确三元组得分尽可能高,同时降低抽样任务样本构成的负样本三元组分数,来学习实体关系的向量表示。
本发明提出的高效训练方法中,给定模型的得分函数f(e,r,ep),每次模型训练过程首先从训练集中随机抽取一定数量的样本,作为一个批数据T。
Figure BDA0003595673500000021
是从批数据T中划分出一个样本子集。本发明的对比学习损失函数包含两个模块,分别实现对比学习中对齐性和均匀性这两个关键特性,具体定义如下:
Figure BDA0003595673500000031
该损失函数第一个模块是通过最大化所有正三元组的分数来实现对齐性属性。第二个模块则是最小化每个采样查询向量与图谱中所有实体向量的相似性,从而实现全局向量分布均匀性。这使得绝大部分向量参数在单次训练过程中保持相同的训练目标,从而保证计算梯度的稳定性,加快模型收敛。
其次,本发明在模型得分函数基础上设计了基于难度感知的样本权重分配策略,具体公式如下:
fha(e,r,ep)=-h(cr·f(e,r,ep)),
其中,cr是关系特异的可训练放缩参数,用于为不同关系的预测得分分配不同的取值范围。难度感知激活函数h(·)对模型输出的三元组得分进行放大。根据原始得分的大小不同,对简单样本的得分放大幅度高,对困难样本的放大幅度低。从而在损失函数中,降低对简单样本的惩罚力度,增加对难以区分的困难样本的参数调整。
为了实现上述难度感知能力,难度感知激活函数需要在三元组得分取值范围内导数大于1且随得分增大而单调递增。具体地,本发明采用的难度感知激活函数如下:
h(x)=min(x·ex,γ),
其中,min()表示取最小值,γ为超参数,用以限制放大后得分的上界。
给定基于查询采样的对比学习损失函数和基于难度感知的样本权重分配策略之后,本发明的训练方法的最终损失函数定义如下:
Figure BDA0003595673500000032
该损失函数在对齐损失部分对正样本放大得分进行平方处理。这样一来,正样本将比负样本获得更严格的正则化。和负样本难以区分的正样本将获得比邻近负样本更大的训练梯度,并且L2距离接近于零的已经明确识别出的正样本对损失函数的贡献更小,从而进一步加快模型训练的收敛速度。
本发明可以应用于各类型知识图谱嵌入模型的训练流程,能够使基于知识表示学习的图谱补全方法更好地应用于实际图谱维护场景。在大规模知识图谱构建和维护工程中,本发明可以大幅度降低知识图谱嵌入模型的训练成本,有效提高知识图谱表示的更新效率,使得知识图谱可以保持高质量知识表征。
附图说明
图1为本发明的知识图谱嵌入模型训练架构图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施例。
实施例
在本实施例中,在GTX 1070显卡上,采用深度学习方法PyTorch。
数据集:实验评估是在标准公开数据集FB15k237和WN18RR上进行的。WN18RR是英语词汇数据库WordNet的一个子集,描述英语词汇之间的关联关系,例如相似关系,上下位关系等。FB15k237是从知名大规模通用知识库Freebase中提取的子集,包括电影,演员,奖项和体育等领域的知识事实。
实验:为证明基于对比学习的知识图谱嵌入模型训练方法的有效性,以前沿知识图谱嵌入模型TransE,DistMult,和RotatE为目标模型,在两个数据集上测试平均排名倒数(MRR)和命中率(Hits@10)指标。结果如表1所示。实验证明相比于传统损失函数,本发明提出的训练策略可以在有限的训练时间内达到更高的训练模型精度。
表1不同置信度量方法的链接预测实验结果
Figure BDA0003595673500000041
Figure BDA0003595673500000051
从实验结果中可以看出,本发明相比于现有负采样训练策略对三种模型的训练效果更优,模型预测精度指标更高。
以上虽然描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (3)

1.一种基于对比学习的知识图谱嵌入模型训练方法,其特征在于,首先对实体关系向量参数进行随机初始化,然后用训练集中的三元组,构造链接预测任务样本,即包含一个实体和一个关系的查询项,和对应的目标实体;然后从样本集合中随机抽取一些任务样本,通过训练知识图谱嵌入模型让正确三元组得分尽可能高,同时降低抽样任务样本构成的负样本三元组分数,来学习实体关系的向量表示;
给定模型的得分函数f(e,r,ep),每次模型训练过程首先从训练集中随机抽取一定数量的样本,作为一个批数据T;
Figure FDA0003595673490000011
是从批数据T中划分出一个样本子集;对比学习损失函数包含两个模块,分别实现对比学习中对齐性和均匀性这两个关键特性,具体定义如下:
Figure FDA0003595673490000012
该损失函数第一个模块是通过最大化所有正三元组的分数来实现对齐性属性;第二个模块则是最小化每个采样查询向量与图谱中所有实体向量的相似性,从而实现全局向量分布均匀性;这使得绝大部分向量参数在单次训练过程中保持相同的训练目标,从而保证计算梯度的稳定性,加快模型收敛。
2.根据权利要求1所述的基于对比学习的知识图谱嵌入模型训练方法,其特征在于,在模型得分函数基础上采用了基于难度感知的样本权重分配策略,具体公式如下:
fha(e,r,ep)=-h(cr·f(e,r,ep)),
其中,cr是关系特异的可训练放缩参数,用于为不同关系的预测得分分配不同的取值范围;难度感知激活函数h(·)对模型输出的三元组得分进行放大;根据原始得分的大小不同,对简单样本的得分放大幅度高,对困难样本的放大幅度低;从而在损失函数中,降低对简单样本的惩罚力度,增加对难以区分的困难样本的参数调整;
为了实现上述难度感知能力,难度感知激活函数需要在三元组得分取值范围内导数大于1且随得分增大而单调递增;采用的难度感知激活函数如下:
h(x)=min(x·ex,γ),
其中,min()表示取最小值,γ为超参数,用以限制放大后得分的上界。
3.根据权利要求1或2所述的基于对比学习的知识图谱嵌入模型训练方法,其特征在于,给定基于查询采样的对比学习损失函数和基于难度感知的样本权重分配策略之后,训练方法的最终损失函数定义如下:
Figure FDA0003595673490000021
该损失函数在对齐损失部分对正样本放大得分进行平方处理;正样本将比负样本获得更严格的正则化;和负样本难以区分的正样本将获得比邻近负样本更大的训练梯度,并且L2距离接近于零的已经明确识别出的正样本对损失函数的贡献更小,从而进一步加快模型训练的收敛速度。
CN202210388163.6A 2022-04-14 2022-04-14 基于对比学习的知识图谱嵌入模型训练方法 Pending CN114741530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210388163.6A CN114741530A (zh) 2022-04-14 2022-04-14 基于对比学习的知识图谱嵌入模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210388163.6A CN114741530A (zh) 2022-04-14 2022-04-14 基于对比学习的知识图谱嵌入模型训练方法

Publications (1)

Publication Number Publication Date
CN114741530A true CN114741530A (zh) 2022-07-12

Family

ID=82281405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210388163.6A Pending CN114741530A (zh) 2022-04-14 2022-04-14 基于对比学习的知识图谱嵌入模型训练方法

Country Status (1)

Country Link
CN (1) CN114741530A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115936115A (zh) * 2023-01-05 2023-04-07 电子科技大学 基于图卷积对比学习和XLNet的知识图谱嵌入方法
CN117033668A (zh) * 2023-10-07 2023-11-10 之江实验室 一种知识图谱质量评估方法、装置、存储介质及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115422369B (zh) * 2022-08-30 2023-11-03 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115564049B (zh) * 2022-12-06 2023-05-09 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115936115A (zh) * 2023-01-05 2023-04-07 电子科技大学 基于图卷积对比学习和XLNet的知识图谱嵌入方法
CN115936115B (zh) * 2023-01-05 2023-10-13 电子科技大学 基于图卷积对比学习和XLNet的知识图谱嵌入方法
CN117033668A (zh) * 2023-10-07 2023-11-10 之江实验室 一种知识图谱质量评估方法、装置、存储介质及电子设备
CN117033668B (zh) * 2023-10-07 2024-01-26 之江实验室 一种知识图谱质量评估方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN114741530A (zh) 基于对比学习的知识图谱嵌入模型训练方法
Ren et al. Rocketqav2: A joint training method for dense passage retrieval and passage re-ranking
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN110929161B (zh) 一种面向大规模用户的个性化教学资源推荐方法
CN108647577A (zh) 一种自适应难例挖掘的行人重识别模型、方法与系统
Zhang et al. Auxiliary training: Towards accurate and robust models
Dong et al. Diswot: Student architecture search for distillation without training
Wang et al. A hybrid gray wolf optimizer for hyperspectral image band selection
CN109033172A (zh) 一种深度学习与近似目标定位的图像检索方法
CN111353545A (zh) 一种基于稀疏网络迁移的植株病虫害识别方法
CN112016686A (zh) 一种基于深度学习模型的对抗性训练方法
Xia et al. Progressive automatic design of search space for one-shot neural architecture search
CN115019123A (zh) 一种遥感图像场景分类的自蒸馏对比学习方法
CN115272881B (zh) 动态关系蒸馏的长尾遥感图像目标识别方法
Liu et al. Cot: Unsupervised domain adaptation with clustering and optimal transport
CN114863175A (zh) 一种无监督多源部分域适应图像分类方法
CN109871379A (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN104361135A (zh) 一种图像检索方法
CN115631393A (zh) 基于特征金字塔与知识引导的知识蒸馏的图像处理方法
CN117649552A (zh) 一种基于对比学习和主动学习的图像增量学习方法
Wang et al. Out-of-distributed semantic pruning for robust semi-supervised learning
Zhang et al. Long-tailed classification with gradual balanced loss and adaptive feature generation
Wang et al. Weakly supervised object detection based on active learning
CN109033428A (zh) 一种智能客服方法及系统
CN103440332B (zh) 一种基于关系矩阵正则化增强表示的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination