CN114741530A

CN114741530A - 基于对比学习的知识图谱嵌入模型训练方法

Info

Publication number: CN114741530A
Application number: CN202210388163.6A
Authority: CN
Inventors: 刘宇; 王恺; 单世民; 赵哲焕; 徐秀娟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-12

Abstract

本发明属于知识表示技术领域，提供一种基于对比学习的知识图谱嵌入模型训练方法。通过训练输入三元组得分最小化，实现正样本特征对齐；通过对一部分采样三元组进行全负样本训练，实现全局实体向量分布均匀性；通过关系特异性非线性函数，实现难易样本权重分配。该训练框架可以为实体向量参数提供稳定的训练目标，帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。在大规模知识图谱构建和维护工程中，本发明大幅度降低知识图谱嵌入模型的训练成本，有效提高知识图谱表示的更新效率，使得知识图谱可以保持高质量知识表征。

Description

基于对比学习的知识图谱嵌入模型训练方法

技术领域

本发明属于知识图谱嵌入模型训练技术领域，适用于通用领域知识图谱的知识图谱嵌入模型训练过程，特别涉及在大规模知识图谱迭代更新过程中知识图谱嵌入模型的高效训练。

背景技术

知识图谱表示学习旨在将知识图谱中实体和关系投影到连续向量空间，通过训练知识图谱嵌入模型，学习每个实体关系的低维稠密向量，进而自动预测图谱三元组中任一缺失成分，实现知识图谱补全和知识图谱推理等核心任务。知识图谱表示学习的成功取决于丰富的图谱数据和强大的表征模型，同时高效的训练策略也是必不可少的。知识图谱表示学习的训练策略旨在从图谱数据中收集合适的训练样本，定义有效的训练目标和损失函数，监督知识图谱嵌入模型的参数训练，使得模型能够充分编码图谱语义信息。

在知识图谱嵌入模型训练阶段，常用的是基于负样本采样的训练策略。由于知识图谱中的所有实体关系随机组合产生的潜在三元组数量非常庞大，将所有可能的三元组全部纳入模型训练是不现实的。基于负样本采样的方法能够有效减少训练过程的样本数量，通过随机构造负样本让模型学习到正确三元组的特征信息。然而，基于负样本采样的训练策略在模型训练的每一轮中会随机生成负样本数据。这使得模型参数的训练梯度不稳定，实体向量在向量空间中的位置不断波动，从而影响模型的收敛速度，延长训练时间。

发明内容

为了克服上述现有技术的缺点，本发明提出了一种基于对比学习的训练策略和损失函数。与以往从全体实体集合中随机抽取一些实体作为负样本的方法不同，本发明中的训练损失函数通过训练输入三元组得分最小化，实现正样本特征对齐；通过对一部分采样三元组进行全负样本训练，实现全局实体向量分布均匀性；通过关系特异性非线性函数，实现难易样本权重分配。该训练方法可以为实体向量参数提供稳定的训练目标，可以帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。

本发明采用的技术方案是：

(1)基于查询损失的对比学习损失函数。

本发明深入剖析了知识表示学习和自监督对比学习之间的关联。针对现有基于负采样损失函数训练周期长，训练梯度不稳定的问题，本文设计了一种基于查询采样的新损失函数，它可以更高效的实现两个重要的训练目标，正样本特征对齐和实体分布均匀性。

(2)基于难度感知的样本权重分配策略。

本发明分析了低维双曲线模型中的非线性函数的难度感知能力，由此提出了一种轻量化的难度感知激活机制，用于样本权重分配。该策略的作用类似于对比学习中的温度软化技巧，可以根据当前样本评分进行自动权重调整，帮助知识图谱嵌入模型专注于困难训练样本并加快收敛速度。

(3)知识图谱嵌入模型高效训练方法。

在知识图谱嵌入模型训练阶段，本发明首先会对实体关系向量参数进行随机初始化，然后用训练集中的三元组，构造链接预测任务样本。将上述两个成果整合为一个完整的训练策略。利用查询采样损失函数可以提供稳定的训练目标，利用难度感知样本权重分配策略将损失函数聚焦在难以区分的样本上。

基于对比学习的知识图谱嵌入模型训练方法，主要过程如下：

在知识图谱嵌入模型训练阶段，首先会对实体关系向量参数进行随机初始化，然后用训练集中的三元组，构造链接预测任务样本，即包含一个实体和一个关系的查询项，和对应的目标实体。然后从样本集合中随机抽取一些任务样本，通过训练知识图谱嵌入模型让正确三元组得分尽可能高，同时降低抽样任务样本构成的负样本三元组分数，来学习实体关系的向量表示。

本发明提出的高效训练方法中，给定模型的得分函数f(e，r，e_p)，每次模型训练过程首先从训练集中随机抽取一定数量的样本，作为一个批数据T。

是从批数据T中划分出一个样本子集。本发明的对比学习损失函数包含两个模块，分别实现对比学习中对齐性和均匀性这两个关键特性，具体定义如下：

该损失函数第一个模块是通过最大化所有正三元组的分数来实现对齐性属性。第二个模块则是最小化每个采样查询向量与图谱中所有实体向量的相似性，从而实现全局向量分布均匀性。这使得绝大部分向量参数在单次训练过程中保持相同的训练目标，从而保证计算梯度的稳定性，加快模型收敛。

其次，本发明在模型得分函数基础上设计了基于难度感知的样本权重分配策略，具体公式如下：

f_ha(e，r，e_p)＝-h(c_r·f(e，r，e_p))，

其中，c_r是关系特异的可训练放缩参数，用于为不同关系的预测得分分配不同的取值范围。难度感知激活函数h(·)对模型输出的三元组得分进行放大。根据原始得分的大小不同，对简单样本的得分放大幅度高，对困难样本的放大幅度低。从而在损失函数中，降低对简单样本的惩罚力度，增加对难以区分的困难样本的参数调整。

为了实现上述难度感知能力，难度感知激活函数需要在三元组得分取值范围内导数大于1且随得分增大而单调递增。具体地，本发明采用的难度感知激活函数如下：

h(x)＝min(x·e^x，γ)，

其中，min()表示取最小值，γ为超参数，用以限制放大后得分的上界。

给定基于查询采样的对比学习损失函数和基于难度感知的样本权重分配策略之后，本发明的训练方法的最终损失函数定义如下：

该损失函数在对齐损失部分对正样本放大得分进行平方处理。这样一来，正样本将比负样本获得更严格的正则化。和负样本难以区分的正样本将获得比邻近负样本更大的训练梯度，并且L2距离接近于零的已经明确识别出的正样本对损失函数的贡献更小，从而进一步加快模型训练的收敛速度。

本发明可以应用于各类型知识图谱嵌入模型的训练流程，能够使基于知识表示学习的图谱补全方法更好地应用于实际图谱维护场景。在大规模知识图谱构建和维护工程中，本发明可以大幅度降低知识图谱嵌入模型的训练成本，有效提高知识图谱表示的更新效率，使得知识图谱可以保持高质量知识表征。

附图说明

图1为本发明的知识图谱嵌入模型训练架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施例。

实施例

在本实施例中，在GTX 1070显卡上，采用深度学习方法PyTorch。

数据集：实验评估是在标准公开数据集FB15k237和WN18RR上进行的。WN18RR是英语词汇数据库WordNet的一个子集，描述英语词汇之间的关联关系，例如相似关系，上下位关系等。FB15k237是从知名大规模通用知识库Freebase中提取的子集，包括电影，演员，奖项和体育等领域的知识事实。

实验：为证明基于对比学习的知识图谱嵌入模型训练方法的有效性，以前沿知识图谱嵌入模型TransE，DistMult，和RotatE为目标模型，在两个数据集上测试平均排名倒数(MRR)和命中率(Hits@10)指标。结果如表1所示。实验证明相比于传统损失函数，本发明提出的训练策略可以在有限的训练时间内达到更高的训练模型精度。

表1不同置信度量方法的链接预测实验结果

从实验结果中可以看出，本发明相比于现有负采样训练策略对三种模型的训练效果更优，模型预测精度指标更高。

以上虽然描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于对比学习的知识图谱嵌入模型训练方法，其特征在于，首先对实体关系向量参数进行随机初始化，然后用训练集中的三元组，构造链接预测任务样本，即包含一个实体和一个关系的查询项，和对应的目标实体；然后从样本集合中随机抽取一些任务样本，通过训练知识图谱嵌入模型让正确三元组得分尽可能高，同时降低抽样任务样本构成的负样本三元组分数，来学习实体关系的向量表示；

给定模型的得分函数f(e，r，e_p)，每次模型训练过程首先从训练集中随机抽取一定数量的样本，作为一个批数据T；

是从批数据T中划分出一个样本子集；对比学习损失函数包含两个模块，分别实现对比学习中对齐性和均匀性这两个关键特性，具体定义如下：

该损失函数第一个模块是通过最大化所有正三元组的分数来实现对齐性属性；第二个模块则是最小化每个采样查询向量与图谱中所有实体向量的相似性，从而实现全局向量分布均匀性；这使得绝大部分向量参数在单次训练过程中保持相同的训练目标，从而保证计算梯度的稳定性，加快模型收敛。

2.根据权利要求1所述的基于对比学习的知识图谱嵌入模型训练方法，其特征在于，在模型得分函数基础上采用了基于难度感知的样本权重分配策略，具体公式如下：

f_ha(e，r，e_p)＝-h(c_r·f(e，r，e_p))，

其中，c_r是关系特异的可训练放缩参数，用于为不同关系的预测得分分配不同的取值范围；难度感知激活函数h(·)对模型输出的三元组得分进行放大；根据原始得分的大小不同，对简单样本的得分放大幅度高，对困难样本的放大幅度低；从而在损失函数中，降低对简单样本的惩罚力度，增加对难以区分的困难样本的参数调整；

为了实现上述难度感知能力，难度感知激活函数需要在三元组得分取值范围内导数大于1且随得分增大而单调递增；采用的难度感知激活函数如下：

h(x)＝min(x·e^x，γ)，

3.根据权利要求1或2所述的基于对比学习的知识图谱嵌入模型训练方法，其特征在于，给定基于查询采样的对比学习损失函数和基于难度感知的样本权重分配策略之后，训练方法的最终损失函数定义如下：

该损失函数在对齐损失部分对正样本放大得分进行平方处理；正样本将比负样本获得更严格的正则化；和负样本难以区分的正样本将获得比邻近负样本更大的训练梯度，并且L2距离接近于零的已经明确识别出的正样本对损失函数的贡献更小，从而进一步加快模型训练的收敛速度。