CN116361476A

CN116361476A - 一种基于插值法的知识图谱负样本合成方法

Info

Publication number: CN116361476A
Application number: CN202211455256.2A
Authority: CN
Inventors: 谢禹舜; 顾钊铨; 方滨兴; 张小松; 王乐; 牛伟纳; 韩伟红; 李树栋; 张登辉; 谭润楠; 龙宇
Original assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen; University of Electronic Science and Technology of China; Guangzhou University
Current assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen; University of Electronic Science and Technology of China; Guangzhou University
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-06-30
Anticipated expiration: 2042-11-21
Also published as: CN116361476B

Abstract

本发明公开了一种基于插值法的知识图谱负样本合成方法，包括以下步骤：S1：候选集筛选：从负样本中筛选负样本集合cand_il，作为mixup操作的候选集；S2：mixup样本合成：选择cand_il中的负样本进行合成得到cand_im，再将cand_im中的负样本和正样本

进行二次mixup合成；S3：训练更新：将得到的负样本集合cand_il、cand_im、cand_ik再筛选得到cand_is，并将其用于模型训练和更新强负样本集合

本发明易于实现，运算速度快，不增加原始嵌入模型的复杂度；能增强虚拟负样本的多样性，提升知识图谱嵌入模型的性能，易于叠加到已有的知识图谱嵌入模型中。

Description

一种基于插值法的知识图谱负样本合成方法

技术领域

本发明属于知识图谱嵌入领域，具体涉及一种基于插值法的知识图谱负样本合成方法。

背景技术

知识图谱(Knowledge Graph)是一种大规模的语义网络知识库，他采取符号化的表达方式，通过三元组的形式将知识存储于计算机中，因为知识图谱具有语义丰富、结构友好、易于理解等优势，所以近年来被广泛应用于态势感知、推荐系统、自然语言处理等领域。

虽然知识图谱具有明显优势，但是知识图谱中的知识是大量缺失的，为了补全知识图谱，目前最常用的技术是知识图谱嵌入。知识图谱嵌入是将知识图谱中的实体和关系嵌入到一个低维连续空间内，在方便计算的同时还保留知识图谱的结构信息。

知识图谱嵌入的训练过程中，需要提供正样本和负样本，使模型具备识别正、负样本的能力。正样本通常为现有的事实知识，负样本则是通过替换正样本中的头/尾实体而生成，该项技术称之为负采样技术。现有的负采样技术利用多种信息，在大量负样本候选集中进行筛选，得到有利于模型训练的强负样本，比如专利“一种知识图谱嵌入训练方法和相关装置”(CN202110013880.6)使用图谱的拓扑结构辅助筛选负样本。近年来有研究注意到mixup合成样本领域，比如专利“少标记半监督学习中的插值对比学习方法”(CN202210024335.1)利用mixup插值方法在嵌入空间中生成虚拟的正样本对，解决标签数据较少的问题。

发明内容

鉴于现有问题，本发明的目的在于提供一种基于插值法的知识图谱负样本合成方法，通过对算法等技术方案的改进，以解决上述技术问题。

本发明提供如下的技术方案：

一种基于插值法的知识图谱负样本合成方法，包括以下步骤：

S1：候选集筛选：从负样本中筛选负样本集合cand_il，作为mixup操作的候选集；S2：mixup样本合成：将集合cand_il中的负样本进行mixup混合得到cand_im，再将cand_im中的负样本和正样本

进行mixup合成，得到强负样本cand_ik；S3：训练更新：将得到的负样本集合cand_il、cand_im、cand_ik再筛选一次得到cand_is，在模型训练中使用cand_is集合，更新强负样本集合/>

步骤S1包括以下步骤：

S11：在嵌入模型的第(e+1)轮训练过程中，对数量为n的正样本集合

和的每一个正样本/>

获取对应的样本数量为s的负样本集合/>

和上一轮模型更新得到的数量为h的强负样本集合/>

S12：从实体集合ε中随机挑选实体替换正样本

的参数h或t，生成数量为f的候选负样本集合/>

S13：从负样本集合NS_i中任选n1个负样本，与

中的h个合成负样本相加，得到样本数量为n2的负样本集合

计算负样本集合cand_i中所有负样本和正样本/>

之间的相似度C_i；

S14：将负样本集合cand_i中的样本根据相似度C_i的数值大小从大到小排序，取前top-l个样本记为负样本集合

负样本集合

中的负样本数量为l，负样本集合cand_il即为mixup操作的候选集。

优选地，步骤S13通过以下公式计算相似度C_i：

其中，

为正样本/>

的嵌入形式，/>

为负样本集合cand_i中负样本/>

的嵌入形式。

步骤S2包括以下步骤：

S21：在负样本集合

通过对相似度C_i进行归一化操作得到每个样本对应的概率P_1i和候选集cand_il的多项概率分布，依据候选集的多项概率分布和每个样本对应的概率P_1i对候选集cand_il进行两次抽样，对得到的两个样本/>

和/>

进行mixup合成操作；

S22：重复以上操作m次，得到负样本集合

S23：计算cand_im中所有负样本和正样本

之间的相似度C_j；

S24：在负样本集合

中，根据每个样本的相似度C_j，通过对的相似度C_j进行归一化操作计算每个样本对应的概率/>

和候选集cand_im的多项概率分布，通过概率P_2j和候选集的多项概率分布对候选集cand_im进行一次抽样，将得到的一个负样本/>

与正样本/>

进行mixup合成操作；

S25：重复以上操作k次，得到负样本集合

优选地，步骤S21通过公式

计算概率P_1i；通过公式：

计算mixup合成操作的结果，其中，α_i为超参数，

是样本/>

和/>

经过mixup合成之后的样本，||.||是对样本/>

取L2正则化，其中，L2正则化公式为

n为W的维度；步骤S24通过公式/>

计算概率P_2j；通过公式：

计算mixup合成操作的结果，其中，β_i为超参数，

是正样本/>

和负样本/>

经过mixup合成之后的样本，||·||是对样本/>

取L2正则化，L2正则化公式为

n为W的维度。

步骤S23通过以下公式计算相似度C_j：

其中，

为正样本/>

的嵌入形式，/>

为cand_im中负样本/>

的嵌入形式。

步骤S3包括以下步骤：

S31：将负样本集合cand_il、cand_im、cand_ik中所有负样本汇总，作为正样本

对应的负样本集合

S32：使用第e轮训练得到的嵌入模型Model_e对cand_is中的所有负样本

进行打分，计算得到/>

根据score_i计算每个负样本对应的权重P_i；

S33：将cand_is中的样本根据权重P_i的大小，从大到小排序，取前top-h个样本更新强负样本集合

优选地，步骤S32通过公式：

计算权重P_i，其中，ε为超参数，s为cand_is中的样本总数。

优选地，当训练模型是基于平移距离的知识图谱嵌入模型时，损失函数为：

其中，margin为超参数，

为Model对正样本/>

的打分，/>

为Model对负样本/>

的打分，P_j的值为步骤S3中计算得到的权重P_i；当训练模型是基于语义匹配的知识图谱嵌入模型时，损失函数为：

其中，

为Model对正样本/>

的打分，/>

为Model对负样本/>

的打分，P_j的值为步骤S3中计算得到的权重P_i。

本发明的有益技术效果在于：

1.本发明提供的技术方案易于实现，运算效率高，不会增加原始嵌入模型的算法复杂度；

2.本发明提供的技术方案通过将mixup迁移到知识图谱嵌入领域，并进行双重mixup操作，增强了虚拟负样本的多样性；

3.本发明提供的技术方案可以挖掘出更多有利于模型训练的强负样本，提升知识图谱嵌入模型的整体性能；

4.本发明提供的技术方案可以叠加到任何已有的知识图谱嵌入模型中使用。

附图说明

图1是本发明实施例基于插值法的知识图谱负样本合成方法的流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，下述的实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

实施例1

参见图，在本发明实施例提供的基于插值法的知识图谱负样本合成方法，包括以下步骤：S1：候选集筛选：从负样本中筛选负样本集合cand_il，作为mixup操作的候选集；S2：mixup样本合成：将集合cand_il中的负样本进行mixup混合得到cand_im，再将cand_im中的负样本和正样本

步骤S1包括以下步骤：

中的每一个正样本/>

获取对应的样本数量为s的负样本集合/>

和上一轮模型更新得到的数量为h的强负样本集合/>

S12：从实体集合ε中随机挑选实体替换正样本

的参数h或t，生成数量为f的候选负样本集合/>

S13：从负样本集合NS_i中任选n1个负样本，与

中的h个合成负样本相加，得到样本数量为n2的负样本集合

计算负样本集合cand_i中所有负样本和正样本/>

之间的相似度C_i；

负样本集合

步骤S13通过以下公式计算相似度C_i：

其中，

为正样本/>

的嵌入形式，/>

为负样本集合cand_i中负样本/>

的嵌入形式。

步骤S2包括以下步骤：

S21：在负样本集合

和/>

进行mixup合成操作；

S22：重复以上操作m次，得到负样本集合

S23：计算cand_im中所有负样本和正样本

之间的相似度C_j；

S24：在负样本集合

与正样本/>

进行mixup合成操作；

S25：重复以上操作k次，得到负样本集合

步骤S21通过公式

计算概率P_1i；通过公式：

计算mixup合成操作的结果，其中，α_i为超参数，

是样本/>

和/>

经过mixup合成之后的样本，||·||是对样本/>

取L2正则化，其中，L2正则化公式为

n为W的维度；步骤S24通过公式/>

计算概率P_2j；通过公式：

计算mixup合成操作的结果，其中，β_i为超参数，

是正样本/>

和负样本/>

经过mixup合成之后的样本，||·||是对样本/>

取L2正则化，L2正则化公式为

n为W的维度。

步骤S23通过以下公式计算相似度C_j：

其中，

为正样本/>

的嵌入形式，/>

为cand_im中负样本/>

的嵌入形式。

步骤S3包括以下步骤：

对应的负样本集合

进行打分，计算得到/>

根据score_i计算每个负样本对应的权重P_i；

S33：将cand_is中的样本根据权重P_i的大小，从大到小排序，取前top-h个样本更新强负样本集台

步骤S32通过公式：

计算权重P_i，其中，ε为超参数，s为cand_is中的样本总数。

当训练模型是基于平移距离的知识图谱嵌入模型时，损失函数为：

其中，margin为超参数，

为Model对正样本/>

的打分，/>

为Model对负样本/>

其中，

为Model对正样本/>

的打分，/>

为Model对负样本/>

的打分，P_j的值为步骤S3中计算得到的权重P_i。

实施例2

本发明另一优选实施例，在实施例1的基础上，在中文知识图谱中，对于某一个正样本

为(江西，省份，中国)，经过/>

(假定k＝5)嵌入表示为((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，通过从实体集合ε中任选头、尾实体进行随机替换生成大量负样本NS_i，从NS_i中任选n1(假定n1＝5)个负样本：{((0.4，0.6，0.2，0.5，0.9)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.5，0.3，0.1，0.7，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.2，0.3，0.9，0.5，0.4))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.6，0.5，0.9，0.7，0.5))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.1，0.2，0.3，0.5))}，同时强负样本集合/>

(假定h＝3)，将上述8个负样本混合后形成负样本集合cand_i：{((0.4，0.6，0.2，0.5，0.9)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.5，0.3，0.1，0.7，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.2，0.3，0.9，0.5，0.4))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.6，0.5，0.9，0.7，0.5))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.1，0.2，0.3，0.5))，((0.4，0.2，0.9，0.4，0.6)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.5，0.6，0.8，0.9，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.6，0.4，0.9，0.7))}。

计算cand_i中所有负样本和正样本

之间的相似度C_i，得到相似度列表为{0.79，0.51，0.82，0.56，0.63，0.92，0.95，0.84}，根据相似度降序排序，取top-l个样本(假定l＝4)，形成负样本集合cand_il：{((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.2，0.3，0.9，0.5，0.4))，((0.4，0.2，0.9，0.4，0.6)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.5，0.6，0.8，0.9，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.6，0.4，0.9，0.7))}

通过对相似度C_i进行归一化操作得到每个样本对应的概率P_1i和候选集cand_il的多项概率分布，依据候选集的多项概率分布和每个样本对应的概率P_1i对候选集cand_il进行两次抽样和mixup合成操作，重复m次(假定m＝4)，挑选((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.2，0.3，0.9，0.5，0.4))和((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.6，0.4，0.9，0.7))进行mixup得到((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.25，0.45，0.65，0.7，0.55))(假定α₁＝0.5)；挑选((0.4，0.2，0.9，0.4，0.6)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))和((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.6，0.4，0.9，0.7))进行mixup操作得到((0.25，0.35，0.75，0.35，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))(假定α₂＝0.5)，挑选((0.5，0.6，0.8，0.9，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))和((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.6，0.4，0.9，0.7))进行mixup得到((0.3，0.55，0.7，0.6，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))(假定α₃＝0.5)，挑选((0.4，0.2，0.9，0.4，0.6)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))和((0.5，0.6，0.8，0.9，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))进行mixup得到((0.45，0.4，0.85，0.65，0.5)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))(假定α₄＝0.5)，最后得到cand_im：{((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.25，0.45，0.65，0.7，0.55))，((0.25，0.35，0.75，0.35，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))，((0.3，0.55，0.7，0.6，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))，((0.45，0.4，0.85，0.65，0.5)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))}。

计算cand_im中所有样本和正样本之间的相似度C_j，得到相似度列表为{0.89，0.98，0.87，0.92}，通过对的相似度C_j进行归一化操作计算每个样本对应的概率

和候选集cand_im的多项概率分布，依据候选集cand_im的多项概率分布和每个样本对应的概率P_2j对候选集cand_im进行一次抽样并和正样本进行mixup操作，重复k次(假定k＝4)，挑选((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.25，0.45，0.65，0.7，0.55))样本((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))进行mixup得到((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.325，0.325，0.675，0.75，0.725))(假定β₁＝0.5)，挑选((0.25，0.35，0.75，0.35，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))和正样本((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))进行mixup得到((0.175，0.425，0.675，0.325，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.45，0.225，0.55，0.9，0.7))(假定β₂＝0.5)，挑选((0.3，0.55，0.7，0.6，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))正样本((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))进行mixup得到((0.2，0.525，0.65，0.45，0.25)，(0.4，0.2，0.6，0.8，0.9)，(0.45，0.225，0.55，0.9，0.7))(假定β₃＝0.5)，挑选((0.45，0.4，0.85，0.65，0.5)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))和正样本((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))进行mixup得到((0.275，0.45，0.725，0.475，0.35)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))(假定β₄＝0.5)，最后得到cand_ik：{((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.325，0.325，0.675，0.75，0.725))，((0.175，0.425，0.675，0.325，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.45，0.225，0.55，0.9，0.7))，((0.2，0.525，0.65，0.45，0.25)，(0.4，0.2，0.6，0.8，0.9)，(0.45，0.225，0.55，0.9，0.7))，((0.275，0.45，0.725，0.475，0.35)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))}。

混合负样本集合cand_il、cand_im和cand_ik得到cand_is：{((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.2，0.3，0.9，0.5，0.4))，((0.4，0.2，0.9，0.4，0.6)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.5，0.6，0.8，0.9，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.3，0.6，0.4，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.25，0.45，0.65，0.7，0.55))，((0.25，0.35，0.75，0.35，0.4)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))，((0.3，0.55，0.7，0.6，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.4，0.35，0.5，0.9，0.7))，((0.45，0.4，0.85，0.65，0.5)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))，((0.1，0.5，0.6，0.3，0.2)，(0.4，0.2，0.6，0.8，0.9)，(0.325，0.325，0.675，0.75，0.725))，((0.175，0.425，0.675，0.325，0.3)，(0.4，0.2，0.6，0.8，0.9)，(0.45，0.225，0.55，0.9，0.7))，((0.2，0.525，0.65，0.45，0.25)，(0.4，0.2，0.6，0.8，0.9)，(0.45，0.225，0.55，0.9，0.7))，((0.275，0.45，0.725，0.475，0.35)，(0.4，0.2，0.6，0.8，0.9)，(0.5，0.1，0.6，0.9，0.7))}，根据上一轮的嵌入模型计算权重P_i列表为：{0.95，0.65，0.574，0.85，0.42，0.285，0.65，0.21，0.98，0.356，0.36，0.6}，将权重降序排序，取top-h(假定h＝3)个负样本，更新强负样本集合

将正样本

和负样本集合cand_is作为一对数据输入模型训练，以上步骤重复n次，获取到n对训练数据，然后输入嵌入模型完成一次训练。最后再让模型重复E轮训练，得到模型嵌入模型Model_E。

本发明上述实施例提供的方法，易于实现，运算速度快，不增加原始嵌入模型的复杂度；能增强虚拟负样本的多样性，提升知识图谱嵌入模型的性能，易于叠加到已有的知识图谱嵌入模型中。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。