CN109376249A

CN109376249A - 一种基于自适应负采样的知识图谱嵌入方法

Info

Publication number: CN109376249A
Application number: CN201811042565.0A
Authority: CN
Inventors: 古天龙; 饶官军; 常亮; 秦赛歌; 王文凯; 宣闻
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-02-22
Anticipated expiration: 2038-09-07
Also published as: CN109376249B

Abstract

本发明提出一种基于自适应负采样的知识图谱嵌入方法,包括以下步骤：步骤1、根据实体间的相似性对实体向量进行分组；步骤2、利用同一分组内的相似实体进行相互替换并生成与正例三元组相似的负例三元组；步骤3、将所述正例三元组与所述负例三元组作为知识图谱嵌入模型中的训练输入；步骤4、利用所述知识图谱嵌入模型的损失函数优化更新实体向量与关系向量。本发明提高了替换实体与被替换实体之间的相似度，从而提高负例三元组质量；根据实体在知识图谱中出现的频率对实体进行采用，提高了高频实体被训练的次数；通过提高负例三元组的质量，有效的实现了知识图谱中实体与关系的嵌入。

Description

一种基于自适应负采样的知识图谱嵌入方法

技术领域

本发明涉及自然语言处理以及知识图谱领域，特别涉及一种基于自适应负采样的知识图谱嵌入方法。

背景技术

知识图谱(Knowledge Graph,KG)的概念是谷歌在2012年正式提出，主要用于提升搜索引擎性能。从本质上看，知识图谱是一种语义网络，其表达了各类型实体及其之间的语义关系。知识图谱是由不同类型的实体作为节点，实体之间的各种关系作为边的有向图。通常使资源描述框架(Resource Description Framework,RDF)标准进行存储，存储形式为三元组(head,relation, tail)(简写为(h,r,t)),其中h表示头实体，t表示尾实体，r表示头实体h与尾实体t之间的关系，例如(UnitedStates，President，DonaldTrump)。当前知识图谱已在数据挖掘，人工智能等领域具有至关重要的作用，促进了人工智能应用的发展，如智能问答，个性化旅游推荐等。

随着大数据时代的到来，知识图谱规模得到了快速的增长，各种大规模知识图谱(如， Freebase,WordNet,DBpedia等)相继出现。虽然现有知识图谱的规模已经相当大，但其仍是不完整的，因此有必要对现有知识图谱进行补全。这是当前知识图谱应用中最重要的挑战之一。近年来，学习知识图谱中实体与关系的向量表示的方法变得非常流行。其中，基于嵌入的表示学习方法显示出强大的可行性与鲁棒性。基于嵌入的表示学习方法是将知识图谱中的实体与关系嵌入(或投影)到连续的、稠密的、低维的和实值的向量空间，将其表示为稠密低维实值向量。然后通过向量之间的欧式距离、马氏距离或余弦距离计算实现对知识图谱中对象间的相似度计算。这类方法在处理大规模数据的稀疏性方面表现出良好性能。

虽然基于嵌入的表示学习模型已经获得了良好的性能，但是这方面的研究仍然面临这一个共同的挑战。现有的知识图谱中只存储了有效的正确知识，而没有与之对应有效的错误知识。在表示学习模型训练中所用的知识图谱，同样只存在的有效的正确知识(正例三元组)，不存在有效的错误知识(负例三元组)，这为表示学习模型的训练提出了一个很大的挑战。然而，现有的模型在为每个正例三元组生成与之对应的负例三元组时，通常是通过删除正例三元组中的头实体(或者尾实体)，然后从已有的实体集中等概率随机选择一个实体进行替换，从而得到负例三元组。显然这种方法是不理想的。因为实体集的数量巨大，每一个正例三元组所对应的负例三元组的数量更加巨大。而对于大量的负例三元组来说，他们与正例三元组有着巨大的差别，使他们极易被分辨，他们不是一个有效的负例(例如，负例三元组(UnitedStates，President， NewYork))。如果仅仅通过从实体集中等概率随机抽取一个实体进行替换生成负例三元组，通常会导致出现两个问题：第一，生成的负例三元组大多数情况下是一个易于区分的负例。换句话说，就是生成的大量负例三元组都与正例三元组不相似，这样的负例对于模型训练没有帮助。第二，生成的负例三元组可能是一个错误的负例，即是一个不存在于训练集中的正例三元组。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于自适应负采样的知识图谱嵌入方法，用以解决现有技术中不能生成有效的负例帮助学习知识图谱的向量表示的问题。

为实现上述目的及其他相关目的，本发明提供一种基于自适应负采样的知识图谱嵌入方法，该方法包括以下步骤：

步骤1、根据实体间的相似性对实体向量进行分组；

步骤2、利用同一分组内的相似实体进行相互替换并生成与正例三元组相似的负例三元组；

步骤3、将所述正例三元组与所述负例三元组作为知识图谱嵌入模型中的训练输入；

步骤4、利用所述知识图谱嵌入模型的损失函数优化更新实体向量与关系向量。

可选地，所述根据实体间的相似性对实体向量进行分组，具体采用无监督的聚类算法对实体向量进行分组。

可选地，所述利用同一组内的相似实体进行相互替换并生成与正例三元组相似的负例三元组，具体采用以下步骤：

步骤21、选择正例三元组中需要被替换的实体，获取被替换实体所在的分组的所有实体信息；

步骤22、根据获取的所有实体在知识图谱中出现的频率对实体进行采样，并进行替换生成负例三元组；

步骤23、判断所述负例三元组是否在知识图谱中出现，出现则返回步骤22进行重新生成。

可选地，所述知识图谱嵌入模型采用基于翻译的表示学习模型。

可选地，所述利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量；具体采用以下损失函数公式：

其中，S是正例三元组集合，S′＝{(h′,r,t)|h′∈E_h}∪{(h,r,t′)|t′∈E_t}是负例三元组集合，其中，E_h表示实体h所在的分组,E_t表示实体t所在的分组， [f(h,t)+γ-f(h′,t′)]₊＝max(0,f(h,t)+γ-f(h′,t′)),γ是边界，f_r(h,t)表示正例三元组的得分函数，f_r(h',t')表示负例三元组的得分函数。

可选地，所述利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量具体利用随机梯度下降算法最小化损失函数，对实体向量与关系向量进行更新。

如上所述，本发明的一种基于自适应负采样的知识图谱嵌入方法，具有以下有益效果：

第一，提出根据实体间的相似度对实体进行分组；

第二，提高了替换实体与被替换实体之间的相似度，从而提高负例三元组质量；

第三，根据实体在知识图谱中出现的频率对实体进行采用，提高了高频实体被训练的次数，这也符合现实中的需要；

第四，通过提高负例三元组的质量，有效的实现了知识图谱中实体与关系的嵌入。

附图说明

为了进一步阐述本发明所描述的内容，下面结合附图对本发明的具体实施方式作进一步详细的说明。应当理解，这些附图仅作为典型示例，而不应看作是对本发明的范围的限定。

图1为本发明一种基于自适应负采样的知识图谱嵌入方法的流程图；

图2为本发明一种基于自适应负采样的知识图谱嵌入方法的负例三元组生成示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本发明提供一种基于自适应负采样的知识图谱嵌入方法，该方法具体包括以下步骤：

首先.根据实体间的相似性对实体向量进行分组；

其次.利用同一组内的相似实体进行相互替换，来生成与正例三元组相似的负例三元组；

再次.将正例三元组与负例三元组作为知识图谱嵌入模型中的训练输入；

最后.利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量；当达到优化目标时，即可获得知识图谱中每个实体向量和关系向量的最佳表示。

给定一个正例三元组I，根据等概率随机替换原则，选择替换尾实体来生成负例三元组。首先，通过移除尾实体会得到一个不完整的三元组。然后，以相同的概率P_s从实体集中抽取一个实体进行尾实体填充，可能会得到一个荒谬的负例三元组I，也可能得到一个非常有效的负例三元组II。但是，现有模型的生成方式会导致生成的大量三元组都会像负例三元组I一样是一个无效的负例三元组，只有少部分会像负例三元组II一样是一个有效的负例三元组。

图2是本发明一种基于自适应负采样的知识图谱嵌入方法的负例三元组生成示意图，图中每一行表示一个实体向量，n表示实体向量的维度，m表示实体向量的数量。如图所示，首先将实体向量进行聚类，然后从实体I所在的分组中抽取实体II，最后通过使用实体II替换实体 I形成一个负例三元组。

本发明公开了一种基于自适应负采样的知识图谱嵌入方法，具体包括：

步骤1、根据实体间的相似性对实体向量进行分组。

于本实施例中，具体采用无监督的聚类算法对实体向量进行分组，分组数量由实体的类型确定。

具体的，将m个实体划分到k个组中，使得每个实体到所属聚类中心的最近，即，每个实体到所属聚类中心的欧式距离之和最小。目标满足如下公式：

其中，k表示分组的数量(即实体集共包含k种不同的类型)，e表示一个实体向量，c_i表示第i个聚类中心向量，C_i表示第i个聚类中实体e的集合，L₁为第一范数欧式距离。

步骤2、利用同一组内的相似实体进行相互替换，来生成与正例三元组相似的负例三元组。

于本实施例中，该步骤具体包括以下子步骤：

步骤23、判断步骤22中生成的负例三元组是否在知识图谱中出现，若是，则返回步骤22 进行重新生成；若否则进行步骤3.

步骤3、将正例三元组与负例三元组作为知识图谱嵌入模型中的训练输入；其中，正例三元组是知识图谱中的三元组，负例三元组是步骤2生成的三元组，知识图谱嵌入模型采用基于翻译的表示学习模型。基于翻译的表示学习模型采用以下得分函数,即正例三元组的得分函数。

其中，h表示头实体，t表示尾实体，r表示头实体h和尾实体t之间的关系；h表示头实体h的列向量，t表示尾实体t的列向量，r表示头实体和尾实体之间的关系r的列向量；L₁表示L₁范式。

步骤4、利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量；

具体采用以下损失函数公式：

其中，S是正例三元组集合，S′＝{(h′,r,t)|h′∈E_h}∪{(h,r,t′)|t′∈E_t}(其中，E_h表示实体 h所在的分组,E_t表示实体t所在的分组)是负例三元组集合， [f(h,t)+γ-f(h′,t′)]₊＝max(0,f(h,t)+γ-f(h′,t′)),γ是边界，f_r(h,t)表示正例三元组的得分函数，f_r(h',t')表示负例三元组的得分函数。,[]₊表示内部的值大于0，就取当前计算的值，小于0就取0。

具体地，利用随机梯度下降算法最小化损失函数，对实体向量与关系向量进行更新。

本发明公开了一种基于自适应负采样的知识图谱嵌入方法，如图1所示，首先根据实体间的相似性对实体向量进行分组；其次利用同一组内的相似实体进行相互替换，来生成与正例三元组相似的负例三元组；再次将正例三元组与负例三元组作为知识图谱嵌入模型中的训练输入；最后利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量；当达到优化目标时，即可获得知识图谱中每个实体向量和关系向量的最佳表示。

本发明考虑了负例三元组的质量，提出一种基于自适应负采样的知识图谱嵌入方法。提高了替换实体与被替换实体之间的相似度，从而提高负例三元组质量；根据实体在知识图谱中出现的频率对实体进行采用，提高了高频实体被训练的次数，这也符合现实中的需要；通过提高负例三元组的质量，有效的实现了知识图谱中实体与关系的嵌入。本发明适用于所有的基于翻译的表示学习模型，可以提高表示学习模型对知识图谱的嵌入性能看，并且能够实现应用于大规模的知识图谱不全当中。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于自适应负采样的知识图谱嵌入方法，其特征在于，该方法包括以下步骤：

步骤1、根据实体间的相似性对实体向量进行分组；

2.根据权利要求1所述的一种基于自适应负采样的知识图谱嵌入方法，其特征在于，所述根据实体间的相似性对实体向量进行分组，具体采用无监督的聚类算法对实体向量进行分组。

3.根据权利要求1所述的一种基于自适应负采样的知识图谱嵌入方法，其特征在于，所述利用同一组内的相似实体进行相互替换并生成与正例三元组相似的负例三元组，具体采用以下步骤：

4.根据权利要求1所述的一种基于自适应负采样的知识图谱嵌入方法，其特征在于，所述知识图谱嵌入模型采用基于翻译的表示学习模型。

5.根据权利要求1所述的一种基于自适应负采样的知识图谱嵌入方法，其特征在于，所述利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量；具体采用以下损失函数公式：

其中，S是正例三元组集合，S′＝{(h′,r,t)|h′∈E_h}∪{(h,r,t′)|t′∈E_t}是负例三元组集合，其中，E_h表示实体h所在的分组,E_t表示实体t所在的分组，[f_r(h,t)+γ-f_r(h′,t′)]₊＝max(0,f(h,t)+γ-f(h′,t′)),γ是边界，f_r(h,t)表示正例三元组的得分函数，f_r(h',t')表示负例三元组的得分函数。

6.根据权利要求1所述的一种基于自适应负采样的知识图谱嵌入方法，其特征在于，所述利用知识图谱嵌入模型的损失函数优化更新实体向量与关系向量具体利用随机梯度下降算法最小化损失函数，对实体向量与关系向量进行更新。