CN107423820A

CN107423820A - 结合实体层次类别的知识图谱表示学习方法

Info

Publication number: CN107423820A
Application number: CN201610350225.9A
Authority: CN
Inventors: 孙茂松; 谢若冰; 刘知远
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2017-12-01
Anticipated expiration: 2036-05-24
Also published as: CN107423820B

Abstract

本发明涉及一种结合实体层次类别的知识图谱表示学习方法，包括：获取知识图谱的三元组关系以及实体的层次结构类别信息；根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；根据三元组关系的实体向量和关系向量以及类别映射矩阵，构建能量方程；根据能量方程构建基于边际的评价函数，通过最小化评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。本发明提出的结合实体层次类别的知识图谱表示学习方法，能够充分利用实体具有层次结构的类别信息提升表示学习的效果，在知识图谱补全和三元组关系分类等任务中得到更高的准确率，尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出，具有良好的实用性。

Description

结合实体层次类别的知识图谱表示学习方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种结合实体层次类别的知识图谱表示学习方法。

背景技术

目前正处于信息爆炸的时代，随着社会的飞速发展，每天都会有海量知识与信息产生。这些信息通常会以文字或者图片等非结构化的形式产生并储存，而信息检索和问答系统等应用更需要准确的结构化信息。随着用户对信息筛选与整理的需求日益增加，如何从海量数据中挖掘有价值的信息成为一个难题。于是，知识图谱应运而生。

知识图谱旨在构建一个结构化信息的数据库，将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体，将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图，其中实体是图中的节点，而关系则作为图中的边。在典型的知识图谱中，世界的海量知识被表示为实体之间利用关系作为连接的三元关系组。例如，针对中国是处于亚洲的国家这一知识，知识图谱使用三元组关系(中国，处于……洲，亚洲)来进行表示。传统的自然语言处理存在歧义性的问题，而在知识图谱的构建中，一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元组记录了实体之间的内在联系以及实体自身的属性，被广泛运用于信息检索、问答系统和数据挖掘等多个领域。

知识图谱中有着海量实体，而实体之间的关系则相对较少，知识网络存在严重的结构稀疏性问题，同时也存在知识信息不完整的问题。并且随着信息的不断增加，实体之间的关系也在发生着更新与变化，仅靠人工维护与更新信息难以担当重任。因此，知识图谱的表示与自动补全成为当今重要的研究热点。

近年来，表示学习在知识图谱上的运用获得了巨大的成功，显著提高了知识图谱的表示与自动补全性能。表示学习使用分布式表示方法，将实体与关系映射到低维连续向量空间中，解决了之前知识图谱表示学习中的稀疏性问题，同时也提高了效率，其中基于转化的模型表现最为突出。但是，现有的知识图谱表示学习方法往往只考虑知识图谱三元组关系本身，忽略了实体所有丰富的具有层次结构的类别信息，限制了知识图谱的表示性能。

综上所述，急需一种新的结合实体层次类别的知识图谱表示学习方法，解决现有技术中存在的未能充分利用实体层次结构类别信息的问题，提高知识图谱的表示性能。

发明内容

本发明所要解决的技术问题提供一种结合实体层次类别的知识图谱表示学习方法，解决现有技术中存在的未能充分利用实体层次结构类别信息的问题，提高知识图谱的表示性能。

为此目的，本发明提出了一种结合实体层次类别的知识图谱表示学习方法，包括：

获取知识图谱的三元组关系以及实体的层次结构类别信息；

根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；

根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程；

根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。

优选的，所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：

根据实体的层次结构类别信息，获取待处理类别的子类别及所述子类别的数目；

通过递归层次编码器利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵。

优选的，所述利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵，具体采用以下公式：

其中，c表示类别，c⁽ⁱ⁾表示c的第i个子类别，有c＝{c⁽¹⁾,c⁽²⁾,...,c^(m)}，M_c表示类别c的映射矩阵，表示c的第i个子类别所属的映射矩阵，m表示c类别所含子类别的个数。

通过加权层次编码器利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵。

优选的，还包括：

设定子类别映射矩阵的加权策略。

优选的，所述利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵，具体采用以下公式：

其中c表示类别，c⁽ⁱ⁾表示c的第i个子类别，有c＝{c⁽¹⁾,c⁽²⁾,...,c^(m)}，M_c表示类别c的映射矩阵，表示c的第i个子类别所属的映射矩阵，m表示c类别所含子类别的个数，β_i表示第i个子类别的权值。

优选的，所述子类别映射矩阵的加权策略为：

β_i:β_i+1＝(1-η):η

且

其中，η为控制权值等比例下降速率的超参数，η∈(0,0.5)。

优选的，所述根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程，具体采用以下公式：

E(h,r,t)＝||M_rhh+r-M_rtt||

其中，E(h,r,t)为能量方程，M_rh和M_rt分别是头实体h和尾实体t在三元组(h,r,t)中的映射矩阵，r为关系向量。

优选的，根据所述能量方程构建基于边际的评价函数，具体采用以下公式：

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}

其中，γ＞0是超参数，T′为三元组的负例集，T为三元组的正例集，h′为替换h的负例实体，t′为替换t的负例实体，r′为替换r的负例实体，E为实体集合，R为关系集合。

优选的，该方法还包括：

加入实体类别限制，加大负例采样过程中同类别的实体被选作负例的概率，同类实体被选择为负例的概率如下：

其中，e是三元组中的被替换的正例实体，e'是替换的负例实体，c是三元组中e属于的类别，E_c∈E是所有属于类别c的实体集合，|E_c|和|E|分别是两个实体集合的实体数，k是超参数，用于控制同类别的实体被选作负例的概率的提高比例，N为自然数集。

与现有技术相比，本发明提出的结合实体层次类别的知识图谱表示学习方法，不仅利用了实体之间的三元组关系信息，还充分利用了实体所有的具有层次结构的类别信息，通过构建能量方程，使得实体通过类别的映射矩阵，在不同类别上拥有不同的表示向量，通过最小化基于边际的评价函数学习实体向量、关系向量以及类别映射矩阵的表示，显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示，能够在知识图谱补全和三元组关系分类等任务中得到更高的准确率，尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出，具有良好的实用性。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明实施例提供的一个知识图谱中三元关系组及其实体层次类别的示例图；

图2为本发明实施例提供的结合实体层次类别的知识图谱表示学习方法的流程示意图；

图3为本发明实施例提供的基于递归层次编码器的模型示意图；

图4为本发明实施例提供的基于加权层次编码器的模型示意图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

知识图谱表示学习方法将所有实体与关系映射到一个低维连续向量空间中，使用分布式表示的方法对实体与关系进行建模，解决了知识图谱学习中产生的稀疏性和效率问题。本发明提出的一种结合实体层次类别的知识图谱表示学习方法，能够充分利用实体拥有的层次结构的类别信息，显著提升了知识图谱的表示学习效果，具有良好的实用性。

如图1所示，给出了一个知识图谱中三元关系组及其实体层次类别的示例图。其中下方是三元关系组，“莎士比亚(William Shakespeare)”为首实体，“罗密欧与朱丽叶(Romeo and Juliet)”为尾实体，“书/作者/文学作品(book/author/works_written)”为关系。在两个实体的上方，是具有层次结构的类别信息，每个实体可能有多个类别。实体的每一个类别信息在层次结构上表示为一条自顶向下的路径，如“莎士比亚”实体的其中一个类别为“书/作者(book/author)”；而实体的子类别即为层次结构中的每一个节点，比如“书(book)”以及“作者(author)”即为子类别。我们假设实体在不同三元组中所属的类别重要性不尽相同，而从图1的三元关系组中，在“书/作者/文学作品(book/author/works_written)”的关系下，对头实体“莎士比亚(William Shakespeare)”重要性更大的类别是“书/作者(book/author)”，而对尾实体“罗密欧与朱丽叶(Romeo and Juliet)”重要性更大的类别是“书/文学作品(book/written_work)”，证明我们的假设是符合直观与实际的。基于实体的层次结构类别信息，本发明使用映射矩阵，使得实体在不同类别下拥有不同的表示，在知识图谱补全与三元组分类等任务上都取得了显著的提升效果。

如图2所示，一种结合实体层次类别的知识图谱表示学习方法，包括：

S1：获取知识图谱的三元组关系以及实体的层次结构类别信息；

具体的，收集知识图谱的三元组关系，实体所有的层次类别信息，以及实体在特定关系下的类别信息，构建数据集，可以将数据集划分为训练集、开发集和测试集。对数据集进行预处理，整理实体的层次类别信息。其中对于实体的层次类别信息表示如下：将实体类别层次结构中每层的节点表示为实体的子类别，将每条自顶向下的完整路径表示为实体的类别。

其中，实体在特定关系下的类别信息，可以通过收集知识图谱中已存储的相关信息获得，也可以通过统计知识图谱中三元组的关系实际对应的类别信息进行获得。

S2：根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；

具体的，构建类别映射矩阵可以通过基于递归层次编码器的模型一或者基于加权层次编码器的模型二，后面将对这两种方式开展详细描述。

S3：根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程；

S4：根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。

在上述实施例的基础上，基于递归层次编码器的模型一构建类别映射矩阵，优选的，步骤S2所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：

S201：根据实体的层次结构类别信息，获取待处理类别的子类别及所述子类别的数目；

S202：通过递归层次编码器利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵。

具体地，如图3所示，所述利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵，具体采用以下公式(1)：

递归层次编码器利用子类别的映射矩阵的连乘操作，得到了类别的映射矩阵。在物理意义上，递归层次编码器相当于将实体先映射到较粗粒度的空间中，然后逐层深入映射，最后映射到最细粒度的空间中，保证了实体在不同类别下的不同表示。

另一方面，基于加权层次编码器的模型二构建类别映射矩阵，优选的，步骤S2所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：

S201’：根据实体的层次结构类别信息，获取待处理类别的子类别及所述子类别的数目；

S202’：通过加权层次编码器利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵。

优选的，之后还包括：

设定子类别映射矩阵的加权策略。

具体的，如图4所示，所述利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵，具体采用以下公式(2)：

所述子类别映射矩阵的加权策略为满足公式(3)：

β_i:β_i+1＝(1-η):η (3)

且

此加权策略是一个权值等比例下降的加权策略，其中η是控制等比例下降速率的超参数。设置η∈(0,0.5)，表示子类别的分类粒度约细，描述的类别越详细，所具有的权值越大。

基于递归层次编码器的模型一和基于加权层次编码器的模型二，以实体层次结构的子类别作为输入，通过矩阵递归连乘或者矩阵加权相加的方式，得到实体类别的映射矩阵表示方式。需要注意的是，简单的参数变换与加权策略改变，不构成本质上的创新，也应理解为本发明要保护的范围。

在上述实施例的基础上，步骤S2:根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程，具体采用以下公式(4)：

E(h,r,t)＝||M_rhh+r-M_rtt|| (4)

需要说明的是，本发明改进了现有技术基于转化的模型，设计了新的能量方程，所述基于转化的模型存在以下假设：对于所有三元组(h,r,t)，希望尾实体向量t能够尽可能接近首实体向量与关系向量的和h+r。而本发明对于基于转化的模型进行了改进。绝大多数实体都存在复数的类别标签信息，不同的类别代表着实体在不同领域所表现出的多样的属性。如图1所示，实体“William Shakespeare”可能存在多个类别信息，如“book/author”、“music/artist”等，而在特定的关系“book/author/works_written”下，对“WilliamShakespeare”重要性更大的类别是“book/author”。因此做出如下假设：在不同的三元组关系中，每个实体的不同类别对于实体此时的向量表示的重要性不同。每个实体在不同的类别下，应该有着不同的表示向量，而这些实体在特定类别下的表示向量，可以通过基于类别的映射矩阵实现。因此本发明在实体向量与关系向量之间基于转化的模型上，引入映射矩阵，使用实体在不同类别下的不同向量表示，因此，得到的能量方程公式如(4)所示。

其中，在步骤S1中，收集了实体在特定关系下的类别信息，就可以确定不同三元组关系中头实体与尾实体所应该属于的类别，在步骤S202中，通过基于递归层次编码器的模型一或者基于加权层次编码器的模型二已经得到各类别的映射矩阵表示方法，所以针对映射矩阵M_rh，有如下表示方式(5)：

其中α_i是一个只有0和1二值的指示参数：α_i＝0时当且仅当第i个类别c_i不属于在三元组(h,r,t)中h应该属于的类别，而α_i＝1时当且仅当第i个类别c_i属于在三元组(h,r,t)中h应该属于的类别。综上所述，M_rh应该等于在三元组(h,r,t)中h应该属于的类别的映射矩阵的等权和。

同理，针对映射矩阵M_rt，也有类似的表示(6)：

其中，α_i根据在三元组(h,r,t)中t应该属于的类别确定0值或者1值。而作为各类别的映射矩阵，在步骤S202或者S202’中已经通过模型一或者模型二获得。

本发明改进了现有基于转化的模型，设计了新的能量方程，使得实体通过类别的映射矩阵，在不同类别上拥有不同的表示向量，显著提高了知识表示的性能。

在上述实施例的基础上，优选的，步骤S4根据所述能量方程构建基于边际的评价函数，具体采用以下公式(7)：

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R} (8)

具体的，E(h,r,t)是步骤S3中评价经过映射矩阵后的t和h+r相似度的函数，可以使用L1范式或者L2范式。上述T′为三元组的负例集，定义如公式(8)所示，即在正例的三元组中随机替换h、r或者t，得到负例的数据集。但需要注意，负例集中应该去除替换后是正例的三元组。

需要说明的是，通过后向传播算法，使用标准的随机梯度下降算法，最小化基于边际的评价函数，根据链式法则对所有参数进行更新。

在上述实施例的基础上，本发明的结合实体层次类别的知识图谱表示学习方法，还包括：

加入实体类别限制，加大负例采样过程中同类别的实体被选作负例的概率，同类实体被选择为负例的概率如下(9)所示：

需要说明的是，由于传统方法的知识图谱补全任务中，错误预测的实体通常都是与正确答案同类别的实体，因为之前的方法倾向于将同类的实体学习到语义空间相似的位置，而没有限制直接对同类实体进行区分，导致预测性能的下降。

针对这个问题，本发明提出了在训练与测试过程中，加入实体类别限制，加大在训练时负例采样过程中同类别的实体被选作负例的概率，进一步提升表示学习的性能。这时优化步骤S4中的基于边际的评价函数，能够加大同类别实体之间的辨识度，大幅提升知识图谱补全的效果。同类实体被选择为负例的概率如(9)所示。k是超参数，用于控制同类别的实体被选作负例的概率的提高比例。更高的k意味着更大的概率替换成同类别的实体。通过在训练过程中引入软实体类别限制，能够更好地学习到同类别实体之间的差异，提高它们之间的辨别性，同时兼顾同类别实体在空间中的聚类现象。

其中，在测试过程中加入实体类别限制的操作步骤可以采用：第一，统计所有三元组中各关系的头实体与尾实体所有可能的类别；第二，测试时直接去除不属于这些类别的实体。需要注意的是，测试过程中的实体类别限制对于实体关系对应的类别信息完整度有着较高的要求。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种结合实体层次类别的知识图谱表示学习方法，其特征在于，包括：

获取知识图谱的三元组关系以及实体的层次结构类别信息；

2.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：

3.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵，具体采用以下公式：

4.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：

5.根据权利要求4所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，还包括：

设定子类别映射矩阵的加权策略。

6.根据权利要求5所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵，具体采用以下公式：

<mrow> <msub> <mi>M</mi> <mi>c</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </msub> <mo>=</mo> <msub> <mi>&beta;</mi> <mn>1</mn> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </msub> <mo>+</mo> <msub> <mi>&beta;</mi> <mn>2</mn> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>&beta;</mi> <mi>m</mi> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> </msub> </mrow>

7.根据权利要求6所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述子类别映射矩阵的加权策略为：

β_i:β_i+1＝(1-η):η

且

其中，η为控制权值等比例下降速率的超参数，η∈(0,0.5)。

8.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程，具体采用以下公式：

E(h,r,t)＝||M_rhh+r-M_rtt||

9.根据权利要求8所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，根据所述能量方程构建基于边际的评价函数，具体采用以下公式：

<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <msup> <mi>h</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>T</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>+</mo> <mi>E</mi> <mo>(</mo> <mrow> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> <mo>-</mo> <mi>E</mi> <mo>(</mo> <mrow> <msup> <mi>h</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </mrow> <mo>)</mo> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}

10.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，还包括：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mi>e</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>|</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>E</mi> <mo>|</mo> <mo>+</mo> <mi>k</mi> <mo>|</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mi>N</mi> </mrow>