CN108763376A

CN108763376A - 融合关系路径、类型、实体描述信息的知识表示学习方法

Info

Publication number: CN108763376A
Application number: CN201810479239.XA
Authority: CN
Inventors: 陈岭; 崔军
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2018-11-06
Anticipated expiration: 2038-05-18
Also published as: CN108763376B

Abstract

本发明公开了一种融合关系路径、类型、实体描述信息的知识表示学习方法，包括：(1)对知识库进行预处理，提取出结构化信息、关系路径信息、类型信息和实体描述信息；(2)从知识库选取一个正样本并构造负样本，计算正负样本对应结构化信息、关系路径信息、类型信息和实体描述信息的损失；(3)根据损失更新模型的参数和实习向量和关系向量；(4)重复步骤(1)～(3)，直到迭代次数达到预先设定的最大迭代次数，并输出实体和关系的向量，实现对知识表达的学习。该方法在利用关系路径的基础上，融合了多源信息对知识库进行建模，解决了传统知识表示学习方法中只利用结构化信息，没有利用多种额外信息的问题。

Description

融合关系路径、类型、实体描述信息的知识表示学习方法

技术领域

本发明涉及知识表示学习领域，尤其涉及一种多源信息融合的知识表示学习方法。

背景技术

随着Web3.0时代的到来，包含大量结构化知识的知识库成为了许多语义应用(如智能问答和搜索服务)的重要组成部分，越来越多的企业和组织致力于构造大型知识库。知识库中的结构化知识以三元组(头实体、关系、尾实体)的形式表示。虽然现有的知识库已经包含了大量的三元组，但由于信息是海量且不断变化的，知识库中仍然有缺失的实体和关系。如何对知识库中实体间缺失的关系进行补全是知识库构造中的关键问题。

知识库补全任务需要对知识库中的实体和关系进行建模。符号表示是一类知识库建模方法，该类方法利用基于图的方法对知识库进行建模，然而随着知识库信息的增加，这种方法的效率较低且有数据稀疏问题。知识表示也是一类知识库建模方法，该类方法将实体和关系映射到低维稠密向量空间，通过向量运算的方式对知识库进行建模，很好地克服了符号表示的弊端。

基于翻译的模型是一种典型的知识表示方法，该类模型将关系视为实体间的翻译操作，即关系向量可以表示为尾实体向量和头实体向量的差。当实体间的关系缺失时，可以通过实体向量的差计算出关系向量，并找出这一关系向量对应的关系来实现关系的补全。这种模型在知识库补全实验中具有极高的准确率。但是现有的基于翻译的模型大多只利用知识库中的结构化信息，忽略了知识库中的关系路径信息、类型信息以及实体描述信息等额外信息。一部分利用了额外信息的模型也存在着一些问题。例如利用关系路径信息时，对关系路径的区分度较差，模糊了关系路径的语义；利用类型信息时，只考虑了实体和关系的类型，而没有考虑关系路径的类型；在现有的模型中，至多只利用了一种额外信息，没有利用多源信息，造成信息的浪费。

发明内容

本发明的目的是提供一种融合关系路径、类型、实体描述信息的知识表示学习方法，该知识表示学习方法综合考虑了知识的结构化信息、关系路径信息、类型信息以及实体描述信息，提高了知识表示的准确性，进而能够快速准确建立知识库。

为实现上述发明目的，本发明提供以下技术方案：

融合关系路径、类型、实体描述信息的知识表示学习方法，包括以下步骤：

(1)对输入的知识库中的知识语句进行结构化信息、关系路径信息、类型信息以及实体描述信息的提取；

(2)构建知识库中的每个正样本对应的三个负样本；

(3)根据翻译模型的能量函数构造结构化信息的损失函数后，利用所述结构化信息的损失函数计算正负样本的结构化信息损失，并更新正负样本的实体向量和关系向量；

(4)根据正负样本的关系类型选择相应的循环神经网络，利用所述循环神经网络计算正负样本中实体对间的若干关系路径向量后，根据正负样本和所述关系路径向量计算正负样本的关系路径信息损失，并更新正负样本的实体向量、关系向量以及所述循环神经网络参数；

(5)通过关系的类型信息将正负样本中的实体映射到关系空间，得到实体在这一关系下的向量表示后，利用样本中实体对间若干关系路径的类型信息将实体映射到关系路径空间，得到实体在这些关系路径下的向量表示，利用正负样本中映射后的实体向量、关系向量以及关系路径向量计算正负样本的类型信息损失，并更新正负样本的实体向量、关系向量以及映射矩阵；

(6)通过卷积神经网络计算正负样本的实体描述向量，利用正负样本和实体描述向量计算实体描述信息损失，更新正负样本的实体向量、关系向量以及所述卷积神经网络参数；

(7)重复步骤(2)～(6)，直到迭代次数达到预先设定的最大迭代次数，实现对知识表达的学习。

步骤(3)中：根据公式(1)计算结构化信息损失：

L₁＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[r+E_stru(h，r，t)-E_stru(h′，r′，t′)]⁺ (1)

其中，E_stru(·)表示样本的能量，利用E_stru＝||h+r-t||求得，T是正样本集合，T^-是负样本集合，[·]⁺表示取0和x的较大值，γ是预先定义的边界；

根据结构化信息损失，采用梯度下降传递算法更新正负样本的实体向量和关系向量。

步骤(4)中：利用公式(2)计算关系路径信息损失：

L₂＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_path(h，r，t)-E_path(h′，r′，t′)]⁺ (2)

其中，T是正样本集合，T^-是负样本集合，[·]⁺表示取0和x的较大值，γ是预先定义的边界，E_path(·)表示基于关系路径信息的能量，利用公式(3)计算得到：

其中，Rel(h，p，t)是关系路径p的可信度，由PCRA算法得到，Pco(p，r)是关系路径p和关系r共现的概率，即在数据集中关系路径p对应的关系类型是r的概率，

E_p(p，r)由公式(4)计算得到：

E_p(h，p，t)＝||h+p-t||＝||p-r||＝E_p(p，r) (4)

根据关系路径信息损失，采用梯度下降传递算法更新正负样本的实体向量、关系向量以及所述循环神经网络参数。

步骤(5)中：利用公式(5)计算类型信息损失：

L₃＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_type(h，r，t)-E_type(h′，r′，t′)]⁺ (5)

其中，T是正样本集合，T^-是负样本集合，[·]⁺表示取0和x的较大值，γ是预先定义的边界，E_type(·)表示基于类型信息的能量，利用公式(6)～(8)计算得到：

E_type＝E_tr(h，r，t)+E_tp(h，p，t) (6)

E_tr(h，r，t)＝||M_r，hh+r-M_r，tt|| (7)

E_tp(h，p，t)＝||M_p，hh+p-M_p，tt|| (8)

其中，E_tr(h，r，t)为基于关系的类型信息的能量，E_tp(h，p，t)关系路径的类型信息的能量，M_r，h，M_r，t分别为根据关系的类型信息得到的头实体，尾实体映射矩阵，M_p，h，M_p，t分别为根据关系路径的类型信息得到的头实体、尾实体映射矩阵；

根据类型信息损失，采用梯度下降传递算法更新正负样本的实体向量、关系向量以及映射矩阵。

步骤(6)中：利用公式(9)计算实体描述信息损失：

L₄＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_des(h，r，t)-E_des(h′，r′，t′)]⁺ (9)

其中，T是正样本集合，T^-是负样本集合，[·]⁺表示取0和x的较大值，γ是预先定义的边界，E_des(·)表示基于实体描述信息的能量，利用公式(10)计算得到：

E_des＝||h_d+r-t_s||+||h_s+r-t_d||+||h_d+r-t_s|| (10)

其中，h_s，t_s是头实体和尾实体基于结构化信息的向量表示，h_d，t_d是头实体和尾实体基于描述的向量表示；

根据实体描述信息损失，采用梯度下降传递算法更新正负样本的实体向量、关系向量以及所述卷积神经网络参数。

本发明协同学习知识库中的结构化信息、关系路径信息、类型信息和实体描述信息。在此基础上利用多个循环神经网络学习关系路径的向量表示，并引入了关系路径的类型信息，解决了传统知识表示学习方法中只利用结构化信息，没有利用多种额外信息的问题。与现有方法相比，其优点在于：

1)在知识库中结构化信息的基础上融合了关系路径信息、类型信息和实体描述信息。其中，关系路径信息使每一个关系的语义更加清晰；类型信息使每个实体在不同的关系下能够有不同的含义；实体描述信息更深刻地刻画了每个实体的语义。

2)使用多个循环神经网络结构来学习关系路径的向量，显著提高了关系路径的区分度；引入关系路径的类型信息，使得实体能够在不同情景下拥有更准确的语义。

附图说明

图1是本发明提供的知识表示学习方法的整体流程图；

图2是本发明提供的知识表示学习方法中数据预处理过程的流程图；

图3是本发明提供的知识表示学习方法中知识表示学习过程的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本实施例提出了一种、融合关系路径、类型、实体描述信息的知识表示学习方法，是一种多源信息融合的知识表示学习方法，其整体流程图如图1所示，分为数据预处理和知识表示学习两个部分。其中，数据预处理部分提取知识库中的结构化信息、关系路径信息、类型信息和实体描述信息，对模型的参数进行初始化。知识表示学习部分从知识库中选取一个正样本，并构造负样本；通过翻译模型利用结构化信息、通过循环神经网络利用关系路径信息、通过映射矩阵的方式利用类型信息以及通过卷积神经网络利用实体描述信息计算上述结构化信息、关系路径信息、类型信息和实体描述信息的损失，根据损失更新模型参数。重复上述步骤，直到迭代次数已经达到预先设定的最大迭代次数。

与现有方法相比，本发明构建了多个循环神经网络解决关系路径区分度较差的问题；利用类型信息将实体映射到关系空间，使得实体在不同的关系下有不同的向量表示，并创新性地引入了关系路径的类型信息；利用卷积神经网络学习实体基于描述的向量表示。

现对数据预处理阶段和知识表示学习的具体实现过程进行详细描述。

数据预处理阶段：

数据预处理的流程如图2所示，其具体步骤如下：

步骤1-1：输入知识库KB，提取结构化信息。

知识库KB中的知识以三元组(h，r，t)的形式表示，其中h表示头实体，r代表关系，t代表尾实体。h和t属于实体集合E，r属于关系集合R，(h，r，t)反映了两个实体h，t之间存在关系r。这些三元组就是知识库中的结构化信息。删除KB中的一些冗余关系，得到预处理后的结构化信息。

步骤1-2：从KB中提取关系路径信息。

假设有n个三元组(h，r₁，e₁)，(e₁，r₂，e₂)，...，(e_n-1，r_n，t)，其中前一个三元组的尾实体与后一个三元组的头实体相同，那么p＝(r₁，r₂，...，r_n)就是一个关系路径，其长度为n。

采用的是遍历的方式从KB中提取抽取所有符合定义的关系路径，关系路径的数量随着关系路径长度的增加而指数级增长，因此，在提取关系路径信息时，删选掉长度大于3的关系路径，剔除可信度小于0.01的关系路径。

步骤1-3：从KB中提取类型信息。

知识库中的实体、关系的类型信息以层次化结构s＝{s⁽¹⁾，...，s⁽ⁿ⁾)的形式表示，其中s⁽ⁱ⁾表示第i个子类型。随着序号的减小，子类型越来越精准。由于在模型中只使用在实体类型和关系类型中都出现的类型信息，因此，在提取类型信息时，仅提取在实体类型和关系类型中都出现的类型信息。

步骤1-4：从KB中提取实体描述信息。

一些知识库中存在实体描述信息，以一段文本对实体进行描述。提取这些实体描述信息。

具体地，在提取实体描述信息时，采用word2vec学习实体描述中出现的单词的词向量。word2vec是google提出的词向量计算框架。本实施例使用卷积神经网络学习实体描述，需要将实体描述中的词语转换成向量输入到卷积神经网络中，因此，通过word2vec学习除“the”、“a”和“an”等停用词之外的所有实体描述中出现过的词语的词向量。

知识表示学习阶段：

知识表示学习的流程如图3所示，具体包括以下步骤：

步骤2-1：输入预处理后的结构化信息、关系路径信息、类型信息和实体描述信息，并初始化实体、关系向量和其他参数。

具体地，输入预处理后的结构化信息、关系路径信息、类型信息和实体描述信息，随机初始化实体和关系的向量、学习关系路径信息的循环神经网络的相关参数、学习类型信息的映射矩阵参数、学习实体描述信息的卷积神经网络相关参数。

步骤2-2：构建知识库中的每个正样本对应的三个负样本。

随机选择KB中的一个三元组c为正样本，用KB中其他实体或关系替换c中的头实体、关系和尾实体得到三个负样本c_h′、c_r′、c_t′。

具体地，对于由三元组c＝(h，r，t)构成的正样本，利用知识库中另一实体h′∈E代替头实体h得到负样本c_h′＝(h′，r，t)；利用知识库中另一关系r′∈R代替关系r得到负样本c_r′＝(h，r′，t)；利用知识库中另一实体t′∈E代替尾实体t得到负样本ct′＝(h，r，t′)。

步骤2-3：计算正负样本的结构化信息损失，并更新相应的实体和关系向量。

基于翻译模型的能量函数定义为：

E_stru＝||h+r-t|| (1)

根据这一能量函数可以构造结构化信息的损失函数L₁，

L₁＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_stru(h，r，t)-E_stru(h′，r′，t′)]⁺ (2)

利用L₁计算正样本三元组c和负样本三元组c_h′、c_r′、c_t′的损失函数值，并根据结构化信息损失，采用梯度下降传递算法更新实体、关系向量。

步骤2-4：根据样本三元组中的关系选择相应的循环神经网络，通过循环神经网络计算正负样本中实体对间的若干关系路径的向量表示，利用正负样本和这些关系路径向量计算关系路径信息损失，更新相应的实体、关系向量和循环神经网络参数。

本模型假定，对于三元组(h，r，t)，实体h和t之间的所有关系路径和关系r的语义相同。

模型为KB中的每一个关系类型都学习一个组合矩阵，形成多个循环神经网络结构。当训练实体h和t之间的关系路径p＝(r₁，r₂，...，r_n)时，将其输入到关系类型r对应的循环神经网络中，得到p的向量表示。这样具有相同语义的关系路径能够共享参数，使得关系路径的区分度显著提升。

基于关系路径信息的能量函数定义为：

其中，Rel(h，p，t)是p的可信度，由PCRA算法得到；Pco(p，r)是p和r共现的概率，即在数据集中关系路径p对应的关系类型是r的概率。E_p(p，r)由下式得到：

E_p(h，p，t)＝||h+p-t||＝||p-r||＝E_p(p，r) (4)

PCRA算法用于计算关系路径的可信度。对于实体对h和t之间的一条关系路径p＝(r₁，r₂，...，r_n)，也可以写作其中h＝E₀且t∈E_n，则某一实体x∈E_k所包含的资源定义为：

其中Dec(r_k，x)表示x关于r_k的前驱实体，Suc(r_k，y)表示y关于r_k的后继实体，Res(h)表示头实体h所包含的资源，定义为1。资源沿着关系路径传递，尾实体余下的资源就定义为关系路径p的可信度Rel(h，p，t)。

根据这一能量函数可以构造关系路径信息的损失函数L₂，

L₂＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_path(h，r，t)-E_path(h′，r′，t′)]⁺ (6)

利用损失函数L₂计算正样本三元组c和负样本三元组c_h′、c_r′、c_t′的损失函数值，采用梯度下降传递算法更新实体、关系向量和循环神经网络相关参数。

步骤2-5：通过类型信息将实体映射到关系空间，得到实体在这一关系下的向量表示；在此基础上利用样本中实体对间若干关系路径的类型信息，将实体映射到关系路径空间，得到实体在这些关系路径下的向量表示。利用正负样本中映射后的实体、关系和路径计算类型信息损失更新相应的实体、关系向量和映射矩阵。

知识库中的类型信息以层次化形式s＝{s⁽¹⁾，s⁽²⁾，...，s⁽ⁿ⁾}表示，其中_s ⁽ⁱ⁾是子类型，i的值越小，子类型越精确。

模型为每一个子类型学习一个子类型矩阵M_s(i)，并通过下式得到类型s的类型矩阵M_s：

其中α_i是表示子类型的权重，定义为：

关系的类型信息规定了其头实体的类型集合S_h和尾实体的类型集合S_t。利用S_h构建头实体映射矩阵：

同理可以得到M_r，t。利用这些映射矩阵将头实体和尾实体映射到关系空间中。基于关系的类型信息的能量函数定义为：

E_tr(h，r，t)＝||M_r，hh+r-M_r，tt|| (10)

在此基础上，引入关系路径的类型信息。以关系路径p＝(r₁，r₂，...，r_n)中r₁的头实体类型作为p的头实体类型，r_n的尾实体类型作为p的尾实体类型。基于关系路径的类型信息的能量函数为：

E_tp(h，p，t)＝||M_p，hh+p-M_p，tt|| (11)

其中M_p，h，M_p，t是根据关系路径的类型信息得到的头实体、尾实体映射矩阵；p是关系路径p的向量表示。

基于类型信息的能量函数定义为：

E_type＝E_tr(h，r，t)+E_tp(h，p，t) (12)

根据E_type可以构造类型信息的损失函数L₃，

L₃＝∑_(h，r，t)∈T∑_{(h′，r′，t′)∈T}-[γ+E_type(h，r，t)-E_type(h′，r′，t′)]⁺ (13)

根据损失函数L₃计算正样本三元组c和负样本三元组c_h′、c_r′、c_t′的损失函数值，采用梯度下降传递算法更新实体、关系向量和映射矩阵参数。

步骤2-6：通过卷积神经网络计算正负样本中实体基于描述的向量表示，利用正负样本和这些实体描述向量计算实体描述信息损失，更新相应的实体、关系向量和卷积神经网络参数。

用来学习实体基于描述的向量表示的卷积神经网络包含两个卷积层和两个非线性及池化层。

将实体描述中每一个词的词向量连接成矩阵输入到卷积神经网络中，通过一次卷积-最大池化和一次卷积-平均池化得到基于描述的实体向量。基于实体描述的能量函数为：

E_des＝||h_d+r-t_s||+||h_s+r-t_d||+||h_d+r-t_s|| (14)

其中h_s，t_s是头实体和尾实体基于结构化信息的向量表示，h_d，t_d是头实体和尾实体基于描述的向量表示。

根据这一能量函数构造实体描述信息的损失函数L₄，

L₄＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_des(h，r，t)-E_des(h′，r′，t′)]⁺ (15)

利用损失函数L₄计算正样本三元组c和负样本三元组c_h′、c_r′、c_t′的损失函数值，并采用梯度下降传递算法更新词向量、卷积神经网络相关参数。

步骤2-7：重复步骤2-2～2-6，直到迭代次数已经达到预先设定的最大迭代次数。

在另外一个实施例中，还可以通过以下方式进行：

具体地，模型的总能量函数定义为：

E＝E_stru+E_path+E_type+E_des (16)

模型采用的损失函数定义为：

L＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E(h，r，t)-E(h′，r′，t′)]⁺ (17)

其中，T是正样本集合，T^-是负样本集合，[x]⁺表示取0和x的较大值，γ是预先定义的边界。

根据如公式(16)所示的总能量函数和如公式(17)所示的损失函数对结构化信息、关系路径信息、类型信息和实体描述信息进行协同学习。重复步骤2-2～2-6，直到迭代次数已经达到预先设定的最大迭代次数。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，包括以下步骤：

(2)构建知识库中的每个正样本对应的三个负样本；

2.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，在提取关系路径信息时，删选掉长度大于3的关系路径，剔除可信度小于0.01的关系路径。

3.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，在提取类型信息时，仅提取在实体类型和关系类型中都出现的类型信息。

4.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，在提取实体描述信息时，采用word2vec学习实体描述中出现的单词的词向量。

5.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，所述构建知识库中的每个正样本对应的三个负样本的方法为：

对于由三元组c＝(h，r，t)构成的正样本，利用知识库中另一实体h′∈E代替头实体h得到负样本c_h′＝(h′，r，t)；利用知识库中另一关系r′∈R代替关系r得到负样本c_r′＝(h，r′，t)；利用知识库中另一实体t′∈E代替尾实体t得到负样本c_t′＝(h，r，t′)。

6.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，步骤(3)中：

根据公式(1)计算结构化信息损失：

L₁＝∑_{(h，r，t)∈T}∑_{(h′，r′，t′)∈T}-[γ+E_stru(h，r，t)-E_stru(h′，r′，t′)]⁺ (1)

7.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，步骤(4)中：

利用公式(2)计算关系路径信息损失：

E_p(p，r)由公式(4)计算得到：

E_p(h，p，t)＝||h+p-t||＝||p-r||＝E_p(p，r) (4)

8.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，步骤(5)中：

利用公式(5)计算类型信息损失：

E_type＝E_tr(h，r，t)+E_tp(h，p，t) (6)

E_tr(h，r，t)＝||M_r，hh+r-M_r，tt|| (7)

E_tp(h，p，t)＝||M_p，hh+p-M_p，tt|| (8)

9.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法，其特征在于，步骤(6)中：

利用公式(9)计算实体描述信息损失：

E_des＝||h_d+r-t_s||+||h_s+r-t_d||+||h_d+r-t_s|| (10)