CN106776729A

CN106776729A - 一种大规模知识图谱路径查询预测器构造方法

Info

Publication number: CN106776729A
Application number: CN201611025159.4A
Authority: CN
Inventors: 黄震华; 程久军
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-05-31
Anticipated expiration: 2036-11-18
Also published as: CN106776729B

Abstract

本发明涉及一种大规模知识图谱路径查询预测器的构造方法，包括以下3个模块：1)路径查询置信度建模；2)路径查询训练样本集生成；3)路径查询预测器构建。路径查询置信度建模模块实现对大规模知识图谱中路径查询的表示、编码以及置信度表示；路径查询训练样本集生成模块针对不同路径长度，产生正训练样本集及其负训练样本集；而路径查询预测器构建模块基于模块1)和2)实现预测目标函数的构建和随机优化。与现有技术相比，本发明具有显著提高路径查询预测的准确度、降低级联误差以及增强泛化能力等优点。

Description

一种大规模知识图谱路径查询预测器构造方法

技术领域

本发明涉及一种大规模知识图谱路径查询预测器的构造技术，属于计算机应用和模式识别技术的交叉领域。

背景技术

近些来，随着物联网、云计算和社交网络等技术的迅猛发展，网络空间中的大数据，即网络大数据，越发显现4“V”(Volume：数据体量巨大、Velocity：数据更新快、Variety：数据类型繁多、Value：价值密度低)特性。网络大数据，特别是来源于社交网络平台的大数据，蕴含着丰富的社会信息，其中包含着大量重要社会事件线索信息的网络映射，而这些网络映射信息通常看似杂乱无章的。目前，学术界和工业界(如Google、facebook、百度、搜狐等)大都利用知识图谱来组织网络大数据，并利用其强大的知识推理能力来实现网络大数据的深度分析和挖掘，进而快速精准地发现其中所暗含的隐性线索与规律。

知识图谱旨在描述和刻画真实世界中存在的各种实体(entity)以及实体间的关系(relation)，通常用有向图来组织和表示。图中的节点表示实体，而图中的边则由关系构成，关系用来连接两个实体，刻画它们之间的关联。通常，我们用G(E,R)来表示知识图谱，其中E＝{e_i}为所有实体组成的集合，R＝{r<e_i,e_j>}为实体间关系的集合，r<e_i,e_j>表示实体e_i到e_j的关系。不难看出，在多数情况下，r<e_i,e_j>≠r<e_j,e_i>。与现有的研究工作类似，我们将知识图谱G用资源描述框架RDF(Resource Description Framework)三元组的集合来表示，即G(E,R)＝{<e_i,r,e_j>}。目前比较主流的知识图谱包括Freebase、YAGO、Dbpedia、Internet Movie Database等。

路径查询是深度分析和挖掘知识图谱，进而发现知识图谱隐含线索与规律的重要手段，目前成为知识图谱理论及技术领域的一个研究热点和重点。给定一个实体e_s，以及一条长度为l且以e_s为起始实体的路径p＝<r₁,r₂,…,r_l>，其中r_i(1≤i≤l)为相邻的关系(有向边)，路径查询Q[e_s,p]就是获取从实体e_s出发，经过路径p所能到达的所有实体A(e_s,p)＝{e₁,e₂,…,e_m}。由于大数据时代，导致了其上所构建的知识图谱的规模也是庞大的，因此，路径查询的时间代价非常巨大。为此，学术界和工业界提出了通过机器学习的方式来高效实现大规模知识图谱的路径查询。该类技术的核心思路是构造一个路径查询预测器，并通过一定规模数据样本进行预测器的训练，一直到预测误差用户可以接受为止。目前，国内外有一些知名的实验室团队在做这类的研究工作并取得了较好的应用成果，例如斯坦福大学的Andrew Y.Ng团队和Kelvin Guu团队、曼切斯特大学Rajarshi Das团队、微软研究院的Z.Wang团队、加州大学圣巴巴拉分校的Arijit Khan团队、中国人民大学的X.Zhang团队以及同济大学的Y.Xiang团队。

我们发现，现有路径查询预测器在构造方面存在如下三个主要缺陷，从而导致路径查询预测的准确度以及严重影响预测器的泛化能力：(1)针对路径上的每个关系进行单独预测，缺乏融合多个关系进行集成预测的能力。(2)预测器使用单个机器学习模型，从而在实际应用中只能适用于某些特定分布的数据集，缺乏可扩展性和鲁棒性。(3)训练样本的构造欠缺多样性设计，从而导致训练过程的过拟合，最终导致在实际应用中，路径查询预测器的准确度低下。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷，而提供一种面向大规模知识图谱路径查询预测器的构造技术。该技术在实际应用中，能够显著提高路径查询预测的准确度、降低预测的级联误差，以及增强预测的泛化能力。

本发明的目的可以通过以下技术方案来实现：

一种大规模知识图谱路径查询预测器的构造技术，其特征在于，包括以下3个模块：

1)路径查询置信度建模；

2)路径查询训练样本集生成；

3)路径查询预测器构建。

所述的路径查询置信度建模过程如下：

1)路径查询表示；

2)知识图谱编码；

3)路径查询置信度表示。

所述的路径查询训练样本集生成过程如下：

1)针对不同路径长度，产生正训练样本集；

2)基于1)中产生的正训练样本集，产生负训练样本集。

所述的路径查询预测器构建过程如下：

1)预测目标函数的构建；

2)预测目标函数的随机优化。

与现有技术相比，本发明具有以下优点：

1、能够显著提高路径查询预测的准确度；

2、能够显著降低路径查询预测的级联误差；

3、能够增强路径查询预测的泛化能力。

附图说明

图1为本发明的技术框架图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

1、路径查询置信度建模模块实施方法

(1)路径查询表示

在大规模知识图谱G中，给定一个实体e_s，以及一条从e_s出发长度为l的路径p＝<r₁,r₂,…,r_l>，其中r_i(1≤i≤l)为相邻的关系(有向边)。那么在本发明中，路径查询Q[e_s,p]的表示通过如下2个步骤来具体实施：

步骤1：[Q⁰]＝{e_s}；

步骤2：i从1到l，递归获得[Qⁱ]，即

通过上面两个步骤的实施，路径查询Q[e_s,p]可以表示成l+1个实体集合：[Q⁰],[Q¹],…,[Q^l]，并且对于实体集合[Qⁱ]中的任意一个实体eⁱ，[Q^i-1]中均存在一个实体e^i-1，使得<e^i-1,r_i,eⁱ>∈G。另外，我们不难得到，[Q^l]＝[Q⁰/r₁/r₂…/r_l]＝[e_s/r₁/r₂…/r_l]为路径查询Q[e_s,p]所能到达的所有实体组成的集合。

(2)路径查询编码

在本发明中，路径查询编码主要涉及两个方面，实体编码和关系编码。编码的目的是将自然语言描述的实体和关系在语义损失最小的条件下，转化为相应的一维向量，并作为后面预测器构造阶段合理的初始值。

对于路径查询中涉及到的实体e，假定它由m个单词组成，即e＝w₁,w₂,…,w_m。那么本发明首先使用词嵌入(word embedding)工具word2vec将每个单词w_i(1≤i≤m)分别映射为长度为100的一维列向量v(w_i)，然后将v(w₁),v(w₂),…,v(w_m)这100个一维列向量求平均值赋予e所对应的一维列向量：即v(e)的第t个分量其中v(w_i)|_t为向量v(w_i)的第t个分量。

对于路径查询中涉及到的关系r，假定它由n个单词组成，即r＝a₁,a₂,…,a_n。为了满足本发明所提路径查询置信度计算模型的需要，我们将r编码成三种不同类型的数据:

1)第一种类型数据为长度等于100的一维列向量v(r)。与实体编码类似，本发明首先使用词嵌入(word embedding)工具word2vec将每个单词a_i(1≤i≤n)分别映射为长度为100的一维列向量v(a_i)，然后将v(a₁),v(a₂),…,v(a_m)这100个一维列向量求平均值赋予r所对应的一维列向量：即v(r)的第t个分量其中v(a_i)|_t为向量v(a_i)的第t个分量。

2)第二种类型数据为100×100的二维矩阵本发明首先使用词嵌入(wordembedding)工具word2vec将每个单词a_i(1≤i≤n)分别映射为长度为100的一维列向量v(a_i)。然后，对于j从1到100，重复执行如下操作：对于矩阵的第j列向量随机生成长度为100的一维权重列向量其中各分量为随机数；接着对列向量ρ[j]进行归一化处理，从而得到最后，对的每个分量进行赋值，即

3)基于2)中产生的二维矩阵本发明产生第三种类型数据为100×100的二维对角矩阵即主对角线上元素的取值与相等，而将主对角线之外的元素均赋值为0。

(3)路径查询置信度表示

在知识图谱G中，我们假定e_s/r₁/r₂…/r_l/e_z为路径查询Q[e_s,p]的一个返回结果，其中e_s为路径起始实体，p＝<r₁,r₂,…,r_l>为长度等于l的遍历路径。那么在本发明中，e_s/r₁/r₂…/r_l/e_z的置信度通过以下四个激发值的加权组合来具体表示：

1)置信度第一激发值其中v(e_s)和v(e_z)分别为实体e_s和e_z的编码，而为关系r_i的二维矩阵编码。

2)置信度第二激发值其中为关系r_i的二维对角矩阵编码。

3)置信度第三激发值其中为向量(·)的2范数的平方值，v(r_l)(1≤i≤l)为关系r_i的一维向量编码。

4)置信度第四激发值

基于上述四个激发值，本发明的置信度其中

2、路径查询训练样本集生成模块实施方法

在本发明中，训练样本集中每个样本的路径长度l取值为1到15之间的正整数。同时，本发明的所生成的训练样本集分为两大类，即正训练样本集和负训练样本集，其中正训练样本集中的每个样本e_s/r₁/r₂…/r_l/e_z∈G，而负训练样本集中的每个样本

(1)正训练样本集生成

针对路径长度l的15个不同取值(1～15)，本发明分别生成1000个正训练样本，总计15×1000＝15000个正训练样本。具体实施过程如下：

步骤1：在知识图谱G中随机选取一个实体e_s，并且满足从e_s出发的路径长度超过l。

步骤2：从e_s开始，利用随机游走策略重复如下过程l步：1)记当前为第i步，所遍历的实体为e，首先获取e开始的所有关系组成的集合R_i；2)从R_i中随机选取一个关系r_i；3)获取r_i所指向全部实体组成的集合E；4)从E中随机选取一个实体e’。

步骤3：产生正训练样本e_s/r₁/r₂…/r_l/e_z，其中e_z为步骤2中最后一次随机游走选取的实体。

(2)负训练样本集生成

针对(1)中生成的每个正训练样本e_s/r₁/r₂…/r_l/e_z，本发明将生成10个相应的负训练样本，具体实施过程如下：

步骤1：h＝l。

步骤2：获取关系r_h所指向全部实体组成的集合E_h。

步骤3：对于E_h中的每个实体e_z’，如果那么生成负训练样本e_s/r₁/r₂…/r_h-1/r_h…/r_l/e_z’。

步骤4：如果负训练样本个数小于10，那么将h值减去1，并返回步骤2，否则退出。

我们不难得出：本发明共生产150000个负训练样本。

3、路径查询预测器构建模块实施方法

在路径查询置信度建模和路径查询训练样本集生成的基础上，本发明完成路径查询预测器的构建工作，主要包括预测目标函数的构建以及随机优化两个阶段。

(1)预测目标函数的构建

记T为本发明所获取的路径查询训练样本集，包括15000个正训练样本，和150000个负训练样本。对于每个正训练样本e_s/r₁/r₂…/r_l/e_z∈T，我们记与它对应的10个负训练样本为e_s/r₁/r₂…/r_l/e_z ⁽¹⁾,e_s/r₁/r₂…/r_l/e_z ⁽²⁾,…,e_s/r₁/r₂…/r_l/e_z ⁽¹⁰⁾。那么针对每个路径长度l(1≤l≤15)，我们最小化如下预测目标函数，使得路径查询预测器的准确度达到最大，即

其中 i∈[1,4]且为预测目标函数的参数，为实数域。

在本发明中，每个路径长度l对应一个上面给出的预测目标函数Ω_l ^*，因此，我们需要训练15个路径查询预测器。这15个路径查询预测器的训练过程相同，由于路径长度不一样，所以它们训练的时间代价不同。另外，每个路径查询预测器的训练样本数均为1000+1000×10＝11000，即1000个正训练样本以及10000个负训练样本。

(2)预测目标函数的随机优化

针对每个路径长度l(1≤l≤15)所对应的预测目标函数

本发明首先提取预测目标函数相关的2l+6个参数这些参数满足如下条件：i∈[1,4]且

为了降低随机优化的时间开销，本发明使用块坐标下降策略来实施预测目标函数的随机优化：在3l+5个参数中，每次固定3l+4个参数的值，并优化剩下的1个参数，同时，我们将3l+5个参数的1次优化过程作为一个原子分组。而本发明将随机优化过程分为1000个迭代分组，即每个参数在其它3l+4个参数固定的情况下，随机优化1000次。

最后，在本发明中，3l+5个参数随机优化第n(1≤n≤1000)次迭代的计算公式表示如下：

1)

2)

3)

4)

5)

在上述公式中，α为学习率，本发明取0.001或0.05两个值。

Claims

1.一种大规模知识图谱路径查询预测器构造方法，其特征在于，包括以下3个模块：