CN106776729A - 一种大规模知识图谱路径查询预测器构造方法 - Google Patents
一种大规模知识图谱路径查询预测器构造方法 Download PDFInfo
- Publication number
- CN106776729A CN106776729A CN201611025159.4A CN201611025159A CN106776729A CN 106776729 A CN106776729 A CN 106776729A CN 201611025159 A CN201611025159 A CN 201611025159A CN 106776729 A CN106776729 A CN 106776729A
- Authority
- CN
- China
- Prior art keywords
- path query
- training sample
- fallout predictor
- path
- knowledge mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大规模知识图谱路径查询预测器的构造方法,包括以下3个模块:1)路径查询置信度建模;2)路径查询训练样本集生成;3)路径查询预测器构建。路径查询置信度建模模块实现对大规模知识图谱中路径查询的表示、编码以及置信度表示;路径查询训练样本集生成模块针对不同路径长度,产生正训练样本集及其负训练样本集;而路径查询预测器构建模块基于模块1)和2)实现预测目标函数的构建和随机优化。与现有技术相比,本发明具有显著提高路径查询预测的准确度、降低级联误差以及增强泛化能力等优点。
Description
技术领域
本发明涉及一种大规模知识图谱路径查询预测器的构造技术,属于计算机应用和模式识别技术的交叉领域。
背景技术
近些来,随着物联网、云计算和社交网络等技术的迅猛发展,网络空间中的大数据,即网络大数据,越发显现4“V”(Volume:数据体量巨大、Velocity:数据更新快、Variety:数据类型繁多、Value:价值密度低)特性。网络大数据,特别是来源于社交网络平台的大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。目前,学术界和工业界(如Google、facebook、百度、搜狐等)大都利用知识图谱来组织网络大数据,并利用其强大的知识推理能力来实现网络大数据的深度分析和挖掘,进而快速精准地发现其中所暗含的隐性线索与规律。
知识图谱旨在描述和刻画真实世界中存在的各种实体(entity)以及实体间的关系(relation),通常用有向图来组织和表示。图中的节点表示实体,而图中的边则由关系构成,关系用来连接两个实体,刻画它们之间的关联。通常,我们用G(E,R)来表示知识图谱,其中E={ei}为所有实体组成的集合,R={r<ei,ej>}为实体间关系的集合,r<ei,ej>表示实体ei到ej的关系。不难看出,在多数情况下,r<ei,ej>≠r<ej,ei>。与现有的研究工作类似,我们将知识图谱G用资源描述框架RDF(Resource Description Framework)三元组的集合来表示,即G(E,R)={<ei,r,ej>}。目前比较主流的知识图谱包括Freebase、YAGO、Dbpedia、Internet Movie Database等。
路径查询是深度分析和挖掘知识图谱,进而发现知识图谱隐含线索与规律的重要手段,目前成为知识图谱理论及技术领域的一个研究热点和重点。给定一个实体es,以及一条长度为l且以es为起始实体的路径p=<r1,r2,…,rl>,其中ri(1≤i≤l)为相邻的关系(有向边),路径查询Q[es,p]就是获取从实体es出发,经过路径p所能到达的所有实体A(es,p)={e1,e2,…,em}。由于大数据时代,导致了其上所构建的知识图谱的规模也是庞大的,因此,路径查询的时间代价非常巨大。为此,学术界和工业界提出了通过机器学习的方式来高效实现大规模知识图谱的路径查询。该类技术的核心思路是构造一个路径查询预测器,并通过一定规模数据样本进行预测器的训练,一直到预测误差用户可以接受为止。目前,国内外有一些知名的实验室团队在做这类的研究工作并取得了较好的应用成果,例如斯坦福大学的Andrew Y.Ng团队和Kelvin Guu团队、曼切斯特大学Rajarshi Das团队、微软研究院的Z.Wang团队、加州大学圣巴巴拉分校的Arijit Khan团队、中国人民大学的X.Zhang团队以及同济大学的Y.Xiang团队。
我们发现,现有路径查询预测器在构造方面存在如下三个主要缺陷,从而导致路径查询预测的准确度以及严重影响预测器的泛化能力:(1)针对路径上的每个关系进行单独预测,缺乏融合多个关系进行集成预测的能力。(2)预测器使用单个机器学习模型,从而在实际应用中只能适用于某些特定分布的数据集,缺乏可扩展性和鲁棒性。(3)训练样本的构造欠缺多样性设计,从而导致训练过程的过拟合,最终导致在实际应用中,路径查询预测器的准确度低下。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷,而提供一种面向大规模知识图谱路径查询预测器的构造技术。该技术在实际应用中,能够显著提高路径查询预测的准确度、降低预测的级联误差,以及增强预测的泛化能力。
本发明的目的可以通过以下技术方案来实现:
一种大规模知识图谱路径查询预测器的构造技术,其特征在于,包括以下3个模块:
1)路径查询置信度建模;
2)路径查询训练样本集生成;
3)路径查询预测器构建。
所述的路径查询置信度建模过程如下:
1)路径查询表示;
2)知识图谱编码;
3)路径查询置信度表示。
所述的路径查询训练样本集生成过程如下:
1)针对不同路径长度,产生正训练样本集;
2)基于1)中产生的正训练样本集,产生负训练样本集。
所述的路径查询预测器构建过程如下:
1)预测目标函数的构建;
2)预测目标函数的随机优化。
与现有技术相比,本发明具有以下优点:
1、能够显著提高路径查询预测的准确度;
2、能够显著降低路径查询预测的级联误差;
3、能够增强路径查询预测的泛化能力。
附图说明
图1为本发明的技术框架图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
1、路径查询置信度建模模块实施方法
(1)路径查询表示
在大规模知识图谱G中,给定一个实体es,以及一条从es出发长度为l的路径p=<r1,r2,…,rl>,其中ri(1≤i≤l)为相邻的关系(有向边)。那么在本发明中,路径查询Q[es,p]的表示通过如下2个步骤来具体实施:
步骤1:[Q0]={es};
步骤2:i从1到l,递归获得[Qi],即
通过上面两个步骤的实施,路径查询Q[es,p]可以表示成l+1个实体集合:[Q0],[Q1],…,[Ql],并且对于实体集合[Qi]中的任意一个实体ei,[Qi-1]中均存在一个实体ei-1,使得<ei-1,ri,ei>∈G。另外,我们不难得到,[Ql]=[Q0/r1/r2…/rl]=[es/r1/r2…/rl]为路径查询Q[es,p]所能到达的所有实体组成的集合。
(2)路径查询编码
在本发明中,路径查询编码主要涉及两个方面,实体编码和关系编码。编码的目的是将自然语言描述的实体和关系在语义损失最小的条件下,转化为相应的一维向量,并作为后面预测器构造阶段合理的初始值。
对于路径查询中涉及到的实体e,假定它由m个单词组成,即e=w1,w2,…,wm。那么本发明首先使用词嵌入(word embedding)工具word2vec将每个单词wi(1≤i≤m)分别映射为长度为100的一维列向量v(wi),然后将v(w1),v(w2),…,v(wm)这100个一维列向量求平均值赋予e所对应的一维列向量:即v(e)的第t个分量其中v(wi)|t为向量v(wi)的第t个分量。
对于路径查询中涉及到的关系r,假定它由n个单词组成,即r=a1,a2,…,an。为了满足本发明所提路径查询置信度计算模型的需要,我们将r编码成三种不同类型的数据:
1)第一种类型数据为长度等于100的一维列向量v(r)。与实体编码类似,本发明首先使用词嵌入(word embedding)工具word2vec将每个单词ai(1≤i≤n)分别映射为长度为100的一维列向量v(ai),然后将v(a1),v(a2),…,v(am)这100个一维列向量求平均值赋予r所对应的一维列向量:即v(r)的第t个分量 其中v(ai)|t为向量v(ai)的第t个分量。
2)第二种类型数据为100×100的二维矩阵本发明首先使用词嵌入(wordembedding)工具word2vec将每个单词ai(1≤i≤n)分别映射为长度为100的一维列向量v(ai)。然后,对于j从1到100,重复执行如下操作:对于矩阵的第j列向量随机生成长度为100的一维权重列向量其中各分量为随机数;接着对列向量ρ[j]进行归一化处理,从而得到 最后,对的每个分量进行赋值,即
3)基于2)中产生的二维矩阵本发明产生第三种类型数据为100×100的二维对角矩阵即主对角线上元素的取值与相等,而将主对角线之外的元素均赋值为0。
(3)路径查询置信度表示
在知识图谱G中,我们假定es/r1/r2…/rl/ez为路径查询Q[es,p]的一个返回结果,其中es为路径起始实体,p=<r1,r2,…,rl>为长度等于l的遍历路径。那么在本发明中,es/r1/r2…/rl/ez的置信度通过以下四个激发值的加权组合来具体表示:
1)置信度第一激发值其中v(es)和v(ez)分别为实体es和ez的编码,而为关系ri的二维矩阵编码。
2)置信度第二激发值其中为关系ri的二维对角矩阵编码。
3)置信度第三激发值 其中为向量(·)的2范数的平方值,v(rl)(1≤i≤l)为关系ri的一维向量编码。
4)置信度第四激发值
基于上述四个激发值,本发明的置信度 其中
2、路径查询训练样本集生成模块实施方法
在本发明中,训练样本集中每个样本的路径长度l取值为1到15之间的正整数。同时,本发明的所生成的训练样本集分为两大类,即正训练样本集和负训练样本集,其中正训练样本集中的每个样本es/r1/r2…/rl/ez∈G,而负训练样本集中的每个样本
(1)正训练样本集生成
针对路径长度l的15个不同取值(1~15),本发明分别生成1000个正训练样本,总计15×1000=15000个正训练样本。具体实施过程如下:
步骤1:在知识图谱G中随机选取一个实体es,并且满足从es出发的路径长度超过l。
步骤2:从es开始,利用随机游走策略重复如下过程l步:1)记当前为第i步,所遍历的实体为e,首先获取e开始的所有关系组成的集合Ri;2)从Ri中随机选取一个关系ri;3)获取ri所指向全部实体组成的集合E;4)从E中随机选取一个实体e’。
步骤3:产生正训练样本es/r1/r2…/rl/ez,其中ez为步骤2中最后一次随机游走选取的实体。
(2)负训练样本集生成
针对(1)中生成的每个正训练样本es/r1/r2…/rl/ez,本发明将生成10个相应的负训练样本,具体实施过程如下:
步骤1:h=l。
步骤2:获取关系rh所指向全部实体组成的集合Eh。
步骤3:对于Eh中的每个实体ez’,如果那么生成负训练样本es/r1/r2…/rh-1/rh…/rl/ez’。
步骤4:如果负训练样本个数小于10,那么将h值减去1,并返回步骤2,否则退出。
我们不难得出:本发明共生产150000个负训练样本。
3、路径查询预测器构建模块实施方法
在路径查询置信度建模和路径查询训练样本集生成的基础上,本发明完成路径查询预测器的构建工作,主要包括预测目标函数的构建以及随机优化两个阶段。
(1)预测目标函数的构建
记T为本发明所获取的路径查询训练样本集,包括15000个正训练样本,和150000个负训练样本。对于每个正训练样本es/r1/r2…/rl/ez∈T,我们记与它对应的10个负训练样本为es/r1/r2…/rl/ez (1),es/r1/r2…/rl/ez (2),…,es/r1/r2…/rl/ez (10)。那么针对每个路径长度l(1≤l≤15),我们最小化如下预测目标函数,使得路径查询预测器的准确度达到最大,即
其中 i∈[1,4]且为预测目标函数的参数,为实数域。
在本发明中,每个路径长度l对应一个上面给出的预测目标函数Ωl *,因此,我们需要训练15个路径查询预测器。这15个路径查询预测器的训练过程相同,由于路径长度不一样,所以它们训练的时间代价不同。另外,每个路径查询预测器的训练样本数均为1000+1000×10=11000,即1000个正训练样本以及10000个负训练样本。
(2)预测目标函数的随机优化
针对每个路径长度l(1≤l≤15)所对应的预测目标函数
本发明首先提取预测目标函数相关的2l+6个参数 这些参数满足如下条件:i∈[1,4]且
为了降低随机优化的时间开销,本发明使用块坐标下降策略来实施预测目标函数的随机优化:在3l+5个参数中,每次固定3l+4个参数的值,并优化剩下的1个参数,同时,我们将3l+5个参数的1次优化过程作为一个原子分组。而本发明将随机优化过程分为1000个迭代分组,即每个参数在其它3l+4个参数固定的情况下,随机优化1000次。
最后,在本发明中,3l+5个参数随机优化第n(1≤n≤1000)次迭代的计算公式表示如下:
1)
2)
3)
4)
5)
在上述公式中,α为学习率,本发明取0.001或0.05两个值。
Claims (4)
1.一种大规模知识图谱路径查询预测器构造方法,其特征在于,包括以下3个模块:
1)路径查询置信度建模;
2)路径查询训练样本集生成;
3)路径查询预测器构建。
2.根据权利要求1所述的一种大规模知识图谱路径查询预测器的构造方法,其特征在于,所述的路径查询置信度建模过程如下:
1)路径查询表示;
2)知识图谱编码;
3)路径查询置信度表示。
3.根据权利要求1所述的一种大规模知识图谱路径查询预测器的构造方法,其特征在于,所述的路径查询训练样本集生成过程如下:
1)针对不同路径长度,产生正训练样本集;
2)基于1)中产生的正训练样本集,产生负训练样本集。
4.根据权利要求1所述的一种大规模知识图谱路径查询预测器的构造方法,其特征在于,所述的路径查询预测器构建过程如下:
1)预测目标函数的构建;
2)预测目标函数的随机优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611025159.4A CN106776729B (zh) | 2016-11-18 | 2016-11-18 | 一种大规模知识图谱路径查询预测器构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611025159.4A CN106776729B (zh) | 2016-11-18 | 2016-11-18 | 一种大规模知识图谱路径查询预测器构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106776729A true CN106776729A (zh) | 2017-05-31 |
CN106776729B CN106776729B (zh) | 2020-08-14 |
Family
ID=58970005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611025159.4A Active CN106776729B (zh) | 2016-11-18 | 2016-11-18 | 一种大规模知识图谱路径查询预测器构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776729B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959472A (zh) * | 2018-06-20 | 2018-12-07 | 桂林电子科技大学 | 基于多步关系路径的知识图谱表示学习方法 |
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN110187678A (zh) * | 2019-04-19 | 2019-08-30 | 广东省智能制造研究所 | 一种制造业加工设备信息存储和数字化应用系统 |
CN110297911A (zh) * | 2018-03-21 | 2019-10-01 | 国际商业机器公司 | 物联网(iot)计算环境中认知数据管护的方法和系统 |
CN110717107A (zh) * | 2019-09-12 | 2020-01-21 | 华中科技大学 | 一种面向社交网络的度偏置采样方法及系统 |
US11853882B2 (en) | 2018-11-15 | 2023-12-26 | Tencent Technology (Shenzhen) Company Limited | Methods, apparatus, and storage medium for classifying graph nodes |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129457A (zh) * | 2011-03-09 | 2011-07-20 | 浙江大学 | 大规模语义数据路径查询的方法 |
US20140372447A1 (en) * | 2013-06-12 | 2014-12-18 | Electronics And Telecommunications Research Institute | Knowledge index system and method of providing knowledge index |
US20160328443A1 (en) * | 2015-05-06 | 2016-11-10 | Vero Analytics, Inc. | Knowledge Graph Based Query Generation |
-
2016
- 2016-11-18 CN CN201611025159.4A patent/CN106776729B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129457A (zh) * | 2011-03-09 | 2011-07-20 | 浙江大学 | 大规模语义数据路径查询的方法 |
US20140372447A1 (en) * | 2013-06-12 | 2014-12-18 | Electronics And Telecommunications Research Institute | Knowledge index system and method of providing knowledge index |
US20160328443A1 (en) * | 2015-05-06 | 2016-11-10 | Vero Analytics, Inc. | Knowledge Graph Based Query Generation |
Non-Patent Citations (2)
Title |
---|
E.SHIJIA等: "Knowledge Graph Embedding for Link Prediction and Triplet Classification", 《CHINA CONFERENCE ON KNOWLEDGE GRAPH AND SEMANTIC COMPUTING》 * |
QUAN WANG等: "Knowledge Base Completion via Coupled Path Ranking", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297911A (zh) * | 2018-03-21 | 2019-10-01 | 国际商业机器公司 | 物联网(iot)计算环境中认知数据管护的方法和系统 |
CN110297911B (zh) * | 2018-03-21 | 2023-06-30 | 国际商业机器公司 | 物联网(iot)计算环境中认知数据管护的方法和系统 |
CN108959472A (zh) * | 2018-06-20 | 2018-12-07 | 桂林电子科技大学 | 基于多步关系路径的知识图谱表示学习方法 |
CN108959472B (zh) * | 2018-06-20 | 2021-11-19 | 桂林电子科技大学 | 基于多步关系路径的知识图谱表示学习方法 |
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN109241291B (zh) * | 2018-07-18 | 2022-02-15 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
US11853882B2 (en) | 2018-11-15 | 2023-12-26 | Tencent Technology (Shenzhen) Company Limited | Methods, apparatus, and storage medium for classifying graph nodes |
CN110187678A (zh) * | 2019-04-19 | 2019-08-30 | 广东省智能制造研究所 | 一种制造业加工设备信息存储和数字化应用系统 |
CN110717107A (zh) * | 2019-09-12 | 2020-01-21 | 华中科技大学 | 一种面向社交网络的度偏置采样方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106776729B (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776729A (zh) | 一种大规模知识图谱路径查询预测器构造方法 | |
CN106055549B (zh) | 利用加速器的概念分析操作的方法和系统 | |
Liang et al. | Applying genetic algorithm and ant colony optimization algorithm into marine investigation path planning model | |
Qiao et al. | TraPlan: an effective three-in-one trajectory-prediction model in transportation networks | |
CN106649878A (zh) | 基于人工智能的物联网实体搜索方法及系统 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN104620241B (zh) | 多语言文档聚类 | |
CN110059264A (zh) | 基于知识图谱的地点检索方法、设备及计算机存储介质 | |
CN109992786A (zh) | 一种语义敏感的rdf知识图谱近似查询方法 | |
Xing et al. | Monthly mean streamflow prediction based on bat algorithm-support vector machine | |
CN108763376A (zh) | 融合关系路径、类型、实体描述信息的知识表示学习方法 | |
CN106599936A (zh) | 一种基于二进制蚁群算法的特征选择方法及系统 | |
KR20220111215A (ko) | 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 | |
CN103207936B (zh) | 一种基于空间缩减策略的序列采样算法 | |
Son et al. | Optimization in construction management using adaptive opposition slime mould algorithm | |
Wang et al. | A scheme library-based ant colony optimization with 2-opt local search for dynamic traveling salesman problem | |
CN110222737A (zh) | 一种基于长短时记忆网络的搜索引擎用户满意度评估方法 | |
Di et al. | LEAPS: Topological-Layout-Adaptable Multi-Die FPGA Placement for Super Long Line Minimization | |
CN117012304A (zh) | 融合ggnn-gan的深度学习分子生成系统及方法 | |
CN102222274A (zh) | 基于调度编码的免疫克隆选择作业车间调度方法 | |
CN104850646A (zh) | 一种针对单个不确定图的频繁子图挖掘方法 | |
Wang et al. | Path-Oriented, Derivative-Free Approach for Safety Falsification of Nonlinear and Nondeterministic CPS | |
CN111199259B (zh) | 标识转换方法、装置和计算机可读存储介质 | |
Tan et al. | Concerning a decision-diagram-based solution to the generalized directed rural postman problem | |
Zhu et al. | Efficient Gaussian Kernel Microcluster Real-Time Clustering Method for Industrial Internet of Things (IIoT) Streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |