CN106776729B - 一种大规模知识图谱路径查询预测器构造方法 - Google Patents

一种大规模知识图谱路径查询预测器构造方法 Download PDF

Info

Publication number
CN106776729B
CN106776729B CN201611025159.4A CN201611025159A CN106776729B CN 106776729 B CN106776729 B CN 106776729B CN 201611025159 A CN201611025159 A CN 201611025159A CN 106776729 B CN106776729 B CN 106776729B
Authority
CN
China
Prior art keywords
path
path query
entity
query
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611025159.4A
Other languages
English (en)
Other versions
CN106776729A (zh
Inventor
黄震华
程久军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201611025159.4A priority Critical patent/CN106776729B/zh
Publication of CN106776729A publication Critical patent/CN106776729A/zh
Application granted granted Critical
Publication of CN106776729B publication Critical patent/CN106776729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大规模知识图谱路径查询预测器的构造方法,包括以下3个模块:1)路径查询置信度建模;2)路径查询训练样本集生成;3)路径查询预测器构建。路径查询置信度建模模块实现对大规模知识图谱中路径查询的表示、编码以及置信度表示;路径查询训练样本集生成模块针对不同路径长度,产生正训练样本集及其负训练样本集;而路径查询预测器构建模块基于模块1)和2)实现预测目标函数的构建和随机优化。与现有技术相比,本发明具有显著提高路径查询预测的准确度、降低级联误差以及增强泛化能力等优点。

Description

一种大规模知识图谱路径查询预测器构造方法
技术领域
本发明涉及一种大规模知识图谱路径查询预测器的构造技术,属于计算机应用和模式识别技术的交叉领域。
背景技术
近些来,随着物联网、云计算和社交网络等技术的迅猛发展,网络空间中的大数据,即网络大数据,越发显现4“V”(Volume:数据体量巨大、Velocity:数据更新快、Variety:数据类型繁多、Value:价值密度低)特性。网络大数据,特别是来源于社交网络平台的大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。目前,学术界和工业界(如Google、facebook、百度、搜狐等)大都利用知识图谱来组织网络大数据,并利用其强大的知识推理能力来实现网络大数据的深度分析和挖掘,进而快速精准地发现其中所暗含的隐性线索与规律。
知识图谱旨在描述和刻画真实世界中存在的各种实体(entity)以及实体间的关系(relation),通常用有向图来组织和表示。图中的节点表示实体,而图中的边则由关系构成,关系用来连接两个实体,刻画它们之间的关联。通常,我们用G(E,R)来表示知识图谱,其中E={ei}为所有实体组成的集合,R={r<ei,ej>}为实体间关系的集合,r<ei,ej>表示实体ei到ej的关系。不难看出,在多数情况下,r<ei,ej>≠r<ej,ei>。与现有的研究工作类似,我们将知识图谱G用资源描述框架RDF(Resource Description Framework)三元组的集合来表示,即G(E,R)={<ei,r,ej>}。目前比较主流的知识图谱包括Freebase、YAGO、Dbpedia、Internet Movie Database等。
路径查询是深度分析和挖掘知识图谱,进而发现知识图谱隐含线索与规律的重要手段,目前成为知识图谱理论及技术领域的一个研究热点和重点。给定一个实体es,以及一条长度为l且以es为起始实体的路径p=<r1,r2,…,rl>,其中ri(1≤i≤l)为相邻的关系(有向边),路径查询Q[es,p]就是获取从实体es出发,经过路径p所能到达的所有实体A(es,p)={e1,e2,…,em}。由于大数据时代,导致了其上所构建的知识图谱的规模也是庞大的,因此,路径查询的时间代价非常巨大。为此,学术界和工业界提出了通过机器学习的方式来高效实现大规模知识图谱的路径查询。该类技术的核心思路是构造一个路径查询预测器,并通过一定规模数据样本进行预测器的训练,一直到预测误差用户可以接受为止。目前,国内外有一些知名的实验室团队在做这类的研究工作并取得了较好的应用成果,例如斯坦福大学的Andrew Y.Ng团队和Kelvin Guu团队、曼切斯特大学Rajarshi Das团队、微软研究院的Z.Wang团队、加州大学圣巴巴拉分校的Arijit Khan团队、中国人民大学的X.Zhang团队以及同济大学的Y.Xiang团队。
我们发现,现有路径查询预测器在构造方面存在如下三个主要缺陷,从而导致路径查询预测的准确度以及严重影响预测器的泛化能力:(1)针对路径上的每个关系进行单独预测,缺乏融合多个关系进行集成预测的能力。(2)预测器使用单个机器学习模型,从而在实际应用中只能适用于某些特定分布的数据集,缺乏可扩展性和鲁棒性。(3)训练样本的构造欠缺多样性设计,从而导致训练过程的过拟合,最终导致在实际应用中,路径查询预测器的准确度低下。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷,而提供一种面向大规模知识图谱路径查询预测器的构造技术。该技术在实际应用中,能够显著提高路径查询预测的准确度、降低预测的级联误差,以及增强预测的泛化能力。
本发明的目的可以通过以下技术方案来实现:
一种大规模知识图谱路径查询预测器的构造技术,其特征在于,包括以下3个模块:
1)路径查询置信度建模;
2)路径查询训练样本集生成;
3)路径查询预测器构建。
所述的路径查询置信度建模过程如下:
1)路径查询表示;
2)知识图谱编码;
3)路径查询置信度表示。
所述的路径查询训练样本集生成过程如下:
1)针对不同路径长度,产生正训练样本集;
2)基于1)中产生的正训练样本集,产生负训练样本集。
所述的路径查询预测器构建过程如下:
1)预测目标函数的构建;
2)预测目标函数的随机优化。
与现有技术相比,本发明具有以下优点:
1、能够显著提高路径查询预测的准确度;
2、能够显著降低路径查询预测的级联误差;
3、能够增强路径查询预测的泛化能力。
附图说明
图1为本发明的技术框架图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
1、路径查询置信度建模模块实施方法
(1)路径查询表示
在大规模知识图谱G中,给定一个实体es,以及一条从es出发长度为l的路径p=<r1,r2,…,rl>,其中ri(1≤i≤l)为相邻的关系(有向边)。那么在本发明中,路径查询Q[es,p]的表示通过如下2个步骤来具体实施:
步骤1:[Q0]={es};
步骤2:i从1到l,递归获得[Qi],即
Figure BDA0001155973960000031
通过上面两个步骤的实施,路径查询Q[es,p]可以表示成l+1个实体集合:[Q0],[Q1],…,[Ql],并且对于实体集合[Qi]中的任意一个实体ei,[Qi-1]中均存在一个实体ei-1,使得<ei-1,ri,ei>∈G。另外,我们不难得到,[Ql]=[Q0/r1/r2…/rl]=[es/r1/r2…/rl]为路径查询Q[es,p]所能到达的所有实体组成的集合。
(2)路径查询编码
在本发明中,路径查询编码主要涉及两个方面,实体编码和关系编码。编码的目的是将自然语言描述的实体和关系在语义损失最小的条件下,转化为相应的一维向量,并作为后面预测器构造阶段合理的初始值。
对于路径查询中涉及到的实体e,假定它由m个单词组成,即e=w1,w2,…,wm。那么本发明首先使用词嵌入(word embedding)工具word2vec将每个单词wi(1≤i≤m)分别映射为长度为100的一维列向量v(wi),然后将v(w1),v(w2),…,v(wm)这100个一维列向量求平均值赋予e所对应的一维列向量:
Figure BDA0001155973960000041
即v(e)的第t个分量
Figure BDA0001155973960000042
其中v(wi)|t为向量v(wi)的第t个分量。
对于路径查询中涉及到的关系r,假定它由n个单词组成,即r=a1,a2,…,an。为了满足本发明所提路径查询置信度计算模型的需要,我们将r编码成三种不同类型的数据:
1)第一种类型数据为长度等于100的一维列向量v(r)。与实体编码类似,本发明首先使用词嵌入(word embedding)工具word2vec将每个单词ai(1≤i≤n)分别映射为长度为100的一维列向量v(ai),然后将v(a1),v(a2),…,v(am)这100个一维列向量求平均值赋予r所对应的一维列向量:
Figure BDA0001155973960000043
即v(r)的第t个分量
Figure BDA0001155973960000044
Figure BDA0001155973960000045
其中v(ai)|t为向量v(ai)的第t个分量。
2)第二种类型数据为100×100的二维矩阵
Figure BDA0001155973960000046
本发明首先使用词嵌入(wordembedding)工具word2vec将每个单词ai(1≤i≤n)分别映射为长度为100的一维列向量v(ai)。然后,对于j从1到100,重复执行如下操作:对于矩阵
Figure BDA0001155973960000047
的第j列向量
Figure BDA0001155973960000048
随机生成长度为100的一维权重列向量
Figure BDA0001155973960000049
其中各分量为随机数;接着对列向量ρ[j]进行归一化处理,从而得到
Figure BDA00011559739600000410
Figure BDA00011559739600000411
最后,对
Figure BDA00011559739600000412
的每个分量进行赋值,即
Figure BDA00011559739600000413
Figure BDA00011559739600000414
3)基于2)中产生的二维矩阵
Figure BDA00011559739600000415
本发明产生第三种类型数据为100×100的二维对角矩阵
Figure BDA00011559739600000416
Figure BDA00011559739600000417
主对角线上元素的取值与
Figure BDA00011559739600000418
相等,而将主对角线之外的元素均赋值为0。
(3)路径查询置信度表示
在知识图谱G中,我们假定es/r1/r2…/rl/ez为路径查询Q[es,p]的一个返回结果,其中es为路径起始实体,p=<r1,r2,…,rl>为长度等于l的遍历路径。那么在本发明中,es/r1/r2…/rl/ez的置信度
Figure BDA00011559739600000419
通过以下四个激发值的加权组合来具体表示:
1)置信度第一激发值
Figure BDA0001155973960000051
其中v(es)和v(ez)分别为实体es和ez的编码,而
Figure BDA0001155973960000052
为关系ri的二维矩阵编码。
2)置信度第二激发值
Figure BDA0001155973960000053
其中
Figure BDA0001155973960000054
为关系ri的二维对角矩阵编码。
3)置信度第三激发值
Figure BDA0001155973960000055
Figure BDA0001155973960000056
其中
Figure BDA0001155973960000057
为向量(·)的2范数的平方值,v(rl)(1≤i≤l)为关系ri的一维向量编码。
4)置信度第四激发值
Figure BDA0001155973960000058
Figure BDA0001155973960000059
基于上述四个激发值,本发明的置信度
Figure BDA00011559739600000510
Figure BDA00011559739600000511
其中
Figure BDA00011559739600000512
2、路径查询训练样本集生成模块实施方法
在本发明中,训练样本集中每个样本的路径长度l取值为1到15之间的正整数。同时,本发明的所生成的训练样本集分为两大类,即正训练样本集和负训练样本集,其中正训练样本集中的每个样本es/r1/r2…/rl/ez∈G,而负训练样本集中的每个样本
Figure BDA00011559739600000513
(1)正训练样本集生成
针对路径长度l的15个不同取值(1~15),本发明分别生成1000个正训练样本,总计15×1000=15000个正训练样本。具体实施过程如下:
步骤1:在知识图谱G中随机选取一个实体es,并且满足从es出发的路径长度超过l。
步骤2:从es开始,利用随机游走策略重复如下过程l步:1)记当前为第i步,所遍历的实体为e,首先获取e开始的所有关系组成的集合Ri;2)从Ri中随机选取一个关系ri;3)获取ri所指向全部实体组成的集合E;4)从E中随机选取一个实体e’。
步骤3:产生正训练样本es/r1/r2…/rl/ez,其中ez为步骤2中最后一次随机游走选取的实体。
(2)负训练样本集生成
针对(1)中生成的每个正训练样本es/r1/r2…/rl/ez,本发明将生成10个相应的负训练样本,具体实施过程如下:
步骤1:h=l。
步骤2:获取关系rh所指向全部实体组成的集合Eh
步骤3:对于Eh中的每个实体ez’,如果
Figure BDA0001155973960000061
那么生成负训练样本es/r1/r2…/rh-1/rh…/rl/ez’。
步骤4:如果负训练样本个数小于10,那么将h值减去1,并返回步骤2,否则退出。
我们不难得出:本发明共生产150000个负训练样本。
3、路径查询预测器构建模块实施方法
在路径查询置信度建模和路径查询训练样本集生成的基础上,本发明完成路径查询预测器的构建工作,主要包括预测目标函数的构建以及随机优化两个阶段。
(1)预测目标函数的构建
记T为本发明所获取的路径查询训练样本集,包括15000个正训练样本,和150000个负训练样本。对于每个正训练样本es/r1/r2…/rl/ez∈T,我们记与它对应的10个负训练样本为es/r1/r2…/rl/ez (1),es/r1/r2…/rl/ez (2),…,es/r1/r2…/rl/ez (10)。那么针对每个路径长度l(1≤l≤15),我们最小化如下预测目标函数,使得路径查询预测器的准确度达到最大,即
Figure BDA0001155973960000062
Figure BDA0001155973960000063
其中
Figure BDA0001155973960000064
Figure BDA0001155973960000065
i∈[1,4]且
Figure BDA0001155973960000066
为预测目标函数的参数,
Figure BDA0001155973960000067
为实数域。
在本发明中,每个路径长度l对应一个上面给出的预测目标函数Ωl *,因此,我们需要训练15个路径查询预测器。这15个路径查询预测器的训练过程相同,由于路径长度不一样,所以它们训练的时间代价不同。另外,每个路径查询预测器的训练样本数均为1000+1000×10=11000,即1000个正训练样本以及10000个负训练样本。
(2)预测目标函数的随机优化
针对每个路径长度l(1≤l≤15)所对应的预测目标函数
Figure BDA0001155973960000068
Figure BDA0001155973960000069
本发明首先提取预测目标函数相关的2l+6个参数
Figure BDA00011559739600000610
Figure BDA0001155973960000071
这些参数满足如下条件:
Figure BDA0001155973960000072
i∈[1,4]且
Figure BDA0001155973960000073
为了降低随机优化的时间开销,本发明使用块坐标下降策略来实施预测目标函数的随机优化:在3l+5个参数中,每次固定3l+4个参数的值,并优化剩下的1个参数,同时,我们将3l+5个参数的1次优化过程作为一个原子分组。而本发明将随机优化过程分为1000个迭代分组,即每个参数在其它3l+4个参数固定的情况下,随机优化1000次。
最后,在本发明中,3l+5个参数随机优化第n(1≤n≤1000)次迭代的计算公式表示如下:
1)
Figure BDA0001155973960000074
2)
Figure BDA0001155973960000075
3)
Figure BDA0001155973960000076
4)
Figure BDA0001155973960000077
5)
Figure BDA0001155973960000078
在上述公式中,α为学习率,本发明取0.001或0.05两个值。

Claims (1)

1.一种大规模知识图谱路径查询预测器构造方法,其特征在于,方法过程包括:
一、路径查询置信度建模模块实施方法
(1)路径查询表示
在大规模知识图谱G中,给定一个实体es,以及一条从es出发长度为l的路径p=<r1,r2,…,rl>,其中ri为相邻的关系,为有向边,1≤i≤l;路径查询Q[es,p]的表示通过如下2个步骤来具体实施:
步骤1.1:[Q0]={es};
步骤1.2:i从1到l,递归获得[Qi],即
Figure FDA0002353084060000011
通过上面两个步骤的实施,路径查询Q[es,p]表示成l+1个实体集合:[Q0],[Q1],…,[Ql],并且对于实体集合[Qi]中的任意一个实体ei,[Qi-1]中均存在一个实体ei-1,使得<ei-1,ri,ei>∈G;另外,[Ql]=[Q0/r1/r2…/rl]=[es/r1/r2…/rl]为路径查询Q[es,p]所能到达的所有实体组成的集合;
(2)路径查询编码
路径查询编码涉及实体编码和关系编码;编码的目的是将自然语言描述的实体和关系在语义损失最小的条件下,转化为相应的一维向量,并作为后面预测器构造阶段合理的初始值;
对于路径查询中涉及到的实体e,假定它由m个单词组成,即e=w1,w2,…,wm
首先使用词嵌入(word embedding)工具word2vec将每个单词wi,1≤i≤m,分别映射为长度为100的一维列向量v(wi),然后将v(w1),v(w2),…,v(wm)这100个一维列向量求平均值赋予e所对应的一维列向量:
Figure FDA0002353084060000012
即v(e)的第t个分量
Figure FDA0002353084060000013
其中v(wi)|t为向量v(wi)的第t个分量;
对于路径查询中涉及到的关系r,假定它由n个单词组成,即r=a1,a2,…,an;为了满足所述路径查询置信度计算模型的需要,将r编码成三种不同类型的数据:
2.1)第一种类型数据为长度等于100的一维列向量v(r);
首先使用词嵌入(word embedding)工具word2vec将每个单词ai,1≤i≤n,分别映射为长度为100的一维列向量v(ai),然后将v(a1),v(a2),…,v(am)这100个一维列向量求平均值赋予r所对应的一维列向量:
Figure FDA0002353084060000021
即v(r)的第t个分量
Figure FDA0002353084060000022
其中v(ai)|t为向量v(ai)的第t个分量;
2.2)第二种类型数据为100×100的二维矩阵
Figure FDA0002353084060000023
首先使用词嵌入(word embedding)工具word2vec将每个单词ai,1≤i≤n,分别映射为长度为100的一维列向量v(ai);然后,对于j从1到100,重复执行如下操作:对于矩阵
Figure FDA0002353084060000024
的第j列向量
Figure FDA0002353084060000025
随机生成长度为100的一维权重列向量
Figure FDA0002353084060000026
Figure FDA0002353084060000027
其中各分量为随机数;接着对列向量ρ[j]进行归一化处理,从而得到
Figure FDA0002353084060000028
最后,对
Figure FDA0002353084060000029
的每个分量进行赋值,即
Figure FDA00023530840600000210
2.3)基于2.2)中产生的二维矩阵
Figure FDA00023530840600000211
产生第三种类型数据为100×100的二维对角矩阵
Figure FDA00023530840600000212
Figure FDA00023530840600000213
主对角线上元素的取值与
Figure FDA00023530840600000214
相等,而将主对角线之外的元素均赋值为0;
(3)路径查询置信度表示
在知识图谱G中,假定es/r1/r2…/rl/ez为路径查询Q[es,p]的一个返回结果,其中es为路径起始实体,p=<r1,r2,…,rl>为长度等于l的遍历路径;那么es/r1/r2…/rl/ez的置信度
Figure FDA00023530840600000215
通过以下四个激发值的加权组合来具体表示:
1)置信度第一激发值
Figure FDA00023530840600000216
其中v(es)和v(ez)分别为实体es和ez的编码,而
Figure FDA00023530840600000217
为关系ri的二维矩阵编码;
2)置信度第二激发值
Figure FDA00023530840600000218
其中
Figure FDA00023530840600000219
为关系ri的二维对角矩阵编码;
3)置信度第三激发值
Figure FDA00023530840600000220
其中
Figure FDA00023530840600000221
为向量(·)的2范数的平方值,v(rl),1≤i≤l,为关系ri的一维向量编码;
4)置信度第四激发值
Figure FDA00023530840600000222
Figure FDA00023530840600000223
基于上述四个激发值,置信度
Figure FDA00023530840600000224
Figure FDA00023530840600000225
其中
Figure FDA00023530840600000226
二、路径查询训练样本集生成模块实施方法
训练样本集中每个样本的路径长度l取值为1到15之间的正整数;同时,所生成的训练样本集分为两大类,即正训练样本集和负训练样本集,其中正训练样本集中的每个样本es/r1/r2…/rl/ez∈G,而负训练样本集中的每个样本
Figure FDA0002353084060000031
(1)正训练样本集生成
针对路径长度l的15个不同取值,取值范围1~15,分别生成1000个正训练样本,总计15×1000=15000个正训练样本,具体实施过程如下:
步骤1:在知识图谱G中随机选取一个实体es,并且满足从es出发的路径长度超过l;
步骤2:从es开始,利用随机游走策略重复如下过程l步:
1)记当前为第i步,所遍历的实体为e,首先获取e开始的所有关系组成的集合Ri
2)从Ri中随机选取一个关系ri
3)获取ri所指向全部实体组成的集合E;
4)从E中随机选取一个实体e’;
步骤3:产生正训练样本es/r1/r2…/rl/ez,其中ez为步骤2中最后一次随机游走选取的实体;
(2)负训练样本集生成
针对(1)中生成的每个正训练样本es/r1/r2…/rl/ez,将生成10个相应的负训练样本,具体实施过程如下:
步骤1:h=l;
步骤2:获取关系rh所指向全部实体组成的集合Eh
步骤3:对于Eh中的每个实体ez’,如果
Figure FDA0002353084060000032
那么生成负训练样本es/r1/r2…/rh-1/rh…/rl/ez’;
步骤4:如果负训练样本个数小于10,那么将h值减去1,并返回步骤2,否则退出;
得出,共生产150000个负训练样本;
三、路径查询预测器构建模块实施方法
在路径查询置信度建模和路径查询训练样本集生成的基础上完成路径查询预测器的构建工作,包括预测目标函数的构建以及随机优化两个阶段;
(1)预测目标函数的构建
记T为所获取的路径查询训练样本集,包括15000个正训练样本,和150000 个负训练样本;对于每个正训练样本es/r1/r2…/rl/ez∈T,记与它对应的10个负训练样本为es/r1/r2…/rl/ez (1),es/r1/r2…/rl/ez (2),…,es/r1/r2…/rl/ez (10);那么针对每个路径长度l, 1≤l≤15,最小化如下预测目标函数,使得路径查询预测器的准确度达到最大,即
Figure FDA0002353084060000041
Figure FDA0002353084060000042
其中
Figure FDA0002353084060000043
Figure FDA0002353084060000044
Figure FDA0002353084060000045
为预测目标函数的参数,
Figure FDA0002353084060000046
为实数域;
每个路径长度l对应一个上面给出的预测目标函数Ωl *,因此,需要训练15个路径查询预测器;这15个路径查询预测器的训练过程相同,由于路径长度不一样,所以它们训练的时间代价不同;另外,每个路径查询预测器的训练样本数均为1000+1000×10=11000,即1000个正训练样本以及10000个负训练样本;
(2)预测目标函数的随机优化
针对每个路径长度l,1≤l≤15,所对应的预测目标函数
Figure FDA0002353084060000047
Figure FDA0002353084060000048
首先提取预测目标函数相关的2l+6个参数
Figure FDA0002353084060000049
Figure FDA00023530840600000410
这些参数满足如下条件:
Figure FDA00023530840600000411
Figure FDA00023530840600000412
Figure FDA00023530840600000413
为了降低随机优化的时间开销,使用块坐标下降策略来实施预测目标函数的随机优化:在3l+5个参数中,每次固定3l+4个参数的值,并优化剩下的1个参数,同时,将3l+5个参数的1次优化过程作为一个原子分组;将随机优化过程分为1000个迭代分组,即每个参数在其它3l+4个参数固定的情况下,随机优化1000次;
最后,3l+5个参数随机优化第n,1≤n≤1000次迭代的计算公式表示如下:
1)
Figure FDA00023530840600000414
2)
Figure FDA00023530840600000415
3)
Figure FDA00023530840600000416
4)
Figure FDA0002353084060000051
5)
Figure FDA0002353084060000052
在上述公式中,α为学习率,取0.001或0.05两个值。
CN201611025159.4A 2016-11-18 2016-11-18 一种大规模知识图谱路径查询预测器构造方法 Active CN106776729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611025159.4A CN106776729B (zh) 2016-11-18 2016-11-18 一种大规模知识图谱路径查询预测器构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611025159.4A CN106776729B (zh) 2016-11-18 2016-11-18 一种大规模知识图谱路径查询预测器构造方法

Publications (2)

Publication Number Publication Date
CN106776729A CN106776729A (zh) 2017-05-31
CN106776729B true CN106776729B (zh) 2020-08-14

Family

ID=58970005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611025159.4A Active CN106776729B (zh) 2016-11-18 2016-11-18 一种大规模知识图谱路径查询预测器构造方法

Country Status (1)

Country Link
CN (1) CN106776729B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295001A1 (en) * 2018-03-21 2019-09-26 International Business Machines Corporation Cognitive data curation in a computing environment
CN108959472B (zh) * 2018-06-20 2021-11-19 桂林电子科技大学 基于多步关系路径的知识图谱表示学习方法
CN109241291B (zh) * 2018-07-18 2022-02-15 华南师范大学 基于深度强化学习的知识图谱最优路径查询系统及其方法
CN109460793B (zh) 2018-11-15 2023-07-18 腾讯科技(深圳)有限公司 一种节点分类的方法、模型训练的方法及装置
CN110187678B (zh) * 2019-04-19 2021-11-05 广东省智能制造研究所 一种制造业加工设备信息存储和数字化应用系统
CN110717107A (zh) * 2019-09-12 2020-01-21 华中科技大学 一种面向社交网络的度偏置采样方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129457A (zh) * 2011-03-09 2011-07-20 浙江大学 大规模语义数据路径查询的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140145018A (ko) * 2013-06-12 2014-12-22 한국전자통신연구원 지식 인덱스 시스템 및 그 방법
US20160328443A1 (en) * 2015-05-06 2016-11-10 Vero Analytics, Inc. Knowledge Graph Based Query Generation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129457A (zh) * 2011-03-09 2011-07-20 浙江大学 大规模语义数据路径查询的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Knowledge Base Completion via Coupled Path Ranking;Quan Wang等;《Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics》;20160812;第1308–1316页 *
Knowledge Graph Embedding for Link Prediction and Triplet Classification;E.Shijia等;《China Conference on Knowledge Graph and Semantic Computing》;20160922;第228-232页 *

Also Published As

Publication number Publication date
CN106776729A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776729B (zh) 一种大规模知识图谱路径查询预测器构造方法
CN109101235B (zh) 一种软件程序的智能解析方法
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
CN113299354B (zh) 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN104756107B (zh) 采用位置信息剖析数据
Bhardwaj et al. Implementation of ID3 algorithm
WO2023274059A1 (zh) 交替序列生成模型训练方法、从文本中抽取图的方法
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN112749191A (zh) 一种应用于数据库的智能代价估计方法、系统及电子设备
CN106649731A (zh) 一种基于大规模属性网络的节点相似性搜索方法
Tuli et al. FlexiBERT: Are current transformer architectures too homogeneous and rigid?
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN104156431B (zh) 一种基于实体图社团结构的rdf关键词查询方法
CN114913938A (zh) 一种基于药效团模型的小分子生成方法、设备及介质
Zhang et al. Efficient learned spatial index with interpolation function based learned model
Chen et al. Scaling up Markov logic probabilistic inference for social graphs
Zhou et al. A BiLSTM cardinality estimator in complex database systems based on attention mechanism
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks
CN114625886A (zh) 基于知识图谱小样本关系学习模型的实体查询方法及系统
Xu Deep mining method for high-dimensional big data based on association rule
Yang et al. Application of a New m Ant-Miner PR Algorithm in Classification Rule Mining.
CN112927810A (zh) 基于大数据的智慧医疗响应方法及智慧医疗云计算系统
Ma et al. A framework for hybrid location prediction via decision tree classification
CN117851615B (zh) 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法
Lomurno et al. POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant