CN111506742A - 多元关系知识库构建方法和系统 - Google Patents
多元关系知识库构建方法和系统 Download PDFInfo
- Publication number
- CN111506742A CN111506742A CN202010306303.1A CN202010306303A CN111506742A CN 111506742 A CN111506742 A CN 111506742A CN 202010306303 A CN202010306303 A CN 202010306303A CN 111506742 A CN111506742 A CN 111506742A
- Authority
- CN
- China
- Prior art keywords
- multivariate
- knowledge base
- relational
- entity
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims description 23
- 238000009411 base construction Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000007634 remodeling Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 32
- 230000014509 gene expression Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种多元关系知识库构建方法和系统。所述方法包括:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
Description
技术领域
本申请涉及人工智能领域中的知识图谱技术,更具体地讲,涉及一种多元关系知识库构建方法和系统。
背景技术
随着信息网络技术的快速发展,各种信息网络数据内容呈现爆炸式增长的态势。这样的内容通常具有大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(KG,Knowledge Graph)是语义网络的知识库,能够用可视化技术描述知识资源及其载体,并挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱作为一种特殊的图形结构,实体(entities)作为结点,关系(relations)作为有向边,最近引起了很多人的兴趣。在常见的知识图谱中,每个边缘被表示为具有(头部实体,关系,尾部实体)这一形式的三元组(s,r,o),以指示两个实体s(即,头部实体)和o(即,尾部实体)通过关系r连接,例如(NewYork,isLocatedIn,USA)可表示NewYork位于USA。在过去的几十年中建立了许多大型知识图谱,例如WordNet,Freebase,DBpedia,YAGO。它们改进了各种下游应用,例如结构化搜索、问答和实体推荐等。
然而,现有的知识图谱的处理方法通常限制在二维,例如(关系,实体1,实体2)这样的三个元素之间的三元关系,但是这样的表达有时很有局限性。例如,一般的购买行为可以是一个涉及购买者、物品和销售员的三元关系,但体育赛事奖项通常涉及运动员、队伍、奖项和赛季这样的四元关系。然而,大部分传统的知识图谱处理方法无法直接拓展到多元关系(例如,(关系,实体1,实体2,实体3,...)这样的多元关系),而一些张量模型(例如,基于Turker和CANDECOMP/PARAFAC(CP)的二元模型)虽然能够扩展,但它们具有表达能力不足或参数过多的问题。
因此,需要一种在具有足够表达能力的同时不需要过多参数来对具有多元关系的知识图谱进行处理的模型。
发明内容
根据本发明的实施例,提供了一种多元关系知识库构建方法,所述方法包括:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
可选地,使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练的步骤可包括:对多元关系预测张量模型的模型参数进行初始化;基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数。每次迭代更新操作可包括:选择预定数量的训练样本作为正样本集合并设置初始损失参数;针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;根据损失参数的损失梯度来更新所述模型参数。每次迭代损失更新操作可包括:构建正样本集合中的当前正样本的负样本集合;使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。
可选地,所述估分函数可被表示为:
其中,(ir,i1,i2,...,in)表示n元关系知识库中的(n+1)元组,ir指示该(n+1)元组中的关系元素且ir∈关系域im指示该(n+1)元组中的第m个实体元素且im∈实体域ε,是关系元素ir的嵌入向量,是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数,
其中, 表示关于与所述n元关系知识库对应的(n+1)阶张量的(n+1)阶核张量且 是对进行重塑得到的k阶张量且 是的第(p1,p2,...,pk)个元素并且 表示第j个3阶TR隐性张量且 表示的第pj个横切片矩阵并且r=[r1,r2,…,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
可选地,所述损失函数可表示为:
其中,
可选地,基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素的步骤可包括:基于所述估分函数来预测所述多元关系知识库中最可能是所述具有缺失实体元素的多元组中的缺失实体元素的实体元素;使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
所述方法还可包括:当所述多元关系知识库中包括多种多元组时,从所述多元关系知识库提取多个子知识库使得每个子知识库中的多元组中所包括的实体元素的数量相等,并针对每个子知识库分别建立相应的多元关系预测张量模型。
根据本发明的另一实施例,提供了一种多元关系知识库构建系统,所述系统包括:模型构建装置,被配置为针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;补全装置,被配置为基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及知识库构建装置,被配置为基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
可选地,模型构建装置可被配置为通过以下操作对所述多元关系预测张量模型进行训练:对多元关系预测张量模型的模型参数进行初始化;基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数。每次迭代更新操作可包括:选择预定数量的训练样本作为正样本集合并设置初始损失参数;针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;根据损失参数的损失梯度来更新所述模型参数。每次迭代损失更新操作可包括:构建正样本集合中的当前正样本的负样本集合;使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。
可选地,所述估分函数可被表示为:
其中,(ir,i1,i2,...,in)表示n元关系知识库中的(n+1)元组,ir指示该(n+1)元组中的关系元素且ir∈关系域im指示该(n+1)元组中的第m个实体元素且im∈实体域ε,是关系元素ir的嵌入向量,是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数,
其中, 表示关于与所述n元关系知识库对应的(n+1)阶张量的(n+1)阶核张量且 是对进行重塑得到的k阶张量且 是的第(p1,p2,...,pk)个元素并且 表示第j个3阶TR隐性张量且 表示的第pj个横切片矩阵并且r=[r1,r2,...,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
可选地,所述损失函数可表示为:
其中,
可选地,补全装置可被配置为:基于所述估分函数来预测所述多元关系知识库中最可能是所述具有缺失实体元素的多元组中的缺失实体元素的实体元素;使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
可选地,模型构建装置还可被配置为:当所述多元关系知识库中包括多种多元组时,从所述多元关系知识库提取多个子知识库使得每个子知识库中的多元组中所包括的实体元素的数量相等,并针对每个子知识库分别建立相应的多元关系预测张量模型。
根据本发明的另一实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行前述多元关系知识库构建方法。
根据本发明的另一实施例,提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行前述多元关系知识库构建方法。
有益效果
通过应用根据本发明的示例性实施例的多元关系知识库构建方法和系统,能够针对具有多元关系的知识图谱(以下简称为多元关系知识库)建立具有足够表达能力且无需过多参数的多元关系预测张量模型来进行链接预测(即,对关系与实体之间的链接的预测),从而准确地预测出知识库中的多元组的缺失实体元素,由此补全并构建完整的多元关系知识库。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出根据本公开的示例性实施例的多元关系知识库构建系统的框图;
图2是示出根据本公开的示例性实施例的多元关系知识库构建方法的流程图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
在下面开始对本发明构思的描述之前,为便于理解,将首先对本申请中所使用的一些参数表达形式进行解释:
多元关系知识库(KB,Knowledge Bases)-由具有多元关系的多元组构成的知识图谱的简称。
向量由小写粗体表示,矩阵由大写粗体表示。
de,dr-分别表示多元关系知识库中的实体元素的嵌入向量和关系元素的嵌入向量的维度。
E,R-分别表示实体嵌入向量矩阵和关系嵌入向量矩阵,并且实体元素的嵌入向量和关系元素的嵌入向量分别构成E和R的列。
r=[r1,r2,...,rn]-用于指示隐性张量的大小。
o-表示向量外积。
×n-表示张量模n(n-mode)乘积。
<·>-表示多线性点积。
trace{·}-表示矩阵迹算子。
此外,在本公开的上下文中,具有相同表达形式的参数具有相同的定义。
图1是示出根据本公开的示例性实施例的多元关系知识库构建系统100的框图。
参照图1,根据本公开的示例性实施例的多元关系知识库构建系统100包括:模型构建装置110、补全装置120以及知识库构建装置130。
根据本发明的示例性实施例的模型构建装置110可针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练。这里,所述多元关系知识库可具有多个多元组,每个多元组可由一个关系元素和多个实体元素构成。此外,所述训练样本可以是所述多元关系知识库中的不具有缺失实体元素的多元组。
在本发明的示例性实施例中,模型构建装置110可使用各种算法(例如,随机梯度下降、临近迭代算子法(Proximal gradient descent)、交替方向乘子算法(AlternatingDirection Method of Multipliers)等等)来对所述多元关系预测张量模型进行训练。
在等式(1)中,(ir,i1,i2,...,in)可表示n元关系知识库中的(n+1)元组,ir可指示该(n+1)元组中的关系元素且ir∈关系域im可指示该(n+1)元组中的第m个实体元素且im∈实体域ε,是关系元素ir的嵌入向量,是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数。
此外, 表示关于与所述n元关系知识库对应的(n+1)阶张量的(n+1)阶核张量且 是对进行重塑得到的k阶张量且 是的第(p1,p2,...,pk)个元素并且 表示第j个3阶TR隐性张量且 表示的第pj个横切片矩阵并且r=[r1,r2,...,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
在本发明的示例性实施例中,所述估分函数用于确定存在所估计的多元组的概率。也就是说,当在多元关系知识库中存在所估计的多元组时,估分函数所确定的得分为1,如果不存在所估计的多元组,则得分为0。因此,在本发明的示例性实施例中,估分函数所估计的多元组的得分越高,则知识库中存在该多元组的可能性越大。
此外,在上述算法1中,负样本集合中的负样本可以是通过将正样本(即,多元关系知识库中的不具有缺失实体元素的多元组)中的特定实体元素的改变为实体域中的另一实体元素而生成的。例如,针对正样本(ir,i1,i2,...,in),可构建n组负样本的集合这里,可表示实体域ε中与所述正样本中的实体元素iq不同的另一实体元素(即,用于替换iq来构成负样本的实体元素),并且构建的负样本集合中的负样本不属于集合
此外,算法1中所使用的所述损失函数可被表示为:
其中,
应该理解,上述损失函数和估分函数的具体形式仅是示例,本申请不限于此,还可使用或设置各种其他形式的估分函数和损失函数,只要它们能够实现本申请的估分函数和损失函数的实质意图即可。
因此,如以上算法1中所示,当对所述多元关系预测张量模型进行训练时,模型构建装置110可首先对多元关系预测张量模型的模型参数进行随机初始化(算法1中的行1)。这里,所述模型参数可包括关系嵌入向量矩阵R、实体嵌入向量矩阵E以及TR隐性张量
之后,模型构建装置110可基于初始化的模型参数,执行至少一次迭代更新操作(算法1中的行2-行10)来更新所述模型参数,由此实现对张量模型的训练。这里,所述迭代更新操作的次数(即,nepoch)可以是预设次数(例如,根据经验预设的次数)。
在本发明的示例性实施例中,每次迭代更新操作(算法1中的行3-行10)可包括以下处理:
A)从训练集S选择(例如,采样)预定数量(即,mb)的训练样本作为正样本集合(即,集合Sbatch),并且此时还可设置初始损失参数例如,将其设置为0(算法1中的行3-4,应该理解,这两行的对应操作的执行顺序可任意设置,可同时进行,也可先后进行);
B)针对正样本集合中的每个正样本,执行迭代损失更新操作(算法1中的行5-行9)来更新损失参数;
C)根据损失参数的损失梯度来更新所述模型参数(算法1中的行10)。具体来说,可首先基于损失参数来计算所述损失梯度然后使用梯度反向传播来更新所述模型参数。这里,计算损失梯度以及使用梯度来更新模型参数的方法对于本领域技术人员而言是已知的(例如,可使用梯度下降算法),因此为了简明将不再进行详细描述。
这里,每次迭代损失更新操作可包括:
构建所述正样本集合中的当前正样本的负样本集合(算法1中的行6);
使用前述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分(算法1中的行7);
基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数(算法1中的行8);
基于计算出的当前损失参数和上一次迭代损失更新操作(即,上一次的针对正样本集合中的另一正样本所进行的迭代损失更新操作)所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数(算法1中的行9)。
如上所述,算法1示出了使用小批量(mini-batch)法对根据本发明的示例性实施例的多元关系预测张量模型进行训练的示例,然而,应该理解本申请不限于此,还可使用其他各种算法(例如,随机梯度下降、临近迭代算子法(Proximalgradient descent)、交替方向乘子算法(Alternating Direction Method of Multipliers)等)对所述多元关系预测张量模型进行训练。
在完成模型训练之后,补全装置120可基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的每个多元组中的缺失实体元素。
具体来讲,补全装置120可基于前述的估分函数来预测所述多元关系知识库中最可能是具有缺失实体元素的多元组中的缺失实体元素的实体元素,然后使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
也就是说,例如,补全装置120可使用所述多元关系知识库中的各个实体元素来补全具有缺失实体元素的多元组中的缺失实体元素,然后使用估分函数来计算这样的多元组的得分,并将得分最高时所使用的实体元素确定为最终用于补全所述具有缺失实体元素的多元组的实体元素。
之后,知识库构建装置130可基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
根据本发明的示例性实施例中的多元关系预测张量模型不仅可在多元组中缺失一个实体元素的情况下对该多元组进行补全,还可在多元组中缺失多于一个实体元素的情况下对该多元组进行补全。
此外,在以上示例中描述了多元关系知识库是n元关系知识库的情况,然而,本申请不限于此,当所述多元关系知识库中是包括多种多元组(例如,除了(n+1)元组之外,还包括n元组、(n-1)元组等其他类型的多元组)的复杂多元关系知识库时,模型构建装置110可首先从所述多元关系知识库提取多个子知识库使得每个子知识库中的各个多元组中所包括的实体元素的数量相等(例如,将该多元关系知识库划分为n元关系子知识库、(n-1)元关系子知识库以及(n-2)元关系子知识库等),然后针对每个子知识库分别建立相应的多元关系预测张量模型,之后补全装置120可使用针对各个子知识库的多元关系预测张量模型来补全各个子知识库中的多元组,由此最终实现复杂多元关系知识库的补全和构建。
图2是示出根据本公开的示例性实施例的多元关系知识库构建方法的流程图。
参照图2,在步骤S210,可由模型构建装置110针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练。这里,所述多元关系知识库可具有多个多元组,每个多元组可由一个关系元素和多个实体元素构成,所述训练样本可以是所述多元关系知识库中的不具有缺失关实体系元素的多元组。
然后,在步骤S220,可通过补全装置120基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素。
最后,在步骤S230,知识库构建装置130可基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
以上已结合图1详细描述了根据本公开的示例性实施例的多元关系知识库构建系统100的上述组成元件所执行的详细操作的具体过程,因此为了简明,在此将不再赘述。
此外,根据本公开的示例性实施例的多元关系知识库构建方法还可利用在步骤S230获得的多元关系知识库训练机器学习模型,得到用于执行关系检索、语义检索、智能检索、智能推荐、智能问答、个性化推荐、内容分发中的至少一项的目标机器学习模型,并且可利用所述目标机器学习模型,执行预测任务,其中,所述预测任务包括关系检索、语义检索、智能检索、智能推荐、智能问答、个性化推荐、内容分发中的至少一项。
也就是说,本公开的示例性实施例的多元关系知识库构建方法和系统可被应用于各种领域,例如关系检索、语义检索、智能检索、智能推荐、智能问答、个性化推荐、反欺诈、内容分发等。
仅作为示例,在根据本公开的示例性实施例的多元关系知识库构建方法和系统的各种应用场景之中,例如,对于检索(诸如关系检索、语义检索、智能等),可通过输入多个关键词来检索它们之间的关系或检索相应的另一实体。
例如,对于智能问答,输入“2018年世界杯冠军是哪个队伍?”则能准确返回“法国”,由此可通过所述知识库真正理解了用户的意图。
例如,对于反欺诈,当将借款人(实体)的信息加入到知识库中时,通过读取借款人与知识库中的其他人之间的关系,或者是他们共享的信息是否一致,可判断是否存在欺诈风险。
例如,对于智能推荐(例如,个性化推荐),可向具有相似的关系的多元组的实体推荐相似的内容。例如,对于(张三学生A高中田径队)(即,张三是A高中田径队的学生),可基于知识库中的其他A高中的学生的信息,向张三进行推荐。
通过应用根据本发明的示例性实施例的多元关系知识库构建方法和系统,能够准确快速地补全多元关系知识库中的缺失实体元素从而构建完整的多元关系知识库,由此能够进一步利用这样的知识库实现更准确的预测、推荐等效果。
以上已参照图1至图2描述了根据本公开的示例性实施例的多元关系知识库构建方法和系统。然而,应理解的是:附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算机可读存储介质上的指令来实现,例如,根据本申请的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失关实体系元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1至图2进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的多元关系知识库构建系统可完全依赖计算机程序或指令的运行来实现相应的功能,即,各个装置在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1所示的系统和装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,根据本申请示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失关实体系元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
具体说来,上述系统可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点上。此外,所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外,所述系统还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。另外,所述系统的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个系统,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与计算装置集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得计算装置能够读取存储在存储装置中的指令。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种多元关系知识库构建方法,所述方法包括:
针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;
基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及
基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
2.如权利要求1所述的方法,其中,使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练的步骤包括:
对多元关系预测张量模型的模型参数进行初始化;
基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数,
其中,每次迭代更新操作包括:
选择预定数量的训练样本作为正样本集合并设置初始损失参数;
针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;
根据损失参数的损失梯度来更新所述模型参数,
其中,每次迭代损失更新操作包括:
构建正样本集合中的当前正样本的负样本集合;
使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;
基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;
基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。
3.如权利要求2所述的方法,其中,所述估分函数被表示为:
其中,(ir,i1,i2,...,in)表示n元关系知识库中的(n+1)元组,ir指示该(n+1)元组中的关系元素且ir∈关系域im指示该(n+1)元组中的第m个实体元素且im∈实体域ε,是关系元素ir的嵌入向量,是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数,
6.如权利要求2所述的方法,其中,基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素的步骤包括:
基于所述估分函数来预测所述多元关系知识库中最可能是所述具有缺失实体元素的多元组中的缺失实体元素的实体元素;
使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
7.如权利要求1所述的方法,还包括:当所述多元关系知识库中包括多种多元组时,从所述多元关系知识库提取多个子知识库使得每个子知识库中的多元组中所包括的实体元素的数量相等,并针对每个子知识库分别建立相应的多元关系预测张量模型。
8.一种多元关系知识库构建系统,所述系统包括:
模型构建装置,被配置为针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;
补全装置,被配置为基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及
知识库构建装置,被配置为基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
9.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。
10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306303.1A CN111506742A (zh) | 2020-04-17 | 2020-04-17 | 多元关系知识库构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306303.1A CN111506742A (zh) | 2020-04-17 | 2020-04-17 | 多元关系知识库构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506742A true CN111506742A (zh) | 2020-08-07 |
Family
ID=71864119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306303.1A Pending CN111506742A (zh) | 2020-04-17 | 2020-04-17 | 多元关系知识库构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506742A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051404A (zh) * | 2021-01-08 | 2021-06-29 | 中国科学院自动化研究所 | 一种基于张量分解的知识推理方法、装置、设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337481A1 (en) * | 2016-05-17 | 2017-11-23 | Xerox Corporation | Complex embeddings for simple link prediction |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
CN110147450A (zh) * | 2019-05-06 | 2019-08-20 | 北京科技大学 | 一种知识图谱的知识补全方法及装置 |
-
2020
- 2020-04-17 CN CN202010306303.1A patent/CN111506742A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337481A1 (en) * | 2016-05-17 | 2017-11-23 | Xerox Corporation | Complex embeddings for simple link prediction |
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
CN110147450A (zh) * | 2019-05-06 | 2019-08-20 | 北京科技大学 | 一种知识图谱的知识补全方法及装置 |
Non-Patent Citations (3)
Title |
---|
WEIDONG LI等: "Graph2Seq:Fusion Embedding Learning for Knowledge Graph Completion", 《IEEE ACCESS》, vol. 7, 30 October 2019 (2019-10-30) * |
王硕: "大规模知识图谱补全技术的研究进展", 《中国科学:信息科学》, vol. 50, no. 4, 13 April 2020 (2020-04-13) * |
罗琦: "基于实体描述和关系路径的知识图谱补全研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》, 15 December 2018 (2018-12-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051404A (zh) * | 2021-01-08 | 2021-06-29 | 中国科学院自动化研究所 | 一种基于张量分解的知识推理方法、装置、设备 |
CN113051404B (zh) * | 2021-01-08 | 2024-02-06 | 中国科学院自动化研究所 | 一种基于张量分解的知识推理方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200349450A1 (en) | Projection neural networks | |
US20190213447A1 (en) | Sample selection method and apparatus and server | |
US20190164084A1 (en) | Method of and system for generating prediction quality parameter for a prediction model executed in a machine learning algorithm | |
WO2022057658A1 (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN110929807B (zh) | 图像分类模型的训练方法、图像分类方法及装置 | |
CN113792881B (zh) | 模型训练方法及装置、电子设备和介质 | |
US20210150412A1 (en) | Systems and methods for automated machine learning | |
CN111858947A (zh) | 自动知识图谱嵌入方法和系统 | |
CN110837567A (zh) | 实现知识图谱嵌入的方法和系统 | |
CN115439192A (zh) | 医疗商品信息的推送方法及装置、存储介质、计算机设备 | |
CN112905809B (zh) | 知识图谱学习方法和系统 | |
CN111506742A (zh) | 多元关系知识库构建方法和系统 | |
WO2023246735A1 (zh) | 一种项目推荐方法及其相关设备 | |
CN111402003B (zh) | 实现用户相关推荐的系统和方法 | |
JP2022032703A (ja) | 情報処理システム | |
US20240005129A1 (en) | Neural architecture and hardware accelerator search | |
CN115827705A (zh) | 用于反事实解释的数据处理方法和装置 | |
CN114757700A (zh) | 物品销量预测模型训练方法、物品销量预测方法及装置 | |
CN114819163A (zh) | 量子生成对抗网络的训练方法、装置、介质及电子装置 | |
CN114692808A (zh) | 图神经网络传播模型确定方法和系统 | |
CN114328940A (zh) | 多元关系知识库构建方法和系统 | |
CN113688249A (zh) | 基于关系认知的知识图谱嵌入方法和系统 | |
US11609936B2 (en) | Graph data processing method, device, and computer program product | |
US20240152760A1 (en) | Method, apparatus, device and medium for training and applying a contrastive learning model | |
US20230244928A1 (en) | Learning method, learning apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |