CN111506742A - 多元关系知识库构建方法和系统 - Google Patents

多元关系知识库构建方法和系统 Download PDF

Info

Publication number
CN111506742A
CN111506742A CN202010306303.1A CN202010306303A CN111506742A CN 111506742 A CN111506742 A CN 111506742A CN 202010306303 A CN202010306303 A CN 202010306303A CN 111506742 A CN111506742 A CN 111506742A
Authority
CN
China
Prior art keywords
multivariate
knowledge base
relational
entity
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010306303.1A
Other languages
English (en)
Inventor
姚权铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010306303.1A priority Critical patent/CN111506742A/zh
Publication of CN111506742A publication Critical patent/CN111506742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种多元关系知识库构建方法和系统。所述方法包括:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。

Description

多元关系知识库构建方法和系统
技术领域
本申请涉及人工智能领域中的知识图谱技术,更具体地讲,涉及一种多元关系知识库构建方法和系统。
背景技术
随着信息网络技术的快速发展,各种信息网络数据内容呈现爆炸式增长的态势。这样的内容通常具有大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(KG,Knowledge Graph)是语义网络的知识库,能够用可视化技术描述知识资源及其载体,并挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱作为一种特殊的图形结构,实体(entities)作为结点,关系(relations)作为有向边,最近引起了很多人的兴趣。在常见的知识图谱中,每个边缘被表示为具有(头部实体,关系,尾部实体)这一形式的三元组(s,r,o),以指示两个实体s(即,头部实体)和o(即,尾部实体)通过关系r连接,例如(NewYork,isLocatedIn,USA)可表示NewYork位于USA。在过去的几十年中建立了许多大型知识图谱,例如WordNet,Freebase,DBpedia,YAGO。它们改进了各种下游应用,例如结构化搜索、问答和实体推荐等。
然而,现有的知识图谱的处理方法通常限制在二维,例如(关系,实体1,实体2)这样的三个元素之间的三元关系,但是这样的表达有时很有局限性。例如,一般的购买行为可以是一个涉及购买者、物品和销售员的三元关系,但体育赛事奖项通常涉及运动员、队伍、奖项和赛季这样的四元关系。然而,大部分传统的知识图谱处理方法无法直接拓展到多元关系(例如,(关系,实体1,实体2,实体3,...)这样的多元关系),而一些张量模型(例如,基于Turker和CANDECOMP/PARAFAC(CP)的二元模型)虽然能够扩展,但它们具有表达能力不足或参数过多的问题。
因此,需要一种在具有足够表达能力的同时不需要过多参数来对具有多元关系的知识图谱进行处理的模型。
发明内容
根据本发明的实施例,提供了一种多元关系知识库构建方法,所述方法包括:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
可选地,使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练的步骤可包括:对多元关系预测张量模型的模型参数进行初始化;基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数。每次迭代更新操作可包括:选择预定数量的训练样本作为正样本集合并设置初始损失参数;针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;根据损失参数的损失梯度来更新所述模型参数。每次迭代损失更新操作可包括:构建正样本集合中的当前正样本的负样本集合;使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。
可选地,所述估分函数可被表示为:
Figure BDA0002455904350000021
其中,(ir,i1,i2,...,in)表示n元关系知识库中的(n+1)元组,ir指示该(n+1)元组中的关系元素且ir∈关系域
Figure BDA0002455904350000022
im指示该(n+1)元组中的第m个实体元素且im∈实体域ε,
Figure BDA0002455904350000023
是关系元素ir的嵌入向量,
Figure BDA0002455904350000024
是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数,
其中,
Figure BDA0002455904350000025
Figure BDA0002455904350000026
表示关于与所述n元关系知识库对应的(n+1)阶张量
Figure BDA0002455904350000027
的(n+1)阶核张量且
Figure BDA0002455904350000031
Figure BDA0002455904350000032
是对
Figure BDA0002455904350000033
进行重塑得到的k阶张量且
Figure BDA0002455904350000034
Figure BDA0002455904350000035
Figure BDA0002455904350000036
Figure BDA0002455904350000037
的第(p1,p2,...,pk)个元素并且
Figure BDA0002455904350000038
Figure BDA0002455904350000039
Figure BDA00024559043500000310
表示第j个3阶TR隐性张量且
Figure BDA00024559043500000311
Figure BDA00024559043500000312
表示
Figure BDA00024559043500000313
的第pj个横切片矩阵并且
Figure BDA00024559043500000314
r=[r1,r2,…,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示
Figure BDA00024559043500000315
的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
可选地,针对正样本(ir,i1,i2,...,in),构建的n组负样本的集合
Figure BDA00024559043500000316
其中,
Figure BDA00024559043500000317
表示实体域ε中与所述正样本中的实体元素iq不同的另一实体元素,
Figure BDA00024559043500000321
表示训练样本的集合。
可选地,所述损失函数可表示为:
Figure BDA00024559043500000318
其中,
Figure BDA00024559043500000319
其中,
Figure BDA00024559043500000320
表示替换正样本(ir,i1,i2,...,in)中的第q个实体元素所获得的负样本集合,1≤q≤n且q为正整数。
可选地,基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素的步骤可包括:基于所述估分函数来预测所述多元关系知识库中最可能是所述具有缺失实体元素的多元组中的缺失实体元素的实体元素;使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
所述方法还可包括:当所述多元关系知识库中包括多种多元组时,从所述多元关系知识库提取多个子知识库使得每个子知识库中的多元组中所包括的实体元素的数量相等,并针对每个子知识库分别建立相应的多元关系预测张量模型。
根据本发明的另一实施例,提供了一种多元关系知识库构建系统,所述系统包括:模型构建装置,被配置为针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;补全装置,被配置为基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及知识库构建装置,被配置为基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
可选地,模型构建装置可被配置为通过以下操作对所述多元关系预测张量模型进行训练:对多元关系预测张量模型的模型参数进行初始化;基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数。每次迭代更新操作可包括:选择预定数量的训练样本作为正样本集合并设置初始损失参数;针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;根据损失参数的损失梯度来更新所述模型参数。每次迭代损失更新操作可包括:构建正样本集合中的当前正样本的负样本集合;使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。
可选地,所述估分函数可被表示为:
Figure BDA0002455904350000041
其中,(ir,i1,i2,...,in)表示n元关系知识库中的(n+1)元组,ir指示该(n+1)元组中的关系元素且ir∈关系域
Figure BDA0002455904350000042
im指示该(n+1)元组中的第m个实体元素且im∈实体域ε,
Figure BDA0002455904350000043
是关系元素ir的嵌入向量,
Figure BDA0002455904350000044
是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数,
其中,
Figure BDA0002455904350000045
Figure BDA0002455904350000046
表示关于与所述n元关系知识库对应的(n+1)阶张量
Figure BDA0002455904350000047
的(n+1)阶核张量且
Figure BDA0002455904350000051
Figure BDA0002455904350000052
是对
Figure BDA0002455904350000053
进行重塑得到的k阶张量且
Figure BDA0002455904350000054
Figure BDA0002455904350000055
Figure BDA0002455904350000056
Figure BDA0002455904350000057
的第(p1,p2,...,pk)个元素并且
Figure BDA0002455904350000058
Figure BDA0002455904350000059
Figure BDA00024559043500000510
表示第j个3阶TR隐性张量且
Figure BDA00024559043500000511
Figure BDA00024559043500000512
表示
Figure BDA00024559043500000513
的第pj个横切片矩阵并且
Figure BDA00024559043500000514
r=[r1,r2,...,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示
Figure BDA00024559043500000515
的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
可选地,针对正样本(ir,i1,i2,...,in),构建的n组负样本的集合
Figure BDA00024559043500000516
其中,
Figure BDA00024559043500000517
表示实体域ε中与所述正样本中的实体元素iq不同的另一实体元素,
Figure BDA00024559043500000518
表示训练样本的集合。
可选地,所述损失函数可表示为:
Figure BDA00024559043500000519
其中,
Figure BDA00024559043500000520
其中,
Figure BDA00024559043500000521
表示替换正样本(ir,i1,i2,...,in)中的第q个实体元素所获得的负样本集合,1≤q≤n且q为正整数。
可选地,补全装置可被配置为:基于所述估分函数来预测所述多元关系知识库中最可能是所述具有缺失实体元素的多元组中的缺失实体元素的实体元素;使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
可选地,模型构建装置还可被配置为:当所述多元关系知识库中包括多种多元组时,从所述多元关系知识库提取多个子知识库使得每个子知识库中的多元组中所包括的实体元素的数量相等,并针对每个子知识库分别建立相应的多元关系预测张量模型。
根据本发明的另一实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行前述多元关系知识库构建方法。
根据本发明的另一实施例,提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行前述多元关系知识库构建方法。
有益效果
通过应用根据本发明的示例性实施例的多元关系知识库构建方法和系统,能够针对具有多元关系的知识图谱(以下简称为多元关系知识库)建立具有足够表达能力且无需过多参数的多元关系预测张量模型来进行链接预测(即,对关系与实体之间的链接的预测),从而准确地预测出知识库中的多元组的缺失实体元素,由此补全并构建完整的多元关系知识库。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出根据本公开的示例性实施例的多元关系知识库构建系统的框图;
图2是示出根据本公开的示例性实施例的多元关系知识库构建方法的流程图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
在下面开始对本发明构思的描述之前,为便于理解,将首先对本申请中所使用的一些参数表达形式进行解释:
多元关系知识库(KB,Knowledge Bases)-由具有多元关系的多元组构成的知识图谱的简称。
向量由小写粗体表示,矩阵由大写粗体表示。
Figure BDA0002455904350000061
-表示n阶张量,并且
Figure BDA0002455904350000062
其中,Ii表示其第i个模(mode)的维度,1≤i≤n,且i和n均为正整数。在本发明的示例性实施例,n元关系知识库可被表示为二元赋值的(n+1)阶张量
Figure BDA0002455904350000071
ne,nr-分别表示多元关系知识库中的实体元素e和关系元素r的数量,ne=|ε|,
Figure BDA0002455904350000072
Figure BDA0002455904350000073
ε-分别表示针对关系元素r的关系域(即,
Figure BDA0002455904350000074
)和针对实体元素e的实体域(即,e∈ε)。
de,dr-分别表示多元关系知识库中的实体元素的嵌入向量和关系元素的嵌入向量的维度。
E,R-分别表示实体嵌入向量矩阵和关系嵌入向量矩阵,并且实体元素的嵌入向量和关系元素的嵌入向量分别构成E和R的列。
Figure BDA0002455904350000075
-表示
Figure BDA0002455904350000076
的第(i1,i2,…,in)个元素。
Figure BDA0002455904350000077
-表示关于
Figure BDA0002455904350000078
的n阶核张量(core tensor),并且
Figure BDA0002455904350000079
Ji表示其第i个模的维度,1≤i≤n,且i和n均为正整数,J1,…,Jn通常小于I1,...,In
A(k)-表示模k因子矩阵(k-mode factor matrix),并且
Figure BDA00024559043500000710
Figure BDA00024559043500000711
-表示A(k)的第j列向量。
Figure BDA00024559043500000712
-表示第k个张量环(TR,Tensor Ring)隐性张量(latent tensor)并且
Figure BDA00024559043500000713
Figure BDA00024559043500000714
-表示
Figure BDA00024559043500000715
的第ik个横切片矩阵(lateralslice matrix)并且
Figure BDA00024559043500000716
r=[r1,r2,...,rn]-用于指示隐性张量的大小。
nk-表示
Figure BDA00024559043500000717
的第2个模的维度。
o-表示向量外积。
×n-表示张量模n(n-mode)乘积。
<·>-表示多线性点积。
trace{·}-表示矩阵迹算子。
此外,在本公开的上下文中,具有相同表达形式的参数具有相同的定义。
图1是示出根据本公开的示例性实施例的多元关系知识库构建系统100的框图。
参照图1,根据本公开的示例性实施例的多元关系知识库构建系统100包括:模型构建装置110、补全装置120以及知识库构建装置130。
根据本发明的示例性实施例的模型构建装置110可针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练。这里,所述多元关系知识库可具有多个多元组,每个多元组可由一个关系元素和多个实体元素构成。此外,所述训练样本可以是所述多元关系知识库中的不具有缺失实体元素的多元组。
在本发明的示例性实施例中,模型构建装置110可使用各种算法(例如,随机梯度下降、临近迭代算子法(Proximal gradient descent)、交替方向乘子算法(AlternatingDirection Method of Multipliers)等等)来对所述多元关系预测张量模型进行训练。
仅作为示例,模型构建装置110可如下面示出的算法1来对多元关系预测张量模型进行训练。在下面的算法1中,以n元关系数据库为例进行解释,输入参数中的
Figure BDA0002455904350000081
是训练样本的集合,其它参数的含义将稍后在下面进行解释。
Figure BDA0002455904350000082
在解释算法1之前,为便于理解,首先对算法1中使用的一些参数和函数的定义进行说明。这里,上面的算法1中所使用的估分函数可被表示为:
Figure BDA0002455904350000091
在等式(1)中,(ir,i1,i2,...,in)可表示n元关系知识库中的(n+1)元组,ir可指示该(n+1)元组中的关系元素且ir∈关系域
Figure BDA0002455904350000092
im可指示该(n+1)元组中的第m个实体元素且im∈实体域ε,
Figure BDA0002455904350000093
是关系元素ir的嵌入向量,
Figure BDA0002455904350000094
是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数。
此外,
Figure BDA0002455904350000095
Figure BDA0002455904350000096
表示关于与所述n元关系知识库对应的(n+1)阶张量
Figure BDA0002455904350000097
的(n+1)阶核张量且
Figure BDA0002455904350000098
Figure BDA0002455904350000099
是对
Figure BDA00024559043500000910
进行重塑得到的k阶张量且
Figure BDA00024559043500000911
Figure BDA00024559043500000912
Figure BDA00024559043500000913
Figure BDA00024559043500000914
的第(p1,p2,...,pk)个元素并且
Figure BDA00024559043500000915
Figure BDA00024559043500000916
Figure BDA00024559043500000917
表示第j个3阶TR隐性张量且
Figure BDA00024559043500000918
Figure BDA00024559043500000919
表示
Figure BDA00024559043500000920
的第pj个横切片矩阵并且
Figure BDA00024559043500000921
r=[r1,r2,...,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示
Figure BDA00024559043500000922
的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
在本发明的示例性实施例中,所述估分函数用于确定存在所估计的多元组的概率。也就是说,当在多元关系知识库中存在所估计的多元组时,估分函数所确定的得分为1,如果不存在所估计的多元组,则得分为0。因此,在本发明的示例性实施例中,估分函数所估计的多元组的得分越高,则知识库中存在该多元组的可能性越大。
此外,在上述算法1中,负样本集合中的负样本可以是通过将正样本(即,多元关系知识库中的不具有缺失实体元素的多元组)中的特定实体元素的改变为实体域中的另一实体元素而生成的。例如,针对正样本(ir,i1,i2,...,in),可构建n组负样本的集合
Figure BDA0002455904350000101
这里,
Figure BDA0002455904350000102
可表示实体域ε中与所述正样本中的实体元素iq不同的另一实体元素(即,用于替换iq来构成负样本的实体元素),并且构建的负样本集合中的负样本不属于集合
Figure BDA0002455904350000103
此外,算法1中所使用的所述损失函数可被表示为:
Figure BDA0002455904350000104
其中,
Figure BDA0002455904350000105
在上面的等式中,
Figure BDA0002455904350000106
表示替换正样本(ir,i1,i2,...,in)中的第q个实体元素所获得的负样本集合,1≤q≤n且q为正整数。也就是说,
Figure BDA0002455904350000107
应该理解,上述损失函数和估分函数的具体形式仅是示例,本申请不限于此,还可使用或设置各种其他形式的估分函数和损失函数,只要它们能够实现本申请的估分函数和损失函数的实质意图即可。
因此,如以上算法1中所示,当对所述多元关系预测张量模型进行训练时,模型构建装置110可首先对多元关系预测张量模型的模型参数进行随机初始化(算法1中的行1)。这里,所述模型参数可包括关系嵌入向量矩阵R、实体嵌入向量矩阵E以及TR隐性张量
Figure BDA0002455904350000108
之后,模型构建装置110可基于初始化的模型参数,执行至少一次迭代更新操作(算法1中的行2-行10)来更新所述模型参数,由此实现对张量模型的训练。这里,所述迭代更新操作的次数(即,nepoch)可以是预设次数(例如,根据经验预设的次数)。
在本发明的示例性实施例中,每次迭代更新操作(算法1中的行3-行10)可包括以下处理:
A)从训练集S选择(例如,采样)预定数量(即,mb)的训练样本作为正样本集合(即,集合Sbatch),并且此时还可设置初始损失参数
Figure BDA0002455904350000113
例如,将其设置为0(算法1中的行3-4,应该理解,这两行的对应操作的执行顺序可任意设置,可同时进行,也可先后进行);
B)针对正样本集合中的每个正样本,执行迭代损失更新操作(算法1中的行5-行9)来更新损失参数;
C)根据损失参数的损失梯度
Figure BDA0002455904350000111
来更新所述模型参数(算法1中的行10)。具体来说,可首先基于损失参数来计算所述损失梯度
Figure BDA0002455904350000112
然后使用梯度反向传播来更新所述模型参数。这里,计算损失梯度以及使用梯度来更新模型参数的方法对于本领域技术人员而言是已知的(例如,可使用梯度下降算法),因此为了简明将不再进行详细描述。
这里,每次迭代损失更新操作可包括:
构建所述正样本集合中的当前正样本的负样本集合(算法1中的行6);
使用前述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分(算法1中的行7);
基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数(算法1中的行8);
基于计算出的当前损失参数和上一次迭代损失更新操作(即,上一次的针对正样本集合中的另一正样本所进行的迭代损失更新操作)所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数(算法1中的行9)。
如上所述,算法1示出了使用小批量(mini-batch)法对根据本发明的示例性实施例的多元关系预测张量模型进行训练的示例,然而,应该理解本申请不限于此,还可使用其他各种算法(例如,随机梯度下降、临近迭代算子法(Proximalgradient descent)、交替方向乘子算法(Alternating Direction Method of Multipliers)等)对所述多元关系预测张量模型进行训练。
在完成模型训练之后,补全装置120可基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的每个多元组中的缺失实体元素。
具体来讲,补全装置120可基于前述的估分函数来预测所述多元关系知识库中最可能是具有缺失实体元素的多元组中的缺失实体元素的实体元素,然后使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
也就是说,例如,补全装置120可使用所述多元关系知识库中的各个实体元素来补全具有缺失实体元素的多元组中的缺失实体元素,然后使用估分函数来计算这样的多元组的得分,并将得分最高时所使用的实体元素确定为最终用于补全所述具有缺失实体元素的多元组的实体元素。
之后,知识库构建装置130可基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
根据本发明的示例性实施例中的多元关系预测张量模型不仅可在多元组中缺失一个实体元素的情况下对该多元组进行补全,还可在多元组中缺失多于一个实体元素的情况下对该多元组进行补全。
此外,在以上示例中描述了多元关系知识库是n元关系知识库的情况,然而,本申请不限于此,当所述多元关系知识库中是包括多种多元组(例如,除了(n+1)元组之外,还包括n元组、(n-1)元组等其他类型的多元组)的复杂多元关系知识库时,模型构建装置110可首先从所述多元关系知识库提取多个子知识库使得每个子知识库中的各个多元组中所包括的实体元素的数量相等(例如,将该多元关系知识库划分为n元关系子知识库、(n-1)元关系子知识库以及(n-2)元关系子知识库等),然后针对每个子知识库分别建立相应的多元关系预测张量模型,之后补全装置120可使用针对各个子知识库的多元关系预测张量模型来补全各个子知识库中的多元组,由此最终实现复杂多元关系知识库的补全和构建。
图2是示出根据本公开的示例性实施例的多元关系知识库构建方法的流程图。
参照图2,在步骤S210,可由模型构建装置110针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练。这里,所述多元关系知识库可具有多个多元组,每个多元组可由一个关系元素和多个实体元素构成,所述训练样本可以是所述多元关系知识库中的不具有缺失关实体系元素的多元组。
然后,在步骤S220,可通过补全装置120基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素。
最后,在步骤S230,知识库构建装置130可基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
以上已结合图1详细描述了根据本公开的示例性实施例的多元关系知识库构建系统100的上述组成元件所执行的详细操作的具体过程,因此为了简明,在此将不再赘述。
此外,根据本公开的示例性实施例的多元关系知识库构建方法还可利用在步骤S230获得的多元关系知识库训练机器学习模型,得到用于执行关系检索、语义检索、智能检索、智能推荐、智能问答、个性化推荐、内容分发中的至少一项的目标机器学习模型,并且可利用所述目标机器学习模型,执行预测任务,其中,所述预测任务包括关系检索、语义检索、智能检索、智能推荐、智能问答、个性化推荐、内容分发中的至少一项。
也就是说,本公开的示例性实施例的多元关系知识库构建方法和系统可被应用于各种领域,例如关系检索、语义检索、智能检索、智能推荐、智能问答、个性化推荐、反欺诈、内容分发等。
仅作为示例,在根据本公开的示例性实施例的多元关系知识库构建方法和系统的各种应用场景之中,例如,对于检索(诸如关系检索、语义检索、智能等),可通过输入多个关键词来检索它们之间的关系或检索相应的另一实体。
例如,对于智能问答,输入“2018年世界杯冠军是哪个队伍?”则能准确返回“法国”,由此可通过所述知识库真正理解了用户的意图。
例如,对于反欺诈,当将借款人(实体)的信息加入到知识库中时,通过读取借款人与知识库中的其他人之间的关系,或者是他们共享的信息是否一致,可判断是否存在欺诈风险。
例如,对于智能推荐(例如,个性化推荐),可向具有相似的关系的多元组的实体推荐相似的内容。例如,对于(张三学生A高中田径队)(即,张三是A高中田径队的学生),可基于知识库中的其他A高中的学生的信息,向张三进行推荐。
通过应用根据本发明的示例性实施例的多元关系知识库构建方法和系统,能够准确快速地补全多元关系知识库中的缺失实体元素从而构建完整的多元关系知识库,由此能够进一步利用这样的知识库实现更准确的预测、推荐等效果。
以上已参照图1至图2描述了根据本公开的示例性实施例的多元关系知识库构建方法和系统。然而,应理解的是:附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算机可读存储介质上的指令来实现,例如,根据本申请的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失关实体系元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1至图2进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的多元关系知识库构建系统可完全依赖计算机程序或指令的运行来实现相应的功能,即,各个装置在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1所示的系统和装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,根据本申请示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失关实体系元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
具体说来,上述系统可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点上。此外,所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外,所述系统还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。另外,所述系统的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个系统,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与计算装置集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得计算装置能够读取存储在存储装置中的指令。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种多元关系知识库构建方法,所述方法包括:
针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;
基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及
基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
2.如权利要求1所述的方法,其中,使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练的步骤包括:
对多元关系预测张量模型的模型参数进行初始化;
基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数,
其中,每次迭代更新操作包括:
选择预定数量的训练样本作为正样本集合并设置初始损失参数;
针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;
根据损失参数的损失梯度来更新所述模型参数,
其中,每次迭代损失更新操作包括:
构建正样本集合中的当前正样本的负样本集合;
使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;
基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;
基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。
3.如权利要求2所述的方法,其中,所述估分函数被表示为:
Figure FDA0002455904340000021
其中,(ir,i1,i2,...,in)表示n元关系知识库中的(n+1)元组,ir指示该(n+1)元组中的关系元素且ir∈关系域
Figure FDA0002455904340000022
im指示该(n+1)元组中的第m个实体元素且im∈实体域ε,
Figure FDA0002455904340000023
是关系元素ir的嵌入向量,
Figure FDA0002455904340000024
是所述第m个实体元素im的嵌入向量,并且1≤m≤n,n≥2且m和n是正整数,
其中,
Figure FDA0002455904340000025
Figure FDA0002455904340000026
表示关于与所述n元关系知识库对应的(n+1)阶张量
Figure FDA0002455904340000027
的(n+1)阶核张量且
Figure FDA0002455904340000028
Figure FDA0002455904340000029
是对
Figure FDA00024559043400000210
进行重塑得到的k阶张量且
Figure FDA00024559043400000211
Figure FDA00024559043400000212
Figure FDA00024559043400000213
Figure FDA00024559043400000214
的第(p1,p2,...,pk)个元素并且
Figure FDA00024559043400000215
Figure FDA00024559043400000216
Figure FDA00024559043400000217
表示第j个3阶TR隐性张量且
Figure FDA00024559043400000218
Figure FDA00024559043400000219
表示
Figure FDA00024559043400000220
的第pj个横切片矩阵并且
Figure FDA00024559043400000221
r=[r1,r2,...,rk]是预设参数,用于指示所述隐性张量的大小且r1=rk+1,nj表示
Figure FDA00024559043400000222
的第2个模的维度,ne和nr分别表示所述n元关系知识库中的实体元素和关系元素的数量,de和dr分别表示所述(n+1)元组中的实体元素的嵌入向量和关系元素的嵌入向量的维度,k是预设的重塑张量阶数且k≥n+1,1≤j≤k,j和k是正整数。
4.如权利要求3所述的方法,其中,针对正样本(ir,i1,i2,...,in),构建的n组负样本的集合
Figure FDA00024559043400000223
其中,
Figure FDA00024559043400000224
表示实体域ε中与所述正样本中的实体元素iq不同的另一实体元素,
Figure FDA00024559043400000225
表示训练样本的集合。
5.如权利要求4所述的方法,其中,所述损失函数表示为:
Figure FDA00024559043400000226
其中,
Figure FDA00024559043400000227
其中,
Figure FDA0002455904340000031
表示替换正样本(ir,i1,i2,…,in)中的第q个实体元素所获得的负样本集合,1≤q≤n且q为正整数。
6.如权利要求2所述的方法,其中,基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素的步骤包括:
基于所述估分函数来预测所述多元关系知识库中最可能是所述具有缺失实体元素的多元组中的缺失实体元素的实体元素;
使用所预测的实体元素来补全所述具有缺失实体元素的多元组中的缺失实体元素。
7.如权利要求1所述的方法,还包括:当所述多元关系知识库中包括多种多元组时,从所述多元关系知识库提取多个子知识库使得每个子知识库中的多元组中所包括的实体元素的数量相等,并针对每个子知识库分别建立相应的多元关系预测张量模型。
8.一种多元关系知识库构建系统,所述系统包括:
模型构建装置,被配置为针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;
补全装置,被配置为基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及
知识库构建装置,被配置为基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。
9.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。
10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。
CN202010306303.1A 2020-04-17 2020-04-17 多元关系知识库构建方法和系统 Pending CN111506742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010306303.1A CN111506742A (zh) 2020-04-17 2020-04-17 多元关系知识库构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306303.1A CN111506742A (zh) 2020-04-17 2020-04-17 多元关系知识库构建方法和系统

Publications (1)

Publication Number Publication Date
CN111506742A true CN111506742A (zh) 2020-08-07

Family

ID=71864119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010306303.1A Pending CN111506742A (zh) 2020-04-17 2020-04-17 多元关系知识库构建方法和系统

Country Status (1)

Country Link
CN (1) CN111506742A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051404A (zh) * 2021-01-08 2021-06-29 中国科学院自动化研究所 一种基于张量分解的知识推理方法、装置、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIDONG LI等: "Graph2Seq:Fusion Embedding Learning for Knowledge Graph Completion", 《IEEE ACCESS》, vol. 7, 30 October 2019 (2019-10-30) *
王硕: "大规模知识图谱补全技术的研究进展", 《中国科学:信息科学》, vol. 50, no. 4, 13 April 2020 (2020-04-13) *
罗琦: "基于实体描述和关系路径的知识图谱补全研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》, 15 December 2018 (2018-12-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051404A (zh) * 2021-01-08 2021-06-29 中国科学院自动化研究所 一种基于张量分解的知识推理方法、装置、设备
CN113051404B (zh) * 2021-01-08 2024-02-06 中国科学院自动化研究所 一种基于张量分解的知识推理方法、装置、设备

Similar Documents

Publication Publication Date Title
US20200349450A1 (en) Projection neural networks
US20190213447A1 (en) Sample selection method and apparatus and server
US20190164084A1 (en) Method of and system for generating prediction quality parameter for a prediction model executed in a machine learning algorithm
WO2022057658A1 (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN110929807B (zh) 图像分类模型的训练方法、图像分类方法及装置
CN113792881B (zh) 模型训练方法及装置、电子设备和介质
US20210150412A1 (en) Systems and methods for automated machine learning
CN111858947A (zh) 自动知识图谱嵌入方法和系统
CN110837567A (zh) 实现知识图谱嵌入的方法和系统
CN115439192A (zh) 医疗商品信息的推送方法及装置、存储介质、计算机设备
CN112905809B (zh) 知识图谱学习方法和系统
CN111506742A (zh) 多元关系知识库构建方法和系统
WO2023246735A1 (zh) 一种项目推荐方法及其相关设备
CN111402003B (zh) 实现用户相关推荐的系统和方法
JP2022032703A (ja) 情報処理システム
US20240005129A1 (en) Neural architecture and hardware accelerator search
CN115827705A (zh) 用于反事实解释的数据处理方法和装置
CN114757700A (zh) 物品销量预测模型训练方法、物品销量预测方法及装置
CN114819163A (zh) 量子生成对抗网络的训练方法、装置、介质及电子装置
CN114692808A (zh) 图神经网络传播模型确定方法和系统
CN114328940A (zh) 多元关系知识库构建方法和系统
CN113688249A (zh) 基于关系认知的知识图谱嵌入方法和系统
US11609936B2 (en) Graph data processing method, device, and computer program product
US20240152760A1 (en) Method, apparatus, device and medium for training and applying a contrastive learning model
US20230244928A1 (en) Learning method, learning apparatus and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination