CN113268612B - 基于均值融合的异构信息网知识图谱补全方法和装置 - Google Patents
基于均值融合的异构信息网知识图谱补全方法和装置 Download PDFInfo
- Publication number
- CN113268612B CN113268612B CN202110712068.2A CN202110712068A CN113268612B CN 113268612 B CN113268612 B CN 113268612B CN 202110712068 A CN202110712068 A CN 202110712068A CN 113268612 B CN113268612 B CN 113268612B
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- matrix
- knowledge graph
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请涉及一种基于均值融合的异构信息网知识图谱补全方法和装置。所述方法包括:根据开放世界知识图谱,构建异构信息网知识图谱,根据异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重,根据所述异构信息网络知识图谱中每条边的权重,得到异构信息网络知识图谱对应的权重矩阵,在R‑CGN算法的基础上对关系节点进行均值融合,从第三特征矩阵中提取三元组,并构建三元组的评分函数,根据预先训练的预测模型和评分函数,进行异构信息网知识图谱补全。采用本方法能够提高知识图谱补全的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于均值融合的异构信息网知识图谱补全方法和装置。
背景技术
自2012年Google首次引入知识图谱(knowledge graph,KG)概念以来,它在人工智能领域以极快的速度发展。目前,知识图谱相关的研究和工作在人工智能方向中的各个领域都发挥着举足轻重的作用。就其本身而言,知识图谱通常以三元组(头实体,关系,尾实体)的方式进行储存与表示,它们显示了图谱的结构和关系。近年来,由于知识图谱的不完全性和稀疏性,关于表示学习、关系预测、图谱补全等知识图谱的研究引起了众多学者的关注。提出的模型,如TransE、DistMult和ComplEx具有优异的表现。此外,一些基本模型利用胶囊网络来判断三元组的真实性,可以过滤错误三元组,提高知识图谱的精度。
但是,上述模型忽略了现实世界中知识图谱是动态变化的,往往需要添加新的实体来完善和更新知识图谱。这些实体对于现有的知识图谱来说是未知的,但是还需要判断它们是否与图谱中其他实体是否有关系。
因此,传统的封闭世界表示学习模型只能利用已有的实体来完善知识图谱,很难预测已知实体和未知实体之间的关系。例如,有一个问题“北京是中国的首都吗?“要回答这个问题,我们需要判断三元组(中国、首都、北京)是否属实。如果三元组中的中国不是知识图谱中的实体,那么在本例中,这个知识图谱被定义为一个开放世界知识图谱。现在,在这种情况下,将利用实体的描述性文本来帮助确定三元组的真实性。
近年来,一些学者尝试基于开放世界假设来表示知识图谱,它结合实体的描述性文本来捕捉未知实体的特征,如ConMask和OWE,ConMask需要基于上下文的隐式推理,因此对链接预测的评价依赖于上下文描述性文本的长度。缺少文字将导致准确率急剧下降。在OWE模型中,它直接使用描述性文本的嵌入来代替未知实体的嵌入。三元组的结构性嵌入和描述性嵌入不能很好地融合。2021年提出的Caps-OWKG算法同样采用的是融合三元组的结构性嵌入表示与描述性嵌入表示的方法,并辅以胶囊网络来进一步挖掘三元组的特征,虽然在面向开放世界知识图谱的补全任务中,有了较以往算法更好的表现,但该模型三元组的结构性嵌入和描述性嵌入依然不能完美地融合。而且这个模型对于新实体(未知实体)与原始三元组之间的联系利用比较单一,忽略了很多隐性的联系,从而导致开放世界知识图谱补全准确率不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决开放世界知识图谱补全准确率不高问题的基于均值融合的异构信息网知识图谱补全方法和装置。
一种基于均值融合的异构信息网知识图谱补全方法,所述方法包括:
获取文本数据,根据所述文本数据,构建开放世界知识图谱;
根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;
根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;
将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;
根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
从所述第三特征矩阵中提取三元组,并构建所述三元组的评分函数,根据预先训练的预测模型和所述评分函数,进行异构信息网知识图谱补全。
在其中一个实施例中,还包括:确定相邻节点中两个节点的节点类型;
根据两个节点的节点类型,确定权重计算公式;
根据所述异构信息网知识图谱中相邻节点的相似度信息和所述权重计算公式,确定相邻节点间边的权重。
在其中一个实施例中,两个节点的节点类型一个是实体节点,另一个是关系节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
当所述实体节点和关系节点在同一个三元组中,则权重设置为1,否则为0;
两个节点的节点类型均为实体节点,或者均为描述节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
当两个节点的节点类型均为实体节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为实体节点i和实体节点j的词向量嵌入表示;
当两个节点的节点类型均为描述节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为描述节点i和描述节点j的词向量嵌入表示;
两个节点的节点类型一个是实体节点,另一个是描述节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
所述根据两个节点的节点类型,确定权重计算公式为:
其中,wi是实体节点i的词向量嵌入表示,t是描述节点j中的单词,wt是描述节点j中的单词t的嵌入表示;
两个节点的节点类型一个是描述节点,另一个是关系节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
所述根据两个节点的节点类型,确定权重计算公式为:
其中,s是关系i中的单词,ws是单词s的嵌入表示,t是描述j中的单词,wt是单词t的嵌入表示;
两个节点的节点类型均为关系节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
当两个关系节点表示同一关系类型时,则权重设置为1,否则为0。
在其中一个实施例中,所述拉普拉斯矩阵为:
其中,A表示邻接矩阵,D表示度矩阵。
在其中一个实施例中,还包括:采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵,包括:
根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵为:
其中,L(2)表示第三特征矩阵,L(1)'表示第二特征矩阵,W1表示权重矩阵。
在其中一个实施例中,还包括:根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵为:
在其中一个实施例中,还包括:从所述第三特征矩阵中提取三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;
将所述三元组(h,r,t)中头实体h和尾实体t分别映射至实值向量Vh和Vt;并将关系r表示为同一关系个嵌入节点的均值Vr,得到三元组的评分函数为:
f(h,r,t)=||Vh+Vr-Vt||2
选择TransE模型作为解码器,设置目标函数为:
其中,T是所有三元组的集合,T′是负采样的三元组,γ是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0;
根据所述目标函数和所述评分函数训练解码器,通过解码器进行实体预测,以进行异构信息网知识图谱补全。
一种基于均值融合的异构信息网知识图谱补全装置,所述装置包括:
异构信息网络构建模块,用于获取文本数据,根据所述文本数据,构建开放世界知识图谱;根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
权重分配模块,用于根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
编码模块,用于获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
解码预测模块,用于构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵。根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取文本数据,根据所述文本数据,构建开放世界知识图谱;
根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;
根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;
将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;
根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵。根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取文本数据,根据所述文本数据,构建开放世界知识图谱;
根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;
根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;
将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;
根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵。根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。上述基于均值融合的异构信息网知识图谱补全方法、装置、计算机设备和存储介质,首先,创造性的根据开放世界知识图谱,构建异构信息网知识图谱,开放世界知识图谱中的节点为实体,边为实体间的关系,而在异构信息网知识图谱中,定义节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点,对于异构信息网知识图谱的边,根据异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重,从而得到整体的权重矩阵,另一方面,对传统GCN算法进行改进,即在GCN算法的两层融合中,加入对于同一类关系节点的均值融合,从而将关系对应的领域信息,融入相邻实体节点中,从而强化了新实体和原始三元组之间的隐含联系,利于在进行实体预测时,提高知识图谱补全的准确率。
附图说明
图1为一个实施例中基于均值融合的异构信息网知识图谱补全方法的流程示意图;
图2为一个实施例中分类过程的流程示意图;
图3为一个实施例中预测过程的流程示意图;
图4为一个实施例中基于均值融合的异构信息网知识图谱补全装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于均值融合的异构信息网知识图谱补全方法,包括以下步骤:
步骤102,获取文本数据,根据文本数据,构建开放世界知识图谱。
文本数据可以是从互联网获取的网页文本数据,也可以是从专用文本库中提取的文本,文本是一种自然语言数据,在计算机对文本进行处理时,文本可以以结构性数据、非结构型数据等形式输入,结构性数据可以是表单,例如:Word、Excel、TXT格式的表单,在次就不多赘述。
开放世界知识图谱是动态变化的,因此时刻面临着知识图谱中三元组的更新,例如添加、删减、修改实体或者关系。
步骤104,根据开放世界知识图谱,构建异构信息网知识图谱。
传统的知识图谱中节点为实体,知识图谱中的边是关系,从而通过节点和边,表示三元组,而本步骤中异构信息网知识图谱,节点的类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点。
步骤106,根据异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重。
异构信息网知识图谱中边没有特定的含义,因此,为了体现节点之间的联系,可以通过权重来体现,本步骤在设置权重时,是通过相邻节点的相似度信息来设置的。
步骤108,根据异构信息网络知识图谱中每条边的权重,得到异构信息网络知识图谱对应的权重矩阵。
权重矩阵是异构信息网络知识图谱中每条边的权重。
步骤110,获取异构信息网络知识图谱中节点对应的节点特征矩阵,根据权重矩阵,采用第一层GCN算法对节点特征矩阵进行更新,得到第一特征矩阵。
GCN算法是处理图结构的一种经典算法,但是针对具有不同关系的知识图谱,在本步骤中,采用常规的GCN算法进行的,得到第一特征矩阵,因此,第一层GCN算法,实质上是对异构信息网络知识图谱中节点的嵌入表示进行一次更新。
步骤112,将第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新第一特征矩阵,得到第二特征矩阵。
本步骤中,通过对表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,有利于将关系的嵌入所有的实体节点中。
步骤114,根据权重矩阵,采用第二层GCN算法对第二特征矩阵进行更新,得到第三特征矩阵。
步骤116,构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵,根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。
上述基于均值融合的异构信息网知识图谱补全方法中,首先,创造性的根据开放世界知识图谱,构建异构信息网知识图谱,开放世界知识图谱中的节点为实体,边为实体间的关系,而在异构信息网知识图谱中,定义节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点,对于异构信息网知识图谱的边,根据异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重,从而得到整体的权重矩阵,另一方面,对传统GCN算法进行改进,即在GCN算法的两层融合中,加入对于同一类关系节点的均值融合,从而将关系对应的领域信息,融入相邻实体节点中,从而强化了新实体和原始三元组之间的隐含联系,利于在进行实体预测时,提高知识图谱补全的准确率。
在其中一个实施例中,确定相邻节点中两个节点的节点类型;根据两个节点的节点类型,确定权重计算公式;根据异构信息网知识图谱中相邻节点的相似度信息和权重计算公式,确定相邻节点间边的权重。
具体的,两个节点的节点类型一个是实体节点,另一个是关系节点;根据两个节点的节点类型,确定权重计算公式,包括:当实体节点和关系节点在同一个三元组中,则权重设置为1,否则为0。
两个节点的节点类型均为实体节点,或者均为描述节点;根据两个节点的节点类型,确定权重计算公式,包括:当两个节点的节点类型均为实体节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为实体节点i和实体节点j的词向量嵌入表示。
当两个节点的节点类型均为描述节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为描述节点i和描述节点j的词向量嵌入表示。
两个节点的节点类型一个是实体节点,另一个是描述节点,根据两个节点的节点类型,确定权重计算公式,包括:根据两个节点的节点类型,确定权重计算公式为:
其中,wi是实体节点i的词向量嵌入表示,t是描述节点j中的单词,wt是描述节点j中的单词t的嵌入表示。
两个节点的节点类型一个是描述节点,另一个是关系节点;根据两个节点的节点类型,确定权重计算公式,包括:根据两个节点的节点类型,确定权重计算公式为:
其中,s是关系i中的单词,ws是单词s的嵌入表示,t是描述j中的单词,wt是单词t的嵌入表示。
两个节点的节点类型均为关系节点;根据两个节点的节点类型,确定权重计算公式,包括:当两个关系节点表示同一关系类型时,则权重设置为1,否则为0。
本步骤中,边表示节点间存在关系,不同的边根据所连接节点的关联性赋予不同的权重值。异构信息网中,类型节点为类别标签。而实体、关系和描述三种节点因为既需要利用其结构信息获得嵌入表示,也需要利用实体名字、关系名字与描述文本本身所具备的特征,所以每个节点有两个不同的嵌入表示,一个是根据异构信息网训练学习到的结构性嵌入表示;另一个是通过Word2vec预训练并结合知识图谱所有描述文本作为语料进行微调后的词嵌入表示。其中节点的结构性嵌入表示,初始化为独热(One-Hot)向量,并随着后续的图神经网络模型的训练过程不断更新,最终获得足以表示知识图谱结构信息的嵌入表示。而实体名字、关系名字和描述文本的词嵌入表示仅通过Word2vec模型由描述文本语料微调获得,不会随着后续图神经网络模型训练而发生改变。
在其中一个实施例中,根据权重矩阵,采用第一层GCN算法对节点特征矩阵进行更新,得到第一特征矩阵为:
在其中一个实施例中,拉普拉斯矩阵为:
其中,A表示邻接矩阵,D表示度矩阵。
在另一个实施例中,根据权重矩阵,采用第二层GCN算法对第二特征矩阵进行更新,得到第三特征矩阵为:
其中,L(2)表示第三特征矩阵,L(1)'表示第二特征矩阵,W1表示权重矩阵。
具体的,GCN是处理图结构的一种经典算法,但是针对具有不同关系的知识图谱,传统GCN算法不能满足需求,其不能对图谱中的关系进行建模,因此针对这个问题,目前提出了可以对关系进行建模的新型图卷积神经网络R-GCN,其将通过矩阵对关系进行建模,在卷积的过程中,用关系矩阵加权计算卷积聚合。但是这种方法虽然成功对关系进行了建模并取得了不错的效果,但是其并不适用于包含实体描述信息的开放世界知识图谱,更不能直接应用于构建的异构信息网中实体和关系的编码。因此,面对这种情况,提出了一种变种的关系图卷积神经网络(VR-GCN)用以对关系进行建模的同时适用于包含描述信息的异构信息网。
VR-GCN在原本GCN的基础上,针对其中的关系节点进行进一步处理。异构信息网络中同一个关系可能具有多种表示,但是这些表示均表现了该关系的部分特征,因此需要在图卷积更新的过程中对多个关系嵌入表示进行融合。
本实施例在进行关系融合时,采用均值融合的方式,即在单层GCN之后,各节点均融合其邻居节点的信息,初步对各个节点进行更新,因为知识图谱中三元组的关系与组内的两个实体也就是异构图中其邻居节点关系最为密切,即其融合邻居节点信息(组内两个实体及其描述)就可以极大程度的满足该三元组关系特征的提取。因此,在单层GCN之后,将表示同一关系的关系节点嵌入表示进行均值计算,并用均值结果替换所有该关系的节点嵌入表示。这样每个节点的嵌入表示均融合各个三元组中提取到该关系的特征。然后再引入第二层GCN,对当前图进行新一轮的更新,使得实体节点融合新的关系信息,并合并更高阶的邻域信息。
在其中一个实施例中,从第三特征矩阵中提取三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体,将三元组(h,r,t)中头实体h和尾实体t分别映射至实值向量Vh和Vt,并将关系r表示为同一关系的嵌入节点的均值Vr,得到三元组的评分函数为:
f(h,r,t)=||Vh+Vr-Vt||2
选择TransE模型作为解码器,设置目标函数为:
其中,T是所有三元组的集合,T′是负采样的三元组,γ是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0,根据目标函数和评分函数训练解码器,通过解码器进行实体预测,以进行异构信息网知识图谱补全。
具体的,通过VR-GCN算法,实质上是对实体进行了编码,因此通过编码后加入输出层,即可以对实体进行分类,如图2所示,在图2中,HIN表示所构建的异构信息网,在进行分类时,可以设置损失函数为:
实体预测解决新事实的预测(即三元组,头实体head,关系relation,尾实体tail)。形式上,知识图谱由一个有向的、带标签的图G=(V,E,R)表示。从图中只得到一个不完整的边子集。任务是计算三元组(h,r,t)的评价分数f(h,r,t)并以此来确定这些边属于E集合的可能性。为了解决这个问题,引入了一个变种的关系图卷积神经网络和评分函数(译码器)组成的编解码模型。
在编码的过程中,采用了均值融合对知识图谱中的关系进行建模。因此针对上述的建模方法,选择使用解码器对其进行解码以完成实体预测任务。
在选用均值融合的编码器中,编码器将每个头实体h和尾实体t映射到实值向量Vh和Vt,并将关系建模表示为同一个关系各节点嵌入表示的均值Vr,其中三元组的评分函数为:
f(h,r,t)=||Vh+Vr-Vt||2
然后选择迁移模型TransE作为解码器,对实体进行预测。此时,预测模型如图3所示。
在模型的训练过程中,TransE采用最大间隔方法,最小化目标函数,目标函数如下:
其中,T是所有三元组的集合,T’是负采样的三元组,通过替换h或t所得,是人为随机生成的。γ是取值大于0的间隔距离参数,是一个超参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于均值融合的异构信息网知识图谱补全装置,包括:异构信息网络构建模块402、权重分配模块404、编码模块406和解码预测模块408,其中:
异构信息网络构建模块402,用于获取文本数据,根据所述文本数据,构建开放世界知识图谱;根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
权重分配模块404,用于根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
编码模块406,用于获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
解码预测模块408,构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵,根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。
在其中一个实施例中,权重分配模块404还用于确定相邻节点中两个节点的节点类型;根据两个节点的节点类型,确定权重计算公式;根据所述异构信息网知识图谱中相邻节点的相似度信息和所述权重计算公式,确定相邻节点间边的权重。
在其中一个实施例中,两个节点的节点类型一个是实体节点,另一个是关系节点;权重分配模块404还用于当所述实体节点和关系节点在同一个三元组中,则权重设置为1,否则为0;两个节点的节点类型均为实体节点,或者均为描述节点;权重分配模块404还用于当两个节点的节点类型均为实体节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为实体节点i和实体节点j的词向量嵌入表示。
当两个节点的节点类型均为描述节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为描述节点i和描述节点j的词向量嵌入表示。
两个节点的节点类型一个是实体节点,另一个是描述节点;权重分配模块404还用于根据两个节点的节点类型,确定权重计算公式为:
其中,wi是实体节点i的词向量嵌入表示,t是描述节点j中的单词,wt是描述节点j中的单词t的嵌入表示。
两个节点的节点类型一个是描述节点,另一个是关系节点,权重分配模块404还用于所述根据两个节点的节点类型,确定权重计算公式为:
其中,s是关系i中的单词,ws是单词s的嵌入表示,t是描述j中的单词,wt是单词t的嵌入表示。
两个节点的节点类型均为关系节点,权重分配模块404还用于当两个关系节点表示同一关系类型时,则权重设置为1,否则为0。
在其中一个实施例中,编码模块406还用于根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵为:
在其中一个实施例中,拉普拉斯矩阵为:
其中,A表示邻接矩阵,D表示度矩阵。
在其中一个实施例中,编码模块406还用于根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵为:
其中,L(2)表示第三特征矩阵,L(1)'表示第二特征矩阵,W1表示权重矩阵。
在其中一个实施例中,解码预测模块408还用于从所述第三特征矩阵中提取三元组(h,r,t)关系特征,其中h表示头实体,r表示关系,t表示尾实体;
将所述三元组(h,r,t)中头实体h和尾实体t分别映射至实值向量Vh和Vt;并将关系r表示为同一关系的嵌入节点的均值Vr,得到三元组的评分函数为:
f(h,r,t)=||Vh+Vr-Vt||2
选择TransE模型作为解码器,设置目标函数为:
其中,T是所有三元组的集合,T′是负采样的三元组,γ是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0;
根据所述目标函数和所述评分函数训练解码器,通过解码器进行实体预测,以进行异构信息网知识图谱补全。
关于基于均值融合的异构信息网知识图谱补全装置的具体限定可以参见上文中对于基于均值融合的异构信息网知识图谱补全方法的限定,在此不再赘述。上述基于均值融合的异构信息网知识图谱补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于均值融合的异构信息网知识图谱补全方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于均值融合的异构信息网知识图谱补全方法,其特征在于,所述方法包括:
获取文本数据,根据所述文本数据,构建开放世界知识图谱;
根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;
根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;
将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;
根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵,根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。
2.根据权利要求1所述的方法,其特征在于,根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重,包括:
确定相邻节点中两个节点的节点类型;
根据两个节点的节点类型,确定权重计算公式;
根据所述异构信息网知识图谱中相邻节点的相似度信息和所述权重计算公式,确定相邻节点间边的权重。
3.根据权利要求2所述的方法,其特征在于,两个节点的节点类型一个是实体节点,另一个是关系节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
当所述实体节点和关系节点在同一个三元组中,则权重设置为1,否则为0;
两个节点的节点类型均为实体节点,或者均为描述节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
当两个节点的节点类型均为实体节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为实体节点i和实体节点j的词向量嵌入表示;
当两个节点的节点类型均为描述节点时,根据两个节点的节点类型,确定权重计算公式为:
其中,wi,wj为描述节点i和描述节点j的词向量嵌入表示;
两个节点的节点类型一个是实体节点,另一个是描述节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
所述根据两个节点的节点类型,确定权重计算公式为:
其中,wi是实体节点i的词向量嵌入表示,t是描述节点j中的单词,wt是描述节点j中的单词t的嵌入表示;
两个节点的节点类型一个是描述节点,另一个是关系节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
所述根据两个节点的节点类型,确定权重计算公式为:
其中,s是关系i中的单词,ws是单词s的嵌入表示,t是描述j中的单词,wt是单词t的嵌入表示;
两个节点的节点类型均为关系节点;
所述根据两个节点的节点类型,确定权重计算公式,包括:
当两个关系节点表示同一关系类型时,则权重设置为1,否则为0。
7.根据权利要求1至3任一项所述的方法,其特征在于,构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵,根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全, 还包括:
针对三元组(h,r,t)从所述第三特征矩阵中提取关系特征处理,其中h表示头实体,r表示关系,t表示尾实体;
将所述三元组(h,r,t)中头实体h和尾实体t分别映射至实值向量Vh和Vt;
并将关系r表示为同一关系的嵌入节点的均值Vr,得到三元组的评分函数为:
f(h,r,t)=||Vh+Vr-Vt||2
选择TransE模型作为解码器,设置目标函数为:
其中,T是所有三元组的集合,T′是负采样的三元组,γ是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0;
根据所述目标函数和所述评分函数训练解码器,通过解码器进行实体预测,以进行异构信息网知识图谱补全。
8.一种基于均值融合的异构信息网知识图谱补全装置,其特征在于,所述装置包括:
异构信息网络构建模块,用于获取文本数据,根据所述文本数据,构建开放世界知识图谱;根据开放世界知识图谱,构建异构信息网知识图谱;所述异构信息网知识图谱中节点的节点类型包括:实体节点、关系节点、实体描述信息节点以及实体类型信息节点;
权重分配模块,用于根据所述异构信息网知识图谱中相邻节点的相似度信息,确定相邻节点间边的权重;根据所述异构信息网络知识图谱中每条边的权重,得到所述异构信息网络知识图谱对应的权重矩阵;
编码模块,用于获取所述异构信息网络知识图谱中节点对应的节点特征矩阵,根据所述权重矩阵,采用第一层GCN算法对所述节点特征矩阵进行更新,得到第一特征矩阵;将所述第一特征矩阵中表示相同关系的关系节点的嵌入表示进行平均值计算,根据平均值计算结果替换关系节点的嵌入表示,并更新所述第一特征矩阵,得到第二特征矩阵;根据所述权重矩阵,采用第二层GCN算法对所述第二特征矩阵进行更新,得到第三特征矩阵;
解码预测模块,构建三元组评分函数,针对知识图谱中的三元组,从所述第三特征矩阵中提取关系特征矩阵,根据预先训练的预测模型、评分函数和关系特征,进行异构信息网知识图谱补全。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110712068.2A CN113268612B (zh) | 2021-06-25 | 2021-06-25 | 基于均值融合的异构信息网知识图谱补全方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110712068.2A CN113268612B (zh) | 2021-06-25 | 2021-06-25 | 基于均值融合的异构信息网知识图谱补全方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268612A CN113268612A (zh) | 2021-08-17 |
CN113268612B true CN113268612B (zh) | 2022-09-23 |
Family
ID=77235862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110712068.2A Active CN113268612B (zh) | 2021-06-25 | 2021-06-25 | 基于均值融合的异构信息网知识图谱补全方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268612B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003730A (zh) * | 2021-10-29 | 2022-02-01 | 福州大学 | 基于关系特定门过滤的开放世界知识补全方法及系统 |
CN114584522B (zh) * | 2022-01-21 | 2024-02-06 | 中国人民解放军国防科技大学 | 一种物联网设备的识别方法、系统、介质及终端 |
CN114860886B (zh) * | 2022-05-25 | 2023-07-18 | 北京百度网讯科技有限公司 | 生成关系图的方法和确定匹配关系的方法、装置 |
CN115422369B (zh) * | 2022-08-30 | 2023-11-03 | 中国人民解放军国防科技大学 | 基于改进TextRank的知识图谱补全方法和装置 |
CN115391563B (zh) * | 2022-09-01 | 2024-02-06 | 广东工业大学 | 一种基于多源异构数据融合的知识图谱链路预测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339321B (zh) * | 2020-05-18 | 2020-08-21 | 中国人民解放军国防科技大学 | 知识图谱中三元组真实性检测方法和装置 |
CN112035672B (zh) * | 2020-07-23 | 2023-05-09 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
-
2021
- 2021-06-25 CN CN202110712068.2A patent/CN113268612B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113268612A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113268612B (zh) | 基于均值融合的异构信息网知识图谱补全方法和装置 | |
CN113420163B (zh) | 基于矩阵融合的异构信息网知识图谱补全方法和装置 | |
CN108073711B (zh) | 一种基于知识图谱的关系抽取方法和系统 | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN110263323A (zh) | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 | |
CN111291556A (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN113806493B (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
CN115438197B (zh) | 一种基于双层异质图的事理知识图谱关系补全方法及系统 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
CN113626610A (zh) | 知识图谱嵌入方法、装置、计算机设备和存储介质 | |
CN112464669A (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
Yao et al. | Knowledge enhanced person-job fit for talent recruitment | |
CN114065702A (zh) | 一种融合实体关系和事件要素的事件检测方法 | |
CN114238524B (zh) | 基于增强样本模型的卫星频轨数据信息抽取方法 | |
CN111985207A (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN112364166B (zh) | 关系抽取模型的建立方法以及关系抽取方法 | |
US20220138425A1 (en) | Acronym definition network | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN116227597A (zh) | 生物医药知识抽取方法、装置、计算机设备和存储介质 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN115423105A (zh) | 一种预训练语言模型构建方法、系统及装置 | |
CN113656556B (zh) | 一种文本特征抽取方法及知识图谱构建方法 | |
CN115879460A (zh) | 面向文本内容的新标签实体识别方法、装置、设备及介质 | |
CN112651590B (zh) | 一种指令处理流程推荐的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |