CN112148891A - 一种基于图感知张量分解的知识图谱补全方法 - Google Patents

一种基于图感知张量分解的知识图谱补全方法 Download PDF

Info

Publication number
CN112148891A
CN112148891A CN202011022269.1A CN202011022269A CN112148891A CN 112148891 A CN112148891 A CN 112148891A CN 202011022269 A CN202011022269 A CN 202011022269A CN 112148891 A CN112148891 A CN 112148891A
Authority
CN
China
Prior art keywords
graph
model
decomposition
knowledge
tensor decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011022269.1A
Other languages
English (en)
Inventor
刘书语
杨柳
胡清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011022269.1A priority Critical patent/CN112148891A/zh
Publication of CN112148891A publication Critical patent/CN112148891A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图感知张量分解的知识图谱补全方法,包括如下步骤:从图神经网络中提取三元组数据(es,r,eo)的表征信息,构建具有实体和关系的图形编码模型,即G=(V,E);对图形编码模型的二维表征信息通过Tucker分解方法构建三阶张量分解模型;即:
Figure DDA0002701040310000011
所述三阶张量分解模型根据预测(es,r,)的最大概率作为三元组为真的概率输出,实现知识图谱的补全,该方法解决了现有知识图谱库中数据之间的关系推测以及实体之间隐含的连接关系难挖掘的问题,实现对大规模知识图谱数据集的高精度补全。

Description

一种基于图感知张量分解的知识图谱补全方法
技术领域
本发明涉及知识图谱领域,尤其涉及一种基于图感知张量分解的知识图谱补全方法。
背景技术
2012年5月17日,Google公司率先提出知识图谱(Knowledge Graph)这一概念,用于指代提升搜索引擎性能、改善用户搜索体验的知识库。大数据时代到来带动了知识图谱数据库的丰富,常用的公开知识图谱有FreeBase,OpenKG,Yago,DBpedia等。
知识图谱是一种网状型的可视化数据,用于描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱采用三元组(head,relation,tail)的形式表示,head代表头实体,tail代表尾实体,在图中统称实体,用点的形式表示,relation代表两个实体之间的关系,在图中用线表示。虽然现有的知识图谱库中已经储存了大量的事实数据,但仍有许多实体之间的隐含关系没有体现,需要对其进行充分地挖掘。知识图谱补全主要研究此问题,基于已有的知识图谱数据,通过研究数据之间的关系,从而推测出实体之间隐含的连接关系,使知识图谱变得更加完备。
从知识图谱补全技术的发展来看,大致可以分为两大类。第一类以2013年Borders等人受词向量平移不变性启发,提出的TransE模型为首,后续提出了一系列改进的Trans系列模型。这类方法包括:TransH,TransR,CTransR,TransD,TransA,TransF,TransMS等。伴随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域。第二类方法是以ConvE等人提出的ConvE模型。这类方法包括ConvKB,HypER等。
张量通常用来表示真实世界中的数据,关于张量的相关研究表明,高维数据中的数据点不会扩散至整个空间,而是存在于一个较低维的空间中,因此可以通过低秩张量分解从高维数据中提取其中的关键特征近似代替原数据,这样不但可以解决因维度过高而带来的问题,还可以获得稳定的学习结果。CP分解和Tucker分解是两种流行的低秩张量因子分解模型,同时还有许多变体的张量分解模型。
近年来有关于张量的学习研究受到越来越多的学者关注。而二元三阶张量可以被用来表述知识图谱库,知识图谱库中的每个元素对应一个三元组,1表示一个真实的事实,0表示未知或者错误的事实。知识图谱补全的任务是根据知识图中已经存在的已知事实,预测没有给出关系的两个实体是否相关,即推断张量中的0项,哪些确实是假的,其值为0,哪些缺失了,但实际上是真的,其值为1。如果可以将张量分解与图神经网络相融合,就可以对现有的知识图谱库进行补全,这也是本领域技术人员必须解决技术问题。
发明内容
针对现有技术存在的技术问题,本发明提供一种基于图感知张量分解的知识图谱补全方法,该方法可以通过张量分解将图神经网络与知识图谱补全相结合,从而解决现有知识图谱库中数据之间的关系推测以及实体之间隐含的连接关系挖掘难的问题,从而完备知识图谱,实现对大规模知识图谱数据的高精度补全。
为了解决现有技术的技术问题,本发明采用如下技术方案:
一种基于图感知张量分解的知识图谱补全方法,包括如下步骤:
从图神经网络中提取三元组数据(es,r,eo)构建具有实体和关系的二维表示的图形编码模型,即G=(V,E);
对图形编码模型的二维数据通过Tucker分解方法构建三阶张量分解模型;即:
Figure BDA0002701040290000021
其中,es,eo表示通过图模型获得的两个实体特征,hr表示通过三元组通过图模型获得的关系特征,W是Tucker分解的核心张量;
所述三阶张量分解模型能够预测三元组集合(es,r,:)下的所有组合的得分,根据最高得分的三元组预测三元组的关系,实现知识图谱的补全。
进一步,所述图形编码模型通过如下公式对图神经网络中三元组数据(es,r,eo)编码:
Figure BDA0002701040290000031
其中,H0=X,Hl是第l个图卷积层的输出,dl′是第l层图卷积层的输出维度,Wl是第l个图卷积层的参数,Hl+1是第l+1个图层之后的输出特征矩阵,当l=0,是对第一层图结构信息进行编码;当l=1,是对第二层的图结构信息进行编码。
进一步,所述张量分解模型通过如下公式对图神经网络进行整体优化:
Figure BDA0002701040290000032
其中,y是三元组(es,r,eo)的真实关系值,ψr(es,eo)是三元组(es,r,eo)通过模型预测的值。
有益效果
1、本发明方法采用多层图神经网络,层数足够多的图神经网络能够使得网络有更好的学习能力,训练出更好的参数;同时通过图神经网络自动的学习具有强表达能力的特征表征。
2、本发明在网络训练过程中对知识图谱关系进行Tucker分解,能够加快训练速度,有效挖掘知识图谱关系。
3、本发明采用softmax作为损失函数,是一种监督学习,知识图谱补全效果显著。
4、本发明通过添加张量分解将图神经网络与知识图谱补全相结合,可以实现大规模数据集上高精度识别、快速度训练、性能稳定;本发明具有一定的市场价值和推广意义。
附图说明
图1是本发明一种基于图感知张量分解的知识图谱补全方法的步骤流程图。
图2是本发明一种基于图感知张量分解的知识图谱补全方法的模型示意图。
图3是本发明一种基于图感知张量分解的知识图谱补全方法中张量因子分解示意图。
具体实施方式:
下面结合附图对本发明作出详细说明:
如图1、图2所示,本发明提供一种基于图感知张量分解的知识图谱补全方法,是将张量分解与图神经网络相融合解决知识图谱不全的技术问题。本发明在解决技术方案采取整体设计:首先,对输入的三元组数据集利用图神经网络进行数据建模,获得其实体和关系的张量表示,然后通过Tucker分解解码该信息,通过这两部分操作可以更好地融合数据,实现知识图谱补全。具体步骤如下:
S1、从图神经网络中提取三元组数据(es,r,eo)构建具有实体和关系的二维表示的图形编码模型,即G=(V,E);
图形编码模型是知识图包含图结构信息,而如何对图信息进行编码至关重要,受卷积神经网络在大多数视觉任务中的成功启发,开发了图形卷积神经网络来对图形结构数据建模。一般来说,图可以表示为G=(V,E),其中V表示节点集,E表示节点之间的边集。在我们的方法中,我们将V中的vi表示为一个节点,将E中的eij表示为节点vi和vj之间的边。假设节点数为n,所有节点的邻接矩阵A为一个n×n的矩阵,如果eij属于E,则Aij=1,若eij未包含在E中,则Aij=0。
给定一个图G,我们的图卷积层的公式表示如下:
Figure BDA0002701040290000041
其中σ是非线性激活函数(例如Relu运算),
Figure BDA0002701040290000042
是图的对角度矩阵,其中
Figure BDA0002701040290000043
Figure BDA0002701040290000044
Figure BDA0002701040290000045
是邻接矩阵,X属于Rn×d是节点信息矩阵,d是特征维度。W属于Rd×d′是可训练的卷积参数。H属于Rn×d′是激活矩阵的输出。
在公式1中,图形层首先训练权重参数W,通过XW将原始节点特征X映射到新特征空间X′,将每个节点视为单独的部分。然后,我们将邻接矩阵
Figure BDA0002701040290000046
与节点X′的新特征相乘,以考虑单个节点及其邻居节点的信息。由于每个节点具有不同的相邻节点,导致特征的比例不同,因此我们通过乘以
Figure BDA0002701040290000047
来标准化每个特征。最后,我们采用非线性函数并获得最终的图特征。
由于X是图G的原始特征矩阵,而H是应用一个图卷积层后的新特征矩阵,因此我们可以通过设置X=H连续更新节点特征矩阵来构造多个图卷积层。
所述图形编码模型通过如下公式对图神经网络中三元组数据(es,r,eo)编码:
Figure BDA0002701040290000051
其中,H0=X,Hl是第l个图卷积层的输出,dl′是第l层图卷积层的输出维,Wl是第l个图卷积层的参数,Hl+1是第l+1个图层之后的输出特征矩阵,当l=0,即对第一层图结构信息进行编码;当l=1,即对第二层图结构信息进行编码。
S2、对图形编码模型的二维数据通过Tucker分解方法构建三阶张量分解模型;即:
Figure BDA0002701040290000052
其中,es,eo表示通过图模型获得的主题实体特征,hr表示通过嵌入图层获得的关系特征,W是Tucker分解的核心张量;
张量分解模型是在知识图完成任务中,知识图的格式为三元组(es,r,eo),其中es是主题实体,eo是对象实体,r是es和eo之间的关系。在获得图结构中实体和关系的表示之后,我们可以构造一个三阶张量,并通过Tucker分解将图信息解码,这是张量分解方法之一。在K模式下,张量T的公式为:
T≈g×1V(1)×2…×KV(K) (4)
其中g是核心张量,U(K)是因子矩阵。KG可以表示为三阶张量,如图3所示,因此KG的Tucker分解可以将大张量T分解为三个因子矩阵V(1),V(2),V(3)和核心张量g,公式可以简化为:
T≈g×1V(1)×2V(2)×3V(3) (5)
根据等式4,我们解码部分的评分函数可以定义如下:
Figure BDA0002701040290000053
其中,es,eo表示通过图模型获得的两个实体特征,hr表示通过三元组通过图模型获得的关系特征,W是Tucker分解的核心张量;
S3、所述三阶张量分解模型根据最大的预测(es,r,:)的概率作为实体参数输出,实现知识图谱的补全。
所述张量分解模型通过如下公式对图神经网络进行整体优化:
Figure BDA0002701040290000061
其中,y是三元组(es,r,eo)的真实值。对于每个元组(es,r,eo),本发明使用公式5获得其分数。为了最大程度地减少预测分数和地面实况之间的差距,应用交叉熵代价函数来约束特征学习,即softmax作为损失函数,是一种监督学习,知识图谱补全效果显著。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (3)

1.一种基于图感知张量分解的知识图谱补全方法,其特征在于,包括如下步骤:
从图神经网络中提取三元组数据(es,r,eo),构建具有实体和关系的二维表示的图形编码模型,即G=(V,E);
对图形编码模型的二维数据通过Tucker分解方法构建三阶张量分解模型;即:
Figure FDA0002701040280000011
其中,es,eo表示通过图模型获得的两个实体特征,hr表示通过三元组通过图模型获得的关系特征,W是Tucker分解的核心张量;
所述三阶张量分解模型能够预测三元组集合(es,r,:)下的所有组合的得分,根据最高得分的三元组预测三元组的关系,实现知识图谱的补全。
2.根据权利要求1所述的一种基于图感知张量分解的知识图谱补全方法,其特征在于,所述图形编码模型通过如下公式对图神经网络中三元组数据(es,r,eo)编码:
Figure FDA0002701040280000012
其中,H0=X,Hl是第l个图卷积层的输出,dl′是第l层图卷积层的输出维度,Wl是第l个图卷积层的参数,Hl+1是第l+1个图层之后的输出特征矩阵,当l=0,是对第一层图结构信息进行编码;当l=1,是对第二层的图结构信息进行编码。
3.根据权利要求1所述的一种基于图感知张量分解的知识图谱补全方法,其特征在于,所述张量分解模型通过如下公式对图神经网络进行整体优化:
Figure FDA0002701040280000013
其中,y是三元组(es,r,eo)的真实关系值,ψr(es,eo)是三元组(es,r,eo)通过模型预测的值。
CN202011022269.1A 2020-09-25 2020-09-25 一种基于图感知张量分解的知识图谱补全方法 Pending CN112148891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011022269.1A CN112148891A (zh) 2020-09-25 2020-09-25 一种基于图感知张量分解的知识图谱补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011022269.1A CN112148891A (zh) 2020-09-25 2020-09-25 一种基于图感知张量分解的知识图谱补全方法

Publications (1)

Publication Number Publication Date
CN112148891A true CN112148891A (zh) 2020-12-29

Family

ID=73897028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011022269.1A Pending CN112148891A (zh) 2020-09-25 2020-09-25 一种基于图感知张量分解的知识图谱补全方法

Country Status (1)

Country Link
CN (1) CN112148891A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051404A (zh) * 2021-01-08 2021-06-29 中国科学院自动化研究所 一种基于张量分解的知识推理方法、装置、设备
CN113094449A (zh) * 2021-04-09 2021-07-09 天津大学 基于分布式键值库的大规模知识图谱存储方案
CN113569773A (zh) * 2021-08-02 2021-10-29 南京信息工程大学 基于知识图谱和Softmax回归的干扰信号识别方法
CN113569056A (zh) * 2021-07-27 2021-10-29 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备与存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN110032951A (zh) * 2019-03-25 2019-07-19 西安交通大学 一种基于塔克分解与主成分分析的卷积神经网络压缩方法
CN110070583A (zh) * 2019-04-17 2019-07-30 清华大学 基于张量分解和深度学习的信号压缩与恢复方法及系统
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN110347847A (zh) * 2019-07-22 2019-10-18 西南交通大学 基于神经网络的知识图谱补全方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111680162A (zh) * 2020-04-17 2020-09-18 清华大学 基于张量分解的知识图谱嵌入方法、系统及设备
CN114547347A (zh) * 2022-04-27 2022-05-27 中国人民解放军国防科技大学 基于卷积神经网络的时序知识图谱补全方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN110032951A (zh) * 2019-03-25 2019-07-19 西安交通大学 一种基于塔克分解与主成分分析的卷积神经网络压缩方法
CN110070583A (zh) * 2019-04-17 2019-07-30 清华大学 基于张量分解和深度学习的信号压缩与恢复方法及系统
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN110347847A (zh) * 2019-07-22 2019-10-18 西南交通大学 基于神经网络的知识图谱补全方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111680162A (zh) * 2020-04-17 2020-09-18 清华大学 基于张量分解的知识图谱嵌入方法、系统及设备
CN114547347A (zh) * 2022-04-27 2022-05-27 中国人民解放军国防科技大学 基于卷积神经网络的时序知识图谱补全方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚娟: "基于深度学习的实体关系抽取和知识图谱补全方法的研究", 《中国优秀博硕士学位论文全文数据库(硕士)-信息科技辑》 *
陈恒等: "改进的Tucker分解知识图谱补全算法", 《数学的实践与认识》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051404A (zh) * 2021-01-08 2021-06-29 中国科学院自动化研究所 一种基于张量分解的知识推理方法、装置、设备
CN113051404B (zh) * 2021-01-08 2024-02-06 中国科学院自动化研究所 一种基于张量分解的知识推理方法、装置、设备
CN113094449A (zh) * 2021-04-09 2021-07-09 天津大学 基于分布式键值库的大规模知识图谱存储方案
CN113094449B (zh) * 2021-04-09 2023-04-18 天津大学 基于分布式键值库的大规模知识图谱存储方法
CN113569056A (zh) * 2021-07-27 2021-10-29 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备与存储介质
CN113569773A (zh) * 2021-08-02 2021-10-29 南京信息工程大学 基于知识图谱和Softmax回归的干扰信号识别方法
CN113569773B (zh) * 2021-08-02 2023-09-15 南京信息工程大学 基于知识图谱和Softmax回归的干扰信号识别方法

Similar Documents

Publication Publication Date Title
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN111522962B (zh) 序列推荐方法、装置及计算机可读存储介质
CN112148891A (zh) 一种基于图感知张量分解的知识图谱补全方法
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
WO2021169367A1 (zh) 一种基于多层注意力的推荐方法
CN111291212A (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN114117220A (zh) 基于知识增强的深度强化学习交互式推荐系统及方法
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN109344992B (zh) 一种融合时空因素的智能家居用户操控行为习惯建模方法
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN112733027A (zh) 一种基于局部和全局表示模型联合学习的混合推荐算法
Kazemi Dynamic graph neural networks
CN113360664B (zh) 一种知识图谱补全方法
He et al. Modeling knowledge proficiency using multi-hierarchical capsule graph neural network
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN112015890A (zh) 电影剧本摘要的生成方法和装置
CN110020379B (zh) 一种基于深度动态网络嵌入表示模型的链路预测方法
CN114153996B (zh) 多图注意力协同的地学知识图谱更新方法和装置
CN115982373A (zh) 结合多级交互式对比学习的知识图谱推荐方法
CN115063251A (zh) 基于关系强度与反馈机制的社交传播动态网络表示方法
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置
CN114969078A (zh) 一种联邦学习的专家研究兴趣实时在线预测更新方法
Li et al. Semantic analysis of literary vocabulary based on microsystem and computer aided deep research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201229

WD01 Invention patent application deemed withdrawn after publication