CN107423820A - 结合实体层次类别的知识图谱表示学习方法 - Google Patents

结合实体层次类别的知识图谱表示学习方法 Download PDF

Info

Publication number
CN107423820A
CN107423820A CN201610350225.9A CN201610350225A CN107423820A CN 107423820 A CN107423820 A CN 107423820A CN 201610350225 A CN201610350225 A CN 201610350225A CN 107423820 A CN107423820 A CN 107423820A
Authority
CN
China
Prior art keywords
entity
classification
mrow
msub
msup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610350225.9A
Other languages
English (en)
Other versions
CN107423820B (zh
Inventor
孙茂松
谢若冰
刘知远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610350225.9A priority Critical patent/CN107423820B/zh
Publication of CN107423820A publication Critical patent/CN107423820A/zh
Application granted granted Critical
Publication of CN107423820B publication Critical patent/CN107423820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种结合实体层次类别的知识图谱表示学习方法,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据三元组关系的实体向量和关系向量以及类别映射矩阵,构建能量方程;根据能量方程构建基于边际的评价函数,通过最小化评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。本发明提出的结合实体层次类别的知识图谱表示学习方法,能够充分利用实体具有层次结构的类别信息提升表示学习的效果,在知识图谱补全和三元组关系分类等任务中得到更高的准确率,尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出,具有良好的实用性。

Description

结合实体层次类别的知识图谱表示学习方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种结合实体层次类别的知识图谱表示学习方法。
背景技术
目前正处于信息爆炸的时代,随着社会的飞速发展,每天都会有海量知识与信息产生。这些信息通常会以文字或者图片等非结构化的形式产生并储存,而信息检索和问答系统等应用更需要准确的结构化信息。随着用户对信息筛选与整理的需求日益增加,如何从海量数据中挖掘有价值的信息成为一个难题。于是,知识图谱应运而生。
知识图谱旨在构建一个结构化信息的数据库,将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体,将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图,其中实体是图中的节点,而关系则作为图中的边。在典型的知识图谱中,世界的海量知识被表示为实体之间利用关系作为连接的三元关系组。例如,针对中国是处于亚洲的国家这一知识,知识图谱使用三元组关系(中国,处于……洲,亚洲)来进行表示。传统的自然语言处理存在歧义性的问题,而在知识图谱的构建中,一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元组记录了实体之间的内在联系以及实体自身的属性,被广泛运用于信息检索、问答系统和数据挖掘等多个领域。
知识图谱中有着海量实体,而实体之间的关系则相对较少,知识网络存在严重的结构稀疏性问题,同时也存在知识信息不完整的问题。并且随着信息的不断增加,实体之间的关系也在发生着更新与变化,仅靠人工维护与更新信息难以担当重任。因此,知识图谱的表示与自动补全成为当今重要的研究热点。
近年来,表示学习在知识图谱上的运用获得了巨大的成功,显著提高了知识图谱的表示与自动补全性能。表示学习使用分布式表示方法,将实体与关系映射到低维连续向量空间中,解决了之前知识图谱表示学习中的稀疏性问题,同时也提高了效率,其中基于转化的模型表现最为突出。但是,现有的知识图谱表示学习方法往往只考虑知识图谱三元组关系本身,忽略了实体所有丰富的具有层次结构的类别信息,限制了知识图谱的表示性能。
综上所述,急需一种新的结合实体层次类别的知识图谱表示学习方法,解决现有技术中存在的未能充分利用实体层次结构类别信息的问题,提高知识图谱的表示性能。
发明内容
本发明所要解决的技术问题提供一种结合实体层次类别的知识图谱表示学习方法,解决现有技术中存在的未能充分利用实体层次结构类别信息的问题,提高知识图谱的表示性能。
为此目的,本发明提出了一种结合实体层次类别的知识图谱表示学习方法,包括:
获取知识图谱的三元组关系以及实体的层次结构类别信息;
根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;
根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程;
根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。
优选的,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:
根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;
通过递归层次编码器利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵。
优选的,所述利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵,具体采用以下公式:
其中,c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数。
优选的,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:
根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;
通过加权层次编码器利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵。
优选的,还包括:
设定子类别映射矩阵的加权策略。
优选的,所述利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵,具体采用以下公式:
其中c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数,βi表示第i个子类别的权值。
优选的,所述子类别映射矩阵的加权策略为:
βii+1=(1-η):η
其中,η为控制权值等比例下降速率的超参数,η∈(0,0.5)。
优选的,所述根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程,具体采用以下公式:
E(h,r,t)=||Mrhh+r-Mrtt||
其中,E(h,r,t)为能量方程,Mrh和Mrt分别是头实体h和尾实体t在三元组(h,r,t)中的映射矩阵,r为关系向量。
优选的,根据所述能量方程构建基于边际的评价函数,具体采用以下公式:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}
其中,γ>0是超参数,T′为三元组的负例集,T为三元组的正例集,h′为替换h的负例实体,t′为替换t的负例实体,r′为替换r的负例实体,E为实体集合,R为关系集合。
优选的,该方法还包括:
加入实体类别限制,加大负例采样过程中同类别的实体被选作负例的概率,同类实体被选择为负例的概率如下:
其中,e是三元组中的被替换的正例实体,e'是替换的负例实体,c是三元组中e属于的类别,Ec∈E是所有属于类别c的实体集合,|Ec|和|E|分别是两个实体集合的实体数,k是超参数,用于控制同类别的实体被选作负例的概率的提高比例,N为自然数集。
与现有技术相比,本发明提出的结合实体层次类别的知识图谱表示学习方法,不仅利用了实体之间的三元组关系信息,还充分利用了实体所有的具有层次结构的类别信息,通过构建能量方程,使得实体通过类别的映射矩阵,在不同类别上拥有不同的表示向量,通过最小化基于边际的评价函数学习实体向量、关系向量以及类别映射矩阵的表示,显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示,能够在知识图谱补全和三元组关系分类等任务中得到更高的准确率,尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出,具有良好的实用性。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明实施例提供的一个知识图谱中三元关系组及其实体层次类别的示例图;
图2为本发明实施例提供的结合实体层次类别的知识图谱表示学习方法的流程示意图;
图3为本发明实施例提供的基于递归层次编码器的模型示意图;
图4为本发明实施例提供的基于加权层次编码器的模型示意图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
知识图谱表示学习方法将所有实体与关系映射到一个低维连续向量空间中,使用分布式表示的方法对实体与关系进行建模,解决了知识图谱学习中产生的稀疏性和效率问题。本发明提出的一种结合实体层次类别的知识图谱表示学习方法,能够充分利用实体拥有的层次结构的类别信息,显著提升了知识图谱的表示学习效果,具有良好的实用性。
如图1所示,给出了一个知识图谱中三元关系组及其实体层次类别的示例图。其中下方是三元关系组,“莎士比亚(William Shakespeare)”为首实体,“罗密欧与朱丽叶(Romeo and Juliet)”为尾实体,“书/作者/文学作品(book/author/works_written)”为关系。在两个实体的上方,是具有层次结构的类别信息,每个实体可能有多个类别。实体的每一个类别信息在层次结构上表示为一条自顶向下的路径,如“莎士比亚”实体的其中一个类别为“书/作者(book/author)”;而实体的子类别即为层次结构中的每一个节点,比如“书(book)”以及“作者(author)”即为子类别。我们假设实体在不同三元组中所属的类别重要性不尽相同,而从图1的三元关系组中,在“书/作者/文学作品(book/author/works_written)”的关系下,对头实体“莎士比亚(William Shakespeare)”重要性更大的类别是“书/作者(book/author)”,而对尾实体“罗密欧与朱丽叶(Romeo and Juliet)”重要性更大的类别是“书/文学作品(book/written_work)”,证明我们的假设是符合直观与实际的。基于实体的层次结构类别信息,本发明使用映射矩阵,使得实体在不同类别下拥有不同的表示,在知识图谱补全与三元组分类等任务上都取得了显著的提升效果。
如图2所示,一种结合实体层次类别的知识图谱表示学习方法,包括:
S1:获取知识图谱的三元组关系以及实体的层次结构类别信息;
具体的,收集知识图谱的三元组关系,实体所有的层次类别信息,以及实体在特定关系下的类别信息,构建数据集,可以将数据集划分为训练集、开发集和测试集。对数据集进行预处理,整理实体的层次类别信息。其中对于实体的层次类别信息表示如下:将实体类别层次结构中每层的节点表示为实体的子类别,将每条自顶向下的完整路径表示为实体的类别。
其中,实体在特定关系下的类别信息,可以通过收集知识图谱中已存储的相关信息获得,也可以通过统计知识图谱中三元组的关系实际对应的类别信息进行获得。
S2:根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;
具体的,构建类别映射矩阵可以通过基于递归层次编码器的模型一或者基于加权层次编码器的模型二,后面将对这两种方式开展详细描述。
S3:根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程;
S4:根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。
与现有技术相比,本发明提出的结合实体层次类别的知识图谱表示学习方法,不仅利用了实体之间的三元组关系信息,还充分利用了实体所有的具有层次结构的类别信息,通过构建能量方程,使得实体通过类别的映射矩阵,在不同类别上拥有不同的表示向量,通过最小化基于边际的评价函数学习实体向量、关系向量以及类别映射矩阵的表示,显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示,能够在知识图谱补全和三元组关系分类等任务中得到更高的准确率,尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出,具有良好的实用性。
在上述实施例的基础上,基于递归层次编码器的模型一构建类别映射矩阵,优选的,步骤S2所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:
S201:根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;
S202:通过递归层次编码器利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵。
具体地,如图3所示,所述利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵,具体采用以下公式(1):
其中,c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数。
递归层次编码器利用子类别的映射矩阵的连乘操作,得到了类别的映射矩阵。在物理意义上,递归层次编码器相当于将实体先映射到较粗粒度的空间中,然后逐层深入映射,最后映射到最细粒度的空间中,保证了实体在不同类别下的不同表示。
另一方面,基于加权层次编码器的模型二构建类别映射矩阵,优选的,步骤S2所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:
S201’:根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;
S202’:通过加权层次编码器利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵。
优选的,之后还包括:
设定子类别映射矩阵的加权策略。
具体的,如图4所示,所述利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵,具体采用以下公式(2):
其中c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数,βi表示第i个子类别的权值。
所述子类别映射矩阵的加权策略为满足公式(3):
βii+1=(1-η):η (3)
此加权策略是一个权值等比例下降的加权策略,其中η是控制等比例下降速率的超参数。设置η∈(0,0.5),表示子类别的分类粒度约细,描述的类别越详细,所具有的权值越大。
基于递归层次编码器的模型一和基于加权层次编码器的模型二,以实体层次结构的子类别作为输入,通过矩阵递归连乘或者矩阵加权相加的方式,得到实体类别的映射矩阵表示方式。需要注意的是,简单的参数变换与加权策略改变,不构成本质上的创新,也应理解为本发明要保护的范围。
在上述实施例的基础上,步骤S2:根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程,具体采用以下公式(4):
E(h,r,t)=||Mrhh+r-Mrtt|| (4)
其中,E(h,r,t)为能量方程,Mrh和Mrt分别是头实体h和尾实体t在三元组(h,r,t)中的映射矩阵,r为关系向量。
需要说明的是,本发明改进了现有技术基于转化的模型,设计了新的能量方程,所述基于转化的模型存在以下假设:对于所有三元组(h,r,t),希望尾实体向量t能够尽可能接近首实体向量与关系向量的和h+r。而本发明对于基于转化的模型进行了改进。绝大多数实体都存在复数的类别标签信息,不同的类别代表着实体在不同领域所表现出的多样的属性。如图1所示,实体“William Shakespeare”可能存在多个类别信息,如“book/author”、“music/artist”等,而在特定的关系“book/author/works_written”下,对“WilliamShakespeare”重要性更大的类别是“book/author”。因此做出如下假设:在不同的三元组关系中,每个实体的不同类别对于实体此时的向量表示的重要性不同。每个实体在不同的类别下,应该有着不同的表示向量,而这些实体在特定类别下的表示向量,可以通过基于类别的映射矩阵实现。因此本发明在实体向量与关系向量之间基于转化的模型上,引入映射矩阵,使用实体在不同类别下的不同向量表示,因此,得到的能量方程公式如(4)所示。
其中,在步骤S1中,收集了实体在特定关系下的类别信息,就可以确定不同三元组关系中头实体与尾实体所应该属于的类别,在步骤S202中,通过基于递归层次编码器的模型一或者基于加权层次编码器的模型二已经得到各类别的映射矩阵表示方法,所以针对映射矩阵Mrh,有如下表示方式(5):
其中αi是一个只有0和1二值的指示参数:αi=0时当且仅当第i个类别ci不属于在三元组(h,r,t)中h应该属于的类别,而αi=1时当且仅当第i个类别ci属于在三元组(h,r,t)中h应该属于的类别。综上所述,Mrh应该等于在三元组(h,r,t)中h应该属于的类别的映射矩阵的等权和。
同理,针对映射矩阵Mrt,也有类似的表示(6):
其中,αi根据在三元组(h,r,t)中t应该属于的类别确定0值或者1值。而作为各类别的映射矩阵,在步骤S202或者S202’中已经通过模型一或者模型二获得。
本发明改进了现有基于转化的模型,设计了新的能量方程,使得实体通过类别的映射矩阵,在不同类别上拥有不同的表示向量,显著提高了知识表示的性能。
在上述实施例的基础上,优选的,步骤S4根据所述能量方程构建基于边际的评价函数,具体采用以下公式(7):
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R} (8)
其中,γ>0是超参数,T′为三元组的负例集,T为三元组的正例集,h′为替换h的负例实体,t′为替换t的负例实体,r′为替换r的负例实体,E为实体集合,R为关系集合。
具体的,E(h,r,t)是步骤S3中评价经过映射矩阵后的t和h+r相似度的函数,可以使用L1范式或者L2范式。上述T′为三元组的负例集,定义如公式(8)所示,即在正例的三元组中随机替换h、r或者t,得到负例的数据集。但需要注意,负例集中应该去除替换后是正例的三元组。
需要说明的是,通过后向传播算法,使用标准的随机梯度下降算法,最小化基于边际的评价函数,根据链式法则对所有参数进行更新。
在上述实施例的基础上,本发明的结合实体层次类别的知识图谱表示学习方法,还包括:
加入实体类别限制,加大负例采样过程中同类别的实体被选作负例的概率,同类实体被选择为负例的概率如下(9)所示:
其中,e是三元组中的被替换的正例实体,e'是替换的负例实体,c是三元组中e属于的类别,Ec∈E是所有属于类别c的实体集合,|Ec|和|E|分别是两个实体集合的实体数,k是超参数,用于控制同类别的实体被选作负例的概率的提高比例,N为自然数集。
需要说明的是,由于传统方法的知识图谱补全任务中,错误预测的实体通常都是与正确答案同类别的实体,因为之前的方法倾向于将同类的实体学习到语义空间相似的位置,而没有限制直接对同类实体进行区分,导致预测性能的下降。
针对这个问题,本发明提出了在训练与测试过程中,加入实体类别限制,加大在训练时负例采样过程中同类别的实体被选作负例的概率,进一步提升表示学习的性能。这时优化步骤S4中的基于边际的评价函数,能够加大同类别实体之间的辨识度,大幅提升知识图谱补全的效果。同类实体被选择为负例的概率如(9)所示。k是超参数,用于控制同类别的实体被选作负例的概率的提高比例。更高的k意味着更大的概率替换成同类别的实体。通过在训练过程中引入软实体类别限制,能够更好地学习到同类别实体之间的差异,提高它们之间的辨别性,同时兼顾同类别实体在空间中的聚类现象。
其中,在测试过程中加入实体类别限制的操作步骤可以采用:第一,统计所有三元组中各关系的头实体与尾实体所有可能的类别;第二,测试时直接去除不属于这些类别的实体。需要注意的是,测试过程中的实体类别限制对于实体关系对应的类别信息完整度有着较高的要求。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种结合实体层次类别的知识图谱表示学习方法,其特征在于,包括:
获取知识图谱的三元组关系以及实体的层次结构类别信息;
根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;
根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程;
根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。
2.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:
根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;
通过递归层次编码器利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵。
3.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵,具体采用以下公式:
<mrow> <msub> <mi>M</mi> <mi>c</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </msub> <mo>=</mo> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </msub> <mn>...</mn> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> </msub> </mrow>
其中,c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数。
4.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:
根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;
通过加权层次编码器利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵。
5.根据权利要求4所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,还包括:
设定子类别映射矩阵的加权策略。
6.根据权利要求5所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵,具体采用以下公式:
<mrow> <msub> <mi>M</mi> <mi>c</mi> </msub> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>&amp;beta;</mi> <mi>i</mi> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </msub> <mo>=</mo> <msub> <mi>&amp;beta;</mi> <mn>1</mn> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </msub> <mo>+</mo> <msub> <mi>&amp;beta;</mi> <mn>2</mn> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>&amp;beta;</mi> <mi>m</mi> </msub> <msub> <mi>M</mi> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> </msub> </mrow>
其中c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数,βi表示第i个子类别的权值。
7.根据权利要求6所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述子类别映射矩阵的加权策略为:
βii+1=(1-η):η
其中,η为控制权值等比例下降速率的超参数,η∈(0,0.5)。
8.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程,具体采用以下公式:
E(h,r,t)=||Mrhh+r-Mrtt||
其中,E(h,r,t)为能量方程,Mrh和Mrt分别是头实体h和尾实体t在三元组(h,r,t)中的映射矩阵,r为关系向量。
9.根据权利要求8所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,根据所述能量方程构建基于边际的评价函数,具体采用以下公式:
<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>(</mo> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>(</mo> <msup> <mi>h</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> <mo>&amp;Element;</mo> <msup> <mi>T</mi> <mo>&amp;prime;</mo> </msup> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>&amp;gamma;</mi> <mo>+</mo> <mi>E</mi> <mo>(</mo> <mrow> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> <mo>-</mo> <mi>E</mi> <mo>(</mo> <mrow> <msup> <mi>h</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> </mrow> <mo>)</mo> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}
其中,γ>0是超参数,T′为三元组的负例集,T为三元组的正例集,h′为替换h的负例实体,t′为替换t的负例实体,r′为替换r的负例实体,E为实体集合,R为关系集合。
10.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,还包括:
加入实体类别限制,加大负例采样过程中同类别的实体被选作负例的概率,同类实体被选择为负例的概率如下:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mi>e</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>|</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>E</mi> <mo>|</mo> <mo>+</mo> <mi>k</mi> <mo>|</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> <mi>k</mi> <mo>&amp;Element;</mo> <mi>N</mi> </mrow>
其中,e是三元组中的被替换的正例实体,e'是替换的负例实体,c是三元组中e属于的类别,Ec∈E是所有属于类别c的实体集合,|Ec|和|E|分别是两个实体集合的实体数,k是超参数,用于控制同类别的实体被选作负例的概率的提高比例,N为自然数集。
CN201610350225.9A 2016-05-24 2016-05-24 结合实体层次类别的知识图谱表示学习方法 Active CN107423820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610350225.9A CN107423820B (zh) 2016-05-24 2016-05-24 结合实体层次类别的知识图谱表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610350225.9A CN107423820B (zh) 2016-05-24 2016-05-24 结合实体层次类别的知识图谱表示学习方法

Publications (2)

Publication Number Publication Date
CN107423820A true CN107423820A (zh) 2017-12-01
CN107423820B CN107423820B (zh) 2020-09-29

Family

ID=60422772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610350225.9A Active CN107423820B (zh) 2016-05-24 2016-05-24 结合实体层次类别的知识图谱表示学习方法

Country Status (1)

Country Link
CN (1) CN107423820B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063021A (zh) * 2018-07-12 2018-12-21 浙江大学 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN109471949A (zh) * 2018-11-09 2019-03-15 袁琦 一种宠物知识图谱的半自动化构建方法
CN110136103A (zh) * 2019-04-24 2019-08-16 平安科技(深圳)有限公司 医学影像解释方法、装置、计算机设备及存储介质
CN110766435A (zh) * 2018-12-19 2020-02-07 北京嘀嘀无限科技发展有限公司 向量训练方法、装置、电子设备以及计算机可读存储介质
CN111488402A (zh) * 2020-03-26 2020-08-04 天津大学 一种带有层次关系结构知识图谱的表示学习方法
CN111599479A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种基于icd9-cm-3的手术知识图谱构建方法和装置
CN111858953A (zh) * 2020-06-08 2020-10-30 北京邮电大学 用于智慧城市少样本数据建模的实体关系表示方法及系统
CN112115230A (zh) * 2020-08-21 2020-12-22 浙江工商大学 一种基于层次类别信息的知识图谱构建方法
CN112784059A (zh) * 2021-01-20 2021-05-11 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法、装置、电子设备及存储介质
US12039268B2 (en) 2021-10-29 2024-07-16 Industrial Technology Research Institute Graph-based natural language optimization method and electronic apparatus

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130096944A1 (en) * 2011-10-13 2013-04-18 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Ontology Based Analytics
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN103488724B (zh) * 2013-09-16 2016-09-28 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN106649550A (zh) * 2016-10-28 2017-05-10 浙江大学 一种基于代价敏感学习的联合知识嵌入方法
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN106886572A (zh) * 2017-01-18 2017-06-23 中国人民解放军信息工程大学 基于Markov逻辑网的知识图谱关系类型推测方法及其装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130096944A1 (en) * 2011-10-13 2013-04-18 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Ontology Based Analytics
CN103488724B (zh) * 2013-09-16 2016-09-28 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN106649550A (zh) * 2016-10-28 2017-05-10 浙江大学 一种基于代价敏感学习的联合知识嵌入方法
CN106886572A (zh) * 2017-01-18 2017-06-23 中国人民解放军信息工程大学 基于Markov逻辑网的知识图谱关系类型推测方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付瑞吉: "开放域命名实体识别及其层次化类别获取", 《中国博士学位论文全文数据库 信息科技辑》 *
刘知远 等: "知识表示学习研究进展", 《计算机研究与发展》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063021A (zh) * 2018-07-12 2018-12-21 浙江大学 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN109471949A (zh) * 2018-11-09 2019-03-15 袁琦 一种宠物知识图谱的半自动化构建方法
CN110766435A (zh) * 2018-12-19 2020-02-07 北京嘀嘀无限科技发展有限公司 向量训练方法、装置、电子设备以及计算机可读存储介质
CN110136103A (zh) * 2019-04-24 2019-08-16 平安科技(深圳)有限公司 医学影像解释方法、装置、计算机设备及存储介质
CN110136103B (zh) * 2019-04-24 2024-05-28 平安科技(深圳)有限公司 医学影像解释方法、装置、计算机设备及存储介质
CN111488402A (zh) * 2020-03-26 2020-08-04 天津大学 一种带有层次关系结构知识图谱的表示学习方法
CN111599479B (zh) * 2020-04-02 2023-08-11 云知声智能科技股份有限公司 一种基于icd9-cm-3的手术知识图谱构建方法和装置
CN111599479A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种基于icd9-cm-3的手术知识图谱构建方法和装置
CN111858953A (zh) * 2020-06-08 2020-10-30 北京邮电大学 用于智慧城市少样本数据建模的实体关系表示方法及系统
CN111858953B (zh) * 2020-06-08 2022-10-18 北京邮电大学 用于智慧城市少样本数据建模的实体关系表示方法及系统
CN112115230A (zh) * 2020-08-21 2020-12-22 浙江工商大学 一种基于层次类别信息的知识图谱构建方法
CN112784059A (zh) * 2021-01-20 2021-05-11 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法、装置、电子设备及存储介质
US12039268B2 (en) 2021-10-29 2024-07-16 Industrial Technology Research Institute Graph-based natural language optimization method and electronic apparatus

Also Published As

Publication number Publication date
CN107423820B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN107423820A (zh) 结合实体层次类别的知识图谱表示学习方法
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN106886543A (zh) 结合实体描述的知识图谱表示学习方法和系统
CN111753101A (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN110348624A (zh) 一种基于Stacking集成策略的沙尘暴等级预测方法
CN110009030A (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN109191345A (zh) 一种面向学生认知过程的认知诊断方法
Gu et al. [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management
CN113609773B (zh) 基于小样本的数据可靠性评估结果预测性能的方法及系统
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Wu et al. Using apriori algorithm on students’ performance data for Association Rules Mining
Dong et al. [Retracted] Application of Data Mining Technology in Public Welfare Sports Education in the Era of Artificial Intelligence
Li A Model for analyzing teaching quality data of sports faculties based on particle swarm optimization neural network
CN111680163A (zh) 一种面向电力科技成果的知识图谱可视化方法
CN106203634A (zh) 一种基于因果图启发式的并行概率规划方法
Chen Hotel management evaluation index system based on data mining and deep neural network
CN115293249A (zh) 一种基于动态时序预测的电力系统典型场景概率预测方法
Xie Support vector machines for land use change modeling
Yuan et al. Early Detecting the At-risk Students in Online Courses Based on Their Behavior Sequences
CN114443851A (zh) 一种改进的基于概率校准的知识图谱生成方法
He et al. A credible predictive model for employment of college graduates based on LightGBM
Bai [Retracted] Prediction of Customer Demand for Hands‐On Inquiry‐Based Learning (HIBL) Product Based on Big Data Clustering Algorithm
Wilson et al. Accurate performance measure but meaningless ranking exercise? An analysis of the English school league tables
Zhang et al. Pool-based active learning with query construction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant