CN115168602A - 一种基于改进的概念和实例的三元组分类方法 - Google Patents

一种基于改进的概念和实例的三元组分类方法 Download PDF

Info

Publication number
CN115168602A
CN115168602A CN202210729057.XA CN202210729057A CN115168602A CN 115168602 A CN115168602 A CN 115168602A CN 202210729057 A CN202210729057 A CN 202210729057A CN 115168602 A CN115168602 A CN 115168602A
Authority
CN
China
Prior art keywords
concept
triples
triple
triplet
delta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210729057.XA
Other languages
English (en)
Inventor
赵翔
袁雪美
张鹏飞
肖卫东
谭真
胡艳丽
葛斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210729057.XA priority Critical patent/CN115168602A/zh
Publication of CN115168602A publication Critical patent/CN115168602A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进的概念和实例的三元组分类方法,包括:获取知识图谱,并划分为概念集、实例集、关系集和三元组集;对于instanceof三元组、概念三元组中的subclassof三元组、概念三元组中除subclassof三元组的三元组和实例三元组统一归类为关系三元组分别建模;使用基于边际参数的损失函数作为优化目标进行训练,采用随机梯度下降算法来最小化所述损失函数,训练结束后得到模型的超参数;将测试三元组输入模型中,判断该三元组的标签是“正确”或“错误”并输出标签。本发明将概念和实例在不同的空间中进行嵌入表示学习,有效缓解同一概念所属的不同实例在嵌入表示空间聚集的问题。

Description

一种基于改进的概念和实例的三元组分类方法
技术领域
本发明属于知识图谱技术领域,尤其涉及一种基于改进的概念和实例的三元组分类方法。
背景技术
知识图谱以三元组(h,r,t)形式描述物理世界中的实体(entities)及其相互关系(relations)。知识表示学习是知识图谱构建与应用的关键技术,通过将三元组的语义信息表示为连续空间中的稠密低维向量,可在保留原始图谱特定属性的同时,支持知识图谱计算和推理,是支撑智能搜索、智能问答、个性化推荐等智能信息服务应用下游任务的重要基础。
知识表示学习通过将知识图谱中的实体和关系表示为连续空间中的稠密低维向量,可在保留原始图谱特定属性的同时支持知识图谱的计算和推理,使得知识表示学习成为近年来的研究热点。为缓解知识图谱的稀疏性带来的实体表示学习不充分问题,一些研究者提出了基于实例和概念的知识图谱表示模型,这些模型利用知识图谱中包含的概念和实例之间的潜在语义联系的来加强知识图谱的表示学习。
当前主流的知识图谱表示模型大致分为四类:基于距离平移的模型、基于语义匹配的模型、基于神经网络的模型和基于辅助信息的模型。
基于距离平移的模型。该类模型使用基于距离的评分函数。受到word2vec模型平移不变性的启发,Border等人提出的TransE模型把关系向量看作为同一空间中的头实体向量和尾实体向量之间的平移。TransE模型参数较少,计算复杂度低,但不能处理1-N、N-1和N-N等复杂关系。为此,TransH、TransR、TransD等扩展模型相继提出,这些模型均使得同一个实体在不同的关系下拥有不同的表示以处理复杂关系。
基于语义匹配的模型(Semantic matching models)。该类模型使用基于相似度的评分函数。RESCAL将实体建模为向量、将关系建模为矩阵。DistMult在RESCAL基础上将关系矩阵限制为对角矩阵。HolE引入了嵌入的循环相关操作(circular correlation ofembedding)进行语义匹配。这些模型都可捕获三元组中丰富的交互信息。RotatE受欧拉公式启发,使用复数向量对实体和关系进行表示,将关系建模成从头实体到尾实体的旋转。
基于神经网络的模型(Neural networks based models)。该类模型使用CNN、RNN、GCN等神经网络模型学习深层表达特征(CNNs are utilized for learning deepexpressive features)。基于CNN的模型中,ConvE通过将头实体和关系映射成2D的矩阵来建模实体和关系的交互,ConvKB使用CNN编码实体和关系的拼接以提取特征,ConvR从关系表示构造卷积滤波器,在链路预测方面取得了良好的结果。基于RNN的模型是为捕获KG中更长关系依赖。Gradner等人和Neelakantan等人提出基于RNN的模型用于关系路径建模,分别在使用和不使用实体信息时学习向量表示。RSN设计了循环skip机制,通过区分实体和关系,来增强语义表示学习。基于GCN模型是为捕获KG中的结构化信息。R-GCN提出了针对关系的转换来建模知识图谱的有向性质,SACN引入了带权重的GCN,Nathani等人引入了GAN作为编码器来捕获多跳邻域特征。
基于辅助信息的模型。这类方法是利用知识图谱的辅助信息(如实体类型、实体描述、上下文向量等)来学习知识表示。DKRL在TransE的基础上通过卷积编码器(convolutional encoder)直接从实体描述中学习表示。SSP通过将三元组和文本描述投影到一个语义子空间来建模三元组和文本描述间的强关联。TEKE将文本上下文嵌入结合到TransE等传统方法中以学习更有表达能力的实体和关系表示。TKRL充分利用额外的实体类型对实体的投影矩阵来捕获层次结构信息。
基于概念和实例的知识表示模型属于基于辅助信息的方法。这类模型利用概念和实例之间的关系加强知识图谱的表示学习。JECI++模型利用基于实例邻域信息与其所属的概念的交互信息构建预测函数对实例进行预测,通过最小化预测值和真实实例嵌入之间的差距来迭代地学习实例和概念的嵌入表示。但由于知识图谱的稀疏性,并不是所有实例都有充足的邻居信息可供训练,使得模型的普适性不强。SSE模型认为属于同一概念的实例在嵌入空间中应该彼此接近。TransC在语义空间中将每个概念建模为球体,将每个实例建模为同一语义空间中的点,通过空间中的点和球之间的相对位置建模实例和概念之间潜在语义关系。JOIE同时采用视图内模型和跨视图模型,通过视图内模型分别在实例和概念的嵌入空间中捕获实例和概念的结构化知识,通过跨视图模型学习实例和概念之间的语义关系。
发明内容
相较于现有技术,为区分实例与概念的差异性以及不同概念的层次性,本发明提出了一个基于空间转换的实例与概念的知识图谱表示模型—STCI:DifferentiatingConcepts and Instances Based on Spatial Transformation for Knowledge GraphEmbedding。本发明将嵌入表示空间分为概念嵌入表示空间和实例嵌入表示空间分别建模实例和概念的嵌入表示。将知识图谱中的三元组分为3种类型:instanceof三元组、subclassof三元组以及关系三元组(包含实例关系三元组和概念关系三元组,subclassof三元组除外)分别建模。对于instanceof三元组,头实体的实例和尾实体的概念不在同一嵌入表示空间,我们将instanceof关系建模成实例向概念嵌入表示空间映射的一种方法,映射后的实例应与其所属概念嵌入表示接近。对于subclassof三元组,我们利用subclassof关系的传递性进行建模,并且为区分不同概念的层次结构,我们引入了概念的邻域作用范围这个可学习参数来建模概念的层次结构信息。对于关系三元组,由于头实体和尾实体的嵌入表示在同一个空间,我们采用经典的TransE模型进行建模。以TransE、DistMult、HolE、TransC和JOIE等为基线进行实验,结果表明,STCI在大多数情况下都能达到最优性能。
本发明公开的基于改进的概念和实例的三元组分类方法,包括以下步骤:
获取知识图谱,并划分为概念集、实例集、关系集和三元组集;所述三元组集包含头实体和尾实体都由概念组成的概念三元组、头实体和尾实体都由实例组成的实例三元组以及头实体和尾实体分别由实例和概念组成的instanceof三元组;
对于instanceof三元组,由于头实体和尾实体不能在同一个嵌入空间表示,单独建模,对于概念三元组中的subclassof三元组,利用subclassof关系的传递性进行建模,对于概念三元组中除subclassof三元组的三元组和实例三元组统一归类为关系三元组并建模;
使用基于边际参数的损失函数作为优化目标进行训练,所述损失函数限制正三元组的分数至少比其负三元组的分数少边际参数γ,以提高正负样本之间可区分性;
采用随机梯度下降算法来最小化所述损失函数,模型训练时,强制约束所有的关系三元组中的实体和关系、instanceof三元组以及subclassof中的实例和概念的L2范数小于等于1,训练结束后得到模型的超参数;
将实例关系三元组、概念关系三元组、instanceof三元组或者subclassof三元组输入模型中,判断该三元组的标签是“正确”或“错误”并输出标签。
进一步的,将关系集R形式化为
Figure BDA0003712150220000051
其中,ri表示instanceof关系,rs表示subclassof关系,
Figure BDA0003712150220000052
是实例关系集,
Figure BDA0003712150220000053
是除rs关系外的概念关系集,将三元组集S分为三个不相交的子集:
instanceof三元组集
Figure BDA0003712150220000054
其中i∈I,其嵌入表示
Figure BDA0003712150220000055
c∈C,其嵌入表示
Figure BDA0003712150220000056
ne是Se的大小;
subclassof三元组集
Figure BDA0003712150220000057
其中ci、cj∈C,其嵌入表示
Figure BDA0003712150220000058
ci是cj的子概念,nc是Sc的大小;
关系三元组集
Figure BDA0003712150220000059
其中h、r、t∈C或h、r、t∈I,其嵌入表示分别用h,r,t描述,
Figure BDA00037121502200000510
Figure BDA00037121502200000511
nr是Sr的大小,
Figure BDA00037121502200000512
为实例关系三元组集,
Figure BDA00037121502200000513
其中he,te∈I,
Figure BDA00037121502200000514
Figure BDA00037121502200000515
Figure BDA00037121502200000516
的大小,
Figure BDA00037121502200000517
为概念关系三元组集,
Figure BDA00037121502200000518
其中hc,tc∈C,
Figure BDA00037121502200000519
Figure BDA00037121502200000520
Figure BDA00037121502200000521
的大小。
进一步的,对于instanceof三元组(i,ri,c)建模如下:
实例i与概念c嵌入表示分别为e和o,在不同的嵌入表示空间;由于实例i具有概念c的属性信息,实例i的嵌入表示e通过映射后与概念c的嵌入表示向量o接近,即:对于instanceof三元组(i,ri,c),存在
fins(e)→o
instanceof三元组为多对多关系,即一个概念可包含多个实例,一个实例可属于多个概念;对于一个概念对应多个实例的情况,定义fins(e)为非线性仿射函数,即:
fins(e)=σ(W·e+b)
其中,
Figure BDA0003712150220000061
为权重矩阵,
Figure BDA0003712150220000062
为偏置向量,σ(·)为非线性激活函数;
对于同一个实例可能对应多个不同的概念的情况,为每个概念的嵌入表示增加一个可学习参数δc,表示o的δc邻域作用范围,实例i的嵌入表示e经过映射后,位于概念c的嵌入向量表示o的δc邻域作用范围内,即:
||fins(e)-o||2≤δc
其中||·||2为欧式距离公式,δc的意义为:经过训练后,c所属的实例i的嵌入表示e经过映射后应位于球心点为o、半径为δc的超球邻域内,即训练后e经过映射会在o的嵌入表示周围,而不是与点o重合,以解决同一个实例对应的不同概念在训练后聚集的问题;
instanceof三元组(i,re,c)的目标函数定义为:
Fe(e,o)=||fins(e)-o||2c
进一步的,对于subclassof三元组(ci,rs,cj)建模如下:
概念ci是概念cj的子概念,概念ci与概念cj同处于一个属性空间,则oi应在oj的δj邻域作用范围内;结合三元组(i,ri,ci)和(ci,rs,cj),根据isA关系的传递性推理出(i,ri,cj),由此,ci所属的所有实例经过映射后的嵌入表示在oj的δj邻域作用范围内:
若使ci所属的所有实例经过映射后的嵌入表示都在oj的δj邻域作用范围内,则oi的δi邻域作用范围在oj的δj邻域作用范围内,由此,将subclassof三元组(ci,rc,cj)的目标函数定义为:
Fsub(oi,oj)=||oi-oj||2-(δji)。
进一步的,对于关系三元组(h,r,t)建模如下:
对于实例关系三元组和概念三元组,在对应的实例嵌入表示空间或概念嵌入表示空间分别为h、r、t学习嵌入表示h,r,t,采用经典的TransE模型建模,目标函数定义为:
Fr=||h+r-t||2
该模型可处理subclassof关系的传递性;如果存在2个正三元组样本(ci,rs,cj)和(cj,rs,ck),根据模型,概念ci的嵌入表示oi的δi超球邻域作用范围在cj的嵌入表示oj的δj超球邻域作用范围内,oj的δj超球邻域作用范围在ok的δk超球邻域作用范围内,可得出oi的δi超球邻域作用范围也在ok的δk超球邻域作用范围内,即是(ci,rs,ck)为正样本;同时,通过不同的概念参数δc来描述概念的层次结构信息,δc值越大,概念层次相对越高,反之,概念的层次相对越低。
进一步的,采用自对抗负抽样的方法,根据当前的嵌入模型对负三元组进行抽样,具体来说,从以下分布中抽样负三组:
Figure BDA0003712150220000071
其中,α是采样超参数,F(hj',r,tj')为(h,r,t)的一个候选负采样三元组(hj',r,tj')对应模型的目标函数取值。
进一步的,为instanceof三元组集Se定义基于边际参数的损失函数Le
Figure BDA0003712150220000072
其中,[x]+=max(0,x),γe用来表示instanceof三元组的边际超参数,对于instanceof三元组,ξe和ξe'表示正三元组和负三元组,Se和Se'用于描述正三元组集和负三元组集;
为subclassof三元组集Sc定义基于边际参数的损失函数Lc
Figure BDA0003712150220000081
为实例关系三元组集
Figure BDA0003712150220000082
定义基于边际参数的损失函数
Figure BDA0003712150220000083
Figure BDA0003712150220000084
为概念关系三元组集
Figure BDA0003712150220000085
定义基于边际参数的损失函数
Figure BDA0003712150220000086
Figure BDA0003712150220000087
最后,将总体损失函数定义为这四个损失函数的线性组合:
Figure BDA0003712150220000088
其中,β123>0,是Le、Lc
Figure BDA0003712150220000089
以及
Figure BDA00037121502200000810
之间保持平衡的超参数
为实例关系三元组集
Figure BDA00037121502200000811
定义基于边际参数的损失函数
Figure BDA00037121502200000812
Figure BDA00037121502200000813
为概念关系三元组集
Figure BDA00037121502200000814
定义基于边际参数的损失函数
Figure BDA00037121502200000815
Figure BDA00037121502200000816
最后,我们将总体损失函数定义为这四个损失函数的线性组合:
Figure BDA00037121502200000817
其中,β123>0,是Le、Lc
Figure BDA00037121502200000818
以及
Figure BDA00037121502200000819
之间保持平衡的超参数。
本发明的有益效果如下:
提出了一种新的知识图谱嵌入模型,该模型利用概念和实例之间的潜在语义联系来加强知识图谱的表示学习,能有效缓解样本稀疏性带来的学习不充分的问题。
通过将概念和实例在不同的空间中进行嵌入表示学习,可有效缓解同一概念所属的不同实例在嵌入表示空间聚集的问题。
为概念的嵌入表示增加一个邻域作用范围的可学习参数,可有效区分不同概念的层次结构信息,同时可缓解同一实例对应的不同概念在嵌入表示空间聚集的问题。
附图说明
图1本发明的三元组分类方法流程图;
图2 instanceof三元组中头实体实例与尾实体概念在两个嵌入表示空间中的位置关系示意图;
图3 subclassof三元组头实体ci及其所属的实例在概念嵌入空间中映射后的嵌入表示与尾实体cj在概念嵌入空间的位置关系图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
知识图谱KG描述了实体及它们之间的关系。由于实体中实例和概念的差异性,我们将实例和概念分别在实例嵌入表示空间
Figure BDA0003712150220000091
和概念嵌入表示空间
Figure BDA0003712150220000092
表示,实例嵌入表示空间维度de较概念嵌入表示空间维度dc要高,即是de>dc。由此,我们将知识图谱形式化描述为KG={C、I、R、S},C、I、R、S分别表示概念集、实例集、关系集和三元组集。知识图谱中的三元组集S包含3种类型三元组:头实体和尾实体都由概念组成的概念三元组、头实体和尾实体都由实例组成的实例三元组以及头实体和尾实体分别由实例和概念组成的instanceof三元组。对于instanceof三元组,由于头实体和尾实体不能在同一个嵌入空间表示,需单独建模。对于概念三元组中的subclassof三元组,可利用subclassof关系的传递性进行建模。对于概念三元组(除subclassof三元组)和实例三元组,由于头实体和尾实体在统一的嵌入表示空间中表示,可采用同样的方法进行建模,统一归类为关系三元组。
由此,关系集R可以形式化为
Figure BDA0003712150220000101
其中,ri表示instanceof关系,rs表示subclassof关系,
Figure BDA0003712150220000102
是实例关系集,
Figure BDA0003712150220000103
是概念关系集(除rs关系)。三元组集S可以分为三个不相交的子集:
1.instanceof三元组集
Figure BDA0003712150220000104
其中i∈I,其嵌入表示
Figure BDA0003712150220000105
c∈C,其嵌入表示
Figure BDA0003712150220000106
ne是Se的大小。
2.subclassof三元组集
Figure BDA0003712150220000107
其中ci、cj∈C,其嵌入表示
Figure BDA0003712150220000108
Figure BDA0003712150220000109
ci是cj的子概念,nc是Sc的大小。
3.关系三元组集
Figure BDA00037121502200001010
其中h、r、t∈C或h、r、t∈I,其嵌入表示分别用加粗体h,r,t描述,
Figure BDA00037121502200001011
Figure BDA00037121502200001012
nr是Sr的大小。
Figure BDA00037121502200001013
为实例关系三元组集,
Figure BDA00037121502200001014
其中he,te∈I,
Figure BDA00037121502200001015
Figure BDA00037121502200001016
Figure BDA00037121502200001017
Figure BDA00037121502200001018
的大小。
Figure BDA00037121502200001019
为概念关系三元组集,
Figure BDA00037121502200001020
其中hc,tc∈C,
Figure BDA00037121502200001021
Figure BDA00037121502200001022
Figure BDA00037121502200001023
的大小。
接下来,我们将按照S={Se∪Sc∪Sr},对知识图谱中三种类型的三元组进行建模描述。
本发明对知识图谱中三种类型三元组:instanceof三元组、subclassof三元组和关系三元组分别建模,具体模型描述如下。
对于instanceof三元组(i,ri,c)。实例i与概念c嵌入表示分别为e和o,应在不同的嵌入表示空间。由于实例i具有概念c的属性信息,本发明认为实例i的嵌入表示e通过映射后应与概念c的嵌入表示向量o接近,即:对于instanceof三元组(i,ri,c),存在
fins(e)→o (1)
instanceof三元组为多对多关系,即一个概念可包含多个实例,一个实例可属于多个概念。对于一个概念对应多个实例的情况,设计映射函数fins(e)时需要考虑对于不同的e,fins(e)的值可能相同。本发明定义fins(e)为非线性仿射函数,即:
fins(e)=σ(W·e+b) (2)
其中,
Figure BDA0003712150220000111
为权重矩阵,
Figure BDA0003712150220000112
为偏置向量,σ(·)为非线性激活函数,本发明采用tanh。
对于同一个实例可能对应多个不同的概念的情况,如果直接定义o=fins(e),则无法区分同一实例对应不同概念的情况。为此,为每个概念的嵌入表示增加了一个可学习参数δc,表示o的δc邻域作用范围(neighborhood)。我们认为实例i的嵌入表示e经过映射后,应位于概念c的嵌入向量表示o的δc邻域作用范围内,即是:
||fins(e)-o||2≤δc (3)
其中||·||2为欧式距离公式。
δc的意义可以理解为:经过训练后,c所属的实例i的嵌入表示e经过映射后应位于球心点为o、半径为δc的超球邻域内,即是训练后e经过映射会在o的嵌入表示周围,而不是与点o重合,这样可以解决同一个实例对应的不同概念在训练后聚集的问题。
instanceof三元组(i,re,c)的目标函数定义为:
Fe(e,o)=||fins(e)-o||2c (4)
对于subclassof三元组(ci,rs,cj),概念ci是概念cj的子概念,概念ci与概念cj同处于一个属性空间,则oi应在oj的δj邻域作用范围内。结合三元组(i,ri,ci)和(ci,rs,cj),根据isA关系的传递性,可以推理出(i,ri,cj)。由此,我们可以推论出ci所属的所有实例都是cj的实例,即是ci所属的所有实例经过映射后的嵌入表示也应在oj的δj邻域作用范围内,示意图如下:
由图可知,若使ci所属的所有实例经过映射后的嵌入表示都在oj的δj邻域作用范围内,则oi的δi邻域作用范围应在oj的δj邻域作用范围内。由此,本发明将subclassof三元组(ci,rc,cj)的目标函数定义为:
Fsub(oi,oj)=||oi-oj||2-(δji) (5)
对于关系三元组(h,r,t),对于实例关系三元组和概念三元组,我们在对应的实例嵌入表示空间或概念嵌入表示空间分别为h、r、t学习嵌入表示h,r,t。本模型采用经典的TransE模型,目标函数定义为:
Fr=||h+r-t||2 (6)
在完成上述的嵌入表示学习后,该模型可以处理subclassof关系的传递性。如果存在2个正三元组样本(ci,rs,cj)和(cj,rs,ck),根据模型,概念ci的嵌入表示oi的δi超球邻域作用范围在cj的嵌入表示oj的δj超球邻域作用范围内,oj的δj超球邻域作用范围在ok的δk超球邻域作用范围内,可以得出oi的δi超球邻域作用范围也在ok的δk超球邻域作用范围内,即是(ci,rs,ck)为正样本。由此可知,模型可以很好的建模subclassof关系的传递性,同时,可以通过不同的概念参数δc来描述概念的层次结构信息,δc值越大,概念层次相对越高,反之,概念的层次相对越低。
我们使用基于边际参数的损失函数(margin-based ranking loss)作为优化目标进行训练,边际参数记为γ,这个函数限制了正三元组的分数至少比其负三元组的分数少γ,可以提高正负样本之间可区分性。
训练需要用到正样本集和负样本集,现有的知识图谱中只包含正三元组,我们需要通过知识图谱正三元组来生成负三元组。常用的基于均匀分布的负采样策略(“unif”strategy)是通过随机替换正三元组(h,r,t)中的h、t来生成负三元组。例如,对于一个实例关系三元组(h,r,t),它的一个负三元组(h′,r,t)是用随机从实例中选择一个h′替换原有头实体h得到的,并且(h′,r,t)在KG中不存在。
但均匀负采样抽样策略存在低效率的问题,因为随着训练的进行,许多样本明显是错误的,并没有提供任何有意义的信息。因此,我们采用RotatE中的自对抗负抽样的方法(self-adversarial negative sampling),该方法根据当前的嵌入模型对负三元组进行抽样。具体来说,从以下分布中抽样负三组:
Figure BDA0003712150220000131
其中,α是采样超参数(αis the temperature of sampling),F(hj',r,tj')为(h,r,t)的一个候选负采样三元组(hj',r,tj')对应模型的目标函数取值。自对抗负抽样可以理解为:负采样尽可能地选择“最像”正三元组的负三元组进行训练,而模型则尽可能的对正负三元组进行区分。
对于instanceof三元组,使用ξe和ξe'来表示正三元组和负三元组,Se和Se'用于描述正三元组集和负三元组集。为instanceof三元组集Se定义基于边际参数的损失函数Le(margin-based ranking loss):
Figure BDA0003712150220000132
其中,[x]+=max(0,x),γe用来表示instanceof三元组的边际超参数。
类似的,我们为subclassof三元组集Sc定义基于边际参数的损失函数Lc
Figure BDA0003712150220000141
为实例关系三元组集
Figure BDA0003712150220000142
定义基于边际参数的损失函数
Figure BDA0003712150220000143
Figure BDA0003712150220000144
为概念关系三元组集
Figure BDA0003712150220000145
定义基于边际参数的损失函数
Figure BDA0003712150220000146
Figure BDA0003712150220000147
最后,将总体损失函数定义为这四个损失函数的线性组合:
Figure BDA0003712150220000148
其中,β123>0,是Le、Lc
Figure BDA0003712150220000149
以及
Figure BDA00037121502200001410
之间保持平衡的超参数。
采用经典的随机梯度下降SGD(Stochastic Gradient Descent)算法来最小化上述损失函数。模型训练时,强制约束所有的关系三元组中的实体和关系、instanceof三元组以及subclassof中的实例和概念的L2范数小于等于1,即||h||2≤1,||r||2≤1,||t||2≤1,||e||2≤1和||o||2≤1。
模型参数复杂度:我们分别用Ni、No分别表示实例、概念的总数量,分别用
Figure BDA00037121502200001411
分别表示实例关系三元组集中关系的数量、概念关系三元组集中关系的数量,de、dc分别为实例嵌入表示空间和概念嵌入表示空间的维数。对于实例关系三元组和概念关系三元组,使用TransE建模,实例关系三元组和概念关系三元组模型参数复杂度分别为
Figure BDA00037121502200001412
Figure BDA00037121502200001413
由于关系的数量远远小于实例或概念的数量,即
Figure BDA00037121502200001414
在这里忽略不计
Figure BDA00037121502200001415
Figure BDA00037121502200001416
实例关系三元组和概念关系三元组模型参数复杂度可分别近似记为O(Nide)和O(Nodc)。对于instanceof三元组,模型的复杂度为O(Nide+Nodc+dedc+No)。对于subclassof三元组,模型的参数复杂度为O(Nodc+No)。实例和概念的嵌入表示的参数在整个模型中是共享的,因此,总体模型参数复杂度为O(Nide+Nodc+dedc+No)。No相对Nodc来说也可忽略不计,可以近似记为O(Nide+Nodc+dedc)。由于Ni>>de,No>>dc,可以看出,参数复杂度近似与实体数量成正比。
之前的工作中使用的大多数数据集主要由只包含实例的FB15K和只包含概念的WN18等组成,而TransC中使用的数据集YAGO39K和M-YAGO39K不包含概念关系三元组,因此它们不适合评估我们的模型。本发明采用JOIE中提出的两个数据集:从YAGO中提取YAGO26K-906和从DBpedia中提取DB111K-174。关于实验数据集的基本统计信息,如表1所示:
表1 YAGO26K-906和DB111K-174两个数据集的统计信息
数据集 YAGO26K-906 DB111K-174
实例数 5 5
概念数 6 6
实例关系数 7 7
概念关系数 8 8
三元组 12 12
三元组实例数 5 5
三元组概念数 7 7
三元组实例关系数 4 4
三元组概念关系数 3 3
三元组分类的主要任务是判断一个测试三元组的标签是“正确”或者“错误”。三元组可以是实例关系三元组、概念关系三元组、instanceof三元组或者subclassof三元组。这是一个二元分类任务,其评价指标采用二分类任务中常用的正确率、精确率、召回率和F1值。我们按照神经张量网络模型NTN相同的设置构建三元组分类任务测试需要的负三元组,在验证集和测试集中为每一个正三元组构建一个负三元组,验证集和测试集中的正三元组和负三元组数量一样多。
1)实验设计。我们将三元组集分为训练集、验证集和测试集,分别占比约为60%、20%和20%。为数据集中的每一个关系r,分别设定一个阈值δr。对于一个给定的测试关系三元组(h,r,t),计算其得分函数F(h,r,t)的值,若其得分函数值小于阈值δr,那么预测该三元组的标签为“正确”,反之预测为“错误”。类似地,对于instanceof三元组(x,ri,c),如果其公式(4)的得分小于δri,则预测其为“正确”;对于subclassof三元组(x,rs,c),如果其公式(5)的得分小于δrs,则三元组将被预测为“正确”。阈值δr通过在验证集上最大化分类正确率(Accuracy)确定。
2)实验实现。在这个任务中,模型参数的优化设置方法与链路预测任务相同。最佳配置由验证集的正确率(Accuracy)决定。模型的最优的参数配置如下:对于YAGO26K-906数据集,λ=0.001,dc=100,de=1000,γe=1,γc=0.5,γr e=1.0,γr c=1.0,β1=1,β2=1,β3=2,batch=100,“self-adv”策略下的自对抗采样参数α=0.5;对于DB111K-174数据集,λ=0.0005,dc=100,de=1000,γe=2,γc=0.2,γr e=1.0,γr c=0.5,β1=1,β2=1,β3=2,batch=100,“self-adv”策略下的自对抗采样参数α=1。对于每一个数据集,本实验将所有训练三元组迭代了1000轮次。
表2:Instance Relational Triples三元组分类结果。
Figure BDA0003712150220000161
表3:Concept Relational Triples三元组分类结果。
Figure BDA0003712150220000162
Figure BDA0003712150220000171
表4:Instanceof Triples三元组分类结果。
Figure BDA0003712150220000172
表5:Subclassof Triples三元组分类结果。
Figure BDA0003712150220000173
本发明的数据集有4类三元组:实例关系三元组、概念关系三元组、instanceof三元组和subclassof三元组,我们分别在4类三元组集上做实验,三元组分类的实验结果分别如表2、表3、表4、表5所示。
从实验结果中我们可以得到如下结论:(1)所有的实验中,STCI的F1值都取得了最优的结果,说明对于三元组分类任务,STCI的性能优于基准模型。(2)从表5中可以看出,对于subclassof三元组集,由于数据的稀疏性,一些基准模型的实验结果优于STCI。但综合表2、表3和表4,我们可以认为在数据稀疏的情况下,STCI可以为同一数据集中不同类别三元组的表示学习找到一种平衡,以使所有类别的三元组都能得到较好的学习效果。(3)STCI模型下,从“unif”采样策略到“self-adv”采样策略,几乎所有的评价指标都有提升。说明“self-adv”采样策略比“unif”效果更好。(4)所有的实验中,从TransE到STCI的实验结果,几乎所有的评价指标都有提升,说明实例和概念之间的潜在语义联系这个独特特征对于知识图谱的嵌入表示学习的有效性。(5)比较表2、表4和表5中从TransC到STCI的实验结果,几乎所有的评价指标都有提升,实验结果再次证明了实例和概念在不同的嵌入表示空间建模的有效性。(6)所有的实验中,从JOIE到STCI的实验结果,几乎所有的评价指标都有提升,实验结果再次证明了STCI可以建模isA关系的传递性,更好的学习到了实例和概念之间的潜在语义联系。
总之,相较于TransC和JOIE,STCI能缓解实例和概念嵌入表示在空间聚集的问题的同时,可更好的建模isA关系的传递性,使得STCI模型在三元组分类任务中取得了较好的效果。
本发明的有益效果如下:
提出了一种新的知识图谱嵌入模型,该模型利用概念和实例之间的潜在语义联系来加强知识图谱的表示学习,能有效缓解样本稀疏性带来的学习不充分的问题。
通过将概念和实例在不同的空间中进行嵌入表示学习,可有效缓解同一概念所属的不同实例在嵌入表示空间聚集的问题。
为概念的嵌入表示增加一个邻域作用范围的可学习参数,可有效区分不同概念的层次结构信息,同时可缓解同一实例对应的不同概念在嵌入表示空间聚集的问题。
在学习实例嵌入表示和概念的嵌入表示时互相受益,使得STCI模型在链接预测任务中产生了较好的效果。
本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于改进的概念和实例的三元组分类方法,其特征在于,包括以下步骤:
获取知识图谱,并划分为概念集、实例集、关系集和三元组集;所述三元组集包含头实体和尾实体都由概念组成的概念三元组、头实体和尾实体都由实例组成的实例三元组以及头实体和尾实体分别由实例和概念组成的instanceof三元组;
对于instanceof三元组,由于头实体和尾实体不能在同一个嵌入空间表示,单独建模,对于概念三元组中的subclassof三元组,利用subclassof关系的传递性进行建模,对于概念三元组中除subclassof三元组的三元组和实例三元组统一归类为关系三元组并建模;
使用基于边际参数的损失函数作为优化目标进行训练,所述损失函数限制正三元组的分数至少比其负三元组的分数少边际参数γ,以提高正负样本之间可区分性;
采用随机梯度下降算法来最小化所述损失函数,模型训练时,强制约束所有的关系三元组中的实体和关系、instanceof三元组以及subclassof中的实例和概念的L2范数小于等于1,训练结束后得到模型的超参数;
将实例关系三元组、概念关系三元组、instanceof三元组或者subclassof三元组输入模型中,判断该三元组的标签是“正确”或“错误”并输出标签。
2.根据权利要求1所述的基于改进的概念和实例的三元组分类方法,其特征在于,将关系集R形式化为
Figure FDA0003712150210000011
其中,ri表示instanceof关系,rs表示subclassof关系,
Figure FDA0003712150210000012
是实例关系集,
Figure FDA0003712150210000013
是除rs关系外的概念关系集,将三元组集S分为三个不相交的子集:
instanceof三元组集
Figure FDA0003712150210000021
其中i∈I,其嵌入表示
Figure FDA0003712150210000022
Figure FDA0003712150210000023
c∈C,其嵌入表示
Figure FDA0003712150210000024
ne是Se的大小;
subclassof三元组集
Figure FDA0003712150210000025
其中ci、cj∈C,其嵌入表示oi,
Figure FDA0003712150210000026
ci是cj的子概念,nc是Sc的大小;
关系三元组集
Figure FDA0003712150210000027
其中h、r、t∈C或h、r、t∈I,其嵌入表示分别用h,r,t描述,h,r,
Figure FDA0003712150210000028
或h,r,
Figure FDA0003712150210000029
Figure FDA00037121502100000210
nr是Sr的大小,
Figure FDA00037121502100000221
为实例关系三元组集,
Figure FDA00037121502100000211
其中he,te∈I,
Figure FDA00037121502100000212
Figure FDA00037121502100000213
的大小,
Figure FDA00037121502100000214
为概念关系三元组集,
Figure FDA00037121502100000215
其中hc,tc∈C,
Figure FDA00037121502100000216
Figure FDA00037121502100000217
Figure FDA00037121502100000218
的大小。
3.根据权利要求1所述的基于改进的概念和实例的三元组分类方法,其特征在于,对于instanceof三元组(i,ri,c)建模如下:
实例i与概念c嵌入表示分别为e和o,在不同的嵌入表示空间;由于实例i具有概念c的属性信息,实例i的嵌入表示e通过映射后与概念c的嵌入表示向量o接近,即:对于instanceof三元组(i,ri,c),存在
fins(e)→o
instanceof三元组为多对多关系,即一个概念可包含多个实例,一个实例可属于多个概念;对于一个概念对应多个实例的情况,定义fins(e)为非线性仿射函数,即:
fins(e)=σ(W·e+b)
其中,
Figure FDA00037121502100000219
为权重矩阵,
Figure FDA00037121502100000220
为偏置向量,σ(·)为非线性激活函数;
对于同一个实例可能对应多个不同的概念的情况,为每个概念的嵌入表示增加一个可学习参数δc,表示o的δc邻域作用范围,实例i的嵌入表示e经过映射后,位于概念c的嵌入向量表示o的δc邻域作用范围内,即:
||fins(e)-o||2≤δc
其中||·||2为欧式距离公式,δc的意义为:经过训练后,c所属的实例i的嵌入表示e经过映射后应位于球心点为o、半径为δc的超球邻域内,即训练后e经过映射会在o的嵌入表示周围,而不是与点o重合,以解决同一个实例对应的不同概念在训练后聚集的问题;
instanceof三元组(i,re,c)的目标函数定义为:
Fe(e,o)=||fins(e)-o||2c
4.根据权利要求1所述的基于改进的概念和实例的三元组分类方法,其特征在于,对于subclassof三元组(ci,rs,cj)建模如下:
概念ci是概念cj的子概念,概念ci与概念cj同处于一个属性空间,则oi应在oj的δj邻域作用范围内;结合三元组(i,ri,ci)和(ci,rs,cj),根据isA关系的传递性推理出(i,ri,cj),由此,ci所属的所有实例经过映射后的嵌入表示在oj的δj邻域作用范围内:
若使ci所属的所有实例经过映射后的嵌入表示都在oj的δj邻域作用范围内,则oi的δi邻域作用范围在oj的δj邻域作用范围内,由此,将subclassof三元组(ci,rc,cj)的目标函数定义为:
Fsub(oi,oj)=||oi-oj||2-(δji)。
5.根据权利要求1所述的基于改进的概念和实例的三元组分类方法,其特征在于,对于关系三元组(h,r,t)建模如下:
对于实例关系三元组和概念三元组,在对应的实例嵌入表示空间或概念嵌入表示空间分别为h、r、t学习嵌入表示h,r,t,采用经典的TransE模型建模,目标函数定义为:
Fr=||h+r-t||2
该模型可处理subclassof关系的传递性;如果存在2个正三元组样本(ci,rs,cj)和(cj,rs,ck),根据模型,概念ci的嵌入表示oi的δi超球邻域作用范围在cj的嵌入表示oj的δj超球邻域作用范围内,oj的δj超球邻域作用范围在ok的δk超球邻域作用范围内,可得出oi的δi超球邻域作用范围也在ok的δk超球邻域作用范围内,即是(ci,rs,ck)为正样本;同时,通过不同的概念参数δc来描述概念的层次结构信息,δc值越大,概念层次相对越高,反之,概念的层次相对越低。
6.根据权利要求1所述的基于改进的概念和实例的三元组分类方法,其特征在于,采用自对抗负抽样的方法,根据当前的嵌入模型对负三元组进行抽样,具体来说,从以下分布中抽样负三组:
Figure FDA0003712150210000041
其中,α是采样超参数,F(hj',r,tj')为(h,r,t)的一个候选负采样三元组(hj',r,tj')对应模型的目标函数取值。
7.根据权利要求1所述的基于改进的概念和实例的三元组分类方法,其特征在于,为instanceof三元组集Se定义基于边际参数的损失函数Le
Figure FDA0003712150210000042
其中,[x]+=max(0,x),γe用来表示instanceof三元组的边际超参数,对于instanceof三元组,ξe和ξe'表示正三元组和负三元组,Se和Se'用于描述正三元组集和负三元组集;
为subclassof三元组集Sc定义基于边际参数的损失函数Lc
Figure FDA0003712150210000051
为实例关系三元组集
Figure FDA0003712150210000052
定义基于边际参数的损失函数
Figure FDA0003712150210000053
Figure FDA0003712150210000054
为概念关系三元组集
Figure FDA0003712150210000055
定义基于边际参数的损失函数
Figure FDA0003712150210000056
Figure FDA0003712150210000057
最后,将总体损失函数定义为这四个损失函数的线性组合:
Figure FDA0003712150210000058
其中,β123>0,是Le、Lc
Figure FDA0003712150210000059
以及
Figure FDA00037121502100000510
之间保持平衡的超参数
为实例关系三元组集
Figure FDA00037121502100000511
定义基于边际参数的损失函数
Figure FDA00037121502100000512
Figure FDA00037121502100000513
为概念关系三元组集
Figure FDA00037121502100000514
定义基于边际参数的损失函数
Figure FDA00037121502100000515
Figure FDA00037121502100000516
最后,我们将总体损失函数定义为这四个损失函数的线性组合:
Figure FDA00037121502100000517
其中,β123>0,是Le、Lc
Figure FDA00037121502100000518
以及
Figure FDA00037121502100000519
之间保持平衡的超参数。
CN202210729057.XA 2022-06-24 2022-06-24 一种基于改进的概念和实例的三元组分类方法 Pending CN115168602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210729057.XA CN115168602A (zh) 2022-06-24 2022-06-24 一种基于改进的概念和实例的三元组分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210729057.XA CN115168602A (zh) 2022-06-24 2022-06-24 一种基于改进的概念和实例的三元组分类方法

Publications (1)

Publication Number Publication Date
CN115168602A true CN115168602A (zh) 2022-10-11

Family

ID=83486789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210729057.XA Pending CN115168602A (zh) 2022-06-24 2022-06-24 一种基于改进的概念和实例的三元组分类方法

Country Status (1)

Country Link
CN (1) CN115168602A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687932A (zh) * 2022-12-23 2023-02-03 阿里健康科技(中国)有限公司 多元组数据标注方法、模型训练方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687932A (zh) * 2022-12-23 2023-02-03 阿里健康科技(中国)有限公司 多元组数据标注方法、模型训练方法、装置、设备和介质
CN115687932B (zh) * 2022-12-23 2023-03-28 阿里健康科技(中国)有限公司 多元组数据标注方法、模型训练方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110363282B (zh) 一种基于图卷积网络的网络节点标签主动学习方法和系统
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
Wang et al. Evolutionary extreme learning machine ensembles with size control
CN112070125A (zh) 一种基于孤立森林学习的不平衡数据集的预测方法
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN110363230B (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
Li et al. Evolutionary competitive multitasking optimization
Fu et al. Deep reinforcement learning framework for category-based item recommendation
CN110555459A (zh) 基于模糊聚类和支持向量回归的成绩预测方法
CN116340524B (zh) 一种基于关系自适应网络的小样本时态知识图谱补全方法
Liu et al. Membership inference attacks against machine learning models via prediction sensitivity
CN111914094A (zh) 一种基于三元交互的知识图谱表示学习方法
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
Hua et al. Clustering Ensemble Model Based on Self‐Organizing Map Network
CN115168602A (zh) 一种基于改进的概念和实例的三元组分类方法
Hajimoradlou et al. Stay positive: knowledge graph embedding without negative sampling
CN115098699A (zh) 一种基于知识图谱嵌入模型的链路预测方法
Bandyopadhyay et al. Integrating network embedding and community outlier detection via multiclass graph description
Özdemir et al. The modified fuzzy art and a two-stage clustering approach to cell design
CN116186278A (zh) 一种基于超平面投影与关系路径邻域的知识图谱补全方法
CN114297582A (zh) 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法
Strandberg et al. A comparison between Neural networks, Lasso regularized Logistic regression, and Gradient boosted trees in modeling binary sales
Ali et al. Designing convolutional neural networks using surrogate assisted genetic algorithm for medical image classification
Nagy Data-driven analysis of fractality and other characteristics of complex networks
Tareq et al. A new density-based method for clustering data stream using genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination