CN116992049A - 一种基于双曲空间的加入实体描述的知识图谱嵌入方法 - Google Patents
一种基于双曲空间的加入实体描述的知识图谱嵌入方法 Download PDFInfo
- Publication number
- CN116992049A CN116992049A CN202311018507.5A CN202311018507A CN116992049A CN 116992049 A CN116992049 A CN 116992049A CN 202311018507 A CN202311018507 A CN 202311018507A CN 116992049 A CN116992049 A CN 116992049A
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- embedding
- poincare sphere
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims description 93
- 238000011176 pooling Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
偏置本发明公开了一种基于双曲空间的加入实体描述的知识图谱嵌入方法,提出的加入实体描述的双曲嵌入模型,在双曲空间中,使用PoincaréGlove模型从实体描述文本中提取可以补充图结构的丰富语义信息,再通过爱因斯坦中点池化方法实现文本信息与图结构信息的融合。相比当前基线模型,本发明模型在知识图谱链接预测任务上取得了更好的性能,同时,在双曲空间中,加入实体描述信息确实能改进图嵌入方法的性能,对于分层结构不明显的知识图谱数据,通过加入实体描述数据,依然能弥补在双曲空间中嵌入非层次数据带来的缺点,降低其负面影响。
Description
技术领域
本发明属于知识图谱表示技术领域,具体涉及一种基于双曲空间的加入实体描述的知识图谱嵌入方法。
背景技术
知识图谱(KG)作为包含大量事实三元组(头实体、关系、尾实体)的一种结构化知识表示方法,已被广泛应用于许多领域,例如,信息检索,推荐系统,服务计算和问答系统等,并且显现出巨大的潜力。然而,现实中的知识图谱,例如FreeBase,WordNet,Yago以及DBPedia等通常是高度不完整的,通过人工去补全,成本将会非常高。因此,基于图嵌入表示方法的知识图谱补全,因其低成本,高效性已引起了人们的极大关注。
双曲空间可以被认为是树的连续模拟,它可以表现出最小的失真并且特别适合层次结构。因为双曲空间与树状数据的增长率非常匹配,而欧几里得空间则不能。除此之外,即使在低嵌入维度中,双曲空间也能高质量的表示,这使的它非常适用于对分层数据进行建模。换句话说,双曲几何为嵌入模型提供了更大的可能性和更广阔的操作空间,以充分探索和再现知识图谱的底层结构和基本特征。当前已有部分双曲嵌入方法,在知识图谱链接预测任务上取得了非常好的结果,甚至超过欧几里得嵌入方法。
基于欧式空间的知识图谱嵌入方法,他们有一个基本的局限性,它们对复杂模式建模的能力本质上受嵌入空间维度的限制,在欧几里得空间中球的体积仅相对于半径呈多项式增长,这导致高失真嵌入。
当前诸多双曲空间的知识图谱嵌入方法,都只考虑了图结构,没有利用包含丰富特征的额外信息。然而除了图结构信息,知识图谱作为一种特殊的异质图,每个实体与关系均能够关联具体的文本概念或类别信息。在欧氏空间中,引入额外信息的图嵌入方法通过知识图谱自身蕴含的文本知识和层次信息来补充欠缺的结构信息,进而学习到更有效,建模知识图谱更佳的图嵌入,但是当前在双曲空间领域很少有加入实体描述等额外信息的知识图谱嵌入方法。
发明内容
针对现有技术中的上述不足,本发明提供的基于双曲空间的加入实体描述的知识图谱嵌入方法解决了双曲空间的知识图谱嵌入方法中,没有考虑实体描述,进而影响知识图谱嵌入效果的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于双曲空间的加入实体描述的知识图谱嵌入方法,包括以下步骤:
S1、构建知识图谱;
S2、构建知识图谱对应的加入实体描述的双曲嵌入模型;
其中,所述双曲嵌入模型包括词嵌入模型和图嵌入模型;
S3、在双曲空间中,利用词嵌入模型获得实体文本嵌入向量;
S4、对实体文本嵌入向量进行爱因斯坦中点池化处理;
S5、将池化处理后的实体文本嵌入向量作为图嵌入模型中实体的初始嵌入向量,对实体之间的关系嵌入向量进行随机初始化,获得Poincaré球模型中实体和关系的初始向量;
S6、根据实体和关系的初始向量,通过图嵌入模型将知识图谱的图结构嵌入到Poincaré球模型中,并利用得分函数和损失函数训练优化Poincaré球模型,实现知识图谱嵌入。
进一步地,所述步骤S2中,所述词嵌入模型为在Poincaré球模型中训练得到的Glove词嵌入模型;
利用所述Glove词嵌入模型获得实体描述文本向量的方法具体为:
S31、在Poincaré球模型中训练Glove模型,获得在Poincaré球模型中的词嵌入向量;
S32、在双曲空间中,基于知识图谱中的实体描述,结合词嵌入向量,确定每个实体在Poincaré球模型中的实体文本嵌入向量。
进一步地,所述步骤S31中,训练所述Glove模型的损失函数为:
式中,为损失值,/>为词汇表大小,Xij为语料库中单词i和其上下文单词j在同一个窗口上下文出现的次数,f(·)为权重函数,/>为Poincaré球模型中的距离公式,wi为单词i的嵌入向量,/>为上下文单词j的嵌入向量,bi为单词i的偏置项,/>为上下文单词j的偏置项。
进一步地,所述步骤S32中,对于知识图谱中给定实体ei∈ε的描述文本令/>表示实体描述文本中单词wi的嵌入向量,得到每个实体在Poincaré球模型中的实体文本嵌入向量/>为;
式中,为表示Poincaré球模型,i为单词序数。
进一步地,所述步骤S4具体为:
S41、将Poincaré球模型中的实体文本嵌入向量投影到Klein模型中,计算爱因斯坦中点;
S42、基于Poincaré球模型和Klein模型之间的转换公式,将爱因斯坦中点投影回到Poincaré球模型中;
S43、根据Poincaré球模型中的爱因斯坦中点,计算实体文本嵌入向量的加权平均值,得到池化处理后的实体文本嵌入向量。
进一步地,所述步骤S42中,Poincaré球模型和Klein模型之间的转换公式为:
式中,和/>分别表为Poincaré球模型和Klein模型中的嵌入向量,/>和/>分别为Poincaré球模型和Klein模型中的爱因斯坦中点池化向量,c为曲率。
进一步地,所述步骤S43中,池化处理后的实体文本嵌入向量的计算公式为:
式中,为实体文本在Klein模型中的爱因斯坦中点池化向量,即池化处理后的实体文本嵌入向量,/>为克莱因因子,xi为实体文本嵌入向量,/>为Klein模型。
进一步地,所述步骤S6中,得分函数为:
式中,ei为头实体,Rj为关系,Ek为尾实体,为Poincaré球模型中的距离函数,/>为头实体通过特定关系转换后的嵌入向量,/>为尾实体通过特定关系转换后的嵌入向量,R为对角关系矩阵,hi为头实体的双曲嵌入,hk为尾实体的双曲嵌入,/>为莫比斯加法,rh为关系rj的双曲平移向量,bi为头实体的偏置项,bk为尾实体的偏置项,其中,hi,/>bi,/> 为Poincaré球模型。
进一步地,所述步骤S6中,训练所述Poincaré球模型的损失函数为:
式中,是预测概率值,/>是正样本或负样本的二进制标签,/>为第i个概率预测值,/>为第i个正样本或负样本的二进制标签。
进一步地,所述步骤S6中,对于所述Poincaré球模型,使用黎曼随机梯度下降进行优化,其中黎曼梯度的更新公式为:
式中,η为学习率,为欧几里得梯度乘以庞加莱度量张量的逆。
本发明的有益效果为:
(1)本发明方法有更好的层次结构表示能力,能够捕捉实体之间的上下位关系和语义层次关系,这对于知识图谱的推理和推断任务非常有益。
(2)通过加入实体描述,本发明方法能够丰富实体的表示能力,提供更全面的语义信息,有助于缓解数据稀疏性问题,使得嵌入模型更好地处理缺失信息,还可以帮助嵌入模型更好地理解实体之间的语义关系,从而支持更复杂的推理能力。
(3)实体描述的内容可以根据具体应用场景进行设计和扩展,从而提高了知识图谱嵌入方法的适应性。
附图说明
图1为本发明提供的基于双曲空间的加入实体描述的知识图谱嵌入方法流程图。
图2为本发明提供的双曲嵌入模型示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本发明实施例提供了一种基于双曲空间的加入实体描述的知识图谱嵌入方法,如图1所示,包括以下步骤:
S1、构建知识图谱;
S2、构建知识图谱对应的加入实体描述的双曲嵌入模型;
其中,所述双曲嵌入模型包括词嵌入模型和图嵌入模型;
S3、在双曲空间中,利用词嵌入模型获得实体文本嵌入向量;
S4、对实体文本嵌入向量进行爱因斯坦中点池化处理;
S5、将池化处理后的实体文本嵌入向量作为图嵌入模型中实体的初始嵌入向量,对实体之间的关系嵌入向量进行随机初始化,获得Poincaré球模型中实体和关系的初始向量;
S6、根据实体和关系的初始向量,通过图嵌入模型将知识图谱的图结构嵌入到Poincaré球模型中,并利用得分函数和损失函数训练优化Poincaré球模型,实现知识图谱嵌入。
在本发明实施例的步骤S1中,构建的知识图谱表示为其中,ε为实体集合,/>为关系集合,/>为三元组集合,/>为实体描述文本集合;/>中的每个三元组具体表示形式为(ei,rj,ek),其中ei∈ε是三元组的头实体,ek∈ε是尾实体,/>是关系类型。对于每个实体ei∈ε都有一个描述文本/> 其中wi是词汇表中的单词。
一般情况下,知识图谱是不完整的,所以通过链接预测任务来优化图中的实体和关系的嵌入问题,并推理缺失部分,进行补全。在本实施例中,分别使用 表示实体ei∈ε和关系/>的双曲空间Poincaréball(庞加莱球)模型中的嵌入向量,其中d是嵌入空间的维数,c是曲率。通常,对每一个三元组通过得分函数学习到一个分数s=φ(ei,rj,ek),表示当前三元组的真实事实的预测强度,通过不断地学习,使正样本三元组/>的分数越来越高,负样本的分数越来越低。之后,将分数通过一个非线性函数转换成三元组为真的预测概率值/>
在本发明实施例的步骤S2中,构建的双曲嵌入模型HyEED的框架如图2所示,从整体结构来看,模型可以分为两个部分,词嵌入模型和图嵌入模型,其中,词嵌入模型的目的是在双曲空间的Poincaré球中获得实体描述的文本向量,图嵌入模型的目的是把知识图谱的图结构嵌入到Poincaré球中,使其更好的建模。在图2中,Einstein midpoint Pooling:爱因斯坦中点池化;Random Embedding:随机嵌入;Score:得分函数;Mission:ImpossibleIII is a 2006 American action spy film…和J.J.Abrams is an American film andtelevision producer…:表示实体描述文本;PoincaréGloVe:词嵌入模型。
在本发明实施例的步骤S2中,由于最终目的是把知识图谱嵌入到双曲空间的Poincaré球中,本实施例中的词嵌入模型为在Poincaré球模型中训练得到的Glove词嵌入模型(即PoincaréGlove模型);Glove是一个基于全局词频统计的词表征工具,它在欧几里得空间中,通过文本语料库中单词出现的统计来学习单词表示,目的是从几何角度捕获单词的含义和关系。
基于此,本实施例的步骤S3中,利用所述Glove词嵌入模型获得实体描述文本向量的方法具体为:
S31、在Poincaré球模型中训练Glove模型,获得在Poincaré球模型中的词嵌入向量;
S32、在双曲空间中,基于知识图谱中的实体描述,结合词嵌入向量,确定每个实体在Poincaré球模型中的实体文本嵌入向量。
具体地,在步骤S31中,为了获得在双曲空间中的词嵌入向量,在Poincaré球中,使用包含14亿英文句子的Wikipedia语料库训练Glove模型,然而,训练PoincaréGlove模型面临一个难点,就是在双曲空间中没有像欧式内积(inner-product)一样明确的函数定义,所以不可以直接使用如下式所示的Glove模型的损失函数:
将上面的原始Glove损失函数中的内积替换为Poincaré球当中的距离,从而得到训练Glove模型的损失函数为:
式中,为损失值,/>为词汇表大小,Xij为语料库中单词i和其上下文单词j在同一个窗口上下文出现的次数,f(·)为权重函数,/>为Poincaré球模型中的距离公式,wi为单词i的嵌入向量,/>为上下文单词j的嵌入向量,bi为单词i的偏置项,/>为上下文单词j的偏置项。
在步骤S32中,经过Glove模型的训练,就可以获得在Poincaré球中的词嵌入向量,对于知识图谱中给定实体ei∈ε的描述文本令/>表示实体描述文本中单词wi的嵌入向量,得到每个实体在Poincaré球模型中的实体文本嵌入向量为;
式中,为表示Poincaré球模型,i为单词序数。
在获得实体文本嵌入向量的基础上,对于实体之间的关系的嵌入向量采用随机初始化,到此,获得双曲空间中Poincaré球中实体的文本向量及关系的向量。但是,对于实体的文本向量不可以直接作为图嵌入模型中实体的初始向量,需要对它进一步处理,本实施例中使用池化技术对词嵌入模型的输出进行降维,转换为适合图嵌入模型的输入形式。
基于此,本发明实施例的步骤S4具体为:
S41、将Poincaré球模型中的实体文本嵌入向量投影到Klein模型中,计算爱因斯坦中点;
S42、基于Poincaré球模型和Klein模型之间的转换公式,将爱因斯坦中点投影回到Poincaré球模型中;
S43、根据Poincaré球模型中的爱因斯坦中点,计算实体文本嵌入向量的加权平均值,得到池化处理后的实体文本嵌入向量。
在上述步骤S42中,Poincaré球模型和Klein模型之间的转换公式为:
式中,和/>分别表为Poincaré球模型和Klein模型中的嵌入向量,/>和/>分别为Poincaré球模型和Klein模型中的爱因斯坦中点池化向量,c为曲率。
在上述步骤S43中,池化处理后的实体文本嵌入向量的计算公式为:
式中,为实体文本在Klein模型中的爱因斯坦中点池化向量,即池化处理后的实体文本嵌入向量,/>为克莱因因子,xi为实体文本嵌入向量,/>为Klein模型。
具体地,在自然语言处理(NLP)中平均池化(average pooling)可以对输入数据进行降采样,从而减少模型的参数数量和计算成本;在欧式空间中,平均池化为如下:
由于本实施例时在双曲空间中进行嵌入,所以为了将平均池化扩展到双曲空间,采用了一种称为爱因斯坦中点(Einstein midpoint)的加权中点方法。在d维的克莱因(klein)模型里,通过爱因斯坦中点获得嵌入向量的进行加权平均值的计算,但是,本实施例使用嵌入空间中的Poincaré球模型,而不是克莱因(Klein)模型,所以不可以直接使用上面的公式计算爱因斯坦中点,由于其是同构等价的,因此可以先将实体描述文本向量投影到Klein模型,计算爱因斯坦中点,然后再根据两个模型之间的转换公式将结果投影回Poincaré模型。
经过爱因斯坦中点池化处理的实体文本嵌入向量,就可以作为图嵌入模型中实体的初始向量;然而,在其他诸多知识图谱嵌入模型中,实体的初始向量,一般采用随机初始化,爱因斯坦中点池化技术正是本实施例解决如何链接和结合实体描述文本信息和图嵌入信息的关键点。
在本发明实施例的步骤S6中,得分函数为:
式中,ei为头实体,Rj为关系,Ek为尾实体,为Poincaré球模型中的距离函数,/>为头实体通过特定关系转换后的嵌入向量,/>为尾实体通过特定关系转换后的嵌入向量,r为对角关系矩阵,hi为头实体的双曲嵌入,hk为尾实体的双曲嵌入,/>为莫比斯加法,rH为关系rj的双曲平移向量,bi为头实体的偏置项,bk为尾实体的偏置项,其中,hi,/> 为Poincaré球模型。
具体地,根据上述得分函数计算每个三元组为真的概率的过程为:
首先把通过/>投影到Poincaré球中0点的切线空间,然后乘于对角关系矩阵/>最后通过/>投影回Poincaré球中。/>由/>和之间通过莫比乌斯加法计算所得,在获得分数之后,通过logistic sigmoid函数计算每个三元组为真的概率,即/>
在本发明实施的步骤S6中,在训练Poincaré球模型过程中,在数据集方面,使用数据增强技术为每一个三元组生成一个反三元组/>这样训练数据翻一倍。在训练模型时,为每一个正三元组(Ei,rj,Ek)生成k个负三元组(negativesamples)/>或者/> éi和ék是随机从实体集合ε中选择的,其中,训练所述Poincaré球模型的损失函数为:
式中,是预测概率值,/>是正样本或负样本的二进制标签,/>为第i个概率预测值,/>为第i个正样本或负样本的二进制标签。
在本发明实施例的步骤S6中,在Poincaré球模型优化过程中,使用黎曼随机梯度下降(RSGD)进行优化,为了计算黎曼梯度需要将欧几里得梯度/>乘以庞加莱(Poincaré)度量张量的逆,即/>
更新梯度时,由于是在双曲空间中嵌入,所以没有直接使用欧几里德梯度更新步骤而是使用真实黎曼更新的一阶近似。具体步骤是通过/>指数操作将黎曼梯度/>投影到庞加莱球上对应的测地线,这里测地线表示双曲空间中两点的最短路径,然后根据下式更新黎曼梯度:
式中,η为学习率。
本发明实施例提出的加入实体描述文本的知识图谱嵌入方法,在双曲空间中,使用PoincaréGlove模型从实体描述文本中提取可以补充图结构的丰富语义信息,再通过爱因斯坦中点池化方法实现文本信息与图结构信息的融合。相比当前基线模型,本发明模型在知识图谱链接预测任务上取得了更好的性能,同时,在双曲空间中,加入实体描述信息确实能改进图嵌入方法的性能,对于分层结构不明显的知识图谱数据,通过加入实体描述数据,依然能弥补在双曲空间中嵌入非层次数据带来的缺点,降低其负面影响。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,包括以下步骤:
S1、构建知识图谱;
S2、构建知识图谱对应的加入实体描述的双曲嵌入模型;
其中,所述双曲嵌入模型包括词嵌入模型和图嵌入模型;
S3、在双曲空间中,利用词嵌入模型获得实体文本嵌入向量;
S4、对实体文本嵌入向量进行爱因斯坦中点池化处理;
S5、将池化处理后的实体文本嵌入向量作为图嵌入模型中实体的初始嵌入向量,对实体之间的关系嵌入向量进行随机初始化,获得Poincaré球模型中实体和关系的初始向量;
S6、根据实体和关系的初始向量,通过图嵌入模型将知识图谱的图结构嵌入到Poincaré球模型中,并利用得分函数和损失函数训练优化Poincaré球模型,实现知识图谱嵌入。
2.根据权利要求1所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S2中,所述词嵌入模型为在Poincaré球模型中训练得到的Glove词嵌入模型;
利用所述Glove词嵌入模型获得实体描述文本向量的方法具体为:
S31、在Poincaré球模型中训练Glove模型,获得在Poincaré球模型中的词嵌入向量;
S32、在双曲空间中,基于知识图谱中的实体描述,结合词嵌入向量,确定每个实体在Poincaré球模型中的实体文本嵌入向量。
3.根据权利要求2所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S31中,训练所述Glove模型的损失函数为:
式中,为损失值,/>为词汇表大小,Xij为语料库中单词i和其上下文单词j在同一个窗口上下文出现的次数,f(·)为权重函数,/>为/>球模型中的距离公式,wi为单词i的嵌入向量,/>为上下文单词j的嵌入向量,bi为单词i的偏置项,/>为上下文单词j的偏置项。
4.根据权利要求3所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S32中,对于知识图谱中给定实体ei∈ε的描述文本令/>表示实体描述文本中单词wi的嵌入向量,得到每个实体在Poincaré球模型中的实体文本嵌入向量/>为;
式中,为表示Poincaré球模型,i为单词序数。
5.根据权利要求2所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S4具体为:
S41、将Poincaré球模型中的实体文本嵌入向量投影到Klein模型中,计算爱因斯坦中点;
S42、基于Poincaré球模型和Klein模型之间的转换公式,将爱因斯坦中点投影回到Poincaré球模型中;
S43、根据Poincaré球模型中的爱因斯坦中点,计算实体文本嵌入向量的加权平均值,得到池化处理后的实体文本嵌入向量。
6.根据权利要求5所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S42中,Poincaré球模型和Klein模型之间的转换公式为:
式中,和/>分别表为Poincaré球模型和Klein模型中的嵌入向量,/>和/>分别为Poincaré球模型和Klein模型中的爱因斯坦中点池化向量,c为曲率。
7.根据权利要求5所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S43中,池化处理后的实体文本嵌入向量的计算公式为:
式中,为实体文本在Klein模型中的爱因斯坦中点池化向量,即池化处理后的实体文本嵌入向量,/>为克莱因因子,xi为实体文本嵌入向量,/>为Klein模型。
8.根据权利要求5所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S6中,得分函数为:
式中,ei为头实体,rj为关系,ek为尾实体,为Poincaré球模型中的距离函数,/>为头实体通过特定关系转换后的嵌入向量,/>为尾实体通过特定关系转换后的嵌入向量,R为对角关系矩阵,hi为头实体的双曲嵌入,hk为尾实体的双曲嵌入,/>为莫比斯加法,rh为关系rj的双曲平移向量,bi为头实体的偏置项,bI为尾实体的偏置项,其中,hi,/> 为Poincaré球模型。
9.根据权利要求5所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S6中,训练所述Poincaré球模型的损失函数为:
式中,是预测概率值,/>是正样本或负样本的二进制标签,/>为第i个概率预测值,为第i个正样本或负样本的二进制标签。
10.根据权利要求5所述的基于双曲空间的加入实体描述的知识图谱嵌入方法,其特征在于,所述步骤S6中,对于所述Poincaré球模型,使用黎曼随机梯度下降进行优化,其中黎曼梯度的更新公式为:
式中,η为学习率,为欧几里得梯度乘以庞加莱度量张量的逆。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311018507.5A CN116992049A (zh) | 2023-08-11 | 2023-08-11 | 一种基于双曲空间的加入实体描述的知识图谱嵌入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311018507.5A CN116992049A (zh) | 2023-08-11 | 2023-08-11 | 一种基于双曲空间的加入实体描述的知识图谱嵌入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116992049A true CN116992049A (zh) | 2023-11-03 |
Family
ID=88521214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311018507.5A Pending CN116992049A (zh) | 2023-08-11 | 2023-08-11 | 一种基于双曲空间的加入实体描述的知识图谱嵌入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992049A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808089A (zh) * | 2024-02-29 | 2024-04-02 | 山东大学 | 一种基于双空间信息聚合的知识图谱推荐方法及系统 |
-
2023
- 2023-08-11 CN CN202311018507.5A patent/CN116992049A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808089A (zh) * | 2024-02-29 | 2024-04-02 | 山东大学 | 一种基于双空间信息聚合的知识图谱推荐方法及系统 |
CN117808089B (zh) * | 2024-02-29 | 2024-06-11 | 山东大学 | 一种基于双空间信息聚合的知识图谱推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN106547735B (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN107729311B (zh) | 一种融合文本语气的中文文本特征提取方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN108363743A (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
Cao et al. | Vision-enhanced and consensus-aware transformer for image captioning | |
CN112488055B (zh) | 一种基于渐进图注意力网络的视频问答方法 | |
CN112905762B (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113312919A (zh) | 一种知识图谱的文本生成方法及装置 | |
CN116992049A (zh) | 一种基于双曲空间的加入实体描述的知识图谱嵌入方法 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN112528989A (zh) | 一种图像语义细粒度的描述生成方法 | |
CN114579741B (zh) | 融合句法信息的gcn-rn方面级情感分析方法和系统 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
CN114254108B (zh) | 一种中文文本对抗样本生成的方法、系统及介质 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
CN116486193A (zh) | 基于内容感知及自蒸馏结构的自监督算法训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |