CN114020923A - 基于无监督类型约束的上下文感知知识补全方法及系统 - Google Patents

基于无监督类型约束的上下文感知知识补全方法及系统 Download PDF

Info

Publication number
CN114020923A
CN114020923A CN202111158961.1A CN202111158961A CN114020923A CN 114020923 A CN114020923 A CN 114020923A CN 202111158961 A CN202111158961 A CN 202111158961A CN 114020923 A CN114020923 A CN 114020923A
Authority
CN
China
Prior art keywords
entity
neighbor
quadruple
representation
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111158961.1A
Other languages
English (en)
Inventor
汪璟玢
赖晓连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202111158961.1A priority Critical patent/CN114020923A/zh
Publication of CN114020923A publication Critical patent/CN114020923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于无监督类型约束的上下文感知知识补全方法及系统,该方法构建基于无监督类型约束的上下文感知模型,首先,通过设定时间粒度,对数据集预处理,以使数据在时间分布上均衡;其次,在四元组结构模块中,通过邻居编码器聚合实体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间,四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息进一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元组类型模块的得分按照设定的权重聚合,获得四元组的最终得分。该方法及系统提高了实体嵌入的质量,提升了模型在知识补全任务上的性能。

Description

基于无监督类型约束的上下文感知知识补全方法及系统
技术领域
本发明属于知识图谱领域,具体涉及一种基于无监督类型约束的上下文感知知识补 全方法及系统。
背景技术
知识表示学习是一种有效且可靠的知识补全技术,这几年来,有关知识图谱的表示 学习方法层出不穷。ComplEx将三元组嵌入到复数空间中,能够建模对称/反对称、自 反两种关系模型,在静态知识图谱补全任务上取得了一定的成效。AutoETER将四元组 嵌入到实数空间中,自动学习实体的类型嵌入,丰富了实体的一般特征,此外,它还可 以推断和建模所有对称/反对称、自反和组合三种关系模式,以及复杂的一对多、多对一 和多对多关系。CompGCN利用GCN聚合实体的邻居信息,增强了实体的嵌入表示, 该模型还通过设置基向量解决了过度参数化的问题。上述模型都建立在静态知识图谱上, 在静态知识图谱补全任务上表现良好,但由于没有考虑时间信息,在时间知识图谱补全 任务上性能不佳。
近年来,许多工作努力将静态知识图谱补全模型扩展到时间知识图谱中。比如,HyTE为每个时间戳定义了一个时间超平面,并将实体和关系投影到时间超平面中,然 后对投影的嵌入应用TransE以获得四元组的得分。
Figure BDA0003289406550000011
等人将时间戳划 分为token序列,与关系一并输入到LSTM中,以获得不同时间下的关系表示,获得的 关系表示可以应用于多个模型中,Jain等人将该方法应用于ComplEx中,得到了 TA-ComplEx模型。受历时词的启发,Goel等人将时间信息整合到实体嵌入中,提出了 DE-SimplE模型。DE-SimplE认为实体嵌入中可能有一些随时间变化的特性和一些保持 固定的特性,因此设置了用以控制时间特征百分比的超参数γ∈[0,1],在时间知识图谱 补全任务中取得了显著的效果。TeRo将实体嵌入的时间演化定义为实体在复数空间中 从初始时间到当前时间的旋转,模型结合了RotatE的优势,可以建模实体间的复杂关系 (如自反关系)。此外,TeRo采用时间粒度合并部分时间戳,可以缓解数据集在时间 上分布不均衡问题。受四阶张量分解启发,Lacroix等人将四元组嵌入到复数空间中, 提出了TNT-ComplEx模型,该模型通过四元组的内积操作得到四元组的得分,得分函 数定义为
Figure BDA0003289406550000012
Jain等人提出的TIMEPLEX根据时间的特有性质,定 义了三种类型的时间约束:关系的重复性、关系间的顺序、关系间的时间间隔。其中, 关系的重复性即许多关系对于特定实体不会重复出现(例如,一个人只出生一次),有 些关系在固定周期内重复(例如,奥运会每四年出现一次)。关系间的顺序是指对于一 个给定的实体,一个关系先于另一个关系。比如,PersonBornYear应在给定实体的 PersonDiedYear之前。关系间的时间间隔是指对于一个给定的实体,两个关系间的时间 差值分布在一个平均值周围,例如,PersonDiedYear减去PersonBornYear的平均值约为 70。TIMEPLEX在没有额外时间约束输入的情况下,使用高斯分布建模这三种时间约束, 在时间知识图谱补全任务中表现出了良好的性能。上述时间知识图谱补全模型,虽然在 时间知识图谱补全任务中取得了一定的成效,但都忽略了实体隐含的潜在信息,如类型 信息和邻居信息,在时间知识图谱补全任务中具有一定的局限性。
现实世界中,数据在不同时间段的不均衡分布是一个普遍的现象。类似的,在现有的时间知识图谱中,也存在严重的数据分布不均衡问题,如YAGO11k和Wikidata12k (见下图1所示)。从图中可以看出,这两个数据集在各个时间段的分布呈长尾特性, 数据不均衡问题非常严重,如果直接训练,在数据量较多的时间段,模型训练容易欠拟 合,对这类实例的预测将会变得很困难;在仅有少量实例的时间段,模型训练容易过拟 合,因此模型训练无法达到一个较好的平衡点,导致模型在补全任务上的效果不佳。此 外,YAGO11k和Wikidata12k还存在大量时间戳缺失的问题,也是降低模型补全性能 的一个因素。
TeRo通过设置时间粒度将出现频率低的时间戳合并为一个时间,能够在一定程度上缓解数据的不均衡分布问题。但是TeRo仅使用时间戳中的年份信息,容易导致合并 不合理的问题。比如,对于实体e,在时间戳为t1=2005-01-05、t2=2005-12-12和 t3=2006-02-01时,我们期望它在t2时的嵌入表示应该与t3时的嵌入表示更为接近,与t1时 的嵌入表示应差别较大。对于这种情况,TeRo仅使用年份信息的方式是无法满足的, 因为TeRo会将t1和t2当成同一个时间点(即2005),实体在t1和t2下具有相同的嵌入表 示。此外,YAGO11k中的一些时间戳包含了完整的年月日信息,如果丢弃月和日信息 容易导致重要信息的丢失。
在知识图谱中,实体除了自身的结构信息外,还蕴含着丰富的潜在信息,比如实体的上下文信息(邻居信息)和类型信息。实体的邻居信息是知识图谱中的重要信息,对 邻居信息的合理利用,可以提高实体嵌入的质量,从而提升模型性能。如下图2所示, 当预测(A,Make avisit,?,1987)时,根据实体A的邻居信息,A应该有较大的概 率访问B,而不太可能访问C。现有模型中融合了邻居信息的有CompGCN、RE-Net、 CyGNet等,在补全任务中表现出了良好的性能。直觉上,实体邻居的重要性应与时间 距离成反比,比如图2中的(A,Make avisit,C,1902)对预测(A,Make a visit,?, 1987)起到的作用应该很小。但CompGCN建立在静态知识图谱中,在聚合邻居信息时, 会为(A,Make a visit,C,1902)和(A,Threaten,C,1987)分配统一的权重,导致 模型得到错误的答案。RE-Net和CyGNet虽然建立在时间知识图谱上,但它们旨在通过 过去的知识推断未来未知的知识,因此不过多赘述。
实体的类型信息定义了实体的类别,可以显著地改进实体嵌入表示并提高预测精度。 对于一个实体“Apple”,如果仅靠实体自身的结构信息,我们无法判断“Apple”是水 果还是Apple公司。但是如果实体的类型信息表明这是一个水果,那么我们就可以很明 确地知道“Apple”指的是苹果。现有的一些利用实体类型信息的模型,如TKRL和TransT, 需要显式的实体类型输入,对没有显式提供实体类型信息的知识图谱的补全任务具有一 定的局限性。AutoETER能够自动编码实体类型信息,但是它建立在静态知识图谱上, 忽视了事实的动态性。实体的类型信息应受关系和时间的共同影响,比如,对于实体“鲁 迅”,当相连的关系为“写作”时,他的实体类型是“作家”。但鲁迅1906年弃医从 文,因此在1906年前他的实体类型就不可能是“作家”,即1906年前,鲁迅与关系“写 作”构成的四元组都是错误的。
发明内容
本发明的目的在于提供一种基于无监督类型约束的上下文感知知识补全方法及系 统,该方法及系统提高了实体嵌入的质量,提升了模型在知识补全任务上的性能。
为实现上述目的,本发明采用的技术方案是:一种基于无监督类型约束的上下文感 知知识补全方法,构建包括自适应时间粒度聚合模块、四元组结构模块和四元组类型模块的基于无监督类型约束的上下文感知模型,首先,通过设定时间粒度,对数据集预处 理,以使数据在时间分布上均衡;其次,在四元组结构模块中,通过邻居编码器聚合实 体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间, 所述四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息 进一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元 组类型模块的得分按照设定的权重聚合,获得四元组的最终得分。
进一步地,所述上下文感知模型设置一个超参数:时间粒度thre,通过时间粒度,出现频率低的时间戳被合并成一个时间戳,而出现频率高的时间戳则形成单独的时间戳,以使数据在时间分布上尽可能的均衡;所述自适应时间粒度聚合模块的工作流程为:
首先计算数据集中每个时间戳下的四元组数量num[t],t;其次,将时间戳按时 间先后顺序排序;然后,根据时间粒度thre合并时间戳,当满足以下条件时,t1,t2,……,ti被合并为同一时间τ:
Figure BDA0003289406550000041
经过上述步骤,四元组(s,r,o,t)变为(s,r,o,τ),(s,r,o,T=[tb,te])变为 (s,r,o,T=[τbe]);对于(s,r,o,T=[τbe]),通过枚举操作,将其映射为时间点形式的 四元组。
进一步地,将自适应时间粒度聚合模块处理后的四元组(s,r,o,τ)输入到四元组结构 模块中,经过初始化嵌入模块,获得头实体s、尾实体o、关系r和时间τ在复数空间的初始向量表示es,eo,r,
Figure BDA0003289406550000042
为了捕获实体的邻域信息,将es,eo,r,τ输入到邻居 编码器中,获得头尾实体聚合邻居后的增强表示es,eo;然后通过四元组评分模块获得 四元组结构得分fstru
进一步地,所述邻居编码器包括三部分:(1)基于实体语义匹配的邻居采样:从实体邻居集合中选取固定数量的邻居;(2)邻居聚合器:将采样后的邻居按照一定的方式 聚合,获得实体e的邻居表示enei;(3)融合:将实体e的自身结构表示ee与邻居表示enei融合,得到最终的实体表示e′e
进一步地,所述基于实体语义匹配的邻居采样按如下方法实现:
首先,对实体名称预处理,去除实体名称中包含的停顿词以及特殊符号;
然后,利用word2vec预训练的词向量对实体名称编码,将实体名称嵌入namee定义为:
Figure BDA0003289406550000043
其中wordi表示实体名称中第i个单词经过word2vec预训练后的嵌入,K表示实体名称中单词的数量;
最后,计算实体e的名称嵌入与邻居实体名称嵌入的余弦相似度,选取出与实体e相似度最高的前n个邻居实体,获得最终的实体邻居集合Ne={(r0,e00),(r2,e22),……}, |Ne|=n;
所述邻居聚合器按如下方法实现:
所述邻居聚合器采用基于LSTM的邻居聚合器和基于注意力机制的邻居聚合器聚合实体的邻居信息;
在基于LSTM的邻居聚合器中,将Ne中的实体按照时间先后顺序输入到LSTM中, 得到实体e的邻居表示enei
enei=LSTM(x),x={e2,e0,……}
其中{e2,e0,……}是按照时间先后顺序排序后的邻居实体嵌入集合,|x|=n;
在基于注意力机制的邻居聚合器中,计算每个邻居对实体e的重要程度:
Figure BDA0003289406550000051
Figure BDA0003289406550000052
其中Ne是实体e的邻居集合,ee是实体e的嵌入表示,ee[k]表示ee的第k个元素,
Figure BDA0003289406550000053
是ei的共轭表示,Re(·)表示取实部;
根据上述公式得到每个邻居的权重后,将邻居按权聚合,最终得到实体邻居表示enei
Figure BDA0003289406550000054
所述融合按如下方法实现:
获得实体的邻居表示enei后,将其与实体自身结构表示ee融合,包括加法融合、乘法融合和门控融合三种融合方式;
所述加法融合将实体自身结构表示与邻居表示简单相加,实体最终表示定义为:
Figure BDA0003289406550000055
所述乘法融合将实体自身结构表示与邻居表示相乘,实体最终表示定义为:
Figure BDA0003289406550000061
所述门控融合为实体筛选出重要信息,实体最终表示定义为:
Figure BDA0003289406550000062
其中γ∈[0,1]是门控因子。
进一步地,在利用邻居编码器获得头尾实体的增强表示e′s和e′o后,采用评分函数来 评估四元组(s,r,o,τ)成立的概率;所述四元组中的关系表现出特有的时间约束,所述时 间约束包括(a)关系的重复性、(b)关系间的顺序和(c)关系间的时间间隔;为了捕获所述 时间约束,采用评分函数对四元组进行评分,所述评分函数定义如下:
fstru(s,r,o,τ)=TIMEPLEX(s,r,o,τ)
=fTX(s,r,o,τ)+κfPair(s,r,o,τ)+λfRec(s,r,o,τ)
Figure BDA0003289406550000063
其中,fTX(s,r,o,τ)是四元组(s,r,o,τ)的得分,r
Figure BDA0003289406550000064
是特定于关系r的嵌入 表示;
Figure BDA0003289406550000065
κ,λ,a,b,c均为超参数;fRec(s,r,o,τ)是时间 约束(a)的得分,fPair(s,r,o,τ)是时间约束(b)和时间约束(c)的得分。
进一步地,在四元组类型模块中,将四元组(s,r,o,τ)嵌入到实数空间中,获得头实 体s、尾实体o、关系r和时间τ在类型模块中的初始嵌入cs,co,cr
Figure BDA0003289406550000066
定义四 元组关于实体类型的得分为:
Figure BDA0003289406550000067
其中,η,μ是权重因子,cs[k]表示cs的第k个元素。
进一步地,将四元组结构模块的得分fstru(s,r,o,τ)与四元组类型模块的得分ftype(s,r,o,τ)按照设定的权重相加作为四元组(s,r,o,τ)的最终得分,具体定义如下:
ffinal(s,r,o,τ)=afstru(s,r,o,τ)+βftype(s,r,o,τ)
其中,α和β是权重因子。
进一步地,采用对数似然损失函数训练所述上下文感知模型,损失函数定义如下:
Figure BDA0003289406550000071
其中,G是正确四元组的集合;Pr(o|s,r,τ)是尾实体预测时,实体o的概率,计算公式如下所示:
Figure BDA0003289406550000072
其中,
Figure BDA0003289406550000073
是经过随机替换尾实体和过滤操作的四元组集合;
同理,得到Pr(s|o,r,τ)和Pr(τ|s,r,o)。
本发明还提供了一种基于无监督类型约束的上下文感知知识补全系统,包括存储器、 处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计 算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:
1、现有使用时间粒度的知识表示学习方法仅使用了时间戳中的年份信息,容易导致时间戳合并不合理的问题,而且丢弃月和日信息容易造成重要信息的丢失。而本发明 充分利用了时间戳中的完整信息,模型能够以更细粒度的方式合并时间戳,合并方式更 为合理;此外,更为准确的时间信息也使得模型能够实现更精准的预测。
2、与现有融合了邻居信息的知识表示学习模型相比,本发明考虑了实体邻居的时间信息,在聚合邻居信息时,能够根据邻居在时间上的远近筛选出重要信息,为模型捕 获有效信息。
3、现有利用实体类型信息的模型都建立在静态知识图谱上,忽略了事实的动态性。 而本发明能够在特定的关系和时间下,学习实体在类型约束下的嵌入,且不需要显式类 型输入,提高了模型的普适性。此外,本发明同时考虑了实体的邻居信息和类型信息,两者相辅相成,显著提高了实体嵌入的质量,提升了模型在知识补全任务上的性能。
附图说明
图1是现有技术中YAGO11k和Wikidata12k在各个时间段的数据分布图。
图2是现有技术中实体邻居信息图。
图3是本发明实施例中基于无监督类型约束的上下文感知模型的总体框架图。
图4是本发明实施例中邻居编码器的结构示意图。
图5是本发明实施例中融合方式示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据 本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和 /或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供了一种基于无监督类型约束的上下文感知知识补全方法,构建包括自 适应时间粒度聚合模块、四元组结构模块和四元组类型模块的基于无监督类型约束的上 下文感知模型(Context-Aware model for Unsupervised Type constraints,CAUT):首先, 通过设定时间粒度,对数据集预处理,以使数据在时间分布上尽可能的均衡,解决数据 长尾分布为模型带来的问题;其次,在四元组结构模块中,通过邻居编码器聚合实体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间,所 述四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息进 一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元组 类型模块的得分按照设定的权重聚合,获得四元组的最终得分。
CAUT模型的主要思想:一是针对一些数据集在时间上呈现长尾分布导致模型性能不佳的问题,使用时间粒度合并时间戳,使模型分布尽可能均衡。二是使用实体潜在的 邻居信息和类型信息来增强实体的嵌入表示,进而改建模型补全性能。
CAUT模型的整体结构如图3所示。首先,为了解决某些数据集在时间分布上不均衡导致模型性能不佳的问题,本发明引入了自适应时间粒度聚合模块;其次,为了充分利 用实体邻居信息,在四元组结构模块中借助邻居编码器,获得头尾实体聚合邻居后的增 强表示es,eo;此外,本发明还引入了四元组类型模块,在没有额外类型输入的情况下, 获得类型约束下四元组得分ftype。最后,将四元组结构模块的得分fstru与四元组类型模 块的得分ftype按照一定的权重聚合,获得四元组的最终得分ffinal
以下给出本发明的相关定义。
定义3-1(时间知识图谱,G)
Figure BDA0003289406550000091
其中E是实体的集合,R是关系的 集合,
Figure BDA0003289406550000092
是时间戳的集合,F为知识的集合。
定义3-2(四元组,quaternion)四元组有(s,r,o,t)和(s,r,o,T=[tb,te])两种形式。其 中s,o∈E表示头实体和尾实体,r∈R表示关系,t是形如“2021-11-12”的时间戳,T表示时间区间,tb,te分别是开始时间和结束时间。一个四元组也称为一个事实或一 个知识。
定义3-3(实体嵌入表示)es
Figure BDA0003289406550000093
表示头实体s和尾实体o在复数空间中的嵌入,dc是复数空间的嵌入维度。cs
Figure BDA0003289406550000094
表示头实体s和尾实体o在实数空间中的嵌 入,d是实数空间的嵌入维度。
定义3-4(关系嵌入表示)本发明关系涉及两种嵌入表示:关系r在复数空间中的嵌入表示
Figure BDA0003289406550000095
关系r在实数空间中的嵌入表示
Figure BDA0003289406550000096
定义3-5(时间嵌入表示)时间戳t经过时间粒度聚合模块处理后得到的时间τ涉及两种嵌入表示:
Figure BDA0003289406550000097
表示时间τ在复数空间中的嵌入表示,
Figure BDA0003289406550000098
表示时间τ在实数 空间中的嵌入表示。
1、自适应时间粒度聚合模块
本发明针对一些数据集在时间上分布不均衡的情况,为所述上下文感知模型设置一 个超参数:时间粒度thre。通过时间粒度,出现频率低的时间戳被合并成一个时间戳,而出现频率高的时间戳则形成单独的时间戳,以使数据在时间分布上尽可能的均衡;所 述自适应时间粒度聚合模块的工作流程为:
首先计算数据集中每个时间戳下的四元组数量num[t],t;其次,将时间戳按时 间先后顺序排序;然后,根据时间粒度thre合并时间戳,当满足以下条件时,t1,t2,……,ti被合并为同一时间τ:
Figure BDA0003289406550000099
经过上述步骤,四元组(s,r,o,t)变为(s,r,o,τ),(s,r,o,T=[tb,te])变为(s,r,o,T=[τbe]);对于(s,r,o,T=[τbe]),通过枚举操作,将其映射为时间点形式的 四元组。比如(s,r,o,T=[τ03])被映射为(s,r,o,τ0),(s,r,o,τ1),(s,r,o,τ2)和(s,r,o,τ3)。
2、四元组结构模块
将自适应时间粒度聚合模块处理后的四元组(s,r,o,τ)输入到四元组结构模块中,经 过初始化嵌入模块,获得头实体s、尾实体o、关系r和时间τ在复数空间的初始向量表示es,eo,r,
Figure BDA0003289406550000101
为了捕获实体的邻域信息,将es,eo,r,τ输入到邻居编码器中, 获得头尾实体聚合邻居后的增强表示es,eo;然后通过四元组评分模块获得四元组结构 得分fstru
1)邻居编码器
如图4所示,所述邻居编码器可以划分为三部分:(1)基于实体语义匹配的邻居采样:从实体邻居集合中选取固定数量的邻居;(2)邻居聚合器:将采样后的邻居按照一 定的方式聚合,获得实体e的邻居表示enei;(3)融合:将实体e的自身结构表示ee与 邻居表示enei融合,得到最终的实体表示e′e
(1)基于实体语义匹配的邻居采样
所述基于实体语义匹配的邻居采样按如下方法实现:
首先,对实体名称预处理,去除实体名称中包含的停顿词以及“(”、“!”,“-”等特殊符号。
然后,利用word2vec预训练的词向量对实体名称编码,因为实体名称可能由多个单 词组成,将实体名称嵌入namee定义为:
Figure BDA0003289406550000102
其中wordi表示实体名称中第i个单词经过word2vec预训练后的嵌入,K表示实体名称中单词的数量。
最后,计算实体e的名称嵌入与邻居实体名称嵌入的余弦相似度,选取出与实体e相似度最高的前n个邻居实体,获得最终的实体邻居集合Ne={(r0,e00),(r2,e22),……}, |Ne|=n。
(2)邻居聚合器
本发明采用两种时间聚合器聚合实体的邻居信息:基于LSTM的邻居聚合器和基于注意力机制的邻居聚合器。
①基于LSTM的邻居聚合器
鉴于LSTM在处理长序列数据时表现出了良好的性能,本发明将Ne中的实体按照时间先后顺序输入到LSTM中,得到实体e的邻居表示enei
enei=LSTM(x),x={e2,e0,……}
其中{e2,e0,……}是按照时间先后顺序排序后的邻居实体嵌入集合,|x|=n。
②基于注意力机制的邻居聚合器
考虑到每个邻居对实体e具有不同的重要性,如果不加以区分地聚合,容易引入无用信息,导致模型性能下降。因此,本发明引入注意力机制加权聚合邻居信息。
首先,计算每个邻居对实体e的重要程度:
Figure BDA0003289406550000111
Figure BDA0003289406550000112
其中Ne是实体e的邻居集合,ee是实体e的嵌入表示,ee[k]表示ee的第k个元素,
Figure BDA0003289406550000113
是ei的共轭表示,Re(·)表示取实部。
根据上述公式得到每个邻居的权重后,将邻居按权聚合,最终得到实体邻居表示enei
Figure BDA0003289406550000114
(3)融合
获得实体的邻居表示enei后,将其与实体自身结构表示ee融合,包括加法融合、乘法融合和门控融合三种融合方式。
所述加法融合将实体自身结构表示与邻居表示简单相加,如图5(a)所示,实体最终 表示定义为:
Figure BDA0003289406550000115
所述乘法融合将实体自身结构表示与邻居表示相乘,如图5(b)所示,实体最终表示 定义为:
Figure BDA0003289406550000121
上述两种方式平等地对待实体结构信息与邻居信息,容易引入邻居信息中无效的信 息,降低模型性能。因此本发明采用门控机制为实体筛选出重要信息,如图5(c)所示。实体最终表示定义为:
Figure BDA0003289406550000122
其中γ∈[0,1]是门控因子。
2)四元组评分
在利用邻居编码器获得头尾实体的增强表示e′s和e′o后,采用评分函数来评估四元组 (s,r,o,τ)成立的概率;所述四元组中的关系表现出特有的时间约束,比如(a)关系的重复 性、(b)关系间的顺序和(c)关系间的时间间隔。为了捕获所述时间约束,本发明采用评分 函数对四元组进行评分,所述评分函数定义如下:
fstru(s,r,o,τ)=TIMEPLEX(s,r,o,τ)
=fTX(s,r,o,τ)+κfPair(s,r,o,τ)+λfRec(s,r,o,τ)
Figure BDA0003289406550000123
其中,fTX(s,r,o,τ)是四元组(s,r,o,τ)的得分,r
Figure BDA0003289406550000124
是特定于关系r的嵌入 表示;
Figure BDA0003289406550000125
κ,λ,a,b,c均为超参数;fRec(s,r,o,τ)是时间 约束(a)的得分,fPair(s,r,o,τ)是时间约束(b)和时间约束(c)的得分。
3、四元组类型模块
对于四元组(s,r,o,τ),本发明的目标是在特定关系和时间下,学习实体在类型约束 下的嵌入。将四元组(s,r,o,τ)嵌入到实数空间中,获得头实体s、尾实体o、关系r和时间τ在类型模块中的初始嵌入cs,co,cr
Figure BDA0003289406550000126
考虑到一些实体类型也受时间影响, 因此,本发明定义四元组关于实体类型的得分为:
Figure BDA0003289406550000127
其中,η,μ是权重因子,cs[k]表示cs的第k个元素。
4、模型最终评分
将四元组结构模块的得分fstru(s,r,o,τ)与四元组类型模块的得分ftype(s,r,o,τ)按照 设定的权重相加作为四元组(s,r,o,τ)的最终得分,具体定义如下:
ffinal(s,r,o,τ)=αfstru(s,r,o,τ)+βftype(s,r,o,τ)
其中,α和β是权重因子。
5、模型优化
本发明采用对数似然损失函数训练所述上下文感知模型,损失函数定义如下:
Figure BDA0003289406550000131
其中,G是正确四元组的集合;Pr(o|s,r,τ)是尾实体预测时,实体o的概率,计算公式如下所示:
Figure BDA0003289406550000132
其中,
Figure BDA0003289406550000133
是经过随机替换尾实体和过滤操作的四元组集合;
同理,得到Pr(s|o,r,τ)和Pr(τ|s,r,o)。
本发明还提供了用于实现上述方法的上下文感知知识补全系统,包括存储器、处理 器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机 程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面 的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的 计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的 计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每 一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些 计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备 的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定 方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算 机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的 等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施 例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (10)

1.一种基于无监督类型约束的上下文感知知识补全方法,其特征在于,构建包括自适应时间粒度聚合模块、四元组结构模块和四元组类型模块的基于无监督类型约束的上下文感知模型,首先,通过设定时间粒度,对数据集预处理,以使数据在时间分布上均衡;其次,在四元组结构模块中,通过邻居编码器聚合实体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间,所述四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息进一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元组类型模块的得分按照设定的权重聚合,获得四元组的最终得分。
2.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,所述上下文感知模型设置一个超参数:时间粒度thre,通过时间粒度,出现频率低的时间戳被合并成一个时间戳,而出现频率高的时间戳则形成单独的时间戳,以使数据在时间分布上尽可能的均衡;所述自适应时间粒度聚合模块的工作流程为:
首先计算数据集中每个时间戳下的四元组数量num[t],t;其次,将时间戳按时间先后顺序排序;然后,根据时间粒度thre合并时间戳,当满足以下条件时,t1,t2,……,ti被合并为同一时间τ:
Figure FDA0003289406540000011
经过上述步骤,四元组(s,r,o,t)变为(s,r,o,τ),(s,r,o,T=[tb,te])变为(s,r,o,T=[τbe]);对于(s,r,o,T=[τbe]),通过枚举操作,将其映射为时间点形式的四元组。
3.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,将自适应时间粒度聚合模块处理后的四元组(s,r,o,τ)输入到四元组结构模块中,经过初始化嵌入模块,获得头实体s、尾实体o、关系r和时间τ在复数空间的初始向量表示
Figure FDA0003289406540000012
为了捕获实体的邻域信息,将es,eo,r,τ输入到邻居编码器中,获得头尾实体聚合邻居后的增强表示es,eo;然后通过四元组评分模块获得四元组结构得分fstru
4.根据权利要求3所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,所述邻居编码器包括三部分:(1)基于实体语义匹配的邻居采样:从实体邻居集合中选取固定数量的邻居;(2)邻居聚合器:将采样后的邻居按照一定的方式聚合,获得实体e的邻居表示enei;(3)融合:将实体e的自身结构表示ee与邻居表示enei融合,得到最终的实体表示e′e
5.根据权利要求4所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,所述基于实体语义匹配的邻居采样按如下方法实现:
首先,对实体名称预处理,去除实体名称中包含的停顿词以及特殊符号;
然后,利用word2vec预训练的词向量对实体名称编码,将实体名称嵌入namee定义为:
Figure FDA0003289406540000021
其中wordi表示实体名称中第i个单词经过word2vec预训练后的嵌入,K表示实体名称中单词的数量;
最后,计算实体e的名称嵌入与邻居实体名称嵌入的余弦相似度,选取出与实体e相似度最高的前n个邻居实体,获得最终的实体邻居集合Ne={(r0,e00),(r2,e22),……},|Ne|=n;
所述邻居聚合器按如下方法实现:
所述邻居聚合器采用基于LSTM的邻居聚合器和基于注意力机制的邻居聚合器聚合实体的邻居信息;
在基于LSTM的邻居聚合器中,将Ne中的实体按照时间先后顺序输入到LSTM中,得到实体e的邻居表示enei
enei=LSTM(x),x={e2,e0,……}
其中{e2,e0,……}是按照时间先后顺序排序后的邻居实体嵌入集合,|x|=n;
在基于注意力机制的邻居聚合器中,计算每个邻居对实体e的重要程度:
Figure FDA0003289406540000031
Figure FDA0003289406540000032
其中Ne是实体e的邻居集合,ee是实体e的嵌入表示,ee[k]表示ee的第k个元素,
Figure FDA0003289406540000033
是ei的共轭表示,Re(·)表示取实部;
根据上述公式得到每个邻居的权重后,将邻居按权聚合,最终得到实体邻居表示enei
Figure FDA0003289406540000034
所述融合按如下方法实现:
获得实体的邻居表示enei后,将其与实体自身结构表示ee融合,包括加法融合、乘法融合和门控融合三种融合方式;
所述加法融合将实体自身结构表示与邻居表示简单相加,实体最终表示定义为:
Figure FDA0003289406540000035
所述乘法融合将实体自身结构表示与邻居表示相乘,实体最终表示定义为:
Figure FDA0003289406540000036
所述门控融合为实体筛选出重要信息,实体最终表示定义为:
Figure FDA0003289406540000037
其中γ∈[0,1]是门控因子。
6.根据权利要求5所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,在利用邻居编码器获得头尾实体的增强表示e′s和e′o后,采用评分函数来评估四元组(s,r,o,τ)成立的概率;所述四元组中的关系表现出特有的时间约束,所述时间约束包括(a)关系的重复性、(b)关系间的顺序和(c)关系间的时间间隔;为了捕获所述时间约束,采用评分函数对四元组进行评分,所述评分函数定义如下:
fstru(s,r,o,τ)=TIMEPLEX(s,r,o,τ)
=fTX(s,r,o,τ)+κfPair(s,r,o,τ)+λfRec(s,r,o,τ)
Figure FDA0003289406540000038
其中,fTX(s,r,o,τ)是四元组(s,r,o,τ)的得分,r
Figure FDA0003289406540000039
是特定于关系r的嵌入表示;
Figure FDA0003289406540000041
κ,λ,a,b,c均为超参数;fRec(s,r,o,τ)是时间约束(a)的得分,fPair(s,r,o,τ)是时间约束(b)和时间约束(c)的得分。
7.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,在四元组类型模块中,将四元组(s,r,o,τ)嵌入到实数空间中,获得头实体s、尾实体o、关系r和时间τ在类型模块中的初始嵌入
Figure FDA0003289406540000042
定义四元组关于实体类型的得分为:
Figure FDA0003289406540000043
其中,η,μ是权重因子,cs[k]表示cs的第k个元素。
8.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,将四元组结构模块的得分fstru(s,r,o,τ)与四元组类型模块的得分ftype(s,r,o,τ)按照设定的权重相加作为四元组(s,r,o,τ)的最终得分,具体定义如下:
ffinal(s,r,o,τ)=αfstru(s,r,o,τ)+βftype(s,r,o,τ)
其中,α和β是权重因子。
9.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,采用对数似然损失函数训练所述上下文感知模型,损失函数定义如下:
Figure FDA0003289406540000044
其中,G是正确四元组的集合;Pr(o|s,r,τ)是尾实体预测时,实体o的概率,计算公式如下所示:
Figure FDA0003289406540000045
其中,
Figure FDA0003289406540000046
是经过随机替换尾实体和过滤操作的四元组集合;
同理,得到Pr(s|o,r,τ)和Pr(τ|s,r,o)。
10.一种基于无监督类型约束的上下文感知知识补全系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-9所述的方法步骤。
CN202111158961.1A 2021-09-30 2021-09-30 基于无监督类型约束的上下文感知知识补全方法及系统 Pending CN114020923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111158961.1A CN114020923A (zh) 2021-09-30 2021-09-30 基于无监督类型约束的上下文感知知识补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111158961.1A CN114020923A (zh) 2021-09-30 2021-09-30 基于无监督类型约束的上下文感知知识补全方法及系统

Publications (1)

Publication Number Publication Date
CN114020923A true CN114020923A (zh) 2022-02-08

Family

ID=80055363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111158961.1A Pending CN114020923A (zh) 2021-09-30 2021-09-30 基于无监督类型约束的上下文感知知识补全方法及系统

Country Status (1)

Country Link
CN (1) CN114020923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023155287A1 (zh) * 2022-02-17 2023-08-24 北京邮电大学 基于时序知识图谱的复杂问答查询方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177282A (zh) * 2019-12-30 2020-05-19 福州大学 一种融入注意力机制的预测方法
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN111177282A (zh) * 2019-12-30 2020-05-19 福州大学 一种融入注意力机制的预测方法
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汪璟玢: "基于约束关系的上下文感知时态知识图谱补全", 计算机科学, vol. 50, no. 3, 15 March 2023 (2023-03-15), pages 23 - 33 *
田满鑫;寿黎但;陈珂;江大伟;陈刚;: "一种基于实体时间敏感度的知识表示方法", 软件工程, no. 01, 5 January 2020 (2020-01-05), pages 5 - 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023155287A1 (zh) * 2022-02-17 2023-08-24 北京邮电大学 基于时序知识图谱的复杂问答查询方法和装置

Similar Documents

Publication Publication Date Title
Qiu et al. Neural transformation learning for deep anomaly detection beyond images
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN110647765B (zh) 协同学习框架下基于知识迁移的隐私保护方法及系统
Lu et al. Selective transfer learning for cross domain recommendation
WO2015103964A1 (en) Method, apparatus, and device for determining target user
WO2021129055A1 (zh) 信息预测模型训练方法及装置、信息预测方法及装置、存储介质、设备
CN111309927B (zh) 一种基于知识图谱挖掘的个性化学习路径推荐方法及系统
Dey et al. Representation of developer expertise in open source software
CN110032684B (zh) 基于共享账户的信息跨域并行序列推荐方法、介质及设备
US20210012225A1 (en) Machine learning based ranking of private distributed data, models and compute resources
WO2022161234A1 (zh) 图像处理方法及装置、电子设备、存储介质
CN115695950B (zh) 一种基于内容感知的视频摘要生成方法
CN115423037B (zh) 一种基于大数据的用户分类方法及系统
CN112434213A (zh) 网络模型的训练方法、信息推送方法及相关装置
CN110297885A (zh) 实时事件摘要的生成方法、装置、设备及存储介质
CN111680162B (zh) 基于张量分解的知识图谱嵌入方法、系统及设备
CN114020923A (zh) 基于无监督类型约束的上下文感知知识补全方法及系统
Nie et al. Knowledge-enhanced causal reinforcement learning model for interactive recommendation
Su et al. Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?
Song et al. Toward robustness in multi-label classification: A data augmentation strategy against imbalance and noise
Jin et al. Optimizing dataset creation: A general purpose data filtering system for training large language models
CN117114139A (zh) 一种面向噪声标签的联邦学习方法
Zouari et al. Towards an adaptive curation services composition based on machine learning
CN114357242A (zh) 基于召回模型的训练评估方法及装置、设备、存储介质
Buet-Golfouse et al. Kernel factorisation machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination