CN114020923A - 基于无监督类型约束的上下文感知知识补全方法及系统 - Google Patents
基于无监督类型约束的上下文感知知识补全方法及系统 Download PDFInfo
- Publication number
- CN114020923A CN114020923A CN202111158961.1A CN202111158961A CN114020923A CN 114020923 A CN114020923 A CN 114020923A CN 202111158961 A CN202111158961 A CN 202111158961A CN 114020923 A CN114020923 A CN 114020923A
- Authority
- CN
- China
- Prior art keywords
- entity
- neighbor
- quadruple
- representation
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 230000004931 aggregating effect Effects 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 24
- 230000002776 aggregation Effects 0.000 claims description 20
- 238000004220 aggregation Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 230000003068 static effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于无监督类型约束的上下文感知知识补全方法及系统,该方法构建基于无监督类型约束的上下文感知模型,首先,通过设定时间粒度,对数据集预处理,以使数据在时间分布上均衡;其次,在四元组结构模块中,通过邻居编码器聚合实体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间,四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息进一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元组类型模块的得分按照设定的权重聚合,获得四元组的最终得分。该方法及系统提高了实体嵌入的质量,提升了模型在知识补全任务上的性能。
Description
技术领域
本发明属于知识图谱领域,具体涉及一种基于无监督类型约束的上下文感知知识补 全方法及系统。
背景技术
知识表示学习是一种有效且可靠的知识补全技术,这几年来,有关知识图谱的表示 学习方法层出不穷。ComplEx将三元组嵌入到复数空间中,能够建模对称/反对称、自 反两种关系模型,在静态知识图谱补全任务上取得了一定的成效。AutoETER将四元组 嵌入到实数空间中,自动学习实体的类型嵌入,丰富了实体的一般特征,此外,它还可 以推断和建模所有对称/反对称、自反和组合三种关系模式,以及复杂的一对多、多对一 和多对多关系。CompGCN利用GCN聚合实体的邻居信息,增强了实体的嵌入表示, 该模型还通过设置基向量解决了过度参数化的问题。上述模型都建立在静态知识图谱上, 在静态知识图谱补全任务上表现良好,但由于没有考虑时间信息,在时间知识图谱补全 任务上性能不佳。
近年来,许多工作努力将静态知识图谱补全模型扩展到时间知识图谱中。比如,HyTE为每个时间戳定义了一个时间超平面,并将实体和关系投影到时间超平面中,然 后对投影的嵌入应用TransE以获得四元组的得分。等人将时间戳划 分为token序列,与关系一并输入到LSTM中,以获得不同时间下的关系表示,获得的 关系表示可以应用于多个模型中,Jain等人将该方法应用于ComplEx中,得到了 TA-ComplEx模型。受历时词的启发,Goel等人将时间信息整合到实体嵌入中,提出了 DE-SimplE模型。DE-SimplE认为实体嵌入中可能有一些随时间变化的特性和一些保持 固定的特性,因此设置了用以控制时间特征百分比的超参数γ∈[0,1],在时间知识图谱 补全任务中取得了显著的效果。TeRo将实体嵌入的时间演化定义为实体在复数空间中 从初始时间到当前时间的旋转,模型结合了RotatE的优势,可以建模实体间的复杂关系 (如自反关系)。此外,TeRo采用时间粒度合并部分时间戳,可以缓解数据集在时间 上分布不均衡问题。受四阶张量分解启发,Lacroix等人将四元组嵌入到复数空间中, 提出了TNT-ComplEx模型,该模型通过四元组的内积操作得到四元组的得分,得分函 数定义为Jain等人提出的TIMEPLEX根据时间的特有性质,定 义了三种类型的时间约束:关系的重复性、关系间的顺序、关系间的时间间隔。其中, 关系的重复性即许多关系对于特定实体不会重复出现(例如,一个人只出生一次),有 些关系在固定周期内重复(例如,奥运会每四年出现一次)。关系间的顺序是指对于一 个给定的实体,一个关系先于另一个关系。比如,PersonBornYear应在给定实体的 PersonDiedYear之前。关系间的时间间隔是指对于一个给定的实体,两个关系间的时间 差值分布在一个平均值周围,例如,PersonDiedYear减去PersonBornYear的平均值约为 70。TIMEPLEX在没有额外时间约束输入的情况下,使用高斯分布建模这三种时间约束, 在时间知识图谱补全任务中表现出了良好的性能。上述时间知识图谱补全模型,虽然在 时间知识图谱补全任务中取得了一定的成效,但都忽略了实体隐含的潜在信息,如类型 信息和邻居信息,在时间知识图谱补全任务中具有一定的局限性。
现实世界中,数据在不同时间段的不均衡分布是一个普遍的现象。类似的,在现有的时间知识图谱中,也存在严重的数据分布不均衡问题,如YAGO11k和Wikidata12k (见下图1所示)。从图中可以看出,这两个数据集在各个时间段的分布呈长尾特性, 数据不均衡问题非常严重,如果直接训练,在数据量较多的时间段,模型训练容易欠拟 合,对这类实例的预测将会变得很困难;在仅有少量实例的时间段,模型训练容易过拟 合,因此模型训练无法达到一个较好的平衡点,导致模型在补全任务上的效果不佳。此 外,YAGO11k和Wikidata12k还存在大量时间戳缺失的问题,也是降低模型补全性能 的一个因素。
TeRo通过设置时间粒度将出现频率低的时间戳合并为一个时间,能够在一定程度上缓解数据的不均衡分布问题。但是TeRo仅使用时间戳中的年份信息,容易导致合并 不合理的问题。比如,对于实体e,在时间戳为t1=2005-01-05、t2=2005-12-12和 t3=2006-02-01时,我们期望它在t2时的嵌入表示应该与t3时的嵌入表示更为接近,与t1时 的嵌入表示应差别较大。对于这种情况,TeRo仅使用年份信息的方式是无法满足的, 因为TeRo会将t1和t2当成同一个时间点(即2005),实体在t1和t2下具有相同的嵌入表 示。此外,YAGO11k中的一些时间戳包含了完整的年月日信息,如果丢弃月和日信息 容易导致重要信息的丢失。
在知识图谱中,实体除了自身的结构信息外,还蕴含着丰富的潜在信息,比如实体的上下文信息(邻居信息)和类型信息。实体的邻居信息是知识图谱中的重要信息,对 邻居信息的合理利用,可以提高实体嵌入的质量,从而提升模型性能。如下图2所示, 当预测(A,Make avisit,?,1987)时,根据实体A的邻居信息,A应该有较大的概 率访问B,而不太可能访问C。现有模型中融合了邻居信息的有CompGCN、RE-Net、 CyGNet等,在补全任务中表现出了良好的性能。直觉上,实体邻居的重要性应与时间 距离成反比,比如图2中的(A,Make avisit,C,1902)对预测(A,Make a visit,?, 1987)起到的作用应该很小。但CompGCN建立在静态知识图谱中,在聚合邻居信息时, 会为(A,Make a visit,C,1902)和(A,Threaten,C,1987)分配统一的权重,导致 模型得到错误的答案。RE-Net和CyGNet虽然建立在时间知识图谱上,但它们旨在通过 过去的知识推断未来未知的知识,因此不过多赘述。
实体的类型信息定义了实体的类别,可以显著地改进实体嵌入表示并提高预测精度。 对于一个实体“Apple”,如果仅靠实体自身的结构信息,我们无法判断“Apple”是水 果还是Apple公司。但是如果实体的类型信息表明这是一个水果,那么我们就可以很明 确地知道“Apple”指的是苹果。现有的一些利用实体类型信息的模型,如TKRL和TransT, 需要显式的实体类型输入,对没有显式提供实体类型信息的知识图谱的补全任务具有一 定的局限性。AutoETER能够自动编码实体类型信息,但是它建立在静态知识图谱上, 忽视了事实的动态性。实体的类型信息应受关系和时间的共同影响,比如,对于实体“鲁 迅”,当相连的关系为“写作”时,他的实体类型是“作家”。但鲁迅1906年弃医从 文,因此在1906年前他的实体类型就不可能是“作家”,即1906年前,鲁迅与关系“写 作”构成的四元组都是错误的。
发明内容
本发明的目的在于提供一种基于无监督类型约束的上下文感知知识补全方法及系 统,该方法及系统提高了实体嵌入的质量,提升了模型在知识补全任务上的性能。
为实现上述目的,本发明采用的技术方案是:一种基于无监督类型约束的上下文感 知知识补全方法,构建包括自适应时间粒度聚合模块、四元组结构模块和四元组类型模块的基于无监督类型约束的上下文感知模型,首先,通过设定时间粒度,对数据集预处 理,以使数据在时间分布上均衡;其次,在四元组结构模块中,通过邻居编码器聚合实 体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间, 所述四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息 进一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元 组类型模块的得分按照设定的权重聚合,获得四元组的最终得分。
进一步地,所述上下文感知模型设置一个超参数:时间粒度thre,通过时间粒度,出现频率低的时间戳被合并成一个时间戳,而出现频率高的时间戳则形成单独的时间戳,以使数据在时间分布上尽可能的均衡;所述自适应时间粒度聚合模块的工作流程为:
首先计算数据集中每个时间戳下的四元组数量num[t],t;其次,将时间戳按时 间先后顺序排序;然后,根据时间粒度thre合并时间戳,当满足以下条件时,t1,t2,……,ti被合并为同一时间τ:
经过上述步骤,四元组(s,r,o,t)变为(s,r,o,τ),(s,r,o,T=[tb,te])变为 (s,r,o,T=[τb,τe]);对于(s,r,o,T=[τb,τe]),通过枚举操作,将其映射为时间点形式的 四元组。
进一步地,将自适应时间粒度聚合模块处理后的四元组(s,r,o,τ)输入到四元组结构 模块中,经过初始化嵌入模块,获得头实体s、尾实体o、关系r和时间τ在复数空间的初始向量表示es,eo,r,为了捕获实体的邻域信息,将es,eo,r,τ输入到邻居 编码器中,获得头尾实体聚合邻居后的增强表示es,eo;然后通过四元组评分模块获得 四元组结构得分fstru。
进一步地,所述邻居编码器包括三部分:(1)基于实体语义匹配的邻居采样:从实体邻居集合中选取固定数量的邻居;(2)邻居聚合器:将采样后的邻居按照一定的方式 聚合,获得实体e的邻居表示enei;(3)融合:将实体e的自身结构表示ee与邻居表示enei融合,得到最终的实体表示e′e。
进一步地,所述基于实体语义匹配的邻居采样按如下方法实现:
首先,对实体名称预处理,去除实体名称中包含的停顿词以及特殊符号;
然后,利用word2vec预训练的词向量对实体名称编码,将实体名称嵌入namee定义为:
其中wordi表示实体名称中第i个单词经过word2vec预训练后的嵌入,K表示实体名称中单词的数量;
最后,计算实体e的名称嵌入与邻居实体名称嵌入的余弦相似度,选取出与实体e相似度最高的前n个邻居实体,获得最终的实体邻居集合Ne={(r0,e0,τ0),(r2,e2,τ2),……}, |Ne|=n;
所述邻居聚合器按如下方法实现:
所述邻居聚合器采用基于LSTM的邻居聚合器和基于注意力机制的邻居聚合器聚合实体的邻居信息;
在基于LSTM的邻居聚合器中,将Ne中的实体按照时间先后顺序输入到LSTM中, 得到实体e的邻居表示enei:
enei=LSTM(x),x={e2,e0,……}
其中{e2,e0,……}是按照时间先后顺序排序后的邻居实体嵌入集合,|x|=n;
在基于注意力机制的邻居聚合器中,计算每个邻居对实体e的重要程度:
根据上述公式得到每个邻居的权重后,将邻居按权聚合,最终得到实体邻居表示enei:
所述融合按如下方法实现:
获得实体的邻居表示enei后,将其与实体自身结构表示ee融合,包括加法融合、乘法融合和门控融合三种融合方式;
所述加法融合将实体自身结构表示与邻居表示简单相加,实体最终表示定义为:
所述乘法融合将实体自身结构表示与邻居表示相乘,实体最终表示定义为:
所述门控融合为实体筛选出重要信息,实体最终表示定义为:
其中γ∈[0,1]是门控因子。
进一步地,在利用邻居编码器获得头尾实体的增强表示e′s和e′o后,采用评分函数来 评估四元组(s,r,o,τ)成立的概率;所述四元组中的关系表现出特有的时间约束,所述时 间约束包括(a)关系的重复性、(b)关系间的顺序和(c)关系间的时间间隔;为了捕获所述 时间约束,采用评分函数对四元组进行评分,所述评分函数定义如下:
fstru(s,r,o,τ)=TIMEPLEX(s,r,o,τ)
=fTX(s,r,o,τ)+κfPair(s,r,o,τ)+λfRec(s,r,o,τ)
其中,fTX(s,r,o,τ)是四元组(s,r,o,τ)的得分,rsτ,是特定于关系r的嵌入 表示;κ,λ,a,b,c均为超参数;fRec(s,r,o,τ)是时间 约束(a)的得分,fPair(s,r,o,τ)是时间约束(b)和时间约束(c)的得分。
其中,η,μ是权重因子,cs[k]表示cs的第k个元素。
进一步地,将四元组结构模块的得分fstru(s,r,o,τ)与四元组类型模块的得分ftype(s,r,o,τ)按照设定的权重相加作为四元组(s,r,o,τ)的最终得分,具体定义如下:
ffinal(s,r,o,τ)=afstru(s,r,o,τ)+βftype(s,r,o,τ)
其中,α和β是权重因子。
进一步地,采用对数似然损失函数训练所述上下文感知模型,损失函数定义如下:
其中,G是正确四元组的集合;Pr(o|s,r,τ)是尾实体预测时,实体o的概率,计算公式如下所示:
同理,得到Pr(s|o,r,τ)和Pr(τ|s,r,o)。
本发明还提供了一种基于无监督类型约束的上下文感知知识补全系统,包括存储器、 处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计 算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:
1、现有使用时间粒度的知识表示学习方法仅使用了时间戳中的年份信息,容易导致时间戳合并不合理的问题,而且丢弃月和日信息容易造成重要信息的丢失。而本发明 充分利用了时间戳中的完整信息,模型能够以更细粒度的方式合并时间戳,合并方式更 为合理;此外,更为准确的时间信息也使得模型能够实现更精准的预测。
2、与现有融合了邻居信息的知识表示学习模型相比,本发明考虑了实体邻居的时间信息,在聚合邻居信息时,能够根据邻居在时间上的远近筛选出重要信息,为模型捕 获有效信息。
3、现有利用实体类型信息的模型都建立在静态知识图谱上,忽略了事实的动态性。 而本发明能够在特定的关系和时间下,学习实体在类型约束下的嵌入,且不需要显式类 型输入,提高了模型的普适性。此外,本发明同时考虑了实体的邻居信息和类型信息,两者相辅相成,显著提高了实体嵌入的质量,提升了模型在知识补全任务上的性能。
附图说明
图1是现有技术中YAGO11k和Wikidata12k在各个时间段的数据分布图。
图2是现有技术中实体邻居信息图。
图3是本发明实施例中基于无监督类型约束的上下文感知模型的总体框架图。
图4是本发明实施例中邻居编码器的结构示意图。
图5是本发明实施例中融合方式示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据 本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和 /或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供了一种基于无监督类型约束的上下文感知知识补全方法,构建包括自 适应时间粒度聚合模块、四元组结构模块和四元组类型模块的基于无监督类型约束的上 下文感知模型(Context-Aware model for Unsupervised Type constraints,CAUT):首先, 通过设定时间粒度,对数据集预处理,以使数据在时间分布上尽可能的均衡,解决数据 长尾分布为模型带来的问题;其次,在四元组结构模块中,通过邻居编码器聚合实体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间,所 述四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息进 一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元组 类型模块的得分按照设定的权重聚合,获得四元组的最终得分。
CAUT模型的主要思想:一是针对一些数据集在时间上呈现长尾分布导致模型性能不佳的问题,使用时间粒度合并时间戳,使模型分布尽可能均衡。二是使用实体潜在的 邻居信息和类型信息来增强实体的嵌入表示,进而改建模型补全性能。
CAUT模型的整体结构如图3所示。首先,为了解决某些数据集在时间分布上不均衡导致模型性能不佳的问题,本发明引入了自适应时间粒度聚合模块;其次,为了充分利 用实体邻居信息,在四元组结构模块中借助邻居编码器,获得头尾实体聚合邻居后的增 强表示es,eo;此外,本发明还引入了四元组类型模块,在没有额外类型输入的情况下, 获得类型约束下四元组得分ftype。最后,将四元组结构模块的得分fstru与四元组类型模 块的得分ftype按照一定的权重聚合,获得四元组的最终得分ffinal。
以下给出本发明的相关定义。
定义3-2(四元组,quaternion)四元组有(s,r,o,t)和(s,r,o,T=[tb,te])两种形式。其 中s,o∈E表示头实体和尾实体,r∈R表示关系,t是形如“2021-11-12”的时间戳,T表示时间区间,tb,te分别是开始时间和结束时间。一个四元组也称为一个事实或一 个知识。
1、自适应时间粒度聚合模块
本发明针对一些数据集在时间上分布不均衡的情况,为所述上下文感知模型设置一 个超参数:时间粒度thre。通过时间粒度,出现频率低的时间戳被合并成一个时间戳,而出现频率高的时间戳则形成单独的时间戳,以使数据在时间分布上尽可能的均衡;所 述自适应时间粒度聚合模块的工作流程为:
首先计算数据集中每个时间戳下的四元组数量num[t],t;其次,将时间戳按时 间先后顺序排序;然后,根据时间粒度thre合并时间戳,当满足以下条件时,t1,t2,……,ti被合并为同一时间τ:
经过上述步骤,四元组(s,r,o,t)变为(s,r,o,τ),(s,r,o,T=[tb,te])变为(s,r,o,T=[τb,τe]);对于(s,r,o,T=[τb,τe]),通过枚举操作,将其映射为时间点形式的 四元组。比如(s,r,o,T=[τ0,τ3])被映射为(s,r,o,τ0),(s,r,o,τ1),(s,r,o,τ2)和(s,r,o,τ3)。
2、四元组结构模块
将自适应时间粒度聚合模块处理后的四元组(s,r,o,τ)输入到四元组结构模块中,经 过初始化嵌入模块,获得头实体s、尾实体o、关系r和时间τ在复数空间的初始向量表示es,eo,r,为了捕获实体的邻域信息,将es,eo,r,τ输入到邻居编码器中, 获得头尾实体聚合邻居后的增强表示es,eo;然后通过四元组评分模块获得四元组结构 得分fstru。
1)邻居编码器
如图4所示,所述邻居编码器可以划分为三部分:(1)基于实体语义匹配的邻居采样:从实体邻居集合中选取固定数量的邻居;(2)邻居聚合器:将采样后的邻居按照一 定的方式聚合,获得实体e的邻居表示enei;(3)融合:将实体e的自身结构表示ee与 邻居表示enei融合,得到最终的实体表示e′e。
(1)基于实体语义匹配的邻居采样
所述基于实体语义匹配的邻居采样按如下方法实现:
首先,对实体名称预处理,去除实体名称中包含的停顿词以及“(”、“!”,“-”等特殊符号。
然后,利用word2vec预训练的词向量对实体名称编码,因为实体名称可能由多个单 词组成,将实体名称嵌入namee定义为:
其中wordi表示实体名称中第i个单词经过word2vec预训练后的嵌入,K表示实体名称中单词的数量。
最后,计算实体e的名称嵌入与邻居实体名称嵌入的余弦相似度,选取出与实体e相似度最高的前n个邻居实体,获得最终的实体邻居集合Ne={(r0,e0,τ0),(r2,e2,τ2),……}, |Ne|=n。
(2)邻居聚合器
本发明采用两种时间聚合器聚合实体的邻居信息:基于LSTM的邻居聚合器和基于注意力机制的邻居聚合器。
①基于LSTM的邻居聚合器
鉴于LSTM在处理长序列数据时表现出了良好的性能,本发明将Ne中的实体按照时间先后顺序输入到LSTM中,得到实体e的邻居表示enei:
enei=LSTM(x),x={e2,e0,……}
其中{e2,e0,……}是按照时间先后顺序排序后的邻居实体嵌入集合,|x|=n。
②基于注意力机制的邻居聚合器
考虑到每个邻居对实体e具有不同的重要性,如果不加以区分地聚合,容易引入无用信息,导致模型性能下降。因此,本发明引入注意力机制加权聚合邻居信息。
首先,计算每个邻居对实体e的重要程度:
根据上述公式得到每个邻居的权重后,将邻居按权聚合,最终得到实体邻居表示enei:
(3)融合
获得实体的邻居表示enei后,将其与实体自身结构表示ee融合,包括加法融合、乘法融合和门控融合三种融合方式。
所述加法融合将实体自身结构表示与邻居表示简单相加,如图5(a)所示,实体最终 表示定义为:
所述乘法融合将实体自身结构表示与邻居表示相乘,如图5(b)所示,实体最终表示 定义为:
上述两种方式平等地对待实体结构信息与邻居信息,容易引入邻居信息中无效的信 息,降低模型性能。因此本发明采用门控机制为实体筛选出重要信息,如图5(c)所示。实体最终表示定义为:
其中γ∈[0,1]是门控因子。
2)四元组评分
在利用邻居编码器获得头尾实体的增强表示e′s和e′o后,采用评分函数来评估四元组 (s,r,o,τ)成立的概率;所述四元组中的关系表现出特有的时间约束,比如(a)关系的重复 性、(b)关系间的顺序和(c)关系间的时间间隔。为了捕获所述时间约束,本发明采用评分 函数对四元组进行评分,所述评分函数定义如下:
fstru(s,r,o,τ)=TIMEPLEX(s,r,o,τ)
=fTX(s,r,o,τ)+κfPair(s,r,o,τ)+λfRec(s,r,o,τ)
其中,fTX(s,r,o,τ)是四元组(s,r,o,τ)的得分,rsτ,是特定于关系r的嵌入 表示;κ,λ,a,b,c均为超参数;fRec(s,r,o,τ)是时间 约束(a)的得分,fPair(s,r,o,τ)是时间约束(b)和时间约束(c)的得分。
3、四元组类型模块
对于四元组(s,r,o,τ),本发明的目标是在特定关系和时间下,学习实体在类型约束 下的嵌入。将四元组(s,r,o,τ)嵌入到实数空间中,获得头实体s、尾实体o、关系r和时间τ在类型模块中的初始嵌入cs,co,cr,考虑到一些实体类型也受时间影响, 因此,本发明定义四元组关于实体类型的得分为:
其中,η,μ是权重因子,cs[k]表示cs的第k个元素。
4、模型最终评分
将四元组结构模块的得分fstru(s,r,o,τ)与四元组类型模块的得分ftype(s,r,o,τ)按照 设定的权重相加作为四元组(s,r,o,τ)的最终得分,具体定义如下:
ffinal(s,r,o,τ)=αfstru(s,r,o,τ)+βftype(s,r,o,τ)
其中,α和β是权重因子。
5、模型优化
本发明采用对数似然损失函数训练所述上下文感知模型,损失函数定义如下:
其中,G是正确四元组的集合;Pr(o|s,r,τ)是尾实体预测时,实体o的概率,计算公式如下所示:
同理,得到Pr(s|o,r,τ)和Pr(τ|s,r,o)。
本发明还提供了用于实现上述方法的上下文感知知识补全系统,包括存储器、处理 器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机 程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面 的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的 计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的 计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每 一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些 计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备 的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定 方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算 机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的 等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施 例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (10)
1.一种基于无监督类型约束的上下文感知知识补全方法,其特征在于,构建包括自适应时间粒度聚合模块、四元组结构模块和四元组类型模块的基于无监督类型约束的上下文感知模型,首先,通过设定时间粒度,对数据集预处理,以使数据在时间分布上均衡;其次,在四元组结构模块中,通过邻居编码器聚合实体上下文信息,增强实体的嵌入表示;在四元组类型模块中,将四元组嵌入到实数空间,所述四元组类型模块在无监督环境下获得类型约束的实体表示,通过实体潜在类型信息进一步约束实体嵌入表示,提高模型补全能力;最后,将四元组结构模块的得分与四元组类型模块的得分按照设定的权重聚合,获得四元组的最终得分。
2.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,所述上下文感知模型设置一个超参数:时间粒度thre,通过时间粒度,出现频率低的时间戳被合并成一个时间戳,而出现频率高的时间戳则形成单独的时间戳,以使数据在时间分布上尽可能的均衡;所述自适应时间粒度聚合模块的工作流程为:
首先计算数据集中每个时间戳下的四元组数量num[t],t;其次,将时间戳按时间先后顺序排序;然后,根据时间粒度thre合并时间戳,当满足以下条件时,t1,t2,……,ti被合并为同一时间τ:
经过上述步骤,四元组(s,r,o,t)变为(s,r,o,τ),(s,r,o,T=[tb,te])变为(s,r,o,T=[τb,τe]);对于(s,r,o,T=[τb,τe]),通过枚举操作,将其映射为时间点形式的四元组。
4.根据权利要求3所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,所述邻居编码器包括三部分:(1)基于实体语义匹配的邻居采样:从实体邻居集合中选取固定数量的邻居;(2)邻居聚合器:将采样后的邻居按照一定的方式聚合,获得实体e的邻居表示enei;(3)融合:将实体e的自身结构表示ee与邻居表示enei融合,得到最终的实体表示e′e。
5.根据权利要求4所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,所述基于实体语义匹配的邻居采样按如下方法实现:
首先,对实体名称预处理,去除实体名称中包含的停顿词以及特殊符号;
然后,利用word2vec预训练的词向量对实体名称编码,将实体名称嵌入namee定义为:
其中wordi表示实体名称中第i个单词经过word2vec预训练后的嵌入,K表示实体名称中单词的数量;
最后,计算实体e的名称嵌入与邻居实体名称嵌入的余弦相似度,选取出与实体e相似度最高的前n个邻居实体,获得最终的实体邻居集合Ne={(r0,e0,τ0),(r2,e2,τ2),……},|Ne|=n;
所述邻居聚合器按如下方法实现:
所述邻居聚合器采用基于LSTM的邻居聚合器和基于注意力机制的邻居聚合器聚合实体的邻居信息;
在基于LSTM的邻居聚合器中,将Ne中的实体按照时间先后顺序输入到LSTM中,得到实体e的邻居表示enei:
enei=LSTM(x),x={e2,e0,……}
其中{e2,e0,……}是按照时间先后顺序排序后的邻居实体嵌入集合,|x|=n;
在基于注意力机制的邻居聚合器中,计算每个邻居对实体e的重要程度:
根据上述公式得到每个邻居的权重后,将邻居按权聚合,最终得到实体邻居表示enei:
所述融合按如下方法实现:
获得实体的邻居表示enei后,将其与实体自身结构表示ee融合,包括加法融合、乘法融合和门控融合三种融合方式;
所述加法融合将实体自身结构表示与邻居表示简单相加,实体最终表示定义为:
所述乘法融合将实体自身结构表示与邻居表示相乘,实体最终表示定义为:
所述门控融合为实体筛选出重要信息,实体最终表示定义为:
其中γ∈[0,1]是门控因子。
6.根据权利要求5所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,在利用邻居编码器获得头尾实体的增强表示e′s和e′o后,采用评分函数来评估四元组(s,r,o,τ)成立的概率;所述四元组中的关系表现出特有的时间约束,所述时间约束包括(a)关系的重复性、(b)关系间的顺序和(c)关系间的时间间隔;为了捕获所述时间约束,采用评分函数对四元组进行评分,所述评分函数定义如下:
fstru(s,r,o,τ)=TIMEPLEX(s,r,o,τ)
=fTX(s,r,o,τ)+κfPair(s,r,o,τ)+λfRec(s,r,o,τ)
8.根据权利要求1所述的基于无监督类型约束的上下文感知知识补全方法,其特征在于,将四元组结构模块的得分fstru(s,r,o,τ)与四元组类型模块的得分ftype(s,r,o,τ)按照设定的权重相加作为四元组(s,r,o,τ)的最终得分,具体定义如下:
ffinal(s,r,o,τ)=αfstru(s,r,o,τ)+βftype(s,r,o,τ)
其中,α和β是权重因子。
10.一种基于无监督类型约束的上下文感知知识补全系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-9所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111158961.1A CN114020923A (zh) | 2021-09-30 | 2021-09-30 | 基于无监督类型约束的上下文感知知识补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111158961.1A CN114020923A (zh) | 2021-09-30 | 2021-09-30 | 基于无监督类型约束的上下文感知知识补全方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114020923A true CN114020923A (zh) | 2022-02-08 |
Family
ID=80055363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111158961.1A Pending CN114020923A (zh) | 2021-09-30 | 2021-09-30 | 基于无监督类型约束的上下文感知知识补全方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020923A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023155287A1 (zh) * | 2022-02-17 | 2023-08-24 | 北京邮电大学 | 基于时序知识图谱的复杂问答查询方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177282A (zh) * | 2019-12-30 | 2020-05-19 | 福州大学 | 一种融入注意力机制的预测方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN113360670A (zh) * | 2021-06-09 | 2021-09-07 | 山东大学 | 一种基于事实上下文的知识图谱补全方法及系统 |
-
2021
- 2021-09-30 CN CN202111158961.1A patent/CN114020923A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN111177282A (zh) * | 2019-12-30 | 2020-05-19 | 福州大学 | 一种融入注意力机制的预测方法 |
CN113360670A (zh) * | 2021-06-09 | 2021-09-07 | 山东大学 | 一种基于事实上下文的知识图谱补全方法及系统 |
Non-Patent Citations (2)
Title |
---|
汪璟玢: "基于约束关系的上下文感知时态知识图谱补全", 计算机科学, vol. 50, no. 3, 15 March 2023 (2023-03-15), pages 23 - 33 * |
田满鑫;寿黎但;陈珂;江大伟;陈刚;: "一种基于实体时间敏感度的知识表示方法", 软件工程, no. 01, 5 January 2020 (2020-01-05), pages 5 - 10 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023155287A1 (zh) * | 2022-02-17 | 2023-08-24 | 北京邮电大学 | 基于时序知识图谱的复杂问答查询方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiu et al. | Neural transformation learning for deep anomaly detection beyond images | |
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN110647765B (zh) | 协同学习框架下基于知识迁移的隐私保护方法及系统 | |
Lu et al. | Selective transfer learning for cross domain recommendation | |
WO2015103964A1 (en) | Method, apparatus, and device for determining target user | |
WO2021129055A1 (zh) | 信息预测模型训练方法及装置、信息预测方法及装置、存储介质、设备 | |
CN111309927B (zh) | 一种基于知识图谱挖掘的个性化学习路径推荐方法及系统 | |
Dey et al. | Representation of developer expertise in open source software | |
CN110032684B (zh) | 基于共享账户的信息跨域并行序列推荐方法、介质及设备 | |
US20210012225A1 (en) | Machine learning based ranking of private distributed data, models and compute resources | |
WO2022161234A1 (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN115695950B (zh) | 一种基于内容感知的视频摘要生成方法 | |
CN115423037B (zh) | 一种基于大数据的用户分类方法及系统 | |
CN112434213A (zh) | 网络模型的训练方法、信息推送方法及相关装置 | |
CN110297885A (zh) | 实时事件摘要的生成方法、装置、设备及存储介质 | |
CN111680162B (zh) | 基于张量分解的知识图谱嵌入方法、系统及设备 | |
CN114020923A (zh) | 基于无监督类型约束的上下文感知知识补全方法及系统 | |
Nie et al. | Knowledge-enhanced causal reinforcement learning model for interactive recommendation | |
Su et al. | Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? | |
Song et al. | Toward robustness in multi-label classification: A data augmentation strategy against imbalance and noise | |
Jin et al. | Optimizing dataset creation: A general purpose data filtering system for training large language models | |
CN117114139A (zh) | 一种面向噪声标签的联邦学习方法 | |
Zouari et al. | Towards an adaptive curation services composition based on machine learning | |
CN114357242A (zh) | 基于召回模型的训练评估方法及装置、设备、存储介质 | |
Buet-Golfouse et al. | Kernel factorisation machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |