CN112395428B - 一种基于集合补全知识图谱实体摘要的方法及系统 - Google Patents

一种基于集合补全知识图谱实体摘要的方法及系统 Download PDF

Info

Publication number
CN112395428B
CN112395428B CN202011391570.XA CN202011391570A CN112395428B CN 112395428 B CN112395428 B CN 112395428B CN 202011391570 A CN202011391570 A CN 202011391570A CN 112395428 B CN112395428 B CN 112395428B
Authority
CN
China
Prior art keywords
description
entity
abstract
triples
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011391570.XA
Other languages
English (en)
Other versions
CN112395428A (zh
Inventor
徐童
陈力以
李徵
何伟栋
陈恩红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011391570.XA priority Critical patent/CN112395428B/zh
Publication of CN112395428A publication Critical patent/CN112395428A/zh
Application granted granted Critical
Publication of CN112395428B publication Critical patent/CN112395428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于集合补全知识图谱实体摘要的方法及系统,方法包括:生成描述三元组的表示;联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;基于描述三元组的表示和优化模型,生成实体摘要。本发明能够通过挖掘整个摘要集合中的上下文依赖性完成摘要集合的补全,从而以更简洁的方式全面概括实体的特征,以及能够充分考虑到摘要描述间的相关性和兼容性,从而提升了实体摘要任务的准确性。

Description

一种基于集合补全知识图谱实体摘要的方法及系统
技术领域
本发明涉及数据挖掘中的知识图谱技术领域,尤其涉及一种基于集合补全知识图谱实体摘要的方法及系统。
背景技术
近年来,知识图谱的飞速发展使得许多下游应用的效果提升,例如推荐系统和对话系统等等。同时,由于实际的工业需求和大量知识事实的存储,知识图谱的规模已显著增长。因此,大规模知识图谱中日益严重的信息过载问题已成为工业界和学术界的热点话题。考虑到这一点,许多研究人员提出了实体摘要任务,以生成目标实体属性描述的摘要集合来概括目标实体的关键特征,防止人们被过多的信息所淹没。
许多早期工作都致力于通过无监督的方法来解决实体摘要问题。这些研究的主要目的是挖掘语言学或特征关系以获取实体属性,并使用聚类技术或概率主题模型来生成摘要。近年来,随着深度学习方法在许多任务中的快速发展,越来越多的研究人员发掘了监督技术在实体摘要任务中的潜力。尽管这些研究已显示出在实体摘要任务上有提升的可能,但研究人员主要将实体摘要视作在特定评分标准下的属性描述排序问题解决,并选择排序在前k个的描述三元组作为实体摘要的结果,这样使得实体摘要的相关性和兼容性在很大程度上被忽略。
实际上,实体摘要可以被视为一个完整的集合,其中所有这些摘要描述在上下文上都是相关和兼容的,能够以更简洁的方式全面概括实体的特征。所以充分利用整个摘要集合中的上下文依赖性对于解决知识图谱中的实体摘要任务来说具有至关重要的意义和价值。
因此,如何有效的挖掘整个摘要集合中的上下文依赖性完成摘要集合的补全,从而以更简洁的方式全面概括实体的特征,以及如何有效的充分考虑到摘要描述间的相关性和兼容性,从而提升实体摘要任务的准确性,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于集合补全知识图谱实体摘要的方法,能够通过挖掘整个摘要集合中的上下文依赖性完成摘要集合的补全,从而以更简洁的方式全面概括实体的特征,以及能够充分考虑到摘要描述间的相关性和兼容性,从而提升实体摘要任务的准确性。
本发明提供了一种基于集合补全知识图谱实体摘要的方法,包括:
生成描述三元组的表示;
联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;
基于所述描述三元组的表示和所述优化模型,生成实体摘要。
优选地,所述生成描述三元组的表示,包括:
在描述嵌入模块中,通过预训练的词嵌入向量和多层感知器得到所有描述三元组的表示。
优选地,所述联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型,包括:
在摘要集合补全学习模块中,将整个摘要集合视为序列输入到Bi-LSTM中建模集合补全的过程;
在描述重要性学习模块中,计算目标实体和属性值对语义嵌入之间的相似度。
优选地,所述基于所述描述三元组的表示和所述优化模型,生成实体摘要,包括:
基于所述描述三元组的表示通过重要性计算得到最重要的描述三元组,并将所述最重要的描述三元组作为前向LSTM的第一个输入;
根据前向LSTM逐个生成临时序列,再通过反向LSTM的结果,结合前向LSTM,逐个修正临时序列,得到最终的实体摘要集合。
一种基于集合补全知识图谱实体摘要的系统,包括:
第一生成模块,用于生成描述三元组的表示;
训练模块,用于联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;
第二生成模块,用于基于所述描述三元组的表示和所述优化模型,生成实体摘要。
优选地,所述第一生成模块具体用于:
在描述嵌入模块中,通过预训练的词嵌入向量和多层感知器得到所有描述三元组的表示。
优选地,所述训练模块具体用于:
在摘要集合补全学习模块中,将整个摘要集合视为序列输入到Bi-LSTM中建模集合补全的过程;
在描述重要性学习模块中,计算目标实体和属性值对语义嵌入之间的相似度。
优选地,所述第二生成模块具体用于:
基于所述描述三元组的表示通过重要性计算得到最重要的描述三元组,并将所述最重要的描述三元组作为前向LSTM的第一个输入;
根据前向LSTM逐个生成临时序列,再通过反向LSTM的结果,结合前向LSTM,逐个修正临时序列,得到最终的实体摘要集合。
综上所述,本发明公开了一种基于集合补全知识图谱实体摘要的方法,首先生成描述三元组的表示,联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;然后基于描述三元组的表示和优化模型,生成实体摘要。本发明能够通过挖掘整个摘要集合中的上下文依赖性完成摘要集合的补全,从而以更简洁的方式全面概括实体的特征,以及能够充分考虑到摘要描述间的相关性和兼容性,从而提升了实体摘要任务的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于集合补全知识图谱实体摘要的方法实施例1的方法流程图;
图2为本发明公开的一种基于集合补全知识图谱实体摘要的方法实施例2的方法流程图;
图3为本发明公开的一种基于集合补全知识图谱实体摘要的系统实施例1的结构示意图;
图4为本发明公开的一种基于集合补全知识图谱实体摘要的系统实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于集合补全知识图谱实体摘要的方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、生成描述三元组的表示;
当需要补全知识图谱实体摘要时,首先生成描述三元组的表示。
S102、联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;
然后,对摘要集合补全学习模块和描述重要性学习模块进行联合训练,得到优化模块。通过联合训练摘要集合补全学习模块和描述重要性学习模块,端到端的优化模型。
S103、基于描述三元组的表示和优化模型,生成实体摘要。
然后,根据生成的描述三元组的表示以及训练得到的优化模型,生成实体摘要。
综上所述,在上述实施例中,当需要补全知识图谱实体摘要时,首先生成描述三元组的表示,联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;然后基于描述三元组的表示和优化模型,生成实体摘要。能够通过挖掘整个摘要集合中的上下文依赖性完成摘要集合的补全,从而以更简洁的方式全面概括实体的特征,以及能够充分考虑到摘要描述间的相关性和兼容性,从而提升了实体摘要任务的准确性。
如图2所示,为本发明公开的一种基于集合补全知识图谱实体摘要的方法实施例2的方法流程图,所述方法可以包括:
S201、在描述嵌入模块中,通过预训练的词嵌入向量和多层感知器得到所有描述三元组的表示;
首先在描述嵌入模块中,利用预训练的词嵌入向量来生成初始描述三元组<实体e,属性p,值v>的表示。将p和v拼接起来形成h,以组合属性和属性值。然后将h输入到多层感知器(MLP)中,以编码属性值对的最终表示形式t。最后得到的描述三元组的表示为<e,t>。
S202、在摘要集合补全学习模块中,将整个摘要集合视为序列输入到Bi-LSTM中建模集合补全的过程;在描述重要性学习模块中,计算目标实体和属性值对语义嵌入之间的相似度;
为了更好地满足集合补全任务中利用实体描述中的全局内容的需求,应用了Bi-LSTM来捕获摘要集合中的内在关联。将实体摘要集合视为序列,并将实体摘要集合中的每个属性值对视为单个时间步输入到Bi-LSTM中,通过Bi-LSTM对实体摘要集合进行建模,其结构允许神经网络在每个时间步获得有关实体摘要序列的前向和后向信息,从而有利于上下文相关性的获取。
其中,Bi-LSTM由两个单向LSTM组成,单向LSTM结构如下:
fn=σ(Wxfxn+Whfhn-1+Wcfcn-1+bf),
in=σ(Wxixn+Whihn-1+Wcicn-1+bi),
cn=fncn-1+in tanh(Wxcxn+Whchn-1++bc),
on=σ(Wxoxn+Whohn-1+Wcocn-1+bo),
hn=on tanh(cn)。
其中,xn,hn是第n时间步的输入和隐藏向量,fn,in,cn,on是遗忘门,输入门,记忆细胞,输入门的结果向量。W为权重矩阵,b为偏置向量。
将大小为k的实体摘要集合作为序列X=[t1,t2,…,tk]输入Bi-LSTM,以第n时间步为例,提取正向LSTM得到的
Figure BDA0002809653950000061
和反向LSTM得到的
Figure BDA0002809653950000062
平均后得到rn+1
Figure BDA0002809653950000063
Figure BDA0002809653950000064
Figure BDA0002809653950000065
为实现rn+1和tn+1的点乘结果最大化,设计了如下的目标函数:
Sscl(t)=r.t,
Figure BDA0002809653950000071
为了充分挖掘描述三元组中的语义信息,通过测量目标实体与相应的属性值对的语义嵌入之间的余弦相似度来计算描述三元组的重要性。首先将语义嵌入进行投影,使得它们在同一嵌入空间中。然后计算它们的余弦相似度,定义了如下的重要性评分函数:
Figure BDA0002809653950000072
Figure BDA0002809653950000073
Sdsl(e,t)=cos(e,W1t)+cos(W2e,t)。
这里W1和W2都是投影矩阵。
此外,利用了这些描述三元组在摘要集合中的出现次数来对重要性评分进行优化,因为描述三元组如果被选进摘要集合的次数越多,越说明这个描述三元组更能够概括目标实体的主要特征,设计了如下的损失函数:
Figure BDA0002809653950000074
在训练过程中,通过如下的目标函数,结合摘要集合补全学习模块和描述重要性学习模块来优化模型:
L=λ1Ldsl2Lscl
这里λ1和λ2是比例参数。
S203、基于描述三元组的表示通过重要性计算得到最重要的描述三元组,并将最重要的描述三元组作为前向LSTM的第一个输入;根据前向LSTM逐个生成临时序列,再通过反向LSTM的结果,结合前向LSTM,逐个修正临时序列,得到最终的实体摘要集合。
首先通过重要性计算得到最重要的描述三元组,作为前向LSTM的第一个输入:
Figure BDA0002809653950000081
然后,根据如下公式由前向LSTM逐个生成临时序列,以tn+1为例:
Figure BDA0002809653950000082
由前向隐藏层结果
Figure BDA0002809653950000083
和相应的公式推出,得到临时序列[t1,t2,…,tk]。
再通过反向LSTM的结果,结合前向LSTM,逐个倒推修正临时序列,以
Figure BDA0002809653950000084
为例,结合了前向和反向LSTM的结果,由以下公式推出:
Figure BDA0002809653950000085
这样就生成了最终确定的摘要集合:
Figure BDA0002809653950000086
综上所述,本发明采用Bi-LSTM对集合补全的过程进行建模,计算每个描述三元组的重要性,和所设计的集合补全的训练策略及摘要集合生成的方法,都有效挖掘了整个摘要集合中的上下文依赖性,以更简洁的方式全面概括实体的特征,充分考虑到摘要描述间的相关性和兼容性,能够有效提升实体摘要任务的准确性。
如图3所示,为本发明公开的一种基于集合补全知识图谱实体摘要的系统实施例1的结构示意图,所述系统可以包括:
第一生成模块301,用于生成描述三元组的表示;
当需要补全知识图谱实体摘要时,首先生成描述三元组的表示。
训练模块302,用于联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;
然后,对摘要集合补全学习模块和描述重要性学习模块进行联合训练,得到优化模块。通过联合训练摘要集合补全学习模块和描述重要性学习模块,端到端的优化模型。
第二生成模块303,用于基于描述三元组的表示和优化模型,生成实体摘要。
然后,根据生成的描述三元组的表示以及训练得到的优化模型,生成实体摘要。
综上所述,在上述实施例中,当需要补全知识图谱实体摘要时,首先生成描述三元组的表示,联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;然后基于描述三元组的表示和优化模型,生成实体摘要。能够通过挖掘整个摘要集合中的上下文依赖性完成摘要集合的补全,从而以更简洁的方式全面概括实体的特征,以及能够充分考虑到摘要描述间的相关性和兼容性,从而提升了实体摘要任务的准确性。
如图4所示,为本发明公开的一种基于集合补全知识图谱实体摘要的系统实施例2的结构示意图,所述系统可以包括:
第一生成模块401,用于在描述嵌入模块中,通过预训练的词嵌入向量和多层感知器得到所有描述三元组的表示;
首先在描述嵌入模块中,利用预训练的词嵌入向量来生成初始描述三元组<实体e,属性p,值v>的表示。将p和v拼接起来形成h,以组合属性和属性值。然后将h输入到多层感知器(MLP)中,以编码属性值对的最终表示形式t。最后得到的描述三元组的表示为<e,t>。
训练模块402,用于在摘要集合补全学习模块中,将整个摘要集合视为序列输入到Bi-LSTM中建模集合补全的过程;在描述重要性学习模块中,计算目标实体和属性值对语义嵌入之间的相似度;
为了更好地满足集合补全任务中利用实体描述中的全局内容的需求,应用了Bi-LSTM来捕获摘要集合中的内在关联。将实体摘要集合视为序列,并将实体摘要集合中的每个属性值对视为单个时间步输入到Bi-LSTM中,通过Bi-LSTM对实体摘要集合进行建模,其结构允许神经网络在每个时间步获得有关实体摘要序列的前向和后向信息,从而有利于上下文相关性的获取。
其中,Bi-LSTM由两个单向LSTM组成,单向LSTM结构如下:
fn=σ(Wxfxn+Whfhn-1+Wcfcn-1+bf),
in=σ(Wxixn+Whihn-1+Wcicn-1+bi),
cn=fncn-1+in tanh(Wxcxn+Whchn-1++bc),
on=σ(Wxoxn+Whohn-1+Wcocn-1+bo),
hn=on tanh(cn)。
其中,xn,hn是第n时间步的输入和隐藏向量,fn,in,cn,on是遗忘门,输入门,记忆细胞,输入门的结果向量。W为权重矩阵,b为偏置向量。
将大小为k的实体摘要集合作为序列X=[t1,t2,…,tk]输入Bi-LSTM,以第n时间步为例,提取正向LSTM得到的
Figure BDA0002809653950000101
和反向LSTM得到的
Figure BDA0002809653950000102
平均后得到rn+1
Figure BDA0002809653950000103
Figure BDA0002809653950000104
Figure BDA0002809653950000105
为实现rn+1和tn+1的点乘结果最大化,设计了如下的目标函数:
Sscl(t)=r.t,
Figure BDA0002809653950000106
为了充分挖掘描述三元组中的语义信息,通过测量目标实体与相应的属性值对的语义嵌入之间的余弦相似度来计算描述三元组的重要性。首先将语义嵌入进行投影,使得它们在同一嵌入空间中。然后计算它们的余弦相似度,定义了如下的重要性评分函数:
Figure BDA0002809653950000111
Figure BDA0002809653950000112
Sdsl(e,t)=cos(e,W1t)+cos(W2e,t)。
这里W1和W2都是投影矩阵。
此外,利用了这些描述三元组在摘要集合中的出现次数来对重要性评分进行优化,因为描述三元组如果被选进摘要集合的次数越多,越说明这个描述三元组更能够概括目标实体的主要特征,设计了如下的损失函数:
Figure BDA0002809653950000113
在训练过程中,通过如下的目标函数,结合摘要集合补全学习模块和描述重要性学习模块来优化模型:
L=λ1Ldsl2Lscl
这里λ1和λ2是比例参数。
第二生成模块403,用于基于描述三元组的表示通过重要性计算得到最重要的描述三元组,并将最重要的描述三元组作为前向LSTM的第一个输入;根据前向LSTM逐个生成临时序列,再通过反向LSTM的结果,结合前向LSTM,逐个修正临时序列,得到最终的实体摘要集合。
首先通过重要性计算得到最重要的描述三元组,作为前向LSTM的第一个输入:
Figure BDA0002809653950000114
然后,根据如下公式由前向LSTM逐个生成临时序列,以tn+1为例:
Figure BDA0002809653950000121
由前向隐藏层结果
Figure BDA0002809653950000122
和相应的公式推出,得到临时序列[t1,t2,…,tk]。
再通过反向LSTM的结果,结合前向LSTM,逐个倒推修正临时序列,以
Figure BDA0002809653950000123
为例,结合了前向和反向LSTM的结果,由以下公式推出:
Figure BDA0002809653950000124
这样就生成了最终确定的摘要集合:
Figure BDA0002809653950000125
综上所述,本发明采用Bi-LSTM对集合补全的过程进行建模,计算每个描述三元组的重要性,和所设计的集合补全的训练策略及摘要集合生成的方法,都有效挖掘了整个摘要集合中的上下文依赖性,以更简洁的方式全面概括实体的特征,充分考虑到摘要描述间的相关性和兼容性,能够有效提升实体摘要任务的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (2)

1.一种基于集合补全知识图谱实体摘要的方法,其特征在于,包括:
生成描述三元组的表示;
联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;
基于所述描述三元组的表示和所述优化模型,生成实体摘要;
其中,所述生成描述三元组的表示,包括:
在描述嵌入模块中,利用预训练的词嵌入向量来生成初始描述三元组<实体e,属性p,值v>的表示;将p和v拼接起来形成h,以组合属性和属性值;将h输入到多层感知器中,以编码属性值对的最终表示形式t,得到的描述三元组的表示为<e,t>;
所述联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型,包括:
将实体摘要集合视为序列,将实体摘要集合中的每个属性值对视为单个时间步输入到Bi-LSTM中,通过Bi-LSTM对实体摘要集合进行建模,其结构允许神经网络在每个时间步获得有关实体摘要序列的前向和后向信息;
通过测量目标实体与相应的属性值对的语义嵌入之间的余弦相似度来计算描述三元组的重要性;
利用描述三元组在摘要集合中的出现次数来对重要性的评分进行优化;
在训练过程中,通过目标函数结合摘要集合补全学习模块和描述重要性 学习模块来优化模型;
基于所述描述三元组的表示通过重要性计算得到最重要的描述三元组,并将所述最重要的描述三元组作为前向LSTM的第一个输入;
根据前向LSTM逐个生成临时序列,再通过反向LSTM的结果,结合前向LSTM,逐个修正临时序列,得到最终的实体摘要集合。
2.一种基于集合补全知识图谱实体摘要的系统,其特征在于,包括:
第一生成模块,用于生成描述三元组的表示;
训练模块,用于联合训练摘要集合补全学习模块和描述重要性学习模块,得到优化模型;
第二生成模块,用于基于所述描述三元组的表示和所述优化模型,生成实体摘要;
其中,所述第一生成模块具体用于:
在描述嵌入模块中,利用预训练的词嵌入向量来生成初始描述三元组<实体e,属性p,值v>的表示;将p和v拼接起来形成h,以组合属性和属性值;将h输入到多层感知器中,以编码属性值对的最终表示形式t,得到的描述三元组的表示为<e,t>;
所述训练模块具体用于:
将实体摘要集合视为序列,将实体摘要集合中的每个属性值对视为单个时间步输入到Bi-LSTM中,通过Bi-LSTM对实体摘要集合进行建模,其结构允许神经网络在每个时间步获得有关实体摘要序列的前向和后向信息;
通过测量目标实体与相应的属性值对的语义嵌入之间的余弦相似度来计算描述三元组的重要性;
利用描述三元组在摘要集合中的出现次数来对重要性的评分进行优化;
在训练过程中,通过目标函数结合摘要集合补全学习模块和描述重要性 学习模块来优化模型;
所述第二生成模块具体用于:
基于所述描述三元组的表示通过重要性计算得到最重要的描述三元组,并将所述最重要的描述三元组作为前向LSTM的第一个输入;
根据前向LSTM逐个生成临时序列,再通过反向LSTM的结果,结合前向LSTM,逐个修正临时序列,得到最终的实体摘要集合。
CN202011391570.XA 2020-12-01 2020-12-01 一种基于集合补全知识图谱实体摘要的方法及系统 Active CN112395428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391570.XA CN112395428B (zh) 2020-12-01 2020-12-01 一种基于集合补全知识图谱实体摘要的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391570.XA CN112395428B (zh) 2020-12-01 2020-12-01 一种基于集合补全知识图谱实体摘要的方法及系统

Publications (2)

Publication Number Publication Date
CN112395428A CN112395428A (zh) 2021-02-23
CN112395428B true CN112395428B (zh) 2022-09-06

Family

ID=74604119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391570.XA Active CN112395428B (zh) 2020-12-01 2020-12-01 一种基于集合补全知识图谱实体摘要的方法及系统

Country Status (1)

Country Link
CN (1) CN112395428B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579769B (zh) * 2022-05-07 2022-09-06 中国科学技术大学 小样本知识图谱补全方法、系统、设备及存储介质
CN115422369B (zh) * 2022-08-30 2023-11-03 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
JP2020191009A (ja) * 2019-05-23 2020-11-26 本田技研工業株式会社 知識グラフ補完装置、および知識グラフ補完方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
JP2020191009A (ja) * 2019-05-23 2020-11-26 本田技研工業株式会社 知識グラフ補完装置、および知識グラフ補完方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Towards Entity Summarisation on Structured Web Markup;Yu,Ran等;《SEMANTIC WEB, ESWC 2016》;20161231;第69-73页 *
基于文本表示学习的实体消歧研究;孙雅铭;《中国博士学位论文全文数据库(电子期刊)》;20190115;第I138-267页 *

Also Published As

Publication number Publication date
CN112395428A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
US11562039B2 (en) System and method for performing cross-modal information retrieval using a neural network using learned rank images
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
Miao et al. Proximity-based rocchio's model for pseudo relevance
CN110807154A (zh) 一种基于混合深度学习模型的推荐方法与系统
US8521672B2 (en) Dependency-based query expansion alteration candidate scoring
CN112395428B (zh) 一种基于集合补全知识图谱实体摘要的方法及系统
CN106599148A (zh) 一种文摘生成方法及装置
Wang et al. Retrieving complex tables with multi-granular graph representation learning
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20070038653A1 (en) Probabilistic retrospective event detection
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
Xu et al. BERT gated multi-window attention network for relation extraction
WO2010048758A1 (en) Classification of a document according to a weighted search tree created by genetic algorithms
CN115695950A (zh) 一种基于内容感知的视频摘要生成方法
Rodriguez et al. Comparison of information retrieval techniques for traceability link recovery
Li et al. Generative data augmentation with contrastive learning for zero-shot stance detection
CN111859238B (zh) 基于模型的预测数据变化频率的方法、装置和计算机设备
CN112015890B (zh) 电影剧本摘要的生成方法和装置
KR101246101B1 (ko) 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
CN116662596A (zh) 基于常识引导的文本到图像生成方法及装置
JP2019204268A (ja) ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム
CN114926239A (zh) 基于评论信息和评分矩阵的商品推荐方法、系统及设备
CN110929501B (zh) 文本分析方法和装置
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant