CN105224648A - 一种实体链接方法与系统 - Google Patents
一种实体链接方法与系统 Download PDFInfo
- Publication number
- CN105224648A CN105224648A CN201510632808.6A CN201510632808A CN105224648A CN 105224648 A CN105224648 A CN 105224648A CN 201510632808 A CN201510632808 A CN 201510632808A CN 105224648 A CN105224648 A CN 105224648A
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- mention
- mentioning
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实体链接方法与系统,预处理输入文本和知识库,获取提及词及其上下文、实体关键词;检索每个提及词的候选实体;将提及词根据其候选实体数量分为两类,候选实体数量小于预设阈值数量的提及词为明确提及词,其余为不明确提及词。对明确提及词进行第一阶段的实体链接。通过提及词与知识库中实体的相似度,以及实体之间的相似度,利用预设的提及词与实体对应关系图方法完成对候选实体的筛选。根据已经链接的目标实体,对不明确的提及词进行第二阶段的实体链接,根据是否为明确提及词分别分阶段进行实体链接的计算极大地减少算法的复杂度,通过更新提及词的上下文,如已经链接的实体,可以更准确、快捷地对文本中提及词进行实体链接。
Description
技术领域
本发明涉及智能信息处理领域,特别是涉及一种实体链接方法与系统。
背景技术
在飞速发展的信息时代,网络已经成为人类获取信息最主要的渠道。近年来,随着大型协同创作资源维基百科的兴起和基于维基百科结构化知识提取的知识库的出现,推动了基于维基百科知识的智能信息处理技术的发展。
实体链接就是将自然语言文本中的提及词(mention)映射到知识库中一组已知目标实体(entity)的过程。通过实体链接,将自由文本中的名称链接到知识库中的一个最合适的相关实体,使阅读者更加快捷方便地了解领域术语的释义,改进阅读体验,并且实现了对知识的抽取。
但用户的输入文本中可能存在不明确的提及词,进行实体链接复杂度高且可能不准确。
发明内容
有鉴于此,本发明的主要目的在于提供一种实体链接方法与系统,可以快捷准确地对文本中提及词进行实体链接。
为实现上述目的,本发明提供了一种实体链接方法,包括:
预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
从所述预设知识库中分别检索各所述提及词的候选实体;
将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
优选地,所述提及词的上下文包括:
上下文提及词序列和上下文分词序列。
优选地,预处理输入文本和预设知识库包括:
将所述输入文本中识别出的提及词定义为提及词序列;
将所述输入文本进行分词,去掉所述输入文本中的预设停用词,得到分词序列;
设定提及词的上下文提及词序列为其周围的预设提及词数量的提及词;
设定提及词的上下文分词序列为其周围的预设分词数量的分词;
设定实体关键词描述各实体;
设定提及词的候选实体集。
优选地,根据先验概率、提及词与实体的名称相似度和提及词与实体的上下文相似度计算各所述明确提及词与所述预设知识库中实体的相似度。
优选地,所述阈值为3~5。
优选地,所述带权重的无向图包括提及词对应实体边和实体对应实体边。
本发明还提供了一种实体链接系统,包括:
预处理模块,用于预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
候选实体检索模块,用于从所述预设知识库中分别检索各所述提及词的候选实体;
提及词分类模块,用于将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
第一阶段链接模块,用于对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
第二阶段链接模块,用于根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
优选地,所述系统中所述提及词的上下文包括:
上下文提及词序列和上下文分词序列。
优选地,所述系统中所述阈值为3~5。
优选地,所述系统中所述提及词与实体对应关系图包括提及词对应实体边和实体对应实体边。
应用本发明提供的一种实体链接方法与系统,预处理输入文本和知识库,获取提及词及其上下文、实体关键词;检索每个提及词的候选实体;将提及词根据其候选实体数量分为两类,候选实体数量小于预设阈值数量的提及词为明确提及词,其余为不明确提及词。对明确提及词进行第一阶段的实体链接。通过提及词与知识库中实体的相似度,以及实体之间的相似度,利用预设的提及词与实体对应关系图方法完成对候选实体的筛选。根据已经链接的目标实体,对不明确的提及词进行第二阶段的实体链接,根据是否为明确提及词分别分阶段进行实体链接的计算极大地减少算法的复杂度,通过更新提及词的上下文,如已经链接的实体,可以更准确、快捷地对文本中提及词进行实体链接。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种实体链接方法实施例的流程图;
图2为本发明一种实体链接方法的实施例的原理示意图;
图3为本发明一种实体链接方法的实施例的又一原理示意图;
图4为本发明一种实体链接方法的实施例的又一原理示意图;
图5为本发明一种实体链接系统的实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种实体链接方法,图1示出了本发明实体链接方法实施例的流程图,包括:
步骤S101:预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
将输入文本中已经由用户或者由实体识别工具识别出的提及词定义为提及词序列M={m1,…,mm};
将输入文本进行分词,除去停用词,例如a,Mr.,只使用实词,得到分词序列
提及词上下文包括:上下文提及词序列与上下文分词序列。
定义提及词mi的上下文提及词序列为其周围的预设提及词数量个提及词,如2k+1个提及词,
定义提及词mi的上下文分词序列为mi周围的预设分词数量个分词,如2k+1个分词,假设mi=tj,那么
定义实体关键词描述每个实体e。本发明从YAGO2知识库中提取每个的实体的关键短语。每个实体e∈E通过关键词函数Tok()分配到零个或多个关键字符串,定义为实体关键词,这些关键词通过简化YAGO2知识库中每个实体的解释得到。比如:对于“Obama(美国总统)”这个实体e,它的实体关键词序列Tok(e)={“US”,“president”}。
步骤S102:从所述预设知识库中分别检索各所述提及词的候选实体;
定义提及词mi候选实体集为Ei由对知识库的检索得到,其中ei,j∈Ei,表示提及词mi的第j个候选实体。
步骤S103:将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
如设定预设阈值为4,根据提及词候选链接数量将文中的提及词分为两类,定义候选实体数量小于4的提及词为明确提及词,其余为不明确提及词。明确提及词的候选实体非常少,基本没有歧义,能更容易地链接到正确的目标实体。
步骤S104:对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
计算明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,其中,计算明确提及词与所述预设知识库中实体的相似度即局部相似度使用先验概率、提及词与实体的名称相似度、提及词与实体的上下文相似度三个指标进行计算;计算所述预设知识库中实体间的相似度即全局相似度使用实体间的相似度计算。
先验概率计算的基础是预设知识库连接结构,预设知识库如维基百科,对于一个提及词,计算它链接到一个特定实体的次数,也就是提及词mi链接到代表实体e的维基百科文章的相对频率,反映了提及词mi指向实体e的可能性。比如,在所有的维基百科文章中“tree(树)”链接到树(植物)的概率较高,而链接到tree(数据结构)的概率较低。因此可以认为tree(植物)这个实体更具有普遍性。实体的先验概率函数表示为公式(1):
提及词名称与实体名称相似度函数f2反映了文中提及词mi的名称与实体eij的名称这两个字符串的相似度。例如,输入文本中的提及词“MichaelJ.Jordan”和实体“Michael_Jordan”间的名称相似度,去掉空格和符号,使用3-grams对提及词名称和实体名称的字符串进行划分,并使用Jaccard相似度系数进行计算。提及词名称与实体名称相似度表示为公式(2):
提及词序列与实体关键词相似度函数f3反映了提及词mi的候选实体eij与其上下文提及词序列M'={mi-k,…,mi,…,mi+k}的语义相关度。mt表示mi的上下文提及词序列M'中除了mi的每个提及词,Co_count(mt,eij)与mi的候选实体eij的同现计数,可以根据维基百科的统计数据计算。Count(mt)指的是在所有维基百科文章中,提及词mt的上下文M'出现的次数。设定这个值至少为1,然而在大部分情况下这个值非常小,因此对提及词mi的候选实体集Ei应用线性归一化方法,如公式(3)所示:
分词序列与实体关键词相似度函数f4反映的是提及词mi的上下文分词序列T′与其候选实体eij的实体关键词Tok(eij)之间的关系。在对知识库的预处理中,已经得到实体关键词Tok(eij)。在链接过程中,将提及词mi的上下文T′={tj-k,…,tj,…,tj+k}与候选实体eij的实体关键词Tok(eij)进行比对,计算它们的重叠系数,表示为公式(4);
实体间相似度函数反映的是两个实体之间的关系,这两个实体分别属于不同提及词的候选实体集。若几个实体之间的相似度较强,那么它们为目标实体的可能性较大。具有相同实体关键词的两个实体具有较强的关联度。因此,两个实体eij,ekl的关系通过计算它们实体关键词Tok(eij)和Tok(ekl)的重叠系数得到,表示为公式(5):
根据计算结果,使用提及词与实体对应关系图方法即提及词-实体图方法完成对候选实体的筛选,提及词-实体图是一种带权重的无向图,如图2所示,图中节点是提及词和候选实体。图2左侧201是已进行过实体识别步骤的输入文本,右侧203是知识库,中间202是根据提及词在知识库中找到的候选实体。可以看到图中包含两种类型的边:提及词-实体边204和实体-实体边205。它们代表的含义如下:
(1)提及词-实体边:代表局部相似度,也就是文中提及词与知识库中候选实体之间的相似度。通过综合各方面的相似度计算得到其权重,将公式(1)、(2)、(3)、(4)相结合,使用公式(6)进行计算:
(2)实体-实体边:代表全局一致性,也就是提及词的候选实体之间的一致性。通过计算实体之间的相似度得到其权重,使用公式(7)进行计算:
coh(eij,ekl)=f5(eij,ekl)(7)。
一个候选实体的权重等于它提及词-实体边和实体-实体边的权重之和,在提及词-实体图上进行多次迭代计算:每次检测权重最小的实体,如果它不是提及词的最后一个候选实体,那么将它删除。这样就可以得到提及词-实体图的最优子图:其包含所有明确提及词节点,并且每个提及词节点保留一条提及词-实体边。通过这样的方法完成了第一阶段实体链接。
步骤S105:根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
在第二阶段的实体链接中,使用第一阶段已经链接的实体作为上下文,同第一阶段相同,利用提及词-实体图对不明确的提及词进行实体链接。最终得到全部已链接的目标实体。
本实施例的实体链接分为两阶段,流程架构如图3所示,执行过程如图4所示。
应用本实施例提供的一种实体链接方法,预处理输入文本和知识库,获取提及词及其上下文、实体关键词;检索每个提及词的候选实体;将提及词根据其候选实体数量分为两类,候选实体数量小于预设阈值数量的提及词为明确提及词,其余为不明确提及词。对明确提及词进行第一阶段的实体链接。通过提及词与知识库中实体的相似度,以及实体之间的相似度,利用预设的提及词与实体对应关系图方法完成对候选实体的筛选。根据已经链接的目标实体,对不明确的提及词进行第二阶段的实体链接,根据是否为明确提及词分别分阶段进行实体链接的计算极大地减少算法的复杂度,通过更新提及词的上下文,如已经链接的实体,可以更准确、快捷地对文本中提及词进行实体链接。
本发明还提供了一种实体链接系统,如图5所示,为本发明实体链接系统实施例的结构示意图,包括:
预处理模块501,用于预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
候选实体检索模块502,用于从所述预设知识库中分别检索各所述提及词的候选实体;
提及词分类模块503,用于将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
第一阶段链接模块504,用于对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
第二阶段链接模块505,用于根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
应用本实施例提供的一种实体链接系统,预处理输入文本和知识库,获取提及词及其上下文、实体关键词;检索每个提及词的候选实体;将提及词根据其候选实体数量分为两类,候选实体数量小于预设阈值数量的提及词为明确提及词,其余为不明确提及词。对明确提及词进行第一阶段的实体链接。通过提及词与知识库中实体的相似度,以及实体之间的相似度,利用预设的提及词与实体对应关系图方法完成对候选实体的筛选。根据已经链接的目标实体,对不明确的提及词进行第二阶段的实体链接,根据是否为明确提及词分别分阶段进行实体链接的计算极大地减少算法的复杂度,通过更新提及词的上下文,如已经链接的实体,可以更准确、快捷地对文本中提及词进行实体链接。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种实体链接方法,其特征在于,包括:
预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
从所述预设知识库中分别检索各所述提及词的候选实体;
将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
2.根据权利要求1所述的方法,其特征在于,所述提及词的上下文包括:
上下文提及词序列和上下文分词序列。
3.根据权利要求2所述的方法,其特征在于,预处理输入文本和预设知识库包括:
将所述输入文本中识别出的提及词定义为提及词序列;
将所述输入文本进行分词,去掉所述输入文本中的预设停用词,得到分词序列;
设定提及词的上下文提及词序列为其周围的预设提及词数量的提及词;
设定提及词的上下文分词序列为其周围的预设分词数量的分词;
设定实体关键词描述各实体;
设定提及词的候选实体集。
4.根据权利要求2所述的方法,其特征在于,根据先验概率、提及词与实体的名称相似度和提及词与实体的上下文相似度计算各所述明确提及词与所述预设知识库中实体的相似度。
5.根据权利要求1所述的方法,其特征在于,所述阈值为3~5。
6.根据权利要求1所述的方法,其特征在于,所述提及词与实体对应关系图包括提及词对应实体边和实体对应实体边。
7.一种实体链接系统,其特征在于,包括:
预处理模块,用于预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
候选实体检索模块,用于从所述预设知识库中分别检索各所述提及词的候选实体;
提及词分类模块,用于将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
第一阶段链接模块,用于对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
第二阶段链接模块,用于根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
8.根据权利要求7所述的系统,其特征在于,所述提及词的上下文包括:
上下文提及词序列和上下文分词序列。
9.根据权利要求7所述的系统,其特征在于,所述阈值为3~5。
10.根据权利要求7所述的系统,其特征在于,所述提及词与实体对应关系图包括提及词对应实体边和实体对应实体边。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510632808.6A CN105224648A (zh) | 2015-09-29 | 2015-09-29 | 一种实体链接方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510632808.6A CN105224648A (zh) | 2015-09-29 | 2015-09-29 | 一种实体链接方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105224648A true CN105224648A (zh) | 2016-01-06 |
Family
ID=54993616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510632808.6A Pending CN105224648A (zh) | 2015-09-29 | 2015-09-29 | 一种实体链接方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105224648A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106503148A (zh) * | 2016-10-21 | 2017-03-15 | 东南大学 | 一种基于多知识库的表格实体链接方法 |
CN106934020A (zh) * | 2017-03-10 | 2017-07-07 | 东南大学 | 一种基于多域实体索引的实体链接方法 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN107608960A (zh) * | 2017-09-08 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108491375A (zh) * | 2018-03-02 | 2018-09-04 | 复旦大学 | 基于CN-DBpedia的实体识别与链接系统和方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109165297A (zh) * | 2018-08-10 | 2019-01-08 | 新华智云科技有限公司 | 一种通用实体链接装置及方法 |
CN109189907A (zh) * | 2018-08-22 | 2019-01-11 | 山东浪潮通软信息科技有限公司 | 一种基于语义匹配的检索方法及装置 |
CN110019834A (zh) * | 2017-10-16 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 一种标注文字链的方法、装置、服务器及介质 |
CN110019840A (zh) * | 2018-07-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种知识图谱中实体更新的方法、装置和服务器 |
CN110569496A (zh) * | 2018-06-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN110765271A (zh) * | 2018-07-09 | 2020-02-07 | 株式会社理光 | 一种实体发现与实体链接的联合处理方法及装置 |
CN110929038A (zh) * | 2019-10-18 | 2020-03-27 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN111523326A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111737430A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112001178A (zh) * | 2020-08-27 | 2020-11-27 | 广东工业大学 | 长尾实体的识别与消歧方法 |
CN112825112A (zh) * | 2019-11-20 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机终端 |
CN113723605A (zh) * | 2020-05-26 | 2021-11-30 | 株式会社理光 | 实体链接方法、装置及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
-
2015
- 2015-09-29 CN CN201510632808.6A patent/CN105224648A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
《南京大学学报(自然科学)》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
CN106202382B (zh) * | 2016-07-08 | 2019-06-14 | 南京柯基数据科技有限公司 | 链接实体方法和系统 |
CN106295796B (zh) * | 2016-07-22 | 2018-12-25 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106503148A (zh) * | 2016-10-21 | 2017-03-15 | 东南大学 | 一种基于多知识库的表格实体链接方法 |
CN106503148B (zh) * | 2016-10-21 | 2019-05-31 | 东南大学 | 一种基于多知识库的表格实体链接方法 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN106960001B (zh) * | 2017-02-08 | 2019-10-01 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN106934020A (zh) * | 2017-03-10 | 2017-07-07 | 东南大学 | 一种基于多域实体索引的实体链接方法 |
CN107608960B (zh) * | 2017-09-08 | 2021-01-08 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
CN107608960A (zh) * | 2017-09-08 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
CN110019834A (zh) * | 2017-10-16 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 一种标注文字链的方法、装置、服务器及介质 |
CN108415902B (zh) * | 2018-02-10 | 2021-10-26 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108491375B (zh) * | 2018-03-02 | 2022-04-12 | 复旦大学 | 基于CN-DBpedia的实体识别与链接系统和方法 |
CN108491375A (zh) * | 2018-03-02 | 2018-09-04 | 复旦大学 | 基于CN-DBpedia的实体识别与链接系统和方法 |
CN110569496A (zh) * | 2018-06-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN110569496B (zh) * | 2018-06-06 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN108959461B (zh) * | 2018-06-15 | 2021-07-27 | 东南大学 | 一种基于图模型的实体链接方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN110765271A (zh) * | 2018-07-09 | 2020-02-07 | 株式会社理光 | 一种实体发现与实体链接的联合处理方法及装置 |
CN110765271B (zh) * | 2018-07-09 | 2024-02-09 | 株式会社理光 | 一种实体发现与实体链接的联合处理方法及装置 |
CN110019840A (zh) * | 2018-07-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种知识图谱中实体更新的方法、装置和服务器 |
CN109165297A (zh) * | 2018-08-10 | 2019-01-08 | 新华智云科技有限公司 | 一种通用实体链接装置及方法 |
CN109189907A (zh) * | 2018-08-22 | 2019-01-11 | 山东浪潮通软信息科技有限公司 | 一种基于语义匹配的检索方法及装置 |
CN110929038B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN110929038A (zh) * | 2019-10-18 | 2020-03-27 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN112825112A (zh) * | 2019-11-20 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机终端 |
CN112825112B (zh) * | 2019-11-20 | 2024-05-31 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机终端 |
CN111523326A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111523326B (zh) * | 2020-04-23 | 2023-03-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
US11704492B2 (en) | 2020-04-23 | 2023-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text |
CN113723605A (zh) * | 2020-05-26 | 2021-11-30 | 株式会社理光 | 实体链接方法、装置及可读存储介质 |
CN111737430B (zh) * | 2020-06-16 | 2024-04-05 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN111737430A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112001178A (zh) * | 2020-08-27 | 2020-11-27 | 广东工业大学 | 长尾实体的识别与消歧方法 |
CN112001178B (zh) * | 2020-08-27 | 2024-07-30 | 广东工业大学 | 长尾实体的识别与消歧方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224648A (zh) | 一种实体链接方法与系统 | |
Aliwy et al. | Comparative study of five text classification algorithms with their improvements | |
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
US8751218B2 (en) | Indexing content at semantic level | |
CN108121700A (zh) | 一种关键词提取方法、装置及电子设备 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN103544242A (zh) | 面向微博的情感实体搜索系统 | |
CN103778205A (zh) | 一种基于互信息的商品分类方法和系统 | |
CN101561805A (zh) | 文档分类器生成方法和系统 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
WO2014210387A2 (en) | Concept extraction | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
CN106156041A (zh) | 热点信息发现方法及系统 | |
CN104008187A (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN108536664A (zh) | 商品领域的知识融合方法 | |
Sharma et al. | Resume Classification using Elite Bag-of-Words Approach | |
CN104537280A (zh) | 基于文本关系相似性的蛋白质交互关系识别方法 | |
CN110032619A (zh) | 一种基于深度学习的分词器训练方法及其装置 | |
CN106777283A (zh) | 一种同义词的挖掘方法及装置 | |
CN108241650B (zh) | 训练分类标准的训练方法和装置 | |
Wang et al. | Semi-supervised chinese open entity relation extraction | |
CN107122378A (zh) | 对象处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160106 |