CN105045826A - 一种基于图模型的实体链接算法 - Google Patents

一种基于图模型的实体链接算法 Download PDF

Info

Publication number
CN105045826A
CN105045826A CN201510366304.4A CN201510366304A CN105045826A CN 105045826 A CN105045826 A CN 105045826A CN 201510366304 A CN201510366304 A CN 201510366304A CN 105045826 A CN105045826 A CN 105045826A
Authority
CN
China
Prior art keywords
entity
graph model
linked
candidate
wikipedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510366304.4A
Other languages
English (en)
Inventor
杨燕
罗念
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510366304.4A priority Critical patent/CN105045826A/zh
Publication of CN105045826A publication Critical patent/CN105045826A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明公开了一种基于图模型的实体链接算法,其特点是利用维基百科知识库形成候选实体,然后运用LDA对实体之间构造语义特征,以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将相关语义特征特征融入图模型中,以PageRank算法对实体进行排名,得到实体链接的结果,具体包括命名词典、候选实体集、相关特征的计算和融合、图模型的构建和候选实体的排名步骤。本发明与现有技术相比具有实体特征融合好,实体链接的结果可靠性高,利用维基百科下载数据,不需要额外成本,尤其无需人工标注数据集,方法简便,使用方便,省时省力。

Description

一种基于图模型的实体链接算法
技术领域
本发明涉及信息库文本处理技术领域,尤其是一种基于图模型的实体链接算法。
背景技术
实体链接任务的研究对象是包含任务、机构和地方三种类型的实体名词,其研究目标是:给定一个包含目标实体以及支撑该查询词的背景文档的查询,将次目标实体与已有知识库中具有互相指代关系的实体进行正确连接,若知识库中不存在与查询实体相连接的实体节点称为非KB实体,对此类非KB实体进行聚类。将普遍性查询需求的实体加入到知识扩种,对知识库进行扩展和维护。因此,实体链接任务一方面可以准确的反馈用户的查询结果,另一方面还可以对已有知识库进行扩展,丰富知识库的信息。实体链接可以与信息抽取、知识检索、问答系统、文本挖掘等技术结合,具有极为广泛地应用场景。
目前,实体链接可以分为候选实体形成和候选实体排名两个模块,候选实体形成就是利用相关信息,给出待链接实体可能表示的实体列表,主要有分为基于命名词典的技术,基于局部文档的表面形式扩展。候选实体排名就是对从待链接实体中选择待链接实体真正的映射实体,主要分为监督学习的方法和无监督学习的方法。监督的排序方法的优点是:利用了训练语料中的特征信息,对其中的规律进行了挖掘和利用。不足之处在于,此种方法需要人工标注数据集,需要大量人力和时间,并且并未对文章中存在的一些描述目标实体的语义信息进行挖掘,而是将文章中出现的所有实体同等看待,忽略了目标实体的语义信息的作用。无监督学习的方法优点在于不需要标注数据,省去的大量的人力和时间,缺点在于特征不好融合。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于图模型的实体链接算法,采用LDA对维基百科知识库形成候选实体之间构造语义特征,同时利用利用维基百科的链接结构对实体和实体之间的构建关系形成图模型,然后将实体特征融入图模型中,利用改进的PageRank算法对实体进行排名,得到实体链接的结果,方法简便,无需人工标注数据集,省时省力,实体特征融合好。
本发明的目的是这样实现的:一种基于图模型的实体链接算法,其特点是利用维基百科知识库形成候选实体,然后运用LDA对实体之间构造语义特征,以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将相关语义特征特征融入图模型中,以PageRank算法对实体进行排名,得到实体链接的结果,实体链接算法包括以下具体步骤:
(一)、命名词典
对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百科离线数据库,得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征,将不同类型的特征合并为不同名称的实体,并以哈希映射这些实体建立离线词典。
(二)、构造待链接实体的候选实体集
对不同名称的实体与文本中待链接实体进行匹配,将一些名称与待链接实体相似性高的实体被征入候选,生成待链接实体的候选实体集;所述匹配为实体名称全包含或部分包含待链接实体,且实体名称精确匹配了待链接实体中所有单词的首字母,实体名称和待链接实体共享若干共同的单词;所述相似性采用字符Dice系数和海明距离测量。
(三)、相关特征的计算
⑴、实体流行度
采用下述(a)公式计算实体流行度:
P o p ( e i ) = count m ( e i ) Σ e j ∈ E m count m ( e j ) - - - ( a )
其中:ei为实体;m为待链接实体;countm(ei)为实体的链接数;
⑵、文本相似性
根据实体所在的上下文,利用LDA得到待链接实体和候选实体所在文本中词语关于主题的分布,以及每一文本的词语得到关于主题的概率分布,采用下述(b)和(c)公式计算Zero-KL距离,取Zero-KL距离的倒数为待链接实体和其候选实体所在的文本之间的文本相似性SimText(ei);
D K L ( P | | Q ) = Σ i P i l o g P i Q i - - - ( b )
ZKL γ ( P , Q ) = Σ i P i l o g P i Q i Q i ≠ 0 γ Q i = 0 - - - ( c )
其中:γ为阈值。
(四)、图模型的构建
⑴、相关特征的融合
将实体流行度和文本相似性采用下述(d)杰卡德相似性公式计算实体之间主题一致性,进行两相关特征的融合;
Coh j ( u 1 , u 2 ) = | U 1 ∩ U 2 | | U 1 ∪ U 2 | ; - - - ( d )
⑵、图模型的形成
以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将候选实体的流行度、文本相似性和实体之间主题一致性的语义特征融入图模型。
(五)、候选实体的排名
⑴、将实体流行度和文本相似性采用下述(e)式进行特征合并,得到节点的初始的权重;
Weight(ei)=λpop(ei)+(1-λ)SimText(ei)(e)
其中:λ为平衡实体流行度和文本相似性的参数;
(2)、采用下述(f)和(g)公式计算图模型中节点的权重;
P R ( e i ) = ( 1 - d ) N + d F ( e i ) Σ e j ∈ c o h ( e i ) P R ( e j ) × W ( e i , e j ) - - - ( f )
F ( e i ) = Σ e j ∈ c o h ( e i ) W ( e i , e j ) - - - ( g )
(3)、采用下述(h)和(i)公式对图模型中节点的权重与初始权重进行计算排名,得到两个得分排名最高的实体;
Rm(ei,j)=IConf(ei,j)×PR(ei,j)(h)
Rs(ei,j)=IConf(ei,j)+PR(ei,j);(i)
⑷、将上述两个得分排名最高的实体采用下述(j)和(k)公式计算两实体之间的差异;
e ^ i m = arg m a x e i , j R m ( e i , j ) - - - ( j )
e ^ i s = arg m a x e i , j R s ( e i , j ) ; - - - ( k )
根据上述计算结果,挑选每个待链接实体的候选实体列表中得分最高的实体为实体链接的结果。
本发明与现有技术相比具有实体特征融合好,实体链接的结果可靠性高,利用维基百科下载数据,不需要额外成本,尤其无需人工标注数据集,方法简便,使用方便,省时省力。
附图说明
图1为本发明操作流程图。
具体实施方式
参阅附图1,本发明利用维基百科知识库形成候选实体,然后运用LDA对实体之间构造语义特征,以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将相关语义特征特征融入图模型中,以PageRank算法对实体进行排名,得到实体链接的结果,实体链接算法包括以下具体步骤:
(一)、命名词典
对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百科离线数据库,得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征,将不同类型的特征合并为不同名称的实体,并以哈希映射这些实体建立离线词典。
维基百科提供一系列对于构建候选实体有用的特征结构,例如,实体页面、重定向页面、消歧页面、在维基百科中的超链接。这些实体链接系统利用不同的特征合并不同名称和它们的映射实体来建立离线词典D,同时利用构建的词典D生成实体候选,命名词典D包含了关于不同命名实体的名称大量信息,利用名称变化、名称缩写、名称混淆名、名称拼写变化以及小名等等。命名词典D是(key,value)哈希映射,在这里,键(key)为一系列名称列表,假设k是键中的一个名称,那么它映射的值k.value是一系列能表示该名称k的实体。词典D是利用维基百科的特征构建的,其实体页面特征为:维基百科中的每个实体页面描述单一的实体,并包含这个实体的相关信息。通常用每个页面标题代表该实体的名称,例如页面标题“Microsoft”为大型的软件公司,总部设在雷德蒙德。因此,实体页面的标题被添加到词典D中的键作为名称k,该页面被描述的实体被添加作为k.value。
所述重定向页面特征为:记录同义词术语、缩写或其它指向的实体的变体。例如,文章标题为"MicrosoftCorporation",这是“Microsoft”的全名,它包含一个对实体“Microsoft”这篇文章的指向。因此,重定向的标题页被添加到词典D中的键列中作为名称k,同时指向实体被添加作为k.value。
所述消歧页面特征为:当同一个名称在维基百科中有多个对应的实体时,维基百科提供消歧页面来区分这些实体,该消歧页面包含了表示这些实体的一个列表。例如,消歧页面“NewYork”包含了44个和“NewYork”有相同名称的实体,其中包括国际大都市纽约市和纽约时报等。消歧页面对提取实体缩写和别名非常有帮助,对于每个消歧页面,页面标题被添加到词典D中的键作为名称k,而消歧页面中的实体列表被添加作为k.value。
所述维基百科中超链接特征为:在维基百科中的文章通常包括链接到这篇文章中提到的实体的页面,一个指向实体页面链接的锚文本提供了非常有用的同义词资源,以及其它指向实体的变体,这些变体能够被当作链接实体的一个名称。例如,在“Hewlett-Packard”这个实体页面中,有一个超链接指向实体“WilliamReddingtonHewlett”,它的锚文本为“BillHewlett”,这是一个实体“WilliamReddingtonHewlett”的别名,一个超链接的锚文本被添加到词典D中的键作为名称k,指向的实体被添加作为k.value。
利用上述的维基百科特征,具体来说,首先下载离线的维基百科数据,然后利用JWPL工具,将无规则的数据转化为有规则的速度,然后导入到数据库中,然后可以从数据库中得到以上四种类型的特征(实体页面,重定向页面,消歧页面,维基百科中的超链接),利用以上的维基百科特征,构建了词典D。
(二)、构造待链接实体的候选实体集
对不同名称的实体与文本中待链接实体进行匹配,将一些名称与待链接实体相似性高的实体被征入候选,生成待链接实体的候选实体集;所述匹配为实体名称全包含或部分包含待链接实体,且实体名称精确匹配了待链接实体中所有单词的首字母,实体名称和待链接实体共享若干共同的单词;所述相似性采用字符Dice系数和海明距离测量。
基于词典构建的这种方法,对于待链接实体m∈M,生成候选实体系列Em的一种方法是利用键中的名称k和待链接实体之间进行准确匹配,如果其中一些名称k和待链接实体m相同,实体k.value被增加到候选集Em,其具体匹配步骤如下:
⑴、实体名称全包含或者部分包含待链接实体;
⑵、实体名称精确匹配了待链接实体中所有单词的首字母;
⑶、实体名称和待链接实体共享若干共同的单词;
⑷、实体名称和待链接实体相似性很高,许多相似性测量的方法已经被采用,例如,字符Dice系数、海明距离等;
通过以上步骤对待链接实体形成候选实体。
(三)、相关特征的计算
⑴、实体流行度
该特征刻画待链接实体的每个候选实体的出现的先验概率,每个待链接实体m对应的候选实体ei∈Em有不同的流行度,同时一些实体对于待链接实体m是很少被提及的,关于这个待链接实体“NewYork”,这个候选实体“NewYork(film)”相比于“NewYorkCity”是更少被提及的,在大多数情况下,人们提到“NewYork”,他们认为是“NewYorkCity”而不是“NewYork(film)”,实体流行度采用下述(a)公式计算:
P o p ( e i ) = count m ( e i ) Σ e j ∈ E m count m ( e j ) - - - ( a )
其中:countm(ei)表示指向实体ei的链接数,同时有这个提及形式m作为锚文本,得到候选实体的初始权重为Pop(ei)。
⑵、文本相似性
根据实体所在的上下文,利用LDA得到待链接实体和候选实体所在文本中词语关于主题的分布,以及每一文本的词语得到关于主题的概率分布,采用下述(b)和(c)公式计算Zero-KL距离,取Zero-KL距离的倒数为待链接实体和其候选实体所在的文本之间的文本相似性;
D K L ( P | | Q ) = Σ i P i l o g P i Q i - - - ( b )
ZKL γ ( P , Q ) = Σ i P i l o g P i Q i Q i ≠ 0 γ Q i = 0 - - - ( c )
其中:γ为一个阈值,一般取20,即待链接实体和其候选实体所在的文本之间的文本相似性为Zero-KL距离的倒数,得到候选实体初始权重SimText(ei)。
(四)、图模型的构建
⑴、相关特征的融合
根据上述实体流行度和文本相似性采用下述(d)杰卡德相似性公式计算实体之间主题一致性,进行两相关特征的融合;
Coh j ( u 1 , u 2 ) = | U 1 ∩ U 2 | | U 1 ∪ U 2 | - - - ( d )
⑵、图模型的形成
以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将候选实体的流行度、文本相似性和实体之间主题一致性的语义特征融入图模型。
(五)、候选实体的排名
假设一篇文档有许多待链接实体M={m1,m2,m3,......,mk},对于每个待链接实体mi∈M,对每个候选实体进行排名,每个待链接实体mi的候选实体集为:Ei={ei,1,ei,2,......,ei,j}。
所述图模型中每个节点系列表示为:节点是待链接实体和其候选实体对形成的,节点的初始权重为其候选实体的流行度和待链接实体与候选实体之间相似性线性组合而成。节点和节点之间的边的权重为实体之间主题一致性,主要采用杰卡德相似性计算实体之间主题一致性。
所述图模型中不同候选实体之间的链接权重表示实体之间的关系,这些关系被用于有效增强相应的候选实体。一般来说,这些链接之间的权重被设置为1,图模型中所有的节点通过Page-Rank按照这些链接关系进行排名,其具体计算如下:
(1)、将实体流行度和文本相似性采用下述(e)式进行特征合并,得到节点的初始的权重;
Weight(ei)=λpop(ei)+(1-λ)SimText(ei)(e)
其中:λ为平衡实体流行度和文本相似性的参数,通过训练数据的经验,一般取λ=0.8。
(2)、采用下述(f)和(g)公式计算图模型中节点的权重;
P R ( e i ) = ( 1 - d ) N + d F ( e i ) Σ e j ∈ c o h ( e i ) P R ( e j ) × W ( e i , e j ) - - - ( f )
F ( e i ) = Σ e j ∈ c o h ( e i ) W ( e i , e j ) - - - ( g )
其中:N表示图中节点的数目;Coh(ei)表示节点ei的初始权重;W(ei,ej)表示节点ei和节点ej之间的边的权重。
(3)、采用下述(h)和(i)公式对图模型中节点的权重与初始权重进行计算排名,得到两个得分排名最高的实体;
Rm(ei,j)=IConf(ei,j)×PR(ei,j)(h)
Rs(ei,j)=IConf(ei,j)+PR(ei,j)(i)
标准的PR算法假设节点的初始排名是均匀相等的,传统的Page-Rank最终节点排名仅仅基于链接节点的重要性,初始节点的权重没有那么重要,本发明使用初始的实体流行度和文本相似性加权作为候选实体节点的权重,进行PageRank之后节点的权重和初始权重合并,具体合并如下进行:
数据:Ei为待链接实体mi的候选项列表;
结果:待链接实体的真正映射实体:
R 1 = { ( R m ( e i , j ) , e i , j ) | ∀ e i , j ∈ E i } ;
R 2 = { ( R s ( e i , j ) , e i , j ) | ∀ e i , j ∈ E i } ;
对R1进行降序排列;
对R2进行降序排列;
R1diff=R1[0]-R1[1];
R2diff=R2[0]-R2[1];
如果:R1diff>R2diff,然后
返回R1中得分排名最高的实体:(R1[0])
否则
返回R2中得分排名最高的实体:(R2[0])
结束
⑷、将上述两个得分排名最高的实体采用下述(j)和(k)公式计算彼此之间的差异;
e ^ i m = arg m a x e i , j R m ( e i , j ) - - - ( j )
e ^ i s = arg m a x e i , j R s ( e i , j ) - - - ( k )
根据计算的两个实体之间的差异,挑选每个待链接实体的候选实体列表中得分最高的实体为实体链接的结果。本发明采用一种融合了两动态选择算法来选择真正的映射实体,得到的排名最高的两个实体之间的差异,实体特征融合好,实体链接的结果可靠性高。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。

Claims (1)

1.一种基于图模型的实体链接算法,其特征在于利用维基百科知识库形成候选实体,然后运用LDA对实体之间构造语义特征,以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将相关语义特征特征融入图模型中,以PageRank算法对实体进行排名,得到实体链接的结果,实体链接算法包括以下具体步骤:
(一)、命名词典
对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百科离线数据库,得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征,将不同类型的特征合并为不同名称的实体,并以哈希映射这些实体建立离线词典;
(二)、构造待链接实体的候选实体集
对不同名称的实体与文本中待链接实体进行匹配,将一些名称与待链接实体相似性高的实体被征入候选,生成待链接实体的候选实体集;所述匹配为实体名称全包含或部分包含待链接实体,且实体名称精确匹配了待链接实体中所有单词的首字母,实体名称和待链接实体共享若干共同的单词;所述相似性采用字符Dice系数和海明距离测量;
(三)、相关特征的计算
⑴、实体流行度
采用下述(a)公式计算实体流行度:
P o p ( e i ) = count m ( e i ) Σ e j ∈ E m count m ( e j ) - - - ( a )
其中:ei为实体;m为待链接实体;countm(ei)为实体的链接数;
⑵、文本相似性
根据实体所在的上下文,利用LDA得到待链接实体和候选实体所在文本中词语关于主题的分布,以及每一文本的词语得到关于主题的概率分布,采用下述(b)和(c)公式计算Zero-KL距离,取Zero-KL距离的倒数为待链接实体和其候选实体所在的文本之间的文本相似性SimText(ei);
D K L ( P | | Q ) = Σ i P i l o g P i Q i - - - ( b )
ZKL γ ( P , Q ) = Σ i P i l o g P Q i Q i ≠ 0 λ Q i = 0 - - - ( c )
其中:γ为阈值;
(四)、图模型的构建
⑴、相关特征的融合
将实体流行度和文本相似性采用下述(d)杰卡德相似性公式计算实体之间主题一致性,进行两相关特征的融合;
Coh j ( u 1 , u 2 ) = | U 1 ∩ U 2 | | U 1 ∪ U 2 | ; - - - ( d )
⑵、图模型的形成
以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将候选实体的流行度、文本相似性和实体之间主题一致性的语义特征融入图模型;
(五)、候选实体的排名
⑴、将实体流行度和文本相似性采用下述(e)式进行特征合并,得到节点的初始的权重:
Weight(ei)=λpop(ei)+(1-λ)SimText(ei)(e)
其中:λ为平衡实体流行度和文本相似性的参数;
(2)、采用下述(f)和(g)公式计算图模型中节点的权重;
P R ( e i ) = ( 1 - d ) N + d F ( e i ) Σ e j ∈ c o h ( e i ) P R ( e j ) × W ( e i , e j ) - - - ( f )
F ( e i ) = Σ e j ∈ c o h ( e i ) W ( e i , e j ) ; - - - ( g )
(3)、采用下述(h)和(i)公式对图模型中节点的权重与初始权重进行计算排名,得到两个得分排名最高的实体;
Rm(ei,j)=IConf(ei,j)×PR(ei,j)(h)
Rs(ei,j)=IConf(ei,j)+PR(ei,j)(i)
⑷、将上述两个得分排名最高的实体采用下述(j)和(k)公式计算两实体之间的差异;
e ^ i m = arg max e i , j R m ( e i , j ) - - - ( j )
e ^ i s = arg max e i , j R s ( e i , j ) ; - - - ( k )
根据上述计算结果,挑选每个待链接实体的候选实体列表中得分最高的实体为实体链接的结果。
CN201510366304.4A 2015-06-29 2015-06-29 一种基于图模型的实体链接算法 Pending CN105045826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510366304.4A CN105045826A (zh) 2015-06-29 2015-06-29 一种基于图模型的实体链接算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510366304.4A CN105045826A (zh) 2015-06-29 2015-06-29 一种基于图模型的实体链接算法

Publications (1)

Publication Number Publication Date
CN105045826A true CN105045826A (zh) 2015-11-11

Family

ID=54452373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510366304.4A Pending CN105045826A (zh) 2015-06-29 2015-06-29 一种基于图模型的实体链接算法

Country Status (1)

Country Link
CN (1) CN105045826A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
CN106909655A (zh) * 2017-02-27 2017-06-30 中国科学院电子学研究所 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN107133257A (zh) * 2017-03-21 2017-09-05 华南师范大学 一种基于中心连通子图的相似实体识别方法及系统
CN107133237A (zh) * 2016-02-29 2017-09-05 富士通株式会社 图像链接方法和图像链接设备
CN107316062A (zh) * 2017-06-26 2017-11-03 中国人民解放军国防科学技术大学 一种改进的面向领域的命名实体消歧方法
CN108108344A (zh) * 2016-11-24 2018-06-01 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110390106A (zh) * 2019-07-24 2019-10-29 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110569496A (zh) * 2018-06-06 2019-12-13 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111522911A (zh) * 2020-04-16 2020-08-11 创新奇智(青岛)科技有限公司 实体链接方法、装置、设备及存储介质
CN112925961A (zh) * 2019-12-06 2021-06-08 北京海致星图科技有限公司 一种基于企业实体的智能问答方法及装置
CN113626613A (zh) * 2021-08-18 2021-11-09 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AYMAN ALHELBAWY 等: "Collective Named Entity Disambiguation using Graph Ranking and Clique Partitioning Approaches", 《PROCEEDINGS OF COLING 2014 THE 25TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
ZHAOCHEN GUO 等: "Robust Entity Linking via Random Walks", 《PROCEEDINGS OF THE 23RD ACM INTERNATIONAL CONFERENCE ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133237A (zh) * 2016-02-29 2017-09-05 富士通株式会社 图像链接方法和图像链接设备
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106202382B (zh) * 2016-07-08 2019-06-14 南京柯基数据科技有限公司 链接实体方法和系统
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
CN106503148B (zh) * 2016-10-21 2019-05-31 东南大学 一种基于多知识库的表格实体链接方法
CN108108344B (zh) * 2016-11-24 2021-07-06 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN108108344A (zh) * 2016-11-24 2018-06-01 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN106909655B (zh) * 2017-02-27 2019-03-26 中国科学院电子学研究所 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN106909655A (zh) * 2017-02-27 2017-06-30 中国科学院电子学研究所 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN107133257A (zh) * 2017-03-21 2017-09-05 华南师范大学 一种基于中心连通子图的相似实体识别方法及系统
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN107316062A (zh) * 2017-06-26 2017-11-03 中国人民解放军国防科学技术大学 一种改进的面向领域的命名实体消歧方法
CN110569496B (zh) * 2018-06-06 2022-05-17 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质
CN110569496A (zh) * 2018-06-06 2019-12-13 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110377747B (zh) * 2019-06-10 2021-12-07 河海大学 一种面向百科网站的知识库融合方法
CN110390106A (zh) * 2019-07-24 2019-10-29 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110390106B (zh) * 2019-07-24 2023-04-21 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN112925961A (zh) * 2019-12-06 2021-06-08 北京海致星图科技有限公司 一种基于企业实体的智能问答方法及装置
CN111368092B (zh) * 2020-02-21 2020-12-04 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111522911A (zh) * 2020-04-16 2020-08-11 创新奇智(青岛)科技有限公司 实体链接方法、装置、设备及存储介质
CN113626613A (zh) * 2021-08-18 2021-11-09 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法

Similar Documents

Publication Publication Date Title
CN105045826A (zh) 一种基于图模型的实体链接算法
CN103116657B (zh) 一种网络教学资源的个性化搜索方法
CN100504856C (zh) 基于相关词的聚类描述文档的方法和装置
CN110097125B (zh) 一种基于嵌入表示的跨网络账户关联方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN106682194A (zh) 基于深度问答的答案定位方法及装置
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN104899273A (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN101321190A (zh) 一种异构网络中的推荐方法及推荐系统
CN105653840A (zh) 基于词句分布表示的相似病例推荐系统及相应的方法
CN105518667A (zh) 理解供搜索的表格
CN102193939A (zh) 信息导航的实现方法、信息导航服务器和信息处理系统
WO2016044028A1 (en) Query rewriting using session information
CN103399932B (zh) 一种基于语义社会网络本体分析技术的情境识别方法
CN106055604A (zh) 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN109992674B (zh) 一种融合自动编码器和知识图谱语义信息的推荐方法
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN109213925A (zh) 法律文本搜索方法
CN112182387A (zh) 一种时间信息增强的个性化搜索算法
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN105243149A (zh) 一种基于语义的查询推荐方法和系统
CN103559318B (zh) 对异质信息网络包含的对象进行排序的方法
CN103383685A (zh) 一种基于用户点击数据的关键词属性量化方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151111

WD01 Invention patent application deemed withdrawn after publication