CN108572960A - 地名消岐方法和地名消岐装置 - Google Patents

地名消岐方法和地名消岐装置 Download PDF

Info

Publication number
CN108572960A
CN108572960A CN201710134401.XA CN201710134401A CN108572960A CN 108572960 A CN108572960 A CN 108572960A CN 201710134401 A CN201710134401 A CN 201710134401A CN 108572960 A CN108572960 A CN 108572960A
Authority
CN
China
Prior art keywords
place name
entity
alternative
context
disappeared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710134401.XA
Other languages
English (en)
Inventor
房璐
缪庆亮
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710134401.XA priority Critical patent/CN108572960A/zh
Publication of CN108572960A publication Critical patent/CN108572960A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种地名消岐方法和地名消岐装置。根据一个具体实施示例的地名消岐方法包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

Description

地名消岐方法和地名消岐装置
技术领域
本发明涉及一种地名消岐方法和地名消岐装置。
背景技术
地名消歧是地理信息检索中一项重要的任务,它对提高地理信息检索的准确率具有重要作用。当输入的文本较短时,这项任务变得更具挑战性。其中关键的问题是地名的歧义性,同样的地名可能映射到不同的物理空间位置,同一个物理空间位置也可能包含不同的名字。解决这个问题常见的策略是利用上下文信息,将待消歧地名的上下文与候选的地名真实描述文本进行比较,返回相似度最大的候选地名作为最终的结果。
由于待消歧地名的上下文与候选的地名真实描述文本一般均为纯文本,因此通常基于该特性,将文本映射到向量空间模型,然后使用向量空间模型来得到消歧结果。但是,这种常用的消岐方法忽略了词的语义重要性,消岐结果经常会出现偏差。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,该概述并不是关于本发明的穷举性概述,它并非意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为后文的具体实施方式部分的铺垫。
鉴于以上提出的问题,本发明提出了一种地名消岐方法和地名消岐装置,能够考虑到词的语义重要性,从而实现地名的有效消岐。
根据本发明的一个方面,提供了一种地名消岐方法,包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
根据本发明的另一个方面,提供了一种地名消岐装置,包括:提取单元,被配置为从文本中提取待消岐地名和所述待消岐地名的上下文;检索单元,被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及选择单元,被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
根据本发明的再一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理系统上执行所述程序代码时,所述程序代码使得所述信息处理系统执行根据本发明的上述方法。
根据本发明的再一方面,还提供了一种程序。所述程序包括机器可执行的指令,当在信息处理系统上执行所述指令时,所述指令使得所述信息处理系统执行根据本发明的上述方法。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点,在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1示出根据本发明的一个具体实例的地名消岐方法的流程图;
图2示出根据本发明的一个具体实例的计算上下文与候选地名实体的相似度的方法的流程图;
图3示出根据本发明的一个具体实例的地名消岐装置的结构方框图;以及
图4示出用于实施根据本发明实施方式的方法和系统的计算机的示意性框图。
具体实施方式
现参照附图对本发明的实施方式进行详细描述。应注意,以下描述仅仅是示例性的,而并不旨在限制本发明。此外,在以下描述中,将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征,可彼此结合,以形成本发明范围内的其他实施方式。
如上文中所述,在常用的消岐方法中,通常利用待消歧地名的上下文与候选的地名真实描述文本的纯文本特性,将文本映射到向量空间模型,然后使用向量空间模型来得到消歧结果。但是,这种常用的消岐方法忽略了词的语义重要性,因此消岐结果经常会出现偏差。
关联数据(Linked Data)为一系列利用web在不同数据源之间创建语义关联的最佳实践方式,关联开放数据(Linked Open Data,LOD)即为开放内容的关联数据。关联开放数据更强调实体的语义信息,一个地名实体通常会和其他实体相关联,例如上一级行政单位、邻近的城市、相关的人物等等、因此可以利用这些实体来进行地名消歧。
有鉴于此,本发明提出了一种基于LOD的地名消歧方法和地名消岐装置,其利用LOD中某些说明性的属性值作为上下文,结合所关联到的实体,计算待消歧地名与各个候选地名之间的相似度,从而得到最终的消歧结果。
下面将结合附图对根据本发明的具体实施方式的地名消歧方法和地名消岐装置进行详细描述。图1示出根据本发明的一个具体实例的地名消岐方法的流程图。
如图1所示,根据本发明的一个具体实例的地名消岐方法从步骤S110开始。首先在步骤S120中,从输入文本中提取待消岐地名和与所述待消岐地名相关联的上下文,然后在步骤S130中从关联开放数据LOD中检索与所述待消岐地名相关的候选地名实体。
接下来,在步骤S140中,计算在步骤S120中提取的与所述待消岐地名相关联的上下文和在步骤S130中检索到的与所述待消岐地名相关的候选地名实体之间的相似度。
在LOD数据集中,对于每个实体ei都有若干的属性和对应的属性值。属性的值有两种,一种是纯文本型,其中数字、日期等也可看作纯文本;另一种是URI型,表示关联到内部或者外部的实体。这里,我们利用纯文本型的属性值与所提取的待消岐地名s的上下文Context(s)进行比较,由此计算与所述待消岐地名相关联的上下文和与所述待消岐地名相关的候选地名实体之间的相似度Sim(Context(s),LOD(ei))。图2示出了根据本发明的一个具体实例的计算上下文与候选地名实体的相似度的方法的流程图。
如图2所示,根据本发明的一个具体实例的计算上下文与候选地名实体的相似度的方法从步骤S210开始。首先在步骤S220中,将在步骤S120中提取的与所述待消岐地名相关联的上下文映射到向量空间,以获得上下文向量。然后,在步骤S230中,将在步骤S130中检索到的与所述待消岐地名相关的候选地名实体的属性值中所包含的纯文本映射到所述向量空间后,以获得候选地名实体向量。
接着,在步骤S240中,计算在步骤S220中获得的所述上下文向量与在步骤S230中获得的所述候选地名实体向量之间的距离,作为所述上下文与候选地名实体的相似度。这里,可以计算上下文向量与候选地名实体向量之间的余弦距离作为所述上下文与候选地名实体的相似度。之后,该流程在步骤S250结束。
在此,根据本发明的一个具体实施例,在步骤S220中,可以将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重。
另外,根据本发明的一个具体实例,在步骤S230中,可以将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。具体地,可以根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):
tf(t)=Freqlod
Weight(t)=tf(t)*idf(t)
其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。
现在返回图1,在步骤S140中根据图2所示的方法计算了上下文与候选地名实体的相似度之后,在步骤S150中,计算所述待消岐地名指向候选地名实体的相对重要性。
在此,根据本发明的一个具体实施例,在步骤S150中,可以根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。具体地,可以根据下式计算所述待消岐地名指向候选地名实体的相对重要性:
其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。
在步骤S150之后,接着在步骤S160中,计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。
这里,根据本发明的一个具体实施例,在步骤S160中,可以根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。具体地,可以根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:
其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。
在步骤S140、步骤S150、以及步骤S160中分别计算了上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度之后,处理前进到步骤S170。
在步骤S170中,根据上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。之后,在选择了待消岐地名实际所指的地名实体后,处理流程在步骤S180结束。
在此,根据本发明的一个具体实施例,在步骤S170中,可以根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。具体地,可以根据下式将在步骤S140、步骤S150、以及步骤S160中所计算的几个指标综合,以得到最后的相似度得分:
S(s→ei)=αM(Context(s),Entities(ei))+βSim(Context(s),LOD(ei))+γL(s→ei)
其中α+β+γ=1。
在步骤S170中,可以根据上式选择相似度得分最高的候选实体作为待消岐地名实际所指的地名实体。
上面结合附图详细描述了根据本发明的一个具体实施示例的地名消岐方法。下面将结合一个具体实例来说明如何实现对具体地名的消岐。
例如,假定针对下面所记载的一段文字“The states of Maryland and Virginiaeach donated land to form the federal district,which included the pre-existing settlements of Georgetown and Alexandria.Named in honor of PresidentGeorge Washington,the City of Washington was founded in 1791 to serve as thenew national capital.In 1846,Congress returned the land originally ceded byVirginia;in 1871,it created a single municipal government for the remainingportion of the District.”,从中提取了待消歧的地名“Washington”。
另外,假定在LOD中发现和检索到了分别如下表1至表3所示的候选地名实体“Washington,Arkansas”、“Washington,Connecticut”、以及“Washington,D.C.”。在表1至表3中,针对属性p的属性值o,以“http”开头的为关联实体,其他的为纯文本的属性值。
表1 http://dbpedia.org/resource/Washington,_Arkansas:
表2 http://dbpedia.org/resource/Washington,_Connecticut:
表3 http://dbpedia.org/resource/Washington,_D.C.:
首先,从上面所记载的文本文字中提取待消岐地名“Washington”的部分上下文如下“(state,Maryland,Virginia,federal,district,city,1871,……)”,并且其对应的向量为“(1,1,2,1,2,1,1,……)”。这里,省略的词由于在候选地名实体的上下文中或实体中出现的次数为0,所以可以不参与计算。
针对上述情形,下面分别计算每个候选地名实体的三个指标值。
(1)Sim(Context(s),LOD(ei))
以“state”为例,计算对于每个候选地名实体的权重:
对于候选地名Washington,Arkansas:Weight(state)
=1*(1+log(4/3))=1.125
对于候选地名Washington,Connecticut:Weight(state)
=1*(1+log(4/3))=1.125
对于候选地名Washington,D.C.:Weight(state)
=4*(1+log(4/3))=4.50
以类似的方法可以计算其他词的权重,并综合所计算的权重后,分别得到如下对应的候选地名实体向量:
Washington,Arkansas:(1.125,0,0,0,0,2.602,0,……)
Washington,Connecticut:(1.125,0,0,0,0,1.301,0,……)
Washington,D.C.:(4.50,1.602,3.204,1.602,12.816,0,1.602,……)
之后,可以计算待消歧的地名的上下文向量与候选地名实体向量之间的相似度分别如下:
Sim(Context(Washington),LOD(Washington,Arkansas))=0.365
Sim(Context(Washington),LOD(Washington,Connecticut))=0.392
Sim(Context(Washington),LOD(Washington,D.C.))=0.807
(2)L(s→ei)
根据上面的表1至表3可以分别计算得到待消岐地名“Washington”指向候选地名实体“Washington,Arkansas”、“Washington,Connecticut”以及“Washington,D.C.”的相对重要性分别为:
L(Washington→Washington,Arkansas)=26/106=0.245
L(Washington→Washington,Connecticut)=30/106=0.283
L(Washington→Washington,D.C.)=50/106=0.472
(3)M(Context(s),Entities(ei))
在候选地名实体“Washington,Arkansas”的相关实体中,只有“City”在待消歧地名的上下文中出现,因此:
M(Context(Washington),Entities(Washington,Arkansas))=0.065
在候选地名实体“Washington,Connecticut”的相关实体中,只有“GeorgeWashington”在待消歧地名的上下文中出现,因此:
M(Context(Washington),Entities(Washington,Connecticut))=0.025
在候选地名实体“Washington,D.C.”的相关实体中,有“Maryland”、“Virginia”、“Georgetown”、“George Washington”在待消歧地名的上下文中出现,因此:
M(Context(Washington),Entities(Washington,D.C.))=0.090
最后,将以上几个指标结合,并假设α=0.5,β=0.4,γ=0.1,则可以得到最终的相似度得分分别为:
S(Washington→Washington,Arkansas)
=0.5*0.065+0.4*0.365+0.1*0.245=0.203
S(Washington→Washington,Connecticut)
=0.5*0.025+0.4*0.392+0.1*0.283=0.198
S(Washington→Washington,D.C.)
=0.5*0.090+0.4*0.807+0.1*0.472=0.415
综上,可以根据最后的相似度得分选择“Washington,D.C.”作为最终的消岐结果。
以上结合附图和具体示例详细描述了根据本发明的一个具体实施实例的地名消岐方法,下面将结合附图3来描述根据本发明的一个具体实施实例的地名消岐装置。图3示出根据本发明的一个具体实例的地名消岐装置的结构方框图。
如图3所示,根据该具体实施示例的地名消岐装置包括提取单元310、检索单元320、以及选择单元330。
提取单元310从输入的文本中提取待消岐地名和所述待消岐地名的上下文。检索单元320从关联开放数据LOD中检索与所述待消岐地名相关的候选地名实体。另外,选择单元330根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
在一个具体实例中,在计算所述上下文与候选地名实体的相似度时,首先获取将所述上下文映射到向量空间后获得的上下文向量,然后获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量,最后计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。这里,所述距离可以为余弦距离或其他任何能够表征相似度的参数。
此外,在一个具体实例中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。
具体地,可以根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):
tf(t)=Freqlod
Weight(t)=tf(t)*idf(t)
其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。
另外,在一个具体实例中,可以根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。具体地,可以根据下式计算所述待消岐地名指向候选地名实体的相对重要性:
其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。
此外,在一个具体实例中,可以根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。具体地,可以根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:
其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。
另外,在一个具体实例中,所述选择单元可以根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。
由于在根据本发明的地名消岐装置中所包括的各个部件和单元中的处理分别与上面描述的地名消岐方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些部件和单元的详细描述。
另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图4示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中,还根据需要存储当CPU 401执行各种处理等等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要,驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。
综上,在根据本发明的实施例中,本发明提供了如下技术方案。
方案1.一种地名消岐方法,包括:
从文本中提取待消岐地名和所述待消岐地名的上下文;
从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及
根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
方案2.根据方案1所述的方法,其中,根据下述计算所述上下文与候选地名实体的相似度:
获取将所述上下文映射到向量空间后获得的上下文向量;
获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量;以及
计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。
方案3.根据方案2所述的方法,其中,所述距离为余弦距离。
方案4.根据方案3所述的方法,其中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。
方案5.根据方案4所述的方法,其中,根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):
tf(t)=Freqlod
Weight(t)=tf(t)*idf(t)
其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。
方案6.根据方案1所述的方法,其中,根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。
方案7.根据方案6所述的方法,其中,根据下式计算所述待消岐地名指向候选地名实体的相对重要性:
其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。
方案8.根据方案1所述的方法,其中,根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。
方案9.根据方案8所述的方法,其中,根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:
其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。
方案10.根据方案1至9中任一所述的方法,其中,根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。
方案11.一种地名消岐装置,包括:
提取单元,被配置为从文本中提取待消岐地名和所述待消岐地名的上下文;
检索单元,被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及
选择单元,被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
方案12.根据方案11所述的装置,其中,根据下述计算所述上下文与候选地名实体的相似度:
获取将所述上下文映射到向量空间后获得的上下文向量;
获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量;以及
计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。
方案13.根据方案12所述的装置,其中,所述距离为余弦距离。
方案14.根据方案13所述的装置,其中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。
方案15.根据方案14所述的装置,其中,根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):
tf(t)=Freqlod
Weight(t)=tf(t)*idf(t)
其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。
方案16.根据方案11所述的装置,其中,根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。
方案17.根据方案16所述的装置,其中,根据下式计算所述待消岐地名指向候选地名实体的相对重要性:
其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。
方案18.根据方案11所述的装置,其中,根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。
方案19.根据方案18所述的装置,其中,根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:
其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。
方案20.根据方案11至19中任一所述的装置,其中,所述选择单元根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。

Claims (10)

1.一种地名消岐方法,包括:
从文本中提取待消岐地名和所述待消岐地名的上下文;
从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及
根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
2.根据权利要求1所述的方法,其中,根据下述计算所述上下文与候选地名实体的相似度:
获取将所述上下文映射到向量空间后获得的上下文向量;
获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量;以及
计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。
3.根据权利要求2所述的方法,其中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。
4.根据权利要求3所述的方法,其中,根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):
tf(t)=Freqlod
Weight(t)=tf(t)*idf(t)
其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。
5.根据权利要求1所述的方法,其中,根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。
6.根据权利要求5所述的方法,其中,根据下式计算所述待消岐地名指向候选地名实体的相对重要性:
其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。
7.根据权利要求1所述的方法,其中,根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。
8.根据权利要求7所述的方法,其中,根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:
其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。
9.根据权利要求1至8中任一所述的方法,其中,根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。
10.一种地名消岐装置,包括:
提取单元,被配置为从文本中提取待消岐地名和所述待消岐地名的上下文;
检索单元,被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及
选择单元,被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
CN201710134401.XA 2017-03-08 2017-03-08 地名消岐方法和地名消岐装置 Pending CN108572960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710134401.XA CN108572960A (zh) 2017-03-08 2017-03-08 地名消岐方法和地名消岐装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710134401.XA CN108572960A (zh) 2017-03-08 2017-03-08 地名消岐方法和地名消岐装置

Publications (1)

Publication Number Publication Date
CN108572960A true CN108572960A (zh) 2018-09-25

Family

ID=63576924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710134401.XA Pending CN108572960A (zh) 2017-03-08 2017-03-08 地名消岐方法和地名消岐装置

Country Status (1)

Country Link
CN (1) CN108572960A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110245277A (zh) * 2019-06-12 2019-09-17 杭州数澜科技有限公司 用于确定地名串的方法和系统
CN111144121A (zh) * 2019-12-27 2020-05-12 北大方正集团有限公司 地名识别方法、装置、电子设备及可读存储介质
CN111325235A (zh) * 2020-01-19 2020-06-23 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
CN112825112A (zh) * 2019-11-20 2021-05-21 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN105630763A (zh) * 2014-10-31 2016-06-01 国际商业机器公司 用于提及检测中的消歧的方法和系统
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN105630763A (zh) * 2014-10-31 2016-06-01 国际商业机器公司 用于提及检测中的消歧的方法和系统
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武川等: "基于上下文特征的短文本实体链接研究", 《情报科学》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110245277A (zh) * 2019-06-12 2019-09-17 杭州数澜科技有限公司 用于确定地名串的方法和系统
CN110245277B (zh) * 2019-06-12 2022-04-15 杭州数澜科技有限公司 用于确定地名串的方法和系统
JP7228946B2 (ja) 2019-10-28 2023-02-27 南京師範大学 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
JP2022532451A (ja) * 2019-10-28 2022-07-14 南京師範大学 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
CN112825112A (zh) * 2019-11-20 2021-05-21 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机终端
CN111144121A (zh) * 2019-12-27 2020-05-12 北大方正集团有限公司 地名识别方法、装置、电子设备及可读存储介质
WO2021142968A1 (zh) * 2020-01-19 2021-07-22 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111325235A (zh) * 2020-01-19 2020-06-23 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111325235B (zh) * 2020-01-19 2023-04-25 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
US11914959B2 (en) 2020-03-12 2024-02-27 Boe Technology Group Co., Ltd. Entity linking method and apparatus

Similar Documents

Publication Publication Date Title
CN108572960A (zh) 地名消岐方法和地名消岐装置
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
CN104462126A (zh) 一种实体链接方法及装置
JP5043209B2 (ja) 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
JP4226862B2 (ja) 文書検索装置
CN110287309A (zh) 快速提取文本摘要的方法
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN102654881A (zh) 用于名称消岐聚类的装置和方法
CN105653704B (zh) 自动摘要生成方法及装置
JP6230190B2 (ja) 重要語抽出装置、及びプログラム
CN107315735B (zh) 用于笔记整理的方法及设备
CN103377187B (zh) 段落分割方法和段落分割装置
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2011053992A (ja) 質問推薦装置及び方法及びプログラム
CN110674286A (zh) 一种文本摘要抽取方法、装置及存储设备
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
JP7095322B2 (ja) 判定プログラム、判定装置、及び判定方法
CN105095270B (zh) 检索装置和检索方法
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP2002215672A (ja) 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
KR20190084370A (ko) 지능형 법률정보 검색 방법
JP2008171243A (ja) コンテンツ検索装置および方法並びにプログラム
JP5320269B2 (ja) 記号変換方法、記号変換装置、記号変換プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180925