CN108572960A

CN108572960A - 地名消岐方法和地名消岐装置

Info

Publication number: CN108572960A
Application number: CN201710134401.XA
Authority: CN
Inventors: 房璐; 缪庆亮; 孟遥
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-08
Filing date: 2017-03-08
Publication date: 2018-09-25

Abstract

本发明公开了一种地名消岐方法和地名消岐装置。根据一个具体实施示例的地名消岐方法包括：从文本中提取待消岐地名和所述待消岐地名的上下文；从关联开放数据中检索与所述待消岐地名相关的候选地名实体；以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

Description

地名消岐方法和地名消岐装置

技术领域

本发明涉及一种地名消岐方法和地名消岐装置。

背景技术

地名消歧是地理信息检索中一项重要的任务，它对提高地理信息检索的准确率具有重要作用。当输入的文本较短时，这项任务变得更具挑战性。其中关键的问题是地名的歧义性，同样的地名可能映射到不同的物理空间位置，同一个物理空间位置也可能包含不同的名字。解决这个问题常见的策略是利用上下文信息，将待消歧地名的上下文与候选的地名真实描述文本进行比较，返回相似度最大的候选地名作为最终的结果。

由于待消歧地名的上下文与候选的地名真实描述文本一般均为纯文本，因此通常基于该特性，将文本映射到向量空间模型，然后使用向量空间模型来得到消歧结果。但是，这种常用的消岐方法忽略了词的语义重要性，消岐结果经常会出现偏差。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，该概述并不是关于本发明的穷举性概述，它并非意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为后文的具体实施方式部分的铺垫。

鉴于以上提出的问题，本发明提出了一种地名消岐方法和地名消岐装置，能够考虑到词的语义重要性，从而实现地名的有效消岐。

根据本发明的一个方面，提供了一种地名消岐方法，包括：从文本中提取待消岐地名和所述待消岐地名的上下文；从关联开放数据中检索与所述待消岐地名相关的候选地名实体；以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

根据本发明的另一个方面，提供了一种地名消岐装置，包括：提取单元，被配置为从文本中提取待消岐地名和所述待消岐地名的上下文；检索单元，被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体；以及选择单元，被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

根据本发明的再一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理系统上执行所述程序代码时，所述程序代码使得所述信息处理系统执行根据本发明的上述方法。

根据本发明的再一方面，还提供了一种程序。所述程序包括机器可执行的指令，当在信息处理系统上执行所述指令时，所述指令使得所述信息处理系统执行根据本发明的上述方法。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照附图来阅读本发明的各实施方式，将更容易理解本发明的其它特征和优点，在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的，而非全部可能的实施，并且不旨在限制本发明的范围。在附图中：

图1示出根据本发明的一个具体实例的地名消岐方法的流程图；

图2示出根据本发明的一个具体实例的计算上下文与候选地名实体的相似度的方法的流程图；

图3示出根据本发明的一个具体实例的地名消岐装置的结构方框图；以及

图4示出用于实施根据本发明实施方式的方法和系统的计算机的示意性框图。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意，以下描述仅仅是示例性的，而并不旨在限制本发明。此外，在以下描述中，将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征，可彼此结合，以形成本发明范围内的其他实施方式。

如上文中所述，在常用的消岐方法中，通常利用待消歧地名的上下文与候选的地名真实描述文本的纯文本特性，将文本映射到向量空间模型，然后使用向量空间模型来得到消歧结果。但是，这种常用的消岐方法忽略了词的语义重要性，因此消岐结果经常会出现偏差。

关联数据(Linked Data)为一系列利用web在不同数据源之间创建语义关联的最佳实践方式，关联开放数据(Linked Open Data，LOD)即为开放内容的关联数据。关联开放数据更强调实体的语义信息，一个地名实体通常会和其他实体相关联，例如上一级行政单位、邻近的城市、相关的人物等等、因此可以利用这些实体来进行地名消歧。

有鉴于此，本发明提出了一种基于LOD的地名消歧方法和地名消岐装置，其利用LOD中某些说明性的属性值作为上下文，结合所关联到的实体，计算待消歧地名与各个候选地名之间的相似度，从而得到最终的消歧结果。

下面将结合附图对根据本发明的具体实施方式的地名消歧方法和地名消岐装置进行详细描述。图1示出根据本发明的一个具体实例的地名消岐方法的流程图。

如图1所示，根据本发明的一个具体实例的地名消岐方法从步骤S110开始。首先在步骤S120中，从输入文本中提取待消岐地名和与所述待消岐地名相关联的上下文，然后在步骤S130中从关联开放数据LOD中检索与所述待消岐地名相关的候选地名实体。

接下来，在步骤S140中，计算在步骤S120中提取的与所述待消岐地名相关联的上下文和在步骤S130中检索到的与所述待消岐地名相关的候选地名实体之间的相似度。

在LOD数据集中，对于每个实体e_i都有若干的属性和对应的属性值。属性的值有两种，一种是纯文本型，其中数字、日期等也可看作纯文本；另一种是URI型，表示关联到内部或者外部的实体。这里，我们利用纯文本型的属性值与所提取的待消岐地名s的上下文Context(s)进行比较，由此计算与所述待消岐地名相关联的上下文和与所述待消岐地名相关的候选地名实体之间的相似度Sim(Context(s),LOD(e_i))。图2示出了根据本发明的一个具体实例的计算上下文与候选地名实体的相似度的方法的流程图。

如图2所示，根据本发明的一个具体实例的计算上下文与候选地名实体的相似度的方法从步骤S210开始。首先在步骤S220中，将在步骤S120中提取的与所述待消岐地名相关联的上下文映射到向量空间，以获得上下文向量。然后，在步骤S230中，将在步骤S130中检索到的与所述待消岐地名相关的候选地名实体的属性值中所包含的纯文本映射到所述向量空间后，以获得候选地名实体向量。

接着，在步骤S240中，计算在步骤S220中获得的所述上下文向量与在步骤S230中获得的所述候选地名实体向量之间的距离，作为所述上下文与候选地名实体的相似度。这里，可以计算上下文向量与候选地名实体向量之间的余弦距离作为所述上下文与候选地名实体的相似度。之后，该流程在步骤S250结束。

在此，根据本发明的一个具体实施例，在步骤S220中，可以将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重。

另外，根据本发明的一个具体实例，在步骤S230中，可以将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。具体地，可以根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t)：

tf(t)＝Freq_lod

Weight(t)＝tf(t)*idf(t)

其中，Freq_lod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数，|E|表示所有候选地名实体的个数，n_t表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。

现在返回图1，在步骤S140中根据图2所示的方法计算了上下文与候选地名实体的相似度之后，在步骤S150中，计算所述待消岐地名指向候选地名实体的相对重要性。

在此，根据本发明的一个具体实施例，在步骤S150中，可以根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。具体地，可以根据下式计算所述待消岐地名指向候选地名实体的相对重要性：

其中，s表示待消岐地名，e_i和e_j表示候选地名实体，n表示所有候选地名实体的个数，Link(e_i)表示候选地名实体e_i关联到其他实体的数目，以及Link(e_j)表示候选地名实体e_j关联到其他实体的数目。

在步骤S150之后，接着在步骤S160中，计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。

这里，根据本发明的一个具体实施例，在步骤S160中，可以根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。具体地，可以根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度：

其中，Context(s)表示上下文，Entities(e_i)表示候选地名实体，m表示关联实体的数量，权重w_j表示关联实体的名字的IDF值；并且当第j个关联实体的名字在待消歧地名的上下文中出现时，I＝1，否则，I＝0。

在步骤S140、步骤S150、以及步骤S160中分别计算了上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度之后，处理前进到步骤S170。

在步骤S170中，根据上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。之后，在选择了待消岐地名实际所指的地名实体后，处理流程在步骤S180结束。

在此，根据本发明的一个具体实施例，在步骤S170中，可以根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。具体地，可以根据下式将在步骤S140、步骤S150、以及步骤S160中所计算的几个指标综合，以得到最后的相似度得分：

S(s→e_i)＝αM(Context(s)，Entities(e_i))+βSim(Context(s)，LOD(e_i))+γL(s→e_i)

其中α+β+γ＝1。

在步骤S170中，可以根据上式选择相似度得分最高的候选实体作为待消岐地名实际所指的地名实体。

上面结合附图详细描述了根据本发明的一个具体实施示例的地名消岐方法。下面将结合一个具体实例来说明如何实现对具体地名的消岐。

例如，假定针对下面所记载的一段文字“The states of Maryland and Virginiaeach donated land to form the federal district,which included the pre-existing settlements of Georgetown and Alexandria.Named in honor of PresidentGeorge Washington,the City of Washington was founded in 1791 to serve as thenew national capital.In 1846,Congress returned the land originally ceded byVirginia；in 1871,it created a single municipal government for the remainingportion of the District.”，从中提取了待消歧的地名“Washington”。

另外，假定在LOD中发现和检索到了分别如下表1至表3所示的候选地名实体“Washington,Arkansas”、“Washington,Connecticut”、以及“Washington,D.C.”。在表1至表3中，针对属性p的属性值o，以“http”开头的为关联实体，其他的为纯文本的属性值。

表1 http://dbpedia.org/resource/Washington,_Arkansas：

表2 http://dbpedia.org/resource/Washington,_Connecticut：

表3 http://dbpedia.org/resource/Washington,_D.C.:

首先，从上面所记载的文本文字中提取待消岐地名“Washington”的部分上下文如下“(state,Maryland,Virginia,federal,district,city,1871,……)”，并且其对应的向量为“(1,1,2,1,2,1,1,……)”。这里，省略的词由于在候选地名实体的上下文中或实体中出现的次数为0，所以可以不参与计算。

针对上述情形，下面分别计算每个候选地名实体的三个指标值。

(1)Sim(Context(s),LOD(e_i))

以“state”为例，计算对于每个候选地名实体的权重：

对于候选地名Washington,Arkansas：Weight(state)

＝1*(1+log(4/3))＝1.125

对于候选地名Washington,Connecticut：Weight(state)

＝1*(1+log(4/3))＝1.125

对于候选地名Washington,D.C.：Weight(state)

＝4*(1+log(4/3))＝4.50

以类似的方法可以计算其他词的权重，并综合所计算的权重后，分别得到如下对应的候选地名实体向量：

Washington,Arkansas：(1.125,0,0,0,0,2.602,0,……)

Washington,Connecticut：(1.125,0,0,0,0,1.301,0,……)

Washington,D.C.：(4.50,1.602,3.204,1.602,12.816,0,1.602,……)

之后，可以计算待消歧的地名的上下文向量与候选地名实体向量之间的相似度分别如下：

Sim(Context(Washington),LOD(Washington,Arkansas))＝0.365

Sim(Context(Washington),LOD(Washington,Connecticut))＝0.392

Sim(Context(Washington),LOD(Washington,D.C.))＝0.807

(2)L(s→e_i)

根据上面的表1至表3可以分别计算得到待消岐地名“Washington”指向候选地名实体“Washington,Arkansas”、“Washington,Connecticut”以及“Washington,D.C.”的相对重要性分别为：

L(Washington→Washington,Arkansas)＝26/106＝0.245

L(Washington→Washington,Connecticut)＝30/106＝0.283

L(Washington→Washington,D.C.)＝50/106＝0.472

(3)M(Context(s),Entities(e_i))

在候选地名实体“Washington,Arkansas”的相关实体中，只有“City”在待消歧地名的上下文中出现，因此：

M(Context(Washington),Entities(Washington,Arkansas))＝0.065

在候选地名实体“Washington,Connecticut”的相关实体中，只有“GeorgeWashington”在待消歧地名的上下文中出现，因此：

M(Context(Washington),Entities(Washington,Connecticut))＝0.025

在候选地名实体“Washington,D.C.”的相关实体中，有“Maryland”、“Virginia”、“Georgetown”、“George Washington”在待消歧地名的上下文中出现，因此：

M(Context(Washington),Entities(Washington,D.C.))＝0.090

最后，将以上几个指标结合，并假设α＝0.5，β＝0.4，γ＝0.1，则可以得到最终的相似度得分分别为：

S(Washington→Washington,Arkansas)

＝0.5*0.065+0.4*0.365+0.1*0.245＝0.203

S(Washington→Washington,Connecticut)

＝0.5*0.025+0.4*0.392+0.1*0.283＝0.198

S(Washington→Washington,D.C.)

＝0.5*0.090+0.4*0.807+0.1*0.472＝0.415

综上，可以根据最后的相似度得分选择“Washington,D.C.”作为最终的消岐结果。

以上结合附图和具体示例详细描述了根据本发明的一个具体实施实例的地名消岐方法，下面将结合附图3来描述根据本发明的一个具体实施实例的地名消岐装置。图3示出根据本发明的一个具体实例的地名消岐装置的结构方框图。

如图3所示，根据该具体实施示例的地名消岐装置包括提取单元310、检索单元320、以及选择单元330。

提取单元310从输入的文本中提取待消岐地名和所述待消岐地名的上下文。检索单元320从关联开放数据LOD中检索与所述待消岐地名相关的候选地名实体。另外，选择单元330根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

在一个具体实例中，在计算所述上下文与候选地名实体的相似度时，首先获取将所述上下文映射到向量空间后获得的上下文向量，然后获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量，最后计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。这里，所述距离可以为余弦距离或其他任何能够表征相似度的参数。

此外，在一个具体实例中，将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重，并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。

具体地，可以根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t)：

tf(t)＝Freq_lod

Weight(t)＝tf(t)*idf(t)

另外，在一个具体实例中，可以根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。具体地，可以根据下式计算所述待消岐地名指向候选地名实体的相对重要性：

此外，在一个具体实例中，可以根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。具体地，可以根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度：

另外，在一个具体实例中，所述选择单元可以根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。

由于在根据本发明的地名消岐装置中所包括的各个部件和单元中的处理分别与上面描述的地名消岐方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些部件和单元的详细描述。

另外，这里尚需指出的是，上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图4示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。

在图4中，中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中，还根据需要存储当CPU 401执行各种处理等等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下述部件连接到输入/输出接口405：输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要，驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上，使得从中读出的计算机程序根据需要被安装到存储部分408中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 402、存储部分408中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的次序顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明，其仅仅是示例性的，而非旨在对本发明进行限制。应注意，在以上描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。本领域技术人员可以理解，在不脱离本发明的发明构思的情况下，针对以上所描述的实施方式进行的各种变化和修改，均属于本发明的范围内。

综上，在根据本发明的实施例中，本发明提供了如下技术方案。

方案1.一种地名消岐方法，包括：

从文本中提取待消岐地名和所述待消岐地名的上下文；

从关联开放数据中检索与所述待消岐地名相关的候选地名实体；以及

根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

方案2.根据方案1所述的方法，其中，根据下述计算所述上下文与候选地名实体的相似度：

获取将所述上下文映射到向量空间后获得的上下文向量；

获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量；以及

计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。

方案3.根据方案2所述的方法，其中，所述距离为余弦距离。

方案4.根据方案3所述的方法，其中，将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重，并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。

方案5.根据方案4所述的方法，其中，根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t)：

tf(t)＝Freq_lod

Weight(t)＝tf(t)*idf(t)

方案6.根据方案1所述的方法，其中，根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。

方案7.根据方案6所述的方法，其中，根据下式计算所述待消岐地名指向候选地名实体的相对重要性：

方案8.根据方案1所述的方法，其中，根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。

方案9.根据方案8所述的方法，其中，根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度：

方案10.根据方案1至9中任一所述的方法，其中，根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。

方案11.一种地名消岐装置，包括：

提取单元，被配置为从文本中提取待消岐地名和所述待消岐地名的上下文；

检索单元，被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体；以及

选择单元，被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

方案12.根据方案11所述的装置，其中，根据下述计算所述上下文与候选地名实体的相似度：

获取将所述上下文映射到向量空间后获得的上下文向量；

方案13.根据方案12所述的装置，其中，所述距离为余弦距离。

方案14.根据方案13所述的装置，其中，将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重，并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。

方案15.根据方案14所述的装置，其中，根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t)：

tf(t)＝Freq_lod

Weight(t)＝tf(t)*idf(t)

方案16.根据方案11所述的装置，其中，根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。

方案17.根据方案16所述的装置，其中，根据下式计算所述待消岐地名指向候选地名实体的相对重要性：

方案18.根据方案11所述的装置，其中，根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。

方案19.根据方案18所述的装置，其中，根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度：

方案20.根据方案11至19中任一所述的装置，其中，所述选择单元根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。

Claims

1.一种地名消岐方法，包括：

从文本中提取待消岐地名和所述待消岐地名的上下文；

2.根据权利要求1所述的方法，其中，根据下述计算所述上下文与候选地名实体的相似度：

获取将所述上下文映射到向量空间后获得的上下文向量；

3.根据权利要求2所述的方法，其中，将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重，并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。

4.根据权利要求3所述的方法，其中，根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t)：

tf(t)＝Freq_lod

Weight(t)＝tf(t)*idf(t)

5.根据权利要求1所述的方法，其中，根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。

6.根据权利要求5所述的方法，其中，根据下式计算所述待消岐地名指向候选地名实体的相对重要性：

7.根据权利要求1所述的方法，其中，根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。

8.根据权利要求7所述的方法，其中，根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度：

9.根据权利要求1至8中任一所述的方法，其中，根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。

10.一种地名消岐装置，包括：