CN105630763A

CN105630763A - 用于提及检测中的消歧的方法和系统

Info

Publication number: CN105630763A
Application number: CN201410601824.4A
Authority: CN
Inventors: 祝慧佳; 倪渊; 许琼恺; 曹锋; N·斯洛宁
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2016-06-01
Anticipated expiration: 2034-10-31
Also published as: US20160124939A1; CN105630763B; US10176165B2

Abstract

本公开内容涉及用于提及检测中的消歧的方法和系统。一个实施例公开了一种用于提及检测中的消歧的方法，包括：确定文本中的目标词形在文本中出现的至少一个位置；基于目标词形在每个位置处的词袋上下文，获取目标词形在文本中的总体词袋上下文，每个位置处的词袋上下文包含位置的预定邻域内的词；基于目标词形在每个位置处的资源上下文，获取目标词形在文本中的总体资源上下文，每个位置处的资源上下文包含位置的预定邻域内的其他词形所对应的资源；以及基于总体词袋上下文和总体资源上下文来确定目标词形与用于目标词形的候选资源之间的相似度。还描述了相应的系统。

Description

用于提及检测中的消歧的方法和系统

技术领域

本发明的实施例总体上涉及信息处理领域，并且特别涉及用于提及检测中消歧的方法和系统。

背景技术

提及检测(mentiondetection)是一类用于处理文本信息的方法。提及检测被用于自动地检测文本中对人名、地名、组织等各种实体的提及(mention)，并且将这些提及映射到与实体相关联的资源。作为示例，提及检测工具如果检测到文本中存在了对“MichaelJordan”这一人名的提及，可以将该提及映射到例如网络词典中关于“MichaelJordan”的web页面。在使用中，例如当用户将光标置于这些提及之上或者附近时，可以以浮动提示的方式向用户呈现相应资源的统一资源标识符(URI)。

提及检测中的一个重要步骤是消歧(disambiguation)。对相同实体的提及可能具有不同的词形(surfaceform)。例如，对“MichaelJordan”这一实体的提及可能是“Jordan”、“Michael”、“AirJordan”、“MJ”，等等。而且，针对不同实体的提及可能具有相同的词形。例如，对“MichaelJackson”的提及的词形同样可以是“MJ”。消歧操作的目的是确定文本的给定提及究竟应当被映射到哪个实体所对应的资源，例如，词形“MJ”应当被链接到“MichaelJordan”还是“MichaelJackson”的资源。

在传统的消歧算法中，通常只考虑词形属于候选概率的先验概率和上下文得分。上下文得分是通过计算词形周围出现的词与候选资源的提及周围出现的词之间的相似度得分。然而，在这种传统方法中，文本中的大量有用信息并未被充分地加以利用。由此，消歧的准确性和效果有待提高。

发明内容

总体上，本发明的实施例提出一种用于在程序调试的变量跟踪的技术方案。

在本发明的一个方面，提供一种用于提及检测中的消歧的方法。所述方法包括：确定文本中的目标词形在所述文本中出现的至少一个位置；基于所述目标词形在每个所述位置处的词袋上下文，获取所述目标词形在所述文本中的总体词袋上下文，每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词；基于所述目标词形在每个所述位置处的资源上下文，获取所述目标词形在所述文本中的总体资源上下文，每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源；以及基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。

在另一方面，提供一种用于提及检测中的消歧的系统。所述系统包括：词形位置确定单元，被配置为确定文本中的目标词形在所述文本中出现的至少一个位置；词袋上下文获取单元，被配置为基于所述目标词形在每个所述位置处的词袋上下文，获取所述目标词形在所述文本中的总体词袋上下文，每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词；资源上下文获取单元，被配置为基于所述目标词形在每个所述位置处的资源上下文，获取所述目标词形在所述文本中的总体资源上下文，每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源；以及消歧单元，被配置为基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。

根据本发明的实施例，在消歧过程中不仅可以利用词语所提供的上下文信息，还可以将所处理词形周围所提及的资源纳入考虑。另外，消歧可以基于一个词形在文本中的跨段落上下文而实现。这样，上下文信息将更加全面、准确。另外，在一个实施例中，通过合理确定消歧顺序，能够进一步提高消歧的准确性。本发明的其他特征和优点将通过下文描述而变得容易理解。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显其中：

图1示出了适于用来实现本发明实施例的示例性计算机系统/服务器的示意性框图；

图2示出了根据本发明实施例的用于提及检测中的消歧的方法的示意性流程图；

图3示出了根据本发明实施例的文本和待消歧词形的示意图；

图4示出了根据本发明实施例的词形的索引的示意图；以及

图5示出了根据本发明实施例的用于提及检测中的消歧的系统的示意性框图。

在附图中，相同或相似的标号被用来表示相同或相似的元素。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括—但不限于—操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

下面将详细描述本发明实施例的机制和原理。除非特别声明，在下文和权利要求中使用的术语“基于”表示“至少部分地基于”。术语“包括”表示开放性包括，即“包括但不限于”。术语“多个”表示“两个或更多”。术语“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。其他术语的定义将在下文描述中给出。

图2示出了根据本发明示例性实施例的用于提及检测中的消歧的方法。方法200开始于步骤S210，在此确定文本中的目标词形在文本中出现的一个或多个位置。在此使用的术语“词形”是指在文本中检测到的提及的特定表现形式(appearance)。例如，对于网络字典中的词条“PhilDouglasJackson”这一资源的提及的词形可以是“Phil”、“PhilJackson”、“TheZenMaster”，等等。在下文描述中，为讨论方便起见，将所要处理的词形称为“目标词形”。另外，为讨论方便起见，术语“提及”和“词形”可互换使用。

提及可以基于关键词发现或辨识(spotting)技术而被识别。任何目前已知或者将来开发的辨识技术均可与本发明的实施例结合使用。作为示例，在一个实施例中，可以使用词汇表来识别文本中的提及的词形。辨识技术不是本发明的重点所在，因此不再在此详述，以避免混淆本发明的主题。

对于在步骤S210处被处理的目标词形，可以在文本的适当范围中搜索该词形，以确定目标词形出现的位置。在一个实施例中，可以在文本中的一个自然段落中搜索目标词形。然而，段落中所包含的语义信息可能不够充分。因此，在一个实施例中，可以在文章中的多个段落甚至待处理的整篇文章中搜索目标词形。以此方式，整篇文章而不是仅仅单个段落中的语义信息可以被用来构建词形的上下文。这有助于显著提高消歧的准确性。

图3示出了一个示例。在文章300中，假设提及的词形A出现在文章300中的三个位置，即，A1、A2和A3。例如，如果目标词形是“MJ”，则在图3所示的示例中，目标词形“MJ”出现在了A1、A2和A3这三个位置。应当理解，图3所示的示例仅仅是为了讨论之目的，无意以任何方式限制本发明的范围。目标词形可能出现在文章中的任意一个或多个位置。另外，使用英文作为示例性目标语言仅仅是示例性的，无意以任何方式限制本发明的范围。本发明的实施例适用于任何适当的目标语言。

将会理解，在步骤S210，可以响应于找到目标词形出现的一个位置而停止搜索。备选地，也可以在文本的指定区域内搜索目标词形出现的多个位置。如果考虑目标词形在文本中出现的多个位置，则所执行的消歧实质上对一种“群组消歧”。也即，目标词形的多次出现所提供的上下文信息将被结合起来以用于消歧。反之，如果仅考虑目标词形在单个位置处的出现，则所执行的消歧是个体消歧。也即，仅考虑目标词形的一个位置周围的上下文信息。群组消歧和个体消歧均落入本发明的范围之内。

继续参考图2，方法200进行到步骤S220和S230，在此分别获取目标词形的词袋上下文和资源上下文。将会理解，尽管在图2中这两个步骤具有先后顺序，但是这仅仅是为了讨论方便之目的。词袋上下文和资源上下文可以按照任何适当的顺序被获取。

在步骤S220，基于目标词形在每个位置处的词袋上下文，获取目标词形在文本块中的总体词袋上下文。目标词形在任何一个给定位置处的词袋上下文包含该位置的预定邻域内的一个或多个词。这些词所构成的无序集合是词形在该位置处的词袋上下文。

根据本发明的实施例，目标词形出现的位置的邻域可由词语距离来确定。例如，在一个实施例中，给定位置处的前后预定数目的词被包含在词袋之内。在图3所示的示例中，假设用于定义邻域的词语距离为2。此时，对于位置A1、A2和A3中的任何一个，词袋上下文由该位置处的前后各两个单词构成。作为示例，假设在位置A1处，词形“MJ”之前的两个词是“super”和“star”，后面两个词是“Chicago”和“basketball”。此时，在位置A1处的词袋上下文可以被表示为集合{“super”,“star”,“Chicago”,“basketball”}。类似地，可以确定其他位置A2和A3处的词袋上下文。

基于目标词形所出现的一个或多个位置处的词袋上下文，可以获得目标词形在所考虑的文本区域中的总体词袋上下文。例如，在一个实施例中，可以将目标词形在不同位置处的词袋上下文进行合并，以生成总体词袋上下文。在图3所描述的示例中，可以对表示各位置处的词袋上下文的集合执行并集(union)运算。当然，其他任何适当的方式也是可行的。例如，在一个实施例中，可以选择出现在所有或者超过预定数目的词袋上下文中的那些词，并且使用所选择的词来构成目标词形的总体词袋上下文。

特别地，在一个实施例中，对于总体词袋上下文中的每个词，可以计算该词的权重。权重表示相关联的词在后续消歧操作中的重要性。一个词的权重可以基于任何适当的方法来确定。在一个实施例中，可以使用词的词频(TF)来计算词的权重。一个词的词频是指该词在词袋上下文中出现的频率。备选地或附加地，在一个实施例中，可以使用逆文档频率(IDF)来计算词的权重。逆文档频率是词的普遍重要性的度量。某一特定词的IDF可以由该词在所考虑文本区域中出现的次数与目标词形的包含该词的词袋上下文的数目之比来确定。特别地，在一个实施例中，可以将词的权重定义为TF与IDF之积。其他任何适当的权重定义方式都是可行的。例如，在一个实施例中，词的权重可以被预先定义和存储，或者由用户指定。

在步骤S230，基于目标词形在每个所述位置处的资源上下文，获取目标词形在所考虑的文本区域中的总体资源上下文。可以理解，在所考虑的词形周围，可能存在对其他实体的提及，每个提及具有相应的词形。相应地，这些提及对应于各自的资源。例如，图3所示的示例中，在位置A1出现的词形“MJ”的指定邻域内的位置B1和D处，存在对其他实体的提及。具体而言，在位置B1处出现词形“PhilJackson”，并且在位置D出现词形“NBA”。这两个提及分别可被映射至资源，例如网络字典中的词条“PhilDouglasJackson”和“NationalBasketballAssociation”。

在传统的方案中，目标词形周围的这些资源信息并未被纳入考虑。发明人注意到，除了词袋上下文之外，目标词形周围对其他资源的提及构成了一种有用的上下文信息，可被称为“资源上下文”。资源上下文有助于识别目标词形与候选资源之间的对应关系，从而提高消歧的准确性。

具体而言，目标词形在任何一个给定位置处的资源上下文包含该位置的预定邻域内的一个或多个其他提及，每个提及具有相应的词形。这些其他提及所对应的资源所构成的无序集合是词形在该位置处的词袋上下文。例如，在上文描述的示例中，词形“MJ”在位置A1处的资源上下文可以表示为集合{“PhilDouglasJackson”,“NationalBasketballAssociation”}。特别地，将会理解，在步骤S220处用于获取词袋上下文的邻域和在步骤S230处用于获取资源上下文的邻域可以相同也可以不同。

基于目标词形所出现的一个或多个位置处的资源上下文，可以获得目标词形在所考虑的文本区域中的总体资源上下文。例如，在一个实施例中，可以将目标词形在不同位置处的资源上下文进行合并，以生成总体资源上下文。在图3所描述的示例中，可以对表示各位置处的资源上下文的集合执行并集运算。当然，其他任何适当的方式也是可行的。例如，在一个实施例中，可以选择出现在所有或者超过预定数目的资源上下文中的那些资源，并且使用所选择的资源来构成总体资源上下文。

与词袋上下文相类似，资源上下文中的每个资源都可以具有相应的权重。在一个实施例中，资源上下文中的每个资源的权重可以基于资源的TF和/或IDF来确定。例如，在一个实施例中，每个资源的权重可以被定义为TF与IDF之积。其他任何适当的方式也是可行的。

继续参考图2，方法200进行到步骤S240，在此基于在步骤S220确定的总体词袋上下文，以及在步骤S230处确定的总体资源上下文，来确定目标词形与用于提及的候选资源之间的相似度。

一个目标词形可能存在一个或多个潜在的候选资源。换言之，目标词形可能被映射到这些候选资源之一。在步骤S240处的消歧的目的是计算目标词形与每个候选资源之间的相似度。这样，可以认为具有最高相似度的那个资源是用于目标词形所对应的提及的那个资源。

根据本发明的实施例，可以通过基于语料的训练，为每个候选资源生成词袋上下文和资源上下文。具体而言，对于每个候选资源，在训练阶段，可以收集多篇文章作为训练语料，这些文章中含有对该候选资源的提及的一个或多个词形。而后，可以按照类似于上文参考步骤S220和S230描述的方法，建立候选资源的总体词袋上下文和总体资源上下文。

特别地，在一个实施例中，在获取候选资源的资源上下文时，除了作为训练语料的文章之外，还可以考虑其他可用知识。例如，在某些网络词典中，已经事先通过人工标注等方式建立了不同资源之间的关系。例如，在某些情况下，这种资源的预定义关系可以被存储为知识图(knowledgegraph)。备选地或附加地，可能存在针对资源的摘要性描述，其中包含对其他资源的提及。作为示例，对于资源“MichaelJordan”，网络词典可能事先定义该资源与其他资源，例如“PhilDouglasJackson”和“NationalBasketballAssociation”等其他资源的关系。例如，这种关系可以在用于资源“MichaelJordan”的摘要中描述，或者被实现为知识图。这些信息均可被用于建立候选资源的资源上下文。

而且，在一个实施例中，候选资源的词袋上下文中的每个词和/或资源上下文中的每个资源都可以被指派以预定权重。权重的确定方式可以类似于上文参考步骤S220和S230描述的方式。例如，对于候选资源的词袋上下文中的每个词以及资源上下文中的每个资源，可以使用TF和/或IDF(例如，TF与IDF之积)来确定权重。

在一个实施例中，每个目标词形的候选资源及其词袋上下文和资源上下文可以被预先确定，并且被存储在用于该目标词形的索引中。作为示例，图4示出了用于一个目标词形i的索引400的示例。索引400包括词形字段410以及一个或多个候选资源字段420₁、420₂……420_k(k为自然数)。每个候选资源字段420存储与词形字段410中的目标词形相关的候选资源。

在一个实施例中，每个候选资源字段420可以至少包括两个子字段。子字段430用于存储词袋上下文信息。例如，在该子字段中，可以存储词袋上下文中包含的每个词的标识wid_1、wid_2……wid_n以及每个词的权重ww_1、ww_2……ww_n(n为自然数)。另一个子字段440用于存储资源上下文信息。例如，在该子字段中，可以存储资源上下文中包含的每个资源的标识rid_1、rid_2……rid_m以及每个资源的权重rw_1、rw_2…rw_m(m为自然数)。

通过使用图4索引结构，当处理一个目标词形时，可以通过访问相关联的索引而快速取回候选资源以及每个候选资源的上下文信息。然而，将会理解，图4所示的索引结构仅仅是示例性的，无意以任何方式限制本发明的范围。任何适当的索引结构均可与本发明的实施例结合使用，不论是目前已知的还是将来开发的。而且，在一个实施例中，候选资源的词袋上下文和资源上下文信息甚至也可以不被预先存储在索引中，而是在使用中动态地计算。

继续参考图2，在步骤S240，可以基于目标词形的总体词袋上下文和总体资源上下文，以及候选资源的词袋上下文和资源上下文，来确定目标词形与候选资源的相似度或者说匹配程度。例如，在一个实施例中，可以基于目标词形的总体词袋上下文和总体资源上下文构建一个向量，称为“词形上下文向量”。总体词袋上下文中的每个词和总体资源上下文中的每个资源均可被用作词形上下文向量中的元素(element)。类似地，可以基于候选资源的词袋上下文和资源上下文构建资源的上下文向量，可称为“候选资源上下文向量”。

而后，可以比较目标词形的词形上下文向量与候选资源的候选资源上下文向量之间的相似度，从而确定目标词形与候选资源之间的相似度。如上所述，在一个实施例中，词形上下文向量与候选资源上下文向量中的每个元素(词和/或资源)都具有各自的权重，其中权重指示相应元素的重要性。在这样的实施例中，在步骤S240，可以基于词形上下文向量中的元素的权重(称为“第一组权重”)与候选资源上下文向量中的元素的权重(称为“第二组权重”)来确定两个向量之间的相似度。具体而言，在一个实施例中，可以基于这两组权重对词形上下文向量与候选资源上下文向量进行点乘，以计算这两个向量的内积。所得结果可被用作两个向量的相似度，即，目标词形与候选资源的相似性。在点乘运算中，两个向量中的对应元素的权重被相乘。内积的运算原理和物理意义是本领域已知的，在此不再赘述。

备选地，在一个实施例中，也可以计算词形上下文向量与候选资源上下文向量之间的距离，例如欧式距离，并且以其结果作为两个向量之间的相似度。可以用来确定两个向量之间的相似度的任何其他适当的方式均是可行的，本发明的范围在此方面不受限制。

另外，在步骤S240，未必一定要将目标词形的总体词袋上下文与总体资源上下文结合为词形上下文向量。备选地，在一个实施例中，可以比较目标词形的词袋上下文与候选资源的词袋上下文，并且独立地比较目标词形的资源上下文与候选资源的资源上下文。基于这两个比较的结果，可以确定词形与候选资源的相似度。例如，两个比较的结果可以以加权平均或者任何其他适当的方式被结合。

通过上述方式，与目标词形的相似度最高的那个候选资源可以被认为是用于词形所对应的提及的资源。由此，可以将词形映射至该资源，以完成消歧。通过将资源上下文纳入考虑以及可选地跨多个段落而生成上下文信息，消歧的准确性可以得到显著提升。

将会理解，在实际使用，文本中可能存在不止一个提及的多个词形。这些词形都需要进行消歧处理。在一个实施例中，可以按照词形的出现顺序对这些词形执行消歧。备选地，也可以随机地选择词形进行消歧。为了进一步提高消歧的准确性，在一个实施例中，可以基于对词形的排序来迭代地选择目标词形。

具体而言，在这样的实施例中，对于文本中的多个提及各自的词形，可以首先确定每个词形的总体词袋上下文，其方法如上文参考方法200的步骤S220所述。而后，可以仅使用总体词袋上下文对文本中的词形进行一轮消歧，从而确定词形与各自候选资源之间的相似度。由于没有考虑资源上下文提供的有用信息，因此这样的相似度被称为“粗略上下文”。

接下来，所有尚未处理的词形按照粗略相似度被排序。在一个实施例中，可以选择这样的目标词形，使得该目标词形本身与候选资源的粗略相似度较低，但是它周围领域内的其他词形与相应候选资源的粗略相似度较高。以定量方式描述，所选择的目标词形与候选资源的粗略相似度低于第一阈值，并且目标词形的预定邻域内的其他提及的其他词形与相应候选资源的粗略相似度高于第二阈值。这样做是有益的，因为周围词形的粗略相似度足够高将有助于提高粗略词形的资源上下文的精度。

而后，可以对所选择的目标词形应用方法200。作为结果，该目标词形将被映射到相似度最高的那个候选资源。这样，该目标词形与资源之间的映射关系被确定。在随后针对其他词形的消歧过程中，当前目标词形的资源可以被可靠地使用。可以针对尚未消歧的词形迭代地重复上述过程，直到完成对所有词形的处理。

图5示出了根据本发明实施例的用于提及检测中的消歧的系统500的示意图。如图所示，系统500包括：词形位置确定单元510，被配置为确定文本中的目标词形在所述文本中出现的至少一个位置；词袋上下文获取单元520，被配置为基于所述目标词形在每个所述位置处的词袋上下文，获取所述目标词形在所述文本中的总体词袋上下文，每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词；资源上下文获取单元530，被配置为基于所述目标词形在每个所述位置处的资源上下文，获取所述目标词形在所述文本中的总体资源上下文，每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源；以及消歧单元540，被配置为基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。

在一个实施例中，所述词袋上下文获取单元520可以包括词袋上下文合并单元，被配置为合并所述目标词形在所述至少一个位置处的所述词袋上下文。在一个实施例中，所述资源上下文获取单元530可以包括资源上下文合并单元，被配置为合并所述目标词形在所述至少一个位置处的所述资源上下文。

在一个实施例中，所述消歧单元540可以包括：词形上下文向量构建单元，被配置为基于所述总体词袋上下文和所述总体资源上下文，构建所述目标词形的词形上下文向量；候选资源上下文向量获取单元，被配置为获取所述候选资源的候选资源上下文向量，所述候选资源上下文向量包括所述候选资源的总体词袋上下文和总体资源上下文；以及相似度确定单元，被配置为基于所述词形上下文向量和所述候选资源上下文向量来确定所述目标词形与所述候选资源之间的所述相似度。

在一个实施例中，所述相似度确定单元可以包括：第一权重获取单元，被配置为获取所述词形上下文向量中的元素的第一组权重，所述第一组权重指示所述词形上下文向量中的所述元素的重要性；第二权重获取单元，被配置为获取所述候选资源上下文向量中的元素的第二组权重，所述第二组权重指示所述候选资源上下文向量中的所述元素的重要性；以及内积计算单元，被配置为基于所述第一组权重与所述第二组权重来计算所述词形上下文向量与所述候选资源上下文向量的内积，以确定所述目标词形与所述候选资源之间的所述相似度。

在一个实施例中，所述第一权重获取单元可以包括：基于频率的获取单元，被配置为基于所述词形上下文向量中的所述元素的词频TF和逆文档频率IDF中的至少一个来计算所述权重。

在一个实施例中，所述候选资源上下文向量获取单元包括：索引访问单元，被配置为从与所述目标词形相关联的索引中获取所述候选资源上下文向量。

在一个实施例中，所述词形位置确定单元510可以包括词形确定单元。在一个实施例中，所述词形确定单元可以包括：初始词袋上下文获取单元，被配置为获取所述文本中的多个词形中的每个词形的总体词袋上下文；粗略相似度确定单元，被配置为基于所述多个词形中的每个词形的所述总体词袋上下文，确定所述多个词形中的每个词形与相应候选资源之间的粗略相似度；以及词形选择单元，被配置为从所述多个词形中选择所述目标词形，使得所述目标词形的所述粗略相似度低于第一阈值，并且所述目标词形的预定邻域内的其他词形的所述粗略相似度高于第二阈值。

为清晰起见，图5中没有示出系统500所包括的可选单元或者子单元。上文所描述的所有特征和操作分别适用于系统500，故在此不再赘述。而且，系统500中的单元或子单元的划分不是限制性的而是示例性的，旨在从逻辑上描述其主要功能或操作。一个单元的功能可以由多个单元来实现；反之，多个单元亦可由一个单元来实现。本发明的范围在此方面不受限制。

而且，系统500所包含的单元可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。例如，在某些实施方式中，系统500可以利用软件和/或固件来实现。备选地或附加地，系统500可以部分地或者完全地基于硬件来实现。例如，系统500中的一个或多个单元可以实现为集成电路(IC)芯片、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)，等等。本发明的范围在此方面不受限制。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是—但不限于—电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

计算机可读程序指令也可加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于提及检测中的消歧的方法，所述方法包括：

确定文本中的目标词形在所述文本中出现的至少一个位置；

基于所述目标词形在每个所述位置处的词袋上下文，获取所述目标词形在所述文本中的总体词袋上下文，每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词；

基于所述目标词形在每个所述位置处的资源上下文，获取所述目标词形在所述文本中的总体资源上下文，每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源；以及

基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。

2.根据权利要求1所述的方法，其中获取所述目标词形在所述文本中的总体词袋上下文包括合并所述目标词形在所述至少一个位置处的所述词袋上下文，

并且其中获取所述目标词形在所述文本中的总体资源上下文包括合并所述目标词形在所述至少一个位置处的所述资源上下文。

3.根据权利要求1所述的方法，其中基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度包括：

基于所述总体词袋上下文和所述总体资源上下文，构建所述目标词形的词形上下文向量；

获取所述候选资源的候选资源上下文向量，所述候选资源上下文向量包括所述候选资源的总体词袋上下文和总体资源上下文；以及

基于所述词形上下文向量和所述候选资源上下文向量来确定所述目标词形与所述候选资源之间的所述相似度。

4.根据权利要求3所述的方法，其中基于所述词形上下文向量和所述候选资源上下文向量来确定所述目标词形与所述候选资源之间的所述相似度包括：

获取所述词形上下文向量中的元素的第一组权重，所述第一组权重指示所述词形上下文向量中的所述元素的重要性；

获取所述候选资源上下文向量中的元素的第二组权重，所述第二组权重指示所述候选资源上下文向量中的所述元素的重要性；以及

基于所述第一组权重与所述第二组权重来计算所述词形上下文向量与所述候选资源上下文向量的内积，以确定所述目标词形与所述候选资源之间的所述相似度。

5.根据权利要求4所述的方法，其中获取所述词形上下文向量中的元素的第一组权重包括：

基于所述词形上下文向量中的所述元素的词频TF和逆文档频率IDF中的至少一个来计算所述权重。

6.根据权利要求3所述的方法，其中获取所述候选资源的候选资源上下文向量包括：

从与所述目标词形相关联的索引中获取所述候选资源上下文向量。

7.根据权利要求1所述的方法，其中确定文本中的目标词形在所述文本中出现的至少一个位置包括确定所述目标词形，确定所述目标词形包括：

获取所述文本中的多个词形中的每个词形的总体词袋上下文；

基于所述多个词形中的每个词形的所述总体词袋上下文，确定所述多个词形中的每个词形与相应候选资源之间的粗略相似度；以及

从所述多个词形中选择所述目标词形，使得所述目标词形的所述粗略相似度低于第一阈值，并且所述目标词形的预定邻域内的其他词形的所述粗略相似度高于第二阈值。

8.一种用于提及检测中的消歧的系统，所述系统包括：

词形位置确定单元，被配置为确定文本中的目标词形在所述文本中出现的至少一个位置；

词袋上下文获取单元，被配置为基于所述目标词形在每个所述位置处的词袋上下文，获取所述目标词形在所述文本中的总体词袋上下文，每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词；

资源上下文获取单元，被配置为基于所述目标词形在每个所述位置处的资源上下文，获取所述目标词形在所述文本中的总体资源上下文，每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源；以及

消歧单元，被配置为基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。

9.根据权利要求8所述的系统，其中所述词袋上下文获取单元包括词袋上下文合并单元，被配置为合并所述目标词形在所述至少一个位置处的所述词袋上下文，

并且其中所述资源上下文获取单元包括资源上下文合并单元，被配置为合并所述目标词形在所述至少一个位置处的所述资源上下文。

10.根据权利要求8所述的系统，其中所述消歧单元包括：

词形上下文向量构建单元，被配置为基于所述总体词袋上下文和所述总体资源上下文，构建所述目标词形的词形上下文向量；

候选资源上下文向量获取单元，被配置为获取所述候选资源的候选资源上下文向量，所述候选资源上下文向量包括所述候选资源的总体词袋上下文和总体资源上下文；以及

相似度确定单元，被配置为基于所述词形上下文向量和所述候选资源上下文向量来确定所述目标词形与所述候选资源之间的所述相似度。

11.根据权利要求10所述的系统，其中所述相似度确定单元包括：

第一权重获取单元，被配置为获取所述词形上下文向量中的元素的第一组权重，所述第一组权重指示所述词形上下文向量中的所述元素的重要性；

第二权重获取单元，被配置为获取所述候选资源上下文向量中的元素的第二组权重，所述第二组权重指示所述候选资源上下文向量中的所述元素的重要性；以及

内积计算单元，被配置为基于所述第一组权重与所述第二组权重来计算所述词形上下文向量与所述候选资源上下文向量的内积，以确定所述目标词形与所述候选资源之间的所述相似度。

12.根据权利要求11所述的系统，其中所述第一权重获取单元包括：

基于频率的获取单元，被配置为基于所述词形上下文向量中的所述元素的词频TF和逆文档频率IDF中的至少一个来计算所述权重。

13.根据权利要求10所述的系统，其中所述候选资源上下文向量获取单元包括：

索引访问单元，被配置为从与所述目标词形相关联的索引中获取所述候选资源上下文向量。

14.根据权利要求8所述的系统，其中所述词形位置确定单元包括词形确定单元，所述词形确定单元包括：

初始词袋上下文获取单元，被配置为获取所述文本中的多个词形中的每个词形的总体词袋上下文；

粗略相似度确定单元，被配置为基于所述多个词形中的每个词形的所述总体词袋上下文，确定所述多个词形中的每个词形与相应候选资源之间的粗略相似度；以及

词形选择单元，被配置为从所述多个词形中选择所述目标词形，使得所述目标词形的所述粗略相似度低于第一阈值，并且所述目标词形的预定邻域内的其他词形的所述粗略相似度高于第二阈值。