CN106164890A

CN106164890A - 用于消除非结构化文本中的特征的歧义的方法

Info

Publication number: CN106164890A
Application number: CN201480072968.3A
Authority: CN
Inventors: 斯科特·莱特纳; 弗兰兹·威克斯尔; 桑贾伊·博德胡; 拉凯什·戴维; 罗伯特·弗拉格
Original assignee: Chubais LLC
Current assignee: Chubais LLC; Qbase LLC
Priority date: 2013-12-02
Filing date: 2014-12-01
Publication date: 2016-11-23
Also published as: KR20160124742A; EP3077919A1; JP6284643B2; CA2932399A1; EP3077919A4; JP2016541069A; WO2015084724A1; US20160110446A1; US20150154286A1; US9239875B2

Abstract

提供一种用于消除非结构化文本中的特征的歧义的方法。所公开的方法可以不要求预先存在的链接的存在。用于消除非结构化文本中的特征的歧义的方法可使用从源文档和大的文档语料库两者获得的共同出现的特征。所公开的方法可包括多个模块，其包括用于将从源文档获得的特征链接到现存的知识库的共同出现的特征的链接模块。所公开的用于消除特征的歧义的方法可允许从包括具有独特的一组共同出现的特征的实体的知识库中识别独特的实体，这进而可允许在知识搜寻和搜索结果中增加准确度，在大的语料库上使用高级分析方法，使用实体、共同出现的实体、主题ID以及其他获得的特征的组合。

Description

用于消除非结构化文本中的特征的歧义的方法

技术领域

本公开总体上涉及数据管理；并且更具体地，涉及从通过网络接收的源项中提取并存储资料的数据管理系统和方法。

背景技术

在包括诸如网络的源的大的文档集合中搜索关于实体(例如，人，位置，组织)的信息常常可以是有歧义的，其可导致不精确的文本处理功能、在知识提取期间不精确的特征关联，并因此导致不精确的数据分析。

现有技术的系统将基于链接的群集和排列用于数个算法，例如网页排名(PageRank)和超链诱导主题搜索(HITS)算法中。这背后的基本思想和相关的方法是预先存在的链接通常存在于相关的各页面或各概念之间。基于群集的技术的限制在于：有时候在语境中不存在消除实体的歧义所需的语境信息，导致不正确的消除歧义结果。类似地，关于相同的或表面上相似的语境中的不同实体的文档可能被不正确地群集在一起。

其他系统试图通过参考实体的一个或多个外部词典(或知识库)消除实体的歧义。在这样的系统中，实体的语境与词典中可能匹配的实体作比较，并返回最接近的匹配。与当前基于词典的技术相关的限制源于以下事实：实体的数量可随时增加，并因此，没有词典可包括世界上所有实体的表示。因此，如果文档的语境与词典中的实体匹配，那么该技术仅识别词典中最相似的实体，且不一定是正确的实体，正确的实体可能在词典之外。

在消除歧义的过程中，大多数方法仅使用实体和关键短语。因此，仍然需要允许精确数据分析的精确的实体消除歧义技术。

发明内容

一些实施例描述了用于消除特征的歧义的方法。该方法可包括多个模块，例如一个或多个特征提取模块、一个或多个消除歧义模块、一个或多个评分模块以及一个或多个链接模块。

将通过使用潜在狄利克雷分配(MC-LDA)主题模型的多分量扩展，从特征的周围文档提取主题，而部分地支持消除特征的歧义。这里，围绕存储在现存的知识库中的或在进入的文档上提取的每个次级特征，对每个分量建模。进一步地，链接或消除歧义的过程被建模成来自MC-LDA的主题推断，其在MC-LDA训练期间提供自动权重估计并在推断期间容易地应用它们。

示例性方法可提高实体消除歧义的准确度，超过了不考虑文档链接的情况下可实现的准确度。考虑文档链接可通过考虑文档和由链接暗示的实体的关系，而允许更好的消除歧义。

在一个实施例中，方法包括：通过对内存数据库进行寄存的系统的节点搜索一组候选记录，以识别与一个或多个提取的特征匹配的一个或多个候选，其中与候选匹配的提取的特征是初级特征；通过节点使每个提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联；基于主题ID的相关性，通过节点使每个初级特征相对于彼此消除歧义；基于主题ID的相关性，通过节点识别与每个初级特征关联的一组次级特征；基于主题ID的相关性，通过节点使每个初级特征相对于关联的一组次级特征中的每个次级特征消除歧义；通过节点将每个初级特征链接到关联的一组次级特征，以形成新的集群；通过节点确定新的集群是否与现存的知识库集群匹配，其中当匹配存在时，通过内存数据库服务器计算机的消除歧义模块来确定与知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新知识库集群以包括该新的集群；以及当匹配不存在时，通过节点创建新的知识库集群并给新的知识库集群的初级特征分配新的唯一ID；以及通过节点传送用于初级特征的现存的唯一ID和新的唯一ID中的一个。

在另一实施例中，一种非暂时性计算机可读介质，其上存储有计算机可执行的指令，所述指令包括：通过对内存数据库进行寄存的系统的节点搜索一组候选记录，以识别与一个或多个提取的特征匹配的一个或多个候选，其中，与候选匹配的提取的特征是初级特征；通过节点使每个提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联；基于主题ID的相关性，通过节点使每个初级特征相对于彼此消除歧义；基于主题ID的相关性，通过节点识别与每个初级特征关联的一组次级特征；基于主题ID的相关性，通过节点使每个初级特征相对于关联的一组次级特征中的每个次级特征消除歧义；通过节点将每个初级特征链接到关联的一组次级特征，以形成新的集群；通过节点确定新的集群是否与现存的知识库集群匹配，其中当匹配存在时，通过节点确定与知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新知识库集群以包括该新的集群；以及当匹配不存在时，创建新的知识库集群并给新的知识库集群的初级特征分配新的唯一ID；以及通过节点传送用于初级特征的现存的唯一ID和新的唯一ID中的一个。

将在下面的描述中阐述实施例的附加特点和优点，部分地将从描述中明显。通过具体地在书面描述中的示例性实施例、本文的权利要求以及附图中指出的结构，将实现和获得本发明的目的和其他优点。

将理解的是，前面的一般性描述和下面的详细描述是示例性的和说明性的，意在提供对要求保护的发明的进一步解释。

附图说明

通过参照以下附图，可更好地理解本公开。附图构成本说明书的一部分并示出了本发明的实施例，且与说明书一起解释本发明。附图中的组件不一定按比例绘制，相反重点是着重于说明本公开的原理。在附图中，贯穿不同的视图，参考数字指示对应的部分。

图1是根据示例性实施例的、用于消除非结构化文本中的特征的歧义的方法的流程图。

图2是根据示例性实施例的、由用于消除特征的歧义的方法中使用的消除歧义模块所执行的步骤的流程图。

图3是根据示例性实施例的、由用于消除特征的歧义的方法中使用的即时链接模块(link on-the-fly module)所执行的步骤的流程图。

图4是根据示例性实施例的、用于实现用于消除特征的歧义的方法的系统的原理图。

图5示出了根据示例性实施例的、多分量的、条件独立的潜在狄利克雷分配(MC-LDA)主题模型的图示。

图6示出了根据示例性实施例的、用于多分量的、条件独立的潜在狄利克雷分配主题模型的吉布斯采样等式的实施例。

图7示出了根据示例性实施例的、用于多分量的、条件独立的潜在狄利克雷分配主题模型中的训练和推断的、随机变分推断算法的实现的实施例。

图8是示出根据示例性实施例的、用于多分量的、条件独立的潜在狄利克雷分配主题模型的样本主题的表。

定义

如本文使用的，下面的术语可具有如下定义：

“文档”指的是具有开头和结尾的信息的离散电子表示。

“多文档”指的是以下文档，该文档具有其标记、不同类型的被命名的实体、以及被组织成单独的“表面包形式(bag-of-surface form)”分量的关键短语。

“数据库”指的是包括集群和模块的任何组合、适合于存储一个或多个集合且适合于处理一个或多个查询的任何系统。

“语料库”指的是一个或多个文档的集合。

“活的语料库”或“文档流”指的是当新的文档上传到网络中时被持续地供给的语料库。

“特征”指的是至少部分地从文档中获得的任何信息。

“特征属性”指的是与特征关联的元数据；例如，特征在文档中的位置，置信度分数等。

“集群”指的是特征的集合。

“实体知识库”指的是包含特征/实体的库。

“即时链接模块”或“链接OTF”指的是当活的语料库被更新时对数据进行更新的任何链接模块。

“存储器”指的是适合于以足够高的速度存储信息并检索所述信息的任何硬件组件。

“模块”指的是适合于执行一个或多个所限定的任务的计算机软件组件。

“情绪”指的是与文档、文档的一部分或特征关联的主观评价。

“主题”指的是至少部分地从语料库获得的一组主题信息。

“主题标识符”或“主题ID”指的是如下标识符，该标识符指的是特定实例的主题。

“主题集合”指的是从语料库获得的一组特定的主题，其中每个主题具有唯一的标识符(“唯一ID”)。

“主题分类”指的是给文档的特征分配特定的主题标识符。

“查询”指的是从一个或多个适合的数据库检索信息的请求。

具体实施方式

现在，将详细参考优选实施例，优选实施例的示例在附图中示出。上述实施例意在是示例性的。本领域技术人员认识到的是，多个可选组件和实施例可替代本文描述的具体示例，且仍然落入本发明的范围内。

本公开描述了一种用于消除非结构化文本中的特征的歧义的方法。虽然示例性实施例讨论了根据本公开的用于消除特征的歧义的实践，但是意图在于：本文描述的系统和方法可被配置为本公开的范围内的任何合适的用途。

现存的知识库包括无歧义的特征及其相关的特征，这可导致低置信度文本分析。本公开的一方面包括以下方法，该方法可允许在特征和实体消除歧义时增加准确度，因此在文本分析时增加准确度。

根据实施例，公开的用于消除特征的歧义的方法可用于数据的初始语料库，以执行文档吸收和特征提取，其可允许关于每个文档的主题分类和其他文本分析被包括在该初始语料库中。每个特征可被识别并被记录为名称、类型、在文档中的位置信息以及置信度分数等。

图1是方法100的流程图，示出了用于消除非结构化文本中的特征的歧义的多个步骤。根据实施例，用于消除特征的歧义的方法100可始于步骤102，在现存的知识库中进行新文档的输入。接下来，可在文档上执行特征提取步骤104。根据实施例，特征可与不同的特征属性例如主题标识符(“主题ID”)、文档标识符(“文档ID”)、特征类型、特征名称、置信度分数以及特征位置等相关。

根据各实施例，可从大的语料库或活的语料库(例如互联网或网络连接的语料库)供给在步骤102中输入的文档，而可以每秒地供给大的语料库或活的语料库。

根据不同的实施例，一个或多个特征识别和提取算法可在特征提取步骤104期间使用以分析文档输入步骤102的非结构化文本。分数可被分配给每个提取的特征。该分数可指示通过正确的属性正确地提取的特征的确定性水平。

另外，在特征提取步骤104期间，可从在步骤102中输入的文档识别一个或多个初级特征。每个初级特征可以已经与一组特征属性和一个或多个次级特征关联。每个次级特征可与一组特征属性关联。在一些实施例中，一个或多个次级特征可以已经具有一个或多个三级特征，每个三级特征具有它自己的一组特征属性。

考虑特征属性，可确定在步骤102输入的文档内的每个特征的相关权重或相关性。另外，可使用加权评分模型来确定各特征之间的关联的相关性。

跟在特征提取步骤104之后，在将特征包括在内存数据库(MemDB)中即步骤106期间，从在步骤102输入的文档提取的特征及所有与之相关的信息可被加载到MemDB中，作为特征消除歧义请求步骤108的一部分。

在实施例中，MemDB形成消除歧义计算机服务器环境的一部分，其中该消除歧义计算机服务器环境具有执行与图1-8关联地讨论的步骤的一个或多个处理器。在一个实施例中，MemDB是计算机模块，该计算机模块可包括一个或多个搜索控制器、多个搜索节点、压缩数据的集合以及消除歧义子模块。一个搜索控制器可选择性地与一个或多个搜索节点关联。每个搜索节点能够独立地执行贯穿压缩数据的集合的模糊关键字搜索，并将一组评分结果返回到与之关联的搜索控制器。

可通过MemDB内的消除歧义子模块执行特征消除歧义步骤108。特征消除歧义108过程可包括可用于对特征、文档或语料库进行分类的、由机器生成的主题ID。可使用消除歧义算法来确定各独立的特征和各特定主题ID的相关性。在一些文档中，根据特征在文档内的不同出现的语境，相同的特征可与一个或多个主题ID相关。

使用消除歧义算法，可使从一个文档提取的一组特征(如主题、相近的词条和实体、关键短语、事件和事实)与来自其他文档的多组特征作比较，以按照某一准确度水平限定横跨多个不同文档的两个或更多个特征是否是单个特征或者它们是否是不同特征。在一些示例中，可分析横跨数据库中文档的集合的两个或更多个特征的共同出现，以提高特征消除歧义过程108的准确度。在一些实施例中，总体评分算法可用于确定各特征相同的概率。

在一些实施例中，作为特征消除歧义过程108的一部分，可在MemDB内生成知识库。该知识库可用于暂时存储相关的被消除歧义的初级特征及与之相关的次级特征的集群。当新的文档被加载到MemDB中时，新的被消除歧义的一组特征可与现存的知识库作比较，以便确定各特征之间的关系以及确定在新的特征与已经提取的特征之间是否存在匹配。

如果所比较的特征匹配，则可更新知识库，以及匹配的特征的特征ID可返回到用户和/或请求应用或处理，且进一步基于匹配的频率，显著的措施可被附有特征ID，其捕捉它在给定的语料库中的流行指数。如果所比较的特征与已提取的特征中的任何特征都不匹配，则唯一特征ID被分配给被消除歧义的实体或特征，以及唯一特征ID与对特征进行限定的集群关联且被存储在MemDB的知识库内。接下来，在步骤110，被消除歧义的特征的特征ID可通过系统接口而被返回到源。在一些实施例中，被消除歧义的特征的特征ID可包括次级特征、特征的集群、相关特征属性或其他被请求的数据。下面在图2中更详细地描述用于特征消除歧义步骤108的消除歧义子模块。

消除歧义子模块

图2是根据实施例的、由用于方法100(图1)的特征消除歧义步骤108的非结构化文本的消除歧义子模块执行的过程200的流程图。在图1的步骤106中将特征包括在MemDB中之后，可开始消除歧义过程200。在步骤202中提供的所提取的特征可用于在步骤204中执行候选搜索，其中可贯穿包括共同出现的特征在内的所有候选记录来执行对于所提取的特征的搜索。

根据各实施例，候选可以是可用于特征消除歧义过程108的初级特征以及一组关联的次级特征。

可通过各主题ID的共同出现以及各主题ID之间的相关性改善消除歧义结果。可从已经分配了主题ID的大的语料库找到各主题ID的相关性，甚至是横跨多个不同主题模型的相关性。相关的主题ID可在记录链接步骤206期间使用以提供对以下文档的链接，该文档可能不包含准确的主题ID但是一定包含一个或多个相关的主题ID。该方法可改善将被包括在记录链接步骤206中的相关特征的回忆并在某些情况下改善消除歧义结果。

一旦已经识别多组可能相关的文档以及已经提取这些文档内的多组相关的初级特征和次级特征，则可在记录链接过程206期间使用特征属性、相同文档(有意义的语境)的各特征之间的关系、特征的相关权重以及其他变量，以消除横跨多个文档的初级特征和次级特征的歧义。然后，每个记录可被链接到其他记录，以确定被消除歧义的初级特征及与之相关的次级特征的集群。用于记录链接206的算法能够克服拼写错误或直译以及挖掘非结构化数据集的其他挑战。

集群比较步骤208可包括将相关匹配分数分配给被消除歧义的特征的集群，对于不同的应用可限定不同的接受阈值。所限定的准确度水平可确定哪些分数可被考虑正匹配搜索以及哪些分数可被考虑负匹配搜索，即步骤210。每个新的集群可被给予唯一ID且可暂时被存储在知识库中。每个新的集群可包括新的被消除歧义的初级特征及它的一组次级特征。如果新的集群与已经存储在知识库中的集群匹配，则在步骤212中系统更新知识库，以及在步骤214中可执行将被匹配的特征ID返回到用户和/或请求应用或处理。知识库的更新212可暗示附加的次级特征与一个初级特征的关联，或者之前不与初级特征或次级特征关联的特征属性的添加。

如果给正在评估的集群分配小于正匹配搜索210的阈值的分数，则系统执行将唯一ID分配给集群的初级特征即步骤216并更新知识库212。然后，系统执行被匹配的ID返回的过程214。在图3中进一步详细地说明记录链接步骤206。

即时链接子模块(Link On-the-Fly Sub Module)

图3是根据实施例的、由用于消除特征的歧义的方法100中使用的即时链接(“链接OTF”)子模块执行的过程300的流程图。链接OTF过程300能够持续地对信息的供给评价、评分、链接以及群集。链接OTF子模块可使用多种算法来执行记录链接206。步骤204的候选搜索结果可持续地供给到链接OTF模块300中。数据的输入可被伴随有匹配评分算法应用即步骤302，其中一个或多个匹配评分算法可同时应用于MemDB的多个搜索节点，同时考虑多个特征属性例如串编辑距离、语音、情绪等，执行用于对相关结果进行评价和评分的模糊关键字搜索。

然后，可添加链接算法应用步骤304以将在匹配评分算法应用步骤302期间识别的所有候选记录彼此作比较。链接算法应用304可包括能够过滤和评价在MemDB的多个搜索节点内执行的模糊关键字搜索的评分结果的、一个或多个分析链接算法的使用。在一些示例中，可分析横跨MemDB中识别的候选记录的集合的两个或更多个特征的共同出现，以提高该过程的准确度。对于链接算法应用304，可考虑与不同的特征属性相关的不同加权模型和置信度分数。

在链接算法应用步骤304之后，链接的结果可被布置在相关特征的集群中并作为步骤306中链接记录集群的返回的一部分而被返回。

图4是如上面与图1关联地讨论的、用于消除非结构化文本中的特征的歧义的系统400的实施例的原理图。系统400对内存数据库进行寄存并包括一个或多个节点。

根据实施例，系统400包括一个或多个处理器，所述一个或多个处理器执行用于多个专用计算机模块401、402、411、412和414(下面讨论)的计算机指令，以消除一个或多个文档内的特征的歧义。如图4所示，文档输入模块401、402从基于互联网的源和/或文档的活的语料库接收文档。大量的新文档可通过网络连接404在数秒内上传到文档输入模块402中。因此，该源可持续地获得新知识，该新知识由用户工作站406来更新，其中这样的新知识不是以静态方式预先链接的。因此，将要评价的文档的数量可无限地增加。

该评价可通过MemDB计算机408实现。MemDB 408可便于更快的消除歧义过程，可便于即时的消除歧义过程，其可便于将有助于MemDB 408的、最新信息的接收。可使用用于对特征进行链接的各种方法，其可基本上使用用于确定哪些实体类型最重要、哪些具有更大的权重的加权模型，且基于置信度分数，确定有多么可信地执行了正确的特征的提取和消除歧义，以及正确的特征可进入所产生的特征的集群。如图4所示，随着越多的系统节点并行地工作，处理可变得更加高效。

根据各实施例，当新文档通过网络连接404通过文档输入模块401、402到达系统400中时，通过提取模块411执行特征提取，然后通过MemDB 408的特征消除歧义子模块414在新文档上执行特征消除歧义。在一个实施例中，在执行新文档的特征消除歧义之后，提取的新特征410可被包括在MemDB中以经过其中特征可作比较和链接的链接OTF子模块412，以及被消除歧义的特征110的特征ID可返回到用户，作为来自查询的结果。除了特征ID之外，还可选择性地返回限定被消除歧义的特征的、所产生的特征集群。

MemDB计算机408可以是存储记录中的数据的数据库，该数据库由数据库管理系统(DBMS)(未示出)控制，DBMS配置为将数据记录存储在设备的主存储器中，这与传统的数据库以及将数据存储在“盘”存储器中的DBMS模块截然相反。传统的盘存储器要求处理器(CPU)对设备的硬盘执行读写命令，因此在对位于存储位置的数据执行某种操作之前，要求CPU执行指令以定位(例如，寻找)该存储位置并在该存储位置中检索数据。内存数据库系统访问置于主存储器中的数据，然后相应地访问地址，从而减少了由CPU执行的指令的数量并消除了与CPU在硬盘上寻找数据相关的寻找时间。

内存数据库可被实现为分布式计算架构，其可以是包括一个或多个节点、配置为对节点的相应资源(例如，存储器、磁盘、处理器)进行聚集的计算系统。如本文公开的，对内存数据库进行寄存的计算系统的实施例可将数据库的数据记录分布和存储在一个或多个节点之中。在一些实施例中，这些节点被形成为节点的“集群”。在一些实施例中，节点的这些集群存储数据库信息的多个部分或“集合”。

各个实施例提供计算机执行的特征消除歧义技术，该技术使用演变的且可有效链接的特征知识库，而该知识库被配置为存储次级特征，例如共同出现的主题、关键短语、相近的词条、事件、事实以及倾向性流行指数。公开的实施例可通过多种多样的链接算法执行，这些链接算法可基于帮助将给定的提取特征分解为知识库中存储的特征的、所牵涉的次级特征的尺寸，而从简单的概念距离测量改变到复杂的图形群集方法。另外，实施例可引入通过以下能力而使现存的特征知识库演变的方法：该能力不仅更新现存的特征条目的次级特征，而且通过发现可添加到知识库的新特征来扩展现存的特征条目。

消除歧义方法的实施例可使用主题建模方法以提供建模成主题推断的、(横跨所有次级特征)自动加权的链接过程(消除歧义)。为了支持自动加权链接过程，实施例使传统的LDA主题建模延伸以构建新的主题建模方法，该方法称为可支持任何数量的分量(次级特征)条件独立的多分量LDA(MC-LDA)。建模方法的实施例还可在训练期间自动地学习分量的权重并使用它们以用于与消除歧义关联的推断(链接)。所提出的用于消除歧义的MC-LDA方法可适应可被引入以增加消除歧义准确度的、任何附加数量的次级特征。

图5示出了由上面图4的系统400使用的、多分量的、条件独立的潜在狄利克雷分配(MC-LDA)主题计算机建模方法的实施例的图示。在示出的实施例中，每个分量块代表例如如通过图4的MemDB 408执行的、对横跨知识库的每个次级特征建模，其中利用图5中阐述的参数对图4的MemDB 408进行初始化。

图6示出了用于上面图5中使用的MC-LDA主题模型的吉布斯采样等式的实施例。该采样方法的实施例帮助图4的系统400以自动的方式和以高效的方式训练独立的分量(次级特征)的权重。

图7示出了例如如通过图4的系统400的MemDB 408执行的、用于图5-6的MC-LDA主题模型中的训练和推断的、随机变分推断算法的计算机执行的实现的实施例，其中利用图7中阐述的参数对图4的系统400的MemDB 408进行初始化。通过将(从感兴趣的文档提取的)所有次级特征作为输入且提供加权的主题作为输出，该推断方法的实施例易于应用以将链接/消除歧义过程建模成主题推断。这些加权的主题随后可用于对着存储的特征知识库的条目计算相似性分数。

图8是示出用于MC-LDA主题模型的样本主题的表。图8显示了根据实施例的、例如如通过图4的系统400的MemDB 408执行的、用于模型的每个分量的最高评分表面形式。

示例#1是用于消除非结构化文本中的特征的歧义的方法100的应用，其中感兴趣的特征(初级特征)是足球运动员John Doe，用户想要监测提及John Doe的新闻。根据一个实施例，提到John Doe的文档输入102可被上传到网络中。文档输入102的特征可被提取并被包括到MemDB 408中，以使之被消除歧义并被链接到与初级特征(John Doe)关联的次级特征的集群，且与现存的相似特征的集群作比较。方法100可输出不同的特征ID以及与特征ID关联的集群，该集群包括与John Doe相关的所有次级特征，例如工程师John Doe、教师John Doe、以及足球运动员John Doe。可考虑具有相似的次级特征的其他初级特征，例如绰号或短名称。然后，来自与足球运动员John Doe相同组的、具有相同年龄和职业的足球运动员“JD”可被考虑作为相同的初级特征。因此，可容易访问与足球运动员John Doe相关的所有文档。

示例#2是用于消除非结构化文档中的特征的歧义的方法100的应用，其中初级特征可以是图像。根据一个实施例，方法100可包括特征提取104，其中特征可以是一般属性，例如边缘和形状等；或特定属性，例如槽、人以及时钟等。例如，可输入新图像，其中该图像可具有次级特征，例如特定形状(例如，正方形形状、人或车)；次级特征可被提取并被包括在MemDB 408中，其中，可在具有相似的次级特征的所有其他图像之中找到匹配。根据本实施例，特征可仅包括图像，即，可以不包括文本作为特征。

示例#3是用于消除非结构化文本中的特征的歧义的方法100的应用，其中初级特征可以是事件。根据一个实施例，当进行查询时，方法100可允许用户接收与事件关联的结果，例如地震、火灾或疫情爆发等。方法100可执行特征的特征提取104和特征消除歧义108，以找到与事件关联的特征以及提供被消除歧义的特征110的特征ID。

示例#4是方法100的实施例，其中可进行对可能发生的一个或多个事件的预测。根据一个实施例，用户可在操作之前预先指示特征和感兴趣的事件，因此，可预先建立与感兴趣的事件关联的各不同特征之间的链接。当关联的各特征以高的出现次数出现在网络中时，方法100可基于关联的各特征的增加的出现次数而预测感兴趣的事件可能发生。当检测到即将发生的事件时，可向用户发送警报。例如，来自泰国的在卫生部工作的用户可选择接收对于登革热的疫情爆发的警报。当来自例如社交网络的其他用户406上传包括登革热的症状的评论或送入医院中时，方法100可消除来自社交网络的所有相关评论的歧义，以及考虑包括相关信息的用户406的数量，可预测并向卫生部工作人员发出警报：可能在发生登革热的疫情爆发。因此，卫生部工作人员可具有附加的证据，且可对受影响的社区采取进一步的行动以防止疫情扩散。

示例#5是用于消除非结构化文本中的特征的歧义的方法100的应用，其中初级特征可以是地理位置的名称。根据实施例，方法100可用于消除城市名称的歧义，其中在消除歧义子模块中不同的评分权重可与次级特征关联。例如，方法100可用于消除德克萨斯州巴黎相对于法国巴黎的歧义。

示例#6是用于消除非结构化文本中的特征的歧义的方法100的应用，其中初级特征可以是与人、事件或公司等关联的情绪；其中情绪可以是可从包括社交网络的任何合适的源提供的、关于人、事件或公司等的正面或负面评论。根据一个实施例，方法100可用于公司以确认它在公众之中具有的接受度。

示例#7是方法100的实施例，其中方法100可包括人的验证以便增加特征的置信度分数。根据一个实施例，链接OTF过程300(图4)可由用户辅助，其中用户可指示被消除歧义的特征是否已经被正确地消除歧义以及指示两个不同的集群是否应该是一个集群，这意味着用户已经确认“方法100(考虑所有特征和主题共同出现信息)指示为两个不同的初级特征”的事物可能相同。因此，与集群关联的置信度分数可以更高，因此，将特征被正确地消除歧义的概率可以更高。

示例#8是使用消除歧义过程200和链接OTF过程300的方法100的实施例。在该示例中，用于链接算法应用304的链接算法被配置为在1000ms的时段内提供大于0.85的置信度分数。

示例#9是使用消除歧义过程200和链接OTF过程300的方法100的实施例。在该示例中，用于链接算法应用304的链接算法被配置为在不超过300ms的时段内提供大于0.80的置信度分数。与示例#8中使用的算法相比，用于该示例的算法在更小的时间段内提供答案，但是通常返回更低的置信度分数。

示例#10是使用消除歧义过程200和链接OTF过程300的方法100的实施例。在该示例中，用于链接算法应用304的链接算法被配置为通常在超过3000ms的时段内提供大于0.90的置信度分数。用于该示例的算法提供具有通常比示例#8中使用的算法返回的置信度更大的置信度分数的答案，但是通常需要明显更长的时间段。

示例#11是用于消除非结构化文本中的特征的歧义以在来自多个源的文档的大的语料库上执行电子化搜寻的方法100的示例。考虑到来自多个源的文档的大的语料库，应用方法100以消除那些文档中的所有特征的歧义，使得能够在该语料库中搜寻到所有特征。搜寻到的特征的集合可进一步用于搜寻与特征相关的所有文档以及相关的特征的搜寻。

前述方法描述和过程流程图仅作为说明性示例提供，并不意在要求或暗示必须以所呈现的顺序来执行各个实施例的步骤。如将由本领域技术人员认识到的那样，可以以任何顺序执行前述实施例中的步骤。诸如“然后”、“接下来”等的词语不意在限制步骤的顺序；这些词语仅用于引导读者走通方法的描述。虽然过程流程图可能将操作描述为顺序过程，但是很多操作可并行地或同时地执行。另外，可重新布置操作的顺序。过程可对应于方法、功能、步骤、子例程、子程序等。当过程对应于功能时，其终止可对应于该功能返回到调用功能或主功能。

与本文公开的实施例关联地描述的各个说明性逻辑块、模块、电路以及算法步骤可被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经在上面总体上根据它们的功能描述了各个说明性部件、块、模块、电路以及步骤。这样的功能是否被实现为硬件或软件取决于具体的应用以及施加在整个系统上的设计约束。对于每个具体的应用，有经验的技工可以以各种方式实现所描述的功能，但是这样的实现决定不应该被解释为导致脱离本发明的范围。

可以以软件、固件、中间件、微代码、硬件描述语言或它们的任何组合来实现以计算机软件实现的实施例。代码段或机器可执行的指令可表示步骤、功能、子程序、程序、例程、子例程、模块、软件包、种类，或指令、数据结构或程序语句的任何组合。通过传递和/或接收信息、数据、命令行参数、参数或存储器内容，代码段可被耦合到另一代码段或硬件电路。可通过任何合适的手段(包括存储器共享、消息传递、令牌传递、网络传送等)传递、转发或传送信息、命令行参数、参数、数据等。

用于实现这些系统和方法的实际软件代码或专用控制硬件不是对本发明的限制。因此，在不参考特定软件代码的情况下描述系统和方法的操作和行为，这被理解为，软件和控制硬件可被设计为实现基于本文描述的系统和方法。

当以软件实现时，功能可被存储为非暂时性计算机可读的或处理器可读的存储介质上的一个或多个指令或代码。本文公开的方法或算法的步骤可以以处理器可执行的软件模块实施，该软件模块可驻留在计算机可读的或处理器可读的存储介质上。非暂时性计算机可读的或处理器可读的介质包括便于计算机程序从一个位置转移到另一个位置的计算机存储介质和有形存储介质两者。非暂时性处理器可读的存储介质可以是可由计算机访问的任何可用的介质。举例来说，但不是限制，这样的非暂时性处理器可读的介质可包括RAM、ROM、EEPROM、CD-ROM、或其他光盘存储器、磁盘存储器或其他磁性存储设备，或者可用于以指令或数据结构的形式存储期望的程序代码且可由计算机或处理器访问的任何其他有形存储介质。如本文使用的盘和碟包括紧凑碟(CD)、激光碟、光学碟、数字通用光碟(DVD)、软盘以及蓝光光碟，其中盘通常磁性地再现数据，而碟使用激光光学地再现数据。上述项的组合也应该被包括在计算机可读的介质的范围内。另外，方法或算法的操作可作为代码和/或指令中的一个或任何组合或集合而驻留在非暂时性处理器可读的介质和/或计算机可读的介质上，而该介质可被结合到计算机程序产品中。

将理解到的是，技术的各个组件可位于分布式网络和/或互联网的多个遥远部分处，或位于一个专用的安全的、不安全的和/或加密的系统内。因此，应该理解到的是，系统的多个部件可被组合成一个或多个设备或共同位于分布式网络例如电信网络的一个特定节点上。如将从描述中理解的那样，以及由于计算效率的原因，在不影响系统的操作的情况下，系统的部件可被布置在分布式网络内的任何位置处。此外，部件可被嵌入专用的机器中。

此外，应该认识到的是，对多个元件进行连接的各个链接可以是有线链接或无线链接，或者它们的任何组合，或者能够将数据供应和/或传递到所连接的元件以及供应和/或传递来自所连接的元件的数据的、任何其他已知的或后来开发的元件。如本文使用的术语“模块”可指的是能够执行与该元件关联的功能性的、任何已知的或后来开发的硬件、软件、固件或它们的组合。如本文使用的术语“确定”、“计算”和“运算”及其变型可互换地使用，并包括任何类型的方法、过程、数学运算或技术。

提供所公开的实施例的前述描述，以使得本领域的任何技术人员能够作出或使用本发明。对这些实施例的各种修改对于本领域技术人员而言将容易是明显的，且在不脱离本发明的精神或范围的情况下，本文限定的一般性原理可被应用于其他实施例。因此，本发明不意在被限制到本文示出的实施例，而是给予与下面的权利要求以及本文公开的原理和新特征一致的最宽的范围。

上面描述的实施例意在是示例性的。本领域技术人员认识到的是，多个可选部件和实施例可替代本文描述的具体示例且仍然落入本发明的范围内。

Claims

1.一种方法，包括：

通过对内存数据库进行寄存的系统的节点搜索一组候选记录，以识别与一个或多个提取的特征匹配的一个或多个候选，其中，与候选匹配的提取的特征是初级特征；

通过所述节点使每个所述提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联；

基于主题ID的相关性，通过所述节点使每个所述初级特征相对于彼此消除歧义；

基于所述主题ID的相关性，通过所述节点来识别与每个初级特征关联的一组次级特征；

基于所述主题ID的相关性，通过所述节点使每个所述初级特征相对于关联的所述一组次级特征中的每个所述次级特征消除歧义；

通过所述节点将每个初级特征链接到关联的所述一组次级特征，以形成新的集群；

通过所述节点确定所述新的集群是否与现存的知识库集群匹配，其中，

当匹配存在时，通过所述内存数据库服务器计算机的消除歧义模块来确定与所述知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新所述知识库集群以包括所述新的集群；以及

当匹配不存在时，通过所述节点创建新的知识库集群并给所述新的知识库集群的初级特征分配新的唯一ID；以及

通过所述节点传送用于初级特征的所述现存的唯一ID和所述新的唯一ID中的一个。

2.根据权利要求1所述的方法，进一步包括：通过所述节点将与提取的特征匹配的每个所述候选记录作比较；以及基于所述比较，通过所述节点给每个所述提取的特征分配加权的匹配分数结果。

3.根据权利要求2所述的方法，进一步包括：通过所述节点使每个所述提取的特征与一组加权的特征属性关联。

4.根据权利要求3所述的方法，进一步包括：基于一个或多个加权的特征属性，通过所述节点确定每个所述提取的特征的相关性。

5.根据权利要求1所述的方法，进一步包括：

通过所述节点的提取模块来识别和提取，其中，在一个或多个提取的特征中识别一个或多个初级特征；以及

通过所述节点的提取模块将每个所述提取的特征存储在数据库中。

6.根据权利要求5所述的方法，进一步包括：通过所述节点的提取模块给每个所述特征分配提取确定性分数。

7.根据权利要求1所述的方法，其中，每个初级特征与一组一个或多个特征属性关联。

8.根据权利要求7所述的方法，其中，特征属性选自由以下各项构成的组：主题ID、文档标识符(“文档ID”)、特征类型、特征名称、置信度分数以及特征位置。

9.根据权利要求1所述的方法，其中，每个关联的特征与根据预定集群层级的一组次序更低的特征关联。

10.根据权利要求1所述的方法，进一步包括：通过节点执行所述一组候选记录的模糊关键字搜索。

11.根据权利要求7所述的方法，进一步包括：基于相关的多个主题ID的共同出现以及一个或多个特征属性，通过所述节点的即时链接模块来链接两个或更多个数据源。

12.根据权利要求1所述的方法，进一步包括：

通过将一个数据源中的提取的特征与第二数据源中的特征作比较，通过所述节点确定所述一个数据源中的提取的特征是否共同出现在所述第二数据源中；以及

基于所述比较，通过所述节点链接每个数据源。

13.根据权利要求1所述的方法，进一步包括：通过所述节点分析来自多个不同数据源的提取的特征的共同出现，以提高对提取的特征进行消除歧义的准确度。

14.根据权利要求1所述的方法，进一步包括：

通过所述节点持续地接收一个或多个新的数据源；

通过所述节点持续地提取一个或多个提取的特征；

通过所述节点在所述一个或多个提取的特征上持续地执行候选搜索；

通过所述节点持续地消除所述提取的特征的歧义；以及

通过所述节点将所述提取的特征持续地链接到一个或多个新的集群中。

15.一种非暂时性计算机可读介质，其上存储有计算机可执行的指令，所述指令包括：

基于所述主题ID的相关性，通过所述节点识别与每个初级特征关联的一组次级特征；

基于主题ID的相关性，通过所述节点使每个所述初级特征相对于关联的所述一组次级特征中的每个所述次级特征消除歧义；

当匹配存在时，通过所述节点确定与所述知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新所述知识库集群以包括所述新的集群；以及

当匹配不存在时，创建新的知识库集群并给所述新的知识库集群的初级特征分配新的唯一ID；以及

通过所述节点传送用于所述初级特征的所述现存的唯一ID和所述新的唯一ID中的一个。

16.根据权利要求15所述的计算机可读介质，其中，所述指令进一步包括：通过所述节点将与提取的特征匹配的每个所述候选记录作比较；以及基于所述比较，给每个所述提取的特征分配加权的匹配分数结果。

17.根据权利要求16所述的计算机可读介质，其中，所述指令进一步包括：通过所述节点使每个所述提取的特征与一组加权的特征属性关联。

18.根据权利要求17所述的计算机可读介质，其中，所述指令进一步包括：基于一个或多个加权的特征属性，通过所述节点确定每个所述提取的特征的相关性。

19.根据权利要求15所述的计算机可读介质，其中，所述指令进一步包括：

通过所述节点的提取模块识别和提取一个或多个提取的特征，其中，在所述一个或多个提取的特征中识别一个或多个初级特征；以及

20.根据权利要求19所述的计算机可读介质，其中，所述指令进一步包括：通过所述节点的提取模块给每个所述特征分配提取确定性分数。