CN104981799A

CN104981799A - 检测和执行数据的重新摄入以提高自然语言处理系统的准确性

Info

Publication number: CN104981799A
Application number: CN201480008463.0A
Authority: CN
Inventors: A.克拉克; J.佩特里; J.K.休伯特; J.杜贝尔斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-03-12
Filing date: 2014-02-11
Publication date: 2015-10-14
Anticipated expiration: 2034-02-11
Also published as: CN104981799B; US9245008B2; US20140280253A1; WO2014140955A1; US9245009B2; US20140278351A1

Abstract

在一些自然语言处理系统中，将查询与语料库中存储的不同数据源进行比较以提供查询的答案。然而，用于回答查询的最好的数据源当前可能没有包括在语料库中或语料库中的数据源可能包含提供不准确答案的过时数据。当接收到查询，自然语言处理系统可以对查询进行评估以识别可能包含查询的答案的数据源。如果数据源当前不在语料库中，自然语言处理系统可以摄入该数据源。如果数据源已经被摄入到语料库中，自然语言处理系统可以确定与查询的至少一部分关联的时间敏感度的值。然后，可以利用该值确定是否应该重新摄入数据源-例如，语料库中包含的信息可能过时的。

Description

检测和执行数据的重新摄入以提高自然语言处理系统的准确性

技术领域

本发明涉及管理语料库中的数据源，并且更具体地，涉及识别用于摄入到语料库中的新数据源或确定语料库中存储的当前数据源是否过时。

背景技术

自然语言处理(NLP)是关注计算机和人类语言之间的交互的计算机科学、人工智能和语言学的一个领域。为了与人类进行交互，自然语言计算系统可以使用被解析并注释的数据存储(即：语料库)。例如，计算系统可以利用语料库，通过将问题与数据存储中的注释相关联以识别由人类用户提出的问题的答案。

在自然语言处理计算系统能够和用户进行交互之前，语料库由不同的文本文档填充。此外，注释器可以解析语料库中的文本以生成有关文本的元数据。利用元数据和存储的文本，自然语言处理计算处理计算系统可以与用户交互以例如，答案一个提出的问题、基于提供的症状诊断疾病、评估金融投资等。从某种意义上来说，语料库就像自然语言计算系统的“大脑”。

US8140335公开了一种会话式自然语言语音用户界面，可以提供集成语音导航服务环境。该语音用户界面可以使用户能够提出与各种导航服务有关的自然语言请求，并且进一步可以以一种合作、对话的方式与用户交互来解决请求。除此之外，通过动态意识到上下文，信息、领域知识、用户行为和偏好的可用资源，以及外部系统和设备，语音用户界面可以提供集成环境，其中用户可以对话式地、利用自然语言发出查询、命令或其他与环境中提供的导航服务有关的请求。

US7562009公开了一种用于自然语言处理的系统和方法，包括一种用于提供共享知识库的黑板数据结构，其上，自然语言代理集合可以在可处理数据表格上执行处理，每个代理能够提供可用于服务请求的处理资源，以在可处理数据表格上执行自然语言处理，并且基于他们各自的能力以及对黑板的检查确定他们能够对用于处理的哪些请求提供最好地服务；以及用于协调注册代理的工作的分配器，维护要完成任务的高级描述以向给定的自然语言工程问题提供解决方案，并确定能够向给定的自然语言工程问题提供最好地解决方案的注册代理。

US6601026公开了一种自然语言信息查询系统，包括被配置为基于一个或多个预定义的语法自动生成更新文本源的索引的索引机构，以及与该索引机构耦合以存储用于后续检索的索引的数据库。

发明内容

这里描述的实施例包括一种系统、计算机程序产品和方法，用于接收用于由自然语言处理系统处理的查询并通过将查询的一个或多个元素与数据源关联来识别与查询相关的数据源。当确定相关的数据源不在自然语言处理系统的语料库中，系统和计算机程序产品将相关的数据源摄入到语料库中。当确定相关的数据源在自然语言处理系统的语料库中，系统和计算机程序产品确定与查询关联的时间敏感度的值，指示查询的准确答案依赖于相关的数据源的过时性的程度。当确定时间敏感度的值满足过时性的阈值，系统和计算机程序产品将相关的数据源重新摄入到语料库中。

根据第一方面，提供了一种用于维护自然语言处理(NLP)系统中语料库的系统，包括：存储器，包括程序，当程序在计算机处理器上执行时执行以下操作：响应于接收用于由所述自然语言处理系统处理的查询，通过将所述查询的一个或多个元素与所述数据源关联识别与所述查询相关的数据源；当确定所述相关的数据源不在所述自然语言处理系统的语料库中，将相关的数据源摄入到所述语料库中；以及当确定所述相关的数据源在所述自然语言处理系统的所述语料库中：确定与所述查询关联的时间敏感度的值，指示所述查询的准确答案依赖于所述相关的数据源的过时性的程度，并且当确定所述时间敏感度的值满足过时性的阈值，将所述相关的数据源重新摄入到所述语料库中。

优选地，所述操作进一步包括在以下之一之后执行自然语言处理(NLP)技术将所述查询与所述语料库进行比较以识别所述查询的至少一个答案：(i)将所述相关的数据源摄入到所述语料库中以及(ii)将所述相关的数据源重新摄入到语料库中；以及将所述至少一个答案传输至提交所述查询的实体。更优选地，识别所述相关的数据源进一步包括解析所述查询以识别提供数据源的查询的元素；通过为所述至少一个元素分配主题将所述查询的至少一个元素特征化；以及通过将所述主题与与不同数据源关联的多个主题进行比较识别相关的数据源。更优选地，确定与所述查询关联的所述时间敏感度的值进一步包括：执行概念映射以为所述查询中的至少一个元素分配概念；当确定所述概念与持续时间或时间相关，则基于所述概念中指定的持续时间或时间分配所述时间敏感度的值；以及当通过将所述概念与预定义的依赖于时间的概念的列表进行匹配确定所述概念依赖于时间，则基于所述概念的所述时间依赖性分配所述时间敏感度的值。

优选地，确定所述时间敏感度的值满足所述过时性的阈值进一步包括通过将与所述相关的数据源关联的时间戳与所述时间敏感度的值进行比较确定所述相关的数据源是否过时。更优选地，所述操作进一步包括，在摄入或重新摄入所述数据源之前，从提交所述查询的用户接收将所述数据源摄入或重新摄入到所述语料库的许可。更优选地，所述语料库包括来自不同数据源的多个数据，其中所述不同数据源的所述数据基于所述语料库中的通用格式进行组织。

根据第二方面，提供了一种用于维护自然语言处理(NLP)系统中语料库的计算机程序产品，该计算机程序产品包括：计算机可读存储介质，其上具有计算机可读程序代码，该计算机可读程序代码包括计算机可读程序代码，配置用于：响应于接收用于由自然语言处理系统处理的查询，通过将所述查询的一个或多个元素与数据源关联识别与所述查询相关的数据源；当确定所述相关的数据源不在所述自然语言处理系统的所述语料库中，将所述相关的数据源摄入到所述语料库中；以及当确定所述相关的数据源在所述自然语言处理系统的所述语料库中：确定与所述查询关联的时间敏感度的值，指示所述查询的准确答案依赖于所述相关的数据源的过时性的程度，并且当确定所述时间敏感度的值满足过时性的阈值，将所述相关的数据源重新摄入到所述语料库中。

根据第三方面，提供了一种用于维护自然语言处理(NLP)系统中语料库的方法，包括：响应于接收用于由所述自然语言处理系统处理的查询，通过将所述查询的一个或多个元素与数据源关联识别与所述查询相关的数据源；当确定所述相关的数据源不在所述自然语言处理系统的语料库中，将所述相关的数据源摄入到所述语料库中；以及当确定所述相关的数据源在所述自然语言处理系统的所述语料库中：确定与所述查询关联的时间敏感度的值，指示所述查询的准确答案依赖于所述相关的数据源的过时性的程度，并且当确定所述时间敏感度的值满足过时性的阈值，将所述相关的数据源重新摄入到所述语料库中。

附图说明

为使以上列举的方面能够更加详细地被理解，可以通过参考所附附图对以上简要总结的本发明的实施例进行更具体的描述，其中：

图1是根据描述的一个实施例的用于将文档从数据源摄入到自然语言处理系统的语料库中的流程图；

图2是根据描述的一个实施例的用于识别用于摄入或重新摄入到语料库中的数据源的流程图；

图3是根据描述的一个实施例的用于通过将接收的查询中的元素特征化识别数据源的流程图；

图4是根据描述的一个实施例的用于向查询分配时间敏感度的值以确定是否重新摄入数据源的流程图；

图5是根据描述的一个实施例的用于确定何时重新摄入数据源以向接收的查询提供补充答案的流程图；

图6是根据描述的一个实施例的自然语言处理系统的系统框图。

为了便于理解，在可能的情况下，附图中相同的元件尽可能使用相同的附图标记来表示。可以预期，在一个实施例中公开的元件可以在不进行特别说明的情况下由其他的实施例有效地利用。

具体实施方式

用于自然语言处理系统的数据存储可以包括来自多个不同数据源-例如期刊、网站、杂志、参考书、教科书等的信息。在一个实施例中，来自数据源的信息或文本被转换成单一、共享的格式并且在数据存储(即：语料库)中作为对象存储。例如，期刊中的文章与百科全书中的条目可能以不同的方式格式化。此外，为了印刷各自的文章，不同期刊可能具有不同的格式。因此，为了摄入具有各自格式的不同文档，自然语言处理系统可以将文档进行预处理，以将不同的格式变成标准化格式(这里也称为“通用格式”)。如本文使用的，数据源的格式包括其中文本安排的方式。格式可以包括不同的格式元素，例如节头、段头、标记语言中的元素(例如HTML和XML的标签)等。此外，数据源使用的格式可以指定格式元素的特定层次或次序-例如：介绍部分，然后是一般性讨论部分，然后是结论部分。这里，将数据源添加至语料库的过程通常被称为摄入。

一旦数据源被摄入，接收的查询可以被注释并与语料库中存储的数据进行比较。基于比较，自然语言处理系统可以在语料库中识别查询的一个或多个答案。然而，一些例子中，包含查询答案的数据源可能不在语料库中，或者语料库可能包含提供不准确答案的过时数据。当接收到查询，自然语言处理系统可以对查询进行评估以识别可能包含查询的答案的数据源。如果数据源当前不在语料库中，自然语言处理系统可以摄入该数据源。如果数据源已经被摄入到语料库中，自然语言处理系统可以确定与查询的至少一部分关联的时间敏感度的值。然后，可以利用该值确定是否应该重新摄入数据源-例如，语料库中包含的信息可能过时的。

在另一个实施例中，在自然语言处理系统将查询与语料库进行比较以识别查询的答案之后，自然语言处理系统可以尝试识别可能包含更准确答案的一个或多个补充数据源。为了达到此目的，自然语言处理系统可以识别与查询中的不同元素关联的一个或多个概念并且利用这些概念过滤语料库中存储的不同数据源。以这种方式，自然语言处理系统可以识别与查询相关的数据源并且，如果更新，可以包含查询的补充答案。自然语言处理系统然后可以确定近期是否有新数据添加至数据源。如果有，自然语言处理系统可以重新摄入数据源并再次将查询与语料库进行比较以确定重新摄入的数据源包含的答案是否优于之前识别的答案。以这种方式，自然语言处理系统可以通过将数据源重新摄入到语料库中来增强原先找到的答案并针对更新的语料库重新对查询进行评估。

本发明的各种实施例的描述已经呈现用于说明的目的，但不旨在穷尽或限制于所公开的实施例。不脱离所描述实施例的范围的许多修改和变化对那些本领域的普通技术人员来说将是显而易见的。本文所用的术语被选择以最好地解释实施例的原理、在市场上找到的技术的实际应用或技术改进，或使本领域的其他普通技术人员能够理解在此公开的实施例。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。

计算机程序指令还可以被加载到计算机、其它可编程数据处理装置或其他装置，使要在计算机、其它可编程设备或其它设备上执行的一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图的块或多个块中指定的功能/动作的过程。

可以通过云计算基础设施向最终用户提供本发明的实施例。云计算一般是指通过网络提供可扩展的计算资源作为服务。更正式地，云计算可以定义为一种计算能力，它提供计算资源和其底层技术架构(例如服务器、存储设备、网络)之间的抽象，使得对能够以最少管理工作或服务提供商交互快速配置和发布的可配置计算资源的共享池能够方便、按需的网络访问。因此，云计算允许用户访问“云”中的虚拟计算资源(例如存储、数据、应用甚至完全虚拟化的计算系统)而不考虑用于提供计算资源的底层物理系统(或这些系统的位置)。

通常情况下，以按使用量付费的方式向用户提供云计算资源，其中用户仅为实际使用的计算资源付费(例如用户消费的存储空间的量或用户实例化的虚拟系统的数目)。用户可以随时、通过因特网从任何地方访问驻留在云中的任何资源。在本发明的上下文中，用户可以访问云中可用的应用(例如数据存储)或有关的数据。例如，用于填充的数据存储的预处理器可以在云中的计算系统上执行并接收特定的文本文档。在这样的情况下，该使用可以向预处理器传输文本文档，然后在云中的存储位置生成数据存储。这样做允许用户从连接到与云连接的网络(例如因特网)的任何计算系统访问此信息。

图1是根据描述的一个实施例的用于为自然语言处理系统生成语料库的流程图100。流程图从以各自的格式安排文本的多个不同的数据源105A-105D接收文本文档(例如电子文件、便携式文档格式(PDF)文件、纯文本文件、HTML文本等)。例如，网页105A可以表示从诸如(维基媒体基金会的注册商标)的特定域检索的不同网页。域可以包括被各自定向到一个特定主题的多个网页。尽管图1中未示出，网络爬虫(WebCrawler)可以发现每个网页105A并将这些页面作为相应的文本文档传送给预处理系统110。与网页105A关联的域可以限定由该域的所有网页105A共享的特定格式。例如，网页105A可以包括标题标签(<title>标题</title>)，其次是主体标签(<body>)、头标签(<h1>...<hN>)等等。因此，数据源105可以具有可被用于解析并识别相关文本的可预测的格式。

图1中示出的其他数据源安排文本的格式可以与网页105A不同。例如在发表文章时，期刊105B总是使用相同的格式。该格式可以包括例如，相同的主标题或格式元素-例如简介、分析、结论和参考文献-被安排成特定的顺序。可以为从其他数据源接收的文本文档识别其他的格式(例如文章、页、子页或主题)。例如，来自百科全书的多个电子页面可以被发送到预处理系统110，其使用解析器来扫描页面以识别不同的主题以及与主题关联的文本。例如，百科全书在引入新主题时可能使用特殊字体或间距。利用格式的这些已知特征，预处理系统110可以识别对应于每个主题的页面的部分。

预处理系统110接收的各种文本文档并利用各自的格式识别相关文本。在一个实施例中，预处理系统110可以包括对应于每种格式的相应代码部分，本文中称为扩展类。利用扩展类，预处理系统110识别相关文本并将文本与标准化(或通用)格式中的格式元素关联。预处理系统110生成具有通用格式的对象115(例如自然语言处理对象)。即，无论接收的文本中使用的特定格式，在自然语言处理对象115中，文本可能基于所有对象115共享的格式进行安排。例如，预处理系统110可以为从数据源(例如一篇关于乳腺癌的文章或一个关于治疗前列腺癌的网页)接收的每个主题生成新的对象115。然而，如果已经存在分配给该主题的对象115，预处理系统可以将新文本存储至该已经存在的对象115中。预处理系统110将这些文档中的文本以标准化的格式安排，其中在对象115中每个文档被分类。在一个实施例中，对象115可以是非结构化信息管理体系结构(UIMA)，一种OASIS标准，中定义的个体源(individual source)公共分析系统(common analysis system(CAS))数据结构。一旦文本文档被摄入(即文本被安排到对象115中)，预处理系统110可以将对象115或CAS放入语料库120中。

图2是根据描述的一个实施例的用于识别用于摄入或重新摄入到语料库中的数据源的流程图。通常，摄入过程指的是用于将与数据源关联的一个或多个文档、文件、网页等添加到自然语言处理系统的语料库中的技术。图1显示了摄入文档的这样的一个例子。术语“摄入”和“重新摄入”可以用于区分第一次添加到语料库中的数据源和之前已经被摄入过的数据源。也就是说，“摄入数据源”可以指来自某一特定数据源的文档首次被添加至语料库中，而“重新摄入数据源”指的是为与该数据源关联的文档再次执行摄入过程。重新摄入数据源可以包括摄入被添加到数据源的新文档或更新之前添加到语料库中但变化了的文档(或两者)。

在块205，自然语言处理系统可以接收查询。查询可以被描述为问题(尽管这并不是必要的)并基于用于人类交流的特定语言-例如英语、法语、俄语等。在一个实施例中，可以由用户直接或间接地提交查询。例如，用户可以将查询键入个人计算机，然后个人计算机将查询发送到自然语言处理系统用于处理；或者用户可以与自然语言处理系统直接通信，例如，系统可以包括语音识别应用，捕获用户的语音查询。基于查询中不同的元素(即查询中的单词或短语)，自然语言处理系统可以检索语料库以识别查询的答案。

在块210，自然语言处理系统通过对查询内的元素进行评估来识别可能包含查询的答案的数据源。例如，自然语言处理系统可以对查询进行解析并基于查询内的元素或从基于这些元素导出概念来识别数据源。例如，查询可能询问“IBM Bladecenter HX5的价格是多少？”这里，可以从查询的元素中直接导出数据源——即与产品(IBM是国际商业机器公司在美国和其他地区的注册商标)关联的网站或定价数据库。在其他实施例中，可以通过间接从查询导出信息来识别相关的数据源(或源)，例如与查询关联的一般主题。可以在讨论图3时找到关于该块的更详细的描述。

在块215，自然语言处理系统可以确定在块210识别的数据源是否当前位于语料库中——即该数据源是否之前被摄入过。如果没有，在块220，自然语言处理系统可以摄入该数据源。如果该数据源已经被摄入，自然语言处理系统可以进一步执行分析以确定语料库中的数据是否过时。在块225，自然语言处理系统可以确定与查询关联的时间敏感度的值。在一个实施例中，查询可以指定时间或持续时间——例如“明尼苏达州罗切斯特昨天的气温是多少？”因为字眼“昨天”指示答案需要来自自昨天以来摄入的数据源，自然语言处理系统可以设置一个较高的时间敏感度的值。较高的时间敏感度的值可以例如指示用于提供答案的数据源的过时性对答案的准确度有较大影响。相反的，如果查询是某个演员是否在2010年获得了某个奖项，自然语言处理系统可以为查询设置一个较低的时间敏感度的值，因为在块210识别的数据源只需自2010年以来被更新过就会具有该答案。块225更详细的解释将随图4的讨论进一步提供。

在块230，自然语言处理系统可以基于时间敏感度的值确定是否重新摄入识别的数据源。例如，如果时间敏感度的值满足预定义的阈值，自然语言处理系统可以重新摄入数据源。在其他实施例中，自然语言处理系统在决定是否重新摄入数据源时可以包括其他因素，例如重新摄入数据源需要的估计时间。例如，即使时间敏感度的值很高，如果估计时间为20分钟，那么自然语言处理系统可以不重新摄入数据源。替代地，如果时间敏感度的值很低，如果估计时间只是几秒(例如自然语言处理系统只需要摄入一小篇文章)，那么自然语言处理系统可能重新摄入数据源。在重新摄入数据源之前可以考虑的其他因素包括与查询关联的时间重要性(即是否请求实体立即需要答案或答案可以延迟以容许重新摄入)，是否自然语言处理系统已经从不同的数据源识别出可靠的答案，或自然语言处理系统基于系统硬件资源的当前使用执行重新摄入的能力。在一个实施例中，上面讨论的因素也可以由自然语言处理系统用来确定是否在块220摄入新识别的数据源。例如，如果估计摄入新数据源将需要超过一分钟，那么自然语言处理系统可以选择不摄入数据源。可替代地，自然语言处理系统可以仅依赖于已经被摄入语料库中的数据源提供查询的答案。

在一个实施例中，自然语言处理系统可以在块220摄入新数据源或在块230重新摄入旧数据源之前向用户提供多种选项。在自然语言处理系统想要摄入新数据源的情况下，系统可以向用户征求摄入源的许可。这样做向用户提供了利用仅存的源回答查询的机会，而不是等待摄入新数据源。在此场景中，自然语言处理系统可以显示摄入源的估计时间并让用户选择是否摄入源。此外，自然语言处理系统可以对查询进行评估，确定答案，并在向用户询问是否愿意摄入可能具有更准确答案的新源之前向用户显示该答案。继续之前提供的例子，自然语言处理系统可以利用语料库中已经存在的数据源(例如销售二手电子产品的网站)提供二手BladeCenter HX5的价格。在显示该价格时，自然语言处理系统可以表明如果IBM网站(例如在步骤210识别的数据源)被摄入到语料库中可以找到更准确的价格。在另一个实施例中，自然语言处理系统可以提供到数据源的HTML链接，用户可以试图自己回答查询。而且，上面讨论的选项还可以在自然语言处理系统不能找到查询的任何答案时向用户提供。

在自然语言处理系统想要重新摄入当前存储的数据源的情况下，系统可以显示摄入源的估计时间并让用户决定是否摄入可能已经更新的提供更准确答案的数据源。并且，自然语言处理系统可能之前已经利用语料库中未更新的数据源处理了查询。如果找到了答案，那么自然语言处理系统可以向用户显示答案并表明自然语言处理系统已经确定答案可能过时。例如，如果查询询问运动队的最新比分，自然语言处理系统可以基于检索摄入的体育网站显示答案。然而，因为查询询问最新比分，自然语言处理系统可以与日期一起显示找到的最新比分，但询问用户是否愿意等待自然语言处理系统重新摄入数据源并基于更新的语料库重新处理查询以确保答案准确。

在一个实施例中，方法200可以在自然语言处理系统处理查询之前执行。即，方法200可以是预处理技术，用于确定语料库是否应当在检索语料库以识别查询的答案之前更新。替代地，方法200可以在检索语料库以识别查询的答案之后或与之并行的执行。在一个例子中，自然语言处理系统可以在系统已经确定查询的答案之后执行方法200的至少一部分。然而，自然语言处理可以基于一些置信参数确定答案可能不准确。作为响应，自然语言处理系统可以执行方法200以确定是否应当通过摄入新的数据源或重新摄入当前数据源(或两者)来更新语料库以在重新处理查询时可能找到问题的更准确的答案。

图3是根据描述的一个实施例的用于通过将接收的查询中的元素特征化识别数据源的流程图。特别地，方法300是自然语言处理系统在图2的块210期间可以执行的技术的详细解释。在块305，自然语言处理系统可以对解析查询的元素以确定查询是否特别提到了数据源。查询的元素可以是单个单词或多个相关单词(例如词组)。这里描述的实施例可以利用任意自然语言处理技术将查询的词划分为不同的元素。

自然语言处理系统可以对每个元素进行评估以查看这些元素是否对应于特定数据源。在一个实施例中，自然语言处理系统可以检索特定数据库(例如某一国家注册的公司列表)或因特网以确定元素之一是否为数据源。例如，如果查询包含单词IBM，自然语言处理系统可以进行网络检索以识别与IBM关联的一个或多个数据源-例如IBM的网站、关于IBM的新闻、IBM的出版物等。自然语言处理可以标记不同的数据源用于摄入到语料库中。以这种方式，查询中的元素可以被解析以直接导出可能包含查询答案的不同的可能数据源。

在块310，自然语言处理系统可以根据与各个元素关联的主题将查询中的每个元素特征化。在一个实施例中，自然语言处理系统可以为查询中的每个元素注释。作为过程的一部分，自然语言处理系统可以为元素分配特定主题或提供元素的一般描述。例如，一段时间(如两个小时)可以注释为时间或持续时间。人的姓名可以由其工作或职业进行注释(如演员或从政人员)。这些注释是查询中底层元素阐述的元数据或导出数据。基于这些元数据或查询中元素的特征，自然语言处理系统可以间接地识别与查询有关的数据源。

在块315，自然语言处理系统可以利用各个元素的特征检索相关的数据源。在一个实施例中，自然语言处理系统可以维护尚未摄入到语料库中的可能数据源的列表。例如，自然语言处理系统之前可能已经确定某一特定数据源与自然语言处理系统通常回答的查询的类型不够相关以保证将数据源摄入到语料库中。尽管如此，自然语言处理系统可以将该数据源以及源的简介一起添加至表格-例如标题或描述源的摘要。自然语言处理系统可以基于元素的特征检索表格以查看表格中是否存在匹配。例如，自然语言处理系统可以决定不摄入包括著名演员传记的数据源，但将该数据源的简介添加至前面提到的表格中。如果自然语言处理系统之后接收到其中一个元素的特征为演员的查询，自然语言处理系统可以检索表格并标记包含传记的数据源作为摄入的潜在源。此外，自然语言处理系统可以检索语料库中的当前数据源以查看这些源之一是否与元素之一匹配或相关。如果是，自然语言处理系统可以标记该数据源用于进一步评估(即，确定是否应该重新摄入该数据源)。

在另一个实施例中，自然语言处理系统可以利用特征检索因特网以识别未在语料库中的新数据源。例如，自然语言处理系统可以将元素的特征(与元素关联的所有不同的主题)输入到搜索引擎并对结果进行评估。自然语言处理系统可以生成搜索引擎识别的不同网站的汇总并将该汇总与元素的特征进行比较。如果特征与汇总类似，自然语言处理系统进而可以标记网站的域作为语料库潜在的新数据源。

尽管在识别单一数据源的上下文中讨论了方法300，但自然语言处理系统可以利用方法300识别多个数据源，可以是新数据源或先前已经摄入到语料库中的数据源。在识别出一个或多个候选数据源之后，方法300可以返回图2的块215以确定适当的动作。

如图所示，方法300显示了在执行块305(即通过辨识查询中的数据源直接识别数据源)之后执行块310(即基于查询中元素的特征间接识别数据源)；然而，在一个实施例中，自然语言处理系统可以仅执行方法300中显示的这些技术中的一种而不是两种都执行。例如，如果自然语言处理系统在块305识别出任何数据源，那么系统可以假设查询中特别提到的数据源最相关并直接进入到图2的块215。替代地，自然语言处理系统可以基于元素的特征首先试图识别新的数据源。如果失败，系统可以进而确定查询是否特别包括了数据源。

图4是根据描述的一个实施例的用于向查询分配时间敏感度的值以确定是否重新摄入数据源的流程图。特别地，方法400是自然语言处理系统可以在图2的块225期间执行的技术的详细解释。因此，方法400可以在确定图2块210中识别的数据源已经在语料库中之后开始。在块405，自然语言处理系统为查询中的不同元素执行概念映射。在一个实施例中，概念映射可以与图3的块310中执行的特征化类似(或相同)。与对查询中的元素进行注释以提供元素的描述类似，自然语言处理系统可以为每个元素分配概念。在一个实施例中，自然语言处理系统可以识别查询中作为单词或名词短语的可预测答案类型的词法答案类型。过滤查询的可能答案的一种方式是查看可能的答案是否与词法答案类型具有相同的类型。例如，如果接收的查询是“40英寸电视的价格是多少”，自然语言处理系统可以识别该查询的词法答案类型是价格。因此，任何可能的答案都应与价格关联。基于该自然语言处理技术或其他适合的技术，自然语言处理系统可以为查询中的每个元素或整个查询分配概念。

在块410，自然语言处理系统可以确定分配的概念或概念是否与持续时间或时间范围关联。查询可以例如规定时间长度(例如六个月、两天、五个小时、“多长时间”等)或时间范围(1942、上周、2012年12月25日、当前/现在、昨天等)，可以映射到与时间或持续时间有关的概念。在块415，自然语言处理系统基于查询中表达的时间相关的数据分配时间敏感度的值。例如，如果时间相关的数据发生于近期，那么自然语言处理系统可以分配较高的时间敏感度的值。为此，在一个实施例中，自然语言处理系统可以将查询中时间相关的数据与固定的参考点-例如当前日期关联。询问“尼尔阿姆斯特朗在月球上停留了多长时间”的查询与询问“昨天停电多长时间”的查询相比可能具有较低的时间敏感度的值，尽管这两个问题都包含同样的时间相关的数据-例如短语“多长时间”-后者中的短语“昨天”指示与尼尔阿姆斯特朗登月有关的前一查询相比，该查询更依赖于底层数据源何时进行了更新。因此，通过利用当前日期将查询中的时间相关的数据进行修正，自然语言处理系统可以为查询中的一个或多个也是或整个查询分配定制的时间敏感度的值。

如果概念映射在块420没有直接导致识别出时间相关的数据，自然语言处理系统可以确定与元素关联的概念是否依赖于时间。换句话说，与某些概念关联的准确回答查询的能力可以依赖于包含答案的数据源的过时性。例如，查询询问“谁是排名最靠前的大学篮球队”并不直接包含时间相关的数据。然而，概念“排名”依赖于时间，因为在篮球赛季中，排名第一的球队可能每周变化。因此，自然语言处理系统可以从概念推断适当的时间敏感度的值。例如，自然语言处理系统可以包括列出依赖于时间的概念(例如排名、股票报价、电影院放映、价格等)的预定义的表格。如果查询中的元素与任意这些概念关联，那么自然语言处理系统可以分配更高的时间敏感度的值。

在另一个实施例中，自然语言处理系统可以合并(或独立地考虑)动词时态和概念以确定时间敏感度的值。在前一例子中，动词“is”也可以用来影响时间敏感度的分值。另一方面，如果查询中的单词使用过去时结构，自然语言处理系统可以降低时间敏感度的值。除了动词时态，还可以考虑其他因素来设定时间敏感度的值。例如，如果查询包括历史事件，那么该事件出现时可以用来分配时间敏感度的值。因此，自然语言处理系统可以将多种不同因素或考虑与概念映射合并以便为查询生成时间敏感度的值。一旦分配了时间敏感度的值，自然语言处理系统可以进行到图2的块230以基于时间敏感度的值确定是否重新摄入识别的数据源。例如，自然语言处理系统可以将时间敏感度的值与阈值进行比较或将该值与语料库中指示数据从数据源最后一次更新的时间戳进行比较。

然而，如果自然语言处理系统在查询中没有识别任何依赖于时间的概念，方法300进行到块425，其中自然语言处理系统可以在不重新摄入识别的数据源的情况下回答查询。在一个实施例中，在利用数据源回答查询时，自然语言处理系统可以通知用户数据源上一次被更新的时间(例如时间戳)。用户然后可以独立确定数据源已过时并请求自然语言处理系统重新摄入数据源并处理查询。

图5是根据描述的一个实施例的用于确定何时重新摄入数据源以向接收的查询提供补充答案的流程图。在块505，自然语言处理系统例如从人类用户接收查询。在块510，自然语言处理系统为查询中的不同元素或整个查询执行概念映射。在一个实施例中，在方法500的块510执行的概念映射可以与图4的块405执行的概念映射相同或类似。替代地，方法500可以将不同的元素特征化以识别与图3的块310中讨论的元素关联的主题。

在块515，自然语言处理系统确定查询的一个或多个答案。即，利用任何自然语言处理技术，系统可以将查询中的元素与语料库进行比较以识别查询的潜在答案。在一个实施例中，自然语言处理系统还可以将指示答案可信度的置信度分值与每个答案关联。自然语言处理系统可以基于置信度分值确定是否通过确定是否应当重新摄入提供答案的一个或多个数据源来增强答案。例如，自然语言处理系统可以包括与答案相比较的一个预定义的阈值。如果答案的置信度分值不满足或超过阈值，那么自然语言处理系统可以确定通过确定提供答案的数据源是否过时来增强答案。即，如果重新摄入数据源以包括更新的数据，可以提高置信度分值。

一个实施例中，即使将查询与语料库进行比较没有找到答案也可以执行方法500。即，由于语料库中没有包含答案的数据源，自然语言处理系统可以试图确定一个或多个数据源用于重新摄入。而且，方法500可以在确定查询的答案之前执行。更一般地说，自然语言处理系统可以独立于查询与语料库进行比较的结果执行方法500。这种情况下，自然语言处理系统可以在每次接收到查询时利用在块510完成的概念映射识别与查询相关的已过时并需要重新摄入的数据源。

在块520，自然语言处理系统可以基于查询中识别的概念过滤语料库中的数据源。即，除了确定是否重新摄入在块515已经提供答案的数据源之外，自然语言处理系统可以确定是否应该考虑没有提供答案，但与查询相关的其他数据源。假设查询询问什么剂量的特定药物适合于治疗乳腺癌。自然语言处理系统可以基于查询，例如“剂量”、“治疗”、“乳腺癌”、“癌”等，识别包含的概念。当摄入数据源时，自然语言处理系统可以生成数据源的汇总或数据源的关键概念。因此，自然语言处理系统可以交叉引用查询中识别的概念和语料库中源的汇总。如此做，自然语言处理系统可以识别通常涉及用于治疗乳腺癌的药物的数据源。另一方面，可以降低语料库中不包括这些概念的源的重要性-例如可以将涉及过敏或运动伤害的源滤除。以这种方式，自然语言处理系统可以基于查询中概念和补充数据源的一般描述之间的相似性识别当前没有答案查询但有望具有查询答案的一个或多个补充数据源。

在块525，自然语言处理系统确定补充数据源是否被更新。例如，补充数据源可以是自被摄入以来发表了另一篇文章或发布了新一期内容的期刊。在一个实施例中，自然语言处理系统可以将与数据源关联的日期与语料库中指示数据源上一次被摄入时间的时间戳进行比较。为了识别与数据源关联的日期，自然语言处理系统可以使用网络爬虫识别域中的网页何时被更新，查询数据库以检索数据库中存储的数据的时间戳，解析电子数据化文档(例如期刊的PDF)等。

如果自然语言处理系统确定与数据源关联的数据比时间戳更新，系统可以在块530重新摄入数据源。在一个实施例中，自然语言处理系统可以仅重新摄入数据源的一部分(例如新文章或最新的发行)，而不是重新摄入整个数据源(例如数据源的所有卷)。

在一个实施例中，自然语言处理系统可以在块530在重新摄入补充数据源之前向用户提供多种选项。自然语言处理系统可以例如向用户征求重新摄入数据源的许可。自然语言处理系统可以在块525显示已经找到的答案以及答案可能并不可靠的声明(例如置信度分值较低)。自然语言处理系统还可以告知用户与查询相关(例如共享类似概念)的源已于近期发表了新的数据，可以重新摄入以便找到可能更好的答案。因此，用户可以决定是否等待自然语言处理系统重新摄入数据源。自然语言处理系统也可以显示重新摄入数据源的估计时间，这可能影响用户的决定。替代地或额外地，自然语言处理系统可以提供到数据源的HTML链接，用户可以自行访问更新的数据源。在一个实施例中，在自然语言处理系统在块515不能找到查询的任何答案的情况时，也可以向用户提供这些选项。

假设在块535重新摄入了补充数据源，自然语言处理系统可以利用更新的语料库对查询进行评估。在自然语言处理系统已经将查询与语料库进行比较的实施例中，在块535，自然语言处理系统再次执行同样的处理，但这次语料库包含来自重新摄入的数据源的更新的信息。

图6是根据描述的一个实施例的自然语言处理系统615的系统框图。如图所示，自然语言处理系统615可以托管于计算系统600。计算系统600可以包括单一机架(例如服务器)中的单一计算设备或互连的多个计算设备。例如，计算系统600可以包括耦接至存储区域网的数据中心中的多个服务器，当执行自然语言处理系统615时使用。因此，处理器605和存储器610可以包括分布在多个互连的计算设备上的多个个体处理器或存储器单元。处理器605代表能够执行描述的功能的任意数量的处理器单元。而且，处理器单元可以是单核或多核单元。存储器610可以包括非易失性和易失性存储器单元，并且可以由计算系统600中的多个计算设备共享。

如图所示，存储器610存储包括预处理系统110、查询处理系统620和语料库120的自然语言处理系统615。图1中提供的预处理系统110和语料库120的描述可以应用于此。查询处理系统620可以用于将自然语言处理系统615接收的查询与语料库120进行比较以提供查询的一个或多个答案。这里描述的实施例不限于用于实现查询处理系统620的任何特定的自然语言处理技术并且可以应用任何依赖于语料库来答案查询的技术。

在一些自然语言处理系统中，将查询与语料库中存储的不同数据源进行比较以提供查询的答案。然而，用于答案查询的最佳数据源当前可能不在语料库中，或者语料库中的数据源可能包括提供错误答案的过时数据。当接收到查询，自然语言处理系统可以对查询进行评估以识别可能包含查询的答案的数据源。如果数据源当前不在语料库中，自然语言处理系统可以摄入该数据源。然而，如果数据源已经在语料库中，自然语言处理系统可以确定与查询的至少一部分关联的时间敏感度的值。然后，可以利用该值确定是否应该重新摄入该数据源-例如语料库中包含的信息是过时的。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

虽然前述内容针对本发明的实施方案，本发明的其它和进一步的实施例可以在不脱离其基本范围的前提下被设计，并且由随后的权利要求确定其保护范围。

Claims

1.一种用于维护自然语言处理(NLP)系统中语料库的系统，包括：

程序，当程序在计算机处理器上执行时执行以下操作：

响应于接收用于由自然语言处理系统处理的查询，通过将查询的一个或多个元素与数据源关联识别与所述查询相关的数据源；

当确定所述相关的数据源不在所述自然语言处理系统的语料库中，将所述相关的数据源摄入到所述语料库中；以及

当确定所述相关的数据源在所述自然语言处理系统的所述语料库中：

确定与所述查询关联的时间敏感度的值，指示查询的准确答案依赖于相关的数据源的过时性的程度，并且

当确定时间敏感度的值满足过时性的阈值，将相关的数据源重新摄入到语料库中。

2.根据权利要求1所述的系统，所述操作进一步包括：

在以下之一之后执行自然语言处理(NLP)技术将所述查询与所述语料库进行比较以识别所述查询的至少一个答案：(i)将所述相关的数据源摄入到所述语料库中以及(ii)将所述相关的数据源重新摄入到所述语料库中；以及

将所述至少一个答案传输至提交所述查询的实体。

3.根据权利要求1或2所述的系统，其中识别所述相关的数据源进一步包括：

解析所述查询以识别提供所述数据源的所述查询的元素；

通过为所述至少一个元素分配主题将所述查询的至少一个元素特征化；以及

通过将所述主题与与不同数据源关联的多个主题进行比较识别所述相关的数据源。

4.根据前述任一权利要求所述的系统，其中确定与所述查询关联的所述时间敏感度的值进一步包括：

执行概念映射以为所述查询中的至少一个元素分配概念；

当确定所述概念与持续时间或时间相关，基于所述概念中指定的持续时间或时间分配时间敏感度的值；以及

当通过将所述概念与预定义的依赖于时间的概念的列表进行匹配确定所述概念依赖于时间，基于所述概念的所述时间依赖性分配所述时间敏感度的值。

5.根据前述任一权利要求所述的系统，其中确定所述时间敏感度的值满足所述过时性的阈值进一步包括：通过将与所述相关的数据源关联的时间戳与所述时间敏感度的值进行比较确定所述相关的数据源是否过时。

6.根据前述任一权利要求所述的系统，其中所述操作进一步包括：在摄入或重新摄入所述数据源之前，从提交所述查询的用户接收将所述数据源摄入或重新摄入到所述语料库的许可。

7.一种用于维护自然语言处理(NLP)系统中语料库的计算机程序产品，该计算机程序产品包括：

计算机可读存储介质，其上具有计算机可读程序代码，该计算机可读程序代码包括计算机可读程序代码，配置用于：

响应于接收用于由自然语言处理系统处理的查询，通过将所述查询的一个或多个元素与数据源关联识别与所述查询相关的数据源；

当确定所述相关的数据源不在所述自然语言处理系统的所述语料库中，将所述相关的数据源摄入到所述语料库中；以及

确定与所述查询关联的时间敏感度的值，指示所述查询的准确答案依赖于所述相关的数据源的过时性的程度，并且

当确定所述时间敏感度的值满足过时性的阈值，将所述相关的数据源重新摄入到所述语料库中。

8.根据权利要求7所述的计算机程序产品，进一步包括计算机可读程序代码配置为：

将所述至少一个答案传输至提交查询的实体。

9.根据权利要求7或8所述的计算机程序产品，其中识别所述相关的数据源进一步包括计算机可读程序代码配置为：

解析所述查询以识别提供所述数据源的所述查询的元素；

10.根据权利要求7至9任一权利要求所述的计算机程序产品，其中确定与所述查询关联的时间敏感度的值进一步包括计算机可读程序代码配置为：

执行概念映射以为所述查询中的至少一个元素分配概念；

当确定所述概念与持续时间或时间相关，基于所述概念中指定的持续时间或时间分配所述时间敏感度的值；以及

11.根据权利要求7至10任一权利要求所述的计算机程序产品，其中确定所述时间敏感度的值满足所述过时性的阈值进一步包括计算机可读程序代码配置为：通过将与所述相关的数据源关联的时间戳与所述时间敏感度的值进行比较确定所述相关的数据源是否过时。

12.根据权利要求7至11任一权利要求所述的计算机程序产品，其中操作进一步包括计算机可读程序代码配置为：在摄入或重新摄入所述数据源之前，从提交所述查询的用户接收将所述数据源摄入或重新摄入到所述语料库的许可。

13.根据权利要求7至12任一权利要求所述的计算机程序产品，其中所述语料库包括来自不同数据源的多个数据，其中不同数据源的所述数据基于所述语料库中的通用格式进行组织。

14.一种用于维护自然语言处理(NLP)系统中语料库的方法，包括：

响应于接收用于由所述自然语言处理系统处理的查询，通过将所述查询的一个或多个元素与数据源关联识别与所述查询相关的数据源；

当确定相关的数据源不在所述自然语言处理系统的语料库中，将相关的数据源摄入到语料库中；以及

当确定时间敏感度的值满足过时性的阈值，将所述相关的数据源重新摄入到所述语料库中。

15.根据权利要求14所述的方法，方法进一步包括：

将至少一个答案传输至提交所述查询的实体。

16.根据权利要求14或15所述的方法，其中识别所述相关的数据源进一步包括：

解析所述查询以识别提供所述数据源的所述查询的元素；

通过为至少一个元素分配主题将所述查询的至少一个元素特征化；以及

17.根据权利要求14至16任一权利要求所述的方法，其中确定与所述查询关联的时间敏感度的值进一步包括：

执行概念映射以为所述查询中的至少一个元素分配概念；

18.根据权利要求14至17任一权利要求所述的方法，其中确定所述时间敏感度的值满足所述过时性的阈值进一步包括：通过将与所述相关的数据源关联的时间戳与所述时间敏感度的值进行比较确定所述相关的数据源是否过时。

19.根据权利要求14至18任一权利要求所述的方法，其中所述操作进一步包括：在摄入或重新摄入所述数据源之前，从提交所述查询的用户接收将所述数据源摄入或重新摄入到所述语料库的许可。