CN105378731A

CN105378731A - 从被回答问题关联语料库/语料值

Info

Publication number: CN105378731A
Application number: CN201480040046.4A
Authority: CN
Inventors: P·F·哈格; D·A·约翰逊; S·J·罗尔达; R·L·史蒂威
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-07-16
Filing date: 2014-06-26
Publication date: 2016-03-02
Also published as: US20150026163A1; WO2015007141A1; US9275115B2

Abstract

提供用于动态地选择候选答案源子集以便由问答(QA)系统使用的机制。所述QA系统接收针对其寻求答案的输入问题，并基于所述输入问题生成一个或多个查询。所述QA系统基于分级候选答案源列表，从一组候选答案源中选择候选答案源子集。所述分级候选答案源列表是基于由所述QA系统针对先前输入的问题生成的先前候选答案的特征来生成的。所述QA系统将所述一个或多个查询应用于所述候选答案源子集，并基于将所述一个或多个查询应用于所述候选答案源子集的结果，针对所述输入问题生成至少一个候选答案。

Description

从被回答问题关联语料库/语料值

背景技术

本申请一般地涉及改进的数据处理装置和方法，更具体地说，涉及用于从被回答问题关联语料库/语料值的机制。

随着计算网络(例如因特网)使用的增加，人类当前被来自各种结构化和非结构化源的可用于他们的信息量淹没并且不知所措。但是，在搜索有关各种主题的信息期间，随着用户尝试汇聚他们认为相关的能够发现的内容，信息差距大量存在。为了帮助进行此类搜索，最近的研究已涉及生成问答(QA)系统，QA系统可以获得输入问题，分析问题，并且返回指示输入问题的最可能答案的结果。QA系统提供用于在大型内容源集合(例如，电子文档)中搜索的自动机制，并且针对输入问题分析这些内容源以便确定问题答案以及关于答案如何准确用于回答输入问题的置信度量。

一个此类QA系统是可从位于纽约阿蒙克的国际商业机器(IBM)公司获得的Watson^TM系统。Watson^TM系统是高级自然语言处理、信息检索、知识表示和推理以及机器学习技术在开域问答领域中的应用。Watson^TM系统基于IBM的DeepQA^TM技术构建，该技术用于假设生成、海量证据收集、分析和评分。DeepQA^TM获得输入问题，分析问题，将问题分解为组成部分，基于分解后的问题和答案源的主要搜索的结果而生成一个或多个假设，基于从证据源的证据检索而执行假设和证据评分，执行一个或多个假设的合成，并且基于训练后的模型，执行最终合并和分级以便连同置信度量一起输出输入问题的答案。

各种美国专利申请公开描述了各种类型的问答系统。第2011/0125734号美国专利申请公开披露一种用于基于数据语料库生成问答对的机制。系统从一组问题开始，并且然后分析该组内容以便提取这些问题的答案。第2011/0066587号美国专利申请公开披露一种用于以下操作的机制：将分析的信息的报告转换为问题集合，并且从信息集合判定是回答还是反驳问题集合的答案。将结果数据纳入更新后的信息模型中。

第2013/0018652号美国专利申请公开披露一种用于以下操作的机制：在问答期间在候选答案之间传播证据以便标识第一候选答案与第二候选答案之间的关系，其中候选答案由问答计算机过程生成，候选答案具有关联的支持证据，并且候选答案具有关联的置信度得分。可以基于所标识的关系，将全部或部分证据从第一候选答案转移到第二候选答案。可以基于转移后的证据，针对第二候选答案计算新的置信度得分。

发明内容

在一个示例性实施例中，提供一种在包括处理器和存储器的数据处理系统中的方法，所述方法用于动态地选择候选答案源子集以便由所述数据处理系统实现的问答(QA)系统使用。所述方法包括由所述数据处理系统实现的所述QA系统接收针对其寻求答案的输入问题，以及由所述QA系统基于所述输入问题生成一个或多个查询。所述方法进一步包括基于分级候选答案源列表，从一组候选答案源中选择候选答案源子集。所述分级候选答案源列表是基于由所述QA系统针对先前输入的问题生成的先前候选答案的特征来生成的。此外，所述方法包括将所述一个或多个查询应用于所述候选答案源子集，以及基于将所述一个或多个查询应用于所述候选答案源子集的结果，针对所述输入问题生成至少一个候选答案。

在其它示例性实施例中，提供一种包括计算机可用或可读介质的计算机程序产品，所述计算机可用或可读介质具有计算机可读程序。所述计算机可读程序当在计算设备上执行时，导致所述计算设备执行上面针对所述方法示例性实施例概述的各种操作和操作组合。

在另一个示例性实施例中，提供一种系统/装置。所述系统/装置可以包括一个或多个处理器和一个存储器，所述存储器耦合到所述一个或多个处理器。所述存储器可以包括指令，当所述指令由所述一个或多个处理器执行时，导致所述一个或多个处理器执行上面针对所述方法示例性实施例概述的各种操作和操作组合。

本发明的这些和其它特性和优点将在以下对本发明的实例实施例的详细说明中进行描述，或者鉴于以下对本发明的实例实施例的详细说明，本发明的这些和其它特性和优点将对所属技术领域的普通技术人员变得显而易见。

附图说明

当结合附图阅读时，通过参考以下对示例性实施例的详细说明，将最佳地理解本发明及其优选使用方式、进一步的目的和优点，这些附图是：

图1示出计算机网络中的问/答(QA)系统的一个示例性实施例的示意图；

图2示出图1的QA系统的一个实施例的示意图；

图3示出用于文档的问/答创建的方法的一个实施例的流程图；

图4示出用于文档的问/答创建的方法的一个实施例的流程图；

图5是根据一个示例性实施例的包括候选答案源评级逻辑的问答系统分析流水线的实例框图；以及

图6是示出根据一个示例性实施例的改进的QA系统针对候选答案源评级的实例操作的流程图。

具体实施方式

在诸如Watson^TMQA系统之类的问答(QA)系统中，搜索大量内容以便发现输入问题的正确答案。因此，由QA系统提供的答案的质量和准确性直接与系统用于搜索答案的内容的质量(即，由QA系统获取的内容的质量)相关。QA系统搜索的内容的质量和价值可以变化，并且因此，如果同样处理所有内容，则会浪费时间和/或答案的准确性会受搜索的影响并且依赖于相对价值低于其它内容的内容。因此，帮助由QA系统执行的内容搜索和分析将是有利的，使得就从内容生成的结果答案的质量和准确性而言，此类搜索和分析能够专注于内容的这样的部分，该部分的价值相对高于内容的其它部分。

示例性实施例提供对用于生成输入问题的候选答案的内容的价值进行评级的机制。这些评级然后可以用于确定由QA系统执行的搜索和分析的优先级，以便在信息语料库中的相对较低价值的内容部分之前或者代替相对较低价值的内容部分，搜索/分析相对较高价值的内容部分。可以建立各种阈值以便定义具有特定价值度量的内容部分是否以及何时由QA系统搜索/分析。因此，通过这种方式，示例性实施例的机制动态地标识向结果答案的质量和准确性提供相对较高价值的内容部分、内容源等，并且可以动态地调整由QA系统搜索/分析的内容部分、内容源等的优先次序。

以下将参考附图更详细地描述本发明的示例性实施例的上述方面和优点。应该理解，附图仅旨在例示本发明的示例性实施例。本发明可以包含示出的示例性实施例的方面、实施例和修改，这些方面、实施例和修改未在附图中明确示出，但鉴于对示例性实施例的本说明，它们对所属技术领域的普通技术人员很容易地显而易见。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在任何一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可用程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是具有电、磁、光、电磁、或半导体性质的系统、装置或器件，或者上述的任意合适的组合，或者其等效物。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有存储能力的电器件、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、基于光纤的器件、便携式紧凑盘只读存储器(CDROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

在某些示例性实施例中，计算机可读介质是非瞬时性计算机可读介质。非瞬时性计算机可读介质是无实体信号或传播波(即，纯信号或传播波本身)以外的任何介质。非瞬时性计算机可读介质可以使用信号和传播波，但本身不是信号或传播波。因此，例如，以任何方式使用信号以便例如维护其状态的各种形式的存储设备，以及其它类型的系统、器件或装置都可以被视为本发明的范围内的非瞬时性计算机可读介质。

另一方面，计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。同样，计算机可读存储介质是计算机可读的信号介质以外的任何计算机可读介质。

计算机可读介质上包含的程序计算机代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、射频(RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java^TM、Smalltalk^TM、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明的示例性实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(articleofmanufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

因此，可以在多种不同类型的数据处理环境中使用示例性实施例。为了针对示例性实施例的特定元件和功能的说明提供上下文，图1-5涉及描述实例问/答、问答或问答(QA)系统、方法和计算机程序产品，它们可以用于实现示例性实施例的机制。如将在以下更详细地讨论的，示例性实施例可以被集成在这些QA机制中，并且可以增强和扩展这些QA机制的功能，这些增强和扩展涉及基于问题的所标识的属性来聚集问题，以便训练QA系统和/或确定基于随后提交的问题与训练期间生成的先前定义的问题群集匹配的良好程度，可能正确地回答该问题的置信度。

因此，重要的是，在描述示例性实施例的机制如何被集成在此类QA系统中并且增强此类QA系统之前，首先理解如何可以实现QA系统中的问答创建。应该理解，图1-5中描述的QA机制仅是实例，并且并非旨在声明或暗示对可以用于实现示例性实施例的QA机制的类型的任何限制。可以在本发明的不同实施例中实现对图1-5中所示的实例QA系统的许多修改而不偏离本发明的精神和范围。

通过以下操作运行QA机制：从数据或信息语料库(也称为内容语料库)访问信息，分析信息，并且然后基于对该数据的分析生成答案结果。从数据语料库访问信息通常包括：数据库查询，其回答有关结构化记录集合中有什么的问题；以及搜索，其响应于对非结构化数据(文本、标记语言等)集合的查询，提供文档链接集合。常规问答系统能够基于数据语料库和输入问题生成答案，针对数据语料库验证问题集合的答案，使用数据语料库纠正数字文本中的错误，并且从可能答案(即，候选答案)池中选择问题的答案。

诸如文章作者、电子文档创建者、网页作者、文档数据库创建者之类的内容创建者可以在编写其内容之前，确定此类内容中描述的产品、解决方案和服务的用例。因此，内容创建者可以知道内容旨在回答由内容处理的特定主题中的什么问题。在数据语料库的每个文档中，例如按照与问题关联的角色、信息类型、任务等对问题进行分类可以允许QA系统更快速和有效地标识包含与特定查询相关的内容的文档。内容还可以回答内容创建者未构想的其它问题，这些问题可以对内容用户有用。问答可以由内容创建者验证以便被包含在给定文档的内容中。这些能力有助于改进QA系统的准确性、系统性能、机器学习和置信度。

图1示出计算机网络102中的问/答创建(QA)系统100的一个示例性实施例的示意图。在第2011/0125734号美国专利申请公开(在此全部引入作为参考)中描述了可以与在此描述的原理结合使用的问/答生成的一个实例。QA系统100可以包括连接到计算机网络102的计算设备104(包括一个或多个处理器和一个或多个存储器，并且可能包括本领域公知的任何其它计算设备，包括总线、存储器件、通信接口等)。网络102可以包括多个计算设备104，这些计算设备104经由一个或多个有线和/或无线数据通信链路彼此通信并且与其它设备或组件通信，其中每个通信链路可以包括导线、路由器、交换机、发送器、接收器等的一个或多个。QA系统100和网络102可以针对一个或多个内容用户启用问/答(QA)生成功能。QA系统100的其它实施例可以与不同于在此示出的组件、系统、子系统和/或设备一起使用。

QA系统100可以被配置为从各种源接收输入。例如，QA系统100可以从网络102、电子文档106或其它数据的语料库、内容创建者108、内容用户和其它可能输入源接收输入。在一个实施例中，到QA系统100的部分或全部输入可以通过网络102路由。网络102上的各种计算设备104可以包括用于内容创建者和内容用户的接入点。某些计算设备104可以包括用于存储数据语料库的数据库的设备。在不同实施例中，网络102可以包括局部网络连接和远程连接，以使得QA系统100可以在任何大小(包括局部和全球，例如因特网)的环境中操作。

在一个实施例中，内容创建者在文档106中创建内容以便用作QA系统100的数据语料库的一部分。文档106可以包括任何文件、文本、文章或数据源以便用于QA系统100中。内容用户可以经由到网络102的网络连接或因特网连接访问QA系统100，并且可以将问题输入到QA系统100，这些问题可以通过数据语料库中的内容来回答。在一个实施例中，可以使用自然语言形成问题。QA系统100可以解释问题并且向内容用户提供包含问题的一个或多个答案的响应。在某些实施例中，QA系统100可以以分级答案列表向用户提供响应。

在某些示例性实施例中，QA系统100可以是可从位于纽约阿蒙克的国际商业机器公司获得的Watson^TMQA系统，该系统使用以下描述的示例性实施例的机制进行增强。Watson^TMQA系统可以接收输入问题，然后解析该问题以便提取问题的主要特性，这些特性然后又用于形成应用于数据语料库的查询。基于将查询应用于数据语料库，通过在数据语料库中查找有可能包含对输入问题的有价值响应的数据语料库部分，生成输入问题的一组假设或候选答案。

Watson^TMQA系统然后使用各种推理算法，针对输入问题的语言以及用于在应用查询期间发现的数据语料库的每个部分中的语言执行深入分析。可以应用数百或者甚至数千种推理算法，每种推理算法执行不同的分析(例如，比较)并且生成得分。例如，某些推理算法可以着眼于输入问题的语言和发现的数据语料库部分中的术语和同义词的匹配。其它推理算法可以着眼于语言中的时间或空间特性，而其它推理算法可以评估数据语料库部分的来源并且评估其真实性。

从各种推理算法获得的得分指示基于该推理算法的特定焦点区域通过输入问题推断可能响应的程度。然后对照统计模型对每个结果得分进行加权。在Watson^TMQA系统的训练周期内，统计模型捕获推理算法在特定领域的两个类似段落之间建立推断时执行的良好程度如何。统计模型然后可以用于概述Watson^TMQA系统就通过问题推断可能响应(即，候选答案)的证据而言具有的置信度级别。可以针对每个候选答案重复该过程，直到Watson^TMQA系统标识表现为明显强于其它候选答案的候选答案，并且因此针对输入问题生成最终答案或分级答案集。有关Watson^TMQA系统的更多信息例如可以从IBM公司网站、IBMRedbooks等获得。例如，可以在Yuan等人的“WatsonandHealthcare(Watson和医疗保健)”(IBMdeveloperWorks，2011年)和RobHigh的“TheEraofCognitiveSystems:AnInsideLookatIBMWatsonandHowitWorks(认知系统时代：IBMWatson揭秘及其工作方式)”(IBMRedbooks，2012年)中发现有关Watson^TMQA系统的信息。

图2示出图1的QA系统100的一个实施例的示意图。示出的QA系统100包括下面更详细地描述的各种组件，这些组件能够执行在此描述的功能和操作。在一个实施例中，QA系统100的至少某些组件在计算机系统中实现。例如，QA系统100的一个或多个组件的功能可以由存储在计算机存储设备200上的计算机程序指令实现，并且由诸如CPU之类的处理设备执行。QA系统100可以包括诸如盘存储驱动器204和输入/输出设备206之类的其它组件，以及来自语料库208的至少一个文档106。QA系统100的部分或全部组件可以存储在单个计算设备104上或计算设备104的网络(包括无线通信网络)上。QA系统100可以包括比在此示出的组件或子系统更多或更少的组件或子系统。在某些实施例中，QA系统100可以用于实现在此描述的方法(如图4中所示)，并且可以被增强或配置为实现以下针对结合后续附图描述的示例性实施例描述的其它操作、功能和特性。

在一个实施例中，QA系统100包括至少一个计算设备104，计算设备104具有用于执行在此结合QA系统100描述的操作的处理器202。处理器202可以包括单个处理设备或多个处理设备。处理器202可以通过网络在不同计算设备104中具有多个处理设备，以使得在此描述的操作可以由一个或多个计算设备104执行。处理器202连接到存储设备并且与其通信。在某些实施例中，处理器202可以在存储设备200上存储和访问数据以便执行在此描述的操作。处理器202还可以连接到存储盘204，存储盘204可以用于数据存储，以便例如存储来自存储设备200的数据、在由处理器202执行的操作中使用的数据，以及用于执行在此描述的操作的软件。

在一个实施例中，QA系统100导入文档106。电子文档106可以是较大数据或内容语料库208的一部分，语料库208可以包含与特定主题或各种主题相关的电子文档106。数据语料库208可以包括任何数量的文档106，并且可以相对于QA系统100存储在任何位置中。QA系统100能够导入数据语料库208中的任何文档106以便由处理器202处理。处理器202可以与存储设备200通信以便在语料库208被处理时存储数据。

文档106可以包括由内容创建者在创建内容时生成的一组问题210。当内容创建者在文档106中创建内容时，内容创建者可以确定一个或多个问题，这些问题可以通过内容回答或者用于针对内容的特定用例。可以为了回答特定问题而创建内容。这些问题可以被插入到内容中，例如方式为将该组问题210插入到可查看内容/文本214或与文档106关联的元数据212中。在某些实施例中，可查看文本214中所示的该组问题210可以在文档106中以列表显示，以使得内容用户可以很容易地查看由文档106回答的特定问题。

由内容创建者在创建内容时创建的该组问题210可以由处理器202检测。处理器202可以进一步从文档106中的内容创建一个或多个候选问题216。候选问题216包括以下问题：这些问题由文档106回答，但可能未由内容创建者输入或构想。处理器202还可以尝试回答由内容创建者创建的该组问题210和从文档106中提取的候选问题216，“提取”表示未由内容创建者显式指定但基于内容分析生成的问题。

在一个实施例中，处理器202确定一个或多个问题通过文档106的内容回答，并且列出或者以其它方式标记在文档106中已回答的问题。QA系统100还可尝试为候选问题216提供答案218。在一个实施例中，QA系统100在创建候选问题216之前，回答218由内容创建者创建的该组问题210。在另一个实施例中，QA系统100同时回答218问题和候选问题216。

QA系统100可以对由系统生成的问/答对进行评分。在此类实施例中，保留满足评分阈值的问/答对，并且丢弃不满足评分阈值222的问/答对。在一个实施例中，QA系统100分别对问题和答案进行评分，以使得由系统100生成的被保留问题满足问题评分阈值，并且由系统100发现的被保留答案满足答案评分阈值。在另一个实施例中，根据问/答评分阈值对每个问/答对进行评分。

在创建候选问题216之后，QA系统100可以将问题和候选问题216呈现给内容创建者以便进行手动用户验证。内容创建者可以验证问题和候选问题216以了解其准确性和与文档106的内容的相关性。内容创建者还可以验证候选问题216措词得当并且易于理解。如果问题包含不准确性或者措词欠妥，则内容创建者可以相应地修订内容。然后可以将已验证或修订的问题和候选问题216作为已验证问题存储在文档106的内容中，即，存储在可查看文本214或元数据212中或者存储在这两者中。

图3示出用于文档106的问/答创建的方法300的一个实施例的流程图。尽管结合图1的QA系统100描述了方法300，但方法300可以与任何类型的QA系统结合使用。

在一个实施例中，QA系统100从数据语料库208导入302一个或多个电子文档106。这可以包括从诸如本地或远程计算设备104中的存储器件之类的外部源取回文档106。可以处理文档106以使得QA系统100能够解释每个文档106的内容。这可以包括解析文档106的内容以便标识在文档106和内容的其它元素中(例如在与文档106关联的元数据中)发现的问题、在文档106的内容中列出的问题等。系统100可以使用文档标记解析文档以便标识问题。例如，如果文档采取可扩展标记语言(XML)格式，则文档的各部分可以具有XML问题标记。在此类实施例中，可以使用XML解析器发现适当的文档部分。在另一个实施例中，使用自然语言处理(NLP)技术解析文档以便发现问题。例如，NLP技术可以包括发现句子边界并且查找以问题标记或其它方法结束的句子。例如，QA系统100可以使用语言处理技术将文档106解析成句子和短语。

在一个实施例中，内容创建者创建304文档106的元数据212，这可以包含与文档106相关的信息，例如文件信息、搜索标记、由内容创建者创建的问题和其它信息。在某些实施例中，元数据212可能已经存储在文档106中，并且可以根据由QA系统100执行的操作修改元数据212。因为元数据212与文档内容一起存储，所以可以经由被配置为针对数据语料库208执行搜索的搜索引擎，搜索由内容创建者创建的问题，尽管当内容用户打开文档106时元数据212可能不可见。因此，元数据212可以包括任何数量的问题，这些问题通过内容回答而不会使文档106混乱。

内容创建者可以基于内容(如果适用)创建306更多的问题。QA系统100还基于可能未由内容创建者输入的内容生成候选问题216。可以使用语言处理技术创建候选问题216，这些语言处理技术被设计为解释文档106的内容并且生成候选问题216，以使得可以使用自然语言形成候选问题216。

当QA系统100创建候选问题216时或者当内容创建者将问题输入到文档106中时，QA系统100还可以在内容中定位问题并且使用语言处理技术回答问题。在一个实施例中，该过程包括列出QA系统100能够针对其在元数据212中定位答案218的问题和候选问题216。QA系统100还可以检查数据语料库208或另一个语料库208以便将问题和候选问题216与其它内容相比较，这可以允许QA系统100确定用于形成问题或答案218的更好方式。在第2009/0287678号美国专利申请公开和第2009/0292687号美国专利申请公开(在此全部引入作为参考)中描述了从语料库提供问题答案的实例。

然后可以在到内容创建者的接口上呈现308问题、候选问题216和答案218以便验证。在某些实施例中，还可以呈现文档文本和元数据212以便验证。所述接口可以被配置为从内容创建者接收手动输入以便用户验证问题、候选问题216和答案218。例如，内容创建者可以查看由QA系统100放置在元数据212中的问题和答案218的列表以便验证问题与适当的答案218配对，并且在文档106的内容中发现问-答对。内容创建者还可以验证由QA系统100放置在元数据212中的候选问题216和答案218的列表被正确配对，并且在文档106的内容中发现候选问-答对。内容创建者还可以分析问题或候选问题216以便验证正确的标点符号、语法、术语和其它特征，从而改进问题或候选问题216以便由内容用户搜索和/或查看。在一个实施例中，内容创建者可以通过添加术语、添加内容回答218的显式问题或问题模板、添加内容未回答的显式问题或问题模板或其它修订，修订措词不当或不准确的问题和候选问题216或内容。内容模板可以用于允许内容创建者使用相同的基本格式针对各种主题创建问题，这可以允许不同内容之间的一致性。将内容未回答的问题添加到文档106可以通过消除来自不适用于特定搜索的搜索结果的内容，提高QA系统100的搜索准确性。

在内容创建者已修订内容、问题、候选问题216和答案218之后，QA系统100可以判定310内容是否完成处理。如果QA系统100判定内容完成处理，则QA系统100然后可以将已验证文档314、已验证问题316、已验证元数据318和已验证答案320存储312在其上存储数据语料库208的数据存储库中。如果QA系统100判定内容未完成处理—例如如果QA系统100确定可以使用附加问题—则QA系统100可以再次执行部分或全部步骤。在一个实施例中，QA系统100使用已验证文档和/或已验证问题创建新元数据212。因此，内容创建者或QA系统100可以分别创建附加问题或候选问题216。在一个实施例中，QA系统100被配置为从内容用户接收反馈。当QA系统100从内容用户接收反馈时，QA系统100可以向内容创建者报告反馈，并且内容创建者可以基于反馈生成新问题或修订当前问题。

图4示出用于文档106的问/答创建的方法400的一个实施例的流程图。尽管结合图1的QA系统100描述了方法400，但方法400可以与任何QA系统结合使用。

QA系统100基于具有一组问题210的文档106的内容，导入405文档106。内容可以是任何内容，例如涉及回答有关特定主题或一系列主题的问题的内容。在一个实施例中，内容创建者在文档106的内容顶部或某个其它位置列出该组问题210并且对其进行分类。分类可以基于问题的内容、问题的样式或任何其它分类技术，并且可以基于各种确定的类别(例如角色、信息类型、描述的任务等)对内容进行分类。可以通过扫描文档106的可查看内容214或与文档106关联的元数据212，获得该组问题210。该组问题210可以由内容创建者在创建内容时创建。在一个实施例中，QA系统100基于文档106中的内容，自动创建410至少一个建议或候选问题216。候选问题216可以是内容创建者未构想的问题。可以通过使用语言处理技术处理内容以便解析和解释内容来创建候选问题216。系统100可以检测文档106的内容中的模式，并且可以基于该模式创建候选问题216，该模式通用于文档106所属的语料库208中的其它内容。

QA系统100还使用文档106中的内容，针对该组问题210和候选问题216自动生成415答案218。QA系统100可以在创建问题和候选问题216之后的任何时间，针对该组问题210和候选问题216生成答案218。在某些实施例中，可以在不同于回答候选问题216的操作期间，生成该组问题210的答案218。在其它实施例中，可以在同一操作中生成该组问题210和候选问题216两者的答案218。

QA系统100然后向内容创建者呈现420该组问题210、候选问题216，以及该组问题210和候选问题216的答案218，以便用户验证准确性。在一个实施例中，内容创建者还验证问题和候选问题216以了解对文档106的内容的适应性。内容创建者可以验证内容实际包含被包括在问题、候选问题216和相应答案218中的信息。内容创建者还可以验证对应问题和候选问题216的答案218包含准确的信息。内容创建者还可以验证文档106中的任何数据或者由QA系统100生成的任何数据措词得当。

然后可以将一组已验证问题220存储425在文档106中。该组已验证问题220可以包括来自该组问题210和候选问题216的至少一个已验证问题。QA系统100使用来自该组问题210和候选问题216的由内容创建者确定准确的问题填充该组已验证问题220。在一个实施例中，将由内容创建者验证的问题、候选问题216、答案218和内容中的任何一个存储在文档106中，例如数据库的数据存储库中。

上面说明例示这样的方式：内容创建者可以使用该方式生成元数据，以便由QA系统100在针对输入问题执行答案生成时使用。如上面讨论的，QA系统100还用于回答由用户经由一个或多个客户机计算设备提交的输入问题。例如，在医疗保健领域中，QA系统100可以用于接收涉及诸如诊断、治疗之类的医学事项的问题。QA系统100可以通过QA系统分析流水线处理此类输入问题以便对照数据/信息语料库评估输入问题，并且生成输入问题的一个或多个可能答案，该数据/信息语料库可以包括具有如上所述的关联元数据的文档或内容、非结构化文档等。

图5示出根据一个示例性实施例的用于处理输入问题的QA系统流水线。如将在以下更详细地讨论的，增强图5中的QA系统流水线以便包括用于以下操作的逻辑：对候选答案源(例如，语料库、语料、答案源、文档等)进行评级，并且使用候选答案源的评级指导假设生成操作。应该理解，图5中所示的QA系统流水线的阶段可以被实现为一个或多个软件引擎、组件等，它们具备用于实现由特定阶段产生的功能的逻辑。可以使用此类软件引擎、组件等中的一个或多个实现每个阶段。软件引擎、组件等可以在一个或多个数据处理系统或设备的一个或多个处理器上执行，并且可以利用或操作存储在一个或多个数据处理系统上的一个或多个数据存储设备、存储器等中的数据。

如图5中所示，QA系统流水线500包括多个阶段510-580，QA系统通过这些阶段操作以便分析输入问题并生成最终响应。在初始问题输入阶段510，QA系统接收以自然语言格式呈现的输入问题。即，用户可以经由用户接口输入用户希望针对其获得答案的输入问题，例如，“WhoarePutin’sclosestadvisors？(谁是普京的最亲近顾问？)”。响应于接收输入问题，QA系统流水线500的下一个阶段(即，问题和主题分析阶段520)使用自然语言处理(NLP)技术解析输入问题以便从输入问题中提取主要特性，根据类型(例如，名称、日期，或者多个其它已定义主题中的任何一个)对主要特性进行分类。例如，在上面的实例问题中，术语“who(谁)”可以与用于指示正在寻求某人身份的“persons(人)”的主题关联，“Putin(普京)”可以被标识为与问题关联的人的特有姓名，“closest(最亲近)”可以被标识为指示接近度或关系的单词，并且“advisors(顾问)”可以指示名词或其它语言主题。

然后可以在问题分解阶段530中使用所标识的主要特性以便将问题分解为一个或多个查询，这些查询可以应用于数据/信息语料库545以便生成一个或多个假设。可以以任何已知或以后开发的查询语言(例如结构查询语言(SQL)等)生成查询。查询可以应用于一个或多个数据库，这些数据库存储有关构成数据/信息语料库545的电子文本、文档、文章、网站等的信息。即，这些不同源本身、源集合等可以表示语料库545中的不同语料547。可以具有不同语料547，它们基于取决于特定实现的不同准则针对不同文档集合被定义。例如，可以针对不同主题、主旨类别、信息源等建立不同语料。作为一个实例，第一语料可以与医疗保健文档关联，而第二语料可以与金融文档关联。备选地，一个语料可以是由美国能源部发布的文档，而另一个语料可以是IBMRedbooks文档。具有某种类似属性的任何内容集合可以被视为语料库545中的语料547。

在假设生成阶段540将查询应用于数据/信息语料库，以便生成标识用于回答能够被评估的输入问题的可能假设的结果。即，应用查询导致提取数据/信息语料库的与特定查询准则相匹配的部分。然后可以在假设生成阶段540中分析和使用语料库的这些部分，以便生成用于回答输入问题的假设。这些假设在此也称为输入问题的“候选答案”。对于任何输入问题，在该阶段540，可以具有数百个生成的可能需要被评估的假设或候选答案。

在阶段550，QA系统流水线500然后执行深入分析和输入问题的语言与每个假设或“候选答案”的语言的比较，以及执行证据评分以便评估特定假设是输入问题的正确答案的可能性。如上所述，这可以涉及使用多种推理算法，每种推理算法对输入问题的语言和/或提供支持或不支持假设的证据的语料库内容执行单独类型的分析。每种推理算法基于它执行的分析生成得分，该得分指示通过应用查询提取的数据/信息语料库的个体部分的相关性度量，以及对应假设的正确性度量，即假设中的置信度量。

在合成阶段560，可以将由各种推理算法生成的大量相关性得分合成为各种假设的置信度得分。该过程可以涉及将权重应用于各种得分，其中已通过训练由QA系统采用和/或动态更新的统计模型而确定权重，如以下描述的那样。可以根据通过训练QA系统生成的统计模型处理加权得分，该统计模型标识这样一种方式：该方式可以用于组合这些得分以便针对个体假设或候选答案生成置信度得分或度量。该置信度得分或度量概述QA系统具有的关于通过输入问题推断候选答案(即，候选答案是输入问题的正确答案)的证据的置信度级别。

通过最终置信度合并和分级阶段570处理结果置信度得分或度量，该阶段可以比较置信度得分与度量，对照预定阈值比较它们，或者针对置信度得分执行任何其它分析以便确定哪些假设/候选答案最可能是输入问题的答案。可以根据这些比较对假设/候选答案进行分级以便生成分级假设/候选答案列表(以下简称为“候选答案”)。在阶段580，从分级候选答案列表，可以生成最终答案和置信度得分，或者最终一组候选答案和置信度得分，并且将它们输出给原始输入问题的提交者。

如上所述，示例性实施例通过提供用于对内容部分、语料、答案源等进行评级的机制，就基于此类内容部分、语料、答案源等生成的答案的质量和准确性而言，改进了QA系统的操作。示例性实施例允许基于此类内容、答案源等的动态评级，动态修改QA系统的操作，以便将QA系统的处理资源动态地集中于以下这些内容部分、答案源等：其评级指示它们可能生成高质量和高度准确的输入问题答案。

如图5中所示，可以增强最终答案和置信度得分阶段580以便包括用于记录有关以下项的信息的逻辑：内容部分、语料库、语料、内容源，例如特定网站、文档数据库、电子文档、发布者等(统称为“答案源”)，和/或用于针对输入问题510生成一个或多个答案的其它答案源粒度等。该信息可以存储在一个或多个日志数据结构590中，然后处理这些日志数据结构590以便对各种内容部分、语料库、语料、答案源等进行评级。出于以下说明的目的，将假设针对特定信息语料执行记录信息和生成评级。但是，应该理解，可以针对任何特定信息粒度执行所描述的机制和方法，该信息包括各种语料库、一个或多个信息语料库中的各种语料、各种答案源、各种内容部分(例如，文档、文件等)等。

最终答案和置信度阶段580可以包括记录以下项的逻辑：用于回答输入问题510的语料库/语料、用于回答输入问题510的内容部分、与由语料库/语料和内容部分生成的答案关联的置信度得分、有关为了支持答案而收集的证据的信息，以及有关内容部分的源的可靠性的其它信息，例如先前生成的源的相对评级、源的用户指定的主观评级等。可以针对生成的满足此类记录的预定准则的每个候选答案记录该信息。即，可以建立一个或多个预定准则，可以对照这些预定准则比较候选答案的特征以便判定该候选答案是否应使其信息被记录以便以后分析。在一个示例性实施例中，这一个或多个预定准则包括最小置信度得分值，对照该最小置信度得分值比较候选答案的置信度得分。如果候选答案的置信度得分等于或超过该最小置信度得分值，则将与该候选答案关联的信息记录在日志数据结构590之一中。

如上所述，可以提供多个日志数据结构590。在一个示例性实施例中，可以针对由QA系统处理的每个领域具有单独的日志数据结构590。即，例如，可以将问题类型(即，主题、主旨、感兴趣领域等(称为“领域”))分成单独的领域，这些领域具有单独的问题和主题分析逻辑520、单独的语料库547等。此外，可以针对每个领域提供单独的日志数据结构590，以使得可以根据输入问题510的被确定的领域，记录有关响应于输入问题510而生成的候选答案的信息。这允许对假设生成540进行领域特定的动态修改，如以下更详细地描述的那样。

在某些示例性实施例中，有关被记录在日志数据结构590中的每个候选答案的信息可以包括有关以下内容的信息：是否在最终答案和置信度评分阶段580中选择特定候选答案作为最终正确答案。即，在最终置信度合并和分级阶段570中，可以在所生成的分级列表中存在多个候选答案，但是可以在最终答案和置信度评分阶段580中选择单个最终答案，从而留下未被选择作为最终答案的一个或多个候选答案。可以记录有关候选答案是否被选择作为最终答案的信息，以便提供有关哪些语料库、语料、内容部分、答案源等更经常导致提供正确最终答案或者更经常导致提供错误最终答案的指示。

此外，在某些示例性实施例中，并不经由用户的客户机计算设备向用户提供由QA系统流水线500选择的最终答案，或者除了经由用户的客户机计算设备向用户提供由QA系统流水线500选择的最终答案之外，QA系统流水线500可以经由图形用户接口，根据置信度得分呈现分级候选答案列表，用户可以通过该图形用户接口提供用户反馈输入，该用户反馈输入标识用户认为哪些候选答案是输入问题510的最正确答案。用户反馈输入可以在阶段580由最终答案和置信度评分逻辑接收，并且用于将有关哪个候选答案正确以及哪些其它候选答案被认为错误的指示存储在日志数据结构590中。

与候选答案关联的信息日志可以累积，因为可以针对多个输入问题510收集日志信息。因此，例如，如果使用同一语料针对多个输入问题生成正确答案，则记录的信息可以累积语料已提供正确答案的次数的值。同样，如果同一语料针对多个输入问题510生成候选答案，但候选答案未被选择为这些输入问题510的正确答案，则同样可以累积该语料生成错误候选答案的次数的值。还可以在QA系统流水线500回答各种输入问题的多次执行迭代中累积其它记录的信息。

可以将在日志数据结构590中记录的信息提供给评级逻辑595，评级逻辑595处理记录的信息以便基于记录的信息而确定要应用于语料库、语料、内容部分、答案源等的适当评级值。评级逻辑595操作以便对文档、文档中的段落、其它证据进行评级和评价，以支持记录在日志数据结构590中的候选答案和/或语料库/语料本身。可以使用不同因素针对此类文档、文档中的段落、其它证据、语料库/语料等确定最终评级/价值。这些不同因素例如可以包括语料库/语料被用于导致正确答案的频繁程度、语料库/语料被用于导致错误答案的频繁程度、支持证据在支持候选答案中的价值程度、候选答案源就输入问题的特定领域而言的可靠程度(例如，如果输入问题510的领域是医学治疗，则新英格兰医学期刊比任意博客帖子更可靠)、支持证据的来源(例如，行业期刊相对于博客帖子)以及其它因素。可以使用一个或多个函数、关系、等式等计算文档、段落、语料库/语料、答案源等的评级/价值。

例如，可以用于计算文档、段落、语料库/语料、答案源等的评级/价值的功能的一个实例可以是计算语料库给出高于85％置信度的答案的次数与语料库被访问的次数的比率。使用该功能作为实例，假设询问10个医学问题，并且每次使用新英格兰医学期刊(NEJM)语料库和维基百科语料库搜索答案。进一步，假设以大于85％的置信度正确回答了9个问题。对于9个答案，其中7个答案来自NEJM并且2个答案来自维基百科。因此，针对这些类型的医学问题，NEJM语料库具有7/10或70％的评级并且维基百科语料库具有2/10或20％的评级。应该理解，这是简化的实例，并且可以使用更复杂的分级/评级算法和功能而不偏离示例性实施例的精神和范围。

可以以各种粒度执行评级，并且更细粒度对更粗粒度评级做出贡献。例如，可以针对用于生成候选答案的特定段落生成评级。该评级可以与同一文档中的其它段落的评级(以类似方式计算)结合使用，以便生成整个文档的评级。可以组合语料中的多个文档的评级以便生成语料的评级，并且可以使用各种语料的评级生成语料库的评级。同样，例如可以组合与同一内容源关联的各种段落、文档等的评级以便生成答案源的评级。备选地，可以单独基于用于候选答案源的该粒度的记录的信息，针对语料库、语料、文档、答案源、段落等(以下统称为“候选答案源”)生成评级。

在一个示例性实施例中，可以被累积的记录值之一是特定语料库、语料或答案源生成候选答案所需的平均时间量。该信息可以与置信度得分信息一起使用以便标识置信度与处理时间之间的权衡，如以下讨论的那样。因此，该信息可以被结合到用于计算特定语料库、语料或答案源的评级的功能、关系、等式等中，或者可以用于专门用于根据该处理时间/置信度权衡对候选答案源进行评级的单独计算中。因此，在某些示例性实施例中，取决于所需的特定准则，可以针对候选答案源的一个或多个粒度生成多个评级。例如，一个评级可以基于处理时间的准则，另一个评级可以基于置信度得分，第三评级可以基于正确/错误答案生成的频率，第四评级可以基于指示答案生成的正确性/错误性的用户反馈输入等。

由评级逻辑595生成的评级可以被累积，或者以其他方式与由评级逻辑595针对特定候选答案源生成的当前和先前评级相关。换言之，评级逻辑595可以连续操作，定期操作，或者响应于事件操作，该事件例如包括用户输入、在指定时间段内提交的输入问题510的数量等。因此，可以重复计算候选答案源的评级。候选答案源的新评级可以替换先前生成的评级，或者可以与先前生成的评级结合使用，方式为：定义用于将新评级与先前生成的评级相组合的功能、关系、等式等，例如取评级的平均值、使用以不同于先前评级的方式对新评级进行加权的加权函数等。

由评级逻辑595针对候选答案源的每个粒度(例如，语料库、语料、答案源、文档、段落等)生成的评级可以用于针对输入问题510的特定领域以该粒度生成/更新分级候选答案源列表。例如，对于具有10个不同语料547的特定领域，可以使用评级逻辑595基于记录的信息590针对各种语料547生成评级。然后可以使用这些评级针对领域生成一个或多个分级列表数据结构597，这些分级列表数据结构597根据生成评级进行分级，例如，可以按照整体评级值的降序列出10个不同语料547，以使得最高评级的语料被首先列出，后跟第二最高评级的语料，以此类推。例如，可以生成第一分级语料列表，其按照如上所述的整体评级值的顺序列出语料，而可以生成第二分级语料列表，其根据基于处理时间的评级值列出语料，可以生成第三分级语料列表，其根据基于置信度得分的评级值列出语料等。随着评级逻辑595针对各种候选答案源(例如，语料库、语料、答案源、文档、段落等)定期计算评级，可以动态更新这些分级列表。

可以将分级候选答案源列表输入到假设生成阶段540逻辑，该逻辑使用这些分级列表指导对适当的段落、文档、语料、语料库等应用查询。即，阶段540的假设生成逻辑由示例性实施例的机制增强，以便确定搜索输入问题510的答案的优先级，从而集中于最可能导致具有高置信度得分的有效候选答案的候选答案源。因此，假设生成阶段540可以指导将查询应用于以下这些语料、文档、答案源等：它们在一个或多个分级候选答案源列表中具有满足预定准则的分级，所述预定准则例如分级列表中的前5或10个语料。预定准则可以指定用于各种分级列表的准则的组合，以使得在候选答案搜索期间首先仅使用满足准则组合的候选答案源，例如，预定准则可以指定整体评级分级列表中的前5个语料，并且这些语料也在最快处理分级列表中的前10个语料中。预定准则可以针对不同领域而不同，并且基于被处理的特定输入问题510的领域来选择由阶段540的假设生成逻辑应用的特定预定准则。因此，基于被用于特定输入问题领域的预定准则，以及特定输入问题领域的分级候选答案源列表，阶段540的假设生成逻辑可以将对候选答案源的查询的应用集中于被标识为最可能生成具有高置信度得分的有效候选答案的那些候选答案源。

在某些示例性实施例中，可以通过提交输入问题的用户的偏好，指定用于选择要应用查询的候选答案源的预定准则。例如，用户可以建立用户简档，并且当用户首次作为有效用户注册到QA系统时，将用户简档注册到QA系统。该用户简档(其可以定期更新)可以指定用户针对以下项具有的偏好：回答输入问题的速度、候选答案中的期望置信度级别、用户希望在问题回答期间考虑包括或排除的候选答案源的类型等。用户简档中的该信息可以指定准则，阶段540的假设生成逻辑可以使用该准则以及分级候选答案源列表，以便选择用于搜索输入问题510的答案的语料库、语料、候选答案源、文档等的子集。例如，用户可以指定用户希望以最快可能速度处理问题，并且用户希望使用具有高于X的可靠性的候选答案源，其中X是指示候选答案源的评级的某个值。因此，该预定准则可用于主要基于处理时间选择候选答案源，但所述候选答案源针对整体评级列表具有高于X的评级。

阶段540的假设生成逻辑可以执行初始操作，以便尝试通过将由问题分解阶段530生成的查询应用于由分级列表和预定准则标识的候选答案源而发现输入问题510的答案。可以对照预定阈值评估与由于这种将查询应用于候选答案源子集而生成的候选答案关联的置信度得分，以便判定是否发现具有足够置信度的有效候选答案。如果否，则当就特定输入问题510而言，发现被确定是有效答案的最可能源的候选答案源缺失时，阶段540的假设生成逻辑可被允许扩展搜索以获得其它候选答案源(它们在分级列表中进一步向下或者未被包括在分级列表中)的答案，以便发现答案的其它可能源。因此，分级候选答案源列表的使用被用作候选答案源的初始过滤器，但是在后续迭代期间，当该过滤器未能产生输入问题510的足够正确的答案时，可以放宽该过滤器。

在示例性实施例的进一步方面，候选答案源清除逻辑599可以使用分级候选答案源列表以便定期从由QA系统流水线500使用的语料库545中清除候选答案源。即，例如，如果发现候选答案源在指定时间段内未被包括在由评级逻辑595生成的一个或多个分级列表597中，则可以从领域的语料库545或特定语料547中删除该候选答案源。可以在候选答案源清除逻辑599中建立其它准则以便基于由评级逻辑595生成的分级列表597，确定应何时从语料库中删除候选答案源。例如，对于特定领域，如果候选答案源在指定时间段内未在一个或多个分级列表数据结构的前100个条目中列出，则可以从与该领域关联的语料547中删除该候选答案源，但可以将该候选答案源移动到不与该领域关联的另一个语料547，例如默认语料等。通过这种方式，可以通过消除基本不可能为候选答案生成提供任何有价值贡献的候选答案源，节省存储空间和搜索时间。

因此，示例性实施例提供用于就候选答案源的搜索而言动态地调整QA系统的操作的机制，方式为：对候选答案源进行评级、生成排列优先顺序后的候选答案源列表，以及基于排列优先顺序后的候选答案源列表调整将查询应用于候选答案源。示例性实施例的机制通过减少将查询应用于很少可能产生具有高置信度的候选答案的候选答案源所花费的处理时间，提高QA系统的性能，通过限制必须被加载到存储器中以便评估的语料库、语料和其它候选答案源，减少所使用的存储器量，并且通过将工作集中于已被确定为最可能提供具有高置信度的有效候选答案的候选答案源，提高QA系统的准确性。此外，示例性实施例的机制进一步用于通过定期从QA系统使用的信息语料库中清除被确定为不太可能产生具有高置信度的有效候选答案的候选答案源，节省存储空间和处理时间。

图6是概述根据一个示例性实施例的改进的QA系统针对候选答案源评级的实例操作的流程图。如图6中所示，操作首先接收输入问题(步骤610)。解析和分析输入问题以便从输入问题中提取特性(步骤620)。所提取的特性用于标识输入问题领域并用于生成一个或多个查询(步骤630)。检索用于所标识的输入问题领域的一个或多个分级候选答案源列表(步骤640)，并且将一个或多个预定准则应用于一个或多个分级列表以便标识要用于标识输入问题的答案的候选答案源子集(步骤650)。所述一个或多个预定准则可以是存储在QA系统中的默认准则、用户定义的准则(例如可以在用户简档中指定)等。

然后将一个或多个查询应用于候选答案源子集以便生成一个或多个候选答案和对应置信度量(步骤660)。将置信度量与一个或多个阈值相比较以便标识具有足够高置信度度量的候选答案(步骤670)。记录有关候选答案的信息(步骤680)并且处理该信息以便针对输入问题领域生成新的或更新后的分级候选答案源列表(步骤690)。新的或更新后的分级候选答案源列表可以与随后提交的输入问题的处理(例如在上面的步骤640中)一起使用。

判定是否标识满足具有足够高置信度得分的预定准则的任何候选答案(步骤700)。如果是，则从具有足够高置信度得分的候选答案中选择最终答案和对应置信度得分，例如，可以选择具有最高置信度得分的候选答案(步骤710)。如果否，则可以生成错误结果并且将其输出给输入问题的提交者(步骤720)。错误结果可以列出所发现的候选答案及其置信度得分以及未发现足够正确的候选答案的指示、可以简单地指示未能发现答案，或者以其他方式向用户通知QA系统不能生成足够正确的结果。操作然后结束。

如上所述，应该理解，示例性实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在一个实例实施例中，示例性实施例的机制以软件或程序代码实现，软件或程序代码包括但不限于固件、驻留软件、微代码等。

适合于存储和/或执行程序代码的数据处理系统将包括至少一个直接或通过系统总线间接连接到存储元件的处理器。存储元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置检索代码的次数的高速缓冲存储器。

输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等)可以直接或通过中间I/O控制器与系统相连。网络适配器也可以被连接到系统以使所述数据处理系统能够通过中间专用或公共网络变得与其它数据处理系统或远程打印机或存储设备相连。调制解调器、电缆调制解调器和以太网卡只是当前可用的网络适配器类型中的少数几种。

出于示例和说明目的给出了对本发明的描述，并且所述描述并非旨在是穷举的或是将本发明限于所公开的形式。对于所属技术领域的普通技术人员来说，许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理、实际应用，并且当适合于所构想的特定使用时，使得所属技术领域的其它普通技术人员能够理解本发明的具有各种修改的各种实施例。

Claims

1.一种在包括处理器和存储器的数据处理系统中的方法，所述方法用于动态地选择候选答案源子集以便由所述数据处理系统实现的问答(QA)系统使用，所述方法包括：

由所述数据处理系统实现的所述QA系统接收针对其寻求答案的输入问题；

由所述QA系统基于所述输入问题生成一个或多个查询；

由所述QA系统基于分级候选答案源列表，从一组候选答案源中选择候选答案源子集，其中所述分级候选答案源列表是基于由所述QA系统针对先前输入的问题生成的先前候选答案的特征来生成的；

由所述QA系统将所述一个或多个查询应用于所述候选答案源子集；以及

由所述QA系统基于将所述一个或多个查询应用于所述候选答案源子集的结果，针对所述输入问题生成至少一个候选答案。

2.如权利要求1所述的方法，进一步包括：

针对所述先前输入的问题，在至少一个日志数据结构的条目中记录由所述QA系统生成的先前候选答案的特征，其中每个先前候选答案的特征包括从中生成该候选答案的候选答案源的标识和与该候选答案关联的置信度得分；以及

基于所述至少一个日志数据结构中的所述条目，生成所述分级候选答案源列表。

3.如权利要求2所述的方法，其中每个先前候选答案的特征进一步包括对由所述候选答案源提供的内容中用于生成该候选答案的部分的指示和有关为了支持该答案而收集的证据的信息。

4.如权利要求2所述的方法，其中每个先前候选答案的特征进一步包括以下至少一个：先前生成的所述候选答案源的相对评级，或者所述候选答案源的用户指定的主观评级。

5.如权利要求2所述的方法，其中所述至少一个日志数据结构包括多个日志数据结构，其中针对由所述QA系统处理的多个主题类型领域中的每个领域具有至少一个日志数据结构。

6.如权利要求2所述的方法，其中每个先前候选答案的特征进一步包括指示该候选答案是否被选择为先前输入的问题的最终答案的标识符。

7.如权利要求2所述的方法，其中记录由所述QA系统生成的先前候选答案的特征进一步包括：

呈现先前输入的问题的分级候选答案列表的输出；

接收基于所述分级候选答案列表的所述输出的用户反馈输入，所述用户反馈输入指示用户对所述分级候选答案列表中的一个或多个所述候选答案的正确性级别的指示；以及

将针对所述一个或多个候选答案的所述用户反馈输入记录在所述至少一个日志数据结构的对应条目中。

8.如权利要求2所述的方法，其中基于所述至少一个日志数据结构中的所述条目生成所述分级候选答案源列表包括：

针对每个候选答案源，基于所述至少一个日志数据结构的所述条目中用于由该候选答案源生成的候选答案的信息，生成该候选答案源的评级；以及

基于每个所述候选答案源的所述评级的相对比较，生成所述分级候选答案源列表。

9.如权利要求8所述的方法，其中生成该候选答案源的评级包括基于一个或多个因素计算评级，其中所述一个或多个因素包括以下至少一个：指示该候选答案源被用于导致先前输入的问题的正确候选答案的频繁程度的值、指示该候选答案源被用于导致先前输入的问题的错误候选答案的频繁程度的值、指示支持证据在支持由该候选答案源生成的候选答案中的价值程度的值、指示该候选答案源就先前输入的问题的特定领域而言的可靠程度的值，以及指示由该候选答案源生成的候选答案的支持证据源的可靠性的值。

10.如权利要求8所述的方法，其中生成该候选答案源的评级包括将评级计算为该候选答案源生成具有高于预定阈值置信度得分的关联置信度得分的候选答案的次数与访问该候选答案源以生成先前输入的问题的候选答案的次数的比率。

11.如权利要求8所述的方法，其中生成该候选答案源的评级包括基于该候选答案源生成所述先前输入的问题的候选答案所需的平均时间量来生成该候选答案源的评级。

12.如权利要求8所述的方法，其中生成该候选答案源的评级包括针对该候选答案源生成多个评级，每个评级对应于不同评级准则。

13.如权利要求1所述的方法，其中所述先前候选答案是针对先前输入的问题生成的具有满足最小置信度得分值的关联置信度得分的候选答案。

14.如权利要求1所述的方法，其中基于分级候选答案源列表，从一组候选答案源中选择候选答案源子集进一步包括：

基于一个或多个优先次序准则和与该组候选答案源中的候选答案源关联的评级，生成与该组候选答案源中的所述候选答案源关联的优先级值，其中根据与候选答案源关联的优先级值，将所述一个或多个查询应用于所述候选答案源子集，以使得在将所述一个或多个查询应用于较低优先级值候选答案源之前，首先将所述一个或多个查询应用于较高优先级值候选答案源。

15.如权利要求14所述的方法，其中所述候选答案源子集包括该组候选答案源中其优先级值满足至少一个预定优先级别的候选答案源。

16.如权利要求15所述的方法，其中所述至少一个预定优先级别包括多个分级候选答案源列表的优先级别的组合。

17.如权利要求15所述的方法，其中对于由所述QA系统处理的多个主题领域中的每一个存在不同的预定优先级别。

18.如权利要求15所述的方法，其中所述至少一个预定优先级别包括用户指定的优先级别。

19.一种包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有存储在其中的计算机可读程序，其中所述计算机可读程序当在数据处理系统上执行时，导致所述数据处理系统：

由所述数据处理系统实现的问答(QA)系统接收针对其寻求答案的输入问题；

由所述QA系统基于所述输入问题生成一个或多个查询；

20.一种装置，包括：

处理器；以及

耦合到所述处理器的存储器，其中所述存储器包括指令，当所述指令由所述处理器执行时，导致所述处理器：

由在所述处理器上执行的问答(QA)系统接收针对其寻求答案的输入问题；

由所述QA系统基于所述输入问题生成一个或多个查询；