CN104699730A

CN104699730A - 用于识别候选答案之间的关系的方法和系统

Info

Publication number: CN104699730A
Application number: CN201410450065.6A
Authority: CN
Inventors: W·G·维索斯基; D·E·威尔森; R·L·亚茨
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-05
Filing date: 2014-09-05
Publication date: 2015-06-10
Anticipated expiration: 2034-09-05
Also published as: DE102014113870A1; US9558264B2; JP2015109068A; JP6095621B2; US20150161242A1; US9558263B2; CN104699730B; US20160171095A1

Abstract

本发明涉及用于识别候选答案之间的关系的方法和系统。提供用于识别由问答(QA)系统响应于输入问题而产生的候选答案之间的共性的机构。所述机构从QA系统接收输入问题的多个候选答案，并且识别存在于候选答案中的项。所述机构确定每个候选答案中的项之间的关系，并且基于确定的每个候选答案中的项之间的关系确定第一项和第二项之间的共同关系，该共同关系至少在所述多个候选答案的一个子集之中是共同的。所述机构将所述多个候选答案和共同关系提供给用户。

Description

用于识别候选答案之间的关系的方法和系统

技术领域

本申请一般地涉及一种改进的数据处理设备和方法，更具体地讲，涉及用于识别和显示由问答(QA)系统产生的候选答案之间的关系的机构。

背景技术

随着增加的计算网络(诸如，互联网)的使用，人类当前淹没于他们可从各种结构化和非结构化源获得的大量信息。然而，当用户试图拼凑用户在搜索关于各种主题的信息期间认为相关的他们能够发现的信息时，存在大量信息空隙。为了辅助这种搜索，近来的研究已涉及产生问答(QA)系统，QA系统可接收输入问题，分析输入问题，并且返回指示输入问题的最可能的答案的结果。QA系统提供用于搜索内容(例如，电子文档)的源的大的集合的自动化机构，并且针对输入问题分析它们以确定问题的答案和答案对于回答输入问题的准确性的置信量度。

一个这种QA系统是可从New York，Armonk的国际商用机器(IBM)公司购得的Watson^TM系统。Watson^TM系统将高级自然语言处理、信息检索、知识表示和推理以及机器学习技术应用于开域问题回答的领域。Watson^TM系统建立在用于假设产生、大量证据搜集、分析和评分的IBM的DeepQA^TM技术上。DeepQA^TM接收输入问题，分析输入问题，将问题分解为组成部分，基于分解的问题和答案源的初步搜索的结果产生一个或多个假设，基于从证据源进行的证据的检索执行假设和证据评分，执行所述一个或多个假设的合成，并且基于训练的模型，执行最后的合并和评级以输出输入问题的答案以及置信量度。

各种美国专利申请公开描述了各种类型的问答系统。第2011/0125734号美国专利申请公开公开了一种用于基于数据的资料库(corpus)产生问答对的机构。该系统开始于一组问题，然后分析这组内容以提取这些问题的答案。第2011/0066587号美国专利申请公开公开了一种用于将分析的信息的报告转换为一批问题并且从信息集确定这批问题的答案是被回答还是被反驳的机构。结果数据被包括在更新的信息模型中。

发明内容

在一个说明性实施例中，提供一种在数据处理系统中用于识别由问答(QA)系统响应于输入问题而产生的或者由用户直接输入以由问答(QA)系统考虑的候选答案之间的共性的方法。该方法包括：由数据处理系统或用户输入从QA系统接收输入问题的多个候选答案，并且由数据处理系统识别存在于这些候选答案中的项。该方法还包括：由数据处理系统确定每个候选答案中的项之间的关系。此外，该方法包括：由数据处理系统基于确定的每个候选答案中的项之间的关系确定第一项和第二项之间的共同关系，共同关系至少在所述多个候选答案的一个子集之中是共同的。另外，该方法包括：由数据处理系统提供所述多个候选答案和共同关系。

在其它说明性实施例中，提供一种包括具有计算机可读程序的计算机可用或可读介质的计算机程序产品。当在计算装置上执行所述计算机可读程序时，所述计算机可读程序使计算装置执行以上参照方法说明性实施例概述的操作中的各种操作及其组合。

在另一说明性实施例中，提供一种系统/设备。该系统/设备可包括：一个或多个处理器；和存储器，耦合到所述一个或多个处理器。该存储器可包括指令，当由所述一个或多个处理器执行所述指令时，所述指令使所述一个或多个处理器执行以上参照方法说明性实施例概述的操作中的各种操作及其组合。

考虑到下面对本发明的示例性实施例的详细描述，将会描述本发明的这些和其它特征和优点，或者本发明的这些和其它特征和优点将会对于本领域普通技术人员而言变得清楚。

附图说明

当结合附图阅读时，通过参照下面对说明性实施例的详细描述，将会最好地理解本发明以及使用的优选模式及其另外的目的和优点，其中：

图1描述计算机网络中的问/答创建(QA)系统的一个说明性实施例的示意图；

图2是可实现说明性实施例的各方面的示例性数据处理系统的方框图；

图3表示根据一个说明性实施例的用于处理输入问题的QA系统流水线；

图4是根据一个说明性实施例的候选答案关系识别引擎的主要操作元件的示例性方框图；

图5是概述根据一个说明性实施例的用于执行用于产生用于识别候选答案中的关系的实体/项关系资源的预处理操作的示例性操作的流程图；

图6是概述根据一个说明性实施例的用于使用实体/项关系资源确定候选答案之间的关系的示例性操作的流程图；以及

图7是根据一个说明性实施例的候选答案用户界面的示例性示图。

具体实施方式

说明性实施例提供用于识别由问答(QA)系统产生的候选答案之间的关系的机构。也就是说，说明性实施例提供用于回答“给定由QA系统针对一问题计算的一组候选答案，候选答案彼此具有什么共同点？”这一问题的机构。通过评估和表示对于一组候选答案中的元素而言共同的项，通过评估和表示候选答案之间共同的、候选答案内的实体和项之间的关系，以及通过参照共同项以及实体和项及其关系，检索和显示显示候选答案之间的关联的资料库中的段落，说明性实施例回答这种问题。

应该理解，这里所使用的术语“机构”可以是具有设备、过程或计算机程序产品的形式的说明性实施例的各功能或方面的任何实现方式。这里描述的机构可被实现为专用硬件、在通用硬件上执行的软件、存储在介质上从而可容易地由专用或通用硬件执行的软件指令、用于执行功能的过程或方法或者以上各项的组合。

说明性实施例的机构在一个或多个数据仓库(例如，数据库等)中创建一个或多个数据结构，所述一个或多个数据结构识别在文档中的句子的文本中识别的实体之间的关系。说明性实施例的机构还使实体与它们在搜索索引中的共同引用(co-reference)相关联。结果，这些机构可显示对于问题的一组候选答案而言共同的项，按照项的实体类型(例如，人、组织或其它项“类型”)过滤共同的项，识别项和实体之间的关系，并且显示支持候选答案和共同项相关的断言的段落。

说明性实施例的机构可使用实体识别和跟踪引擎，诸如可从New York，Armonk的国际商用机器公司购得的统计信息和关系提取(SIRE)引擎。SIRE提供：用于使用最大熵模型的项或实体检测的部件，能够从注释数据训练最大熵模型；可训练的共同引用部件，用于对在文档中检测到的对应于相同实体的项进行分组；和可训练的关系提取系统。当然，可在不脱离说明性实施例的精神和范围的情况下使用其它实体识别和跟踪引擎，并且SIRE在这里仅用作例子以帮助理解由说明性实施例做出的改进。

实体识别和跟踪(EIT)引擎提供文档中的文本的语法分解、在文本中检测到的实体的识别、共同引用解析(参考相同实体的两个或更多项的解析)和实体之间的关系检测。另外，提供用于产生利用由EIT引擎发现的共同引用的项增强的搜索索引以及用于产生关系数据库的逻辑，所述关系数据库存储由EIT引擎发现的实体、实体类型、与实体相关的项、资料库内或跨资料库的特定关系的频率、作为关系的源的文档的公布时间、资料库标识符和作为关系的源的文档的文档标识符。

这些资源被用于识别由QA系统产生的候选答案中的实体、项和关系以识别除了候选答案是共同输入问题的答案的明显关系之外的候选答案之间的关系。也就是说，给定由QA系统返回或由用户明确地输入以由QA系统考虑的针对输入问题的一组候选答案，说明性实施例的逻辑显示返回的联系起候选答案的实体、项和它们的关系(例如，候选答案之间的共同项)，并且显示支持答案/实体/项关系的资料库中的段落。实体、项和关系的这种识别考虑了在资源的产生期间识别的项的共同引用。

因此，由说明性实施例的机构产生的结果可被输出到用户，以使得用户能够更深入地了解候选答案之间的共性和候选答案之间的关系，从而用户更深入地了解他们的原始输入问题的答案。例如，可诸如通过用户界面给予用户选项以询问针对候选答案的共性的问题。可询问的这种问题的例子例如可以是“所有的答案具有什么共同项？”(以及显示项和答案相关的资料库的文档中的段落是什么)、“答案的子集具有什么共同项？(以及显示项和答案相关的段落是什么)”等。在一些情况下，问题可针对实体类型以确定什么实体类型在候选答案之间是共同的，例如，“所有的答案具有什么共同的人？”(其中“人”是实体类型)、“所有的答案具有什么共同的组织？”、“所有的答案具有什么共同的国家？”等。

由说明性实施例的机构执行的分析的结果可被用于基于确定的项的特性、项之间的关系和用户询问的关于候选答案的特定问题，改变候选答案的显示。例如，如果用户要求候选答案之间共同的项的指示，则可在候选答案以及支持项和特定候选答案之间的关系的段落中突出显示共同项。此外，资料库内和/或跨资料库的项和实体之间的关系的频率可被用作该关系的强度的量度，并且可被用于修改候选答案的显示以代表候选答案中的关系的相对强度，例如以颜色、字体、尺寸或任何其它文本或图形特性的不同强调显示不同强度。此外，关系的独特性的量度也可被用于修改候选答案的显示。不管单独地或组合地实现以上特征中的哪些特征，说明性实施例针对使用的项和在候选答案中提及的项/实体之间的关系，提供对在候选答案之间什么是共同的以及在候选答案为什么被选择为输入问题的候选答案后面的推理的更深入的了解。

将在以下参照附图更详细地描述本发明的说明性实施例的以上方面和优点。应该理解，附图仅用于说明本发明的示例性实施例。本发明可包括未在附图中明确地示出但考虑到说明性实施例的当前描述将会对于本领域普通技术人员而言容易想到的各方面、实施例和描述的示例性实施例的变型。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是电子、磁、光学、电磁或半导体性质的系统、设备或装置、前述各项的任何合适的组合或者其等同物。计算机可读存储介质的更具体的例子(非穷举列表)将会包括下述各项：具有存储能力的电气装置、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、基于光纤的装置、便携式压缩盘只读存储器(CDROM)、光学存储装置、磁存储装置或前述各项的任何合适的组合。在这个文档的上下文中，计算机可读存储介质可以是能够包含或存储由指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的程序的任何有形介质。

在一些说明性实施例中，计算机可读介质是非暂态计算机可读介质。非暂态计算机可读介质是这样的任何介质：该介质不是无实体的信号或传播波，即纯信号或传播波本身。非暂态计算机可读介质可使用信号和传播波，但不是信号或传播波本身。因此，例如，以任何方式使用信号(诸如，例如保持它们的状态)的各种形式的存储装置和其它类型的系统、装置或设备可被视为本描述的范围内的非暂态计算机可读介质。

另一方面，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。类似地，计算机可读存储介质是并非计算机可读信号介质的任何计算机可读介质。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。

计算机程序指令也可被加载到计算机、其它可编程数据处理设备或其它装置上，以使得在计算机、其它可编程设备或其它装置上执行一系列的操作步骤以产生计算机实现的过程，从而在计算机或其它可编程设备上执行的指令提供用于实现流程图和/或方框图的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

如以上所讨论，说明性实施例提供用于在由问答(QA)系统产生的候选答案中识别实体、项以及实体之间的关系、实体和项之间的关系等的机构。应该理解，在一个方面，说明性实施例的机构用作一个资料库或多个资料库的文档的预处理器，以产生可被用于处理QA系统的候选答案以识别候选答案之间的关系的资源。因此，作为第二方面，由预处理器机构产生的资源随后在QA系统的运行时操作期间被应用于由QA系统产生的候选答案，以便为用户提供另外的关于候选答案之间的关系的信息。

图1-3旨在描述可用来实现说明性实施例的机构的示例性问题/答案、问题和答案或问题回答(QA)系统、方法和计算机程序产品。如以下将会更详细所讨论的，关于针对这些候选答案中的共同或相关实体和项识别和显示候选答案中的关系以及候选答案之间的关系，说明性实施例可被集成在这些QA机构中，并且可增强和扩展这些QA机构的功能。

因此，重要的是，在描述说明性实施例的机构如何被集成在这种QA系统中并且加强这种QA系统之前，首先理解如何可实现QA系统中的问题和答案创建。应该理解，图1-3中描述的QA机构仅是例子，而非意图陈述或暗示关于可实现说明性实施例的QA机构的类型的任何限制。在不脱离本发明的精神和范围的情况下，可在本发明的各种实施例中实现图1-3中示出的示例性QA系统的许多变型。

QA机构通过下面的步骤进行操作：访问来自数据或信息的资料库(也被称为内容的资料库)的信息，分析该信息，然后基于该数据的分析产生答案结果。访问来自数据的资料库的信息通常包括：数据库查询，回答关于在一批结构化记录中有什么的问题；和搜索，响应于针对一批非结构化数据(文本、标记语言等)的查询，提供一批文档链接。传统问题回答系统能够基于数据的资料库和输入问题产生答案，针对数据的资料库检验一批问题的答案，使用数据的资料库校正数字文本中的错误，并且从潜在答案(即，候选答案)的池中选择问题的答案。

内容创建者(诸如文章作者、电子文档创建者、网页作者、文档数据库创建者等)可在编写他们的内容之前确定在这种内容中描述的产品、解决方案和服务的使用情况。因此，内容创建者可知道内容意图在由内容描述的特定主题中回答什么问题。在数据的资料库的每个文档中诸如根据与问题关联的角色、信息的类型、任务等对问题进行分类，可允许QA系统更快速且高效地识别包含与特定查询相关的内容的文档。内容还可回答内容创建者未想到可能对内容用户有用的其它问题。问题和答案可由内容创建者检验以便被包含在给定文档的内容中。这些能力有助于提高的准确性、系统性能、机器学习和QA系统的置信度。内容创建者、自动化工具等可做注释或以其它方式产生元数据以提供可由QA系统用于识别内容的这些问题和答案属性的信息。

对这种内容进行操作，QA系统使用多个加强分析机构产生输入问题的答案，所述多个加强分析机构评估内容以识别输入问题的最有可能的答案(即，候选答案)。说明性实施例利用已经由QA系统完成的工作减少与已经由QA系处理的问题类似的问题的随后处理的计算时间和资源成本。

图1描述计算机网络102中的问/答创建(QA)系统100的一个说明性实施例的示意图。在第2011/0125734号美国专利申请公开中描述了可结合这里描述的原理使用的问/答产生的一个例子，该美国专利申请的全部内容通过引用包含于此。QA系统100可被实现在连接到计算机网络102的一个或多个计算装置104(包括一个或多个处理器和一个或多个存储器，并且可包括本领域通常已知的任何其它计算装置元件，包括总线、存储装置、通信接口等)上。网络102可包括经由一个或多个有线和/或无线数据通信链路彼此通信以及与其它装置或部件通信的多个计算装置104，其中每个通信链路可包括导线、路由器、交换机、发射器、接收器等中的一个或多个。QA系统100和网络102可以启用一个或多个QA系统用户经由他们各自的计算装置110-112的问/答(QA)产生功能。QA系统100的其它实施例可被与除这里描述的部件、系统、子系统和/或装置之外的部件、系统、子系统和/或装置一起使用。

QA系统100可被构造为实现从各种源接收输入的QA系统流水线108。例如，QA系统100可从网络102、电子文档的资料库106、QA系统用户或其它数据和其它可能的输入源接收输入。在一个实施例中，可通过网络102对QA系统100的一些或所有的输入进行路由。网络102上的各种计算装置104可包括用于内容创建者和QA系统用户的接入点。一些计算装置104可包括用于存储数据的资料库106的数据库的装置(在图1中，仅为了说明的目的，数据的资料库106被示出为单独的实体)。数据的资料库106的各部分也可布置在一个或多个其它附接于网络的存储装置上，布置在一个或多个数据库或者图1中未明确地示出的其它计算装置中。在各种实施例中，网络102可包括局部网络连接和远程连接，从而QA系统100可在任何大小的环境(包括本地和全球环境(例如，互联网))中操作。

在一个实施例中，内容创建者创建数据的资料库106的文档中的内容以用作QA系统100的数据的资料库的一部分。文档可包括任何文件、文本、文章或用在QA系统100中的数据的源。QA系统用户可经由与网络102的网络连接或互联网连接访问QA系统100，并且可将可由数据的资料库106中的内容回答的问题输入到QA系统100。在一个实施例中，可使用自然语言形成问题。QA系统100可解释问题，并且将包含问题的一个或多个答案的响应提供给QA系统用户(例如，QA系统用户110)。在一些实施例中，QA系统100可在候选答案的分级列表中将响应提供给用户。

QA系统100实现QA系统流水线108，QA系统流水线108包括用于处理输入问题、数据的资料库106以及基于数据的资料库106的处理产生输入问题的答案的多个级。将在以下参照图3更详细地描述QA系统流水线108。

在一些说明性实施例中，QA系统100可以是利用以下描述的说明性实施例的机构加强的可从New York，Armonk的国际商用机器公司购得的Watson^TM系统。Watson^TM QA系统可接收输入问题，然后解析输入问题以提取问题的主要特征，问题的主要特征继而随后被用于配制应用于数据的资料库的查询。基于将查询应用于数据的资料库，通过在数据的资料库中查找可能包含输入问题的有价值响应的数据资料库的一部分，来产生一组假设或输入问题的候选答案。

Watson^TM QA系统随后使用各种推理算法对输入问题的语言和在查询的应用期间找到的数据的资料库的每个部分中使用的语言执行深入分析。可应用数百或甚至数千个推理算法，每个推理算法执行不同分析(例如，比较)并且产生得分。例如，一些推理算法可在输入问题的语言和找到的数据的资料库的一部分内查看项和同义词的匹配。其它推理算法可查看语言中的时间或空间特征，而另外的推理算法可评估数据的资料库的一部分的源并且评估它的真实性(veracity)。

从各种推理算法获得的得分指示基于该推理算法的特定关注领域由输入问题推断潜在响应的程度。随后针对统计模型对每个得到的得分进行加权。统计模型捕捉在Watson^TM QA系统的训练时间段期间对于特定域的两个相似段落之间建立推断时推理算法执行得如何。统计模型可随后被用于总结Watson^TM QA系统关于由问题推断潜在响应(即，候选答案)的证据的置信水平。可对于每个候选答案重复这个过程，直至Watson^TM QA系统识别表现为显著强于其它候选答案的候选答案，并且因此产生输入问题的最终答案或评级的一组答案。例如，可从IBM公司网站、IBM Redbooks等获得关于Watson^TM QA系统的更多信息。例如，能够在Yuan等人的“Watson andHealthcare”(IBM developerWorks，2011)和Rob High的“TheEra of Cognitive Systems:An Inside Look at IBM Watson and How itWorks”(IBM Redbooks,2012)中找到关于Watson^TM QA系统的信息。

图2是可实现说明性实施例的各方面的示例性数据处理系统的方框图。数据处理系统200是计算机(诸如，图1中的服务器104或客户机110)的例子，实现本发明的说明性实施例的各过程的计算机可用代码或指令可位于该计算机中。在一个说明性实施例中，图2代表实现QA系统100和QA系统流水线108的服务器计算装置(诸如，服务器104)，QA系统100和QA系统流水线108被加强以包括以下描述的说明性实施例的另外的机构。

在描述的例子中，数据处理系统200采用集线器架构，该集线器架构包括北桥和内存控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主内存208和图形处理器210连接到NB/MCH 202。图形处理器210可通过加速图形端口(AGP)连接到NB/MCH 202。

在描述的例子中，局域网(LAN)适配器212连接到SB/ICH204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器230、通用串行总线(USB)端口和其它通信端口232以及PCI/PCIe装置234通过总线238和总线240连接到SB/ICH 204。PCI/PCIe装置可包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用卡总线控制器。ROM 224可以是例如闪速基本输入/输出系统(BIOS)。

HDD 226和CD-ROM驱动器230通过总线240连接到SB/ICH204。HDD 226和CD-ROM驱动器230可使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)装置236可连接到SB/ICH 204。

操作系统在处理单元206上运行。操作系统协调并提供图2中的数据处理系统200内的各种部件的控制。作为客户机，操作系统可以是可商购获得的操作系统，诸如Windows面向对象的编程系统(诸如，Java^TM编程系统)可结合操作系统运行并且提供从在数据处理系统200上执行的Java^TM程序或应用对操作系统的调用。

作为服务器，数据处理系统200可以是例如运行高级交互执行操作系统或操作系统的eServer^TM System计算机系统。数据处理系统200可以是在处理单元206中包括多个处理器的对称多处理器(SMP)系统。或者，可采用单处理器系统。

用于操作系统、面向对象编程系统和应用或程序的指令位于存储装置(诸如，HDD 226)上，并且可被加载到主内存208中以由处理单元206执行。本发明的说明性实施例的过程可由处理单元206使用计算机可用程序代码执行，该计算机可用程序代码可位于内存(诸如例如，主内存208、ROM 224)中或者位于例如一个或多个外围装置226和230中。

总线系统(诸如，如图2中所示的总线238或总线240)可包括一个或多个总线。当然，可使用任何类型的通信结构或架构实现该总线系统，所述通信结构或架构提供连接到该结构或架构的不同部件或装置之间的数据传输。通信单元(诸如，图2的调制解调器222或网络适配器212)可包括用于发送和接收数据的一个或多个装置。内存可以是例如主内存208、ROM 224或诸如在图2中的NB/MCH 202中的高速缓存。

本领域普通技术人员将会理解，图1和2中描述的硬件可根据实现方式而不同。除图1和2中描述的硬件之外或者替代于图1和2中描述的硬件，可使用其它内部硬件或外围装置，诸如闪存、等同的非易失性存储器或光盘驱动器等。此外，在不脱离本发明的精神和范围的情况下，说明性实施例的过程可应用于除前述SMP系统之外的多处理器数据处理系统。

此外，数据处理系统200可采用许多不同数据处理系统中的任何形式，包括客户机计算装置、服务器计算装置、平板计算机、膝上型计算机、电话或其它通信装置、个人数字助手(PDA)等。在一些说明性例子中，数据处理系统200可以是例如便携式计算装置，该便携式计算装置构造为具有提供用于存储操作系统文件和/或用户产生的数据的非易失性存储器的闪存。实质上，数据处理系统200可以是任何已知或者以后开发的数据处理系统而没有架构限制。

图3示出根据一个说明性实施例的用于处理输入问题的QA系统流水线。图3的QA系统流水线可例如被实现为图1中的QA系统100的QA系统流水线108。应该理解，图3中示出的QA系统流水线的各级可被实现为利用用于实现归属于特定级的功能的逻辑构成的一个或多个软件引擎、部件等。可使用这种软件引擎、部件等中的一个或多个实现每个级。软件引擎、部件等可在一个或多个数据处理系统或装置的一个或多个处理器上执行，并且可使用或操作存储在一个或多个数据处理系统上的一个或多个数据存储装置、存储器等中的数据。图3的QA系统流水线可例如在一个或多个级中被加强以实现以下描述的说明性实施例的改进的机构，可提供另外的级以实现改进的机构，或者可提供与流水线300分离的逻辑以与流水线300对接并且实现说明性实施例的改进的功能和操作。

如图3中所示，QA系统流水线300包括多个级310-380，通过所述多个级310-380，QA系统进行操作以分析输入问题并且产生最终响应。在初始问题输入级310中，QA系统接收以自然语言格式提供的输入问题。也就是说，用户可经由用户界面输入用户希望获得其答案的输入问题，例如，“谁是华盛顿最亲密的顾问？”响应于接收到输入问题，QA系统流水线300的下一级(即，问题和主题分析级320)使用自然语言处理(NLP)技术解析输入问题以从输入问题提取主要特征，根据类型(例如，姓名、日期或大量其它定义的主题中的任何主题)对主要特征进行分类。例如，在以上示例性问题中，项“谁”可与指示正在寻找的人的身份的“人”的主题关联，“华盛顿”可被识别为问题所关联的人的正确姓名，“最亲密的”可被识别为指示接近程度或关系的词语，并且“顾问”可指示名词或其它语言主题。

识别的主要特征可随后在问题分解级330期间被用于将问题分解为一个或多个查询，所述一个或多个查询可被应用于数据/信息的资料库345以便产生一个或多个假设。可按照任何已知的或以后开发的查询语言(诸如，结构查询语言(SQL)等)产生查询。查询可被应用于存储关于构成数据/信息的资料库345的电子文本、文档、文章、网站等的信息的一个或多个数据库。也就是说，这些各种源自己、不同的各批的源等可代表多个资料库345内的不同资料库347。可存在基于各种准则根据特定实现方式为不同的各批文档定义的不同资料库347。例如，可为不同的主题、主题类别、信息源等建立不同的资料库。作为一个例子，第一资料库可与卫生保健文档关联，而第二资料库可与金融文档关联。替代地，一个资料库可以是由美国能源部公布的文档，而另一资料库可以是IBM Redbooks文档。具有某一类似属性的任何一批内容可被视为多个资料库345内的一个资料库347。

查询可被应用于存储关于构成数据/信息的资料库(例如，图1中的数据的资料库106)的电子文本、文档、文章、网站等的信息的一个或多个数据库。查询在假设产生级340被应用于数据/信息的资料库以产生能够评估的识别用于回答输入问题的潜在假设的结果。也就是说，查询的应用导致与特定查询的准则匹配的数据/信息的资料库的一部分的提取。资料库的这些部分可随后在假设产生级340期间被分析和使用以产生用于回答输入问题的假设。这些假设在这里也被称为输入问题的“候选答案”。对于任何输入问题，在这个级340，可产生可能需要评估的数百个假设或候选答案。

QA系统流水线300随后在级350中执行输入问题的语言和每个假设或“候选答案”的语言的深入分析和比较，以及执行证据评分以评估特定假设是输入问题的正确答案的可能性。如上所述，这可包括使用多个推理算法，每个推理算法执行输入问题的语言和/或资料库的内容的单独类型的分析，所述分析提供支持或不支持假设的证据。每个推理算法基于它执行的分析产生得分，所述得分指示通过查询的应用而提取的数据/信息的资料库的各部分的相关性的量度以及对应假设的正确性的量度(即，假设的置信度的量度)。

在合成级360中，由各种推理算法产生的大量的相关性得分可被合成为各种假的置信度得分。这个过程可包括将权重施加于各种得分，其中已通过由QA系统采用和/或动态地更新的统计模型的训练确定了权重，如以下所述。可根据通过QA系统的训练产生的统计模型处理加权得分，该统计模型识别这些得分可被组合以产生各假设或候选答案的置信度得分或量度的方式。这个置信度得分或量度总结了QA系统具有的关于由输入问题推断候选答案(即，候选答案是输入问题的正确答案)的证据的置信水平。

得到的置信度得分或量度由最终置信度合并和评级级370处理，最终置信度合并和评级级370可比较置信度得分和量度，将它们与预定阈值进行比较，或者对置信度得分执行任何其它分析以确定哪些假设/候选答案最有可能是输入问题的答案。可根据这些比较对假设/候选答案进行评级以产生假设/候选答案(以下，简称为“候选答案”)的评级列表。从候选答案的评级列表，在级380，最终的答案和置信度得分或者最终的一组候选答案和置信度得分可被产生并且输出到原始输入问题的提交者。

说明性实施例提供用于使用QA系统(诸如，以上参照图1-3描述的QA系统)回答输入问题的机构，并且还提供用于分析由QA系统产生的候选答案以识别候选答案中的共同项、实体以及项和实体之间的关系的机构。另外，确定与项、实体以及项和实体之间的关系关联的统计量度，并且该统计量度被用于修改候选答案的显示和/或回答关于候选答案之间的共性的问题。

说明性实施例的一个方面提供一种预处理器，所述预处理器分析一个资料库或多个资料库(诸如，图3中的一个资料库347或多个资料库345)中的文档，以产生存储关于项、实体、项和实体之间的关系的信息以及关于这些项、实体和关系的统计数据的资源，这些资源在以后用于分析由QA系统产生的候选答案中的共性。在说明性实施例的第二方面，这些资源被用于识别候选答案中的项、实体和关系的实例，并且获得关于候选答案的共性和关系的结论。关于这个第二方面，产生用于提供候选答案的用户界面，该用户界面具有用于回答关于候选答案之间的共性、候选答案的关系的问题的机构和用于提供支持候选答案之间的共性和关系的一个资料库或多个资料库中的支持段落的机构，以及提供用于基于以上突出显示或修改候选答案的输出的机构。

将在以下参照图4更详细地描述说明性实施例的各方面。图4是根据一个说明性实施例的候选答案关系识别引擎的主要操作元件的示例性方框图。图4中示出的元件可被实现为硬件逻辑、由一个或多个硬件装置执行的软件逻辑或者硬件逻辑和软件逻辑的任何组合。在一个说明性实施例中，图4中示出的元件被实现为软件逻辑，在将该软件逻辑加载到一个或多个存储器、存储装置等之后由一个或多个计算装置的一个或多个处理器执行该软件逻辑。

如图4中所示，候选答案关系识别引擎400包括控制器410、资料库接口420、项/实体识别引擎430、关系识别引擎440、统计测量引擎450、实体/项/关系数据结构产生引擎460、候选答案关系分析引擎470和候选答案用户界面引擎480。应该理解，图4中示出的示例说明性实施例将预处理方面和逻辑与后处理方面和逻辑两者组合成单个候选答案关系引擎400。例如，元件430-460可与说明性实施例的预处理方面/逻辑关联，而候选答案关系分析引擎470和候选答案用户界面引擎480可被视为说明性实施例的后处理方面/逻辑的一部分。

尽管图4将预处理和后处理方面/逻辑表示为同一引擎400的一部分，但说明性实施例不限于此。相反地，在其它说明性实施例中，预处理和后处理方面/逻辑可彼此分开并且不同，其中后处理方面/逻辑可利用由预处理方面/逻辑产生的结果(例如，数据结构462-464)执行它的后处理方面/逻辑。因此，预处理方面/逻辑可布置在与后处理方面/逻辑相同或不同的计算装置上的第一引擎中，后处理方面/逻辑可布置在第二引擎中。然而，为了在这里容易解释，将会假设预处理和后处理方面/逻辑被集成在同一候选答案关系识别引擎400中。

候选答案关系识别引擎400的控制器410控制候选答案关系识别引擎400的总体操作并且协调其它元件420-480的操作。资料库接口420提供数据通信接口，通过该数据通信接口，候选答案关系识别引擎400可获得资料库或者一个或多个资料库405的文档数据。文档数据可用于非结构化文档，并且文档数据可以是问答(QA)系统对其进行操作以产生输入问题的候选答案的训练资料库或运行时资料库的文档数据。

项/实体识别引擎430、关系识别引擎、统计测量引擎450和实体/项/关系数据结构产生引擎460可一起操作以分析从资料库405接收的文档数据和产生的资源数据结构462-464，资源数据结构462-464包括关于各种文档中的项、实体以及项和实体之间的关系的信息。元件430-460可利用已知工具中的机构执行文档数据的分析。在一个说明性实施例中，元件430-460可使用可从New York，Armonk的国际商用机器公司购得的统计信息和关系提取(SIRE)引擎，或者使用与SIRE引擎中提供的逻辑类似的逻辑。在Florian等人的“A StatisticalModel for Multilingual Entity Detection and Tracking”(IBM TJWatson Research Center，proceedings of the 2004Human LanguageTechnology Conference，North American Chapter of the Associationfor Computational Linguistics Annual Meeting，pages 1-8)中描述了SIRE引擎。

尽管说明性实施例可使用SIRE引擎辅助产生资源数据结构462-464，但说明性实施例不限于此。相反地，可在不脱离说明性实施例的精神和范围的情况下使用能够分析非结构化/结构化文档的输入文档数据并且产生指示项/实体和它们的关系的资源数据结构的任何分析引擎。例如，可与说明性实施例的机构一起使用的另一分析引擎是可从斯坦福自然语言处理组得到的Stanford CoreNLP引擎。像SIRE引擎一样，Stanford CoreNLP引擎提供句子令牌化、语法分析、实体检测和共同引用解析。

项/实体识别引擎430可使用SIRE引擎或其它类型的NLP分析引擎的逻辑在接收的文档数据的每个句子中识别该句子中的项/实体、在句子中发现的实体类型，以及保持关于输入到引擎400的一个或多个文档的句子中的项/实体的识别的统计数据。项/实体识别引擎430还可执行共同引用识别以识别共同引用和它们在文档内的位置以及它们引用的实体。关系识别引擎440分析在句子中发现的项/实体之间的关系以识别项/实体的对、项/实体之间的关系的性质和在资料库405的一个文档或多个文档中发现的关系的频率等。以这种方式，对于文档中的每个实体或项，可识别并且保持与其它项/实体的一个或多个配对关系。

例如，在一个句子中，可识别多个关系、共同引用等。项/实体识别引擎430对句子内的项/实体进行令牌化或者以其它方式识别句子内的项/实体以及它们的位置和类型。关系识别引擎440识别由项/实体识别引擎430发现的项/实体之间的各种关系。

考虑下面的示例性句子：“John Smith是专利律师并且他已向美国专利商标局(USPTO)注册。他在2004年从哈佛毕业并且他当前居住在纽约。”在一个句子中，可使用诸如例如在SIRE引擎中提供的NLP机构识别实体“John Smith”、“专利律师”、“美国专利商标局”和“USPTO”。还可识别实体的实体类型，从而“John Smith”与实体类型“人”关联，“专利律师”与实体类型“职业”关联，并且“美国专利商标局”是“组织”。另外，在句子中识别共同引用“他”(代词)和“USPTO”(首字母缩略词)，它们的关系是：“他”是指“John Smith”，并且“USPTO”是指美国专利商标局。

识别实体和项之间的配对关系，从而“John Smith”在一个配对关系中与“专利律师”相关，在第二配对关系中与“美国专利商标局”相关，在第三配对关系中与“哈佛”相关，在第四配对关系中与2004相关，并且在第五配对关系中与纽约相关。类似地，像实体“美国专利商标局”与“John Smith”具有关系一样，实体“专利律师”可与“JohnSmith”具有关系。可与特定实体关联地保持每个配对关系，例如，数据库中的“John Smith”的条目可保持它与“专利律师”以及与“美国专利商标局”的配对关系。

关系识别引擎440还可执行共同引用识别和解析以确定共同引用所表示的实体名词。例如，以上例子中的代词“他”表示“JohnSmith”，而首字母缩略词“USPTO”表示组织“美国专利商标局”。当代表实体之间的关系时，共同引用可被它所表示的实体替换，即，替代于共同引用保持实体以便产生配对关系，例如，可在配对关系中替代于“USPTO”保持“美国专利商标局”。

此外，项/实体识别引擎430还可在句子中(诸如，在特定文本窗口内，例如，在包括句子中的实体以及协同定位的名词和动词的5公分(gram)内)识别其它非实体名词和动词。因此，在以上例子中，“John Smith”可与动词“注册”关联，并且“美国专利商标局”也可与动词“注册”关联。因此，从这种关联，能够确定John Smith可被注册，并且实体可向美国专利商标局注册。

应该理解，尽管以上例子仅针对两个句子，但配对关系可跨越文档中的大量句子。因此，共同引用等可位于随后的句子中，并且可表示文档的内容中的前一个句子或先前多个句子中的实体。可保持文档中的实体和它们的共同引用的位置，以使得知道哪些共同引用表示哪些实体。

根据说明性实施例，由项/实体识别引擎430和关系识别引擎440产生的信息可由统计测量引擎450处理以识别在一个资料库内和/或跨多个资料库识别的每个配对关系的关系频率。也就是说，对于单个关系，保持在资料库405的一个或多个文档的句子中识别该关系的次数，并且该次数被用于产生该关系的频率统计数据。此外，统计测量引擎450还可针对由项/实体识别引擎430和关系识别引擎440识别的各种项/实体和关系计算其它类型的统计数据。例如，可产生的另一统计数据是逆文档频率(IDF)，逆文档频率(IDF)是项/实体/关系的稀有性的量度。一个关系在资料库405的文档内越罕见，该关系越独特。与具有低IDF得分的项的关系可被丢弃并且不再保持，因为在资料库405中几乎不存在对识别的关系的支持。

因此，通过项/实体识别引擎430、关系识别引擎440和统计测量引擎450的操作，识别资料库405的文档内的关系，其中这些关系中的每一个包括两个项/实体，并且每个项/实体可具有多个关系。对于每个关系，保持两个项/实体的实体类型和关系频率。保持的关系频率是跨越一个资料库/多个资料库中的所有文档的关系的所有实例的运行总数。另外，也可保持关系的其它属性，包括但不限于：识别识别了关系的文档的资料库的资料库标识符、识别识别了关系的文档的文档标识符、识别了关系的文档上的时间戳。保持另外的信息，以使得对关系的查询能够被确定范围或过滤。例如，资料库Id可被用于将返回的关系过滤为仅选择的资料库。类似地，文档ID可被用于将返回的关系过滤为一组文档。时间戳可被用于过滤在特定日期和时间之前或之后或者在指定日期和时间X以及日期和时间Y之间存在的返回的关系。

为由候选答案关系识别引擎400分析的资料库405中的每个文档产生的共同引用被添加到数据/信息的资料库345。这些共同引用允许在假设产生(304)期间产生另外的候选答案，并且能够实现包括支持实体之间的关系的断言的共同引用的实体的正确支持段落的返回。

实体/项/关系数据结构产生引擎460在搜索索引462和实体关系数据结构464中保持由引擎430-450搜集的关系和索引信息。再一次，实体关系数据结构464存储由关系识别引擎440发现的实体/项之间的每个关系的条目，并且每个条目存储关系的实体、实体类型、与实体相关的项、跨资料库中的所有文档的关系的频率、发现关系的文档的公开时间、发现关系的文档的资料库标识符和发现关系的文档的文档标识符。搜索索引462包括用于每个文档的索引，所述索引存储识别文档中的共同引用、共同引用的位置和共同引用所表示的实体的元数据。搜索索引462可以是资源345和347的一部分，并且可在问答假设产生期间被使用。搜索索引462是具有共同引用信息的由QA系统使用的类型的加强搜索索引，例如元件345和347的加强部分。搜索索引462(1)在问答假设产生期间被使用以改进所述一组候选答案，并且(2)提供作为关系的证据的支持段落。

用于产生资源462-464的以上操作是用于产生资源462-464的资料库405的预处理的一部分，资源462-464能够在运行时操作期间被用于产生候选答案，分析由QA系统响应于输入问题而产生的候选答案的关系和这些候选答案之间的关系，并且返回支持该关系的正确段落。也就是说，在运行时期间，QA系统(诸如图1-3中所示)可接收输入问题，并且产生输入问题的多个候选答案(其从多个资料库345或一个资料库347获得，也可以是多个资料库405)。基于通过查询存储在搜索索引462中的共同引用的项而返回的结果，将会产生另外的候选答案。候选答案475可被输入到候选答案关系识别引擎400。候选答案关系分析引擎470使用资源464分析候选答案以识别存在于候选答案中的实体和它们的关系，并且因此针对在每个候选答案475中发现的实体/项/和关系识别候选答案475之间的共性。

候选答案关系分析引擎470的操作可自动开始，或者响应于请求识别候选答案之间的共性的用户界面的用户输入而开始。例如，候选答案可经由候选答案用户界面490被输出给用户。用户界面可由候选答案用户界面引擎480产生，并且可包括可由用户选择的用户界面元素以请求另外的关于候选答案的信息，诸如候选答案之间的共性。

候选答案关系分析引擎470将候选答案中的项/实体与存储在实体关系数据结构464中的关系进行比较，以识别实体关系数据结构464中的匹配条目并且检索对应的关系。因此，例如，如果候选答案中具有实体“专利律师”，则将会识别并且检索实体关系数据结构464中的“专利律师”的关系。在检索实体关系时，也检索与实体关系关联地存储的各种统计量度，例如发生的频率、逆文档频率等。此外，通过文档标识符、资料库标识符和实体的位置信息的识别，能够检索支持实体的关系的资料库405中的特定段落。

在实体关系数据结构464中发现与在候选答案中发现的项/实体匹配的配对关系之后，候选答案关系分析引擎470确定每对候选答案、候选答案的三元组、所有答案等的关系的交集。因此，例如，分析可识别：候选答案1与实体“John Smith”具有关系，并且候选答案2也与实体“John Smith”具有关系，但候选答案2可能未具体地在候选答案中包括姓名“John Smith”。不能仅从针对候选答案返回的段落获得这些类型的结果–例如，返回的段落可包含代词，而不是代词的对象–因此，答案将会与代词的对象具有关系，但此时将会无法知道该对象是什么。如以上所讨论，关系数据仓库包含实体和共同引用的解析的代词的对象之间的关系。另外，针对每个候选答案返回的段落仅仅回答提出的输入问题，而由说明性实施例的机构返回的关系跨越整个资料库，并且因此可提供不直接与询问的输入问题相关的候选答案之间的关系或支持候选答案的段落。

各种选项可经由由候选答案用户界面引擎480产生的用户界面490被提供给用户，通过所述各种选项，用户可请求另外的关于候选答案的信息，包括对于候选答案的全部或子集而言共同的特定类型的实体或候选答案之间的其它类型的共性。例如，可经由用户界面490为用户提供选项以询问：

(1)所有的候选答案具有什么共同项以及显示项和答案彼此相关的段落是什么？

(2)候选答案的子集具有什么共同项以及显示项和答案相关的段落是什么？

(3)所有的候选答案具有什么共同的人？

(4)在从2011年起公开的文档中，5个候选答案中的至少3个候选答案具有什么共同的组织？

(5)仅使用维基百科作为源，所有的候选答案具有什么共同的国家？

在这些例子中，由于实体关系数据结构464存储每个关系中的实体的实体类型信息，所以可回答涉及候选答案之间共同的特定类型的实体的问题(诸如，以上的(3))，并且因此，当识别哪些关系适用于每个候选答案时，实体类型也被识别。关于以上的问题(4)，由于与关系的源(例如，资料库405中的文档)关联的时间戳被保持在条目中，所以可识别特定时间帧的文档中的组织的标识。关于问题(5)，因为源信息被保持在实体关系数据结构464的条目中，所以再一次可针对特定的感兴趣的源回答这个问题。

与实体关系数据结构464中的条目关联的统计测量信息可被用于修改候选答案中的关系以及候选答案之间的关系的表示。例如，相对于候选答案中的其它关系以及候选答案之间的其它关系，具有较高的发生频率的候选答案中的关系以及候选答案之间的关系可在视觉上区分或突出显示。候选答案中的共同项/实体可在候选答案中区分或突出显示，确定为候选答案之间共同的关系可根据发生频率或逆文档频率等的相对评级而被提供并且区分/突出显示。例如，如果在特定的一个资料库或多个资料库405内“Barack Obama”和“John Boehner”之间的关系具有50的发生频率并且“Barack Obama”和“RahmEmanuel”之间的关系具有5的频率，则第一关系可在它在用户界面中的表示方面区别于第二关系以强调或突出显示第一关系。类似地，使用独特性或逆文档频率，如果“John Boehner”在所有的关系中的频率是2000并且“Rahm Emanuel”在所有的关系中的频率是10，则“Barack Obama”/“Rahm Emanuel”关系(5/10)的独特性大于“BarackObama”/“John Boehner”关系(50/2000)的独特性，并且可通过使一个关系区别于另一关系来在视觉上表示独特性的这种差异。

另外，支持候选答案475中的特定共同关系的一个资料库或多个资料库405内的段落也可被显示为用户界面的一部分。因此，不仅为用户提供关于候选答案中的共同项/实体、候选答案之间的共同关系和关系的相对频率/独特性的信息，还为用户提供关系的文档支持。

作为例子，考虑QA系统的输入问题，诸如“谁是最伟大的RedSox队运动员？”由QA系统返回的候选答案可包括“CarlYastrzemski”、“Roger Clemens”和“Ted Williams”。说明性实施例的候选答案关系分析引擎可随后被使用“Carl Yastrzemski”、“RogerClemens”和“Ted Williams”作为输入来查询这些候选答案之间的共性。在这个例子中，实体关系数据仓库464针对这3个候选答案被查询，并且返回下面的结果(其中数字指示在资料库的文档中发生的配对中指定的实体之间的关系的频率)：

Carl Yastrzemski：Bobby Doerr；7

Carl Yastrzemski：Carlton Fisk；8

Carl Yastrzemski：Fred Lynn；7

Roger Clemens：Carlton Fisk；2

Roger Clemens：Fred Lynn；1

Ted Williams：Bobby Doerr；12

Ted Williams：Carlton Fisk；2

Ted Williams：Fred Lynn；1

从这组配对关系，能够看出Bobby Doerr与Carl Yastrzemski和Ted Williams具有关系，但与Roger Clemens没有关系(指示也许Bobby Doerr与Carl Yastrzemski和Ted Williams同时打球，但不与Roger Clemens同时打球(Doerr实际上与Williams打球并且是Yastrzemski的教练)。此外，能够看出，Carlton Fisk出现在与QA系统视为最伟大的Red Sox队运动员的人(即，三个候选答案)的关系中，这指示也许用户可能想要增加Carlton Fisk作为由QA系统考虑的可能的候选答案。因此，说明性实施例的机构可分析这些关系，将配对关系的交集识别为“Carlton Fisk”，并且除了导致关系的交集的结论的关系之外，还可将这种另外的信息提供给用户。

此外，除了关系、它们的统计数据和关系的交集由说明性实施例的机构提供给用户之外，支持导致该交集的各种关系的证据段落也可被返回，以使得用户可进一步确定共同关系的相关性或重要性和这些共同关系的交集。例如，用于支持以上关系的示例性段落可具有下面的类型(要注意，因为通过对“Carl Yastrzemski”的共同引用来解析“Yaz”，所以发现第一段落，因为通过对“Fred Lynn”的共同引用来解析“Lynn”，所以发现最终一个段落)。

(1)Red Sox to honor Yaz with Fenway Park statue between theTed Williams statue,whom Yaz succeeded in left field in 1961,and“The Teammates”statue depicting Dom DiMaggio,Johnny Pesky,Bobby Doerr,and Williams.

(2)Carl Yastrzemski,Jim Rice,and Fred Lynn 11x14 photodouble matted to a 16x20 picture.

(3)Autographed by Carl Yastrzemski,Carlton Fisk,and DwightEvans.

(4)Hall of Famer Carlton Fisk Blasts Mark McGwire,RogerClemens

(5)Hence the less than admirable experts of nearly all of ourSports personalities–Wade Boggs,Fred Lynn,Roger Clemens,Nomar Garciaparra,Tito Francona,Carlton Fisk,and Johnny Damonjust to name a few.

(6)In 1939,Ted Williams’rookie season with the Sox,Doerrbegan a string of 12 consecutive seasons with 10 or more home runsand 73 or more runs batted in；in 1940 the Red Sox became the 12thteam in major league history to have four players with 100 RBI,withFoxx,Williams,Cronin,and Doerr each collecting at least 105.

(7)“Oh my god,”said a young woman in the stands,“TedWilliams threw a pitch to Carlton Fisk.I’m going home happy.”

(8)A private man,like one of his predecessors with the Red Sox,Ted Williams,Lynn will be a conspicuous absentee on the rubber-chicken and stomach-pump circuit.

因此，说明性实施例提供用于识别和提供识别候选答案之间的共性和关系的信息的机构。这种信息提供对由用户提交的输入问题的答案的更深入的了解，并且潜在地提供对在针对输入问题返回的答案后面的推理的更深入的了解。用户可请求能够在确定QA系统为什么选择候选答案并且最终选择输入问题的最终答案的原因时对用户有教益的各种类型的另外的关于候选答案的信息，以及提供可被用于引导用户进一步理解候选答案的主题的信息。

图5是概述根据一个说明性实施例的用于执行用于产生在识别候选答案中的关系时使用的实体/项关系资源的预处理操作的示例性操作的流程图。如图5中所示，该操作开始于开始从一个资料库或多个资料库摄取文档(步骤510)。对于一个资料库/多个资料库中的下一个文档，分析文档数据以识别在包括对实体的任何共同引用的文档数据中提及的项/实体(步骤520)。识别实体和其它实体、实体和其它非实体项等之间的配对关系(步骤530)。在文档数据中识别共同引用的位置和它们所表示的实体(步骤540)。更新与项/实体/关系关联的统计量度(步骤550)，诸如项/实体/关系的发生频率、逆文档频率等。共同引用、它们的位置和它们所表示的实体的信息被存储在文档的搜索索引中(步骤560)。实体/项关系信息被存储在实体关系数据结构中的条目中(步骤570)。该操作随后确定是否最后的文档已被处理(步骤580)。如果最后的文档未被处理，则该操作返回到步骤520；否则该操作结束。

图6是概述根据一个说明性实施例的用于使用实体/项关系资源确定候选答案之间的关系的示例性操作的流程图。该操作开始于输入问题的候选答案的产生(步骤610)和由用户输入以由QA系统考虑的答案(步骤615)。候选答案经由用户界面被提供给用户(步骤620)，用户界面还包括用于获得关于候选答案之间的共性和关系的信息的一个或多个用户可选择的选项。确定是否接收到用于获得候选答案的共性/关系信息的用户可选择的选项(步骤630)。如果接收到，则分析候选答案以识别候选答案中的项/实体(步骤640)，并且使这些项/实体与存储在实体关系数据结构中的实体关系相关(步骤650)。基于这种相关，确定与每个候选答案关联的关系(步骤660)。确定候选答案的关系的交集(步骤670)，并且基于该交集，产生对共性/关系信息的请求的响应并且经由用户界面将其返回给用户(步骤680)。然后确定是否结束用户界面的提供，例如，用户关闭用户界面，输入新的问题，或以其它方式指示不再需要用户界面(步骤690)。如果确定结束用户界面的提供，则该操作结束。否则，该操作返回到步骤630以确定用户是否已请求候选答案的任何其它共性/关系信息，并且针对新的请求重复该操作。

图7是根据一个说明性实施例的候选答案用户界面的示例性示图。为了一致，图7中示出的例子对应于以上讨论的示例性输入问题“谁是最伟大的Red Sox队运动员？”。这仅是例子，而非意图陈述或暗示针对可与说明性实施例的机构一起使用或由说明性实施例的机构产生的用户界面的类型的任何限制。可在不脱离说明性实施例的精神和范围的情况下做出描述的示例性用户界面的许多变型。

如图7中所示，该用户界面具有用于显示响应于输入问题而产生的候选答案的第一部分710。设置第二部分720用于提供用于请求候选答案的共性/关系信息的多个用户可选择的界面元素。设置第三部分730用于提供候选答案之间的共同关系。可设置第四部分740用于提供支持在第三部分730中识别的关系的证据段落。

在操作中，当用户将问题输入到QA系统并且QA系统返回候选答案结果时，可基于与候选答案关联的置信度，诸如以评级列表在第一部分710中提供候选答案。响应于在第一部分710中提供候选答案，用户可确定：另外的关于候选答案之间的共性/关系的信息将会对于用户有用或有教益。因此，用户可从在用户界面的第二部分中提供的选项中选择期望的选项，例如，用于识别对于每个候选答案而言共同的所有项/实体(即使它们未在候选答案自身中被具体地提及)的选项、用于确定候选答案之间的共同类型实体的选项(例如，什么人、组织或国家在候选答案之间是共同的)等。

响应于第二部分720中的一个或多个选项的用户选择，第一部分710中的候选答案之间的共同项/实体/关系被确定，并且共同关系可经由第三部分730被提供给用户。另外，共同关系中的共同项/实体可在第一部分710中被强调或突出显示。此外，可检索支持共同关系中的实体之间的关系的证据段落并且经由第四部分740提供所述证据段落。因此，经由用户界面，针对输入问题产生的候选答案之间的共性和关系可被识别并且提供给用户。

应该理解，尽管上述说明性实施例涉及识别由QA系统使用以前存储的在一个或多个资料库中的文档的预处理期间发现的项和/或实体之间的配对关系产生的候选答案的至少一个子集之中的共同关系，但说明性实施例不限于此。相反地，任何类型的关系可被用作用于执行候选答案的子集之中的共同关系的识别的基础。因此，可使用比配对关系复杂的关系，例如包括三个或更多项/实体的关系，并且可根据先前描述的机构产生这些更复杂的关系的交集。

如上所述，应该理解，说明性实施例可采用完全硬件实施例、完全软件实施例或者既包含硬件元件又包含软件元件的实施例的形式。在一个示例性实施例中，说明性实施例的机构实现为软件或程序代码，所述软件或程序代码包括但不限于固件、常驻软件、微码等。

适合存储和/或执行程序代码的数据处理系统将包括直接或通过系统总线间接耦合到存储元件的至少一个处理器。存储元件能够包括：在程序代码的实际执行期间采用的本地存储器；大容量存储器；和高速缓存，提供至少某程序代码的临时存储以便减少在执行期间必须从大容量存储器检索代码的次数。

输入/输出或I/O装置(包括，但不限于，键盘、显示器、定点装置等)能够直接地或通过中间I/O控制器耦合到该系统。网络适配器也可耦合到该系统以便能够使数据处理系统通过中间私有或公共网络耦合到其它数据处理系统或远程打印机或存储装置。调制解调器、线缆调制解调器和以太网卡仅是一些当前可用类型的网络适配器。

提供本发明的描述用于例示和说明的目的，而不是要穷举或者把发明局限于公开的形式。对于本领域普通技术人员而言，许多修改和变化将会是清楚的。选择并描述实施例，以便最好地解释本发明的原理、实际应用并且使其他本领域普通技术人员能够理解本发明的具有适合设想的特定用途的各种修改的各种实施例。

Claims

1.一种在数据处理系统中用于识别由问答(QA)系统响应于输入问题而产生的候选答案之间的共性的方法，所述方法包括：

由数据处理系统从QA系统接收输入问题的多个候选答案；

由数据处理系统识别存在于候选答案中的项；

由数据处理系统确定每个候选答案中的项之间的关系；

由数据处理系统基于确定的每个候选答案中的项之间的关系确定第一项和第二项之间的共同关系，该共同关系至少在所述多个候选答案的一个子集之中是共同的；以及

由数据处理系统将所述多个候选答案和所述共同关系提供给用户。

2.如权利要求1所述的方法，其中第一项或第二项中的至少一个是具有实体类型的实体。

3.如权利要求1所述的方法，其中确定共同关系包括：确定所述子集中的项之间的关系的交集。

4.如权利要求1所述的方法，其中确定共同关系包括：

搜索包括多个条目的关系数据仓库，每个条目对应于在至少一个资料库的文档的预处理期间发现的第一发现项和至少一个第二发现项之间的关系；以及

在关系数据仓库中识别与在候选答案中发现的项匹配的一个或多个条目。

5.如权利要求4所述的方法，其中基于通过资料库的至少一个文档的自然语言处理在资料库的所述至少一个文档中识别的关系，所述关系数据仓库中的每个条目包括在资料库的所述至少一个文档的预处理期间发现的第一项和在资料库的所述至少一个文档的预处理期间发现的第二项之间的配对关系。

6.如权利要求5所述的方法，其中所述关系数据仓库中的每个条目还包括对应的发生频率值，该发生频率值指示在所述预处理期间在资料库的所述至少一个文档中发现对应的配对关系的频率。

7.如权利要求6所述的方法，其中将所述多个候选答案和共同关系提供给用户包括：产生候选答案和关系以及每个关系的对应发生频率值的视觉显示。

8.如权利要求7所述的方法，其中所述视觉显示还包括支持所述共同关系的资料库的至少一个文档中的至少一个证据文本段落，并且其中至少一个候选答案或证据文本段落的一部分在视觉显示中基于与所述共同关系的发生频率值对应的值而被强调。

9.如权利要求1所述的方法，其中确定第一项和第二项之间的共同关系还包括：

提供图形用户界面(GUI)，GUI提供用于输出候选答案的GUI的第一部分、用于输出用于指定用户希望在候选答案之间识别的期望的共同关系的多个用户可选择的选项的GUI的第二部分、用于输出候选答案中的项之间的关系和所述共同关系的GUI的第三部分、以及用于输出支持所述共同关系的资料库的文档中的证据文本段落的GUI的第四部分。

10.如权利要求1所述的方法，其中将所述多个候选答案和共同关系提供给用户包括：产生候选答案和支持所述共同关系的资料库的至少一个文档中的至少一个证据文本段落的视觉显示，至少一个候选答案或所述至少一个证据文本段落的一部分在视觉显示中被强调。

11.一种用于识别由问答(QA)系统响应于输入问题而产生的候选答案之间的共性的数据处理系统，所述系统包括用于执行如权利要求1-10所述的任何方法的任何步骤的装置。

12.一种设备，包括：

处理器；和

存储器，耦合到处理器，其中所述存储器包括指令，所述指令当由处理器执行时使处理器：

从问答(QA)系统接收输入问题的多个候选答案；

识别存在于候选答案中的项；

确定每个候选答案中的项之间的关系；

基于确定的每个候选答案中的项之间的关系确定第一项和第二项之间的共同关系，该共同关系至少在所述多个候选答案的一个子集之中是共同的；以及

将所述多个候选答案和共同关系提供给用户。