CN103229168B

CN103229168B - 在问答期间在多个候选答案之间证据扩散的方法和系统

Info

Publication number: CN103229168B
Application number: CN201180056941.1A
Authority: CN
Inventors: D·A·弗鲁茨; D·C·贡德克; A·A·卡利安普; A·P·拉利
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-28
Filing date: 2011-09-23
Publication date: 2016-10-19
Anticipated expiration: 2031-09-23
Also published as: EP2622599A4; US20120078636A1; US8738365B2; EP2622599B1; CN103229168A; EP2622599A1; US20130018652A1; WO2012047557A1; US8738362B2

Abstract

在问答期间在候选答案之间扩散证据可以识别第一候选答案和第二候选答案之间的关系，其中，候选答案是由问答计算机过程产生的，候选答案具有相关的支持证据，且候选答案具有相关的置信度评分。可以基于识别的关系将所有或部分证据从第一候选答案传递到第二候选答案。可以基于传递的证据来计算第二候选答案的新的置信度评分。

Description

在问答期间在多个候选答案之间证据扩散的方法和系统

本申请要求享有2010年9月28日提交的美国临时专利申请号61/387,203的优先权，其全部内容通过引用结合于此。

技术领域

本申请一般涉及计算机和计算机应用，且更具体而言涉及人工智能和自然语言处理。

背景技术

随着在所有形式的自然语言文档中捕获到丰富的企业关键信息，只精读包含用户的两个或三个关键词的前10或20篇最知名的文档的问题变得越来越明显。在知名程度(popularity)并非很重要的相关性指标的企业中，情况尤其是这样。本公开的发明人认识到，企业计算机系统应深入分析相关内容的广度，以更精确地回答自然语言问题并证明所述答案是正当的。开域问答(QA)问题是计算机科学和人工智能领域中最有挑战性的问题之一，需要信息检索、自然语言处理、知识表示和推理、机器学习以及人机接口的综合。

QA系统典型地对一给定问题产生若干个可能的候选答案，并使用各种算法基于其证据来对候选进行评级和评分。但是，QA系统典型地认为答案是互相独立的，且即使有也很少探索候选者本身之间的关系。

发明内容

提供了一种用于在问答期间在候选答案之间扩散证据的方法和系统。在一方面，该方法可以包括识别第一候选答案和第二候选答案之间的关系，其中，候选答案是由问答计算机过程产生的，候选答案具有相关的支持证据，且候选答案具有相关的置信度评分。该方法还可以包括基于识别的关系将所有或部分证据从第一候选答案传递到第二候选答案。该方法还可以包括基于传递的证据来计算第二候选答案的新的置信度评分。

在一方面，一种在问答期间在候选答案之间扩散证据的系统可以包括证据扩散模块，其可操作以识别第一候选答案和第二候选答案之间的关系，其中，候选答案是由问答计算机过程产生的，候选答案具有相关的支持证据，且候选答案具有相关的置信度评分，该证据扩散模块还可操作以基于识别的关系将所有或部分证据从第一候选答案传递到第二候选答案，该证据扩散模块还可操作以基于传递的证据来计算第二候选答案的新的置信度评分。

还可以提供一种存储程序指令的计算机可读存储介质，所述程序指令可被机器执行，以执行这里描述的一种或多种方法。

下面参考附图来更详细地描述其他特征以及各个实施例的结构和操作。在图中，相同的参考标号表示相同或功能类似的元素。

附图说明

图1是示出本公开的方法在一个实施例中的流程图。

图2是可以实现本公开的一个实施例中的证据扩散系统的示例性计算机或处理系统的示意图。

图3是示出本公开的一个实施例中的用于证据扩散的功能组件或模块的框图。

图4示出了本公开的一个实施例中的QA系统的高级架构。

具体实施方式

在美国临时专利公开号20110066587 A1中描述了问答(QA)系统的例子。在本公开的一个实施例中，可以展示检验候选答案之间的联系和/或关系的方法和/或系统。例如，QA系统或方法可以自动地确定候选答案。本公开的方法和/或系统可以使用该信息来确定正确的答案。一旦候选答案之间的关系已被确定，本公开的方法和/或系统在一个实施例中可以在候选者之间传递证据并使用该信息来对候选者进行重新评级。

例如，考虑下列问题：

a.如果你降落在ABC国际机场，你降落在这个国家(正确答案：XYZ)

问题中提到的机场位于城市X，该城市在国家XYZ中。结果，可能存在用于城市X的大量文本证据，其可能淹没用于国家XYZ的基于类型的证据，从而使得QA系统回答出X，即使这是错误的类型。即，X是城市类型而XYZ是国家类型；且答案应该是国家的名字，因为该问题所问的是国家而不是城市。

为了解决上述问题，本公开的方法和/或系统在一个实施例中可以识别候选答案例如X和XYZ之间的一个或多个关系。识别的关系可以是“首都”、“位于”等。例如，X是XYZ的首都，X位于XYZ中，或可以识别的任意其他关系。基于该信息，来自类型不正确的候选的证据可被传递到类型正确的候选者，由此提高正确答案的置信度评分。

图1是示出本公开的方法在一个实施例中的流程图。在102，例如由QA系统自动生成的两个或更多个候选答案之间的一个或多个关系被识别。

识别候选答案之间的关系可以包括在104询问结构化知识库。这可以包括映射候选答案。例如，参考上述例子，这可以包括将实体字符串“X”和“XYZ”映射到结构化知识库中的相应资源，这本身是不简单(non-trivial)的消除歧义的任务。例如，“X”可能还以是某个其他实体(例如漫画、餐饮连锁等)的名字，且本公开的系统和/或方法在一个实施例中可以查看更大的上下文(例如包含候选答案的支持段落)，以确定该实体的正确含义。

识别关系的另一方法可以是在106使用从非结构化文本中提取的浅词法知识(shallow lexical knowledge)，该浅词法知识例如是使用一个或多个本体(ontology)提取的。例如，本公开的系统和/或方法可以在大型语料库中查询联系实体X和XYZ的文本短语和/或关系(例如“首都”、“最大城市”等)，并基于其频率来对短语排序，以获得最常见的关系。可使用其他方法识别候选答案之间的关系。

在108，问题可被分析，并考虑答案类型信息以及线索和答案中的实体之间的关系，以确定在候选者之间传递或扩散证据的方向。仅为了解释的目的来使用上述例子，因为问题问的是国家，而机场位于城市中，本公开的方法可以将证据从机场所在的城市传递到相应的国家。

本公开的方法在一个实施例中可以基于在106找到的关系以及在108进行的分析将证据从候选者X扩散或传递到XYZ。证据扩散可以以若干种方式来执行。例如，可以通过在候选者之间传递特征评分来进行证据扩散。例如，针对候选答案计算的一个特征可以是“段落-文本-证据”。给定问题和候选答案，本公开的方法在一个实施例中可以度量找到多少支持候选答案是问题的答案的段落文本证据。该特征评分可以是数值——评分越高，候选者的文本证据越强。如果已针对证据扩散确定了一对候选答案C1、C2，特征评分——在上述例子中是“段落-文本-证据”评分——可以从一个或候选者(例如C1)“传递”到另一候选者(例如C2)。特征评分的“传递”可以以若干种方式来进行，例如，C1上的较高特征评分可以简单地覆盖C2上的相应特征评分；或者来自C1的特征评分可以被加到C2上的相应评分。特征评分的其他“传递”也是可能的。

在线索(clue)的上下文中合适的特征子集可被传递。在上述例子中，将类型匹配的特征评分从X传递到XYZ没有意义，而主要是位置特定的特征。本公开的方法还可以使用试探法基于在候选者之间发现的关系的类型和强度确定是按原样传递整个特征评分，还是传递评分的某部分。例如，在X和XYZ之间可存在很强的地理关系，这形成用于扩散的较强理由，在该情形下整个特征评分可被传递。

从一个候选答案向另一候选答案扩散或传递证据的另一方法可以是向候选者添加新特征以指示已经进行证据扩散，且特征评分基于扩散的量。这可以用上述例子来说明。继续上述例子，除了特征“段落-文本-证据”，可以为每个候选者创建被称为“已传递-段落-文本-证据”的另一特征。于是，在证据扩散过程中，本公开的方法可以使用后一特征来对传递了多少证据进行评分(例如，而不是如上所述将评分复制到前一特征)。例如，假设两个候选者具有以下特征评分：

在证据扩散之前：

候选者	段落-文本-证据	已传递-段落-文本-证据
			X	20	0
XYZ	10	0

在(从X到XYZ的)证据扩散之后：

候选者	段落-文本-证据	已传递-段落-文本-证据
			X	20	0
XYZ	10	20

现在，机器学习系统可以学习新特征“已传递-段落-文本-证据”的单独权重。

在110，本公开的方法在一个实施例中可以例如使用机器学习(ML)来计算XYZ的新的置信度评分，并基于候选者的特征矢量来对候选者重新评级。

证据扩散使得ML能将更多权重给予从其他候选者接收到额外证据(例如通过被传递的或新的特征评分)的候选答案。在上述例子中，这允许QA系统通过传递来自问题中的机场所在的城市X的证据，正确回答出XYZ。

图2示出了可以实现本公开的一个实施例中的证据扩散系统的示例性计算机或处理系统的示意图。该计算机系统仅是合适的处理系统的一个例子，而不是意味着对这里描述的方法的实施例的使用范围或功能的任何限制。示出的处理系统可以与很多其他的通用或专用计算系统环境或配置一起运行。适合于与图2所示的处理系统一起使用的公知的计算系统、环境和/或配置的例子可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、胖客户机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型计算机系统、大型计算机系统、以及包含上述系统或设备中的任一个的分布式云计算环境，等等。

可以在计算机系统所执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述计算机系统。通常，程序模块可以包括例程、程序、对象、组件、逻辑、数据结构等，其执行特定任务或实现特定的抽象数据类型。计算机系统可以在分布式云计算环境中实现，在所述分布式云计算环境中，任务由通过通信网络连接的远程处理设备来执行。在分布式云计算环境中，程序模块可以位于包含存储设备的本地和远程计算机系统存储介质这两者中。

计算机系统的组件可以包括但不限于一个或多个处理器或处理单元12、系统存储器16以及总线14，该总线将包括系统存储器16的各个系统组件连接到处理器12。处理器12可以包括证据扩散模块10，其执行这里描述的证据扩散。证据扩散模块10可以被编程到处理器12的集成电路中，或从存储器16、存储装置18或网络24或其组合中载入。

总线14可以表示若干种总线结构类型中的任一种的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口以及使用多种总线架构中的任一种的处理器或局部总线。作为示例而不是限制，这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外围组件互连(PCI)总线。

计算机系统可以包括多种计算机系统可读介质。这样的介质可以是可被计算机系统访问的任意可用的介质，且它可以同时包含易失性和非易失性介质、可移动和不可移动介质。

系统存储器16可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)和/或高速缓存存储器或其他。计算机系统还可包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统18可被提供以从不可移动的非易失性磁介质(例如“硬驱动器”)读取和向其写入。尽管未示出，可提供用于从可移动的非易失性磁盘(例如“软盘”)读取和向其写入的磁盘驱动器，以及用于从可移动的非易失性光盘(诸如CD-ROM、DVD-ROM或其他的光盘介质)读取和向其写入的光盘驱动器。在这些情况下，每个可通过一个或多个数据介质接口被连接到总线14

计算机系统还可以与一个或多个外部设备26通信，所述外部设备诸如键盘、指针设备、显示器28等；使得用户与计算机系统交互的一个或多个设备；和/或使得计算机系统与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口20发生。证据扩散例如可被展示在显示设备28上。例如，证据扩散模块10可以包括可视化逻辑，其用于生成可视化或使能生成可视化，该可视化可被展示在显示设备28上。

而且，计算机系统可经由网络适配器22与一个或多个网络24通信，所述网络诸如局域网(LAN)、一般广域网(WAN)和/或公共网络(例如因特网)。如图所示，网络适配器22经由总线14与计算机系统的其他组件通信。应当理解，尽管未示出，其他硬件和/或软件组件也可结合计算机系统被使用。例子包括但不限于微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统。

图3是示出本公开的一个实施例中的用于证据扩散的功能组件或模块的框图。例如，可以由证据扩散模块302来分析命名实体304之间的关系的资源。在一个实施例中，该分析识别一组候选答案306之间的关系。候选答案306已被识别为问题308的可能答案。该组候选答案306可以包括答案和支持证据。基于候选答案之间的关系，该证据可从一组候选答案传递到另一组。在310示出了一个例子，其中，来自候选答案(ANS)#2的证据(EVI)被传递到候选答案#1。可选地，可分析问题以确定传递的方向性。

例如，考虑下列问题：

1.在科幻角色的类别中：标题人物，其寄宿学校的格言是“Draco dormiensnunquam titillandus”，“永远不要触动睡龙”。在该情形下，本公开的方法在一个实施例中可以将来自“寄宿学校”(霍格沃茨)的证据传递到“标题人物”(哈利波特)，因为问题是询问人物。

2.在世界领导者的类别中：在1984年，他的孙子继承他的女儿成为他的国家的总理。在该情形下，本公开的方法在一个实施例中可以将来自“他的孙子”(拉吉夫甘地)、“他的女儿”(英迪拉甘地)以及“他的国家”(印度)的证据传递到问题的焦点“他的”(尼赫鲁)，这是正确的答案。

给定问题的措辞以及进行提问的不同方式，本公开的方法在一个实施例中可以正确地分析并解析句子，并确定各个词语之间的扩散方向。

作为传递证据的一部分，候选者的现有证据信息可被传递，并且/或者指示关系的强度和/或方向性的新的证据信息可被添加。

本公开涉及的QA系统可以是计算机系统，其深入分析相关内容的广度以更精确地回答用户的自然语言问题并证明答案是正当的。这里公开的方法可被用于进一步增强QA系统。这样的QA系统可帮助支持专业人士在诸如合规(compliance)、医疗、商业信誉、商业智能、知识发现、企业知识管理、安全、客户等领域中的决策。

QA系统可以用信息检索、自然语言处理、知识表示和推理、机器学习以及人机接口的综合来实现。包括解析、问题分类、问题分解、自动源获取和评估、实体和关系检测、逻辑形式(logical form)生成以及知识表示和推理在内的技术可被包含。

图4示出了QA系统的高级架构。

内容获取

为了解决QA问题，QA系统可以获取内容(也被称为语料库)或识别并收集内容以用作问题源402或证据源404。内容获取可以是手动和自动步骤的组合。可以从问题空间分析示例问题，以产生必须回答的问题种类的描述以及应用领域的特征。分析示例问题可以涉及手动任务，而领域分析可以由自动或统计分析(例如词法答案类型(LAT)分析)来提供信息。LAT指示提问所寻求的答案的类型。源402和404可以包括广泛的百科全书、词典、主题词典、新闻专线文章、文学作品等。

给定合理的基线语料库，QA系统然后可以应用自动语料库扩展过程。该过程可以涉及四个高级步骤：(1)识别种子文档并从web检索相关的文档；(2)从相关的web文档中提取自包含的文本块；(3)基于文本块是否相对于原始种子文档提供了信息来对文本块进行评分；以及(4)将提供信息最多的文本块合并到扩展的语料库中。QA方法可以实时使用该扩展的语料库，例如不需要访问其他源，例如万维网(web)。

除了用于答案和证据源的内容，QA系统可以利用其他类型的半结构化或结构化内容。内容获取过程的另一步骤是识别并收集这些资源，其可以包括数据库、分类学(taxonomy)和本体，例如dbPedia、7WordNet以及Yago8本体(Miller,G.A.1995.WordNet:ALexical Database for English.Communications of the ACM 38(11):39–41)。

问题分析

实时问答过程包括问题分析408，其对问题406进行分析。在问题分析408期间，系统尝试理解该问题询问什么并执行初始分析来确定该问题将如何被系统的其余部分处理。QA过程在该阶段鼓励专家的混合，并可以产生浅解析、深解析、逻辑形式、语义角色标签、共指(coreference)、关系、命名实体等以及特定类型的问答分析。(McCord,M.C.1990,SlotGrammar:A System for Simpler Construction of Practical Natural LanguageGrammars.In Natural Language and Logic:International ScientificSymposium.Lecture Notes in Computer Science 459.Berlin:Springer Verlag)。

问题分类是指识别问题类型或需要特殊处理的问题部分的任务。这可以包括从具有潜在双重含义的单个单词到具有特定句法、语义或修辞功能的整个子句的一切，其可以将它们的分析通知给下游组件。问题分类可以将问题识别为迷题问题、数学问题、定义问题等。它可以识别问题中的双关语、约束条件、定义成分、或整个子线索(subclue)。

焦点和LAT检测

词法答案类型是问题中的单词或名词短语，其指定了答案类型而不用任何尝试理解其语义。确定候选答案是否可被认为是LAT的实例是重要的评分种类以及关键错误的常见遍来源。QA系统可以利用很多独立开发的答案类型确定算法。但是，很多这些算法依赖于其自己的类型系统。我们发现集成先前存在组件的最好办法不是将它们强制到单个共同的类型系统，而是使它们从LAT映射到其自己的内部类型。问题的焦点是问题的一部分，该部分如果被答案替换，使得该问题成为独立的陈述。例如，考虑下列示例问题。“当被电子撞击时，磷发出这种形式的电磁能量”的焦点是“这种形式”；“蔡斯部长刚刚第三次把这提交给我；你猜怎么着，朋友。这次我将接收它”的焦点是第一个“这”；并且“这个标题人物是洛杉矶论坛的顽固和强硬的城市编辑”的焦点是“这个标题人物”。焦点经常(但并非总是)包含关于答案的有用信息，经常是线索中的关系的主语或宾语，并且在被候选者替换时可以将问题转换为事实陈述，这是收集关于候选者的证据的有用方法。

关系检测

大多数问题包含关系，不管它们是词法的主动宾谓语或实体之间的语义关系。例如，在问题“它们是两个州，如果你穿过佛罗里达的北部边界，你将重新进入它们”中，可以检测到关系边界(佛罗里达,？x,北部)。关系检测可以在从焦点和LAT确定到段落和答案评分的整个QA过程中使用。检测到的关系还可被用于查询三元组存储(或另一数据库)并直接产生候选答案。

分解

在一方面，可以通过查询分解410来处理问题。QA系统可以使用基于规则的深入解析和统计分类方法来既识别问题是否应当被分解，又确定如何最好地将它们分解为子问题。这方面的操作假设是，在考虑了所有收集的证据和所有相关的算法之后，正确的问题解释以及得出的答案评分会更高。即使问题不需要被分解来确定答案，该方法也可有助于提升系统的总体答案置信度。QA系统可以通过对每个子线索应用端到端QA系统来解决并行的可分解问题，并通过可定制的答案组合组件来合成最后的答案。这些处理路径在412、414、416和418。通过将端到端QA系统递归地应用到内部子线索且然后应用到外部子线索，QA系统还可以支持嵌入的可分解问题。可定制合成组件允许专用的合成算法被容易地插入到共同框架中。

假设生成

假设生成420采用问题分析408的结果，并通过搜索系统的源402以及从搜索结果中提取问题大小的片段来产生候选答案422。插回到问题中的每个候选答案被认为是假设，系统必须以某种程度的置信度来证明其正确。

在本公开的一个实施例中，假设生成时执行的搜索被称为“初步搜索”424，以将它与(下面描述的)证据搜集期间执行的搜索区分开。在一个实施例中，QA系统可以使用针对初步搜索422和候选者生成的不同方法的组合。

初步搜索

在初步搜索中，本公开的系统在一个实施例中基于问题分析的结果尝试找到尽可能多的可能带有答案的内容。焦点可以被召回(recall)，其预期是：更深入的内容分析的宿主(host)将提取答案候选者，并对该内容加上可找到的支持和反对候选者的任何证据进行评分，以提升精确度。可使用多种搜索技术，例如，包括使用具有不同底层方法(例如Indri和Lucene)的多文本搜索引擎、文档搜索以及段落搜索、使用针对三元组存储的SPARQL(资源描述框架(RDF)查询语言)的知识库搜索、针对单个问题生成多个搜索查询、以及回填命中列表来满足在问题中识别的关键约束。

初步搜索424中的三元组存储(或另一数据库)查询可以基于线索中的命名实体；例如，找到与线索实体相关的所有数据库实体，或在检测到语义关系的情形下基于更为聚焦的查询。对于若干LAT，可以从LAT的已知实例(例如“美国总统”或“国家”)的某种存储中的固定列表生成候选答案。

候选答案生成

搜索结果送入到候选生成422，其中，适用于搜索结果的类型的技术被应用以生成候选结果。对于来自“面向标题”的资源的文档搜索结果，标题被提取作为候选答案。系统可以基于子串分析或链接分析(如果底层源包含超链接)从同一标题生成多个候选答案变体。段落搜索结果可以涉及段落文本的更详细的分析以识别候选答案。例如，命名实体检测可被用于从段落提取候选答案。某些源(例如三元组存储和反向字典查找)直接产生候选答案作为其搜索结果。

如果在该阶段没有生成正确的答案作为候选者，系统可以得出结论该问题不能被回答。该步骤因此将偏向召回率(recall)而不是精确度，其预期是处理流水线的其余部分能梳理出正确答案，即使候选者的集合非常大。系统因此可以容忍流线水的早期阶段的噪声并在下游提升精确度。在该阶段，可以有大量的候选答案，例如QA系统可以生成几百个候选答案。

软过滤

对资源相对于精确度的权衡进行管理中的步骤可以是将轻量级(较小的资源强度)评分算法应用到较大的初始候选者集合，以在更大强度的评分组件看到它们之前将它们裁剪为较小的候选者集合。例如，轻量级评分器可以计算候选者是LAT实例的可能性。该步骤在本公开中被称为软过滤426。

QA系统可以将这些轻量级分析评分组合为软过滤评分。通过软过滤阈值的候选答案进行到假设和证据评分，而未通过过滤阈值的那些候选者被直接路由到最终合并阶段。可以基于训练数据上的机器学习来确定软过滤评分模型和过滤阈值。例如，QA系统可以让大约100个候选者通过软过滤，但这是可参数化的函数。

假设和证据评分

通过软过滤阈值的候选答案经过严格的评估过程428，其涉及为每个候选答案或假设搜集额外的支持证据，并应用很多种深入评分分析来评估该支持证据。

证据检索

为了更好地评估通过软过滤的每个候选答案，系统在一个实施例中搜集额外的支持证据430。该架构可以支持多种证据搜集技术的集成。一种示例技术是段落搜素，其中，作为需要的词语，候选者被添加到从问题得出的初步搜索查询。这将会检索出包含在原始问题词语的上下文中使用的候选答案的段落。支持证据还可以来自其他源，例如三元组存储。检索到的支持证据被路由到深入证据评分组件432，其在支持证据的上下文中评估候选答案。

评分

评分步骤是其中深入内容分析的主要部分被执行的步骤。评分算法确定检索到的证据支持候选答案的确定程度。本公开的QA框架在一个实施例中支持并鼓励包含很多种不同的组件或评分器，其考虑证据的不同维度并产生评分，该评分对应于证据对给定问题的候选答案有多大支持。

本公开的一个实施例中的QA系统为评分器提供了通用格式以注册假设(例如候选答案)和置信度评分，而对评分本身的语义施加极少的限制；这使得QA开发者能快速部署、混合并调整组件来互相支持。例如，QA系统可以使用多于50个评分组件，这些组件基于来自不同类型源(例如包括非结构化文本、半结构化文本和三元组存储)的证据，来产生从正式的概率到计数到类别特征的评分。这些评分器考虑诸如段落的谓语参数结构和问题之间的匹配程度、段落源可靠性、地理空间位置、时间关系、分类学分类、已知候选者参与的词法和语义关系、候选者与问题词语的相关性、其知名程度(或晦涩程度)、其别名等事物。

考虑问题“他在1974年9月8日以总统的资格被原谅”；正确答案“尼克松”是生成的候选者中的一个。检索到的一个段落是“福特在1974年9月8日原谅了尼克松”。一个段落评分器对问题和段落之间共同的IDF加权词语的数量进行计数。基于Smith-Waterman序列匹配算法(Smith T.F.,and Waterman M.S.1981.Identification of Common MolecularSubsequences.Journal of Molecular Biology 147(1):195–197.)的另一段落评分器测量问题和段落之间的最长相似子序列(例如“1974年9月8日”)的长度。第三类段落评分测量问题和段落之间的逻辑形式的对齐。逻辑形式是文本的图形抽象，其中节点是文本中的词语，边代表语法关系(例如，Hermjakob,U.；Hovy,E.H.；and Lin,C.2000.Knowledge-BasedQuestion Answering.In Proceedings of the Sixth World Multiconference onSystems,Cybernetics,and Informatics(SCI-2002).Winter Garden,FL:InternationalInstitute of Informatics and Systemics；Moldovan,D.；Clark,C.；Harabagiu,S.；andMaiorano,S.2003.COGEX:A Logic Prover for Question Answering.Paper presentedat the Human Language Technology Conference,Edmonton,Canada,27May–1June)、深入语义关系(例如，Lenat,D.B.1995.Cyc:A Large-Scale Investment in KnowledgeInfrastructure.Communications of the ACM 38(11):33–38；Paritosh,P.,and Forbus,K.2005.Analysis of Strategic Knowledge in Back of the Envelope Reasoning.InProceedings of the 20th AAAI Conference on Artificial Intelligence(AAAI-05).Menlo Park,CA:AAAI Press.)或这两者。逻辑形式对齐将尼克松识别为段落中原谅的宾语，且问题是询问原谅的宾语。给定该证据，逻辑形式对齐给予“尼克松”一个好的评分。相反，对于该段落的词语匹配和段落对齐，象“福特”的候选答案将收到与“尼克松”接近相同的评分，但将收到更低的逻辑形式对齐评分。

另一类型的评分器使用三元组存储中的知识、简单推理(例如类型分类学中的包含和不相交性)、地理空间以及时间推理。地理空间推理可被用于检测空间关系(例如方向性、边界、以及地理实体之间的包含性)的存在或不存在。例如，如果问题是询问亚洲城市，空间包含性提供了证据北京是合适的候选者，而悉尼不是。类似地，与实体关联的地理坐标信息被用于计算相对方向性(例如，加利福尼亚在蒙大拿的西南；GW Bridge在LincolnTunnel的北部，等等)。

时间推理可被用于检测线索中的日期与和候选答案关联的那些日期之间的不一致性。例如，对于线索“在1594年他在安大路西亚获得了收税员的工作”，由系统生成的两个最可能的候选答案是“梭罗”和“塞万提斯”。在该情形下，时间推理被用于排除梭罗，因为他出生于1817年，不是活在1594年，而正确的答案塞万提斯生于1547年并死于1616年。

本公开的QA系统提供了设施，其用于吸收多种评分器算法，并用于探索其交互和影响。为了显示证据是如何被用于在竞争的候选答案之间进行决定的，评分被组合到总体证据简挡。该证据简挡将单独的特征分组为聚合证据维度，其提供特征组的更为直观的视图。聚合证据维度可以包括例如分类学、地理空间(位置)、时间、源可靠性、性别、名字一致性、亲属关系、段落支持、理论一致性等。每个聚合维度是对搜集的证据进行处理的特定算法产生的相关特征评分的组合。

考虑下列问题：智利与该国家共享其最长陆地边界。针对该问题系统可以产生两个候选答案：阿根廷和波利维亚。由于在新闻中频繁报道的知名的边界争端，简单的搜索引擎评分偏向于波利维亚作为答案。本公开的QA系统将偏向阿根廷(正确答案)而不是波利维亚，且证据简挡表明了为什么。尽管波利维亚确实具有较强的知名度评分，阿根廷在地理空间、段落支持(例如，各种文本段落的对齐和逻辑形式图形匹配)以及源可靠性维度方面具有更强的支持。

最终合并和评级

最终评级和合并434可以基于可能几十万个评分来评估数百个假设，以识别给定证据下被最好地支持的单个假设，并评估其置信度——其正确的可能性。

答案合并

一个问题的多个候选答案可以是等价的，而不管非常不同的表面形式。对于利用候选者之间的相对差异的评级技术来说，这特别容易引起混淆。没有合并，评级算法将比较代表相同答案的多个表面形式并尝试对它们进行区分。尽管提出了基于提升对类似候选者的置信度的研究方向(Ko,J.；Nyberg,E.；and Luo Si,L.2007.A ProbabilisticGraphical Model for Joint Answer Ranking in Question Answering.In Proceedingsof the 30th Annual International ACM SIGIR Conference,343–350.New York:Association for Computing Machinery)，本公开观察到不同的表面形式经常在证据中被不同地支持并产生根本不同(尽管可能互补)的评分。本公开的一个实施例中的方法在评级和置信度估算之前合并答案评分。

使用匹配、规范化以及共指消解(co-reference resolution)算法的总体(ensemble)，本公开的QA系统在一个实施例中识别等价和相关的假设(例如亚伯拉罕林肯和Honest Abe)，然后启用每特征的定制合并来组合评分。

评级和置信度估算

在合并之后，系统基于其合并评分对假设进行评级并估算置信度438。在本公开的一个实施例中，可以采用机器学习方法，其可以包括在具有已知答案的一组训练问题上运行系统并基于评分来训练模型436。人们可以假设非常平面(flat)的模型并将现有的评级算法(例如，Herbrich,R.；Graepel,T.；and Obermayer,K.2000.Large Margin RankBoundaries for Ordinal Regression.In Advances in Large Margin Classifiers,115–132.Sweden:Liu E-Press；Joachims,T.2002.Optimizing SearchEngines Using Clickthrough Data.In Proceedings of the Thirteenth ACMConference on Knowledge Discovery and Data Mining(KDD).New York:Associationfor Computing Machinery)直接应用于这些评分简挡并使用用于置信度的评级评分。

但是，对于更为智能的评级，评级和置信度估算可被分为两个阶段。在两个阶段中，评分集合都可以根据其领域(例如类型匹配、段落评分等)以及中间模型来进行分组，所述中间模型是用地面实况(ground truth)和专用于该任务的方法来训练的。使用这些中间模型，本公开的系统产生了中间评分的总体。例如，使用分层技术，例如专家(Jacobs,R.；Jordan,M.I.；Nowlan.S.J.；and Hinton,G.E.1991.Adaptive Mixtures of LocalExperts.Neural Computation 3(1):79-87)和堆叠概括(Wolpert,D.H.1992.StackedGeneralization.Neural Networks 5(2):241–259)的混合，在该总体上训练元学习者(meta-learner)。该方法允许随着评分器被调整和添加到系统以更为复杂和更深入的分层模型来迭代地提升系统，而同时保持用于鲁棒性和试验的灵活性。

在一个实施例中，QA系统的元学习者使用多个训练的模型436来处理不同的问题类别，因为例如对于识别被接受为事实的问题的正确答案很重要的特定评分对于迷题问题可能不太有用。处理基于NLP的评分器时的一个考虑是，它们产生的特征可以很稀疏，且从而准确的置信度估算会涉及置信度加权学习技术的应用。例如见Dredze,M.；Crammer,K.；and Pereira,F.2008.Confidence-Weighted Linear Classification.In Proceedingsof the Twenty-Fifth International Conference on Machine Learning(ICML).Princeton,NJ:International Machine Learning Society。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(article of manufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

计算机程序产品可包括使得实施在此描述的方法的所有特征，且当被加载在计算机系统时，其能执行方法。计算机程序、软件程序、程序或软件在本文件中指一组旨在使得具有信息处理能力的系统直接地或在以下各项中的任一个或二者之后执行特定功能的代码或记号的任何语言的任何表示：(a)转换到另一种语言、代码或符号；和/或(b)以不同的材料形式再现。

此处使用的术语仅是为了描述特定实施例，且不旨在限制本发明。如在此使用的，单数形式“一”、“一个”和“该”也旨在包括多数形式，除非上下文另有清楚的规定。还将理解，当在本说明中使用时，术语“包括”和/或“包含”明确说明存在所陈述的特点、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他的特点、整体、步骤、操作、元件、组件和/或其组。

以下权利要求中的所有装置或步骤加功能性元件的相应结构、材料、操作和等价物旨在包括用于结合在权利要求中特意阐明的其他元件而执行该功能的任何结构、材料或操作。本发明的说明已出于解释和描述的目的被展示，但不旨在将本发明限制在公开的形式。许多修改和变化对于本领域普通技术人员来说是明显的，且不脱离本发明的精神和范围。选择并描述实施例是为了最好地解释本发明的原理和实际应用，且使得本领域普通技术人员能针对具有适用于所打算的特定用户的各种修改的各种实施例来理解本发明。

本公开的各个方面可被实施为程序、软件或实施在计算机或机器可用或可读介质中的计算机指令，当其在计算机、处理器和/或机器上执行时使得计算机或机器执行方法步骤。也可提供可被机器读取的程序存储设备，其有形地实施可由机器执行的指令程序以执行在本公开中描述的各种功能和方法。

本公开的系统和方法可被实施在并运行在通用计算机或专用计算机系统上。在本申请中使用的术语“计算机系统”和“计算机网络”可包括固定和/或可移动计算机硬件、软件、外设和存储设备的各种组合。计算机系统可包括多个单个组件，其被联网或以其他方式被连接以合作地执行，或可包括一个或多个独立组件。本申请的计算机系统的硬件和软件组件可包括固定和可移动设备并可被包括在固定和可移动设备内，所述设备诸如台式机、笔记本计算机和/或服务器。模块可以是实施某种“功能”的设备、软件、程序或系统的组件，其可被实施为软件、硬件、固件、电子电路等。

以上描述的实施例是说明性例子，且不应理解本发明限于这些特定实施例。因此，本领域技术人员可实现各种变化和修改，而不脱离所附权利要求限定的本发明的精神或范围。

Claims

1.一种用于在问答期间在候选答案之间扩散证据的方法，包括：

由处理器识别第一候选答案和第二候选答案之间的关系，其中，候选答案是由问答计算机过程对特定问题产生的，候选答案具有相关的支持证据，且候选答案具有相关的置信度评分；

通过分析问题被如何提问、所述第一候选答案和第二候选答案的类型、以及识别的第一候选答案和第二候选答案之间的关系来确定将所有或部分证据在第一候选答案和第二候选答案之间传递的方向；

响应于确定将所有或部分证据从第一候选答案传递到第二候选答案，将所有或部分证据从第一候选答案传递到第二候选答案，以及基于传递的证据以及第二候选答案的当前置信度评分来计算第二候选答案的新的置信度评分。

2.如权利要求1所述的方法，其中，所述传递包括将传递的证据和第二候选答案相关的现有证据信息进行合并。

3.如权利要求1所述的方法，其中，所述传递包括添加新的证据信息，其表示所识别的关系的方向或强度或方向和强度两者。

4.如权利要求1所述的方法，其中，所述传递包括在候选者之间传递特征评分。

5.如权利要求4所述的方法，其中，所述传递还包括基于试探法根据所识别的一个或多个关系的类型和强度来确定是按原样传递整个特征评分，还是传递特征评分的一部分。

6.如权利要求1所述的方法，其中，所述计算步骤是由机器学习执行的。

7.如权利要求1所述的方法，其中，所述识别包括询问结构化知识库并映射候选答案中出现的字符串。

8.如权利要求1所述的方法，其中，所述识别步骤基于从非结构化文本中提取的词法知识。

9.一种用于在问答期间在候选答案之间扩散证据的系统，包括：

证据扩散模块，其可操作以由处理器识别第一候选答案和第二候选答案之间的关系，其中，候选答案是由问答计算机过程对特定问题产生的，候选答案具有相关的支持证据，且候选答案具有相关的置信度评分，该证据扩散模块还可操作以由处理器通过分析问题被如何提问、所述第一候选答案和第二候选答案的类型、以及识别的第一候选答案和第二候选答案之间的关系来确定将所有或部分证据在第一候选答案和第二候选答案之间传递的方向，该证据扩散模块还可操作以由处理器响应于确定将所有或部分证据从第一候选答案传递到第二候选答案，将所有或部分证据从第一候选答案传递到第二候选答案，以及基于传递的证据以及第二候选答案的当前置信度评分来计算第二候选答案的新的置信度评分。

10.如权利要求9所述的系统，其中，所述证据扩散模块通过将传递的证据和第二候选答案相关的现有证据信息进行合并来传递证据。

11.如权利要求9所述的系统，其中，所述证据扩散模块通过添加新的证据信息来传递证据，该新的证据信息表示所识别的一个或多个关系的方向或强度或方向和强度两者。

12.如权利要求9所述的系统，其中，所述证据扩散模块通过在候选者之间传递特征评分来传递证据。

13.如权利要求12所述的系统，其中，所述传递还包括基于试探法根据所识别的一个或多个关系的类型和强度来确定是按原样传递整个特征评分，还是传递特征评分的一部分。

14.如权利要求9所述的系统，其中，所述计算是由机器学习执行的。

15.如权利要求9所述的系统，其中，所述识别包括询问结构化知识库并映射候选答案中出现的字符串。

16.如权利要求9所述的系统，其中，所述识别基于从非结构化文本中提取的词法知识。