CN103229120A

CN103229120A - 使用假设剪枝提供问题答案

Info

Publication number: CN103229120A
Application number: CN2011800569905A
Authority: CN
Inventors: J·舒-卡罗尔; D·A·弗鲁茨; D·C·贡德克; A·P·拉利; J·W·默多克四世
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-28
Filing date: 2011-09-22
Publication date: 2013-07-31
Also published as: US9317586B2; US20130018876A1; EP2622428A4; US20120078889A1; US11409751B2; EP2622428A1; US20190171646A1; US9323831B2; WO2012047532A1; US10216804B2; US20160232165A1

Abstract

一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中，所述方法包括接收查询，在一个或多个数据源中执行搜索以识别所述查询的候选答案，以及为每个所述候选答案提供初步得分。所述方法还包括筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案。初步得分符合此条件的候选答案形成所述候选答案的子集。处理该子集中的每个候选答案以生成进一步得分。将排序功能应用于这些进一步得分以确定所述子集中的所述每个候选答案的排序；以及在应用该排序功能之后，选择一个或多个所述候选答案作为所述查询的一个或多个最终答案。

Description

使用假设剪枝提供问题答案

相关申请的交叉引用

本申请要求2010年9月28日提交的美国临时专利申请第61/387,157号的申请日期的优先权，该申请的公开内容在此全部纳入作为参考。

技术领域

本发明一般地涉及信息检索，具体地说，涉及问答。再具体地说，本发明的各实施例涉及通过生成和评估多个候选答案来实现并行分析以提供问题答案的问/答系统以及方法。

背景技术

一般而言，QA是一种类型的信息检索。如果给出文档集合（例如万维网或本地集合），则系统应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索（例如文档检索）需要更复杂的自然语言处理（NLP）技术，并且有时被视为超越搜索引擎的后续步骤。

QA研究尝试处理各种问题类型，包括：事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同，从小型本地文档集合到内部组织文档，到编译后的新闻专线报道，再到万维网。

闭域问答在特定领域（例如，医学或汽车维修）下处理问题，并且可被视为较轻松的任务，因为NLP系统可利用经常以本体形式化的领域特定的知识。备选地，闭域可能指这样一种情况：其中仅接受受限类型的问题，例如询问描述性信息而不是过程信息的问题。开域问答处理有关几乎任何事情的问题，并且可以仅依赖于通用本体和世界知识。但是开域Q/A系统通常具有更多可从中提取答案的可用数据。

对信息的访问目前由两种范式控制：数据库查询，其回答有关结构化记录集合中的内容的问题；以及搜索，其响应于针对非结构化数据（例如，文本或html）集合的查询而提供文档链接集合。

此类信息查询范式的主要挑战在于提供能够根据大型文档集合（所有种类的文档，包括结构化文档和非结构化文档）中包括的信息回答实际问题的计算机程序。这种实际问题可以是宽泛的（例如“what are the risks ofvitamin K deficiency?（维生素K缺乏的危害是什么？）”），或者是狭窄的（例如“when and where was Hillary Clinton’s father born?（希拉里·克林顿的父亲出生在何时何地？）”）。

用户与此类计算机程序的交互可以是单次用户-计算机交换，也可以是用户与计算机系统之间的多轮对话。此类对话可以涉及一种或多种形式（文本、语音、触觉、手势等）。此类交互的实例包括这样一种情形：其中电话用户使用语音提问，接收语音、文本和图像（例如，带有文本注释的图）及语音（计算机生成的）解释组合而成的答案。另一实例是用户与视频游戏进行交互，并使用机器可识别的手势拒绝或接受答案，或者是计算机生成指引用户的触觉输出。

构建此类计算机系统的挑战在于理解查询，查找可能包含答案的适合文档，以及提取要提供给用户的正确答案。目前，理解查询是一个公开的难题，因为计算机不具备人类理解自然语言的能力，也没有从当前（非常初级的）自然语言理解系统可生成的许多可能解释中做出选择的常识。

通过一轮或多轮对话回答实际查询的能力具有巨大的潜在价值，因为它允许实时存取准确的信息。例如，提高现有问答技术水平具有巨大商业价值，因为这样可以实时了解业务状况、竞争对手、经济条件等。即使QA采取最初级的形式，也可以将信息工作者的生产力提高好几个量级。

公开内容在此全部纳入作为参考的第12/152,441号美国专利描述了一种QA系统，其针对查询生成一组候选答案，然后处理（即，检索支持证据、评分和排序）所有候选答案。并非始终必须对所有候选答案执行该处理。在至少某些情况下，有些候选答案不可能为正确答案，对于这些低质量候选答案，不值得付出计算成本来搜索支持证据。

发明内容

本发明的各实施例提供一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中，所述方法包括接收输入查询，在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案，以及根据一个或多个定义的条件为每个所述候选答案提供初步得分。所述方法还包括筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案。作为此筛选的结果，初步得分符合所述定义的条件的候选答案形成所述候选答案的子集。处理该子集中的每个候选答案以针对这些候选答案中的每个候选答案生成多个进一步得分。将候选排序功能应用于这些进一步得分以确定所述候选答案的子集中的每个候选答案的排序；以及在应用该候选排序功能之后，选择一个或多个所述候选答案作为所述输入查询的一个或多个最终答案。

在一个实施例中，使用支持段落检索过程处理所述候选答案的子集中的每个候选答案以识别其中出现所述每个候选答案的段落。将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块，并且该模块用于将所述候选排序功能应用于所述候选答案的子集中的候选答案。

在一个实施例中，任何筛选出的候选答案可被发送到所述候选排序功能，并且该模块还可用于将所述候选排序功能应用于任何筛选出的候选答案。在该实施例中，可从所述候选答案的子集中的候选答案以及任何筛选出的候选答案中选择被选为一个或多个最终答案的候选答案。

在一个实施例中，筛选模块用于筛选出任何初步得分不符合所述定义的标准的候选答案，其中包括使所述候选答案经过筛选模型以执行所述筛选。以绕过所述支持段落检索过程的方式，将任何此类筛选出的候选答案发送到所述候选排序功能模块。

在一个实施例中，使用上下文无关的候选答案过程处理所述候选答案的子集中的每个候选答案，以获得所述每个候选答案的一个或多个筛选后得分。在一个实施例中，根据所述每个候选答案的筛选后得分对所述候选答案的子集中的每个候选答案进行排序。

在一个实施例中，使用逻辑回归模型为每个候选答案提供所述初步得分以对所述每个候选答案进行评分。

在一个实施例中，筛选出任何初步得分低于定义的阈值的候选答案。在一个实施例中，确定该定义的阈值以获得计算成本与所述最终答案的质量度量之间的期望权衡。在一个实施例中，通过针对给定数据集运行测试来确定所述定义的阈值以便获得此期望权衡。

在本发明的一个实施例中，仅将所述候选答案的子集用于查找支持证据。该子集可能不包括所有所述候选答案。

用于支持段落检索的候选答案的子集通过以下过程来识别：

1)针对所述候选答案运行上下文无关的评分器（因为这些评分器不需要支持段落）。

2)使用评分功能（例如，逻辑回归模型）对每个候选答案进行评分。

3)得分极低的候选答案被从支持段落检索中忽略；即，它们被视为不值得付出计算成本来搜索支持证据。可获得用于识别低评分答案的阈值，方式为：优化所提供的（held-out）数据集，例如执行参数扫描以选择计算成本与最终答案质量度量之间的最佳权衡。

4)将剩余的候选答案视为值得进一步调查。

附图说明

在下面给出的具体实施方式的上下文中理解本发明的目标、特性和优点。在附图的上下文中理解具体实施方式，所述附图形成本公开的重要部分，其中：

图1是示出本发明的一个实施例的高级逻辑架构和问答方法的系统示意图；

图2示出图1中的架构的变型，其中证据收集模块包括两个子模块：支持段落检索模块和候选答案评分模块；

图3示出图1中的查询分析模块和候选答案生成模块的更详细的示意图；

图4示出图1和2中的候选答案评分模块和答案排序模块的更详细的示意图；

图5是示出根据本发明的一个实施例的处理问题并提供答案的方法步骤的实例流程图；

图6示出了用于提供处理CAS数据结构的一种类型的分析引擎的UIMA框架实现的一个方面。

具体实施方式

如在此使用的那样，单词“问题”和“查询”及其扩展词可以互换地使用并指示同一概念，即，信息请求。此类请求通常以疑问句表达，但是也可通过其他形式表达，例如采取提供感兴趣实体的描述的陈述句形式（其中可通过上下文推断出实体识别请求）。“结构化信息”（来自“结构化信息源”）在此被定义为其表达的含义很明确，并通过数据结构或格式（例如，数据库表）显式表示的信息。“非结构化信息”（来自“非结构化信息源”）在此被定义为其表达的含义仅通过其内容（例如，自然语言文档）暗示的信息。“半结构化信息”指其某些含义在数据格式中明确表示的数据，例如文档的一部分可被标记为“标题”。

图1示出本发明的一个实施例的高级逻辑架构10和方法的系统示意图。如图1所示，架构10包括查询分析模块20，该模块实现接收和分析用户查询或问题的功能。根据本发明的一个实施例，“用户”指与系统交互的一个或多个人，术语“用户查询”指用户提出的查询（及其上下文）19。但是将理解，可以构建其他实施例，其中术语“用户”指通过机械手段生成查询的计算机系统22，其中术语“用户查询”指此类以机械方式生成的查询及其上下文19'。候选答案生成模块30用于实现通过遍历主源模块11和答案源知识库模块21（包含从主源提取的关系和列表的集合）中包含的结构化、半结构化和非结构化源来搜索候选答案。所有信息源均可存储在本地或分布在包括因特网的网络上。候选答案生成模块30根据已检索数据的分析，生成多个包含候选答案的输出数据结构。在图1中，所示的一个实施例包括与主源11和知识库21通过接口连接的证据收集模块50，其作为并行处理操作而同时根据包含候选答案的段落分析证据，以及对每个候选答案进行评分。

在一个实施例中，可以采用利用通用分析系统（CAS）候选答案结构，以及实现支持段落检索的架构，本文下面将更具体地进行描述。该处理在图2中示出，其中证据收集模块50包括支持段落检索40A和候选答案评分40B，它们作为独立的处理模块同时分析段落，以及对某些或每个候选答案进行评分以作为并行处理操作。答案源知识库21可以包括一个或多个包括关系集合（例如，类型化列表）的结构化或半结构化源（预计算的或以其他方式）数据库。在一个实例实施方式中，答案源知识库可以包括存储在存储系统（例如，硬盘）中的数据库。答案排序模块60提供对候选答案进行排序以及确定响应99的功能，所述响应经由用户的计算机显示界面（未示出）返回给用户或返回给计算机系统22。所述响应可以是响应于问题的答案，或先前答案的详细描述，或澄清的请求—当未找到高质量的问题答案时。

将理解，本领域的技术人员可以实现对图1所示系统的进一步扩展以根据但不限于文本、音频、视频、手势、触觉输入和输出等形式采用一个或多个模块实现用户或计算机系统与系统10之间的I/O通信。因此，在一个实施例中，输入查询和所生成的查询响应均可根据包括文本、语音、图像、视频、触觉或手势的多种形式中的一种或多种来提供。

图1和2中所示的处理可以在本地、在服务器或服务器群集上、在企业中，或者备选地，可以是分布式或整体式，或以其它方式与公用或私用搜索引擎结合运行，以便以所描述的方式增强问答功能。因此，本发明的各实施例可以作为计算机程序产品（包括可由处理设备执行的指令）提供，或者作为部署所述计算机程序产品的服务提供。所述架构采用搜索引擎（例如，文档检索系统）作为候选答案生成模块30的一部分，所述搜索引擎可以专用于搜索因特网、公用数据库、网站（例如，IMDB.com）或私用数据库。数据库可以存储在任何存储系统（例如，硬盘驱动器或闪存）中，并且可以通过网络分发或不分发。

如上所述，本发明的实施例利用通用分析系统（CAS），其为非结构化信息管理架构（UIMA）的子系统，可处理各种UIMA组件（例如分析引擎和非结构化信息管理应用）之间的数据交换。CAS通过独立于程序设计语言的类型系统支持数据建模，通过强大的索引机制提供数据访问，并支持针对文本数据创建注释，例如在http://www.research.ibm.com/journal/sj/433/gotz.html中描述的（在此引入作为参考）。CAS还允许针对文档及其注释之间的链接进行多个定义，因为对分析图像、视频或其它非文本形式有用。

在一个实施例中，UIMA可以作为中间件提供，以便对各种信息源中的非结构化信息进行有效管理和交换。所述架构通常包括搜索引擎、数据存储、包含流水线文档注释器和各种适配器的分析引擎。可以使用UIMA系统、方法和计算机程序生成输入查询的答案。所述方法包括输入文档并运行至少一个文本分析引擎，所述文本分析引擎包括多个耦合的注释器以便标记文档数据以及识别并注释特定类型的语义内容。因此，它可以用于分析问题，并从文档集合提取实体作为问题的可能答案。

在一个非限制性实施例中，通用分析系统（CAS）数据结构形式根据第7,139,752号美国专利中的描述实现，该专利的全部内容及其公开在此纳入作为参考，就像完全在本文中列出一样。

如图3中更详细的逻辑架构示意图中更详细地所示，“查询分析”模块20接收包括查询19的输入，该查询例如由用户通过其基于Web的浏览设备输入。输入查询19可以包括诸如“Who was the tallest Americanpresident（谁是最高的美国总统）？”之类的字符串。备选地，问题可以包括字符串和隐含上下文（例如，“Who was the shortest（谁是最矮的美国总统）？”）。在该实例中，上下文的范围可以从另一简单字符串（例如，“American presidents（美国总统）”或“Who was the tallest Americanpresident（谁是最高的美国总统）”）到任何数据结构，例如处理上一字符串的所有中间结果（例如，在多轮对话中发生的情况）。输入查询由查询分析模块20接收，该模块包括但不限于下面的一个或多个子过程：解析和谓词论元结构方块202；重点段、重点和修改符方块204；词法答案类型方块206；问题分解方块208；词法和语义关系模块210；问题分类器方块212；以及问题难度模块214。

解析和谓词论元结构方块202实现功能和程序设计接口以将输入查询分解为语法和语义分量，例如名词短语、动词短语和谓词/论元结构。可使用（English Slot Grammar）ESG型解析器实现方块202。重点段、重点和修改符方块204用于计算问题的重点和重点修改符，其将在下面进一步描述。词法答案类型（LAT）方块206实现功能和程序设计接口以提供对答案类型（词法）的额外约束，本文下面将更详细地进行描述。问题分解方块208实现功能和程序设计接口以分析输入问题来确定有关目标答案的问题所指定的约束集。这些约束有多种相互关联的方法：1)嵌套式约束；2)冗余约束；以及3)推论（triangulation）。对于嵌套式约束，“内部”问题的答案实例化“外部”问题。例如，“Which Florida city was namedfor the general who led the fight to take Florida from the Spanish（佛罗里达的哪个城市以从西班牙手里夺取佛罗里达的将军名字命名）？”。对于冗余约束，一个约束唯一地识别答案。例如，“This tallest mammal can runat30miles per hour.Which is it（最高的哺乳动物每小时奔跑30英里，这是什么动物）？”对于推论，每个约束生成一组答案并且正确的答案是两个（或更多个）集合中的一个公共答案。例如，在“猜谜式”问题“Whatis a group of things of the same kind,or scenery constructed for atheatrical performance（针对戏剧表演构建的一组同类物件或场景是什么）”中。

词法和语义关系模块210用于检测查询中的词法和语义关系（例如，谓词-论元关系），问题分类模块212也具有此功能，该模块采用提供信息寻址的主题分类器，例如问题涉及哪个方面？问题难度模块214执行方法以提供确定问题难度的方式，例如，向问题应用可读性矩阵。将理解，可以针对特定实施方式选择图3所示的一个或多个查询/问题分析处理方块。

解析和谓词论元结构方块202实现功能和程序设计接口以通过执行本领域公知的词法处理和句法与谓词论元结构分析而将输入查询分解为其语法分量。对于查询实例：

“In the1960s this largest Kansas city became the world's largestproducer of general aviation aircraft（在1960年代，这个最大的堪萨斯城市成为世界最大的通用航空飞机生产基地）”。

解析和谓词论元方块202将生成下面的实例分析搜索结果树结构，其中eX提供树中的索引，例如单词“become”为e8（结果树的第8个结构，e7索引结果树结构的第7个单词），其中7表示单词“city”，它是“become”的第一论元，e13（索引结果树结构的第13个单词）是“producer”，它是“become”在语义结构中的第二论元，如下所示：

in(e1,e3,e8)

the(e2,e3)

1960s(e3,u)

this(e4,e7)

large(e5,e7)

Kansas(e6,e7)

city(e7,u)

become(e8,e7,e13)

the(e9,e10)

world(e10,u,e13)

aposts(e11,e10)

large(e12,e13)

producer(e13,of:e17)

general(e15,e17)

aviation(e16,u,e17)

aircraft(e17)

重点段、重点和修改符方块204检测重点段，该段是问题中被正确答案替换的文本跨度。例如，在下面的查询中，斜体字表示查询中的重点段：“In the1960s this largest Kansas city became the world's largest producerof general aviation aircraft（在1960年代，这个最大的堪萨斯城市成为世界最大的通用航空飞机生产基地）”。

为了检测重点段，实现一组作用于谓词-论元结构和ESG分析的规则，该组规则与谓词-论元结构（PAS）中的模式匹配。实例模式包括例如名词短语“what/which/this/these X（什么/哪个/这个/这些X）”，其中X是另一对象；“who/what/when/where/why/this/these（谁/什么/何时/何地/为何/这个/这些）”；无指示的代词。下面是代词模式的实例，其中代词以斜体表示：As a boy he built a model windmill;his calculus foe Gottfried Leibnizdesigned them as an adult（作为一个男孩，他创建了模型风车；他的微积分对手戈特弗里德.莱布尼兹成年之后才设计出这样的模型风车）。

现在参考词法答案类型（LAT）方块206，LAT是识别正确答案的语义类型的问题术语。下面段落中的斜体单词表示以下查询中的LAT：“What Kansas city is the world's largest producer of general aviationaircraft（哪个堪萨斯城市是世界最大的通用航空飞机生产基地）”。

LAT可在更改含义时包括修改符。例如，斜体单词表示以下查询中的LAT：Joliet and Co found that the Mississippi emptied into what body of water（乔利埃特和科发现密西西比河注入什么水体）？

现在参考图3，问题/查询分析方块20的输出29包括查询分析结果数据结构（CAS结构）。在该实施例中，可以实现输出数据结构问题/查询分析方块20和候选答案生成方块30以根据UIMA开源平台在模块之间传递数据。

“候选答案生成”模块30接收来自问题/查询分析方块20的CAS型查询结果数据结构29输出，并且根据主源11和答案源KB21中存储的文档生成一组候选答案。“候选答案生成”模块30包括但不限于以下一个或多个功能性子处理模块：术语加权和查询扩展模块302；文档标题（标题源中的文档检索）模块304；来自段落检索的实体模块308；以及来自结构化源知识库的实体模块310。

术语加权和查询扩展模块302实现根据模块11和21创建查询的功能（部分查询生成），其中包括实现查询扩展的实施例（参阅例如：http://en.wikipedia.org/wiki/Query_expansion）。文档标题（标题源中的文档检索）模块304实现（从源11和21）检测候选答案的功能。来自段落检索的实体模块308实现例如根据段落和查询的语法和语义结构而在文本段落中检测候选答案的功能。来自结构化源知识库的实体模块310实现根据查询中的实体与答案源知识库21中的实体之间的关系之间的匹配来检索候选答案的功能（例如实现为SQL查询）。

作为实现候选答案生成方块30的功能模块的结果，创建查询并针对（本地或分布式）源数据库或类似的存储设备（多个）中的所有结构化和非结构化主数据源11运行查询。可针对结构化（KB）、半结构化（例如，维基百科、IMDB数据库、XBRL中的SEC filings集合等）或非结构化数据（文本库）运行查询以生成候选答案列表39（也作为CAS，或现有CAS的扩展）。应该理解，在一个实施例中，针对列出的主源数据库的本地副本运行查询，也可访问公用的公共数据库源。此外，可以理解，在一个实施例中，并非查询中的所有术语均需要用于搜索答案—因此需要根据查询分析的结果创建查询。例如，在回答问题“five letter previous capital ofPoland（波兰首都名称中的前五个字母）”时，查询中不应包含“five letter（五个字母）”。

如图3进一步所示，答案源知识库21被示为与来自结构化源的实体模块310对接，模块310包括类型化列表（例如，世界上所有国家的列表）、所提取的精确一元（例如，国家）、二元（例如，国家+国家元首）、三元（例如，国家+国家元首+元首夫人）、n元关系等。

现在参考图2和4，“候选答案评分”模块40B从例如证据收集方块50的支持段落检索（SPR）方块40A接收CAS型数据结构49（即，一个或多个CAS）输出。“候选答案评分”模块40B包括但不限于以下一个或多个功能性子处理模块：段落中的词法与语义关系模块402；文本对齐模块405；段落中的查询术语匹配模块407；语法关系方块410；知识库中的答案查找模块413；以及候选答案类型分析模块415。

段落中的词法与语义关系模块402实现计算候选答案段落中的语义

（谓词/论元）关系满足程度（答案评分的一部分）的功能。文本对齐模块405实现对齐查询（或其中的某些部分）与答案段落以及计算描述对齐程度的评分（例如，当对齐引用的答案时）的功能。段落中查询术语匹配模块407实现将查询段落的匹配程度与候选答案段落中的术语进行关联的功能（答案评分的一部分）。语法关系方块410实现检测候选答案之间的语法关系（可归入段落中的词法与语义关系模块402之下）的功能。知识库中的答案查找模块413实现根据评分排序检测候选答案的功能。候选答案类型分析模块415例如根据对出现候选答案的文档执行语法和语义分析而生成候选答案为正确类型的概率测量。“候选答案评分”模块40B的输出为CAS结构，此结构包含一系列评分由所述模块给出的答案。

如此出描述的那样，可实现多个并行操作模块以计算候选答案的评分，其中根据上述条件在CAS型数据结构59中提供所述评分。例如，答案是否满足类似的词法和语义关系（例如，对于有关电影女明星的查询，答案是否为女性，候选是否满足电影演员关系？），答案与查询的对齐程度；术语的匹配程度以及术语是否以类似的顺序存在。因此，将理解，多个模块用于处理不同的候选答案，因此，可能根据可能的评分模块数量提供许多评分。

参考图2和4，“答案排序”模块60从证据收集方块50（包括实现SPR40A和候选答案评分40B）接收多个CAS型数据结构59输出，并针对每个接收的候选答案生成评分。图4示出机器学习实施方式，其中“答案排序”模块60包括使用机器学习技术，从现有数据生成的训练后的模型组件71。现有数据可以编码有关候选答案的特性、候选答案所在段落的特性、候选答案评分模块40B赋予候选答案的评分，以及候选答案是否正确的信息。机器学习算法可与有关候选答案正确性的信息一起应用于CAS的全部内容。此类现有数据例如可容易地在技术服务支持功能中获得，或在更一般的设置中，在因特网（其中许多网站列出带有正确答案的问题）上获得。所述模型编码有预测功能，此功能被输入到“学习的特性组合”模块73。

因此，在图4所示的实施例中，将作为CAS的一系列候选答案以及存储在训练后的模型子模块71中并且其参数依赖于查询类型的训练后的模型输入到答案排序模块60。答案排序模块60包括学习的特性组合子方块73，方块73实现生成答案排序列表75的功能。答案排序模块60的输出包括查询答案（一个或一系列），并且可选地包括澄清问题（如果系统参与对话或者如果所生成的答案均没有高排序）。学习的特性组合子方块73应用训练后的模型71生成的预测功能，例如实现根据训练后的模型对候选答案评分进行加权的方法。训练方块71和学习的特性组合73的一个实例实施方式可以参考Ittycheriah,A等人在2001年的文本检索会议上发表的标题为“{IBM}'s Statistical Question Answering System-{TREC}”的文章，地址位于：http://citeseer.ist.psu.edu/cache/papers/cs2/7/http:zSzzSztrec.nist.govzSzpubszSztrec10zSz.zSzpaperszSztrec2001.pdf/ittycheriah01ibms.pdf。

机器学习训练后的模型71以及学习的特性组合73的应用将在下面更详细地进行描述。在一个实施例中，实现由两部分构成的任务以：(1)识别候选答案中的最佳答案，以及(2)确定最佳答案的置信度。根据该处理，每个问题-候选答案对包括一个实例，从广泛的特性获得评分，例如，答案与查询术语的共现、候选答案是否匹配问题类型，以及搜索引擎排名。因此，对于实例问题：“What liquid remains after sugar crystals are removedfrom concentrated cane juice（从浓缩蔗汁中去除糖晶体之后，还剩什么液体）？”诸如下面的表1所示的实例评分根据但不限于以下项生成：类型分析、对齐、搜索引擎排名等。TypeAgreement是表示段落中候选答案的词法形式是否对应于问题中感兴趣实体的词法类型的评分。TextualAlignment对问题与答案段落之间的对齐进行评分。

表1

候选答案	类型	对齐	排名	得分
					牛奶	1	0.2	3	0.46
黑砂糖	0	0.6	1	0.48
					糖浆	1	0.5	2	0.8

因此，在该实施例中，候选答案根据其答案得分被表示为实例。如上所述，分类模型71通过实例进行训练（根据现有数据），其中每个候选答案针对问题被分类为真/伪（使用逻辑回归或线性回归函数或本领域公知的其他类型的预测函数）。现在应用该模型，候选答案根据分类评分进行排序，其中所述分类评分被用作答案置信度的测量值，也就是说，通过对完整的特性或其子集应用预测函数，比较和评估可能的候选答案。如果分类评分高于阈值，则该答案被视为可接受的答案。使用表1中“类型”、“对齐”和“排名”中的数值，预测函数（得分）由以下实例线性表达式给出：=0.5*类型+0.8*对齐+(1-排名)*0.1，分别针对牛奶、黑砂糖和糖浆获得值0.46、0.48和0.8（值越大，表示答案越佳）。在表1的“得分”列中表示这些值。该评分函数实例仅出于例示目的给出，在实际应用中，可使用更复杂的评分函数。例如，数学表达式可以基于逻辑回归函数（由线性表达式和指数函数构成），并且可应用于更大数量的特性。

图5是示出系统操作的方块图500。在步骤510，被设计为执行本发明步骤的系统接收查询。指令集在包括一个或多个处理器或计算设备的计算环境中执行。对查询进行分析并将其解析为适合于由搜索引擎511（执行图1和2中的模块30的信息检索功能）搜索的元素。

图5还表示定义数据结构的数据模型，所述数据结构作为图1和2所示的系统组件的输入提供，或者作为所述系统组件的输出生成。所述数据模型提供有关给定组件功能的说明文件，它允许集成独立开发的组件（以这些组件将正确地进行交互操作的非常高的置信度进行集成）。所述数据模型被正式定义为UIMA类型系统，并且在UIMA类型系统描述符中具有声明性规范。众所周知，非结构化信息管理架构（UIMA）框架是开放的工业级可伸缩、可扩展平台，用于构建处理文本或其他非结构化信息以查找潜在含义、关系和其中隐藏的相关事实的分析应用或搜索方案（http://incubator.apache.org/uima/）。

所述数据模型通过UIMA CAS（类型系统中各种类型的实例容器）进行实例化。

类型系统具有一些基本设计点。

1.CAS表示单个问题，但是并不限于此，即，包括某些现有重点的问题（种类、现有问题或答案，或问题元数据，还提供上下文的某种元素）；

2.问题是初始CAS视图中的分析主题；

3.处理被分为若干阶段，其中每个阶段可以生成多个带有新分析主题和对应视图的新CAS，但是原始问题视图位于每个CAS中。将理解，各种变型是可能的。

所有处理结果可以添加到原始CAS（中间结果一直保留到处理结束）中，并且系统生成的最终答案作为CAS中的注释发布。

在一个实例实施例中，数据模型包括基础注释类型，许多类型扩展uima.tcas.Annotation（参阅http://incubator.apache.org/UIMA）。每个类别（例如，注释器）也可估计它所创建的注释的正确性。

在一个示例性实施例中，作为在问题处理阶段510执行的问题分析的一部分，接收问题19，并且使用该问题（以及问题上下文）初始化CAS。创建两个初始注释：带有有关问题的元数据的“问题注释”，以及通过直接包含结果，或通过指向表示问题分析结果的其他注释来整合所有问题分析结果的“QaResult注释”。

基础问题注释类型被定义为可选地包括任何关联的元数据，例如问题源（TREC、技术支持、电视节目等）、现有对话或其他上下文信息（例如，有关以其他形式表示的输入所包含的信息）。

问题类型可进一步具体化为建立问题模型的子类型实例，此问题的类别定义Type（即，问题类型，例如，FACTOID、LIST、DEFINITION、OTHER、OPINION或UNCLASSIFIED问题类型之一）。

分析问题的初始步骤是针对问题运行NLP（自然语言处理）堆栈。自然语言处理通常包括句法处理（例如，使用ESG解析器）和推导谓词-论元结构。该处理根据标准的UIMA方式执行，其中NLP堆栈作为聚合分析引擎在CAS上执行。在本发明的一个实施例中，所有NLP堆栈结果被添加到CAS作为扩展Hutt和ESG类型系统的注释。

在NPL堆栈处理之后，运行问题分析组件，该组件例如包括问题分类、答案类型检测和重点识别，如图3中的查询分析方块所示。问题可以根据问题类型（元数据）进行分类，每个问题可能需要特殊的下游处理。该分类结果可存储在QClass注释中：

实例下游处理可以包括处理猜谜式问题（其中获得答案需要来自多个源的综合信息、推理等）；需要视听处理的audio_visual问题；具有引号或命名实体等的simple_factoid问题；有关可查找的事实的FACTOID；以及包含答案定义并且其中期望问题定义的单词为答案的DEFINITION。

图3示出的典型问题分析过程生成多个注释，其中包括重点、答案类型、语义角色标签和约束，以及标记问题的任何表示定义的部分。

对于上述注释类型，图5的问题分析组件510将创建注释实例，设置问题文本的跨度（如果适用），以及设置注释中的任何其他特性。需要指出，这些注释可以存在多个实例。

问题以及问题分析的结果用于生成查询的抽象表示，此表示为了进行描述，被称为AbstractQuery。抽象查询表示问题中的所有可搜索的关键字和短语，以及语义答案类型（如果检测到）。

抽象查询使用以下类型表示：同义词（下面的所有查询概念均互为同义词）；短语（顺序中的所有查询概念均为短语）；并列词（“或”，即论元节点的分离）；加权（下面的概念按照运算符中存储的浮点进行加权）；必要（下面的概念均为必要概念，如果可能）；关系（下面的概念位于关系下，存储在运算符内）。

现在参考图5，在问题处理方块510中，分析问题之后，搜索处理开始，这可以包括搜索结构化和非结构化主源，例如，Google、维基百科的本地副本或数据库查找表。

每个搜索引擎具有查询生成器，通过抽象查询生成引擎特定的查询，并使用搜索引擎的查询语法设置其格式。搜索引擎然后处理查询并将搜索结果命中列表添加到CAS。搜索对象包含搜索引擎查询、搜索引擎的标识符，以及搜索结果。

在一个实施例中，搜索结果由SearchResult对象表示，该对象包含结果的标识符（URI）、结果的得分，以及结果的实际内容，即，段落文本、知识库元组等。SearchResult可针对不同种类的搜索引擎以及对应的搜索结果进行特殊化。

可创建Document对象以表示搜索引擎交付的结果。该对象可以包括文档标题和该文档的唯一标识符，以及其他数据和元数据。段落对象可与返回段落的搜索引擎一起使用。它可将偏移（例如，包含该段落的文档内的该段落开头的字符偏移，以及包含该段落的文档内的该段落结尾的字符偏移）以及段落命中的段落长度元数据添加到document对象。

如图5所示，实例CAS结构中的数据是问题分析处理步骤510的搜索结果方块的输出，并且将被并行处理。使用搜索命中CAS分割器机制515启动对候选答案的并行搜索。对于并行操作，搜索列表（搜索结果段落）由CAS分割元件515进行分发以便应用（工作分割）并行搜索结果处理技术以处理每个找到的搜索结果以及使用候选答案生成方块30（图3）内的在此描述的技术执行候选答案生成（并行）。

在候选答案生成期间，在搜索结果中识别候选答案。在一个实例实施方式中，候选答案以两个不同的级别表示：CandidateAnswerVariant；以及CandidateAnswersCanon。CandidateAnswerVariant是唯一的候选答案字符串（可能是某些非常简单的正则化的结果）。CandidateAnswersCanon是标准化的候选答案，将语义上等效的变型分组在一起。这两个类型均扩展了抽象基础类别CandidateaAnswer，该类别定义与该候选答案关联的候选答案字符串和特性。

候选答案的类别（例如，CandidateAnswer）提供与该候选答案关联的候选答案字符串和特性。在操作中，可实例化它的一个或多个子类型。一个子类型包括已定义的候选答案类别变型（CandidateAnswerVariant），此变型可能出现多次，所有出现收集在变型对象中，该子类别还定义该变型的出现。提供CandidateAnswerOccurrence以注释被识别为候选答案的文本跨度并定义：(1)涵盖的文本指示某一实体（例如，NAME、PRONOUN、CITY）的方式；(2)候选答案源；(3)源文本内该候选答案开头的字符偏移；以及(4)源文本内该候选答案结尾的字符偏移。

在一个实例实施方式中，通过文档标题导出候选答案，另一方法可通过候选段落中的一个或多个元素导出候选答案。候选答案可进行标准化，从而可在一个标准形式中识别多个拼写变型。

搜索结果处理和候选答案生成方块30的实例CAS结构39输出中的数据再次由用于并行化候选答案的候选答案CAS分割器机制520进行并行处理以供进一步处理。

如上所述，在某些情况下，有些候选答案不太可能是正确答案。对于这些低质量候选答案，不值得在40A和40B付出计算成本来搜索进一步的支持证据。在本发明的一个实施例中，通过下面的过程识别用于40A和40B处的支持段落检索的候选答案子集。针对候选答案运行内容无关的评分器（因为这些评分器不需要支持段落）。使用评分函数（例如，逻辑回归模型）对每个候选答案进行评分，并且从支持段落检索中忽略低得分（例如，低于指定阈值）候选答案。剩余的候选答案被视为值得进一步调查。

为实现此筛选，为图5的架构提供假设筛选模块522、预筛选上下文无关的候选答案处理模块524，以及筛选后上下文无关的候选答案处理模块526。模块524和526在本发明的一个实施例中的执行方式可以类似于上面标识的第12/152,441号美国专利申请的上下文无关的候选答案处理模块43。模块524和526均独立于找到候选答案的段落而提供候选答案的得分，也就是说，与其中找到候选答案的段落的内容无关。例如，如果从文档标题获得候选答案，则得分将不依赖于段落内容，并且是上下文无关的。

提供一个路径，其中候选CAS被从“候选CAS分割器”520发送到预筛选上下文无关的候选答案处理模块524。另外还提供路径534，其中候选CAS被从预筛选上下文无关的候选答案处理模块524发送到假设筛选模块522。

在候选答案处理模块524中，使用评分函数（例如，逻辑回归模型）对每个候选答案进行评分。假设筛选模块522用于根据处理模块524中提供的得分筛选候选答案。在40A，从支持段落检索中忽略低得分的候选答案；即，这些候选答案被视为不值得付出计算成本来搜索支持证据。用于识别低评分答案的阈值可通过优化给定数据集来获得，例如执行参数扫描以选择计算成本与最终答案质量度量之间的最佳权衡。剩余的候选答案被视为值得进一步调查。

提供路径536，其中候选答案被从假设筛选模块522发送到支持段落检索过程40A。该路径536仅用于从假设筛选模块522接收足够高得分的候选答案，还提供路径540，其中候选答案被从假设筛选模块522发送到筛选后上下文无关的候选答案处理模块526。该路径540也仅用于从假设筛选模块接收足够高得分的候选答案。

另外还提供路径542，其中候选答案被从假设筛选模块522发送到最终合并/排序过程570。在本发明的一个实施例中，该路径542仅用于从假设筛选模块522接收低得分的候选答案。沿该路径的候选答案仍包括在最终答案排序中，但是不能从40A和40B处的筛选后答案评分中发生的支持证据和分析获益。

现在参考图5更详细地描述根据本发明实施例的实现（并行处理）和支持段落检索和答案评分的证据收集模块50（如图1和3所示）。

通常，在候选答案生成中使用段落检索，其中使用问题中的关键字，从非结构化语料库中找到段落。然后从这些段落中提取候选答案。

根据本发明的一个实施例，支持段落检索（SPR）40A在候选答案生成之后执行。对于每个得到的候选段落，将遍历段落内容以查找/找到包含候选答案以及问题术语的段落。将理解，如果已知要查找何种候选答案，则可以找到更适合的段落。对于每个传递到SPR40A的候选答案，遍历源以查找包含候选答案以及问题术语的段落（即，针对原始主源（数据库）或候选知识库执行另一搜索）。在另一实施例中，可针对缓存的搜索结果（过去的段落）执行搜索。将理解，如果重复搜索包括问题术语的候选答案，则可以获得最佳结果。

然后通过执行以下一个或多个步骤，由多个评分器对支持段落进行评分：简单术语匹配评分；文本对齐；以及深度分析。简单术语匹配评分实施可执行指令来对匹配术语的数量计数，并且文本对齐实施可执行指令来判定相同或类似顺序中出现的单词之间是否具有相似的距离，以便它们不会相距太远（对齐）。这有利于查找引用。为了查找引用，例如，将执行对齐以获得最佳结果。深度分析实施可执行指令来确定段落/问题的含义（即，词法和/或语义关系）。这些分析中的每个分析均生成一个评分。

现在出于非限制的说明目的描述实例证据收集。在该实例中，给出的查询如下所示：“In2002,who became the first Republican sitting senator ever to hostSaturday Night Live？”

在实施停用词删除（即，从查询中删除最常用词，例如“a”、“an”、“the”、“is/was/be…”、“become/became…”…）的查询生成中，查询变为“Republican first sitting senator ever host Saturday Night Live？2002”。

查询生成之后，在一个实施例中，查询被发送到因特网搜索引擎，例如MSN提供的搜索引擎，读取前20个结果文档。下面示出针对“Republican first sitting senator ever host Saturday Night Live？2002”的实例问题搜索结果的实例段落提取结果（候选答案）。在每个文档中，识别包括每个候选答案（即，John McCain或Al Gore）以及可能以斜体显示的许多问题关键字的段落。这两个实例段落包括段落得分，在一个示例性实施例中，段落得分被计算为：

段落得分=段落中的查询术语数/查询术语总数

候选答案：John McCain

文档：http://doney.net/aroundaz/celebrity/mccain_john.htm

段落：Representative from Arizona1st District(1983-1987),POW(1967-1972),Navy pilot,first sitting Senator to host Saturday Night Live(2002).Born in the Panama Canal Zone,John McCain shares theheadstrong,blunt,maverick traits of his father and grandfather,who werethe first father and son four star Admirals in the U.S.。

段落得分：8/11=0.73

候选答案：Al Gore

文档：http://www.imdb.com/title/tt0072562/news

段落：17December2002(StudioBriefing)No longer a candidate for thepresidency in2004,Al Gore may have a whole new career cut out for himas the host of a late-night comedy show,judging by the ratings for the Dec.14edition of NBC's Saturday Night Live。

段落得分：5/11=0.45

在一个实施例中，另外计算SPR答案得分，该得分在一个实施例中被计算为包含方程式1)中所示答案的段落的下降式得分总和。

答案得分=P0+nP1+n²P2+n³P3+…1)

其中，Pi是第i个最高段落得分，“n”是常数<1（例如，0.1）。

因此，对于实例查询“Republican first sitting senator ever host“Saturday Night Live2002”，针对候选答案John McCain的SPR“答案得分”被计算为：

1)获取针对John McCain的第一候选答案段落，其中问题关键字以斜体示出，即：Representative from Arizona1st District(1983-1987),POW(1967-1972),Navy pilot,first sitting Senator to host Saturday Night Live(2002).Born inthe Panama Canal Zone,John McCain shares the headstrong,blunt,maverick traits of his father and grandfather,who were the first fatherand son four star Admirals in the U.S.。计算的段落得分为：[评分：0.74]。

2)获取针对John McCain的实例第二候选答案段落，即：John McCain,Meghan regaled reporters with tales of her days as an internat Saturday Night Live in2004."Slave work,"she says,"but I had an amazing time。计算的段落得分为：[评分：0.27]。

3)获取针对John McCain的实例第三候选答案段落，即：The most prominent Republican,Arizona Senator John McCain,wasportrayed as a loser because of his support for staying the course in Iraq。计算的段落得分为：[评分：0.18]。

因此，根据方程式1)，其中n=0.1，针对候选答案John McCain的综合答案得分变为：0.74+(0.1)(0.27)+(0.01)(0.18)=0.7688。

类似地，对于查询实例“2002Republican first sitting senator ever hostSaturday Night Live”，针对候选答案Al Gore的SPR“答案得分”被计算为：

1)获取针对Al Gore的第一候选答案段落，其中问题关键字以斜体示出，即：17December2002(StudioBriefing)No longer a candidate for thepresidency in2004,Al Gore may have a whole new career cut out for himas the host of a late-night comedy show,judging by the ratings for the Dec.14edition of NBC's Saturday Night Live…，计算的段落得分为：[评分：0.45]。

2)获取针对Al Gore的第二候选答案段落，即：Also in attendance were former Presidents George Bush,Gerald Ford,Jimmy Carter,former Vice-president Al Gore,former Senator Bob Doleand all their wives.Was portrayed on"Saturday Night Live"(1975)by PhilHartman,Chris Farley(once),David Spade(once),Chris Elliot(once),Michael McKean,and Darrell Hammond。计算的段落得分为：[评分：0.36]。

3)获取针对Al Gore的第三候选答案段落，即：Also in attendance were former Presidents George Bush,Gerald Ford,Jimmy Carter,former Vice President Al Gore,former Senator Bob Doleand all their wives.[September2001].Was portrayed on"SaturdayNight Live"(1975)by Phil Hartman,Chris Farley(once),David Spade(once),Chris Elliott(once),Michael McKean,and Darrell Hammond。计算的段落得分为：[评分：0.36]。

4)获取针对Al Gore的第四候选答案段落，即：Remember Al Gore's"Saturday Night Live"skit where he pretended to bePresident and the world was a glorious place？计算的段落得分为：[评分：0.27]。

因此，SPR模块根据方程式1)，针对候选答案Al Gore计算的综合答案得分变为：0.45+(0.1)(0.36)+(0.01)(0.36)=0.4896。

要指出的是，根据简单求和方案，Al Gore的答案得分将为1.44，JohnMcCain的简单求和计算评分为1.19，前者胜出。

每个候选答案的答案得分将包括在CAS中。

现在返回参考图5，在模块546，检索支持段落。功能在CAS分割之后启动并且从假设筛选器522接收筛选后的候选答案。支持段落检索创建的支持段落记录由支持段落分割器548进行分割，由于可能存在许多记录，因此分割器将新的CAS（包含所有之前计算的信息：上下文、查询、候选答案、支持段落）路由到“答案评分”40B。

结果包含许多CAS，所述CAS包含（除了其他元素）三个重要项目：候选答案、问题术语和支持段落。由于针对每个问题可生成数千个此类CAS，因此对这些候选答案进行并行评分。在一个实施例中，由候选评分模块40B执行的候选评分可细分为两类：上下文无关的评分43（其中独立于段落对答案进行评分），以及上下文相关的评分47（其中答案得分依赖于段落内容）。例如，如上所述，如果从文档标题获得候选答案，则得分不依赖于段落内容，并且是上下文无关的。相比之下，基于文本对齐（模块405，图4）、语法关系（模块410，图4）或词法和语义关系（模块402，图4）的其他类型的候选答案评分需要查询与段落之间的比较，并且是上下文相关的。由于这些方法中的多数依赖于计算段落中的语法和语义关系，因此必须在47中的上下文相关的候选答案处理之前处理搜索结果（使用SPR方块40A的搜索结果处理模块）。

答案评分器的结果保存在CAS中。在答案排序处理60的最后阶段，所有候选答案特性被聚合和合并，并且应用最终候选答案评分函数（如上面参考表1中提供的得分实例描述的那样）。由于给定的候选答案可以出现在多个段落中，因此最终合并/排序注释器必须跨CAS收集结果，标准化和合并候选答案，合并同一答案评分器跨多个候选答案实例生成的特性得分，以及对结果进行聚合。标准化的、合并的以及聚合后的结果被输入评分函数以生成候选答案的最终得分。最终评分结果保存为答案和/或交付给用户。在本发明的实施例中，最终合并和排序是递增的，即，只要针对不同节点的计算完成，机器便会提供最佳答案。一旦所有节点完成，便交付最终（顶层）答案（多个）。因此，在一个实施例中，最终答案列表和答案被添加到原始问题视图，并且问题解答过程完成。

需要指出，如果系统无法找到答案或找到高得分答案（例如，基于与预设阈值的比较），则系统可能要求用户澄清问题，或交付一组答案，或承认失败并请求用户的进一步指示。本领域的技术人员将能够根据例如第6,829,603和6,983,252号美国专利（两者在此纳入作为参考，就像完全在此列出一样），以及Wlodek Zadrozny等人发表的标题为“Natural languagedialogue for personalized interaction（个性化交互自然语言对话，可从2000年8月发行的美国计算机协会通讯第43卷、第8刊，116-120页存档中找到）（http://portal.acm.org/citation.cfm?id=345164）”的参考实现此类对话。

本领域的技术人员将能够实现对本发明的系统的进一步扩展以采用多模通信（使用第7,136,909号美国专利）的模式，所述多模通信包含文本、音频、视频、手势、触觉输入和输出等多种形式。如上所述，此类交互的实例包括使用语音提问以及通过其他形式（语音、文本和图像）的组合接收答案的蜂窝电话用户，或与视频游戏进行的交互。

此处描述的数据模型和处理模型旨在使能并行处理，允许“流”计算模型，其中结果在所有处理完成之前逐渐变得可用。如果分析能够首先识别和处理最可能的候选答案，并且使用更多的处理时间持续改进评分估计，则可有利地使用该流模型。

如上所述，在一个实施例中，上述图1-5的模型可表示为UIMA中的功能组件，并且可以体现为用于根据结构化和非结构化信息组合开发集成搜索和分析的应用的硬件和软件组合。采用UIMA组件实现最终用户能力的软件程序通常被称为应用、应用程序或软件应用。

UIMA高级架构（图1-7中示出了它的一个实施例）定义了协作实施UIM应用的大粒度组件的角色、接口和通信。它们包括能够执行以下操作的组件：分析非结构化源制品（例如包含文本数据和/或图像数据的文档），集成和访问结构化源，并基于发现的语义内容对制品进行存储、索引和搜索。

尽管未示出，但UIMA高级架构的一个非限制性实施例包括语义搜索引擎、文档存储、至少一个文本分析引擎（TAE）、至少一个结构化知识源适配器、集合处理管理器、至少一个集合分析引擎，它们全部与应用逻辑通过接口连接。在一个实例实施例中，UIMA运行以访问结构化信息和非结构化信息，以便以在此讨论的方式生成候选答案和答案。非结构化信息可以被视为文档集合，并可以采取文本、图形、静态和动态图像、音频和它们的各种组合的形式。

图8中进一步示出了UIMA的各方面，其中示出了分析引擎（AE）600，其可以是文本分析引擎的组件。AE600中包括通用分析系统（CAS）610、注释器620和控制器630。TAE的第二实施例（未示出）包括聚合分析引擎（包含两个或更多个组件分析引擎以及CAS），并实现与AE600相同的外部接口。

通用分析系统610

通用分析系统（CAS）610作为通用工具提供，所有注释器620均使用它访问和修改分析结构。因此，CAS610在注释器620之间实现协作，并促进在不同应用和不同类型架构（例如，松散与紧密耦合）中重用注释器620。CAS610可以被视为约束各注释器的操作。

提供CAS610主要用于数据建模、数据创建和数据检索功能。数据建模优选地定义类型的树层次结构，如下面提供的实例表2中所示。所述类型具有属性或性质（被称为特性）。在本发明的各实施例中，存在少量的内置（预定义）类型，例如整数（int）、浮点（float）和字符串；UIMA还包括预定义的数据类型“注释”。数据模型在注释器描述符中定义，并与其它注释器共享所述数据模型。在表2中，被视为从现有技术非结构化信息管理应用扩展以适合本发明的各实施例中的问答的一些“类型”包括：

表2

在表2中，例如，所有问答类型（在左侧列中列出）均为新类型并扩展另一新类型或现有类型（在右侧列中示出）。例如，“查询”和“查询上下文”的种类都是“查询记录”（一种新类型）；而“候选答案记录”扩展UIMA类型“注释”，但是添加了类型为“浮点”的新特性“CandidateAnswerScore”。

CAS610数据结构可被称为“特性结构”。为创建特性结构，必须指定类型（参阅表2）。注释（以及-特性结构）存储在索引中。

CAS610可以被视为方法集合（例如在Java或C++中实现为类），该集合将基于对象的表达性数据结构实现为抽象数据类型。优选地，CAS610设计主要基于TAE特性-属性结构，该结构提供用户定义的对象、属性和值以实现灵活性，提供静态类型层次结构以实现效率，并提供方法以便通过使用一个或多个迭代器来访问存储的数据。

通过CAS610实现的抽象数据模型除了其它特性之外，还为UIMA100提供：平台无关性（即，以声明方式独立于程序设计语言定义类型系统）；性能优势（例如，当通过通用数据模型耦合以不同程序设计语言编写的注释器620时）；通过注释器620的输入/输出规范组成流程（其包括允许类型检查和错误检测的声明式规范，以及对注释器（TAE）作为服务模型的支持）；以及通过语义索引、搜索和检索支持第三代搜索过程（即，语义类型是声明式的，而非基于关键字的）。

CAS610为注释器620提供用于高效构建和搜索分析结构的工具。所述分析结构是数据结构，其主要包括描述原始文档的文本子序列的元数据。分析结构中的一种示例性元数据类型是注释。注释是用于对文本序列进行注释的对象（具有它自己的属性）。存在任意数量的注释类型。例如，注释可以根据其在文档结构中的角色（例如，单词、句子、段落等）标记文本序列，或者根据其语法角色（例如，名词、名词词组、动词、形容词等）描述文本序列。注释的数量或应用基本上没有限制。其它实例包括对文本段进行注释以将它们标识为正确的名称、位置、军事目标、时间、事件、设备、条件、时间条件、关系、生物关系、家庭关系或其它有意义或感兴趣的项目。

通常，注释器620的功能是分析文本以及现有分析结构以发现它旨在识别的新注释集合实例，然后将这些注释添加到分析结构以便由其它注释器620进一步处理。

除了注释之外，图6的CAS610还可以存储原始文档文本以及可能由注释器620产生的相关文档（例如，原始文档的翻译和/或概要）。优选地，CAS610包括扩展，这些扩展便于以既定格式（例如XML）导出分析结构的不同方面（例如，一组注释）。

更具体地说，CAS610是TAE中定义和存储文本注释的部分。应用和注释器620使用CAS API创建和访问注释。CAS API包括例如三个不同的接口。类型系统控制新类型的创建，并提供有关类型（继承）之间以及类型和特性之间的关系的信息。表1中提供了类型定义的一个非限制性实例。结构访问接口处理新结构的创建以及值的访问和设置。结构查询接口处理现有结构的检索。

类型系统提供系统已知的实体的分类，类似于面向对象的编程中的类层次结构。类型对应于类，特性对应于成员变量。优选地，类型系统接口提供以下功能：添加新类型，方式为：为新类型提供名称并在层次结构中指定应附加新类型的位置；添加新特性，方式为：为新特性提供名称并给出该特性应附加到的类型，以及值类型；以及查询现有类型和特性以及它们之间的关系，例如“哪个（哪些）类型继承自该类型”。

在一个实施例中，类型系统提供少量内置类型。如上所述，基本类型是整数、浮点和字符串。在Java实施方式中，这些类型分别对应于Java整数、浮点和字符串类型。还支持注释和基本数据类型数组。内置类型在结构访问接口中具有特殊的API支持。

结构访问接口允许创建新结构，以及访问和设置现有结构的值。在一个实施例中，提供该接口以便创建给定类型的新结构；针对给定结构获得和设置特性的值；以及访问用于内置类型的方法。为域提供特性定义，每个特性具有一个范围。

在一种备选环境中，可以将图1-5的模块表示为GATE（文本工程通用架构）中的功能组件（参见：http://gate.ac.uk/releases/gate-2.0alpha2-build484/doc/userguide.html）。Gate采用如下组件：属于可重用软件块并具有定义明确的接口，这些接口在概念上独立于GATE本身。所有组件集都是用户可扩展的，并统称为CREOLE—语言工程可重用对象集合。GATE框架是其中插入CREOLE组件的底板。用户为系统提供URL列表以便在它启动时进行搜索，并且系统加载这些位置处的组件。在一个实施例中，仅加载它们的配置数据以便开始；当用户请求资源实例化时加载实际类。GATE组件是三种专用JavaBeans中的一种：1）Resource；2）ProcessingResource；3）LanguageResource；以及4VisualResource。Resource是顶级接口，其描述所有组件。所有组件的共有点是它们可以在运行时加载，并且组件集可由客户扩展。它们具有特性，这些特性以诸如RDF、纯XML或Java属性之类的格式在外部向系统表示为“元数据”。在一个实施例中，资源可以全部是Java Beans。ProcessingResource是可运行的资源，可以（经由RMI）远程调用并存在于类文件中。为了加载PR（处理资源），系统应知道在何处查找类文件或jar文件（它们也包括元数据）。LanguageResource是由数据组成的资源，通过Java抽象层访问。它们存在于关系数据库中。VisualResource是可视Java Beans、GUI组件，包括主要GATE gui。与PR相同，这些组件存在于.class或.jar文件中。

在描述GATE处理模型时，其主要特性为算法特性的任何资源（例如解析器、生成器等）均被建模为处理资源。PR是实现Java可运行接口的资源。GATE可视化模型实现如下资源：其任务是显示和编辑被建模为可视资源的其它资源。GATE中的语料库模型是Java集合，其成员是文档。语料库和文档的类型都是语言资源（LR），其中所有LR都具有与其关联的特性图（Java图），该图存储有关所述资源的属性/值信息。FeatureMap还用于经由注释模型将任意信息与文档范围（例如，文本块）关联。文档具有DocumentContent和一个或多个AnnotationSet，DocumentContent目前是文本（未来版本可能添加对视听内容的支持），AnnotationSet是Java集合。

作为UIMA，GATE可以用作基础以便实现自然语言对话系统和多模式对话系统（具有所公开的问答系统作为主要子模块之一）。上面的参考资料（第6,829,603、6,983,252和7,136,909号美国专利，在此引入作为参考）使得本领域技术人员能够构建这种实施方式。

本发明的各实施例可以采取完全的硬件实施例、完全的软件实施例或同时包含硬件和元件元素的实施例的形式。在各实施例中，本发明通过软件实现，所述软件包括但不限于固件、驻留软件、微代码等。

本发明可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式，计算机可用或计算机可读介质提供由计算机或任何指令执行系统使用或与其结合的程序代码。为了此描述的目的，计算机可用或计算机可读介质可以是任何能够包含、存储、传送、传播或传输由指令执行系统、装置或器件使用或与其结合的程序的装置。

所述介质可以是电、磁、光、电磁、红外线、或半导体的系统（或装置或器件）或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机软盘、随机存取存储器（RAM）、只读存储器（ROM）、硬磁盘和光盘。光盘的当前例子包括紧凑型光盘只读存储器（CD-ROM）、紧凑型光盘读写存储器（CD-R/W）和DVD。

本发明的系统和方法可以在通用计算机或计算机系统上实现或运行。计算机系统可以是任何类型的已知系统或将已知的系统，其通常可以包括处理器、存储器件、存储设备、输入/输出设备、内部总线和/或用于结合通信硬件和软件与其他计算机系统通信的通信接口等。

本发明中可使用的术语“计算机系统”和“计算机网络”可包括固定和/或便携式计算机硬件、软件、外围设备和存储设备的各类组合。计算机系统可以包括多个联网或以其他方式链接以协作性地执行操作的个体组件，也可以包括一个或多个独立组件。本发明的计算机系统的硬件和软件组件可以包括诸如桌面计算机、膝上型计算机和服务器之类的固定和便携式设备以及可以包括在它们之中。模块可以是设备、软件、程序或系统中用于实现某种“功能”的组件，它可以实现为软件、硬件、固件、电子电路等。

在优选实施例中，术语“用户”指与系统交互的一个或多个人，术语“用户查询”指用户提出的查询。但是可以构建其他实施例，其中术语“用户”指通过机械手段生成查询的计算机系统，其中术语“用户查询”指此类以机械方式生成的查询。在此上下文中，“用户查询”可以是自然语言表达，形式语言表达或自然语言和形式语言表达的组合。例如，在机械和电子设备诊断失败的环境下，开始产生自动回答计算机生成的问题的需求，其中发生故障的设备可以以最佳方式生成查询来修复问题，此类查询可由本发明中描述的系统根据从因特网收集的相关文本数据语料库进行回答。之前已经例如在第5,237,502和6,947,885号美国专利中公开了从形式表示自动生成自然语言表达的方法（这两个专利的内容和公开在此纳入作为参考，就像在本文中完全列出一样），本领域的技术人员可使用这些内容创建自动发出“用户查询”的系统。类似地，在此类诊断情景中，系统可以询问详尽的问题以便例如查询某些额外的参数。

上面描述的实施例是示例性实例，不应当解释为将本发明限于这些特定的实施例。因此，所属技术领域的技术人员可以实现各种更改和修改，而不偏离在所附权利要求中限定的本发明的精神或范围。

Claims

1.一种生成问题答案的方法，所述方法包括：

接收输入查询；

在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案；

根据一个或多个定义的条件为所述候选答案中的每个候选答案提供初步得分；

筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案，其中初步得分符合所述定义的条件的候选答案形成所述候选答案的子集；

针对所述子集中的每个候选答案，处理所述每个候选答案以生成所述每个候选答案的多个进一步得分；

将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序；以及

在应用所述候选排序功能之后，选择所述候选答案中的一个或多个作为所述输入查询的一个或多个最终答案。

2.根据权利要求1的方法，其中：

处理所述候选答案的子集中的所述每个候选答案包括使用支持段落检索过程识别其中出现所述每个候选答案的段落；以及

应用所述候选排序功能包括将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块，并且使用所述候选排序功能模块将所述候选排序功能应用于所述候选答案的子集中的所述候选答案。

3.根据权利要求2的方法，还包括以下步骤：

将任何筛选出的候选答案发送到所述候选排序功能，并且使用所述候选排序功能模块将所述候选排序功能应用于所述任何筛选出的候选答案；并且其中：

选择所述候选答案中的一个或多个作为一个或多个最终答案包括从所述候选答案的子集中的候选答案以及所述任何筛选出的候选答案中选择所述一个或多个最终答案。

4.根据权利要求3的方法，其中：

筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案包括使所述候选答案经过筛选模型以执行所述筛选；以及

将任何筛选出的候选答案发送到所述候选排序功能模块包括以绕过所述支持段落检索过程的方式，将所述任何筛选出的候选答案从所述筛选模块发送到所述候选排序模块。

5.根据权利要求2的方法，其中处理所述候选答案的子集中的所述每个候选答案包括使用上下文无关的候选答案过程处理所述每个候选答案以获得所述每个候选答案的一个或多个筛选后得分。

6.根据权利要求5的方法，其中应用候选排序功能包括根据所述每个候选答案的所述筛选后得分对所述候选答案的子集中的每个候选答案进行排序。

7.根据权利要求1的方法，其中为每个候选答案提供初步得分包括使用逻辑回归模型对每个候选答案进行评分。

8.根据权利要求1的方法，其中所述筛选包括筛选出所述候选答案中任何初步得分低于定义的阈值的候选答案。

9.根据权利要求8的方法，其中确定所述定义的阈值以获得计算成本与所述最终答案的质量度量之间的期望权衡。

10.根据权利要求9的方法，其中通过针对给定数据集运行测试来确定所述定义的阈值以便获得所述期望权衡。

11.一种用于生成问题答案的系统，所述系统包括：

计算机设备，其包括至少一个不同软件模块，每个不同软件模块包含在有形的计算机可读介质中；存储器；以及至少一个处理器，其与所述存储器耦合并可操作以执行以下步骤：

接收输入查询；

12.根据权利要求11的系统，其中：

13.根据权利要求12的系统，其中：

所述至少一个处理器还可操作以将任何筛选出的候选答案发送到所述候选排序功能，并且使用所述候选排序功能模块将所述候选排序功能应用于所述任何筛选出的候选答案；以及

14.根据权利要求13的系统，其中：

15.根据权利要求11的系统，其中：

所述筛选包括筛选出所述候选答案中任何初步得分低于定义的阈值的候选答案；以及

通过针对给定数据集运行测试来确定所述定义的阈值以便获得计算成本与所述最终答案的质量度量之间的期望权衡。

16.一种制品，包括：

至少一个有形的计算机可读介质，所述介质包括生成问题答案的计算机可读程序代码逻辑，所述计算机可读程序代码逻辑当被执行时，执行以下步骤：

接收输入查询；

17.根据权利要求16的制品，其中：

18.根据权利要求17的制品，其中：

所述计算机可读程序代码逻辑当被执行时，还执行将任何筛选出的候选答案发送到所述候选排序功能，并且使用所述候选排序功能模块将所述候选排序功能应用于所述任何筛选出的候选答案；以及

19.根据权利要求18的制品，其中：

20.根据权利要求19的制品，其中：

21.一种生成问题答案的方法，所述方法包括：

接收输入查询；

将所述子集中的每个候选答案发送到候选排序模块；

使用所述候选排序模块将候选排序功能应用于所述多个进一步得分以确定所述子集中的所述每个候选答案的排序；

将任何筛选出的候选答案发送到所述候选排序模块；

使用所述候选排序模块确定所述任何筛选出的候选答案的排序；以及

根据所述候选答案的排序，选择一个或多个所述候选答案作为所述输入查询的一个或多个最终答案。

22.根据权利要求21的方法，其中：

将所述候选答案的子集中的每个候选答案发送到所述排序模块包括将所述候选答案的子集从所述支持段落检索过程发送到所述候选排序功能模块；以及

将任何筛选出的候选答案发送到所述候选排序功能包括以绕过所述支持段落检索过程的方式，将所述任何筛选出的候选答案发送到所述候选排序模块。

23.根据权利要求22的方法，其中：

处理所述候选答案的子集中的所述每个候选答案包括使用上下文无关的候选答案过程处理所述每个候选答案以获得所述每个候选答案的一个或多个筛选后得分；以及

使用所述候选排序模块确定所述每个候选答案的排序包括根据所述每个候选答案的所述筛选后得分对所述每个候选答案进行排序。

24.一种生成问题答案的系统，所述系统包括：

接收输入查询；

将所述子集中的每个候选答案发送到候选排序模块；

将任何筛选出的候选答案发送到所述候选排序模块；

25.根据权利要求24的系统，其中：

将任何筛选出的候选答案发送到所述候选排序功能包括以绕过所述支持段落检索过程的方式，将所述任何筛选出的候选答案发送到所述候选排序模块；以及

其中所述筛选包括筛选出所述候选答案中任何初步得分低于定义的阈值的候选答案；以及通过针对给定数据集运行测试来确定所述定义的阈值以便获得计算成本与所述最终答案的质量度量之间的期望权衡。