CN103221952B

CN103221952B - 词法答案类型置信度估计和应用的方法和系统

Info

Publication number: CN103221952B
Application number: CN201180056262.4A
Authority: CN
Inventors: J·J·范; D·A·弗鲁茨; D·C·贡德克; A·A·卡利安普; A·P·拉利; J·W·默多克四世; W·W·扎德罗兹尼
Original assignee: International Business Machines Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2010-09-24
Filing date: 2011-09-21
Publication date: 2016-01-20
Anticipated expiration: 2031-09-21
Also published as: US20160005325A1; US9805613B2; EP2616974A1; US9965971B2; US20120077178A1; US9240128B2; EP2616974A4; US8600986B2; WO2012040350A1; CN103221952A; US20160005324A1; US20120323906A1; US8510296B2; CA2812338C; US20120078890A1; JP5816936B2; JP2013543172A; CA2812338A1

Abstract

一种用于自动估计检测到的LAT的置信度以便为所获得的候选答案提供更准确的整体得分的系统、方法和计算机程序产品。获得每个检测到的LAT的置信度“得分”或值，并且所述系统和方法执行以下操作：将所述置信度得分与所述候选答案的LAT和答案类型（AT）之间的匹配度相组合，以便为所述候选答案提供改进的整体得分。

Description

词法答案类型置信度估计和应用的方法和系统

相关申请的交叉引用

本发明涉及并要求2010年9月24日提交的共同拥有、共同未决的第61/386,029号美国临时专利申请的提交日期的优先权，此临时专利申请的所有公开内容在此全部引入作为参考。

背景技术

有关问答(QA)的当前问题和方法的介绍可以在基于Web的参考http://en.wikipedia.org/wiki/Question_answering中找到。一般而言，QA是一种类型的信息检索。如果给出文档集合(例如万维网或本地集合)，则系统应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索(例如文档检索)需要更复杂的自然语言处理(NLP)技术，并且有时被视为超越搜索引擎的后续步骤。

QA研究尝试处理各种问题类型，包括：事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同，从小型本地文档集合到内部组织文档，到编译后的新闻专线报道，再到万维网。

闭域QA在特定领域(例如，医学或汽车维修)下处理问题，并且可以被视为更容易的任务，因为NLP系统可以利用通常以本体形式化的领域特定的知识。开域QA处理有关几乎任何事物的问题，并且只能依赖通用本体和世界知识。另一方面，这些系统通常具有可从其中提取答案的更多数据。

备选地，闭域QA可能指这样一种情况：其中仅接受受限类型的问题，例如询问描述性信息而不是过程信息的问题。

对信息的访问目前由两种范式控制。第一，数据库查询，其回答有关结构化记录集合中的内容的问题。第二，搜索，其响应于针对非结构化数据（例如，文本或html）集合的查询而提供文档链接集合。

这种信息查询范式的一个未解决的主要问题是：没有能够根据包括在文档集合（可以是结构化、非结构化或这两者）中的信息准确回答实际问题的计算机程序。这种实际问题可以是宽泛的（例如“whataretherisksofvitaminKdeficiency?（维生素K缺乏的危害是什么？）”），或者是狭窄的（例如“whenandwherewasHillaryClinton’sfatherborn?（希拉里·克林顿的父亲出生在何时何地？）”）。

面临的挑战是理解查询，查找可能包含答案的适当文档，以及提取正确答案以提供给用户。

发明内容

在一个方面，提供了一种进行问答的计算基础架构和方法，所述问答解决有关针对特定查询计算错误LAT的问题。

在一个方面，提供了一种自动估计查询检测到的LAT的置信度，以便为候选答案提供更准确的整体得分的系统、方法和计算机程序产品。获得每个检测到的LAT的置信度“得分”或值，并且所述系统和方法执行以下操作：将所述置信度得分与LAT和候选答案之间的匹配度组合，以便为所述候选答案提供改进的整体得分。

因此，在一个方面，提供了一种用于自动生成问题答案的系统和方法。所述方法包括：确定与输入查询关联的词法答案类型（LAT）；计算输入查询LAT的第一得分，其中所述第一得分指示所述查询LAT的质量；从信息源获得所述输入查询的候选答案；确定所述候选答案的答案类型（AT）；比较所述查询LAT与候选答案AT；计算表示所比较的查询LAT与所述候选答案AT之间的匹配度的第二得分；以及组合所述第一得分与所述第二得分，以便提供指示所述候选答案的质量的总得分，其中处理设备自动执行所述确定查询LAT、计算所述第一得分和第二得分、获得候选答案、确定AT、比较以及组合步骤中的一个或多个。

在一个方面，计算与所述输入查询关联的所述查询LAT的第一得分包括：提取描述所确定的查询LAT的特性集合；以及向所述特性集合应用模型，以便产生表示所确定的查询LAT的估计准确性的LAT置信度值，所述第一得分包括所述置信度值。

在另一方面，提供了一种用于自动生成问题答案的系统，所述系统包括：存储设备；一个或多个处理器设备，每个处理器设备与所述存储设备通信，并被配置为执行一种方法，所述方法包括：确定与输入查询关联的词法答案类型（LAT）；计算查询LAT的第一得分，其中所述第一得分指示所述查询LAT的质量；从信息源获得所述输入查询的候选答案；确定所述候选答案的答案类型（AT）；比较查询LAT与所述候选答案AT；计算表示所比较的查询LAT与所述候选答案AT之间的匹配度的第二得分；以及组合所述第一得分与所述第二得分，以便提供指示所述候选答案的质量的总得分。

在另一方面，提供了一种用于从包括文本字符串的查询提取特性的方法。所述方法包括：标识与所述查询关联的句法模式规则，从定义通用词法答案类型（LAT）的模式规则集合来标识所述模式规则，所提取的特性中的第一特性包括标识的模式规则；检查检测到的词法答案类型（LAT）的先前实例，并根据所述先前实例计算LAT单词频率，所提取的特性中的第二特性包括所计算的查询单词是候选答案LAT的频率；获得与所述查询关联的解析树数据结构；标识所述解析树结构中与所述候选答案LAT关联的单词之间的语法关系，所提取的特性中的第三特性包括所述候选答案LAT的词性，并确定所述候选答案LAT单词是否共同参考所述查询中识别为LAT的某一其它单词，所提取的特性中的第四特性包括共同参考信息，其中一个或多个编程的处理器设备执行所述标识句法模式规则、检查先前实例、获得所述解析树数据结构、标识语法关系，以及确定LAT单词共同参考。

附图说明

在下面给出的具体实施方式的上下文中理解本发明的目标、特性和优点。在附图的上下文中理解具体实施方式，所述附图形成本公开的重要部分，其中：

图1示出了其中可以采用本发明的问/答方法的高级逻辑架构10；

图2A是用于生成LAT置信度估计得分的LAT置信度估计过程和软件架构的流程图；

图2B是示出LAT置信度估计的应用的流程图；

图3是示出在图2A的流程图的步骤160执行的特性（多个）生成的流程图；

图4示出了为计算查询LAT置信度得分而遍历的决策树模型190的一个实例部分；

图5示出了其中可以采用本发明的问/答方法的另一个高级逻辑架构10；

图6示出了用于进行具有延迟类型评估的问答处理的一个实例流程图；

图7是示出在一个实施例中的在图6的流程图的步骤132执行的TyCor得分产生的流程图；

图8示出了用于提供处理CAS数据结构的一种类型的分析引擎的UIMA框架实现的一个方面；以及

图9示出了用于在一个实施例中运行图2A、2B、3-4、6-7中描述的方法步骤的示例性硬件配置。

具体实施方式

共同拥有、共同未决的标题为“SYSTEMANDMETHODFORPROVIDINGQUESTIONANDANSWERSWITHDEFERREDTYPEEVALUATION”（用于提供具有延迟类型评估的问答的系统和方法）的第12/126,642号美国专利申请（在此引入作为参考）描述了一种QA系统和方法，其中自动生成问题的答案。更具体地说，它涉及将从问题确定的词法类型与从搜索获得的每个候选答案所关联的词法类型相比较。问题请求的词法答案类型在此称为“词法答案类型”或“LAT”。与每个候选答案关联的词法类型在此称为词法类型或“LT”。

一般而言，问答（QA）系统通过查阅可能异构的结构化、半结构化和非结构化信息资源集合，为采用自然语言的给定问题返回准确的答案以及理由。图1示出了包括典型问答系统10的主要组件及其工作流。

问题分析组件20接收自然语言问题19（例如，“Whoisthe42ndpresidentoftheUnitedStates?（谁是美国第42任总统？）”），并分析所述问题以便最低限度地产生预期答案的语义类型（在该实例中，为“president（总统）”），并且可选地产生其它分析结果以供下游处理。使用核心搜索引擎的搜索组件30a根据问题分析的输出29形成查询，并查阅各种资源，例如万维网41或者一个或多个知识资源（例如，数据库、知识库42），以便检索与回答所述问题相关的文档、段落、网页、数据库元组等。候选答案生成组件30b然后从搜索结果45提取所述问题的可能（候选）答案，然后答案选择组件50对这些答案进行评分和排序，以便产生具有关联置信度得分的最终排序答案列表。

在具有延迟类型评估的QA系统中，在提取候选答案（即，从数据语料库或因特网获得的查询的候选答案实例）之后，通常执行答案分型（typing），即，确定被搜索候选答案及其词法类型之间的关联。将所确定的候选答案类型与所述查询的计算的词法答案类型（“LAT”）（由问题分析检测）相比较，并在确定所述答案的正确性时进行评估。

类型强制（TyCor）过程是这样一个过程：其中根据多种技术将候选答案的答案类型（AT）“强制”为问题LAT。所述强制过程可以包括将候选答案映射到结构化资源中的实例、获得其类型并将这些类型映射到LAT。所述“强制”的结果称为TyCor得分。

问题/查询的LAT是实体的指示对象的类型（即，描述符），所述实体是问题/查询的有效答案。实际上，LAT是自然语言理解模块（包括模式集合和/或具有语义解释器的解析器）检测到的答案的描述符。

因此，问答系统可以采用图1的查询分析模块20中的词法答案类型（LAT）检测处理方框200。LAT还表示标识正确答案的语义类型的问题术语。因此，可以通过模式LAT检测规则在问题中检测LAT。将实施这些规则，并对其进行编码，或者机器通过关联规则学习自动学习它们。自然语言理解模型可以实施这些规则。

但是，自然语言处理模块并非完美无缺，并且会检测错误的LAT。错误的LAT可能严重降低QA系统的性能，因为很有可能将错误类型的答案判断为正确的答案。

针对图5讨论有关QA系统10的进一步细节。证据收集和答案评分功能50是编程的处理组件，其接收（1）“词法答案类型”（LAT），例如描述某一概念的文本字符串，以及（2）“候选答案”输入（多个），例如描述某一实体的文本字符串。所述编程的处理组件生成输出，所述输出包括表示实体在多大程度上是概念的实例的判断（例如，得分）。如下面的图6和7中所述，这用作答案评分功能（例如，基于计算的候选答案类型（AT））的一部分。

如下面针对图3所述，在处理输入查询以确定LAT以及搜索并获得一个或多个候选答案之后，针对接收的每个候选答案执行以下步骤：将所述候选答案与数据库中的实例（包括匹配的实例132a）匹配，这导致生成输出数据结构；查找（搜索）所述候选答案具有所需LAT的证据，并检索与知识库（KB）132b中的这些实例关联的LT（多个）；以及尝试将LAT（多个）与LT（多个）匹配（例如，由使用解析器、语义解释器和/或简单模式匹配器的匹配功能确定），并产生表示匹配度的得分132c。更具体地说，将候选答案AT和查询LAT（多个）表示为词法字符串。得分（称为“TyCor”（类型强制）得分）的产生包括三个步骤：（1）候选答案与实例匹配，（2）实例与类型关联提取，以及（3）LAT与类型匹配。得分反映可以将候选答案“强制”为LAT的程度，其中较高的得分指示较好的强制。

在一个实施例中，本公开通过提供其它功能以便为候选答案提供更好的质量得分，扩展并补充了在共同未决的第12/126,642号美国专利申请中描述的QA系统和方法的效用。具体地说，QA系统（例如图1中所示）对检测到的查询LAT的置信度执行自动估计，以便产生LAT置信度得分。将所述LAT置信度得分与所述候选答案的LAT和答案类型（AT）之间的匹配度组合，以便为所述候选答案提供更好的整体得分。换言之，获得每个检测到的LAT的置信度得分或值，并且所述系统和方法执行以下操作：将所述LAT置信度得分与TyCor得分组合，以便改进所述候选答案的整体得分。随之而来的优势包括：当考虑LAT置信度时，QA系统将会更容忍LAT检测错误，并且候选答案更可能是正确的。

针对计算LAT置信度得分，参考图2A，该图示出了LAT置信度估计的过程，所述过程例如可以作为图1中所示的查询分析模块20中的LAT检测处理方框200的一部分执行，或者与方框200结合执行。在处理中，使用在共同拥有、共同未决的第12/126,642号美国专利申请中描述的过程计算查询的词法答案类型（LAT）之后，计算每个LAT的置信度“得分”或置信度值。

图2A具体示出了用于LAT置信度估计的计算机实现的过程150，包括两个组件：第一特性生成组件160，其提取描述候选答案LAT（例如，问题中的单词）的特性集合165。实例特性可以包括但不限于：1）应用定义通用LAT的规则集合中的模式规则（“规则ID”），例如，具有描述与名词匹配的句法模式的id“thisWhatNoun”的规则，该名词由诸如“this（这个）”或“these（这些）”之类的限定词修饰，如“Thispresidentdidwhat…（这个总统做什么…）”中的名词“president”；2）单词是候选答案LAT的先前频率；3）用于确定与LAT关联的语法关系的解析信息，例如，候选答案LAT单词如何与解析树的其它部分相关；4）其它语法信息，例如LAT的词性；以及5）共同参考信息，其确定候选答案LAT单词是否共同参考识别为LAT的某一其它单词等。置信度估计处理组件175获得所述LAT特性集合，并且向所述集合应用模型180，以便产生与LAT关联的置信度得分199。可以从训练实例集合手动或自动构造模型180。

因此，例如在一个实施例中，可以基于根据逻辑程序的处理，在问题中发现导致LAT的模式。例如，通过以往的训练数据（即，过去在先前过程中用于手动标识LAT的数据）确定特定标识的模式（多个）的适当权重。在LAT置信度估计期间，例如使用逻辑程序处理LAT周围的文本，以便确定是否符合任何模式。即，可以在一个实施例中使用逻辑程序执行模式规则匹配。如果符合模式，则提供与标识的模式关联的ruleID，并根据该特定模式的先前置信度，为特性指定权重。如果不与任何模式匹配，则没有与该特性关联的权重。

现在参考图3描述问题分析阶段的特性生成组件160的一个实施例。如图所示，将查询LAT输入到多个模块并且并行处理，每个模块执行特定的特性提取功能。所述多个模块包括：过程162，用于标识来自定义通用LAT的规则集合的模式规则ID；过程164，用于例如从手动注释的数据集合中检查检测到的LAT单词的先前实例，并根据先前实例的数量计算LAT单词频率；解析树检查过程166，用于确定候选答案LAT的词性（例如，诸如名词、动词、形容词之类的单词类型）；过程168，用于标识与LAT关联的语法关系，例如，候选答案LAT单词如何与解析树的其它部分相关；以及过程170，用于标识共同参考信息，其确定候选答案LAT单词是否共同参考识别为LAT的某一其它单词（例如，问题“Thispresident,whowasageneralduringtheRevolutionaryWar…（这位总统，在革命战争期间曾是将军））”提供两个LAT（president和general），并且如果已知单词“president”是LAT，则单词“general”最可能是LAT，以及候选答案输入LAT单词“general”共同参考已知LAT“president”。处理方框162-170的输出172提供特性集合，其具有的内容包括但不限于以下一项或多项：布尔值（例如，语法关系，或者指示候选答案LAT是否参考另一个LAT的共同参考）；数值特性（例如，作为LAT频率的单词）；以及类别（例如，诸如名词之类的词性）。然后将输出特性集合输入到置信度估计模块175。置信度估计单元175接收所述特性集合，并向所述特性集合应用训练后的模型180，以便产生估计的LAT置信度得分。在一个实施例中，所述特性集合包括数值列表（例如，1、0、0.234、1、1、…）。可以将类别特性转变成一组布尔特性（例如，可以将词性变成is_noun、is_verb、is_adj、is_adv、is_prep）。

在一个实施例中，将包含布尔值、类别值和数值的特性集合输入到先前训练后的模型。对于布尔值或类别值的情况，例如可以在所述特性集合中将这些值表示为二进制数（例如0或1）。例如，值0或1可以与相应的特性集合布尔值False或True关联。

针对训练后的模型180，一个实施例是机器学习模型，其被配置为组合不同的特性并对它们进行加权，以便产生用于LAT置信度估计的最终得分。可以使用属于数学模型的任何机器学习模型，以便确定应该如何对特性集合中的不同特性进行加权。所述数学模型包括每个类型特性的权重，并且如果给出特性集合值的特定输入，则将值输入到所述模型，而所述模型产生得分。个体特性值是模型方程（每个变量具有不同权重的函数）的变量，并且应用所述模型，为每个变量提供值以便产生数值。可以从训练实例集合来手动或自动构造所述模型。

在一个实施例中，训练后的模型180是逻辑回归模型，在标题为MachineLearning（机器学习）（TomMitchell、McGrawHill，1997年，在此引入作为参考）的参考文献中描述了有关该模型的说明。在其它实施例中，可以使用支持向量机模型，如在标题为“SupportVectorMachinesandotherkernel-basedlearningmethods”（支持向量机和其它基于内核的学习方法）（JohnShawe-Taylor和NelloCristianini，剑桥大学出版社，2000年）的参考文献中所描述的。此外，可以发现最大熵机器模型，例如在标题为“Amaximumentropyapproachtonaturallanguageprocessing”（用于自然语言处理的最大熵方法）（AdamL.Berger等人，ComputationalLinguistics期刊第22卷第1期，1996年3月）的参考文献中描述的。否则，可以实施基于规则或基于决策树的模型。

可以使用的一个实例逻辑回归模型被示为下面的方程1）：

f (x_{1}, . . . x_{n}) = \frac{1}{e^{- z} + 1} - - - 1)

其中x₁、…x_n是特性值，并且在一个实施例中，

z = c + Σ_{i = 1}^{n} a_{i} x_{i}

其中a₁、…、a_n是系数，常量c在模型的训练期间指定。

在一个非限制性实例中，特定模型可以具有系数赋值，例如：

a₁=0.484，x₁=触发thisWhatRule

a₂=2.8671，x₂=触发heShePronounRule

a₃=12.587，x₃=先前概率…

图4示出了决策树数据结构190形式的模型的另一个实例，其包括一系列决策点（例如，树中的节点192、194、196）和不同的决策（树中的分支）。在示出的实例中，决策是输入是否符合特定模式。每个模式/规则具有关联的名称，例如“thisWhatRule”，其在问题中检测诸如“thisX…（这个X…）”之类的模式。如果模式符合输入，则返回特定置信度作为LAT。决策树数据结构190的处理包括自动遍历训练后的决策树，并在每个决策步骤（例如，步骤192、194、196等）计算得分，该得分用于计算置信度得分。

如上所述，在QA处理期间，确定候选答案是否是查询LAT的实例。由于LAT检测可能具有错误，因此产生与LAT关联的估计置信度得分，以便改进类型匹配得分（TyCor）的结果，即，方式为：将所计算的LAT置信度得分与原始TyCor得分相组合。

图2B描述了用于应用估计LAT置信度得分199以产生修改后TyCor得分的编程过程250。在编程的LAT置信度应用过程250中，在组合单元275处执行单个步骤，其将LAT置信度估计199与原始TyCor得分260组合以便产生最终得分299。在一个实施例中，LAT置信度得分可以是从0到1的数值，并且可以将该数值与原始TyCor得分相乘以便计算最终TyCor得分。以各种方式实现LAT置信度得分与原始TyCor得分的组合，例如置信度加权平均值。

如果给出具有一个或多个候选答案LAT的查询，则将LAT置信度得分作为权重处理。例如，每个LAT具有与其关联的权重，该权重由LAT置信度得分表示。如果针对每个LAT给出答案候选者和关联的原始TyCor得分，则将整体得分估计为每个LAT的每个权重置信度乘以类型匹配（TyCor）得分的总和。因此，对于上面描述的实例查询：

“Thispresident,whowasageneralduringtheRevolutionaryWar…”

对于检测到的两个LAT“president”和“general”，将候选答案“GeorgeWashington”的总体置信度加权平均值计算为第一总数和第二总数的总和，第一总数表示“general”的加权置信度得分（例如，0.8）乘以其相应的TyCor得分（例如，1.0），第二总数表示“president”的加权置信度得分（0.95）乘以其相应的TyCor（例如，1.0）。一般而言，如果给出具有一个或多个检测到的LAT的查询，则总体加权置信度得分计算如下：

总体置信度加权平均得分=(置信度得分_LAT1)(TyCor_LAT1)+(置信度得分_LAT2)(TyCor_LAT2)+…+(置信度得分_LATn)(TyCor_LATn)

针对单个查询的“n”个检测到的LAT，计算该总和以产生置信度加权平均值。

图5示出了在第12/126,642号美国专利申请中描述的QA系统图，其示出高级逻辑QA架构10。一般而言，如图5中所示，高级逻辑架构10包括查询分析模块20，其实现接收和分析用户查询或问题的功能。术语“用户”可以指与系统交互的一个或多个人员，或者指通过机械手段生成查询的计算机系统22，其中术语“用户查询”指这种以机械方式生成的查询和上下文19’。提供候选答案生成模块30，以便通过遍历包含在主源模块11和答案源知识库（KB）模块21（包含从主源提取的关系和列表集合）中的结构化、半结构化和非结构化源，实现对候选答案的搜索。所有信息源可以存储在本地，或者分布在包括因特网的网络上。

架构10的候选答案生成模块30根据对所检索的数据的分析，生成多个包含候选答案的输出数据结构。在图5中，证据收集模块50与主源11和知识库21对接，以便在一个实施例中，同时根据具有候选答案的段落来分析证据并对每个候选答案进行评分，以作为并行处理操作。在一个实施例中，可以采用使用通用分析系统（CAS）候选答案结构的架构，如在共同拥有、已公告的第7,139,752号美国专利（其所有公开内容在此全部引入作为参考）中所描述的那样。

如图5中所示，证据收集模块50包括候选答案评分模块40，以便分析检索的段落并对所检索段落的每个候选答案进行评分。答案源知识库（KB）21可以包括一个或多个包含关系集合（例如，类型化列表）的结构化或半结构化源（预先计算或以其它方式）数据库。在一个实例实施方式中，答案源知识库可以包括存储在存储系统（例如，硬盘驱动器）中的数据库。

答案排序模块60提供功能以便对候选答案进行排序并确定响应99，响应99经由用户的计算机显示接口（未示出）或计算机系统22返回给用户，其中所述响应可以是响应于问题的答案，或先前答案的详细描述，或澄清的请求—当未找到高质量的问题答案时。还提供机器学习实施方式，其中“答案排序”模块60包括训练后的模型组件（未示出），其使用机器学习技术从先前数据中产生。

图5中所示的处理可以在本地、在服务器或服务器群集上、在企业中，或者备选地，可以是分布式或整体式，或以其它方式与公用或私用搜索引擎结合运行，以便以所描述的方式增强问答功能。因此，所述方法可以作为计算机程序产品（包括可由处理设备执行的指令）提供，或者作为部署所述计算机程序产品的服务提供。所述架构采用搜索引擎（例如，文档检索系统）作为候选答案生成模块30的一部分，所述搜索引擎可以专用于搜索因特网、公用数据库、网站（例如，IMDB.com）或私用数据库。数据库可以存储在任何存储系统、非易失性存储系统（例如，硬盘驱动器或闪存）中，并且可以通过网络分发或不分发。

如上所述，图5的系统和方法利用通用分析系统（CAS），其为非结构化信息管理架构（UIMA）的子系统，可处理各种UIMA组件（例如分析引擎和非结构化信息管理应用）之间的数据交换。CAS通过独立于程序设计语言的类型系统支持数据建模，通过强大的索引机制提供数据访问，并支持针对文本数据创建注释，例如在http://www.research.ibm.com/journal/sj/433/gotz.html中描述的（在此引入作为参考）。应当指出，CAS允许针对文档及其注释之间的链接进行多个定义，因为对分析图像、视频或其它非文本形式有用（如在此引入的参考—第7,139,752号美国专利中教导的那样）。

在一个实施例中，UIMA可以作为中间件提供，以便对各种信息源中的非结构化信息进行有效管理和交换。所述架构通常包括搜索引擎、数据存储、包含流水线文档注释器和各种适配器的分析引擎。可以使用UIMA系统、方法和计算机程序生成输入查询的答案。所述方法包括输入文档并运行至少一个文本分析引擎，所述文本分析引擎包括多个耦合的注释器以便标记文档数据以及标识并注释特定类型的语义内容。因此，它可以用于分析问题，并从文档集合提取实体作为问题的可能答案。

如在图5的架构图中更详细地示出的那样，“查询分析”模块20接收输入，所述输入包括例如用户经由其基于Web的浏览器设备输入的查询19。输入查询19可以包括文本字符串。查询分析方框20还包括词法答案类型（LAT）方框200，其实现功能和编程接口，以便提供有关答案类型（LAT）的附加约束。方框20中的计算包括但不限于词法答案类型。在一个实施例中，LAT检测方框200可以包括用于检测到的LAT的LAT置信度估计功能。

如上所述，问题/查询的LAT是实体的指示对象的类型（即，描述符），所述实体是问题的有效答案。实际上，LAT是自然语言理解模块（包括模式集合和/或具有语义解释器的解析器）检测到的答案的描述符。

参考词法答案类型（LAT）方框200，在图5的查询分析模块20中，LAT表示标识正确答案的语义类型的问题术语。在一个实施例中，如所公知的那样，可以通过模式LAT检测规则在问题中检测LAT。将实施这些规则，并可以手动对其进行编码，或者机器通过关联规则学习自动学习它们。在这种情况下，自然语言理解模型可以限于实施所述规则。

图6是用于在一个实施例中进行具有延迟类型评估的问答的计算机编程方法100的流程图（如在12/126,642中描述）。一般而言，在图6中所示的“延迟类型评估”方法中，第一处理步骤112表示以下步骤：在处理设备处接收输入查询，并生成数据结构（例如，CAS结构），其包括问题字符串和上下文，以便输入到词法答案类型（LAT）处理单元方框200（图5），如在步骤115指示的那样，分析所述查询并计算词法答案类型（LAT）和LAT置信度得分。

作为在LAT处理组件中的处理结果，如在步骤115运行的那样，生成输出数据结构（例如，CAS结构），其包括所计算的LAT，并可能包括来自原始问题的其它术语。

作为在LAT方框200中的处理结果，然后如在步骤120表示的那样，生成输出数据结构（例如，CAS结构），其包括所计算的原始查询（术语、权重）（如在共同未决的第12/152,441号美国专利申请中描述的，此申请的所有公开内容在此全部引入作为参考）。

返回图6，在处理步骤122，执行以下步骤：搜索候选答案文档，并返回结果。

作为在候选答案生成模块中的处理结果，如在步骤122表示的那样，生成输出数据结构（例如，CAS结构），其包括从数据语料库（例如，主源和知识库）发现的所有文档。

在图6中的步骤128，示出了以下步骤：使用LAT（词法答案类型）分析每个文档以获得候选答案，以便产生一组候选答案，这些候选答案可以作为CAS结构输出。

对于在此讨论的实例问题，作为在候选答案生成模块30中的处理结果，如在图6的步骤132表示的那样，对照查询LAT要求检查在文档中发现的这些候选答案，并在步骤133将这些候选答案作为答案（多个）返回（根据候选答案的得分）。

在候选答案与实例匹配中，将候选答案与知识资源中的一个或多个实例匹配，其中所述实例采取的形式取决于知识资源。对于结构化知识库，实例可以是实体，具有百科全书源，例如Wikipedia实例可以是百科全书中的表项，具有诸如词法数据库（theTrusteesofPrincetonUniversity的商标）之类的词法源；实例可以是同义词集合表项（同义词集合），并具有非结构化文档（或网页）集合；实例可以是在文本中出现的任何术语或词组。如果发现多个实例，则采用使用聚合功能的汇总，以组合来自所有候选答案的得分。如果没有发现适合的实例，则返回0得分。

接下来，从所述资源中提取实例关联信息。该信息将每个实例与类型或类型集合关联。取决于所述资源，这可以采取不同的形式；在知识库中，这对应于将实例与类型相关的特定感兴趣关系；对于百科全书源，这可以是为实体指定词法类型的词法类别信息；对于诸如之类的词法资源，这是一组词法关系，例如同义词集合中的下义关系（例如，“artist”isa“person”（“艺术家”是“人”））；以及对于非结构化文档集合，这可以是其它表示类型的术语和词组的共同出现或接近。

然后，尝试将每个LAT与每个类型相匹配。将使用类型的词法表现。例如，对于百科全书，这可以是表示类别的字符串；对于诸如之类的词法资源，这可以是包含在同义词集合中的字符串集合。通过以下方式执行匹配：使用字符串匹配或其它词法资源（例如以便检查LAT和类型之间的同义关系或下义关系。可以针对感兴趣的类型实现特殊逻辑；例如可以激活person匹配器逻辑，该逻辑不需要严格的匹配、同义词或下义词关系，而是LAT和类型是术语“person（人）”的下义词。通过这种方式，例如将为“he（他）”和“painter（画家）”提供正得分，即使它们不是严格的同义词或下义词。最后，可以经由聚合功能，将对匹配度进行评分的得分对集合解析为单个最终得分。

因此，在图7的步骤132a-132c中给出的实施方式中，对于实例问题，自动对照LAT要求检查每个候选答案。这可以由图5中所示的候选答案评分方框40执行，作为证据收集模块50的一部分，具体地说，作为候选答案类型分析模块400的一部分，模块400例如基于其中出现候选答案的文档的语法和语义分析，产生候选答案是正确类型的概率度量。如上所述，该处理需要使用自动评分功能（可以表示为不同分型得分的加权组合），并且在一个实施例中，它可以表示为

TyCorScore=0.2*TyCorWordNet+0.5*TyCorKB+0.4*TyCorDoc

可能具有其它得分组合，并且可以了解最佳评分功能，如在2008年5月14日提交的共同未决的第12/152,441号美国专利申请（所有公开内容在此全部引入作为参考）中描述的。

所述评分功能本身是数学表达式，在一个实施例中，它可以基于逻辑回归函数（线性表达式与指数函数的组合），并且可以应用于更大数量的分型得分。

“候选答案评分”模块40的输出是CAS结构，其具有答案列表，这些答案的得分由答案评分模块中的处理模块给出，所述答案评分模块包括在证据收集模块50的候选答案评分方框40中。在一个实施例中，为这些候选答案提供组合了加权置信度得分的TyCor匹配得分，如在上文描述的那样。

最后，返回到图6，在步骤133，返回顶层候选答案（根据其TyCor得分）和/或进一步处理这些候选答案，以便以在此描述的方式与相应所计算的加权LAT置信度得分组合。

在一个实施例中，可以将图1和5的上述模块表示为UIMA中的功能组件，UIMA优选地实现为硬件和软件的组合，用于开发如下应用：集成针对结构化和非结构化信息组合的搜索和分析。采用UIMA组件以实现最终用户能力的软件程序通常被称为应用、应用程序或软件应用。

UIMA高级架构（图5中示出了它的一个实施例）定义了协作实施UIM应用的大粒度组件的角色、接口和通信。其中包括能够执行以下操作的组件：分析非结构化源制品（例如包含文本数据和/或图像数据的文档），集成和访问结构化源，并基于发现的语义内容对制品进行存储、索引和搜索。

尽管未示出，但UIMA高级架构的一个非限制性实施例包括语义搜索引擎、文档存储、至少一个文本分析引擎（TAE）、至少一个结构化知识源适配器、集合处理管理器、至少一个集合分析引擎，它们全部与应用逻辑通过接口连接。在一个实例实施例中，UIMA运行以访问结构化信息和非结构化信息，以便以在此讨论的方式生成候选答案和答案。非结构化信息可以被视为文档集合，并可以采取文本、图形、静态和动态图像、音频和它们的各种组合的形式。

图8中进一步示出了UIMA的各方面，其中示出了分析引擎（AE）600，其可以是文本分析引擎（TAE）的组件。AE600中包括通用分析系统（CAS）610、注释器620和控制器630。TAE的第二实施例（未示出）包括聚合分析引擎（包含两个或多个组件分析引擎以及CAS），并实现与AE600相同的外部接口。

通用分析系统610

通用分析系统（CAS）610作为通用工具提供，所有注释器620均使用它访问和修改分析结构。因此，CAS610在注释器620之间实现协作，并促进在不同应用和不同类型架构（例如，松散与紧密耦合）中重用注释器620。CAS610可以被视为约束各注释器的操作。

提供CAS610主要用于数据建模、数据创建和数据检索功能。数据建模优选地定义（数据）类型的树层次结构，如下面提供的实例表1中所示。所述类型具有属性或性质（被称为特性）。在各优选实施例中，存在少量的内置（预定义）类型，例如整数（int）、浮点（float）和字符串；UIMA还包括预定义的数据类型“注释”。数据模型在注释器描述符中定义，并与其它注释器共享所述数据模型。在表1中，被视为从现有技术非结构化信息管理应用扩展以适合本发明的优选实施例中的问答的一些“类型”包括：

表1

在表1中，例如所有问答类型（在左边列中列出）都是新类型并扩展另一个新类型或现有类型（在右边列中示出）。例如，“查询”和“查询上下文”的种类都是“查询记录”（新类型）；而“候选答案记录”扩展UIMA类型“注释”，但添加了属于“浮点”的新特性CandidateAnswerScore。此外，表1将查询LAT描述为具有UIMA“注释”类型；CandidateAnswerAT也是“注释”，但具有附加的类型为“浮点”的特性TyCorScore。

CAS610数据结构可以被称为“特性结构”。为了创建特性结构，必须指定类型（参见表1）。注释（和特性结构）被存储在索引中。

CAS610可以被视为方法集合（例如在Java或C++中实现为类），该集合将基于对象的表达性数据结构实现为抽象数据类型。优选地，CAS610设计主要基于TAE特性-属性结构，该结构提供用户定义的对象、属性和值以实现灵活性，提供静态类型层次结构以实现效率，并提供方法以便通过使用一个或多个迭代器来访问存储的数据。

通过CAS610实现的抽象数据模型除了其它特性之外，还为UIMA100提供：平台无关性（即，以声明方式独立于程序设计语言定义类型系统）；性能优势（例如，当通过通用数据模型耦合以不同程序设计语言编写的注释器620时）；通过注释器620的输入/输出规范组成流程（其包括允许类型检查和错误检测的声明式规范，以及对注释器（TAE）作为服务模型的支持）；以及通过语义索引、搜索和检索支持第三代搜索过程（即，语义类型是声明式的，而非基于关键字的）。

CAS610为注释器620提供用于高效构建和搜索分析结构的工具。所述分析结构是数据结构，其主要包括描述原始文档的文本子序列的元数据。分析结构中的一种示例性元数据类型是注释。注释是用于对文本序列进行注释的对象（具有它自己的属性）。存在任意数量的注释类型。例如，注释可以根据其在文档结构中的角色（例如，单词、句子、段落等）标记文本序列，或者根据其语法角色（例如，名词、名词词组、动词、形容词等）描述文本序列。注释的数量或应用基本上没有限制。其它实例包括对文本段进行注释以将它们标识为正确的名称、位置、军事目标、时间、事件、设备、条件、时间条件、关系、生物关系、家庭关系或其它有意义或感兴趣的项目。

通常，注释器620的功能是分析文本以及现有分析结构以发现它旨在识别的新注释集合实例，然后将这些注释添加到分析结构以便由其它注释器620进一步处理。

除了注释之外，图7的CAS610还可以存储原始文档文本以及可能由注释器620产生的相关文档（例如，原始文档的翻译和/或概要）。优选地，CAS610包括扩展，这些扩展便于以既定格式（例如XML）导出分析结构的不同方面（例如，一组注释）。

更具体地说，CAS610是TAE中定义和存储文本注释的部分。应用和注释器620使用CASAPI创建和访问注释。CASAPI优选地包括至少三个不同的接口。类型系统控制新类型的创建，并提供有关类型（继承）之间以及类型和特性之间的关系的信息。表1中提供了类型定义的一个非限制性实例。结构访问接口处理新结构的创建以及值的访问和设置。结构查询接口处理现有结构的检索。

类型系统提供系统已知的实体的分类，类似于面向对象的编程中的类层次结构。类型对应于类，特性对应于成员变量。优选地，类型系统接口提供以下功能：添加新类型，方式为：为新类型提供名称并在层次结构中指定应附加新类型的位置；添加新特性，方式为：为新特性提供名称并给出该特性应附加到的类型，以及值类型；以及查询现有类型和特性以及它们之间的关系，例如“哪个（哪些）类型继承自该类型”。

优选地，类型系统提供少量内置类型。如上所述，基本类型是整数、浮点和字符串。在Java实施方式中，这些类型分别对应于Java整数、浮点和字符串类型。还支持注释和基本数据类型数组。内置类型在结构访问接口中具有特殊的API支持。

结构访问接口允许创建新结构，以及访问和设置现有结构的值。优选地，提供该接口以便创建给定类型的新结构；针对给定结构获得和设置特性的值；以及访问用于内置类型的方法。为域提供特性定义，每个特性具有一个范围。

在一种备选环境中，可以将图1、5的模块表示为GATE（文本工程通用架构）中的功能组件（参见：http://gate.ac.uk/releases/gate-2.0alpha2-build484/doc/userguide.html）。Gate采用如下组件：属于可重用软件块并具有定义明确的接口，这些接口在概念上独立于GATE本身。所有组件集都是用户可扩展的，并统称为CREOLE—语言工程可重用对象集合。GATE框架是其中插入CREOLE组件的底板。用户为系统提供URL列表以便在它启动时进行搜索，并且系统加载这些位置处的组件。在一个实施例中，仅加载它们的配置数据以便开始；当用户请求资源实例化时加载实际类。GATE组件是三种专用JavaBeans中的一种：1）Resource：顶级接口，其描述所有组件。所有组件的共有点是它们可以在运行时加载，并且组件集可由客户扩展。它们具有特性，这些特性以诸如RDF、纯XML或Java属性之类的格式在外部向系统表示为“元数据”。在一个实施例中，资源可以全部是JavaBeans。2）ProcessingResource：是可运行的资源，可以（经由RMI）远程调用并存在于类文件中。为了加载PR（处理资源），系统应知道在何处查找类文件或jar文件（它们也包括元数据）；3）LanguageResource：是由数据组成的资源，通过Java抽象层访问。它们存在于关系数据库中；以及VisualResource：是可视JavaBeans、GUI组件，包括主要GATEgui。与PR相同，这些组件存在于.class或.jar文件中。

在描述GATE处理模型时，其主要特性为算法特性的任何资源（例如解析器、生成器等）均被建模为处理资源。PR是实现Java可运行接口的资源。GATE可视化模型实现如下资源：其任务是显示和编辑被建模为可视资源的其它资源。GATE中的语料库模型是Java集合，其成员是文档。语料库和文档都是语言资源（LR）的类型，其中所有LR都具有与其关联的特性图（Java图），该图存储有关所述资源的属性/值信息。FeatureMap还用于经由注释模型将任意信息与文档范围（例如，文本块）关联。文档具有DocumentContent和一个或多个AnnotationSet，DocumentContent目前是文本（未来版本可能添加对视听内容的支持），AnnotationSet是Java集合。

作为UIMA，GATE可以用作基础以便实现自然语言对话系统和多模式对话系统（具有所公开的问答系统作为主要子模块之一）。上面的参考资料（第6,829,603、6,983,252和7,136,909号美国专利，在此引入作为参考）使得本领域技术人员能够构建这种实施方式。

图8示出了其中可以采用本系统和方法的计算系统401的示例性硬件配置。所述硬件配置优选地具有至少一个处理器或中央处理单元（CPU）411。CPU411通过系统总线412与以下各项互连：随机存取存储器（RAM）414、只读存储器（ROM）416、输入/输出（I/O）适配器418（用于将诸如磁盘机421和磁带驱动器440之类的外围设备连接到总线412）、用户接口适配器422（用于将键盘424、鼠标426、扬声器428、麦克风432和/或其它用户接口设备连接到总线412）、通信适配器434（用于将系统401连接到数据处理网络、因特网、内联网、局域网（LAN）等），以及显示适配器436（用于将总线412连接到显示设备438和/或打印机439（例如，数字打印机等））。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（articleofmanufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

上面描述的实施例是示例性实例，不应当解释为将本发明限于这些特定的实施例。因此，所属技术领域的技术人员可以实现各种更改和修改，而不偏离在所附权利要求中限定的本发明的精神或范围。

Claims

1.一种用于自动生成问题答案的计算机实现的方法，所述方法包括以下步骤：

确定与输入查询关联的词法答案类型LAT；

计算输入查询LAT的第一得分，其中所述第一得分指示表示所确定的查询LAT的估计准确性的LAT置信度值；

从信息源获得所述输入查询的候选答案；

确定所述候选答案的答案类型AT；

比较所述查询LAT与候选答案AT；

计算表示所比较的查询LAT与所述候选答案AT之间的匹配度的第二得分；以及

组合所述第一得分与所述第二得分，以便提供指示所述候选答案的质量的总得分，

其中处理设备自动执行所述确定查询LAT、计算所述第一得分和第二得分、获得候选答案、确定AT、比较以及组合步骤中的一个或多个。

2.根据权利要求1的计算机实现的方法，其中计算与所述输入查询关联的所述查询LAT的第一得分包括：

提取描述所确定的查询LAT的特性集合；以及

向所述特性集合应用模型以便产生所述LAT置信度值。

3.根据权利要求2的计算机实现的方法，其中所应用的模型是以下项中的一个或多个：逻辑回归模型，或从先前训练实例集合手动或自动构造的决策树模型。

4.根据权利要求2的计算机实现的方法，其中所提取的特性集合中的一个特性包括模式规则，所述提取特性集合包括：

标识与所述查询关联的句法模式规则，从定义通用LAT的模式规则集合来标识所述模式规则。

5.根据权利要求2的计算机实现的方法，其中所提取的特性集合中的一个特性包括查询单词是候选答案LAT的频率，所述提取特性集合进一步包括：

检查检测到的LAT单词的先前实例；以及

根据所述先前实例计算LAT单词频率。

6.根据权利要求2的计算机实现的方法，其中所提取的特性集合中的一个特性包括所述候选答案LAT的词性，所述提取特性集合进一步包括：

获得与所述查询关联的解析树数据结构；以及

遍历所述解析树，以便标识与所述候选答案LAT关联的单词之间的语法关系。

7.根据权利要求2的计算机实现的方法，其中所提取的特性集合中的一个特性包括共同参考信息，所述提取特性集合进一步包括：确定候选答案LAT单词是否共同参考所述查询中识别为LAT的某一其它单词。

8.根据权利要求2的计算机实现的方法，其中并行提取所提取的特性集合中的一个或多个特性。

9.根据权利要求2的计算机实现的方法，其中计算表示所比较的查询LAT与所述候选答案AT之间的匹配度的第二得分包括：

将所述候选答案与语料库或知识库中的实例相匹配；

检索与所述语料库或所述知识库中的实例关联的类型；以及

将所述查询LAT与所检索的类型相匹配，以便产生类型强制TyCor值，所述第二得分包括所述TyCor值。

10.根据权利要求9的计算机实现的方法，其中查询最多具有n个候选答案LAT，组合以便提供所述总得分的步骤是根据以下公式的求和：

(置信度得分_LAT1)(TyCor_LAT1)+(置信度得分_LAT2)(TyCor_LAT2)+…+(置信度得分_LATn)(TyCor_LATn)

其中置信度得分_LAT1、置信度得分_LAT2和置信度得分_LATn是所产生的置信度值，所述置信度值表示所述查询的每个所确定的LAT的估计准确性，并且TyCor_LAT1、TyCor_LAT2和TyCor_LATn是候选答案对于每个LAT的所产生的类型强制TyCor值。

11.一种用于自动生成问题答案的系统，所述系统包括：

存储设备；

一个或多个处理器设备，每个处理器设备与所述存储设备通信并被配置为执行一种方法，所述方法包括：

确定与输入查询关联的词法答案类型LAT；

从信息源获得所述输入查询的候选答案；

确定所述候选答案的答案类型AT；

比较所述查询LAT与候选答案AT；

组合所述第一得分与所述第二得分，以便提供指示所述候选答案的质量的总得分。

12.根据权利要求11的系统，其中用于计算所述查询LAT的第一得分的所述一个或多个处理器设备被配置为通过以下操作执行所述计算：

提取描述所确定的查询LAT的特性集合；以及

向所述特性集合应用模型以便产生所述LAT置信度值。

13.根据权利要求12的系统，其中所述一个或多个处理器设备被配置为应用以下项中的一个或多个：逻辑回归模型，或从先前训练实例集合手动或自动构造的决策树模型。

14.根据权利要求12的系统，其中所提取的特性集合中的一个特性包括模式规则，用于提取特性集合的所述一个或多个处理器设备进一步执行：

15.根据权利要求12的系统，其中所提取的特性集合中的一个特性包括查询单词是候选答案LAT的频率，用于提取特性集合的所述一个或多个处理器设备进一步执行：

检查检测到的LAT单词的先前实例；以及

根据所述先前实例计算LAT单词频率。

16.根据权利要求12的系统，其中所提取的特性集合中的一个特性包括所述候选答案LAT的词性，用于提取特性集合的所述一个或多个处理器设备进一步执行：

获得与所述查询关联的解析树数据结构；以及

17.根据权利要求12的系统，其中所提取的特性集合中的一个特性包括共同参考信息，用于提取特性集合的所述一个或多个处理器设备进一步执行：确定候选答案LAT单词是否共同参考所述查询中识别为LAT的某一其它单词。

18.根据权利要求12的系统，其中用于计算第二得分的所述一个或多个处理器设备被配置为通过以下操作执行所述计算：

将所述候选答案与语料库或知识库中的实例相匹配；

检索与所述语料库或所述知识库中的实例关联的类型；以及

19.根据权利要求18的系统，其中查询最多具有n个候选答案LAT，用于组合以便提供所述总得分的所述一个或多个处理器设备根据以下公式执行求和：

20.一种用于从包括文本字符串的查询提取特性的方法，所述方法包括：

标识与所述查询关联的句法模式规则，从定义通用词法答案类型LAT的模式规则集合来标识所述模式规则，所提取的特性中的第一特性包括标识的模式规则；

检查检测到的词法答案类型LAT的先前实例，并根据所述先前实例计算LAT单词频率，所提取的特性中的第二特性包括所计算的查询单词是候选答案LAT的频率；

获得与所述查询关联的解析树数据结构；

在所述解析树结构中标识与所述候选答案LAT关联的单词之间的语法关系，所提取的特性中的第三特性包括所述候选答案LAT的词性；

确定所述候选答案LAT单词是否共同参考所述查询中识别为LAT的某一其它单词，所提取的特性中的第四特性包括共同参考信息，其中一个或多个编程的处理器设备执行标识句法模式规则、检查先前实例、获得所述解析树数据结构、标识语法关系，以及确定LAT单词共同参考；以及

产生表示检测到的查询LAT的估计准确性的置信度值。

21.根据权利要求20的用于提取特性的方法，其中所述一个或多个编程的处理器设备执行并行提取所述第一、第二、第三和第四特性中的一个或多个。

22.根据权利要求20的用于提取特性的方法，还包括：向所提取的第一、第二、第三和第四特性应用模型以便产生所述置信度值。