CN103221915B

CN103221915B - 在开域类型强制中使用本体信息

Info

Publication number: CN103221915B
Application number: CN201180056298.2A
Authority: CN
Inventors: D·A·弗鲁茨; A·A·卡利安普; J·W·默多克四世; C·A·韦尔蒂; W·W·扎德罗兹尼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-24
Filing date: 2011-09-24
Publication date: 2017-02-08
Anticipated expiration: 2031-09-24
Also published as: US9569724B2; US20120331003A1; WO2012040677A1; US20120078873A1; CN103221915A; US9508038B2; WO2012040676A1; EP2616927A1; US20120330921A1; EP2616927A4; US20120078926A1

Abstract

一种计算机实现的系统、方法和程序产品生成输入查询文本字符串中的问题的答案。所述方法包括：由编程的处理器单元确定与输入查询关联的词法答案类型（LAT）字符串；从数据语料库自动获得所述输入查询的候选答案字符串；将查询LAT字符串映射到结构化资源中的第一类型字符串；将所述候选答案字符串映射到所述结构化资源中的第二类型字符串；判定所述第一类型字符串和所述第二类型字符串是否不相关；以及根据所述类型不相关的判定，对所述候选答案字符串进行评分，其中所述结构化资源包括提供本体内容的语义数据库。

Description

在开域类型强制中使用本体信息

相关申请的交叉引用

本发明涉及并要求2010年9月24日提交的共同拥有、共同未决的第61/386,019号美国临时专利申请的提交日期的优先权，此临时专利申请的所有公开内容在此全部引入作为参考。

背景技术

有关问答（QA）的当前问题和方法的介绍可以在基于Web的参考http://en.wikipedia.org/wiki/Question_answering中找到。一般而言，QA是一种类型的信息检索。如果给出文档集合（例如万维网或本地集合），则系统应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索（例如文档检索）需要更复杂的自然语言处理（NLP）技术，并且有时被视为超越搜索引擎的后续步骤。

QA研究尝试处理各种问题类型，包括：事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同，从小型本地文档集合到内部组织文档，到编译后的新闻专线报道，再到万维网。

闭域QA在特定领域（例如，医学或汽车维修）下处理问题，并且可以被视为更容易的任务，因为NLP系统可以利用通常以本体形式化的领域特定的知识。开域QA处理有关几乎任何事物的问题，并且只能依赖通用本体和世界知识。另一方面，这些系统通常具有可从其中提取答案的更多数据。

备选地，闭域QA可能指这样一种情况：其中仅接受受限类型的问题，例如询问描述性信息而不是过程信息的问题。

对信息的访问目前由两种范式控制。第一，数据库查询，其回答有关结构化记录集合中的内容的问题。第二，搜索，其响应于针对非结构化数据（例如，文本或html）集合的查询而提供文档链接集合。

这种信息查询范式的一个未解决的主要问题是：没有能够根据包括在文档集合（可以是结构化、非结构化或这两者）中的信息准确回答实际问题的计算机程序。这种实际问题可以是宽泛的（例如“what are the risks of vitamin K deficiency?（维生素K缺乏的危害是什么？）”），或者是狭窄的（例如“when and where was Hillary Clinton’sfather born?（希拉里·克林顿的父亲出生在何时何地？）”）。

面临的挑战是理解查询，查找可能包含答案的适当文档，以及提取正确答案以提供给用户。需要更高级的方法以回答开域问题。

发明内容

在一个方面，提供了一种进行问答并使用候选答案评分技术执行自动候选答案评估的计算基础架构和方法，所述候选答案评分技术将候选答案词法类型（LT）映射到查询LAT实例（类型）以产生最终TyCor得分，该得分另外获得和使用一个或多个本体（ontology）以进行类型匹配，并使用公理（axiom）/推理以便考虑类型包含/排除。

因此，在一个方面，提供了一种用于生成问题答案的计算机实现的系统、方法和程序产品，包括：接收输入查询文本字符串；由编程的处理器单元确定与输入查询关联的词法答案类型（LAT）字符串；从数据语料库自动获得所述输入查询的候选答案字符串；将查询LAT字符串映射到结构化资源中的第一类型字符串；将所述候选答案字符串映射到所述结构化资源中的第二类型字符串；判定所述第一类型字符串和所述第二类型字符串是否不相关；以及根据所述类型不相关的判定，对所述候选答案字符串进行评分，其中所述结构化资源包括提供本体内容的语义数据库。

进一步就此方面而言，通过将所述结构化资源中关联所述第一类型字符串与所述第二类型字符串的公理标识为不相关而执行所述判定步骤。

在此进一步方面，类型之间的一个或多个公理包括以下项中的一个或多个：类型之间的等价公理、包容公理以及同级（sibling）公理。

在进一步方面，提供了一种用于生成问题答案的系统，包括：存储器；与所述存储器通信的处理器设备，所述处理器设备执行一种方法，包括：接收输入查询文本字符串；由编程的处理器单元确定与输入查询关联的词法答案类型（LAT）字符串；从数据语料库自动获得所述输入查询的候选答案字符串；将查询LAT字符串映射到结构化资源中的第一类型字符串；将所述候选答案字符串映射到所述结构化资源中的第二类型字符串；判定所述第一类型字符串和所述第二类型字符串是否不相关；以及根据所述类型不相关的判定，对所述候选答案字符串进行评分，其中所述结构化资源包括提供本体内容的语义数据库。

在此进一步方面，通过将所述结构化资源中关联所述第一类型字符串与所述第二类型字符串的公理标识为不相关而执行所述判定步骤。

在此进一步方面，类型之间的一个或多个公理包括以下项中的一个或多个：类型之间的等价公理、包容公理以及同级公理。

提供了一种用于执行操作的计算机程序产品。所述计算机程序产品包括存储介质，所述存储介质可由处理电路读取并存储由所述处理电路运行以执行方法（多个）的指令。所述方法（多个）与上面列出的相同。

附图说明

在下面给出的具体实施方式的上下文中理解本发明的目标、特性和优点。在附图的上下文中理解具体实施方式，所述附图形成本公开的重要部分，其中：

图1示出了其中可以采用本发明的问/答方法的高级逻辑架构10；

图2A示出了采取两个字符串（即，所确定的LAT和候选答案）作为输入并确定类型匹配度的候选答案评分过程250；

图2B示出了根据一个实施例的使用来自本体资源的本体信息执行将LAT字符串映射到类型的另一个候选答案评分过程275；

图3A是示出用于进行具有延迟类型评估的问答的计算机编程后的候选答案生成过程100的流程图；

图3B是示出根据一个实施例的在图3A的步骤132执行的得分产生的流程图；

图4是示出在图3B的步骤140执行的使用本体资源将LAT字符串映射到类型的流程图；

图5是示出在图3B的步骤150执行的将候选答案映射到数据资源中的实例的流程图；

图6示出了诸如与YAGO类型紧密相互链接的DBpedia页之类的结构化知识库的摘录；

图7示出了用于提供处理CAS数据结构的一种类型的分析引擎的UIMA框架实现的一个方面；以及

图8示出了用于在一个实施例中运行图2A-5中描述的方法步骤的示例性硬件配置。

具体实施方式

图1示出了包括典型问答系统10的主要组件及其工作流。问题分析组件20接收自然语言问题19（例如，“Who is the42^nd president of the United States?（谁是美国第42任总统？）”），并通过功能200分析该问题以产生预期答案的语义类型（在该实例中，为“president（总统）”），并且可选地产生其它分析结果以供下游处理。查询分析模块中的词法答案类型（LAT）方框200实现功能和编程接口，以确定查询的LAT（多个）以便随后用于候选答案类型匹配。搜索组件30a根据问题分析的输出形成查询29，并查阅各种资源，例如万维网41或者一个或多个知识资源（例如，数据库、知识库42），以便检索与回答所述查询/问题相关的支持证据44，例如包括整个文档或文档部分、网页、数据库元组等。候选答案生成组件30b然后从搜索结果45中提取所述问题的可能（候选）答案，然后答案选择组件50对这些答案进行评分和排序，以便产生具有关联置信度得分的最终排序答案列表。

在一种类型的具有延迟类型评估的问答系统中，在提取正确答案（即，从数据语料库、知识库或因特网等开域源获得的查询的候选答案实例）之后，执行答案分型（typing），即，确定被搜索实体（即，候选答案）和词法类型（LT）之间的关联。将所确定的候选答案词法类型（LT）与所述查询的所计算的词法答案类型（“LAT”）字符串（预先由问题分析方框20检测）相比较，并在确定答案的正确性时进行评估。

即，作为答案选择组件50的一部分，QA系统可以使用类型强制（TyCor）过程，其中根据多种技术将候选答案的词法类型“强制”为问题LAT。所述强制过程可以涉及候选答案与实例匹配、实例与类型关联提取以及LAT与类型匹配。“强制”的结果被称为TyCor得分，所述得分反映可以将候选答案“强制”为LAT的程度，其中较高的得分指示较好的强制。

本发明提供了一种候选答案类型评分过程，所述过程将候选答案LT映射到查询LAT实例以产生最终得分，所述得分使用一个或多个本体以进行类型匹配；以及进一步，使用公理/推理以便考虑类型包含/排除。

共同拥有、共同未决的标题为“SYSTEM AND METHOD FOR PROVIDING QUESTIONAND ANSWERS WITH DEFERRED TYPE EVALUATION”（用于提供具有延迟类型评估的问答的系统和方法）的第12/126,642号美国专利申请（在此引入作为参考）描述了一种其中自动生成问题答案的QA系统和方法，所述系统和方法包括比较查询LAT和与每个候选答案关联的候选答案LT。

本公开通过实现一种修改后的TyCor过程以评估候选答案，以便使用来自本体资源的一个或多个本体产生最终候选答案得分，而扩展并补充了在共同未决的第12/126,642号美国专利申请中描述的系统和方法的效用。本体资源可以包括语义知识库（KB），或者包含实例以及与其关联的某些概念或类型的任何数据库。语义KB链接到结构化资源以进行类型匹配，并在本体资源中标识公理/推理以便考虑类型包含/排除。如在此描述的那样，在TyCor评分过程中，通过自动访问语义知识库（KB）来访问本体信息。

出于示例目的，在一个实施例中，包括本体信息（在下文描述的TyCor评分过程中自动访问）的语义KB是诸如基于Web的资源YAGO（“Yet Another Great Ontology”）之类的语义数据库，YAGO提供界面，允许用户以YAGO主页（http://www.mpi-inf.mpg.de/yago-naga/yago/）（在此引入作为参考）上的查询的形式（向YAGO）提出问题。YAGO的语义知识库包括从（http://www.wikipedia.org/）（位于加利福尼亚州旧金山的Wikimedia Foundation,Inc.的注册商标）和（http://wordnet.princeton.edu/）（位于新泽西州普林斯顿的普林斯顿大学的普林斯顿大学信托基金的注册商标）自动提取的内容，以便提供结构化本体信息。其它语义数据库包括基于Web的资源DBpedia（www.DBpedia.org），它是提供从知识库自动提取的结构化信息的基于Web的资源。

此外，还可能使用网站自动访问本体信息，该网站枚举概念（单词）的所有意义。例如，中的概念可能具有多个意义，例如中的概念（单词）“star”可以指天文对象或电影“明星”。在一个实施例中，YAGO概念被自动链接到网站使用诸如DBpedia/YAGO和/或之类的本体信息访问的类型强制过程可以改进TyCor评分的质量和覆盖范围。

在一个实施例中，在TyCor评分过程中使用“本体”包括“公理”的标识和使用。一种公理称为不相关性公理，其可以用于生成负的TyCor得分（称为“AnTyCor”得分）并用于消除问题的错误候选答案。“公理”在此也称为“逻辑规则”（例如表示子类规则或等价类规则）。

参考图3A，示出了用于进行具有延迟类型评估的问答，从而导致生成候选答案TyCor得分（例如在共同未决的第12/126,642号美国专利申请中描述）的计算机编程后的方法100的流程图。

一般而言，在图3A中所示的“延迟类型评估”方法中，第一处理112表示以下步骤：在处理设备处接收输入查询，并生成数据结构，其包括问题字符串和上下文，以便输入到词法答案类型（LAT）处理单元方框200（图1），其中如在步骤115指示的那样，分析所述查询并计算词法答案类型（LAT）。作为在LAT处理组件中的处理结果，如在115运行的那样，生成输出数据结构，其包括所计算的LAT，并可能包括来自原始问题的其它术语。

作为在LAT方框200中的处理结果，然后如在120表示的那样，以例如在共同未决的第12/152,441号美国专利申请（其所有公开内容在此全部引入作为参考）中描述的方式生成包括所计算的原始查询（术语和分配的权重）的输出数据结构。

返回到图3A，然后在处理122，执行以下操作：在具有结构化和半结构化内容的数据语料库中搜索候选答案文档，并返回结果。

作为在候选答案生成模块中的处理结果，如在122表示的那样，生成输出数据结构，其包括从数据语料库（例如，主源和知识库）中找到的所有文档。

然后，在128，示出了以下步骤：使用所生成的LAT（词法答案类型），分析每个文档以获得候选答案，以便产生一组候选答案。

然后，在132，执行以下操作：在此处描述的实施例中，评估每个候选答案，并使用本体信息针对每个候选答案产生得分。根据此处描述的实施例的修改后的TyCor处理的结果将产生候选答案得分，并在步骤133返回答案（多个）（根据其得分）。

图3B是示出根据一个实施例的在图3A的步骤132处执行的候选答案评估和得分产生的流程图。针对所接收的候选答案执行的评估包括如图3B中所示的TyCor评分过程，所述过程包括：在140，将LAT字符串映射到结构化资源中的一个或多个词法类型或概念；在150，将每个候选答案映射到结构化资源中的一个或多个实例；在160，针对每个候选答案或映射到候选答案的实例，在结构化资源中提取一个或多个词法类型或概念；以及在170，在结构化资源中标识一个或多个公理，这些公理将映射到LAT字符串的词法类型链接到映射到所述实例（其又映射到所述候选答案）的词法类型。

因此，如在图3B的140示出的那样，通过访问具有本体内容的资源（例如，诸如YAGO和/或之类的语义数据库），并根据LAT查找类型或概念，执行将从查询中获得的LAT字符串映射到结构化资源中的一个或多个词法类型或概念。

在一个实施例中，执行以下操作：访问语义数据库，并获得与LAT字符串匹配的类型或概念实体。调用匹配功能，该功能返回与某一置信度关联的排序映射列表。可以使用词义消歧功能执行将单词映射到正确意义的映射步骤。可以按照以下参考资料中的描述来使用词义消歧功能：Agirre,Eneko和Philip Edmonds（编辑）在2006年发布的“Word SenseDisambiguation:Algorithms and Applications”（词义消歧：算法和应用）（多德雷赫特：Springer，www.wsdbook.org）；或者Yarowsky,David在2000年发布的“Word sensedisambiguation.Handbook of Natural Language Processing”（词义消歧—自然语言处理手册）（Dale等人编辑，第629-654页，纽约：Marcel Dekker），或者Ide,Nancy和Jean Véronis在1998年发布的“Word sense disambiguation:The state of theart.Computational Linguistics”（词义消歧：现状（计算机语言学））（24(1)：1-40页）。例如，LAT“star”可以用于“天文对象”意义，或者可以用于“电影演员”意义，将使用上下文自动对此进行推断以获得映射。由于不同单词具有对应于不同概念的不同意义，因此映射将提供具有置信度得分的不同解释。将上下文（即，现有知识或倾向性）输入到所述匹配功能以区分意义。

图4示出了在一个实施例中使用本体信息的、在图3B的140将LAT字符串映射到结构化数据库中的类型的详细得分生成过程。在142，首先执行以下操作：通过在本体资源（例如，YAGO和/或）中进行搜索，获得一组标识的/可搜索的概念，这些概念具有与所述LAT字符串显式匹配的标记或ID。然后，在145开始，获得三条信息，处理组件执行获得LAT“意义”排序（例如由提供）。然后，在146，处理组件（例如搜索引擎）对结构化数据资源知识库、数据库、数据语料库或Web进行搜索，以获得概念的实例的数量。例如，知识库页包括具有链接（例如，类别）的类别，这些类别被视为“类型”，但是在和DBpedia之间提供链接（例如，通过在URL之间使用1:1映射），因为DBpedia提供页内容的更结构化的视图。步骤146根据例如在Web上提供的信息中检测到的概念的实例的数量（即，频率），产生类型的排序列表。

如上所述，将问题LAT映射到分型系统时，可以通过考虑实体以及实体在问题中出现的上下文（需要上下文以消除实体的歧义），进一步执行词义消歧。因此，在147，处理组件实现功能，以便计算查询LAT字符串周围的文本和与本体资源（或本体）中的概念关联的上下文数据之间的相似性度量（得分）。这包括经由处理搜索引擎：1）标识问题中的上下文，并获得上下文的表示/模型；以及2）实现功能，以便根据所述表示对上下文之间的相似性进行测量和评分。

作为一个实例，类型“film”可以指“胶片”或“电影”。在一个实施例中，对于映射，将使用问题的上下文，此外还使用来自诸如之类的各种源的信息（例如，用于获得名词（“类型”）的意义信息）、来自领域语料库的类型流行度得分（例如，作为宝石的“gem”比作为人的“gem”更流行）、有关关系（预示哪些是与名词关联的典型关系/谓语）的背景知识资源（例如，“sold this gem”提供更多的证据以表示gem是宝石而不是人）。

然后，在149，所述过程根据在步骤145、146和147获得的意义排序、排序列表和相似性度量得分的加权组合，生成第一置信度得分。备选地，置信度得分可以基于未加权组合。在加权组合的情况下，向每个得分应用加权，以便根据这些输出的加权组合提供整体置信度得分。这可以例如使用机器学习算法完成，例如在David W.Hosmer、Stanley Lemeshow的“Applied logistic regression”（实用的逻辑回归）（John Wiley and Sons，2000年，在此引入作为参考）中描述的逻辑回归。可以将获得的原始得分输入到机器学习过程，该过程生成应用于个体得分的权重；例如，可以为上下文相似性得分提供更高的权重，因为它在确定意义中很重要。应当理解，可以执行步骤145-147中的一个或多个，以便为LAT字符串到词法类型得分的映射提供一个或多个生成的输出（用于最终得分生成），并将映射和关联的置信度得分保存在存储设备中。

在一个实施例中，可以将原始得分（145、146和147）简单地组合在应用的组合功能中，即，总计为最终得分，并且可以在不应用权重的情况下将这些得分相加。

返回到图3B，在150，根据在结构化资源（例如和DBpedia）中找到的实例，映射每个候选答案。例如，将候选答案映射到Wikipedia（DBpedia）页中的实例，从而导致生成包括所映射的实例的输出数据结构。

图5示出了在一个实施例中使用具有结构化内容或信息的数据资源的、在图3B的150将候选答案字符串映射到结构化数据库中的实例的详细得分生成过程。在152，首先执行以下操作：例如通过在结构化资源（例如，和DBpedia）中进行搜索，获得一组商业标识的/可搜索的实例，这些实例具有与候选答案字符串显式匹配的标记或ID。然后，在154，处理组件（例如搜索引擎）对结构化数据资源知识库、数据库、数据语料库或Ｗeb进行搜索，以获得候选答案的实例数量。步骤154根据例如在Web或语料库中提供的信息中检测到的实例的实例数量（即，频率），产生排序实例列表。然后，在157，处理组件实现功能，以便计算问题/查询字符串中的文本和与本体资源（本体）中的实例关联的上下文数据之间的相似性度量（得分）。然后，在159，所述过程根据在154和157获得的排序实例列表和相似性度量得分的加权（或在备选实施例中为未加权）组合，生成置信度得分。该步骤可以包括向每个所述得分应用加权，以便根据这些输出的加权组合提供整体置信度得分。应当理解，可以执行步骤154和157之一或两者，以便为候选答案字符串到结构化资源中的实例的映射提供一个或多个生成的输出（用于最终得分生成），并将对应的映射和关联的置信度得分保存在存储设备中。

在一个实施例中，上下文的使用（例如，具体地说在图4中的步骤147以及在图5中的步骤157）包括获得查询中的文本或与查询相关的文本，作为周围上下文以便用于确定相似性。在LAT字符串的情况下，在图4的147，问题LAT上下文用于与本体资源中的概念或类型相匹配，以便获得对应的匹配得分；以及在候选答案字符串的情况下，在图5的157，问题上下文用于与结构化资源中的实例相匹配，以便获得对应的匹配得分。例如，实体“Washington”存在歧义，因为它可以指人（George Washington（乔治·华盛顿））、城市（Washington DC（华盛顿哥伦比亚特区））、机构（Univ.of Washington（华盛顿大学））、州（Washington（华盛顿州））等。因此，确定实体的正确意义取决于其中出现该实体的上下文。因此，在一个实施例中，相似性度量得分包括应用功能，例如：使用BOW（词袋）模型对齐上下文，例如在http://en.wikipedia.org/wiki/Bag_of_words_model中描述的，或应用向量相似性模型方法，例如在http://en.wikipedia.org/wiki/Vector_space_model中描述的。可以使用百科全书资源和结构化资源（例如，和DBpedia）中的各种信息，以便例如获得替代名称、可能的消歧等。此外，从杂乱的类型或实例中识别类型或实例可能需要消歧。例如，如果给出候选答案到两个不同类型系统的映射，则从每个类型系统中获得类型可能需要消歧或类型对齐，例如在Agirre,Eneko和Philip Edmonds（编辑）在2006年发布的标题为“Word Sense Disambiguation:Algorithms and Applications”（词义消歧：算法和应用）（多德雷赫特：Springer，www.wsdbook.org）的文章中描述的。

对于上下文相似性测量，在中访问与每个概念的关联（多个），每个概念包括有关概念所指内容的描述以及有关单词在文本中的出现位置的实例。这些描述提供概念。在访问YAGO时，包括与每个概念关联的上下文，所述上下文采取注释形式（而不是描述）。

返回到图3B，在160，针对每个候选答案，提供在结构化资源中标识一个或多个类型或概念。在一个实施例中，可以使用在150获得的一个或多个实例来执行所述标识，但是，这并非必需的。进一步就该步骤而言，还可以执行以下操作：提取一个或多个类型或概念以便存储在存储设备中。

因此，在160，一旦将候选答案字符串映射到结构化KB中的实例，就执行以下操作：获得所涉及的实体的类型，检查其类型断言（实例类型或IT），并导航类型分类以便获得所有相关类型。执行各种技术以便在大型领域语料库中寻找和发现与实体关联的流行类型。

例如，在存在相对模糊的候选字符串的情况下（例如“JFK”—指人、机场或电影），首先识别上下文以消除实体的歧义。在150将实体映射到某一知识库（例如，可能包括类型信息的或DBpedia）时，使用包括实体的问题的上下文执行任何消歧。在实例候选答案字符串“JFK”中，从上下文中推断JFK指president（总统）类型。可以将其映射到页中的JFK表项，以便例如获得类型（“U.S.president（美国总统）”、“politician（政治家）”、“senator（参议员）”、“writer（作家）”等），这些类型可以提取自Wikipedia页的“category（类别）”部分（可能包括类型单词或词组）。可以执行搜索引擎连同解析器以便提取类型。在一个实施例中，所述解析器包括查找词组的中心名词以便例如提取相关类型的智能。

最后，如在170指示的那样，从结构化本体资源（例如，），标识结构化资源中的一个或多个公理，这些公理述一个或多个LT链接到IT（即，指定LT与IT之间的关系），以便产生候选答案和LAT字符串得分。所标识的公理（多个）（例如，子类或子类型链接）在候选答案实例（/类型）和LAT实例（/类型）之间标识，并用于修改最终TyCor得分。首先可以实现类型对齐功能，如Aditya Kalyanpur、J.William Murdock、James Fan和Christopher Welty在“Leveraging Community-built Knowledge for Type Coercion inQuestion Answering”（在问答中利用共同体构建的知识实现类型强制）（2011年ISWC会议记录，在此引入作为参考）中描述的。

在一个实施例中，实例“disjointness（不相关性）”公理（多个）可以在本体资源中提供，并用于生成AnTyCor得分，如现在描述的那样：

作为一个非限制的示例性实例，假设问题LAT是“country（国家）”，候选答案是“Albert Einstein（阿尔伯特·爱因斯坦）”，其在结构化资源中具有类型Person。在类型Person和Country之间存在的“disjointness”公理将针对候选答案产生负的TyCor得分（即，例如具有-1值的AnTyCor得分）。即使未在本体中定义显式不相关性公理时，也可以从实例数据以统计方式推断不相关性，并将其用于生成AnTycor得分，如在此引入作为参考的Aditya Kalyanpur、J.William Murdock、James Fan和Christopher Welty在“LeveragingCommunity-built Knowledge for Type Coercion in Question Answering”（在问答中利用共同体构建的知识实现类型强制）（2011年ISWC会议记录）中描述的。

进一步就该实例而言，如果类型Country和Person在非常大的结构化源中没有公共实例，则以某一置信度推断它们在统计上不相关。可以估计类型的“completeness（完整性）”并将其用于定义AnTyCor得分。

如上所述，本体公理（即，在本体中定义的公理）是事实断言或推断规则。

实例1）：“Albert Einstein is-a Scientist（阿尔伯特·爱因斯坦是科学家）”—是事实断言；

实例2）：“Scientist is-a Person（科学家是人）”是简单的子类公理/规则，其声明概念Scientist（科学家）的每个实例也是概念Person的实例（即，这种子类公理的集合形成分类）。

实例3）：“Person is-disjoint-with Country（人与国家不相关）”是不相关性公理，其声明概念Person的实例不能是Country的实例（即，这两个概念互斥）。

这种规则/公理由领域专家手动定义，以及/或者（半）自动地使用知识挖掘技术从大型语料库中获得。因此，例如，如果给出询问Country的问题，从计算出候选答案“Albert Einstein”。使用上面的实例（1）-（3）处理，从结构化知识库（例如包含“类型”的DBpedia）访问“Albert Einstein”的记录（因为在DBpedia记录中为实例指定类型），或者从YAGO或（在线提供许多概念的本体）中的本体来访问，并从中推断因为Einstein（爱因斯坦）是科学家，他也是“类型”person，因此不是“类型”country。因此，将为该候选答案指定AnTyCor得分（负的TyCor得分）。

例如，图6示出了诸如定义YAGO类型并与YAGO资源紧密相互链接的DBpedia页之类的结构化知识库的摘录。在图6中，DBpedia页300提供属性列表302，以及对应的属性值305。一个可搜索的属性是标记310，其具有指示类型的值，例如“Scientist”315。类型“scientist”的进一步实例值显示为实例列表320，例如Alfred_Russel_Wallace、Antoine_Lavoisier等。因此，搜索对应的DBpedia页源代码将自动获得候选答案实例的instance（实例）“类型”。还示出了给定类型的子类型列表345—在该实例中，为类型Scientist315的子类型，例如“Canadian Computer Scientist（加拿大计算机科学家）”、“Welsh SpaceScientist（威尔士空间科学家）”等。如在图6中指示的，页300还包括附加表项，其将类型“scientist”的属性指示为类型“Person”330的子类325，例如由表项：yago:Person100007846指示。即，DBpedia页300指定子类公理325，其指示类型“Scientist”是“Person”的子类。在类型名称结尾处的对应标识符340指该类型的可搜索的意义。在一个实施例中，对于不相关性公理的情况，将这些项添加到YAGO的YAGO类型之间。例如，类型“Person is disjoint with location（人与位置不相关）”。

在AnTyCor中使用该公理的方式如下：考虑查询LAT：“Country”和候选答案：“Albert Einstein”。1.针对上面的候选答案使用CHAI处理以获得http://dbpedia.org/page/Albert_Einstein；2.通过（从1）访问http://dbpedia.org/class/yago/Scientist110560637获得候选答案的类型字符串；3.通过访问http://dbpedia.org/class/yago/Country108544813，使用LATTE处理以获得查询LAT的类型字符串；以及4.TATA处理将（来自2的）类型字符串与（来自3的）类型字符串相比较，这例如产生得分-1，因为这两个类型不相关。通过推理器发现这种不相关性，因为Scientist是Person的子类型，Country是Location（位置）的子类型，并且添加了Person与Country不相关的公理或规则。因此，在步骤4结束时产生的最终TyCor得分是值为-1的AnTyCor得分。

作为另一实例，假设先验知道结构化资源中的特定类型的覆盖率非常高，则在封闭世界假设下，可以为不属于所关注类型的任何实例指定（负的）AnTyCor得分。

在另一实施例中，可以实现逻辑推理器组件（例如，在A.Riazanov和A.Voronkov的标题为“The Design and Implementation of Vampire.AI Communications”（Vampire设计和实现）AI Communications，15(2-3)：91-110页，2002年）中描述），以便推断实例和LAT类型之间的关系（当不存在显式链接时），因此改进TyCor覆盖率。

作为一个实例，假设问题LAT是“Canadian（加拿大人）”，候选答案字符串是“WayneGretzky”，并且从结构化文本资源（例如，DBpedia）中知道“Wayne Gretzky”出生在加拿大的安大略省。使用有关国籍的逻辑推理和公理，推断他是加拿大人（即使不存在显式类型信息），因此产生有意义的TyCor得分。

在另一实施例中，以不同方式处理有关类型之间等价、包容和同级的公理，以便根据匹配类型产生更细粒度的TyCor得分。该信息可以在TyCor模型中进一步用作特性。

此外，同级公理显示类型关系而没有不相关性，例如painter（画家）类型和musician（音乐家）类型都是person的子类型，并且它们例如可以在中找到。在计算候选答案得分时，可以为它们指定非常小的得分。该得分可以根据对数据的经验分析手动指定，或者使用机器学习技术（例如逻辑回归）自动获知。

此外，包容公理指示子类型关系中的类型，例如“president”是“person”的子类型，因此在计算候选答案得分时，可以指定相对较高的得分。

此外，等价公理指示同义类型关系，例如类型“man（男人）”和类型“male（男人）”是同义的，因此在计算候选答案得分时，可以指定相对较高的得分。

图2A示出了采取两个字符串（即，所确定的LAT202和候选答案205）作为输入并确定类型匹配度（候选答案类型是否与查询LAT匹配）的实例TyCor处理组件250。因此，对于LAT202“person”，以及具有可能词法类型“person”的“Washington”的候选答案205，存在一致并可能具有高值TyCor（置信度）得分。如图2A中所示，TyCor处理250执行一个或多个并行处理功能，它们产生在此描述的个体得分。调用名为LATTE的过程，以便产生LATTE得分210。所述LATTE得分表示查询LAT202和结构化数据库（在该实例中，为YAGO）中的类型之间的匹配度。在该实例中，LAT是“person”，并与结构化数据库（即，YAGO）中的类型“person”完全匹配。在该实例中，值1.0指示精确类型匹配。此外，调用名为CHAI的过程，以便产生CHAI得分211。所述CHAI得分表示候选答案字符串205和知识库（例如DBpedia）中的实例之间的匹配度。此外，调用名为ICET的过程，该过程产生ICET得分212。所述ICET得分表示知识库中映射到候选答案的实例和结构化数据库（在该实例中，为YAGO）中的类型之间的匹配度。在图2A中，在260a、260b和260c处示出ICET过程的三个实例。如图所示，产生TyCor得分225，作为个体LATTE210、CHAI211和ICET212得分的组合（例如，总和或乘积）。

图2B示出了根据图3B的附加过程步骤170的实例TyCor处理组件250和附加过程270。一般而言，如图2B中所示，TyCor处理组件250的实例输入是LAT输入字符串202“state（州）”和候选答案字符串205“Washington”。再次地，TyCor处理组件250执行产生个体得分的并行处理功能。所述过程包括访问本体资源（例如，YAGO或其中枚举所有单词意义）。即，知识库或信息源自动链接到本体资源（YAGO或）。

在示出的实例中，对输入字符串“state”202进行LATTE处理280，通过将输入字符串“state”与本体数据库中（例如YAGO中）的实例字符串（例如“PoliticalState（政治州）”和“PhysicalState（物理状态）”）匹配，产生LATTE得分。在该实例中，与political state匹配时，获得较高得分（0.9），与physical state匹配时，获得较低得分（0.1）。使用机器学习技术，根据问题的上下文和现有的背景知识来计算该得分。在第12/126,642号美国专利申请（在此引入作为参考）中说明了有关如何执行此操作的细节。

此外，在示出的实例中，输入候选答案字符串205“Washington”的CHAI处理将产生结构化知识库中与字符串“Washington”匹配的排序实例列表，例如“George Washington(President)（乔治·华盛顿（总统））”、“Washington(State)（华盛顿（州））”或“WashingtonDC(city)（华盛顿哥伦比亚特区（城市））”。每个实例与对应的得分关联，该得分基于输入字符串的上下文和现有的背景知识。在示出的实例中，示出两个实例：得到CHAI得分（0.7）的“George_Washington”和得到CHAI得分（0.2）的“G_Thomas_Washington”。此外，在第12/126,642号美国专利申请（在此引入作为参考）中说明了有关如何计算得分的细节。

此外，ICET处理260a和260b针对在CHAI步骤中产生的每个实例类型而计算ICET得分。例如，实例“George Washington”具有映射的类型Person、President和General（将军），每个类型接收不同的ICET得分。再次地，在第12/126,642号美国专利申请（在此引入作为参考）中说明了有关如何计算得分的细节。

图2B中引入的新处理步骤称为TATA（类型到类型对齐）处理270。TATA处理270将映射到LAT202的类型与映射到实例（映射到候选答案205）的类型相比较。再次地，产生TATA得分213，其表示类型之间是否存在匹配。在该步骤270，本发明的一个实施例使用本体中的公理或逻辑规则来确定不相关性度量，称为AnTyCor得分或负的TyCor得分。因此，如图2B中所示，产生TATA得分213（即，AnTyCor或负的TyCor），其表示发现映射到LAT的类型“PoliticalState”与映射到实例“George Washington”（其又映射到候选答案）的类型“Person”不相关。在其它实施例中，即使未在本体中定义显式公理时，也可以从类型数据以统计方式推断不相关性，并将其用于生成AnTycor得分。例如，如果诸如“Country”和“Person”之类的类型在大型结构源中没有公共实例，则可以推断统计不相关性。在另一实施例中，可以估计类型的“completeness”，并使用该估计确定AnTyCor得分。例如，假设先验知道结构资源中的特定类型的覆盖率非常高，则在封闭世界假设下，可以为不属于所关注类型的任何实例指定AnTyCor得分或负的TyCor得分。在再一个实施例中，使用逻辑推理，可以推断类型之间的关系（即使当不存在显式链接时），因此提高TyCor得分。例如，如果查询LAT是“Canadian”，候选答案字符串是“Wayne Gretzky”，并且从结构化资源中知道“Wayne Gretzky”“born inOntario,Canada（出生在加拿大的安大略省）”，则使用有关国籍的逻辑推理和公理，可以在没有显式类型信息的情况下推断“Wayne Gretzky”是“Canadian”，因此可以计算更好的TyCor得分。在另一个实施例中，可以以不同方式处理有关类型之间等价、包容和同级等的公理，以便产生更细粒度的TyCor得分，并且该信息还可以用作TyCor模型中的特性。

如上所述，图1示出了在第12/126,642号美国专利申请中描述的系统图，其示出高级逻辑架构10和方法，其中在一个实施例中采用使用具有受限结构的文本进行延迟类型评估的系统和方法。

一般而言，如图1中所示，高级逻辑架构10包括查询分析模块20，其实现接收和分析用户查询或问题的功能。术语“用户”可以指与系统交互的一个或多个人员，或者指通过机械手段生成查询的计算机系统22，其中术语“用户查询”指这种以机械方式生成的查询和上下文19’。提供候选答案生成模块30，以便通过遍历包含在主源模块11和答案源知识库（KB）模块21（包含从主源提取的关系和列表集合）中的结构化、半结构化和非结构化源，实现对候选答案的搜索。所有信息源可以存储在本地，或者分布在包括因特网的网络上。

架构10的候选答案生成模块30根据对检索的数据的分析，生成多个包含候选答案的输出数据结构。在图1中，证据收集模块50与主数据源和知识库对接，以便在一个实施例中，同时根据具有候选答案的段落来分析证据并对每个候选答案进行评分，以作为并行处理操作。在一个实施例中，可以采用使用通用分析系统（CAS）候选答案结构的架构，如在共同拥有、已公告的第7,139,752号美国专利（其所有公开内容在此全部引入作为参考）中所描述的那样。

如图1中所示，证据收集模块50包括候选答案评分模块250，以便分析检索的段落并对所检索的段落的每个候选答案进行评分。答案源知识库（KB）21可以包括一个或多个包含关系集合（例如，类型化列表）的结构化或半结构化源（预先计算或以其它方式）数据库。在一个实例实施方式中，答案源知识库可以包括存储在存储系统（例如，硬盘驱动器）中的数据库。

可以调用答案排序模块60以提供功能以便对候选答案进行排序并确定响应99，响应99经由用户的计算机显示接口（未示出）或计算机系统22返回给用户，其中所述响应可以是响应于问题的答案，或先前答案的详细描述，或澄清的请求—当未找到高质量的问题答案时。还提供机器学习实施方式，其中“答案排序”模块60包括训练后的模型组件（未示出），其使用机器学习技术从先前数据中产生。

图1中所示的处理可以在本地、在服务器或服务器群集上、在企业中，或者备选地，可以是分布式或整体式，或以其它方式与公用或私用搜索引擎结合运行，以便以所描述的方式增强问答功能。因此，所述方法可以作为计算机程序产品（包括可由处理设备执行的指令）提供，或者作为部署所述计算机程序产品的服务提供。所述架构采用搜索引擎（例如，文档检索系统）作为候选答案生成模块30的一部分，所述搜索引擎可以专用于搜索因特网、公用数据库、网站（例如，IMDB.com）或私用数据库。数据库可以存储在任何存储系统、非易失性存储系统（例如，硬盘驱动器或闪存）中，并且可以通过网络分发或不分发。

如上所述，图1的系统和方法利用通用分析系统（CAS），其为非结构化信息管理架构（UIMA）的子系统，可处理各种UIMA组件（例如分析引擎和非结构化信息管理应用）之间的数据交换。CAS通过独立于程序设计语言的类型系统支持数据建模，通过强大的索引机制提供数据访问，并支持针对文本数据创建注释，例如在http://www.research.ibm.com/journal/sj/433/gotz.html中描述的（在此引入作为参考）。应当指出，CAS允许针对文档及其注释之间的链接进行多个定义，因为对分析图像、视频或其它非文本形式有用（如在此引入的参考—第7,139,752号美国专利中教导的那样）。

在一个实施例中，UIMA可以作为中间件提供，以便对各种信息源中的非结构化信息进行有效管理和交换。所述架构通常包括搜索引擎、数据存储、包含流水线文档注释器和各种适配器的分析引擎。可以使用UIMA系统、方法和计算机程序生成输入查询的答案。所述方法包括输入文档并运行至少一个文本分析引擎，所述文本分析引擎包括多个耦合的注释器以便标记文档数据以及标识并注释特定类型的语义内容。因此，它可以用于分析问题，并从文档集合提取实体作为问题的可能答案。

如在图1的架构图中更详细地示出的那样，“查询分析”模块20接收输入，所述输入包括例如用户经由其基于Web的浏览器设备输入的查询19。输入查询19可以包括文本字符串。查询分析方框20还包括词法答案类型（LAT）方框200，其实现功能和编程接口，以便提供有关答案类型（LAT）的附加约束。方框20中的计算包括但不限于词法答案类型。LAT方框200包括某些功能/子功能（未示出）以确定LAT。

如上所述，问题/查询的LAT是实体的指示对象的类型（即，描述符），所述实体是问题的有效答案。实际上，LAT是自然语言理解模块（包括模式集合和/或具有语义解释器的解析器）检测到的答案的描述符。

参考词法答案类型（LAT）方框200，在图1的查询分析模块20中，LAT表示标识正确答案的语义类型的问题术语。在一个实施例中，如所公知的那样，可以通过模式LAT检测规则在问题中检测LAT。将实施这些规则，并可以手动对其进行编码，或者机器通过关联规则学习自动学习它们。在这种情况下，所述自然语言理解模型可以限于实施所述规则。

在一个实施例中，可以将图1-2的上述模块表示为UIMA中的功能组件，UIMA优选地实现为硬件和软件的组合，用于开发如下应用：集成针对结构化和非结构化信息组合的搜索和分析。采用UIMA组件以实现最终用户能力的软件程序通常被称为应用、应用程序或软件应用。

UIMA高级架构（图1中示出了它的一个实施例）定义了协作实施UIM应用的大粒度组件的角色、接口和通信。其中包括能够执行以下操作的组件：分析非结构化源制品（例如包含文本数据和/或图像数据的文档），集成和访问结构化源，并基于发现的语义内容对制品进行存储、索引和搜索。

尽管未示出，但UIMA高级架构的一个非限制性实施例包括语义搜索引擎、文档存储、至少一个文本分析引擎（TAE）、至少一个结构化知识源适配器、集合处理管理器、至少一个集合分析引擎，它们全部与应用逻辑通过接口连接。在一个实例实施例中，UIMA运行以访问结构化信息和非结构化信息，以便以在此讨论的方式生成候选答案和答案。非结构化信息可以被视为文档集合，并可以采取文本、图形、静态和动态图像、音频和它们的各种组合的形式。

图7中进一步示出了UIMA的各方面，其中示出了分析引擎（AE）600，其可以是文本分析引擎（TAE）的组件。AE600中包括通用分析系统（CAS）610、注释器620和控制器630。TAE的第二实施例（未示出）包括聚合分析引擎（包含两个或更多个组件分析引擎以及CAS），并实现与AE600相同的外部接口。

通用分析系统610

通用分析系统（CAS）610作为通用工具提供，所有注释器620均使用它访问和修改分析结构。因此，CAS610在注释器620之间实现协作，并促进在不同应用和不同类型架构（例如，松散与紧密耦合）中重用注释器620。CAS610可以被视为约束各注释器的操作。

提供CAS610主要用于数据建模、数据创建和数据检索功能。数据建模优选地定义（数据）类型的树层次结构，如下面提供的实例表1中所示。所述类型具有属性或性质（被称为特性）。在各优选实施例中，存在少量的内置（预定义）类型，例如整数（int）、浮点（float）和字符串；UIMA还包括预定义的数据类型“注释”。数据模型在注释器描述符中定义，并与其它注释器共享所述数据模型。在表1中，被视为从现有技术非结构化信息管理应用扩展以适合本发明的优选实施例中的问答的一些“类型”包括：

表1

在表1中，例如所有问答类型（在左边列中列出）都是新类型并扩展另一个新类型或现有类型（在右边列中示出）。例如，“查询”和“查询上下文”的种类都是“查询记录”（新类型）；而“候选答案记录”扩展UIMA类型“注释”，但添加了属于“浮点”的新特性CandidateAnswerScore。此外，表1将查询LAT描述为具有UIMA“注释”类型；CandidateAnswerLT也是“注释”，但具有附加的类型为“浮点”的特性TyCorScore。

CAS610数据结构可以被称为“特性结构”。为了创建特性结构，必须指定类型（参见表1）。注释（和特性结构）被存储在索引中。

CAS610可以被视为方法集合（例如在Java或C++中实现为类），该集合将基于对象的表达性数据结构实现为抽象数据类型。优选地，CAS610设计主要基于TAE特性-属性结构，该结构提供用户定义的对象、属性和值以实现灵活性，提供静态类型层次结构以实现效率，并提供方法以便通过使用一个或多个迭代器来访问存储的数据。

通过CAS610实现的抽象数据模型除了其它特性之外，还为UIMA100提供：平台无关性（即，以声明方式独立于程序设计语言定义类型系统）；性能优势（例如，当通过通用数据模型耦合以不同程序设计语言编写的注释器620时）；通过注释器620的输入/输出规范组成流程（其包括允许类型检查和错误检测的声明式规范，以及对注释器（TAE）作为服务模型的支持）；以及通过语义索引、搜索和检索支持第三代搜索过程（即，语义类型是声明式的，而非基于关键字的）。

CAS610为注释器620提供用于高效构建和搜索分析结构的工具。所述分析结构是数据结构，其主要包括描述原始文档的文本子序列的元数据。分析结构中的一种示例性元数据类型是注释。注释是用于对文本序列进行注释的对象（具有它自己的属性）。存在任意数量的注释类型。例如，注释可以根据其在文档结构中的角色（例如，单词、句子、段落等）标记文本序列，或者根据其语法角色（例如，名词、名词词组、动词、形容词等）描述文本序列。注释的数量或应用基本上没有限制。其它实例包括对文本段进行注释以将它们标识为正确的名称、位置、军事目标、时间、事件、设备、条件、时间条件、关系、生物关系、家庭关系或其它有意义或感兴趣的项目。

通常，注释器620的功能是分析文本以及现有分析结构以发现它旨在识别的新注释集合实例，然后将这些注释添加到分析结构以便由其它注释器620进一步处理。

除了注释之外，图7的CAS610还可以存储原始文档文本以及可能由注释器620产生的相关文档（例如，原始文档的翻译和/或概要）。优选地，CAS610包括扩展，这些扩展便于以既定格式（例如XML）导出分析结构的不同方面（例如，一组注释）。

更具体地说，CAS610是TAE中定义和存储文本注释的部分。应用和注释器620使用CAS API创建和访问注释。CAS API优选地包括至少三个不同的接口。类型系统控制新类型的创建，并提供有关类型（继承）之间以及类型和特性之间的关系的信息。表1中提供了类型定义的一个非限制性实例。结构访问接口处理新结构的创建以及值的访问和设置。结构查询接口处理现有结构的检索。

类型系统提供系统已知的实体的分类，类似于面向对象的编程中的类层次结构。类型对应于类，特性对应于成员变量。优选地，类型系统接口提供以下功能：添加新类型，方式为：为新类型提供名称并在层次结构中指定应附加新类型的位置；添加新特性，方式为：为新特性提供名称并给出该特性应附加到的类型，以及值类型；以及查询现有类型和特性以及它们之间的关系，例如“哪个（哪些）类型继承自该类型”。

优选地，类型系统提供少量内置类型。如上所述，基本类型是整数、浮点和字符串。在Java实施方式中，这些类型分别对应于Java整数、浮点和字符串类型。还支持注释和基本数据类型数组。内置类型在结构访问接口中具有特殊的API支持。

结构访问接口允许创建新结构，以及访问和设置现有结构的值。优选地，提供该接口以便创建给定类型的新结构；针对给定结构获得和设置特性的值；以及访问用于内置类型的方法。为域提供特性定义，每个特性具有一个范围。

在一种备选环境中，可以将图1、2的模块表示为GATE（文本工程通用架构）中的功能组件（参见：http://gate.ac.uk/releases/gate-2.0alpha2-build484/doc/userguide.html）。Gate采用如下组件：属于可重用软件块并具有定义明确的接口，这些接口在概念上独立于GATE本身。所有组件集都是用户可扩展的，并统称为CREOLE—语言工程可重用对象集合。GATE框架是其中插入CREOLE组件的底板。用户为系统提供URL列表以便在它启动时进行搜索，并且系统加载这些位置处的组件。在一个实施例中，仅加载它们的配置数据以便开始；当用户请求资源实例化时加载实际类。GATE组件是三种专用Java Beans中的一种：1）Resource：顶级接口，其描述所有组件。所有组件的共有点是它们可以在运行时加载，并且组件集可由客户扩展。它们具有特性，这些特性以诸如RDF、纯XML或Java属性之类的格式在外部向系统表示为“元数据”。在一个实施例中，资源可以全部是Java Beans。2）ProcessingResource：是可运行的资源，可以（经由RMI）远程调用并存在于类文件中。为了加载PR（处理资源），系统应知道在何处查找类文件或jar文件（它们也包括元数据）；3）LanguageResource：是由数据组成的资源，通过Java抽象层访问。它们存在于关系数据库中；以及VisualResource：是可视Java Beans、GUI组件，包括主要GATE gui。与PR相同，这些组件存在于.class或.jar文件中。

在描述GATE处理模型时，其主要特性为算法特性的任何资源（例如解析器、生成器等）均被建模为处理资源。PR是实现Java可运行接口的资源。GATE可视化模型实现如下资源：其任务是显示和编辑被建模为可视资源的其它资源。GATE中的语料库模型是Java集合，其成员是文档。语料库和文档都是语言资源（LR）的类型，其中所有LR都具有与其关联的特性图（Java图），该图存储有关所述资源的属性/值信息。FeatureMap还用于经由注释模型将任意信息与文档范围（例如，文本块）关联。文档具有DocumentContent和一个或多个AnnotationSet，DocumentContent目前是文本（未来版本可能添加对视听内容的支持），AnnotationSet是Java集合。

作为UIMA，GATE可以用作基础以便实现自然语言对话系统和多模式对话系统（具有所公开的问答系统作为主要子模块之一）。上面的参考资料（第6,829,603、6,983,252和7,136,909号美国专利，在此引入作为参考）使得本领域技术人员能够构建这种实施方式。

图8示出了其中可以采用本系统和方法的计算系统401的示例性硬件配置。所述硬件配置优选地具有至少一个处理器或中央处理单元（CPU）411。CPU411通过系统总线412与以下各项互连：随机存取存储器（RAM）414、只读存储器（ROM）416、输入/输出（I/O）适配器418（用于将诸如磁盘机421和磁带驱动器440之类的外围设备连接到总线412）、用户接口适配器422（用于将键盘424、鼠标426、扬声器428、麦克风432和/或其它用户接口设备连接到总线412）、通信适配器434（用于将系统401连接到数据处理网络、因特网、内联网、局域网（LAN）等），以及显示适配器436（用于将总线412连接到显示设备438和/或打印机439（例如，数字打印机等））。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

上面描述的实施例是示例性实例，不应当解释为将本发明限于这些特定的实施例。因此，所属技术领域的技术人员可以实现各种更改和修改，而不偏离在所附权利要求中限定的本发明的精神或范围。

Claims

1.一种用于生成问题答案的计算机实现的方法，所述方法包括以下步骤：

接收输入查询文本字符串；

由编程的处理器单元确定与输入查询关联的词法答案类型(LAT)字符串；

从数据语料库自动获得所述输入查询的候选答案字符串；

将查询LAT字符串映射到结构化资源中的第一类型字符串；

将所述候选答案字符串映射到所述结构化资源中的第二类型字符串；

从所述结构化资源中识别所述第一类型字符串与所述第二类型字符串之间的关系；

判定所述第一类型字符串和所述第二类型字符串是否不相关；以及

根据所述第一类型字符串与所述第二类型字符串不相关的判定，为所述候选答案字符串进行分配第一评分，或者基于识别的所述第一类型字符串与所述第二类型字符串之间的关系为所述候选答案字符串分配第二评分；

其中所述结构化资源包括提供本体内容的语义数据库。

2.根据权利要求1的计算机实现的方法，其中通过将所述结构化资源中关联所述第一类型字符串与所述第二类型字符串的公理标识为不相关而执行所述判定步骤。

3.根据权利要求2的计算机实现的方法，其中所述本体内容进一步提供单词概念的关联意义。

4.根据权利要求1的计算机实现的方法，其中通过将所述候选答案字符串映射到结构化资源中的一个实例并将所述实例映射到结构化资源中的所述第二类型字符串而执行将所述候选答案字符串映射到所述第二类型字符串。

5.根据权利要求2的计算机实现的方法，其中类型字符串之间的公理包括以下项中的一个或多个：等价公理、包容公理以及同级公理。

6.根据权利要求1的计算机实现的方法，其中将查询LAT字符串映射到结构化资源中的所述第一类型字符串包括以下操作中的一个或多个：

访问所述语义数据库并获得与所述查询LAT字符串匹配的类型实体；

从所述语义数据库获得所获得的类型实体的意义排序；

访问数据语料库，并根据所述数据语料库中类型实体的检测到的实例数量而从所述数据语料库获得所述类型实体的排序列表；

检测所述输入查询的上下文数据和与来自所述本体内容的类型关联的上下文数据之间的相似性，并输出相似性度量；

根据所述意义排序、类型的排序列表和所述相似性度量的加权组合而生成置信度得分。

7.根据权利要求6的计算机实现的方法，其中检测相似性包括：

使用BOW(词袋)方法对齐所述上下文；或

应用向量模型以计算所述相似性。

8.根据权利要求1的计算机实现的方法，其中将所述候选答案映射到所述第二类型字符串包括：

访问数据资源并获得与所述候选答案匹配的实例实体；

使用搜索引擎访问数据语料库，并根据出现频率从所述数据语料库获得所述实例的排序列表；

计算所述输入查询的上下文数据和与实例关联的上下文数据之间的相似性度量；以及

根据所述实例的排序列表和所述相似性度量的加权组合而生成置信度得分。

9.一种用于生成问题答案的计算机实现的系统，所述系统包括：

用于接收输入查询文本字符串的装置；

用于由编程的处理器单元确定与输入查询关联的词法答案类型(LAT)字符串的装置；

用于从数据语料库自动获得所述输入查询的候选答案字符串的装置；

用于将查询LAT字符串映射到结构化资源中的第一类型字符串的装置；

用于将所述候选答案字符串映射到所述结构化资源中的第二类型字符串的装置；

用于从所述结构化资源中识别所述第一类型字符串与所述第二类型字符串之间的关系的装置；

用于判定所述第一类型字符串和所述第二类型字符串是否不相关的装置；以及

用于根据所述第一类型字符串与所述第二类型字符串不相关的判定，为所述候选答案字符串进行第一评分，或者基于识别的所述第一类型字符串与所述第二类型字符串之间的关系为所述候选答案字符串分配第二评分的装置；

其中所述结构化资源包括提供本体内容的语义数据库。

10.根据权利要求9的系统，其中所述用于判定所述第一类型字符串和所述第二类型字符串是否不相关的装置通过将所述结构化资源中关联所述第一类型字符串与所述第二类型字符串的公理标识为不相关。

11.根据权利要求9的系统，其中所述本体内容进一步提供单词概念的关联意义。

12.根据权利要求9的系统，其中通过将所述候选答案字符串映射到结构化资源中的一个实例并将所述实例映射到结构化资源中的所述第二类型字符串而执行将所述候选答案字符串映射到所述第二类型字符串。

13.根据权利要求10的系统，其中类型字符串之间的公理包括以下项中的一个或多个：等价公理、包容公理以及同级公理。

14.根据权利要求9的系统，其中所述用于将查询LAT字符串映射到结构化资源中的所述第一类型字符串的装置执行以下操作中的一个或多个：

从所述语义数据库获得所获得的类型实体的意义排序；

15.根据权利要求14的系统，其中检测相似性包括：

使用BOW(词袋)方法对齐所述上下文；或

应用向量模型以计算所述相似性。

16.根据权利要求9的系统，其中将所述候选答案映射到所述第二类型字符串包括：

访问数据资源并获得与所述候选答案匹配的实例实体；