CN103729395B

CN103729395B - 用于推断查询答案的方法和系统

Info

Publication number: CN103729395B
Application number: CN201310473194.2A
Authority: CN
Inventors: D·W·布坎南; D·A·弗鲁茨; A·P·拉利
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-10-12
Filing date: 2013-10-11
Publication date: 2017-11-24
Anticipated expiration: 2033-10-11
Also published as: US20140108321A1; US10438119B2; CN103729395A; US11182679B2; US20140108322A1; US20190378021A1

Abstract

本发明涉及一种用于推断查询答案的方法和系统。提供了一种用于通过内容生成推断图以便回答输入查询的方法、系统和计算机程序产品。首先，从所述查询产生独立因素，并将这些因素转换成问题。然后将所述问题输入到发现关系的概率问答系统（PQA），所述关系用于迭代地扩展推断图，所述扩展从所述因素开始并以可能的答案结束。使用概率推理系统推断每个答案中的置信度，例如方式为：当扩展所述推断图时，跨所述推断图中的关系和节点传播置信度。可以使用推断图生成器系统同时双向地生成向前和向后推断图，如果两个路径未交汇，则所述系统使用深度控制器组件限制两个路径的生成。否则，联接器过程促使发现可以将答案联接到所述查询中的因素的关系。

Description

用于推断查询答案的方法和系统

技术领域

本公开一般地涉及信息检索，更具体地说，涉及提供问题或查询答案的自动化系统。

背景技术

通常，具有许多类型的信息检索和问答系统，包括专家或基于知识（KB）的系统、文档或文本搜索/检索系统和问答（QA）系统。

专家或基于知识的系统接受形式查询或者将自然语言映射到形式查询，然后根据人类编码的一组形式规则，产生准确的答案和证明答案的证据。

文档或文本搜索系统未被设计为提供和证明准确的答案。相反，它们产生文档片段（snippets）或文档，其中包含用户例如经由计算系统接口（例如，网络浏览器）输入的关键字或搜索术语。不期望结果提供解决方案或答案。文本搜索系统基于普遍且隐式的假设，即查询的所有有效结果是包含查询中的关键字的文档或文档片段。

QA系统提供一种类型的信息检索。如果给出文档集合（例如万维网或本地集合），则QA系统可以检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索（例如文档检索）需要更复杂的自然语言处理（NLP）技术，并且QA有时被视为超越搜索引擎的后续步骤。

传统的QA系统提供准确的答案，这不同于文档搜索系统，但并不如专家系统那样产生证明（justification）路径。它们的证明是“一步式”的，意味着它们通过查找单独暗示建议或候选答案正确的一个或多个段落来提供答案。

非常需要提供一种系统和方法，其可以回答搜索系统、传统的专家/基于知识的系统和更简单的QA系统无法处理的复杂查询。

发明内容

本发明的实施例提供一种方法、系统和计算机程序产品，其可以回答搜索系统、传统的专家/基于知识的系统和更简单的QA系统无法处理的复杂查询。

在一个方面，提供一种用于推断查询答案的系统、方法和计算机程序产品。所述方法包括：接收输入查询；分解所述输入查询以获得一个或多个因素，所述因素形成推断图的初始节点；通过来自一个或多个内容源的内容迭代地构造所述推断图，其中在每次迭代中，处理设备通过经由一个或多个关系将因素连接到解决方案，执行发现所述输入查询的解决方案，推断图中的每个关系由来自所述内容的一个或多个段落证明，所述推断图在具有表示所述关系的一个或多个边的一个或多个路径上将因素连接到所述解决方案；以及从所述推断图提供所述查询的解决方案，其中编程后的处理器设备被配置为执行所述接收、分解和迭代地构造所述推断图以提供所述解决方案中的一个或多个。

在另一方面，一种推断查询答案的方法包括：接收输入查询；分解所述输入查询以获得一个或多个因素；将所述输入查询分解成查询术语，并使用所述查询术语获得所述输入查询的一个或多个候选答案；使用耦合到具有内容的内容存储源的编程后的处理器设备迭代地构造第一推断图，其中使用所述因素作为所述第一推断图的初始节点，所构造的第一推断图在具有表示关系的一个或多个边的一个或多个路径上将因素连接到导致所述查询的答案的一个或多个节点；使用所述编程后的处理器设备和所述内容源同时迭代地构造第二推断图，其中使用所述一个或多个候选答案作为所述第二推断图的初始节点，所述第二推断图在具有表示关系的一个或多个边的一个或多个路径上将候选答案连接到所述查询的所述一个或多个因素所连接的一个或多个节点；以及在同时的迭代构造期间，通过将所述第一推断图联接到所述第二推断图而生成最终推断图，所述最终推断图具有表示所述输入查询的解决方案的联接节点。

在另一方面，一种用于推断查询答案的系统包括：一个或多个内容源，其提供内容；处理器设备，其用于耦合到所述内容源并被配置为：接收输入查询；分解所述输入查询以便获得一个或多个因素，所述因素形成推断图的初始节点；通过来自一个或多个内容源的内容迭代地构造所述推断图，其中在每次迭代中，所述处理设备通过经由一个或多个关系将因素连接到解决方案，发现所述输入查询的解决方案，推断图中的每个关系由来自所述内容的一个或多个段落证明，所述推断图在具有表示所述关系的一个或多个边的一个或多个路径上将因素连接到所述解决方案；以及从所构造的推断图提供所述查询的解决方案。

在另一方面，提供一种用于推断查询答案的系统，包括：一个或多个内容源，其提供内容；编程后的处理器设备，其用于耦合到所述内容源并被配置为：接收输入查询；分解所述输入查询以获得一个或多个因素；以及将所述输入查询分解成查询术语，并使用所述查询术语获得所述输入查询的一个或多个候选答案；迭代地构造第一推断图，其中使用所述因素作为所述第一推断图的初始节点，所构造的第一推断图在具有表示所述关系的一个或多个边的一个或多个路径上，将因素连接到导致所述查询的答案的一个或多个节点；同时迭代地构造第二推断图，其中使用所述一个或多个候选答案作为所述第二推断图的初始节点，所述第二推断图在具有表示关系的一个或多个边的一个或多个路径上，将候选答案连接到所述查询的所述一个或多个因素所连接的一个或多个节点；以及在同时的迭代构造期间，通过将所述第一推断图联接到所述第二推断图而生成最终推断图，所述最终推断图具有表示所述输入查询的解决方案的联接节点。

提供一种用于执行操作的计算机程序产品。所述计算机程序产品包括存储介质，所述存储介质可由处理电路读取并存储由所述处理电路运行以执行方法的指令。所述方法与上面列出的方法相同。

附图说明

在下面给出的具体实施方式的上下文中理解本发明的目标、特性和优点。在附图的上下文中理解具体实施方式，所述附图形成本公开的重要部分，其中：

图1A在概念上示出推断图，其由包括通过弧或图边互连节点的推断链系统和方法的实施例生成和使用；

图1B示出生成的推断图的一个示例性实例，其中通过节点之间的边表示关系；

图2示出采用基于文本的推断链系统和方法的系统和方法的高级示意图；

图3A-3B示出由在此描述的实施例的基于文本的推断链系统执行的基于文本的推断链方法；

图4示出采用执行迭代过程的一个或多个计算设备的基于文本的推断链系统和方法的高级示意图；

图5示出包括附加关系注入组件的基于文本的推断链系统和方法100’的进一步实施例；

图6示出包括节点过滤组件的基于文本的推断链系统和方法100’’的进一步实施例；

图7示出在给出输入问题之后的多步骤推断图生成的一个实例；

图8示出基于文本的推断链系统和方法的因素分析组件的一个实施例；

图9示出实现关系注入组件以便从输入查询生成自然语言问题的问题生成器组件的进一步详细实施例；

图10示出接收具有某些事件的推断图作为输入的推理器组件的实现；

图10A-10F示出用于医学领域查询实例的推理器组件过程的实例实现；

图11示出深度控制器过程，其用于在每次迭代中分析当前更新后的推断图，并判定是否应将图视为最终图以及是否应中止过程；

图12是采用双向图生成查询解决方案策略的基于文本的推断链系统和方法；

图13示出因素导向或向前导向推断图生成迭代过程，其同样用作编程后的基于文本的推断链系统和方法；

图14示出实现候选答案生成器以产生向后推断图中的初始节点的假设导向推断图生成迭代过程；

图15示出用于合并节点和/或联接相应生成的向前和向后导向图的推断图联接器过程的实现；

图16示出实例节点联接器过程，其用于通过查找向前导向图的端点节点与向后导向图中的节点之间的关系而组合双向生成的推断图；

图17A-17B示出根据在此描述的实施例的推断图生成器的一个实例实现；

图18示出包括PQA系统的并行、同时实现的推断链系统和方法的另一实施例；

图19是示出图18的每个PQA系统的一个实施例的高级逻辑架构和方法的系统图；

图20示出其中可以采用本系统和方法的计算系统401的示例性硬件配置。

具体实施方式

本公开涉及自动化推理系统，具体地说，涉及用于自动回答复杂查询的推断图生成器系统和方法，所述系统和方法从根本上不同于所有的现有专家系统、基于知识的系统或自动化推理系统。

在一个方面，推断图生成器系统和方法可以完全通过非结构化内容（例如，文本）运行，并且不同于现有系统，不需要以任何种类的形式规则（if-then）、公理或过程的形式对领域知识进行手动编码。相反，所述系统和方法通过从原样自然语言内容发现、评估和收集证明，发现从查询到答案的路径。这种内容是人类为自己编写的，从不需要知识工程师针对计算机形式化知识。因此，这使得所述系统和方法成为一种强大的推理系统。

所述推断图生成器系统和方法通过以下操作运行：根据提供从查询中的元素到答案或解决方案的多步骤路径的推断图，提供准确答案的解释。

所述推断图生成器系统和方法通过迭代利用基于文本的概率QA系统组件和通用概率推理器组件，发现和证明从查询到准确答案的多步骤路径。本系统和方法组合这些组件，以便通过自然语言内容产生合理的推断图。

更具体地说，如下面更详细描述的，在一个实施例中，所述推断图生成器系统和方法将用于发现答案和证明的概率QA与用于传播置信度的贝叶斯型推断相组合，以便构建证明从因素到答案的多步骤路径的推断图。

如在此引用的，提供以下定义：

自然语言查询：是采用无限制自然语言（例如，英语）的语句或问题，其描述搜索答案或解决方案中的问题、情况或情形。一个实例是搜索简单答案中的简单问题，如“Thisman sailed across the Atlantic to India and discovered America.（这个男人横渡大西洋到达印度并发现美洲。）”或者“Who sailed across the Atlantic….?（谁横渡大西洋…？）”进一步实例包括问题的复杂描述，如在其中寻求诊断、治疗或其它结果的患者病史。例如：A40-year-old female has pain on and off after eating fatty food.Shehas pain in the epigastric region and sometimes on the right side of herabdomen.After assessing the patient you order ultrasound of thegallbladder.The ultrasound shows presence of gallstones(choledocholithiasis)but no evidence of cholecystitis.The patient goes for an electivecholecystectomy.Pathological examination of the gallbladder showed3mixedtypes of gallstones.The gallbladder mucosa is expected to reveal what change?（一位40岁女性在吃过高脂肪食物之后出现断续疼痛。她的疼痛部位在上腹部，有时在腹部右侧。诊断患者之后，您开出胆囊超声波的单子。超声波显示存在胆结石（胆总管结石），但没有胆囊炎症状。该患者选择择期胆囊切除术。胆囊的病理检查显示3种混合型胆结石。预计胆囊粘膜显示什么病变？）

因素：是逻辑上独立的查询元素。一个实例是“sailed across the Atlantic（横渡大西洋）”、“discovered America（发现美洲）”、“Patient is40years old（患者40岁）”、“has pain on and off after eating fatty food（吃过高脂肪食物之后出现断续疼痛）”。

关系：是两个概念之间的命名关联。对于一般实例：A“indicates”B（A“指示”B）、A“causes”B（A“导致”B）、A“treats”B（A“治疗”B）、A“activates”B（A“激活”B）、A“discovered”B（A“发现”B）。概念被视为关系的“参数”或“端点”。概念通过命名实体（Washington（华盛顿））或仅通过词组（chain smoking（连续不断地吸烟））表示。对于领域特定的实例（采用谓词参数形式）：author of(Bramstoker,Dracula)（作者（Bramstoker、Dracula））、president of(Obama,US)（总统（奥巴马，美国））、causes(smoking,lungcancer)（导致（吸烟，肺癌））、treats(aspirin,stroke))（治疗（阿司匹林，中风）））。

问题：是采用自然语言（例如，英语）或形式语言（例如，一阶逻辑）的单个句子或词组，其意欲请求关系的端点（多个），或者询问两个概念之间的关系是否真实。一个实例是：

“What does aspirin treat?（阿司匹林治疗什么？）”/treat(aspirin,X)（治疗（阿司匹林，X））

“Does Aspirin treat Strokes?（阿司匹林治疗中风吗？）”/treat(aspirin,strokes))（治疗（阿司匹林，中风）））。

语句：是自然语言表达式、结构化关系或半结构化关系。语句通常用于表示因素，并且可以来自结构化或非结构化内容。一些非限制性实例如下：

Patient’s hemoglobin concentration is9g/dL（患者的血红蛋白浓度是9g/dL）

“low hemoglobin concentration（低血红蛋白浓度）”(Patient（患者）)

Has Condition(Patient,anemia)（有症状（患者，贫血））

The patient’s mother was diagnosed with breast cancer at the age of35（患者的母亲在35岁时被诊断患有乳腺癌）

答案或解决方案：是文本元素—单词、数值、词组、句子、段落或文档。如果人类认为答案可用于响应问题或查询，则答案被视为针对问题或查询是正确或部分正确的。在简单问题或关系的情况下，答案通常是寻求的关系端点，例如，“Who discovered Americain1492?（谁在1492年发现美洲？）”在关系“X discovered America（X发现美洲）”中，答案是缺少的概念X。

非结构化内容：是文本数据（例如，书籍、期刊、网页、文档等），并且通常用作答案源和这些答案的证明源。它进一步用于证明或证实问题的答案，或者更具体地说，关系的真实性（注意：它可以考虑非文本以便进行此确定）。更一般地说，非结构化内容可以指文本、语音和图像的组合。

结构化内容：是其中将数据编码为结构化关系的任何数据库或知识库。关系数据库是典型的基于逻辑的知识库。

内容：是非结构化和结构化内容的任何组合。

段落：是一系列自然语言文本—一个或多个词组、句子或段落。段落通常由1-5个句子组成。

证明段落：是被视为解释或证明答案为何可以针对给定问题正确的段落。

置信度：是关系被视为真实的程度的指示，例如，关系真实的确定性或概率的度量。它通常表示为数值。但是它可能不一定必须表示概率。

推断图：是通过由边连接的一组节点表示的任何图，其中节点表示语句，并且弧表示语句之间的关系。每个关系可以与置信度关联，并且关系中的每个概念可以与置信度关联。每个边与一组段落关联，这些段落提供为何该关系可以真实的证明。证明边的每个段落可以与置信度关联，该置信度指示段落证明关系的可能性。推断图用于表示查询中的因素和该查询的可能答案之间的关系路径。如果推断图在从一组因素到答案的路径中包含多个边，则该推断图是多步骤的。在一个实施例中，图节点、边/属性（置信度）、语句和关系可以以软件表示为Java对象。将置信度、强度和概率附加到这些对象以便由各种计算机系统处理。

PQA系统（概率QA系统）：是如下的任何系统或方法：所述系统或方法产生问题答案并且可以将这些答案与指示答案正确的可能性的置信度关联，以及可以将答案与旨在向人类解释答案为何可能正确的基于段落的证明关联。

图1A在概念上示出由本发明的编程后的推断链系统和方法生成和使用的推断图。如图所示，推断图75包括通过弧或图边80互连的节点78a、78b、78c。在图1A的推断图75中，节点78a、78b通过表示关系的边80互连。如图所示，每个边或关系80包括一组注释85、该组注释包括一个或多个关联的证明段落。

图1B示出生成的推断图88的一个示例性实例，其中完整语句在所有节点中暗示，即，“Patient has High Blood Sugar（患者患有高血糖）”在节点79a中暗示，“Patient hasDiabetes（患者患有糖尿病）”在节点79b中暗示，等等。节点79a、79b之间通过边表示的关系包括因果关系，即，患有高血糖的患者可能导致节点79b中的糖尿病问题。

图2示出采用基于文本的推断链系统和方法100的系统和方法的高级示意图。在一个方面，基于文本的推断链系统和方法100接收自然语言查询101，检索/访问非结构化内容105，并且生成推断图110。具体地说，自然语言查询101是比典型问题定义更广泛的“查询”。查询可以是一系列丰富的语句或句子，它们关于解决方案或答案是真实的。查询可以包含也可以不包含直接问题。基于文本的推断链系统和方法100采用PQA系统和推理器，以便发现如何可以通过由内容105中的不同元素（例如，段落）证明的关系的路径，从原始查询中的因素到达可能的答案。生成推断图110，其类似于传统专家系统的多步骤“证据”。它不需要通常在基于文本的QA系统中提供的有关内容的“规则库”。推断图110显示如何可以通过各自由内容中的不同段落证明的关系的多步骤路径，从原始查询中的元素（即，因素）到达可能的答案。应该理解，推断链系统和方法100可以包括具有不同实施例组合的实现，如在此针对图4、5、6描述的那样。

图4示出基于文本的推断引擎100的高级示意图。基于文本的推断链系统和方法100是采用执行迭代过程99的一个或多个计算设备的计算机系统，如果给出输入查询101、一组（多组）因素和确定的关系，则迭代过程99生成最终推断图110F。基于文本的推断链系统和方法100首先实现因素分析组件104，其实现编程后的过程以便从输入查询101提取因素106。在此针对图8更详细描述因素分析组件104。编程后的过程进一步使用从查询提取的因素，生成初始推断图110I。该初始推断图110I可以仅包括从查询提取的因素106，作为初始端点或节点。该初始推断图110I可以作为数据存储在存储设备107中。如更详细描述的，迭代过程99进一步从因素106发现与一组新概念的关系，该组新概念可以导致答案或解决方案。

在一个方面，基于文本的推断链系统和方法100提供一种发现和证明查询答案的系统和方法，为此所述系统和方法通过内容构造推断图，将因素连接到答案，以便通过内容中的一个或多个段落证明推断图中的每个关系，并且其中推断图可以在包含一个或多个边的路径上，将因素连接到答案（即，多步骤推断图）。

在迭代（多次）的开始，从生成的初始推断图110I（或者生成的更新后的推断图110U，其要在后续迭代中扩展），问题生成器112实现编程后的过程，以便首先生成PQA系统115要回答的问题。当在每次迭代中生成修改后的推断图时，可以生成新问题以供PQA系统回答。具体地说，在针对推断图中的每个新关系的每个新端点的每次迭代中，问题生成器112形成一个或多个问题以供PQA系统回答。在此针对图9更详细描述问题生成器组件112。并行实现的PQA系统115接收根据现有推断图（例如，图110P）形成的问题。根据生成的独立问题的数量，可以并行调用一个或多个PQA系统以便发现回答问题的新关系。PQA系统是一种类型的自然语言问答系统，其接受NL问题并返回一组可能的答案、指示答案正确概率的每个答案的置信度得分，以及从内容正文（提供答案为何可能正确的证据）提取的每个答案的一组证明段落。在一个实施例中，可以实现IBM DeepQA系统作为PQA系统115。对于IBMDeepQA的描述，参考图19的描述。可以实现为PQA系统的可能实施例的其它可能QA系统是Javellin（CMU）、Ephera（CMU和开源）、SMART（MIT）、Wolfram Alpha（Wolfram）。它们均尝试产生准确的自然语言问题答案，但在产生置信度得分和证明段落的能力方面有所不同。

PQA系统115执行过程，以便从结构化或非结构化内容105获得或发现回答问题的新关系116。发现的新关系116另外包括置信度，并且可以作为数据存储在存储设备117（可以是或包括存储设备107）中。

如图4中进一步所示，在当前迭代中，图扩展器组件118实现编程后的过程，以便接收存储的新关系和置信度数据117，并且根据新关系和置信度数据117扩展在前一次迭代（例如，在第一次迭代中是110I）中生成的先前推断图110P。具体地说，图扩展器118接收新关系和置信度117，并且通过将新关系合并到先前推断图110P来处理新关系，以便导致新的扩展后的推断图110E，推断图110E如来自图扩展器118的输出所示并且可以作为数据存储在存储设备107中。

更具体地说，图扩展器118采取先前推断图110P和PQA组件发现的一组新关系116作为输入，并且输出包括新关系的新推断图110E。它通过以下操作执行该过程：将输入推断图中的节点与新关系中的节点合并，并且将它们添加到图。一个实例如下：

输入：推断图：A→B→C

输入：新关系：C1→D

输出：A→B→（C/C1）→D

其中合并C和C1（被视为同一节点）。针对C/C1→D计算的置信度与PQA115系统的答案产生的置信度相同，该答案是有关产生C1→D的C的问题的答案。

在一个实施例中，可以使用某种形式的“专门化”实现合并节点。例如，如果C是“diabetes（糖尿病）”，D是“blindness（失明）”，则生成的问题是“What causes blindness?（什么导致失明？）”，并且PQA系统产生关系“diabetes mellitus causes blindness（糖尿病导致失明）”，然后图扩展器118将“diabetes”与“diabetes mellitus”合并。在这种情况下，仅当节点相同或者将答案连接到更具体的概念时，所述实施例才可以合并节点。因此，“diabetes”将与“diabetes”或“diabetes mellitus”合并。此时，置信度不会在扩展后的图110E中重新传播，因为这由推理器组件150执行。

如图4中所示，推理器组件150执行编程后的过程，以便跨关系传播计算的置信度，从而输出更新后的（针对当前迭代）推断图110U，该推断图确保跨关系的特定置信度级别。即，作为推理器过程的一部分，可以执行其它修剪，因为PQA系统生成的某些关系置信度可能低于设置的阈值。它还可以根据相似度度量合并关系。

在此针对图10至10D更详细描述推理器组件150。在一个实施例中，推理器组件150接收以下项作为输入：（1）推断图节点之间的一组关系、（2）因素以及（3）候选解决方案或答案，并且针对推断图中的每个节点输出概率。推理器组件150还可以可选地输出答案为何正确的解释。具有这些输入和输出的算法可以用作推理器组件150，如下面针对图10至10D进一步描述的那样。

返回到图4，深度控制器组件175执行过程，以便接收新的更新后的推断图110U，并且根据指定深度或其它准则确定中止迭代的需要。深度控制器组件175为推断链系统和方法提供以下能力：迭代扩展从因素分析输出的原始因素形成的初始推断图。该迭代过程将继续扩展图，除非该过程停止，并且深度控制器组件175提供根据指定深度或其它准则中止迭代过程的能力。

在图11中更详细描述深度控制器组件175。在每次迭代中，深度控制器组件175执行一种方法，其用于分析当前更新后的推断图110U，并确定是否应将该图视为最终图，然后过程中止。深度控制器可以以各种方式实现。例如，深度控制器可以寻找通过整数表示的预定深度（称为“深度阈值”（DT）值），例如判定当前迭代是否具有为2的DT值。在该实例中，一旦图从原始因素扩展两个步骤（关系），迭代就将停止，并且输出该图作为最终图。另一个实施例可以考虑“置信度阈值”（CT）值，例如确定图110U中具有置信度>=CT的节点。在该实例中，深度控制器175将中止迭代，并且如果图110U包含与高于给定CT值的置信度关联的任何节点，则输出图110U作为最终推断图110F。可以在深度控制器175的一个实施例中使用深度和置信度阈值的任何组合。例如，如果深度控制器检测图是否到达某一深度，或者如果图包含高置信度节点（无论哪一个先到达），则所述系统可以中止并输出最终图。

返回到图4，如果确定需要中止迭代，则输出更新后的推断图110U作为最终推断图110F，并且将其存储在存储设备107中。此时，最终推断图110F将包括满足深度或置信度准则的一组节点和关系126。否则，扩展更新后的推断图110U，并且将其提供为问题生成器组件112的输入，作为下一次迭代99的节点和关系的新推断图。

图5示出包括附加关系注入组件的基于文本的推断链系统和方法100’的另一实施例。为了使推断链系统和方法更模块化且可扩展，可以引入关系类型注入组件130，其将针对PQA系统形成自然语言问题的逻辑与用于设置这些问题种子的关系类型分离开。如果给出特定节点，则关系类型注入组件130确定应要求哪种或哪些关系类型135。

通常，关系类型注入组件130接收初始推断图110I，并且考虑查询和初始因素组106以便确定一组种子关系或关系类型135，以供问题生成器组件112使用。参数化问题生成器组件112，以便允许单独提供一组关系类型135。然后使用这些关系类型作为种子，以便针对PQA系统115生成问题。

图6示出包括节点过滤组件140的基于文本的推断链系统和方法100’’的另一实施例，节点过滤组件140用于选择语句并在生成推断图时不进一步考虑这些语句，以便提高过程效率。通常，节点过滤组件140接收新关系和置信度126以及先前推断图110P数据内容。当PQA系统115输出具有不同置信度的许多建议关系时，节点过滤组件140实现过程，以便根据各种修剪算法而不考虑某些新节点（即，新关系端点）。简单的修剪算法可以包括提供置信度阈值界限（cut-off）。在该实施例中，图扩展器组件118将使用新节点142的子集来扩展推断图110P。

图3A示出由图4-6的基于文本的推断链系统100、100’、100’’执行的基于文本的推断链方法1000。如第一步骤1003中所示，将执行：在基于推断的链系统处接收输入查询；使用NLP文本分析、因素标识和因素加权，分解输入查询以便获得一个或多个因素；以及形成推断图的初始节点。然后，在1005，执行过程以便通过一个或多个内容源迭代地构造推断图，其中在每次迭代中，计算机实现的、基于文本的推断链系统通过经由一个或多个关系将因素连接到答案，发现输入查询的答案，推断图中的每个关系由来自内容源的一个或多个段落证明。所述推断链过程在具有表示推断关系的一个或多个边的一个或多个路径上，在推断图中将因素连接到所述解决方案。最后，在1010，基于文本的推断链方法从推断图为查询提供具有最高置信度（通过计算的概率值表示）的解决方案。

图3B是示出图3A的推断图生成步骤1005的详细流程图。如图3B中所示，在1050，图4-6的基于文本的推断链系统100、100’、100’’执行的基于文本的推断链方法1000进入迭代循环，其中在第一步骤1055，执行根据图中的一个或多个当前节点，生成一个或多个问题。在第一次迭代中，初始节点表示来自原始输入查询的因素。尽管未示出，但可以执行关系注入技术，以便确定应针对给定节点要求哪种或哪些关系类型。然后，在1060，执行在一个或多个内容源（例如，因特网）中搜索，以便标识导致新解决方案的一个或多个关系。应该理解，根据生成的独立问题的数量，可以并行调用一个或多个QA系统以便发现回答问题的新关系。这些新答案通过将它们表示为推断图中的新的附加节点，扩展当前推断图，每个新的附加节点通过表示关系的边连接，并且每个关系在关联的概率或置信度级别具有关联的证明段落。还应该理解，可以进一步实现节点过滤组件，以便根据各种修剪算法而不予考虑某些新节点（即，新关系端点）。然后，在1065，执行由推理器组件从关联的置信度级别推断扩展后的推断图的每个节点处的置信度级别，以便提供更新后的推断图。然后在1070，推断链系统判定更新后的推断图是否满足用于终止迭代的准则。这由上面针对图4更详细描述的系统深度控制器元件117执行。在1070，如果判定尚未满足终止准则（未满足或超过DT和CT级别），则过程继续回到1055，其中在下一次迭代中将新的附加节点作为推断图的当前节点，重复问题生成、搜索、置信度推断步骤以及终止准则确定步骤，否则，迭代终止。

图7示出上述基于文本的推断链系统和方法执行的多步骤推断图90生成的一个实例。例如，在有关帕金森疾病的医学领域查询中，初始推断图110I可以在其它节点之间包含节点“resting tremor（静止性震颤）”。PQA系统可以针对问题“what causes restingtremor（什么导致静止性震颤）”返回具有关联的置信度的许多可能答案。例如，Parkinson’s Disease（帕金森疾病）（32%）、Dystonia（肌张力障碍）（8%）、…、Multiple systematrophy（多系统萎缩）（3%）。对于该实例，假设“Multiple system atrophy”不是针对任何其它因素发现的任何关系的参数。那么，推理器组件确定的其整体置信度值将非常低。备选地，节点过滤组件将为“Multiple system atrophy”节点分配非常低的优先级得分（相对于更可能的节点，例如Parkinson’s Disease），并且可以对该节点进行修剪（扩展推断图时，对该节点不予进一步考虑）。

如图7中所示，输入医学领域的问题92：

A63-year-old patient is sent to the neurologist with a clinicalpicture of resting tremor that began2years ago.At first it was only on theleft hand,but now it compromises the whole arm.At physical exam,the patienthas an unexpressive face and difficulty in walking,and a continuous movementof the tip of the first digit over the tip of the second digit of the lefthand is seen at rest.What part of his nervous system is most likely affected?（一位63岁患者被送往神经科医师那里就诊，该患者的临床现象是2年前开始的静止性震颤。最初仅在左手出现，但现在波及整个手臂。身体检查时，该患者面部缺乏表情并且难以行走，而且静止时看到左手第一个手指的指尖在第二个手指的指尖上持续运动。他的哪部分神经系统最可能受感染？）

如图所示，推断链系统和方法生成的以下因素94可以包括：

63-year-old（63岁）

Resting tremor began2years ago（2年前开始静止性震颤）

…in the left hand but now the whole arm（…在左手出现，现在整个手臂）

Unexpressive face（面部缺乏表情）

Difficulty in walking（难以行走）

Continuous movement in the left hand（左手持续运动）

在推断链方法的第一次迭代中，可以发现从输入查询获得的因素94与推断节点95（例如，Parkinson’s Disease95A或Athetosis（手足徐动症）95B）关联（即，相关）。从推断节点95B，可以从在推断链方法的进一步迭代中获得的其它关系推断进一步答案95C、95D。对于针对医学领域实例发现的每个因素，创建将因素与答案关联的相应关系并且将其表示为推断图中的边。例如，对于医学领域实例中与推断答案Parkinson’s Disease相关的以下每个因素94A：

63-year-old

Resting tremor began2years ago

…Unexpressive face

在下面列出对应于相应证明段落的以下关系，这些关系通过在第一次推断链迭代中发现的推断图的相应推断图边表示。

边：96A通过发现的实例证明段落指示帕金森疾病：“The mean age of onset ofParkinson’s Disease is around60years.（帕金森疾病的平均发作年龄大约60岁。）”

边：96B：通过发现的实例证明段落指示帕金森疾病：“Resting tremor ischaracteristic of Parkinson’s Disease.（静止性震颤是帕金森疾病的特征。）”

边：96C通过发现的实例证明段落指示帕金森疾病：“Parkinson'sdisease:Aslowly progressive neurologic disease that is characterized by a fixedinexpressive face...（帕金森疾病：一种慢性进行性神经疾病，其特征是面部死板无表情…）”

此外，在医学领域实例中，在推断链方法的第一次迭代中，可以发现因素94B均与节点95B（例如，Athetosis）关联（即，相关）。例如，对于医学领域实例中与回答Athetosis相关的以下每个因素94B：

Difficulty in walking

Continuous movement in the left hand

在下面列出具有代表性的相应推断图边的对应于相应证明段落的以下关系。

边：96D通过发现的实例证明段落指示Athetosis：“Patients suffering fromathetosis often have trouble in daily activities such as eating,walking,anddressing（患有手足徐动症的患者通常在例如吃饭、行走和穿衣等日常活动中都有困难）”

边：96E通过发现的实例证明段落指示Athetosis：“Athetosis is defined as aslow,continuous,involuntary writhing movement that prevents the individualfrom maintaining a stable posture.（手足徐动症被定义为一种缓慢、持续、无意识的扭动运动，其阻止个人保持稳定姿势。）”

如图7的图中所示，关系（节点图边）的厚度指示答案中的置信度级别（例如，概率）以及关联关系的强度。对于医学领域实例，推断节点Parkinson’s Disease95A与因素“Resting tremor began2years ago”最强烈相关，如边96B的厚度指示的那样（与边96A和96C表示的关系强度相比）。

此外，在图7的医学领域实例中，在此处描述的推断链方法的第二次或后续迭代中，从每个推断节点95A和95B，可以从通过推断链方法获得的其它关系生成其他推断节点。

例如，推断节点95B Athetosis变成从中生成新问题的新因素，并且从导致新推断节点Basal Ganglia（基底神经节）95C和Striatum（纹状体）95D的PQA/推理器实现推断新关系97A和97B。以下是根据新发现的节点95C、95D，通过相应的推断图边表示的关系：

边：97A通过发现的实例证明段落指示Basal Ganglia95C：“Athetosis is asymptom primarily caused by the marbling,or degeneration of the basalganglia.（手足徐动症是一种症状，主要由基底神经节的大理石样花纹或退化导致。）”在一个实施例中，该发现的关系可以由在关系注入过程中注入“caused by（由…导致）”或“affects（感染）”关系产生。

边：97B通过发现的实例证明段落指示Striatum95D：“Lesions to the brain,particularly to the corpus striatum,are most often the direct cause of thesymptoms of athetosis.（脑部损伤，尤其是纹状体损伤，通常是手足徐动症的直接原因。）”在一个实施例中，该发现的关系可以由在关系注入过程中注入“caused by（由…导致）”关系产生。

节点图边97A、97B的厚度指示答案中的置信度级别（例如，概率）以及关联关系的强度。

此外，在图7的医学领域实例中，在推断链方法的进一步迭代中，可以进一步发现推断节点（或因素）95A、95C和95D均与新推断节点98A-98E关联（即，相关），新推断节点98A-98E对应于候选答案（新节点）Cerebellum（小脑）98A、Lenticular nuclei（豆状核）98B、Caudate nucleus（尾状核）98C、Substantia nigra（黑质）98D和Pons（脑桥）98E。在推断链方法中，如图7中所示，通过相应推断图边表示的以下关系，发现推断节点95A（Parkinson’sDisease）、95C（Basal Ganglia）和95D（Striatum）均与推断的新节点98D（Substantianigra）强烈相关：

边：93A通过实例证明段落指示Substantia nigra：“Parkinson's disease is aneurodegenerative disease characterized,in part,by the death of dopaminergicneurons in the pars compacta of the substantia nigra.（帕金森疾病是一种神经退行性疾病，其部分特征是黑质的致密部中的多巴胺能神经元死亡。）”可以通过在关系注入过程中注入“caused by（由…导致）”关系发现该关系。

边：93B通过实例证明段落指示Substantia nigra：“The pars reticulata ofthe substantia nigra is an important processing center in the basal ganglia.（黑质的致密部是基底神经节中的重要处理中心）”可以通过在关系注入过程中注入“contains（包含）”关系发现该关系。

边：93C通过实例证明段落指示Substantia nigra：“Many of the substantianigra's effects are mediated through the striatum.（黑质的许多作用通过纹状体调解。）”可以通过在关系注入过程中注入“associated with（与…关联）”关系发现该关系。

尽管未示出，但假设从图7的医学领域实例的这些推断节点95，可以存在通过进一步相应边和证明段落（未示出）进一步指示的候选答案98A-98C和98E。

如图所示，与候选答案Substantia nigra98D相关的边93A和93B的基本厚度指示具有较高置信度的对应关联得分。此外，答案节点Substantia nigra98D被示出具有比其它候选答案98基本上更厚的边界，因为Substantia nigra98D的整体置信度得分高于其它候选答案。因此，Substantia nigra98D将是问题92的最可能的候选答案，如复选标记反映的那样。

图8示出图4-6的基于文本的推断链系统和方法的因素分析组件104的一个实施例，因素分析组件104协作执行过程以便从自然语言查询生成一组因素，该组因素表示推断图的初始节点。因素分析组件104包括文本分析组件204，其可以包括已知系统和程序，例如MetaMap，其接收自然语言文本/查询输入并且使用自然语言处理器（NLP）组件的堆栈210分析输入。对于有关MetaMap的更多详细信息，参考Alan R.Aronson和Francois-Michel Lang的“An overview of MetaMap:Historical Perspective and Recent Advances（MetaMap概述：历史回顾和最新进展）”（J.Am.Med.Inform.Assoc.，2010年，在此引入作为参考）。MetaMap在http://metamap.nlm.nih.gov/处提供。

NLP堆栈210组件包括—但不限于—关系分类210A、实体分类210B、解析210C、句子边界检测210D和标记化210E过程。在其它实施例中，NLP堆栈210可以通过以下项实现：IBM的Slot Grammer，如Michael C.McCord的“Using Slot Grammer（使用Slot Grammer）”，IBM Research Report2010）中所述；斯坦福大学的解析器，如Marie-Catherine de Marneffe等人的“Generating Typed Dependency Parses from PhraseStructure Parses（从词组结构解析生成类型化依赖性解析）”（LREC2006）；或者其它此类技术组件。

因素标识组件208实现选择因素的过程，并且可以包括选择NLP堆栈210分类为症状、实验室测试或条件的所有实体的过程。因素加权组件212可以实现诸如逆文档频率（IDF）之类的技术，以便针对每个因素产生权重。

因素分析组件104将输入查询文本的片段标识为“因素”。这可以是原始输入中的术语、词组或者甚至全部句子。例如在USMLE（United States Medical Licensing（参见http://www.usmle.org/）问题的情况下，因素标识的一个非常简单的实现是该情况中的实际句子均是因素。

在一个实施例中，因素标识采取自然语言查询作为输入，并且生成包含一个或多个节点（这些节点称为因素）的初始推断图。因素是自然语言查询中被断言为真实的语句。例如，在医学领域中，查询可以提供有关患者的多种观察，然后询问有关该患者的具体问题，如在以下查询中：

A63-year-old patient is sent to the neurologist with a clinicalpicture of resting tremor that began2years ago.At first it was only on theleft hand,but now it compromises the whole arm.At physical exam,the patienthas an unexpressive face and difficulty in walking,and a continuous movementof the tip of the first digit over the tip of the second digit of the lefthand is seen at rest.What part of his nervous system is most likely affected?

因素分析组件104可以选择在各种粒度级别生成因素。即，基于文本的推断链系统和方法可以使用多个因素标识组件208。粒度级别可编程，以便：（1）随后可以针对PQA系统从每个因素生成问题，因为PQA系统的答案质量可以取决于问题中的信息内容的大小和数量；以及（2）结果推断图可以用于向用户解释哪些因素指示不同的候选答案。例如，如果因素的粒度非常粗糙，则这可能具有有限的效用。

在一个实例中，因素分析实现可能仅产生一个因素，其包含查询中的所有信息。但是，该粒度级别产生两个问题：（1）针对从此类粗粒度因素生成的问题，PQA可能不会有效，以及（2）即使可以产生良好答案，但结果推断图可能未解释查询的哪部分在确定决策时最重要，而这对于用户而言是有用的信息。

在进一步因素分析实现实例中，将查询分为句子。在上面标识的医学领域实例中，因素分析组件将产生三个单独因素（推断图中的初始节点），其中包含以下语句：

1）A63-year-old patient is sent to the neurologist with a clinicalpicture of resting tremor that began2years ago.（一位63岁患者被送往神经科医师那里就诊，该患者的临床现象是2年前开始的静止性震颤。）

2）At first it was only on the left hand,but now it compromises thewhole arm.（最初仅在左手出现，但现在波及整个手臂。）

3）At physical exam,the patient has an unexpressive face anddifficulty in walking,and a continuous movement of the tip of the first digitover the tip of the second digit of the left hand is seen at rest.（身体检查时，该患者面部缺乏表情并且难以行走，而且静止时看到左手第一个手指的指尖在第二个手指的指尖上持续运动。）

为了产生更细粒度的因素，可以使用自然语言处理（NLP）组件，例如解析器、实体识别器、关系检测器和共同引用解析器。共同引用解析器的一个用例在上面第二因素2）的实例中，其中重要的是要知道单词“it（它）”指“tremor（震颤）”。实现命名实体识别器以便标识提及重要的领域概念，例如医学领域中的症状。关系检测器（通常基于解析器输出）可以用于标识这些概念是否归因于患者。基于此类NLP分析的因素分析组件104实现然后可能产生因素，例如：

1）Patient is63-years old（患者63岁）

2）Patient has resting tremor（患者患有静止性震颤）

3）Tremor began2years ago（2年前开始震颤）

4）Tremor was only on the left hand,but now it compromises the wholearm（震颤仅在左手出现，但现在波及整个手臂）

5）Patient has unexpressive face（患者面部缺乏表情）

6）Patient has difficulty in walking（患者难以行走）

7）Continuous movement of the tip of the first digit over the tip ofthe second digit of the left hand is seen at rest.（静止时看到左手第一个手指的指尖在第二个手指的指尖上持续运动。）

如进一步所示，因素加权组件212很有用，因为在查找答案并对答案进行评分时，某些因素可能比其它因素更重要。可以使用各种技术初始化每个因素中的置信度加权。例如，可以为具有相对于领域而言必须唯一的术语的因素提供高于其它因素的权重。可以使用包括逆文档频率（IDF）的已知技术针对每个因素产生权重。如图所示，在完成因素分析过程之后，生成一组结果因素215，每个因素表示初始推断图110I中的初始节点106。

用于通过内容产生推断图以回答查询的相应图4-6的推断链系统100、100’、100’’均使用概率QA系统115以便发现关系，并且使用生成问题的参数化问题生成器组件112，这些问题可以基于从关系类型注入组件130单独生成的一个或多个关系类型，以便提供针对PQA系统115生成问题的种子逻辑关系。

图9示出基于文本的推断链系统的实现关系注入组件130以便从输入查询101生成自然语言问题315的问题生成器组件112的进一步详细实施例300。

问题生成组件112采取初始推断图110I中的节点106作为输入，并且生成一个或多个自然语言问题315作为输出，自然语言问题315以适合于由PQA系统115处理的方式形成，以便引起用于将新关系断言到推断图的响应。

在一个实施例中，问题生成组件112执行过程，以便产生仅要求一种关系的问题。例如，“causes（导致）”关系。一种简单的实现可以仅产生形式为“What causes:X?（什么导致：X？）”的问题，其中X是推断图节点106的文本。因此，从上述医学领域实例，如果给出初始图节点106

Patient has resting tremor

问题生成组件112可以生成问题：

What causes:Patient has resting tremor?（什么导致：患者患有静止性震颤？）

另一个实施例可能例如通过应用问题生成模式或模板125，产生更简单且更符合语法的问题。此类模式的一个实例可以表示能够消除对患者的引用，并且在上面的医学领域实例中产生问题：

What causes resting tremor?（什么导致静止性震颤？）

取决于PQA系统115，询问该问题可以导致改进的答案。问题生成组件112进一步实现编程后的过程，以便产生要求许多不同种类的关系（例如，“causes”、“indicates（指示）”、“is associated with（与…关联）”、“treats（治疗）”）的问题。

如图9中进一步所示，关系类型注入组件130将针对PQA系统115形成自然语言问题的逻辑与用于设置这些问题种子的关系类型分离开。关系类型注入组件130实现过程，以便确定应该针对给定图节点106要求哪种或哪些关系类型。关系类型注入组件130可以通过以下操作确定关系类型：确定推断图节点106的类型，并且可能确定自然语言查询要求的目标类型（例如，疾病、位置、器官、治疗、药物等）。例如，如果给出推断图节点106“Parkinson’sDisease”，并且具有查询要求治疗的知识，则注入组件将生成问题“What treatsParkinson’s Disease?（什么治疗帕金森疾病？）”，而不是“What causes Parkinson’sDisease.（什么导致帕金森疾病。）”

问题生成组件112然后以其通用形式将关系类型136与问题模板或模式125相组合。例如，可以将关系类型136“causes”、“indicates”或“treats”应用于问题模板125，例如：

What<relation><factor>?（什么<关系><因素>？）

What<inverse-relation><factor>?（什么<逆关系><因素>？）

为了获得对应的问题，例如

What causes<factor>?（什么导致<因素>？）

What is caused by<factor>?（什么由<因素>导致？）

其中取决于推断图中的节点，过程可以确定使用节点词组代替<factor>，例如：

“resting tremor”

将产生问题：

What causes a resting tremor?（什么导致静止性震颤？）

和

What indicates a resting tremor?（什么指示静止性震颤？）

如上所述，结合图4-6，现在将在下面针对图10和10A-10D更详细描述推理器组件150的一种实例实现。

图10示出接收具有标识为候选端点节点151的一个或多个语句的推断图（例如扩展后的推断图110E）作为输入的推理器组件150的一种实现。推理器执行过程，以便在节点151处针对每个语句从所述输入生成输出概率（或置信度级别），从而随后合并或读回到推断图，形成更新后的推断图110U。

在一个实施例中，一种用于计算节点处的概率的方法可以包括对通向每个节点的路径数量进行计数，并且规范化以便针对每个节点形成在0和1之间的数值。

在进一步实施例中，如过程153和155所示，从推断图生成贝叶斯网络。如图10中所示，用作编程后的过程的推理具有下面描述的两个步骤。

同化包括过程153，以便将一组推理转换成没有循环的有效贝叶斯网络。可以可选地执行过程，以便通过删除冗余路径优化推断图。应该理解，有效的贝叶斯网络可以具有不同的结构。例如，如图10中所示，通过从输入推断图110E删除关系152而求解循环。

如果给出同化后的图，则推断包括过程155，实现该过程以便使用置信度传播从已知节点（即，因素）的概率推断未知节点（即，候选节点）的概率。图10示出输入推断图中的实例节点151a、151b，其中节点151a被示出具有表示事件断言的更厚边界，其具有大于针对候选节点151b的附加事件断言计算的置信度值的已计算置信度（更高概率）。可以在对YedidaJ.S.、Freeman,W.T.等人的“Understanding Belief Propagation and ItsGeneralizations（了解置信度传播及其概论）”（Exploring Artificial Intelligence inthe New Millennium（《新千年的人工智能探索》），第8章，第239-236页，2003年1月（Science and Technology Books），在此引入作为参考）的引用中找到一种用于执行置信度传播的技术。

在推理器组件150中，然后将推断的概率读回到输入推断图（例如，推断图110E），如157中所示，为此将从贝叶斯网络计算的数值（概率值）复制到推断图中的对应节点，将该推断图以及未修改的结构传递到合并过程156。

在一个实施例中，推理器组件150不返回同化后的贝叶斯网络。它使输入推断图保持不变，只是在159将计算（推断）的事件概率作为输出推断图110U。还应该理解，可以通过描述沿着从已知因素到选定候选节点（例如，节点151a）的最强路径（最多置信度传播）的边而生成解释。

在图10A中，对于医学领域实例，推理器组件150接收数据，该数据表示包括一组关系R的实例推断图161，因此推断图包括（1）关系R1，其表示震颤指示帕金森疾病；（2）关系R2，其指示帕金森疾病导致震颤；以及（3）关系R3，其表示帕金森疾病指示黑质。推断链可以从因素“tremor”发现一组关系以便产生候选答案，例如Basal ganglia（未示出）和候选答案Pons（脑桥）163，如图10A中所示。

更具体地说，参考图4-6，推理器组件150输入和输出的数据结构如下所示。输入是称为“inference question（推断问题）”的对象，其包括：（1）关系集合，其中关系具有头结点、尾节点、类型和强度；（2）标识为因素的节点集合，具有分配的概率；以及（3）标识为候选节点的节点集合，其概率不一定已知。推理器组件150输出包括图中每个节点（包括候选节点）的概率。推理器组件150可以可选地输出有关每个候选节点为何接收其概率的解释。

推理器组件150被编程，以便为所有节点（而不仅仅是候选节点）分配概率，因为问题生成组件112可以根据某些非候选节点的传播概率，为这些节点提供较高的优先级。一种特定的实现包括贝叶斯网络，但推理器组件可以实现其它技术。

例如，贝叶斯网络可以用于训练概率QA系统，如下所示。将断言正确答案设置为概率1，将解除断言错误答案设置为概率0。然后在整个图内传播置信度。传递肯定消息的边可以用作肯定训练实例，传递否定消息的边可以用作否定训练实例。

当图10A的推断图161可能因为关系R1和R2形成循环而不形成有效的贝叶斯网络时，则作为执行的推理过程的同化组件的一部分，推理器组件150实现过程，以便例如通过丢弃每个循环中的最弱链路，将推断图转换成有效的贝叶斯网络。如图10B中所示，边“E1”和“E2”是对应于图10A中所示的推断图161的对应贝叶斯网络164中的边。在第一个推理器推断中，为因素分配其已知概率，从而导致图10C中所示的贝叶斯网络165。出于示例性目的，因素“tremor（震颤）”168被示出为具有通过节点边界厚度指示的概率。在第二个推理器推断中，在整个图内传播置信度，从而导致图10C中所示的贝叶斯网络167，其中每个节点具有根据传播的置信度而分配的概率。然后，如图10E中所示，读回从贝叶斯网络167生成的概率，以便填充图10A的原始推断图161中的对应节点，从而现在通过相应边界厚度示出推理的概率。

图10F示出推断图161可以只是具有互连节点和边的复杂网络160的一部分。

在图10C-10F中，出于示例性目的，节点的边界168的厚度用于指示事件的可能性。同样，边169的厚度表示沿着该边传递的最强消息的强度。例如，候选节点162的更厚节点边界168（与候选节点163的边界168相比）指示更可能的候选节点。在图10D中，节点106a、106b、106c表示因素（其概率已知的事件），而节点162、163和节点164表示候选答案或节点，即，在回答问题时发挥作用的答案。还示出图的其它节点。

尽管未在医学领域实例的图10E中的可视化160中示出，但图节点下的概率是在0和1之间的数值，这些值表示事件概率和消息强度。为此，进一步示出表示更新图的输出的答案概率表199。从推理器组件160的角度看，它们是图被同化、传播、规范化之后的每个答案的概率，以便将它们总计为1。这些输出199表示用于医学领域实例的基于文本的推断链系统的输出，并且指示更好的候选答案。

因此，图4-6的基于文本的推断链系统100、100’、100’’提供推断图生成器系统和方法，以便通过非结构化内容产生推断图，从而使用用于发现关系的概率QA系统回答查询。进一步，如下面针对图12描述的，图4-6的基于文本的推断链系统100、100’、100’’或者它们的各种组合可以被编程，以便采用双向图生成查询解决方案策略。

如图12中所示，一种系统和方法可以通过以下操作产生推断图：独立并且可选地并行（同时）通过从查询提取的因素执行向前推断，以及从通过假设产生的假设答案、或候选答案、生成器执行向后推理。

图12示出采用双向图生成查询解决方案策略的基于文本的推断链系统和方法。从初始输入查询101，链系统100执行因素导向过程400，其生成最终向前推断图110FF。并行或同时地，链系统100执行假设导向过程500，其生成具有可能解决方案的最终向后推断图110FB，将推断图中指示的可能解决方案作为端点节点514。即，在一个实施例中，为了更好地管理从因素生成图，并减少查找通向可能解决方案的路径所用的时间，过程包括从因素生成向前导向图以及从候选答案515生成向后导向图，从而查找桥（即，交汇点，在该处可以发现联接每个图的端点的关系），然后联接所述图。编程后的推断图联接器组件600查找联接图的桥，从而产生最终推断图610。

图13示出因素导向或向前导向推断图生成迭代过程400，其用作图4-6的编程后的基于文本的推断链系统100、100’、100’’或它们的组合。在该实施例中，构造初始或原始向前推断图110IF，其包括从初始输入查询101提取的因素406作为初始推断图110IF的初始节点。在每次迭代中，将先前的向前推断图标记为110PF（或者，在处理的第一次迭代中，初始向前推断图是110IF），并且在每次迭代中，图扩展器118生成扩展后的向前推断图110EF；并且推理器组件150使用具有置信度值的节点生成更新后的向前推断图110UF。在指定深度处或者当至少一个发现的关系累积的置信度超过给定阈值，深度控制器组件175将中止迭代，并输出更新后的推断图110UF作为最终向前推断图110FF。否则，更新后的推断图110UF变成当前推断图以作为问题生成器组件112的新输入，并且迭代循环99。最终向前推断图110FF包括从查询标识的因素，以及从这些因素推断的具有置信度值的新节点。对于医学领域实例，从因素标识处理并在向前导向图生成之后，最终推断图可以包括以下具有置信度值的实例推断节点：

Patient has Parkinson’s Disease:0.8（患者患有帕金森疾病：0.8）

Patient has Dystonia:0.15（患者患有肌张力障碍：0.15）

Patient has Athetosis:0.03（患者患有手足徐动症：0.03）

图14示出假设导向推断图生成迭代过程500，其同样用作图4-6的编程后的基于文本的推断链系统100、100’、100’’或它们的组合，但是实现候选答案生成器504以便在构造向后推断图110IB时产生初始节点。在该实施例中，将初始向后推断图标记为110IB，当前向后推断图是110PB，并且图扩展器118生成扩展后的向后推断图110EB，推理器组件150生成新的修改后的推断图110UB（例如，在处理的第一次迭代之后）。在过程500的该实施例中，候选答案生成器504执行编程后的过程，以便接收和分析输入查询101。候选答案生成器504使用不同技术产生表示不同“假设”的许多可能（候选）答案或解决方案，每个答案或解决方案变成向后推断图110IB中的初始节点506，并且系统可以将每个答案或解决方案连接到最终输出双向推断图中的某个因素子集。此外，在指定深度处，深度控制器175将中止迭代，并输出新推断图作为最终向后图110FB。否则，新推断图（例如，图110UB）变成问题生成器组件112的新输入，并且迭代循环99。

在向后导向图生成中，实现过程以便访问候选答案生成器504，其接收查询并使用已知方法进行搜索，以便根据查询产生可能的答案（例如，神经系统的各部分）。对于上述医学领域实例（参见图10D），生成的实例候选答案可以包括：（1）Substantia nigra（黑质）、（2）Caudate nucleus（尾状核）、（3）Lenticular nuclei（豆状核）、（4）Cerebellum（小脑）和（5）Pons（脑桥）。

在向后导向图生成中，图4-6的基于文本的链系统100、100’、100’’或它们的组合的组件扩展该图。具体地说，问题生成器组件112生成适合于输入到PQA系统的自然语言问题，例如：

What causes Substantia nigra to be affected?（什么导致黑质受感染？）

What causes Caudate nucleus to be affected?（什么导致尾状核受感染？）

调用PQA系统组件115以便产生这些问题的答案。例如，帕金森疾病导致黑质受感染。图扩展器组件118将这些答案作为边添加到向后导向图。可以执行多次迭代以便在推断图中形成更长的路径。

在一个实施例中，可以使用用于IBM的DeepQA系统中的相同方法实现候选答案生成，DeepQA系统用于例如下面针对图19描述的候选答案生成。通常，候选答案生成实现将输入查询分成查询术语的过程，查询术语具有可搜索组件。然后，内置到QA系统或者由QA系统访问的搜索引擎执行使用一个或多个可搜索组件对内容进行第一次搜索，以便获得包括候选答案的文档。可以分析这些文档以便生成一组候选答案。然后，可以使用候选答案和查询术语的可搜索组件在内容中进行进一步搜索，以便获得一个或多个支持段落，支持段落具有至少一个所述候选答案和查询术语的至少一个所述可搜索组件。可以使用所属技术领域中已知的评分技术确定这些候选答案的置信度级别，以便对支持段落进行评分。

图15示出用于合并节点或联接通过图13和图14中描述的编程后的推断链引擎获得的相应向前和向后导向图的推断图联接过程600的实现。在该实施例中，图15中的相同元素的功能与在此针对图4-6、13、14描述的推断链系统和各种实施例中相同，以便提供一种系统和方法，其用于通过运行向前或因素导向图生成以及向后或假设导向推断图生成过程的并行（即，同时）双向图生成，产生单个集成的输出推断图。如果节点未交汇，则所述方法使用深度控制器限制两个路径的生成，并且使用推断图联接器过程600促使发现可以将答案联接到查询中的因素的关系。计算机系统实现推断图联接器过程600，其接收表示最终向前推断图110FF和最终向后图110FB的节点和关系数据作为输入。

推断图联接器过程600联接从因素通过中间节点到可能答案的两个路径，具体地说，将向前生成的推断图与向后生成的推断图相连。图联接中的第一且可选的步骤是节点合并元件665处的节点合并。节点合并器665实现编程后的过程，以便分析双向生成的图中的不同概念端点，并且在概率上确定它们是否指代相同的逻辑语句（概念）。

如果以足够的确信度在概率上确定图中的任何两个不同节点确实指代相同的概念，则将它们合并成单个节点，从而减少图中的路径数。节点合并可以进一步自动连接/联接两个图（双向生成的或者不是双向生成的）。当合并的节点来自系统尝试联接的不同图时，便会出现这种情况。节点合并器回答的隐式问题是“Do these two nodes refer tothe same logical statement?（这两个节点指代相同的逻辑语句吗？）”因此，不需要向PQA系统询问显式问题，以便节点联接器按照节点联接方式联接节点。如果以足够的确信度在概率上确定它们确实指代相同的概念，则将它们合并成单个节点，从而减少图中的无关或杂乱路径数，这些路径将削弱置信度传播。这可以使用任何数量的术语匹配或共同引用技术执行，这些技术使用所属技术领域中已知的技术查找句法、语义或上下文相似度。上面提及的MetaMap程序是可以在医学领域中实现的一种实例系统。如果给出两个术语，则可以使用MetaMap确定它们是否指代相同的医学概念。通常，可以以这种方式使用任何标识给定领域同义术语的“领域字典”。作为其它医学领域实例，Diabetes可以与Diabetes Mellitus合并，或者Cold（感冒）与Cold Virus（感冒病毒）合并，或者High Blood Pressure（高血压）与Hypertension（高血压）合并。如果将合并后的节点连接成另一个图而不是单独连接它们，则节点联接性能将提高。

调用可选的节点合并器665之后，节点联接元件675实现编程后的过程，以便使用系统的一部分检测未在将因素连接到答案的路径上的关系端点，并且尝试发现它们（因素和答案）之间的链接。

具体地说，联接过程675接收双向生成的图，并且搜索可以通过关系连接的两个断开节点（每个节点来自一个图）。例如，一个向后导向图节点是“Diabetes”，另一个节点是“Blindness”。节点联接生成可以链接两个节点的问题。例如：

Does Diabetes cause Blindness?（糖尿病导致失明吗？）

如图15中所示，判定PQA系统组件115是否以足够的置信度回答断言了连接节点的新关系和新路径构建。然后联接所述图。在一个实施例中，节点联接器可以采用连接两个图中的所有叶节点，然后根据传播的置信度对路径进行排序。它可以根据节点类型仅选择某些节点对。

针对图15的推断图联接器过程600，在任何实现中要考虑两种情况：1）向前和向后推断图可以自然相交；或者2）向前和向后推断图不相交。

对于医学领域实例，情况是向前导向和向后导向推断图自然相交。在该实例中，向前导向图包括具有高置信度的端点“Parkinson’s Disease（帕金森疾病）”，向后导向图包括关系“Parkinson’s Disease causes Substantia Nigra to be affected（帕金森疾病导致黑质受感染）”，因此当组合图时，存在从初始因素导向候选答案的路径，并且迭代过程终止。

图16示出一个实例节点联接器过程，其尝试通过查找向前导向图（例如，图110FF）的端点节点514与向后导向图（例如，110FB）中的节点之间的关系，组合双向生成的推断图。在一个实施例中，通过向PQA系统组件115询问“是”/“否”或多选问题而执行该操作。在一个实施例中，图16示出推断图联接器过程600产生的关系516，其联接最终向前推断图110FF的节点524和最终向后推断图110FB的节点526。该关系516被示为更厚，例如与另一个发现的关系517的厚度相比，从而指示支持联接最终推断图的端点节点524和526的标识关系（多个）和对应证明段落的最高置信度级别的计算。节点526被指示具有更厚边界，从而指示正确解决方案或答案的最高计算概率，例如与端点节点525相比，端点节点525可以作为找到具有较弱置信度级别的另一个发现关系517的结果而联接。

对于在此描述的医学领域实例，编程后的联接器过程可以提供问题生成器组件生成的实例“是”/“否”问题，以便在PQA系统组件115中处理。实例如下所示。

Does Parkinson’s Disease cause Substantia nigra to be affected?（帕金森疾病导致黑质受感染吗？）

Does Parkinson’s Disease cause Caudate nucleus to be affected?（帕金森疾病导致尾状核受感染吗？）

对于在此描述的医学领域实例，生成的在PQA系统组件115中处理的实例多选问题可以包括：

Parkinson’s Disease causes which of the following to be affected:(Substantia nigra,Caudate nucleus,Lenticular nuclei,Cerebellum,Pons)（帕金森疾病导致以下哪项受感染：（黑质、尾状核、豆状核、小脑、脑桥））

图17A-17B示出根据在此描述的实施例的推断图计算的一个实例。从输入查询601：

ON HEARING OF THE DISCOVERY OF GEORGE MALLORY’S BODY,THIS EXPLORERTOLD REPORTERS HE STILL THINKS HE WAS FIRST.（听到发现乔治·马洛里的遗体之后，这位探险者告诉记者，他仍然认为乔治·马洛里是第一位探险则。）

并且使用文本分析、图8的因素分析组件200的因素标识和因素加权组件中的一个或多个的处理将获得以下因素606A、606B，如下所示：

606A：GEORGE MALLORY from“DISCOVERY OF GEORGE MALLORY’S BODY”（“发现乔治·马洛里的遗体”中的“乔治·马洛里”）

606B：FIRST EXPLORER from THIS EXPLORER TOLD REPORTERS HE STILL THINKSHE WAS FIRST（“这位探险者告诉记者，他仍然认为乔治·马洛里是第一位探险者”中的“第一位探险者”）

其中重点指示从查询生成的初始节点（因素）。将沿着在此描述的计算系统支持的并行处理路径605A、605B同时处理这些因素。具体地说，使用相应的问题生成器组件612A、612B。问题生成过程612A、612B生成相应的问题613A、613B。

613A：This is associated with George Mallory（这与乔治·马洛里关联）

613B：This is associated with First Explorer（这与第一位探险者关联）

通过并行实现PQA系统615A、615B，从搜索的（结构化+非结构化）内容获得以下证明段落620A、620B。

620A：George Herbert Leigh Mallory(18June1886–8/9June1924)was anEnglish mountaineer who took part in the first three British expeditions toMount Everest in the early1920s.（乔治·赫伯特·雷·马洛里（1886年6月18–1924年6月8/9日）是英国登山者，他在20世纪20年代早期率先三次参加英国珠穆朗玛峰探险。）

620B：A mountaineering expert will today claim that Sir Edmund Hillarywas not the first man to scale Everest-and that it was in fact conqueredthree decades before by the British climber GeorgeMallory.（登山专家如今声称，埃德蒙·希拉里先生并不是登上珠穆朗玛峰的第一人—事实上，英国登山者乔治·马洛里三十年前就已征服珠穆朗玛峰。）

620C：Sir Edmund Hillary was a mountain climber and Antarctic explorerwho,with the Tibetan mountaineer Tenzing Norgay,was the first to reach thesummit of Mount Everest.（埃德蒙·希拉里先生既是登山者，又是南极探险者，他与藏族登山者丹增·诺盖是首批到达珠穆朗玛峰顶点的人。）

从用于传播置信度的推理器组件150过程的实现，可以生成以下候选答案622A、622B：

622A：Mount Everest（珠穆朗玛峰）以及

622B：Edmund Hillary（埃德蒙·希拉里）

答案Edmund Hillary622B的增加的边界厚度指示与较高置信度值关联的相对增加的置信度（得分），如用于确定该答案是最佳答案的推理器组件150计算的那样。

图17A进一步示出在并行处理路径605A单次迭代中生成的结果推断图610A，其具有与候选答案Mount Everest622A关联或相关的初始节点（因素606A）（如证明段落所支持的）。同样，并行处理路径605B导致生成推断图610B，其具有与Edmund Hillary关联或相关的初始节点（因素606B），作为具有最高计算置信度（如最厚边界所指示）的候选答案622B。

图17A、17B进一步示出节点联接器过程675，其执行并行形成的推断图610A、610B的联接。推断图联接过程首先确定生成的候选答案，并且在确定它们之后，判定这些候选答案是否导致单个正确答案。

联接用于判定置信度如何在从问题中的不同因素发现的两个可能答案（例如，Mt.Everest和Edmund Hillary）之间流动（因为因素Edmund Hillary也是来自从连接到该链接的注释段落发现的第一个因素的候选答案）。

在图17A中所示的方法中，生成的候选答案可以被视为因素，可以从这些因素生成问题以供PQA处理。例如，通过联接推断图610A、610B，答案Mt.Everest（珠穆朗玛峰）和SirEdmund Hillary（埃德蒙·希拉里先生）变成因素，问题生成器组件112可以从这些因素生成问题，以便确定它们的关系和关联的置信度强度：生成实例问题672：

Is Mount Everest associated with Edmund Hillary?（珠穆朗玛峰与埃德蒙·希拉里关联吗？）

使用PQA系统组件115的处理，很容易确定在答案Mt.Everest和SirEdmundHillary之间具有关联，如联接器675中的“是”答案678指示的那样。因此，例如，从搜索的（结构化+非结构化）内容获得以下证明段落620D：

On29May1953,Hillary and Tenzing Norgay became the first climbersconfirmed as having reached the summit of Mount Everest.（1953年5月29日，希拉里和丹增·诺盖成为首批被确认到达珠穆朗玛峰顶点的登山者。）

在答案Mt.Everest和Sir Edmund Hillary之间建立如所指示的关系之后，图17B的最终推断图将示出形成的答案和对应的置信度之间的关系，如发现的证明段落620D支持的那样。

图18示出包括并行实现PQA系统的推断链系统的另一实施例。图18包括一种根据在此描述的实施例的系统和方法，用于生成推断图以便发现和证明查询答案。在并行概率QA系统355A、355B、…、355N中实现的并行PQA服务350允许在计算机系统上可扩展且高效地执行生成过程。因此，从图18看到，生成问题生成器组件112的输出317作为多个查询（问题），每个相应查询由并行PQA系统阵列的相应PQA系统355A、355B、…、355N提供服务，以便提供改进的延迟。

图19是示出每个PQA系统355的实施例的高级逻辑架构和方法的系统图。如图19中所示，架构355包括查询分析模块320，其实现用于接收和分析输入文本查询或问题319的功能。在所示实施例中，在此描述的基于文本的编程后的推断链系统的问题生成器组件例如从因素生成查询319。提供候选答案生成模块330，以便通过遍历结构化、半结构化和非结构化源，例如包含在主源模块311和/或答案源知识库模块321中的内容（例如，包含从主源提取的关系和列表集合），实现对候选答案的搜索。所有信息源可以存储在本地，或者分布在包括公共网络（例如，因特网或万维网）的网络上。候选答案生成模块330根据对所检索数据的分析，生成多个包含候选答案的输出数据结构。在图19中，示出一个包括证据收集模块370的实施例，证据收集模块370与主源311和知识库321对接，以便同时根据具有候选答案的段落来分析证据并对每个候选答案进行评分，以作为并行处理操作，例如在共同拥有、共同未决的第12/152,411和12/126,642号美国专利申请（每个专利申请的所有公开内容在此全部引入作为参考）中所描述的那样。

在一个实施例中，可以采用如下架构：其使用通用分析系统（CAS）候选答案结构，并且实现支持段落检索操作。对于该处理，证据收集模块370在单独处理模块中实现支持段落检索操作和候选答案评分，以便同时分析段落并对每个候选答案进行评分，以作为并行处理操作。知识库321包括内容，例如包含结构化或半结构化源（预先计算或以其它方式）的一个或多个数据库，并且可以包括关系集合（例如，类型化列表）。在一种实例实现中，答案源知识库可以包括存储在存储系统（例如，硬盘驱动器）中的数据库。答案排序模块360提供功能以便对候选答案进行排序（即，计算置信度值），并且确定响应399，响应399连同相应置信度一起返回到引擎，以便可能使用节点和关系扩展推断图。响应可以是响应于问题的答案，或先前答案的详细描述，或澄清的请求—当未找到高质量的问题答案时。

在一个实施例中，图19中所示的系统采用一个或多个模块，以便根据（但不限于）文本、音频、视频、手势、触觉输入和输出等形式，在用户或计算机系统和系统10之间实现I/O通信。因此，在一个实施例中，可以根据包括文本、音频、图像、视频、触觉或手势的多种形式中的一种或多种，提供输入查询和生成的查询响应。

图20示出其中可以采用本系统和方法的计算系统401的一种示例性硬件配置。硬件配置优选地具有至少一个处理器或中央处理单元（CPU）411。CPU411通过系统总线412与以下各项互连：随机存取存储器（RAM）414、只读存储器（ROM）416、输入/输出（I/O）适配器418（用于将诸如磁盘机421和磁带驱动器440之类的外围设备连接到总线412）、用户接口适配器422（用于将键盘424、鼠标426、扬声器428、麦克风432和/或其它用户接口设备连接到总线412）、通信适配器434（用于将系统400连接到数据处理网络、因特网、内联网、局域网（LAN）等），以及显示适配器436（用于将总线412连接到显示设备438和/或打印机439（例如，数字打印机等））。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

因此，在一个实施例中，可以使用各种程序设计语言（例如Java和C++）原生的数据结构执行用于高效段落检索的系统和方法。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

上面描述的实施例是示例性实例，不应当解释为将本发明限于这些特定的实施例。因此，所属技术领域的技术人员可以实现各种更改和修改，而不偏离在所附权利要求中限定的本发明的精神或范围。

Claims

1.一种推断查询答案的方法，包括：

接收输入查询；

分解所述输入查询以获得一个或多个因素，每个因素是所接收的输入查询的逻辑上独立的元素，所述因素形成推断图的初始当前节点，所述推断图表示所述输入查询中的因素与对所述输入查询的可能答案之间的关系路径，所述推断图通过一组由边连接的节点表示，其中节点表示状态，弧表示状态之间的关系，其中关系与置信度关联，关系中的概念与置信度关联，其中每个边与一组段落关联，这些段落提供关于该关系被评估为真实的原因的证明，证明边的每个段落与置信度关联，该置信度指示段落证明关系的可能性；

通过一个或多个非结构化内容源迭代地构造所述推断图，其中在每次迭代中：

根据所述推断图中的一个或多个当前节点或附加节点生成一个或多个问题；

从所述非结构化内容源生成对所述问题的一个或多个答案；

从所述非结构化内容源在所述当前节点和所述答案之间生成一个或多个关系，其中，根据从所述非结构化内容源证明段落，所述关系具有关联的置信度级别；以及

通过将所述答案作为附加节点，经由表示所述关系和所述关联的置信度级别的加权边，添加到与所述当前节点相连的所述推断图，更新所述推断图；以及

从所述推断图提供所述输入查询的答案，

其中编程后的处理器设备被配置为执行所述接收、分解和迭代地构造所述推断图以提供所述答案中的一个或多个。

2.根据权利要求1的方法，进一步包括：

判定更新后的推断图是否满足用于终止所述迭代的准则并执行以下操作之一：

如果满足所述准则，则终止所述迭代；否则

针对下一次迭代，使用所述附加节点作为当前节点，重复所述生成一个或多个问题、所述生成一个或多个答案、所述生成一个或多个关系以及所述更新推断图的步骤，

其中在终止时，所述输入查询的答案是来自所述更新后的推断图的节点。

3.根据权利要求2的方法，进一步包括：

标识支持所述推断图的连接节点之间的关系的一个或多个证明段落。

4.根据权利要求2的方法，其中终止准则包括：标识所述更新后的推断图中推断的置信度值超过预定阈值的节点；或者

执行预定数量的迭代。

5.根据权利要求2的方法，进一步包括：

从所述关联的置信度级别推断在所述推断图的每个节点的置信度级别，以提供更新的推断图，其中所述推断置信度级别包括：

从所述推断图的节点和关系形成贝叶斯网络，并且关联的置信度值表示支持段落证明所述节点的答案的信任概率；以及在每个答案中，跨所述贝叶斯网络中表示的所述关系和节点而传播关联的置信度值。

6.根据权利要求2的方法，其中形成所述当前节点的因素包括语句，并且，在每次迭代中：

确定对应于所述语句的预定关系类型；以及

使用对应于所述预定关系类型的模板，从所述语句形成问题。

7.根据权利要求2的方法，其中所述因素包括语句，所述方法在每次迭代中进一步包括以下操作中的一个或多个：

确定选定语句的优先级，作为方便的对应问题生成的因素；或者

过滤选定语句并删除所述选定语句，作为对应问题生成的因素。

8.根据权利要求2的方法，其中分解所述输入查询包括：

分析所述问题的文本；

从所述分析标识所述一个或多个因素；以及

向所述一个或多个因素应用权重。

9.根据权利要求2的方法，还包括：

将所述输入查询分解成查询术语，并使用所述查询术语获得所述输入查询的一个或多个候选答案；

作为并行的同时操作而执行以下操作：

由所述编程后的处理器设备通过从所述输入查询获得的因素而迭代地构造第一推断图，所构造的第一推断图在具有表示所述关系的一个或多个边的一个或多个路径上，将因素连接到导致所述输入查询的答案的一个或多个节点；以及

由所述编程后的处理器设备从所述候选答案迭代地构造第二推断图，所述第二推断图在具有表示关系的一个或多个边的一个或多个路径上，将所述候选答案连接到导致所述输入查询的所述一个或多个因素的一个或多个节点；

在同时的迭代构造期间，判定第一推断图是否可以被联接到所述第二推断图以便生成具有表示所述输入查询的答案的节点的最终推断图。

10.根据权利要求9的方法，其中判定所述第一推断图是否可以被联接到所述第二推断图包括：

使用应用于所述第一和所述第二推断图中的每个推断图的端点节点的相似度准则，判定两个所述端点节点是否可以被合并成单个节点以便联接所述第一推断图和所述第二推断图；或者

促使发现形成将所述第一推断图的端点节点联接到所述第二推断图中的端点答案节点的边的关系。

11.一种推断查询答案的方法，包括：

接收输入查询；

分解所述输入查询以获得一个或多个因素，每个因素是所接收的输入查询的逻辑上独立的元素，所述因素形成第一推断图的初始节点，所述第一推断图表示所述输入查询中的因素与对所述输入查询的可能答案之间的关系路径，所述第一推断图通过一组由边连接的节点表示，其中节点表示状态，弧表示状态之间的关系，其中关系与置信度关联，关系中的概念与置信度关联，其中每个边与一组段落关联，这些段落提供关于该关系被评估为真实的原因的证明，证明边的每个段落与置信度关联，该置信度指示段落证明关系的可能性；以及

使用耦合到具有内容的非结构化内容源的编程后的处理器设备迭代地构造所述第一推断图，其中使用所述因素作为所述第一推断图的初始当前节点，其中，在每次迭代中：

根据所述第一推断图中的一个或多个当前节点或附加节点生成一个或多个问题；

从所述非结构化内容源生成对所述问题的一个或多个答案；

通过将所述答案作为附加节点，经由表示所述关系和所述关联的置信度级别的加权边，添加到与所述当前节点相连的所述第一推断图，更新所述第一推断图；

使用所述编程后的处理器设备和所述内容源同时迭代地构造第二推断图，其中使用所述一个或多个候选答案作为所述第二推断图的初始当前节点，所述第二推断图表示输入查询中的因素与对所述输入查询的可能答案之间的关系路径，通过具有代表关系的一个或多个边一个或多个的路径，将候选答案节点连接到一个或多个当前节点或附加节点，其中，在每次迭代中，

根据所述第二推断图中的一个或多个当前节点或附加节点生成一个或多个问题；

从所述非结构化内容源生成对所述问题的一个或多个答案；

通过将所述答案作为附加因素节点，经由表示所述关系和所述关联的置信度级别的加权边，添加到与所述当前节点相连的所述第二推断图，更新所述第二推断图；以及

在同时的迭代构造期间，通过将所述第一推断图联接到所述第二推断图而生成最终推断图，所述最终推断图具有表示所述输入查询的答案的联接节点。

12.根据权利要求11的方法，其中，在每次迭代中：

判定更新后的第一推断图或更新后的第二推断图是否满足用于终止所述迭代的准则并执行以下操作之一：

如果满足所述准则，则终止所述迭代；否则

在下一次迭代中，使用所述附加节点作为当前节点，重复所述生成一个或多个问题、所述生成一个或多个答案、所述生成一个或多个关系以及所述更新推断图的步骤，

其中在终止时，所述输入查询的答案是来自更新后的最终推断图的节点。

13.根据权利要求12的方法，其中生成所述最终推断图包括：

使用应用于所述第一和所述第二推断图中的每个推断图的端点节点的相似度准则，判定两个所述端点节点是否可以合并成联接所述第一推断图或第二推断图的单个节点。

14.根据权利要求13的方法，其中使用相似度准则进行判定包括：

应用术语匹配或共同引用中的一个或多个来标识所述第一推断图的所标识的端点节点与所述第二推断图的端点节点之间的句法、语义或上下文相似度中的一个或多个，以及

合并满足句法、语义或上下文相似度准则中的一个或多个的所标识的端点节点。

15.根据权利要求12的方法，其中所述生成最终推断图包括：

16.根据权利要求15的方法，其中促使发现形成边的关系包括：

从所述第一推断图的端点因素节点到所述第二推断图中的端点候选答案节点而生成“是”/“否”或多选问题中的一个，以及

使用所生成的“是”/“否”或多选问题判定相应端点节点之间是否存在将候选答案联接到所述输入查询的因素的关系。

17.根据权利要求11的方法，其中所述查询术语包括可搜索组件，所述候选答案包括：使用一个或多个所述可搜索组件，对来自一个或多个内容源的内容执行搜索，以便获得用作第二图构造的初始节点的候选答案。

18.一种推断查询答案的系统，包括：

用于接收输入查询的模块；

用于分解所述输入查询以获得一个或多个因素的模块，每个因素是所接收的输入查询的逻辑上独立的元素，所述因素形成推断图的初始当前节点，所述推断图表示所述输入查询中的因素与对所述输入查询的可能答案之间的关系路径，所述推断图通过一组由边连接的节点表示，其中节点表示状态，弧表示状态之间的关系，其中关系与置信度关联，关系中的概念与置信度关联，其中每个边与一组段落关联，这些段落提供关于该关系被评估为真实的原因的证明，证明边的每个段落与置信度关联，该置信度指示段落证明关系的可能性；

用于通过一个或多个非结构化内容源迭代地构造所述推断图的模块，其中在每次迭代中：

从所述非结构化内容源生成对所述问题的一个或多个答案；

用于从所述推断图提供所述输入查询的答案的模块。

19.根据权利要求18的系统，进一步包括：

用于判定更新后的推断图是否满足用于终止所述迭代的准则并执行以下操作之一的模块：

如果满足所述准则，则终止所述迭代；否则

20.根据权利要求19的系统，进一步包括：

用于标识支持所述推断图的连接节点之间的关系的一个或多个证明段落的模块。

21.根据权利要求19的系统，其中终止准则包括：标识所述更新后的推断图中推断的置信度值超过预定阈值的节点；或者

执行预定数量的迭代。

22.根据权利要求19的系统，进一步包括：

用于从所述关联的置信度级别推断在所述推断图的每个节点的置信度级别，以提供更新的推断图的模块，其中所述推断置信度级别包括：

23.根据权利要求19的系统，其中形成所述当前节点的因素包括语句，并且，在每次迭代中：

确定对应于所述语句的预定关系类型；以及

24.根据权利要求19的系统，其中所述因素包括语句，其中，在每次迭代中：

25.根据权利要求19的系统，其中用于分解所述输入查询的模块进一步用于：

分析所述问题的文本；

从所述分析标识所述一个或多个因素；以及

向所述一个或多个因素应用权重。

26.根据权利要求19的系统，还包括：

用于将所述输入查询分解成查询术语，并使用所述查询术语获得所述输入查询的一个或多个候选答案的模块；

作为并行的同时操作而执行以下操作的模块：

27.根据权利要求26的方法，其中用于判定所述第一推断图是否可以被联接到所述第二推断图的模块用于：

28.一种推断查询答案的系统，包括：

用于接收输入查询的模块；

用于分解所述输入查询以获得一个或多个因素的模块，每个因素是所接收的输入查询的逻辑上独立的元素，所述因素形成第一推断图的初始节点，所述第一推断图表示所述输入查询中的因素与对所述输入查询的可能答案之间的关系路径，所述第一推断图通过一组由边连接的节点表示，其中节点表示状态，弧表示状态之间的关系，其中关系与置信度关联，关系中的概念与置信度关联，其中每个边与一组段落关联，这些段落提供关于该关系被评估为真实的原因的证明，证明边的每个段落与置信度关联，该置信度指示段落证明关系的可能性；以及

用于使用耦合到具有内容的非结构化内容源的编程后的处理器设备迭代地构造所述第一推断图的模块，其中使用所述因素作为所述第一推断图的初始当前节点，其中，在每次迭代中：

从所述非结构化内容源生成对所述问题的一个或多个答案；

用于使用所述编程后的处理器设备和所述内容源同时迭代地构造第二推断图的模块，其中使用所述一个或多个候选答案作为所述第二推断图的初始当前节点，所述第二推断图表示输入查询中的因素与对所述输入查询的可能答案之间的关系路径，通过具有代表关系的一个或多个边一个或多个的路径，将候选答案节点连接到一个或多个当前节点或附加节点，其中，在每次迭代中，

从所述非结构化内容源生成对所述问题的一个或多个答案；

用于在同时的迭代构造期间，通过将所述第一推断图联接到所述第二推断图而生成最终推断图的模块，所述最终推断图具有表示所述输入查询的答案的联接节点。

29.根据权利要求28的系统，其中，在每次迭代中：

如果满足所述准则，则终止所述迭代；否则

其中在终止时，所述输入查询的答案是来自所述更新后的最终推断图的节点。

30.根据权利要求28的系统，其中用于生成所述最终推断图的模块进一步用于：

31.根据权利要求30的系统，其中用于使用相似度准则进行判定的模块进一步用于：

32.根据权利要求28的系统，其中用于生成最终推断图的模块进一步用于：

33.根据权利要求32的方法，其中促使发现形成边的关系包括：

34.根据权利要求28的系统，其中所述查询术语包括可搜索组件，用于获得候选答案的模块进一步用于：使用一个或多个所述可搜索组件，对来自一个或多个内容源的内容执行搜索，以便获得用作第二图构造的初始节点的候选答案。