CN105760417A

CN105760417A - 基于个性化用户模型和情境的认知交互式搜索的方法和系统

Info

Publication number: CN105760417A
Application number: CN201610003615.9A
Authority: CN
Inventors: C·O·艾伦; L·J·罗德里格斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-01-02
Filing date: 2016-01-04
Publication date: 2016-07-13
Anticipated expiration: 2036-01-04
Also published as: CN105760417B; US20160196336A1

Abstract

本公开的实施例涉及基于个性化用户模型和情境的认知交互式搜索的方法和系统。提供了一种用于执行信息语料库的基于个性化情境的搜索的问答(QA)系统中的机制。由QA系统经由源设备从第一用户接收问题。检索与第一用户相关联的第一用户简档，第一用户简档指定第一用户的个性特点。基于对语料库的搜索来生成原始问题的第一候选答案，并且标识具有与第一用户的个性特点相似的个性特点的第二用户。标识由一个或多个第二用户先前向QA系统提交的类似于原始问题的问题。由QA系统生成基于一个或多个类似的问题的第二候选答案。生成并且经由源设备向用户输出基于第一候选答案和第二候选答案的最终答案。

Description

基于个性化用户模型和情境的认知交互式搜索的方法和系统

背景技术

本申请总体上涉及一种改进的数据处理装置及方法，并且更具体地涉及用于执行基于个性化用户模型和情境的认知交互式搜索的机制。

随着计算网络(诸如因特网)的使用增长，人们当前被来自各种结构化源和非结构化源的可用的大量信息所淹没和覆盖。然而，在用户尝试将在搜索关于各种主题的信息期间能够找到的并且认为相关的信息拼凑在一起时充满了信息间隙。为了帮助这样的搜索，最近的研究涉及生成问答(QA)系统，其可以获得输入问题，对其分析，并且返回指示输入问题的最有可能的答案的结果。QA系统提供用于搜索内容源的大的集合(例如电子文档)的自动机制，并且关于输入问题来对其分析，以确定问题的答案以及关于答案用于回答输入问题的精度的置信度量。

QA系统的示例是来自的来自的以及从纽约阿克蒙市的InternationalBusinessMachines公司可获得的IBMWatson^TM系统。IBMWatson^TM系统是先进的自然语言处理、信息检索、知识表示和推理、以及对于开放域问答领域的机器学习技术的应用。IBMWatson^TM系统建立在用于假设生成、大量证据收集、分析和评分的IBM的DeepQA^TM技术上。DeepQA^TM获得输入问题，对其分析，将问题分解成组成部分，基于分解的问题以及回答源的主搜索的结果来生成一个或多个假设，基于来自证据源的证据的检索执行假设和证据评分，执行一个或多个假设的合成，并且基于训练的模型，执行最终合并和排名以输出对于输入问题的答案以及置信度量。

发明内容

在一个说明性实施例中，提供了一种在实现问答(QA)系统的数据处理系统中用于执行信息语料库的基于个性化的情境的搜索的方法。该方法包括：由QA系统经由源设备从第一用户接收用于由QA系统来处理以生成答案结果的原始问题。该方法还包括：由QA系统检索与第一用户相关联的第一用户简档。第一用户简档指定第一用户的个性特点。该方法还包括：由QA系统基于电子内容的语料库的搜索来生成原始问题的一个或多个第一候选答案，并且由QA系统标识具有与第一用户的个性特点类似的个性特点的一个或多个第二用户。此外，该方法包括：由QA系统标识与由一个或多个第二用户先前向QA系统提交的原始问题类似的一个或多个类似的问题，并且由QA系统基于一个或多个类似的问题来生成一个或多个第二候选答案。另外，该方法包括：由QA系统基于一个或多个第一候选答案以及一个或多个第二候选答案来生成最终答案，并且由QA系统经由源设备向用户输出所述答案。

在其他说明性实施例中，提供了包括具有计算机可读程序的计算机可用或可读介质的计算机程序产品。该计算机可读程序当在计算设备上执行时，引起计算设备执行以上关于方法说明性实施例给出的操作中的各种操作及其组合。

在又一说明性实施例中，提供了一种系统/装置。该系统/装置可以包括一个或多个处理器以及耦合到一个或多个处理器的存储器。存储器可以包括指令，该指令在由一个或多个处理器执行时，引起一个或多个处理器执行以上关于方法说明性实施例给出的操作中的各种操作及其组合。

将在本发明的示例实施例的以下详细描述中描述本发明的这些和其他特征和优点，或者本领域普通技术人员鉴于本发明的示例实施例的以下详细描述将很清楚本发明的这些和其他特征和优点。

附图说明

在结合附图阅读时，通过参考说明性实施例的以下详细描述将最佳地理解本发明及其优选使用模式和另外的目的及优点，在附图中：

图1描绘了计算机网络中的问/答创建(QA)系统的一个说明性实施例的示意图；

图2是在其中实现说明性实施例的方面的示例数据处理系统的框图；

图3图示了根据一个说明性实施例的用于处理输入问题的QA系统管线；以及

图4是给出根据一个说明性实施例的查询扩展引擎的示例操作的流程图。

具体实施方式

说明性实施例提供用于执行基于个性化用户模型和情境的认知交互式搜索的机制。说明性实施例通过发现语料库的先前成功完成的搜索来增加对问题或请求的答案的语料库的搜索，该语料库与提交当前搜索请求或问题的始发用户具有相似的个性特点的用户在语义上和语法上类似并且相关联，或者该语料库经由一个或多个公共情境与始发用户逻辑地连接。与始发用户相关联的情境以及始发用户与其连接的用户或者具有相似的个性特点的用户还可以被维持并且用于标识用于提供搜索和/或问题回答的结果的语料库的范围。

在说明性实施例的一个方面中，从始发用户接收对于搜索或问题(下文中称为用于由问答(QA)系统诸如从纽约阿蒙克市的InternationalBusinessMachines(IBM)公司可获得的IBMWatson^TMQA系统，来处理的“问题”)的请求。使用自然语言处理(NLP)机制来分析问题以提取问题的特征，包括焦点、词汇答案类型、语义信息(即与词语的含义相关的信息)、语法信息(即与词语通过其被放置在一起以形成语句的方式相关的信息)等。将这些特征与先前提交的成功回答的问题(下文中称为“先前提交的成功问题”)的特征相比较，以基于原始问题的情境和成功回答的其他先前提交的问题的相关性来标识这些其他先前提交的问题中的先前使用的词语/短语。

此外，检索或生成标识用户的个性特点的针对始发用户的用户简档。基于其与始发用户的个性特点的匹配，选择其他先前提交的成功问题中的词语/短语。基于来自也与始发用户的个性特点匹配的先前提交的成功问题的所选择的词语/短语，向语料库应用补充查询。这些查询的结果用于增加原始问题的处理的结果并且生成从其选择最终答案的候选答案的对应集合。

在一些说明性实施例中，执行QA系统与始发用户的客户端设备之间的交互式交换，以向始发用户提供用于生成另外的查询的潜在替选或另外的词语/短语的列表以及可选地这些词语/短语被呈现为替选的原因。始发用户可以从列表选择始发用户认为与所提出的原始问题以及始发用户希望接收的答案类型相关的词语/短语。

在操作中，如以上所提及的，始发用户向QA系统提交原始问题。检索始发用户的简档并且标识与始发用户的简档相关联的个性特点。另外，用户的简档指定各种情境以及在预定义的历史时间帧(例如过去的30天、过去一周等)内在每个情境内进行的动作。例如，可以与用户的简档相关联地维持各种类型(诸如论坛、博客、文件、网络活动、电子邮件、Wiki页面等)的情境。在每个情境内，存储关于该情境内的用户的活动的信息。对于论坛情境，信息可以包括例如向论坛张贴的消息连同论坛消息串的时间戳和标识符。对于文件情境，可以将关于历史时间帧内用户访问的文件的信息与文件情境关联地存储。可以与用户简档相关联地维持针对各种情境的其他类型的情境信息。

分析原始问题以标识原始问题的特征，并且将特征与关联于始发用户的简档的每个可能的情境相关联，以标识特征对应于哪些情境。因此，例如，如果用户提交“我上周处理的具有Dave的评论的文件是什么”类型的原始问题，则可以分析词语“文件”并且将其与关联于始发用户的简档的“文件”情境相关联，并且可以使用词语“上周”来指定历史时间帧情境。可以使用词语“Dave”来标识其他相关的用户，即以某种方式与始发用户具有关系的用户。可以将问题的特征中的关键词语/短语与关联于原始用户的简档的每个情境的词语/短语相比较，以标识特征的词语/短语与其对应的情境。可以标识与原始问题的特征的词语/短语类似的匹配情境内的其他词语，例如“文件”类似于包括“文档”、“页面”、“Wiki页面”、“Email”、“电子邮件”等的各种情境中的其他词语。然后可以使用这些类似的词语/短语来生成要向语料库应用以生成候选回答的另外的查询。因此，可以将原始问题的特征与各种情境相比较，以标识能够在那些情景内使用以增加通过原始问题的处理生成的结果的其他词语/短语。因此，使用原始问题来生成要对语料库应用的查询，并且通过来自各种情境的类似的词语/短语的标识来生成额外的查询，并且将其应用于语料库，以生成从其中选择最终答案的候选答案的集合。

此外，在一些说明性实施例中，可以利用原始问题的特征和始发用户的个性特点来标识其提交了也被成功回答的类似问题的其他类似用户。类似用户可以是与始发用户具有预先存在的明确定义的相关的用户，例如经由作为语料库的一部分或者由QA系统使用的配置数据结构的一部分的组织计算系统、社交联网网站等被指定为始发用户的“朋友”、“同事”、“亲戚”等的其他用户。类似的用户也可以是通过QA系统的配置信息或者通过语料库的搜索用户数据结构以及个性特点的比较来标识的用户。通过这种方式，标识关联到始发用户或者具有类似的个性特点的用户。

已经通过指定的关系或者通过类似的个性特点标识出关联到用户的用户，通过原始问题的特征与由相关的用户先前提交的问题的比较，标识能够被维持在与这些相关的用户的用户简档相关联的历史数据结构中的由这些相关的用户提交的类似的问题。然后可以使用与这些类似的问题相关联的最终答案作为用于最终答案的生成的候选答案的评估的一部分。最终答案可以是由相关的用户响应于这些先前提交的问题的候选答案的输出而实际选择的候选答案。因此，可以与通过使用与始发用户简档相关联的各种情境中的类似特征的对原始问题以及原始问题的特征的扩展的处理生成的候选答案相关联地对来自相关的用户的先前提交的问题的这些候选答案进行排名。

在一些说明性实施例中，可以仅从与原始问题通过以上提及的过程与其相关联的情境相同的情境中选择相关的用户的类似的问题。因此，可以在被确定为与原始问题相关的情境中评估相关的用户的先前提交的问题的子集以标识类似的问题及其对应的答案。可以使用这些对应的答案来增加通过原始问题及相关情境中具有类似特征的原始问题的扩展的处理而生成的候选答案。

在另外的说明性实施例中，针对特定的始发用户的个性特点来定制问题的回答的输出。也就是说，QA系统配置具有相关联的特性的预定义的个性特点，这些特性指示具有该特定个性特点的用户最有可能感兴趣的信息类型。因此，例如，外向型个人更有可能对与要素之间的关系感兴趣，而非特定事件的细节相关的信息，例如外向性格者对谁访问了文件更感兴趣，而非该个人在访问文件时具体做了什么。因此，如果输入问题属于“上周对我的文件发生了什么访问？”类型，则外向型个人的回答可能是“Dave和Mary上周访问了你的文件”类型，而注重细节的认真的个人可能接收“Dave在2014年11月28日下午5:03编辑了文件mydoc01.doc”类型的答案。

说明性实施例可以包括答案输出逻辑，该答案输出逻辑标识最终答案的支持证据并且根据支持证据确定要使用的细节水平并且基于始发用户的个性特点来确定要呈现的最终答案的输出的形式。然后可以向始发用户返回最终答案的输出的所得到的形式，使得始发用户以最有可能与始发用户的个性特点共鸣的形式来接收最终答案。

例如，在一个说明性实施例中，说明性实施例的机制处理与始发用户相关联的个性特点的集合，并且选择要在确定选择在生成最终答案的输出时使用以及在最终答案的评分时使用哪个水平和类型的支持证据时使用的最主要的特点值。说明性实施例的机制然后基于主要的个性特点来解析候选答案的支持证据中的注释，并且对具有与主要的个性特点匹配的注释类型的候选答案相对较高地加权。

然后可以基于候选答案的加权评分来生成候选答案的排名列表，并且可以从排名列表中选择最终答案。然后可以解析与最终答案相关联的支持证据以选择与用户的主要个性特点匹配的信息、语句、元数据等。然后可以通过包括支持证据的一部分作为最终答案的自然语言输出的一部分，返回支持证据的所选择的一部分作为最终答案的输出的一部分，诸如以最终答案的自然语言输出中所包括的潜在解释表达的形式。

例如，如果接收的原始问题是关于文件(例如“上周对我的文件发生了什么访问？”)，对于性格外向者，候选答案可以包括不同区域的若干相似文件，然而，可以选择上周访问的单个文件作为最高排名的最终答案。这一最终答案的支持证据可以包括针对个人的注释、针对动作的注释、以文件为对象的语句(主谓宾结构(SVO))中的动词、以及在其中访问或改变文件的环境的注释，例如经由“Wiki编辑器”来编辑并且经由文件管理器来上传新的版本。与性格外向者匹配的注释的类型在一个说明性实施例中可以包括个人、位置、会议等的集合，并且可以返回答案。另一方面，与认真的个人相关联的注释的类型可以是问题中的特定对象的任何动词动作或者问题中的词汇答案类型、动作发生的环境的类型、以及动作发生的地点和时间。这一信息可以被包括在答案的支持证据中，或者答案本身可以包括这些类型的注释。

在一些说明性实施例中，利用机器学习模型来学习朝着在支持证据和候选答案文本中发现以与特定个性特点更好地匹配的某些特征(注释)的不同的个性特点的权重和应用。可以在QA系统内使用这一机器学习模型，以帮助基于候选答案的支持证据来对候选答案进行排名，这在以上指出并且在下文中更详细地讨论。

因此，总之，在包括以上描述的实施例的全部各种元素的说明性实施例中，执行下面的操作：

1.接收并且处理原始问题，以提取原始问题的特征并且基于所提取的特征生成查询。

2.检索提交原始问题的始发用户的用户简档，以标识相关的用户以及始发用户的个性特点。

3.将原始问题的特征与关联于用户简档的预定义的情境相比较，以标识这些特征与其相关联的预定义的情境以及这些特征与其相关联的个性特点。例如，预定义的情境可以是类似于IBMConnectionsCommunity或DropBoxonlinecommunity的社交在线文档协作环境，其中特征包括wiki、文档库、人员、事件、任务和博客。这些情境及其定义特性与然后和特定的个性特点或简档类型匹配的特征相关联。例如，人员和事件可以与个性特点“性格外向者”相关联，而博客可以与性格外向者以及开放性个性特点相关联。另一预定义的情境可以是其中发送者和接收者主要偏好外向型个性特点的电子邮件客户端，而电子邮件消息的内容与认真的个性特点相关联，并且社交反馈项(例如“喜欢”、“伸出大拇指”、用户评级等)与“亲和性”个性特点相关联。

4.标识所标识的预定义的情境中的类似的特征并且将其用于生成要向语料库应用的查询和注释。例如，可以用与符合例如“亲和性”的个性特点的集合的匹配来注释在语料库中发现的“喜欢”社交标签。

5.向语料库应用原始问题的所提取的特征以及相关情境中的类似特征的处理以生成候选答案、置信得分以及支持证据文章。

6.在相关的用户和具有类似的个性特点的用户的对应的情景中搜索具有类似特征的先前提交的问题，并且检索与这些类似的问题相关的最终答案并且结合以上在5)中生成的候选答案来对其评估。例如，可以将搜索的库存储在其中用户的主要个性特点与搜索结果相关联的数据库中，包括哪个结果被点击以及来自搜索的前几个特征的集合。例如，可以搜索“我的文件上周发生了什么？”类型的问题，并且前三个答案可以包括(A)“Dave和Mary上周访问了你的文件”，(B)“Dave在2014年11月28日下午5:03编辑了文件mydoc01.doc”，以及(C)“Mike从文件管理器上传了mydoc02.doc的新版本”。可以根据存储库确定具有主要外向型特点的用户最经常选择(A)或对相同类型的问题有类似结果，而具有认真特点的用户选择(B)并且有时选择(C)。来自NLP解析和特征提取的这些特性和特征与搜索结果和用户选择特定结果(答案)以更好地优先化特定个性特点的结果的次数相关联。

7.从所有候选答案的排名列表选择最终答案。

8.基于始发用户的个性特点、其最终答案以及最终答案的支持证据来生成最终答案的内容和形式。

9.向始发用户的客户端设备输出最终答案形式，以用于向始发用户输出作为原始问题的答案。

因此，可以基于与始发用户以及通过指定的关联或者通过个性特点的相似性关联到始发用户的其他用户的用户简档相关联的情境，扩展原始问题的处理。此外，可以针对始发用户的特定的个性特点具体定制化问题的答案的输出，使得输出包含具有始发用户的个性特点的个人有可能与其共鸣的信息的类型和形式。因此，总体上，提供了一种更精确的问题回答机制，其通过以更有可能与用户自己的特定个性特点共鸣的方式提供答案来进一步向始发用户提供更好的体验。

在开始说明性实施例的各个方面的更详细的讨论之前，首先应当理解，遍及本说明书，术语“机制”用于指代执行各种操作、功能等的本发明的要素。本文中所使用的术语“机制”可以是装置、过程或计算机程序产品形式的说明性实施例的功能或方面的实现方式。在过程的情况下，过程由一个或多个设备、装置、计算机、数据处理系统等来实现。在计算机程序产品的情况下，由在计算机程序产品中或上实施的计算机代码或指令表示的逻辑由一个或多个硬件设备执行，以便实现功能或者执行与特定“机制”相关联的操作。因此，本文中所描述的机制可以实现为专用硬件、执行在通用硬件上的软件、存储在介质上使得指令由专用或通用硬件很容易可执行的软件指令、用于执行功能的过程或方法、或者以上中的任何项的组合。

本说明书和权利要求可以关于说明性实施例的特定的特征和元素使用术语“一个”、“至少一个”以及“一个或多个”。应当理解，这些术语和短语意在指出在特定的说明性实施例中存在有至少一个特定的特征或元素，但是也可以存在多于一个。也就是说，这些术语/短语并非意在将说明书或权利要求限制为存在单个特征/元素也并且意在要求存在多个这样的特征/元素。相反，这些术语/短语仅要求至少单个特征/元素，其中多个这样的特征/元素的可能性也在说明书和权利要求的范围内。

另外，应当理解，下面的说明书使用说明性实施例的各种元素的多个各种示例，以进一步说明说明性实施例的示例实现方式以及帮助理解说明性实施例的机制。这些示例意在是非限制性的并且不排除用于实现说明性实施例的机制的各种可能性。本领域普通技术人员鉴于本说明书将很清楚，存在这些各种元素的很多其他替选实现方式，这些替选实现方式能够与本文中所提供的示例一起或取代本文中所提供的示例来进行利用，而没有偏离本发明的精神和范围。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是―—但不限于―—电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

说明性实施例可以在很多不同类型的数据处理环境中使用。为了提供说明性实施例的具体的元素和功能的描述的情境，下文中提供图1-3作为其中能够实现说明性实施例的方面的示例环境。应当理解，图1-3仅是示例，而非意在断言或暗示关于其中能够实现本发明的方面或实施例的环境的任何限制。可以在不偏离本发明的精神和范围的情况下，对所描绘的实施例做出很多修改。

图1-3涉及描述能够实现说明性实施例的机制的示例问答(QA)系统(也称为问/答系统或问和答系统)、方法、计算机程序产品。如下文中更详细地讨论的，说明性实施例集成在这些QA机制的以下功能中、增加和扩展这些QA机制的以下功能：扩展基于与用户以及具有预定义的关系和/或类似的个性特点的相关的用户相关联的一个或多个个性化情境来搜索候选答案。此外，增加QA机制以根据始发用户的个性特点来针对始发用户定制最终答案的输出。

由于说明性实施例改善了QA机制，重要的是，在描述说明性实施例的机制如何集成在这样的QA系统中并且增加这样的QA系统之前，首先理解在QA系统中如何实现问答产生。应当理解，图1-3描述的QA机制仅是示例，而非意在指出或者暗示关于实现说明性实施例的QA机制的类型的任何限制。可以在不偏离本发明的精神和范围的情况下，在本发明的各种实施例中实现对图1-3所示的示例QA系统的很多修改。

作为概述，问答系统(QA系统)是在回答与用自然语言呈现的给定主题领域相关的问题的数据处理硬件上执行的人工智能应用。QA系统从各种源接收输入，包括通过网络的输入、电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息、以及来自其他可能的输入源的其他这样的输入。数据存储设备存储数据的语料库。内容创建者在文档中创建内容以用作具有QA系统的数据的语料库。文档可以包括用于在QA系统中使用的任何文件、文本、文章或数据源。例如，QA系统访问关于领域、主题领域(例如财经领域、医疗领域、法律领域等)的知识体系，其中知识体系(知识库)可以以各种配置被组织，例如领域特定的信息的结构化的存储库，诸如本体，或者与领域相关的非结构化的数据，或者关于领域的自然语言文档的集合。

内容用户向QA系统输入问题，QA系统然后通过评估文档、文档的部分、语料库中的数据部分等而使用数据的语料库中的内容来回答输入的问题。当过程评估文档的给定部分的语义内容时，过程可以使用各种约定来从QA系统查询这样的文档，例如向QA系统发送格式正确的问题作为查询，然后由QA系统解释，并且提供包含问题的一个或多个答案的响应。语义内容是基于标记(诸如词语、短语、记号、和符号)之间的关系以及它们所代表的含义、它们的意义或内涵的内容。换言之，语义内容是诸如通过使用自然语言处理来解释表达的内容。

如下文中更详细地描述的，QA系统接收输入问题，解析问题以提取问题的主要特征，使用所提取的特征来对公式化查询，并且然后将这些查询应用于数据的语料库。基于对于数据语料库的查询应用，QA系统通过在数据语料库中查找具有包含对输入的问题的有价值的响应的某种潜质的数据的语料库的部分，来生成假设的集合或者输入的问题的候选答案的集合。QA系统然后使用各种推理算法对输入的问题的语言以及在查询的应用期间找到的数据语料库的每个部分中所使用的语言执行深度分析。可以有成百甚至成千个推理算法，每个算法执行不同的分析，例如比较、自然语言分析、词汇分析等，并且生成得分。例如，一些推理算法可以查看输入的问题的语言以及数据语料库的所找到的部分内的词语和同义词的匹配。其他推理算法可以查看语言中的时间或空间特征，而其他推理算法可以评估数据语料库的部分的来源并且评估其准确性。

从各种推理算法获得的得分指示基于该推理算法的焦点的具体领域由输入的问题来推断潜在的响应的程度。因此对照统计学模型对每个所得到的得分加权。在QA系统的训练周期期间，统计学模型捕获推理算法在建立特定领域的两个类似的文章之间的推理时执行推理算法的效果。统计学模型用于概括QA系统关于以下证据而具有的置信度水平：潜在的响应(即候选答案)由问题推断。对于每个候选答案重复这一处理，直到QA系统标识出呈现为比其他答案明显更强的候选答案，并且因此生成针对输入的问题的最终答案或者排名的答案集合。

如以上所提及的，QA系统和机制通过以下方式来操作：从数据或信息的语料库(也称为内容语料库)访问信息，对其分析，并且然后基于对这一数据的分析来生成答案结果。从数据语料库访问信息通常包括：回答关于结构化记录的集合中的问题的数据库查询、以及响应于对照非结构化数据(文本、标记语言等)的集合的查询来递送文档链接的集合的搜索。传统的问答系统能够基于数据语料库和输入的问题来生成答案，验证针对数据语料库的问题的集合的答案，使用数据的语料库来校正数字文本中的错误，以及从潜在答案(即候选答案)池中选择对于问题的答案。

诸如文章作者、电子文档创建者、网页作者、文档数据库创建者等内容创建者在写入它们的内容之前确定在这样的内容中描述的产品、解决方案和服务的使用案例。因此，内容创建者知道内容意图在内容所解决的特定话题中回答什么问题。在诸如与问题相关联的角色、信息类型、任务等方面对数据的语料库的每个文档中的问题分类，使得QA系统能够更快且更高效地标识包含与特定查询相关的内容的文档。内容也可以回答内容创建者没有预期但是对于内容用户而言很有用的其他问题。问题和答案可以由内容创建者验证以被包含在给定文档的内容中。这些能力有助于实现QA系统的改进的精度、系统性能、机器学习和置信度。内容创建者、自动工具等注释或生成用于提供QA系统可用于标识这些问题以及内容的答案属性的信息的元数据。

操作这样的内容，QA系统使用评估内容以标识针对输入的问题的最有可能的答案(即候选答案)的多个密集型分析机制来生成针对输入的问题的答案。最有可能的答案作为根据其相对得分或者在候选答案的评估期间计算的置信度量而被排名的候选答案的排名列表被输出，作为具有最高排名得分或置信度量或者是输入的问题的最佳匹配的单个最终答案，或者作为排名列表和最终答案的组合。

图1描绘计算网络102中的问/答创建(QA)系统100的一个说明性实施例的示意图。美国专利申请公开第2011/0124734号中描述了能够结合本文中所描述的原理一起使用的问/答生成的一个示例，该申请公开的全部内容通过整体引用合并到本文。QA系统1000实现在连接到计算机网络102的一个或多个计算设备104(包括一个或多个处理器以及一个或多个存储器，并且有可能包括本领域通常已知的任何其他计算设备元件，包括总线、存储设备、通信接口等)上。网络102包括经由一个或多个有线和/或无线数据通信链路彼此以及与其他设备或部件通信的多个计算设备104，其中每个通信链路包括线缆、路由器、交换机、发送器、接收器等中的一项或多项。QA系统100和网络102使得一个或多个QA系统用户能够经由其相应的计算设备110-112来实现问/答(QA)生成功能。QA系统100的其他实施例可以与除了本文中所描述的那些之外的其他部件、系统、子系统和/或设备一起使用。

QA系统100被配置成实现从各个源接收输入的QA系统管线108。例如，QA系统100从网络102、电子文档的语料库106、QA系统用户、和/或其他数据以及其他可能的输入源接收输入。在一个实施例中，到QA系统100的输入中的一些或全部输入通过网络102被路由。网络102上的各个计算设备104包括针对内容创建者和QA系统用户的接入点。一些计算设备104包括用于存储数据的语料库106(其在图1中仅出于说明性目的而被示出为单独的实体)的数据库的设备。数据语料库106的部分也可以设置在一个或多个其他网络附接的存储设备上、在一个或多个数据库中、或者图1中未明确示出的其他计算设备中。网络102在各种实施例中包括局域网连接和远程连接，使得QA系统100可以在任何尺寸的环境中操作，包括本地和全局环境，例如因特网。

在一个实施例中，内容创建者在数据语料库106的文档中创建内容，以用作具有QA系统100的数据语料库的部分。文档包括在QA系统100中使用的任何文件、文本、文章或数据源。QA系统经由到网络102的网络连接或因特网连接来访问QA系统100，并且向QA系统100输入由数据语料库106中的内容回答的问题。在一个实施例中，使用自然语言来形成问题。QA系统100解析并且解释问题，并且向QA系统用户(例如QA系统用户110)提供包含对于问题的一个或多个答案的响应。在一些实施例中，QA系统100以候选答案的排名列表的形式向用户提供响应，而在其他说明性实施例中，QA系统100提供单个最终答案或者最终答案与其他候选答案的排名列表的组合。

QA系统100实现QA系统管线108，QA系统管线108包括用于处理输入的问题以及数据语料库106的多个阶段。QA系统管线108基于对输入的问题以及数据语料库106的处理来生成针对输入的问题的答案。下文中将关于图3来更详细地描述QA系统管线108。

在一些说明性实施例中，QA系统100可以是从纽约阿蒙克市的InternationalBusinessMachines公司可获得的IBMWatson^TMQA系统，其增加有下文中描述的说明性实施例的机制。如先前所指出的，IBMWatson^TMQA系统接收输入问题，然后解析问题以提取问题的主要特征，主要特征然后用于对应用于数据的语料库的查询进行公式化。基于对于数据语料库的查询的应用，通过在数据语料库查找有可能包含对输入的问题的有价值的响应的数据语料库的部分来生成假设的集合或者对于输入的问题的候选答案。IBMWatson^TMQA系统然后使用各种推理算法来对输入的问题的语言以及在查询的应用期间找到的数据的语料库的每个部分中使用的语言执行深度分析。然后对照统计学模型对从各种推理算法获得的得分加权，统计学模型概括IBMWatson^TMQA系统关于潜在的响应(即候选答案)由问题推断的证据而具有的置信水平。针对每个候选答案重复这一过程以生成候选答案的排名列表，其然后可以被呈现给提交输入的问题的用户或者从其选择最终答案并且向用户呈现。可以从例如IBM公司网站、IBMRedbooks等来获得关于IBMWatson^TMQA系统的更多信息。例如，可以在2011年的IBMdeveloperWorks中Yuan等人的“WatsonandHealthcare”，以及2012年的IBMRedbooks中的RobHigh的“TheEraofCognitiveSystems:AnInsideLookatIBMWatsonandHowitWorks”中找到关于IBMWatson^TMQA系统的信息。

在说明性实施例的一个方面，与QA系统管线108相关联地提供查询扩展引擎120，以基于始发用户和/或连接到始发用户的用户的个性化情境来执行用于扩展对照语料库和/或在评分和排名期间考虑的候选答案而应用的查询的操作(“始发用户”是提交由QA系统100处理的初始自然语言请求或问题的用户)。

查询扩展引擎120结合在用户简档数据存储装置140上操作的用户简档引擎130一起工作，以标识提交原始输入问题的始发用户的用户简档以及标识相关的用户的用户简档。接收并且处理原始问题以提取原始问题的特征并且基于所提取的特征来生成查询。由用户简档引擎130来检索提交原始问题的始发用户的简档数据存储装置140中的用户简档，以标识相关的用户以及始发用户的个性特点。例如，始发用户的用户简档可以指定与用户相关联的情境、与情境相关联的关键词语/短语、先前的问题和答案等、用户的个性特点、以及始发用户与其具有关系(例如同事关系、家庭关系、朋友关系等)的其他用户的标识符。这一信息全部可以由用户简档引擎130响应于从用户简档数据存储装置140检索用户的简档(诸如通过基于用户标识符或其他唯一的标识符执行用户简档的搜索或查找)而进行标识。

在一些说明性实施例中，用户的简档与这些各种情境相关联地指定在预定义的历史时间帧(例如过去的30天、上周等)内在每个情境内采取的动作。例如，可以与用户的简档相关联地维持诸如论坛、博客、文件、网络活动、电子邮件、Wiki页面等类型的各种情境。在每个情境内，存储与该情境内的用户的活动有关的信息。对于论坛情境，信息可以包括例如向论坛张贴的消息连同论坛消息串的时间戳和标识符。对于文件情境，可以将历史时间帧内用户访问的文件的信息与文件情境关联地来存储。可以与用户简档相关联地维持各种情境的其他类型的情境信息。

分析原始问题以标识原始问题的特征，并且将特征与和始发用户的简档相关联的每个可能的情境相关联以标识特征对应于哪些情境。可以由查询扩展引擎120将原始问题的特征与和用户简档相关联的预定义的情境相比较，以标识与特征相关联的预定义的情境。这一比较使得系统能够对来自与原始问题(原始问题的情境例如可以根据通过与原始问题一起提交的附加信息、根据原始问题的源来确定，或者可以与原始问题的目标语料库相关联)相同的情境内的候选答案公式化并且选择候选答案，或者与用户最有可能感兴趣的类型的情境更匹配。这一比较还实现可能对于用户更有用的环境内的更相关的答案。例如，在社交协作环境中，具有实际的文件名的答案和人员通常经由超链接自动转换，因此，具有这一超链接信息的答案与该特定环境更好地匹配。这一比较也实现在答案被返回时在该环境情境中很容易地导航或输出条目的提示框。另一方面，从单个用户的电子邮件客户端执行的相同的问题主要包含数据、发送者、接收者以及更好地匹配该环境的响应的人员，以实现对电子邮件通信的响应或回复的方便使用。在所标识的预定义的情境中能够根据词语/短语匹配、同义词匹配等确定的类似的特征被标识并且用于生成要向语料库应用的查询。在一些说明性实施例中，执行QA系统与始发用户的客户端设备112之间的交互式交换，以向始发用户提供用于生成另外的查询以及可选地生成这些词语/短语为何被呈现为替选的推理的潜在的替选或附加词语/短语的列表。始发用户可以从列表选择始发用户认为与所提出的原始问题以及始发用户希望接收的答案的类型相关的词语/短语。

来自原始问题的所提取的特征以及相关情境中的相似特征的查询由QA系统管线130应用于语料库以生成候选答案、置信得分以及支持证据文章。也就是说，基于来自先前成功提交的问题的所选择的词语/短语对照语料库来应用补充查询，先前成功提交的问题的所选择的词语/短语也与始发用户的简档中的情境指示的始发用户的个性特点相匹配。这些查询的结果用于增加原始问题的处理的结果并且生成候选答案的对应集合。

另外，由用户简档引擎130标识针对相关的用户和/或具有类似的个性特点的用户的用户简档，并且从用户简档数据存储装置140检索这些用户简档。可以基于始发用户的简档中的相关用户的用户标识符来标识这些用户简档。还可以通过执行与始发用户的用户简档具有相同的个性特点的用户简档的用户简档数据存储装置140的搜索，来标识这些用户简档。基于来自原始问题的所提取的特征的评估，在以这一方式检索的用户简档(即相关的用户简档)中搜索原始用户的简档中标识的那些简档对应的情境。

在相关的用户和/或具有类似个性特点的用户的匹配的对应情境中搜索具有与来自原始问题的所提取的特征相似的特征的先前提交的问题。检索与这些类似的问题相关的最终答案，并且与根据基于原始问题执行的查询以及基于原始用户的简档那些特征的扩展而生成的候选答案相关联地对最终答案进行评估。

结合根据基于原始问题执行的查询以及基于原始用户的简档执行的执行特征的扩展而生成的候选答案，来评估根据来自相关的用户的这些其他问题生成的最终答案。可以使用来自相关的用户的候选答案和最终答案的组合来生成候选答案的排名列表。从全部候选答案的排名列表中选择最终答案，例如来自候选答案的排名列表的最高评分答案。

然后将最终答案公式化成要向始发用户的客户端设备发送的响应输出，以用于向始发用户输出作为原始问题的答案。由答案输出引擎150基于原始用户的个性特点来生成最终答案的内容和形式，如根据始发用户的简档、最终答案本身以及最终答案的支持证据所标识的。例如，答案输出引擎150可以配置有具有指示具有预先定义的个性特点的用户最有可能感兴趣的类型的信息的相关联的特性的该个性特点的集合。如以上所提及的，例如，性格外向型的人对与要素之间的关系更感兴趣，而非特定事件的细节相关的信息，例如性格外形者对谁访问了文件更感兴趣，而非这个人在访问文件时具体做了什么事情。因此，如果输入问题是“上周对我的文件发生了什么访问？”类型，则外向型人的答案可以是“Dave和Mary上周访问了我的文件”类型，而注重细节的内向型人可以接收“Dave在2014年11月28日下午5:03编辑了文件mydoc01”类型的回答。

答案输出引擎150标识针对最终答案的支持证据并且根据支持证据来确定要使用的细节水平并且基于始发用户的个性特点来确定要呈现的最终答案的输出的形式。然后可以将最终答案的输出的所得到的形式返回始发用户，使得始发用户接收更有可能与始发用户的个性特点共鸣的形式的最终答案。向始发用户的客户端设备112输出最终答案形式，以用于向始发用户输出作为对于原始问题的答案。

图2是在其中实现说明性实施例的示例数据处理系统的框图。数据处理系统200是计算机的示例，诸如图1中的服务器104或客户端110，实现本发明的说明性实施例的过程的计算机可用的代码或指令位于其中。在一个说明性实施例中，图2表示服务器计算设备，诸如服务器104，其实现被增加以包括下文中描述的说明性实施例的另外的机制的QA系统100和QA系统管线108。

在所描绘的示例中，数据处理系统200采用包括北桥及存储器控制器集线器(NB/MCH)202以及南桥及输入/输出(I/O)控制器集线器(SB/ICH)204的集线器架构。处理单元206、主存储器208和图形处理器210连接到NB/MCH202，图形处理器210通过加速图形端口(AGP)连接到NB/MCH202。

在所描绘的示例中，局域网(LAN)适配器212连接到SB/ICH204。音频适配器216、键盘及鼠标适配器210、调制解调器222、只读存储器(ROM)224、硬盘驱动(HDD)226、CD-ROM驱动230、通用串行总线(USB)端口以及其他通信端口232、以及PCI/PCIe设备234通过总线238和总线240连接到SB/ICH204。PCI/PCIe设备可以包括例如以太网适配器、插入卡、以及用于笔记本电脑的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM204可以是例如闪存基本输入/输出系统(BIOS)。

HDD226和CD-ROM驱动230通过总线240连接到SB/ICH204。HDD226和CD-ROM驱动230可以使用例如集成驱动电子装置(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备236连接到SB/ICH204。

操作系统运行在处理单元206上。操作系统协调并且提供对图2的数据处理系统200内的各种部件的控制。作为客户端，操作系统是市面上可获得的系统，诸如诸如Java^TM编程系统等面向对象的编程系统可以结合操作系统来运行并且提供从运行在数据处理系统200上的Java^TM程序或应用对操作系统的调用。

作为服务器，数据处理系统200例如可以是运行先进的交互式执行操作系统或操作系统的eServer^TM 计算机系统。数据处理系统200可以是在处理单元206中包括多个处理器的对称多处理器(SMP)系统。替选地，可以采用单处理器系统。

用于操作系统、面向对象的编程系统以及应用或程序的指令位于存储设备上，诸如HDD226上，并且被加载到主存储器208中以用于由处理单元206执行。用于本发明的说明性实施例的过程由处理单元206使用计算机可用的程序代码来执行，计算机可用的程序代码位于诸如主存储器208、ROM224等存储器中，或者位于一个或多个外围设备226和230中。

诸如图2所示的总线238或总线240等总线系统包括一个或多个总线。当然，可用使用任何类型的通信结构或架构来实现总线系统，通信结构或架构提供附接到结构或架构的不同部件或设备之间的数据传送。诸如图2的调制解调器222或网络适配器212等通信单元包括用于发送和接收数据的一个或多个设备。存储器例如可以是主存储器208、ROM224、或者诸如在图2中的NB/MCH202中找到的高速缓存。

本领域普通技术人员应当理解，图1和2中所描绘的硬件可以根据实现方式的不同而变化。诸如闪存存储器、等同的非易失性存储器或者光盘驱动等其他内部硬件或外围设备可以与图1和2中所描绘的硬件一起或代替其来使用。另外，在没有偏离本发明的精神和范围的情况下，说明性实施例的过程可以应用于多处理器数据处理系统，而非先前提及的SMP系统。

此外，数据处理系统200可以采用大量不同数据处理系统中的任何数据处理系统的形式，包括客户端计算设备、服务器计算设备、平板电脑、笔记本电脑、电话或者其他通信设备、个人数字助理(PDA)等。在一些说明性实施例中，数据处理系统200可以是例如配置有闪存存储器以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器的便携式计算设备。基本上，数据处理系统200可以是任何已知的或者后续开发的数据处理系统，而没有架构上的限制。

图3图示根据一个说明性实施例的用于处理输入问题的QA系统管线。图3的QA系统管线可以实现为例如图1中的QA系统100的QA系统管线108。应当理解，图3所示的QA系统管线的阶段被实现为配置有用于实现向特定阶段分配的功能的逻辑的一个或多个软件引擎、部件等。使用这样的软件引擎、部件等中的一个或多个来实现每个阶段。软件引擎、部件等执行在一个或多个数据处理系统或设备的一个或多个处理器上并且使用或操作一个或多个数据处理系统上的一个或多个数据存储设备、存储器等中存储的数据。图3的QA系统管线例如在一个或多个阶段中被增加以实现下文中描述的说明性实施例的改进的机制，可以提供另外的阶段以实现改进的机制，或者可以提供来自管线300的单独的逻辑，以用于与管线300对接并且实现说明性实施例的改进的功能和操作。

如图3所示，QA系统管线300包括多个阶段310-380，QA系统通过多个阶段310-380进行操作以分析输入的问题并且生成最终响应。在初始问题输入阶段310，QA系统接收以自然语言格式呈现的输入的问题。也就是说，用户经由用户界面输入用户想要获得其答案的输入问题，例如“谁是Washington的最亲密的顾问？”。响应于接收到输入问题，QA系统管线300的下一阶段，即问题及话题分析阶段320使用自然语言处理(NLP)技术解析输入问题以从输入问题提取主要特征，并且根据类型(例如名称、日期、或者过多地其他定义的话题的任何话题)对主要特征进行分类。例如，在以上示例问题中，词语“谁”可以与用于指示人员的身份被寻找的“人员”的话题相关联，“Washington”可以被标识为问题与其相关联的人员的恰当的姓名，“最亲密”可以被标识为指示接近或关系的词语，“顾问”可以指示名词或其他语言话题。

另外，所提取的主要特征包括被分类成问题特性的关键字和短语，诸如问题的焦点、问题的词汇答案类型(LAT)等。如本文中所提及的，词汇答案类型(LAT)是指示答案类型的输入问题中的词语或者根据输入问题推断的词语，其独立于向该词语分配语义。例如，在问题“十四世纪发明了什么策略来加速游戏并且涉及相同颜色的两片？”，LAT为串“策略”。问题的焦点是在用答案替换的情况下使得问题处于独立状态的问题的部分。例如，在问题“示出了什么药物用于以相对较小的副作用来缓解ADD症状？”中，焦点是“药物”，这时因为如果这一词语用答案替换，例如答案“阿德拉(Adderall)”可以用于代替术语“药物”以生成语句“阿德拉已经被示出用于以相对较小的副作用来缓解ADD症状”。焦点通常是但是并非总是包含LAT。另一方面，在很多情况下，无法根据焦点来推断有意义的LAT。

再次参考图3，然后在问题分解阶段330，使用所标识的主要特征以将问题分解成应用于数据/信息的语料库345以便生成一个或多个假设的一个或多个查询。以任何已知的或者后来开发的查询语言来生成查询，诸如结构查询语言(SQL)等。将查询应用于存储与构成数据/信息的语料库345的电子文本、文档、文章、网站等有关的信息的一个或多个数据库。也就是说，这些各种源本身、不同的源的集合等表示语料库345内的不同语料库347。可以有根据特定实现方式基于各种准则来针对不同的文档的集合定义的不同的语料库347。例如，可以针对不同的话题、主题种类、信息源等建立不同的语料库。作为一个示例，第一语料库可以与健康护理文档相关联，而第二语料库可以与财经文档相关联。替选地，第一语料库可以是由美国能源部发布的文档，而另一语料库可以是IBMRedbooks文档。可以认为具有某种相似属性的任何内容的集合是语料库345内的语料库347。

将查询应用于存储与构成数据/信息的语料库(例如图1的数据的语料库106)的电子文本、文档、文章、网站等有关的信息的一个或多个数据库。将查询在假设生成阶段340处应用于数据/信息的语料库，以生成标识用于回答输入问题的潜在的假设的结果，其然后可以被评估。也就是说，查询的应用产生与特定查询的准则匹配的数据/信息的语料库的部分的提取。然后分析并且在假设生成阶段340期间使用语料库的这些部分以生成用于回答输入问题的假设。这些假设在本文中也称为针对输入问题的“候选答案”。对于任何输入问题，在这一阶段340处，可以生成成百个需要被评估的假设或者候选答案。

在阶段350，QA系统管线300然后执行深度分析以及输入问题的语言与每个假设或“候选答案”的语言的比较，以及执行证据评分以评估特定假设为针对输入问题的正确答案的可能性。如以上所提及的，这包括使用多个推理算法，每个推理算法执行输入问题的语言和/或提供支持或者不支持假设的证据的语料库的内容的单独类型的分析。每个推理算法基于其执行的分析来生成得分，该分析指示由查询的应用提取的数据/信息的语料库的各个部分的相关性的度量以及对应假设的正确性的度量，即假设中的置信度量。取决于执行的特定分析，存在各种生成这样的得分的方式。然而，通常，这些算法查找指示感兴趣的词语、短语或图案的文本的特定的词语、短语或图案，并且确定具有与较低匹配度相比被给予相对较高得分的较高匹配度的匹配度。

因此，例如，算法可以被配置成从输入问题或输入问题中该词语的同义词中查找精确的词语，例如用于词语“电影”的精确的词语或同义词，并且基于这些精确的词语或同义词的使用频率来生成得分。在这样的情况下，将给予精确的匹配最高得分，而可以基于可以由主题专家(具有所使用的特定领域和术语的知识的人)指定或者根据同义词在对应于领域的语料库中的使用频率自动确定的同义词的相对排名来给予同义词较低得分。因此，例如，向语料库的内容中的词语“电影”的精确匹配(也称为证据或证据文章)给予最高得分。诸如“运动图片”等电影同义词可以被给予较低得分，但是仍然高于类型“电影”或“移动图片示出”的同义词。每个证据文章的精确匹配和同义词的实例可以被编译并且在定量函数中被使用，以生成证据文章与输入问题的匹配度的得分。

因此，例如，输入问题“第一部电影是什么？”的假设或候选答案为“运动的马(TheHorseinMotion)”。如果证据文章包含语句“曾经做出的第一张运动图片是EadweardMuybridge在1878年的‘运动的马’。其是奔跑的马匹的电影”，并且算法查找输入问题的焦点的精确匹配或同义词，即“电影”，则在证据文章的第二语句中找到“电影”的精确匹配，并且在证据文章的第一语句中找到“电影”的高得分的同义词，即“运动图片”。这可以与证据文章的进一步分析相结合以标识候选答案的文本也存在于证据文章中，即“运动的马”。可以将这些因素组合以向这一证据文章给予相对较高的得分，作为候选答案“运动的马”是正确的答案的支持证据。

应当理解，这仅是如何执行评分的一个简单示例。可以在不偏离本发明的精神和范围的情况下，使用很多各种复杂度的其他算法来生成针对候选答案和证据的得分。

在合成阶段360，将由各种推理算法生成的大量得分合成针对各种假设的置信得分或置信度量。这一过程涉及向各个得分施加权重，其中通过对由QA系统采用和/或动态更新的统计学模型的训练来确定权重。例如，标识精确匹配词语和同义词的算法生成的得分的权重可以比被设置为与评估证据文章的公布日期的其他算法的权重更高。权重本身可以由主题专家来指定或者通过评估特性证据文章的重要性及其对整个候选答案生成的相对重要性的机器学习过程来学习。

根据通过QA系统的训练生成的统计学模型来处理加权得分，其标识能够将这些得分被组合以生成个体假设或候选答案的置信得分或度量的方式。这一置信得分或度量概括QA系统关于候选答案由输入问题推断的证据而具有的置信水平，即候选答案是针对输入问题的正确答案。

由最终置信合并及排名阶段370处理所得到的置信得分或度量，最终置信合并及排名阶段370将置信得分和度量彼此相比较，将它们与预定阈值相比较，或者对置信得分执行任何其他分析以确定哪些假设/候选答案最有可能称为对于输入问题的正确答案。根据这些比较来对假设/候选答案进行排名，以生成假设/候选答案的排名列表(下文中简称为“候选答案”)。在阶段380处，根据候选答案的排名列表，生成并且经由图形用户界面或用于输出信息的其他机制向原始输入问题的提交者输出最终答案和置信得分或者候选答案和置信得分的最终集合。

本发明的说明性实施例将QA系统管线300增加有查询扩展引擎390、用户简档引擎392、用户简档数据存储装置394、答案输出定制引擎396和个性特点配置数据结构398。查询扩展引擎390包括根据说明性实施例的一个方面的标识提交输入问题310的始发用户并且与用户简档引擎392一起工作以从用户简档数据存储装置394检索对应用户简档的逻辑。始发用户的用户简档标识始发用户的个性特点。另外，用户的简档指定各种情境以及在预定义的历史时间帧(例如过去的30天、上周等)内在每个情境内采取的动作。与每个情境相关联的信息还可以包括由用户提交的被成功回答并且与情境、从被成功回答的问题提取并且与情境相关联的关键词语/短语相关联的先前的问题。此外，用户简档可以存储与相关的用户及其特定连接(例如家庭关系、朋友关系、同事关系等)有关的信息。

用以上在先前关于QA系统管线300的操作描述的方式来分析原始问题310，以标识/提取原始问题310的特征。将所标识/所提取的特征与和始发用户的简档中指定的每个情境相关联的特征相比较以标识特征对应于哪些情境。因此，例如，考虑到账户同义词，可以对照针对始发用户的简档的每个情境的关键词语/短语，来比较从原始问题310提取的词语/短语，以确定哪些情境具有匹配的关键词语/短语。将具有匹配的关键词语/短语的这些情境标识为针对原始问题310的匹配情境。这些情境可以具有与其相关联的其他特征，例如其他词语/短语，其可以用于生成用于扩展原始问题310的处理的另外的查询。因此，可以将原始问题310的特征与始发用户的简档的各种情境相比较，以标识可以在这些情境中使用以增加由原始问题310的处理生成的结果的其他词语/短语。因此，使用原始问题310来生成要对照语料库345或语料库347应用的查询，并且通过来自各个情境的类似的词语/短语的标识来生成另外的查询，并且对照语料库345或语料库347来应用另外的查询以生成从其选择最终答案的候选答案的集合。通过QA系统管线300的各个适当的阶段340-380按照以上描述的先前方式来处理这些另外的查询，如同它们是根据从输入问题310具体提取的特征而生成的查询，并且因此生成另外的候选答案，以用于被包括在针对候选得分的生成以及候选答案的排名而评估的候选答案的列表中。

可以基于其与始发用户的个性特点的匹配来选择其他先前提交的成功的问题中的特征。在一些说明性实施例中，执行查询扩展引擎300与始发用户的客户端设备之间的交互式交换，以便向始发用户提供要用于生成另外的查询的潜在的替选或另外的词语/短语的列表并且可选地将这些词语/短语表示为替选的理由。始发用户可以从列表选择始发用户认为与所提出的原始问题以及始发用户希望接收的答案的类型相关的词语/短语。

关于说明性实施例的另外的方面，用户简档引擎392经由从用户简档数据存储装置394检索的始发用户的简档来标识始发用户的个性特点，并且使用这些个性特点以及在始发用户的简档中指定的具体标识的相关用户来标识提交也被成功回答的类似的问题的其他类似用户。类似用户可以是具有与始发用户的预先存在的特定定义的相关的用户，例如经由作为语料库的一部分或者由QA系统管线300使用的配置数据结构的一部分(例如用户简档数据存储装置394中的用户简档)的组织计算系统、社交联网网站等被指定为始发用户的“朋友”、“同事”、“亲戚”的等其他用户。因此，在一些说明性实施例中，不是必须具有在用户简档中指定相关的用户，可以搜索组织或社交网络的其他数据结构，以标识始发用户的对应账户/简档并且标识始发用户与其交互的其他用户或者始发用户通过组织或社交网络网站与其附属的其他用户。类似的用户还可以是通过搜索用户简档数据结构394的用户简档、语料库的其他用户数据结构并且将这些简档的个性特点相比较以标识匹配的个性特点而标识的用户。通过这种方式，标识关联到始发用户或者具有相似个性特点的用户。

已经标识了具有通过指定的关系或者通过类似的个性特点关联到始发用户的用户，可以处理这些相关用户的用户简档，以标识与原始问题310的特征被确定为与其匹配的那些情境类似的这些用户简档中指定的情境。对于匹配原始问题310的情境的相关用户简档的那些情境，处理情境信息以标识由这些相关用户提交的类似问题，其可以被维持在与这些相关用户的用户简档内的情境相关联的历史数据结构中。可以通过原始问题310的特征与先前由相关用户提交的问题比较来标识类似的问题，先前由相关用户提交的问题被存储在与匹配情境相关联的历史数据结构中。

然后可以向QA系统管线300的阶段350返回与这些类似问题相关联的最终答案，以用于生成对于原始问题310的最终答案的候选答案的评估。最终答案可以是实际上由相关用户响应于这些先前提交的问题的候选答案的输出而选择的那些候选答案。因此，可以与候选答案相关联地对相关用户的先前提交的问题的这些候选答案进行排名，通过QA系统管线300由原始问题310的处理以及使用与始发用户简档相关联的各种情境中的类似特征的原始问题310的特征的扩展而生成候选答案。

答案输出定制引擎396基于特定始发用户的个性特点来对从阶段380获得的所选择的最终答案的输出进行定制。也就是说，QA系统管线300配置有在个性特点配置数据结构398中指定的预定义的个性特点的集合，如先前讨论的，其具有指示具有该特定个性特点的用户最有可能感兴趣的信息的类型的相关联的特性。

答案输出定制引擎396标识针对最终答案的支持证据，并且基于始发用户的个性特点来确定要根据支持证据来使用的细节水平以及要呈现的最终答案的输出的形式。然后可以将最终答案的回答的所得到的形式返回给始发用户，使得始发用户接收以最有可能与始发用户的个性化类型共鸣的形式的最终答案。

图4是给出根据一个示例性实施例的查询扩展引擎的示例操作的流程图。如图4所示，操作以接收并且处理原始问题以提取原始问题的特征(步骤410)来开始，并且基于所提取的特征来生成查询(步骤420)。检索提交原始问题的始发用户的用户简档以标识始发用户的用户简档情境、连接用户以及个性特点(步骤430)。

将原始问题的特征与关联于用户简档的预定义的情境相比较以标识特征与其相关联的预定义的情境(步骤440)。标识并且使用所标识的预定义的情境中的类似特征以生成要向语料库应用的查询(步骤450)。将来自原始问题的所提取的特征以及相关情境的类似特征的查询应用于语料库以生成候选答案、置信得分以及支持证据文章(步骤460)。在连接用户和/或具有类似个性特点的用户的对应情境中搜索具有类似特征的先前提交的问题(步骤470)，检索并且与以上在步骤460生成的候选答案相关联地评估与这些类似问题相关的最终答案(步骤480)。

从全部候选答案的排名列表中选择最终答案(步骤490)。基于始发用户的个性特点、最终答案本身以及最终答案的支持证据来生成最终答案的内容和形式(步骤500)。然后向始发用户的客户端设备输出最终答案形式，以用于向始发用户输出作为对于原始问题的答案(步骤510)。操作然后终止。

因此，说明性实施例提供用于基于始发用户的个性化情境来扩展由QA系统管线或者其他自然语言处理(NLP)系统执行的查询处理的机制。扩展考虑到与始发用户的简档相关联的情境、相关的用户、以及始发用户的个性特点。也可以定制最终答案的输出以包括最有可能是始发用户想要接收的类型的细节的水平和形式。因此，总之，通过说明性实施例的机制生成具有答案的更适当的形式的对问题的更精确的处理，否则可能要执行具有答案的更适当的形式的对问题的更精确的处理。

如以上所指出的，应当理解，说明性实施例采用完全硬件实施例的方式、完全软件实施例的方式或者包含软件元素和硬件元素二者的实施例的方式。在一个示例实施例中，说明性实施例的机制用软件或程序代码来实现，其包括但不限于固件、驻留软件、微代码等。

适合存储和/或执行程序代码的数据处理系统包括直接或者通过系统总线简介耦合到存储器元件的至少一个处理器。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置、以及提供至少一些程序代码的暂时存储以便减小在执行期间必须从大容量存储装置取回代码的次数的高速缓存存储器。

输入/输出或者I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接或者通过中间I/O控制器耦合到系统。网络适配器也可以耦合到系统，以使得数据处理系统能够变为通过中间专用或公共网络耦合到其他数据处理系统或者远程打印机或存储设备。调制解调器、线缆调制解调器以及以太网卡仅是几种当前可用类型的网络适配器。

已经出于说明和描述的目的而呈现了本发明的描述，其并非意在排他或限制为所公开的形式的发明。在不偏离所描述的实施例的精神和范围的情况下，本领域普通技术人员可以想到很多修改和变型。选择并且描述实施例以便最佳地解释本发明的原理、实际应用，并且使得本领域其他普通技术人员能够理解本发明的适合预期的特定使用的具有各种修改的各种实施例。选择本文中所使用的术语以最佳地解释实施例的原理、实际应用或者对于市场中找到的技术的技术改进，或者使得本领域其他普通技术人员能够理解本文中所公开的实施例。

Claims

1.一种在实现问答(QA)系统的数据处理系统中用于执行信息语料库的基于个性化情境的搜索的方法，包括：

由所述QA系统经由源设备从第一用户接收用于由所述QA系统处理以生成答案结果的原始问题；

由所述QA系统检索与所述第一用户相关联的第一用户简档，其中所述第一用户简档指定所述第一用户的个性特点；

由所述QA系统基于电子内容的语料库的搜索来生成对于所述原始问题的一个或多个第一候选答案；

由所述QA系统标识具有与所述第一用户的所述个性特点类似的个性特点的一个或多个第二用户；

由所述QA系统标识由所述一个或多个第二用户先前向所述QA系统提交的与所述原始问题类似的一个或多个类似的问题；

由所述QA系统基于所述一个或多个类似的问题来生成一个或多个第二候选答案；

由所述QA系统基于所述一个或多个第一候选答案和所述一个或多个第二候选答案来生成最终答案；以及

由所述QA系统经由所述源设备向所述用户输出所述答案。

2.根据权利要求1所述的方法，其中所述一个或多个第二用户是通过公共情境逻辑地关联到所述第一用户的第二用户。

3.根据权利要求2所述的方法，其中所述电子内容的语料库包括与所述公共情境相关联的电子内容的部分。

4.根据权利要求3所述的方法，其中所述第一用户简档包括与所述第一用户相关联的情境标识符，并且其中所述方法还包括：基于所述第一用户简档中所标识的所述情境来选择所述公共情境和与所述公共情境相关联的电子内容的所述部分。

5.根据权利要求4所述的方法，其中所述第一用户简档包括与所述第一用户相关联的多个情境标识符，并且其中基于所述原始问题的特征与所述第一用户简档中的标识的情境的相关性来选择所述公共情境。

6.根据权利要求2所述的方法，其中所述公共情境包括在线社区，所述第一用户和所述一个或多个第二用户经由所述在线社区相关联。

7.根据权利要求2所述的方法，其中所述公共情境包括以下各项中的至少一项：由所述第一用户和所述一个或多个第二用户在历史时间帧内访问的电子对象、在所述第一用户与所述一个或多个第二用户之间交换的电子通信、或者在所述一个或多个第二用户中的多个第二用户之间交换的电子通信。

8.根据权利要求1所述的方法，其中基于所述一个或多个类似的问题来生成一个或多个第二候选答案包括：

标识与所述第一用户的所述个性特点匹配的所述一个或多个类似的问题的一个或多个部分；以及

基于所述一个或多个类似的问题中的标识的所述部分来生成一个或多个补充查询。

9.根据权利要求8所述的方法，其中基于所述一个或多个类似的问题来生成一个或多个第二候选答案还包括：在所述QA系统与所述第一用户的客户端计算设备之间执行交互式交换，所述客户端计算设备向所述第一用户输出所述一个或多个部分的列表并且从所述第一用户接收对于所述一个或多个部分中的至少一个部分的选择，以在生成补充查询时使用，其中基于选择的所述至少一个部分来生成所述一个或多个补充查询。

10.根据权利要求8所述的方法，其中基于所述一个或多个类似的问题来生成一个或多个第二候选答案还包括：

向所述语料库应用所述一个或多个补充查询以生成所述一个或多个第二候选答案；以及

生成包括所述一个或多个第一候选答案和所述一个或多个第二候选答案的候选答案的排名的列表。

11.一种计算机系统，包括被配置成执行根据权利要求1-10中的任一项所述的方法的步骤的模型。

12.一种装置，包括：

处理器；以及

存储器，所述存储器耦合到所述处理器，其中所述存储器包括指令，所述指令在由所述处理器执行时引起所述处理器实现问答(QA)系统并且执行以下操作：

由所述QA系统经由所述源设备向所述用户输出所述答案。