CN104471568A

CN104471568A - 对自然语言问题的基于学习的处理

Info

Publication number: CN104471568A
Application number: CN201380035865.5A
Authority: CN
Inventors: M·周; F·魏; X·刘; H·孙; Y·段; C·孙; H-Y·舒姆
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2012-07-02
Filing date: 2013-07-02
Publication date: 2015-03-25
Also published as: EP2867802A1; WO2014008272A1; US20140006012A1

Abstract

所描述的技术使得能够使用基于机器学习的方法来收集和分析来自web搜索的证据来回答自然语言问题。接收到的自然语言问题被分析以提取查询单元并使用基于规则的探试和/或通过机器学习训练的分类器来确定问题类型、答案类型和/或词汇答案类型。查询生成模板被用于生成多个经排序的查询，这多个经排序的查询被用于收集证据来确定对于自然语言问题的答案。基于暗暗类型和/或词汇答案类型来从结果中提取候选答案，并使用先前被离线训练的排序器对候选答案进行排序。计算候选答案的置信度水平，并且如果排名第一(前几)的回答的置信度水平超过阈值，则该排名第一(前几)的回答可被提供给用户。

Description

对自然语言问题的基于学习的处理

背景

在线搜索引擎向用户提供了用于在web上定位内容的功能强大的手段。也许由于搜索引擎是软件程序，所以它们被开发为更加高效地处理以诸如反映编程语言的形式的布尔查询之类的形式输入的查询。然而，许多用户可能偏好以自然语言形式输入查询，类似于他们在日常生活中可能正常交流的那样。例如，搜索web以知晓保加利亚的首都的用户可能偏好输入“保加利亚的首都是什么？”而非“首都AND保加利亚”。由于许多搜索引擎已经被优化来接受具有正式查询形式的用户查询，它们可能不太能够高效且准确地对自然语言查询进行响应。

以前的方案倾向于依赖经组织的数据知识库来回答自然语言查询。这个方式以创建的Watson问题回答计算系统为例，其出名地出现在美国的游戏节目上并取得了胜利。因为Watson和类似的方案依赖于知识库，所以它们所能回答的问题的范围可被限于知识库中经组织的数据的范围。此外，这样的知识库在用新数据来更新方面可能是昂贵且耗时的。

发明内容

描述了用于通过使用基于机器学习的方法来收集和分析来自web搜索的证据来回答由用户作为搜索查询输入的自然语言问题的技术。在一些示例中，在接收到由用户输入的自然语言问题后，执行分析来确定该问题的问题类型、答案类型和/或词汇答案类型(LAT)。该分析可采用基于规则的探试和/或使用机器学习来离线训练的分类器。也可使用组块、句子边界检测、句子模式检测、解析、指定实体检测、词性标记、标记化或其它工具来从自然语言问题中提取一个或多个查询单元。

在一些实现方式中，所提取的查询单元、答案类型、问题类型和/或LAT随后可被应用到一个或多个查询生成模板以生成多个查询，该多个查询将被用于收集证据来确定针对自然语言问题的答案。接着，可使用通过使用机器学习被离线训练的排序器对这些查询进行排序，排名前N的查询可被发送到搜索引擎。接着，可使用另一经机器学习训练的排序器对结果(例如，web文档的地址和/或片断)进行过滤和/或排序，并且基于答案类型和/或LAT从结果中提取候选回答。可使用通过使用机器学习被离线训练的排序器对候选答案进行排序，并且排名在前的回答可被提供给用户。也可确定候选答案的置信度水平，并且如果排名第一的答案的置信度水平超过阈值置信度，则该答案可被提供。

提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图说明

参考附图来描述具体实施方式。在附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在不同的附图中使用相同的附图标记指示类似或相同的项。

图1描绘了根据各实施例的用于回答自然语言问题的示例用例。

图2是描绘各实施例可在其中操作的示例环境的示意图。

图3是示出根据各实施例的示例计算系统的图。

图4描绘了根据各实施例的用于回答自然语言问题的说明性过程的流程图。

图5描绘了根据各实施例的用于分析自然语言问题来确定问题类型、答案类型、LAT和/或查询单元的说明性过程的流程图。

图6描绘了根据各实施例的用于确定多个搜索查询来收集用于回答自然语言问题的证据的说明性过程的流程图。

图7描绘了根据各实施例的用于分析搜索结果作为用于回答自然语言问题的证据的说明性过程的流程图。

图8描绘了根据各实施例的用于从搜索结果证据中提取可能的答案的说明性过程的流程图。

详细描述

概览

在此描述的各实施例提供了用于回答由用户作为搜索查询输入的自然语言问题的技术。在一些实施例中，从寻找对自然语言问题的答案的用户接收作为搜索查询的该自然语言问题(例如，通过搜索引擎)。如本文所描述的，自然语言问题包括字符序列，该字符序列至少部分可采用表现正常、日常讲话的语法和/或句法。例如，用户可询问问题“保加利亚的首都是什么？”或“大宪章是何时签署的？”。虽然本文给出的一些示例描述了包括特定问题形式(例如，谁，什么，哪里，何时，为何，如何等)的自然语言问题，但是各实施例并不被如此限制并可支持任何形式的自然语言问题。

为了标识针对自然问题的至少一个回答，各实施例采用四个阶段：问题理解，查询公式化，证据收集以及答案提取/排序。进一步参考图4-8来描述这四个阶段中的各个阶段。概览部分的其余部分参考图1中示出的示例情形简要地描述了这四个阶段。该示例情形开始于接收到自然语言问题102，“就在这个‘Gretchen am Spinnrade’作曲家遇见贝多芬后不久，他是在他的葬礼上的持火把者”。各实施例采用web搜索证据搜集和分析(至少部分地是基于机器学习的)来尝试查明答案。在该示例中的实际答案是“Franz Schubert”。

在一些实施例中，问题理解包括对自然语言问题进行分析来预测问题类型和答案类型。问题类型可包括仿真事实型(例如，“保加利亚的首都是什么？”)、定义型(例如，“‘ambidextrous’的含义是什么？”)、谜题型(例如，“我能用字母BYONGEO拼出什么单词？”)、数学型(例如，“最低的十个幸福数字(happy numbers)是什么？”)或任何其它类型的问题。答案类型可包括人、位置、时间/日期、数量、事件、生物(例如，动物、植物等)、物体、概念或任何其它答案类型。在一些实施例中，词汇答案类型(LAT)也可以被预测。LAT可更具体和/或可以是答案类型的子集。例如，具有答案类型“人”的问题可具有“作曲家”的LAT。对问题类型、答案类型和/或LAT的预测可使用基于规则的探试方法、(例如在在线接收到自然语言问题之前)使用机器学习来离线训练的分类器，或这两个方法的组合。在图1的示例中，自然语言问题102具有事实型的问题类型104、人的答案类型106以及作曲家的LAT 108。

问题理解也可包括从自然语言问题中提取查询单元。查询单元可以包括以下的一个或多个：单词、基本名词短语、句子、指定实体、引用、释义(例如，基于同义词、上位词等的重新阐述)以及事实。可使用对自然语言问题的基于语法的分析来提取查询单元，基于语法的分析包括以下的一个或多个：组块、句子边界检测、句子模式检测、解析、指定实体检测、词性标记以及标记化。在图1显示的示例中，自然语言问题102包括诸如以下的查询单元110：单词(例如，“不久”、“Gretchen”、“作曲家”等)、名词短语(例如，“作曲家遇见贝多芬”、“在他的葬礼上的持火把者”等)、指定实体(例如，“Gretchenam Spinnrade”、“贝多芬”等)、引用(例如，“‘Gretchen am Spinnrade’”)以及释义(例如，将作曲家改写为“音乐家”、“艺术家”等)。

在一些实施例中，第二阶段是查询公式化。在这个阶段，从问题理解阶段获取的信息可被用于生成一个或多个搜索查询以用于收集证据来确定针对自然语言问题的回答。在一些实施例中，所提取的查询单元以及问题类型、答案类型和/或LAT被应用到一个或多个查询生成模板来生成一组候选查询。可使用通过使用不受监督的机器学习技术或诸如支持向量机(SVM)等受监督的机器学习技术来离线训练的排序器对候选查询进行排序。在一些实施例中，排名在前的预定数量N(例如，25)个查询被发送以由诸如等一个或多个web搜索引擎执行。在图1显示的示例中，排名前三的搜索查询112被确定为：“Gretchen am Spinnrade作曲家”、“什么是Gretchen am Spinnrade”以及“作曲家遇见贝多芬”。

在一些实施例中，第三阶段是证据收集，其中排名前N个搜索查询被搜索引擎执行并且搜索结果被分析。在一些实施例中，每个搜索查询的前N个结果(例如，由执行搜索查询的搜索引擎排序的)可被相互合并以创建搜索结果的经合并的列表。在一些实施例中，搜索结果可包括结果网页的地址(诸如，统一资源定位符(URL)、统一资源标识符(URI)、网际协议(IP)地址、或其它标识符)和/或来自结果网页的内容的片断。经合并的搜索结果可被过滤来移除重复的结果和/或噪声结果。

在第四阶段答案提取/排序阶段，可从搜索结果中提取候选答案。在一些实施例中，候选答案提取包括对搜索结果页面中具有与在问题理解阶段确定的答案类型和/或LAT相匹配的类型的那些指定实体的基于词典的实体识别。在一些实施例中，所提取的指定实体被规范化以扩展缩写式、纠正搜索结果中的拼写错误、扩展适当的名称(例如，从Bill到William)等等。在图1的示例中，所提取的候选答案114包括Ludwig van Beethoven、Franz、Franz Grillparzer、Franz Schubert和Franz Liszt。

接着，可通过将为各个候选答案确定的一组特征应用到使用机器学习技术(例如，SVM)来离线训练的排序器来对候选答案进行排序。在图1的示例中，经排序的候选答案116是Franz Schubert、Franz Liszt、Franz Grillparzer、Franz和Ludwig van Beethoven。在一些实施例中，可为排名在前的候选答案中的一个或多个确定置信度水平。置信度水平可被规范化为从0到1，并且，在一些实施例中，当排名第一的候选答案具有超过预定的阈值置信度水平的置信度水平时，该排名第一的候选答案作为针对用户的问题的答案被提供。在图1的示例中，回答118是具有置信度水平0.85的Franz Schubert。以下参考图2-8进一步描述各实施例。

说明性环境

图2示出了各实施例可在其中操作的示例环境200。如所示，环境200的各种计算设备经一个或多个网络202彼此通信，网络可包括允许这种通信的任何类型的网络。例如，网络202可包括诸如因特网之类的公共网络、诸如机构和/或个人内联网、或专用和公开网络的某种组合。网络202还可包括任何类型的有线和/或无线网络，包括但不限于局域网(LAN)、广域网(WAN)、Wi-Fi、WiMax以及移动通信网络(如3G、4G等等)。网络202可利用通信协议，包括基于分组的和/或基于数据报的协议，如IP、传输控制协议(TCP)、用户数据报协议(UDP)或其他类型的协议。而且，网络202还可包括便于网络通信和/或形成网络的硬件基础的若干设备，如交换机、路由器、网关、接入点、防火墙、基站、中继器、主干设备等等。

环境200进一步包括诸如客户端设备204的一个或多个客户端计算设备。在一些实施例中，客户端设备204是与一个或多个可能向web搜索引擎或其它应用提供自然语言问题的终端用户相关联的。客户端设备204可包括用户可用来通过网络202发送和接收信息的任何类型的计算设备。例如，客户端设备204可包括但不限于台式计算机、膝上型计算机、平板计算机、电子书阅读器、可佩戴计算机、媒体播放器、车用计算机、移动计算设备、智能电话、个人数字助理(PDA)、游戏控制台、移动游戏设备、机顶盒等等。客户端设备204可包括使得用户能够浏览到在线搜索引擎或其它联网应用并输入可通过在此描述的各实施例来回答的自然语言问题的一个或多个应用、程序或软件组件(例如，web浏览器)。

如在图2中进一步显示的，环境200可包括一个或多个服务器计算设备，诸如自然语言问题处理服务器设备206、搜索引擎服务器设备208和机器学习服务器设备210。在一些实施例中，这些服务器计算设备中的一个或多个可由提供用于根据本文描述的各实施例回答自然语言问题的网络服务的个体、企业或其它实体进行管理、操作和/或一般地关联。这些服务器计算设备实质上可以是任何类型的联网计算设备或联网计算设备的群集。虽然在图2中单独地描绘了这三种类型的服务器，但是各实施例并不限于此。在一些实施例中，自然语言问题处理服务器设备206、搜索引擎服务器设备208和/或机器学习服务器设备210的功能可被组合到一个或多个服务器上或可被选择以最优化性能的任何组合中的服务器群集，以用于有效地使用物理空间、用于商业原因、用于可用性原因以及其它原因。

在一些实施例中，自然语言问题处理服务器设备206提供用于接收、分析和/或回答从客户端设备204的用户接收到的自然语言问题的服务。这些服务在此结合图4-8进一步描述。

在一些实施例中，搜索引擎服务器设备208提供用于执行在线web搜索的服务(例如，搜索引擎软件应用和用户界面)。同样地，这些服务器可接收web搜索查询并以满足搜索查询的网页的地址或标识符(例如，URL、URI、IP地址等)的形式和/或以来自所得到的网页的内容的至少一部分(例如，片断)的形式来提供结果。搜索引擎服务器设备208也可对搜索结果按照相关性或预测的用户兴趣的次序进行排序。在一些实施例中，自然语言问题处理服务器设备206可采用由搜索引擎服务器设备208主控的一个或多个搜索引擎来收集用于回答自然语言问题的证据，如在此进一步描述的。

在一些实施例中，机器学习服务器设备210提供用于训练分类器、排序器和/或其它用于本文描述的分类和/或排序的组件的服务。这些服务可包括不受监督的机器学习技术和/或受监督的机器学习技术，诸如SVM。

如图2中所示的，环境200还可包括一个或多个知识库212。这些知识库可被用于补充在此描述的基于web搜索的技术，并可包括一般兴趣的知识库(例如，)或覆盖指定的感兴趣的主题的更明确的知识库。

说明性计算系统架构

图3描绘了根据各实施例的示例计算系统300。在一些实施例中，计算系统300是图2中描绘的客户端设备204、自然语言问题处理服务器设备206、搜索引擎服务器设备208和/或机器学习服务器设备210的示例。计算系统300包括处理单元302。处理单元302可包含多个处理单元，并可被实现为硬件、软件或其某种组合。处理单元302可包括一个或多个处理器。如本文所使用的，处理器包括硬件组件。此外，处理单元302可包括以任何合适的编程语言编写的用以执行本文所描述的各种功能的计算机可执行的、处理器可执行的和/或机器可执行的指令。计算设备300还包括系统存储器304，系统存储器可包括诸如随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等之类的易失性存储器。RAM 306包括一个或多个执行中的操作系统(OS)308，以及一个或多个执行中的过程，包括可由处理单元302加载和执行的组件、程序或应用。这样的过程可包括自然语言问题处理组件310以执行接收、分析由用户提供的自然语言问题、收集关于该自然语言问题的证据和/或回答该自然语言问题的动作。这些功能在此结合图4-8进一步描述。RAM 306也可包括用于基于web查询来执行web搜索的搜索引擎组件312，以及用于使用受监督的或不受监督的机器学习方法来训练分类器或其它实体的机器学习组件314。

系统存储器304还可包括诸如只读存储器(ROM)316、闪存等之类的非易失性存储器。如显示的，ROM 316可包括用于引导计算系统300的基本输入/输出系统(BIOS)318。尽管未显示，但是系统存储器304可进一步存储由OS308或在系统存储器304中执行的任何组件、程序或应用生成和/或利用的程序或组件数据。系统存储器304还可包括高速缓存存储器。

如图3中所示，计算系统300还可包括诸如不可移动存储322(例如，硬盘驱动器)和/或可移动存储324的计算机可读存储介质320，包括但不限于磁盘存储、光盘存储、磁带存储等等。盘驱动器及相关联的计算机可读介质可为计算系统300的操作提供对计算机可读指令、数据结构、程序模块以及其它数据的非易失性存储。

一般来说，计算机可读介质包括计算机可读存储介质和通信介质。

计算机可读存储介质是包括以用于存储如计算机可读指令、数据结构、程序模块和其他数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质的有形介质。计算机存储介质包括但不限于，RAM、ROM、可擦除可编程只读存储器(EEPROM)、SRAM、DRAM、闪存或其他存储器技术、紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可用于存储信息以供计算设备访问的任何其他非传输介质。

相反，是非有形的通信介质可在诸如载波的已调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所限定的，计算机可读存储介质不包括通信介质。

计算系统300还可包括输入设备326，包括但不限于键盘、鼠标、笔、游戏控制器、用于语音识别的语音输入设备、触摸屏、触摸输入设备、姿势输入设备、基于运动或基于对象的识别输入设备、生物信息输入设备等。计算系统300还可包括输出设备328，包括但不限于显示器、打印机、音频扬声器、触觉输出等等。计算系统300可进一步包括通信连接330，该通信连接300允许计算系统300与其它计算设备332进行通信，其它计算设备包括客户端设备、服务器设备、数据库和/或其它可通过一个或多个通信网络访问的联网设备。

示例操作

图4-8描绘了示出根据各种实施例的示例过程的流程图。这些过程的操作在单独的框中示出，并且参考这些框来概括。这些过程被示为逻辑流程图，其每个操作可表示可用硬件、软件或其组合实现的一个或多个操作。在软件的上下文中，这些操作表示存储在一个或多个计算机存储介质上的计算机可执行指令，这些指令在由一个或多个处理器执行时使得一个或多个处理器执行既定操作。一般而言，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、模块、组件、数据结构等。描述操作的次序并不旨在解释为限制，并且任何数量的所述操作可以按任何次序进行组合、细分成多个子操作、和/或并行执行，以实现所描述的过程。在一些实施例中，图4-8中示出的过程由自然语言问题处理服务器设备206和/或自然语言问题处理组件310中的一个或多个来执行。

图4描绘了根据各实施例的用于回答自然语言问题的说明性过程400的流程图。该过程可遵循以上描述的四个阶段：问题理解，查询公式化，证据收集以及答案提取/排序。在402，接收到自然语言问题。在一些实施例中，问题可在在线通信会话期间从用户(诸如客户端设备204的用户)接收，并且该问题可通过搜索网站或其它网络应用的用户界面提供给用户。在一些实施例中，也可接收分类。例如(例如，如在游戏中)，可接收到指示自然语言问题属于一宽泛的分类(诸如地理、历史、科学、娱乐等)或一较窄的分类(诸如澳大利亚的地理、拜占庭帝国的历史、碳水化合物代谢的科学)的信息。

在404，分析自然语言问题和/或分类来预测或确定与自然语言问题相关联的问题类型和答案类型。在一些实施方式中，还为问题预测LAT。还可从自然语言问题中提取一个或多个查询单元。这些任务是问题理解阶段的一部分，并且结合图5进行进一步详细地描述。

在406，基于在404对自然语言问题的分析来公式化一个或多个搜索查询。在一些实施例中，该公式化包括将查询单元、问题类型、答案类型和/或LAT应用到一个或多个查询生成模板。这些任务是查询公式化阶段的一部分，并且结合图6进行进一步详细地描述。

在408，通过由至少一个搜索引擎执行一个或多个搜索查询来收集证据。该证据收集阶段结合图7进行进一步描述。

在410，分析从执行一个或多个搜索查询中得到的搜索结果以从该搜索结果中提取或以其它方式确定和排序一个或多个候选答案。该答案提取和排序阶段结合图8进行进一步描述。

在412，向用户提供一个或多个候选答案。在一些实施例中，某个预定数量个排名在前的候选答案被提供给用户。在一些实施例中，还可在每个候选答案旁提供置信度水平以提供系统对该候选答案可能是准确的置信度的测量。在一些实施例中，基于排名最高的候选答案的置信度水平高于预定的阈值置信度水平，该排名最高的候选答案被提供给用户作为针对自然语言问题的答案。此外，在一些实施例中，如果没有候选答案具有高于阈值置信度水平的置信度水平，那么可向用户提供没有候选答案达到最低置信度水平的消息或其它指示。

数学地，过程400可被描述为公式1：

[∑_qP(q|Q，t，K)×P(r|q，S)]×P(R′|R)×P(h|t，R′K)×[P(h|e)×

P(e|h，t，Q_P，R′，K)] (公式1)

其中Q表示输入自然语言问题，表示候选答案的假设空间，h表示候选回答。各实施例旨在寻找最大化概率P(h|Q)的假设(例如，答案)h。

P(h|Q)可被进一步导出P(h|Q，S，K)，其中S表示搜索引擎并且K表示知识库(在使用附属知识库的实施例中)。该公式可被进一步地分解成以下部分:

·P(t|Q)其中t表示答案类型(T表示答案类型集合)，即，问题Q具有作为答案类型t的概率；

·P(q|Q，t，K)其中q表示从Q(以及作为答案类型的t以及知识库K)中生成的搜索查询，即，生成作为来自Q的搜索查询之一的q的概率；

·P(r|q，S)，其中r表示在q作为搜索查询的情况下由搜索S返回的搜索结果；

·P(R′|R)其中R表示从不同的搜索查询中合并的搜索结果，R′表示经重新排序的前N个搜索结果；

·P(h|t，R′K)：从搜索结果R′中提取h作为候选答案的概率；

·P(e|h，t，Q_P，R′K)其中e表示候选答案h的排序特征，Q_P是包括LAT和答案类型的问题简档；和或

·P(h|e)，即，在给定特征集e的情况下排序结果h的概率。

用于问题理解的示例操作

图5描述了根据各实施例的用于分析自然语言问题来确定问题类型、答案类型、LAT和/或查询单元的说明性过程500的流程图。在502，基于对自然语言问题的分析来确定问题类型504。在还随自然语言问题接收到问题分类的实施例中，也对分类进行分析来确定问题类型。问题类型504可以是事实型、定义型、谜题型、数学型或任何其它类型的问题。在一些实施例中，问题类型分类器可被应用到自然语言问题来预测它的问题类型。可根据不受监督的机器学习技术或受监督的机器学习技术(诸如SVM)来使用多个特征对该分类器进行离线训练。在一些实施例中，被用于训练分类器的特征可包括但不限于以下中的一个或多个：

·自然语言问题是否与一个或多个预定义的常规表达式相对应或匹配；

·自然语言问题是否包括诸如以下的模式：“来自<语言>用于<短语>，<焦点>(from<language>for<phrase>，<focus>)”，“<焦点>是<短语>的<语言>(<focus>is<language>for<phrase>)”，“是用于什么的单词(is the word for)”和/或“意味着(means)”，其中焦点可指示是自然语言问题的焦点的经确定的关键词或短语；

·分类文本是否包括重复的分类类型；

·问题是否是没有焦点的短语；

·分类是否指定要翻译到或从其翻译的语言；

·问题文本是否包括单个实体或短列表的实体；和/或

·焦点是否是“do(做)”动词的对象。

在一些实施例中，探试方式可被用于基于一组预定的规则来确定问题类型。

在506，可基于对自然语言问题的分析来确定词汇答案类型(LAT)508。在一些实施例中，LAT 508是标识针对自然语言问题的答案的分类的单词或短语。在一些情况下，LAT可以是在自然语言问题本身中找到的单词或短语。在一些实施例中，探试、基于规则的方法被用于确定LAT。例如，二元线性判定树模型可结合各种规则而被采用，并且可通过遍历该判定树的自然语言问题中的各个名词短语(NP)来确定LAT。规则可以包括以下的一个或多个：

·如果[这个NP]([this NP])问题是1，那么[NP-头是LAT]([NP-headis LAT])；

·如果[这些NP]([these NP])问题是1，那么[NP-头是LAT]；

·如果[它是NP]([it be NP])问题是1，那么[NP-头是LAT]；

·如果[这个NP]([this NP])问题是0，[第三人称代词]([third-personpronoun])问题是1，那么[第三人称代词是LAT]([third-person pronounis LAT])；

·如果[这个NP]问题是0，[名词3释义]([Noun3paraphrase])主题是1，那么[名词3是LAT]；和/或

·如果[这个NP1]([this NP1])问题是0，[NP2]主题是1，那么[NP2-头是LAT]([NP2-head is LAT])。

作为以上规则的示例应用，可接收到以下自然语言问题：“他于1963年在阿拉巴马州伯明翰的城市监狱中书写了他的‘来自伯明翰监狱的信’”。该问题已经随“囚犯的句子”分类被接收。对LAT的确定可遵循以上判定树中的规则：

·首先，自然语言问题包括单词“这个(this)”吗？否；

·第二，自然语言问题包括单词“这些(these)”吗？否；

·第三，自然语言问题包括“它是(it be)”结构吗？否；

·第四，自然语言问题包括任何代词单词吗？是，它包括“他(he)”；以及

·最后，至少部分基于以上确定，可为自然语言问题确定“他(he)”的LAT。

在一些实施例中，通过将离线训练的分类器应用到自然语言问题的一个或多个特征来经由机器学习过程预测LAT。在各实施例中，替代于以上描述的探试、基于规则的方法的组合，可采用用于确定LAT的基于机器学习的方法。

在510，基于对自然语言问题的分析来确定答案类型512。答案类型512可包括人、位置、时间/日期、数量、事件、生物(例如，动物、植物等)、物体、概念或任何其它答案类型。在一些实施例中，用机器学习训练的分类器被用于基于自然语言问题的多个特征来预测答案类型。在一些实施例中，可采用对数线性分类模型。该模型可被数学地表示为公式2：

t = {\arg \max}_{t_{i}} \log P (t_{i}) + Σ_{j = 1}^{k} \log P (x_{j} | t_{i}),

(公式2)

其中t表示所确定的回答类型，x_j表示j∈[1，K]的特征，并且t_i表示i∈[1，N]的可能答案类型。特征可包括但不限于以下：

·LAT；

·LAT上下文，在自然语言问题中LAT之前和之后的最近的N个单词(例如，N＝3)；

·标题标签，LAT是否被包括在标题词典中(例如，如在外部知识库212中，或在诸如等商业的可用在线词典中)；

·LAT的同义词，例如，如通过词典确定的；

·LAT的上位词，例如，如通过词典确定的；和/或

·特定的元语法，例如，问题是否包括特定的单词，诸如哪里(where)、谁(who)、什么(what)等。

在一些实施例中，可与以上描述的基于机器学习的技术相分开或组合地基于将多个规则应用到自然语言问题来执行对答案类型的预测。

在514，可基于对自然语言问题的基于语法和/或基于句法的分析来从自然语言问题中提取一个或多个查询单元516。查询单元可以包括以下的一个或多个：单词、基本名词短语、句子、指定实体、引用、释义(例如，基于同义词、上位词等的重新阐述)、依赖关系、时间和数量单元以及事实。此外，一些实施例可采用至少一个知识库作为对本文描述的基于搜索查询的方法的附属。在这样的情况下，所提取的查询单元也可包括在至少一个知识库中找到的自然语言问题的属性。查询单元的提取可包括以下各项中的一个或多个：句子边界检测518、句子模式检测520、解析522、指定实体检测524、词性标记526、标记化528以及组块530。

查询公式化的示例操作

图6描绘了根据各实施例的用于确定多个搜索查询来收集用于回答自然语言问题的证据的说明性过程600的流程图。在602，确定一个或多个候选搜索查询。在一些实施例中，候选搜索查询的公式化可采用一个或多个查询生成模板604，并可包括将问题类型504、LAT 508、答案类型510和/或查询单元516应用到查询生成模板604。查询生成模板604可包括使用一个查询单元(例如，元语法单元)的模板和/或使用多个查询单元(例如，多元语法单元)的模板。

在606，对一个或多个候选查询进行排序来确定预定数量N(例如，前20)个排名最高的候选查询。在一些实施例中，对候选查询的排序采用通过使用不受监督的机器学习技术或受监督的机器学习技术(例如，SVM)来对其进行离线训练的排序器，该排序器基于候选查询的一个或多个特征来对候选查询进行排序。在608，排名前N的候选查询被标识为要在证据收集阶段期间被一个或多个搜索引擎执行的一个或多个搜索查询610。

用于证据收集的示例操作

图7描绘了根据各实施例的用于分析搜索结果作为用于回答自然语言问题的证据的说明性过程700的流程图。在702，提供一个或多个搜索查询610以供一个或多个搜索引擎(诸如，)执行。在704，从一个或多个搜索引擎接收搜索结果，搜索结果是从基于各个搜索查询执行的搜索中得到的。在一些实施例中，搜索结果包括各个结果网页或web文档的地址或其它标识符(例如，URL、URI、IP地址等)和/或来自结果网页或文档的内容片断。

在一些实施例中，搜索结果可能已经根据相关性被搜索引擎进行了排序，可从各个搜索结果集中选择前N(例如，20)个搜索结果用于进一步处理。在706，来自各个搜索结果集的前N个搜索结果被合并以形成经合并的搜索结果集来用于进一步处理。在708，经合并的搜索结果可被过滤来移除重复的结果和/或噪声结果。在一些实施例中，可基于预定的web站点质量测量来确定噪声结果(例如，已知的低质量站点可被过滤)。在一些实施例中，过滤可进一步基于结果web站点的内容的内容可读性或一些其它质量测量。

在710，使用排序器对搜索结果进行排序。在一些实施例中，通过使用一组特征来使用不受监督的机器学习方法或受监督的机器学习方法(例如，SVM)来离线地训练排序器。例如，对于自然语言问题Q，在给定n个候选搜索结果页面d₁...d_n的情况下，排序可包括基于搜索结果对<d_i，d_j>的二元分类，其中(1≤i，j≤n，i！＝j)。可基于与d相关的特征和/或描述Q和d之间对应关系的特征来定义线性排序函数可接着使用诸如SVM的机器学习技术来训练权重向量在该示例中，接着可基于分数来对搜索结果列表进行排序，该分数是各个结果页面的特征函数值和它们的对应权重的点积。

在一些实施例中，被用于排序的特征可包括但不限于以下中的一个或多个：

·在从搜索查询中生成的结果集内的搜索页面的排序，如由搜索引擎排序的；

·结果的片断的域，例如，域的质量；

·结果片断和自然语言问题之间的相似性；

·结果页面的标题和自然语言问题之间的相似性；

·在结果片断中是否存在问题点；

·在结果的标题中是否存在问题点；

·查询生成策略，例如，用于生成查询的特定查询公式化模板；

·查询的长度(例如，单词的数量)；

·由搜索引擎返回的搜索结果的数量；

·结果片断中指定实体的数量；

·结果的标题中指定实体的数量；

·结果片断中指定实体的类型；和/或

·结果的标题中指定实体的类型。

在712，排名前N个搜索结果被选择并标识为用于在回答提取和排序阶段期间的候选答案提取的搜索结果714。在一些实施例中，基于性能标准，排在搜索结果的前面的搜索结果的数量是可调的(例如，N可被调整)。

答案提取和排序的示例操作

图8描绘了根据各实施例的用于从搜索结果714中提取可能的答案的说明性过程的流程图。在802，可从搜索结果714中提取一个或多个指定实体。在一些实施例中，基于指定实体的与通过基于词典的匹配过程确定的答案类型和/或LAT的对应来提取指定实体。例如，如果自然语言问题具有预测的答案类型“人”，那么从搜索结果中提取“人”类型的指定实体。在804，所提取的指定实体被规范化以扩展缩写式、纠正搜索结果中的拼写错误、扩展适当的名称(例如，从Bill到William)等等。

在806，为候选答案提取一个或多个特征，并且在808，基于特征对候选答案进行排序。在一些实施例中，使用通过诸如SVM的机器学习过程来离线训练的排序器来执行排序。在一些实施例中，对于自然语言问题Q并在给定n个候选答案h₁...h_n的情况下，排序可包括候选对<h_i，h_j>的二元分类，其中(1≤i，j≤n，i！＝j)。可基于与候选答案h相关的特征(例如，候选答案在搜索结果页面中出现的频率)和/或描述Q和h之间对应关系的特征(例如，LAT匹配)来定义线性排序函数可使用诸如SVM的机器学习方法来训练权重向量(例如，排序器)并且接着可根据每个候选的分数来对答案候选列表进行排序，其中每个候选的分数是特征函数值和对应的权重的点积。

使用的特征可包括对于所有答案类型通用的特征和/或对于特定答案类型指定的特征。在一些实施例中，通用特征包括但不限于：

·频率，例如，候选答案出现在搜索结果中的次数；

·排序，例如，候选答案在搜索结果中的平均排序；

·查询单词匹配，例如，在查询和包括候选答案的搜索结果之间多个匹配的单词；

·LAT匹配，例如，候选答案是否是LAT的子类或LAT的实例。在一些实施例中，该子类或其实例的关系是通过诸如或等语言数据库来确定的。

·是知识库文章标题，例如，候选是否是从搜索结果中的知识库(例如，)标题中提取的；

·暗暗索引，例如，候选的标签(候选的知识库文章页面中的锚文本)和针对在自然语言问题中出现的术语的所有知识库页面中的锚文本之间的多个匹配点；和/或

·LAT上下文，例如，在自然语言问题中靠近LAT的那些单词(例如，具有某个数量的单词，诸如5)和在搜索单词中靠近答案候选的那些单词之间的多个匹配的单词。在一些实施例中，当确定上下文时，某些单词(例如，结束字)被忽略。

在一些实施例中，特定于回答类型的特征包括但不限于在表1中的那些特征。

表1

在810，为候选答案中的一个或多个确定置信度水平。在一些实施例中，为排名最高的候选答案确定置信度水平。在一些实施例中，为排名前N的候选答案或为所有的候选答案确定置信度水平。在确定置信度水平后，可如以上结合图4描述的将答案提供给用户。在一些实施例中，可使用包括但不限于以下的特征来使用衰退SVM方法来执行置信度水平计算：

·自然语言问题中LAT的数量；

·由自然语言问题生成的查询的数量；

·各个搜索查询的类型；

·回答类型，例如，问题的预测答案类型；

·为自然语言问题生成的答案候选的数量；

·候选分数变化，例如，为每个候选答案计算的分数的变化；和/或

·所有候选答案的最大分数。

结语

虽然已经用对结构特征和/或方法动作专用的语言描述了各项技术，但是应该理解，所附权利要求不必限于所述的具体特征或动作。相反，这些具体特征和动作是作为实现这些技术的示例形式而公开的。

Claims

1.一种计算机实现的方法，包括：

分析自然语言问题以预测所述自然语言问题的问题类型和答案类型；

至少部分基于所述问题类型以及至少部分基于从所述自然语言问题中提取的一个或多个查询单元来公式化经排序的多个搜索查询；

从经由搜索引擎执行所述经排序的多个搜索查询中的至少一些所得到的多个搜索结果中确定一个或多个候选答案，所述确定至少部分基于所述答案类型；

根据为所述一个或多个候选答案中的每一个确定的置信度水平来对所述一个或多个候选答案进行排序；以及

至少部分基于确定所述一个或多个候选答案中排名最高的候选答案具有高于预定的阈值置信度的置信度水平来提供所述排名最高的候选答案。

2.如权利要求1所述的方法，其特征在于，通过使用分类器来对所述问题类型进行预测，所述分类器是使用机器学习技术用多个特征来训练的。

3.如权利要求1所述的方法，其特征在于，至少部分基于多个预定的规则来预测所述答案类型。

4.如权利要求1所述的方法，其特征在于，还包括：

采用排序器来对所述多个搜索查询进行排序，所述排序器是使用机器学习技术来训练的；以及

确定所述多个搜索查询中排名最高的数个搜索查询以供所述搜索引擎执行。

5.如权利要求1所述的方法，其特征在于，还包括：

在确定所述一个或多个候选答案之前，过滤所述多个搜索结果以移除重复的搜索结果或噪声搜索结果中的至少一个。

6.如权利要求1所述的方法，其特征在于，确定所述一个或多个候选回答包括：

从所述多个搜索结果中提取一个或多个指定实体，所述一个或多个指定实体对应于所述答案类型，所述提取至少部分基于所述一个或多个指定实体与所述多个搜索结果的文本的词典匹配；以及

规范化所述一个或多个指定实体以确定所述一个或多个候选答案。

7.如权利要求1所述的方法，其特征在于，通过使用排序器对所述一个或多个候选答案进行排序，所述排序器是使用机器学习技术来被训练的。

8.一种系统，包括：

至少一个存储器；

与所述至少一个存储器通信的至少一个处理器；以及

自然语言问题处理组件，所述自然语言问题处理组件存储在所述至少一个存储器上并被所述至少一个处理器执行以：

分析接收到的自然语言问题以确定所述自然语言问题的问题类型和答案类型；

从所述自然语言问题中确定一个或多个查询单元；

至少部分基于所述问题类型和所述一个或多个查询单元来公式化多个搜索查询；

至少部分基于所述回答类型来从多个搜索结果中确定一个或多个候选答案，所述多个搜索结果得自于经由搜索引擎执行所述多个搜索查询中的至少一些；以及

至少部分基于为所述一个或多个候选答案中的每一个确定的置信度水平来对所述一个或多个候选答案进行排序。

9.如权利要求8所述的系统，其特征在于，进一步包括：

机器学习组件，所述机器学习组件存储在所述至少一个存储器中并被所述至少一个处理器执行来使用机器学习技术来训练排序器；

其中所述自然语言问题处理组件还用于：

使用所述排序器对所述多个搜索查询进行排序；以及

10.一种或多种存储指令的计算机可读存储介质，所述指令在由至少一个处理器执行时指令所述至少一个处理器执行以下动作：

至少部分基于所述问题类型以及至少部分基于从所述自然语言问题中提取的一个或多个查询单元来公式化多个搜索查询；

从执行所述多个搜索查询中的至少一些得到的多个搜索结果中提取一个或多个候选答案；以及

根据为所述一个或多个候选答案中的每一个确定的置信度水平来对所述一个或多个候选答案进行排序。