CN101878476B

CN101878476B - 用于查询扩展的机器翻译

Info

Publication number: CN101878476B
Application number: CN200880102717XA
Authority: CN
Inventors: 斯特凡·里茨勒; 亚历山大·L·瓦谢尔曼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2007-06-22
Filing date: 2008-06-20
Publication date: 2013-03-06
Anticipated expiration: 2028-06-20
Also published as: EP2165272A2; US20080319962A1; CN101878476A; WO2009002864A2; US9569527B2; US9002869B2; WO2009002864A3; EP2165272A4; US20130031122A1

Abstract

用于扩展搜索查询的方法、系统和设备，包括计算机程序产品。一个方法包括：接收搜索查询；基于在所接收的搜索查询中的词语的出现语境来选择搜索查询中的词语的同义词，所述同义词已从所述词语的统计机器翻译导出；以及用所述同义词来扩展所接收的搜索查询并且使用扩展的搜索查询来搜索文档的集合。替选地，另一个方法包括：接收对文档的语料库进行搜索的请求，所述请求指定搜索查询；使用统计机器翻译来将指定的搜索查询翻译成扩展的搜索查询，所指定的搜索查询和扩展的搜索查询是相同的自然语言形式；以及响应于请求而使用扩展的搜索查询来搜索文档的集合。

Description

用于查询扩展的机器翻译

技术领域

本说明书涉及搜索查询扩展。

背景技术

查询扩展是指在执行搜索以前修改从用户处接收的搜索查询。理想地，与原始查询相比较，修改后的搜索查询将产生改进的搜索结果。用于查询扩展的典型的方法包括单词的词干提取、拼写错误的改正和搜索查询的扩增，例如使用在原始查询中出现的单词的同义词。

存在许多使用同义词的查询扩展的方法。例如，可以从专家指定的词库或词汇本体识别单词的同义词。在一些系统中，从在语句构成上与原始查询相似的其它搜索查询识别同义词。在单词可能具有多个潜在的同义词，且每一个具有宽泛的变化的含义时，同义词选择尤其富有挑战性。例如，在查询“How to ship a box(如何运送箱子)”中，单词“ship”可以具有同义词例如“boat(船)”和“send(发送)”。用与用户的预期的含义不一致的同义词扩展查询可能导致不相关的搜索结果的识别。例如，与拖网渔船有关的搜索结果可能与运送箱子不相关。

发明内容

本说明书描述与搜索查询扩展有关的技术。总的来说，在本说明书中描述的主题的一个方面可以在包括以下行为的方法中被实现：接收搜索查询；基于在所接收的搜索查询中的词语的出现语境来选择搜索查询中的词语的同义词，所述同义词已从所述词语的统计机器翻译导出；用所述同义词扩展所接收的搜索查询；以及使用所扩展的搜索查询来搜索文档的集合。本方面的其它实施例包括对应的系统、设备以及计算机程序产品。

这些和其它的实施例可以可选地包括以下特征的一个或多个。识别多个已记录的搜索查询，其中所述词语在所述已记录的搜索查询的每一个中出现。使用统计机器翻译来将所述多个已记录的搜索查询翻译成相应的翻译的搜索查询。可以从所述翻译的搜索查询识别多个潜在的同义词。潜在的同义词可以是在所述翻译的搜索查询中的所述词语的一个或多个特有的翻译，其中每一个潜在的同义词具有相关联的出现的语境。通过将在所接收的查询中的词语的出现语境与在翻译的搜索查询中的每一个潜在的同义词的出现语境进行匹配，可以从多个潜在的同义词选择同义词。统计机器翻译可以使用双向短语对准。

可以从多个文档识别问题短语和对应的回答短语。将问题短语用作为源语言，并且将对应的回答短语用作为目标语言，可以建立用于统计机器翻译的翻译模型。可以识别第一自然语言形式的第一短语。通过将第一短语翻译成第二自然语言可以生成第二自然语言形式的第二短语。通过将第二短语翻译回第一自然语言可以识别第一短语的释义(paraphrase)。将第一短语用作为源语言，并且将释义用作为对应的目标语言，可以建立用于统计机器翻译的翻译模型。

可以识别搜索结果访问日志。在搜索结果访问日志中的每一个记录可以识别相应的已记录的搜索查询和对应的摘录。相应的已记录的搜索查询的摘录可以是来自用户所访问的文档的内容的部分，其中响应于接收相应的已记录的搜索查询，已将所述文档作为搜索结果呈现给用户。将来自搜索结果访问日志的搜索查询用作为源语言，并且将对应的摘录用作为目标语言，建立用于统计机器翻译的翻译模型。基于与每一个记录相关联的相应的信息可以过滤来自查询日志的记录。相应的信息可以是以下的一个或多个：文档相对于作为搜索结果呈现给用户的其它文档的位置，在已向用户提供搜索结果和用户访问文档之间流逝的时间量，以及在用户访问文档和用户执行随后的操作之间流逝的时间量。来自文档的内容的部分可以是以下的一个或多个：文档的标题、与文档相关联的锚词语、以及文档的摘要，其中所述摘要可以包含来自相应的已记录的搜索查询的词语。

总的来说，在本说明书中所描述的主题的一个方面可以在包括以下的行为的方法中实现：接收对文档的语料库进行搜索的请求，所述请求指定搜索查询；使用统计机器翻译将指定的搜索查询翻译成扩展的搜索查询，所述指定的搜索查询和所述扩展的搜索查询是相同的自然语言形式；以及响应于所述请求，使用所述扩展的搜索查询来搜索文档的集合。本方面的其它实施例包括对应的系统、设备和计算机程序产品。

可以实施特定的实施例来实现以下优势的一个或多个。可以用单词来扩展搜索查询，所述单词是为搜索查询识别的同义词，从而增加响应于搜索查询可能提供相关的结果的可能性。在一些实施方式中，只有在给定的搜索查询的语境的情况下是相关的同义词才在扩展中被使用，从而避免用不恰当的单词扩展查询。可以从文档的语料库中选择用于查询扩展的同义词，所述文档基于其他用户使用相似的搜索查询所选择的搜索结果。这样的扩展生成扩展的查询，所述扩展的查询可被用来识别更相关的(例如，根据一些规则满足查询)、精确的搜索结果。

将在下面的附图和具体实施方式中阐述本说明书中所描述的主题的一个或多个实施例的细节。其它的特征、方面以及主题的优势从具体实施方式、附图和权利要求书中将是显而易见的。

附图说明

图1是示例统计机器翻译系统的图。

图2示出了从文档导出问题-回答对的示例。

图3示出了从查询日志导出查询-摘录对的示例。

图4示出了从短语集合导出短语-释义对的示例。

图5示出了使用统计机器翻译模型导出语境映射的示例。

图6是用于使用统计机器翻译来扩展搜索查询的示例过程。

图7是示例系统的框图。

各个图中相同的附图标记表示相同的元素。

具体实施方式

图1是示例统计机器翻译系统100的图。统计机器翻译系统100被用来将源语言形式的一序列输入单词翻译成目标语言形式的一序列翻译的单词。统计机器翻译取决于统计模型，所述统计模型基于在训练语料库中的单词的出现之间的先验概率和统计相关性。统计机器翻译的常规应用假设源语言和目标语言两者是不同的自然语言(例如，法语、英语、德语或者阿拉伯语)。然而，原则上，作为输入使用的自然语言和作为输出提供的自然语言不必是不同的。

统计机器翻译系统100包括两个不同的模型：语言模型117和翻译模型113。语言模型117在机器翻译中被使用来确定文本段落是否可能是目标语言的形式(例如，使用与目标语言相关联的概率)。在输入文本以源语言形式的情况下，翻译模型113被用来导出目标语言形式的潜在翻译(例如，使用给定的源语言文本对应于目标语言文本的概率)。在接收文本段落时，两个模型都被用来实施段落的统计机器翻译。基于任何潜在翻译将在目标语言中出现的可能性，语言模型117被用来确定由翻译模型建议的潜在翻译中的哪些是最合理的。从而，文本段落的翻译是：由翻译模型113预测和根据语言模型117可能是目标语言的形式两者。可以说两个模型一起组成统计机器翻译模型110。

在统计机器翻译模型110可被用来翻译文本段落之前，从样本数据(例如样本文本)训练语言模型117和翻译模型113两者。样本文本被用作为示例数据，语言模型117和翻译模型113均从该样本文本导出。例如，可以使用目标语言形式的样本文本的语言语料库130来训练语言模型113。类似地，可以使用平行文本的语料库120来训练翻译模型117，所述平行文本的语料库120包括源语言和目标语言两者的样本文本。在平行文本的语料库120中，对于源语言形式的文本的给定段落，提供了目标语言形式的对应的文本段落，其被假定为源语言形式的给定段落的翻译。

在源语言形式的单词和目标语言形式的单词的出现之间的统计相关性被表示为在特定单词或短语之间的对准。在目标语言和源语言是相同的自然语言时，对准对的主要含义是相同的。对准单词或短语对被假定具有类似的含义，即其被假定是同义的。例如，单词“ship”在某些情况下(例如，在特定的语境中)可以与单词“transport(运送)”对准。从而，对于这些情况，“ship”与“transport”是同义的。

统计机器翻译模型110被用来将所接收的搜索查询140翻译成翻译的搜索查询。每一个所接收的搜索查询140包括描述信息搜索者希望从搜索语料库180检索的内容的文本。理想地，所接收的搜索查询140的翻译识别同义词，所述同义词在所接收的搜索查询中未提供但是其改进响应于查询的搜索结果，例如，在所接收的搜索查询140和使用同义词导出的扩展的搜索查询150具有大体上相同的含义时。

在一些实施方式中，翻译的查询被用作为扩展的搜索查询150。在其它的实施方式中，翻译的搜索查询被用来将所接收的搜索查询140扩展成扩展的搜索查询150。扩展所接收的搜索查询140可以包括添加在翻译的搜索查询中出现而在所接收的查询140中未出现的单词。扩展的搜索查询150被用来搜索搜索语料库180。由搜索引擎160帮助搜索搜索语料库180。搜索搜索语料库180产生响应于所接收的搜索查询140可以提供给信息搜索者的搜索结果170。

搜索引擎160可以是作为例如在一个或多个位置通过网络相互连接的一个或多个计算机上运行的计算机程序实现的搜索系统的部分。搜索引擎160通过生成搜索结果对查询作出响应，所述搜索结果例如识别对应于查询的在储存库中的位置的结果。

在搜索引擎160接收查询时，搜索引擎160使用信息检索技术来识别相关的资源(例如，在源集合中的文档)。搜索引擎160通常包括排名引擎(或其它软件)来将与查询有关的资源进行排名。可以使用用于针对给定的查询为索引资源确定信息检索分值的常规技术来执行资源的排名。特定资源关于特定查询词语或关于其它所提供的信息的相关性可以通过任何恰当的技术确定。

为了下面的论述的目的，任何便利的统计机器翻译实施方式可被用来翻译文本。在一些实施方式中，统计机器翻译实施方式的下面的特征的一个或多个可被配置来改进同义词选择的效能。例如，可以预处理训练语料库来移除无关信息，例如标点符号或格式化标志(例如，来自从网页导出的语料库的超文本标记语言(HTML)标志)。在一些实施方式中，根据常规实践配置句子和块对准、单词对准以及短语提取。

在一些实施方式中，导出查询扩展的统计机器翻译模型偏好在同义单词之间的强关联的识别而不是流畅翻译短语的生成。通常，在高度可能的同义词之间的较少对准优于微小可能的同义词之间的许多对准。从而，统计机器翻译实施方式可被配置来只识别在目标短语和源短语之间的高度可能的对准。例如，统计机器翻译实施方式可被配置来只有当对准应用于两方翻译方向才对准短语-这样的对准可能是精确的。从而，如果对准指示第一短语翻译成第二短语，而第二短语翻译成第三短语(而不是翻译回第一短语)，则对准可在翻译模型中被省略。

用于统计机器翻译实施方式的配置的一个参数是空单词概率。对于给定单词对，空单词概率由统计机器翻译模型用来确定允许源文本中多少比例的单词不被映射到目标文本中的单词。对于平行文本的语料库，源语言短语可以比对应的目标语言短语具有显著少的单词。如下所述，这对于问题-回答对尤其正确。在这样的情况下，可将实施方式的空单词概率设置得相对高。例如，当从回答通常比其对应的问题长得多的问题-回答对的平行语料库建立翻译模型时，可将空单词概率设置为值90％。

使用迭代过程直到局部最优值被确定，期望-最大化(“EM”)技术可被用来估计参数值和对准概率。EM技术计算概率模型中的变量的最大似然估计。EM技术是两步骤过程。期望步骤通过将观测到的变量值原样包括进来来计算对可能性的期望。最大化步骤通过将在期望步骤中计算的期望的可能性最大化计算最大似然估计。过程在期望和最大化步骤之间迭代，其中将在最大化步骤中计算的变量的值用于下一期望步骤。术语“EM技术”是指一类有关的技术：期望和最大化步骤提供路标以发展特定的EM技术。在一些实施方式中，其它的技术被用来找寻最大似然估计而不是EM技术，例如梯度下降或者共轭梯度技术。

使用诸如EM技术的技术，翻译模型113被训练来确定最可能的参数值和对准。

下面的论述描述了用于训练统计机器翻译模型的三种不同的方法。在前两种方法中，从文本导出翻译的搜索查询，所述文本代表响应于搜索查询将被提供的结果。换句话说，在包括查询(源语言)和对应的搜索结果(目标语言)的文本的平行语料库上训练翻译模型。理想地，查询样本代表可能由统计机器翻译模型110接收并翻译的搜索查询。类似地，对应的搜索结果代表将对各个样本查询作出响应的结果。

在第一种方法中，以问题-回答对为基础训练翻译模型。对于每一个问题-回答对，问题表示查询并且其对应的回答表示相关的结果。可以例如从常见问题(FAQ)文档的内容识别问题-回答对。这样的文档典型地包括一系列问题，并且对于每一个问题有各自的回答。总的来说，可以分析任何文档来确定文档的内容是否包括可被并入问题-回答平行语料库的问题和回答。关于如何从文档识别问题和回答的进一步详情将在下面参考图2进行描述。

在第二种方法中，可以以查询-摘录对为基础训练翻译模型。每一个查询-回答对表示搜索查询和响应于搜索查询的对应的搜索结果的内容。例如，从例如搜索引擎的信息检索系统的用户接收的搜索查询可以被记录并被存储。对于这些已存储的搜索查询中的每一个，响应于接收搜索查询而向用户呈现的搜索结果也可以被存储。在一些实施方式中，系统可以进一步识别用户访问了哪些呈现的搜索结果(例如，用户检索了哪个文档)。用户访问过的这些搜索结果是可能与对应的搜索查询尤其相关的搜索结果。可以将来自由每一个搜索结果识别的文档(例如摘录)的内容的部分与搜索查询配成对以形成添加到查询-摘录平行语料库中的查询-摘录对。关于如何从搜索查询的记录导出平行语料库的进一步详情将在下面参考图3进行描述。

在第三种方法中，可以以同义短语-释义对为基础训练翻译模型。每一个短语-释义对包括短语和对应的释义，所述释义具有与其对应的短语大致相同的含义。在一些实施方式中，可以人工地指定短语-释义对(例如通过语言专家)。在其它的实施方式中，最初从文本的语料库自动识别短语。来自语料库的为第一自然语言的短语被选择并且被翻译成第二不同自然语言形式的另一个短语。使用任何便利的全自动或半自动机器翻译技术可以实现该翻译。第二自然语言形式的短语然后被翻译回第一自然语言。假定该过程生成的每一个双重翻译的短语是原始输入短语的同义释义。关于如何从这样的翻译导出平行语料库的进一步详情将在下面参考图4进行描述。

用来训练语言模型117的目标语言语料库130可以改变。在一些实施方式中，该语料库仅是来自搜索语料库180的内容的样本。例如，对于因特网搜索引擎，可以使用由搜索引擎检索并编目的网页的语料库中的内容来训练语言模型。替选地，在一些其它的实施方式中，使用已记录的搜索查询来训练语言模型。

图2示出了从文档210导出问题-回答对235的示例。可能包括问题和回答的文档可以基于可能在这样的文档中出现的词语识别。例如，在因特网上找到的文档中，关键词“FAQ”或者“Frequently AskedQuestions(常见问题)”经常在以一系列问题和对应的回答为特征的网页上出现。这样的关键词可首先被用来识别潜在地包含问题和回答的文档的集合。在一些实施方式中，分类器被训练来识别文档的语料库中的页面。这样的分类器可以由例如指定对问题-回答文档来说是共同的特征(例如在文档内包括五“wh-单词”(who、what、why、when以及where)的关键词或者问号和其它标点符号的出现)的专家用户训练。分类器可以在文档的语料库上使用来识别哪些可能包含问题和回答。

在识别了潜在的问题-回答文档的集合后，从文档提取单独的问题-回答对。可以基于标点符号(例如界定问题的结束的问号)、格式化标识符(例如在问题和回答之间的段落分隔符)、列表标记(例如诸如“Q：”或者“1：”的问题顺序标识符)以及词汇线索(例如用于界定问题的开始的开头大写的wh-单词)提取问题和其对应的回答。

对于在文档210的内容中指定的每一个问题，从文档提取问题文本230和问题的对应的回答文本220。问题文本230和回答文本220表示添加到平行语料库的问题-回答对235。可以类似地处理集合中的所有文档以导出平行语料库240中的问题-回答对。

图3示出了从查询日志310导出查询-摘录对的示例。查询日志310包括已记录的搜索查询350。对于每一个已记录的搜索查询350，对应的搜索结果353也在查询日志310中被识别。搜索结果353的每一个搜索结果识别包含文本的文档。每一个文档可以与数据库或者一些其它内容容器中的记录、文件、网页相对应。在日志310中记录的搜索结果353是与搜索查询350最可能相关的那些结果。

在一些实施方式中，使用额外的信息来确定响应于搜索查询而呈现的搜索结果中的哪些是最相关的。例如，由用户检查(例如基于点击或文档访问记录)的搜索结果可被认为是被确定为与搜索查询350相关的搜索结果。

每一个搜索结果353与来自由搜索结果353识别的文档的内容357相关联。在一些实施方式中，内容357是由搜索结果353识别的文档的文本。在一些实施方式中，内容357包括位置标识符(例如从其可以找到内容357的统一资源定位器(URL)或文件/路径名)。在其它的实施方式中，内容357包括由其它文档使用来指向文档的文本(例如在网页中使用来指向搜索结果353识别的文档的锚文本)。

在一些实施方式中，每一个搜索结果353与在响应于对应的搜索查询350而呈现每一个搜索结果时描述搜索结果353的特征的属性355相关联。例如，次序属性描述特定搜索结果相对于其它搜索结果所呈现的位置。例如，搜索结果的次序可以是五，其指示搜索结果在响应于搜索查询350而呈现的搜索结果中排第五。在一些实施方式中，访问长度属性描述用户访问由特定搜索结果识别的给定文档的时间长度。属性也可以包括关于与何时向用户提供搜索结果相比较(或者替选地，与何时接收搜索查询相比较)用户何时访问搜索结果的信息。例如，属性可以指定在用户提交搜索查询350或者响应于搜索查询350而呈现搜索结果25秒钟后用户访问给定的搜索结果。

搜索结果的属性355可被用来从日志310过滤查询350和对应的搜索结果353。过滤可被用来移除相关性未超过指定的阈值的任何搜索结果。通过为任何给定的属性指定条件可以测量搜索结果的相关性。可以指定条件使满足条件的搜索结果被省略。

在一些实施方式中，条件是指定的阈值。例如，只有低于第五搜索结果出现的搜索结果才被使用。在一些实施方式中，在最上面的(例如前五个)结果可能被用户访问时该规则是有效的。替选地，用户访问结果不到十秒钟的所有搜索结果可被省略。可以基于可用的属性指定用于选择或者省略搜索结果的其它条件。

对于已记录的搜索查询350和对应的搜索结果353中的每一对，导出查询-摘录对320。查询-摘录对320包括已记录的搜索查询350和对应的摘录340。摘录340从搜索结果353导出，尤其从搜索结果识别的内容357导出。在一些实施方式中，摘录340是从内容357提取的文本串。

文本串可以包括与给定的搜索查询350相关的单词。例如，文本串可以包括在内容357中出现并且包括在搜索查询350中出现的任何单词的句子或者句子的部分。摘录340也可以包括其它内容，例如与内容相关联的标题、内容的位置标识符或者用来指向其它文档中的内容的锚文本。从而，对于任何给定的搜索查询，可以从日志310中记录的搜索结果的每一个导出多个查询-摘录对320。将从日志310导出的每一个查询-摘录对320添加到查询-摘录对的平行语料库380中用于在训练翻译模型(例如图1的翻译模型113)时使用。

图4示出了从短语集合410导出短语-释义对455的示例。短语集合410是第一自然语言形式的单个短语的集合，其与搜索语料库的自然语言相同。在一些实施方式中，从文档的语料库的内容自动识别这些短语。在其它的实施方式中，可以由语言专家指定短语或者甚至短语-释义对。

将集合410中的输入短语415翻译成第二不同的自然语言。可以由将第一自然语言的文本翻译成第二自然语言的文本(例如用于将英语翻译成中文)的第一翻译组件420执行翻译。第一翻译组件420可以是包括通过语言期望或者使用机器翻译的翻译的任何便利的翻译装置。翻译的结果是第二自然语言形式的经翻译的短语430。假定为输入短语415的翻译的经翻译的短语430具有与输入短语415类似的含义。

第二翻译组件440再次翻译经翻译的短语用于将第二自然语言的文本翻译成第一自然语言的文本(例如，用于将中文翻译回英语)。因此产生的双重翻译的短语是与输入短语415有相同自然语言的短语，并且被假定具有与经翻译的短语430类似的含义。通过关联，双重翻译的短语被假定为输入短语415的同义释义450。

在通过以给定的外语来翻译而将一种语言形式的短语从相同语言的另一个字符串导出的情况下，所导出的字符串可被认为是在该外语上回转(pivot)而获取的。导出的释义450和输入短语415被用作为短语-释义对455并且被添加到平行语料库480中。

假设诸如短语-释义对455的特定短语-释义对，输入短语415翻译成释义450的可能性被定义为输入短语415翻译成经翻译的短语430和经翻译的短语430翻译成释义450的联合可能性。在一些实施方式中，两个事件被假定为独立可能的，并且从而可被表示为：

p (para | in) = \max_{trans} p (trans | in) p (para | trans)

p (in | para) = \max_{trans} p (trans | para) p (in | trans) .

在此，将输入短语表示为in，释义表示为para以及翻译的短语表示为trans。总的来说，给定的短语-释义对可以通过在多个外语上回转来获取。对的翻译可能性可以从每一个回转语言形式的对的翻译获取。在一些实施方式中，短语-释义对的翻译可能性可被赋值为所有外语形式的该对的所有翻译可能性的总和。然而，这样可能将过高的概率赋值给以许多语言形式出现的短语-释义对。在其它的实施方式中，对的翻译可能性是任何外语的最大翻译可能性。

图5示出了使用统计机器翻译模型520导出语境映射580的示例。在一些实施方式中，在接收到搜索查询时，使用统计机器翻译模型520来将搜索查询翻译成扩展的搜索查询。这样的实施方式可被描述为同步在线翻译，因为模型520被用来在每一个搜索查询被接收时对该搜索查询进行翻译。

在其它的实施方式中，使用统计机器翻译模型520将预先存在的搜索查询翻译成对应的预先存在的翻译。可将这些预先存在的翻译记录在语境映射580中。之后，可以基于语境映射580中的预先存在的翻译来对新的搜索查询进行扩展。这样的实施方式可被描述为异步离线翻译，因为首先翻译预先存在的搜索查询，并且仅在之后使用翻译过程的结果来扩展搜索查询。在统计机器翻译需要相对更多的资源时，该离线方法可以比在线方法更有效。因为扩展基于统计机器翻译模型520确定的预先存在的翻译，所以查询的扩展最终仍然基于统计机器翻译模型520识别的同义词。

识别包括搜索查询515的查询日志510。搜索查询515代表可能在之后被接收并被扩展的搜索查询。在一些实施方式中，查询日志310是从搜索引擎(例如图1中示出的搜索引擎160)接收的搜索查询的记录。来自查询日志510的搜索查询515被用作为可从上述训练方法导出的统计机器学习模型520上的输入。

由统计翻译模型520翻译的每一个输入搜索查询产生该输入搜索查询的对应的翻译。每一个翻译的搜索查询已经通过由统计机器翻译模型520所执行的翻译潜在地扩展。例如，搜索查询“how to become amason(如何成为石匠)”的翻译可以产生经翻译的搜索查询“how to bea bricklayer(如何是砖匠)”。

比较模块540将输入搜索查询与翻译的搜索查询相比较以确定哪些同义词在翻译中被使用，如果同义词存在的话。在一些实施方式中，比较模块540将输入查询与翻译的查询逐个单词地进行比较以确定哪些单词在翻译中被替换。在翻译的搜索查询中不同的任何单词被识别为输入搜索查询中的对应的单词的同义词560。

同义词(单个单词或者同义词短语)可以替换原始词句中的任何单个单词。例如，从对上述示例搜索查询所进行的比较可以确定单词“mason(石匠)”在翻译中由单词“bricklayer(砖匠)”替换，以及单词“become(成为)”由短语“be(是)”替换。

任何数量的单词可以在原始查询中的被替换的单词的左边或者右边出现。这些单词被认为是同义词替换的语境550。从而，被替换的单词用特定的同义词替取，被给予输入搜索查询中的被替换的单词的语境。这些左边和右边的单词作为左边和右边的语境与同义词一起被存储在语境映射580中。例如，从上述示例比较，单词“mason”、其同义词“bricklayer”以及左边的语境“how to become a”被添加到语境映射中。单词“become”、其同义词“be”、左边的语境“how to”以及右边的语境“a mason”也被添加到语境映射中。

在处理查询日志510中的搜索查询后，语境映射包含多个目标单词。目标单词中的每一个是对于记录的搜索查询中的至少一个由机器翻译模型用同义词替换的单词。每一个目标单词与至少一个同义词相关联并且每一个同义词与相应的左边和右边的语境相关联。在一些实施方式中，任何一个同义词可以与多个左边和右边的语境相关联，所述左边和右边的语境对相同目标单词的其它同义词的左边和右边的语境来说均为唯一的。

在一些实施方式中，对于语境映射580中的任何给定单词，具有相关联的语境的每一个潜在同义词与分值相关联。潜在同义词的分值表示给定的同义词是给定语境中的单词的恰当扩展的可能性。该分值从在记录的搜索查询被翻译时由机器翻译模型给出的翻译可能性导出。翻译可能性是输出文本多大可能是输入文本的翻译的测量。通常，翻译可能性包括与翻译概率相结合的语言概率，正如统计机器翻译模型所预测。

在选择将多个同义词中的哪个用于扩展查询时可以使用同义词的分值。例如，特定的语境映射可以包括与同义词“knot”和“windsor”相关联的单词“tie”，其中两个同义词的语境是相同的(例如“how totie a”)。在使用语境映射来扩展字符串“how to tie a tie”时，同义词“knot”被使用而不是同义词“windsor”，因为“knot”与比同义词“windsor”的分值高的分值相关联。

图6是用于使用统计机器翻译来扩展搜索查询的示例过程600。为了便利，将参照执行过程600的系统来描述过程600。系统接收搜索查询(步骤610)。搜索查询可由寻找信息的用户从搜索引擎(例如图1中的搜索引擎160)提供。在其它的实施方式中，从在其中搜索查询被程序性地导出的另一个过程或者应用接收搜索查询。

系统600对所接收的搜索查询进行扩展(步骤620)。特别地，系统可以使用语境映射(例如图5的语境映射580)，根据所识别的用于在搜索查询中出现的单词的同义词来扩展搜索查询。

在一些实施方式中，系统对在所接收的搜索查询中出现的单词进行选择(步骤630)。基于所选择的单词，系统从语境映射识别潜在的同义词(步骤640)。在语境映射中，所选择的单词与数个同义词相关联，所述同义词每一个具有各自的语境。语境映射的每一个同义词例如使用统计机器翻译导出。系统基于与同义词相关联的语境和所接收的搜索查询中的所选择的单词的语境来选择数个同义词中的一个(步骤650)。具有与所选择的单词的语境相匹配的语境的同义词被用来扩展搜索查询。

特别地，系统基于同义词的左边或右边的语境是否与所选择的单词的左边或右边的语境相匹配来识别特定的同义词。例如，对于查询“how to tie a bow”，在该查询中的单词“tie”的左边和右边的语境分别是“how to”和“a bow”。在语境映射中，单词tie可能与两个同义词“equal”和“knot”相关联。如果“how to”或者“a bow”是与“knot”相关联的左边或右边的语境，则“knot”被选择为“tie”的同义词。在一些实施方式中，如果两个语境中的单词的某些部分是相同的，则该两个语境被认为是相匹配的。例如，如果两个左边的语境的最后两个单词是相同的，则一个左边的语境与另一个左边的语境相匹配。类似地，如果两个右边的语境的前两个单词是相同的，则一个右边的语境与另一个右边的语境相匹配。在一些实施方式中，当多个同义词的语境与查询中被扩展的单词的语境相匹配或者部分匹配时，具有最长语境的同义词被选择。

系统通过将识别的同义词添加到查询中来使用该识别的同义词来扩展搜索查询(步骤660)。通过用同义词扩增所接收的搜索查询来扩展搜索查询。在一些实施方式中，仅将同义词附加到查询。在其它的实施方式中，搜索查询被重新表述以使被扩展的单词和同义词以逻辑析取(例如“或”)的方式结合。例如，查询“how to be a mason”被扩展成“how to(be or become)a(mason or bricklayer)”。使用扩展的搜索查询来搜索搜索语料库(步骤670)。对扩展的搜索查询作出响应的识别特定资源(例如网页、图像、文本文档、过程、多媒体内容)的搜索结果随后可以被(例如向用户)返回。

替选地，如上所述，使用在线方法的统计机器翻译可以被使用(例如在步骤620)。在该方法中，将搜索查询直接翻译成对应的翻译的搜索查询。可以将翻译的搜索查询和搜索查询进行比较以识别在翻译中所使用的同义词。系统使用这些同义词来扩展搜索查询。使用扩展的搜索查询来搜索搜索语料库(步骤670)。

图7示出了适于实现设备或者执行在本说明书中描述的主题的各个方面的方法的示例系统700的框图。系统700可以包括处理器710、存储器720、存储装置730以及输入/输出装置740。组件710、720、730和740中的每一个使用系统总线750相互连接。处理器710能够处理用于在系统700内执行的指令。在一个实施方式中，处理器710是单线程处理器。在另一个实施方式中，处理器710是多线程处理器。处理器710能够处理存储在存储器720中或者在存储装置730上的指令来为输入/输出装置740上的用户界面显示图形信息。

存储器720是存储系统700内的信息的计算机可读介质，诸如易失性或者非易失性的。存储装置730能够为系统700提供持久存储。存储装置730可以是软盘装置、硬盘装置、光盘装置或者带装置，或者其它合适的持久存储装置。输入/输出装置740为系统700提供输入/输出操作。在一个实施方式中，输入/输出装置740包括键盘和/或指示装置。在另一个实施方式中，输入/输出装置740包括用于显示图形用户界面的显示单元。

在本说明书中描述的主题和功能操作的实施例可以在包括本说明书中公开的结构和其结构等效物的数字电子电路中或者计算机软件、固件或硬件中或者在上述的一个或多个的组合中实现。在本说明书中描述的主题的实施例可以作为一个或多个计算机程序产品来实现，即用于通过数据处理设备来执行或者控制数据处理设备的操作的编码在有形的程序载体上的计算机程序指令的一个或多个模块。有形的程序载体可以是传播信号或者计算机可读介质。传播信号是例如机器生成的电的、光的或者电磁的信号的人工生成的信号，所述信号被生成来对信息进行编码以传输到合适的接收器设备以通过计算机来执行。计算机可读介质可以是机器可读存储装置、机器可读存储衬底、存储器装置、实现机器可读传播信号的物质的组成物或者上述的一个或多个的组合。

术语“数据处理设备”包含用于处理数据的所有设备、装置和机器，作为示例包括可编程的处理器、计算机或者多个处理器或计算机。除硬件外，设备可以包括创建用于正讨论的计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者上述中的一个或多个的组合的代码。

计算机程序(也被称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言来编写，所述编程语言包括编译或解释语言、或者声明或过程语言，并且所述计算机程序可以以任何形式部署，所述形式包括作为独立程序或者作为模块、组件、子程序或适合于在计算环境中使用的其它单元。计算机程序不需要与文件系统中的文件相对应。程序可被存储在保持其它程序或数据(例如存储在标记语言文档中的一个或多个脚本)的文件的部分中、在专用于正讨论的程序的单个文件中、或者在多个协调文件(例如存储一个或多个模块、子程序或者代码的部分的文件)中。计算机程序可被部署为在一个计算机上或者在位于一个场所或跨多个场所分布并通过通信网络相互连接的多个计算机上执行。

在本说明书中描述的过程和逻辑流程可以由一个或多个可编程的处理器来执行，所述可编程的处理器执行一个或多个计算机程序来通过对输入数据进行操作并且生成输出来执行功能。所述过程和逻辑流程也可以由专用逻辑电路来执行，以及设备也可以作为专用逻辑电路来实现，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的处理器包括通用和专用微处理器两者、以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元素是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器装置。通常，计算机也将包括或者被操作地连接来从用于存储数据的一个或多个大容量存储装置接收数据或者将数据传送到所述大容量存储装置或者两者均可，所述大容量存储装置例如磁、磁光盘或光盘。然而，计算机不必具有这样的装置。此外，计算机可被嵌入另一个装置中，所述另一个装置例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器，仅列举了一些。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，作为示例包括例如EPROM、EEPROM和闪存装置的半导体存储装置；例如内部硬盘或可移动盘的磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路增补或者并入专用逻辑电路。

为了提供与用户的交互，在本说明书中描述的主题的实施例可以在具有以下装置的计算机上实现：用于向用户显示信息的显示装置，例如CRT(阴极射线管)或LCD(液晶显示)监视器；以及键盘和例如鼠标或跟踪球的指示装置，通过所述键盘和指示装置用户可以向计算机提供输入。也可以使用其它类型的装置来提供与用户的交互；例如向用户提供的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，所述形式包括声音、言语或触觉输入。

虽然本说明书包含许多具体的实施方式细节，但是这些不应当被解释为对任何发明的范围或者可能主张的专利权项的范围的限制，相反地作为可以具体到特定发明的特定实施例的特征的描述。在本说明书中，在单独实施例的背景中描述的某些特征也可在单个实施例中以组合的方式实现。相反地，在单个实施例的背景中描述的各个特征也可单独地在多个实施例中或以任何合适的子组合实现。此外，虽然特征可能在上面被描述为在某些组合中起作用，并且甚至最初被主张为如此，但是来自所主张的组合中的一个或多个特征在一些情况下可从组合删去，以及所主张的组合可被用于子组合或子组合的变体。

类似地，虽然操作在附图中以特定的次序描述，但是这不应当被理解为要求以示出的特定次序或以相继次序来执行这样的操作，或者所有图示的操作被执行来获得期望的结果。在某些情况中，多任务和并行处理可能是有益的。此外，在上面描述的实施例中的各个系统组件的分离不应当被理解为在所有的实施例中要求这样的分离，并且应当理解所描述的程序组件和系统通常可以被一起集成在单个软件产品中或包装入多个软件产品中。

已描述了在本说明书中描述的主题的特定实施例。其它实施例在权利要求书的范围内。例如，在权利要求书中叙述的行为可以以不同的次序执行并且仍然获得期望的结果。作为一个示例，在附图中描述的过程不必要求示出的特定次序或者相继次序来获得期望的结果。在某些实施方式中，多任务和并行处理可能是有益的。

Claims

1.一种用于扩展搜索查询的计算机实现的方法，包括：

接收包括词语的搜索查询；

识别多个已记录的搜索查询，其中所述词语在所述已记录的搜索查询的每一个中出现；

使用统计机器翻译来将所述多个已记录的搜索查询翻译成相应的翻译的搜索查询；

从所述翻译的搜索查询识别多个潜在的同义词，潜在的同义词是在所述翻译的搜索查询中的所述词语的一个或多个特有的翻译，每一个潜在的同义词具有相关联的出现语境；

通过将在所接收的搜索查询中的所述词语的出现语境与在翻译的搜索查询中的所述同义词的出现语境进行匹配，从所述多个潜在的同义词中选择所述搜索查询中的所述词语的同义词；

用所选择的同义词来扩展所接收的搜索查询；以及

使用所扩展的搜索查询来搜索文档的集合。

2.如权利要求1所述的方法，其中所述统计机器翻译使用双向短语对准。

3.如权利要求1所述的方法，进一步包括：

从多个文档识别问题短语和对应的回答短语；以及

将所述问题短语用作为源语言，并且将所述对应的回答短语用作为目标语言，建立用于所述统计机器翻译的翻译模型。

4.如权利要求1所述的方法，进一步包括：

识别第一自然语言形式的第一短语；

通过将所述第一短语翻译成第二自然语言来生成所述第二自然语言形式的第二短语；

通过将所述第二短语翻译回所述第一自然语言来识别所述第一短语的释义；以及

将所述第一短语用作为源语言，并且将所述释义用作为对应的目标语言，建立用于所述统计机器翻译的翻译模型。

5.如权利要求1所述的方法，进一步包括：

识别搜索结果访问日志，在所述搜索结果访问日志中的每一个记录识别相应的已记录的搜索查询和对应的摘录，相应的已记录的搜索查询的所述摘录是来自用户所访问的文档的内容的部分，所述用户所访问的所述文档已经响应于接收所述相应的已记录的搜索查询而作为搜索结果被呈现给所述用户；以及

将来自所述搜索结果访问日志的所述搜索查询用作为源语言，并且将所述对应的摘录用作为目标语言，建立用于所述统计机器翻译的翻译模型。

6.如权利要求5所述的方法，进一步包括：

基于与每一个记录相关联的相应的信息来过滤来自查询日志的记录，所述相应的信息是以下的一个或多个：

所述用户所访问的所述文档相对于作为搜索结果呈现给所述用户的其它文档的位置；

在已向所述用户提供所述搜索结果和所述用户访问所述文档之间流逝的时间量；以及

在所述用户访问所述文档和所述用户执行随后的操作之间流逝的时间量。

7.如权利要求5所述的方法，其中所述来自用户所访问的文档的内容的部分是以下的一个或多个：

所述用户所访问的所述文档的标题；

与所述用户所访问的所述文档相关联的锚词语；以及

所述用户所访问的所述文档的摘要，所述摘要包含来自所述相应的已记录的搜索查询的词语。

8.一种用于扩展搜索查询的计算机实现的方法，包括：

接收对文档的语料库进行搜索的请求，所述请求指定搜索查询；

使用统计机器翻译将所指定的搜索查询翻译成翻译的搜索查询，所指定的搜索查询和所述翻译的搜索查询是相同的自然语言形式；

从所述翻译的搜索查询识别潜在的同义词，所述潜在的同义词是所述词语的一个或多个特有的翻译，每一个潜在的同义词具有相关联的出现语境；

通过将在所接收的搜索查询中的所述词语的出现语境与在翻译的搜索查询中的所述潜在的同义词的出现语境进行匹配，从所述潜在的同义词中选择同义词；

用所选择的同义词来扩展所接收的搜索查询；以及

响应于所述请求，使用所扩展的搜索查询来搜索文档的集合。

9.一种用于扩展搜索查询的系统，包括：

用于接收包括词语的搜索查询的装置；

用于识别多个已记录的搜索查询的装置，其中所述词语在所述已记录的搜索查询的每一个中出现；

用于使用统计机器翻译来将所述多个已记录的搜索查询翻译成相应的翻译的搜索查询的装置；

用于从所述翻译的搜索查询识别多个潜在的同义词的装置，潜在的同义词是在所述翻译的搜索查询中的所述词语的一个或多个特有的翻译，每一个潜在的同义词具有相关联的出现语境；

用于通过将在所接收的搜索查询中的所述词语的出现语境与在翻译的搜索查询中的所述同义词的出现语境进行匹配，从所述多个潜在的同义词中选择所述搜索查询中的所述词语的同义词的装置；

用于用所选择的同义词来扩展所接收的搜索查询的装置；以及

用于使用所扩展的搜索查询来搜索文档的集合的装置。

10.如权利要求9所述的系统，其中所述统计机器翻译使用双向短语对准。

11.如权利要求9所述的系统，进一步包括：

用于从多个文档识别问题短语和对应的回答短语的装置；以及

用于将所述问题短语用作为源语言并且将所述对应的回答短语用作为目标语言以建立用于所述统计机器翻译的翻译模型的装置。

12.如权利要求9所述的系统，进一步包括：

用于识别第一自然语言形式的第一短语的装置；

用于通过将所述第一短语翻译成第二自然语言来生成所述第二自然语言形式的第二短语的装置；

用于通过将所述第二短语翻译回所述第一自然语言来识别所述第一短语的释义的装置；以及

用于将所述第一短语用作为源语言并且将所述释义用作为对应的目标语言以建立用于所述统计机器翻译的翻译模型的装置。

13.如权利要求9所述的系统，进一步包括：

用于识别搜索结果访问日志的装置，在所述搜索结果访问日志中的每一个记录识别相应的已记录的搜索查询和对应的摘录，相应的已记录的搜索查询的所述摘录是来自用户所访问的文档的内容的部分，所述用户所访问的所述文档已经响应于接收所述相应的已记录的搜索查询而作为搜索结果被呈现给所述用户；以及

用于将来自所述搜索结果访问日志的所述搜索查询用作为源语言并且将所述对应的摘录用作为目标语言以建立用于所述统计机器翻译的翻译模型的装置。

14.如权利要求13所述的系统，进一步包括：

用于基于与每一个记录相关联的相应的信息来过滤来自查询日志的记录的装置，所述相应的信息是以下的一个或多个：

15.如权利要求13所述的系统，其中所述来自文档的内容的部分是以下的一个或多个：

所述用户所访问的所述文档的标题；

与所述用户所访问的所述文档相关联的锚词语；以及

16.一种用于扩展搜索查询的系统，包括：

用于接收对文档的语料库进行搜索的请求的装置，所述请求指定搜索查询；

用于使用统计机器翻译将所指定的搜索查询翻译成扩展的搜索查询的装置，所指定的搜索查询和所扩展的搜索查询是相同的自然语言形式；

用于从所述翻译的搜索查询识别潜在的同义词的装置，所述潜在的同义词是所述词语的一个或多个特有的翻译，每一个潜在的同义词具有相关联的出现语境；

用于通过将在所接收的搜索查询中的所述词语的出现语境与在翻译的搜索查询中的所述潜在的同义词的出现语境进行匹配，从所述潜在的同义词中选择同义词的装置；

用于响应于所述请求，使用所扩展的搜索查询来搜索文档的集合的装置。