CN100543730C

CN100543730C - 用于提供搜索结果的偏好语言排序的系统和方法

Info

Publication number: CN100543730C
Application number: CNB2004800090977A
Authority: CN
Inventors: 约翰·兰平; 本·戈梅斯; 瑞树·麦格拉斯; 阿米特·辛哈厄
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2003-03-31
Filing date: 2004-03-31
Publication date: 2009-09-23
Anticipated expiration: 2024-03-31
Also published as: CN1768340A

Abstract

本发明描述一种用于提供搜索结果(38)的偏好语言(39)排序(85)的系统和方法。接收一描述以复数种搜索结果语言(37)提供的潜在地可检索的信息(22)的搜索查询(36)。通过根据保留于一可搜索数据存储库中的信息特征评估所述搜索查询(36)来执行一搜索(36)。动态地判定可应用于响应于所述执行的搜索(36)而产生的搜索结果(38)的至少一种偏好语言(39)。考虑所述至少一种偏好语言(39)来排序所述搜索结果(38)中的至少一些搜索结果。

Description

用于提供搜索结果的偏好语言排序的系统和方法

对相关申请案的交叉参考

本专利申请案主张在35 USC § 119(e)下的2003年3月31日申请的题为“System And Method For Providing Preferred Language Ordering OfSearch Results”的美国临时专利申请案第60/459,339号的优先权，并主张在35 USC § 120下的2003年4月3日提交的第10/407,476号美国非临时专利申请案的优先权，这些专利申请案的揭示内容以引用的方式并入本文。

技术领域

本发明大体涉及信息定位，且具体来说本发明涉及一种提供搜索结果的偏好语言排序的系统和方法。

背景技术

虽然互联网可追溯到二十世纪六十年代末，但个人计算和互联网络的普遍可用性和接受度已经导致在信息共享技术方面的爆炸式增长和无法预料的进步。具体来说，万维网(“环球网”)革命性地让全世界范围内的受众可访问到无法计算的以存储电子形式的信息量，包括以档案形式和以实时形式的声音(音频)和视觉(图像和视频)信息。简而言之，环球网向每个联网的用户提供了对实际上无限量的全世界范围内几乎所有语言的信息库的桌面访问。

在环球网上的信息交换以客户机-服务器模式运行。独立的客户机通常以环球网浏览器的形式执行环球网内容检索和表示层应用。所述环球网浏览器发送环球网内容的请求消息给中央环球网服务器，所述中央环球网服务器用作数据存储器和检索存储库。所述环球网服务器分析请求消息且在响应消息中返回所请求的环球网内容。

搜索引擎已经随着增加的环球网使用率而进化，以使用户可以有效而省时地查找和检索相关的环球网内容。随着环球网内容的数量和类型的增加，搜索引擎的完善度和精确度也同样需要改进。一般来说，搜索引擎为响应一搜索查询而努力提供最高质量的结果。然而，判定质量是困难的，因为所检索的环球网内容的相关性本质上是主观的且取决于使用者的兴趣、知识和态度。

搜索引擎使用的现有方法是基于将搜索查询词语与从环球网页面中索引出的词语相匹配。更高级的方法使用诸如在S.Brin和L.Page的“TheAnatomy of a Large-Scale Hypertextual Search Engine”(1998)中描述的和在2001年9月4日颁发给Page的第6,285,999号美国专利中所描述的基于超级链接结构分析来判定所检索的环球网内容的重要性，该等文献的揭示内容以引用的形式并入本文。

一个典型的搜索查询情景开始于向搜索引擎提交一个自然语言问题或者单独关键字。搜索引擎对描述具有潜在可检索环球网内容的信息特征的数据存储库执行搜索并识别候选的搜索结果。搜索经常可返回成千或甚至上百万的结果，所以多数搜索引擎通常仅排名或计分最有希望的结果的一个子集。也可引入目标搜索结果，例如广告或专题信息内容。然后，靠前的搜索结果呈献给用户，通常为环球网内容标题、超级链接和其它描述性信息(诸如从搜索结果中提取的文本摘录)的形式。

搜索引擎通常可为世界各处的用户所用。因此，提供高质量搜索结果的部分能够以请求用户可接受的语言提供那些搜索结果。可接受的语言包括用户指定的语言以及其它可接受的语言。例如，一个法语偏好的用户也可接收英语的搜索结果。可接受的语言也可包括相关语言和方言。例如，葡萄牙语的搜索结果对于通常偏好西班牙语的用户是可接受的。最后，可接受的语言可包括死语言，如古希腊语或者古英语；或伪语言，如克林贡语(Klingon)。死语言和伪语言通常不被搜索引擎所支持，但是可反映请求用户的学术、历史或个人兴趣。

现在，多数环球网浏览器、环球网服务器和相关的环球网应用使用超文本传输协议(HTTP)来处理环球网信息交换。HTTP是一种无会话协议且通常不保留任何识别用户偏好的状态，包括语言。唯一可用于表示用户可接受的语言的信息为独立于每一HTTP事务而保留的偏好或在搜索查询本身中的偏好。首先，用户提供的偏好或者在环球网客户机或者环球网服务器上指定。客户端偏好，如被环球网浏览器接受的语言，是通过请求消息头进行通信。服务器端偏好通过搜索引擎选项指定且独立于使用cookie(其必须在执行搜索之前从环球网客户机被检索)或通过登录程序的每个HTTP事务而保留。

虽然在指定可被接受的语言方面有效，但是用户在实践中很少明确地设置语言偏好。另外，语言偏好通常太具限制性，呈现＂全部或没有"(all-or-nothing)范式。语言偏好功能充当搜索结果过滤器，仅提供那些在偏好语言下的搜索结果，并过滤掉那些在相关或者替代语言下的搜索结果。

类似地，指定可被接受的语言的默认设置，不论在客户机端或者在服务器端都可使提供合适的搜索结果进一步复杂化。通常，默认设置可为错误的。例如，可根据环球网浏览器选项而指定英语为默认语言偏好，但是对于不精通英语的用户来说这可能不适合于呈现搜索结果。

其次，基于查询的偏好派生于在一给定搜索查询中的词语。然而，搜索查询词语因若干原因并不能可靠地用于判定语言偏好。第一，诸如人名、地名或物名的专有名词经常与语言无关且不能很好地指示呈现搜索结果所需的理想语言。例如，一搜索引擎将不能判定由专有名字“Elvis”组成的搜索查询可接受的语言。第二，搜索查询经常仅由几个单独字组成，尤其是当指定关键字时，这通常不能提供可用于判定语言偏好的足够上下文。类似于专有名字，个别字可与语言无关或者引起语言误解。例如，由字“WaldorfAstoria”组成的搜索查询可误导搜索引擎。

因此，需要提供一种动态判定用于向用户呈现搜索结果的语言偏好的方法。优选是，这一方法将容纳使用者可接受的偏好和不太偏好的语言，且包括在所述语言偏好内的相关和替代语言。

还需要一种根据用户偏好语言以有序方式呈现搜索结果的方法。优选是，这一方法可排序或计分搜索结果以偏好那些偏好语言的搜索结果，同时也容纳那些其它语言的搜索结果。

发明内容

本发明提供一种响应于一搜索查询而动态地判定偏好语言和对搜索结果排序的系统和方法。基于搜索查询、用户接口和搜索结果特征的评估来判定用户偏好和不太偏好的语言。从描述所述搜索查询的元数据来判定搜索查询特征。也使用搜索查询元数据、以及客户机端与服务器端偏好和客户机的互联网协议(IP)地址来判定用户接口特征。基于每一搜索结果的评估来判定搜索结果特征。基于该搜索引擎利用来考虑偏好语言和(如果选择)不太偏好的语言而组织搜索结果的方法，对响应于搜索查询而检索到的搜索结果进行排序。所述搜索结果的排序是利用一预定的移位因数(shiftingfactor)实现或通过调整一由一加权因数指派给每一搜索结果的数值分数并重新分类这些搜索结果而实现的。

一实施例提供一种用于对搜索结果排序的系统和方法。动态地判定可应用于响应于对潜在地可检索信息执行的搜索而产生且提供于以复数种搜索结果语言提供的搜索结果的至少一偏好语言。考虑所述至少一偏好语言来排序这些搜索结果的至少一些搜索结果。

另一实施例提供一种用于提供搜索结果的偏好语言排序的系统和方法。接收以复数种搜索结果语言提供的用于描述潜在可检索信息的搜索查询。搜索通过对保留在一可搜索数据存储库中的信息特征的评估来执行。动态地判定可应用于响应于所执行的搜索而产生的搜索结果的至少一偏好语言。考虑所述至少一偏好语言来排序所述搜索结果的至少一些搜索结果。

另一实施例提供一种用于动态判定语言偏好及搜索结果的排序的系统和方法。接收一搜索查询请求消息，并从所述搜索查询请求消息中分析词语和属性中的至少一，以识别以复数种搜索结果语言提供的潜在可检索的环球网内容。通过对保留于可搜索数据存储库中的信息特征评估词语与属性中的至少一来执行搜索，且搜索结果响应于所执行的搜索而产生。判定至少一偏好语言。评估以下至少一个的特征：搜索查询请求消息、发送搜索查询请求消息的用户接口和搜索结果。基于所评估的特征来选择所述至少一偏好语言。考虑所述至少一偏好语言对搜索结果的至少一些搜索结果排序。搜索结果呈现为搜索结果响应消息。

所属领域的技术人员从下文的具体实施方式将不难发现本发明的其它实施例，其中通过图解说明被认为是实现本发明的最佳模式来描述本发明的实施例。应了解，本发明可包含其它和不同实施例，且能在各种明显的方面对其若干细节做出修改，而不会脱离本发明的精神和范畴。因此，附图和具体实施方式应视作在本质上是说明性的而非限制性的。

附图说明

图1为展示根据本发明的用于提供搜索结果的偏好语言排序的系统的方框图。

图2为展示图1的搜索引擎的功能方框图。

图3为展示图1的搜索引擎的搜索查询执行和搜索结果处理的过程流程图。

图4为以实例的方式展示图1的搜索引擎接收的一请求消息的数据结构图。

图5为以实例的方式展示图1的搜索引擎发送的一响应消息的数据结构图。

图6为展示根据本发明的用于提供搜索结果的偏好语言排序的方法流程图。

图7为展示判定用于图6的方法的偏好语言的例行程序的流程图。

图8为展示用于图7的例行程序的评估搜索查询特征的功能的流程图。

图9为展示用于图7的例行程序的评估用户接口特征的功能的流程图。

图10为展示用于图6的方法的排序搜索结果的例行程序的流程图。

图11为展示利用一移位因数排序搜索结果以用于图10的例行程序的例行程序的流程图。

图12为展示利用一加权因数排序搜索结果以用于图10的例行程序的例行程序的流程图。

具体实施方式

图1为展示根据本发明的用于提供搜索结果的偏好语言排序的系统10的方框图。复数个个别客户机12通过诸如互联网或如所属领域技术人员认可的其它形式的通信网络的互联网13而以通信方式与一服务器11对接。由处理环球网内容请求和经由其各自客户机12的其它操作的用户19来操作个别客户机12。

一般来说，每一客户机12可为可连接到一网络(诸如互联网13)且能够与应用程序交互的任何形式的计算平台。个别客户机的示范性实例包括(不限于)个人计算机、数字助理、“智能”蜂窝电话和寻呼机、轻量级客户机(lightweight client)、工作站、对接到一应用服务器的“哑”终端机和所属领域技术人员认可的它的各种排列和配置。互联网13包括各种拓扑、配置和排列成与企业可互操作地耦接的网络互连性组件的排列、广域网和局域网且包括(不限于)常规有线、无线、卫星、光纤和所属领域技术人员认可的等同网络技术。

对于环球网内容交换来说，且尤其为了处理搜索，每一客户机12执行一环球网浏览器18(“浏览器”)，通过它将搜索查询发送到一在服务器11上执行的环球网服务器20。每一搜索查询描述或识别通常呈环球网内容的形式的信息，它是通过环球网服务器20潜在可检索的。搜索查询提供通常表述为词语(诸如关键字等)的特征和诸如语言、字符编码等的属性，其使一搜索引擎21(也在服务器11上执行)能够识别并发回搜索结果。所述词语和属性为组成描述数据的数据的元数据的形式。如所属领域技术人员认可的其它风格、形式或定义的搜索查询、搜索查询特征和元数据是可行的。

发回搜索结果到浏览器18以通常以环球网内容标题、超级链接和其它描述性信息(诸如从搜索结果中抽取的文本摘录)的形式进行呈现。服务器11保留一其中保留环球网内容22的附着存储装置15。环球网内容22也可远程地保留在其它环球网服务器(未图示)上，所述远程环球网服务器通过互联网13直接或间接互连且优选可由每一客户机12进行访问。

搜索引擎21优选识别最佳匹配搜索查询词语的环球网内容22以提供高质量的搜索结果，诸如在S.Brin和L.Page的“The Anatomy of aLarge-Scale Hypertextual Search Engine”(1998)中和在2001年9月4日颁发给Page的第6,285,999号美国专利中所描述的，其揭示内容以引用的方式并入本文。在识别匹配环球网内容22时，搜索引擎21对描述潜在可检索的环球网内容的信息特征进行操作，如将在下文中参考图2进行进一步描述。请注意，除了单处理环境之外，服务器20(包括环球网服务器20和搜索引擎21)所提供的功能性也可通过松弛或紧密耦接分布或并行计算配置来提供。

个别计算机系统(包括服务器11和客户机12)包括通用编程数字计算装置，所述计算装置由下列部分组成：一中央处理单元(分别为处理器13和16)、随机存取存储器(分别为存储器14和17)、非易失性辅助存储器15(诸如硬驱动器或CD-R0M驱动器)、网络或无线接口和外围装置(包括用户接口构件，诸如键盘和显示器)。包括软件程序的程序代码和资料被载入RAM以由CPU执行和处理，且产生结果以进行显示、输出、传送或存储。

图2为展示图1的搜索引擎21的功能方框图。每一组件为一电脑程序、以常规编程语言(诸如C++编程语言)写入的源代码的过程或程序，且其被呈现以作为一单处理、分布或并行配置中的目标代码或字节代码而由一个或一个以上的CPU执行，如此项技术中已知的。源代码和目标代码和字节代码的各种实施例可保存在一计算机可读取的存储媒体上或实施在一载体波中的传送媒体上。

搜索引擎21由五个组件组成：分析器31、索引器32、计分器33、语言提前器34和呈现器35。简单来说，搜索引擎21从用户19接收一通过浏览器18通信的搜索查询36，执行搜索，产生搜索结果38，考虑语言偏好排序搜索结果38，且发送排序后的搜索结果37。搜索查询36优选提供为HTTP兼容的请求消息且排序后的搜索结果37优选提供为HTTP兼容的响应消息(如将在下文中分别参考图4和图5进一步描述)，但如所属领域技术人员认可的其它形式的请求和响应交换是可行的。

更详细地说，分析器31接收搜索查询36。每一搜索查询36描述潜在可检索的信息，诸如环球网内容22。分析器31然后将搜索查询36分析成个别标记(token)。所述标记包括组成元数据48的头值和一包含实际搜索查询的实体主体。将元数据48复制到语言提前器34。

索引器32通过对保留于一可搜索数据存储库49中的信息特征评估搜索查询36来执行搜索。信息特征为实际环球网内容22或为描述用于识别环球网内容的词语和属性的元数据(诸如超级链接)。如所属领域的技术人员所认可的其它结构和组织的可搜索数据存储库49为可行的。一旦完成所述搜索，索引器32通过将在搜索查询36中指定的特征应用到所存储的信息来产生一组搜索结果38。如所属领域的技术人员所认可的其它结构和组织的可搜索数据存储库49为可行的。

索引器32潜在地可识别上千或甚至上百万的搜索结果38，所以通常仅搜索结果38的一子集(通常在100条到10,000条之间)保留为最有希望的搜索结果38。也可引入目标搜索结果(未图示)，诸如广告或专题信息内容。最有希望的搜索结果38接着按匹配搜索查询词语的程度质量上排名或计分。搜索结果38可用数值计分以反映相对的匹配质量或优度。计分器33将一数值分数41指派给每一搜索结果38以表示匹配质量。

语言提前器34执行两个主要功能。首先，语言提前器34判定每一搜索查询36的一个或一个以上的偏好语言39且视情况判定其一个或一个以上的不太偏好的语言40，如将在下文中参考图7进行进一步描述。在一个实施例中，可使用一语言选择器(未图示)来判定这些偏好语言39。第二，语言提前器34考虑偏好语言39和(如果可用)不太偏好的语言40来排序搜索结果38，如将在下文中参考图10进一步描述。在一个实施例中，这些搜索结果38可使用一搜索结果排序器(未图示)来排序。为了效率起见，语言提前器34优选排序最有希望的搜索结果38的一子集，通常在15到30条搜索结果的范围内，但也可使用如所属领域的技术人员所认可的其它范围。

在所描述的实施例中，计分器33将那些具有较高匹配程度的搜索结果38指派为相对于其它搜索结果38相应较高的排名。例如，如果西班牙语为一偏好语言39，那么那些西班牙语的搜索结果38具有比(例如)英语的搜索结果38较高的匹配程度。然而，那些不太偏好的语言的搜索结果38(诸如，葡萄牙语)也可具有比英语的搜索结果38较高的匹配程度，但是它的匹配程度低于西班牙语的搜索结果38的匹配程度。或者，可使用一计数排名方法，藉此计分器33将那些具有较高匹配程度的搜索结果38指派为相对于其它搜索结果38相应较低的匹配排名。如所属领域技术人员所认可的其它风格、指派或定义的搜索结果排名为可行的。

在另一实施例中，搜索结果38被数值计分以反映相对的匹配质量或优度。计分器33指派一数值分数41给每一搜索结果38以表示匹配的相对质量，较高数值分数41比较低数值分数41反映较好的质量。例如，如果西班牙语为一偏好语言39，那么那些西班牙语的搜索结果38会比(例如)英语的搜索结果38具有更高的数值分数41。然而，那些不太偏好的语言(诸如葡萄牙语)的搜索结果38也可具有比英语的搜索结果38较高的数值分数41，但是它的数值分数41低于西班牙语的搜索结果38的数值分数41。或者，可使用一计数计分方法，藉此计分器33指派较低数值分数41以比较高数值分数41反映较好的质量。如所属领域的技术人员可认可的其它风格、指派或定义的搜索结果计分为可行的。

为判定偏好语言39和不太偏好的语言40，语言提前器34评估搜索查询特征(SQ字符)43、用户接口特征(UI字符)44和搜索结果特征(SR字符)45。可从元数据48判定搜索查询特征43。可从元数据48和可独立于每一搜索查询36而由服务器11(服务器端)保留的任何可用的语言偏好42判定用户接口特征44。可从搜索结果38判定搜索结果特征45。

语言提前器34排序搜索结果38。在一个实施例中，不以数值排序的搜索结果38以一移位因数46排序，如将在下文中参考图11进行进一步描述。在所描述的实施例中，采用为二(2.0)的恒定移位因数46以将非偏好的语言的搜索结果38降级两个位置。当搜索结果38通过降低与搜索查询36的匹配程度来排序时，这个移位因数38适用。例如，发生在搜索结果38列表的第三位置的非偏好的语言的搜索结果38可会降级到第五的位置。也可采用其它形式的移位因数。例如，移位因数46可提前非偏好的语言的搜索结果38。同样，移位因数46可通过使用(例如)加、减、乘、分数、除和对数因数的数学函数或可为一公式或函数以及如所属领域技术人员所认可的它的各种组合和排列来排序搜索结果38。

在另一实施例中，当一调整公式偏好用于数值分数41的范围时，利用一加权因数47来排序数值计分的的搜索结果38，将在下文中参考图12来进一步描述。所属领域技术人员应认识到，这些加权因数47可为一常数、使用(例如)加、减、乘、分数、除和对数因数的数学函数，或可为一公式或函数和所属领域的技术人员所认可的它的各种组合和排列。在所描述的实施例中，数值分数41随着匹配质量的增加而增加。例如，一较高的数值分数41比较低的数值分数41反映较好的质量。或者，如所属领域技术人员认可的，可采用一系统藉此数值分数41可随着匹配质量的增加而减小。在所描述的实施例中，根据搜索结果38是偏好语言39或是不太偏好的语言40的情况，来使用两个加权因数47以增加每一搜索结果38的数值分数41。对于一种偏好语言39的搜索结果38来说，一加权因数W_LP由下式提供：

w_{LP} = {{&ForAll; s}_{1 &RightArrow; n} : s_{1} = \frac{s_{i} + 1}{2}}

对于一种不太偏好的语言40的搜索结果38来说，一加权因数W_LPL由下式提供：

w_{LPL} = {{&ForAll; s}_{1 &RightArrow; n} : s_{1} = \frac{(s_{i} \times 2) + 1}{3}}

这些加权因数当数值分数41在0.0和1.0的范围内且大约均匀分布时最适用。在所描述的实施例中，具有一给定分值S_i的搜索结果38当与一种偏好语言39关联时比与一种不太偏好的语言40关联时更提前。然而，如所属领域技术人员所认可的，与一种不太偏好的语言40关联的搜索结果38可相反比与一种偏好语言39关联的搜索结果38更提前。或者，根据搜索结果38是一种偏好语言39或是不太偏好的语言40的情况，可利用加权因数47以减少每一搜索结果38的数值分数41。如所属领域技术人员所认可，也可采用其它范围的数值分数和形式的加权因数。

在另一实施例中，可调整移位因数46和加权因数47以容纳较不可靠或较可靠的动态偏好语言判定。例如，一较短的搜索查询36或少见的搜索结果37会因为起作用的内容较少而降低动态偏好语言判定的准确度。可放松移位因数46和加权因数47以较不明显地排序搜索结果37。或者，一较长搜索查询36或冗长的搜索结果37可增加准确度，且可增加移位因数46和加权因数47以更明显地排序搜索结果37。

最后，呈现器35通过浏览器18向用户19呈现排序后的搜索结果37。通常，因为排序后的搜索结果37的全集可超过浏览器18上的可用呈现空间，所以仅需要呈现排序后的搜索结果37的一部分。呈现是借助于一搜索结果响应消息的排序后搜索结果37的通信。

图3为展示图1的搜索引擎21的搜索查询执行和搜索结果处理的过程流程图50。所述过程流程包括五个主要阶段。首先，接受且分析一搜索查询52(过程51)且将其转递到下一阶段。对一存储数据存储库执行搜索(过程53)且将搜索结果54转递到下一阶段。基于元数据和可用上下文判定用户19的偏好和不太偏好的语言56(过程55)。将偏好和不太偏好的语言56转递到下一阶段以用于排序搜索结果54(过程57)。在最后阶段，转递且呈现排序后的搜索结果58(过程59)。判定偏好语言和不太偏好的语言的阶段(过程55)和排序搜索结果的阶段(过程57)通过根据动态判定的用户语言偏好剪裁搜索结果而加强了搜索结果的质量。

图4为以实例的方式展示由图1的搜索引擎21接收的一请求消息60的数据结构图。请求消息60为一HTTP兼容请求消息，诸如在D.Gourley和E.Totty的“HTTP，the Definitive Guide”第3章，第43-73页，O′Reillyand Assocs.，Sebastopol，CA(2002)中所描述的，其揭示内容以引用的方式并入本文。请求消息60由三部分组成：起始线61、报头62和实体主体63。起始线61识别从浏览器18发送到搜索引擎21的输入数据(诸如“P0ST”)的HTTP方法。起始线61也包括一请求统一资源定位符(URL)68和HTTP版本标识符。示范性请求URL“/search.cgi”识别一搜索请求。

报头62由零或更多MIME兼容的名称和值配对组成，它提供描述浏览器18和实体主体63(意即，搜索查询本身)的接口的特征的元数据48。四个MIME兼容报头如下提供用于判定那些对一请求用户可接受的语言的元数据48：

(1)接受字符集(64)：表示通过请求浏览器18可接受或偏好的字符集，例如ISO-Latin-1、八位到支持西方欧洲语言的ASCII的扩展。ISO-Latin-1也称为ISO-8859-1。

(2)接受语言(65)：以偏好的顺序表示用户19可接受的或偏好的语言，且视情况包括一质量因数q，例如，对法语(fr)的强偏好和对英语(en)的弱偏好。

(3)内容类型(66)：描述实体主体63的媒体类型(例如纯文本(文本/纯文本))且可将用于编码实体主体63的字符集(例如，ISO-Latin-1)表示为一参数。

(4)内容语言(67)：表示表述实体主体63的自然语言，例如法语(fr)。

如所属领域技术人员所认可的：使用等同或相关协议且提供与上述报头62以及其它报头和参数的类似的信息的其它形式的请求消息格式也是可行的。

图5为以实例的方式展示由图1的搜索引擎21发送的响应消息70的数据结构图。响应消息70是一HTTP兼容的响应消息，诸如D.Gourley和E.Totty，Id.中所描述，其揭示内容以引用的方式并入本文。响应消息70也由三部分组成：起始线71、报头72和实体主体73。起始线71包括一HTTP标识符、响应状态码和人类可读取的理性短语。

报头72由零或更多MIME兼容的名称和值配对组成，它提供描述实体主体73(意即，每一搜索结果)的特征的元数据。两个MIME兼容报头如下提供用于判定那些对一请求用户可接受的语言的元数据：

(1)内容类型(74)：描述实体主体73的媒体类型(例如纯文本(文本/纯文本))且可将用于编码实体主体73的字符集(例如，ISO-Latin-1)表示为一参数。

(2)内容语言(75)：表示表述实体主体73的自然语言，例如英语(en)。

如所属领域技术人员所认可的：使用等同或相关协议且提供与上述报头72以及其它报头和参数的类似的信息的其它形式的响应消息格式也是可行的。

图6是展示根据本发明的一种用于提供搜索结果38的偏好语言排序的方法80的流程图。该方法80描述为一系列过程操作或步骤，他们可由(例如)一搜索引擎21(如图1所示)执行。

从一用户19接受一搜索查询36，并将它分析成元数据48(方框81)。通过对保留于可搜索数据存储库49中的信息特征评估搜索查询36，在可搜索数据存储库49上执行搜索，且产生搜索结果38(方框82)。因为可潜在地产生上千或甚至上百万的搜索结果38，所以仅将搜索结果38的一子集(通常在100到10,000条之间)保留为最有希望的搜索结果38。也可引入目标搜索结果(未图示)，诸如广告或专题信息内容。在此项技术中已知，在将搜索结果38提供给浏览器18之前，搜索结果38可临时定级为“原始”网页(结构化数据或未结构化数据)，从这些“原始”网页中可提取描述每一搜索结果38的特征的元数据。定性地排序这些搜索结果38以匹配搜索查询36(方框83)以提供一排名或计分，包括上文参考图2描述的反映搜索结果质量的数值分数41。

至此，已经识别且对搜索结果38进行了排名或计分。然后，判定请求用户19的偏好语言39以及不太偏好的语言40(方框84)，这将在下文参考图7进一步描述。然后，根据对偏好语言39和(如果已经识别)不太偏好的语言40(方框85)的匹配程度来排序搜索结果38，这将在下文参考图10进一步描述。为了效率起见，优选是仅排序搜索结果38的一个最有希望的子集(通常在15到30条搜索结果的范围内)，但是所属领域的技术人员应了解可使用其它范围。最后，通过浏览器18呈现排序后的搜索结果37。通常，仅需要呈现排序后的搜索结果37的一部分，因为排序后的搜索结果37的全集可超过浏览器38上的可用呈现空间。在所描述的实施例中，搜索查询36提供为一HTTP兼容的请求消息60且每一搜索结果作为一HTTP兼容的响应消息70而提供回给用户19。

在另一实施例中，存储偏好语言39和不太偏好的语言40以备将来使用，同时执行来自相同请求用户19的搜索请求36。同样，可通过使用由用户接口提供的“触发器”启用或禁用偏好语言39和(如果可用)不太偏好的语言40的呈现，从而控制呈现利用偏好语言排序而经排序后的搜索结果37的能力。在另一实施例中，在将搜索结果呈现给请求用户19之前，将排序后的搜索结果37分别按偏好语言39和(如果可用)不太偏好的语言40聚集在一起。或者，可诸如通过使用一表格中的相邻行或单元来排列偏好语言39和(如果可用)不太偏好的语言40的排序后的搜索结果37，以靠近那些非偏好语言的搜索结果而呈现。然后终止所述例行程序。

图7为展示用于判定偏好语言39以用于图6的方法80的例行程序90的流程图。这个例行程序的目的是基于搜索查询特征43、用户接口特征44和搜索结果特征45来判定请求用户19的偏好语言39和任何不太偏好的语言40。

首先，基于从搜索查询36分析的元数据48评估搜索查询特征43(方框91)，这将在下文中参考图8进一步描述。如果基于搜索查询特征43可判定指定的语言(方框92)，那么选择所述指定语言作为偏好语言39(方框93)。

下一步，如果从搜索查询特征43中不能判定指定语言(方框92)，那么评估用户接口特征44(方框94)，这将在下文中进一步参考图9描述。如果用户接口未定义英语作为可接受的语言(方框95)，那么选择每一非英语的语言作为一偏好语言39，并选择英语作为一不太偏好的语言40(方框96)。

下一步，如果英语提供为用户接口可接受的语言(方框95)，那么评估搜索结果特征45(方框97)。在所描述的实施例中，搜索结果38以两种格式中的一种提供。首先，搜索结果38可聚集成“原始”网页的集合，从这个集合可判定出语言特征。第二，搜索结果38可组织成描述各种特征的元数据，包括语言特征和对应于搜索结果38的网页内容。可通过如2000年12月26日颁发给Schulze的第6,167,369号美国专利中的描述的内容分析来动态判定每一搜索结果38的主要语言，此专利的揭示内容以引用的形式并入本文。如果搜索结果38的大多数结果为英语的(方框98)，那么选择英语作为一偏好语言39(方框99)。否则，不采用任何偏好语言39或不太偏好的英语40(方框100)，且例行程序返回。

对于每个已经选定一个或一个以上的偏好语言39的实例(方框93、96和99)，相关语言(如果存在)可视情况选定为额外的偏好语言39(方框101)。相关语言包括那些共用一共同基础的语言和方言，藉此精通一种此类语言的用户能够理解(可能会有轻微的困难)相关语言。例如，一精通西班牙语的用户经常可理解以葡萄牙语提供的信息。将对偏好语言39作任何添加之后，所述例行程序返回。

图8为展示评估搜索查询特征43以用于图7的例行程序90的功能110的流程图。这个功能的目的是基于从搜索查询请求消息60的报头62分析所得的可用元数据48而判定任何偏好语言39。

首先，检索对应于搜索查询请求消息60的报头62的任何可用元数据48(方框111)。通过评估内容语言报头67的参数来判定在实体主体63中提供的内容的语言(方框112)。如果已经指定(方框113)，那么返回指定的语言(方框114)。否则，通过评估内容类型报头66来判定在实体主体63中提供的内容的字符集(方框115)。如果指定为语言特定字符集(方框116)，那么返回指定的语言(方框117)。例如，ISO-2022-JP为日语特定字符集。否则，无任何语言偏好返回(方框118)。

图9为展示评估用户接口特征44以用于图7的例行程序90的功能120的流程图。这个功能的目的是基于用户接口特征判定任何偏好语言40。

由搜索引擎21产生用户接口且表达语言偏好可经常指定为用户选项。因此，首先获取任何可用的语言偏好(方框122)。服务器端的语言偏好或者直接在客户机存储的cookie中保留，或者由搜索引擎21保留且使用cookie或登录程序来存取以独一无二地识别每一请求用户19。如果可用，获取适当的语言识别cookie或者执行适当的用户登录程序。获取所存储的语言偏好且将它用于判定任何服务器端的语言偏好(方框122)。如果已经指定(方框123)，那么返回指定的语言(方框124)。

浏览器18可限制搜索结果38的语言接受为客户机端语言偏好的语言。因此，获取对应于一搜索查询请求消息60的头部62的任何可用元数据48(方框125)，且通过评估接受语言头部65来判定浏览器18的用户接口接受的语言(方框126)。除指定接受语言之外，接受语言头部65可包括表明语言偏好程度的在0.0到1.0的范围内的质量因数q。如果已经指定(方框127)，返回指定语言(方框120)，同时具有小于1.0的质量因数q的那些语言指定为不太偏好的语言40。

如果没有指定用于浏览器18的用户接口的接受语言(方框127)，那么通过评估接受字符集头部64来判定浏览器18的用户接口接受的字符集(方框128)。如果指定为指定语言字符集(方框130)，那么返回指定语言(方框131)。

否则，不能由服务器端或客户机端的语言偏好来判定语言偏好。然而，仍可基于在URL68和客户机所在地的可用信息来判定一语言偏好。判定在URL68中识别的IP域的所在地(方框132)例如，指定为“www.acme.at”的一URL 68具有一IP域“.at”，其表示一澳大利亚IP域。然而，特定的IP域(诸如“.com”)使用如此广泛以至于不可能得出有用的语言偏好结论。如果URL 68提供一有用的IP域(方框133)，那么判定所述IP域所指派的地区语言(方框134)并将它返回(135)。如果无用(方框133)，那么通过评估客户机IP参数(其可由在其中发送搜索查询36的传输控制协议(TCP)封包的头部分析出)来判定从其发送搜索查询36的客户12的所在地。客户机IP参数提供一IP地址，其为写成按周期分隔的四个数字的32位数字地址。可由IP地址中的最后数字的域名服务(Doma in Name Service)查找来判定一IP域。同样，如果其对得出语言偏好有用(方框137)，那么判定IP域的语言(方框138)并将其返回(方框139)。在所描述的实施例中，选定客户机12的IP地址中指定的域的主要语言。否则，如果没有提供IP地址(方框137)，那么返回英语(方框140)。

图10为展示排序搜索结果38以用于图6的方法80的例行程序145的流程图。这个例行程序的目的为基于由考虑偏好语言39和(如果可用)不太偏好的语言40的搜索引擎21使用的排名或排序方法来排序搜索结果38。

首先，判定由搜索引擎21利用以排名或排序搜索结果38的方法(方框146)。如果指派给搜索结果38的数值分数41适用于数字调整(方框147)，那么利用一数值分数计算，借此利用一加权因数(47)来排序搜索结果38(方框149)，这些将在下文参考图12进一步描述。否则，通过利用一移位因数26来排序搜索结果38(方框148)，这些将在下文中参考图11进一步描述。所述例行程序然后返回。

图11为展示利用一移位因数46排序搜索结果38以用于图9的例行程序130的例行程序150的流程图。这个例行程序的目的是相关于偏好语言39或不太偏好的语言40的搜索结果38将非偏好语言的搜索结果38向下移位。在所描述的实施例中，采用为二(2.0)的恒定移位因数46以将非偏好语言的搜索结果38降级两个位置。这个移位因数38当通过减少与搜索查询36的匹配程度来排序搜索结果38时适用。例如，发生在搜索结果38的列表的第三位置中的非偏好语言的搜索结果38会降级到第五位置。也可采用其它形式的移位因数。例如，移位因数46会提前非偏好语言的搜索结果38。同样，所属领域技术人员应认识到，移位因数46可由包括加、减、乘、分数、除和对数因数的数学函数以及以上的各种组合和排列来排序搜索结果38。

在一实施例中，所述例行程序操作小于或等于搜索结果38的总数的一子集，但是所属领域的技术人员应认识到，可使用其它形式的子集选择标准。一变量n设置为显示给用户19的搜索结果的数量，而偏好语言39的一上限UL和不太偏好语言的一上限LPUL都设置为搜索结果38的数量n和2n的较小值(方框151)。然后如下以迭代处理循环来排序搜索结果38(方框153-166)。首先，一索引j设置为上限UL(方框152)且在索引j为正时执行处理(方框153)。搜索结果保留在一数组Result[]中，如果Result[j]不是一偏好语言Pref_Lang且Result[j]不是一不太偏好的语言Less_Pref_Lang(方框154)，如下利用移位因数46使Result[j]降级。一变量target_pos设置为2j与上限UL的较小者(方框155)且一临时变量temp设置为Result[j](方框156)。剩余搜索结果38由将[target_pos]加1而移位Result[j+1]来提升(方框157)且将Result[target_pos]设置为temp(方框158)。上限UL设置为target_pos减1(方框159)且不太偏好的上限LPUL设置为不太偏好的上限LPUL与上限UL中的较小者(方框160)。

如果Result[j]是不太偏好的语言Less_Pref_Lang(方框161)，那么Result[j]利用移位因数46如下降级。变量target_pos设置为1.5j的地板(floor)与不太偏好的上限LPUL中的较小者(方框162)且一临时变量temp设置为Result[j](方框163)。剩余搜索结果38由将[target_pos]加1而移位Result[j+1]来提升(方框164)且将Result[target_pos]设置为temp(方框165)。不太偏好的上限(LPUL)设置为target_pos减1(方框166)。

最后，索引j设置为j减1(方框167)且继续处理下一循环迭代(方框168)，其后所述例行程序返回。

图12为展示利用一加权因数47排序搜索结果38以用于图9中的例行程序130的例行程序170的流程图。这个例行程序的目的是通过重新计算指派给每一搜索结果38的数值分数41来排序搜索结果38以偏向偏好语言39或不太偏好的语言40中的一种的搜索结果。在一实施例中，所述例行程序对小于或等于搜索结果38的数量的子集操作，它等于显示给乘以一个余数(例如2或3)的用户的搜索结果38的数量，但是所属领域的技术人员将认识到可使用其它形式的子集选择标准。

在所描述的实施例中，数值分数41随匹配质量的增加而增加。例如，一较高的数值分数41比较低的数值分数41反映更好的质量。或者，所属领域技术人员应认识到，可采用一藉以随匹配质量增加而减小数值分数41的系统。在所描述的实施例中，两个加权因数47是用于根据搜索结果38是偏好语言39还是不太偏好的语言40之一的情况来增加每一搜索结果38的数值分数41。对于为偏好语言39之一的搜索结果38，由等式(1)提供一加权因数W_LP：

w_{LP} = {{&ForAll; s}_{1 &RightArrow; n} : s_{1} = \frac{s_{i} + 1}{2}} - - - (1)

对于不太偏好的语言40之一的搜索结果38，由等式(2)提供一加权因数W_LPL：

w_{LPL} = {{&ForAll; s}_{1 &RightArrow; n} : s_{1} = \frac{(s_{i} \times 2) + 1}{3}} - - - (2)

当数值分数41在0.0到1.0的范围且大约均匀分布时，这些加权因数最合适。在所描述的实施例中，当与偏好语言39之一关联时，具有一给定分数S_i的搜索结果38比当与不太偏好的语言40之一关联时相比被提前。然而，所属领域技术人员应认识到，与不太偏好的语言40之一关联的搜索结果38相反可比与偏好语言39之一关联的搜索结果38较提前。或者，可根据搜索结果38为偏好语言39之一或不太偏好的语言40之一的情况利用加权因数47以减少每一搜索结果38的数值分数41。所属领域的技术人员应认识到，也可采用其它范围的数值分数和形式的加权因数。

所述例行程序对一小于或等于搜索结果38的总数的子集操作，且如下通过一迭代处理循环(方框172-177)重新计算数值分数41。一变量n设置为乘以一余数(例如2或3)的搜索结果的数量(方框171)。搜索结果38保留在一数组Result[]中。在由一变量I索引的迭代处理循环(方框172-177)中重新计算每一搜索结果38的数值分数41。在每一迭代期间(方框172)，如果Result[i]是一偏好语言Pref_Lang(方框173)，则将Score[i]设置为数量Score[i]加上1的一半(方框167)，意即等式(1)。否则，如果Result[i]是一不太偏好的语言Less_Pref_Lang(方框175)，则将Score[i]设置为数量Score[i]的2倍加上1的三分之一(方框176)，意即，等式(2)。否则，不需要作任何数值分数调整。处理继续下一个迭代(177)。在所有迭代之后，对搜索结果38重新排序(方框178)，然后所述例行程序返回。

虽然对本发明参考它的实施例进行了详细展示和描述，所属领域的技术人员应了解可在形式上和细节上在其中做出上述和其它变化而不会脱离本发明的精神和范畴。

Claims

1.一种用于排序搜索结果的系统，其包含：

一分析器，其接受一搜索查询；

一索引器，其：

基于所述搜索查询执行一搜索，

基于所述搜索识别复数种语言的搜索结果；

一语言提前器，其：

识别可应用于所述搜索结果的至少一种偏好语言，所述识别基于所述搜索查询的特征、自其接收所述搜索查询的用户接口的特征、以及所述搜索结果的特征，以及

对所述搜索结果中的至少一者在所述搜索结果的其它搜索结果之中进行排序，以基于所述搜索结果中的所述至少一者是否为所述至少一种偏好语言，创建经排序的搜索结果的列表；以及

一呈现器，其呈现所述经排序的搜索结果的列表。

2.根据权利要求1所述的系统，其进一步包含：

一搜索查询表征器，其用于评估用于所述搜索查询的一语言或用于所述搜索查询的至少一字符编码中的至少一者。

3.根据权利要求1所述的系统，其进一步包含：

一用户接口表征器，其评估以下几者中的至少一者：指定为一独立于所述搜索查询的一存储偏好的一预定语言、被所述用户接口接受的至少一种语言、被所述用户接口接受的至少一字符编码或一从其提交所述搜索查询的客户应用程序的一网络地址。

4.根据权利要求1所述的系统，其进一步包含：

一搜索结果表征器，其评估大多数所述搜索结果使用的一语言。

5.根据权利要求1所述的系统，其中：

所述语言提前器，其将所述至少一种偏好语言之外的一语言的每一此类搜索结果降级至少一个位置，并将所述至少一种偏好语言的每一此类搜索结果提前至少一个位置；或

所述语言提前器，其将所述至少一种偏好语言之外的一语言的每一此类搜索结果提前至少一个位置，并将所述至少一种偏好语言的每一此类搜索结果降级至少一个位置。

6.根据权利要求1所述的系统，其进一步包含：

一搜索查询表征器，其判定一字符编码或用于所述搜索查询的一语言中的至少一者；和

其中所述语言提前器，其选择对应于所述字符编码或所述语言中的所述至少一者的至少一种语言作为所述至少一种偏好语言。

7.根据权利要求1所述的系统，其中：

所述语言提前器，其利用一移位因数与一加权因数中的至少一者来重新排序所述至少一种偏好语言之外的一语言的所述搜索结果中的至少一者。

8.根据权利要求1所述的系统，其中：

所述呈现器，其：控制启用所述至少一种偏好语言的所述搜索结果中的至少一些搜索结果的呈现、将所述至少一种偏好语言的所述搜索结果的至少一些搜索结果聚集在一起、或在呈现给一用户之前将所述至少一种偏好语言的所述搜索结果中的至少一些搜索结果排列靠近所述至少一种偏好语言之外的一语言的所述搜索结果中的至少一些搜索结果。

9.一种用于排序搜索结果的方法，其包含：

接受一搜索查询；

基于所述搜索查询执行一搜索以识别复数种语言的搜索结果；

识别用于所述搜索结果的一偏好语言，所述识别基于所述搜索查询的特征、通过其接收所述搜索查询的用户接口的特征、以及所述搜索结果的特征；

对所述搜索结果中的一者在所述搜索结果的其它搜索结果之中进行排序，以基于所述搜索结果中的所述一者是否为所述偏好语言，创建经排序的搜索结果的列表；以及

呈现所述经排序的搜索结果的列表。

10.根据权利要求9所述的方法，其进一步包含：

将所述偏好语言之外的一语言的每一搜索结果降级至少一个位置，并将所述偏好语言的每一搜索结果提前至少一个位置；或

将所述偏好语言之外的一语言的每一搜索结果提前至少一个位置，并将所述偏好语言的每一搜索结果降级至少一个位置。

11.根据权利要求9所述的方法，其进一步包含：

基于用于所述搜索查询的一字符编码或用于所述搜索查询的一语言中的至少一者来判定所述搜索查询的所述特征。

12.根据权利要求9所述的方法，其进一步包含：

基于以下几者中的至少一者来判定所述用户接口的所述特征：由所述用户接口所使用的一语言、从其提交所述搜索查询的一客户应用程序的一网络地址、一接受语言或所述客户应用程序的一字符集中的至少一者或一指定为独立于所述搜索查询的一存储偏好的预定语言。

13.根据权利要求9所述的方法，其中识别所述偏好语言包括：

判定是否能从所述搜索查询的所述特征判定所述偏好语言；

当不能从所述搜索查询的所述特征判定所述偏好语言时，判定所述用户接口的所述特征是否定义一默认语言为一可接受的语言；

当所述用户接口的所述特征未定义所述默认语言为所述可接受的语言时，选择所述默认语言之外的一语言作为所述偏好语言；和

当所述用户接口的所述特征定义所述默认语言为所述可接受的语言且所述搜索查询的所述特征指示所述搜索结果的大多数为所述默认语言时，选择所述默认语言作为所述偏好语言。

14.根据权利要求9所述的方法，其中所述搜索查询的所述特征判定用于所述搜索结果的大多数的至少一种搜索结果语言。

15.根据权利要求9所述的方法，其进一步包含：

利用一移位因数与一加权因数中的至少一者来降级所述偏好语言之外的一语言的所述搜索结果。

16.根据权利要求9所述的方法，其进一步包含：

利用一移位因数与一加权因数中的至少一者来提前所述偏好语言之外的一语言的所述搜索结果。

17.根据权利要求9所述的方法，其中呈现所述经排序的搜索结果的列表包括：

执行以下几者中的至少一者：所述偏好语言的所述搜索结果中的至少一些搜索结果的呈现的控制启用、将所述偏好语言的所述搜索结果的至少一些搜索结果聚集在一起、或在呈现之前将所述偏好语言的所述搜索结果中的至少一些搜索结果排列靠近所述偏好语言之外的至少一种语言的所述搜索结果中的至少一些搜索结果。

18.根据权利要求9所述的方法，其进一步包含：

选择与所述偏好语言相关的一个或一个以上的相关语言；以及

识别所述经选择的一个或一个以上的相关语言作为一个或一个以上的额外的偏好语言；

其中对所述搜索结果中的所述一者在所述搜索结果的其它搜索结果之中进行排序以创建经排序的搜索结果的列表是基于所述搜索结果中的所述一者是否为所述偏好语言或所述一个或一个以上的额外的偏好语言。