CN101496010A

CN101496010A - 使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能

Info

Publication number: CN101496010A
Application number: CNA200780027961XA
Authority: CN
Inventors: W·D·拉姆塞
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2006-07-31
Filing date: 2007-07-20
Publication date: 2009-07-29
Also published as: RU2009103140A; NO20085386L; JP2009545809A; BRPI0714938A2; MX2009000584A; EP2047388A4; AU2007281641B2; RU2443015C2; EP2047388A1; WO2008016494A1; US20080028010A1; AU2007281641A1; US7620634B2

Abstract

公开了使用可增量式更新的系统来对网络上的文档进行排序的各种方法。还公开了其上存储有用于执行使用可增量式更新的系统来对网络上的文档进行排序的方法的计算机可执行指令的计算机可读介质。此外，公开了包含至少一个应用模块的计算机系统，其中该至少一个应用模块包括用于执行使用可增量式更新的系统来对网络上的文档进行排序的方法的应用程序代码。

Description

使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能

背景

根据文档对于给定搜索查询的相关性来对文档进行排序的排序功能是已知的。在许多已知系统中，使用查询分类器来改进排序功能的搜索结果。已知的查询分类器利用诸如最大熵、朴素贝叶斯、条件随机场和支持向量机等机器学习技术来对用户性能建模。通常，用于构建和部署模型的过程是收集大量数据、对整个范围的数据执行离线数据处理、构建模型、并且然后部署这些模型。这些已知过程可能在计算上是昂贵的。此外，在这些过程中，从收集数据的时间到在部署的模型中实际上利用数据的时间通常存在延迟。

在本领域中仍在努力开发对于给定搜索查询提供比由使用已知排序功能和排序功能组件的搜索引擎生成的搜索结果更佳的搜索结果的排序功能和排序功能组件。

概述

特别地，此处所描述的是用于使用可增量式更新的查询分类器来对网络上的文档进行排序的各种技术。该可增量式更新的查询分类器不需要在计算上昂贵的离线数据处理，而只需要周期性地更新最少数量的查询分类器变量。该可增量式更新的查询分类器利用实时用户搜索查询和响应数据，并还可包括对更新近的用户事件进行比过去的用户事件更大的加权的时间衰减组件。该可增量式更新的查询分类器单独地或结合其他排序功能组件可由搜索引擎用来基于相对于查询搜索项的文档相关性来按序(通常以降序)对多个文档进行排序。

提供本概述以便以简化的形式向读者大致介绍将在以下“详细描述”一节中描述的一个或多个选择概念。本概述不旨在标识所要求保护的主题的关键和/或必要特征。

附图简述

图1表示示出响应于由用户输入的搜索查询来产生经排序的搜索结果的方法中的各示例性步骤的示例性逻辑流程图；

图2是用于实现此处所公开的各方法和过程的示例性操作环境的某些主要组件的框图；

图3A-3B表示示出使用可增量式更新的模型来产生经排序的搜索结果的示例性方法中的各示例性步骤的逻辑流程图；以及

图4A-4B表示示出使用还包括时间衰减组件的可增量式更新的模型来产生经排序的搜索结果的方法中的各示例性步骤的逻辑流程图。

详细描述

为了促进对此处所公开的各方法和过程的原理的理解，使用以下对具体实施例的描述和特定语言来描述这些具体实施例。然而将会理解，对特定语言的使用并不旨在限制所公开的各方法和过程的范围。对所讨论的所公开的各方法和过程的原理的变更、进一步的修改、以及这样的进一步的应用可以预期将是所公开的各方法和过程所涉及领域的技术人员通常能想到的。

公开了使用可增量式更新的查询分类器来对网络上的文档进行排序的各种方法。每一个文档对于给定搜索查询的相关性使用利用对于每一个所输入查询/所选结果数据组合的实时用户数据的可增量式更新的查询分类器来计算。如由查询分类器单独或结合其他排序功能组件确定的每一个文档的文档相关性可用于对给定网络空间(例如，公司内联网空间或因特网)内的文档进行排序。其中可使用所公开的各方法的示例性搜索过程被示为图1中的示例性过程10。

图1描绘了示例性搜索过程10，该过程开始于其中用户输入搜索查询的过程步骤80。示例性搜索过程10从步骤80前进至步骤200，其中搜索引擎在网络空间内的所有文档中搜索一个或多个搜索查询项。示例性搜索过程10从步骤200前进至步骤300，其中搜索引擎的排序功能基于每个文档对于该搜索查询的相关性来对网络空间内的文档进行排序，该文档相关性基于在给定该搜索查询的情况下基于如将在以下描述的经修改的朴素贝叶斯模型来检索到文档的概率。示例性搜索过程10从步骤300前进至步骤400，其中通常以降序来向用户呈现经排序的搜索结果，以便标识该网络空间内与该搜索查询最相关(即，在给定特定搜索项的情况下具有最高检索概率)的文档。

如将在以下更详细地讨论的，对文档进行排序的方法包括利用关于由一个或多个用户对网络空间内的一个或多个文档的实际使用(例如，查看)的实时“用户响应数据”或“文档使用数据”。文档使用数据由与给定搜索引擎分开的web服务器上的应用程序代码来生成并存储。例如，文档使用数据可由网站维护，以使得在每次用户请求URL时，服务器就更新使用计数器或计数值。使用计数器可以维护在诸如上周、上个月、去年或给定的一个或一组文档的生存期等给定时间间隔内所获得的文档相关数据。应用程序代码可用于经由(i)特殊的应用程序编程接口(API)、(ii)web服务请求、或(iii)通过请求返回网站上每一URL的使用数据的管理网页来从网站获得使用数据。

文档相关性可用于对网络空间内的文档进行排序，并将经排序的搜索结果提供给用户。例如，一种对网络上文档进行排序的方法包括以下步骤：使用可增量式更新的搜索查询分类器来确定网络上每一文档的文档相关性；以及基于每一文档相对于用户输入的搜索查询的文档相关性按所需次序(通常按降序)来对这些文档进行排序。

使用此处所公开的方法的应用程序可以在包括各种硬件组件的计算机系统上加载并执行。用于实践此处所公开的各方法的示例性计算机系统和示例性操作环境将在以下描述。

示例性操作环境

图2示出了可在其上实现此处所公开的各方法的合适的计算系统环境100的示例。计算系统环境100仅为合适的计算环境的一个示例，并非对在此公开各方法的使用范围或功能性提出任何局限。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。

此处所公开的各方法可运行于多种其它通用或专用计算系统环境或配置。适用于此处公开的方法中的公知的计算系统、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括上述系统或设备中的任一个的分布式计算机环境等。

此处所公开的各方法和过程可在诸如由计算机执行的程序模块等计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。在此公开的方法和过程也可以在其中任务由通过通信网络连接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。

参考图2，用于实现在此公开的方法和过程的一示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括但不限于，处理单元120、系统存储器130和将包括系统存储器130在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任一种的局部总线。作为示例，而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质，而且包含易失性、非易失性介质以及可移动和不可移动介质。作为示例而非局限，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机100访问的任何其它介质。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。上述中的任意组合也应包括在此处使用的计算机可读介质的范围之内。

系统存储器130包括形式为易失性和/或非易失性存储器的计算机存储介质，譬如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有助于诸如启动时在计算机110中元件之间传递信息的基本例程，它通常存储在ROM 131中。RAM 132通常包含处理单元120可以立即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非局限，图2示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图2示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器140，从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151，以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器141通常由不可移动存储器接口，诸如接口140连接至系统总线121，磁盘驱动器151和光盘驱动器155通常由可移动存储器接口，诸如接口150连接至系统总线121。

以上讨论并在图2中示出的驱动器及其相关联的计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。在图2中，例如，硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。

用户可通过如键盘162和定点设备161(通常指鼠标、跟踪球、笔或触摸垫)等输入设备来向计算机110输入命令和信息(例如，一个或多个搜索查询项或单词)。其它输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但也可以由其它接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。监示器191或其它类型的显示设备(例如，用于向用户提供搜索结果以供查看的显示设备)也经由如视频接口190等接口连接到系统总线121。除监视器191以外，计算机110也可以包括其它外围输出设备，诸如扬声器197和打印机196，它们可以通过输出外围接口195连接。

计算机110可使用至一个或多个远程计算机，如远程计算机180的逻辑连接在网络化环境下操作。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见网络节点，且通常包括以上相对于计算机110描述的许多或所有元件，尽管在图2中只示出存储器存储设备181。图2中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172，或用于通过WAN 173，如因特网建立通信的其它装置。调制解调器172可以是内置或外置的，它可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，相对于计算机110所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例而非局限，图2示出远程应用程序185驻留在存储器设备181上。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其它手段。

此处所公开的各方法和过程可使用一或多个应用程序来实现，这些应用程序包括但不限于，服务器系统软件应用程序(例如，WINDOWS SERVERSYSTEM^TM软件应用程序)，搜索排序应用程序，以及用于生成、维护和存储网络空间内的文档的使用数据的应用程序(例如，

服务应用程序)，这些应用程序中的任一个可以是被指定为示例性系统100中的应用程序135、应用程序145和远程应用程序1 85的众多应用程序之一。

如上所述，本领域的技术人员可以理解，所公开的在给定特定搜索查询项的情况下对文档进行排序的方法可以在其它计算机系统配置中实现，包括手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、联网的个人计算机、小型计算机、大型计算机等等。所公开的对文档进行排序的方法也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备中。

示例性实施例的实现

如以上所讨论的，提供了使用可增量式更新的查询分类器来对网络上的文档进行排序的各种方法。所公开的对网络上的文档进行排序的方法利用如将在以下描述的经修改的朴素贝叶斯模型。

贝叶斯的规则规定在给定B的情况下A的概率P(A|B)与在给定A的情况下B的概率P(B|A)相关，并可由以下关系来示出：

P(A|B)P(B)＝P(B|A)P(A).

当B由大量“特征”{f₁...f_N}组成时，朴素贝叶斯逼近约简为：

P (A | f_{1}, . . ., f_{N}) = \frac{P (A) P (f_{1}, . . ., f_{N} | A)}{P (f_{1}, . . ., f_{N})} \approx \frac{P (A) Π_{i = 1}^{N} P (f_{i} | A)}{Π_{i = 1}^{N} P (f_{i})} .

在所公开的对文档进行排序的各方法中，查询分类器模型利用类似的公式，其预测在给定搜索“查询”的情况下“资产”(例如，所选文档或“命中”)的出现，其中特征是该搜索查询中的项或单词。此处所使用的查询分类器模型由以下公式示出：

P (Asset | Query) = P (Asset) * Π_{i = 1}^{N_{Q}} P (w_{i} &Element; Q | Asset) * Π_{i = 1}^{V - N_{Q}} P (w_{i} &NotElement; Q | Asset)

其中：

Asset是正返回的资产或任务(例如，文档)，

Query是包含一个或多个搜索查询项的用户的查询，

N_Q是搜索查询中的项数，

V-N_Q是搜索查询中看不见的项数，其中V是词汇大小，

P(w_i∈Q|Asset)是在搜索查询中看见项的概率，以及

P (w_{i} &NotElement; Q | Asset)

是在搜索查询中看不见项的概率。

通过取两边的对数，该公式变为：

\log [P (Asset | Query)] = \log [P (Asset)] + Σ_{i = 1}^{N_{Q}} \log [P (w_{i} &Element; Q | Asset)] +

Σ_{i = 1}^{V = N_{Q}} \log [P (w_{i} &NotElement; Q | Asset)]

通过对在词汇表中的所有单词中看不见给定搜索查询项的概率求和并从在该搜索查询中看见这些项的概率中减去这些概率的总和，该公式变为：

\log [P (Asset | Query)] = \log [P (Asset)] + Σ_{i = 1}^{N_{Q}} (\log [P (w_{i} &Element; Q | Asset) - \log [P (w_{i} &NotElement; Q | Asset)]) +

Σ_{i = 1}^{V} \log [P (w_{i} &NotElement; Q | Asset)] .

因为在给定搜索查询中看不见一单词的概率等于1减去在该给定搜索查询中看见该单词的概率，所以该公式变为：

\log [P (Asset | Query)] = \log [P (Asset)] + Σ_{i = 1}^{N_{Q}} (\log [P (w_{i} &Element; Q | Asset) - \log [1 - P (w_{i} &Element; Q | Asset)])

+ Σ_{i = 1}^{V} \log [1 - P (w_{i} &Element; Q | Asset)] .

通过使用以下等式来扩展每一项：

log[P(Asset)]＝log[#(Asset)]-log[#(T)]

log[P(w_i∈Q|Asset)]＝log[#(w_i，Asset)]-log[#(Asset)]

该公式变为：

\log [P (Asset | Query)] = \log [# (Asset)] - \log [# (T)] +

Σ_{i = 1}^{N_{Q}} (\log [# (w_{i}, Asset)] - \log [# (Asset)] - \log [1 - P (w_{i} &Element; Q | Asset)]) +

Σ_{i = 1}^{V} \log [1 - P (w_{i} &Element; Q | Asset)]

其中：

#(Asset)是给定“资产”(例如，网络上的给定文档)被选择以供任何用户查看的次数；

#(T)是已由系统记录的搜索查询的总数，以及

#(w_i，Asset)是给定“资产”(例如，网络上的给定文档)和搜索查询的搜索项w_i已由任何用户匹配的次数。

通过对log(1-x)使用泰勒级数逼近：

\log (1 - x) = - Σ_{i = 1}^{\infty} \frac{x^{i}}{i},

一阶逼近就是-x。因此，使用该一阶逼近：

log[1-P(w_i∈Q|Asset)]≈-P(w_i∈Q|Asset)

并且总和变为

Σ_{i = 1}^{V} \log [1 - P (w_{i} &Element; Q | Asset)] \approx - Σ_{i = 1}^{V} \frac{# (w_{i}, Asset)}{# (Asset)} .

此处所使用的查询分类器模型的公式现在变为：

\log [P (Asset | Query)] = \log [# (Asset)] - \log [# (T)] +

Σ_{i = 1}^{N_{Q}} (\log [# (w_{i}, Asset)] - \log [# (Asset)] + \frac{# (w_{i}, Asset)}{# (Asset)}) - Σ_{i = 1}^{V} \frac{# (w_{i}, Asset)}{# (Asset)} - - - (I)

其中：

∑#(w_i，Asset)是给定“资产”(例如，网络上的给定文档)和搜索查询的搜索项w_i已由任何用户匹配的次数的总和。

通过知道对应于每一个资产和每一个搜索查询/资产组合的项#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)的值，可以计算log[#(Asset)]和log[#(w_i，Asset)]的值，并且可以使用上述公式(I)来提供对于网络空间中的文档的文档相关性分数(即，基于给定搜索查询检索到资产或文档的概率)。

如以上所讨论的，实际使用或用户响应数据(例如，项#(Asset)和#(w_i，Asset)的值)可以从存储关于网络上的一个或多个文档的实际使用数据的一个或多个文件获得。实际使用数据可连同文档一起作为文档分量来存储，或者可与实际文档分开存储在数据存储文件中。数据存储和检索可以使用包括但不限于web服务调用、结构化查询语言(SQL)系统等任何已知方法来实现。例如，可以使用远程存储系统来存储包括例如，跨所有用户对给定网络上的每一个文档的请求数的实际使用数据。

图3A-3B表示示出响应于由用户输入的搜索查询来产生经排序的搜索结果的示例性方法中的各示例性步骤的逻辑流程图，其中该方法利用可增量式更新的系统中的用户响应数据。如图3所示，示例性方法30开始于框201并前进至其中用户输入诸如单个单词或者单词或项串等搜索查询的步骤202。示例性方法30从步骤202前进至其中“词例化(tokenize)”搜索查询分量的步骤203。如此处所使用的，术语“词例化”指的是其中使用断词器来从单词或项串中创建“词例”列表的过程。例如，搜索查询“printing problems color(打印问题颜色)”将被词例化以形成词例/搜索查询分量的集合{“printing”，“problems”，“color”}。列表中的每一个“词例”都表示在上述查询分类器公式中使用的各自的搜索查询分量w_i。

示例性方法30从步骤203前进至步骤205，其中从数据库中检索预先计算的、存储的对应于每一个查询分量w_i(例如“printing”、“problems”和“color”)的值#(w_i，Asset)和log[#(w_i，Asset)]。示例性方法30从步骤205前进至步骤208，其中从数据存储数据库中检索预先计算的、存储的值#(Asset)、log[#(Asset)]和∑#(w_i，Asset)。示例性方法30从步骤208前进至步骤209，其中在以上提供的公式(I)中利用来自步骤205和208的使用数据，即(1)对应于每一个搜索项/资产组合的值#(w_i，Asset)和log[#(w_i，Asset)]，以及(2)对应于每一个资产的值#(Asset)、log[#(Asset)]和∑#(w_i，Asset)来确定网络空间中的每一个文档对于该搜索查询的文档相关性。

示例性方法30从步骤209前进至图3B所示的步骤210，其中以相关性的降序来对所有文档进行排序。示例性方法30然后前进至其中向用户显示搜索结果中的至少一部分的步骤211。示例性方法30从步骤211前进至其中用户选择(例如，点击)给定搜索结果(例如，资产)来查看的步骤212。

一旦选择了特定文档或搜索结果(例如，资产)来查看，示例性方法30就前进至步骤213，其中更新计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)以反映该用户响应。应当注意，更新计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)的过程可以在用户选择给定搜索结果(例如，资产)后的任何时间发生。例如，计数值可以被立即更新或可以在实际上选择了给定搜索结果之后的某一时刻更新。计数值可以例如每小时或每24小时时间段期间更新一次。如果这些值没有被立即更新，则在给定时间段(例如，24小时时间段)期间维护一日志以便在该时间段期间临时存储用户响应数据。在每个时间段结束时使用应用程序代码来更新每一个计数值。

示例性方法30从步骤213前进至其中计算值log[#(Asset)]和log[#(w_i，Asset)]的步骤214。示例性方法30从步骤214前进至步骤215，其中将来自步骤213和214的已更新的值(即，#(Asset)、#(w_i，Asset)、∑#(w_i，Asset)、log[#(Asset)]和log[#(w_i，Asset)])存储在数据库中以替换先前存储的值。

示例性方法30从步骤215前进至判定框216，其中由用户确定是否查看步骤211中所提供的其他搜索结果。如果用户确定查看步骤211中所提供的其他搜索结果，则示例性方法30前进至步骤216，其中用户返回至步骤211中所提供的搜索结果。示例性方法30从步骤217返回到步骤212并且如上所述地前进。

返回到判定框216，如果在判定框216处用户确定不查看步骤211中所提供的其他搜索结果，则示例性方法30前进至判定框218。在判定框218处，由用户确定是否执行新的搜索。如果用户确定执行新的搜索，则示例性方法30前进至步骤219，其中示例性方法30返回到步骤202并如上所述地前进。如果在判定框216处用户确定不执行新的搜索，则示例性方法30前进至步骤220，其中示例性方法30结束。

上述用可增量式更新的系统来向用户提供经排序的搜索结果的方法还可包括时间衰减组件，其中在计算值#(Asset)、#(w_i，Asset)、∑#(w_i，Asset)、log[#(Asset)]和log[#(w_i，Asset)]时给予更新近的查询/资产数据比老的查询/资产数据更大的权重。例如，查询术语“特洛伊”可能意味着2000年前非常不同的某一事物，而不是若干年前在一名为“特洛伊”的体育运动队赢得大学橄榄球冠军时该术语的意思、以及最近当“特洛伊木马”病毒作为计算机病毒出现时该术语的意思。在所公开的方法中具有时间衰减组件提供了对于更新近的用户偏好以及更新近的事件的偏向。

在利用时间衰减组件时，使用加权乘数来对更新近的事件进行比过去的事件更大程度的加权。示例性加权乘数包括λ^t，其中λ是小于1.0的数字而t是表示查询和/或资产计数值分量的年龄的整数(例如，t可表示给定的24小时时间段以使得t＝0将表示上一个24小时时间段，t＝1将表示前一个24小时时间段，t＝2将表示在t＝1的24小时时间段之前的24小时时间段，以此类推)。上述在公式(I)中使用的计数值可被设置成等于以下值：

# (Asset) = # (Asset) (0) + λ [# (Asset) (1)] + λ^{2} [# (Asset) (2)] +

λ^{3} [# (Asset) (3)] + . . . .

= Σ_{t = 0}^{\infty} λ^{t} [# (Asset) (t)];

# (w_{i}, Asset) = # (w_{i}, Asset) (0) + λ # (w_{i}, Asset) (1)] +

λ^{2} [# (w_{i}, Asset) (2)] + λ^{3} [# (w_{i}, Asset) (3)] + . . . .

= Σ_{t = 0}^{\infty} λ^{t} [# (w_{i}, Asset) (t)];

以及

Σ # (w_{i}, Asset) = Σ # (w_{i}, Asset) (0) + λ [Σ # (w_{i}, Asset) (1)] +

λ^{2} [Σ # (w_{i}, Asset) (2)] + λ^{3} [Σ # (w_{i}, Asset) (3)] + . . . .

= Σ_{t = 0}^{\infty} λ^{t} [Σ # (w_{i}, Asset) (t)] .

在以上计数值中的每一个中，随着t增大(即，查询和/或资产分量的年龄增长)，λ^t的值减小，从而导致给定计数值的老的分量被给予比更当前的计数值分量更小的权重。例如，在其中频率是24小时时间段的示例性实施例中，全新的查询(即，在上一个24小时时间段期间的查询)被给予权重1，而老一天的查询(即，在前一个24小时时间段期间的查询)被给予权重λ，并且老100天的查询被给予权重λ¹⁰⁰。通过将λ设置成诸如以上模型中的0.995，给定查询的权重在2年的时间段内逐渐衰减。

为了在给定时间段结束时(例如，在24小时时间段结束时)更新计数值，计数值只是需要按照以下公式重新计算：

#(Asset)(new)＝#(Asset)(0)+λ[#(Asset)(old)]；

#(w_i，Asset)(new)＝#(w_i，Asset)(0)+λ[#(w_i，Asset)(old)]；以及

∑#(w_i，Asset)(new)＝∑#(w_i，Asset)(0)+λ[∑#(w_i，Asset)(old)]，

其中：

#(Asset)(new)、#(w_i，Asset)(new)和∑#(w_i，Asset)(new)分别表示对应于计数#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)的增量式更新的值。

#(Asset)(0)、#(w_i，Asset)(0)和#(w_i，Asset)(0)分别表示对于计数#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)的在上一个时间段(例如，上一个24小时时间段)内的出现次数；以及

#(Asset)(old)、#(w_i，Asset)(old)和∑#(w_i，Asset)(old)分别表示对于计数#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)的在上一个时间段之前的累积的计数值(例如，多于24小时之前的计数值)。这一使用可增量式更新的时间衰减模型的方法将参考图4A-4B来进一步描述。

如图4A所示，示例性方法40开始于起始框301并且前进至步骤302，其中用户选择加权乘数λ^t，其中λ是小于1.0的数字而t是表示查询和/或资产计数值分量的年龄的整数。示例性方法40从步骤302前进至步骤303，其中用户选择更新所有计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)的频率。通常，所有计数值在24小时时间段期间被更新一次(即，由t表示的每一个时间单元都是24小时时间段)；然而，用户可选择任何所需频率，诸如计数值每小时更新一次(即，由t表示的每一个时间单元都是1小时的时间)等。

示例性方法40从步骤303前进至步骤305，其中监视时间和日期以使得可注明给定查询和用户响应的日期。示例性方法40从步骤305前进至步骤306，其中如上所述地增量式更新计数值(例如，在给定频率时间段结束时更新)。在该步骤中，增量式更新每一个计数值所有需要做的就是将具有权重1.0的新的查询/资产组合数据(即，#(Asset)(0)、#(w_i，Asset)(0)和∑#(w_i，Asset)(0)数据)添加到先前存储的按照因子λ来时间衰减的计数值(即，#(Asset)(old)、#(w_i，Asset)(old)和∑#(w_i，Asset)(old))。如以上所讨论的，更新的计数值等于：

#(Asset)(new)＝#(Asset)(0)+λ[#(Asset)(old)]；

#(w_i，Asset)(new)＝#(w_i，Asset)(0)+λ#(w_i，Asset)(old)]；以及

∑#(w_i，Asset)(new)＝∑#(w_i，Asset)(0)+λ[∑#(w_i，Asset)(old)]。

示例性方法40从步骤306前进至步骤307，其中计算log[#(Asset)]和log[#(w_i，Asset)]的值，并且将所有已更新的值存储在数据库中。示例性方法40从步骤307前进至如图4B所示的判定框308，其中由用户确定是否执行搜索。如果在判定框308处用户确定执行搜索，则示例性方法40前进至步骤318，其中执行上述(图3A-3B所示的)示例性方法30的步骤202到211。示例性方法40从步骤318前进至其中用户选择(例如，点击)给定搜索结果(例如，资产)来查看的步骤309。

一旦选择了特定文档或搜索结果(例如，资产)来查看，示例性方法40就前进至步骤310，其中更新值#(Asset)(0)、#(w_i，Asset)(0)和∑#(w_i，Asset)(0)以反映该用户响应。临时地存储#(Asset)(0)、#(w_i，Asset)(0)和∑#(w_i，Asset)(0)值直到频率时间段结束(例如，24小时时间段结束)。如以上所讨论的，该频率时间段可以是任何所需时间长度，但通常是24小时时间段。在每一个时间段结束时，使用应用程序代码来更新每一个计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)以提供增量式更新的计数值#(Asset)(new)、#(w_i，Asset)(new)和∑#(w_i，Asset)(new)，如步骤306所描述的。

示例性方法40从步骤310前进至判定框311，其中由用户确定是否查看在318(即，示例性方法30中的步骤211，其是示例性方法40中的步骤318的分量)中提供的其他搜索结果。如果用户确定查看步骤318中所提供的其他搜索结果，则示例性方法40前进至步骤312，其中用户返回至步骤318中所提供的搜索结果。示例性方法40从步骤312返回到步骤309，并且如上所述地前进。

返回到判定框311，如果在判定框311处用户确定不查看步骤318中所提供的其他搜索结果，则示例性方法40前进至判定框313。在判定框313处，由用户确定是否执行新的搜索。如果用户确定执行新的搜索，则示例性方法40前进至步骤314，其中示例性方法40返回到步骤318并如上所述地前进。如果在判定框313处用户确定不执行新的搜索，则示例性方法40前进至判定框315，其中由应用程序代码基于步骤303中的所选频率来确定是否需要更新计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)。如果应用程序代码确定需要更新这些计数值(即，频率时间段已经结束)，则示例性方法40返回至步骤306并如上所述地前进。如果在判定框315处应用程序代码确定无需更新计数值，则示例性方法40返回至步骤308并如以所述地前进。

返回到判定框308，如果在判定框308处用户确定不执行搜索，则示例性方法40前进至步骤319，其中示例性方法40返回到判定框315并如以所述地前进。

上述响应于搜索查询使用具有或不具有时间衰减组件的可增量式更新的系统来对文档进行排序的方法可单独或结合其他排序功能组件使用以便向用户提供经排序的搜索结果。在结合其他排序功能使用时，可以使用任何已知的一个或多个排序功能组件。已知排序功能组件可包括，但不限于(i)如2004年3月18日提交的题为“FIELD WEIGHTING IN TEXT DOCUMENTSEARCHING(文本文档搜索中的字段加权)”的美国专利申请第10/804,326号中所描述的字段加权的排序功能组件，该专利申请的主题通过引用整体结合于此；(ii)如2004年8月30日提交的题为“SYSTEM AND METHOD FORRANKING SEARCH RESULTS USING CLICK DISTANCE(用于使用点击距离来对搜索结果进行能够排序的系统和方法)”的美国专利申请第10/955,983号中所公开的点击距离排序功能组件，该专利申请的主题通过引用整体结合于此；(iii)如2005年8月15日提交的题为“RANKING FUNCTIONS USING ABIASED CLICK DISTANCE OF A DOCUMENT ON A NETWORK(使用网络上的文档的偏移的点击距离的排序功能)”的美国专利申请第11/206,286号中所公开的偏移的点击距离排序功能组件，该专利申请的主题通过引用整体结合于此；(iv)文档的URL深度；或者(v)(i)到(iv)的任何组合。

此处还公开了计算系统。示例性计算系统包含可以在该计算系统上使用的至少一个应用模块，其中该至少一个应用模块包括加载在其上的应用程序代码，其中该应用程序代码执行使用上述具有或不具有时间衰减组件的可增量式更新的查询分类器来对网络上的文档进行排序的方法。该应用程序代码可被加载到使用上述其上具有计算机可执行指令的计算机可读介质中的任一个的计算机系统上，这些计算机可执行指令用于使用上述具有或不具有上述时间衰减组件的可增量式更新的查询分类器来对网络上的文档进行排序。

尽管已经参考本说明书的具体实施例详细地描述了本说明书，但可以理解，本领域的技术人员在理解了上述内容之后，就可以容易地想到对于这些实施例的更改、变型或等效方案。因此，所公开的各方法、计算机可读介质和计算系统的范围应被评定为所附权利要求书及其任何等效方案的范围。

Claims

1.一种其上存储有用于响应于包括一个或多个搜索查询项的用户输入的搜索查询来对网络上的文档进行排序的计算机可执行指令的计算机可读介质，所述计算机可执行指令利用可通过更新计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)来更新的可增量式更新的查询分类器模型，其中#(Asset)表示所述网络上的给定文档被任何用户选择来查看的次数，#(w_i，Asset)表示所述网络上的给定文档与所述搜索查询的搜索查询项w_i被任何用户匹配的次数，而∑#(w_i，Asset)表示所述网络上的给定文档与所述搜索查询的任何搜索查询项w_i被任何用户匹配的次数总和。

2.如权利要求1所述的计算机可读介质，其特征在于，所述网络上的每一个文档都基于其对于所述搜索查询的相关性来进行排序，并且具有使用公式(I)的文档相关性分数：

\log [P (Asset | Query)] = \log [# (Asset)] - \log [# (T)] +

Σ_{i = 1}^{N_{Q}} (\log [# (w_{i}, Asset)] - \log [# (Asset)] + \frac{# (w_{i}, Asset)}{# (Asset)}) - Σ_{i = 1}^{V} \frac{# (w_{i}, Asset)}{# (Asset)} - - - (I)

其中：

P(Asset|Query)表示在给定特定用户输入的搜索查询Query的情况下返回给定文档Asset的概率；

N_Q是所述搜索查询中的项数；

V是所述网络的词汇大小；以及

#(T)是已由任何用户处理的搜索查询的总数。

3.如权利要求1或2所述的计算机可读介质，其特征在于，所述可增量式更新的查询分类器模型在每一个时间段结束时更新，所述时间段在长度上等于或小于24小时。

4.如权利要求3所述的计算机可读介质，其特征在于，更新计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)包括将在给定时间段期间收集到的任何新数据添加到先前存储的计数值#(Asset)(old)、#(w_i，Asset)(old)和∑#(w_i，Asset)(old)。

5.如权利要求1到4中任一项所述的计算机可读介质，其特征在于，所述可增量式更新的查询分类器模型还包括时间衰减组件，其中新近的搜索查询和用户响应被给予比过去的搜索查询和用户响应更大的权重。

6.如权利要求1到5中任一项所述的计算机可读介质，其特征在于：

# (Asset) = Σ_{t = 0}^{\infty} λ_{t} [# (Asset) (t)];

# (w_{i}, Asset) = Σ_{t = 0}^{\infty} λ_{t} [# (w_{i}, Asset) (t)];

以及

Σ # (w_{i}, Asset) = Σ_{t = 0}^{\infty} λ_{t} [Σ # (w_{i}, Asset) (t)];

其中：

λ是具有小于1.0的值的加权乘数；以及

t是表示计数值分量的年龄的整数。

7.如权利要求6所述的计算机可读介质，其特征在于，更新计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)包括按照以下公式重新计算#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)：

#(Asset)(new)＝#(Asset)(0)+λ[#(Asset)(old)]；

#(w_i，Asset)(new)＝#(w_i，Asset)(0)+λ#(w_i，Asset)(old)]；以及

∑#(w_i，Asset)(new)＝∑#(w_i，Asset)(0)+λ[∑#(w_i，Asset)(old)]；

其中：

#(Asset)(new)，#(w_i，Asset)(new)和∑#(w_i，Asset)(new)各自分别独立地表示对应于计数值#(Asset)，#(w_i，Asset)和∑#(w_i，Asset)的增量式更新的值；

#(Asset)(0)、#(w_i，Asset)(0)和∑#(w_i，Asset)(0)各自分别独立地表示在上一个时间段内的出现次数；以及

#(Asset)(old)、#(w_i，Asset)(old)和∑#(w_i，Asset)(old)各自分别独立地表示在所述上一个时间段之前的累积计数值。

8.如权利要求1到7中任一项所述的计算机可读介质，其特征在于，还包括计算机可执行指令，所述计算机可执行指令用于接受由用户输入的搜索询问，对所述网络上的文档进行搜索以生成包括多个文档的搜索结果，使用所述可增量式更新的查询分类器模型来对所述搜索结果的多个文档进行排序以生成经排序的搜索结果，以及向所述用户显示所述经排序的搜索结果。

9.一种包含至少一个应用模块的计算系统，所述至少一个应用模块可以在所述计算系统上使用，其中所述至少一个应用模块包括加载在其上的来自如权利要求1到8中任一项所述的计算机可读介质的应用程序代码。

10.一种增量式更新适于用作搜索引擎中的排序功能组件的查询分类器模型的方法，所述方法包括：

确定计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)，其中#(Asset)表示网络上的给定文档被任何用户选择来查看的次数，#(wi，Asset)表示所述网络上的给定文档与搜索查询的搜索查询项w_i被任何用户匹配的次数，而∑#(w_i，Asset)表示所述网络上的给定文档与所述搜索查询的任何搜索查询项w_i被任何用户匹配的次数总和；

存储所述计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)；以及

通过将在一时间段期间收集到的任何新数据添加到先前存储的计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)来更新所存储的计数值。

11.如权利要求10所述的方法，其特征在于，所述时间段在长度上等于或小于24小时。

12.如权利要求10所述的方法，其特征在于，更新所存储的计数值#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)包括按照以下公式重新计算#(Asset)、#(w_i，Asset)和∑#(w_i，Asset)：

#(Asset)(new)＝#(Asset)(0)+λ[#(Asset)(old)]；

#(w_i，Asset)(new)＝#(w_i，Asset)(0)+λ#(w_i，Asset)(old)]；以及

∑#(w_i，Asset)(new)＝∑#(w_i，Asset)(0)+λ[∑#(w_i，Asset)(old)]；

其中：

#(Asset)(new)，#(w_i，Asset)(new)和∑#(w_i，Asset)(new)分别表示对应于计数值#(Asset)，#(w_i，Asset)和∑#(w_i，Asset)的增量式更新的值；

#(Asset)(0)、#(w_i，Asset)(0)和∑#(w_i，Asset)(0)分别表示在上一个时间段内的出现次数；

#(Asset)(old)、#(w_i，Asset)(old)和∑#(w_i，Asset)(old)分别表示在所述上一个时间段之前的累积计数值；以及

λ是加权乘数。

13.如权利要求12所述的方法，其特征在于，λ具有小于1.0的值。

14.一种确定网络上的文档相对于用户输入的搜索查询的文档相关性分数的方法，所述方法包括如权利要求10到13中任一项所述的方法。

15.如权利要求14所述的方法，其特征在于，所述文档相关性分数使用以下公式(I)来确定：

\log [P (Asset | Query)] = \log [# (Asset)] - \log [# (T)] +

Σ_{i = 1}^{N_{Q}} (\log [# (w_{i}, Asset)] - \log [# (Asset)] + \frac{# (w_{i}, Asset)}{# (Asset)}) - Σ_{i = 1}^{V} \frac{# (w_{i}, Asset)}{# (Asset)} - - - (I)

其中：

N_Q是所述搜索查询中的项数；

V是所述网络的词汇大小；以及

#(T)是已由任何用户处理的搜索查询的总数。

16.一种对搜索查询的搜索结果进行排序的方法，所述方法包括以下步骤：

使用如权利要求14或15所述的方法来确定对于网络的每一个文档的文档相关性分数；以及

基于每一个文档的文档相关性分数按降序来对所述文档进行排序。

17.一种包含至少一个应用模块的计算系统，所述至少一个应用模块可以在所述计算系统上使用，其中所述至少一个应用模块包括用于执行如权利要求10到16中任一项所述的方法的应用程序代码。