CN102859516A

CN102859516A - 使用历史搜索结果生成改进的文档分类数据

Info

Publication number: CN102859516A
Application number: CN201080024788XA
Authority: CN
Inventors: 比尔盖汗·乌伊加尔·厄兹泰金; 丘佩文
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2009-04-08
Filing date: 2010-04-07
Publication date: 2013-01-02
Anticipated expiration: 2030-04-07
Also published as: US20120233178A1; KR20120022893A; KR101700352B1; EP2417540A1; AU2010234452A1; US20100262615A1; AU2010234452B2; WO2010118162A1; CN102859516B; US8719293B2; CA2757926A1; US8185544B2

Abstract

一种服务器系统，其分别访问用于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息以及所述第一信息项的分类数据。最初，所述第一信息项被分类而所述第二信息项未被分类。基于所述第一信息项的分类数据以及所述历史查询信息，所述服务器系统为所述第二信息项生成分类数据并且将所生成的分类数据存储于其中。响应于来自客户端设备的对服务的请求，所述服务器系统使用所述第二信息项以及为所述第二信息项所生成的相对应分类数据向所述客户端设备提供定制服务。

Description

使用历史搜索结果生成改进的文档分类数据

技术领域

所公开的实施例一般地涉及在客户端-服务器环境上提供的在线服务，更具体地涉及用于对信息进行分类并且使用分类的信息提供定制在线服务的系统和方法。

背景技术

借助于如Google的搜索引擎，互联网已经成为了人们接收信息的主要场所。但是找到并派发与特定个人的需求和搜索兴趣最佳匹配的信息已经成为了搜索引擎所面临的挑战。首先，不同的个人对于信息具有十分不同的偏好，并且难以准确识别个人的搜索兴趣。这个问题由于人的兴趣经常是动态的且随时间变化而更为复杂。其次，互联网上的许多网页是未分类或错误分类的。没有对网页所提供的信息建立简档所必需的分类数据，搜索引擎的服务质量会由于在搜索结果中包括较不相关的网页同时错失更为相关的网页而受到不利的影响。

发明内容

在一些实施例中，在远离客户端设备的服务器系统处，所述服务器系统分别访问关于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息以及所述第一信息项的分类数据。最初，所述第一信息项被分类而所述第二信息项未被分类。基于所述第一信息项的分类数据以及所述历史查询信息，所述服务器系统为所述第二信息项生成分类数据并且将所生成的分类数据存储于其中。响应于来自客户端设备的对服务的请求，所述服务器系统使用所述第二信息项以及为所述第二信息项所生成的相应分类数据向所述客户端设备提供定制服务。

在一些实施例中，一种远离客户端设备的服务器系统包括一个或多个处理器、存储器以及一个或多个程序。所述程序存储在所述存储器中并且被配置为由所述处理器执行。所述程序包括用于分别访问关于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息以及所述第一信息项的分类数据的指令。所述第一信息项最初被分类而所述第二信息项最初未被分类。所述程序还包括用于基于所述第一信息项的分类数据以及所述历史查询信息为所述第二信息项生成分类数据的指令；用于将所生成的分类数据存储在所述服务器系统中的指令；以及用于使用所述服务器中存储的相应分类数据向多个客户端设备提供与所述第二信息项相关联的定制服务的指令。

在一些实施例中，一种其中存储有指令的计算机可读存储介质，当被服务器系统的一个或多个处理器执行时，所述指令使得所述服务器系统分别访问关于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息以及所述第一信息项的分类数据。所述第一信息项最初被分类而所述第二信息项最初未被分类。当被所述服务器系统的一个或多个处理器执行时，所述指令还使得所述服务器系统基于所述第一信息项的分类数据以及所述历史查询信息为所述第二信息项生成分类数据，将所生成的分类数据存储在所述服务器系统中，并且使用所述服务器中存储的相应分类数据向多个客户端设备提供与所述第二信息项相关联的定制服务。

附图说明

图1是根据本发明一些实施例的包括信息服务器系统的分布式客户端-服务器计算系统的框图。

图2A是依据一些实施例的查询日志数据库用来存储用户集合的历史查询信息的数据结构的框图。

图2B是依据一些实施例的查询简档数据库用来存储查询简档集合的信息的数据结构的框图。

图2C是依据一些实施例的信息分类数据库和信息分类种子数据库用来存储信息项集合的信息的数据结构的框图。

图2D是依据一些实施例的用户简档数据库用来存储用户简档集合的信息的数据结构的框图。

图3A是图示依据一些实施例的用于构建查询简档数据库的示例性过程的流程图。

图3B是图示依据一些实施例的用于构建信息分类数据库的示例性过程的流程图。

图3C是图示依据一些实施例的用于构建用户简档数据库的示例性过程的流程图。

图3D是图示依据一些实施例的使用其它信息项的分类数据对信息项进行分类的示例的框图。

图4是图示依据一些实施例的用于处理查询并且使用用户简档和信息分类数据对相应查询结果进行排序的示例性过程的框图。

图5A是图示依据一些实施例的用于生成分类数据并且使用所述分类数据提供定制服务的示例性过程的流程图。

图5B是图示依据一些实施例的用于使用用户的用户简档和分类数据向远程客户端设备处的用户提供个性化搜索结果的示例性过程的流程图。

图6是依据一些实施例的示例性客户端设备的框图。

图7是依据一些实施例的示例性服务器系统的框图。

具体实施方式

现在将详细参见实施例，其示例在附图中进行图示。虽然将结合所述实施例对本发明进行描述，但是将要理解的是，本发明并不局限于这些特定实施例。相反，本发明包括落入所附权利要求的精神和范围之内的替换、修改和等同形式。给出多种特定细节是为了提供对这里所呈现的主题的全面理解。但是对于本领域技术人员显而易见的是，所述主题可以在没有这些特定细节的情况下进行实践。在其它实例中，没有对已知的方法、过程、组件和电路进行详细描述以免不必要地对实施例的多个方面造成混淆。

图1是根据本发明一些实施例的分布式客户端-服务器计算系统100的框图，其包括信息服务器系统130。信息服务器系统130通过一个或多个通信网络120连接到多个客户端104和网站102。

网站102可以包括与互联网上的域名相关联的网页114的集合。每个网站(或网页)具有内容位置标识符，例如统一资源定位符(URL)，其唯一地识别网站在互联网上的位置。

客户端104(有时被称作“客户端系统”或“客户端设备”或“客户端计算机”)可以是客户端104的用户能够通过其向信息服务器系统130提交服务请求并从信息服务器系统130接收搜索结果或其它服务的任意计算机或类似设备。示例包括台式计算机、膝上计算机、平板计算机、诸如移动电话的移动设备、个人数字助理、机顶盒，或者以上的任意组合，但是并不局限于此。各客户端104可以包含至少一个用于向信息服务器系统130提交请求的客户端应用106。例如，客户端应用106可以是web浏览器或者允许用户在网站102进行搜索、浏览和/或使用信息(例如，网页和web服务)的其它类型的应用。在一些实施例中，客户端104包括一个或多个客户端助理108。该客户端助理108可以是执行与协助用户关于客户端应用106和/或其它应用的活动相关的一个或多个任务的软件应用。例如，客户端助理108可以协助客户端104处的用户浏览网站102所托管的信息(例如，文件)，处理从信息服务器系统130所接收的信息(例如，搜索结果)，并且监视用户针对搜索结果的活动。在一些实施例中，客户端助理108被嵌入在一个或多个网页(例如，搜索结果网页)或者从信息服务器系统130下载的其它文档中。在一些实施例中，客户端助理108是客户端应用106的一部分(例如，web浏览器的插件)。

通信网络120可以是有线或无线的局域网(LAN)和/或广域网(WAN)，诸如内联网、外联网、互联网，或者这些网络的组合。在一些实施例中，通信网络120使用超文本传输协议(HTTP)和传输控制协议/互联网协议(TCP/IP)在不同网络之间传输信息。HTTP允许客户端设备经由通信网络120访问可在互联网上获得的各种信息。然而，本发明的各个实施例不局限于使用任何特定的协议。如该说明书通篇使用的术语“信息项”是指可经由内容位置标识符(例如，URL)进行访问的任意信息片段或服务，并且例如可以是网页、包括多个网页的网站、文档(例如，图片、图像、绘图、书籍、XML文档、文字处理文档、电子表单文档、展示文档，或者可以使用搜索引擎进行索引并且被用于搜索的任意其它文档)、视频/音频流、数据库或数据库记录、计算对象、搜索引擎，或者其它在线信息服务。

在一些实施例中，信息服务器系统130包括前端服务器122、查询处理器124、搜索引擎126、简档管理器128、信息分类器136、查询日志数据库140、用户简档数据库132、信息分类种子数据库138和信息分类数据库134。在一些实施例中，信息服务器系统130还包括查询简档数据库142，而在其它一些实施例中，由于在查询简档被用来跨相应查询的搜索结果“传播”分类信息之后不被保留而并不需要该数据库142。信息服务器系统130从客户端104接收查询，对所述查询进行处理以产生搜索结果，并且将所述搜索结果返回进行查询的客户端104。(由进行请求的客户端104或者客户端104处的相应请求者所发送的)相应查询的搜索结果至少部分地基于来自信息分类数据库134的信息分类数据以及从用户简档数据库132所获得的查询请求者的用户简档而被进一步处理以产生要返回给进行请求的客户端104的搜索结果的有序集合。

前端服务器122被配置为从客户端104接收查询。该查询由搜索引擎126和查询处理器124进行处理以产生搜索结果的集合。查询处理器124被配置为使用信息分类数据库134中所存储的分类数据以及用户简档数据库132中所存储的用户简档信息来确定用于显示的搜索结果的顺序。可选地，查询处理器124被实现为搜索引擎126的一部分；可替选地，查询处理器124被实现为单独的服务器或服务器集合。

在从信息服务器系统130接收了搜索结果之后，客户端104向用户显示所述搜索结果。在一些实施例中，客户端助理108监视用户针对搜索结果的活动并且生成相应的搜索结果使用数据。所述搜索结果使用数据可以包括以下的一个或多个：用户对一个或多个搜索结果的选择(也被称作“点击”数据)、选择持续时间(用户选择搜索结果中的URL链接和用户从搜索结果文档退出或者选择搜索结果中另一个URL链接之间的时间量)，以及关于搜索结果的指示器活动。在一些实施例中，所述搜索结果使用数据被发送到信息服务器系统130，并且连同闪现(impression)数据一起存储在查询日志数据库140中以更新用户简档数据库132和信息分类数据库134。典型地，关于历史搜索查询的闪现数据包括所列出的每个搜索结果的一个或多个分值，诸如信息检索分值，以及指示搜索查询的搜索结果的顺序或者等同地每次搜索在搜索查询的搜索结果集合中的位置的位置数据。

查询日志数据库140存储历史查询信息，对于各查询而言，所述历史查询信息包括查询的查询词语(206，图2A)、搜索结果(210-1，图2A)、闪现数据(例如，搜索结果的一个或多个信息检索(IR)分值和(指示所显示的搜索结果的顺序的)搜索结果的位置数据，以及搜索结果的点击数据(搜索结果的用户选择))。在一些实施例中，关于各查询的存储在查询日志数据库140中的历史查询信息还包括搜索结果的用户导航统计数据。可选地，各查询的历史查询信息进一步包括其它信息，诸如搜索请求者的位置信息(例如，城市、州、国家或地区)以及查询语言。其信息被存储在查询日志数据库140中的查询是来自用户群体的查询，诸如对应搜索引擎126的所有用户。在一些实施例中，所述系统包括多个查询日志数据库，或者查询日志数据库140被分区，其中每个查询日志数据库或分区存储与从相应用户群体接收的查询相对应的记录，所述用户群体诸如以特定语言(例如，英语、日语、中文、法语、德语等)提交查询的所有用户，从特定国家或其它司法管辖区或者从特定IP地址范围提交查询的所有用户，这些标准的任意适当组合。

用户简档数据库132存储多个用户简档，每个用户简档对应于相应的用户。在一些实施例中，用户简档包括多个子简档，每个子简档依据预定义的标准对用户的相应方面进行分类。在一些实施例中，用户简档对应于用户组(例如，共享特定客户端104的用户，或者从特定网站或网页访问搜索引擎的所有用户)。用户简档数据库132至少可由查询处理器124和简档管理器128访问。简档管理器128创建并维护信息服务器系统130的用户的至少一些用户简档。如以下更为详细描述的，简档管理器128使用查询日志数据库140中所存储的用户的搜索历史来确定用户的搜索兴趣。

信息分类数据库134存储互联网上各种信息项的分类数据，并且至少可由查询处理器124和信息分类器136访问。如以下结合图5A所讨论的，信息分类器136被配置为对信息项进行分类或归类并且将分类数据存储在信息分类数据库134中。在一些实施例中，信息分类器136使用查询日志数据库140中所存储的历史查询信息(例如，闪现数据和结果使用数据)和信息分类种子数据库138中所存储的一些分类信息项的分类种子数据为那些还没有分类的信息项生成分类数据。

信息分类器136依赖于查询日志数据库140中的历史查询信息来构建并维护信息分类数据库134。如以下将参考图3C所描述的，信息分类器136还被配置为使用信息分类数据库134中的分类数据和历史查询信息来生成用户简档信息。

图2A图示了依据一些实施例的用于存储涉及用户集合的历史查询信息的数据结构200。数据结构200包括多个查询记录202-1-202-N，每个记录对应于相应用户在相应时间从相应位置提交的信息服务器系统130针对其维护查询相关信息的查询。在一些实施例中，查询记录202可以包括以下中的一个或多个：用户ID(识别提交与记录202相对应的查询的用户)和会话ID 204；查询的查询词语206；以及包括表示所述查询的搜索结果的多个URL ID(例如，210-1...210-Q)的查询历史信息208，以及关于搜索结果中的URL ID的附加信息(212-1...212-Q)。在一些实施例中，相应查询的查询记录202仅存储前Q个(例如，40或50个)搜索结果的信息，即使查询可能生成数目远大于此的搜索结果。

在一些实施例中，查询历史信息中相应URL ID的附加信息包括URL的闪现数据(例如，IR(信息检索)分值，其是URL与查询的相关度的量度，以及URL在搜索结果中的位置)；URL的导航率(URL的用户选择和诸如查询提交之前的一周或一个月的特定时间段内针对相同查询的搜索结果中所有URL的用户选择之间的比率)；以及指示URL是否被用户在所有URL中选择的点击数据。注意，URL的导航率指示其在已经提交相同查询的用户之间关于其它URL的流行度。可选地，与URL相关联的附加信息识别包含该URL的信息项，诸如其它网页、图像、视频、书籍等。在一些实施例中，查询记录202还包括查询的地理和人口统计信息，如提交查询的国家/地区以及查询的语言。例如，对于从不同国家或者在不同时间提交的相同查询词语集合，搜索结果可能有所不同。如以下将会解释的，查询日志数据库中的信息可以被用来对大量URL生成准确的分类数据。

用户ID 204是用于识别提交查询的用户(有时是客户端)的唯一标识符。在许多实施例中，为了保护系统用户的隐私，用户ID 204唯一地识别用户或客户端，但是不能被用来识别用户的姓名或其它识别信息。这同样应用于以下关于图2D所讨论的用户简档记录242的用户ID244。在一些实施例中，在用户第一次登录到信息服务器系统或者在之前的会话期满之后再次登录到系统时，在客户端104和信息服务器系统130之间建立网络通信会话。在任一种情况下，都为会话创建唯一的会话ID 204，并且其成为查询记录202的一部分。查询词语206可以是用户原始提交的那些词语或者被规格化为服务器系统所采用的格式的那些词语。

对于每个查询，信息服务器系统130识别对应于该查询的一组搜索结果。典型地，搜索结果包括URL(或IP地址)、来自URL所识别的网页的文本摘录以及其它辅助项。搜索结果的集合依据它们对于查询的相应相关度进行排序，以使得更加相关的结果在较不相关的结果之前显示。例如，如果存在每页显示不超过10个结果的限制，则45个搜索结果的集合被划分为5个结果页面。在第一页面上显示的结果被认为与第二页面上的结果相比与查询更加相关并且因此被首先显示。在一些实施例中，所显示的搜索结果页面也被称作搜索结果的闪现。在一个结果页面或者搜索结果的一个闪现内，处于浏览器窗口顶端或顶端附近的位置被保留给更为相关的结果，这是因为其通常比窗口中的其它地方受到更多关注。

在客户端104，客户端助理108监视用户针对所显示的搜索结果的活动，诸如用户访问的闪现、用户花费在不同搜索结果上的时间量(例如，通过追踪用户光标在搜索结果上的位置)以及用户所点击的URL链接。该用户交互信息以及表征搜索结果使用的其它数据被发送回信息服务器系统130并且连同相应的URL ID 210一起存储在数据结构200中(在查询历史信息208中)。

图2B描绘了依据一些实施例的用于存储查询简档的示例性数据结构220的框图。与图2A的数据结构类似，数据结构220包括多个查询简档记录214-1至214-P，其中的每一个对应于一个用户所提交的查询。当许多用户提交了相同的查询时，单个查询简档214存储该查询的简档信息。在一些实施例中，每个查询简档记录214包含识别特定查询的查询ID 215、查询中的相应查询词语集合216以及用于对查询分类的类别列表217。可选地，查询简档214可以被分配整体查询权重221，其不仅反映类别列表217中类别权重的总和，而且还反映指示查询简档有多可靠或者查询简档与查询结果的简档关联多强的一个或多个附加因素或量度。这在以下更为详细地进行讨论。

在一些实施例中，类别列表217包括一个或多个配对(类别ID 218，权重219)。类别ID 218可以对应于特定类型的信息，诸如新闻、体育、旅行、金融等，而权重219是衡量查询和相应信息类型之间的相关性的数字。例如，查询词语“golf(高尔夫)”可能对于体育和运动商品的类别具有相对高的权重，而对于信息技术(IT)的类别则具有低权重。在一些实施例中，类别ID 218对应于“概念集群”，其可以通过集群过程产生，例如，其可以或可以不被轻易标记以类别名称。如以下将结合图3A进一步描述的，信息分类器136从查询日志数据库140中的历史查询信息以及来自信息分类种子数据库138的分类数据来构建查询简档。

在以下所描述的一些实施例中，生成、使用并接着处理单独的查询简档214而并不在数据库或其它收集性数据结构220中存储查询简档。

图2C是依据一些实施例的用于存储信息项集合的分类数据的示例性数据结构240的框图。数据结构240的一个实例可以被用来存储信息分类种子数据库138的分类数据，而该数据结构240的另一个实例可以被用来存储信息分类数据库134的分类数据。

数据结构240包括多个分类数据记录222-1至222-N(这里也被称作URL简档记录或文档简档记录)，其中每一个对应于互联网上的信息项(例如，网页或网站)。在一些实施例中，每个分类数据记录222包含诸如URL 224的信息项定位符、一个或多个属性(例如URL文本、锚标签、页面排名等)、用于对信息项进行分类的类别列表228，并且可选地用于对信息项进行分类的其它简档230。类别列表228包括一个或多个(类别ID 228，权重229)的配对。如以下将结合图3B进一步描述的，信息分类器136使用来自查询日志数据库140的历史查询信息以及来自查询简档数据库142的查询简档为信息项生成分类数据。

图2D是依据一些实施例的用于存储用户集合的用户简档的示例性数据结构260的框图。数据结构260包括多个用户简档记录242-1至242-P，其中每个对应于信息服务器系统130的特定用户(或者如以上所描述的用户组)。在一些实施例中，每个用户简档记录242包括用户ID244和类别列表248，所述类别列表248包括表示用户搜索兴趣的一个或多个(类别ID 249，权重250)的配对。可选地，用户简档记录242包括一个或多个定制偏好246(例如，喜好标题、搜索结果的优选排序)，其可以由用户手工指定(例如，使用为此所配置的web表单)。此外，用户简档记录242可以可选地包括从不同方面对用户的搜索兴趣进行分类的其它类型的用户简档。这些用户简档可以由简档管理器128生成以在需要时补充或替代类别列表248。

注意，一个网页或查询或用户的类别列表可能与另一个的不同。例如，一个网页可以具有体育类别和相应的权重，而另一个网页可能与体育完全无关并且因此可能在每个类别列表中具有完全不同的类别集合。在一些实施例中，不同网页、查询和用户的分类数据被规范化以使得对于不同实体的类别列表中出现的相同类别，它们各自的权重是可比较的。因此，当第一用户的简档对于相应类别比第二用户的简档具有较高的权重时，这指示第一用户比第二用户对该相应类别的兴趣水平更高。

通常，诸如网站或网页之类的信息项或用户可能通过多个简档(230，252)和/或类别列表(228，248)进行分类。不同的简档和类别列表可以从不同角度表征相同的主题，并且因此具有不同的用途。为了简要和说明，本发明的实施例假设信息项对应于由URL唯一识别的网页。贯穿该说明书，诸如“分类数据”、“简档”、“类别列表”、“集群”等的术语可互换使用，其中每一个可以数学地表示为稀疏矢量。网页的分类意味着为该网页生成类别列表。但是如背景技术部分中所指出的，许多网页是未分类或错误分类的。因此，本发明的一个方面是如何将分类网页的分类数据(例如，存储在信息分类种子数据库138中的数据)“传播”到那些未分类的网页或网站上以为所述未分类的网页或网站生成准确的分类数据。注意，这种传播分类数据的过程不要求未分类网页的内容的先验知识并且因此在计算上是高效的。

在一些实施例中，从分类网页向未分类网页传播分类数据的过程涉及两个步骤：(i)从分类网页向与分类和未分类网页两者相关的查询传播分类数据；和(ii)从查询向未分类网页传播分类数据。注意，术语“传播”从分类数据提供者的角度描述该过程，所述分类数据提供者即最初分类的信息项。但是从分类数据接收者的角度来看，即从最初未分类的信息项的角度来看，该过程是两步骤的聚集操作：(i)将来自不同的分类网页的分类数据的加权贡献聚集到与该查询的分类数据相同的查询；和(ii)将来自不同查询的分类数据的加权贡献聚集到与该网页的分类数据相同的未分类网页。图3A和3B是更详细图示两步骤过程的流程图。

具体地，图3A是图示依据一些实施例的用于构建查询简档数据库142的示例性方法300的流程图。该方法使用来自查询日志数据库140的历史查询信息以及来自种子数据库138的分类数据对多个用户在一个时间段(例如，过去六个月)内所提交的查询集合建立简档。这里所描述的每种方法可以通过指令进行管理，所述指令存储在计算机可读存储介质中并且由一个或多个服务器或客户端的一个或多个处理器执行。此外，图3A-3C中所示的每个操作可以对应于计算机存储器或计算机可读存储介质中存储的指令。

在一些实施例中，历史查询信息包括查询词语、对应于查询词语的搜索结果、搜索结果的闪现数据(例如，分值、位置数据)以及追踪用户与搜索结果的交互的信息(诸如点击数据)。分类种子数据包括多个稀疏矢量，其中每一个提供特定网页(或网站)的集群信息。这些稀疏矢量是网页与各种主题、标题或概念集群的相关度的最初估计。可以使用本领域的许多已知方法(例如，网页内容、关键词语和/或链接的分析)来生成这些稀疏矢量。作为最初估计，这些稀疏矢量可以不是完全准确或完整的。如以下将要描述的，生成分类数据的两步骤过程在一些实施例中可以是迭代过程。分类数据的迭代传播不仅能够为未分类的网页生成分类数据，而且还能够对包括其数据已经被用作种子数据的那些最初分类的网页在内的先前分类的网页的分类数据进行更新。

来自被用来为URL集合生成分类数据的查询日志数据库140的历史查询信息对应于来自用户群体的历史查询。所述用户群体可以是与查询日志数据库140相关联的搜索引擎的所有用户，或者其可以是该搜索引擎的所有用户的子集，诸如以特定语言提交查询的用户，来自特定司法管辖区或地理区域的用户，从特定IP地址范围提交查询的用户，或者这些标准的任意适当组合。

使用从查询日志数据库140检索(302)的查询日志信息以及从种子数据库138检索(304)的分类数据作为输入，信息分类器136为用户所提交的查询生成(306)查询简档。为了说明，本文描述了其中种子数据库138中的分类数据是用于多个URL的分类数据的实施例。然而，在其它实施例中，种子分类数据不局限于用于URL的分类数据。例如，数据库138中的种子分类数据可以包括用于网站的分类数据(与URL级别的分类数据相比，其可以被称作网站级别的分类数据)。只要种子分类数据合理地准确并且有足够数量的查询日志数据，信息分类器136就能够准确并广泛地传播种子分类数据从而为大量还没有通过传统方法准确建立简档的URL生成分类数据。

首先，信息分类器136在查询日志数据库140中选择(具有查询词语集合的)查询日志记录。对于相应查询，信息分类器识别(308-1)搜索结果以及对应于搜索结果的URL。如果相同的查询出现在表示来自不同用户和不同时间的不同搜索请求的多个查询日志记录中，则在相应的搜索结果之间可能存在差异。在一些实施例中，通过将搜索结果分组到一起并且对相应的查询日志进行分析，信息分类器选择其相关联的网页被认为与查询相关的URL集合。注意，由于三个术语之间一对一的映射，术语“URL”、“网页”和“搜索结果”经常贯穿说明书可互换地使用。

在为所处理的查询日志记录识别了URL集合(308-1)之后，信息分类器136对所识别的URL的分类应用(308-2)加权标准。所述加权表征用于估计每个URL与查询的相关度。在一些实施例中，所述加权标准包括URL的IR分值、导航率、闪现、位置和点击数据。这些加权标准被用来确定对应于URL与查询的相关度的权重(或分值)。例如，出现在与特定查询相对应的搜索结果顶端或顶端附近的URL被认为与出现在搜索结果较低位置的其它搜索结果相比与所述查询更加相关。类似地，具有高导航率的URL，即历史上以高比率被提交相同查询的用户选择的URL，在考虑其与查询的相关度时被给予与(在搜索结果的类似位置的)具有较低导航率的URL相比更大的权重。因此，URL的种子分类数据被认为与查询高度相关并且因此在生成查询简档时被给予更大权重。在一些实施例中，少数最为相关的URL(例如，搜索结果的第一页面前两个、三个或四个URL)被给予完整权重1，而那些较不相关的URL的权重则作为其相应搜索结果位置、IR分值、导航率、点击数据以及还有潜在的其它特定于URL的参数的函数而逐渐减小。

如以上所提到的，可以使用点击数据来修改基于搜索结果位置向URL分配的权重。例如，已经被用户选择观看的搜索结果可以被分配最高的可能权重(例如，与最高排名的搜索结果相同的权重)。可替选地，已经被用户选择观看的搜索结果的权重可以被给予预定的提升(例如，作为固定增加或百分比增加)；可选地，可以应用上限来限制所产生的权重以使其不超过预定义的最大权重。

接下来，信息分类器将URL的加权分类数据聚集(308-3)为查询自己的分类数据，即查询的简档。由于先前的加权步骤，查询的简档应当与具有更高权重的那些URL的分类数据更加类似。注意，(搜索结果中的)不存在其种子分类数据的URL对于查询的简档没有影响。虽然将分类数据从URL传播到查询的这个过程可能并没有明确考虑URL所识别的网页的内容以及它与查询的相关度，但是应当注意的是，诸如搜索结果的闪现数据(例如，IR分值、位置数据)和点击数据的历史查询信息已经包括了网页内容的影响。

如以上所讨论的，在生成查询简档时，聚集操作308-3仅使用了来自已经被分类的URL的分类，并且因此在种子数据库138中具有分类数据。然而，在一些实施例中，在查询简档分类过程300的后续迭代中，查询分类过程的“种子数据”可以是在URL分类过程320的较早迭代期间所分类的URL的分类数据(在以下描述)。换句话说，在查询分类过程300的后续迭代期间，种子数据库138可以被在URL分类过程320的较早迭代期间所生成的信息分类数据库134(或者该数据库的子集)替代。

最后，在一些实施例中，信息分类器将所生成的查询简档存储(310)在查询简档数据库142中。在这些实施例中，如以上结合图3A所描述的，传播过程首先从分类URL的分类数据生成查询简档，并接着从所述查询简档生成未分类URL的分类数据，如以下结合图3B所描述的。

在其它实施例中，在生成每个查询简档之后，该查询简档的加权副本(例如，对应于所述查询简档的查询日志记录中所列出的每个搜索结果的加权副本)被写入中间结果表(720，图7)中的条目。可选地，当不再需要向与相应查询日志记录相关联的URL传播信息时，查询简档不被存储在查询简档数据库中。在这些实施例中，在所有的查询日志记录都已经被处理之后，所述中间结果表中每个URL的条目被聚集以产生已经将其充分的分类信息写入所述中间结果表的每个URL的相应简档。这些实施例的控制流程表示在表1中提供。具体地，在第一阶段，对每个查询日志记录进行处理以产生查询简档，并接着通过对查询日志记录中所列出的每个URL(或者可替选地，查询日志记录中所列出的URL的所识别主题中的每个URL)在中间结果表中产生条目来“传播”所述查询简档。(用于被处理的查询日志记录的)在中间结果表中存储的每个条目对应于查询记录中所列出的搜索结果的特定URL，并且包含所述查询简档的加权版本。如以上更为详细解释的，在对应于特定URL和特定查询的条目中，给予所述查询简档的权重是基于URL与查询的相关度。在第二阶段，在中间结果表已经被填充来自查询日志记录处理的条目之后，每个URL的条目被聚集以产生该URL的分类数据，并且对每个URL所产生的分类数据被存储在分类数据库中。如另外更为详细解释的，如果用于URL的条目的数目小于阈值，或者其它质量标准没有得到满足，则用于URL的分类数据不被生成或者不被存储在分类数据库中。

表1

//第一阶段//

对于每个查询日志记录{

通过对查询日志记录中列出的URL的种子分类数据进行聚集来生成查询简档(见图3A的描述)；

可选地，查询简档不存储在查询简档数据库中；

对于查询日志记录中列出的每个URL(可替选地：对于查询日志记录中列出的URL的识别子集中的每个URL){

在中间结果表中生成条目(以URL为键)，其是用于查询日志记录的查询简档的加权版本(见操作328-5的描述，图3B)；

}

//第二阶段//

对于中间结果表中的每个不同URL{

聚集用于该URL的加权查询简档以生成用于URL的分类数据(见操作328-6的描述，图3B)；

将用于URL的分类数据存储在信息分类数据库中(见操作330的描述，图3B)

}

在任意这些实施例中，为URL生成分类数据的过程可以对查询日志记录中列出的所有URL执行，包括分类和未分类的URL，或者可替选地，该过程可以仅对未分类URL生成分类数据(在这样的情况下，用于分类URL的种子分类数据仍然为那些URL的分类数据)。可替选地，可以基于各种选择标准对查询日志记录中列出的URL的其它子集生成分类数据。

现在参见图3B，至少部分基于从查询日志数据库140检索(322)的查询日志信息以及从查询简档数据库142检索(324)的查询简档，信息分类器136生成/更新(326)通过搜索结果中找到的URL所识别的页面的分类数据。首先，信息分类器136从查询日志数据库140识别(328-1)查询集合以及相应的查询历史。注意，该查询集合可以是信息分类器136先前所识别的相同查询集合，并且每个查询在查询简档数据库142中具有相关联的查询简档。每个查询与多个搜索结果相关联，其中一些被分类(例如，在种子数据库138中具有分类数据)而一些则没有。

信息分类器136接着从查询简档数据库142识别(328-2)对应于查询集合的查询简档。这些查询简档被用于生成/更新搜索结果中找到的至少一些URL的分类数据。如以上所提到的，至少部分地基于对应于相同查询的不同搜索结果集合中的不同URL的分类数据来构建查询简档。但是它们的贡献可以根据每个URL与特定搜索结果集合中的查询的相关度而发生变化。如以上所提到的，用于产生查询简档而对URL分类数据进行的聚集依据查询的搜索结果中的URL的IR分值、导航率、搜索结果位置和点击数据而被加以权重。

相互地，URL的分类数据可以至少部分地从其中列出URL作为搜索结果的查询的简档得出。在一些实施例中，这些查询简档对于URL的分类数据的贡献取决于如查询的搜索结果位置数据和点击数据所指示的URL与每个查询的相关度。例如，假设URL出现在对应于两个不同查询A和B的搜索结果中。对于查询A，URL出现在搜索结果的顶端并且还被用户选择；对于查询B，相同的URL位于搜索结果的第五页并且从未被用户选择和观看。这样的加权信息从相应的查询日志信息识别(328-3)或得出。当确定两个查询简档对于URL的分类数据的贡献时，假设与两个查询相关联的任何其它加权因素基本相同，则信息分类器136对它们应用(328-4)加权标准以使得查询A的简档被给予高于查询B的简档的权重。

在一些实施例中，信息分类器136将加权的查询简档存储(328-5)在中间结果表中。对于给定的URL，中间结果表中的每个条目表示一个加权的查询简档对于该URL的分类数据的贡献。在该表中的查询ID和URL ID之间存在多对多的映射。对于给定查询ID，可以在表中找到一组URL ID，每个URL ID对应于查询简档的加权版本。对于给定URLID，能够在表中找到一组条目，URL ID出现在其搜索结果中的每个查询都有一个条目。以另一种方式来讲，操作328-5通过以下来执行：对于日志中的每个查询，将搜索结果中每个URL的条目存储到中间结果表中；所述条目包括所述查询的查询简档中的类别列表的加权版本。对于查询日志中的每个查询重复该操作，由此在中间结果表中生成非常大量的条目。接着，通过以下执行聚集操作328-6：对于中间结果表中的每个不同URL，聚集中间结果表中的所有条目。

在一些实施例中，URL的聚集分类数据被规范化，以使得1)对于不同URL的类别列表中出现的相同类别，它们各自的权重是可比较的；并且2)URL出现在搜索结果中的查询的总数对于该URL的分类数据(类别列表)中的类别权重的强度影响很小或没有影响。例如，作为规范化的结果，出现在查询日志中的100个查询的结果中的URL的类别权重总和不低于出现在查询日志中的500个查询的结果中的URL的类别权重总和。在一些实施例中，如果其中出现URL的查询的总数低于预定阈值，则由于没有足够的数据来产生充分可靠的URL而不产生该URL的简档。注意，查询权重或加权因素与中间结果表中的每个条目相关联，其基于查询简档的总权重以及条目的URL和查询之间的链接强度。当对相应URL的分类数据进行聚集(328-6)时，在确定URL简档222中的类别的最终权重229(图2C)时，对应于URL的表条目的查询权重总和被用作规范化因数(例如，作为除数)。

此外，在一些实施例中，当通过聚集操作328-6所产生的相应URL的类别228(图2C)的列表包含多于预定数量的不同类别时，该列表被截短或过滤从而在排除掉最低权重的类别ID的同时保留具有未过滤类别列表中的类别的总权重的至少预定百分比(例如，90％)的最高权重的类别ID。

在聚集操作328-6完成时，用于每个URL的分类数据被存储(330)在信息分类数据库134中。

如以上所解释的(见表1以及表1所示的控制流程的描述)，在一些实施例中，以逐个查询记录为基础来执行以上所提到的将分类数据从分类URL传播到未分类URL的过程，而不产生查询简档数据库。

在一些实施例中，与查询记录相关联的查询词语的数目也被纳入到加权以及分类数据从查询简档到相应查询记录的搜索结果中所列出的URL的传播的因素之中。通常，查询具有的词语越多，查询就更加特定，并且搜索结果关于主题性就更为集中。相反，查询所具有的词语越少，该查询就越模糊并且搜索结果就更加可能包括关于不同主题的结果。例如，对应于“jaguar(美洲虎)”的单个词语的查询的搜索结果包括http://www.jaguar.com/global/default.htm，这是Jaguar品牌的豪华汽车的官方网站，并且包括http://en.wikipedia.org/wiki/Jaguar，这是与被称作美洲虎的大型猫科动物相关的维基百科网页。与之相比，对应于两个词语的查询“jaguar car”的搜索结果仍然包括Jaguar品牌豪华汽车的官方网站。但是这些搜索结果将不包括与被称作美洲虎的大型猫科动物相关的网页，但是相反会包括与汽车的Jaguar品牌相关的其它搜索结果，诸如http://en.wikipedia.org/wiki/Jaguar_Cars，这是与Jaguar汽车品牌的历史相关的维基百科网页。

在一些实施例中，查询的分类数据(也被称作查询简档)对于查询的搜索结果中所列出的URL的分类数据的贡献依据该查询中的查询词语的数目而被加以权重。例如，一个单词(或者以一些亚洲语言的一个字符)的查询的临时分类数据被给予最低权重。查询所具有的单词或字符越多，对其分类数据所分配的权重就越高。因此，关于特定查询，在该查询包含多个词语时，在中间结果表中用于特定URL的条目将具有该查询的分类数据的较高权重的副本，并且在该查询仅包含单个词语时将具有该查询的分类数据的较低权重的副本。根据特定语言，查询长度在对分类数据加权中的角色在其达到最小阈值(例如，英语和其它一些语言中的两个或三个单词)时变得较不重要。

查询的模糊性或特定性的其它量度包括相应分类数据的分布。对于例如“jaguar car”的特定查询，搜索结果的大部分(如果不是全部)应当被限制为一个主题，即豪华汽车品牌。结果，从相应搜索结果的分类数据所得出的该查询的临时分类数据将集中于相同的主题。与之相比，如“jaguar”的较不特定的查询应当看到分类数据分布在至少两个主题上，即豪华汽车品牌和大型猫科动物。另一种度量查询的模糊性或特定性的方式是检查搜索结果中的URL的分类数据的关联，例如通过对URL的成对余弦相似度求平均。以另一种方式来讲，搜索结果的平均余弦相似度对应于搜索查询的特定性水平(或者作为其量度)。例如，搜索结果的平均余弦相似度在搜索结果彼此非常相似时(例如，大多数结果涉及单个主要主题)为高，这指示搜索查询具有高度的特定性。搜索结果越多样化，平均余弦相似度就越小，这指示搜索查询具有低特定性。

类似用户的浏览历史，用户的搜索历史(诸如用户所提交的查询以及用户所选择的搜索结果)也是对用户的搜索兴趣建立简档的良好源。图3C是图示基于用户所选择的搜索结果URL的分类数据构建用户简档的示例性过程340的流程图。

至少部分基于从查询日志数据库140检索(342)的查询日志信息以及从信息分类数据库134检索(344)的分类数据，信息分类器136从查询日志数据库140识别(348-1)相应用户所提交的查询集合以及相应的查询历史。从所述查询历史，信息分类器136识别(348-2)用户所选择的搜索结果以及相应的URL。对于每个URL，信息分类器从数据库134识别(348-4)其分类数据。

在一些实施例中，信息分类器136将用户所选择的搜素结果URL的分类数据聚集(348-5)到用户简档中。注意，在对URL的分类数据进行聚集时可以使用不同的加权或过滤标准。例如，在一些实施例中，URL被用户选择的频率被纳入URL的分类数据的权重的因素。在一些实施例中，当两个URL具有相似的用户点击数时，用户已经对其证实了持久兴趣(例如，一个月内大约平均传播了N次用户点击)的URL的分类数据在确定用户简档时被给予比类似的用户点击数集中在短时间段中(例如，一两个小时)的URL更大的权重。在一些实施例中，还考虑查询的时间新近度(recency)，以使得与较为新近的查询相关联的URL的分类数据被给予比与较久远的查询相关联的URL的分类数据更高的权重。在一些实施例中，在对用户建立简档时还考虑特定集群或类别的重要性。例如，包括用户的个体组的共同集群或类别对于确定用户兴趣的帮助较小并且应当被给予比更为不同的集群或类别更低的权重。

所产生的用户简档接着被信息服务器系统130用来为用户提供个性化服务。例如，响应于来自用户的查询，搜索引擎126识别搜索结果集合并且所述搜索结果最初通过其与查询的相关度进行排序。在向进行请求的用户返回搜索结果之前，查询处理器124能够通过将每个搜索结果的分类数据与用户简档相比较来对搜索结果进行重新排序。如果均被表达为稀疏矢量，则可以通过计算两个矢量的余弦或点积来确定所述比较。搜索结果接着至少部分基于它们的点积而被重新排序，并且接着被传送到请求用户的客户端设备104，以便在客户端设备104向请求用户进行显示。

在一些实施例中，信息分类器136还识别(348-3)用户所提交的查询的查询简档，并且将查询简档和用户所选择的URL的分类数据聚集(348-5)在用户简档中并且将所产生的用户简档存储(350)在数据库132中。

注意，以上参考图3A、3B和3C所描述的三种方法中的任一种都可以是迭代过程。信息分类器以种子数据库138中有限数目的URL的分类数据作为开始并且将所述分类数据传播到查询简档集合、那些未分类URL的分类数据以及用户简档集合中。如图3A-3C所示，历史查询信息在对查询、URL或用户建立简档时扮演重要角色。传播分类数据的过程是进行中的过程，随时间重复或更新，原因在于查询日志数据库持续累积新的查询日志信息。新的查询历史不仅提供更多数据点来精化URL的分类数据，而且保持了对许多用户的搜索兴趣的动态方面的追踪。

在一些实施例中，信息分类器136重复以上所描述的过程以更新查询简档数据库142、信息分类数据库134和用户简档数据库132中的一个或多个。在一些实施例中，选择信息分类数据库134的子集作为新的种子数据库138来传播分类数据。在一些实施例中，信息分类种子数据库138由另一种集群方法生成。

在一些实施例中，在开始传播新一轮的分类数据之前，信息分类器136可以刷新查询简档数据库142、信息分类数据库134或用户简档数据库142，以使得不保存遗留的分类数据。在一些其它实施例中，如果这些数据记录被视为仍然可靠和有用，则信息分类器136可以保留查询简档数据库142、信息分类数据库134或用户简档数据库132中的数据记录的至少子集。

在一些实施例中，如果与网站相关联的网页的至少子集的分类数据是已知的，则以上所提到的方法可以被用来对网站建立简档。这可以通过不同网页的分类数据的直接聚集来实现。可替选地或除此之外，不同网页的分类数据依据它们在网站层级中的相应位置以及相应网页在特定时间段期间的流行度或用户使用数据被加以权重。以另一种方式来讲，在对网页分类数据进行聚集以产生网站的简档时，可以依据以下对网站内的网页的分类给予权重：1)网站的网页上的用户点击数，或者2)网页和网站主页之间的指示器(director)水平的数目，或者其二者。

在一些实施例中，与网站的大部分网页相关联的集群或类别被给予比与网站的小部分网页相关联的集群或类别相对更高的权重。在一些其它实施例中，网站(例如，en.wikipedia.com)中至少最小数量的网页之间缺少至少一个共同集群或类别可以防止该网站被分类。

出于说明的目的，历史查询信息350包括两个用户所提交的查询Q1和Q2。但是在现实中，大量查询日志条目被存储在查询日志数据库140中，每个查询日志条目对应于用户在特定会话期间所提交的查询。包括一个或多个查询词语的查询具有相应的查询结果集合和用户使用数据。

为了简要，两个查询Q1和Q2中的每一个与三个网页A、B和C相关联，每个网页具有指示该网页与相应查询的相关度的权重因数W。如以上所解释的，所述权重因数会受到相应网页的内容、其在互联网上的流行度以及诸如闪现、位置和点进之类的相关联用户使用数据影响。在该示例中，假设所述三个网页中的两个A和B已经被分类并且其相应的分类数据可以在种子分类数据360中找到。虽然作为搜索结果的一部分，但是网页C在种子分类数据360中没有相关联的分类数据。但是网页C与网页A和B一起出现在与Q1和Q2的搜索结果中的事实建议了可能至少基于网页A和B的种子分类数据来预测网页C的分类数据。

在一些实施例中，该预测的第一步骤是为Q1和Q2构建分类数据或简档，其在此有时被称作种子分类数据的传播。如图3D所示，两个查询简档370 QP_1和QP_2被定义为所述两个网页经相应权重因数调整的分类的函数。该预测的第二步骤是通过将两个查询简档投影到网页C的分类数据的域中为未分类的网页C构建分类数据。由于两个加权因数W1(C)和W2(C)至少在一些方面指示网页C与所述两个查询的相关度，所以这些权重因数被用来确定相应查询简档对于网页C的分类数据的贡献。应当注意的是，图中以及贯穿说明书的任意地方的数学表达式仅是为了说明的目的。如以上结合图3A所描述的，还存在其它方式对网页A和B的分类数据在其各自对查询简档的构成方面的贡献进行聚集和加权，并且也还有其它的方式对查询简档QP_1和QP_2的分类数据在其各自对网页C的分类数据的贡献方面进行聚集和加权。

应当注意的是，典型查询的搜索结果对应于数百或者甚至数千个网页，并且在由不同用户提交或者甚至由相同用户在不同时间提交时，相同的查询会具有稍微不同的搜索结果集合。通过相同的标志，相同的网页可以出现在对应于不同用户所提交的查询的不同搜索结果集合中并且能够获得不同的用户响应。图3D中所示的示例，即两个查询简档中的每一个从两个网页的分类数据生成并且网页C的分类数据从两个查询简档生成，仅是用于说明。

在一些实施例中，给定查询和网页之间多对多关系的属性，信息分类器仅使用网页子集的分类数据来构建查询简档或者使用加权因数来使得一个子集优先于另一个子集。例如，如果网页针对其出现在相应搜索结果中的查询的数目低于预定极限，则该网页可以在传播分类数据时被跳过。类似地，信息分类器可以仅考虑查询子集的简档来估计未分类网页的分类数据，或者可以依据预定的启发式算法而使得一个子集的权重高于另一个子集。例如，分类数据从分类网页向未分类网页的传播可以被限制为特定查询。在一些其它实施例中，传播的范围可以被扩展以覆盖例如相同会话内的不同查询，或者相同用户所进行的不同会话，或者相同用户组所进行的不同查询。

图4是图示依据一些实施例的用于使用用户简档和分类数据处理查询并且对相应查询结果进行排序的示例性过程400的框图。Web门户服务器402通过查询入口接口或过程404接收查询，并且向进行请求的客户端104发送结果信息(其例如可以通过结果页面组合过程或模块406被格式化为网页)以便在客户端104进行显示。所接收的请求由搜索引擎405进行处理以产生与查询420相匹配或以其它方式满足查询420的搜索结果的集合422。搜索引擎405可以包括一个或多个查询处理模块或过程408，其控制或监督对搜索索引分区412的集合搜索文档或者与查询420相匹配的其它搜索结果。搜索结果的列表被搜索引擎返回422，并且该列表中的搜索结果接着根据进行请求的用户的相应用户简档(来自用户简档数据库132)和搜索结果的分类数据(来自信息分类数据库134)进行排序410。包括所排序的搜索结果的结果信息被转发到结果页面组合模块406以便转换为适于发送到进行请求的客户端的格式(例如，网页或XML文档)。在一些实施例中，搜索引擎405包含用于执行过程400的所有系统组件。

图5A是图示依据一些实施例的用于生成分类数据并且使用所述分类数据提供定制服务的示例性过程500的流程图。就某个程度而言，该过程500是以上结合图3A-3C所单独描述的三个过程的概括。

在服务器系统处，过程访问(502)查询的历史查询信息以及它们相关联的搜索结果。例如，所述历史查询信息可以对应于查询日志数据库中存储的查询历史。一些搜索结果对应于最初被分类的信息项而其它对应于最初未分类的信息项。为了简明，最初被分类的信息项被称作“第一信息项”，而最初未分类的信息项被称作“第二信息项”。从信息分类种子数据库，该过程访问第一信息项的分类数据。使用所述历史查询信息和种子分类数据，该过程生成(504)第二信息项的分类数据并且将所生成的分类数据存储(506)在诸如图1的信息分类数据库134的服务器系统中。

在一些实施例中，为了对最初未分类的信息项生成分类数据，该过程生成识别(504-1)历史查询信息中的查询集合。查询的至少子集每一个具有对应于最初未分类的信息项的相关联的搜索结果。该过程接着基于第一信息项的分类数据以及查询集合的历史查询信息为每个查询生成(504-2)分类数据或查询简档。

在一些实施例中，对于每个查询，所述过程识别对应于查询的搜索结果集合以及对应于搜索结果集合的第一信息项的集合(例如，图3A的308-1)。接下来，该过程依据诸如它们的相应预定义信息检索分值、它们相对应的搜索结果在搜索结果集合中的位置以及表示用户与相对应搜索结果的交互的信息对所识别的第一信息项的分类数据进行加权(例如，图3A的308-2)。最后，该过程对所识别的第一信息项的加权分类数据进行聚集以生成查询的分类数据，也被称作其查询简档(例如，图3A的308-3)。

使用所识别的查询的查询简档以及查询的历史查询信息，该过程对最初未分类的信息项生成(504-3)分类数据。在一些实施例中，这包括识别查询集合(例如，图3B的328-1)以及从查询简档数据库检索相应的查询简档(例如，图3B的328-2)。对于每个查询，该过程识别对应于查询的搜索结果集合(例如，图3B的328-3)。所述搜索结果集合包括至少一个与最初未分类的信息项相对应的搜索结果。接下来，该过程依据诸如(如搜索引擎126在处理查询以生成搜索结果时所生成的)最初未分类信息项的信息检索分值，其在搜索结果集合中相对应的搜索结果位置以及用户与相应搜索结果的交互(如果有的话)之类的信息对查询的分类数据或查询简档进行加权(例如，图3B的328-4)。最后，该过程对查询的加权分类数据进行聚集以对最初未分类的(第二)信息项生成分类数据(有时称作URL简档)(例如，图3B的328-6)。还可以执行相同的过程来为最初已分类的(第一)信息项生成新的分类信息。

在为第一和第二信息项构建分类数据之后，该过程能够使用服务器系统中所存储的相应分类数据向多个客户端设备提供(508)与第一和/或第二信息项相关联的定制服务。

在一些实施例中，该过程使用第一和第二信息项的分类数据生成(508-1)用户简档。响应于来自客户端设备的用户对于服务的请求，该过程使用用户简档和相应分类数据定制(508-2)所请求的服务。为了生成用户简档，该过程首先在历史查询信息和相应的搜索结果中识别用户所提交的查询集合(例如，图3C的348-1、348-2)。所述搜索结果对应于第一和第二信息项中的一个或多个。该过程接着识别用户所选择的信息项的分类数据并且对用户所选择的信息项的分类数据进行聚集(例如，图3C的348-4、348-5)。

在一些实施例中，该过程响应于服务请求执行独立于用户的服务。该独立于用户的服务生成包括第一和第二信息项中的一个或多个的初始结果。对于该初始结果中的每个信息项，该过程通过将信息项的分类数据与用户简档相比较来确定分值，并且接着依据它们各自的分值对初始结果中的信息项进行重新排序，从而生成定制结果。可以定制的示例性服务包括个性化搜索、面向定向的广告或活动、以及在线社交网络中的个体匹配等，但是不局限于此。

图5B是图示依据一些实施例的用于使用用户的用户简档和分类数据为(与信息服务器系统远程定位的)远程客户端设备的用户提供个性化搜索结果的示例过程的流程图。在从相应客户端设备处的用户接收到查询之后(532)，该过程首先识别对应于所述查询的搜索结果集合(534)。至少一个搜索结果与第二信息项中的一个相关联。该过程访问信息分类数据库以获得用于搜索结果的分类数据(536)。用于相应搜索结果的分类数据识别与相应搜索结果相关的一个或多个类别(536-1)。接下来，该过程通过将其分类数据与用户简档相比较确定搜索结果的分值(538-1)并且依据所确定的分值将所述搜索结果关于其它搜索结果进行排序(538)。最后，该过程向客户端设备发送表示经排序搜索结果的至少子集的信息以便在客户端设备进行显示(540)。

图6是依据一些实施例的客户端设备600的框图。设备600通常包括一个或多个处理单元(CPU)602、一个或多个网络或者其它通信接口610、存储器612，以及用于对这些组件进行互连的一个或多个通信总线614。所述通信总线614可以包括对系统组件之间的通信进行互连和控制的电路(有时被称作芯片组)。客户端设备600可选地可以包括用户接口605，例如显示器和键盘。存储器612可以包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且还可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或者其它非易失性固态存储设备。存储器612可以包括与中央处理单元602远程定位的大型存储。存储器612或者可替选地为存储器612内的非易失性存储器设备包括计算机可读存储介质。存储器612或者存储器612的计算机可读存储介质存储以下元素或者这些元素的子集，并且还可以包括另外的元素：

·包括用于处理各种基本系统服务并且执行独立于硬件的任务的过程的操作系统616；

·用于经由一个或多个(有线或无线)通信网络将客户端104连接到其它服务器或计算机的网络通信模块618，所述通信网络诸如互联网、其它广域网、局域网和城域网等；

·客户端应用620，诸如浏览器；和

·客户端助理108(例如，工具条、浏览器插件)，用于监视用户的活动；在一些实施例中，所述客户端助理或其部分可以被嵌入响应于查询而返回到客户端的相应搜索结果网页中。

图7是图示依据一些实施例的信息服务器系统700的框图。系统700总体上包括一个或多个处理单元(CPU)702、一个或多个网络或其它通信接口710、存储器712以及用于对这些组件进行互连的一个或多个通信总线714。系统700可选地可以包括用户接口，包括显示设备和键盘。存储器712可以包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且还可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或者其它非易失性固态存储设备。存储器712可以可选地包括与CPU 702远程定位的一个或多个存储设备。存储器712或者可替选地为存储器712内的非易失性存储器设备包括计算机可读存储介质。存储器712或者存储器712的计算机可读存储介质存储以下元素或者这些元素的子集，并且还可以包括另外的元素：

·包括用于处理各种基本系统服务并且执行独立于硬件的任务的过程的操作系统716

·用于经由一个或多个(有线或无线)通信网络接口710以及一个或多个通信网络将信息服务器系统130连接到其它计算机的网络通信模块718，所述通信网络诸如互联网、其它广域网、局域网和城域网等；

·用于处理查询的搜索引擎126；

·用于处理与用户简档相关的数据并且可选地用于构建和/或更新用户简档的用户简档管理器128；

·用于构建和维护分类数据的信息分类器136；

·用于根据搜索结果的分类数据和用户简档信息对搜索结果进行排序的查询处理器124；

·用于存储用户简档信息的用户简档数据库132；

·用于存储用户历史查询信息的查询日志数据库140；

·用于存储分类数据的信息分类数据库134；在一些实施例中，数据库134还包括种子分类数据，而在其它实施例中，在服务器系统700的存储器中存储单独的种子分类数据库138；

·用于存储用户所提交的查询的分类数据(或简档)的查询简档数据库142；和

·中间结果表720。

以上所识别的每个元素可以被存储在一个或多个先前所提到的存储器设备中，并且对应于用于执行以上所描述的功能的指令集合。以上所识别的模块或程序(即，指令集合)无需被实现为单独的软件程序、过程或模块，并且这些模块的各种子集在各个实施例中可以被组合或以另外的方式重新安排。例如，图7所示的一些模块和/或数据库可以被包含在搜索引擎126内。在一些实施例中，存储器612和712可以存储以上所识别的模块和数据结构的子集。此外，存储器612和712可以存储以上没有描述的另外的模块和数据结构。

图6和图7更意在作为客户端系统和服务器系统的各种特征的功能性描述而并不是这里所描述实施例的结构性示意。在实践中，并且如本领域技术人员所认识到的，单独示出的项目可以进行组合并且一些项目可以被分离。例如，在图7中单独示出的一些项目可以被实现在单个服务器上，而单个项目可以由一个或多个服务器来实现。例如，信息分类器136可以被实现在与服务器系统700的其它组件不同的服务器集合上。用来实现服务器系统700的服务器的实际数目以及特征如何在它们之间进行分配将随实施方式而变化，并且可以部分地根据系统在高峰使用期间以及平均使用期间所必须处理的数据业务量而变化。

出于解释的目的，已经参考特定实施例对以上描述进行了描述。然而，以上的说明性讨论并非意在是穷举的或者将本发明限制为所公开的确切形式。可能鉴于以上教导而进行许多修改和变化。所选择和描述的实施例是为了对本发明的原理及其实际应用进行最佳解释，并且由此使得本领域技术人员能够利用适合于特定预期用途的各种修改最佳地利用本发明以及各个实施例。

Claims

1.一种计算机实现的方法，包括：

在具有一个或多个处理器以及存储器的服务器系统处，

分别访问用于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息，其中所述第一信息项最初被分类而所述第二信息项最初未被分类；

访问所述第一信息项的分类数据；

基于所述第一信息项的所述分类数据以及所述历史查询信息为所述第二信息项生成分类数据；

将所生成的分类数据存储在所述服务器系统中；以及

使用存储在所述服务器系统中的相对应分类数据向多个客户端设备提供与所述第二信息项相关联的定制服务。

2.如权利要求1所述的计算机实现的方法，其中为最初未分类的信息项生成分类数据包括：

识别所述历史查询信息中的查询集合，其中所述查询的至少子集均具有与所述最初未分类的信息项相对应的相关联搜索结果；

基于所述第一信息项的所述分类数据以及所述查询集合的所述历史查询信息为所述查询集合生成分类数据；以及

通过将所述查询子集的所生成的分类数据进行组合而生成所述最初未分类的信息项的分类数据，所述查询子集中的每一个具有与所述最初未分类的信息项相对应的相关联搜索结果。

3.如权利要求2所述的计算机实现的方法，进一步包括：

更新所述历史查询信息；以及

重复进行下述步骤：在所述历史查询信息中识别查询、对所述查询生成分类数据、以及使用经更新的历史查询信息为所述最初未分类的信息项生成分类数据。

4.如权利要求2或3所述的计算机实现的方法，其中为所述查询集合生成分类数据包括：

对于所述查询的至少子集中的每一个，

识别与该查询相对应的搜索结果的集合以及与该搜索结果的集合相对应的所述第一信息项的集合；

依据它们的相应预定义的信息检索分值、它们的相对应搜索结果在该搜索结果的集合中的位置以及与相对应搜索结果的用户交互信息对所识别的第一信息项的分类数据进行加权；以及

将所识别的第一信息项的加权分类数据聚集为所述查询的分类数据。

5.如权利要求2或3所述的计算机实现的方法，其中为最初未分类的信息项生成分类数据包括：

对于所述查询子集中的每一个，

识别与所述查询相对应的搜索结果的集合，其中所述搜索结果的集合包括与所述最初未分类的信息项相对应的至少一个搜索结果；

依据所述最初未分类的信息项的预定义的信息检索分值、其相对应搜索结果在所述搜索结果集合中的位置以及与相对应搜索结果的用户交互信息对所述查询的分类数据进行加权；以及

将所述查询子集的加权分类数据聚集为所述最初未分类的信息项的分类数据。

6.如权利要求1-5中任一项所述的计算机实现的方法，其中所述历史查询信息包括用于用户群体所提交的查询的历史查询信息。

7.如权利要求1-6中任一项所述的计算机实现的方法，其中提供定制服务包括：

从相应客户端设备处的用户接收查询，其中所述用户具有相关联的用户简档；并且

通过以下步骤对所述查询进行响应：

识别与所述查询相对应的搜索结果的集合，其中所述搜索结果中的一个与所述第二信息项中的一个相关联；

通过将所述第二信息项的所存储的分类数据与所述用户简档相比较来确定所述搜索结果的分值；

依据所确定的分值将所述搜索结果关于其它搜索结果进行排序；以及

向所述客户端设备提供表示至少经排序的搜索结果的数据。

8.如权利要求1-6中任一项所述的计算机实现的方法，其中提供定制服务包括：

在所述历史查询信息中识别用户所提交的查询集合以及相对应的搜索结果，其中所述搜索结果对应于所述第一和第二信息项中的一个或多个；

通过聚集所述一个或多个信息项的分类数据为用户生成用户简档；

将所生成的用户简档存储在所述服务器系统中；以及

响应于来自客户端设备处的用户对服务的请求，使用所存储的用户简档定制所请求的服务。

9.如权利要求8所述的计算机实现的方法，其中定制所请求的服务包括：

响应于服务请求准备独立于用户的服务，其中所述独立于用户的服务包括所述第一和第二信息项中的一个或多个；

通过将所述信息项的分类数据与所存储的用户简档相比较来确定所述一个或多个信息项中每一个的分值；以及

依据它们相应的分值对所述服务中的所述一个或多个信息项进行重新排列。

10.如权利要求1-9中任一项所述的计算机实现的方法，其中所述信息项中的至少一个是网页。

11.如权利要求1-10中任一项所述的计算机实现的方法，其中所述信息项中的至少一个是包括多个网页的网站。

12.一种计算机系统，包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括：

用于分别访问用于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息的指令，其中所述第一信息项最初被分类而所述第二信息项最初未被分类；

用于访问所述第一信息项的分类数据的指令；

用于基于所述第一信息项的所述分类数据以及所述历史查询信息为所述第二信息项生成分类数据的指令；

用于将所生成的分类数据存储在所述服务器系统中的指令；以及

用于使用存储在所述服务器系统中的相对应分类数据向多个客户端设备提供与所述第二信息项相关联的定制服务的指令。

13.如权利要求12所述的计算机系统，其中用于为最初未分类的信息项生成分类数据的指令包括：

用于识别所述历史查询信息中的查询集合的指令，其中所述查询的至少子集均具有与所述最初未分类的信息项相对应的相关联搜索结果；

用于基于所述第一信息项的所述分类数据以及用于所述查询集合的所述历史查询信息为所述查询集合生成分类数据的指令；以及

用于通过将所述查询子集的所生成的分类数据进行组合而为所述最初未分类的信息项生成分类数据的指令，所述查询子集中的每一个具有与所述最初未分类的信息项相对应的相关联搜索结果。

14.如权利要求13所述的计算机系统，进一步包括：

用于更新所述历史查询信息的指令；和

用于重复进行下述步骤的指令：在所述历史查询信息中识别查询、对所述查询生成分类数据、以及使用经更新的历史查询信息为所述最初未分类的信息项生成分类数据。

15.如权利要求13或14所述的计算机系统，其中用于为所述查询集合生成分类数据的指令包括：

用于识别与所述查询的至少子集中的每一个相对应的搜索结果的集合以及与该搜索结果的集合相对应的所述第一信息项的集合的指令；

用于依据它们的相应预定义的信息检索分值、它们的相对应搜索结果在该搜索结果的集合中的位置以及与相对应搜索结果的用户交互信息对所识别的第一信息项的分类数据进行加权的指令；以及

用于将所识别的第一信息项的加权分类数据聚集为所述查询的分类数据的指令。

16.如权利要求13或14所述的计算机系统，其中用于为所述最初未分类的信息项生成分类数据的指令包括：

用于识别与所述查询子集中的每一个相对应的搜索结果的集合的指令，其中所述搜索结果的集合包括与所述最初未分类的信息项相对应的至少一个搜索结果；

用于依据所述最初未分类的信息项的预定义的信息检索分值、其相对应搜索结果在所述搜索结果的集合中的位置以及与所述相对应搜索结果的用户交互信息对所述查询的分类数据进行加权的指令；以及

用于将所述查询子集的加权分类数据聚集为所述最初未分类的信息项的分类数据的指令。

17.如权利要求12-16中任一项所述的计算机系统，其中用于提供定制服务的指令包括：

用于从相应的客户端设备处的用户接收查询的指令，其中所述用户具有相关联的用户简档；

用于识别与所述查询相对应的搜索结果的集合的指令，其中所述搜索结果中的一个与所述第二信息项中的一个相关联；

用于通过将所述第二信息项的所存储的分类数据与所述用户简档相比较来确定所述搜索结果的分值的指令；

用于依据所确定的分值将所述搜索结果关于其它搜索结果进行排序的指令；以及

用于向所述客户端设备提供表示至少经排序的搜索结果的数据的指令。

18.如权利要求12-16中任一项所述的计算机系统，其中用于提供定制服务的指令包括：

用于在所述历史查询信息中识别用户所提交的查询集合以及相对应的搜索结果的指令，其中所述搜索结果对应于所述第一和第二信息项中的一个或多个；

用于通过聚集所述一个或多个信息项的分类数据为所述用户生成用户简档的指令；

用于将所生成的用户简档存储在所述服务器系统中的指令；以及

用于响应于来自客户端设备处的用户对服务的请求，使用所存储的用户简档定制所请求的服务的指令。

19.如权利要求18所述的计算机系统，其中用于定制所请求的服务的指令包括：

用于响应于服务请求准备独立于用户的服务的指令，其中所述独立于用户的服务包括所述第一和第二信息项中的一个或多个；

用于通过将所述信息项的分类数据与所存储的用户简档相比较来确定所述一个或多个信息项中每一个的分值的指令；以及

用于依据它们相应的分值对所述服务中的所述一个或多个信息项进行重新排列的指令。

20.如权利要求12所述的计算机系统，其中所述一个或多个程序包括用于执行如权利要求1-10中任一项所述的方法的指令。

21.一种计算机可读存储介质以及实现于其中的一个或多个计算机程序，所述一个或多个计算机程序包括指令，当被计算机系统执行时，所述指令使得所述计算机系统：

访问所述第一信息项的分类数据；

将所生成的分类数据存储在所述服务器系统中；以及

22.如权利要求21所述的计算机可读存储介质，其中用于为最初未分类的信息项生成分类数据的指令包括：

23.如权利要求22所述的计算机可读存储介质，进一步包括：

用于更新所述历史查询信息的指令；和

用于重复下述步骤的指令：在所述历史查询信息中识别查询、对所述查询生成分类数据、以及使用经更新的历史查询信息为所述最初未分类的信息项生成分类数据。

24.如权利要求22或23所述的计算机可读存储介质，其中用于为所述查询集合生成分类数据的指令包括：

25.如权利要求22或23所述的计算机可读存储介质，其中用于为最初未分类的信息项生成分类数据的指令包括：

26.如权利要求21所述的计算机可读存储介质，其中用于提供定制服务的指令包括：

27.如权利要求21-26中任一项所述的计算机可读存储介质，其中用于提供定制服务的指令包括：

28.如权利要求27所述的计算机可读存储介质，其中用于定制所请求的服务的指令包括：

29.如权利要求21所述的计算机可读存储介质，其中所述一个或多个计算机程序包括用于执行如权利要求1-10中任一项所述的方法的指令。