CN101283353A

CN101283353A - 通过分析标签找到相关文档的系统和方法

Info

Publication number: CN101283353A
Application number: CNA2006800369819A
Authority: CN
Inventors: Y·卢; M·坦纳
Original assignee: WINK TECHNOLOGIES Inc
Current assignee: The company was interested in
Priority date: 2005-08-03
Filing date: 2006-08-03
Publication date: 2008-10-08
Anticipated expiration: 2026-08-03
Also published as: CN101283353B; TWI391834B; TW200715152A

Abstract

一种确定多个对象相对于搜索查询的相关性的系统和方法，包括将多个标签与多个对象相关联，记录多个对象的书签，或者两者都进行，以及确定多个对象中的每个和搜索查询的相关性。

Description

通过分析标签找到相关文档的系统和方法

相关申请

本申请根据35 U.S.C.119(e)要求了于2005年8月3日提出申请的、标题为“Techniques for Finding Relevant Documents UsingAnalysis of Tags”(用于利用标签的分析找到相关文档的技术)的第60/705,704号共同未决美国临时专利申请的优先权，通过引用将其引入本文之中。

技术领域

本发明涉及搜索文档。更具体地说，本发明涉及通过分析人们制作的标签来在因特网上搜索信息以提高搜索结果的质量或者相关性的系统和方法。

背景技术

因特网搜索引擎被设计成从因特网上包含的巨大的信息量中定位期望的信息。用户通过输入包含搜索术语的查询描述他们正在查找的信息。搜索引擎利用各种相关性计算相对网页索引匹配搜索术语，目的在于识别出那些与用户寻找的信息很可能相关的网页。然后搜索引擎返回这些网页的超链接的顺序列表，较靠近列表顶端的那些网页链接被认为是最相关的。

搜索引擎的目的是对于给定查询递交最相关的网页。搜索引擎利用各种技术，通过，例如考虑每一页内包含的信息(例如文档内搜索术语的存在、密度和近似性)，考虑与网页之间的超链接有关的信息或者用户的行为(例如点击，浏览，或者评价结果或者网页)来确定网页的相关性。这些技术可以单独应用或者以各种组合一起应用以获得最佳结果。

确定哪些网页是最相关的过程是很难的，因为因特网上的网页数量非常大并且是不断增大的，而且经常存在大量网页只是名称上满足用户查询。同时，大多数用户都不精于产生和输入合式(well-formed)查询的方法，所以他们正在寻找的信息类型是模糊的。因此，通过比较将查询中的词与文档中的词相比较来确定哪些文档与查询最相关提供了有限准确性的结果。

当用户浏览或者搜索因特网时，他们可以通过给对象记录标记(reference)来给多个对象(例如网页、图像、主题、网志(也叫“博客”))制作“书签”。这些书签可以包含一个或多个“标签”，其包含用户关联于对象的一个或多个术语、到该对象的超链接(统一资源定位符或者“URL”)、用于记录关系的构件和可能的其他信息。这些书签帮助用户再调用对象且任何标签帮助再调用或者与别人交流制作过书签的对象是关于什么的。例如，如果用户访问了描述屋顶的太阳能面板的网页，那么他可以制作书签并使用术语“太阳能”将标签关联到该页。他还可以使用术语“太阳能”将关于国家太阳能退税程序的另一个网页与该标签关联。从而，该标签与术语“太阳能”与两个网页都相关联。

用户可以以各种方式输入标签，例如使用服务器应用程序、书签工具栏中的小程序、浏览器插件或者扩展、客户应用程序或者其它的应用程序。一旦标签已经输入，则通常允许用户搜索这些标签以显示与该标签相关联的那些网页。现在，已经有这样的服务，允许用户搜索他们自己的标签，或者搜索别人的标签。

书签提供某种指示，即用户重视对象(例如网页)，标签另外提供某种指示，用户将某一或者多个术语与该对象关联。在确定该网页是否应该作为搜索引擎的查询结果而被显示的时候该信息可能是重要的，因为它是实际的人们对该网页感兴趣的指示，也是与特定对象的关联。

所需要的是具有这样一种搜索引擎，在确定哪些网页、图像、博客或者其他对象与用户的查询相关时考虑与各种网页、图像、博客或者其他对象相关联的标签。

发明内容

本发明实施例响应搜索查询为用户提供了对象列表(结果列表)。该结果列表是基于每个对象相对于查询的相关性而组织的。优选地，相关性基于对该对象制作标签，对该对象制作书签，两者都有，或者表明对象相对于搜索的相关性或者值的任何其他用户操作。

在本发明的第一方面中，一种确定多个对象相对于查询的相关性的方法，包括记录标记对象的“书签”和/或将多个标签与这些对象相关联，并且对于任何给定查询为多个对象的每个对象确定相关性分数。该方法用来稍后组织对象以在响应于搜索查询而返回的结果列表中显示。对象包括到网页、文本、图像、图片、标签、标签组、主题区域、概念、音频文档、视频文档、软件或者任何这些的组合的超链接或者超链接组。

多个标签中的每个标签包含一个或多个术语。该方法还包括将一个或多个术语中的每一术语与对象相关联，从而定义一个或多个相应的术语-对象对，并且为每个术语-对象对确定表明术语和对象之间的相关性程度的术语分数。可选的，或者另外该方法还包括为该对象制作书签。

优选地，标签-对象对的相关性分数是通过组合标签中每个术语的术语-对象对的术语分数而确定的。术语分数可以通过对它们求和而组合在一起或者通过利用权重对它们加权并且对加权的术语分数求和而组合在一起。

在一个实施例中，标签-对象对的相关性分数是根据将标签中的术语与该对象相关联的次数、与该对象相关联的标签数量、将标签与多个对象相关联的次数或者它们的任意组合而确定的。标签-对象对的相关性分数还可以根据包含标签中的术语的标签-对象对的数量、与含有该对象的标记的标签-对象对的数量或者根据这两者来确定。

在另一个实施例中，该方法还包括由第一用户将标签与多个对象中的对象相关联，由第二用户执行包含标签中的一个或多个术语的搜索查询，基于该相关性分数将多个对象组织在结果列表中，从而定义组织的结果列表，以及将组织的结果列表返回给第二用户。对象和搜索查询的相关性分数对应于存在于对象中的或者与该对象相关联的搜索查询的每个术语的相关性分数。可选的，此外，多个标签-对象对中的标签-对象对的相关性分数是根据第一用户将其与多个对象中的任何对象相关联的标签的数量、第一和第二用户将其与标签相关联的对象数量、对象的评价，给书签化制作书签，或者它们的任何组合而确定的。

在另一个实施例中，标签-对象对的相关性分数是根据第一用户、第二用户选择其中一个，或者两者的信任评价而确定的。其中信任评价是根据所选用户对将其与对象相关联的标签的评价、第一和第二用户的制作书签、制作标签或者搜索活动之间的相似性度量、第一和第二用户之间的关系度量或者它们的任何组合而确定的。

多个对象可以通过基于相关性分数对它们进行排序(例如，最高级别的对象列在第一)或者通过由图形元素标识多个对象的至少一个而进行组织。

通过将标签输入到呈现给用户的域中、评价标签、禁止到对象的链接(从而形成“否定”相关联)、选择标签、选择对象、检验书签或者使用该标签执行对对象的搜索，可以将标签或者书签或者评价与对象相关联。在一个实施例中，标签牵引器(crawler)将多个标签中的至少一个与多个对象中的至少一个相关联。

在本发明的第二方面中，一种填充(populate)用于返回结果列表中组织的对象的系统的方法，其包括将与多个对象相关联的多个标签存储在标签数据库中，以及将多个标签和该多个对象之间的相关性分数存储在索引数据库中。相关性分数用来将多个文档组织在组织的结果列表中。

通过存储形成多个标签的术语以将多个标签存储在标签数据库中。相关性分数表明术语以及对象之间的相关性。所述方法还包括将多个索引存储在索引数据库中。每个索引条目对应于多个术语中的术语、多个对象中的相应对象以及所述术语和所述对象之间的相应相关性分数。

在一个实施例中，术语和对象之间的每个相关性分数与将将所述术语与所述对象相关联的用户的信任评价相关。作为选择，或另外，术语和对象的每个相关性分数是根据给对象制作书签的次数或者所述对象被给的评价数量和值确定的。作为选择，或另外，术语和对象之间的每个相关性分数是根据统计分类或者秩(rank)回归算法确定的，例如逻辑回归、支持向量机、分类或者回归树或者增强的树集合。

所述方法还包括响应于包含一或多个术语的搜索查询将结果列表提供给用户，所述用户将所述术语与结果列表中包含的对象相关联，并且确定所述术语和所述对象之间的相关性分数。多个对象中的对象和与其相关联的标签之间的相关性分数是根据标签与所述对象相关联的次数、与对象相关联的标签总数、标签与多个对象中的任何对象相关联的次数、与所有多个对象相关联的标签数量、标签与所述对象相关联的时间，或者任何这些的组合确定的。

在本发明的第三方面中，一种组织多个对象以在结果列表中显示的方法，包括将搜索查询中的术语和与多个对象相关联的标签相互关联，并且返回包含基于该相互关联组织的多个对象的结果列表。

在本发明的第四方面，一种用于响应搜索查询返回搜索结果列表的系统，包括用于存储与对象相关联的标签的标签数据库和耦合至所述标签数据库的标签分析器。对象包括到网页、文本、图像、图片、标签、标签组、主题区域、概念、音频文档、视频文档、软件或者任何这些的组合的超链接或者超链接组。优选地，所述对象是到网页的超链接。

标签分析器被编程为确定标签和对象之间的相关性分数。在一个实施例中，所述系统还包括用于存储标签和对象之间的相关性分数的对象索引。

在一个实施例中，相关性分数是通过将形成标签的术语和对象的加权相关性分数求和确定的。在另一个实施例中，包含术语的搜索查询和对象之间的相关性分数是根据包含搜索查询中的术语的标签数量、搜索查询中包括的标签包括在标签数据库中的次数、与对象相关联的标签数量、匹配的标签中的和搜索查询中的术语的数量，或者任何这些的组合确定的。在另外一个实施例中，标签和对象的相关性分数基于对象内标签的位置、对象内标签的频率、对象内标签的密度(density)，或者任何这些的组合确定。

在一个实施例中，标签和对象之间的相关性分数的权重基于分配给将标签与对象相关联的用户的信任等级(信任评价)。所述相关性分数是使用统计分类或者秩回归算法、聚类分析算法或者词法分析算法确定的。统计分类算法包括逻辑回归、支持向量分类、分类树或者分类树集合。

在另一个实施例中，所述系统还包括耦合至对象索引的搜索引擎。搜索引擎被编程为接收包含对应于标签的术语的搜索查询并且基于标签-对象对的相关性分数返回组织的结果列表。所述系统还包括耦合至搜索引擎的用户数据库。用户数据库包含与搜索查询相关的信息，例如用户采用的链接、与对象相关联的标签、由用户禁止的对象或者它们的任意组合。

附图说明

图1是根据本发明的一个实施例，显示至少部分地通过分析标签导出的搜索结果列表的图形用户界面的示意图；

图2是根据本发明的一个实施例示出能够将标签应用到排列文档的过程中的因特网搜索应用程序的操作；

图3是根据本发明的一个实施例示出因特网搜索应用程序的组件的示意图；

图4是根据本发明的一个实施例示出用于准备并且分析标签数据的过程的流程图；

图5是根据本发明的一个实施例示出使用标签数据计算结果的步骤的流程图；

图6是根据本发明的一个实施例示出因特网搜索应用程序的组件的硬件图示；

图7示出了根据本发明的一个实施例的文档索引。

具体实施方式

本发明的实施例与传统的搜索引擎不同，利用标签和/或书签将更多的相关信息提供给搜索因特网的用户。在一个实施例中，一种搜索引擎实现制定的以下方法：接收查询并且确定相关文档或文档组列表，分析与文档或者文档组相关联的标签以确定相关文档或文档组列表，并且将两个列表以某种方式结合以将结果列表递交给用户。将理解的是，虽然下述的例子描述了搜索和返回文档，但是本发明可用于搜索和返回任意对象，其包括但不限于网页、文本、图像、图片、标签、标签组、主题区域(subject area)、概念、简档(profile)、答复、音频文件、视频文件、软件或者它们的任意组合的超链接或者超链接组，略举数例对象。

例如，依照本发明，使用术语X的查询将返回网页的结果列表，包括在列表中某处的网页M。然后第一用户将网页M与包含术语X的标签相关联。向查询中使用术语X执行搜索的第二用户递交结果列表，与第一用户创建标签之前显示的位置相比，该结果列表可以将网页M显示在更高的位置。

根据本发明的实施例，通过分析如下因素来确定网页M被认为与第二用户更加相关的程度，这些因素包括但不限于：术语X用于网页M的标签的次数，与网页M相关联的所有标签总数，第一用户建立的标签数目，每个用户制作过书签或者标签的文档数目，总体上术语X用作标签的频率，总体上标签的总数，包含网页M的标记(reference)、术语X或同时包括二者的标签/文档对的数目，第一和第二人之间的关系，对第一和第二人或者第一人或第二人所属的人群的信任等级(例如，信任评价)。用户之间的关系或者相似度和他们所属的人群，以及用户的信任等级都能使用量度量化。例如，给两个用户之间的关系度量赋值1可以表明他们比具有关系度量为0.5的两个用户更相似(例如，具有相似的兴趣或者有共同的朋友)。另外，如果术语X中有不止一个词，那么可以分析其他因素，例如，第二用户的查询中包含的术语X中词的数目，该词是否用作短语，词序，以及所有前面提及的因素；所述分析还可以包括分析词的不同组合。

根据本发明的其他实施例，搜索引擎可以不必递交不同排序的结果列表，而是放置一些图形元素来表明包括了哪些文档，因为他们具有与它们相关联的标签。

根据本发明的其他实施例，标签可以不必由用户明确地与文档相关联，而是通过检查书签、进行搜索、或者其他用户行为(例如评价，禁止，保存或者点击)将标签与文档相关联。

根据本发明的其他实施例，标签可以不仅与网页或者网页组相关联，而且可以与任何可识别的公共的或者私人的数据源相关联，这样的数据源包括但不限于：图像、照片、其他标签、标签组、主题区域、用户简档(user profile)、概念、映射(map)、音频的或者视频文件、软件或者其他对象。

贯穿如下描述，术语“搜索引擎”指的是将查询作为输入并且返回到电子文档或者网页或者经由网络可访问的其他对象的超链接的结果列表的设备(或者通用计算机上运行的程序)。搜索引擎包括它的资料库(corpus)中的文档索引，确定每个文档的相关性的代码和算法，以及将结果递交给用户的图形用户界面。

贯穿如下描述术语“查询”指的是提交给搜索引擎的一组术语(无论打字的、口头的)，其通过体现(embody)一组搜索术语的“链接”(link)提交，或者通过任何其他界面提交。查询可以包括单个词，多个词或者短语。查询可以是作为问题的短语(例如“自然语言”查询)，随意的一组术语，或者结构化的布尔表达。事实上查询可以包括符号或者由搜索引擎用来搜索包含或者涉及搜索字符的电子文档或者网页的任何其他字符。

贯穿如下描述，术语“网站”指的是链接起来并且在万维网上可获得的网页集合。术语“网页”指的是在网站上公布的并且任何数目的主机都可通过万维网访问的文档，它包括但不局限于：文本、视频、图像、音乐和图形。

贯穿如下描述，术语“结果列表”指的是使用超文本传输协议(HTTP)或者用于访问网页或其他电子文档的任何其他协议可获得的网页、引用文档、对象(如上所定义的，包括但不限于图像和视频)的超链接或者超链接组列表，以及每个链接的其他相关联的信息，它包括但不限于：文档的标题，文档的摘要，相关联标签或者其他相关性度量的数目，相关联的标签的列表，到文档的高速缓存副本的链接，文档最后被索引或者最后被修改的日期，与文档相关联或者定位于文档内的图像，从文档提取的信息，和可以对其制作书签或者标签的用户。

贯穿如下描述术语“标签”指的是包含以下任一项的任何数据结构：一个或多个术语，每个包括一个或多个词，与可寻址对象有关的超链接，以及例如标签建立时间和建立它的用户之类的其他信息。标签可以包含到多个对象的链接，这些对象的例子包括：网页，图像，映射或者计算机网络上的(无论是因特网上的或者本地计算机存储设备上的)其他对象。制作标签也可以指将术语与到可寻址的文档或者对象的特定超链接相关联的过程。

正如本文使用的那样，术语“书签”指的是记录任何超链接、制作书签的用户身份、书签制作时间以及如上所定义的标签的任何数据结构。

正如本文使用的那样，术语“文档”定义广泛，除了它的通常含义外还包括计算机文件和网页。术语“文档”不局限于包含文本的计算机文件，还包括用户简档、概念、答复以及包含图形、音频、视频以及其它多媒体数据的计算机文件。用户简档是包括(但不局限于)与人有关的信息(例如其兴趣、嗜好、朋友列表、图片、职业经历、以及教育等，略举数例信息项)的记录或者页。

正如本文使用的那样，术语“发送者(spammer)”定义为这样的人或实体，其使用各种设计来利用搜索引擎的相关性方法的技术，从而试图让搜索引擎显示到它的产品、网页或者其他材料的链接，并且这样的显示比不使用该技术而让搜索引擎显示该连接具有更高等级或者更大频率。

正如本文使用的那样，术语“编程的”意思是硬件、软件、固件、用于执行计算机指令来存储、处理、传输或者其它操作数据的其他装置的任何组合。

如以下更为详细地描述，搜索引擎接受由用户输入的查询并且使用各种相关性计算相对文档的索引匹配搜索术语，目的在于识别最可能涉及用户寻找的信息的那些文档。然后搜索引擎返回到这些文档的超链接的顺序列表，其中较靠近列表顶端的文档被认为最相关的，根据本发明，用户能够建立将术语与文档相关联的标签，并且至少部分地基于对与网页相关联的标签的分析，搜索引擎返回结果列表。

依照本发明，标签影响文档相对于给定查询的相关性的程度与对做出关联的用户的信任等级有关。该信任等级可以通过诸如用户标签在以前有多么相关，用户观察到的活动与观众中的其它用户或者与执行查询的用户有多么相似，用户之间的连接程度，以及其它因素来确定。

图1是显示响应于依照本发明的查询返回的结果页100的图形用户界面(GUI)的屏幕快照。基于对与每个链接相关联的标签的分析可以重新排序结果列表或者给结果列表评分。

结果页100包括用于插入查询术语的框110，以及包含搜索引擎返回的结果列表的区域120。区域120也可以包含与搜索引擎返回的每个结果相关联的标签150的列表。如下文将更加详细描述的那样，在优选的实施例中区域120中的一些或者所有结果已经基于对标签150的分析而重新排序130，或者在另一个实施例中，区域120中的结果也被重新排序，但是一部分由图形元素140标出以表明对标签和/或书签150的分析将对它们的相关性有影响。结果页100还包括用于评价对象的构件165。

用户可以在文档和他们认为是描述文档的术语之间建立关联。如前所述，该处理称为制作“书签”或者制作“标签”。在制作书签的情况下，这是通过点击区域120中超链接或者图形元素160以激活用于记录超链接以备以后再调用(recall)的构件实现的，或者在制作标签的情况下，是使用书签工具栏中的小程序或者工具栏或者扩展(extension)，或者将新的一个或多个标签与文档相关联实现的。该元素160可以是文本链接、诸如圆盘等的图像或者会暗示为所述文档制作“书签”或者“标签”的任何其他表现形式。因为关于将什么术语与不同的文档相关联不同用户具有不同的想法，所以可以建立一组丰富多样的标签。这就是依照本发明分析的那组标签。

如果用户认为文档与查询无关，则他们可以从结果列表中禁止到该文档的链接。该处理称为“禁止”(block)。这是通过点击区域120中的超链接或者图形元素170以激活用于禁止到文档的链路的构件来实现的。该元素170可以是文本链接、图像(例如图1，170)或者会暗示“禁止”或者“删除”文档的任何其他表现形式。禁止所述文档将导致为包含查询中的术语的文档关联否定标签。因为关于将什么术语与不同文档相关联，不同用户有不同的想法，所以对于标签是否适于文档有时不一致。其他一些时候，发送者会过分地将误导的标签与文档相关联。如以下更为详细描述的，肯定和否定标签可用于补偿意见分歧以便减少垃圾邮件(spam)或者其他误导的文档的量。

结果页100也可以包括区域180以及区域190，区域180用于显示与查询术语相关的概念的说明，区域190包含到与其他查询术语有关的其他概念的″也见″(See also)链接。

如图1的例子所示，当用户在框110中输入查询术语“U2”并且请求搜索时，结果页100被返回到用户。区域120包含链接到与查询术语“U2”相关的对象的结果列表。在优选的实施例中，基于用户已将其与各种文档相关联的标签150的分析一些结果130被重新排序。例如，位于www.atu2.com标题为“U2 Home Page：@U2...”的文档已经用列表150中所示的术语“U2”、“U2 fan site”以及“U2 fans”制作了标签。对标签的分析使得该文档比原本在结果列表中列表的位置更高。在另一个实施例中，结果可以重新排序和评分，但是一部分结果被标以图形元素140以显示对用户标签和/或书签的分析表明人们发现那些结果更相关以及任选的，发现它们相关的人数。例如，位于www.u2station.com标题为“U2 Station”的文档已经用术语“U2”和“U2 fansite”制作了标签，并且已经由人140的图形元素标识，表明其他用户已经发现它是相关的。将理解的是，除了人图标之外的图形元素也可用于通知用户已由其他用户表明了相关性。

如果用户希望给文档制作书签和/或为文档添加标签，例如www.u2log.com，那么用户可以选择点击图形图标160，其激活用于制作书签和/或添加标签的构件，该标签可以与已存在的标签相同，可以是区域110中的搜索术语，或者对用户有意义的其它术语。如果用户进行了不同的搜索，例如“lyrics”，并且用户认为标题为“U2Wanderer.org the U2 Discography and U2 Lyrics Site”的文档不应该为查询“歌词”而列出，那么用户可以点击元素170以从搜索结果中禁止该文档，其导致将包含术语“-歌词”的标签与该文档相关联。减号(“-”)表示不同意而不是确认术语和网页之间的关联。

继续该例子，区域180包含描述段(band)“U2”的概念以及与术语“U2”相关的其他概念的列表。区域190包含一组“也见”链接到相关主题，例如“Bono，U2 concerts，best selling musicartists，the ONE campaign，Live 8...”，依照本发明，如果用户选择这些链接中的一个，例如“Live 8”，那么将使用搜索术语“Live8”进行查询产生类似于结果页100的结果页，其中搜索术语110是“Live 8”，结果列表120是到与搜索术语有关的文档的链接列表，并且其在列表中的位置又受与该文档相关联的标签的影响。从而任何搜索所产生的结果的顺序都受标签的影响。在2006年2月27日申请的、标题为“Methods of and Systems for Searching by IncorporatingUser-Entered Information”的美国专利申请11/364,617中比较详细地描述了主题区域和概念，将其内容通过参考并入本文。

将理解的是，依照本发明可以执行各种修改。例如，用户产生的标签可以从文件中读取或者由其他服务导入，而不是由用户直接从终端输入。而且，虽然结果页100示出了结果列表120和标签150的列表，以及概念180，以及到概念190的链接，将理解的是依照本发明，受标签分析影响的结果页可以通过任何的区域组合来显示，该区域包括或者不只有图1中所示的那些，或者没有这些区域中的一些。结合各种页面设计元素来使用标签信息以使搜索结果更全面，准确和有意义。

图2是示出依照本发明的因特网搜索应用程序200的操作的流程图。因特网搜索应用程序200使用户能够将查询提交给搜索引擎，并且接收至少部分地由标签分析所确定的结果，从而为用户提供比原本更相关的搜索结果。用户可以访问结果列表中示出的网页，并且他们也可以选择给那些页中的一些制作“书签”以表明他们认为该页相关或者不相关。他们可以利用查询术语或者利用其它的一个或多个术语为那些页制作标签。搜索引擎记录提交的任何标签并且由其他用户在以后的搜索中使用它们。

在步骤210，用户将查询提交到搜索引擎。处理然后继续到步骤220和步骤230，在步骤220搜索引擎利用使用多种算法的各种信息检索方法将查询与资料库中的对象进行匹配以集合最相关文档的列表，在步骤230搜索引擎分析与各种文档相关联的标签以集合最相关文档的列表。标签分析可以是对所有用户一致的或者可以是适合进行搜索的个别用户的，或者适合用户是其中一员的人群的。步骤220和230进行到步骤240，其中步骤230产生的结果将与步骤220产生的结果组合以提供更相关的结果。该过程然后继续到步骤250，其中结果页(例如，图1的100)被发送给用户。从步骤250用户可以选择进行到步骤260或者270。

在步骤260，用户按照一个或多个链接来访问结果列表中的文档。作为选择，在步骤270中，用户制作书签以及任选的输入标签，该标签中的每个都将一个或多个术语与结果列表中的一个文档相关联。为了输入标签，用户可以点击构件以给文档制作书签或者标签(例如，图1区域160)，该构件提供用户向其中输入标签的用户界面，或者在步骤260，用户可以使用载入其浏览器的“书签化(bookmaklet)”，或者其他类似的构件来给文档制作书签以及输入标签。作为选择，在步骤270，用户可以通过点击禁止构件(例如，图1区域170)禁止与查询无关的文档。从访问结果列表中的文档的步骤260，用户可以进行到输入标签的步骤270，并且作为选择，从步骤270用户可以进行到步骤260。步骤260和270都到达步骤280，在步骤280系统记录由用户输入的书签、标签和评价。步骤280返回到步骤230，其中在任何后续搜索期间要分析的标签数据库现在包含在步骤270输入的新标签。与返回到步骤230并行地，也继续步骤290，其中用户已经对其搜索做出结论。

图3示出了依照本发明的系统300的组件。系统300包括耦合至网络服务器310的用户客户端305。网络服务器310耦合至搜索引擎320，用户数据库330和标签数据库340。搜索引擎320耦合至文档索引350。用户数据库330也被耦合至搜索引擎320。标签数据库340耦合至标签分析器360和标签牵引器(crawler)391。标签分析器360也耦合至文档索引350，文档索引350又耦合至索引器370。索引器370耦合至网页内容数据库380，其耦合至网页牵引器390。网页牵引器390和标签牵引器391经由因特网395耦合至一个或多个网站399。

操作中，网页牵引器390经由因特网395导航，访问网站399，并且利用它访问的网页的内容填充(populate)网页内容数据库380。索引器370使用网页内容数据库380产生文档索引350。标签牵引器391经由因特网395导航，访问网站399，并且利用它发现的标签填充标签数据库340。

当用户进行搜索时，他使用用户客户端305输入查询，所述查询被送交网络服务器310。网络服务器310将查询提交到搜索引擎320，其使用相关性算法和由如上所述的标签分析获得的要素相对于文档索引350匹配查询以确定最相关文档，并且将结果列表返回到网络服务器310。网络服务器310然后将结果页(例如，图1的100)递交到用户客户端305以进行显示。

同样响应于查询，用户数据库330记录与用户搜索有关的信息，诸如从结果列表(例如，图1区域120)得出的链接，制作过书签的文档或者评价过的文档(例如，步骤165)和使用标签输入构件(例如，图1区域160)输入的标签，以及使用具有输入否定标签效果的禁止构件(例如，图1区域170)禁止的文档。该信息由网络服务器310和搜索引擎320用以为该用户定制随后的搜索结果以确定对那个用户的标签的信任度。同样响应于查询，由用户使用标签输入构件(例如，图1区域160)输入的标签和由用户使用禁止构件(例如，图1区域170)输入的否定标签也记录在标签数据库340中。在本发明实施例中，存储在用户数据库330和标签数据库340中的信息可以实现为两个独立的数据库或者他们可以在相同的数据库内实现。

有些时候，但不是必须的，当执行查询时，包含在标签数据库340中的标签信息被发送给标签分析器360，在此进行分析以确定由每个用户为每个文档相关联的各种标签表明的对相关性的影响以使搜索引擎320为查询确定最相关的网页。标签分析器360将该标签相关性信息记录在文档索引350中供随后的搜索使用。

标签数据库340将特征发送到标签分析器360，该特征包括但不限于，查询术语、用户标识符、文档ID、文档链接、标签术语、评价和时间标志。标签分析器360还可以查找给定文档的其他特征，包括但不限于，术语在文档内的密度，术语在文档内的位置，术语在文档的各部分的存在，以及到包含术语的文档的超链接。标签分析器360还可以查找给定用户的其他信息，包括但不限于，早先的标签历史，书签历史，信任等级，与其他用户的相似性(例如，该用户和其它用户使用的搜索术语和建立的标签之间的相似性)，以及在人群中的成员关系。

标签分析器360使用这些特征依据不同标签为各种文档打出一组相关性分数。分析这些特征的步骤在图4中示出并且下面将详细说明。构件来计算用户级别上的相关性或者任何给定查询-文档对的通用方案。

对于以前涉及的标签数据执行分析。一般说来，对于任何给定查询任何给定文档的相关性将随诸多因素而变，这些因素包括但不限于，包含存在于查询中的术语的标签数目，任何给定标签在标签资料库中使用的次数，标记给定文档的标签的总数，相似的标签文档对的数目，匹配的术语中词的数目，给文档制作书签的次数，以及该文档的评价值和数目。另外，如果可以评价，对任何标签相对于给定文档的相关性的预测能力与对输入标签的用户的信任等级成正比。将理解的是，依照本发明的相关性建模过程可以使用其他形式的分析以及其他方法执行，这些方法包括包括但不限于任何统计分类或者秩回归算法，例如，逻辑回归，支持向量机，分类或者回归树，或者增多的树集合。

图4是示出了根据本发明的一个实施例，用于准备和分析标签数据以确定文档对于查询的相关性的步骤400的流程图。

参见图4，在步骤410中，标签数据是由用户通过网络客户机和网络服务器(例如图3的305，310)或者由标签牵引器(例如图3的391)输入的，并且由系统(例如图2的步骤280)提交给标签数据库(例如图3的340)。步骤410可以连续地进行并且在一段时间内独立于图4描述的处理的其他步骤。

在步骤420，分析标签数据库(图3的340)中的每个标签。分析每个标签的处理通过计算用户信任度的步骤430和确定加权标签合计的步骤440进行。在步骤430，对于输入的每个标签，计算输入标签的用户的信任等级。标签对其标引的文档的相关性的影响程度随输入它的用户的信任等级而变。

基于对于给定术语或者主题范围用户的行为与用户团体的行为匹配的紧密程度，或者基于由其他用户借助于评价该用户、与社群网中的该用户的联系或者给该用户输入的标签制作标签或者赞同它而为该用户设置的信任度，可以利用算法或者使用用户行为的统计模型计算信任等级，所述用户行为包括但不限于，制作书签，制作标签，点击，排列或者禁止。例如，如果用户Luke利用术语A给特定文档X制作标签，而其他人利用术语D和F给文档X制作标签，那么与该文档相关联的所有标签集合是{a，d，f}，其中小写标签“a”表示使用术语“A”标签的实例。继续该例子，如果两个其他用户Simon和Peter使用查询术语A进行搜索，每个人都禁止了文档X，那么文档X现在将标签为{a，-a，-a，d，f}。从而，Luke的信任等级将被降低因为多个用户不同意他的标签，而且Simon和Peter的信任等级将增加因为它们的标签与多个用户一致。将理解的是，还有符合本发明的用于确定用户信任度的其他方法。如果用户是未知的或者用户的信任等级无法确定，那么为标签分配是中性(neutral)的信任等级，或者继承从中获得标签的源的信任等级。将理解的是，用户信任度可以在分析标签时计算或者通过有些时候进行的一些处理计算。

在步骤440，为每个术语确定每个文档或者文档组的加权标签合计。如果文档X已经使用术语A标签过n次，那么文档X对于术语A的加权标签合计是所有标记文档X的标签a₁到a_n(无论正或者负)的总和，把建立每个标签a_i的每个用户U_i的信任等级(其中i＝1到n)计算在内。另外，如果用户输入许多标签那么用户可以被认为经常给文档制作标签，并且该用户的任何给定标签的权重可以认为是比不经常标签的用户的标签权重小。另外，如果标签在较早的时间建立那么可以认为权重较小，如果它们是较近建立的则认为权重较大。将理解的是，当确定被认为是本发明部分的加权标签合计时可以考虑其他因素。一旦确定了每个文档相对于每个术语的权重标签合计，那么处理进行到步骤450。

在步骤450，分析资料库中的每个术语以为每个文档或者文档组相对于每个术语建立标签分数。分析每个术语通过分析每个文档的步骤460和为每个文档计算标签分数的步骤470进行。

在步骤460，分析将要计算其标签分数的下一个文档。汇集以前收集或者计算的关于该文档的所有信息并且完成附加的分析。例如，可以考虑的因素包括，但是不局限于，术语在文档中出现或者密度，术语在文档中的位置，在该标签中多个术语的存在，在到文档的超链接的固定(anchor)文本中术语的存在，标签建立或者最后修改的时间，以及基于统计分析、聚类分析或者形态分析或者确定相似性的任何其他形式的分析的该术语与文档中其他术语的相似性。一旦文档已经被分析，则处理继续到步骤470，计算文档相对于术语的标签分数。

在步骤470，计算当前文档相对于当前术语的标签分数。每个文档的标签分数随标记该文档的标签总数而变，每个标签依据应用于它的权重而参与计算，该权重是如以上步骤440中所确定的权重标签合计。另外，每个标签对标签分数的影响与如在上述步骤430中确定的对输入标签的用户评定的信任度和步骤460中完成的文档的分析成正例，。文档X相对于术语A的标签分数S_A随以下因素而变：标签数据库(例如图3的340)中存在的不同术语的总数，标签数据库中存在的术语A的频率，文档X用其制作标签的不同术语的数目，与文档X相关联的标签总数以及利用术语A制作标签的不同文档的数目。计算这些因素的组合以分配每个文档的标签分数的数值。将理解的是，还有可以计算的被认为是本发明的一部分的其他因素。依照本发明的优选实施例，标签分数适合于单个用户或者用户群。在本发明的另一个实施例中，每个文档的标签分数对于系统的每个用户都是一样的。步骤470循环返回到步骤450，直到资料库中的每个文档都有了为其分配的相对于每个术语的标签分数值。然后处理进行到步骤480。

在步骤480中，索引由给定标签制作标签的每个文档，使得每个文档相对于每个术语的标签分数以能够在搜索时很容易地并且迅速地被检索到的形式记录，以确定所有文档相对于由标签分析确定的查询术语的相关性。文档的索引及其标签分数，以及标签权重和用户信任等级可以公布到文档索引(例如图3的340)中，其能够在检索时由搜索引擎迅速并且容易地(例如图3的320)搜索到，以计算每个文档相对于仅通过标签分析或者结合其他搜索技术确定的查询术语的相关性。将理解的是，在本发明的其它实施例中该流程400的某些步骤可以省去或者可以插入其他步骤，或者可以应用不同权重或者计算的不同标签分数仍被认为是在本发明的范围范围之内。

图5是根据本发明的一个实施例示出使用标签数据计算结果的步骤500的流程图。

参见图5，在步骤510，搜索引擎处理包含一个或多个术语的查询(例如图2的230)。

在步骤520，基于查询中的每个术语，搜索引擎产生与查询最相关的文档或者文档组列表。基于每个术语确定相关性的过程经过识别文档的步骤530、确定标签顺序的步骤540和为每个文档评分的步骤550。在步骤530，对于查询中的每个术语，基于与文档相关联的标签产生认为是完全相关的文档列表。该列表在长度上可以从很短(例如5或者更少)到很长(例如，10,000,000或更多)之间变化。将理解的是，在搜索应用程序中从实用目的来看该列表可以截短，并且依据具体实施例的要求可以或者不可以进行分类。

在步骤540，相对于术语或者任何术语组确定每个文档的标签分数。每个文档的标签分数随分配给索引中该文档的标签分数而变，并且受提交正在计算标签分数的标签的用户的当前信任等级的影响，而且对于单个用户或者作为某人群成员的用户可以是不同的。

在步骤550，每个文档被评分的值确定了基于当前考虑的查询术语，文档将被设置在结果列表中的哪个位置。步骤550返回到步骤520直到查询中的所有术语都考虑了。

在步骤560，结合基于查询中每个术语的每个文档的相关性分数以计算每个文档相对于提交的整个查询的全部相关性分数。接下来在步骤570建立排列的结果列表，并且在步骤580将结果列表递交到搜索引擎以与使用的任何其他相关性方法相结合(例如图2的步骤240)。将理解的是，在本发明的其它实施例中该流程500的某些步骤可以省去或者以不同的顺序处理或者可以插入其他步骤，或者可以应用不同权重或者计算的不同标签分数仍被认为是在本发明的范围范围之内。

图6示出了依照本发明由用户610使用的因特网搜索应用系统600的硬件部件。系统600包括经由因特网630耦合到网络服务器640的客户端设备620。客户端设备620是用于访问网络服务器640并且配置为使用因特网协议通信的任何设备，这些因特网协议包括但不限于，HTTP(超文本传输协议)以及WAP(无线应用协议)。优选地，客户端设备620是个人计算机而且它还可以是另外的设备，该另外的设备包括但不限于手持式设备(例如蜂窝电话或者个人数字助理(PDA))，客户端设备620能够使用诸如HTML(超文本标记语言)、HDML(手持设备标记语言)、WML(无线标记语言)之类的标准显示信息。

网络服务器640同时耦合至搜索服务器650和标签数据存储660。标签数据存储器660耦合至标签分析服务器670，并且搜索服务器650耦合至索引数据存储器680。另外标签分析服务器670耦合至索引数据存储680。

图7示出了根据本发明一个实施例的文档索引700。本领域技术人员将意识到的是，文档索引700是用于解释本发明的方法的概念结构，并且优选文档索引使用倒排索引。文档索引700包括示例性的第一和第二行740和750，每个分别包含标签-对象对以及列705、710、715、720和725中的相关信息。参见行740，列705包含标签“U2”，列710包含对象，这里是到网页的超链接(“U2 Home”)，列715包含标签-对象对(“U2-U2 Home”)的原始的(例如未加权的)相关性分数(95)，列720包含该标签-对象对的权重，以及列725包含将标签U2与对象“U2 Home”相关联的用户的用户信任度评价。行750包含类似的识别信息。列720中的条目(0.6)确定给标签-对象对中标签“U2”的权重。该权重可以根据列725中的用户信任度评价(0.7)结合其他信任度因素(例如标签与对象相关联的次数)来确定，以确定权重0.6。该标签-对象对的相关性分数等于原始的相关性(0.95)分数乘以权重(0.6)以确定最后的相关性分数，57。以类似的方式，行750中的标签-对象对的相关性分数被确定为70×0.9，或者63。因此，如果用户进行包含术语“U2”的搜索查询，那么对应于行750中的对象的对象“Rock Band Home Site”在返回的(组织的)结果列表中比行740中对象“U2”排在更高的位置，表示与用户的搜索更相关。

将理解的是，文档索引700仅仅是示例性的。还可以使用输入的不同组合，相关性分数的不同范围，用于确定相关性分数的不同算法，以列举一些不同的配置。

对于本领域技术人员显而易见的是，在不脱离所附权利要求所定义的本发明的精神和范围的情况下可以对实施例进行各种修改。

Claims

1、一种确定多个对象相对于搜索查询的相关性的方法，包括：

将多个标签与多个对象相关联，记录多个对象的书签，或者两者都进行；以及

确定多个对象中的每个和搜索查询的相关性。

2、如权利要求1所述的方法，其中多个标签中的每个标签包含一个或多个术语，该方法还包括将一个或多个术语中的每个术语与对象相关联，从而定义一个或多个相应的术语-对象对。

3、如权利要求2所述的方法，还包括为每个术语-对象对确定表示该术语和该对象之间的相关性程度的术语分数。

4、如权利要求3所述的方法，其中确定标签-对象对的相关性分数包括组合标签中每个术语的术语-对象对的术语分数。

5、如权利要求4所述的方法，其中组合术语分数包括对术语分数求和。

6、如权利要求4所述的方法，其中组合术语分数包括利用权重对每个术语分数加权并且对加权的术语分数求和。

7、如权利要求2所述的方法，其中标签-对象对的相关性分数是根据将标签中的术语与该对象相关联的次数、与该对象相关联的标签数量、将标签与多个对象相关联的次数或者它们的任意组合而确定的。

8、如权利要求2所述的方法，其中标签-对象对的相关性分数是根据包含标签中的术语的标签-对象对的数量、与含有对象的标记的标签-对象对的数量或者根据这两者来确定的。

9、如权利要求1所述的方法，还包括：

由第一用户将标签与多个对象中的对象相关联；

由第二用户执行包含标签中的一个或多个术语的搜索查询；

基于该相关性分数将多个对象组织在结果列表中，从而定义组织的结果列表；以及

将组织的结果列表返回给第二用户。

10、如权利要求9的方法，其中对象和搜索查询的相关性分数是根据存在于对象中的或者与该对象相关联的搜索查询的每个术语的相关性分数来确定的。

11、如权利要求9的方法，其中多个标签-对象对中的标签-对象对的相关性分数是根据第一用户将其与多个对象中的任何对象相关联的标签的数量、第一和第二用户将其与标签相关联的对象数量或者根据两者来确定的。

12、如权利要求9的方法，其中标签-对象对的相关性分数是根据第一用户、第二用户其中之一或者两者的信任评价而确定的。

13、如权利要求12所述的方法，其中信任评价是根据所选用户对将其与对象相关联的标签的评价、第一和第二用户的搜索活动之间的相似性度量、第一和第二用户之间的关系度量或者它们的任何组合而确定的。

14、如权利要求9的方法，其中组织多个对象包括基于相关性分数排序多个对象。

15、如权利要求9的方法，其中组织多个对象包括利用图形元素标识多个对象中的至少一个。

16、如权利要求1所述的方法，其中将标签与对象相关联包括在呈现给用户的区域中输入标签、评价标签、禁止到该对象的链接、选择标签或者选择对象。

17、如权利要求1所述的方法，其中将标签与对象相关联包括检查书签或者使用标签执行对对象的搜索。

18、如权利要求1所述的方法，其中多个对象包括到网页的超链接或者到网页的超链接组。

19、如权利要求1所述的方法，其中多个对象包括到文本、图像、图片、标签、标签组、主题区域、概念、用户简档、答复、音频文件，视频文档、软件或者它们的任意组合的超链接或者超链接组。

20、如权利要求1所述的方法，其中标签牵引器将多个标签中的至少一个与多个对象中的至少一个相关联。

21、一种填充用于返回结果列表中组织的对象的系统的方法，包括：

在标签数据库中存储与多个对象相关联的多个标签；以及

在索引数据库中存储多个标签和多个对象之间的相关性分数，其中该相关性分数用来将多个文档组织在组织的结果列表中。

22、如权利要求21所述的方法，其中在标签数据库中存储多个标签包括存储形成多个标签的术语，并且其中存储相关性分数包括给出表示术语和对象之间的相关性的相关性分数。

23、如权利要求22所述的方法，还包括在索引数据库中存储多个索引，每个索引条目对应于多个术语中的术语、多个对象中的相应对象以及术语和对象之间相应的相关性分数。

24、如权利要求23所述的方法，其中术语和对象之间的每个相应的相关性分数与将该术语和该对象相关联的用户的信任度有关。

25、如权利要求23所述的方法，其中术语和对象之间的相关性分数是根据统计分类或者秩回归算法确定的。

26、如权利要求25所述的方法，其中统计分类或者秩回归算法是逻辑回归、支持向量机、分类或者回归树以及增多的树集合中的任一项。

27、如权利要求21所述的方法，还包括：

响应包含术语的搜索查询将结果列表呈现给用户；

由用户将术语与结果列表中包含的对象相关联；以及

确定术语和对象之间的相关性分数。

28、如权利要求27所述的方法，其中多个对象中的对象和与其相关联的标签之间的相关性分数是根据标签与对象相关联的次数、与对象相关联的标签总数、标签与多个对象中的任何对象相关联的次数、与所有多个对象相关联的标签数量、标签与对象相关联的时间、给对象制作书签的次数、对对象的评价的数值和数目或者它们的任意组合确定的。

29、一种组织多个对象以在结果列表中显示的方法，包括：

将搜索查询中的术语和与多个对象相关联的标签相互关联；以及

返回包含基于该相互关联组织的多个对象的结果列表。

30、如权利要求29所述的方法，还包括：

执行搜索查询，从而产生第一对象列表；以及

基于该相互关联组织该多个对象。

31、如权利要求30所述的方法，还包括将标签与对象相关联。

32、如权利要求30所述的方法，其中每个相互关联对应于相关性度量。

33、如权利要求29所述的方法，还包括对多个对象应用统计分类或者秩回归算法以确定多个对象和搜索查询中的术语之间的相关性度量。

34、如权利要求33所述的方法，其中统计分类或者秩回归算法是逻辑回归、支持向量机、分类或者回归树或者增多的树集合中的任一项。

35、一种用于响应搜索查询返回搜索结果列表的系统，所述系统包括：

用于存储与对象相关联的标签的标签数据库；以及

耦合至标签数据库的标签分析器，其中标签分析器被编程来确定多个对象相对于搜索查询的相关性分数。

36、如权利要求35所述的系统，还包括对象索引，其用于存储与对象相关联的标签和对象之间的相关性分数、书签相对于对象的相关性分数，或者两者都存储。

37、如权利要求35所述的系统，其中相关性分数是通过对形成标签的术语和对象的加权相关性分数求和确定的。

38、如权利要求35所述的系统，其中包含术语的搜索查询和对象之间的相关性分数是根据包含搜索查询中的术语的标签的数量、搜索查询中包括的标签包括在标签数据库的次数、与对象相关联的标签的数量、匹配的搜索查询中和标签中的术语数量、给对象制作书签的次数、对象被评价的次数或者它们的任意组合确定的。

39、如权利要求35所述的系统，其中标签和对象的相关性分数基于对象内的标签位置、对象内的标签的频率、对象内标签的密度或者它们的任意组合确定的。

40、如权利要求35所述的系统，其中标签和对象之间的相关性分数的加权基于分配给将标签与对象相关联的用户的信任等级。

41、如权利要求35所述的系统，其中相关性分数是使用统计分类或者秩回归算法、聚类分析算法或者词法分析算法确定的。

42、如权利要求41所述的系统，其中统计分类或者秩回归算法包括逻辑回归、支持向量机、分类或者回归树以及增多的树集合中的任一项。

43、如权利要求36所述的系统，还包括耦合至对象索引的搜索引擎，其中搜索引擎被编程来接收包含对应于标签的术语的搜索查询并返回基于标签-对象对的相关性分数而组织的结果列表。

44、如权利要求43所述的系统，还包括耦合至搜索引擎的用户数据库，该用户数据库包含与搜索查询有关的信息。

45、如权利要求44所述的系统，其中与搜索查询有关的信息包括用户采用的链接、与对象相关联的标签、由用户禁止的对象、书签或者它们的任意组合。

46、如权利要求35所述的系统，其中所述对象包括到网页的超链接或者到网页的超链接组。

47、如权利要求35所述的系统，其中所述对象包括到文本、图像、图片、标签、标签组、主题区域、概念、用户简档、答复、音频文件、视频文档、软件或者它们的任意组合的超链接或者超链接组。

48、如权利要求35所述的系统，还包括用于将标签与对象相关联的装置。