CN1784679A - 广域网搜索中搜索列表项的内容性能评估优化 - Google Patents

广域网搜索中搜索列表项的内容性能评估优化 Download PDF

Info

Publication number
CN1784679A
CN1784679A CNA2004800118972A CN200480011897A CN1784679A CN 1784679 A CN1784679 A CN 1784679A CN A2004800118972 A CNA2004800118972 A CN A2004800118972A CN 200480011897 A CN200480011897 A CN 200480011897A CN 1784679 A CN1784679 A CN 1784679A
Authority
CN
China
Prior art keywords
search
listings
list items
search listings
current search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800118972A
Other languages
English (en)
Other versions
CN1784679B (zh
Inventor
多米尼科·张
艾伦·朗
斯科特·斯内尔
张洁
皮埃尔·王
斯科特·B·克莱恩
卓迪·D·比格斯
Original Assignee
Overture Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Overture Services Inc filed Critical Overture Services Inc
Publication of CN1784679A publication Critical patent/CN1784679A/zh
Application granted granted Critical
Publication of CN1784679B publication Critical patent/CN1784679B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

一种系统和方法,用于通过检测和删除与其他搜索列表项相比用户明显不常选择的搜索列表项,来提高搜索引擎给出的搜索结果的相关性,并且用户可以满意地感受到这种相关性的提高。代表作为搜索结果的一部分的各个搜索列表项的呈现的数据以及代表用户对这些搜索列表项的选择的数据被累积并分析,以评估搜索列表项的性能。搜索列表项的选择率被与搜索结果集合中处于类似和不同位置上的搜索列表项的选择率进行比较。具有非常低选择率的搜索列表项被标记为从搜索数据库中删除。搜索列表项的所有者可以获得修改搜索列表项的机会,并且经修改的搜索列表项被类似地监控低性能。

Description

广域网搜索中搜索列表项的内容性能评估优化
技术领域
本发明涉及自动文档内容分析的领域,更具体而言,本发明涉及用于对广域网搜索引擎中的搜索列表项进行自动性能索引(indexing)和优化的机制。
背景技术
因特网是真正全球可达的广域网,它将遍及世界的计算机互连在一起。因特网中一般被称为万维网的部分是数量相当巨大的互相关数据的集合。万维网(有时被称为“Web”)的内容包括根据已知协议HTTP(超文本传输协议)而通过因特网传输的具有已知HTML(超文本置标语言)格式的文档等等。
对想要在其中寻找特定信息的任何人来说,Web的宽度和深度都是令人惊讶并且不堪其负的。因此,Web的一个极其重要的组件是搜索引擎。这里所使用的搜索引擎是用于定位与共同代表一个搜索查询(searchquery)的一个或多个用户指定搜索项相关的内容的交互系统。通过已知的公共网关接口(CGI),Web可以包括交互式的内容,即该内容响应于连接到Web的计算机的人类用户指定的数据。搜索引擎接收来自用户的一个或多个搜索项的搜索查询,并将确定为与该搜索查询相关的一个或多个文档的列表提供给用户。
搜索引擎大大提高了用户可以在Web上查找所需信息的效率。因此,搜索引擎是Web上的最常用资源之一。有效的搜索引擎可以帮助用户在Web内当前给出的几十亿文档中查找出准确的特定信息。搜索引擎的主要功能和存在的目的是为了在用户的查询只给出少量搜索项的情况下,从几十亿可获得的文档中识别出少数最相关的结果,并且在尽可能少的时间内完成搜索。
一般,搜索引擎维护一个用于将搜索项关联到Web上的信息资源的记录数据库。搜索引擎主要以若干常见方法获取关于Web内容的信息。最常见的方法一般被称为Web爬行(crawling),另一方法是利用这种信息的提供者或第三方(即,既不是信息的提供者,也不是搜索引擎的提供者)对这种信息的提交。另一种搜索引擎获取关于Web内容的信息的常见方法是由人工编辑基于其复查来建立信息索引。
为了理解爬行,首先必须理解HTML文档可以包括对其他信息的引用(一般被称为“链接”)。“点击”文档的一部分,致使显示所引用的文档,这样就激活了这样的链接。Web爬行一般指的是一种自动过程,利用该过程,由一个文档引用的文档被检索和分析,由这些文档引用的文档又被检索和分析,并且所述检索和分析以递归方式重复。因此,尝试着自动遍历Web的全部内容,以分类Web的全部内容。
鉴于Web的文档被持续添加和/或修改的事实,并且Web极端宽广,因而还没有一种Web爬行器已经成功分类了Web的全部内容。因此,想要将其内容包括进搜索引擎数据库的Web内容的提供者直接将其内容提交给搜索引擎的提供者。通过因特网可获得的内容和/或服务的其他提供者与搜索引擎的运营者签订合同,以使其内容被定期爬行和更新,从而使搜索结果中包括当前信息。这些搜索引擎(例如由加州Pasadena的Overture公司(http://www.overture.com)提供的并在美国专利6,269,361中有所描述的搜索引擎,这里通过参考将所述专利结合于此)允许因特网内容和/或服务的提供者编写并提交与其内容和/或服务相关联并充当搜索查询结果的简要标题和描述(有时被称为搜索列表项)。随着因特网的发展以及因特网上的商业行为的发展,某些搜索引擎专门用于提供与信息结果分开呈现的商业搜索结果,以获得帮助实现定向广告的额外益处,从而促进因特网上的商业交易。
由于提供多余信息的搜索引擎相对于使多余信息的呈现最小化的搜索引擎具有显著缺点,因此搜索引擎提供者强烈希望使提供给搜索查询的结果的相关性最大化。
我们需要一种这样的系统,该系统用于在多种环境和市场中评估搜索列表项的性能,并用于自动识别和优化某些列表项,以便提高这些列表项的性能。
发明内容
根据本发明,搜索数据库中的搜索列表项的性能被监控,以识别通常不相关和/或不需要的搜索列表项,以对其自动优化或删除。性能作为如下关系被测量,所述关系是搜索列表项被呈现给用户的方式和该搜索列表项相对于所有其它搜索列表项和/或以类似方式呈现的其他搜索列表项的选择频率之间的关系。例如,用户从一个或多个搜索列表项的集合中选出一个搜索列表项的比率提供了对于该搜索列表项与搜索查询的具体搜索项的相关性的量度。
根据本发明,其被选次数比期望次数少得多的搜索列表项被标记为可能不相关和/或不需要的搜索列表项,并且被估计进行优化和/或删除。性能可以与搜索结果集合中的相对位置(有时被称为等级)上的期望性能进行比较。例如,一个搜索列表项相对于所有其它搜索结果而言可能表现为平均等级,但是对于其位置来说性能太差,例如一个首先呈现给用户的搜索列表项具有如下的选择率:该选择率比第一排位上的搜索列表项所预期的选择率低很多,或许与第四位置上的搜索列表项更有可比性。这可以指示该搜索列表项总体上给用户留下不满意的印象,或许可以从评估和优化中受益,或者当它与搜索查询不相关时,应该被完全删除。
至少使用两种不同的性能测量。一种是绝对性能。另一种是相对性能。绝对性能测量的是一个特定搜索列表项与具有给定长度的搜索结果集合中处于类似位置上的任何搜索列表项的期望选择频率相比的选择频率。相对性能测量的是与期望相对选择频率相比较,搜索结果集合中的一个特定搜索列表项相对于该集合中的其它搜索列表项的选择频率的选择频率。选择频率在这里有时被称为点进率。
期望相对选择频率是从过去的性能数据中导出的,过去的性能数据一般来自充当所有搜索查询的结果的所有搜索列表项,并且具体地说,来自属于作为类似结果返回给同一查询的公共产品和/或服务的搜索列表项。以这种方式,期望点进率包括用于每一等级搜索列表项的一般期望点进率和用于作为特定查询的结果返回的特定搜索列表项的特定期望点进率。
有时,仔细构造搜索查询,以便获取相当高度相关的搜索列表项。例如,搜索查询“ucla sweatshirt”是相对具体的,并且可能获得非常相关的搜索列表项。因此,看到一个短列表的相关搜索列表项的用户可能点进这些搜索列表项,并且期望点进率高于响应于该查询所提供的所有搜索列表项的平均值。有时,搜索查询的目标不明确,因此可能获得大量具有相对较小相关性的搜索列表项。例如,搜索查询“internet store”可以获得几乎指向所有现有的电子商务网站的搜索列表项。因此,看到一个长列表的最不相关搜索列表项的用户可能在未点进的情况下错过很多搜索列表项,因此期望点进率低于响应于该查询提供的搜索列表项的平均值。因此,根据本发明,特定的期望点进率提高了性能评估。
为了确保性能测量在统计上是可靠的,在搜索列表项已经具有最小数目的印象(impression)之前,不评估搜索列表项的性能。这里所使用的印象是响应于搜索查询而作为结果给予用户的搜索列表项的呈现。印象包括上下文,该上下文进而包括搜索结果集合的大小和搜索列表项在集合中被呈现的位置。印象被过滤,以确保在搜索列表项性能的评估中只考虑合法搜索。点击被类似地过滤,以确保点击仅代表人类用户所执行的合法选择。这里所使用的点击是用户从搜索结果集合中选出一个搜索列表项的行为。在某些搜索引擎中,人类用户对搜索列表项的点击是可计费的事件,搜索引擎提供者向被点击的搜索列表项的所有者收取商定的数额。
为了使性能测量适合于改变,并且为了避免很久以前的性能对当前性能测量的不当影响,性能可以被局限为仅仅最近的印象和点击,或者性能被动态调整以覆盖时段和服务位置的任意组合。
当确定一个搜索列表项的性能等级低于最小性能允许等级时,该搜索列表项被标记为进行优化或从搜索数据库中删除,以使该搜索列表项或者被编辑以提高性能,或者不再可用作该搜索查询的结果。结果,对提交搜索查询的用户给出不满意的(或简言之,无吸引力的)印象的搜索列表项被自动标识,并被改进或被从搜索数据库中选出,从而大大提高搜索引擎的价值和功能。这样做自动地使得特别大的搜索数据库的监控和维护更加便于管理。另外,搜索引擎提供者可以通过监控各个搜索列表项的性能来动态提高他们的搜索引擎的整体性能。
一旦一个搜索列表项被标记为低性能,就可以用多种方式中的任意一种来处理该搜索列表项。一种方式是使该搜索列表项在搜索数据库中保持活动以待对其进行修改。另一种方式是删除该待修改的列表项,并且随后将其重新包括进搜索数据库中。对低性能搜索列表项的修改还可以由人工编辑手工完成或者自动完成。例如,性能数据示出,在其标题中包含了搜索查询的搜索列表项比其标题不包含该搜索查询的搜索列表项表现出更好的性能。可以自动检测出自身缺少搜索查询,并且搜索列表项自身可以被自动修改,以使其标题包括该搜索查询。
附图说明
图1的框图示出了彼此耦合到广域网的根据本发明的搜索引擎、客户端计算机和主机计算机。
图2的框图更详细地示出了搜索引擎。
图3的逻辑流程图示出了根据本发明由搜索引擎执行的性能监控。
图4的框图更详细地示出了图2的搜索引擎的搜索服务器。
图5的逻辑流程图示出了检测搜索列表项的用户选择的方式。
图6的状态图示出了根据本发明,在性能监控期间搜索列表项的各种状态。
图7的逻辑流程图示出了根据本发明准备作为搜索结果呈现的多个搜索列表项以用于性能评估的过程。
图8的逻辑流程图示出了根据本发明,关于搜索列表项的印象和选择的信息的收集过程。
图9是根据本发明用于评估搜索列表项的性能的性能数据库的框图。
图10更详细地示出了图9的性能数据库的搜索文件的框图。
图11更详细地示出了图9的性能数据库的竞价点击文件(bid clickfile)的框图。
图12更详细地示出了图2的搜索引擎的性能监控器的框图。
图13是根据本发明的多个搜索列表项的性能评估的逻辑流程图。
图14、15和16中的每一个分别更详细地示出了图13的逻辑流程图中的一部分的逻辑流程图。
具体实施方式
根据本发明,搜索数据库中表现非常差的搜索列表项被自动标记以进行删除和评估。搜索列表项的非常差的性能是一个有力的指示符,其指示该搜索列表项正给搜索数据库的用户留下不合需要的印象。自动标记这样的搜索列表项能够搜出可能已逃过任何编辑过滤机制的不合需要的搜索列表项,以避免这样的搜索列表项被包括进搜索数据库中。
图1示出了被耦合到并服务于广域网104的搜索引擎102,所述广域网104在该示例性实施例中是因特网。多个主机计算机系统106A-D被耦合到因特网104,并向多个客户端计算机系统108A-C提供内容。当然,图1为了示例目的而被大大简化。例如,虽然只示出了四个(4)主机计算机系统和三个(3)客户端计算机系统,但是应该意识到(i)耦合到因特网的主机计算机系统和客户端计算机系统的总数可以为几百万个计算机系统,并且(ii)主机计算机系统可以像客户端计算机系统那样检索信息,而客户端计算机系统可以像主机计算机系统那样容纳信息。
搜索引擎102是一种计算机系统,它对主机计算机系统106A-D所容纳的信息进行分类,并服务于客户端计算机系统108A-C的搜索请求而提供可能被主机计算机106A-D中的任意一个所容纳的信息。响应于这种请求,搜索引擎102产生与搜索请求中指定的一个或多个搜索项相匹配的任意已分类信息的报告。由主机计算机系统106A-D所容纳的这些信息包括通常被称为网站的形式的信息。这种信息在因特网中被普遍称为万维网的部分中通过已知并广泛使用的超文本传输协议(HTTP)被检索。呈现给用户的单个多媒体文档一般被称为网页,并且在单个人、小组或组织的控制下多个互相关的网页一般被称为网站。虽然这里描述了对相关网页和网站的搜索,但是应该意识到,这里描述的某些技术可同样应用于对以其他形式存储在广域网中的信息的搜索。
搜索引擎102在图2中被更详细地示出。搜索引擎102包括搜索服务器206,它使用搜索数据库208来接收和服务于来自客户端计算机系统108A-C中的任意一个搜索请求。搜索引擎102还包括提交服务器202,其用于接收来自主机计算机系统108A-D中的任意一个的搜索列表项提交。每个提交请求在搜索数据库208中分类主机计算机系统108A-D中的任意一个所容纳的信息,从而可通过搜索服务器206获得搜索结果。
为了避免将不需要的搜索结果提供到客户端计算机系统108A-C,搜索引擎102包括编辑评估器204,它评估已提交的搜索列表项,然后再将这样的搜索列表项包括到搜索数据库208中。
在此示例性实施例中,搜索引擎102(以及提交服务器202、编辑评估器204和搜索服务器206中的每一个)是作为在一个或多个计算机中执行的一个或多个计算机进程的全部或一部分。简言之,提交服务器202接收到对搜索数据库208中列表信息的请求,并且编辑评估器204评估已提交的搜索列表项,然后再将它们包括到搜索数据库208中。在2002年9月13日递交的由Dominic Cheung等人所著的题为“Automated Processingof Appropriateness Determination of Content for Search Listings in Wide AreNetwork Searches”的美国专利申请10/244,051中更完整地描述了评估这种搜索列表项的过程,这里通过参考并入该专利的描述以用于任意和所有用途。
搜索引擎102还包括性能数据库210,其包括根据本发明跟踪各个搜索列表项的性能的数据。编辑评估器204包括性能监控器212,它使用性能数据库210来评估搜索列表项性能,以判断即便需要应该从搜索数据库208中删除哪些搜索列表项。这里在逻辑流程图300(图3)的上下文中描述了性能监控器212的行为,并将在下文中更详细描述。
在步骤302中,性能监控器212(图2)周期性地评估被监控的搜索列表项的性能。在此示例性实施例中,搜索列表项的性能在每次该搜索列表项被用作搜索结果时被更新,从而确保该搜索列表项的性能评估总是最新的。在替换实施例中,搜索列表项性能被周期性地(例如每日)评估。
在此示例性实施例中,只有在无人为编辑漏洞的情况下被自动批准的搜索列表项被标记以用于性能监控。此外,某些提交者被认为是可信赖的,并且一般不监控他们的搜索列表项的性能。在此实施例中,每月执行一次搜索列表项的周期性性能评估。在替换实施例中,这种评估分别是每周执行一次和每半个月执行一次。当然,可以使用其他评估周期。优选地,性能评估频率使得(i)可以收集足够性能数据,以提供对相关性能的相当可靠的评估,并且(ii)可以在评估之间收集到足够数据,实际上可以期望所述评估改变相当大的并可测量的量。
下面将描述性能监控器212评估各种搜索列表项的性能的方式。在测试步骤304(图3)中,性能监控器212(图2)判断经评估的性能是否低于预定的阈值。下面将结合对评估搜索列表项性能的更详细描述来描述预定的阈值。如果性能不低于预定阈值,性能监控器212则确定该搜索列表项不是特别不需要,并且根据逻辑流程图300(图3)的处理完成,将该搜索列表项留在搜索数据库208(图2)中。
相反,如果搜索列表项的性能低于预定阈值,性能监控器212则确定该搜索列表项非常不需要,并且处理转移到测试步骤306(图3)。在测试步骤306中,性能监控器212判断该搜索列表项是不是自动修改的候选。性能监控器212保存多个被认为能够提高搜索列表项的性能的搜索列表项修改概况(profile)。一个这样的概况指示在该搜索列表项的标题中包括特别适合于该搜索列表项的搜索查询。在此示例性的实施例中,性能监控器212通过判断该搜索列表项的标题是否已经包括该搜索查询来执行测试步骤306的判断。
如果该搜索列表项是对自动修改的候选,处理则从测试步骤306转移到步骤308,在步骤308中,性能监控器212对该搜索列表项应用一个或多个自动修改概况。在此示例性示例中,性能监控器212修改搜索列表项的标题以包括搜索查询。在步骤310中,经修改的搜索列表项以这样的方式上线(即被存储在搜索数据库208中):使经修改的搜索列表项可用于充当搜索查询的结果。在步骤310之后,根据逻辑流程图300的处理完成。
如果性能监控器212(图2)在测试步骤306(图3)中确定该搜索列表项不是用于自动修改的候选,处理则转移到步骤312。在步骤312中,性能监控器212(图2)使搜索列表项下线。在一个实施例中,性能监控器212通过从搜索数据库208中删除该搜索列表项而使该搜索列表项下线。在替换实施例中,性能监控器212通过将该搜索列表项标记为不可用并使如此标记的搜索列表项离开搜索数据库208,而使该搜索列表项下线。在此替换实施例中,搜索服务器206只提供搜索数据库208中未被标记为不可用的搜索列表项,以作为搜索结果。
在步骤314(图3)中,性能监控器212(图2)通知下线搜索列表项的所有者关于该搜索列表项的下线状态。因此,该所有者可以采取正确的行动,例如提交更可能被搜索服务器206的用户接受的新的搜索列表项。
状态图600(图6)示出了更复杂的实施例,其中低性能的搜索列表项不被删除(例如立即或在步骤308的自动修改之后在步骤312(图3)中删除,随后持续低性能),反之,向低性能搜索列表项的所有者提供在删除前改进其搜索列表项的机会。
当搜索列表项被首次批准包括进搜索数据库208(图2)时,该搜索列表项处于累积状态602(图6)。在累积状态602中,关于该搜索列表项的性能的数据以如下将更完整描述的方式被累积。处于累积状态602的搜索列表项不就其性能进行评估,直到该搜索列表项已经累积了预定数目的印象为止,即该搜索列表项已经作为搜索结果被呈现给用户达预定次数。在此示例性实施例中,预定数目的印象是200个印象。当然,可以使用其它值作为预定数目的印象。
一旦该搜索列表项已被累积了预定数目的印象,该搜索列表项则进入评估状态604。评估状态604是大多数搜索列表项停留大半时间的状态。在评估状态604中,搜索列表项的性能以这里将更完整描述的方式被评估。只要搜索列表项的性能保持在预定阈值之上,该搜索列表项就保持在评估状态604中。但是,如果该搜索列表项的性能落到预定阈值以下,则该搜索列表项进入警告状态606。
在警告状态606中,将该搜索列表项的较差性能告知该低性能搜索列表项的所有者,并为其提供有限的时间量来修改该搜索列表项。可替换地,若不向所有者提供修改搜索列表项的机会,如果确定适合于自动修改(如以上相对于步骤306到310(图3)所述),则可以自动修改该搜索列表项。
提供给所有者的关于需要修改或自动修改的通知可以在基于网络的账户管理应用内通过电子邮件或以布告形式提供给所有者,其中通过所述账户管理应用为所有者提供了对其拥有的搜索列表项的访问权限,这种基于网络的应用将参考图17来更完整地描述。这种访问权限例如可以包括搜索列表项性能的统计、搜索列表项的属性和计费信息。该通知还可以包括关于改进搜索列表项性能的方式的建议。
如果所有者在预定的时间段(例如14天)内修改了低性能的搜索列表项,该搜索列表项则进入试用状态608。相反,如果该搜索列表项在预定时间段内未被修改,则该搜索列表项进入删除状态610,在该状态中,该搜索列表项被从搜索数据库208(图2)中删除,并将该删除告知该搜索列表项的所有者。
在试用状态608中,关于搜索列表项性能的数据以类似于累积状态602的方式被累积。处于试用状态608的搜索列表项不就其性能进行评估,直到该搜索列表项已累积了预定数目的印象为止。在此示例性实施例中,预定数目的印象是200个印象。一旦处于试用状态608的搜索列表项已经累积了预定最小数目的印象,该搜索列表项就进入评估状态604,并且继续对搜索列表项的评估。
在某些实施例中,累积状态602和试用状态608是相同的状态。在替换实施例中,试用状态608不同于累积状态602。例如,累积状态602和试用状态608之间的差异包括在转移到评估状态604之前要累积的印象的预定数目方面的差异,以及在搜索列表项处于试用状态608的在先次数的记录保存方面的差异。后一差异在限制特定搜索列表项可以被允许进入试用状态608的次数时很有用。例如,在不向所有者提供再次修改搜索列表项的机会的情况下,搜索列表项在被删除之前被限制为一次自动修改和三个试用状态。
为了辅助各种搜索列表项性能的评估,搜索服务器206收集关于搜索列表项的印象和搜索列表项的点击的数据。搜索列表项的印象指的是搜索列表项作为搜索结果被呈现给用户的方式。点击指的是用户对搜索列表项的选择,从而检索和查看由搜索列表项代表的网页或其他信息。
在此示例性的实施例中,搜索列表项的印象由该列表项作为结果被提供到的搜索以及在搜索结果内的显示位置来限定。此外,在替换实施例中,印象包括指定该搜索列表项是否被竞价的数据,即指定该搜索列表项的所有者是否已为该搜索列表项的显著位置付款的数据。举个例子,搜索列表项的印象可以由指定该搜索列表项是第三竞价(third bid)搜索列表项的数据来定义,所述第三竞价搜索列表项是作为对由搜索项“试验性飞行器引擎”定义的搜索的搜索结果而提供的。
由于搜索引擎的存在理由是用于辅助广域网(例如因特网104)中的所需信息的定位,因此对于所需信息的成功定位的指示是对与呈现给用户的结果搜索列表项相关联的信息的尝试检索。简言之,用户被赋予一个对与搜索列表项相关联的网页的链接,并且例如通过使用鼠标或其他传统输入设备“点击”该链接而激活该链接,从而请求与该搜索列表项相关联的网页。因此,搜索列表项的“点击”指的是由用户激活与搜索列表项相关联的链接,而“点击”是对该搜索列表项为用户提供了所需信息的指示。
一般,搜索结果列表中的某些位置比其他位置更好。换句话说,相对于其他位置上的搜索结果,用户一般更可能点击呈现在搜索结果中的这些位置上的搜索结果。因此,在一个实施例中,通过比较一个搜索列表项相对于呈现给用户的搜索结果中的类似位置上的其他搜索列表项的点击率,来评价该搜索列表项的性能。因此,关于呈现给用户的搜索列表项的各个位置以及用户对这些搜索列表项的点击的信息被收集。
为了收集代表印象和点击的数据,搜索服务器206包括链接打包器404(图4)和重定向模块406。搜索服务器206还包括搜索引擎逻辑402,除非这里另外描述,否则该搜索引擎逻辑402就是传统上的搜索引擎逻辑。逻辑流程图500(图5)示出了搜索服务器206响应于接收到来自客户端计算机系统108A-D(图1)中的任意一个的包括了一个或多个搜索项的搜索请求的行为。
在步骤502中,搜索引擎逻辑402(图4)从搜索数据库208(图2)获得多个搜索列表项,这些搜索列表项一般与搜索项最相关,并且根据与存储在搜索数据库208中的各个搜索列表项相关联的竞价额。
在步骤504(图5)中,搜索引擎逻辑402(图4)将在步骤502中获得的搜索列表项传递到链接打包器404。对于每个搜索列表项,链接打包器404解析该搜索列表项的URL,并编码URL和代表该搜索列表项的印象的数据。经编码的URL和印象数据被包括在被寻址到重定向模块406的新URL中。因而,链接打包器404在将搜索结果呈现给用户时保存代表印象的数据,并编码随后由重定向模块406接收并解析的数据以获得代表点击的数据。重定向模块406的接收和解析将在下文中更完整地描述。链接打包器404将编码后的URL提供到搜索引擎逻辑402,搜索引擎逻辑402然后在步骤506中将编码后的URL作为搜索结果的一部分提供到用户。
逻辑流程图504(图7)更详细示出了由链接打包器404(图4)执行的步骤504。在步骤702中,链接打包器404(图4)确定包括在用于当前所服务的搜索请求的结果集合中的结果搜索列表项的总数目。在步骤704(图7)中,链接打包器404(图4)确定包括在搜索结果集合中的竞价搜索列表项的总数目。在一个实施例中,包括在搜索结果集合中的搜索列表项的总数目和竞价搜索列表项的总数目是由搜索引擎逻辑402预定的,并被传输给链接打包器404。在替换实施例中,搜索引擎逻辑402将生成的搜索列表项的集合传输到链接打包器404,并且链接打包器404通过检查这些搜索列表项自身来推断总的搜索列表项和竞价搜索列表项的数目。
循环步骤706和下一步骤718定义了一个循环,在该循环中,链接打包器404(图4)根据步骤708到716(图7)来处理结果集合中的每个搜索列表项。在步骤706到718的循环的特定迭代期间,被处理的特定搜索列表项被称为当前搜索列表项。
在步骤708中,链接打包器404(图4)确定结果集合中的当前搜索列表项的位置。在一个实施例中,列表中的相对位置由搜索引擎逻辑402根据结果集合中的每个搜索列表项的相对相关性和/或相对竞价额来指定,并且这些相对位置被搜索引擎402通过发送明确指定这些位置的数据而传输到链接打包器404。在替换实施例中,由搜索引擎402确定的相对位置是从搜索列表项被传输到链接打包器404的顺序中推断出的。
在测试步骤710(图7)中,链接打包器404(图4)判断当前搜索列表项是否是被竞价的。例如,链接打包器404可以读取从搜索引擎逻辑402接收到的明确指示每个搜索列表项是否被竞价的数据。可替换地,可以从结果集合中的每个搜索列表项的相对位置中推断出一个搜索列表项是否被竞价。在替换实施例中,结果集合中的前三个和最后两个搜索列表项被竞价,并且其余的搜索列表项都未被竞价。
如果当前搜索列表项被竞价,处理则转移到步骤712(图7),在步骤712中,链接打包器404(图4)确定该当前搜索列表项在竞价搜索结果中的相对位置。以上述方式,该相对位置可以被明确给出,或从搜索列表项结果的集合中推断出。相反,如果当前搜索列表项未被竞价,链接打包器404则跳过步骤712(图7)。
在步骤714中,链接打包器404(图4)编码搜索列表项的总数目、竞价搜索列表项的总数目、当前搜索列表项的URL和当前搜索列表项在所有搜索结果和所有竞价搜索结果中的相对位置。这些值可以被编码为明文CGI变量或可以被编码为数据的散列或其他密码加扰,以隐藏特定的经编码的值,并从而阻止对这些值的篡改。
在步骤716(图7)中,链接打包器404(图4)形成可跟踪的URL,其包括从步骤714(图7)编码出的数据。该URL是可跟踪的,因为它被寻址到重定向模块406(图4)。因此,在将搜索列表项呈现给位于任意客户端计算机108A-D(图1)上的用户之后,用户对任意搜索列表项的任意选择向重定向模块406(图4)发送HTTP请求。重定向模块406因而位于能截取被点击的搜索列表项的位置上,并如逻辑流程图800(图8)那样记录这种点击行为。
在步骤802中,重定向模块406(图4)获取HTTP请求的URL。如上所述,URL包括代表呈现给用户的搜索列表项的总数目的数据、代表呈现给用户的竞价搜索列表项的总数目的数据、代表用户选择的搜索列表项的URL的数据和代表用户选择的搜索列表项在所有搜索列表项和所有竞价搜索列表项中的相对位置的数据。重定向模块406在步骤804(图8)中从URL中解码出这些值。
在步骤806中,重定向模块406(图4)以如下所述的方式记录由获取的URL所代表的点击,以用于随后的性能评估。简言之,重定向模块406记录由用户选出的特定搜索列表项以及从中选出该搜索列表项的搜索结果集合,并且用于按如下方式(下面将更完整描述)进行点击过滤的数据和时间戳也一道被记录。
在步骤806中,重定向模块406将HTTP请求重定向到在步骤804中从所获取的URL解码出的URL中所代表的地址。因此,用户最终获得了按所选搜索列表项的URL寻址到的网页,这正是用户所盼望的行为。
如上所述,搜索、印象和点击被置于性能数据库210(图2)中。性能数据库210在图9中被详细示出。
性能数据库210包括搜索点击结(join)902,该搜索点击结902进而包括搜索文件904、竞价点击文件906和未竞价点击文件908。搜索文件904在图10中被详细示出。
搜索文件904包括多个搜索记录,其中每个搜索记录代表搜索数据库208(图2)中的各个搜索。标识符1002唯一地标识一个特定搜索。项1004代表在由标识符1002标识的搜索中由用户提供的一个或多个搜索项。链接列表1006代表由搜索引擎逻辑402(图4)收集的结果集合中包括的搜索列表项,并且对于结果集合中的每个搜索列表项,包括一个可以用来在搜索数据库208(图2)中定位该搜索列表项的标识符、该搜索列表项是被竞价的还是未被竞价的信息、以及该搜索列表项在所有搜索列表项中以及在竞价搜索列表项(如果该搜索列表项是被竞价的话)中的相对位置。该搜索列表项是否是被竞价的信息可以在链接列表1006中明确示出,或者也可以通过检索代表搜索列表项的搜索数据库208中的数据来确定。
搜索文件904中的一个搜索记录可以代表一次发送到特定单独用户的搜索结果的单个集合,或者可以代表如下的多个搜索:在所述搜索中,由项1004表示的搜索项和由链接列表1006表示的结果搜索列表项的集合是相同的。类似地,结果集合可以被看作在搜索列表项的单个统一代表(即单个的结果页)的单个事务中被发送到用户的搜索列表项的集合,或者可替换地,可以被看作跨越多个页并被分批发送给用户的搜索列表项的较大集合。
竞价点击文件906和未竞价点击文件908彼此相似,并且以下对竞价点击文件906的描述可同样应用于未竞价点击文件908,除了另外指出的部分之外。根本上讲,竞价点击文件906代表竞价搜索列表项的点击,而未竞价点击文件908代表未竞价搜索列表项的点击。在图11中更详细示出了竞价点击文件906。
竞价点击文件906包括多个点击记录,其中每个点击记录代表一个点击,即用户对由重定向模块406按上述方式收集的结果搜索列表项的一次选择。每个点击记录包括时间戳1102、搜索标识符1104和链接标识符1106。时间戳1102代表重定向模块406检测到该点击的数据和时间。时间戳1102被用于点击过滤(下面将更完整描述)。
搜索标识符1104指定该点击所属的单个搜索,并且对应于标识符1002(图10)中其各自的标识符,从而指定相关的搜索记录。因此,搜索标识符1104指定用户已从中做出选择的搜索列表项结果的集合,例如链接列表1006。链接标识符1106标识用户选出的搜索列表项,即将链接列表1006中的一个特定搜索列表项标识为用户所选择的那个。
因此,搜索点击结902(图9)记录特定搜索的结果集合中的特定搜索列表项的印象和点击。盼望点进率910包括在评估搜索数据库208中的特定搜索列表项中使用的附加历史数据。具体而言,盼望点进率910包括绝对点进历史表912和相对点进历史表914。
表912和914在量化特定搜索列表项性能的过程中以下面将更完整描述的方式被使用。绝对点进历史表912记录在具有各种大小的结果集合中点击位于每个位置上的搜索列表项的次数。例如,绝对点进历史表912记录只包括单个搜索列表项的结果集合的数目以及所述单个搜索列表项被点击的次数。另外,绝对点进历史表912记录包括两个搜索列表项的结果集合的数目以及第一和第二搜索列表项分别被点击的次数。类似地,绝对点进历史表912记录包括三个搜索列表项的结果集合的数目以及第一、第二和第三搜索列表项分别被点击的次数。绝对点进历史表912记录包括了四个、五个以及直到预定的最大数目的搜索列表项的结果集合的类似信息。
相对点进历史表914除了记录在同一搜索中点击的多个搜索列表项之外,记录类似的信息。例如,对于包括两个搜索列表项的结果集合,相对点进历史表914记录第一和第二搜索列表项都被点击的次数。类似地,对于包括三个搜索列表项的结果集合,相对点进历史表914记录(i)第一和第二、(ii)第二和第三以及(iii)第一和第三搜索列表项都被点击的次数。对于包括了四个、五个以及直到预定的最大数目的搜索列表项的结果集合中的类似组合,点击被类似地记录。
应该注意,无论搜索项或特定用户是怎样的,用于所有搜索的所有点击历史都要被包括在绝对点进历史表912和相对点进历史表914中。表912和914的目的是要提供对如下可能性的估计:无论搜索列表项的内容如何,在具有特定长度的结果集合中处于特定位置的一个搜索列表项都会被点击。因此,性能监控器212具有一个参考点,利用该参考点来识别低性能的搜索列表项。
得分916代表由性能监控器212按下述方式确定的各个搜索列表项的相对性能。删除表924标识已被性能监控器212确定为低性能的,并因此需要被修改和/或从搜索数据库208中删除的各个搜索列表项。参数922包括用于控制性能监控器212按下述方式对性能的评估的数据。
因此,利用由重定向模块406与链接打包器404合作收集的性能数据,性能监控器212被用于有效地评估特定搜索列表项的性能。性能监控器212在图12中被更详细示出。
性能监控器212包括点击过滤器1202,其用于删除代表可能不适当地影响搜索列表项的性能评估的用户选择的数据。例如,当搜索列表项的用户选择显示出在时间上彼此非常靠近以至于不可能是人类用户的选择结果时,假设用户在单个选择中由于疏忽多次点击同一链接,或假设计算机进程正在仿真人类用户并比人类更快地做出选择。在任意一种情况下,跟随在来自同一客户端计算机系统(例如客户端计算机系统108A-D中的任意一个)的另一搜索列表项选择之后的与之相距时间小于预定阈值时间的搜索列表项选择被点击过滤器1202所丢弃。所述预定时间阈值在参数922(图9)中表示。
点击过滤器1202(图12)还丢弃对应于在时间上跟随类似搜索太近的搜索的点击。在此示例性实施例中,用于丢弃搜索记录的搜索之间的阈值选择是对于同一搜索项的预定数目次搜索所采用的平均搜索间间隔的预定部分。该预定部分和预定数目次搜索在参数922(图9)中表示。
其他类型的点击不代表在对Web内容的诚实搜索的环境中人类用户的点击。这种点击的例子包括与以下搜索有关的点击:在一种搜索中,搜索列表项的所有者提交搜索查询以判断该搜索列表项被如何放置在与同一搜索查询有关的其他搜索列表项之中,而在另一种搜索中,搜索列表项的所有者对该搜索列表项进行搜索,以试图不适当地夸大该搜索列表项的评估性能。点击过滤器1202以如下美国专利申请更完整描述的方式来删除所有非法搜索:与本申请同日递交的Scott B.Kline等人所著的题为“Detection of Improper Search Queries fin a Wide Area Network SearchEngine”(代理案卷号P-2242)的美国专利申请序列号10/_,_,这里通过参考而并入其描述。在删除非法搜索的过程中,点击过滤器1202还删除与这些被删除的搜索相关联的任意点击。除了过滤搜索之外,点击过滤器1202还可以以如下美国专利申请所描述的方式检测无效点击:由Stephan Doliov所著的题为“System and Method to Determine the Validity ofan Interaction on a Network”的美国专利申请序列号09/765,802,这里通过参考而并入其描述。任何检测到的无效点击都会被删除。在浅搜索项市场中(即,在相对很少被搜索的搜索项的上下文中),对点击的过滤是尤其重要的。由于相对而言很少搜索这些项,因此浅市场中的不适当搜索更有可能在相当程度上影响搜索列表项的测量性能。
在一个实施例中,点击过滤器1202(图12)在点击和搜索被累积在搜索点击结902(图9)中时过滤这些点击和搜索。因此,搜索点击结902存储仅代表合法点击和搜索的数据。在替换实施例中,所有点击和搜索都被记录在搜索点击结902中,并且点击过滤器1202(图12)在性能监控器212输入点击和搜索以用于处理时过滤这些点击和搜索。
性能监控器212包括搜索列表项精选器1204,它评估搜索列表项的性能以判断是否有搜索列表项的性能低于阈值达足够的容限,以确保删除该搜索列表项。该过程由逻辑流程图1300(图13)示出。
在此示例性的实施例中,根据逻辑流程图1300的处理每月执行一次。这提供了这样一种机会:使搜索列表项被包括在针对足够数量搜索的结果集合中,以提供足够可靠的统计分析。当然,可以使用其它频率,例如每季度、每两个月、每周,或对于特别活跃的搜索列表项,甚至可以每日执行一次。
循环步骤1302和下一步骤1316定义了一个循环,在该循环中,搜索列表项精选器1204根据步骤1304到1314处理每个存储在搜索文件904(图9)中的搜索。在步骤1302到1316的循环的每次迭代期间,由搜索列表项精选器处理的特定搜索有时被称为当前搜索。
在步骤1304中,搜索列表项精选器1204(图12)从竞价点击文件906(图9)和未竞价点击文件908中收集与当前搜索有关的点击记录。这些点击记录的搜索字段1104(图11)标识了当前搜索。结果是来自链接列表1006(图10)内的链接字段1106的一组链接,这组链接是由已经看到对应于当前搜索而返回的这组结果的用户所选出的。
循环步骤1306和下一步骤1314定义了一个循环,在该循环中,搜索列表项精选器1204根据步骤1308到1312处理该当前搜索的链接列表1006(图10)的每个搜索列表项。在步骤1306到1314的循环的每次迭代期间,在图13的上下文中,由搜索列表项精选器1204处理的特定搜索列表项有时被称为当前搜索列表项。
在步骤1308中,搜索列表项精选器1203更新当前搜索列表项的绝对得分。步骤1308在逻辑流程图1308(图14)中被更详细地示出。在步骤1402中,搜索列表项精选器1203为大小等于当前搜索的链接列表1006(图10)的尺寸的搜索结果集合中的当前搜索列表项的位置上的搜索列表项确定期望点进率。例如,如果该当前搜索列表项是当前搜索结果集合中的第三搜索列表项,并且当前搜索产生了十个结果搜索列表项,搜索列表项精选器1204(图12)则在步骤1402(图14)中确定具有十个搜索列表项的集合中的第三位置搜索列表项的期望点进率。
搜索列表项精选器1204(图12)根据绝对点进历史表912做出这样的判定,所述绝对点进历史表912存储了(i)具有其各自长度的搜索文件904中的搜索的总数目,以及(ii)对于每个搜索长度,位于其各自位置上的搜索列表项被点击的次数。因此,对于每个位置的期望点进率是处于该位置的搜索列表项被点击的次数除以具有所讨论长度的搜索结果集合被呈现给用户的次数。
在某些实施例中,当评估当前搜索列表项时,该搜索列表项的所有印象都要考虑。但是,在此示例性实施例中,只有有限数目(例如200)的最近期印象被考虑。通过仅考虑近期印象,近期性能被评估。不管可能以其他方式过度影响近期性能评估的印象的长期历史如何,在非常大量印象之后的性能改变都可以被检测到。
在测试步骤1404中,搜索列表项精选器1204判断当前搜索列表项是否被包括在步骤1304中所收集的集合中。如果是,处理则转移到步骤1408,在步骤1408中,搜索列表项精选器1204计算对于该当前列表项的点击绝对得分。相反,如果该当前搜索列表项没有被包括在所收集的点击的集合中,处理则转移到步骤1406,在步骤1406中,搜索列表项精选器1204计算对于该当前搜索列表项的未点击绝对得分。
在此示例性实施例中的点击绝对得分是2减去期望点进率的差。在此示例性实施例中的未点击绝对得分是1减去期望点进率的差。一般期望被点击但是未被点击的搜索列表项具有较低的绝对得分(接近于0)。一般不期望被点击且没有被点击的搜索列表项具有小于但接近于1的绝对得分。一般期望被点击且被点击的搜索列表项具有大于但接近于1的绝对得分。一般不期望被点击但被点击的搜索列表项具有最高得分(接近于2)。因此,绝对得分测量出如下关系:搜索列表项是否被用户所选择相对于用户由于该搜索列表项在结果集合中的位置而将选择该搜索列表项的期望之间的关系。当然,绝对得分可以按照需要而按比例改变。在此示例性实施例中,绝对得分被按比例放大50倍,从而使绝对得分的范围从0到100。
在步骤1406或步骤1408之后,处理转移到步骤1410,在步骤1410中,搜索列表项精选器1204将在步骤1406或1408中确定的绝对得分合并到当前搜索列表项的累计绝对得分中。在一个实施例中,搜索列表项精选器1204保存来自经过滤的点击记录的绝对得分的算术平均。搜索列表项精选器1204(图12)保存在得分916中的绝对得分数据库920(图9)中的累计绝对得分。在步骤1410(图14)之后,根据逻辑流程图1308的处理完成,因此步骤1308(图13)完成。
在步骤1310中,搜索列表项精选器1204(图12)更新当前搜索列表项的相对得分。步骤1310在逻辑流程图1310(图15)中被更详细地示出。在步骤1502中,搜索列表项精选器1204以上述参考步骤1402(图14)所述的方式确定当前搜索列表项的期望点进率。
循环步骤1504(图15)和下一步骤1510定义了一个循环,在该循环中,搜索列表项精选器1204(图12)根据步骤1506到1508处理当前搜索中除了当前搜索列表项之外的每个搜索列表项。在步骤1504到1510的循环的每次迭代期间,特定的搜索列表项有时被称为其他搜索列表项,其不同于当前搜索列表项。
在步骤1506(图15)中,搜索列表项精选器1204(图12)以上述对于当前搜索列表项所述的方式确定其他搜索列表项的期望点进率。
在步骤1508(图15)中,搜索列表项精选器1204(图12)确定当前搜索列表项和其他搜索列表项之间的相对得分。在此示例性实施例中,相对得分是通过以下方程式给出的,其中(i)x代表其他搜索列表项在当前搜索中的位置,(ii)r代表当前搜索列表项在当前搜索中的位置,(iii)C代表在步骤1304(图13)中收集到的点击集合,并且(iv)b代表当前搜索中的搜索列表项数目:
2 - P [ ( x ∉ C | r ∈ C ) | b ] , 如果r∈C且 x ∉ C - - - ( 1 )
1 - P [ ( x ∉ C | r ∈ C ) | b ] , 如果r∈C且x∈C                 (2)
2 - P [ ( x ∉ C | r ∉ C ) | b ] , 如果 r ∉ C x ∉ C - - - ( 3 )
1 - P [ ( x ∉ C | r ∉ C ) | b ] , 如果 r ∉ C 且x∈C                 (4)
为了确定等式(1)和(2)中的值,搜索列表项精选器1204采用以下等价关系:
P [ ( x ∉ C | r ∈ C ) | b ] = 1 - P [ ( x ∈ C | r ∈ C ) | b ] = 1 - P ( x ∈ C , r ∈ C | b ) P ( r ∈ C | b ) - - - ( 5 )
在等式(5)中,通过使用在步骤1502中确定的期望点进率来估计p(r∈C|b),该p(r∈C|b)代表在给定当前搜索的结果数目的情况下,当前搜索列表项被点击的概率。通过使用相对点进历史表914(图9)来估计P(x∈C,r∈C|b),其中p(x∈C,r∈C|b)代表在给定当前搜索的结果数目的情况下,当前搜索列表项和其他搜索列表项都被点击的概率。历史表914存储了对于搜索文件904中表示的所有搜索,一个具有特定长度的搜索内位于其各自位置上的两个搜索列表项都已被点击的总次数。例如,相对点进历史表914代表结果集合中具有5个搜索列表项的搜索的第二和第三列表项都被点击的总次数。从相对点进历史表914,搜索列表项精选器1204获取已经从具有当前搜索的结果集合的长度的搜索结果集合中选出在当前搜索列表项和其他搜索列表项各自位置上的搜索列表项的总次数。搜索列表项精选器1204将这个数除以具有当前搜索的长度的搜索的总数目以估计p(x∈C,r∈C|b)。因此,等式(5)在可应用等式(1)或(2)的情况下被用于确定相对得分。
为了确定等式(3)和(4)中的值,搜索列表项精选器1204采用以下等价关系:
P [ ( x ∉ C | r ∉ C ) | b ] = 1 - P [ ( x ∈ C | r ∉ C ) | b ]
= 1 - P ( x ∈ C , r ∉ C | b ) P ( r ∉ C | b ) - - - ( 6 )
= 1 - [ P ( x ∈ C | b ) - P ( x ∈ C , r ∈ C ) | b ] [ 1 - P ( r ∈ C | b ) ]
在等式(6)中,p(r∈C|b)和p(x∈C,r∈C|b)都以上述参考等式(1)和(2)所述的方式来估计。另外,通过使用在步骤1506中确定的其它搜索列表项的期望点进率来估计p(r∈C|b),该p(r∈C|b)代表在给定当前搜索的结果数目的情况下,其他搜索列表项被点击的概率。因此,等式(6)在可应用等式(3)或(4)的情况下被用于确定相对得分。
当用户选择除当前搜索列表项之外的搜索列表项时,等式(1)到(4)一般会使当前搜索列表项的性能下降。等式(2)和(4)一般会使当前搜索列表项的性能更严重地下降,因为它们代表用户在其中选择了其他搜索列表项的搜索。
一旦当前搜索的除当前搜索列表项之外的所有搜索列表项都已根据步骤1504到1510的循环被处理,处理就转移到步骤1512,在步骤1512中,搜索列表项精选器1204将在步骤1508的迭代性能中为当前搜索列表项确定的所有相对得分组和起来。在此示例性实施例中。搜索列表项精选器1204使用相对得分的几何平均来组合相对得分。在步骤1514中,搜索列表项精选器1204加权经组合的当前搜索列表项的相对得分,以产生当前搜索列表项的相对得分。
在步骤1516中,搜索列表项精选器1204将相对得分合并到当前搜索列表项的累计相对得分中。在一个实施例中,搜索列表项精选器1204保存从已过滤的点击记录和从在结果集合中包括一个以上搜索列表项的搜索而来的相对得分的算术平均。搜索列表项精选器1204(图12)保存在得分916中的相对得分数据库918(图9)中的累计相对得分。在步骤1516之后,根据逻辑流程图1310的处理完成,因此步骤1310完成。
对搜索列表项的累计绝对得分或累计相对得分的更新被看作一个触发事件,该触发事件触发用于删除搜索列表项的测试。
在此示例性实施例中,搜索列表项精选器1204在步骤1312中执行这样的测试。在替换实施例中,搜索列表项精选器1204将已更新了累计绝对和/或相对得分的搜索列表项放置在一个队列中,以用于随后为找到可能的删除而对这些得分执行的测试。在任意一种情况下,都以逻辑流程图1312(图16)所示的方式来执行用于删除当前搜索列表项的测试,其中逻辑流程图1312更详细示出了步骤1312。
在测试步骤1602中,搜索列表项精选器1204(图12)判断当前搜索中的竞价列表项的数目是否至少为预定的最小阈值。测试步骤1602的一般目的在于判断是否显示出足够数目的其他竞价搜索列表项,从而使相对得分成为对当前搜索性能的合适量度,否则,一般独立于当前搜索中的其他搜索列表项的性能的绝对得分是更好的量度。如上所述,该示例性实施例处理被竞价以及未被竞价的搜索列表项。在此示例性实施例中,搜索引擎102使用传统技术(有时被称为“爬行”)来发现未竞价列表项,而竞价列表项被其所有者提交以用于包括在搜索数据库208中。因此,竞价列表项更可疑,因此被更仔细地检查,并且在此示例性实施例中,预定的最小阈值只属于竞价搜索列表项。在替换实施例中,未竞价搜索列表项或所有搜索列表项的数目可以被用作判断在当前搜索的上下文中,是绝对得分还是相对得分更有效的决定因素。预定的最小阈值被存储在参数922(图9)中。
如果竞价列表项的数目低于预定的最小阈值,则确定当前搜索列表项的绝对得分是对性能的更好量度,并且搜索列表项精选器1204的处理前进至测试步骤1606。相反,如果当前搜索中的竞价列表项的数目至少为预定的最小阈值,则确定相对得分是对性能的更好量度,并且搜索列表项精选器1204的处理前进至测试步骤1604。
对于相对得分和绝对得分中的每一个,都将其各自预定的最小印象数目存储在参数922(图9)中。在已经累积了足够数目的印象,从而以上述方式提供相当可靠的统计分析之前,不考虑搜索列表项的删除。在一个实施例中,预定的最小印象数目是200。在替换实施例中,预定的最小印象数目可以根据搜索列表项和/或搜索列表项作为充当其结果的候选的搜索项的各种特性而变化。例如,可以根据以下因素来指定不同的预定最小印象数目:(i)根据搜索列表项的所有者,因为某些搜索列表项所有者可能随时间流逝而建立更大信任;(ii)根据特定搜索项的搜索量;(iii)根据搜索列表项所属的市场;以及(iv)根据最初批准搜索列表项被包括在搜索数据库208中的方式,即通过人工编辑复查或通过自动编辑复查。
在测试步骤1604或1606中,如果当前搜索列表项的印象数目分别低于相对得分或绝对得分的预定阈值,根据逻辑流程图1312的处理则完成,从而步骤1312(图13)完成,并且当前搜索列表项不被删除。在这种情况下,当前搜索列表项处于累积状态602(图6)或试用状态608。相反,如果当前搜索列表项的印象数目至少分别为相对得分或绝对得分的预定阈值,处理则分别转移到测试步骤1608(图16),并且当前搜索列表项处于评估状态604(图6)。
对于相对得分和绝对得分中的每一个,其各自的预定最小阈值得分被存储在参数922(图9)中。如果一个搜索列表项具有必须具备的印象数目以及低于预定最小得分的得分,则将该搜索列表项标记为删除。在一个实施例中,预定的最小得分为46.5。在替换实施例中,预定的最小印象数目可以根据搜索列表项的各种特性而变化。例如,可以根据如下因素来指定不同的预定最小得分:(i)根据搜索列表项的所有者,因为某些搜索列表项所有者可能随时间流逝而建立更大信任;(ii)根据特定搜索项的搜索量;(iii)根据搜索列表项所属的市场;以及(iv)根据最初批准搜索列表项被包括在搜索数据库208中的方式,即通过人工编辑复查或通过自动编辑复查。
在测试步骤1608或1610中,如果当前搜索列表项的累计相对或绝对得分分别低于相对得分或绝对得分的预定阈值得分,处理则转移到步骤1614,在步骤1614中,搜索列表项精选器1204通过在删除表924中描述该当前搜索列表项而将该当前搜索列表项标记为删除。这代表当前搜索列表项进入警告状态606的转换。在一个实施例中,无法达到预定最小绝对得分的搜索列表项不被自动删除,而是被自动修改或被标记以用于人工编辑的复查。相反,如果当前搜索列表项的累计相对或绝对得分分别至少等于相对得分或绝对得分的预定阈值得分,根据逻辑流程图1312的处理则完成,从而步骤1312(图13)完成,并且当前搜索列表项不被删除。
因此,只有当一个搜索列表项的印象数目达到预定最小值并且其得分已落到预定允许阈值之下时,该搜索列表项才会被标记为从搜索数据库208中删除。如果只有少数几个搜索列表项与当前搜索列表项一起呈现,则使用绝对得分,而不使用相对得分。
在步骤1312(图13)之后,根据步骤1306到1314的循环来处理当前搜索的下一搜索列表项。在当前搜索的所有搜索列表项都根据步骤1306到1314的循环被处理之后,搜索列表项精选器1204的处理穿过下一步骤1316而转移到循环步骤1302,在步骤1302中,搜索列表项精选器1204根据步骤1304到1314处理下一搜索。当搜索文件904的所有搜索都已被搜索列表项精选器1204处理之后,根据逻辑流程图1300的处理完成。
性能监控器212包括搜索列表项删除代理1208,它检测被添加到删除表924中的搜索列表项,从搜索数据库208中删除它们。这样的检测例如可以通过(i)周期性地检查删除表924以寻找新条目,(ii)当新条目被添加到删除表924时,从搜索列表项精选器1204接收信号,或者(iii)当新条目被写入删除表924时使用基于触发器的事件检测机制。
优选地,任意被删除的搜索列表项的内容都被保留,这是因为这些搜索列表项随后可能在搜索数据库208中被恢复。搜索列表项的内容可以在删除表924中被完整描述,或者搜索列表项可以保持存储在搜索数据库208中,而通过将指示这些搜索列表项不可用于包括在搜索结果集合中的标志与搜索列表项相关联来虚拟地删除这些搜索列表项。另外,被删除的搜索列表项可以在独立于搜索数据库208和删除列表项924的数据结构中被完整地描述。
搜索列表项删除代理1208还将在删除表924中描述的搜索列表项的删除传输到删除通知代理1206。删除通知代理1206将此删除告知被删除的搜索列表性的所有者和与搜索引擎102相关联的人工编辑。在此示例性实施例中,该通知是通过电子邮件传输给搜索列表项的所有者的,并且该通知包括删除原因,包括被删除的搜索列表项的性能以及(在可获得修改建议的情况下)搜索列表项的修改建议。这使所有者能够重新考虑搜索项、URL、标题和被删除的搜索列表项的描述之间的相互关系的本质。在此示例性实施例中,对人工编辑(或者可替换地,对计算机实现的编辑器)的通知具有被删除的搜索列表项以及相关性能得分的报告的形式。这样的报告使编辑器能够通过检查合适的搜索列表项是否被不公平地从搜索数据库208删除,来评估性能监控器212的性能。
性能监控器212还包括搜索列表项修改代理1210,它以上述参考步骤306到310(图3)所述方式对搜索列表项应用自动修改概况。
屏幕视图1700(图17)示出了如参考图6所描述的基于网络的账户管理应用的显示。屏幕视图1700包括直方图1702,其示出了由单个所有者管理的各个搜索列表项的得分性能。直方图1702以容易理解且直观可达的方式向搜索列表项的所有者提供性能评估。具体而言,直方图1702在图形上将评估出的各个搜索列表项的性能表示为一系列0到5个长划线(dash)。三个长划线一般代表平均性能。五个长划线代表比平均性能好很多。没有长划线的表示指示比平均性能差很多。在替换实施例中,没有长划线的表示指示搜索列表项处于累积状态602(图6)或试用状态608,并且单个长划线代表搜索列表项处于警告状态606。如果直方图只包括单个长划线,则该长划线用红色示出,以对性能特别差的搜索列表项引起注意。否则,在此示例性实施例中,包括了两个或更多个长划线的直方图的长划线用蓝色示出。
在此实施例中,直方图1702(图17)代表以参考逻辑流程图1312(图16)所述方式选出的相关搜索列表项的累计绝对得分或累计相对得分。所代表的性能得分在编辑屏幕视图1700(图17)以显示给用户时被获取,从而使直方图1702所代表的信息是最近的。例如,如果屏幕视图1700的搜索列表项的所有者发布刷新显示指令以重编辑屏幕视图1700,则直方图1702的性能得分中的任意改变都会被修改,以反映自屏幕视图1700的先前构成以来在性能得分中的改变,这些改变例如是由于响应于一个或多个搜索而服务于结果集合中的一个或多个搜索列表项而引起的。
在另一实施例中,屏幕视图1700存在变化,包括用于各种市场的详细视图和概括视图。下表以详细视图概括出美国市场中利用直方图1702的性能得分表示。
  范围   图形表示
  0.00-27.99   没有条线
  28.00-36.79   1个条线
  26.80-45.59   2个条线
  45.60-54.39   3个条线
  54.40-63.19   4个条线
  63.20-100.00   5个条线
下表以概括视图概括出美国市场中利用直方图1702的性能得分表示。
  范围   图形表示
  0.00-33.99   没有条线
  34.00-40.39   1个条线
  40.40-46.79   2个条线
  46.80-53.19   3个条线
  53.20-59.59   4个条线
  59.60-100.00   5个条线
下表概括出除了美国之外的所有市场中利用直方图1702的性能得分表示。
  范围   图形表示
  0.00-9.99   没有条线
  10.00-25.99   1个条线
  26.00-41.99   2个条线
  42.00-57.99   3个条线
  58.00-73.99   4个条线
  74.00-100.00   5个条线
以上描述仅仅是示例性的,而非限制性的。本发明仅仅由所附权利要求书及其等同物的全部范围来限定。

Claims (18)

1.一种用于提高搜索列表项的性能的方法,该方法包括:
确定在一个或多个搜索结果集合中的搜索列表项中的一个当前搜索列表项的选择频率;
将所述选择频率与最小允许频率相比较;
在所述选择频率低于所述最小允许频率的情况下,使所述当前搜索列表项不可被用作搜索结果。
2.如权利要求1所述的方法,其中所述比较只有在所述当前搜索列表项作为一个或多个搜索的结果被呈现的次数达预定最小次数的情况下才被执行。
3.如权利要求1所述的方法,其中所述确定包括:
使可跟踪的URL与搜索结果列表中的所述当前搜索列表项相关联。
4.如权利要求3所述的方法,其中所述可跟踪的URL包括去往URL捕捉器的URL;
并且其中所述URL捕捉器重定向到与所述当前搜索列表项相关联的远程URL。
5.如权利要求1所述的方法,其中所述确定包括:
确定在最近呈现给一个或多个用户的预定数目的搜索结果集合中的当前搜索列表项的选择频率。
6.如权利要求1所述的方法,其中所述确定包括:
根据所述当前搜索列表项在所述一个或多个搜索结果集合中的各自位置来确定所述一个或多个搜索结果集合中的当前搜索列表项的选择频率。
7.如权利要求1所述的方法,其中所述确定包括:
根据所述当前搜索列表项在所述一个或多个搜索结果集合中的各自位置,并且还根据在所述一个或多个搜索结果集合中的各个其他位置上的一个或多个搜索列表项各自的选择频率,来确定所述一个或多个搜索结果集合中的当前搜索列表项的选择频率。
8.如权利要求1所述的方法,还包括:
根据负责将所述当前搜索列表项包括到从其收集搜索列表项以用作搜索结果的数据库中的实体的身份,来选择所述最小允许频率。
9.如权利要求1所述的方法,还包括:
根据对所述当前搜索列表项执行编辑复查的编辑机制来选择所述最小允许频率。
10.如权利要求9所述的方法,其中所述编辑机制包括对所述当前搜索列表项的人工编辑复查。
11.如权利要求9所述的方法,其中所述编辑机制包括由计算机执行的对所述当前搜索列表项的编辑复查。
12.如权利要求1所述的方法,还包括:
根据所述当前搜索列表项被包括到所述一个或多个搜索结果中的次数来选择所述最小允许频率。
13.如权利要求1所述的方法,还包括:
根据与所述当前搜索列表项相关联的搜索项已被搜索的次数来选择所述最小允许频率。
14.如权利要求1所述的方法,还包括:
根据所述一个或多个搜索结果集合有意向的地理市场来选择所述最小允许频率。
15.如权利要求1所述的方法,其中使所述当前搜索列表项不可用包括:
通知与所述当前搜索列表项相关联的一方该当前搜索列表项遭到删除。
16.如权利要求1所述的方法,其中使所述当前搜索列表项不可用包括:
通知与所述当前搜索列表项相关联的一方该当前搜索列表项遭到删除。
17.如权利要求16所述的方法,其中使所述当前搜索列表项不可用还包括:
在使所述当前搜索列表项不可用之前,向所述方提供修改所述当前搜索列表项的机会。
18.如权利要求17所述的方法,还包括:
对所述当前搜索列表项进行修改,其中所述修改是由与所述搜索列表项相关联的一方提交的;
以及在使所述当前搜索列表项不可用之前,对经修改的当前搜索列表项重复确定和比较的步骤。
CN2004800118972A 2003-05-02 2004-04-30 广域网搜索中搜索列表项的内容性能评估优化 Expired - Fee Related CN1784679B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/429,208 2003-05-02
US10/429,208 US20040220914A1 (en) 2003-05-02 2003-05-02 Content performance assessment optimization for search listings in wide area network searches
PCT/US2004/013229 WO2004100022A1 (en) 2003-05-02 2004-04-30 Content performance assessment optimization for search listings in wide area network searches

Publications (2)

Publication Number Publication Date
CN1784679A true CN1784679A (zh) 2006-06-07
CN1784679B CN1784679B (zh) 2010-11-10

Family

ID=33310565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800118972A Expired - Fee Related CN1784679B (zh) 2003-05-02 2004-04-30 广域网搜索中搜索列表项的内容性能评估优化

Country Status (6)

Country Link
US (1) US20040220914A1 (zh)
EP (1) EP1620819A1 (zh)
JP (1) JP2006525604A (zh)
KR (1) KR20060030020A (zh)
CN (1) CN1784679B (zh)
WO (1) WO2004100022A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542482B (zh) * 2006-09-29 2012-12-26 谷歌公司 书签和排名
CN109074399A (zh) * 2016-05-02 2018-12-21 微软技术许可有限责任公司 计算机网络中的个性化内容建议

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554617B2 (en) * 2007-10-02 2013-10-08 Ingenio Llc Systems and methods to provide alternative connections for real time communications
US7133900B1 (en) * 2001-07-06 2006-11-07 Yahoo! Inc. Sharing and implementing instant messaging environments
US7200590B2 (en) * 2001-08-15 2007-04-03 Yahoo! Inc. Data sharing
US20050065928A1 (en) * 2003-05-02 2005-03-24 Kurt Mortensen Content performance assessment optimization for search listings in wide area network searches
US20060235873A1 (en) * 2003-10-22 2006-10-19 Jookster Networks, Inc. Social network-based internet search engine
US20050091202A1 (en) * 2003-10-22 2005-04-28 Thomas Kapenda J. Social network-based internet search engine
US20050192948A1 (en) * 2004-02-02 2005-09-01 Miller Joshua J. Data harvesting method apparatus and system
US7606791B2 (en) * 2004-06-03 2009-10-20 International Business Machines Corporation Internal parameters (parameters aging) in an abstract query
US8832132B1 (en) * 2004-06-22 2014-09-09 Google Inc. Personalizing search queries based on user membership in social network communities
WO2006005102A1 (en) * 2004-07-08 2006-01-19 Platefood Limited System and method for influencing a computer generated search result list
US8065296B1 (en) * 2004-09-29 2011-11-22 Google Inc. Systems and methods for determining a quality of provided items
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US7752220B2 (en) * 2005-08-10 2010-07-06 Yahoo! Inc. Alternative search query processing in a term bidding system
US7634462B2 (en) * 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
US20080027913A1 (en) * 2006-07-25 2008-01-31 Yahoo! Inc. System and method of information retrieval engine evaluation using human judgment input
CN100440224C (zh) * 2006-12-01 2008-12-03 清华大学 一种搜索引擎性能评价的自动化处理方法
KR100901938B1 (ko) * 2007-08-14 2009-06-10 엔에이치엔비즈니스플랫폼 주식회사 Ctr을 보정하는 방법 및 시스템
US9111286B2 (en) 2008-02-01 2015-08-18 Qualcomm, Incorporated Multiple actions and icons for mobile advertising
US9959547B2 (en) * 2008-02-01 2018-05-01 Qualcomm Incorporated Platform for mobile advertising and persistent microtargeting of promotions
CN102937951B (zh) * 2011-08-15 2016-11-02 北京百度网讯科技有限公司 建立ip地址分类模型的方法、对用户分类的方法及装置
US8468145B2 (en) 2011-09-16 2013-06-18 Google Inc. Indexing of URLs with fragments
US8438155B1 (en) * 2011-09-19 2013-05-07 Google Inc. Impressions-weighted coverage monitoring for search results
KR101537065B1 (ko) * 2014-03-21 2015-07-15 네이버 주식회사 검색 시스템 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6125361A (en) * 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
EP1240605A4 (en) * 1999-12-08 2006-09-27 Amazon Com Inc SYSTEM AND METHOD FOR LOCATING AND PRESENTING OFFERS OF ACCESSIBLE PRODUCTS ON THE INTERNET
US6366907B1 (en) * 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine
WO2002103997A2 (en) * 2001-06-14 2002-12-27 Dizpersion Group, L.L.C. Method and system for providing network based target advertising
US7567953B2 (en) * 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
US20030216930A1 (en) * 2002-05-16 2003-11-20 Dunham Carl A. Cost-per-action search engine system, method and apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542482B (zh) * 2006-09-29 2012-12-26 谷歌公司 书签和排名
CN109074399A (zh) * 2016-05-02 2018-12-21 微软技术许可有限责任公司 计算机网络中的个性化内容建议

Also Published As

Publication number Publication date
WO2004100022A1 (en) 2004-11-18
EP1620819A1 (en) 2006-02-01
KR20060030020A (ko) 2006-04-07
CN1784679B (zh) 2010-11-10
US20040220914A1 (en) 2004-11-04
JP2006525604A (ja) 2006-11-09
WO2004100022A9 (en) 2005-07-07

Similar Documents

Publication Publication Date Title
CN1784679A (zh) 广域网搜索中搜索列表项的内容性能评估优化
US10599735B2 (en) Auto-refinement of search results based on monitored search activities of users
US6594654B1 (en) Systems and methods for continuously accumulating research information via a computer network
US9015176B2 (en) Automatic identification of related search keywords
CN1906612A (zh) 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统
EP2479686B1 (en) Systems and methods for analyzing and clustering search queries
US8290941B2 (en) System and method for detecting changes within search results
US20030046311A1 (en) Dynamic search engine and database
US20050065928A1 (en) Content performance assessment optimization for search listings in wide area network searches
US20030046389A1 (en) Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
WO2007015990A2 (en) Techniques for analyzing and presenting information in an event-based data aggregation system
CN1459064A (zh) 用于在数据网络中搜索和分析信息的方法
CN1816812A (zh) 使用用户请求信息和用户信息对广告进行服务
CN102859516A (zh) 使用历史搜索结果生成改进的文档分类数据
CN1682216A (zh) 广域网搜索中搜索列表项内容的适当性确定的自动化处理
AU2014281604B2 (en) System and method for text mining documents
CN1708945A (zh) 用于可能的安全性暴露的早期告警指示的查询返回数据分析方法
CN1816810A (zh) 广域网搜索引擎中不适当搜索查询的检测
US8630992B1 (en) URL rank variability determination
CN1122232C (zh) 同时进行多个搜寻引擎检索的方法
CN110750701B (zh) 一种基于爬虫的网络推广效果评估方法
Bokhari et al. A new criterion for evaluating news search systems
RU2775824C2 (ru) Способ и система для определения аномальных посещений веб-сайтов
EP1363203A1 (en) System and method for searching information automatically according to analysed results
Elser Search Engine Tuning with Genetic Algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090227

Address after: American California

Applicant after: Yahoo Corp.

Address before: American California

Applicant before: Overture Services Inc.

ASS Succession or assignment of patent right

Owner name: YAHOO! CO.,LTD.

Free format text: FORMER OWNER: WAFUL TOURS SERVICES

Effective date: 20090227

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101110

Termination date: 20110430