CN1816810A

CN1816810A - 广域网搜索引擎中不适当搜索查询的检测

Info

Publication number: CN1816810A
Application number: CNA2004800187794A
Authority: CN
Inventors: 斯科特·B·克莱恩; 卓迪·D·比格斯
Original assignee: Overture Services Inc
Current assignee: Altaba Inc
Priority date: 2003-05-02
Filing date: 2004-04-30
Publication date: 2006-08-09
Also published as: WO2004100046A1; WO2004100046A8; EP1620818A1; JP2006525603A; US20040220915A1; KR20060017767A; US8166014B2

Abstract

用于评估搜索列表项的性能的搜索查询被过滤，以使剩余的搜索查询更准确地代表人类用户在搜索引擎中真正寻找信息的行为。来自未被认可的用户代理的搜索查询或来自同一网络地址的彼此过于接近或过于有规律性的搜索查询被删除。如果在某一时间段内针对给定搜索项的搜索查询量超过期望量，则丢弃针对该搜索项的搜索查询。

Description

广域网搜索引擎中不适当搜索查询的检测

技术领域

本发明涉及搜索查询(search query)分析的领域，更具体而言，本发明涉及用于自动过滤出提交到广域网搜索引擎的不适当搜索查询，从而改善搜索引擎的性能和分析的机制。

背景技术

因特网是一种真正全球可达的广域网，它将遍布世界各地的计算机互连在一起。因特网中一般被称为万维网(World Wide Web)的部分是相互关联的数据的集合，其中数据的数量是非常惊人的。万维网(有时被称为“Web”)的内容包括具有已知的HTML(超文本标记语言)格式的文档以及其他内容，这些HTML格式的文档根据已知协议HTTP(超文本传输协议)通过因特网来传输。

Web内容的广度和宽度对希望在其中寻找特定信息的任何人来说都是惊人的且压倒性的。据此，Web的一个极其重要的组件是搜索引擎。这里使用的搜索引擎是一种交互式系统，该系统用于定位与集总代表一个搜索查询的一个或多个用户指定的搜索项相关的内容。通过已知的公共网关接口(CGI)，Web可以包括交互式的内容，即响应于由连接到Web的计算机的人类用户指定的数据的内容。搜索引擎接收来自用户的具有一个或多个搜索项的搜索查询，并向用户呈现对被确定与该搜索查询相关的文档的一个或多个引用(reference)的列表。

搜索引擎显著地提高了用户可以定位Web上的所需信息的效率。因此，搜索引擎是因特网的最常用资源之一。有效的搜索引擎可以帮助用户在当前Web内呈现的数十亿文档中定位到非常具体的信息。搜索引擎的关键功能和存在的目的是在给定用户查询的一些搜索项的情况下，从数十亿可获得的文档中识别出若干最相关的结果并且使这种识别在尽可能短的时间内完成。

一般而言，搜索引擎维护着使搜索项与Web上的信息资源相关联的记录的数据库。搜索引擎主要以几种常用方法获得关于Web的内容的信息。最常用的方法一般被称为Web爬行搜索(crawling)，而第二种方法是由这种信息的提供者或第三方(即，既不是信息的提供者，也不是搜索引擎的提供者)提交这种信息。搜索引擎用来获取关于Web内容的信息的另一常用方法是由人类编辑者基于他们的浏览来创建信息的索引。

为了理解爬行搜索，首先必须理解HTML文档可以包括对其他信息的引用，一般被称为链接。已经“点击”了文档的一部分以使所引用的文档被显示的任何人已经激活了该链接。Web爬行搜索一般指的是一个自动过程，利用该过程，由一个文档所引用的文档被获取和分析，进而由这些文档所引用的文档被获取和分析，并且这种获取和分析以递归方式重复。从而，尝试着自动遍历Web的全部内容，以对Web的全部内容分类。

由于Web的文档经常被添加和/或修改，还由于Web非常巨大，因此没有一种Web爬行搜索器成功地分类了Web的全部内容。据此，想要将其Web内容包括到搜索引擎数据库中的Web内容的提供者将其内容直接提交给搜索引擎的提供者。通过因特网可获得的其他内容和/或服务的提供者与搜索引擎的运营者签订合约以使其内容被定期爬行搜索和更新，从而使搜索结果包括当前信息。一些搜索引擎(例如由California，Pasadena的Overture公司(http：//www.overture.com)提供的搜索引擎，该搜索引擎在美国专利6,269,361中有所描述，这里通过引用并入了该专利)允许因特网内容和/或服务的提供者编辑和提交与其内容和/或服务相关联的简要标题和描述。这种与信息相关的标题、描述和地址被统称为搜索列表项。搜索列表项通常作为与接收到的已被处理的搜索查询相对应的单独结果返回。由于因特网不断成长并且通过因特网进行的商业行为也不断成长，因此某些搜索引擎被专门用于提供商业搜索结果，这些商业搜索结果与信息结果分开呈现，从而有利于辅助因特网上的商业交易。

出于各种目的，关于搜索引擎的行为的信息被收集。这些目的包括公共目的和私人目的。作为私人目的的一个示例，搜索引擎提供者可以收集关于搜索行为的信息，以用于评估诸如服务器资源需求以及公众对所提供的搜索服务的各个方面的响应之类的事务。作为公共目的的一个示例，搜索引擎提供者可以希望公布关于针对各个时间段和针对各个搜索项总共执行的搜索次数的信息。不论是用于搜索引擎性能的内部审核与评估，还是用于搜索引擎普及的外部宣传，或用于另外的目的，这种所收集信息的准确性极其重要。

但是，一般希望这种信息代表真正试图定位由搜索引擎保存的特定信息的人类用户的搜索行为。搜索查询由于除了真正试图定位信息之外的其他原因而被频繁提交。例如，信息的提供者可能周期性地搜索该信息，以查看该信息是如何被搜索引擎呈现的。有时，一方或多方可能对通过提交多个搜索查询并对提交和结果接收之间的延迟计时来测量一个或多个搜索引擎的立刻响应性感兴趣。另外，某些方可能试图使某个搜索列表项显得更加受欢迎，这一目的可以通过配置程序以周期性地提交为给出这种景象而制作的搜索查询来达成。所有这些情形以及出于除了定位感兴趣的信息之外的其他目的而提交搜索查询的任意其他情形，影响搜索引擎行为的信息到这样一个程度，即任何这种信息都会代表人类搜索者的行为。

需要这样一种机制，利用该机制可以识别出不是人类用户的真正信息搜索结果的搜索行为，从而显著地提高被收集到的关于人类搜索行为的信息的准确性。

发明内容

根据本发明，非法搜索的记录被检测到并被删除，以使从记录的搜索行为中收集的信息不会反映非法搜索行为。非法搜索是这样的一种搜索，该搜索或者是自动提交的(即不是由人类用户提交的)，或者是由人类用户出于除了真正尝试定位由搜索引擎提供的信息之外的其他目的而提交的。非法搜索的示例包括为确定搜索引擎的立刻响应性而提交的搜索、为确定特定搜索列表项在结果集合中的特定位置而提交的搜索，以及主要为了影响搜索引擎收集的搜索行为数据而提交的搜索。

搜索记录的过滤既要通过对单独的搜索(独立于其他搜索或与其他搜索相关)的分析，也要通过对搜索的总体量的分析。

在对单独的搜索的分析中，将用户代理(用于提交单独的搜索查询的程序)与被认可为合法的预定用户代理相比较。如果搜索查询是由被配置用于自动提交搜索查询的自动化脚本或程序提交的，则不认为该搜索查询是用户用于定位来自搜索引擎的信息的真正尝试，因此丢弃该搜索查询，以便不影响搜索引擎的行为报告。

搜索查询相对于从同一网络地址(例如因特网协议(IP)地址)提交的其他搜索查询的计时被分析，以检测不可能是人类用户真正尝试定位信息的的行为。具体而言，在其他搜索查询后面跟得太近(例如在小于2秒内)的搜索查询被认为提交得太快而不可能是由人类用户提交的。另外，以过于规律性的时间间隔提交的搜索查询被认为不可能是人类用户真正尝试通过搜索引擎定位信息的结果。为了确定搜索查询之间的时间间隔的规律性，收集时间间隔，并且将这些时间间隔的标准偏差与预定的最小阈值(例如2秒)相比较。例如，如果多个搜索查询以彼此间隔大约60秒的时间间隔被提交，并且相对于60秒平均值的标准偏差小于1秒，则认为这些搜索查询是由自动过程而非人类用户提交的。因此，从搜索查询的数据流中删除这样的搜索查询，以使该数据流更准确地代表合法搜索行为。

在搜索查询量的分析中，执行统计分析以检测异常的搜索行为，从而识别不可能是人类用户用于定位信息的真正尝试的搜索行为。这种统计分析的示例涉及通过因特网的多个信道到达的搜索，例如来自多个向给定的搜索引擎转发搜索请求的关联(affiliate)服务器的搜索。虽然搜索行为不是可具体预测的，但是分布在多个信道中的搜索行为的相对比例趋向于保持稳定并是可预测的。

为了检测这种异常，针对给定项的搜索查询被累积到15分钟的聚集后搜索记录中，该15分钟的聚集后搜索记录代表在15分钟时间段中针对该搜索项的搜索查询量。也可以针对24小时的时间段执行类似的聚集。将每个聚集后的搜索记录与在同样时间段内针对该项的搜索查询的期望量相比较。该期望量是基于通过因特网的各个路径之间的相对量。如果聚集后的搜索量明显比期望量大得多，则将聚集后的搜索量超出期望量的量记下来，并将该超出量减去被单独确定为非法的任何搜索查询，进而从用于搜索列表项性能评估的搜索查询的数据流中删除上述过程所得之差。

针对每个搜索项(term)的搜索查询的期望量是根据在当前可比较的时间段中被允许通过搜索列表项性能评估的过滤后的搜索查询的量来确定的。

附图说明

图1是示出通过广域网彼此耦合的根据本发明的搜索引擎、宿主计算机、客户端计算机的框图。

图2是更详细示出搜索引擎的框图。

图3是更详细示出图2的搜索引擎的搜索行为分析模块的框图。

图4是更详细示出图3的搜索行为分析模块的搜索请求过滤器的框图。

图5是更详细示出图4的搜索请求过滤器的异常分析模块的框图。

图6是由图4的搜索请求过滤器分析的原始搜索数据的框图。

图7是图6的原始搜索数据的搜索记录的更详细框图。

图8是示出根据本发明由图4的搜索请求过滤器处理原始搜索数据的过程的逻辑流程图。

图9是图8的逻辑流程图的一部分的更详细逻辑流程图。

图10是图8的逻辑流程图的一部分的更详细逻辑流程图。

图11是图10的逻辑流程图的一部分的更详细逻辑流程图。

图12是由图4的搜索请求过滤器分析的聚集后搜索数据的框图。

图13是图12的原始搜索数据的聚集后搜索记录的更详细框图。

图14是示出根据本发明由图4的搜索请求过滤器处理过滤后的原始搜索数据和聚集后的搜索数据的过程的逻辑流程图。

具体实施方式

根据本发明，不是用户用于定位计算机网络上的信息的合法尝试的搜索请求被检测出，并从搜索数据中删除。从而，为了计费或进行搜索引擎行为评估而对搜索数据的任何使用不会受到这种非法搜索的不适当影响。非法搜索包括用于测试搜索引擎102(图1)的响应时间的搜索、用于测试特定搜索列表项在搜索结果集合中的位置的搜索，以及试图影响搜索行为分析的搜索。这些搜索不应该影响希望代表用户用于定位Web内信息的真实尝试的任意信息。

图1示出了耦合到并服务于广域网104的搜索引擎102，在本示例性实施例中，广域网104是因特网。多个宿主计算机系统106A-D被耦合到因特网104，并向多个客户端计算机系统108A-C提供内容，这些客户端计算机系统108A-C获取并显示这种内容以例如用于人类用户。当然，图1出于举例说明的目的而被大大简化。例如，虽然只示出了四(4)个宿主计算机系统和三(3)个客户端计算机系统，但是应该意识到，(i)耦合到因特网的宿主计算机系统和客户端计算机系统的总数可以为数百万个计算机系统，并且(ii)宿主计算机系统可以像客户端计算机系统那样获取信息，并且客户端计算机系统可以像宿主计算机系统那样提供信息。

搜索引擎102是一种计算机系统，它对宿主计算机系统106A-D所提供的信息进行分类，并服务于客户端计算机系统108A-C的搜索请求而提供可能由宿主计算机106A-D中的任意一个所提供的信息。响应于这些请求，搜索引擎102产生与搜索请求中所指定的一个或多个搜索项相匹配的任何分类后信息的报告。这种由宿主计算机系统106A-D提供的信息包括通常称为“网站”形式的信息。这种信息在因特网中公知为万维网的部分中通过已知的并被广泛使用的超文本传输协议(HTTP)来获取。呈现给用户的单个多媒体文档一般被称为网页，而由单个人、小组或组织控制下的相互关联的多个网页一般被称为网站。虽然这里描述了对相关网页和网站的搜索，但是应该意识到，这里描述的某些技术可同样应用于对以其他形式存储在计算机网络中的信息的搜索。

在图2中更详细示出了搜索引擎102。搜索引擎102包括搜索服务器206，它接收并使用搜索数据库208来服务于来自客户端计算机系统108A-C中的任意一个的搜索请求。另外，搜索引擎102可以代表一个或多个其他的搜索引擎来接收和服务于搜索查询。这种其他的搜索引擎有时被称为源。

搜索引擎102还包括提交服务器202，其用于接收来自宿主计算机106A-D中的任意一个的搜索列表项提交。每个提交请求将宿主计算机106A-D中的任意一个提供的信息分类到搜索数据库208中，从而使这些信息可作为搜索结果通过搜索服务器206来获取。

为了避免向客户端计算机系统108A-C提供不想要的搜索结果，搜索引擎102包括编辑评估器204，该编辑评估器204在将搜索列表项包括到搜索数据库208中之前评估这些已提交的搜索列表项。

在本示例性实施例中，搜索引擎102以及提交服务器202、编辑评估器204和搜索服务器206中的每一个都是在一个或多个计算机中执行的一个或多个计算机进程的全部或一部分。简言之，提交服务器202接收用于在搜索数据库208内列出信息的请求，而编辑评估器204在将已提交的搜索列表项包括到搜索数据库208中之前对这些搜索列表项进行过滤。在2002年9月13日递交的Dominic Cheung等人的题为“AutomatedProcessing of Appropriateness Determination of Content for Search Listings inWide Area Network Searches”的美国专利申请10/244,051中更完整地描述了过滤这种搜索列表项的过程，这里通过引用并入了该专利的描述以用于任意和所有目的。

搜索引擎102还包括搜索行为数据库210，该数据库包括代表人类用户真正试图定位信息的搜索行为的数据。另外，搜索引擎102包括搜索行为分析模块212，其用于分析由搜索引擎102处理的搜索行为。搜索行为分析模块212也是在一个或多个计算机中执行的一个或多个计算机进程的全部或一部分。

如这里所使用的，搜索包括搜索请求，该搜索请求包括(i)被统称为搜索查询的一个或多个搜索项以及(ii)响应于该搜索查询而作为搜索结果返回的一个或多个搜索列表项的集合。当然，没有找到与搜索查询相关的搜索列表项以及响应于查询而返回的搜索结果的集合不包括搜索列表项也是可能的。一般而言，搜索请求被呈现在上述搜索行为数据库210(图2)中。搜索行为分析模块212包括搜索请求过滤器302，该过滤器删除代表非法搜索请求的数据。

在图4中更详细示出了搜索请求过滤器302。搜索请求过滤器302包括原始(raw)搜索数据供给(feed)402，它代表通过搜索服务器206(图2)接收到的搜索请求。在图6和7中更详细示出了原始搜索数据供给402，它包括多个搜索记录602，其中每个搜索记录代表由客户端计算机系统(例如客户端计算机系统108A-C(图1)中的任意一个)提交的搜索请求。

每个搜索记录602(图6和7)包括多个字段702-710。搜索查询字段702代表搜索请求的搜索查询，其是一个或多个搜索项的集合。例如，“experimental aircraft engine”的搜索查询请求与三个单独的搜索项，即“experimental”、“aircraft”和“engine”相关的信息。

源字段704指定搜索请求的源。在本示例性实施例中，搜索引擎102代表其他搜索引擎执行搜索，而这些其他的搜索引擎被称为源，并且源字段704标识为其执行搜索记录602所代表的搜索的特定源。在替换实施例中，搜索引擎102仅直接接收来自客户端计算机系统的搜索请求，并且源字段704被省略。

市场(Marketplace)字段706代表对其提交搜索请求的市场。这里使用的市场指的是可单独获得每个搜索列表项的地理区域。在本示例性实施例中，搜索引擎102允许搜索列表项的所有者指定可获得其搜索列表项作为搜索查询结果的一个或多个市场。因此，就希望得到特定市场中的搜索行为的情况而言，这种市场信息应该与搜索记录相关联。类似地，搜索请求中感兴趣的任意其他信息可以被包括在搜索记录602中。

CGI(公共网关接口)环境字段708代表在其中提交搜索请求的环境的多个特性。在本示例性实施例中，搜索请求过滤器302尤其感兴趣的是CGI环境变量HTTP_USER_AGENT和REMOTE_ADDR。以下将更完整地描述这些变量以及搜索请求过滤器302对这些变量的使用。

时间戳字段710代表提交搜索查询的日期和时间。

原始搜索数据供给402(图4)被原始搜索过滤器404、一个或多个异常分析模块406A-B和搜索数据分析模块408所接收。原始搜索过滤器404分析原始搜索数据供给402的单独的搜索记录，以检测非法搜索并标记代表非法搜索的搜索记录。一个或多个异常分析模块406A-B中的每一个将原始搜索数据供给402中的搜索数据与期望的搜索数据相比较，以检测搜索数据的异常。搜索数据分析模块408使用来自异常分析模块406A-B的异常分析、来自原始搜索过滤器404的信息和原始搜索数据供给402来删除原始搜索数据供给402中的非法搜索，以产生过滤后的搜索数据供给410。

原始搜索过滤器404的处理过程如逻辑流程图800(图8)所示。步骤802和804彼此独立，并且一般可以以任意顺序执行，甚至同时执行。在步骤802中，原始搜索过滤器404应用用户代理过滤器来检测原始搜索数据供给402中的非法搜索请求。在步骤804中，原始搜索过滤器404应用网络地址过滤器来检测原始搜索数据供给402中的非法搜索请求。

步骤802被更详细地示为逻辑流程图802(图9)。在测试步骤902中，原始搜索过滤器404判断搜索的用户代理是否被认出为合法用户代理。用户代理由存储在每个搜索的CGI环境字段708中的CGI环境变量HTTP_USER_AGENT所代表，并标识出用户通过其提交搜索查询的web浏览器或其他计算机程序。代表HTTP_USER_AGENT CGI环境变量的数据示例是“Mozilla/5.0(X11；U；Linux i686；en-US；rv：1.0.1)Gecko/20020918”，其标识出在Linux操作系统环境中执行的Mozilla web浏览器的1.0.1版本。原始搜索过滤器404存储代表用户提交真正试图通过广域网104定位信息的搜索查询所使用的多个公知计算机程序的用户代理标识的数据。通常，这种计算机程序是web浏览器，该web浏览器是公知的，这里不再描述。经标识的计算机程序在这里有时被称为认可的用户代理。优选地，认可的用户代理的集合尽可能完整，以包括尽可能多的合法用户代理。

原始搜索过滤器404在测试步骤902中将原始搜索数据供给402的每个搜索的用户代理标识与认可的用户代理相比较。如果特定搜索的用户代理标识与所有认可的用户代理都不匹配，则在步骤904中将该搜索标记为非法的。相反，如果搜索的用户代理标识与认可的用户代理中的任意一个用户代理匹配，则通过跳过步骤904而不将该搜索标记为非法的。

存在未经认可的用户代理可以提交搜索请求的多种情形。例如，脚本或程序可以被配置为周期性地向搜索引擎102提交多个搜索请求，以测量搜索引擎102的响应时间和/或确定一个或多个搜索列表项在搜索结果集合中的位置。脚本或程序还可以被配置为重复提交具有特定搜索查询的搜索请求并随后模仿用户对搜索列表项的选择，以试图影响由搜索行为分析模块212(图3)确定的明显搜索行为。这种脚本和程序一般不将其自身标识为认可的用户代理。

从而，这种不是用户真正尝试定位信息的合法搜索请求的搜索请求被原始搜索过滤器404标记为非法的。可以以多种方法中的任意一种将搜索标记为非法的，所述方法例如在搜索记录602(图7)中包括一个有效字段(未示出)，和/或在非法搜索查询的列表中包括搜索记录602的唯一标识符。

步骤804被更详细地示为逻辑流程图804(图10)。在步骤1002中，原始搜索过滤器404(图4)收集近期窗口内的搜索记录。例如，近期窗口可以是1小时或12小时或24小时的近期窗口，以使代表分别在最近的1小时、12小时或24小时内提交的搜索查询的所有搜索记录在步骤1002-1014的循环中分别被处理。

在步骤1004中，原始搜索过滤器404根据用户IP/源对将近期窗口的所有搜索记录分组。换句话说，与相同的用户IP和相同的源相对应的所有搜索记录被分成一组。用户IP是通过其提交由搜索记录代表的搜索查询的IP(因特网协议)网络地址。在搜索记录602(图7)中，用户IP被表示在CGI环境字段708中。具体而言，用户IP由已知的CGI环境变量REMOTE_ADDR来提供，并代表通过其提交搜索请求的IP地址。虽然某些用户可以通过单个IP地址来路由他们的查询，但是大多数IP地址标识出单独的用户。从而，评估与单个IP地址相关联的行为在评估单独的用户的行为的过程中很有用。

在本示例性实施例中，搜索引擎102直接服务于搜索查询，因此是唯一的源，因此所有源是同一个。在替换实施例中，搜索引擎102也可以接收由其他搜索引擎转发的搜索请求，并且作为响应将所产生的搜索列表项发送到这些其他的搜索引擎。每个其他的搜索引擎都是一个源。就多个用户的搜索请求通过单个IP地址被路由的情况而言，使通过不同源提交的请求分离有助于隔离多个用户的搜索查询。

在步骤1006中，原始搜索过滤器404(图4)分析在步骤1004(图10)中收集的搜索记录。步骤1006被更详细地示为逻辑流程图1006(图11)。在步骤1102中，原始搜索过滤器404(图4)测量在步骤1004(图10)中形成的集合中的搜索之间的时间间隔。该时间间隔是作为在时间顺序上相邻的搜索记录的时间戳字段710(图7)之间的时间差来测量的。

在测试步骤1104(图11)中，原始搜索过滤器404将每个间隔与预定的最小阈值相比较。该预定的最小阈值被选择得一般非常短而不能合理地代表用户的连续搜索查询之间的间隔。在本示例性实施例中，假设人类用户在提交连续的搜索查询之间至少要花费大约两(2)秒。因此，在本示例性实施例中，与测试步骤1102相关联的预定的最小阈值间隔是两(2)秒。

如果任意搜索记录在其他搜索记录后面跟得太近，即紧接在小于预定的最小阈值的搜索间间隔之后，处理则转移到步骤1106(图11)，在该步骤中，这种搜索记录被原始搜索过滤器404标记为非法的。对于没有与另一搜索记录跟得过近的搜索记录，步骤1106被跳过。

在步骤1108中，原始搜索过滤器404确定集合中搜索之间的间隔的统计标准偏差。在测试步骤1110中，原始搜索过滤器404将该标准偏差与预定的最小阈值相比较。一般而言，在步骤1108-1110中，原始搜索过滤器404测量搜索查询之间的间隔的规律性，以自动检测出已生成的一般比由人类用户提交的搜索规律得多的搜索查询。例如，如果通过相同源并来自相同网络地址的多个搜索之间的间隔平均为60秒，并且标准偏差小于一(1)秒，则不太可能是由人类用户生成这些搜索查询的。在本示例性实施例中，与测试步骤1110相关联的预定最小阈值是两(2)秒。

如果测量出的标准偏差小于预定最小阈值，处理则转移到步骤1112，在该步骤中，原始搜索过滤器404将集合中的所有搜索记录标记为非法的。相反，如果测量出的标准偏差大于等于预定的最小阈值，原始搜索过滤器404则跳过步骤1112。

在步骤1110-1112之后，根据逻辑流程图1006的处理完成，因此步骤1006(图10)完成。从而，在步骤1006中，如果搜索记录彼此之间在时间上跟得太近或者之间的间隔过于规律以至不能合理地代表由人类用户提交的真实搜索查询，原始搜索过滤器404则将这些搜索记录标记为非法的。

在步骤1008中，原始搜索过滤器404根据用户IP而不依赖于源对近期窗口中的搜索记录分组。在步骤1010中，原始搜索过滤器404以上面关于步骤1006描述的方式来分析经分组的搜索记录。步骤1008-1010允许原始搜索过滤器404检测遍布在多个源中的非法搜索。如果只使用了单个源，即搜索引擎102不服务于由其他搜索引擎转发的搜索查询，则由于存在步骤1004-1006，因此步骤1008-1010是多余的，并省略这些步骤。

在步骤1012中，原始搜索过滤器404根据源而不依赖于用户IP对近期窗口中的搜索记录分组。在步骤1014中，原始搜索过滤器404以上面关于步骤1006和1010描述的方式来分析经分组的搜索记录。步骤1012-1014允许原始搜索过滤器404检测遍布在多个用户IP中的非法搜索。

在步骤1014之后，根据逻辑流程图804的处理完成，从而步骤804(图8)完成。从而，原始搜索过滤器404(图4)分析原始搜索数据供给402，已找到示出非法搜索查询的样式，所述非法搜索查询会不适当地影响搜索列表项的性能评估。异常分析模块406A-B检测搜索查询行为中的异常，以检测用户搜索行为中通常不可能的改变。

在图5中更详细地示出了异常分析模块406A。在本示例性实施例中，只使用了一个异常分析模块，即异常分析模块406B或者不存在，或者如图示那样被包括进来，但是不执行任何操作。但是，由于搜索数据分析模块408能够处理来自多个异常分析模块的异常分析结果，因此替换实施例包括除了异常分析模块406A之外的其他异常分析模块。

异常分析模块406A包括原始搜索聚集器502，该聚集器将来自原始搜索数据供给402(图4)的搜索数据聚集成15分钟的聚集后搜索记录。例如，聚集后搜索记录1204(图13)包括计数字段1302、搜索项字段1304、源字段1306和市场字段1308。聚集后搜索记录1204代表具有相同搜索项、源和市场的多个单独的搜索查询。计数字段1302指定由聚集后搜索记录1204代表的搜索记录的数目。搜索项字段1304指定由聚集后搜索记录1204代表的那些搜索记录的搜索项。源字段1306指定由聚集后搜索记录1204代表的那些搜索记录的源。市场字段1308指定由聚集后搜索记录1204代表的那些搜索记录的市场。

原始搜索聚集器502将搜索记录聚集起来，以构成针对搜索项、源和市场的所有组合的聚集后搜索记录，并且这些聚集后搜索记录集中构成聚集后搜索数据1202(图12)。15分钟的聚集后搜索数据对原始搜索第二级聚集器504(图5)和搜索数据分析模块408(图4)来说都可获得。原始搜索第二级聚集器504(图5)将96个最近的15分钟聚集后搜索数据(例如聚集后搜索数据1202(图12))聚集起来，从而形成以与上面关于图12-13描述的方式直接类似的方式组织起来的24小时的聚集后搜索数据。该24小时的聚集后搜索数据对搜索数据分析408来说也可获得。

为了执行比较以检测搜索行为中不期望出现的改变，异常分析模块406A还包括纯净搜索聚集器506，以用于形成纯净搜索聚集窗口508。纯净搜索聚集器506接收已从中删除了非法搜索的纯净搜索数据供给410(图4)，并以与上面关于原始搜索聚集器502(图5)描述的方式类似的方式聚集纯净搜索数据供给410的搜索记录，以形成纯净搜索聚集窗口508。在本示例性实施例中，纯净搜索聚集窗口508是在最近24小时周期内聚集的，以避免可能随一天中的时间波动的搜索流量样式。

搜索数据分析模块408(图4)接收(i)原始搜索数据供给402，(ii)来自原始搜索过滤器404的单独的非法搜索查询的标识，以及(iii)来自异常分析模块406A的15分钟和24小时聚集后搜索数据以及24小时的聚集后纯净搜索数据。在包括了附加的异常分析模块的实施例中，搜索数据分析模块408还接收来自这些附加异常分析模块的数据。搜索数据分析模块408使用所有这些信息从原始搜索数据供给402中删除非法搜索查询，以产生过滤后的搜索数据供给410。过滤后的搜索数据供给410被异常分析模块406A以上述方式所使用，并比原始搜索数据供给402更准确地代表人类用户的实际搜索行为。

搜索分析模块408(图4)的处理由逻辑流程图1400(图14)示出。循环步骤1402和下一步骤1414定义了一个循环，在该循环中，搜索项、源和市场的每个组合，例如每个聚集后搜索记录1204(图12-13)根据步骤1404-1412(图14)被处理。在步骤1402-1414的循环中，特定聚集后搜索记录的特定搜索项、源和市场有时被分别称为目标项、目标源和目标市场。虽然搜索数据分析模块408针对所有聚集后的搜索记录执行步骤1404-1412，但是步骤1404-1212在这里是在处理聚集后搜索记录1204(图13)的上下文中被描述的。

在步骤1404中，搜索数据分析模块408将接收自原始搜索聚集器502(图5)和原始搜索第二级聚集器504的聚集后的原始搜索数据与纯净搜索聚集窗口508相比较。在测试步骤1406中，搜索数据分析模块408判断15分钟或24小时的聚集后原始搜索数据是否在统计上不同于纯净搜索聚集窗口508。

搜索数据分析模块408通过首先计算聚集后原始搜索数据的期望最大值来判断聚集后的原始搜索数据在统计上是否不同。在本示例性实施例中，根据以下等式来计算期望最大值。

EV = \frac{E V_{s} w_{s} + E V_{s / t} w_{s / t} + E V_{t / s} w_{t / s}}{w_{s} + w_{s / t} + w_{t / s}} - - - (1)

在等式(1)中，期望最大量EV是EV_s、EV_s/t和EV_t/s的加权平均。EV_s是基于可归因于目标源的搜索量所占比例而计算出的期望量。EV_s/t是基于相对于目标项可归因于目标源的搜索量所占比例而计算出的期望量。EVt/s是基于相对于目标源可归因于目标项的搜索量所占比例而计算出的期望量。权重w_s、w_s/t和w_t/s分别对应于EV_s、EV_s/t和EV_t/s。在本示例性实施例中，权重w_s、w_s/t和w_t/s都被设置为一(1.0)，以使每个期望量彼此相等地被加权。

期望量EV_s是根据以下等式由搜索数据分析模块408计算出的。

{EV}_{s} = {CV}_{tm} (\frac{{CV}_{sm}}{{CV}_{m}}) k_{s} - - - (2)

在等式(2)中，CV_tm代表针对被比较的聚集后原始搜索数据的相同时间段，纯净搜索聚集窗口508内从所有源对目标项和目标市场的搜索量。具体而言，在比较来自原始搜索聚集器502的聚集原始搜索数据的15分钟窗口时，纯净搜索聚集窗口508的15分钟窗口由CV_tm表示。类似地，在比较来自原始搜索第二级聚集器504的聚集原始搜索数据的24小时窗口时，纯净搜索聚集窗口508的24小时窗口由CV_tm表示。

CV_sm代表针对最近24小时时间段，纯净搜索聚集窗口508内对目标源和目标市场的搜索量。CV_m代表针对最近24小时时间段，纯净搜索聚集窗口508内对目标市场(包括所有搜索项和搜索源)的搜索量。因此，比率

代表最近24小时中来自目标源的在目标市场中的所有搜索所占比例。虽然针对单独的搜索项的搜索量可能在各个小时内以不可预知地方式波动，但是来自特定源的搜索所占比例倾向于保持相对恒定。因此，将针对目标项的搜索量乘以这一比率提供了对来自目标源的针对目标项的合法搜索的真实量的相当可靠的期望。

该相当可靠的期望被乘以调谐因子k_s，以允许搜索量中接收自目标源的部分逐日的改变，而不会被察觉为搜索量的非法增长。在本示例性实施例中，k_s为1.1，从而允许目标源的搜索量所占比例逐日发生10％的增长。

期望量EV_s/t是由搜索数据分析模块408根据以下等式计算出的。

{EV}_{s / t} = {Observed}_{tm} (\frac{{CV}_{tsm}}{{CV}_{tm}}) k_{s / t} - - - (3)

在等式(3)中，Observed_tm代表来自所有源的针对目标项和目标市场的所有聚集后原始搜索记录。在本示例性实施例中，只有具有相同持续时间(在本实施例中为15分钟或24小时)的聚集后原始搜索记录被聚集以形成Observed_tm。

CV_tm如以上关于等式(2)所描述的，但是其覆盖了纯净搜索数据的整个24小时窗口。CV_tsm代表针对最近24小时时间段，在纯净搜索聚集窗口508内针对目标项、目标源和目标市场的搜索量。因此，比率

代表针对目标项和目标市场，来自目标源的搜索相对于所有源所占的比例。这一比率倾向于保持恒定，不论目标项的受欢迎程度是否波动。因此，将来自所有源的针对目标项观察到的搜索量乘以这一比率提供了对来自目标源的针对目标项的合法搜索的真实量的相当可靠的期望。

该相当可靠的期望被乘以调谐因子k_s/t，以允许搜索量中接收自目标源的部分逐日改变，而不会被察觉为搜索的非法泛滥。在本示例性实施例中，k_s/t为1.1，从而允许目标源的针对目标项的搜索量的比例逐日发生10％的增长。

期望量EV_t/s是由搜索数据分析模块408根据以下等式计算出的。

{EV}_{t / s} = {Observed}_{sm} (\frac{{CV}_{tsm}}{{CV}_{sm}}) k_{t / s} - - - (4)

在等式(3)中，Observed_sm代表针对目标市场来自目标源的针对所有搜索项的所有聚集后原始搜索记录。在本示例性实施例中，只有具有相同持续时间(在本实施例中为15分钟或24小时)的聚集后原始搜索记录被聚集以形成Observed_sm。

CVsm代表纯净搜索聚集窗口508中与目标源和目标市场相关的部分，并因此代表针对目标市场来自目标源的针对所有项的合法搜索的量。CV_tsm如以上关于等式(3)所描述的。因此，比率代表在最近24小时中，来自目标源的在目标市场中的针对目标项的搜索相对于所有搜索项所占的比例。将来自目标源的针对所有搜索项的观察到的搜索量乘以这一比率可以估计目标市场中来自目标源的针对目标项的合法搜索的真实量的期望。

该相当可靠的期望被乘以调谐因子k_t/s，以允许搜索量中接收自目标源的部分逐日改变，而不会被察觉为搜索的非法泛滥。在本示例性实施例中，k_t/s为1.1，从而允许目标源的针对目标项的搜索量相对于所有搜索项所占比例逐日发生10％的增长。

以上等式(1)的加权平均避免依赖于任意特定单个计算出的期望，并且上述权重和调谐因子可以被调整，以在搜索量被累积时更准确地代表最大的期望合法搜索流量。

如果聚集后的搜索记录1204没有在统计上不同于期望的搜索行为，即其不大于根据等式(1)确定的最大的期望搜索量，处理则转移到下一步骤1414(图14)，并由搜索数据分析模块408根据步骤1402-1414的循环处理下一聚集后的搜索记录。相反，如果聚集后的搜索记录1204(图13)在统计上不同于期望的搜索行为，即其大于根据等式(1)确定的最大的期望搜索量，处理则转移到步骤1408。

在步骤1408中，搜索数据分析模块408估计聚集后的搜索记录1204中可归因于非法搜索查询的部分。在本示例性实施例中，估计出的部分是计数1302超出根据等式(1)确定的最大的期望搜索量的数字差。

在步骤1410中，搜索数据分析模块408从在步骤1408中估计出的部分中减去由原始搜索过滤器404标记为非法的单独的搜索的数目。在步骤1412中，搜索数据分析模块408随机地选择原始搜索数据供给402中的多个搜索记录并将它们标记为非法的，其中搜索记录的数目等于在步骤1408中估计出并在步骤1410中被调整的非法搜索的数目。如果经调整的估计部分是非正的(non-positive)，则跳过步骤1412。另外，搜索数据分析模块408只随机地选择尚未被原始搜索过滤器404标记为非法的搜索记录。

以下示例是示例性的。假设纯净搜索聚集窗口508和以上等式(1)建议，针对给定项、从给定源并在给定市场内，期望有2000个搜索。还假设针对所述项、源和市场的组合有3000个搜索被聚集，并且在测试步骤1406中确定此差异在统计上相当大。因此，1000个搜索被估计为非法的。假设原始搜索过滤器404已识别出600个单独的搜索是非法的。则估计有400个搜索是非法的，但还未识别出。在步骤1412中，搜索数据分析模块408从尚未被原始搜索过滤器404标记为非法的2400个搜索中随机地选择400个搜索，并将这400个随机选择的搜索标记为非法的。

在步骤1412之后，处理通过下一步骤1414(图14)转移，并由搜索数据分析模块408根据步骤1402-1414的循环处理下一聚集后的搜索记录。一旦项、源和市场的所有组合都已根据步骤1402-1414的循环进行了处理，处理则转移到步骤1416，在该步骤中，从原始搜索数据供给402中删除所有被标记为非法的搜索记录，以生成过滤后的搜索数据供给410。

因此，当检测到搜索行为中的异常时，从原始搜索数据供给402中删除单独识别出的非法搜索，还删除多个随机选择的其他搜索。因此，过滤后的搜索数据供给410更准确地反映出用户提交真实搜索查询的实际行为。

如上所述，过滤后的搜索数据供给410被异常分析模块406A用于确定搜索行为的期望水平，并被搜索列表项精选器304用于以在搜索行为分析模块应用中描述的方式来评估单独的搜索列表项的性能。这样一来，单独的搜索列表项的性能评估不会受到非法搜索的过分影响。

以上描述仅仅是示例性的而非限制性的。本发明仅仅由权利要求及其等同物的全部范围来限定。

Claims

1.一种用于检测非法搜索查询的方法，该方法包括：

针对一个或多个接收到的搜索查询中的每个目标搜索查询：

识别提交所述目标搜索查询的用户代理；

将所述用户代理与一个或多个预定的合法用户代理相比较；

在所述用户代理与所述预定的合法用户代理中的任何一个都不匹配的情况下，将所述目标搜索查询标记为非法的。

2.如权利要求1所述的方法，其中识别步骤包括：

获取代表与用户在提交所述目标搜索查询时一道提交的表单数据相关联的环境变量的数据。

3.如权利要求1所述的方法，还包括：

从搜索查询的数据库中删除被标记为非法的搜索查询，从而使所述数据库更准确地代表人类用户的搜索行为。

4.一种用于检测非法搜索查询的方法，所述非法搜索查询中的每一个接收自相应的网络地址，该方法包括：

确定搜索查询中的一个或多个选中的搜索查询每个是在小于下述预定时间段的时间内被提交的，所述预定时间段是搜索查询中的相应较早提交的搜索查询的提交后的预定时间段，其中所述选中的搜索查询和相应较早提交的搜索查询接收自相同的网络地址；

将所述选中的搜索查询标记为非法的。

5.如权利要求4所述的方法，其中确定步骤包括：

通过获取代表与用户在提交目标搜索查询时一道提交的表单数据相关联的环境变量的数据，来确定所述搜索查询接收自哪个网络地址。

6.如权利要求4所述的方法，还包括：

从搜索查询的数据库中删除所述选中的搜索查询，从而使所述数据库更准确地代表人类用户的搜索行为。

7.一种用于检测非法搜索查询的方法，所述非法搜索查询中的每一个接收自相应的网络地址，该方法包括：

确定搜索查询中的一个或多个选中的搜索查询是以如下时间间隔被提交的，所述时间间隔之间的变化小于预定量，其中所述选中的搜索查询和相应较早提交的搜索查询接收自相同的网络地址；

将所述选中的搜索查询标记为非法的。

8.如权利要求7所述的方法，其中确定步骤包括：

9.如权利要求7所述的方法，还包括：

10.如权利要求7所述的方法，其中确定步骤包括：

确定所述选中的搜索查询的接收之间的时间间隔的标准偏差。

11.一种用于提高搜索查询的数据库代表人类搜索行为的准确性的方法，该方法包括：

将所述搜索查询的数量与搜索查询的期望数量相比较；

确定所述搜索查询的数量比所述搜索查询的期望数量至少超出预定容限；

根据所述数量比所述期望数量超出的量来选择具有所述数量的多个搜索查询；以及

从所述数量中删除所述选中的多个搜索查询。

12.如权利要求11所述的方法，其中所述数量和所述期望数量对应于包括特定搜索项的搜索查询。

13.如权利要求11所述的方法，其中所述数量和所述期望数量对应于特定地理区域特有的搜索查询。

14.如权利要求11所述的方法，其中所述数量在时间窗口中被采样。

15.如权利要求14所述的方法，其中所述时间窗口是15分钟。

16.如权利要求14所述的方法，其中所述时间窗口是24小时。

17.如权利要求11所述的方法，还包括：

确定搜索查询的所述期望数量。