CN1770158A

CN1770158A - 内容评估

Info

Publication number: CN1770158A
Application number: CNA2005101089719A
Authority: CN
Inventors: D·C·菲特利; M·A·纳约克; M·S·玛纳瑟
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-09-30
Filing date: 2005-09-29
Publication date: 2006-05-10
Also published as: KR20060051939A; EP1643392A1; US20060069667A1; JP2006146882A

Abstract

本发明描述了内容评估，包括使用与内容相关联的属性来生成数据集、使用统计分布评估该数据集来标识一类统计离群值、以及分析网页以确定该网页是否是该类统计离群值的部分。一种系统包括被配置成存储数据的存储器，以及处理器，它被配置成使用与内容相关联的属性来生成数据集、使用统计分布评估该数据集来标识一类统计离群值、并分析网页以确定该网页是否是该类统计离群值的部分。另一种方法包括爬寻一组网页、评估该组网页来计算统计分布、将统计分布中的离群值页面标记为Web垃圾、以及创建网页和离群值页面的索引来回答查询。

Description

内容评估

技术领域

本发明涉及软件。更具体地，揭示了内容评估。

背景技术

未经请求的内容，通常称为“垃圾”，由于通过包括万维网(Web)的各种电子媒体向用户发送和由用户接收大量不需要的数据而造成问题。可以使用电子邮件或其他电子内容传送机制，包括消息通信、因特网、Web或其他电子通信媒体来传送垃圾。在搜索引擎、爬寻程序(crawler)、机器人程序(bot)及其他内容过滤机制的上下文中，对Web上不需要的内容(Web垃圾)的检测成为日益严重的问题。例如，当执行搜索时，适合给定搜索的所有网页可在结果页面中列出。包含在搜索结果页面中的网页可以是为特别地增加特定网站的可见性而生成的网页。Web垃圾会将不需要的内容“推”向用户，希望能诱使用户访问特定的网站。Web垃圾还会生成大量对用户不可用或令人厌烦的数据，并且能减慢搜索引擎的执行或阻碍其准确性。有各种类型机制可以用于提升特定网页在搜索清单或等级中的可见性。

在很多情况下，垃圾可通过Web和因特网为商业目的而出现。例如，为了增强特定网页的期许程度或“可搜索性”，搜索引擎优化器(SEO)自动或手动地生成垃圾网页(Web垃圾)。SEO试图提高网站在搜索清单中的分级，并因此生成大量的垃圾网页。目标网站或网页可能能够增加它在特定搜索中的等级或优先级，从而在结果页面上得到更显著的位置和定位，导致来自用户的通信量增加。因此，SEO能够基于改进客户机网站对更大通信量和更多用户的曝光度来产生收入。某些SEO可以使用关键词填充来创建网页，这样的网页可包括多个关键词却不包含实际内容。另一个问题是链接垃圾，这会创建链接到特定网页(商业客户机)的大量网页，从而误导并导致搜索引擎提高特定网站或网页在搜索结果内的等级。在其他情况下，可以通过生成大量相互之间有些许区别的网页来创建Web垃圾，目的在于使这些页面中的一个能够被搜索引擎赋予较高的等级。

因此，需要一种用于检测未经请求的在线内容而没有现有技术的限制的解决方案。

附图说明

本发明的各种实施例在下面的详细描述和附图中揭示：

图1示出了垃圾网页；

图2示出了用于评估内容的示例性流程图；

图3示出了用于评估内容的另一示例性流程图；

图4示出了通过评估主机名形成的示例性统计分布；

图5示出了通过对每个地址评估多个主机名形成的示例性统计分布；

图6示出了通过评估主机-机器比形成的示例性统计分布；

图7A示出了通过使用链入度(in-degree)评估链接结构形成的示例性统计分布；

图7B示出了通过使用链出度(out-degree)评估链接结构形成的示例性统计分布；

图8示出了通过评估Web服务器上页面之间的字数变化形成的示例性统计分布；

图9示出了通过评估页面演化形成的示例性统计分布；

图10示出了通过评估近似重复的页面的聚类形成的示例性统计分布；及

图11为框图，示出适用于评估内容的示例性计算机系统。

具体实施方式

本发明可以用众多方法来实现，包括被实现为过程、装置、系统、合成物、诸如计算机可读存储介质或其中通过光或电通信链路发送程序指令的计算机网络等计算机可读介质。在本说明书中，这些实现或本发明可以采取的任何其他形式，都可以被称为技术。一般而言，可以在本发明的范围内更改所揭示的过程的步骤的顺序。

下面提供对本发明的一个或多个实施例的详细描述，以及示出本发明原理的附图。本发明是关于这样的实施例描述的，但本发明并不限于任何实施例。本发明的范围仅由权利要求限定，且本发明包括众多替换、修改及等价物。在下面的描述中阐明众多具体细节，以提供对本发明的完整理解。这些细节是作为例子提供的，且本发明可以根据权利要求书来实现而不包括这些具体细节的部分或全部。为了简单起见，未详细描述与本发明有关的技术领域中已知的技术材料，从而不会不必要地使本发明含糊。

Web垃圾的检测是减少和消除不需要的内容的重要目标。取决于用户的偏好，某些内容可能是不需要的，且可以执行检测来确定是否存在Web垃圾。使用通过使用与一组所爬寻的网页相关联的各种参数或属性形成的统计分布，可以对搜索结果中的所有页面开发一个图。在此，图可以指图表、图形、或使用各种参数的数据图。作为例子，可以开发这样的图，其中可以对搜索引擎爬寻的每个页面画出一个点，而使用这些页面的一个或多个属性来画出该图。在某些例子中，可以在创建搜索引擎索引期间执行Web垃圾检测技术，而不是在执行查询时执行，以免延迟向用户发送搜索结果。在其他例子中，可以通过不同的方式执行Web垃圾检测。一旦标识出离群值，就可以使用各种技术进一步评估与该离群值相关联的网页。然而，一旦检测到Web垃圾，就可以执行删除、过滤、降低搜索引擎的等级或其他动作。可以使用软件或硬件应用程序(如，计算机程序、软件、软件系统及其他计算系统)来实现用于评估内容以便检测Web垃圾的技术。

图1示出了垃圾网页。垃圾网页(“Web垃圾”)也可以包括其他形式的垃圾，如链接垃圾、关键字填充、诸如统一资源定位符(URL)等合成地址，但通常不包括电子邮件垃圾。作为例子，垃圾网页100包括关键词、搜索项及链接，其每一个都可以由SEO生成来提高网站在来自搜索引擎等的搜索结果列表中的等级。在此例中，生成了关键词、内容、链接与合成URL，以便提供用于向目标网站送去附加通信量的机制。在此，一个信用修复或贷款代理的网站可以是垃圾网页100的目标网站。可以检测如这样的SEO技术，并使用该技术来指示搜索引擎发现的特定内容或内容结果是否包括Web垃圾。

图2示出了用于评估内容的示例性流程图。在此，提供一总体过程，用于使用各种技术拉评估内容以便检测Web垃圾。在此例中，搜索引擎通过爬寻一组网页来生成数据集(202)。评估爬寻过的网页来形成统计分布(204)。将与统计分布中的离群值相关联的页面标记为Web垃圾(206)。一旦检测到并标记了Web垃圾，就可以对所有爬寻过的页面创建搜索索引，包括Web垃圾(208)。在某些例子中，检测到的Web垃圾可以被排除在搜索引擎索引之外、得到较低的搜索等级，或以使得用户查询不受影响或不被Web垃圾填充的方式来处理，从而响应于查询生成更加相关的搜索结果(210)。下面结合图4-10更详细地描述了可以使用的统计分布的某些例子。用于评估内容的另一过程在图3中示出。

图3示出了用于评估内容的另一示例性流程图。在此例中，提出了一种用于确定是否存在Web垃圾的替换方法。在此，可以从一组爬寻过的网页生成数据集(302)。这些网页可以代表搜索引擎索引中的所有页面。在其他例子中，可以从一组不同的网页生成数据集。一旦生成，就可以使用统计分布来评估该数据集，以标识一类统计离群值(304)。对照所标识的这类统计离群值，可以分析各个网页来确定这些页面是否包括落在该类统计离群值中的参数(306)。可以形成各种类型的统计分布，从这些统计分布中可以确定各类统计离群值。这些统计离群值可以与如上所述的那些是Web垃圾的网页相关联。

作为例子，当使用各种属性或参数，如统一资源定位符(URL)形成统计分布时，可得到各种离群值。URL表示网页的地址，可以将其用作用于确定由该URL定址的页面是否是Web垃圾的参数。在某些例子中，合成URL可以用来定址页面。合成URL是自动生成的，而不是由开发者、管理员或其他Web内容提供者手动生成的。这些URL可以看起来不一样，例如，具有地址中所包含的数字、字符或其他项的随机序列。合成URL可以由应用程序、程序或机器自动地生成。在图4-10中示出了所形成的用于检测Web垃圾的统计分布的一些例子。

图4示出了通过评估包含在URL中的主机名形成的示例性统计分布。在此，统计分布是从包含在数据集中的所有主机名的属性形成的。进一步评估落在统计分布主体之外的离群值，例如组420，来确定位于这些主机上的页面是否是Web垃圾。作为例子，对数据集中每一点，可以画出主机名数量和主机名长度之间的关系。位于组420之内的点表示可以使用上述过程来评估的统计离群值。在此，可以通过评估主机名的属性来形成统计分布。

主机名可以与域名系统(DNS)一起使用，域名系统是将符号主机名映射到数字IP地址的全球的分布式系统。DNS由大量的独立计算机(“DNS服务器”)来实现。每个DNS服务器都负责映射的某一部分，并可以由注册了域名所有权的组织来操作。符号主机名可以由客户机解析，客户机将主机名发送到DNS服务器。主机名被直接或间接地转发到负责(如，管辖)该主机所处的域的DNS服务器，该DNS服务器将返回相关联的IP地址。作为例子，DNS服务器可以负责较小并且固定(或较慢演化)的主机名集。然而，可以将DNS服务器配置成将特定域内的任何给定主机名解析成一IP地址。因此，Web服务器可以生成这样的网页，其中包含超链接(如，URL)，使得超链接中的主机部分看起来指向不同的主机(如，“belgium.sometravelagency.com”、“holland.sometravelagency.com”、“france.sometravelagency.com”)，但其中所有主机名都解析到同一IP地址。这些不同主机中的每一个都可以被分类为机器生成的主机名或“合成主机名”。

可以动态地创建合成主机名。合成主机名比起标准主机名来通常包括更多的点、划、数字或其他字符。在某些例子中，合成主机名可以具有和标准主机名不同的样子。合成主机名也可以被称为域名系统(DNS)垃圾。如果存在合成主机名，则源于该主机名的所有网页都可以被标记或标识为Web垃圾(408)。如果不存在合成主机名，则不采取行动。可以对搜索引擎爬寻过的每个主机名重复此过程。图5示出了通过评估分配给一个地址的主机名数量来形成的另一示例性统计分布。

图5示出了通过评估分配给一个地址的主机名数量形成的示例性统计分布。作为例子，可以使用地址(如IP地址)来评估网页，以确定是否存在Web垃圾。组520中的这一组点表示统计离群值。作为例子，统计离群值可以表示分配了上千或上百万个主机名的单个IP地址，这可表明是DNS垃圾，这进而可以是机器或自动生成的垃圾网页的证据。然而，在其他例子中，这些统计离群值中的某一些也可以是有效的网站。这些有效网站的例子可包括在线社区网站、社交网络网站、个人网页社区及其他类似的站点。给定一个网页，相关联的URL的主机名可以被解析到一个IP地址，且可以确定解析到同一IP地址的其他已知主机名。多个主机名可以解析到同一IP地址。对给定的页面，如果解析到同一IP地址的已知主机名数量超过了一阈值，则将该页面标记或标识为Web垃圾。如果解析到同一IP地址的主机名数量不超过阈值，则不将该页面标记为Web垃圾。在图形表示中，可以对一数据集，画出分配给一个地址的主机名数量和地址数量之间的关系。在其他例子中，可以使用主机-机器比来确定是否存在Web垃圾。

垃圾网页可包含大量具有不同主机名的超链接，这些超链接看起来指向不同的无关Web服务器，但可能指向关联的Web服务器。这造成网页链接到并认可其他网站的印象，从而造成公平的假象。为了降低与操作独立Web服务器相关联的成本，Web垃圾作者可如上所述那样将DNS服务器配置成将不同的主机名解析到单个机器。Web垃圾作者可使用此技术来提供正常的网页外观，同时看起来是链接到其他不同的网站。此行为可以通过计算主机-机器比来检测。主机名可以被映射到一个或多个物理机器，其中每个机器都由一个IP地址来标识。作为例子，可以通过将给定网页链接到并看起来认可的网站或主机名数量除以实际认可的机器数量来确定主机-机器比。认可的网站比机器多得多的网页具有较高的主机-机器比。随后，可以检测到这些网页并将它们标识为Web垃圾。如果高主机-机器比与一网页相关联，则可以将该网页标记或标识为Web垃圾。如果没有高主机-机器比，则不将该网页标记或标识为Web垃圾。主机-机器比可以具有阈值，高于阈值则标识为垃圾。可以将主机-机器比阈值调得更高或更低。如果页面具有高主机-机器比，则该页面可能看起来链接到很多不同的网站，但实际上却链接到并认可更少的网站。在另一个例子中，平均主机-机器比是由一机器服务的页面的主机-机器比的平均数。由具有高平均主机-机器比的机器服务的网页将被标记或标识为Web垃圾。图6示出使用主机名解析来确定是否存在Web垃圾的另一种技术。

图6示出通过评估主机-机器比形成的示例性统计分布。组620表示一数据集(如网页)的一组统计分布离群值，该数据集是通过画出机器上的网页数量和机器上的平均主机-机器比之间的关系来图示的。在此，可以将如组620中所示的那些离群值标记或标识为垃圾。图7A-7B示出可以用于检测Web垃圾的统计分布的另一例子。

图7A示出通过使用链入度(in-degree)来评估链接结构而形成的示例性统计分布。网页的链入度指的是指向该网页的超链接的数量。通过评估网页的链入度，可以形成统计分布来发现可与Web垃圾相关联的离群值。给定具有链入度d的网页，如果比给定观察到的链入度统计分布时所期望的存在更多具有链入度d的页面，则将这些网页标记或标识为Web垃圾。作为例子，如果数据集包括369,457个具有链入度1001的页面，但是根据图7A所示的观察到的统计分布只期望有2000个页面，则将这些网页标记或标识为Web垃圾。表示具有如上所述那样的链入度的网页的一组离群值的一个例子在组720中示出。如图7B所示，也可以使用链出度(out-degree)来评估网页，如组740中的离群值所示。

图7B示出通过评估链出度而形成的示例性统计分布。网页的链出度指嵌入该网页的超链接的数量。在此，通过使用与数据集中的每个网页相关联的链出度的数量来形成统计分布。离群值由组740指示。为了确定Web垃圾是否与数据集中的网页相关联，使用链出度而不是链入度来形成统计分布，如上关于图7A所述的。在此例中，网页数量与页面链入度或链出度的关系图可以产生Zipfian分布，通过该分布可以选择统计离群值(如，落在分布外部的点)并进一步评估这些离群值来确定具有该链出度的网页事实上是否是Web垃圾。在图7A和7B两者的例子中，具有相同的链入度或链出度的相同网页也可以是Web垃圾。可以形成用于检测Web垃圾的统计分布的又一个例子在图8中示出。

图8示出了通过评估句法内容来检测Web垃圾的示例性流程图。作为例子，可以基于大小或字数分布来评估句法内容。在此，变化作为一系列数字的属性来确定。计算给定网站(如，主机名、IP地址或其他参数)上所有网页的字数或大小的变化。如果给定网站上的所有网页在字数上都具有接近零的变化(如组820所示)，则这些网页可能是基于模板的。基于模板页面指示机器或自动生成的内容(如，完全由关键词或短语组成的页面)并可以被标记或标识为Web垃圾。接近零的变化表明为了创建可由搜索引擎、爬寻程序、机器人程序或其他搜索应用分级较高的网页，在基于模板生成Web垃圾期间所做出的小的改动。在其他例子中，可以使用不同的特征来评估句法内容。图9示出形成用于检测Web垃圾的另一个示例性统计分布。

图9示出通过评估页面演化而形成的示例性统计分布。在某些例子中，页面演化指网页在下载之间经受的改变。作为例子，SEO或Web垃圾生成器可在下载之间手动或自动地创建或改变网页。基于网页的演化对网页进行评估。作为例子，可以确定网页是否对每次下载显著改变或“演化”。显著改变可以是整个页面布局修改、大部分内容改变、或内容类型改变(如，大部分的文本被换为图像)。也可以使用其他类型的显著改变来确定每个页面是否对每次下载显著改变。计算与给定网站上的网页相关联的平均改变量。如果与给定站点相关联的网页的平均改变量超过了特定阈值，则将这些网页标记或标识为Web垃圾；否则，不标记这些网页。作为例子，带920突出显示了总数据集中显示出从一周到下一周之间匹配特征平均数量较低的一部分。在其他例子中，对其形成统计分布的时间段可以被改为每天、每小时、每年、每月、或在其中确定页面内容已演化的任何其他时间段。在其他例子中，可以修改其他参数。图10示出了形成用于检测Web垃圾的另一个统计分布。

图10示出了通过评估近似重复的页面的聚类形成的示例性统计分布。在此，可以标识近似重复的页面。一旦被标识出，近似重复的页面就被聚类为例如一个等价类。在其他例子中，可以将近似重复的页面分组为除等价类之外的其他数据结构或构造。一经聚类，就评估每个聚类来确定其中是否包括较大数量的网页。如果在所评估的聚类中包括了较大数量的网页，则可以确定Web垃圾存在。随着聚类大小的增长，相关联的网页是Web垃圾的概率也增长。在此，组1020示出了被示为较大聚类的一组统计离群值，这表明Web垃圾。在此例中，如果在给定的聚类中包括较大数量的网页，则将该聚类中的网页标记或标识为Web垃圾。

在上述例子中，可以评估不同的属性和特征来实现这些用于评估内容以检测Web垃圾的技术。在某些例子中，可以对数据集的不同特征作图来形成统计分布，并可以通过统计分布来标识和选取统计离群值。在其他例子中，可以在其他环境或特征系统中使用上述统计分布、分析和评估方法，来确定统计离群值和相关联的项、属性或关联属性，以评估数据集。

图11为框图，示出了适用于评估内容的示例性计算机系统。在某些例子中，计算机系统1100可以用于实现上述技术。计算机系统1100包括总线1102或用于传递信息的其他通信机制，它们使各子系统和设备互连，如处理器1104、系统存储器1106(如，RAM)、存储设备1108(如，ROM)、盘驱动器1110(如，磁盘或或光盘)、通信接口1112(如，调制解调器或以太网卡)、显示器114(如，CRT或LCD)、输入设备1116(如，键盘)、及光标控制1118(如，鼠标或跟踪球)。

根据本发明的一实施例，计算机系统1110通过处理器1104执行包含在系统存储器1106中的一个或多个指令的一个或多个序列来执行具体操作。可以从另一计算机可读介质，如静态存储设备1108或盘驱动器1110中将这样的指令读入系统存储器110中。在替换实施例中，可以使用硬连线的电路来代替软件指令或与之组合来实现本发明。

术语“计算机可读介质”指参与向处理器1104提供指令以便执行的任何介质。这样的介质可以采取多种形式，包括但不限于，非易失性介质、易失性介质及传输介质。非易失性介质包括例如光盘或磁盘，如盘驱动器1110。易失性介质包括动态存储器，如系统存储器1106。传输介质包括同轴电缆、铜线和光纤，包括组成总线1102的电线。传输介质也可以采取声波或光波的形式，如在无线电波和红外线数据通信中生成的那些。

计算机可读介质的常见形式包括，例如，软盘、可移动磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、闪速EPROM、任何其他存储器芯片或磁带盒、载波、或计算机可以从中读取内容的任何其他介质。

在本发明的一实施例中，实现本发明的指令序列的执行是由单个计算机系统1100执行的。根据本发明其他实施例，通过通信链路1120(如，LAN、PSTN或无线网络)连接的两个或多个计算机系统1100可以执行这些指令序列，以互相协作的方式来实现本发明。计算机系统1100可以通过通信链路1120和通信接口1112发送和接收消息、数据及指令，包括程序(即应用程序代码)。接收的程序代码在接收之后可以由处理器1104执行，和/或存储在盘驱动器1110或其他非易失性存储中，以便在以后执行。

虽然为了便于理解已对上述实施例进行了详细描述，但本发明并不限于所提供的细节。存在很多实现本发明的替换方式。所揭示的实施例只是说明性的，而非限制性的。

Claims

1.一种用于评估内容的方法，包括：

使用与所述内容相关联的属性生成数据集；

使用统计分布评估所述数据集，来标识一类统计离群值；以及

分析网页，以确定该网页是否是所述一类统计离群值的部分。

2.如权利要求1所述的方法，其特征在于，所述属性是地址。

3.如权利要求1所述的方法，其特征在于，所述属性是地址属性。

4.如权利要求1所述的方法，其特征在于，所述属性是统一资源定位符属性。

5.如权利要求1所述的方法，其特征在于，所述属性是主机名解析特征。

6.如权利要求5所述的方法，其特征在于，所述主机名解析特征表示分配给一个地址的多个名称。

7.如权利要求5所述的方法，其特征在于，所述主机名解析特征是主机-机器比。

8.如权利要求1所述的方法，其特征在于，所述属性是链接结构。

9.如权利要求1所述的方法，其特征在于，所述属性是句法内容。

10.如权利要求1所述的方法，其特征在于，所述属性是内容演化。

11.如权利要求1所述的方法，其特征在于，所述属性是相似网页的聚类。

12.如权利要求1所述的方法，其特征在于，所述数据集是在选择样本总体之前生成的。

13.如权利要求1所述的方法，其特征在于，所述分析网页还包括确定是否存在Web垃圾。

14.如权利要求13所述的方法，其特征在于，所述确定是否存在Web垃圾还包括：

评估多个网页；以及

确定与每个网页相关联的主机名的长度。

15.如权利要求13所述的方法，其特征在于，所述确定是否存在Web垃圾还包括：

评估所述网页，其中与所述网页相关联的主机名被解析到一个地址；以及

确定其他网页是否将其他主机名解析到所述地址。

16.如权利要求13所述的方法，其特征在于，所述确定是否存在Web垃圾还包括评估所述网页来确定主机-机器比。

17.如权利要求16所述的方法，其特征在于，所述主机-机器比是通过将包含在所述网页中的不同主机名的数量除以与所述不同主机名数量相关联的不同地址的数量来确定的。

18.如权利要求1所述的方法，其特征在于，所述评估数据集还包括使用所述统计分布来标识包括在所述一类统计离群值中的链入度值。

19.如权利要求1所述的方法，其特征在于，所述分析网页还包括：

确定所述网页的链入度值；以及

确定所述网页的链入度值是否包括在所述一类统计离群值中。

20.如权利要求1所述的方法，其特征在于，所述评估数据集还包括使用所述统计分布来标识包括在所述一类统计离群值中的链出度值。

21.如权利要求1所述的方法，其特征在于，所述分析网页还包括：

确定所述网页的链出度值；以及

确定所述网页的链出度值是否包括在所述一类统计离群值中。

22.如权利要求1所述的方法，其特征在于，所述分析网页还包括确定所述网页是否具有接近零的字数变化。

23.如权利要求1所述的方法，其特征在于，所述分析网页还包括确定所述网页是否具有接近零的大小变化。

24.如权利要求1所述的方法，其特征在于，所述分析网页还包括确定相对于在一段时间内从一个地址接连进行的多次下载的匹配特征的平均数。

25.如权利要求1所述的方法，其特征在于，所述分析网页还包括确定实质上相同的网页的聚类的大小。

26.如权利要求1所述的方法，其特征在于，所述一类统计离群值标识出不需要的内容。

27.一种用于评估内容的方法，包括：

爬寻一组网页；

评估所述一组网页来计算统计分布；

将所述统计分布中的离群值页面标记为Web垃圾；以及

创建所述网页和所述离群值页面的索引来回答查询。

28.一种用于评估内容的系统，包括：

存储器，它被配置成存储数据；以及

处理器，它被配置成使用与所述内容相关联的属性来生成数据集、使用统计分布评估所述数据集来标识一类统计离群值、以及分析网页来确定所述网页是否是所述一类统计离群值的部分。

29.一种用于评估内容的计算机程序产品，所述计算机程序产品包含在计算机可读介质中，并包含计算机指令，所述计算机指令用于：

使用与所述内容相关联的属性来生成数据集；

使用统计分布评估所述数据集来标识一类统计离群值；以及

分析网页来确定所述网页是否是所述一类统计离群值的部分。