CN103294686A

CN103294686A - 一种网页作弊用户、作弊网页的识别方法及系统

Info

Publication number: CN103294686A
Application number: CN2012100441715A
Authority: CN
Inventors: 杨娜; 廖宇奇; 许春林; 邵荣防
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-02-24
Filing date: 2012-02-24
Publication date: 2013-09-11
Anticipated expiration: 2032-02-24
Also published as: CN103294686B

Abstract

本发明公开了网页作弊用户、作弊网页的识别方法及系统，网页作弊用户的识别方法包括以下步骤：根据热词集合内的热词进行网页检索，得到各热词对应的网页集合；根据各网页集合，得到各热词对应的作者集合；统计各作者在各作者集合内的出现次数；根据各作者的在各作者集合内的出现次数，识别网页作弊用户。本发明的别网页作弊用户的方法，使得作弊用户创建作弊数据的代价增加，可以有效防止作弊行为的发生。此外，本发明实施例通过以热词集合内的热词进行检索，统计网页被热词集合内的热词命中的次数，识别作弊网页，在网页锚文本链接较少的情况下，解决社区数据链接少带来的作弊识别困难的问题。

Description

一种网页作弊用户、作弊网页的识别方法及系统

技术领域

本发明涉及通信技术领域，特别是涉及一种网页作弊用户、作弊网页的识别方法及系统。

背景技术

随着互联网技术的发展，用户可以随时随地通过互联网了解自己感兴趣的信息，并可以随时通过互联网上传文件或发表意见，由此，论坛、博客、微博以及社区（网络板块）也已成为人们生活中重要的一个组成部分。尤其是针对热门话题，例如，人民群众最关心、最直接、最现实的教育、社保、医疗、楼市、股市、劳动就业问题等，通常会通过互联网的传播而引起公众强烈关注，然而，有些作弊用户以增加网站的曝光度或推广商品或网站为目的，频繁发表和热门话题相关的内容、增加特定关键字的曝光率，在这种情况下，如何保证互联网信息的准确、安全、有效就愈发重要。反作弊对于维护网络社区环境、保证信息的传递有着很重要的作用。

传统的反作弊方法通常是基于网页链接分析和检测隐藏技术，通过分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息，把这些信息作为某个网页的作弊表征，计算这些信息和某个网页作弊的关联强度，关联强度高的即为作弊网页。

然而，由于社区数据中锚文本链接普遍较少，按照现有技术利用网页的链接及隐藏内容难以有效的进行作弊识别。

因此，亟需一种网页作弊用户、作弊网页的识别方案用以解决上述问题。

发明内容

本发明的目的在于提供一种网页作弊用户、作弊网页的识别方法及系统，用以解决社区数据链接少带来的作弊识别困难的问题。

为此，本发明实施例采用如下技术方案：

本发明实施例提供一种网页作弊用户识别方法，包括以下步骤：

根据热词集合内的热词进行网页检索，得到各热词对应的网页集合；

根据各网页集合，得到各热词对应的作者集合；

统计各作者在各作者集合内的出现次数；

根据各作者的在各作者集合内的出现次数，识别网页作弊用户。

本发明又一实施例提供一种作弊网页识别方法，包括以下步骤：

统计所述网页集合内的网页被所述热词命中的次数；

根据所述网页集合内的网页被所述热词命中的次数，识别作弊网页。

本发明又一实施例提供一种网页作弊用户识别系统，包括：检索模块和识别模块，所述识别模块包括作者集合确定单元、统计单元和识别单元；

所述检索模块，用于根据热词集合内的热词进行网页检索，得到各热词对应的网页集合；

所述作者集合确定单元，用于根据各网页集合，得到各热词对应的作者集合；

所述统计单元，用于统计各作者在各作者集合内的出现次数；

所述识别单元，用于根据各作者的在各作者集合内的出现次数，识别网页作弊用户。

本发明又一实施例提供一种作弊网页识别系统，包括：检索模块和识别模块，识别模块包括统计单元和识别单元；

所述统计单元，用于统计所述网页集合内的网页被所述热词命中的次数；

所述识别单元，用于根据所述网页集合内的网页被所述热词命中的次数，识别作弊网页。

与现有技术相比，本发明的实施例具有如下优点：

本发明实施例通过检索热词集合内的热词，得到命中热词的网页集合及其对应的作者集合，通过计算各作者被热词命中的次数识别网页作弊用户，使得作弊用户创建作弊数据的代价增加，可以有效防止作弊行为的发生。此外，本发明实施例通过以热词集合内的热词进行检索，统计网页被热词集合内的热词命中的次数，识别作弊网页，在网页锚文本链接较少的情况下，解决社区数据链接少带来的作弊识别困难的问题。

附图说明

图1为本发明实施例一提供的在统计分析阶段，依据多次检索结果进行统计分析，识别网页作弊用户的流程示意图；

图2为本发明实施例一提供的在统计分析阶段，依据一次检索结果进行统计分析，识别网页作弊用户的流程示意图；

图3为本发明实施例二提供的识别作弊网页的流程示意图；

图4为本发明实施例三提供的网页作弊用户识别系统的结构示意图；

图5为本发明实施例四提供的作弊网页识别系统的结构示意图。

具体实施方式

热词即热门词汇，热词反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物，反映一个时期的热点话题及民生等问题。热词集合是由多个热词构成的集合，热词集合可以由用户进行定义。

实施例一

本发明实施例一以热词集合内的热词进行网页检索，根据检索结果获得被热词集合命中的网页作者的次数，并以此为依据识别网页作弊用户。

本实施例中，预先设定时间窗和检索周期，例如，可以为以分钟、小时、天或者周为单位设置时间窗和检索周期，其中，该检索周期长度可以等长或不等长，一个时间窗的长度至少包括2个检索周期，以保证在一个时间窗内可以进行2次检索。

热词集合内的热词可以随时间而变化，时间窗和检索周期可以根据热词集合的变化情况而设定。如果热词集合内的热词变化比较频繁，则时间窗可以设定较短时间。如果当前社会针对某些热词的关注度较高，可以设定在较短时间的时间内发起次数较多的检索，即设置较短的检索周期。

本发明实施例可通过软件编程方式实现，具体实现时，可由网页作弊用户识别系统执行。本发明实施例提供的识别网页作弊用户的流程，可包括两个相对独立的阶段：检索阶段和统计分析阶段。

在检索阶段，网页作弊识别系统根据以热词集合内的热词作为检索词发起网页检索，在获得检索结果后，根据检索结果计算被热词命中的网页作者的作弊分数。检索阶段的实现过程如下：根据预先的检索周期，识别系统使用预设的热词集合中的热词作为关键词发起检索请求，以请求满足检索条件的网页。

检索阶段得到的结果将在统计分析阶段作为参考数据，统计分析阶段的实现过程如下：识别系统根据网页集合，得到相应网页的作者集合，计算作者集合内各作者被热词集合命中的次数，以此为依据计算网页作者的作弊分数，并根据作弊分数识别网页作弊用户。

在检索阶段，网页作弊识别系统可以按照设定检索周期，分别根据热词集合内的热词进行网页检索。

具体的，分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，N为预先设定的网页数量。优选的，N取20。

例如，热词集合内有20个热词（w1、w2、……w20），分别依据热词集合内的20个热词进行网页检索，分别得到对应的20个网页集合（S1、S2、……S20），每个网页集合内包含（N=？）个网页的标识，网页标识可以为网页的URL（Universal Resource Locator，统一资源定位符），用于唯一标识网页。

相应的，在统计分析阶段，网页作弊识别系统依据多次检索结果进行统计分析，识别网页作弊用户的流程做详细说明，如图1所示，该流程包括以下步骤：

步骤11，根据预设的时间窗，取该时间窗内的M次网页检索得到的网页集合。

具体的，在预设的时间窗内，取该时间窗内的M次网页检索操作得到的各热词对应的网页集合，其中，时间窗长度不小于2个检索周期，M≥2。

步骤12，在M次检索操作得到的各热词对应的网页集合中，将相同热词对应的网页集合取并集，并根据取并集处理后的各热词对应的网页集合，得到各热词对应的作者集合。

具体的，由于每次检索时，热词集合内的热词可能会与前次检索时所使用的热词集合有部分或者全部重合，会出现各次检索中对某个相同热词进行重复检索的情况，因此就需要在该时间窗内，对根据相同热词进行M次网页检索得到的网页集合取并集，得到排重后的网页集合。

例如，发起2次网页检索，第1次网页检索采用的热词集合W1为：{w1，w2，w3}，依据w1进行网页检索，得到网页集合S1，依据w2进行网页检索，得到网页集合S2，依据w3进行网页检索，得到网页集合S3；第2次检索采用的热词集合W2为：{ w2，w4，w5}，依据w2进行网页检索，得到网页集合S2’，依据w4进行网页检索，得到网页集合S4，依据w5进行网页检索，得到网页集合S5。第1、2次网页检索依据的热词集合都包括w2，则需要对依据w2进行的网页检索得到的网页集合（S2和S2’）取并集，若，S2为{A，B，C，D，E}（A，B，C，D，E表示命中w2的网页），S2’为{A，B，C，F，E}（A，B，C，F，E表示命中w2的网页），则S2和S2’的并集为{ A，B，C，D，E，F}。

排重过程将各次检索中以相同热词进行重复检索得到的相同网页去除，保证计算的准确性。

根据所述排重后的网页集合，得到相应网页的作者集合。具体的，提取网页检索结果中网页集合Si（排重后的网页集合）中网页文档对应的作者ID，生成作者集合Ai，该作者集合Ai为命中热词Wi的网页集合Si中网页对应的作者集合。

作者ID是用户在社区中的身份标识，是用户进行发帖、上传文件、留言等行为的基础，作者ID可以为用户名、昵称、QQ号码、邮箱等唯一标识用户身份的ID，一个作者ID被认为是一个用户。

步骤13，根据取并集处理后的各热词对应的网页集合，统计各作者在各作者集合内的出现次数。

具体的，统计M次检索的作者集合内各作者被热词命中的次数之和，得到各作者在时间窗内被M次网页检索所依据的热词命中的次数，其中，在根据网页集合确定对应的作者集合时，对应于集合中的每个网页标识，确定并记录对应的作者ID。例如，在N=4（即检索到的网页集合中的元素数量为4）的情况下，第1次网页检索时，命中热词w1的作者集合为{ID1，ID2，ID3，ID1}，命中热词w2的作者集合为{ID1，ID5，ID2，ID4}，即对于网页集合中的每个元素，都要确定其作者，并将作者ID记录到作者集合中，即使有作者ID重复出现，也要再次记录；同理，第2次网页检索时，命中热词w2的作者集合为{ID2，ID5，ID1，ID6}，命中热词w3的作者集合为{ID3，ID1，ID2，ID4}，则在2次检索中，ID1在作者集合中出现5次。

在时间窗内根据多次网页检索结果统计相应的网页作者，计算各作者的网页作弊分数，可以反映出其在某一时间段内的发文行为，在该时间窗内被热词命中的网页越多，作弊分数越高，则该作者进行网页作弊的嫌疑就越大。

步骤14，根据M次检索操作中最近一次的检索操作所得到的网页集合，得到各热词对应的作者集合，统计各作者在该次检索操作对应的各作者集合内的出现次数。

具体的，取热词集合内第M次网页检索的结果（即，第M次网页检索对应的网页集合），根据该网页集合，得到相应网页的作者集合，分别统计各作者在第M次网页检索操作时作者集合内出现的次数（即，将作者集合内每个作者被热词命中的次数进行累计）。

其中，步骤13、14的执行顺序不做限定。

步骤15，针对每一个作者，别根据两次统计得到的出现次数，确定该作者的作弊分数。

具体的，根据步骤13中统计得到作者出现次数，计算各作者的作弊分数的方法如下：分别将各作者被M次网页检索的热词命中的次数除以热词的总数，得到各作者的M次网页检索作弊分数；其中，热词的总数为对M次网页检索所依据的热词集合取并集，得到的热词集合内的热词总数。例如，在时间窗内发起3次检索，第1次检索采用的热词集合W1为：{w1，w2，w3，w4}；第2次检索采用的热词集合W2为：{ w2，w3，w4，w5}；第3次检索采用的热词集合W3为：{ w3，w4，w5，w6}，则对3个热词集合取并集，得到集合{ w1，w2，w3，w4，w5，w6}，则该时间窗内热词集合内热词的总数即为6个。若某作者被M次网页检索的热词命中的次数为4，则该作者M次网页检索的作弊分数为0.67。

具体的，根据步骤14中统计得到作者出现次数，计算各作者的作弊分数的方法如下：可以预先设定每个热词的分值，优选的，每个热词具有相同的分值（即设定每个热词的热度相同），根据作者集合Ai内的每个作者被热词集合内热词命中的次数，结合热词的分值，可以得到每个作者的在该次（第M次）网页检索时的作弊分数。

步骤16，根据步骤15中的两个作弊分数，得到该作者的作弊分数。

具体的，各作者的作弊分数通过以下公式计算获得：

作弊分数=X1×第M次网页检索的作弊分数+X2×M次网页检索的作弊分数；

其中，X1为第M次网页检索的作弊分数所占的权重；X2为在时间窗内的M次网页检索的作弊分数所占的权重。

所述X1和X2依据所述热词集合中的热词数量、热词热度（热词热度不同的情况下）以及预设的时间窗而确定。

步骤17，根据各作者的作弊分数，识别网页作弊用户。

优选的，依据前述的算法计算作弊分数时，当作弊分数大于等于0.8时，该用户被认为是网页作弊用户。

在本实施例中，是通过计算时间窗内的M次网页检索的作弊分数和第M次网页检索的作弊分数，依据该作弊分数识别作弊用户。

当然，也可仅通过一次网页检索的结果，统计被热词集合命中的网页作者的次数，依据该命中次数识别作弊用户。

在检索阶段，依据热词集合内的热词进行网页检索的过程如前所述，在此不再赘述。

在统计分析阶段，依据一次检索结果进行统计分析，识别网页作弊用户的流程如图2所示，包括以下步骤：

步骤21，根据一次检索操作得到的各热词对应的网页集合，得到各热词对应的作者集合。

步骤22，统计各作者在各作者集合内的出现次数。

步骤23，根据各作者的在各作者集合内的出现次数，识别网页作弊用户。

具体的，根据各作者的在各作者集合内的出现次数，计算各作者的作弊分数，根据该作弊分数识别网页作弊用户。

优选的，依据前述的算法计算作弊分数时，用户作弊分数大于等于0.8分，则认定该用户为作弊用户。

上述步骤的具体实现过程如前所述，在此不再赘述。

本发明提供的实施例可以识别出作弊用户的以下作弊行为：

1、作弊用户针对不同的热词分别发布多个不同的网页文档。

2、作弊用户在一个网页文档中包含多个热词。

3、作弊用户针对一个热词发布多个网页文档。

本发明实施例通过检索热词集合内的热词，得到命中热词的网页集合及其对应的作者集合，通过计算各作者被热词命中的次数，识别网页作弊用户，使得作弊用户创建作弊数据的代价增加。例如，当识别出网页作弊用户之后，社区管理者可以进一步对该用户进行警告、查封账号、删除作弊网页等措施，对其作弊行为进行制止，从而有效方式网页作弊行为的再次发生。

实施例二

本发明实施例二以热词集合内的热词进行网页检索，根据检索结果获得被热词集合命中的网页的次数，并以此为依据识别作弊网页。

如图3所示，识别作弊网页的流程包括以下步骤：

步骤31，根据热词集合内的热词进行网页检索，得到各热词对应的网页集合。

具体的，分别根据热词集合内的热词进行网页检索，分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，所述N为预先设定的网页数量。

步骤32，统计网页集合内的网页被热词命中的次数。

步骤33，根据网页集合内的网页被热词命中的次数，识别作弊网页。

本发明实施例二通过以热词集合内的热词进行检索，通过统计网页被热词集合内的热词命中的次数识别作弊网页，在网页锚文本链接较少的情况下，解决社区数据链接少带来的作弊识别困难的问题。

实施例三

基于与实施例一相同的构思，本发明实施例三还提供一种网页作弊用户识别系统，结构如图4所示，包括：检索模块41和识别模块42，识别模块42包括作者集合确定单元421、统计单元422和识别单元423；

检索模块41，用于根据热词集合内的热词进行网页检索，得到各热词对应的网页集合。

作者集合确定单元421，用于根据各网页集合，得到各热词对应的作者集合。

统计单元422，用于统计各作者在各作者集合内的出现次数。

识别单元423，用于根据各作者的在各作者集合内的出现次数，识别网页作弊用户。

具体的，检索模块41具体用于，根据一次检索操作得到的各热词对应的网页集合。

检索模块41还具体用于，按照设定检索周期，根据热词集合内的热词进行网页检索。

作者集合确定单元421具体用于，根据设定的时间窗，取该时间窗内的M次检索操作得到的各热词对应的网页集合，并在所述M次检索操作得到的各热词对应的网页集合中，将相同热词对应的网页集合取并集，根据取并集处理后的各热词对应的网页集合，得到各热词对应的作者集合；其中，时间窗长度不小于2个检索周期，M≥2；以及根据所述M次检索操作中最近一次的检索操作所得到的网页集合，得到各热词对应的作者集合。

统计单元422具体用于，根据合并处理后的各热词对应的网页集合，统计各作者在各作者集合内的出现次数；以及统计各作者在所述M次检索操作中最近一次检索操作对应的各作者集合内的出现次数。

识别单元423具体用于，根据两次统计得到的各作者的出现次数，识别网页作弊用户。

具体的，识别单元423具体用于，针对每一个作者，别根据两次统计得到的出现次数，确定该作者的作弊评价值，将两个作弊评价值进行加权求和，得到该作者的作弊评价值，并根据各作者的作弊评价值，识别网页作弊用户。

具体的，检索模块41具体用于，分别根据热词集合内的热词进行网页检索；以及分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，N为预先设定的网页数量。

本发明实施例三通过检索热词集合内的热词，得到命中热词的网页集合及其对应的作者集合，通过计算各作者被热词命中的次数，识别网页作弊用户，使得作弊用户创建作弊数据的代价增加。例如，当识别出网页作弊用户之后，社区管理者可以进一步对该用户进行警告、查封账号、删除作弊网页等措施，对其作弊行为进行制止，从而有效方式网页作弊行为的再次发生。

实施例四

基于与实施例二相同的构思，本发明实施例四还提供一种作弊网页识别系统，结构如图5所示，包括：检索模块51和识别模块52，识别模块52包括统计单元521和识别单元522；

检索模块51，用于根据热词集合内的热词进行网页检索，得到各热词对应的网页集合。

统计单元521，用于统计网页集合内的网页被热词命中的次数。

识别单元522，用于根据网页集合内的网页被热词命中的次数，识别作弊网页。

具体的，检索模块51用于分别根据热词集合内的热词进行网页检索，并分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，N为预先设定的网页数量。

本发明实施例四通过以热词集合内的热词进行检索，通过统计网页被热词集合内的热词命中的次数识别作弊网页，在网页锚文本链接较少的情况下，解决社区数据链接少带来的作弊识别困难的问题。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种网页作弊用户识别方法，其特征在于，该方法包括以下步骤：

根据热词集合内的热词进行网页检索，得到各热词对应的网页集合；

根据各网页集合，得到各热词对应的作者集合；

统计各作者在各作者集合内的出现次数；

根据各作者的在各作者集合内的出现次数，识别网页作弊用户。

2.如权利要求1所述的方法，其特征在于，所述根据热词集合内的热词进行网页检索，具体为：按照设定检索周期，根据热词集合内的热词进行网页检索；

所述根据各网页集合，得到各热词对应的作者集合，根据各网页集合，得到各热词对应的作者集合，统计各作者在各作者集合内的出现次数，并根据各作者的在各作者集合内的出现次数，识别网页作弊用户，包括：

根据设定的时间窗，取该时间窗内的M次检索操作得到的各热词对应的网页集合；其中，时间窗长度不小于2个检索周期，M≥2；

在所述M次检索操作得到的各热词对应的网页集合中，将相同热词对应的网页集合取并集，根据取并集处理后的各热词对应的网页集合，得到各热词对应的作者集合，根据取并集处理后的各热词对应的网页集合，统计各作者在各作者集合内的出现次数；

根据所述M次检索操作中最近一次的检索操作所得到的网页集合，得到各热词对应的作者集合，统计各作者在该次检索操作对应的各作者集合内的出现次数；

根据两次统计得到的各作者的出现次数，识别网页作弊用户。

3.如权利要求2所述的方法，其特征在于，所述根据两次统计得到的各作者的出现次数，识别网页作弊用户，包括：

针对每一个作者，分别根据两次统计得到的出现次数，确定该作者的作弊评价值，将两个作弊评价值进行加权求和，得到该作者的作弊评价值；

根据各作者的作弊评价值，识别网页作弊用户。

4.如权利要求1-3之一所述的方法，其特征在于，所述分别根据热词集合内的热词进行网页检索，得到各热词对应的网页集合，包括：

分别根据热词集合内的热词进行网页检索；

分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，所述N为预先设定的网页数量。

5.一种网页作弊用户识别系统，其特征在于，包括：检索模块和识别模块，所述识别模块包括作者集合确定单元、统计单元和识别单元；

所述检索模块，用于根据热词集合内的热词进行网页检索，得到各热词对应的网页集合；

所述作者集合确定单元，用于根据各网页集合，得到各热词对应的作者集合；

所述统计单元，用于统计各作者在各作者集合内的出现次数；

所述识别单元，用于根据各作者的在各作者集合内的出现次数，识别网页作弊用户。

6.如权利要求5所述的系统，其特征在于，所述检索模块具体用于，按照设定检索周期，根据热词集合内的热词进行网页检索；

所述作者集合确定单元具体用于，根据设定的时间窗，取该时间窗内的M次检索操作得到的各热词对应的网页集合，并在所述M次检索操作得到的各热词对应的网页集合中，将相同热词对应的网页集合取并集，根据取并集处理后的各热词对应的网页集合，得到各热词对应的作者集合；其中，时间窗长度不小于2个检索周期，M≥2；以及根据所述M次检索操作中最近一次的检索操作所得到的网页集合，得到各热词对应的作者集合；

所述统计单元具体用于，根据合并处理后的各热词对应的网页集合，统计各作者在各作者集合内的出现次数；以及统计各作者在所述M次检索操作中最近一次检索操作对应的各作者集合内的出现次数；

所述识别单元具体用于，根据两次统计得到的各作者的出现次数，识别网页作弊用户。

7.如权利要求6所述的系统，其特征在于，所述识别单元具体用于，针对每一个作者，分别根据两次统计得到的出现次数，确定该作者的作弊评价值，将两个作弊评价值进行加权求和，得到该作者的作弊评价值，并根据各作者的作弊评价值，识别网页作弊用户。

8.如权利要求5-7之一所述的系统，其特征在于，所述检索模块具体用于，分别根据热词集合内的热词进行网页检索；以及分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，所述N为预先设定的网页数量。

9.一种作弊网页识别方法，其特征在于，该方法包括以下步骤：

统计所述网页集合内的网页被所述热词命中的次数；

根据所述网页集合内的网页被所述热词命中的次数，识别作弊网页。

10.如权利要求9所述的方法，其特征在于，所述分别根据热词集合内的热词进行网页检索，得到各热词对应的网页集合，包括：

分别根据热词集合内的热词进行网页检索；

11.一种作弊网页识别系统，其特征在于，包括：检索模块和识别模块，识别模块包括统计单元和识别单元；

所述统计单元，用于统计所述网页集合内的网页被所述热词命中的次数；

所述识别单元，用于根据所述网页集合内的网页被所述热词命中的次数，识别作弊网页。

12.如权利要求11所述的系统，其特征在于，

所述检索模块，具体用于分别根据热词集合内的热词进行网页检索，并分别将根据各热词检索到的网页，按照匹配程度从高到低取N个网页的标识，得到相应热词对应的网页集合；其中，所述N为预先设定的网页数量。