CN101777053A

CN101777053A - 一种识别作弊网页的方法及系统

Info

Publication number: CN101777053A
Application number: CN200910076553A
Authority: CN
Inventors: 张智敏; 王静帆
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2009-01-08
Filing date: 2009-01-08
Publication date: 2010-07-14

Abstract

本发明公开了一种识别作弊网页的方法及系统，以解决目前判断作弊网页的方法准确度不高，耗费时间和人工，处理流程繁琐，不能及时地发现作弊网页，处理效率比较低的问题。所述方法包括：分析作弊网页的内容，获取作弊网页的结构特征；对作弊网页的结构特征进行统计，分析得出作弊规律；利用所述作弊规律对网页进行作弊识别。本发明主要针对利用重复关键词进行作弊的网页，由于利用已有的作弊规律来识别网页，因此能够更准确地识别出作弊网页。而且，由于识别的准确度提高，所以完全可以由机器来完成，不需要人工配合，因此极大地提高了识别效率。

Description

一种识别作弊网页的方法及系统

技术领域

本发明涉及网络技术领域，特别是涉及一种识别作弊网页的方法及系统。

背景技术

搜索引擎依赖关键词对网页进行检索，即一个网页中只有包含某个词，通过这个词才能检索到所述网页。搜索引擎通过计算网页与关键词的相关性来对检索到的网页进行排序，将排序靠前的网页先展现给用户。搜索引擎判断一个词与一个网页的相关性，其中一个很重要的因素就是这个网页中包含了多少个这样的词，这种方法称为统计词频。

搜索引擎利用统计词频判断一个网页与关键词的相关性时，并不知道一个网页具体表达的意思。因此，即使一个网页的内容与某个关键词没有任何关系，只要所述网页中包含了这个词，通过搜索引擎就可以找到所述网页；而且，如果一个网页中某个词出现了很多遍，这个网页在排序上还会排在前列。

因此，一些作弊网页为了达到欺骗搜索引擎的目的，恶意地对某些词进行重复，以提高这个词的词频，从而提高该网页在搜索引擎中的展现机会和排名次序。这类作弊网页的存在，严重影响了搜索引擎的检索质量，并且给用户体验带了很大的影响。

目前多数搜索引擎在判断网页是否作弊的时候，由于程序判断的准确度不高，还需要依赖人工配合的方式，即通过程序发现有可能作弊的网页，再通过人工检查一遍。这种处理方式耗费时间和人工，处理流程繁琐，不能及时地发现作弊网页，处理效率比较低。

发明内容

本发明所要解决的技术问题是提供一种识别作弊网页的方法及系统，以解决目前判断作弊网页的方法准确度不高，耗费时间和人工，处理流程繁琐，不能及时地发现作弊网页，处理效率比较低的问题。

为解决上述技术问题，根据本发明提供的具体实施例，本发明公开了以下技术方案：

一种识别作弊网页的方法，包括：分析作弊网页的内容，获取作弊网页的结构特征；对作弊网页的结构特征进行统计，分析得出作弊规律；利用所述作弊规律对网页进行作弊识别。

其中，所述利用作弊规律对网页进行作弊识别包括对网页主体内容的识别，具体包括：分析网页内容，获取该网页的结构特征；根据所述网页结构特征，判断该网页中是否包含重复出现的内容；如果包含，则判断所述重复是否符合作弊规律，如果符合，则将所述网页识别为作弊网页。

其中，判断所述重复是否符合作弊规律的步骤包括：统计所述重复内容在网页标题和/或锚文本中的出现情况，以及正文的长度；将所述统计结果与相应的作弊规律进行比较，如果符合预置条件，则所述重复符合作弊规律。

优选的，所述对网页主体内容的识别还包括根据网页类型的识别，具体包括：根据网页结构特征，确定所述网页的类型；判断重复出现的内容是否符合作弊规律时，结合不同类型网页具有的作弊规律进行综合判断。

优选的，所述利用作弊规律对网页进行作弊识别还包括对网页布局的识别，具体包括：根据网页的结构特征，判断结构特征中的链接分布情况是否符合相应的作弊规律。

优选的，所述对网页布局的识别还包括：根据网页的结构特征，判断结构特征中的脚本分布情况是否符合相应的作弊规律。

优选的，所述对网页布局的识别还包括：根据网页的结构特征，判断结构特征中的多媒体信息分布情况是否符合相应的作弊规律；其中，所述多媒体信息包括图片、flash、音视频。

优选的，针对不同类型的网页，采用不同方法分析网页的内容并获取网页的结构特征。

优选的，利用所述作弊规律对网页进行作弊识别之后，还包括：对识别出的作弊网页进行降权或删除处理。

一种识别作弊网页的系统，包括：网页分析单元，用于分析作弊网页的内容，获取作弊网页的结构特征；数据统计单元，用于对作弊网页的结构特征进行统计，分析得出作弊规律；作弊识别单元，用于利用所述作弊规律对网页进行作弊识别。

优选的，所述作弊识别单元进一步包括第一识别子单元，用于对网页主体内容的识别，所述第一识别子单元通过以下方式进行识别：通过网页分析单元获取网页的结构特征；根据所述网页结构特征，判断该网页中是否包含重复出现的内容；如果包含，则判断所述重复是否符合作弊规律，如果符合，则将所述网页识别为作弊网页。

其中，所述第一识别子单元通过以下方式判断所述重复是否符合作弊规律：统计所述重复内容在网页标题和/或锚文本中的出现情况，以及正文的长度；将所述统计结果与相应的作弊规律进行比较，如果符合预置条件，则所述重复符合作弊规律。

优选的，所述第一识别子单元在判断重复出现的内容是否符合作弊规律时，还结合不同类型网页具有的作弊规律进行综合判断。

优选的，所述作弊识别单元还包括第二识别子单元，用于判断网页布局是否符合相应的作弊规律；其中，所述网页布局包括链接、脚本、多媒体信息的分布情况。

优选的，所述系统还包括：作弊网页处理单元，用于对识别出的作弊网页进行降权或删除处理。

优选的，所述网页分析单元针对不同类型的网页，采用不同方法分析网页的内容并获取网页的结构特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

首先，本发明提供了一种识别作弊网页的方法和系统，通过对作弊网页的结构特征进行统计分析得出作弊规律，然后利用所述作弊规律对网页进行作弊识别。本发明主要针对利用重复关键词进行作弊的网页，与传统的没有利用统计数据进行重复识别的反作弊方法相比，本发明所述基于统计数据的识别方法，由于利用已有的作弊规律来识别网页，因此能够更准确地识别出作弊网页。而且，由于识别的准确度提高，所以完全可以由机器来完成，不需要人工配合，因此极大地提高了识别效率。

其次，本发明在统计作弊规律时，不仅对作弊网页的主体内容进行统计，还对作弊网页的布局进行统计分析，包括主体内容周围的链接、脚本、多媒体等信息的分布情况。即本发明在识别作弊网页的过程中，不仅对网页的主体内容进行重复词语的识别，还结合网页的布局进行综合的识别判断，从而更加准确地识别出作弊网页。

再次，由于本发明识别作弊网页的准确度较高，降低了误判率，所以在对识别出的作弊网页进行处理时，可以直接进行删除，而不是传统的降权保留。

附图说明

图1.1和1.2是本发明实施例一所述一种识别作弊网页的方法流程图；

图2是本发明优选实施例二所述一种识别作弊网页的方法流程图；

图3是本发明所述正常的重复与作弊重复的示意图；

图4是本发明实施例所述一种识别作弊网页的系统结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对利用重复关键词进行作弊的网页，本发明提出一种识别作弊网页的方法。与传统的重复识别技术不同，本发明是基于统计数据进行识别判断，能够非常准确地识别出作弊的网页。

参照图1.1，是本发明实施例一所述一种识别作弊网页的方法流程图。首先，本实施例利用已有的作弊网页，通过对作弊网页的结构特征进行统计分析，建立识别模型，然后利用所述识别模型对网页进行作弊识别。具体步骤如下：

步骤101，从互联网抓取大量的作弊网页。

本实施例主要针对利用重复关键词进行作弊的网页，因此需要抓取这类作弊网页。

步骤102，对所述作弊网页的内容进行分析，从而获取作弊网页的结构特征。

通过网页分析，可以得到网页的主体内容。本实施例中，所述网页的结构特征主要包括网页标题、锚文本、正文等，这些结构特征都是后续的数据统计需要用到的元素。

步骤103，对作弊网页的结构特征进行统计，分析得出作弊规律。

作弊网页的结构具有一定的规律，通过数据统计的方式可以获得这种规律。例如，针对利用重复关键词进行作弊的网页，网页中的重复词语不仅在网页正文中重复出现，还可能在网页标题或锚文本中重复。如果获得作弊网页中重复词语在网页的分布情况(包括出现位置、出现概率等)，就可以利用这种结构规律来识别新的网页是否作弊。

本实施例中，主要对作弊网页的主体内容进行统计，包括：统计作弊网页的正文长度，统计重复词语的出现位置，以及在正文、标题或锚文本中出现的概率等。通过以上统计，可以知道作弊网页中重复词语是如何分布的。

步骤104，利用所述作弊规律对网页进行作弊识别。

如果一个网页利用重复关键词作弊，则该网页的结构特征在很大程度上会符合上述规律。参照图1.2，是具体的作弊识别流程图。

步骤1041，从互联网抓取新的网页，作为待识别网页。

步骤1042，分析所述网页的内容，获取该网页的结构特征，例如标题、锚文本、正文。

步骤1043，判断该网页中是否包含重复出现的内容，如果包含，则继续步骤1044进行作弊判断；如果不包含，则该网页不属于利用重复关键词进行作弊的网页。网页中重复出现的内容可能为一句话，也可能为几个词。

步骤1044，判断所述重复出现的内容是否符合作弊规律，如果符合，则将所述网页识别为作弊网页。

本实施例中，依据重复内容在网页的分布情况来判断是否属于作弊，例如重复内容出现的位置、出现概率等。具体方法是：首先需要统计重复内容在网页标题中出现的概率，在锚文本中出现的概率，以及正文的长度；然后将所述统计结果与作弊网页的统计结果进行比较，如果符合预置条件(例如在标题中的出现概率达到某个标准)，则这种重复即为作弊。

举例说明，如果一个网页中的重复词语在正文出现的概率和在标题中出现的概率都很高，根据当前统计的作弊规律，该网页作弊的可能性很大。

经过图1.1和1.2所示流程，利用作弊网页的统计结果即可以判断一个新的网页是否作弊。与传统的基于重复识别的反作弊方法相比，这种基于统计数据的识别方法，由于利用已有的作弊规律来识别网页，因此能够更准确地识别出作弊网页。而且，对作弊网页的统计是一个不断学习的过程，可以随着作弊方法的改变而统计出新的作弊规律，因此即使作弊者改变作弊方法，程序也可以自动适应。并且，由于识别的准确度提高，所以完全可以由机器来完成，不需要人工配合，因此极大地提高了识别效率。

在上述识别过程中，优选的，还可以结合网页类型来进行统计、识别。由于网页的类型不同，网页的结构也不同，因此在统计作弊网页的结构特征时可以按照网页类型进行统计，得到不同类型作弊网页的作弊规律。相应的，在对一个新网页进行作弊识别时，首先根据网页结构特征确定网页的类型，然后结合该类型作弊网页所具有的作弊规律，综合判断重复出现的内容是否属于作弊。

举例说明，如果一个网页的正文是文本，网页中有两句话多次完全重复，则这样的网页是作弊网页的可能性非常大。而如果一个网页中包含多幅图片，每幅图片后的文字有重复，例如“图片1”、“图片2”......，这种重复就不属于作弊行为，因此该网页为作弊网页的可能性就很小。由此可见，网页的类型和网页具体的内容也会影响作弊识别。

本发明还提供了一种优选的实施例二，在实施例一所述方法的基础上，不仅对作弊网页的主体内容(标题、锚文本、正文)进行统计，还对作弊网页的布局进行统计分析，包括主体内容周围的链接、脚本、多媒体等信息的分布情况。也即本发明在识别作弊网页的过程中，不仅对网页的主体内容进行重复词语的识别，还结合网页的布局进行综合的识别判断，从而更加准确地识别出作弊网页。

参照图2，是本发明优选实施例二所述一种识别作弊网页的方法流程图。

步骤201，抓取并分析作弊网页的内容，获取作弊网页的结构特征。

本实施例中，网页的结构特征包括标题、锚文本、正文、链接分布以及其他元素，例如脚本，图片、flash、音视频等多媒体信息，等等。

步骤202，对作弊网页的结构特征进行统计，分析得出作弊规律。

需要统计作弊网页中重复出现的词语在标题中出现的概率，在锚文本中出现的概率，正文的长度，链接的数量和长度，其他类型的元素如脚本、图片、flash等的数量、分布，等等。然后对统计结果进行综合分析，得出作弊网页在网页结构中具有的作弊规律。

例如，如果正文中放了一大堆链接，则这样的网页作弊的可能性较大；而比较好的网页，结构会比较清晰，但是不好的网页会把图片、脚本参合在一起，这种网页作弊的可能性也较大。总之，网页主体内容周围的布局情况也会影响作弊识别。

步骤203，利用所述作弊规律对网页进行作弊识别。

如前所述，首先需要抓取并分析新网页的内容，得到该网页的结构特征；其次判断该网页中是否包含重复出现的内容，如果包含，则统计所述重复内容在网页的分布情况以及网页的布局；然后将所述统计结果与作弊网页的统计结果进行比较，判断该网页是否作弊。具体包括以下判断步骤：

判断网页中的链接数量和长度是否符合作弊网页的链接分布情况；

判断网页中的脚本数量和分布是否符合作弊网页的脚本分布情况；

判断网页中的图片、flash等多媒体信息的分布是否符合作弊网页的多媒体信息分布情况。

步骤204，对识别出的作弊网页进行处理。

所述作弊识别方法更多地应用于搜索引擎，搜索引擎对作弊网页的处理方式是降权或删除。在传统的反作弊方式下，搜索引擎通过降低作弊网页的权值来降低该网页在搜索引擎中的排序名次，但还是会在系统中保留该作弊网页。而本发明由于大大提高了作弊识别的准确度，降低了误判率，因此可以直接将识别出的作弊网页进行删除。

下面举例说明上述优选实施例的作弊识别过程。

例如，针对网页：http://xtue.afwi.com/news/54026938.html；

标题：NoYes小游戏王国：NoYes小游戏-afwi.com挖新闻；

锚文本：NoYes小游戏；

正文：

“NoYes小游戏王国：NoYes小游戏

NoYesGamge.cn小游戏网是专门收集各类最新换装小游戏，MM换装小游戏以后美眉化妆换装小游戏的网站，我们不但有古代换装类小游戏，同时我们还有韩国换装小游戏，包括芭比娃娃换装小游戏，公主换装小游戏。

afwi 06月10日消息：NoYesGamge.cn小游戏网是专门收集各类最新换装小游戏，MM换装小游戏以后美眉化妆换装小游戏的网站，我们不但有古代换装类小游戏，同时我们还有韩国换装小游戏，包括芭比娃娃换装小游戏，公主换装小游戏。”

统计结果：链接数量为156，链接分布判断为集中；

脚本数量为23，脚本分布判断为集中；

正文长度为197，正文中，“NoYes小游戏MM换装”这些词出现的频率非常高；

“NoYes小游戏”在标题和锚文本中重复出现。

将所述统计结果与作弊网页的统计结果进行比较，发现符合度非常高，因此可以判断该网页进行了重复关键词的作弊。

优选的，本发明在识别作弊网页的过程中，对技术实现过程进行了优化处理。例如，通过最大限度地利用机器资源来抓取网页。在分析网页结构时，传统的搜索引擎不抓网页中的脚本、样式表，这样在分析网页主体的时候很难判断准确；而本发明不但对网页本身进行分析，还对网页中包含的脚本和样式表作分析。而且，针对不同类型的网页，制作了不同的数据提取方式，比如，论坛类、新闻类、首页类......各类网页的主体、布局分析方式是不同的。

综上所述，本发明在处理利用重复关键词的作弊时，需要解决两个问题：一个是如何区分正常的内容重复和作弊的内容重复，另一个是如何解决不完全的内容重复；而在处理第二点时，还需要满足第一点的要求。总之，需要准确识别出作弊的重复，并且不能牵连好的网页。

例如，参照图3，是本发明所述正常的重复与作弊重复的示意图。图中，网页A是一首诗，它的主体内容片段为：

“不要说那不值得追求，

不要说那不值得珍惜，”

网页B是一个作弊的网页，它的主体内容为：

“坏蛋是怎样炼成续集22

坏蛋是怎样炼成得23”

如果利用传统的重复判断方法，网页A和网页B都是在重复，而且属于不完全的内容重复。但是，采用本发明提供的方法，通过分析网页的标题及重复内容出现的位置，可以判断出：网页A的标题是那首诗的名字，而且网页A中重复的内容并没有在标题中出现，不符合当前的作弊规律，因此网页A是正常的重复；而网页B的标题是“坏蛋是怎样炼成，坏蛋是怎样炼成”，网页B中重复的内容在标题中也重复出现，这一点符合当前的作弊规律，所以网页B是作弊的重复。

需要说明的是，网页作弊规律会随着作弊方法的变化而改变，但由于本发明对作弊网页的统计是一个不断学习的过程，可以随着作弊方法的改变而统计出新的作弊规律，因此，在识别作弊网页的过程中总是会与当前统计出的作弊规律进行比较，从而保证作弊识别的准确度。

本发明还提供了一种识别作弊网页的系统实施例。参照图4，是本发明实施例所述一种识别作弊网页的系统结构图。所述系统主要包括网页抓取单元401、网页分析单元402、数据统计单元403和作弊识别单元404。

所述网页抓取单元401用于从互联网上抓取网页信息，包括作弊网页和待识别的新网页。所述网页分析单元402用于分析网页的内容，获取网页的结构特征，其中包括作弊网页的结构特征和待识别的新网页的结构特征。优选的，所述网页分析单元402针对不同类型的网页，采用不同方法分析网页内容。所述数据统计单元403用于根据网页分析单元402对作弊网页的分析，统计作弊网页的结构特征，并分析得出作弊规律。所述作弊识别单元404用于利用所述数据统计单元403统计得到的作弊规律对网页进行作弊识别。

根据本发明所述方法提供的优选实施例，本发明不仅对网页的主体内容进行统计、识别，还对网页的布局也进行统计、识别。因此，按照识别方式的不同，所述作弊识别单元404包括第一识别子单元，用于对网页主体内容的识别；优选的，还可以包括第二识别子单元，用于对网页布局的识别。

其中，所述第一识别子单元通过以下方式进行识别：通过网页分析单元402获取网页的结构特征；根据所述网页结构特征，判断该网页中是否包含重复出现的内容；如果包含，则判断所述重复是否符合作弊规律，如果符合，则将所述网页识别为作弊网页。

所述第二识别子单元判断网页布局是否符合相应的作弊规律，包括判断链接、脚本、多媒体信息的分布情况。

优选的，所述作弊识别单元404可以同时利用第一识别子单元和第二识别子单元，综合对网页主体内容和网页布局进行统计、识别。

优选的，所述系统还可以包括作弊网页处理单元405，用于对识别出的作弊网页进行降权或删除处理。

图4所示系统中未详述的部分可以参见图1、图2所示方法的相关部分，为了篇幅考虑，在此不再详述。

以上对本发明所提供的一种识别作弊网页的方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种识别作弊网页的方法，其特征在于，包括：

分析作弊网页的内容，获取作弊网页的结构特征；

对作弊网页的结构特征进行统计，分析得出作弊规律；

利用所述作弊规律对网页进行作弊识别。

2.根据权利要求1所述的方法，其特征在于，所述利用作弊规律对网页进行作弊识别包括对网页主体内容的识别，具体包括：

分析网页内容，获取该网页的结构特征；

根据所述网页结构特征，判断该网页中是否包含重复出现的内容；

如果包含，则判断所述重复是否符合作弊规律，如果符合，则将所述网页识别为作弊网页。

3.根据权利要求2所述的方法，其特征在于，判断所述重复是否符合作弊规律的步骤包括：

统计所述重复内容在网页标题和/或锚文本中的出现情况，以及正文的长度；

将所述统计结果与相应的作弊规律进行比较，如果符合预置条件，则所述重复符合作弊规律。

4.根据权利要求2所述的方法，其特征在于，所述对网页主体内容的识别还包括根据网页类型的识别，具体包括：

根据网页结构特征，确定所述网页的类型；

判断重复出现的内容是否符合作弊规律时，结合不同类型网页具有的作弊规律进行综合判断。

5.根据权利要求1或2所述的方法，其特征在于，所述利用作弊规律对网页进行作弊识别还包括对网页布局的识别，具体包括：

根据网页的结构特征，判断结构特征中的链接分布情况是否符合相应的作弊规律。

6.根据权利要求5所述的方法，其特征在于，所述对网页布局的识别还包括：

根据网页的结构特征，判断结构特征中的脚本分布情况是否符合相应的作弊规律。

7.根据权利要求5所述的方法，其特征在于，所述对网页布局的识别还包括：

根据网页的结构特征，判断结构特征中的多媒体信息分布情况是否符合相应的作弊规律；其中，所述多媒体信息包括图片、flash、音视频。

8.根据权利要求1所述的方法，其特征在于：针对不同类型的网页，采用不同方法分析网页的内容并获取网页的结构特征。

9.根据权利要求1所述的方法，其特征在于，利用所述作弊规律对网页进行作弊识别之后，还包括：

对识别出的作弊网页进行降权或删除处理。

10.一种识别作弊网页的系统，其特征在于，包括：

网页分析单元，用于分析作弊网页的内容，获取作弊网页的结构特征；

数据统计单元，用于对作弊网页的结构特征进行统计，分析得出作弊规律；

作弊识别单元，用于利用所述作弊规律对网页进行作弊识别。

11.根据权利要求10所述的系统，其特征在于，所述作弊识别单元进一步包括第一识别子单元，用于对网页主体内容的识别，所述第一识别子单元通过以下方式进行识别：

通过网页分析单元获取网页的结构特征；

12.根据权利要求11所述的系统，其特征在于，所述第一识别子单元通过以下方式判断所述重复是否符合作弊规律：

13.根据权利要求11所述的系统，其特征在于：

所述第一识别子单元在判断重复出现的内容是否符合作弊规律时，还结合不同类型网页具有的作弊规律进行综合判断。

14.根据权利要求11所述的系统，其特征在于，所述作弊识别单元还包括第二识别子单元，用于判断网页布局是否符合相应的作弊规律；其中，所述网页布局包括链接、脚本、多媒体信息的分布情况。

15.根据权利要求10所述的系统，其特征在于，还包括：

作弊网页处理单元，用于对识别出的作弊网页进行降权或删除处理。

16.根据权利要求10所述的系统，其特征在于：

所述网页分析单元针对不同类型的网页，采用不同方法分析网页的内容并获取网页的结构特征。