CN101093510A - 一种针对网页作弊的反作弊方法及系统 - Google Patents

一种针对网页作弊的反作弊方法及系统 Download PDF

Info

Publication number
CN101093510A
CN101093510A CN 200710119520 CN200710119520A CN101093510A CN 101093510 A CN101093510 A CN 101093510A CN 200710119520 CN200710119520 CN 200710119520 CN 200710119520 A CN200710119520 A CN 200710119520A CN 101093510 A CN101093510 A CN 101093510A
Authority
CN
China
Prior art keywords
webpage
cheating
query
visit information
clicks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710119520
Other languages
English (en)
Other versions
CN100565526C (zh
Inventor
张智敏
茹立云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CNB2007101195204A priority Critical patent/CN100565526C/zh
Publication of CN101093510A publication Critical patent/CN101093510A/zh
Application granted granted Critical
Publication of CN100565526C publication Critical patent/CN100565526C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种针对网页作弊的反作弊方法及系统,解决目前的网页反作弊方法对于新的作弊方式,无法及时发现并快速做出反应,从而对用户体验造成严重影响的问题。所述方法包括:记录网页的访问信息;分析网页访问信息的变化规律;将变化规律突变的网页确定为作弊网页。本发明对于各种网页作弊方式,尤其是对传统反作弊方法无法及时识别的新的作弊方式,由于所述方法不需要预先获知作弊方式的特点,而是通过分析用户的访问行为,利用已知的作弊网页的访问规律来判断新网页的作弊概率,因此能够及时发现采用新作弊方式的网页,从而快速采取措施,将对用户访问带来的影响降到最低。

Description

一种针对网页作弊的反作弊方法及系统
技术领域
本发明涉及网络技术领域,特别是涉及一种针对网页作弊的反作弊方法及系统。
背景技术
目前,互联网上针对搜索引擎的网页作弊行为越来越多,基本分为如下几类:基于关键字叠加的作弊方法,指对于一个价值不大的网页,通过堆积大量的关键字,使得该网页能够被搜索引擎搜索到;基于链接作弊的方法,是通过堆积大量的链接来提高在搜索引擎中的网页级别(Page Rank),达到网页排名靠前的目的;基于脚本作弊的方法,是利用Javascript等脚本程序更换显示内容作弊;针对搜索引擎的网页抓取程序(Spider)作弊,用户通过浏览器看到的是另外一个网页。
在各种网页作弊方式中,有些作弊的后果对用户影响不大,例如一个网站针对一些查询词进行了作弊,但是用户没有去点击这些网页,在这种情况下,即使这个网站进行了作弊,对用户的体验也没有影响。但是在多数情况下,作弊行为会对用户体验造成严重影响,例如上述脚本作弊和针对搜索引擎的网页抓取程序(Spider)作弊方式,用户打开的网页内容被更换,或者与查询词不相关,这种搜索结果就成为搜索引擎中的垃圾网页。
现有的搜索引擎反作弊方法,主要是针对已知的作弊方式,在抓取到一个网页后,利用已知的一些规则进行判断。例如基于内容分析的反作弊方式是针对基于关键字叠加的作弊网页,通过分析关键字的重复度,确定该网页是否使用了关键字叠加技术;基于链接分析的反作弊方法是针对基于链接作弊的网页,通过链接分析,判断该网页是否使用了链接叠加的技术,但是这种方式识别的代价比较大,只会有一部分作弊网页被识别出来;还有一种反作弊方法是针对特定类型的网页作弊,对于某一类型的网页,比如铃声下载的推广站点,使用分类技术识别。
上述传统的反作弊方式都是预先分析的方法,即需要根据已知的作弊行为的特点来确定反作弊方案,而对于很多新的作弊方法,由于无法预先获知作弊特点,所以不能及时发现作弊的网页。每当出现一种新的作弊方式,现有的技术很难及时发现,更不能快速做出反应,因此一些新的作弊方式总会在一段时间内对用户体验造成非常严重的影响。而且,对于已知的基于脚本作弊的方法和针对搜索引擎的网页抓取程序作弊的方法,传统的反作弊方法几乎无法进行识别判断,但这些作弊方式给用户使用带来非常大的影响。
发明内容
本发明所要解决的技术问题是提供一种针对网页作弊的反作弊方法及系统,以解决目前的网页反作弊方法对于新的作弊方式,无法及时发现并快速做出反应,从而对用户体验造成严重影响的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种针对网页作弊的反作弊方法,包括:
记录网页的访问信息;
分析网页访问信息的变化规律;
将变化规律突变的网页确定为作弊网页。
其中,按照以下步骤确定作弊网页:查询已知的作弊网页的历史访问信息,计算作弊前的访问信息与作弊后的访问信息的差别度,确定网页作弊的阈值;判定网页时,将网页当前的访问信息与历史访问信息进行差别度计算;将所述计算结果与阈值比较,根据比较结果得到网页作弊的概率。
其中,分时段查询网页的访问信息,若查询结果为在时间段内通过搜索引擎点击该网页的总点击数,则利用所述网页总点击数计算访问信息的差别度。
其中,分时段查询网页的访问信息,若查询结果为在时间段内点击该网页的所有查询词及对应查询词的点击次数,则利用所述查询词及相应的点击次数计算访问信息的差别度。
优选的,所述方法还包括预处理步骤:查找查询词的属性信息,包括在时间段内通过该查询词点击的所有网页URL及对应URL的点击次数;将属性信息相同或相近的查询词合并成一个查询词再进行差别度计算。
所述方法还包括:从热点查询词的属性信息记录的网页URL中,选择网页级别突然提高或点击次数突然增多的网页进行作弊判断。
一种针对网页作弊的反作弊系统,包括:
数据库,用于记录网页的访问信息;
数据分析子系统,用于分析网页访问信息的变化规律;
作弊判断子系统,用于根据数据分析子系统的分析结果,将变化规律突变的网页确定为作弊网页。
其中,所述数据分析子系统包括:查询单元,用于从数据库查询并读取网页的访问信息;模型生成单元,用于利用已知的作弊网页的历史访问信息,将作弊前的访问信息与作弊后的访问信息进行差别度计算,确定网页作弊的阈值,生成判断模型。
其中,所述作弊判断子系统利用所述判断模型对网页进行分析判断,将网页当前的访问信息与历史访问信息进行差别度计算,并将计算结果与模型阈值比较,根据比较结果得到网页作弊的概率。
其中,所述查询单元按照网页URL分时段查询数据库,得到在时间段内通过搜索引擎点击该网页的总点击数表示的访问信息;模型生成单元利用所述网页总点击数进行差别度计算。
其中,所述查询单元按照网页URL分时段查询数据库,得到在时间段内点击该网页的所有查询词及对应查询词的点击次数表示的访问信息;模型生成单元和作弊判断单元利用所述查询词及相应的点击次数进行差别度计算。
其中,所述查询单元按照查询词分时段查询数据库,得到查询词的属性信息,包括通过该查询词点击的所有网页URL及对应URL的点击次数。
优选的,所述系统还包括:预处理单元,用于将属性信息相同或相近的查询词合并成一个查询词,再进行差别度计算。
其中,根据查询单元的查询结果,从热点查询词的属性信息记录的网页URL中,选择网页级别突然提高或点击次数突然增多的网页进行作弊判断。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
针对互联网上的搜索引擎作弊行为,本发明实施例通过对用户访问搜索引擎的日志数据进行全面分析和评估,发现网页的访问信息突然提高或访问网页的查询词突然变化的异常情况,从中分析出网页作弊的概率。具体方法是根据已知的作弊网页的访问信息,将作弊前的访问信息与作弊后的访问信息进行差别度计算,确定网页作弊的阈值;判定网页时,将网页当前的访问信息与历史访问信息进行差别度计算,并将计算结果与阈值比较,根据比较结果可以得到网页作弊的概率。
对于各种网页作弊方式,尤其是对传统反作弊方法无法及时识别的新的作弊方式,由于所述方法不需要预先获知作弊方式的特点,而是通过分析用户的访问行为,利用已知的作弊网页的访问规律来判断新网页的作弊概率,因此能够及时发现采用新作弊方式的网页,从而快速采取措施,将对用户访问带来的影响降到最低。
附图说明
图1是本发明实施例所述反作弊方法的步骤流程图;
图2是图1所述实施例中建立判断模型的步骤流程图;
图3是本发明实施例所述反作弊系统的结构图;
图4是本发明另一实施例所述反作弊系统的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
目前,互联网上针对搜索引擎的网页作弊行为越来越多,新的作弊方式也不断出现,传统的反作弊方法对于很多新的作弊方式无法快速做出识别。本发明实施提供了一种反作弊方法,能够快速识别出作弊的网页,尤其是对新出现的作弊方式,在对用户体验造成严重影响之前,能够及时识别并快速采取措施。
对于一个网页或站点,在正常情况下,其访问规律比较稳定或均匀变化,表现在通过搜索引擎带来的访问量不会突然提高,或者如果网页的内容没有明显变化,访问所述网页的查询词也不会突然变化。因此,如果网页的访问规律发生突变,可能的原因就是进行了作弊。
基于以上原理,本发明实施例所述方法充分利用了用户的访问行为数据,通过分析已知的作弊网页的访问规律,经过不断地修正得到作弊阈值,作为判断依据。在判定一个网页时,将当前的访问数据与历史访问数据进行相似度计算,然后与所述阈值比较,分析出该网页的作弊概率。
参照图1,是所述反作弊方法的步骤流程图。
步骤101,存储搜索引擎所有的访问日志。
本实施例是针对搜索引擎的反作弊方法,通过分析搜索引擎的日志信息来判断网页是否作弊,因此需要将搜索引擎每天的访问数据记录下来。所述访问日志记录了用户点击一个网页的URL(Uniform Resoure Locator,统一资源定位符)、点击该网页的查询词、访问时间等信息,通过对日志信息的分析统计,可以得到一个网页在哪些天被哪些查询词访问到,或者一个查询词在哪些天访问了哪些网页。
步骤102,利用已知的作弊网页的访问规律,建立判断模型。
首先,找到一系列已知的作弊网页,然后从搜索引擎日志信息中查询这些作弊网页的历史目志记录,按时间段分析所述日志数据的变化规律,将作弊前的数据与作弊后的数据进行对比,从中发现作弊的数据变化规律,并根据所述规律形成一系列的作弊判断因素。最简单的判断因素是网页访问频率的变化规律,所述访问频率通过时间段内的总访问量(即总的点击次数)表示。判断时选取作弊前和作弊后多个不同时间段的点击次数进行比较,将比较的差值作为阈值,并经过多次修正确定作弊阈值,建立起一个根据网页的访问频率进行作弊判断的判断模型。
优选的,为进一步提高作弊判断的精准度,还可以将查询词的变化规律作为另一判断因素。查询词的变化规律是指针对同一网页,分析点击该网页的所有查询词及其点击次数的变化规律。“查询词+相应点击次数”的方式也可以用来表示一个网页的访问量,将所有查询词的点击次数相加即得到总的访问量。
下面将以查询词的变化规律为例详细说明如何建立判断模型。参照图2,是所述建立判断模型的步骤流程图。
步骤201,选取已知的作弊网页,并分别选取作弊前和作弊后的时间段查询这些网页的搜索引擎日志,得到点击网页的查询词及其点击次数随时间的分布。根据查询结果,一个网页可以表示为一个向量序列,如[时间段1的向量,时间段2的向量,时间段3的向量,...],其中每个向量表示为相应时间段内的[查询词1,查询次数1;查询词2,查询次数2;查询词3,查询次数3;...]。
步骤202,分析查询结果数据,比较不同时间段的向量差别度,尤其是将作弊前的向量与作弊后的向量进行比较。所述差别度的比较是通过计算向量相似度得到,相似度与差别度是对同一事物正反两个方面的说明,例如针对同一网页,其不同时间段的向量相似度越小,则差别度越大,反之亦然。
向量相似度的计算有多种方法,使用的函数式有几十种,例如余弦相似度、欧式距离、皮尔森相似性等等。利用各种相似度计算公式,对不同时间段以[查询词,查询次数]表示的向量进行计算。
步骤203,结合多个作弊网页的计算结果,初步确定向量突变的阈值。针对每个网页,经相似度计算后会得到一个相似度值的序列,如果网页作弊,该序列会发生突变,即某一时间段的查询词或查询次数发生了很大变化。考察多个作弊网页的突变规律,将发生突变的相似度值作为作弊阈值。
步骤204,对所述阈值进行多次修正,最终确定一个合适的作弊判断范围。本实施例通过两个指标来确定阈值范围,一个是作弊网页的精度,另一个是作弊网页的召回率。修正过程是一个测试过程,是对一批网页(其中已知作弊网页的数量)进行上述相似度计算,并根据阈值判断得到作弊网页,这些作弊网页中一部分结果正确,一部分是误判结果。精度是指正确结果与所有判断结果的比值,召回率是指正确结果与所有进行测试的作弊网页的比值。作弊阈值就是在精度与召回率之间选择一个合适的范围,作为判断网页作弊的依据。
步骤205,建立判断模型。所述判断模型是一个对作弊网页进行辨别的方法模式,该模型提供相似度的计算方法以及依据所述方法确定的阈值。对一个网页进行作弊判断时,遵循模型提供的方法和阈值进行判断。
通过上述步骤201~205,得到网页作弊的判断模型,下面继续图1的步骤说明。
步骤103,对一个网页进行判断,按照时间段(通常以一天计算)查询该网页的搜索引擎日志信息,得到各个时间段内点击该网页的所有查询词及其点击次数。
优选步骤104,对所述查询结果进行预处理,目的是得到符合模型处理的数据内容或数据格式,提高模型的处理效率。由于直接查询得到的日志数据可能存在用户输入错误或格式不统一的问题,例如查询词“影院快讯”,用户可能的输入是“影院块讯”或“影院快讯”等等,经预处理步骤可以纠正错误输入,实现编码的统一,格式的统一,并将相似的查询词合并,减少模型计算的数据量。
本实施例根据查询词的属性信息进行相似查询词的合并,所述属性信息包括通过该查询词点击的所有网页URL及其点击次数。分析一个网页时,通过查询每个查询词的属性信息,可以将点击的网页相同或相近、点击次数相近的查询词合并成一个。
例如,一个网页的查询词分别为[sina]和[SINA],对应[sina]的属性信息是[www.sina.com.cn,1000;new.sina.com.cn,764;mail.sina.com.cn,823],对应[SINA]的属性信息是[www.sina.com.cn,928;new.sina.com.cn,805;sports.sina.com.cn,891]。由于通过查询词[sina]和[SINA]点击的网页URL相近,而且点击次数也相近,所以能够合并为一个查询词。
步骤105,利用上述判断模型,对预处理结果进行向量差别度计算。在实际应用中判断一个当前网页时,通常将当前的访问信息与历史访问信息进行差别度计算,来判断网页当前是否作弊。举例说明:
6月22日,www.sina.com.cn的访问信息为:
[新浪,1035;sina,532;新浪网,184;www sina com cn,28;新浪首页,23];
6月23日,www.sina.com.cn的访问信息为:
[新浪,879;sina,376;新浪网,132;www sina com cn,16;新浪首页,14];
6月24日,www.sina.com.cn的访问信息为:
[新浪,842;sina,393;新浪网,146;www sina com cn,25;新浪首页,10]。
在进行差别度计算时,利用相似度计算公式,可以得到上述任意两个向量的相似度值,该值越小,表明向量的差别度越大。
步骤106,将每个计算值与模型提供的阈值比较,确定网页作弊的概率。阈值可能表示为一确定值,计算差别度值超出这个确定值范围的网页判定为作弊网页;阈值也可能表示为一个区间范围,在这个区间内划分出作弊的概率,例如差别度值在a~b区间的网页作弊概率是60%~70%,b~c区间的作弊概率是70%~80%,等等。
综上所述,一个网页的访问信息可有如下几种表示方式:
(1)[时间段1的总访问量,时间段2的总访问量,...];
(2)其中每个时间段的总访问量可以表示为:
[查询词1,查询次数1;查询词2,查询次数2;...];
(3)其中,每个查询词可以表示为:
[URL1,点击次数1;URL2,点击次数2;...]。
其中,网页在时间段内的总访问量,以及“查询词+相应点击次数”表示的访问信息,都可以单独作为作弊判断因素进行差别度计算,也可以结合使用进行网页的作弊判断。除此以外,根据作弊网页的访问规律,可以发现还有其他的访问信息也可作为判断因素,例如通过分析访问网页的用户信息,如果大量的点击记录来源于同一个用户,则该用户有作弊可能。需要注意的是,判断因素不同,最终确定的阈值也会不同,因此不同的判断因素及相应阈值形成了不同的判断模型。
在实际应用中,面对大量的搜索引擎记录,反作弊人员通常首先选取热点查询词并结合搜索引擎的网页排序规则,从通过热点查询词点击的网页中选取点击次数突然增多或网页级别突然提高的网页进行作弊判断。因为作弊行为常常针对网络当前的热点话题来提高自己的点击率,所以分析热点查询词的变化规律有助于快速找到作弊的网页。
本发明实施例提供的反作弊方式,与目前现有的反作弊方式根本的区别在于:现有反作弊方式都是在分析网页作弊行为的基础上建立相应的反作弊方法,需要获知已知的作弊行为的特点;而本发明实施例提供的反作弊方式是以用户的访问行为为基础,在不需要分析或无法预先判断作弊行为类型和特点的情况下,也可以发现作弊网页;尤其针对的是当作弊行为已发生,而现有的反作弊方法没有发挥作用时,利用本方法可以快速发现异常的站点,在短时间内降低作弊网页给用户体验造成的影响。
本发明还提供了实现上述反作弊方法的系统实施例,参照图3,是所述反作弊系统的结构图。反作弊系统包括数据库301,查询单元302,模型生成单元303,作弊判断单元304,以及优选设置的预处理单元305。
数据库301用于存储所有的搜索引擎日志信息,所述日志记录了用户点击一个网页的URL、点击该网页的查询词、访问时间等信息,并提供以网页URL为索引的查询,以及以点击网页的查询词为索引的查询。
查询单元302用于查询数据库301,如果按照网页URL进行查询,可以得到一个网页在哪些天被哪些查询词访问到;如果按照查询词进行查询,可以得到一个查询词在哪些天访问了哪些网页。查询单元302对读取的数据库记录按照时间段进行分析统计,可以得到时间段内的网页总访问量,也可以得到时间段内点击该网页的所有查询词及其点击次数,还可以针对查询词得到时间段内通过该查询词访问的所有网页URL及其访问次数。
模型生成单元303用于利用已知作弊网页的搜索引擎日志记录,根据查询单元302的查询结果,按时间段分析所述日志数据的变化规律,并将作弊前的数据与作弊后的数据进行相似度计算,根据相似度值比较访问信息的差别度,从中发现作弊的数据变化规律,确定出判断作弊的阈值,生成判断模型。其中,相似度计算可以选取时间段内的网页总访问量进行,也可以选取时间段内的查询词及其查询次数进行向量相似度计算,计算方法如前所述。模型生成单元303根据相似度值确定阈值,并以作弊判断的精度和召回率作为确定指标,经过多次反复修正,确定合适的阈值。所述阈值确定了一个差别度的范围,超出该范围,表示网页的访问信息在不同时间段有较大变化,该网页有可能进行了作弊。
模型生成单元303生成的判断模型提供差别度的计算方法以及依据所述方法确定的阈值。一个判断模型可以单独提供网页总访问量的差别度计算方法,也可以单独提供查询词及其查询次数的差别度计算,还可以结合所述两种方式来识别作弊网页。
作弊判断单元304用于利用判断模型对输入的网页进行作弊判断,根据判断模型提供的差别度计算方法及相应的阈值,通过查询单元302从数据库301读取日志数据,计算网页当前的访问信息与历史访问信息的差别度,并将计算结果与模型阈值比较,从而得到该网页的作弊概率。
优选的,预处理单元305用于对查询单元302读取的数据进行预处理,包括相似查询词的合并、编码的统一、格式的统一等操作,以减少模型计算的数据量,提高模型的处理效率。其中,查询词的合并需要通过查询单元302查询得到查询词的属性信息,包括通过该查询词访问的网页及其访问次数,预处理单元305将点击的网页相同或相近、点击次数相近的查询词合并成一个。经所述预处理单元305的数据可用于模型生成单元303的判断模型生成过程,及作弊判断单元304的网页判断过程。
上述系统各个单元之间的数据处理过程包括两个流程,一个是判断模型生成流程,一个是网页作弊判断流程。判断模型的生成流程为:查询单元302进行数据库301查询操作,得到的查询结果经预处理单元305处理后,由模型生成单元303进行向量差别度计算,并通过反复修正确定作弊阈值,生成提供差别度计算方法和相应阈值的判断模型。网页作弊的判断流程为:查询单元302以查询词为索引,得到通过热点查询词点击的网页,对其中排序靠前或当日点击率高的网页进行作弊判断;通过查询单元302得到网页的日志记录,经预处理单元305进行相近查询词的合并等处理后,作弊判断单元304利用判断模型进行差别度计算,并与模型提供的阈值进行比较来确定网页作弊的概率。
在实际应用中,还存在一种更优选的系统设置。参照图4,是本发明另一实施例提供的反作弊系统结构图,所述系统包括搜索引擎日志数据库401、数据分析子系统402和作弊判断子系统403。参照图3的说明,数据分析子系统402包括查询单元4021、模型生成单元4022和预处理单元4023。系统各个部分的功能与实现同图3所示系统,在此不再详述。
但在本系统中,搜索引擎日志数据库401是一个专用的存储系统,不同于普通的数据库。由于搜索引擎每天的访问记录非常庞大,需要一个能够支持快速存取的系统,为此设计了一个增量数据存储索引系统,即所述的搜索引擎日志数据库401。该数据库401可以快速地合并、统计数据,并能够快速地导出需要的数据,其高效率的运行为后续的分析、评估工作奠定了坚实的基础。
图3、图4所示系统中未详述的部分可以参见图1、图2所示方法的相关部分,为了篇幅考虑,在此不再详述。
以上对本发明所提供的一种针对网页作弊的反作弊方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1、一种针对网页作弊的反作弊方法,其特征在于,包括:
记录网页的访问信息;
分析网页访问信息的变化规律;
将变化规律突变的网页确定为作弊网页。
2、根据权利要求1所述的方法,其特征在于,按照以下步骤确定作弊网页:
查询已知的作弊网页的历史访问信息,计算作弊前的访问信息与作弊后的访问信息的差别度,确定网页作弊的阈值;
判定网页时,将网页当前的访问信息与历史访问信息进行差别度计算;
将所述计算结果与阈值比较,根据比较结果得到网页作弊的概率。
3、根据权利要求2所述的方法,其特征在于:分时段查询网页的访问信息,若查询结果为在时间段内通过搜索引擎点击该网页的总点击数,则利用所述网页总点击数计算访问信息的差别度。
4、根据权利要求2所述的方法,其特征在于:分时段查询网页的访问信息,若查询结果为在时间段内点击该网页的所有查询词及对应查询词的点击次数,则利用所述查询词及相应的点击次数计算访问信息的差别度。
5、根据权利要求4所述的方法,其特征在于,还包括预处理步骤:
查找查询词的属性信息,包括在时间段内通过该查询词点击的所有网页URL及对应URL的点击次数;
将属性信息相同或相近的查询词合并成一个查询词再进行差别度计算。
6、根据权利要求5所述的方法,其特征在于,还包括:从热点查询词的属性信息记录的网页URL中,选择网页级别突然提高或点击次数突然增多的网页进行作弊判断。
7、一种针对网页作弊的反作弊系统,其特征在于,包括:
数据库,用于记录网页的访问信息;
数据分析子系统,用于分析网页访问信息的变化规律;
作弊判断子系统,用于根据数据分析子系统的分析结果,将变化规律突变的网页确定为作弊网页。
8、根据权利要求7所述的系统,其特征在于,所述数据分析子系统包括:
查询单元,用于从数据库查询并读取网页的访问信息;
模型生成单元,用于利用已知的作弊网页的历史访问信息,将作弊前的访问信息与作弊后的访问信息进行差别度计算,确定网页作弊的阈值,生成判断模型。
9、根据权利要求8所述的系统,其特征在于:所述作弊判断子系统利用所述判断模型对网页进行分析判断,将网页当前的访问信息与历史访问信息进行差别度计算,并将计算结果与模型阈值比较,根据比较结果得到网页作弊的概率。
10、根据权利要求8所述的系统,其特征在于:所述查询单元按照网页URL分时段查询数据库,得到在时间段内通过搜索引擎点击该网页的总点击数表示的访问信息;模型生成单元利用所述网页总点击数进行差别度计算。
11、根据权利要求8所述的系统,其特征在于:所述查询单元按照网页URL分时段查询数据库,得到在时间段内点击该网页的所有查询词及对应查询词的点击次数表示的访问信息;模型生成单元和作弊判断单元利用所述查询词及相应的点击次数进行差别度计算。
12、根据权利要求11所述的系统,其特征在于:所述查询单元按照查询词分时段查询数据库,得到查询词的属性信息,包括通过该查询词点击的所有网页URL及对应URL的点击次数。
13、根据权利要求12所述的系统,其特征在于,还包括:预处理单元,用于将属性信息相同或相近的查询词合并成一个查询词,再进行差别度计算。
14、根据权利要求12所述的系统,其特征在于:根据查询单元的查询结果,从热点查询词的属性信息记录的网页URL中,选择网页级别突然提高或点击次数突然增多的网页进行作弊判断。
CNB2007101195204A 2007-07-25 2007-07-25 一种针对网页作弊的反作弊方法及系统 Active CN100565526C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101195204A CN100565526C (zh) 2007-07-25 2007-07-25 一种针对网页作弊的反作弊方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101195204A CN100565526C (zh) 2007-07-25 2007-07-25 一种针对网页作弊的反作弊方法及系统

Publications (2)

Publication Number Publication Date
CN101093510A true CN101093510A (zh) 2007-12-26
CN100565526C CN100565526C (zh) 2009-12-02

Family

ID=38991769

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101195204A Active CN100565526C (zh) 2007-07-25 2007-07-25 一种针对网页作弊的反作弊方法及系统

Country Status (1)

Country Link
CN (1) CN100565526C (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375952A (zh) * 2011-10-31 2012-03-14 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
CN102982047A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN103049456A (zh) * 2011-10-14 2013-04-17 腾讯科技(深圳)有限公司 一种筛选网页的方法及装置
CN103069418A (zh) * 2010-08-20 2013-04-24 乐天株式会社 信息提供装置、信息提供方法、程序以及信息记录介质
CN103136250A (zh) * 2011-11-29 2013-06-05 阿里巴巴集团控股有限公司 信息更换识别方法、装置以及信息搜索方法、系统
CN103218376A (zh) * 2012-01-19 2013-07-24 北京千橡网景科技发展有限公司 用于计算好友交互度变化的方法和设备
CN103390027A (zh) * 2013-06-25 2013-11-13 亿赞普(北京)科技有限公司 一种互联网广告反作弊方法和系统
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN103632025A (zh) * 2012-08-27 2014-03-12 北京百度网讯科技有限公司 试听反作弊的方法及系统
CN103684896A (zh) * 2012-09-07 2014-03-26 中国科学院计算机网络信息中心 基于域名解析特征的网站作弊检测方法
CN103795590A (zh) * 2013-12-30 2014-05-14 北京天融信软件有限公司 一种网络流量检测阈值的计算方法
CN103970727A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN104050198A (zh) * 2013-03-15 2014-09-17 阿里巴巴集团控股有限公司 一种网页信息的识别方法及装置
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN104765874A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN105872773A (zh) * 2016-06-01 2016-08-17 北京奇虎科技有限公司 视频直播的监控方法及监控装置
CN106484696A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种改进搜索引擎质量的方法
CN103077172B (zh) * 2011-10-26 2017-06-06 腾讯科技(深圳)有限公司 一种挖掘作弊用户的方法与装置
CN106919835A (zh) * 2015-12-24 2017-07-04 中国电信股份有限公司 用于处理恶意网站的方法和装置
CN107508789A (zh) * 2017-06-29 2017-12-22 北京北信源软件股份有限公司 一种异常数据的识别方法和装置
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107707545A (zh) * 2017-09-29 2018-02-16 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108090089A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 探测网站中热点数据的方法、装置和系统
CN108108408A (zh) * 2017-12-11 2018-06-01 杭州掌优科技有限公司 一种作弊站点的检测方法和装置
CN108710670A (zh) * 2018-05-16 2018-10-26 沈文策 一种日志分析方法、装置、电子设备及可读存储介质
CN109447701A (zh) * 2018-10-24 2019-03-08 麒麟合盛网络技术股份有限公司 应用程序反作弊方法、装置和服务端
CN110147472A (zh) * 2017-07-14 2019-08-20 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
WO2020143765A1 (zh) * 2019-01-11 2020-07-16 腾讯科技(深圳)有限公司 广告反作弊方法、装置、电子设备及存储介质
CN112883294A (zh) * 2019-11-29 2021-06-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103069418A (zh) * 2010-08-20 2013-04-24 乐天株式会社 信息提供装置、信息提供方法、程序以及信息记录介质
CN102982047A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN102982047B (zh) * 2011-09-07 2017-06-06 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN103049456A (zh) * 2011-10-14 2013-04-17 腾讯科技(深圳)有限公司 一种筛选网页的方法及装置
CN103049456B (zh) * 2011-10-14 2016-03-16 腾讯科技(深圳)有限公司 一种筛选网页的方法及装置
CN103077172B (zh) * 2011-10-26 2017-06-06 腾讯科技(深圳)有限公司 一种挖掘作弊用户的方法与装置
CN102375952B (zh) * 2011-10-31 2014-12-24 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
CN102375952A (zh) * 2011-10-31 2012-03-14 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
CN103136250A (zh) * 2011-11-29 2013-06-05 阿里巴巴集团控股有限公司 信息更换识别方法、装置以及信息搜索方法、系统
CN103136250B (zh) * 2011-11-29 2016-01-06 阿里巴巴集团控股有限公司 信息更换识别方法、装置以及信息搜索方法、系统
CN103218376A (zh) * 2012-01-19 2013-07-24 北京千橡网景科技发展有限公司 用于计算好友交互度变化的方法和设备
CN103632025A (zh) * 2012-08-27 2014-03-12 北京百度网讯科技有限公司 试听反作弊的方法及系统
CN103632025B (zh) * 2012-08-27 2017-06-06 北京音之邦文化科技有限公司 试听反作弊的方法及系统
CN103684896A (zh) * 2012-09-07 2014-03-26 中国科学院计算机网络信息中心 基于域名解析特征的网站作弊检测方法
CN103684896B (zh) * 2012-09-07 2017-02-01 中国科学院计算机网络信息中心 基于域名解析特征的网站作弊检测方法
CN103970727A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN103970727B (zh) * 2013-01-29 2018-01-09 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN104050178B (zh) * 2013-03-13 2017-09-22 秒针信息技术有限公司 一种互联网监测反作弊方法和装置
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN104050198A (zh) * 2013-03-15 2014-09-17 阿里巴巴集团控股有限公司 一种网页信息的识别方法及装置
CN104050198B (zh) * 2013-03-15 2018-08-24 阿里巴巴集团控股有限公司 一种网页信息的识别方法及装置
CN103390027A (zh) * 2013-06-25 2013-11-13 亿赞普(北京)科技有限公司 一种互联网广告反作弊方法和系统
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN103795590A (zh) * 2013-12-30 2014-05-14 北京天融信软件有限公司 一种网络流量检测阈值的计算方法
CN104765874A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN104765874B (zh) * 2015-04-24 2019-03-26 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN106484696B (zh) * 2015-08-25 2019-05-28 北京中搜云商网络技术有限公司 一种改进搜索引擎质量的方法
CN106484696A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种改进搜索引擎质量的方法
CN106919835A (zh) * 2015-12-24 2017-07-04 中国电信股份有限公司 用于处理恶意网站的方法和装置
CN106919835B (zh) * 2015-12-24 2020-11-24 中国电信股份有限公司 用于处理恶意网站的方法和装置
CN105872773B (zh) * 2016-06-01 2019-03-05 北京奇虎科技有限公司 视频直播的监控方法及监控装置
CN105872773A (zh) * 2016-06-01 2016-08-17 北京奇虎科技有限公司 视频直播的监控方法及监控装置
CN108090089B (zh) * 2016-11-23 2021-01-22 北京国双科技有限公司 探测网站中热点数据的方法、装置和系统
CN108090089A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 探测网站中热点数据的方法、装置和系统
CN107508789B (zh) * 2017-06-29 2020-04-07 北京北信源软件股份有限公司 一种异常数据的识别方法和装置
CN107508789A (zh) * 2017-06-29 2017-12-22 北京北信源软件股份有限公司 一种异常数据的识别方法和装置
CN110147472A (zh) * 2017-07-14 2019-08-20 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN110147472B (zh) * 2017-07-14 2021-10-15 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN107566897B (zh) * 2017-07-19 2019-10-15 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107707545A (zh) * 2017-09-29 2018-02-16 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN107707545B (zh) * 2017-09-29 2021-06-04 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108108408A (zh) * 2017-12-11 2018-06-01 杭州掌优科技有限公司 一种作弊站点的检测方法和装置
CN108710670A (zh) * 2018-05-16 2018-10-26 沈文策 一种日志分析方法、装置、电子设备及可读存储介质
CN109447701A (zh) * 2018-10-24 2019-03-08 麒麟合盛网络技术股份有限公司 应用程序反作弊方法、装置和服务端
WO2020143765A1 (zh) * 2019-01-11 2020-07-16 腾讯科技(深圳)有限公司 广告反作弊方法、装置、电子设备及存储介质
CN112883294A (zh) * 2019-11-29 2021-06-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质

Also Published As

Publication number Publication date
CN100565526C (zh) 2009-12-02

Similar Documents

Publication Publication Date Title
CN100565526C (zh) 一种针对网页作弊的反作弊方法及系统
US9846748B2 (en) Searching for information based on generic attributes of the query
CN102693271B (zh) 一种网络信息推荐方法及系统
US20100057717A1 (en) System And Method For Generating A Search Ranking Score For A Web Page
US20050165753A1 (en) Building and using subwebs for focused search
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN102591948B (zh) 一种基于用户行为分析的搜索结果改进的方法及其系统
CN106294535B (zh) 网站的识别方法和装置
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
CN102663048A (zh) 一种搜索结果提供方法及装置
CN105389352A (zh) 日志处理方法和装置
US10073886B2 (en) Search results based on a search history
CN110543595A (zh) 一种站内搜索系统及方法
CN104361115A (zh) 一种基于共同点击的词条权重确定方法及装置
CN106021439A (zh) 一种对通信号码的处理方法及装置
CN110689211A (zh) 网站服务能力的评估方法及装置
CN113010771A (zh) 搜索引擎中的个性化语义向量模型的训练方法及装置
CN105912573B (zh) 数据更新方法及装置
Jain et al. Ranking web pages based on user interaction time
CN104572887A (zh) 一种产品信息的检索方法和系统
CN107483565A (zh) 一种服务后台识别方法、代理服务器及计算机存储介质
CN105447148A (zh) 一种Cookie标识关联方法及装置
CN104281693A (zh) 一种语义搜索方法及系统
CN104392000B (zh) 确定移动站点抓取配额的方法和装置
CN114090643A (zh) 招聘信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant