具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种网页访问量作弊的检测装置,该装置通过计算机设备实 现其功能。
图1是根据本发明第一实施例的网页访问量作弊的检测装置的结构示意图。如图1所示,该网页访问量作弊的检测装置包括:第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40。第一获取单元10用于获取目标网页的访问量。第一获取单元10获取到的访问量为目标网页的总访问量。目标网页为需要进行访问量作弊的检测的网页,该网页可以是任意一个网站中的任意一个网页,可以是广告主投放广告的网页,也可以是广告主营销的产品网页。例如,当目标网页为广告主投放广告的网页时,获取该网页的访问量可以得知广告主投放的广告的浏览量。其中,访问量可以是访问流量,也可以是访问点击量。访问量可以是历史访问量,历史访问量表示过去的一定时间段内目标网页的访问量。访问量也可以是当前访问量,当前访问量表示当前一定时间段内的目标网页的访问量。访问量也可以是历史访问量和当前访问量。第一获取单元10获取该访问量可以是通过在目标网页中加入检测代码,用来检测目标网页的访问流量或者访问点击量等访问量信息,也可以从目标网页的日志文件中直接读取目标网页的访问流量或者访问点击量等访问量信息。
第一判断单元20用于判断访问量是否满足预定条件。根据第一获取单元10获取的目标网页的访问量,第一判断单元20将该访问量作为判断基础,判断该访问量是否满足预定条件。该预定条件可以是访问量的变化规律,例如,该预定条件为访问量发生突变时的一个阈值,当访问量超过该阈值时,认为访问量满足预定条件,此时可以认定访问量发生突变,也即是当前访问量相比于历史访问量发生了突变,该突变可以表示当前访问量出现迅速增加的态势,也可以表示当前访问量出现迅速降低的态势。本实施例以当前访问量出现迅速增加的态势为访问量的突变状态。第一判断单元20判断出该访问量是否满足预定条件,以便于判断该访问量是否为疑似作弊。当访问量出现急速增加的态势,如当前日的访问量远远大于前一日的访问量,可以认定该目标网页的访问量有作弊嫌疑。
第二获取单元30用于当访问量满足预定条件时,获取目标网页的访问来源信息。当目标网页的访问量满足预定条件时,则认定为该目标网页的访问量疑似作弊。当目标网页疑似作弊时,第二获取单元30获取该目标网页的访问来源信息。访问来源信息可以是访问者的IP(Internet Protocol,简称IP)地址,也可以是访问的路径信息,如针对一次访问,该次访问可以是通过其他网页的超链接访问到该目标网页。第二获取单元30通过在目标网页的源代码中加入检测代码,可以获取该次访问的访问路径信息,也可以获取访问者的IP地址。通过获取该访问来源信息,以便于判断目标网页的访问量是否作弊。
第二判断单元40用于根据访问来源信息判断目标网页的访问量是否作弊。由于此时目标网页的访问量为疑似作弊,当获取到目标网页的访问来源信息之后,可以根据访问来源信息来判断目标网页的访问量是否出现作弊。例如,当获取到的访问来源信 息中,大部分访问来源信息的访问路径都来自一些非主流网站或者一个很少人接触的网站(即访问者通过一些非主流网站或者一个很少人接触的网站连接到目标网页),或者是来自目标网页本身,那么可以认定该目标网页的访问量很大程度上是采用一定的作弊手段,通过一些非主流网站或者一个很少人接触的网站的连接来增加目标网页的访问量,或者是通过不断刷新目标网页的方式增加该目标网页的访问量。其作弊的可能性较高,可以认定为该目标网页的访问量作弊。
根据本发明实施例,通过判断第一获取单元10获取的目标网页的访问量是否满足预设条件,当访问量满足预设条件时,认定为目标网页访问量疑似作弊,并进一步获取目标网页的访问来源信息,根据访问来源信息进一步判断目标网页的访问量的是否作弊,通过对目标网页的来源信息的分析和判定提高对目标网页的访问量作弊的检测的精度,达到了准确识别目标网页的访问量作弊的效果。
图2是根据本发明第二实施例的网页访问量作弊的检测装置的结构示意图。该实施例的网页访问量作弊的检测装置可以作为上述实施例的一种优选实施方式。如图2所示,该网页访问量作弊的检测装置包括第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40,其中,第一判断单元20包括第一获取模块201、第一判断模块202和第一确定模块203。第二获取单元30和第二判断单元40与图1所示的第二获取单元30和第二判断单元40功能相同,这里不做赘述。
第一获取单元10还用于获取目标网页的历史访问量和当前访问量。历史访问量和当前访问量均为目标网页的访问量。历史访问量表示过去的一个单位间内的目标网页的访问量,当前访问量表示当前一个单位时间内目标网页的访问量。其中过去的一个单位时间与当前的一个单位时间为同一个单位时间。例如,以一天为时间单位,当前访问量可以为当前这一天的目标网页的访问量,历史访问量可以为前一天的目标网页的访问量。通过在目标网页的源代码中加入检测代码等方式可以获取目标网页的历史访问量和当前访问量。
第一获取模块201用于获取历史访问量和当前访问量的比值。将历史访问量和当前访问量进行比较,得到一个比值,例如,目标网页的当前访问量为当天的访问量,那么历史访问量可以为前一天的访问量,其中,访问量可以是访问流量或者访问点击量,将两者的访问流量或者访问点击量进行对比,得到一个比值,该比值可以是当前访问量除以历史访问量得到的比值,也可以是历史访问量除以当前访问量得到的比值,还可以是当前访问量超出历史访问量的比例。获取该比值可以看出访问量的变化趋势,例如比值为当前访问量除以历史访问量得到的比值,当该比值大于1,表示当前访问量大于历史访问量,同时当该比值越大,则表示当前访问量出现猛增的态势。
第一判断模块202用于判断比值是否超出第一设定阈值。第一设定阈值可以根据实际情况进行设定。例如,当比值为当前访问量除以历史访问量得到的比值时,第一设定阈值可以设定为1.5,判断比值是否超出第一设定阈值则表示判断当前访问量是否 超出历史访问量的1.5倍,第一设定阈值也可以设定为2,判断比值是否超出第一设定阈值则表示判断当前访问量是否超出历史访问量的2倍。当比值表示当前访问量超出历史访问量的比例时,第一设定阈值可以设定为30%,判断比值是否超出第一设定阈值则表示判断当前访问量相对于历史访问量的访问量的增长率是否超过30%。
第一确定模块203用于当比值超出第一设定阈值时,确定访问量满足预定条件,当比值未超出第一设定阈值时,确定访问量不满足预定条件。当比值超出第一设定阈值则报警提示,并确定访问量满足预设条件,执行步骤S206。例如,当比值为当前访问量除以历史访问量得到的比值时,第一设定阈值可以设定为1.5,判断比值是否超出第一设定阈值表示判断当前访问量是否超出历史访问量的1.5倍,如果比值超过第一设定阈值1.5,则确定访问量满足预定条件,其当前访问量出现凸变或者迅速增加的趋势,可以认定有一定的作弊嫌疑,进行下一步分析,即获取访问来源信息。当比值为当前访问量超出历史访问量的比例时,第一设定阈值可以设定为30%,判断比值是否超出第一设定阈值则表示判断当前访问量相对于历史访问量的访问量的增长率是否超过30%,当增长率超过30%时,则确定访问量满足预定条件,其当前访问量出现凸变或者迅速增加的趋势,可以认定有一定的作弊嫌疑,进行下一步分析。当比值未超出第一设定阈值时,如上述举例中如果比值未超过第一设定阈值1.5,则确定访问量不满足预定条件,访问量为出现异常,可以认定目标网页的访问量未作弊。
图3是根据本发明第三实施例的网页访问量作弊的检测装置的结构示意图。该实施例的网页访问量作弊的检测装置可以作为上述实施例的一种优选实施方式。如图3所示,该网页访问量作弊的检测装置包括第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40,其中,第一判断单元20包括第二获取模块204、第二判断模块205和第二确定模块206。第二获取单元30和第二判断单元40与图1所示的第二获取单元30和第二判断单元40功能相同,这里不做赘述。
第一获取单元10还用于获取目标网页的历史访问量和当前访问量。历史访问量和当前访问量均为目标网页的访问量。历史访问量表示过去的一个单位间内的目标网页的访问量,当前访问量表示当前一个单位时间内目标网页的访问量。其中过去的一个单位时间与当前的一个单位时间为同一个单位时间。例如,以一天为时间单位,当前访问量可以为当前这一天的目标网页的访问量,历史访问量可以为前一天的目标网页的访问量。通过在目标网页的源代码中加入检测代码等方式可以获取目标网页的历史访问量和当前访问量。
第二获取模块204用于获取历史访问量和当前访问量的差值。将历史访问量和当前访问量作减法处理,得到一个差值,例如,目标网页的当前访问量为当天的访问量,那么历史访问量可以为前一天的访问量,其中,访问量可以是访问流量或者访问点击量,将两者的访问流量或者访问点击量作减法处理,得到一个差值,该差值可以是当前访问量减去历史访问量得到的差值,也可以是历史访问量减去当前访问量得到的差 值。获取该差值可以看出访问量的变化趋势,例如差值为当前访问量减去历史访问量得到的差值,当该差值为正,表示当前访问量大于历史访问量,同时当该差值越大,则表示当前访问量出现猛增的态势。
第二判断模块205,用于判断差值是否超出第二设定阈值。第二设定阈值可以根据实际情况进行设定。例如,当差值为当前访问量减去历史访问量得到的差值时,判断差值是否超出第一设定阈值则表示判断当前访问量超出历史访问量的访问量是否超出第二设定阈值。
第二确定模块206,用于当差值超出第二设定阈值时,确定访问量满足预定条件,当差值未超出第二设定阈值时,确定访问量不满足预定条件。差值超出第二设定阈值表示当前访问量超出历史访问量的访问量是否超出第二设定阈值。当差值超出第二设定阈值则报警提示,并确定访问量满足预设条件,执行步骤S306。当差值超过第二设定阈值时,表明当前访问量出现凸变或者迅速增加的趋势,可以认定有一定的作弊嫌疑,进行下一步分析,即获取访问来源信息。当差值未超出第二设定阈值时,则表示访问量为出现异常,可以认定目标网页的访问量未作弊。
图4是根据本发明第四实施例的网页访问量作弊的检测装置的结构示意图。该实施例的网页访问量作弊的检测装置可以作为上述实施例的一种优选实施方式。如图4所示,该网页访问量作弊的检测装置包括第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40,其中,第二获取单元30包括第三获取模块301、第四获取模块302和生成模块303,第二判断单元40包括第五获取模块401、计算模块402、第三判断模块403和第三确定模块404。第一获取单元10和第一判断单元20与图1所示的第一获取单元10和第一判断单元20功能相同,这里不做赘述。
第三获取模块301用于获取目标网页的源代码。当访问量满足预定条件时,第二获取单元30获取目标网页的访问来源信息,其中获取目标网页的访问来源信息要先通过第三获取模块301获取目标网页的源代码,该源代码可以用于获取目标网页的访问来源信息。
第四获取模块302用于在源代码中加入检测代码以获取目标网页的访问IP地址。检测代码用于检测目标网页的访问来源信息,该访问来源信息为访问IP地址。该访问IP地址为访问者的IP地址,在源代码中加入检测代码以获取目标网页的所有访问IP地址。例如,当有3个访问者访问目标网页时,通过在目标网页中加入检测代码,可以获取这3次访问的访问者的IP地址,这3各访问IP地址可以是相同的IP地址,也可以是不相同的IP地址。
生成模块303,用于将访问IP地址作为访问来源信息。访问者的IP地址可以表示访问的来源信息,可以表示目标网页确实被具有该IP地址的访问者访问。将访问IP地址作为访问来源信息,以便于进一步检测目标网页的访问量的具体情况。
第五获取模块401用于获取访问IP地址中的第一访问IP地址的第一访问量,第一访问IP地址为访问IP地址中访问目标网页最多的一个访问IP地址。由于通过检测代码获取到的访问IP地址包括多个IP地址,且每一个IP地址都会给目标网页带来一定的访问量。第一访问IP地址可以是访问IP地址中的访问所述目标网页最多的一个访问者的IP地址。例如,当检测代码检测到访问目标网页的IP地址有3个,其中一个IP地址访问目标网页的次数最多,那么该IP地址即为第一访问IP地址。第一访问量为第一访问IP地址访问目标网页的访问量,该第一访问量占总访问量的比例比其他任意一个访问IP地址的访问量都要大。
计算模块402,用于计算第一访问量与访问量的比值。其中访问量为目标网页的总访问量,计算第一访问量占总访问量的比值,以便于判断第一访问量在总访问量中所占的比重。
第三判断模块403,用于判断第一访问量与访问量的比值是否超出第三设定阈值。第三设定阈值可以根据需要进行设定,例如,当第三设定阈值为0.5时,则判断第一访问量与访问量的比值是否超出第三设定阈值表示判断第一访问量是否超过总访问量的一半访问量。
第三确定模块404,用于当第一访问量与访问量的比值超出第三设定阈值时,确定目标网页的访问量作弊;当第一访问量与访问量的比值未超出第三设定阈值时,确定目标网页的访问量未作弊。如上所述,当第三设定阈值为0.5时,第一访问量与访问量的比值超出0.5,则表示第一访问量超过总访问量的一半访问量,此时可以认为目标网页的访问量是通过一定的作弊手段实现的,其访问量作弊的可能性比较大。如上所述,当第三设定阈值为0.5时,第一访问量与访问量的比值未超出0.5,则表示第一访问量未超过总访问量的一半访问量,此时可以认为目标网页的访问量正常,基本可以认定目标网页的访问量未作弊。
图5是根据本发明第五实施例的网页访问量作弊的检测装置的结构示意图。该实施例的网页访问量作弊的检测装置可以作为上述实施例的一种优选实施方式。如图5所示,该网页访问量作弊的检测装置包括第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40,其中,第二获取单元30包括第三获取模块301、第四判断模块和生成模块303,第二判断单元40包括第五获取模块401、计算模块402、第三判断模块403和第三确定模块404,第三确定模块404包括获取子模块4041、判断子模块4042和确定子模块4043。第一获取单元10、第一判断单元20和第二获取单元30与图4所示的第一获取单元10、第一判断单元20和第二获取单元30功能相同,第二判断模块205中的第五获取模块401、计算模块402、第三判断模块403与图4所示的第五获取模块401、计算模块402、第三判断模块403功能相同,这里不做赘述。
获取子模块4041用于获取第一访问IP的访问停留时间。访问停留时间表示访问者访问目标网页时,在目标网页的停留时间,第一访问IP地址访问过目标网页的很多 次,因此访问停留时间也包括多个访问停留时间,获取第一访问IP地址的访问停留时间即是获取第一访问IP地址的每一次访问的访问停留时间。
判断子模块4042,用于判断访问停留时间是否超出第四设定阈值。第四设定阈值为访问时间阈值,即该阈值为时间值,可以根据需要进行设定,由于访问停留时间包括多个访问停留时间,因此,判断访问停留时间是否超出第四设定阈值表示判断每次访问停留时间是否超出第四设定阈值。例如,当第四设定阈值为3s时,判断第一访问IP地址的每一次访问停留时间是否超出3s。
确定子模块4043,用于当访问停留时间未超出第四设定阈值时,确定目标网页的访问量作弊,当访问停留时间超出第四设定阈值时,确定目标网页的访问量未作弊。访问停留时间未超出第四设定阈值表示第一访问IP地址的多次访问的访问停留时间均未超出第四设定阈值,假如第一访问IP地址的第一访问量中大部分的访问停留时间均未超出第四设定阈值,则认为目标网页的访问量作弊。例如,当第四设定阈值为3s时,如果第一访问IP地址的第一访问量中大部分的访问停留时间均不到3s,则表明第一访问IP地址的第一访问量中大部分的访问量为非正常访问,很可能采用了一种刷网页点击量的形式,不符合常理,则认为该目标网页的访问量作弊。同理,如果第一访问IP地址的第一访问量中大部分的访问停留时间均超出第四设定阈值,则表示第一访问量为正常访问的访问量,因此可以认为目标网页的访问量未作弊。
图6是根据本发明第五实施例的网页访问量作弊的检测装置的结构示意图。该实施例的网页访问量作弊的检测装置可以作为上述实施例的一种优选实施方式。如图6所示,该网页访问量作弊的检测装置包括第一获取单元10、第一判断单元20、第二获取单元30、第二判断单元40、第三获取单元50、检测单元60和确定单元70。第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40与图1所示的第一获取单元10、第一判断单元20、第二获取单元30和第二判断单元40功能相同,这里不做赘述。
第三获取单元50用于在获取目标网页的访问量之前,获取目标网页的源代码。可以通过爬虫程序抓取目标网页的源代码,也可以通过其他方式,获取到源代码可以得到目标网页的组织架构,以便于对目标网页进行检测。
检测单元60,用于检测源代码中是否存在大小为0*0或者1*1的内联框架iframe。由于大小为0×0或1×1的iframe,也就是不可见的iframe。通过iframe打开其他页面,使得用户打开了并非自己想要进入的网页,在看不见的情况下刷流量或者访问量。可以编写分析程序,从源代码中分析是否存在大小为0*0或者1*1的内联框架iframe。
确定单元70用于当所述源代码中不存在所述iframe时,获取所述目标网页的访问量。由于该大小为0*0或者1*1的内联框架iframe是用于骗取访问量,在访问者不知情的情况下刷访问量,因此,当检测到目标网页的源代码中存在有该iframe时,可 以认定采取了作弊手段,则可以确定目标网页访问量作弊。当源代码中不存在该iframe时,则通过获取目标网页的访问量进行下一步判断。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本发明实施例还提供了一种网页访问量作弊的检测方法。该网页访问量作弊的检测方法可以运行在计算机设备上。需要说明的是,本发明实施例的网页访问量作弊的检测方法可以通过本发明实施例的网页访问量作弊的检测装置来执行,本发明实施例的网页访问量作弊的检测装置也可以用于执行本发明实施例的网页访问量作弊的检测方法。
图7是根据本发明第一实施例的网页访问量作弊的检测方法的流程图。如图7所示,该网页访问量作弊的检测方法包括步骤如下:
步骤S101,获取目标网页的访问量。获取到的访问量为目标网页的总访问量。目标网页为需要进行访问量作弊的检测的网页,该网页可以是任意一个网站中的任意一个网页,可以是广告主投放广告的网页,也可以是广告主营销的产品网页。例如,当目标网页为广告主投放广告的网页时,获取该网页的访问量可以得知广告主投放的广告的浏览量。其中,访问量可以是访问流量,也可以是访问点击量。访问量可以是历史访问量,历史访问量表示过去的一定时间段内目标网页的访问量。访问量也可以是当前访问量,当前访问量表示当前一定时间段内的目标网页的访问量。访问量也可以是历史访问量和当前访问量。第一获取单元10获取该访问量可以是通过在目标网页中加入检测代码,用来检测目标网页的访问流量或者访问点击量等访问量信息,也可以从目标网页的日志文件中直接读取目标网页的访问流量或者访问点击量等访问量信息。
步骤S102,判断访问量是否满足预定条件。根据第一获取单元10获取的目标网页的访问量,第一判断单元20将该访问量作为判断基础,判断该访问量是否满足预定条件。该预定条件可以是访问量的变化规律,例如,该预定条件为访问量发生突变时的一个阈值,当访问量超过该阈值时,认为访问量满足预定条件,此时可以认定访问量发生突变,也即是当前访问量相比于历史访问量发生了突变,该突变可以表示当前访问量出现迅速增加的态势,也可以表示当前访问量出现迅速降低的态势。本实施例以当前访问量出现迅速增加的态势为访问量的突变状态。第一判断单元20判断出该访问量是否满足预定条件,以便于判断该访问量是否为疑似作弊。当访问量出现急速增加的态势,如当前日的访问量远远大于前一日的访问量,可以认定该目标网页的访问 量有作弊嫌疑。
步骤S103,如果访问量满足预定条件,获取目标网页的访问来源信息。当目标网页的访问量满足预定条件时,则认定为该目标网页的访问量疑似作弊。当目标网页疑似作弊时,第二获取单元30获取该目标网页的访问来源信息。访问来源信息可以是访问者的访问IP(Internet Protocol,简称IP)地址,也可以是访问者这次访问的路径信息,如针对一次访问,该次访问可以是通过其他网页的超链接访问到该目标网页。通过在目标网页的源代码中加入检测代码,可以获取该次访问的链入网页的网址,也可以获取访问者的访问IP。通过获取该访问来源信息,以便于判断目标网页的访问量是否作弊。如果访问量不满足预定条件,则可以认为目标网页到目前为止的访问量没有作弊,继续检测目标网页的访问量是否满足预设条件。
步骤S104,根据访问来源信息判断目标网页的访问量是否作弊。由于此时目标网页的访问量为疑似作弊,当获取到目标网页的访问来源信息之后,可以根据访问来源信息来判断目标网页的访问量是否出现作弊。例如,当获取到的访问来源信息中,大部分访问来源信息都来自一个非主流网站或者一个很少人接触的网站,或者是来自目标网页本身,那么可以认定该目标网页的访问量很大程度上是采用一定的作弊手段,通过一些非主流网站或者一个很少人接触的网站的链入来增加目标网页的访问量,或者是通过不断刷新目标网页的方式增加该目标网页的访问量。其作弊的可能性较高,可以认定为该目标网页的访问量作弊。
根据本发明实施例,通过判断第一获取单元10获取的目标网页的访问量是否满足预设条件,当访问量满足预设条件时,认定为目标网页访问量疑似作弊,并进一步获取目标网页的访问来源信息,根据访问来源信息进一步判断目标网页的访问量的是否作弊,通过对目标网页的来源信息的分析和判定提高对目标网页的访问量作弊的检测的精度,达到了准确识别目标网页的访问量作弊的效果。
图8是根据本发明第二实施例的网页访问量作弊的检测方法的流程图。该实施例的网页访问量作弊的检测方法可以作为上述实施例的网页访问量作弊的检测方法的一种优选实施方式。如图8所示,该网页访问量作弊的检测方法包括步骤如下:
步骤S201,获取目标网页的历史访问量和当前访问量。历史访问量和当前访问量均为目标网页的访问量。历史访问量表示过去的一个单位间内的目标网页的访问量,当前访问量表示当前一个单位时间内目标网页的访问量。其中过去的一个单位时间与当前的一个单位时间为同一个单位时间。例如,以一天为时间单位,当前访问量可以为当前这一天的目标网页的访问量,历史访问量可以为前一天的目标网页的访问量。通过在目标网页的源代码中加入检测代码等方式可以获取目标网页的历史访问量和当前访问量。
步骤S202,获取历史访问量和当前访问量的比值。将历史访问量和当前访问量进 行比较,得到一个比值,例如,目标网页的当前访问量为当天的访问量,那么历史访问量可以为前一天的访问量,其中,访问量可以是访问流量或者访问点击量,将两者的访问流量或者访问点击量进行对比,得到一个比值,该比值可以是当前访问量除以历史访问量得到的比值,也可以是历史访问量除以当前访问量得到的比值,还可以是当前访问量超出历史访问量的比例。获取该比值可以看出访问量的变化趋势,例如比值为当前访问量除以历史访问量得到的比值,当该比值大于1,表示当前访问量大于历史访问量,同时当该比值越大,则表示当前访问量出现猛增的态势。
步骤S203,判断比值是否超出第一设定阈值。第一设定阈值可以根据实际情况进行设定。例如,当比值为当前访问量除以历史访问量得到的比值时,第一设定阈值可以设定为1.5,判断比值是否超出第一设定阈值则表示判断当前访问量是否超出历史访问量的1.5倍,第一设定阈值也可以设定为2,判断比值是否超出第一设定阈值则表示判断当前访问量是否超出历史访问量的2倍。当比值表示当前访问量超出历史访问量的比例时,第一设定阈值可以设定为30%,判断比值是否超出第一设定阈值则表示判断当前访问量相对于历史访问量的访问量的增长率是否超过30%。
步骤S204,如果比值超出第一设定阈值,则确定访问量满足预定条件。当比值超出第一设定阈值则报警提示,并确定访问量满足预设条件,执行步骤S206。例如,当比值为当前访问量除以历史访问量得到的比值时,第一设定阈值可以设定为1.5,判断比值是否超出第一设定阈值表示判断当前访问量是否超出历史访问量的1.5倍,如果比值超过第一设定阈值1.5,则确定访问量满足预定条件,其当前访问量出现凸变或者迅速增加的趋势,可以认定有一定的作弊嫌疑,进行下一步分析,即获取访问来源信息。当比值为当前访问量超出历史访问量的比例时,第一设定阈值可以设定为30%,判断比值是否超出第一设定阈值则表示判断当前访问量相对于历史访问量的访问量的增长率是否超过30%,当增长率超过30%时,则确定访问量满足预定条件,其当前访问量出现凸变或者迅速增加的趋势,可以认定有一定的作弊嫌疑,进行下一步分析。
步骤S205,如果比值未超出第一设定阈值,则确定访问量不满足预定条件。当比值未超出第一设定阈值时,如上述举例中如果比值未超过第一设定阈值1.5,则确定访问量不满足预定条件,访问量为出现异常,可以认定目标网页的访问量未作弊。
步骤S206,如果访问量满足预定条件,获取目标网页的访问来源信息。当目标网页的访问量满足预定条件时,则认定为该目标网页的访问量疑似作弊。当目标网页疑似作弊时,第二获取单元30获取该目标网页的访问来源信息。访问来源信息可以是访问者的访问IP地址,也可以是访问的入链的网页的网址,如针对一次访问,该次访问可以是通过其他网页的超链接访问到该目标网页,通过在目标网页的源代码中加入检测代码,可以获取该次访问的链入网页的网址,也可以获取访问者的访问IP。通过获取该访问来源信息,以便于判断目标网页的访问量是否作弊。
步骤S207,根据访问来源信息判断目标网页的访问量是否作弊。由于此时目标网 页的访问量为疑似作弊,当获取到目标网页的访问来源信息之后,可以根据访问来源信息来判断目标网页的访问量是否出现作弊。例如,当获取到的访问来源信息中,大部分访问来源信息都来自一个非主流网站或者一个很少人接触的网站,亦或者是来自目标网页本身,那么可以认定该目标网页的访问量很大程度上是采用一定的作弊手段,通过一些非主流网站或者一个很少人接触的网站的链入来刷目标网页的访问量,或者是通过不断刷新目标网页的方式刷该目标网页的访问量。其作弊的可能性较高,可以认定为该目标网页的访问量作弊。
图9是根据本发明第三实施例的网页访问量作弊的检测方法的流程图。该实施例的网页访问量作弊的检测方法可以作为上述实施例的网页访问量作弊的检测方法的一种优选实施方式。如图9所示,该网页访问量作弊的检测方法包括步骤如下:
步骤S301,获取目标网页的历史访问量和当前访问量。历史访问量和当前访问量均为目标网页的访问量。历史访问量表示过去的一个单位间内的目标网页的访问量,当前访问量表示当前一个单位时间内目标网页的访问量。其中过去的一个单位时间与当前的一个单位时间为同一个单位时间。例如,以一天为时间单位,当前访问量可以为当前这一天的目标网页的访问量,历史访问量可以为前一天的目标网页的访问量。通过在目标网页的源代码中加入检测代码等方式可以获取目标网页的历史访问量和当前访问量。
步骤S302,获取历史访问量和当前访问量的差值。将历史访问量和当前访问量作减法处理,得到一个差值,例如,目标网页的当前访问量为当天的访问量,那么历史访问量可以为前一天的访问量,其中,访问量可以是访问流量或者访问点击量,将两者的访问流量或者访问点击量作减法处理,得到一个差值,该差值可以是当前访问量减去历史访问量得到的差值,也可以是历史访问量减去当前访问量得到的差值。获取该差值可以看出访问量的变化趋势,例如差值为当前访问量减去历史访问量得到的差值,当该差值为正,表示当前访问量大于历史访问量,同时当该差值越大,则表示当前访问量出现猛增的态势。
步骤S303,判断差值是否超出第二设定阈值。第二设定阈值可以根据实际情况进行设定。例如,当差值为当前访问量减去历史访问量得到的差值时,判断差值是否超出第一设定阈值则表示判断当前访问量超出历史访问量的访问量是否超出第二设定阈值。
步骤S304,如果差值超出第二设定阈值,则确定访问量满足预定条件。差值超出第二设定阈值表示当前访问量超出历史访问量的访问量是否超出第二设定阈值。当差值超出第二设定阈值则报警提示,并确定访问量满足预设条件,执行步骤S306。当差值超过第二设定阈值时,表明当前访问量出现凸变或者迅速增加的趋势,可以认定有一定的作弊嫌疑,进行下一步分析,即获取访问来源信息。
步骤S305,如果差值未超出第二设定阈值,则确定访问量不满足预定条件。当差值未超出第二设定阈值时,则表示访问量为出现异常,可以认定目标网页的访问量未作弊。
步骤S306,如果访问量满足预定条件,获取目标网页的访问来源信息。当目标网页的访问量满足预定条件时,则认定为该目标网页的访问量疑似作弊。当目标网页疑似作弊时,第二获取单元30获取该目标网页的访问来源信息。访问来源信息可以是访问者的访问IP地址,也可以是访问的入链的网页的网址,如针对一次访问,该次访问可以是通过其他网页的超链接访问到该目标网页,通过在目标网页的源代码中加入检测代码,可以获取该次访问的链入网页的网址,也可以获取访问者的访问IP。通过获取该访问来源信息,以便于判断目标网页的访问量是否作弊。
步骤S307,根据访问来源信息判断目标网页的访问量是否作弊。由于此时目标网页的访问量为疑似作弊,当获取到目标网页的访问来源信息之后,可以根据访问来源信息来判断目标网页的访问量是否出现作弊。例如,当获取到的访问来源信息中,大部分访问来源信息都来自一个非主流网站或者一个很少人接触的网站,亦或者是来自目标网页本身,那么可以认定该目标网页的访问量很大程度上是采用一定的作弊手段,通过一些非主流网站或者一个很少人接触的网站的链入来刷目标网页的访问量,或者是通过不断刷新目标网页的方式刷该目标网页的访问量。其作弊的可能性较高,可以认定为该目标网页的访问量作弊。
图10是根据本发明第四实施例的网页访问量作弊的检测方法的流程图。该实施例的网页访问量作弊的检测方法可以作为上述实施例的网页访问量作弊的检测方法的一种优选实施方式。如图10所示,该网页访问量作弊的检测方法包括步骤如下:
步骤S401,获取目标网页的访问量。目标网页为需要进行访问量作弊的检测的网页,该网页可以是任意一个网站中的任意一个网页,可以是广告主投放广告的网页,也可以是广告主营销的产品网页。例如,当目标网页为广告主投放广告的网页时,获取该网页的访问量可以得知广告主投放的广告的浏览量。其中,访问量可以是访问流量,也可以是访问点击量。访问量可以是历史访问量,历史访问量表示过去的一定时间段内目标网页的访问量。访问量也可以是当前访问量,当前访问量表示当前一定时间段内的目标网页的访问量。访问量也可以是历史访问量和当前访问量。第一获取单元10获取该访问量可以是通过在目标网页中加入检测代码,用来检测目标网页的访问流量或者访问点击量等访问量信息,也可以从目标网页的日志文件中直接读取目标网页的访问流量或者访问点击量等访问量信息。
步骤S402,判断访问量是否满足预定条件。根据第一获取单元10获取的目标网页的访问量,第一判断单元20将该访问量作为判断基础,判断该访问量是否满足预定条件。该预定条件可以是访问量的变化规律,例如,该预定条件为访问量发生突变时的一个阈值,当访问量超过该阈值时,认为访问量满足预定条件,此时可以认定访问 量发生突变,也即是当前访问量相比于历史访问量发生了突变,该突变可以表示当前访问量出现迅速增加的态势,也可以表示当前访问量出现迅速降低的态势。本实施例以当前访问量出现迅速增加的态势为访问量的突变状态。第一判断单元20判断出该访问量是否满足预定条件,以便于判断该访问量是否为疑似作弊。当访问量出现急速增加的态势,如当前日的访问量远远大于前一日的访问量,可以认定该目标网页的访问量有作弊嫌疑,反之,则可认为目标网页的访问量没有作弊。
步骤S403,如果访问量满足预定条件,获取目标网页的源代码。当访问量满足预定条件时,获取目标网页的访问来源信息,其中获取目标网页的访问来源信息要先获取目标网页的源代码,该源代码可以用于获取目标网页的访问来源信息。如果访问量不满足预定条件,则可以认为目标网页到目前为止的访问量没有作弊,继续检测目标网页的访问量是否满足预设条件。
步骤S404,在源代码中加入检测代码以获取目标网页的访问IP地址。检测代码用于检测目标网页的访问来源信息,该访问来源信息为访问IP地址。该访问IP地址为访问者的IP地址,在源代码中加入检测代码以获取目标网页的所有访问IP地址。例如,当有3个访问者访问目标网页时,通过在目标网页中加入检测代码,可以获取这3次访问的访问者的IP地址,这3个访问IP地址可以是相同的IP地址,也可以是不相同的IP地址。
步骤S405,将访问IP地址作为访问来源信息。访问者的IP地址可以表示访问的来源信息,可以表示目标网页确实被具有该IP地址的访问者访问。将访问IP地址作为访问来源信息,以便于进一步检测目标网页的访问量的具体情况。
步骤S406,获取访问IP地址中的第一访问IP地址的第一访问量,第一访问IP地址为访问IP地址中访问所述目标网页最多的一个访问IP地址。由于通过检测代码获取到的访问IP地址包括多个IP地址,且每一个IP地址都会给目标网页带来一定的访问量。第一访问IP地址可以是访问IP地址中的访问所述目标网页最多的一个访问者的IP地址。例如,当检测代码检测到访问目标网页的IP地址有3个,其中一个IP地址访问目标网页的次数最多,那么该IP地址即为第一访问IP地址。第一访问量为第一访问IP地址访问目标网页的访问量,该第一访问量占总访问量的比例比其他任意一个访问IP地址的访问量都要大。
步骤S407,计算第一访问量与访问量的比值。其中访问量为目标网页的总访问量,计算第一访问量占总访问量的比值,以便于判断第一访问量在总访问量中所占的比重。
步骤S408,判断第一访问量与访问量的比值是否超出第三设定阈值。第三设定阈值可以根据需要进行设定,例如,当第三设定阈值为0.5时,则判断第一访问量与访问量的比值是否超出第三设定阈值表示判断第一访问量是否超过总访问量的一半访问量。
步骤S409,如果第一访问量与访问量的比值超出第三设定阈值,则确定目标网页的访问量作弊。如上所述,当第三设定阈值为0.5时,第一访问量与访问量的比值超出0.5,则表示第一访问量超过总访问量的一半访问量,此时可以认为目标网页的访问量是通过一定的作弊手段实现的,其访问量作弊的可能性比较大。
步骤S410,如果第一访问量与访问量的比值未超出第三设定阈值,则确定目标网页的访问量未作弊。如上所述,当第三设定阈值为0.5时,第一访问量与访问量的比值未超出0.5,则表示第一访问量未超过总访问量的一半访问量,此时可以认为目标网页的访问量正常,基本可以认定目标网页的访问量未作弊。
图11是根据本发明第五实施例的网页访问量作弊的检测方法的流程图。该实施例的网页访问量作弊的检测方法可以作为上述实施例的网页访问量作弊的检测方法的一种优选实施方式。如图11所示,该网页访问量作弊的检测方法包括步骤如下:
步骤S501,获取目标网页的访问量。目标网页为需要进行访问量作弊的检测的网页,该网页可以是任意一个网站中的任意一个网页,可以是广告主投放广告的网页,也可以是广告主营销的产品网页。例如,当目标网页为广告主投放广告的网页时,获取该网页的访问量可以得知广告主投放的广告的浏览量。其中,访问量可以是访问流量,也可以是访问点击量。访问量可以是历史访问量,历史访问量表示过去的一定时间段内目标网页的访问量。访问量也可以是当前访问量,当前访问量表示当前一定时间段内的目标网页的访问量。访问量也可以是历史访问量和当前访问量。第一获取单元10获取该访问量可以是通过在目标网页中加入检测代码,用来检测目标网页的访问流量或者访问点击量等访问量信息,也可以从目标网页的日志文件中直接读取目标网页的访问流量或者访问点击量等访问量信息。
步骤S502,判断访问量是否满足预定条件;根据第一获取单元10获取的目标网页的访问量,第一判断单元20将该访问量作为判断基础,判断该访问量是否满足预定条件。该预定条件可以是访问量的变化规律,例如,该预定条件为访问量发生突变时的一个阈值,当访问量超过该阈值时,认为访问量满足预定条件,此时可以认定访问量发生突变,也即是当前访问量相比于历史访问量发生了突变,该突变可以表示当前访问量出现迅速增加的态势,也可以表示当前访问量出现迅速降低的态势。本实施例以当前访问量出现迅速增加的态势为访问量的突变状态。第一判断单元20判断出该访问量是否满足预定条件,以便于判断该访问量是否为疑似作弊。当访问量出现急速增加的态势,如当前日的访问量远远大于前一日的访问量,可以认定该目标网页的访问量有作弊嫌疑。
步骤S503,如果访问量满足预定条件,获取目标网页的源代码。当访问量满足预定条件时,获取目标网页的访问来源信息,其中获取目标网页的访问来源信息要先获取目标网页的源代码,该源代码可以用于获取目标网页的访问来源信息。如果访问量不满足预定条件,则可以认为目标网页到目前为止的访问量没有作弊,继续检测目标 网页的访问量是否满足预设条件。
步骤S504,在源代码中加入检测代码以获取目标网页的访问IP地址。检测代码用于检测目标网页的访问来源信息,该访问来源信息为访问IP地址。该访问IP地址为访问者的IP地址,在源代码中加入检测代码以获取目标网页的所有访问IP地址。例如,当有3个访问者访问目标网页时,通过在目标网页中加入检测代码,可以获取这3次访问的访问者的IP地址,这3个访问IP地址可以是相同的IP地址,也可以是不相同的IP地址,该访问IP地址即为目标网页的访问来源信息。
步骤S505,将访问IP地址作为访问来源信息。访问者的IP地址可以表示访问的来源信息,可以表示目标网页确实被具有该IP地址的访问者访问。将访问IP地址作为访问来源信息,以便于进一步检测目标网页的访问量的具体情况。
步骤S506,获取访问IP地址中的第一访问IP地址的第一访问量,第一访问IP地址为访问IP地址中访问所述目标网页最多的一个访问IP地址。由于通过检测代码获取到的访问IP地址包括多个IP地址,且每一个IP地址都会给目标网页带来一定的访问量。第一访问IP地址可以是访问IP地址中的访问所述目标网页最多的一个访问者的IP地址。例如,当检测代码检测到访问目标网页的IP地址有3个,其中一个IP地址访问目标网页的次数最多,那么该IP地址即为第一访问IP地址。第一访问量为第一访问IP地址访问目标网页的访问量,该第一访问量占总访问量的比例比其他任意一个访问IP地址的访问量都要大。
步骤S507,计算第一访问量与访问量的比值。其中访问量为目标网页的总访问量,计算第一访问量占总访问量的比值,以便于判断第一访问量在总访问量中所占的比重。
步骤S508,判断第一访问量与访问量的比值是否超出第三设定阈值。第三设定阈值可以根据需要进行设定,例如,当第三设定阈值为0.5时,则判断第一访问量与访问量的比值是否超出第三设定阈值表示判断第一访问量是否超过总访问量的一半访问量。
步骤S509,如果第一访问量与访问量的比值超出第三设定阈值,则获取第一访问IP地址的访问停留时间。访问停留时间表示访问者访问目标网页时,在目标网页的停留时间,第一访问IP地址访问过目标网页的很多次,因此访问停留时间也包括多个访问停留时间,获取第一访问IP地址的访问停留时间即是获取第一访问IP地址的每一次访问的访问停留时间。
步骤S510,判断访问停留时间是否超出第四设定阈值。第四设定阈值为访问时间阈值,即该阈值为时间值,可以根据需要进行设定,由于访问停留时间包括多个访问停留时间,因此,判断访问停留时间是否超出第四设定阈值表示判断每次访问停留时间是否超出第四设定阈值。例如,当第四设定阈值为3s时,判断第一访问IP地址的每一次访问停留时间是否超出3s。
步骤S511,如果访问停留时间未超出第四设定阈值,则确定目标网页的访问量作弊。访问停留时间未超出第四设定阈值表示第一访问IP地址的多次访问的访问停留时间均未超出第四设定阈值,假如第一访问IP地址的第一访问量中大部分的访问停留时间均未超出第四设定阈值,则认为目标网页的访问量作弊。例如,当第四设定阈值为3s时,如果第一访问IP地址的第一访问量中大部分的访问停留时间均不到3s,则表明第一访问IP地址的第一访问量中大部分的访问量为非正常访问,很可能采用了一种刷网页点击量的形式,不符合常理,则认为该目标网页的访问量作弊。
步骤S512,如果访问停留时间超出第四设定阈值,则确定目标网页的访问量未作弊。同理,如果第一访问IP地址的第一访问量中大部分的访问停留时间均超出第四设定阈值,则表示第一访问量为正常访问的访问量,因此可以认为目标网页的访问量未作弊。
图12是根据本发明第六实施例的网页访问量作弊的检测方法的流程图。该实施例的网页访问量作弊的检测方法可以作为上述实施例的网页访问量作弊的检测方法的一种优选实施方式。如图12所示,该网页访问量作弊的检测方法包括步骤如下:
步骤S601,获取目标网页的源代码。可以通过爬虫程序抓取目标网页的源代码,也可以通过其他方式,获取到源代码可以得到目标网页的组织架构,以便于对目标网页进行检测。
步骤S602,检测源代码中是否存在大小为0*0或者1*1的内联框架iframe。由于大小为0×0或1×1的iframe,也就是不可见的iframe。通过iframe打开其他页面,使得用户打开了并非自己想要进入的网页,在看不见的情况下刷流量或者访问量。可以编写分析程序,从源代码中分析是否存在大小为0*0或者1*1的内联框架iframe。
步骤S603,如果源代码中不存在iframe,则获取目标网页的访问量。当源代码中不存在该iframe时,则通过获取目标网页的访问量进行下一步判断。如果源代码中存在iframe,则确定目标网页访问量作弊。由于该大小为0*0或者1*1的内联框架iframe是用于骗取访问量,在访问者不知情的情况下刷访问量,因此,当检测到目标网页的源代码中存在有该iframe时,可以认定采取了作弊手段,则可以确定目标网页访问量作弊。
步骤S604,判断访问量是否满足预定条件。
步骤S605,如果访问量满足预定条件,获取目标网页的访问来源信息。
步骤S606,根据访问来源信息判断目标网页的访问量是否作弊。
步骤S603中获取目标网页的访问量,以及步骤S604、步骤S605和步骤S606与本发明图7所示的网页访问量作弊的检测方法的步骤S101、步骤S102、步骤S103和步骤S104相同,这里不作赘述。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。