CN105183873A - 恶意点击行为检测方法及装置 - Google Patents

恶意点击行为检测方法及装置 Download PDF

Info

Publication number
CN105183873A
CN105183873A CN201510599775.XA CN201510599775A CN105183873A CN 105183873 A CN105183873 A CN 105183873A CN 201510599775 A CN201510599775 A CN 201510599775A CN 105183873 A CN105183873 A CN 105183873A
Authority
CN
China
Prior art keywords
click
behavioural information
webpage
destination node
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510599775.XA
Other languages
English (en)
Inventor
裴向宇
田传钊
付军辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Learned Cube Of Beijing Science And Technology Ltd
Original Assignee
Learned Cube Of Beijing Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Learned Cube Of Beijing Science And Technology Ltd filed Critical Learned Cube Of Beijing Science And Technology Ltd
Priority to CN201510599775.XA priority Critical patent/CN105183873A/zh
Publication of CN105183873A publication Critical patent/CN105183873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明实施例公开了一种恶意点击行为检测方法及装置。其中,所述方法包括:采用流式处理方式,获取终端所采集的对网页的点击行为信息;根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系;查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,并根据查找结果实时检测是否存在对所述网页的恶意点击行为。本发明实施例提供的技术方案,解决现有事后分析检测机制使商家无法及时得知不法分子对自己网站的恶意点击行为的问题,达到检测实时性较好,用户体验更佳的效果。

Description

恶意点击行为检测方法及装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及恶意点击行为检测方法及装置。
背景技术
目前,一方面,互联网SEM(SearchEngineMarketing,搜索引擎营销)系统,通常是根据网页浏览者对搜索结果中所呈现的广告的点击量,来对投放广告的商家进行计费的,如果一些不法分子通过一定手段恶意点击广告,则会对投放该广告的商家带来严重的经济损失;另一方面,商家为调整自己的网站,提高收益回报率,往往也会记录浏览者对自己网站的点击行为信息,以供后续其他业务分析,而恶意点击会不利于商家对浏览者的行为进行分析。因此恶意点击检测算法非常重要,关乎一个商家的信誉和营销分析。
在现有技术中,考虑到点击行为信息的数据量极其庞大,而硬件资源又较为紧张,所以通常是采用事后分析检测法来检测恶意点击行为,也即,在获取到终端上报的点击行为信息后,先将其存储至相应的数据库中,之后每隔一天或数天读取数据库中的点击行为信息,进而基于所读取的信息进行恶意点击行为的检测。
然而,由于上述事后分析检测机制对恶意点击行为的检测,存在一定的延迟,使得商家并不能够及时得知不法分子对自己网站的恶意点击行为,因此检测的实时性较差,用户体验欠佳。
发明内容
本发明实施例提供一种恶意点击行为检测方法及装置,以解决检测的实时性较差,用户体验欠佳的问题。
一方面,本发明实施例提供了一种恶意点击行为实时检测方法,该方法包括:
采用流式处理方式,获取终端所采集的对网页的点击行为信息;
根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系;
查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,并根据查找结果实时检测是否存在对所述网页的恶意点击行为。
另一方面,本发明实施例还提供了一种恶意点击行为实时检测装置,该装置包括:
获取单元,用于采用流式处理方式,获取终端所采集的对网页的点击行为信息;
存储单元,用于根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系;
查找单元,用于查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息;
检测单元,用于根据查找结果实时检测是否存在对所述网页的恶意点击行为。
本发明实施例提供的技术方案,通过采用流式处理方式,获取终端所采集的对网页的点击行为信息;根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上;查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,并根据查找结果实时检测是否存在对所述网页的恶意点击行为。通过本发明实施例的技术方案解决现有事后分析检测机制使商家无法及时得知不法分子对自己网站的恶意点击行为的问题,达到检测实时性较好,用户体验更佳的效果。
附图说明
图1是本发明实施例一提供的一种恶意点击行为实时检测方法的流程图;
图2为本发明实施例二提供的一种恶意点击行为实时检测方法中更新分布式索引关系操作的流程图;
图3是本发明实施例三提供的一种恶意点击行为实时检测方法的流程图;
图3-1是本发明实施例三提供的一种恶意点击行为实时监测方法的框架图;
图4是本发明实施例四提供的一种恶意点击行为实时检测装置的结构示意图;
图5是本发明实施例五提供的一种恶意点击行为实时检测装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种恶意点击行为实时检测方法的流程示意图,该方法可以由恶意点击行为实时检测装置来执行,所述装置由软件实现,所述装置可被内置在互联网SEM(SearchEngineMarketing,搜索引擎营销)系统中的一台物理设备(例如服务器)上,或者被内置在商家为客户提供网站服务的物理设备上。参见图1,本实施例提供的一种恶意点击行为实时检测方法,具体包括如下操作:
操作S100、采用流式处理方式,获取终端所采集的对网页的点击行为信息。
终端每监听到对网页的一次点击行为后,会生成相应的一条点击行为信息,并采用流式处理方式上传。该点击行为信息可以包括:终端标识(例如终端的IP地址等用于唯一标识该终端的标识信息)、网页标识(例如网页的URL等用于唯一标识该网页的标识信息)、点击时间、点击位置、以及对点击方式的识别结果。其中,点击方式包括人工点击和机器点击。采用流式处理方式获取终端所采集的对网页的点击行为信息,确保了整个系统的实时性和高可靠性。
操作S110、根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系。
所述节点是用于存储对应网页的点击行为信息的电子设备,不同节点可以是不同的电子设备。获取网页的标识信息作为索引,创建各个网页与各个电子设备之间的分布式索引关系。将对所述网页的点击行为信息存储于与其对应的电子设备的存储区内。
操作S120、查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,并根据查找结果实时检测是否存在对所述网页的恶意点击行为。
查找存储在电子设备的存储区内的,在设定时间窗口(可以是两小时,或其他用户设定的时间长度)内所述网页的各条点击行为信息。每隔设定的时间周期(数量级是秒级)对查找结果进行恶意点击行为检测。
本实施例的技术方案,通过采用流式处理方式,获取终端所采集的对网页的点击行为信息;根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上;查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,并根据查找结果实时检测是否存在对所述网页的恶意点击行为。通过本实施例的技术方案,可以解决现有事后分析检测机制使商家无法及时得知不法分子对自己网站的恶意点击行为的问题,达到检测实时性较好,用户体验更佳的效果。
在上述技术方案的基础上,进一步增加了:删除所述目标节点上存储时长超过所述设定时间窗口的点击行为信息。将超过设定时间窗口的点击行为信息从内存中批量移除的好处在于:确保内存不会溢出,使得整个系统随着数据量的激增保持有足够的扩展空间。
需要说明的是,在本实施例中,对各个节点上的存储区的点击行为信息进行增加、删除、修改和查找操作,可以分别由不同的线程执行。为避免在同时执行上述多个操作时很有可能发生的冲突,需为这些线程设定不同的优先级别,优先级高的线程在执行时,对优先级低的线程加以锁定。
实施例二
图2为本发明实施例二提供的一种恶意点击行为实时检测方法中更新分布式索引关系操作的流程图,本实施例在实施例一的基础上,进一步增加了:基于一致性哈希算法,创建所述分布式索引关系;
所述方法,还增加了:当检测到有新的节点接入时,根据所述一致性哈希算法,更新所述分布式索引关系;根据更新后的分布式索引关系,重新存储已存储的各条点击行为信息。
参照图2所示,所述恶意点击行为实时检测方法,包括如下操作:
操作S200、基于一致性哈希算法,创建所述分布式索引关系。
监测单个网站在设定时间窗口(可以是两小时,或其他用户设定的时间长度)内的点击行为信息,提取所述点击行为信息中网页标识(可以是网页的URL),基于一致性哈希算法,创建各个网页与各个节点之间对应的分布式索引关系,保证系统随着数据量的激增保持有足够的扩展空间。
操作S210、根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上。
在接收到所述网页的点击行为信息后,采用一致性哈希算法计算出该网页的点击行为信息所对应的目标节点,并将所述点击行为信息存储于所述目标节点。
操作S220、当检测到有新的节点接入时,根据所述一致性哈希算法,更新所述分布式索引关系;根据更新后的分布式索引关系,重新存储已存储的各条点击行为信息。
在进行系统扩展时,增加了节点的数量,根据一致性哈希算法更新所述分布式索引关系,按照更新后的分布式索引关系重新存储已存储的各条点击行为信息,实现在保持单调性的同时,还使数据的迁移达到最小。
本实施例的技术方案,通过在根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上之前,增加基于一致性哈希算法,创建所述分布式索引关系;当检测到有新的节点接入时,根据所述一致性哈希算法,更新所述分布式索引关系;根据更新后的分布式索引关系,重新存储已存储的各条点击行为信息。通过本实施例的技术方案使整个系统易于扩展,在保持单调性的同时,还使数据的迁移达到最小。在需要进行系统扩展时,只需添加电子设备作为节点即可完成整个系统的线性扩展。
实施例三
图3为本发明实施例三提供的一种恶意点击行为实时检测方法的流程图,本实施例在上述实施例的基础上,进一步的,将对所述网页的点击行为信息存储至对应的目标节点上具体优化为:向所述目标节点发送对所述网页的点击行为信息,以使得所述目标节点按照预先创建的子索引关系,以及接收点击行为信息的时间顺序,存储对所述网页的点击行为信息,其中所述子索引关系描述了所述目标节点接收点击行为信息的各个时间段与各个存储区之间的对应关系。
将查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息具体优化为:根据所述子索引关系,确定所述目标节点上用于存储最近设定时间窗口内所接收的各条点击行为信息的各个存储区;遍历各个存储区,依次查找存储区上存储的各条点击行为信息。
进一步的,将根据查找结果实时检测是否存在对所述网页的恶意点击行为具体优化为:检测查找结果中,点击时间间隔在设定时长内的,且与所述终端标识对应的各条点击行为信息是否满足如下条件:点击位置均位于设定的区域范围内,点击行为信息的条数大于设定阈值;
如果是,则判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。
进一步的,在获取终端所采集的对网页的点击行为信息之后,增加了如下步骤:
提取所述点击行为信息中所包含的对点击方式的识别结果;
如果所提取的识别结果是人工点击方式,触发执行根据预先创建的分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上的操作,否则判定所述终端上发生了一次对所述网页的恶意点击行为。
参见图3所示,所述恶意点击行为实时检测方法,包括如下操作:
操作S300、采用流式处理方式,获取终端所采集的对网页的点击行为信息。
采用流式处理方式获取终端所采集的对网页的实时点击行为信息,确保整个系统的可靠性和实时性。
操作S310、提取所述点击行为信息中所包含的对点击方式的识别结果。
所述点击行为信息包括终端标识(例如终端的IP地址)、网页标识(例如网页的URL)、点击时间、点击位置、以及对点击方式的识别结果。从所述点击行为信息中提取表示点击方式的识别结果的数据。
操作S320、判断所提取的识别结果是否是人工点击方式。
所述点击行为信息中对点击方式的识别结果包括人工点击方式和机器点击方式。在识别结果是人工点击方式时,执行操作S340;在识别结果是机器点击方式时,执行操作S330。
操作S330、判定所述终端上发生了一次对所述网页的恶意点击行为。
根据点击行为信息识别出点击方式是机器点击时,则直接得出所述移动终端存在对所述网页的恶意点击行为,无需再将对所述网页的点击行为信息存储于对应的目标节点,减少目标节点上存储的数据量,缩短了查找时间。
操作S340、根据分布式索引关系,向所述目标节点发送对所述网页的点击行为信息。
在识别结果是人工点击方式时,监测单个网站在设定时间窗口(可以是两小时,或其他用户设定的时间长度)内的点击行为信息,提取所述点击行为信息中网页标识(可以是网页的URL),基于一致性哈希算法,创建各个网页与各个节点之间对应的分布式索引关系,并将对所述网页的点击行为信息存储于相应的目标节点,以使得所述目标节点按照预先创建的子索引关系,以及接收点击行为信息的时间顺序,存储对所述网页的点击行为信息。其中所述子索引关系描述了所述目标节点接收点击行为信息的各个时间段与各个存储区之间的对应关系。
操作S350、确定所述目标节点上用于存储最近设定时间窗口内所接收的各条点击行为信息的各个存储区。
根据所述子索引关系,确定所述目标节点上用于存储最近设定时间窗口(可以是两小时,或其他用户设定的时间长度)内所接收的各条点击行为信息的各个存储区。
操作S360、遍历各个存储区,依次查找存储区上存储的各条点击行为信息。
遍历各个节点上的存储区,获取所述存储区上存储的各条点击行为信息。根据点击行为信息获取点击时间,从而得到两次点击行为之间的时间间隔。
操作S370、判断查找结果中是否存在满足预设条件的点击行为信息。
所述预设条件是:点击时间间隔在设定时长内(可以根据用户设定获取,例如点击时间间隔设置为5分钟或10分钟等),在点击位置均位于设定的区域范围内时,点击行为信息的条数大于设定阈值。例如,设定时长是5分钟,设定阈值是60,也即预设条件为:在5分钟内对网页上的同一区域内的点击次数超过60次。如果在5分钟内对网页上同一区域的点击次数低于60,认为是对所述网页的正常点击行为;如果在5分钟内对网页上同一区域的点击次数是80,判定是对所述网页的恶意点击行为。若查找结果中存在满足预设条件的点击行为信息,则执行操作S380,否则,返回执行操作S360。
当然,还可根据设定的恶意点击的阶梯频率来设置预设条件。例如,预设条件为:在5分钟内对网页上的同一区域内点击次数超过40次,10分钟内超过100次,15分钟内超过200次。也即:第一设定时长为5分钟,所对应的第一设定阈值为40;第二设定时长为10分钟,所对应的第二设定阈值为100,第三设定时长为15分钟,所对应的第三设定阈值为200。
操作S380、判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。
在最近设定时间窗口内(可以是两小时,或其他用户设定的时间长度),点击时间间隔在设定时长内,在点击位置均位于设定的区域范围内时,点击行为信息的条数大于设定阈值,判定所述终端上存在对所述网页的恶意点击行为。例如:设定时长是5分钟,设定阈值是40,那么,在5分钟内对网页上同一区域的点击次数是80,则判定对所述网页的点击行为时恶意点击行为。
在最近设定时间窗口内(可以是两小时,或其他用户设定的时间长度),点击时间间隔在设定时长内,在点击位置均位于设定的区域范围内时,点击行为信息的条数超过预设的阶梯频率,判定所述终端上存在对所述网页的恶意点击行为。例如:第一设定时长是5分钟,设定阈值为40,第二设定时长10分钟,设定阈值为100,第三设定时长15分钟,设定阈值为200,那么,在5分钟内对网页上同一区域的点击次数是60,在10分钟内对网页上同一区域的点击次数是120,在15分钟内对网页上同一区域的点击次数是240,则判定对所述网页的点击行为时恶意点击行为。
本实施例的技术方案,通过获取终端所采集的对网页的点击行为信息;提取其中所包含的对点击方式的识别结果;在点击方式是机器点击方式时,则直接得出所述移动终端存在对所述网页的恶意点击行为,无需再对该点击行为信息进行存储,减少整个系统检索的数据量;在点击方式是人工点击方式时,向所述目标节点发送对所述网页的点击行为信息;查找所述目标节点上存储的各条点击行为信息;判断查找结果中是否存在满足预设条件的点击行为;若存在,则判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。通过本发明实施例的方案,快速分辨出机器点击方式,减少整个系统的检索量;根据分布式索引关系,将人工点击方式中,各个网页的点击行为信息发送至对应的目标节点,简化查找难度,节约了查找时间,解决因时间延迟,使商家无法及时得知不法分子对自己网站的恶意点击行为的问题,达到检测的实时性较好,用户体验更佳的效果。
图3-1是本发明实施例三提供的一种恶意点击行为实时监测方法的框架图。参见图3-1所示,所述恶意点击行为实时检测方法,包括:数据采集,即将终端所采集的对网页的点击行为信息,采用流式处理方式发送至相应的节点。基于一致性哈希算法,创建各个网页与各个节点之间对应的分布式索引关系,并将对所述网页的点击行为信息存储于相应的目标节点,以使得所述目标节点按照预先创建的子索引关系,以及接收点击行为信息的时间顺序,存储对所述网页的点击行为信息。在查找各个节点上存储的各条点击行为信息时,能根据时序快速查找点击行为信息,时间复杂度约为O(logn)。若在最近设定时间窗口内(可以是两小时,或其他用户设定的时间长度),点击时间间隔在设定时长内,在点击位置均位于设定的区域范围内时,点击行为信息的条数超过预设的阶梯频率,判定所述终端上存在对所述网页的恶意点击行为,采用吞吐量高的缓存保存检测结果。
在原检测系统的基础上,增加如下设计实现本实施例提供的技术方案。具体设计如下:
保持原有系统的数据不便,不侵入原有系统,记录并索引最近设定时间窗口内(可以是两小时,或其他用户设定的时间长度)的对网页的实时点击行为信息。提取所述点击行为信息中,在最近设定时间窗口内(可以是两小时,或其他用户设定的时间长度),点击时间间隔在设定时长内,在点击位置均位于设定的区域范围内时,点击行为信息的条数。将所述点击行为信息的条数与设定的恶意点击的阶梯频率比较。如果点击时间间隔在设定时长内,点击位置均位于设定范围内的点击行为信息的点击频率超过预设的阶梯频率,判定所述终端上存在对所述网页的恶意点击行为,否则,判定所述点击行为是正常的点击行为,输出计算结果,用于提供给业务系统调用。例如,检测到第n个节点的点击时间间隔在设定时长内,对网页上同一区域的点击频率超过了预设的阶梯频率,则判定该节点上存在对所述网页的恶意点击行为,将检测结果发送至吞吐量高的缓存中保存,以备业务系统调用。
实施例四
图4所示为本发明实施例四提供的一种恶意点击行为实时检测装置的结构示意图,该恶意点击行为实时检测装置的具体结构如下:
获取单元400,用于采用流式处理方式,获取终端所采集的对网页的点击行为信息;
存储单元410,用于根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系;
查找单元420,用于查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息;
检测单元430,用于根据查找结果实时检测是否存在对所述网页的恶意点击行为。
本实施例的技术方案,通过获取单元400,接收终端所采集的对网页的点击行为信息;并根据分布式索引关系,通过存储单元410,将对所述网页的点击行为信息存储至对应的目标节点上;利用查找单元420查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息;通过检测单元430,实时检测是否存在对所述网页的恶意点击行为;解决现有事后分析检测机制使商家无法及时得知不法分子对自己网站的恶意点击行为的问题,达到检测实时性较好,用户体验更佳的效果。
在上述技术方案的基础上,进一步增加了:删除单元,用于删除所述目标节点上存储时长超过所述设定时间窗口的点击行为信息。将增加删除单元的好处在于:确保内存不会溢出,使得系统随着数据量的激增保持有足够的扩展空间。
实施例五
图5为本发明实施例五提供的恶意点击行为实时检测装置的结构示意图,本实施例在实施例四的基础上,进一步增加了索引创建单元520,用于在所述存储单元根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上之前,基于一致性哈希算法,创建所述分布式索引关系;
索引更新单元,用于当检测到有新的节点接入时,根据所述一致性哈希算法,更新所述分布式索引关系;根据更新后的分布式索引关系,重新存储已存储的各条点击行为信息。
进一步的,将存储单元530具体优化为:
用于向所述目标节点发送对所述网页的点击行为信息,以使得所述目标节点按照预先创建的子索引关系,以及接收点击行为信息的时间顺序,存储对所述网页的点击行为信息,其中所述子索引关系描述了所述目标节点接收点击行为信息的各个时间段与各个存储区之间的对应关系;
将所述查找单元540具体优化为:
用于查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,包括:根据所述子索引关系,确定所述目标节点上用于存储最近设定时间窗口内所接收的各条点击行为信息的各个存储区;遍历各个存储区,依次查找存储区上存储的各条点击行为信息。
进一步的,点击行为信息包括:终端标识、点击时间和点击位置;
将所述检测单元550具体优化为:
用于检测查找结果中,点击时间间隔在设定时长内的,且与所述终端标识对应的各条点击行为信息是否满足如下条件:点击位置均位于设定的区域范围内,点击行为信息的条数大于设定阈值;
如果是,则判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。
进一步增加了判定单元510,用于在所述获取单元获取终端所采集的对网页的点击行为信息之后,提取所述点击行为信息中所包含的对点击方式的识别结果;
如果所提取的识别结果是人工点击方式,触发所述存储单元执行根据预先创建的分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上的操作,否则判定所述终端上发生了一次对所述网页的恶意点击行为。
本实施例的技术方案,通过索引创建单元520,基于一致性哈希算法,创建所述分布式索引关系;当检测到有新的节点接入时,通过索引更新单元更新所述分布式索引关系;通过判定单元510,在获取单元500获取终端所采集的对网页的点击行为信息之后,提取所述点击行为信息中所包含的对点击方式的识别结果;如果所提取的识别结果是人工点击方式,触发执行根据预先创建的分布式索引关系,将对所述网页的点击行为信息存储至存储单元530的操作,否则判定所述终端上发生了一次对所述网页的恶意点击行为,无需将所述点击行为存储于目标节点中,节约了存储空间,减低了查找时间;查找存储单元530上存储的各条点击行为信息,如果检测结果满足预设条件,则判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。通过本发明实施例的技术方案快速分辨出机器点击方式,减少整个系统的检索量;根据分布式索引关系,将人工点击方式中,各个网页的点击行为信息发送至对应的目标节点,简化查找难度,节约了查找时间,解决因时间延迟,使商家无法及时得知不法分子对自己网站的恶意点击行为的问题,达到检测的实时性较好,用户体验更佳的效果。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种恶意点击行为检测方法,其特征在于,包括:
采用流式处理方式,获取终端所采集的对网页的点击行为信息;
根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系;
查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,并根据查找结果实时检测是否存在对所述网页的恶意点击行为。
2.根据权利要求1所述的方法,其特征在于,在根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上之前,还包括:
基于一致性哈希算法,创建所述分布式索引关系;
所述方法,还包括:当检测到有新的节点接入时,根据所述一致性哈希算法,更新所述分布式索引关系;根据更新后的分布式索引关系,重新存储已存储的各条点击行为信息。
3.根据权利要求2所述的方法,其特征在于,将对所述网页的点击行为信息存储至对应的目标节点上,包括:
向所述目标节点发送对所述网页的点击行为信息,以使得所述目标节点按照预先创建的子索引关系,以及接收点击行为信息的时间顺序,存储对所述网页的点击行为信息,其中所述子索引关系描述了所述目标节点接收点击行为信息的各个时间段与各个存储区之间的对应关系;
查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,包括:根据所述子索引关系,确定所述目标节点上用于存储最近设定时间窗口内所接收的各条点击行为信息的各个存储区;遍历各个存储区,依次查找存储区上存储的各条点击行为信息。
4.根据权利要求1所述的方法,其特征在于,所述点击行为信息包括:终端标识、点击时间和点击位置;
根据查找结果实时检测是否存在对所述网页的恶意点击行为,包括:
检测查找结果中,点击时间间隔在设定时长内的,且与所述终端标识对应的各条点击行为信息是否满足如下条件:点击位置均位于设定的区域范围内,点击行为信息的条数大于设定阈值;
如果是,则判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。
5.根据权利要求1-4中任一项所述的方法,其特征在于,还包括:删除所述目标节点上存储时长超过所述设定时间窗口的点击行为信息。
6.根据权利要求1-4中任一项所述的方法,其特征在于,在获取终端所采集的对网页的点击行为信息之后,还包括:
提取所述点击行为信息中所包含的对点击方式的识别结果;
如果所提取的识别结果是人工点击方式,触发执行根据预先创建的分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上的操作,否则判定所述终端上发生了一次对所述网页的恶意点击行为。
7.一种恶意点击行为检测装置,其特征在于,包括:
获取单元,用于采用流式处理方式,获取终端所采集的对网页的点击行为信息;
存储单元,用于根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上,其中所述分布式索引关系描述了各个网页与各个节点之间的对应关系;
查找单元,用于查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息;
检测单元,用于根据查找结果实时检测是否存在对所述网页的恶意点击行为。
8.根据权利要求7所述的装置,其特征在于,还包括:
索引创建单元,用于在所述存储单元根据分布式索引关系,将对所述网页的点击行为信息存储至对应的目标节点上之前,基于一致性哈希算法,创建所述分布式索引关系;
索引更新单元,用于当检测到有新的节点接入时,根据所述一致性哈希算法,更新所述分布式索引关系;根据更新后的分布式索引关系,重新存储已存储的各条点击行为信息。
9.根据权利要求8所述的装置,其特征在于,所述存储单元具体用于:
向所述目标节点发送对所述网页的点击行为信息,以使得所述目标节点按照预先创建的子索引关系,以及接收点击行为信息的时间顺序,存储对所述网页的点击行为信息,其中所述子索引关系描述了所述目标节点接收点击行为信息的各个时间段与各个存储区之间的对应关系;
所述查找单元具体用于:
查找所述目标节点上存储的,在最近设定时间窗口内对所述网页的各条点击行为信息,包括:根据所述子索引关系,确定所述目标节点上用于存储最近设定时间窗口内所接收的各条点击行为信息的各个存储区;遍历各个存储区,依次查找存储区上存储的各条点击行为信息。
10.根据权利要求7所述的装置,其特征在于,所述点击行为信息包括:终端标识、点击时间和点击位置;
所述检测单元具体用于:
检测查找结果中,点击时间间隔在设定时长内的,且与所述终端标识对应的各条点击行为信息是否满足如下条件:点击位置均位于设定的区域范围内,点击行为信息的条数大于设定阈值;
如果是,则判定在所述最近设定时间窗口内所述终端上存在对所述网页的恶意点击行为。
CN201510599775.XA 2015-09-18 2015-09-18 恶意点击行为检测方法及装置 Pending CN105183873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510599775.XA CN105183873A (zh) 2015-09-18 2015-09-18 恶意点击行为检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510599775.XA CN105183873A (zh) 2015-09-18 2015-09-18 恶意点击行为检测方法及装置

Publications (1)

Publication Number Publication Date
CN105183873A true CN105183873A (zh) 2015-12-23

Family

ID=54905954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510599775.XA Pending CN105183873A (zh) 2015-09-18 2015-09-18 恶意点击行为检测方法及装置

Country Status (1)

Country Link
CN (1) CN105183873A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578263A (zh) * 2017-07-21 2018-01-12 北京奇艺世纪科技有限公司 一种广告异常访问的检测方法、装置和电子设备
CN107704475A (zh) * 2016-08-10 2018-02-16 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
CN108156141A (zh) * 2017-12-14 2018-06-12 北京奇艺世纪科技有限公司 一种实时数据识别方法、装置及电子设备
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108243068A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种确定异常流量的方法及服务器
CN108920944A (zh) * 2018-06-12 2018-11-30 腾讯科技(深圳)有限公司 辅助点击事件的检测方法、装置、计算机设备及存储介质
CN109063206A (zh) * 2018-09-17 2018-12-21 北京点网聚科技有限公司 文章监控方法及装置
CN109726550A (zh) * 2017-10-27 2019-05-07 腾讯科技(深圳)有限公司 异常操作行为检测方法、装置及计算机可读存储介质
CN110213209A (zh) * 2018-05-11 2019-09-06 腾讯科技(深圳)有限公司 一种推送信息点击的作弊检测方法、装置及存储介质
CN110381063A (zh) * 2019-07-22 2019-10-25 秒针信息技术有限公司 一种确定作弊流量的方法及装置
CN112380540A (zh) * 2020-11-13 2021-02-19 武汉虹旭信息技术有限责任公司 Android应用安全检测方法及装置
CN112540904A (zh) * 2020-12-15 2021-03-23 北京百度网讯科技有限公司 机器操作行为识别方法、装置、电子设备以及计算机介质
CN112861035A (zh) * 2021-02-04 2021-05-28 北京豆萌信息技术有限公司 访问方法、装置和服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288093A (zh) * 2005-05-20 2008-10-15 维布兰特媒体有限公司 在线广告的防欺诈和侦查
US7873623B1 (en) * 2009-10-29 2011-01-18 Wowd, Inc. System for user driven ranking of web pages
CN103368957A (zh) * 2013-07-04 2013-10-23 北京奇虎科技有限公司 对网页访问行为进行处理的方法及系统、客户端、服务器
CN103606094A (zh) * 2013-11-06 2014-02-26 北京掌阔移动传媒科技有限公司 一种移动互联网广告监测方法和系统
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN104408182A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 分布式系统上网络爬虫数据的处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288093A (zh) * 2005-05-20 2008-10-15 维布兰特媒体有限公司 在线广告的防欺诈和侦查
US7873623B1 (en) * 2009-10-29 2011-01-18 Wowd, Inc. System for user driven ranking of web pages
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN103368957A (zh) * 2013-07-04 2013-10-23 北京奇虎科技有限公司 对网页访问行为进行处理的方法及系统、客户端、服务器
CN103606094A (zh) * 2013-11-06 2014-02-26 北京掌阔移动传媒科技有限公司 一种移动互联网广告监测方法和系统
CN104408182A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 分布式系统上网络爬虫数据的处理方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704475A (zh) * 2016-08-10 2018-02-16 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108156193B (zh) * 2016-12-02 2022-08-19 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108243068A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种确定异常流量的方法及服务器
CN107578263A (zh) * 2017-07-21 2018-01-12 北京奇艺世纪科技有限公司 一种广告异常访问的检测方法、装置和电子设备
CN109726550B (zh) * 2017-10-27 2022-05-06 腾讯科技(深圳)有限公司 异常操作行为检测方法、装置及计算机可读存储介质
CN109726550A (zh) * 2017-10-27 2019-05-07 腾讯科技(深圳)有限公司 异常操作行为检测方法、装置及计算机可读存储介质
CN108156141A (zh) * 2017-12-14 2018-06-12 北京奇艺世纪科技有限公司 一种实时数据识别方法、装置及电子设备
CN110213209A (zh) * 2018-05-11 2019-09-06 腾讯科技(深圳)有限公司 一种推送信息点击的作弊检测方法、装置及存储介质
CN108920944A (zh) * 2018-06-12 2018-11-30 腾讯科技(深圳)有限公司 辅助点击事件的检测方法、装置、计算机设备及存储介质
CN109063206B (zh) * 2018-09-17 2020-11-27 北京一点网聚科技有限公司 文章监控方法及装置
CN109063206A (zh) * 2018-09-17 2018-12-21 北京点网聚科技有限公司 文章监控方法及装置
CN110381063A (zh) * 2019-07-22 2019-10-25 秒针信息技术有限公司 一种确定作弊流量的方法及装置
CN112380540A (zh) * 2020-11-13 2021-02-19 武汉虹旭信息技术有限责任公司 Android应用安全检测方法及装置
CN112540904A (zh) * 2020-12-15 2021-03-23 北京百度网讯科技有限公司 机器操作行为识别方法、装置、电子设备以及计算机介质
CN112540904B (zh) * 2020-12-15 2023-06-23 北京百度网讯科技有限公司 机器操作行为识别方法、装置、电子设备以及计算机介质
CN112861035A (zh) * 2021-02-04 2021-05-28 北京豆萌信息技术有限公司 访问方法、装置和服务器
CN112861035B (zh) * 2021-02-04 2024-04-16 北京豆萌信息技术有限公司 访问方法、装置和服务器

Similar Documents

Publication Publication Date Title
CN105183873A (zh) 恶意点击行为检测方法及装置
JP6588572B2 (ja) 情報推薦方法および情報推薦装置
US9462313B1 (en) Prediction of media selection consumption using analysis of user behavior
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
EP2407897A1 (en) Device for determining internet activity
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN109905288B (zh) 一种应用服务分类方法及装置
EP3031216A1 (en) Dynamic collection analysis and reporting of telemetry data
CN105608117A (zh) 一种信息推荐方法及装置
US11809505B2 (en) Method for pushing information, electronic device
US20190266206A1 (en) Data processing method, server, and computer storage medium
CN105260913A (zh) 用于互联网广告投放的ctr预估方法、dsp服务器、系统
CN107977678B (zh) 用于输出信息的方法和装置
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN107784551A (zh) 股票舆情数据处理方法、装置、计算机设备和存储介质
CN113407773A (zh) 一种短视频智能推荐方法、系统、电子设备及存储介质
CN104219230A (zh) 识别恶意网站的方法及装置
CN111597449A (zh) 用于搜索的候选词构建方法、装置、电子设备及可读介质
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
CN107093092B (zh) 数据分析方法和装置
CN106910082A (zh) 一种调取广告进行推送的方法和装置
CN104202418A (zh) 为内容提供商推荐商业的内容分发网络的方法和系统
CN110390424A (zh) 测试对象的寿命预估方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223

RJ01 Rejection of invention patent application after publication