CN110912860A - 一种检测伪周期性访问行为的方法及装置 - Google Patents

一种检测伪周期性访问行为的方法及装置 Download PDF

Info

Publication number
CN110912860A
CN110912860A CN201811084462.0A CN201811084462A CN110912860A CN 110912860 A CN110912860 A CN 110912860A CN 201811084462 A CN201811084462 A CN 201811084462A CN 110912860 A CN110912860 A CN 110912860A
Authority
CN
China
Prior art keywords
sequence
access
delay
access path
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811084462.0A
Other languages
English (en)
Other versions
CN110912860B (zh
Inventor
刘鑫琪
丛磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuan Xin Yun Information Technology Co Ltd
Original Assignee
Beijing Shuan Xin Yun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuan Xin Yun Information Technology Co Ltd filed Critical Beijing Shuan Xin Yun Information Technology Co Ltd
Priority to CN201811084462.0A priority Critical patent/CN110912860B/zh
Publication of CN110912860A publication Critical patent/CN110912860A/zh
Application granted granted Critical
Publication of CN110912860B publication Critical patent/CN110912860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种检测伪周期性访问行为的方法及装置。所公开的方法包括:获取用户在指定时间段内的访问路径序列、以及与访问路径序列对应的访问时间戳序列;计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列;基于时间戳序列计算时间差序列,计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列;当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期时,确定用户具有伪周期性访问行为。所公开的技术方案能够自动检测伪周期性的访问行为,进而将所检测出的访问行为确定为爬虫行为或其它非法网络行为。

Description

一种检测伪周期性访问行为的方法及装置
技术领域
本发明涉及计算机网络安全技术领域,尤其涉及一种检测伪周期性访问行为的方法及装置。
背景技术
计算机网络技术的不断发展给人们的工作和生活带来了巨大的便利。
然而,计算机网络中也普遍存在着非法访问、获取和破坏他人网络服务和/或网络数据的行为。例如,用户可以使用爬虫程序来爬取网页内容(例如,以自动获取网站的各种资源文件);不法用户可以通过人工操作计算机或者利用自动化攻击软件对服务器、个人电脑等进行网络攻击(例如,以获取网站的注册用户名、注册用户的其它个人信息、消耗或破坏网络资源)等。
以检测爬虫程序为例,现有技术多基于爬虫的设计模式,采用以下方法进行检测:
方法一:基于自建的爬虫IP数据库进行爬虫检测。将待检测IP与已知爬虫IP数据库中的IP地址逐一匹配,如果存在与之匹配的IP地址,则将来自该IP地址的访问判定为爬虫。在自建爬虫IP数据库时,尽管知名搜索引擎的IP地址较易获取,然而,用户真正希望检测的恶意爬虫的IP却难以获取,且这些恶意爬虫的IP经常发生变化,因此,这种方法实际上难以及时更新其自建的爬虫IP数据库,且获取每条恶意爬虫IP记录的成本较高。
方法二:用户代理检测。通过检测用户代理是否为正常用户,或检测用户代理是否在用户代理黑名单中。用户代理极易伪造,容易产生漏判。
方法三:对特殊链接进行流量监控。将检测到的访问某链接或某类链接的流量高于正常水平的用户确定为攻击用户。该方法需要指定特定链接,并且需要基于正常水平(即,此链接的正常用户访问流量)进行监控,当有新的链接或业务访问量整体发生变化时,不能及时地进行策略调整。
方法四:基于机器学习所建立的模型进行检测。通过对爬虫和正常用户的标签数据进行建模,使用模型进行爬虫检测。该方法一般为有监督学习,需要针对特定业务对数据进行标记,且需要不断更新模型防止误判、漏判。
然而,爬虫行为大多数具有周期性特征,上述现有技术方案均没有考虑周期性这一特点。因此,可以基于将具有伪周期性的访问行为作为检测爬虫的方法,来提出新的技术方案。
发明内容
根据本发明的检测伪周期性访问行为的方法,包括:
获取用户在指定时间段内的访问路径序列、以及与访问路径序列对应的访问时间戳序列;
计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列,其中,不同访问路径延迟序列对应于不同的序列延迟;
基于时间戳序列计算时间差序列,计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列,其中,不同时间差延迟序列对应于不同的序列延迟;
当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期时,确定用户具有伪周期性访问行为。
根据本发明的检测伪周期性访问行为的方法,基于访问日志,按照时间顺序获取用户在指定时间段内的访问路径序列和访问时间戳序列,
其中,访问路径是去除了“http://”协议字符串、“https://”协议字符串、“?”字符、以及“?”字符之后的字符的URL。
根据本发明的检测伪周期性访问行为的方法,其计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数的步骤包括:
以“/”字符为分隔符,将每个访问路径划分为由多个有序字符串组成的有序字符串序列;
计算每个访问路径延迟序列与访问路径序列的对应访问路径序列索引位置处的两个有序字符串序列之间的访问路径序列相似度的平均值;
将访问路径序列相似度的平均值作为第一延迟自相关系数,
其中,通过以下步骤计算两个有序字符串序列之间的访问路径序列相似度:
计算两个有序字符串序列之间的对应有序字符串序列索引位置处的字符串之间的Jaccard字符相似度的平均值。
根据本发明的检测伪周期性访问行为的方法,其计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数的步骤包括:
计算每个时间差延迟序列与时间差序列的对应序列索引位置处的时间差的值的相似度的平均值;
将时间差的值的相似度的平均值作为第二延迟自相关系数。
根据本发明的检测伪周期性访问行为的方法,还包括:
当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期、且当第一延迟自相关系数序列的所有峰值都大于指定阈值时,确定用户具有伪周期性访问行为。
根据本发明的检测伪周期性访问行为的方法,还包括:
确定多个用户的伪周期性访问行为各自所对应的多个最大频繁项集;
当具有相同最大频繁项集的用户数超过用户总数的预定百分比时,不对伪周期性访问行为进行干预操作,
其中,最大频繁项集包括:在所有伪周期内出现的概率值大于预定概率值的所有访问路径。
根据本发明的检测伪周期性访问行为的装置,包括:
数据获取模块,用于获取用户在指定时间段内的访问路径序列、以及与访问路径序列对应的访问时间戳序列;
第一计算模块,用于计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列,其中,不同访问路径延迟序列对应于不同的序列延迟;
第二计算模块,用于基于时间戳序列计算时间差序列,计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列,其中,不同时间差延迟序列对应于不同的序列延迟;
第一确定模块,用于当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期时,确定用户具有伪周期性访问行为。
根据本发明的检测伪周期性访问行为的装置,其数据获取模块还用于:
基于访问日志,按照时间顺序获取用户在指定时间段内的访问路径序列和访问时间戳序列,
其中,访问路径是去除了“http://”协议字符串、“https://”协议字符串、“?”字符、以及“?”字符之后的字符的URL。
根据本发明的检测伪周期性访问行为的装置,还包括:
第二确定模块,用于当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期、且当第一延迟自相关系数序列的所有峰值都大于指定阈值时,确定用户具有伪周期性访问行为。
根据本发明的检测伪周期性访问行为的装置,还包括:
第三确定模块,用于确定多个用户的伪周期性访问行为各自所对应的多个最大频繁项集;
第四确定模块,用于当具有相同最大频繁项集的用户数超过用户总数的预定百分比时,不对伪周期性访问行为进行干预操作,
其中,最大频繁项集包括:在所有伪周期内出现的概率值大于预定概率值的所有访问路径。
根据本发明的上述技术方案,能够自动检测伪周期性的访问行为,进而将所检测出的访问行为确定为爬虫行为或其它非法网络行为。
附图说明
并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与相关的文字描述一起用于解释本发明的原理。在这些附图中,类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1示例性地示出了根据本发明的检测伪周期性访问行为的方法的示意流程图。
图2示例性地示出了根据本发明的检测伪周期性访问行为的装置的示意框图。
图3示例性地示出了访问路径自相关序列和时间差自相关序列与延迟之间的关系曲线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1示例性地示出了根据本发明的检测伪周期性访问行为的方法的示意流程图。
如图1的实线框所示,根据本发明的检测伪周期性访问行为的方法,包括:
步骤S102:获取用户在指定时间段内的访问路径序列、以及与访问路径序列对应的访问时间戳序列;
步骤S104:计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列,其中,所述不同访问路径延迟序列对应于不同的序列延迟;
步骤S106:基于时间戳序列计算时间差序列,计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列,其中,所述不同时间差延迟序列对应于不同的序列延迟;
步骤S108:当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期时,确定用户具有伪周期性访问行为。
可选地,在步骤S102中,基于访问日志,按照时间顺序获取用户在指定时间段内的访问路径序列和访问时间戳序列,
其中,访问路径是去除了“http://”协议字符串、“https://”协议字符串、“?”字符、以及“?”字符之后的字符的URL。
协议字符串还可以是其他协议的字符串,比如“ftp://”。
例如,在步骤S102中,可以执行以下具体操作:
获取检测时间段内指定用户所有的日志,并按时间进行排序。
获取该段检测时间段内该用户访问的时间戳及其对应的访问路径,按时间顺序组成该用户的访问时间序列数据(其中包括时间戳序列和与该时间戳序列对应的访问路径序列)。可选地,可以将字符串类型的时间值转为时间戳。
可选地,在步骤S104中,“计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数”的步骤包括:
以“/”字符为分隔符,将每个访问路径划分为由多个有序字符串组成的有序字符串序列;
计算每个访问路径延迟序列与访问路径序列的对应访问路径序列索引位置处的两个有序字符串序列之间的访问路径序列相似度的平均值;
将访问路径序列相似度的平均值作为第一延迟自相关系数,
其中,通过以下步骤计算两个有序字符串序列之间的访问路径序列相似度:
计算两个有序字符串序列之间的对应有序字符串序列索引位置处的字符串之间的Jaccard字符相似度的平均值。
例如,在步骤S104中,可以执行以下具体操作:
访问路径自相关序列(即,上述第一延迟自相关系数序列):不断增加延迟τ(对应于上述不同序列延迟)计算访问路径序列的相似度系数作为访问路径自相关序列。具体算法定义如下:
字符串相似度:获取两个字符串去重后的两个集合set1和set2,计算Jaccard字符相似度(等于样本集交集个数和样本集并集个数的比值J(set1,set2))。
Figure BDA0001802727460000071
访问路径相似度:按照“/”切割访问路径,相同索引位置的字符串相似度之和除以总长度。其中总长度为两个访问路径的切割后长度的最大值。例如:
访问路径1:www.baishancloud.com/tech/cdn/
访问路径2:www.baishancloud.com/solution/new-government-affairs/
切割路径:
表1:切割路径示例
索引位置1 索引位置2 索引位置3
www.baishancloud.com tech cdn
www.baishancloud.com solution new-government-affairs
字符串去重:
表2:字符串去重示例
Figure BDA0001802727460000072
相同索引位置计算Jaccard字符相似度:
表3:Jaccard字符相似度计算示例
索引位置1 索引位置2 索引位置3
1.0 0.1 0.0625
访问路径1和访问路径2相似度=相似度之和除以总长度。
其中,总长度=访问路径1的切割后长度和访问路径2的切割后长度的最大值。
本例中的总长度为3,因此:
访问路径1和访问路径2相似度=(1.0+0.1+0.0625)/3=0.3875。
访问路径序列的相似度系数(即,上述第一延迟自相关系数):两个访问路径序列,相同索引位置上的访问路径计算访问路径相似度,所有位置上的相似度之和除以访问路径时间序列的长度,作为访问路径相似度序列。
例如,假设访问路径序列为:www.baishancloud.com/tech/atd/,www.baishancloud.com/tech/cwn/,www.baishancloud.com/tech/atd/,www.baishancloud.com/tech/cwn/,www.baishancloud.com/tech/atd/,www.baishancloud.com/tech/cwn/,www.baishancloud.com/tech/atd/,www.baishancloud.com/tech/cwn/,那么延迟τ=1时的访问路径序列的相似度系数可以按照以下方法计算:
表4:τ=1时的访问路径相似度系数计算示例
Figure BDA0001802727460000081
则τ=1时访问路径序列的相似度系数为(2/3+2/3+2/3+2/3+2/3+2/3+2/3)/7=2/3
可选地,在步骤S106中,“计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数”的步骤包括:
计算每个时间差延迟序列与时间差序列的对应序列索引位置处的时间差的值的相似度的平均值;
将时间差的值的相似度的平均值作为第二延迟自相关系数。
例如,在步骤S106中,可以执行以下具体操作:
时间差自相关序列(即,上述第二延迟自相关系数序列):通过时间戳序列计算每个获取时间差序列X(即每次请求时间戳与上次时间戳之前的时间差,如为第一次请求则时间差默认为0)。使用自相关函数公式不断增加延迟τ计算对应的自相关系数(即,上述时间差的值的相似度的平均值或第二延迟自相关系数),形成自相关序列。可以通过以下公式计算延迟为τ的时间差延迟序列与(原始)时间差序列X之间的皮尔森相关系数,来作为上述时间差的值的相似度的平均值或第二延迟自相关系数:
Figure BDA0001802727460000091
其中,μ为X的期望值,σ为X的标准差。
另外,也可以采用自定义的其他相关系数,来作为上述时间差的值的相似度的平均值或第二延迟自相关系数。
图3示例性地示出了访问路径自相关序列(下部曲线)和时间差自相关序列(上部曲线)与延迟之间的关系曲线。
可选地,如果无法从图3直接获取访问路径自相关序列和时间差自相关序列各自的周期,那么在步骤S108之前,还可以包括以下步骤(在图1中未示出):
获取该用户序列的周期长度。使用离散傅里叶变换计算周期。
离散傅里叶变化是常用的处理周期性信号的方法,它的一个重要特点就是隐含周期性,通过对频谱等间隔采样,获取最大频率所对应的周期即为本次需要获取的周期长度。
分别对时间差自相关序列和访问路径自相关序列采用离散傅里叶变换,分别的获取两个序列的(序列索引)周期长度。
例如,可以判断访问路径周期长度是否大于时间差序列周期长度,如小于则不具有伪周期性。因为时间差的周期可能很短,时间差的周期若大于访问路径周期一定值,则说明时间和访问路径的周期性并不协同。
可选地,如图1的虚线框所示,根据本发明的检测伪周期性访问行为的方法,还包括:
步骤S110:当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期、且当第一延迟自相关系数序列的所有峰值都大于指定阈值时,确定用户具有伪周期性访问行为。
例如,可以判断各周期峰值是否大于指定阈值:利用获取的周期遍历序列数据判断峰值是否大于等于指定阈值,如小于则不具有伪周期性。
每个周期的峰值获取方式为:利用周期长度进行访问路径序列的切割,忽略第一个周期及最后一个后期,防止由于取样时间截取导致周期内行为不完整。统计访问路径自相关序列在其余的周期内的峰值,判断每个周期的峰值是否大于指定阈值,如小于则判断不具有伪周期性。
可选地,如图1的虚线框所示,根据本发明的检测伪周期性访问行为的方法,还包括:
步骤S112:确定多个用户的伪周期性访问行为各自所对应的多个最大频繁项集;
步骤S114:当具有相同最大频繁项集的用户数超过用户总数的预定百分比时,不对伪周期性访问行为进行干预操作,
其中,最大频繁项集包括:在所有伪周期内出现的概率值大于预定概率值的所有访问路径。
例如,可以判断各周期峰值是否大于指定阈值:利用获取的周期遍历序列数据判断峰值是否大于指定阈值,如小于则不具有伪周期性。
每个周期的峰值获取方式为:利用周期长度进行访问路径序列的切割,忽略第一个周期及最后一个后期,防止由于取样时间截取导致周期内行为不完整。统计访问路径自相关序列在其余的周期内的峰值,判断每个周期的峰值是否大于指定阈值或大于等于指定阈值,如小于则判断不具有伪周期性。
表5:τ=1时的访问路径周期划分示例
Figure BDA0001802727460000101
Figure BDA0001802727460000111
例如,可以对表4中的多个访问路径序列进行周期划分,最终划分为如表5所示的4个周期。
例如,为了防止不完整取样的情况,可以忽略周期1和周期4,仅仅选取中间的2个剩余周期来得出最终的最大频繁项集。由于www.baishancloud.com/tech/atd/和www.baishancloud.com/tech/cwn/出现在中间的2个剩余周期中,则在所有伪周期内出现的概率值均为2/2,大于阈值0.9(即,上述预定百分比,可以根据需要进行调整),则最大频繁项集为[www.baishancloud.com/tech/atd/,www.baishancloud.com/tech/cwn/]。即,该用户访问的所有访问路径去重后为[www.baishancloud.com/tech/atd/,www.baishancloud.com/tech/cwn/],则最大频繁项集占比(即,在所有伪周期内出现的概率值)为2/2=1。
例如,以判断该用户行为是否为爬虫行为为例。如大部分用户(即,上述多个用户,用户数量可以根据需要进行选择,以能够保证最终统计结果的准确性为准)均被判定有伪周期性行为,且最大频繁项集相似,则判定该伪周期性行为可能为业务模式导致,例如心跳上报等,则将该最大频繁项集的访问路径作为白名单(即,作为背景音),此类行为不再进行判断(即,上述不对伪周期性访问行为进行干预操作)。否则判断该用户具有伪周期性行为,判定为爬虫类。
图2示例性地示出了根据本发明的检测伪周期性访问行为的装置200的示意框图。
如图2的实线框所示,检测伪周期性访问行为的装置200包括:
数据获取模块201,用于获取用户在指定时间段内的访问路径序列、以及与访问路径序列对应的访问时间戳序列;
第一计算模块203,用于计算不同访问路径延迟序列与访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列,其中,所述不同访问路径延迟序列对应于不同的序列延迟;
第二计算模块205,用于基于时间戳序列计算时间差序列,计算不同时间差延迟序列与时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列,其中,所述不同时间差延迟序列对应于不同的序列延迟;
第一确定模块207,用于当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期时,确定用户具有伪周期性访问行为。
可选地,数据获取模块201还用于:
基于访问日志,按照时间顺序获取用户在指定时间段内的访问路径序列和访问时间戳序列,
其中,访问路径是去除了“http://”协议字符串、“https://”协议字符串、“?”字符、以及“?”字符之后的字符的URL。
可选地,第一计算模块203还用于:
以“/”字符为分隔符,将每个访问路径划分为由多个有序字符串组成的有序字符串序列;
计算每个访问路径延迟序列与访问路径序列的对应访问路径序列索引位置处的两个有序字符串序列之间的访问路径序列相似度的平均值;
将访问路径序列相似度的平均值作为第一延迟自相关系数,
其中,通过以下步骤计算两个有序字符串序列之间的访问路径序列相似度:
计算两个有序字符串序列之间的对应有序字符串序列索引位置处的字符串之间的Jaccard字符相似度的平均值。
可选地,第二计算模块205还用于:
计算每个时间差延迟序列与时间差序列的对应序列索引位置处的时间差的值的相似度的平均值;
将时间差的值的相似度的平均值作为第二延迟自相关系数。
可选地,如图2的虚线框所示,检测伪周期性访问行为的装置200还包括:
第二确定模块209,用于当第一延迟自相关系数序列的周期大于或等于第二延迟自相关系数序列的周期、且当第一延迟自相关系数序列的所有峰值都大于指定阈值时,确定用户具有伪周期性访问行为。
可选地,如图2的虚线框所示,检测伪周期性访问行为的装置200还包括:
第三确定模块211,用于确定多个用户的伪周期性访问行为各自所对应的多个最大频繁项集;
第四确定模块213,用于当具有相同最大频繁项集的用户数超过用户总数的预定百分比时,不对伪周期性访问行为进行干预操作,
其中,最大频繁项集包括:在所有伪周期内出现的概率值大于预定概率值的所有访问路径。
根据本发明的上述技术方案,能够自动检测伪周期性的访问行为,进而将所检测出的访问行为确定为爬虫行为或其它非法网络行为。例如,可以通过分析web访问日志,进行用户行为挖掘,发现行为具有伪周期性的用户以检测出潜在的爬虫用户。减少了通过黑名单或白名单方式来检测爬虫行为或其它非法行为时所需的名单维护成本,减少了根据特定链接流量监控的链接维护成本,以及减少了根据特定业务进行标注的成本,是对已有检测方法的有效补充。
根据本发明的上述技术方案,能够避免背景技术部分所述的现有方法四中为了进行模型训练而针对用户行为打标签的操作步骤,属于无监督模型,且会自动生成白名单,以去除业务模式导致的伪周期性行为,防止产生误判。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的精神和范围。

Claims (10)

1.一种检测伪周期性访问行为的方法,其特征在于,包括:
获取用户在指定时间段内的访问路径序列、以及与所述访问路径序列对应的访问时间戳序列;
计算不同访问路径延迟序列与所述访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列,其中,所述不同访问路径延迟序列对应于不同的序列延迟;
基于所述时间戳序列计算时间差序列,计算不同时间差延迟序列与所述时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列,其中,所述不同时间差延迟序列对应于不同的序列延迟;
当所述第一延迟自相关系数序列的周期大于或等于所述第二延迟自相关系数序列的周期时,确定所述用户具有伪周期性访问行为。
2.如权利要求1所述的检测伪周期性访问行为的方法,其特征在于,基于访问日志,按照时间顺序获取用户在所述指定时间段内的所述访问路径序列和所述访问时间戳序列,
其中,访问路径是去除了“http://”协议字符串、“https://”协议字符串、“?”字符、以及“?”字符之后的字符的URL。
3.如权利要求1或2所述的检测伪周期性访问行为的方法,其特征在于,所述计算所述不同访问路径延迟序列与所述访问路径序列之间的各个第一延迟自相关系数的步骤包括:
以“/”字符为分隔符,将每个访问路径划分为由多个有序字符串组成的有序字符串序列;
计算每个访问路径延迟序列与所述访问路径序列的对应访问路径序列索引位置处的两个有序字符串序列之间的访问路径序列相似度的平均值;
将所述访问路径序列相似度的平均值作为所述第一延迟自相关系数,
其中,通过以下步骤计算所述两个有序字符串序列之间的访问路径序列相似度:
计算所述两个有序字符串序列之间的对应有序字符串序列索引位置处的字符串之间的Jaccard字符相似度的平均值。
4.如权利要求1或2所述的检测伪周期性访问行为的方法,其特征在于,计算所述不同时间差延迟序列与所述时间差序列之间的各个第二延迟自相关系数的步骤包括:
计算每个时间差延迟序列与所述时间差序列的对应序列索引位置处的时间差的值的相似度的平均值;
将所述时间差的值的相似度的平均值作为所述第二延迟自相关系数。
5.如权利要求1或2所述的检测伪周期性访问行为的方法,其特征在于,还包括:
当所述第一延迟自相关系数序列的周期大于或等于所述第二延迟自相关系数序列的周期、且当所述第一延迟自相关系数序列的所有峰值都大于指定阈值时,确定所述用户具有伪周期性访问行为。
6.如权利要求1或2所述的检测伪周期性访问行为的方法,其特征在于,还包括:
确定多个用户的伪周期性访问行为各自所对应的多个最大频繁项集;
当具有相同最大频繁项集的用户数超过用户总数的预定百分比时,不对所述伪周期性访问行为进行干预操作,
其中,所述最大频繁项集包括:在所有伪周期内出现的概率值大于预定概率值的所有访问路径。
7.一种检测伪周期性访问行为的装置,其特征在于,包括:
数据获取模块,用于获取用户在指定时间段内的访问路径序列、以及与所述访问路径序列对应的访问时间戳序列;
第一计算模块,用于计算不同访问路径延迟序列与所述访问路径序列之间的各个第一延迟自相关系数,组成第一延迟自相关系数序列,其中,所述不同访问路径延迟序列对应于不同的序列延迟;
第二计算模块,用于基于所述时间戳序列计算时间差序列,计算不同时间差延迟序列与所述时间差序列之间的各个第二延迟自相关系数,组成第二延迟自相关系数序列,其中,所述不同时间差延迟序列对应于不同的序列延迟;
第一确定模块,用于当所述第一延迟自相关系数序列的周期大于或等于所述第二延迟自相关系数序列的周期时,确定所述用户具有伪周期性访问行为。
8.如权利要求7所述的检测伪周期性访问行为的装置,其特征在于,所述数据获取模块还用于:
基于访问日志,按照时间顺序获取用户在所述指定时间段内的所述访问路径序列和所述访问时间戳序列,
其中,访问路径是去除了“http://”协议字符串、“https://”协议字符串、“?”字符、以及“?”字符之后的字符的URL。
9.如权利要求7或8所述的检测伪周期性访问行为的装置,其特征在于,还包括:
第二确定模块,用于当所述第一延迟自相关系数序列的周期大于或等于所述第二延迟自相关系数序列的周期、且当所述第一延迟自相关系数序列的所有峰值都大于指定阈值时,确定所述用户具有伪周期性访问行为。
10.如权利要求7或8所述的检测伪周期性访问行为的装置,其特征在于,还包括:
第三确定模块,用于确定多个用户的伪周期性访问行为各自所对应的多个最大频繁项集;
第四确定模块,用于当具有相同最大频繁项集的用户数超过用户总数的预定百分比时,不对所述伪周期性访问行为进行干预操作,
其中,所述最大频繁项集包括:在所有伪周期内出现的概率值大于预定概率值的所有访问路径。
CN201811084462.0A 2018-09-18 2018-09-18 一种检测伪周期性访问行为的方法及装置 Active CN110912860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811084462.0A CN110912860B (zh) 2018-09-18 2018-09-18 一种检测伪周期性访问行为的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811084462.0A CN110912860B (zh) 2018-09-18 2018-09-18 一种检测伪周期性访问行为的方法及装置

Publications (2)

Publication Number Publication Date
CN110912860A true CN110912860A (zh) 2020-03-24
CN110912860B CN110912860B (zh) 2022-02-18

Family

ID=69813582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811084462.0A Active CN110912860B (zh) 2018-09-18 2018-09-18 一种检测伪周期性访问行为的方法及装置

Country Status (1)

Country Link
CN (1) CN110912860B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684910A (zh) * 2013-12-02 2014-03-26 北京工业大学 一种基于工业控制系统网络流量的异常检测方法
CN105224691A (zh) * 2015-10-30 2016-01-06 北京网康科技有限公司 一种信息处理方法及装置
US20160134641A1 (en) * 2014-11-06 2016-05-12 International Business Machines Corporation Detection of beaconing behavior in network traffic
CN105847283A (zh) * 2016-05-13 2016-08-10 深圳市傲天科技股份有限公司 一种基于信息熵方差分析的异常流量检测方法
CN105978897A (zh) * 2016-06-28 2016-09-28 南京南瑞继保电气有限公司 一种电力二次系统僵尸网络的检测方法
CN106156055A (zh) * 2015-03-27 2016-11-23 阿里巴巴集团控股有限公司 搜索引擎爬虫的识别、处理方法及装置
CN106302350A (zh) * 2015-06-01 2017-01-04 阿里巴巴集团控股有限公司 Url监测方法、装置及设备
US20170093907A1 (en) * 2015-09-28 2017-03-30 Verizon Patent And Licensing Inc. Network state information correlation to detect anomalous conditions
CN107463904A (zh) * 2017-08-08 2017-12-12 网宿科技股份有限公司 一种确定事件周期值的方法及装置
US9882927B1 (en) * 2014-06-30 2018-01-30 EMC IP Holding Company LLC Periodicity detection
US20180152464A1 (en) * 2016-11-29 2018-05-31 Fujitsu Limited Device and method for detecting attack in network

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684910A (zh) * 2013-12-02 2014-03-26 北京工业大学 一种基于工业控制系统网络流量的异常检测方法
US9882927B1 (en) * 2014-06-30 2018-01-30 EMC IP Holding Company LLC Periodicity detection
US20160134641A1 (en) * 2014-11-06 2016-05-12 International Business Machines Corporation Detection of beaconing behavior in network traffic
CN106156055A (zh) * 2015-03-27 2016-11-23 阿里巴巴集团控股有限公司 搜索引擎爬虫的识别、处理方法及装置
CN106302350A (zh) * 2015-06-01 2017-01-04 阿里巴巴集团控股有限公司 Url监测方法、装置及设备
US20170093907A1 (en) * 2015-09-28 2017-03-30 Verizon Patent And Licensing Inc. Network state information correlation to detect anomalous conditions
CN105224691A (zh) * 2015-10-30 2016-01-06 北京网康科技有限公司 一种信息处理方法及装置
CN105847283A (zh) * 2016-05-13 2016-08-10 深圳市傲天科技股份有限公司 一种基于信息熵方差分析的异常流量检测方法
CN105978897A (zh) * 2016-06-28 2016-09-28 南京南瑞继保电气有限公司 一种电力二次系统僵尸网络的检测方法
US20180152464A1 (en) * 2016-11-29 2018-05-31 Fujitsu Limited Device and method for detecting attack in network
CN107463904A (zh) * 2017-08-08 2017-12-12 网宿科技股份有限公司 一种确定事件周期值的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI XIE等: ""A Large-Scale Hidden Semi-Markov Model for Anomaly Detection on User Browsing Behaviors"", 《IEEE/ACM TRANSACTIONS ON NETWORKING》 *
张玲等: ""基于自相关获取周期的时间序列模式挖掘算法"", 《信息工程大学学报》 *

Also Published As

Publication number Publication date
CN110912860B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
US10574681B2 (en) Detection of known and unknown malicious domains
US9218482B2 (en) Method and device for detecting phishing web page
CN110099059B (zh) 一种域名识别方法、装置及存储介质
WO2017107965A1 (zh) 一种web异常检测方法和装置
CN112434208A (zh) 一种孤立森林的训练及其网络爬虫的识别方法与相关装置
CN109905288B (zh) 一种应用服务分类方法及装置
CN108768921B (zh) 一种基于特征检测的恶意网页发现方法及系统
CN110351280A (zh) 一种威胁情报提取的方法、系统、设备及可读存储介质
CN114915479B (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
CN106534146A (zh) 一种安全监测系统及方法
CN112019519B (zh) 网络安全情报威胁度的检测方法、装置和电子装置
CN113726783B (zh) 异常ip地址识别方法、装置、电子设备及可读存储介质
EP3913888A1 (en) Detection method for malicious domain name in domain name system and detection device
CN108337269A (zh) 一种WebShell检测方法
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
CN113114618A (zh) 一种基于流量分类识别的物联网设备入侵检测的方法
CN112929370B (zh) 域名系统隐蔽信道检测方法及装置
CN114363062A (zh) 一种域名检测方法、系统、设备及计算机可读存储介质
CN111885011B (zh) 一种业务数据网络安全分析挖掘的方法及系统
CN110912860B (zh) 一种检测伪周期性访问行为的方法及装置
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN115296904B (zh) 域名反射攻击检测方法及装置、电子设备、存储介质
CN114793204A (zh) 一种网络资产探测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant