CN107800684A - 一种低频爬虫识别方法及装置 - Google Patents

一种低频爬虫识别方法及装置 Download PDF

Info

Publication number
CN107800684A
CN107800684A CN201710857222.9A CN201710857222A CN107800684A CN 107800684 A CN107800684 A CN 107800684A CN 201710857222 A CN201710857222 A CN 201710857222A CN 107800684 A CN107800684 A CN 107800684A
Authority
CN
China
Prior art keywords
behavior feature
goal behavior
cluster
user
accounting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710857222.9A
Other languages
English (en)
Other versions
CN107800684B (zh
Inventor
胡志磊
刘鑫琪
陈�峰
汪海
陈哲
从磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuan Xinyun Information Technology Co ltd
Guizhou Baishancloud Technology Co Ltd
Original Assignee
Guizhou White Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou White Cloud Technology Co Ltd filed Critical Guizhou White Cloud Technology Co Ltd
Priority to CN201710857222.9A priority Critical patent/CN107800684B/zh
Publication of CN107800684A publication Critical patent/CN107800684A/zh
Application granted granted Critical
Publication of CN107800684B publication Critical patent/CN107800684B/zh
Priority to PCT/CN2018/106370 priority patent/WO2019057048A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种低频爬虫识别方法及装置,此方法包括:根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;对各用户IP的行为特征矢量进行聚类获得多个簇;确定检验规则,判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。此装置包括特征计算模块,聚类模块,规则确定模块,识别模块。本发明可有效识别低频爬虫;可以解决传统安全产品无法识别的团伙威胁、低频威胁、关联威胁、持续威胁等;支持公有云或私有云部署,无需更改网络拓扑,无需嵌入任何代码,即可进行威胁识别和阻断,支持对接自定义阻断接口,极端情况下,即使部署环境全部断电,不会影响原业务正常运行。

Description

一种低频爬虫识别方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种低频爬虫识别方法及装置。
背景技术
互联网中充斥着大量的爬虫,在反爬虫的过程中,爬虫也在不断进化。爬虫的进化过程包括以下三个阶段:初级爬虫、浏览器爬虫和低频爬虫。其中,初级爬虫对目标页面进行爬取的同时没有对自身进行伪装,可以通过诸如用户代理(User-agent)、频率等特征准确识别;浏览器爬虫会将自身使用的User-agent通过Firefox、opera、chrome等各种类型的浏览器进行伪装,行为上也会与正常用户相类似,浏览器爬虫可以通过访问频率、时间轴等特征识别;低频爬虫是使用大量代理IP池模仿普通用户进行数据爬取的一种爬虫,低频爬虫在User-agent、频率、时间轴等特征中与普通用户更为接近,特别是频率往往1小时才会有个位数的访问。
现有技术一般通过收集代理IP库来进行低频爬虫识别。现有技术存在如下缺点:
(一)识别召回率受到代理IP库覆盖率所限制,目前互联网代理IP数以亿计,手机代理IP库只能够覆盖带很小部分;
(二)代理IP并不是一成不变的,因此需要经常对代理IP库进行更新,客户对于在线更新一般会有抵触态度,而离线更新与会面临更新延时的问题;
(三)通过使用ADSL小区宽带断线重播、多播得到的代理IP更加隐蔽,并且这种IP会有许多真实用户使用,代理IP库会面临误封、无法准确识别等问题。
发明内容
为了解决上述技术问题,本发明提供了一种低频爬虫识别方法及装置。
本发明提供了一种低频爬虫识别方法,包括:
根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;对各用户IP的行为特征矢量进行聚类获得多个簇;确定检验规则,判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。
上述方法还具有以下特点:
所述行为特征包括以下特征中的多个:平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。
上述方法还具有以下特点:
所述确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑和阈值;
所述判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。
或者,
所述确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、权重、阈值;
所述判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,计算此平均值与相应的权重的积,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
上述方法还具有以下特点:
所述确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长;
所述判断出满足相应的检验规则的簇包括:计算当前簇中所有IP的访问次数平均值和访问间隔平均值,判断此访问次数平均值大于所述访问次数阈值和/或访问间隔平均值大于访问间隔时长后,针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
上述方法还具有以下特点:
所述确定N个目标行为特征包括:使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。
本发明还提供了一种低频爬虫识别装置,包括:
特征计算模块,用于根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;
聚类模块,用于对各用户IP的行为特征矢量进行聚类获得多个簇;
规则确定模块,用于确定检验规则;
识别模块,用于判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。
上述装置还具有以下特点:
所述行为特征包括以下特征中的多个:平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。
上述装置还具有以下特点:
所述规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑和阈值;
所述识别模块用于判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值;
或者,
所述规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、权重、阈值;
所述识别模块用于针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,计算此平均值与相应的权重的积,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
上述装置还具有以下特点:
所述规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长;
所述识别模块用于计算当前簇中所有IP的访问次数平均值和访问间隔平均值,判断此访问次数平均值大于所述访问次数阈值和/或访问间隔平均值大于访问间隔时长后,针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
上述装置还具有以下特点:
所述规则确定模块还用于使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。
本发明具有以下优点:
(1)可以有效识别低频爬虫。
(2)基于用户行为进行数据建模,无需任何人工分析或者配置,通过无监督聚类自动智能识别各种深层次威胁,可以解决传统安全产品无法识别的团伙威胁、低频威胁、关联威胁、持续威胁等。
(3)支持公有云或私有云部署,无需更改网络拓扑,无需嵌入任何代码,即可进行威胁识别和阻断,支持对接自定义阻断接口,极端情况下,即使部署环境全部断电,不会影响原业务正常运行。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例中低频爬虫识别方法的流程图;
图2是实施例中低频爬虫识别装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是实施例中低频爬虫识别方法的流程图,此低频爬虫识别方法包括:
步骤1,根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;
步骤2,对各用户IP的行为特征矢量进行聚类获得多个簇;
步骤3,确定检验规则,判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。
其中,
步骤1中的行为特征包括以下特征中的多个:平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理(User Agent,UA)占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。
例如:
行为特征
平均请求发送字节数 3128
请求数 291
GET请求数占比 100%
UA最大相似占比 100%
Referer最大相似占比 100%
请求路径集合空间占比 56%
2XX状态码占比 50%
URL类型最大相似占比 49%
URL类型平均数 28.68
HTML请求占比的标准差 0.02
其他请求占比的标准差 0
同类URL平均访问次数 0
将计算到的行为特征按预设顺序排序构成行为特征矢量。
步骤2中聚类算法是现有技术中常用的可以用聚类的算法,例如K-Means、K-Medoids、GMM、Spectral clustering、Ncu。
本方法支持三种识别方法。
第一种:
步骤3中确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑和阈值。判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。
第二种:
步骤3中确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、权重、阈值。判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,计算此平均值与相应的权重的积,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
第三种:
步骤3中确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长。判断出满足相应的检验规则的簇包括:计算当前簇中所有IP的访问次数平均值和访问间隔平均值,判断此访问次数平均值大于访问次数阈值和/或访问间隔平均值大于访问间隔时长后,针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
本方法中,确定N个目标行为特征的方法包括:使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。
具体实施例:
采集某个月内各用户IP的网络应用日志,计算此月内各用户IP的行为特征矢量。对各用户IP的行为特征矢量进行聚类获得两个簇。
检验规则包括:确定3个目标行为特征分别为Referer最大相似占比、请求路径集合空间占比、2XX状态码占比。
Referer最大相似占比对应的判断逻辑为大于,阈值为95%。
请求路径集合空间占比的判断逻辑为大于,阈值为50%。
2XX状态码占比的判断逻辑为大于,阈值为50%。
计算分别两个簇的所有用户IP的此3个目标行为特征的平均值,第一个簇的中此3个目标行为特征的平均值分别为100%,50%,50%。则此第一个簇满足检验规则,此簇中所有用户IP均为爬虫。第二个簇的中此3个目标行为特征的平均值分别为80%,40%,50%。则此第二个簇不满足检验规则,此簇中所有用户IP均为正常用户。
在实现此方法的软件中,设计有各种行为特征的选择项,各种聚类算法的选择项,表示数据安全的显示项和表示爬虫威胁的显示项。在使用此软件的过程中,可以根据使用需要,选择相应的行为特征的选择项,和聚类算法的选择项,执行此方法后,软件界面上可显示分成的簇的个数,每个簇的面积不尽相同并且每个簇的面积的大小对应于此簇中用户IP的数量,随着此方法的演算递进过程,每个簇的面积也根据其内用户IP情况的变化而相应的变化。根据此方法的演进结果,确定当前系统的爬虫情况确定当前系统处于数据安全状态或者是爬虫威胁状态并在相应显示项处进行指示。
图2是实施例中低频爬虫识别装置的结构图。此低频爬虫识别装置包括特征计算模块、聚类模块、规则确定模块和识别模块。
特征计算模块,用于根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;
聚类模块,用于对各用户IP的行为特征矢量进行聚类获得多个簇;
规则确定模块,用于确定检验规则;
识别模块,用于判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。
其中,
行为特征包括以下特征中的多个:平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。
本装置支持三种识别方式。
第一种:
规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑和阈值;
识别模块用于判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。
第二种:
规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、权重、阈值;
识别模块用于针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,计算此平均值与相应的权重的积,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
第三种:
规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长;
识别模块用于计算当前簇中所有IP的访问次数平均值和访问间隔平均值,判断此访问次数平均值大于访问次数阈值和/或访问间隔平均值大于访问间隔时长后,针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
规则确定模块还用于使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。
与现有技术相比,本发明具有以下优点:
(1)可以有效识别低频爬虫。
(2)基于用户行为进行数据建模,无需任何人工分析或者配置,通过无监督聚类自动智能识别各种深层次威胁,可以解决传统安全产品无法识别的团伙威胁、低频威胁、关联威胁、持续威胁等。
(3)支持公有云或私有云部署,无需更改网络拓扑,无需嵌入任何代码,即可进行威胁识别和阻断,支持对接自定义阻断接口,极端情况下,即使部署环境全部断电,不会影响原业务正常运行。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种低频爬虫识别方法,其特征在于,包括:
根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;对各用户IP的行为特征矢量进行聚类获得多个簇;确定检验规则,判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。
2.如权利要求1所述的低频爬虫识别方法,其特征在于,
所述行为特征包括以下特征中的多个:平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。
3.如权利要求1所述的低频爬虫识别方法,其特征在于,
所述确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑和阈值;
所述判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。
或者,
所述确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、权重、阈值;
所述判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,计算此平均值与相应的权重的积,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
4.如权利要求1所述的低频爬虫识别方法,其特征在于,
所述确定检验规则包括:确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长;
所述判断出满足相应的检验规则的簇包括:计算当前簇中所有IP的访问次数平均值和访问间隔平均值,判断此访问次数平均值大于所述访问次数阈值和/或访问间隔平均值大于访问间隔时长后,针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
5.如权利要求3或4所述的低频爬虫识别方法,其特征在于,
所述确定N个目标行为特征包括:使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。
6.一种低频爬虫识别装置,其特征在于,包括:
特征计算模块,用于根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量;
聚类模块,用于对各用户IP的行为特征矢量进行聚类获得多个簇;
规则确定模块,用于确定检验规则;
识别模块,用于判断出满足相应的检验规则的簇,将此簇中的各用户IP确定为爬虫。
7.如权利要求6所述的低频爬虫识别装置,其特征在于,
所述行为特征包括以下特征中的多个:平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。
8.如权利要求6所述的低频爬虫识别装置,其特征在于,
所述规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑和阈值;
所述识别模块用于判断出满足相应的检验规则的簇包括:针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值;
或者,
所述规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、权重、阈值;
所述识别模块用于针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,计算此平均值与相应的权重的积,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
9.如权利要求6所述的低频爬虫识别装置,其特征在于,
所述规则确定模块用于确定N个目标行为特征,设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长;
所述识别模块用于计算当前簇中所有IP的访问次数平均值和访问间隔平均值,判断此访问次数平均值大于所述访问次数阈值和/或访问间隔平均值大于访问间隔时长后,针对当前簇中N个目标行为特征分别计算所有用户IP的平均值,判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。
10.如权利要求8或9所述的低频爬虫识别装置,其特征在于,
所述规则确定模块还用于使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。
CN201710857222.9A 2017-09-20 2017-09-20 一种低频爬虫识别方法及装置 Active CN107800684B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710857222.9A CN107800684B (zh) 2017-09-20 2017-09-20 一种低频爬虫识别方法及装置
PCT/CN2018/106370 WO2019057048A1 (zh) 2017-09-20 2018-09-19 一种低频爬虫识别方法、装置、可读存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710857222.9A CN107800684B (zh) 2017-09-20 2017-09-20 一种低频爬虫识别方法及装置

Publications (2)

Publication Number Publication Date
CN107800684A true CN107800684A (zh) 2018-03-13
CN107800684B CN107800684B (zh) 2018-09-18

Family

ID=61532421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710857222.9A Active CN107800684B (zh) 2017-09-20 2017-09-20 一种低频爬虫识别方法及装置

Country Status (2)

Country Link
CN (1) CN107800684B (zh)
WO (1) WO2019057048A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763274A (zh) * 2018-04-09 2018-11-06 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN109446398A (zh) * 2018-11-06 2019-03-08 杭州安恒信息技术股份有限公司 智能检测网络爬虫行为的方法、装置以及电子设备
WO2019057048A1 (zh) * 2017-09-20 2019-03-28 北京数安鑫云信息技术有限公司 一种低频爬虫识别方法、装置、可读存储介质及设备
CN109992960A (zh) * 2018-12-06 2019-07-09 北京奇艺世纪科技有限公司 一种伪造参数检测方法、装置、电子设备及存储介质
CN110147271A (zh) * 2019-05-15 2019-08-20 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN110912861A (zh) * 2018-09-18 2020-03-24 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
CN110995714A (zh) * 2019-12-06 2020-04-10 杭州安恒信息技术股份有限公司 一种检测对Web站点的团伙攻击的方法、装置及介质
CN111831881A (zh) * 2020-07-04 2020-10-27 西安交通大学 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法
CN111914905A (zh) * 2020-07-09 2020-11-10 北京人人云图信息技术有限公司 一种基于半监督的反爬虫系统及设计方法
CN112800419A (zh) * 2019-11-13 2021-05-14 北京数安鑫云信息技术有限公司 识别ip团伙的方法、装置、介质及设备
WO2021114454A1 (zh) * 2019-12-13 2021-06-17 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN113452685A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 识别规则的处理方法、系统、存储介质及电子设备
CN114338099A (zh) * 2021-12-10 2022-04-12 壹药网科技(上海)股份有限公司 一种爬虫行为的识别方法及防范系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597372A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 分布式爬虫实现方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040025055A1 (en) * 2002-07-31 2004-02-05 Hewlett-Packard Development Company, L.P. Online recognition of robots
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别系统及方法
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN105577701A (zh) * 2016-03-09 2016-05-11 携程计算机技术(上海)有限公司 网络爬虫的识别方法及系统
CN106202108A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置
US20170063717A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for network access request control
CN107147640A (zh) * 2017-05-09 2017-09-08 网宿科技股份有限公司 识别网络爬虫的方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10067913B2 (en) * 2013-05-08 2018-09-04 Microsoft Technology Licensing, Llc Cross-lingual automatic query annotation
CN105930727B (zh) * 2016-04-25 2018-11-09 无锡中科富农物联科技有限公司 基于Web的爬虫识别方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN106790175B (zh) * 2016-12-29 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种蠕虫事件的检测方法及装置
CN107092660A (zh) * 2017-03-28 2017-08-25 成都优易数据有限公司 一种网站服务器爬虫识别方法和装置
CN107800684B (zh) * 2017-09-20 2018-09-18 贵州白山云科技有限公司 一种低频爬虫识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040025055A1 (en) * 2002-07-31 2004-02-05 Hewlett-Packard Development Company, L.P. Online recognition of robots
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别系统及方法
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN106202108A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置
US20170063717A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for network access request control
CN105577701A (zh) * 2016-03-09 2016-05-11 携程计算机技术(上海)有限公司 网络爬虫的识别方法及系统
CN107147640A (zh) * 2017-05-09 2017-09-08 网宿科技股份有限公司 识别网络爬虫的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宇 等: "基于决策树算法的爬虫识别技术", 《软件》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019057048A1 (zh) * 2017-09-20 2019-03-28 北京数安鑫云信息技术有限公司 一种低频爬虫识别方法、装置、可读存储介质及设备
CN108763274B (zh) * 2018-04-09 2021-06-11 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN108763274A (zh) * 2018-04-09 2018-11-06 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN110912861A (zh) * 2018-09-18 2020-03-24 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
CN109446398A (zh) * 2018-11-06 2019-03-08 杭州安恒信息技术股份有限公司 智能检测网络爬虫行为的方法、装置以及电子设备
CN109992960A (zh) * 2018-12-06 2019-07-09 北京奇艺世纪科技有限公司 一种伪造参数检测方法、装置、电子设备及存储介质
CN109992960B (zh) * 2018-12-06 2021-09-10 北京奇艺世纪科技有限公司 一种伪造参数检测方法、装置、电子设备及存储介质
CN110147271A (zh) * 2019-05-15 2019-08-20 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN110147271B (zh) * 2019-05-15 2020-04-28 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN112800419A (zh) * 2019-11-13 2021-05-14 北京数安鑫云信息技术有限公司 识别ip团伙的方法、装置、介质及设备
CN110995714A (zh) * 2019-12-06 2020-04-10 杭州安恒信息技术股份有限公司 一种检测对Web站点的团伙攻击的方法、装置及介质
WO2021114454A1 (zh) * 2019-12-13 2021-06-17 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN111831881A (zh) * 2020-07-04 2020-10-27 西安交通大学 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法
CN111831881B (zh) * 2020-07-04 2023-03-21 西安交通大学 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法
CN111914905A (zh) * 2020-07-09 2020-11-10 北京人人云图信息技术有限公司 一种基于半监督的反爬虫系统及设计方法
CN111914905B (zh) * 2020-07-09 2021-07-20 北京人人云图信息技术有限公司 一种基于半监督的反爬虫系统及设计方法
CN113452685A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 识别规则的处理方法、系统、存储介质及电子设备
CN113452685B (zh) * 2021-06-22 2024-04-09 上海明略人工智能(集团)有限公司 识别规则的处理方法、系统、存储介质及电子设备
CN114338099A (zh) * 2021-12-10 2022-04-12 壹药网科技(上海)股份有限公司 一种爬虫行为的识别方法及防范系统

Also Published As

Publication number Publication date
CN107800684B (zh) 2018-09-18
WO2019057048A1 (zh) 2019-03-28

Similar Documents

Publication Publication Date Title
CN107800684A (zh) 一种低频爬虫识别方法及装置
WO2019114422A1 (zh) 一种模型整合方法及装置
WO2017101389A1 (zh) 一种移动终端的信息推荐方法及装置
CN105095411B (zh) 一种基于app质量的app排名预测方法及系统
CN104992348B (zh) 一种信息展示的方法和装置
CN105975641A (zh) 视频推荐方法及装置
Lim et al. Following the follower: Detecting communities with common interests on Twitter
CN108366045A (zh) 一种风控评分卡的设置方法和装置
CN108520303A (zh) 一种推荐系统构建方法及装置
CN109325232A (zh) 一种基于lda的用户行为异常分析方法、系统及存储介质
CN103780625B (zh) 用户兴趣发现方法和装置
CN107622004A (zh) 耗电提醒方法及装置
CN106411965A (zh) 确定提供仿冒服务的网络服务器的方法、设备及计算设备
Lim et al. A topological approach for detecting twitter communities with common interests
CN109598542A (zh) 一种营销权益的投放方法、装置及电子设备
CN109635192A (zh) 面向微服务的海量资讯热度排行更新方法及平台
CN107153907A (zh) 一种评估视频业务的潜在用户的方法及相关装置
CN106571933A (zh) 业务处理方法及装置
Wright et al. Don’t@ me: Hunting twitter bots at scale
CN114819967A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN107545450A (zh) 一种交易信息推送方法和装置
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN110119633A (zh) 一种数据处理方法及计算设备
CN109376287B (zh) 房产图谱构建方法、装置、计算机设备及存储介质
CN111353001B (zh) 对用户进行分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee after: GUIZHOU BAISHANCLOUD TECHNOLOGY Co.,Ltd.

Address before: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee before: GUIZHOU BAISHANCLOUD TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181107

Address after: 100015 Beijing Chaoyang District Jiuxianqiao North Road 10 hospital 201 Building 5 floor 505 inside 02

Patentee after: BEIJING SHUAN XINYUN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee before: GUIZHOU BAISHANCLOUD TECHNOLOGY Co.,Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Hu Zhilei

Inventor after: Liu Xinqi

Inventor after: Chen Feng

Inventor after: Wang Hai

Inventor after: Chen Zhe

Inventor after: Cong Lei

Inventor before: Hu Zhilei

Inventor before: Liu Xinqi

Inventor before: Chen Feng

Inventor before: Wang Hai

Inventor before: Chen Zhe

Inventor before: Cong Lei