CN107800684A

CN107800684A - 一种低频爬虫识别方法及装置

Info

Publication number: CN107800684A
Application number: CN201710857222.9A
Authority: CN
Inventors: 胡志磊; 刘鑫琪; 陈�峰; 汪海; 陈哲; 从磊
Original assignee: Guizhou White Cloud Technology Co Ltd
Current assignee: Beijing Shuan Xinyun Information Technology Co ltd; Guizhou Baishancloud Technology Co Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2018-03-13
Anticipated expiration: 2037-09-20
Also published as: CN107800684B; WO2019057048A1

Abstract

本发明公开了一种低频爬虫识别方法及装置，此方法包括：根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量；对各用户IP的行为特征矢量进行聚类获得多个簇；确定检验规则，判断出满足相应的检验规则的簇，将此簇中的各用户IP确定为爬虫。此装置包括特征计算模块，聚类模块，规则确定模块，识别模块。本发明可有效识别低频爬虫；可以解决传统安全产品无法识别的团伙威胁、低频威胁、关联威胁、持续威胁等；支持公有云或私有云部署，无需更改网络拓扑，无需嵌入任何代码，即可进行威胁识别和阻断，支持对接自定义阻断接口，极端情况下，即使部署环境全部断电，不会影响原业务正常运行。

Description

一种低频爬虫识别方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种低频爬虫识别方法及装置。

背景技术

互联网中充斥着大量的爬虫，在反爬虫的过程中，爬虫也在不断进化。爬虫的进化过程包括以下三个阶段：初级爬虫、浏览器爬虫和低频爬虫。其中，初级爬虫对目标页面进行爬取的同时没有对自身进行伪装，可以通过诸如用户代理(User-agent)、频率等特征准确识别；浏览器爬虫会将自身使用的User-agent通过Firefox、opera、chrome等各种类型的浏览器进行伪装，行为上也会与正常用户相类似，浏览器爬虫可以通过访问频率、时间轴等特征识别；低频爬虫是使用大量代理IP池模仿普通用户进行数据爬取的一种爬虫，低频爬虫在User-agent、频率、时间轴等特征中与普通用户更为接近，特别是频率往往1小时才会有个位数的访问。

现有技术一般通过收集代理IP库来进行低频爬虫识别。现有技术存在如下缺点：

(一)识别召回率受到代理IP库覆盖率所限制，目前互联网代理IP数以亿计，手机代理IP库只能够覆盖带很小部分；

(二)代理IP并不是一成不变的，因此需要经常对代理IP库进行更新，客户对于在线更新一般会有抵触态度，而离线更新与会面临更新延时的问题；

(三)通过使用ADSL小区宽带断线重播、多播得到的代理IP更加隐蔽，并且这种IP会有许多真实用户使用，代理IP库会面临误封、无法准确识别等问题。

发明内容

为了解决上述技术问题，本发明提供了一种低频爬虫识别方法及装置。

本发明提供了一种低频爬虫识别方法，包括：

根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量；对各用户IP的行为特征矢量进行聚类获得多个簇；确定检验规则，判断出满足相应的检验规则的簇，将此簇中的各用户IP确定为爬虫。

上述方法还具有以下特点：

所述行为特征包括以下特征中的多个：平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。

上述方法还具有以下特点：

所述确定检验规则包括：确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑和阈值；

所述判断出满足相应的检验规则的簇包括：针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。

或者，

所述确定检验规则包括：确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、权重、阈值；

所述判断出满足相应的检验规则的簇包括：针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，计算此平均值与相应的权重的积，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

上述方法还具有以下特点：

所述确定检验规则包括：确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长；

所述判断出满足相应的检验规则的簇包括：计算当前簇中所有IP的访问次数平均值和访问间隔平均值，判断此访问次数平均值大于所述访问次数阈值和/或访问间隔平均值大于访问间隔时长后，针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

上述方法还具有以下特点：

所述确定N个目标行为特征包括：使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。

本发明还提供了一种低频爬虫识别装置，包括：

特征计算模块，用于根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量；

聚类模块，用于对各用户IP的行为特征矢量进行聚类获得多个簇；

规则确定模块，用于确定检验规则；

识别模块，用于判断出满足相应的检验规则的簇，将此簇中的各用户IP确定为爬虫。

上述装置还具有以下特点：

所述规则确定模块用于确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑和阈值；

所述识别模块用于判断出满足相应的检验规则的簇包括：针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值；

或者，

所述规则确定模块用于确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、权重、阈值；

所述识别模块用于针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，计算此平均值与相应的权重的积，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

上述装置还具有以下特点：

所述规则确定模块用于确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长；

所述识别模块用于计算当前簇中所有IP的访问次数平均值和访问间隔平均值，判断此访问次数平均值大于所述访问次数阈值和/或访问间隔平均值大于访问间隔时长后，针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

上述装置还具有以下特点：

所述规则确定模块还用于使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。

本发明具有以下优点：

(1)可以有效识别低频爬虫。

(2)基于用户行为进行数据建模，无需任何人工分析或者配置，通过无监督聚类自动智能识别各种深层次威胁，可以解决传统安全产品无法识别的团伙威胁、低频威胁、关联威胁、持续威胁等。

(3)支持公有云或私有云部署，无需更改网络拓扑，无需嵌入任何代码，即可进行威胁识别和阻断，支持对接自定义阻断接口，极端情况下，即使部署环境全部断电，不会影响原业务正常运行。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是实施例中低频爬虫识别方法的流程图；

图2是实施例中低频爬虫识别装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1是实施例中低频爬虫识别方法的流程图，此低频爬虫识别方法包括：

步骤1，根据各用户IP的网络应用日志计算预设时段内各用户IP的行为特征矢量；

步骤2，对各用户IP的行为特征矢量进行聚类获得多个簇；

步骤3，确定检验规则，判断出满足相应的检验规则的簇，将此簇中的各用户IP确定为爬虫。

其中，

步骤1中的行为特征包括以下特征中的多个：平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理(User Agent，UA)占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。

例如：

行为特征	值
		平均请求发送字节数	3128
请求数	291
		GET请求数占比	100％
UA最大相似占比	100％
		Referer最大相似占比	100％
请求路径集合空间占比	56％
		2XX状态码占比	50％
URL类型最大相似占比	49％
		URL类型平均数	28.68
HTML请求占比的标准差	0.02
		其他请求占比的标准差	0
同类URL平均访问次数	0

将计算到的行为特征按预设顺序排序构成行为特征矢量。

步骤2中聚类算法是现有技术中常用的可以用聚类的算法，例如K-Means、K-Medoids、GMM、Spectral clustering、Ncu。

本方法支持三种识别方法。

第一种：

步骤3中确定检验规则包括：确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑和阈值。判断出满足相应的检验规则的簇包括：针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。

第二种：

步骤3中确定检验规则包括：确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、权重、阈值。判断出满足相应的检验规则的簇包括：针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，计算此平均值与相应的权重的积，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

第三种：

步骤3中确定检验规则包括：确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长。判断出满足相应的检验规则的簇包括：计算当前簇中所有IP的访问次数平均值和访问间隔平均值，判断此访问次数平均值大于访问次数阈值和/或访问间隔平均值大于访问间隔时长后，针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

本方法中，确定N个目标行为特征的方法包括：使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。

具体实施例：

采集某个月内各用户IP的网络应用日志，计算此月内各用户IP的行为特征矢量。对各用户IP的行为特征矢量进行聚类获得两个簇。

检验规则包括:确定3个目标行为特征分别为Referer最大相似占比、请求路径集合空间占比、2XX状态码占比。

Referer最大相似占比对应的判断逻辑为大于，阈值为95％。

请求路径集合空间占比的判断逻辑为大于，阈值为50％。

2XX状态码占比的判断逻辑为大于，阈值为50％。

计算分别两个簇的所有用户IP的此3个目标行为特征的平均值，第一个簇的中此3个目标行为特征的平均值分别为100％，50％，50％。则此第一个簇满足检验规则，此簇中所有用户IP均为爬虫。第二个簇的中此3个目标行为特征的平均值分别为80％，40％，50％。则此第二个簇不满足检验规则，此簇中所有用户IP均为正常用户。

在实现此方法的软件中，设计有各种行为特征的选择项，各种聚类算法的选择项，表示数据安全的显示项和表示爬虫威胁的显示项。在使用此软件的过程中，可以根据使用需要，选择相应的行为特征的选择项，和聚类算法的选择项，执行此方法后，软件界面上可显示分成的簇的个数，每个簇的面积不尽相同并且每个簇的面积的大小对应于此簇中用户IP的数量，随着此方法的演算递进过程，每个簇的面积也根据其内用户IP情况的变化而相应的变化。根据此方法的演进结果，确定当前系统的爬虫情况确定当前系统处于数据安全状态或者是爬虫威胁状态并在相应显示项处进行指示。

图2是实施例中低频爬虫识别装置的结构图。此低频爬虫识别装置包括特征计算模块、聚类模块、规则确定模块和识别模块。

规则确定模块，用于确定检验规则；

其中，

行为特征包括以下特征中的多个：平均请求发送字节数、单位时段请求数、GET请求数占比、请求路径集合空间占比、路径最大相似占比、路径最大重复环占比、Referer最大相似占比、危险用户代理UA占比、UA最大相似占比、UA集合空间、404状态码占比、2XX状态码占比、5XX状态码占比、URL类型最大相似占比、同类URL平均访问次数、URL类型平均数、HTML请求占比的标准差、其他请求占比的标准差、请求响应时间、请求响应长度、请求返回长度、页面浏览量。

本装置支持三种识别方式。

第一种：

规则确定模块用于确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑和阈值；

识别模块用于判断出满足相应的检验规则的簇包括：针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值均满足相应的判断逻辑和阈值。

第二种：

规则确定模块用于确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、权重、阈值；

识别模块用于针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，计算此平均值与相应的权重的积，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

第三种：

规则确定模块用于确定N个目标行为特征，设置N个目标行为特征相应的判断逻辑、阈值、访问次数阈值和/或访问间隔时长；

识别模块用于计算当前簇中所有IP的访问次数平均值和访问间隔平均值，判断此访问次数平均值大于访问次数阈值和/或访问间隔平均值大于访问间隔时长后，针对当前簇中N个目标行为特征分别计算所有用户IP的平均值，判断N个目标行为特征的平均值与相应的权重的积均满足相应的判断逻辑和阈值。

规则确定模块还用于使用随机森林算法或者主要成分分析算法选择出N个目标行为特征。

与现有技术相比，本发明具有以下优点：

(1)可以有效识别低频爬虫。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种低频爬虫识别方法，其特征在于，包括：

2.如权利要求1所述的低频爬虫识别方法，其特征在于，

3.如权利要求1所述的低频爬虫识别方法，其特征在于，

或者，

4.如权利要求1所述的低频爬虫识别方法，其特征在于，

5.如权利要求3或4所述的低频爬虫识别方法，其特征在于，

6.一种低频爬虫识别装置，其特征在于，包括：

规则确定模块，用于确定检验规则；

7.如权利要求6所述的低频爬虫识别装置，其特征在于，

8.如权利要求6所述的低频爬虫识别装置，其特征在于，

或者，

9.如权利要求6所述的低频爬虫识别装置，其特征在于，

10.如权利要求8或9所述的低频爬虫识别装置，其特征在于，