CN105262720A

CN105262720A - web机器人流量识别方法及装置

Info

Publication number: CN105262720A
Application number: CN201510563145.7A
Authority: CN
Inventors: 李凯
Original assignee: Sangfor Network Technology Shenzhen Co Ltd
Current assignee: Sangfor Network Technology Shenzhen Co Ltd
Priority date: 2015-09-07
Filing date: 2015-09-07
Publication date: 2016-01-20

Abstract

本发明公开了一种web机器人流量识别方法，包括以下步骤：解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；基于所述页面访问模型对访问页面的行为进行分析；根据分析结果识别所述网络数据流中的web机器人流量。本发明还公开了一种web机器人流量识别装置。本发明可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析，从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。

Description

web机器人流量识别方法及装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种web机器人流量识别方法及装置。

背景技术

据分析统计，目前，Web机器人流量在网站流量中占到了50％以上，如在Bash漏洞爆出来后，互联网上立即出现了大量利用这个漏洞对全网Web服务器进行攻击的机器人流量，据统计，全球大概存在142000主机受到这个漏洞的影响。此外，除了一般定义中的攻击者，还有另一类攻击系统，攻击系统会对全世界的网站进行持续的扫描，并对网站的版本信息，网络的架构，以及服务器开放的端口、服务甚至漏洞等全部进行记录。一旦发现存在漏洞，攻击者就可以第一时间发送攻击，这种方式也将带来大量的Web机器人流量。攻击者还可利用Web机器人收集Web站点上发布的敏感信息，如Email地址、身份证号码、生日、电话号码等，用来发送垃圾邮件或者传播病毒。Web机器人蠕虫还可通过Web机器人自动在Web站点上发表文章、评论等，使得Web站点充斥各种垃圾信息或者散布谣言、反动言论等。上述攻击行为均会在网站流量中带来大量的Web机器人流量，影响网站的正常运营。

现有的识别web机器人流量方法中一般是由WAF、IPS系统利用字符串、正则表达式等来定义攻击和漏洞的特征码，通过对数据包进行深度内容检测如字符串搜索、正则表达式匹配等来识别是否为攻击，但存在如下不足：

1、特征码是通过分析现有的攻击手段和漏洞提取出来的，因此只能识别已知的攻击和漏洞，无法识别出Web机器人利用未知漏洞或者新的攻击内容来进行的攻击。

2、现有系统通过定义攻击来识别异常，如SQL注入、XSS攻击等。对于网站的正常功能使用则不会识别为攻击，如发表评论、访问页面。但Web机器人利用的正好是网站提供的正常功能，如访问页面收集Email信息，自动发布垃圾评论和文章，攻击系统扫描网站收集网站的架构信息等行为。对于Web机器人的这些攻击行为，WAF和IPS系统都无法提取出特征码，因此也无法对Web机器人进行识别。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种web机器人流量识别方法及装置，旨在有效地对Web机器人流量进行识别。

为实现上述目的，本发明提供的一种web机器人流量识别方法，所述方法包括以下步骤：

解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；

基于所述页面访问模型对访问页面的行为进行分析；

根据分析结果识别所述网络数据流中的web机器人流量。

优选地，所述解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型的步骤包括：

对网络数据流中的页面访问请求进行解析获取URI请求信息，并根据所述URI请求信息建立URI请求序列的链接关系图，将所述链接关系图作为页面访问模型。

优选地，所述基于所述页面访问模型对访问页面的行为进行分析的步骤包括：

根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容，解析所述响应内容获取对应的浏览器URI请求，根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图，将所述浏览器URI请求序列的链接关系图作为正常页面访问模型；

将所述页面访问模型与所述正常页面访问模型进行比对；

所述根据分析结果识别所述网络数据流中的web机器人流量的步骤包括：当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以下两种行为时，则识别为web机器人流量；该行为包括：

未访问与所述响应内容相关的浏览器URI请求链接；

对同一页面的访问次数超过预设次数；

访问失败的页面的比例超过预设比例；

访问的页面资源类型单一。

优选地，所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括：

记录所述web机器人流量的源IP地址，并封锁所述源IP地址的流量。

记录所有识别的web机器人流量日志，并对所有识别的web机器人流量进行归类展示，以配置对应的安全策略。

此外，为实现上述目的，本发明还提供一种web机器人流量识别装置，所述web机器人流量识别装置包括：

解析建立模块，用于解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；

分析模块，用于基于所述页面访问模型对访问页面的行为进行分析；

识别模块，用于根据分析结果识别所述网络数据流中的web机器人流量。

优选地，所述解析建立模块具体用于：

优选地，所述分析模块具体用于：根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容，解析所述响应内容获取对应的浏览器URI请求，根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图，将所述浏览器URI请求序列的链接关系图作为正常页面访问模型；将所述页面访问模型与所述正常页面访问模型进行比对；

所述识别模块具体用于：

当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以下两种行为时，则识别为web机器人流量；该行为包括：

未访问与所述响应内容相关的浏览器URI请求链接；

对同一页面的访问次数超过预设次数；

访问失败的页面的比例超过预设比例；

访问的页面资源类型单一。

优选地，所述web机器人流量识别装置还包括：

封锁模块，用于记录所述web机器人流量的源IP地址，并封锁所述源IP地址的流量。

优选地，所述web机器人流量识别装置还包括：

归类模块，用于记录所有识别的web机器人流量日志，并对所有识别的web机器人流量进行归类展示，以配置对应的安全策略。

本发明提出的一种web机器人流量识别方法及装置，通过对网络数据流中请求访问的页面资源信息进行解析，建立能反映出访问页面行为的页面访问模型，再对该页面访问模型进行分析即可识别出网络数据流中的web机器人流量。由于是根据访问页面的行为来对web机器人进行识别，可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析，从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。

附图说明

图1为本发明web机器人流量识别方法第一实施例的流程示意图；

图2为本发明web机器人流量识别方法第二实施例的流程示意图；

图3为本发明web机器人流量识别方法第三实施例的流程示意图；

图4为本发明web机器人流量识别装置第一实施例的功能模块示意图；

图5为本发明web机器人流量识别装置第二实施例的功能模块示意图；

图6为本发明web机器人流量识别装置第三实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种web机器人流量识别方法。

参照图1，图1为本发明web机器人流量识别方法第一实施例的流程示意图。

在第一实施例中，该web机器人流量识别方法包括：

步骤S10，解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；

本实施例中，Web机器人可以是一种客户端程序，能自动通过HTTP等网络协议请求访问互联网上的资源以完成特定的任务，如Web自动化攻击、网页爬取等。

首先对预设时间内用户的URI请求进行解析，获取所述URI请求的URI地址、请求头部字段、响应状态码、响应内容、响应类型，并建立URI请求序列的链接关系图作为页面访问模型。如可解析网络数据流中的网络协议如HTTP、HTTPS流量，解析获取请求统一资源标识符(UniformResourceIdentifier，简称URI)、HTTP协议头部字段、响应状态码、响应内容、响应类型，其中，对于HTTPS流量，需要通过代理的方式来进行解析。

分析预设时间内的请求URI及HTTP协议头部字段，建立请求URI序列的链接关系图作为页面访问模型，具体地，可根据解析出的不同响应内容生成相应的页面访问模型。如通过浏览器访问站点的/vul.php时，则建立的页面访问模型中包括请求URI、响应状态码及响应类型。

步骤S20，基于所述页面访问模型对访问页面的行为进行分析；

根据解析出的不同响应内容建立相应的页面访问模型后，即可根据该页面访问模型对访问页面的行为进行分析，可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析。

步骤S30，根据分析结果识别所述网络数据流中的web机器人流量。

根据比对分析结果识别出网络数据流中web机器人的页面访问行为所产生的流量，即识别出网络数据流中的web机器人流量。

本实施例通过对网络数据流中请求访问的页面资源信息进行解析，建立能反映出访问页面行为的页面访问模型，再对该页面访问模型进行分析即可识别出网络数据流中的web机器人流量。由于是根据访问页面的行为来对web机器人进行识别，可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析，从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。

进一步地，在其他实施例中，上述步骤S20可以包括：

将所述页面访问模型与所述正常页面访问模型进行比对；

上述步骤S30可以包括：

未访问与所述响应内容相关的浏览器URI请求链接；

对同一页面的访问次数超过预设次数；

访问失败的页面的比例超过预设比例；

访问的页面资源类型单一。

本实施例中，在基于预设时间内用户的URI请求所建立的页面访问模型对访问页面的行为进行分析时，还可根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容，解析所述响应内容获取对应的浏览器URI请求，根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图，将所述浏览器URI请求序列的链接关系图作为正常页面访问模型。该正常页面访问模型中能反映出用户在浏览器中进行正常的页面访问请求时正常的响应内容及正常的页面访问行为。这样，通过将所述页面访问模型与所述正常页面访问模型进行比对，可识别出所述页面访问模型中相对于所述正常页面访问模型的异常访问页面行为，若该异常访问页面行为符合Web机器人访问页面的惯用行为，则能识别出当前网络数据流中的web机器人流量。

在此，以通过浏览器访问站点的/vul.php为例进行具体说明，访问/vul.php时，服务器返回的响应内容包括html、js、css等，解析页面里的script、css、img等链接，在正常的访问页面的行为中，如果浏览器要渲染页面内容，则必定会并发的发起对这些资源的链接。而对于Web机器人访问页面的行为根据其需要可能会是如下几种行为：

1、不会访问与页面内容相关的css、img和js等资源链接。出于资源利用和效率的考虑，Web机器人一般都不会访问跟页面内容相关的css、img、和js等资源链接。

2、对同一页面进行大量的访问。Web机器人在利用漏洞进行攻击、发表垃圾言论等行为时，都会对同一个页面进行大量的访问。

3、访问失败的页面比例高。Web机器人在进行漏洞探测时，一般会存在大量错误页面，如返回404错误页面等。

4、访问的页面资源类型非常单一：Web机器人如Email收割机，只会访问html类的资源，而其他与页面内容相关的css、img和js等都不会访问。

需要说明的是，为了方便说明，本实施例中Web机器人访问页面的行为仅以上述四种行为为例进行说明，当然，Web机器人访问页面的行为还可以是除上述四种行为之外的其他Web机器人访问页面行为，在此不作限定。

上述几种行为在Web机器人访问页面的行为中不一定全部都会出现，但一定会具有上述行为中的几种，本实施例中，根据实际应用情况，若Web机器人访问页面的行为中具有上述行为中至少两种行为，则将Web机器人访问页面的行为中产生的流量识别为web机器人流量。这样，本实施例中，根据Web机器人访问页面的惯用行为来基于所述页面访问模型进行分析，以将正常的访问页面的行为与Web机器人访问页面的行为进行区分，从而识别出网络数据流中的web机器人流量，这样，可对web机器人利用未知漏洞进行的攻击行为或利用网站提供的正常功能进行攻击的行为进行识别，从而更加准确及有效地对Web机器人流量进行识别。

如图2所示，本发明第二实施例提出一种web机器人流量识别方法，在上述第一实施例的基础上，在上述步骤S30之后还包括：

步骤S40，记录所述web机器人流量的源IP地址，并封锁所述源IP地址的流量。

本实施例中在识别所述web机器人流量之后，进一步地，记录识别的web机器人流量的源IP地址，并封锁所述源IP地址的流量，从源头上拦截web机器人流量，更加有效。

如图3所示，本发明第三实施例提出一种web机器人流量识别方法，在上述第一实施例的基础上，在上述步骤S30之后还包括：

步骤S50，记录所有识别的web机器人流量日志，并对所有识别的web机器人流量进行归类展示，以配置对应的安全策略。

本实施例中在识别所述web机器人流量之后，进一步地，记录所有识别的web机器人流量日志，并对所有识别的web机器人流量进行归类展示，如若所述web机器人流量是利用漏洞进行攻击的Web机器人产生的流量，则提取出攻击者利用的漏洞页面以及对应的攻击模式展现给用户。若所述web机器人流量是Web机器人对信息系统进行探测产生的流量，如探测操作系统版本信息等，则显示当前Web机器人为非法信息收集Web机器人。若所述web机器人流量是通过Web机器人自动注册帐号、随机发表内容等行为产生的流量，则显示当前Web机器人为Web机器人蠕虫。

显示当前Web机器人的不同类别后，提示管理员对应的系统存在漏洞，需要检查Web服务器和Web应用程序的安全性，管理员即可根据不同类别的Web机器人进行相应的安全策略配置，从而提升系统的安全性。

本发明进一步提供一种web机器人流量识别装置。

参照图4，图4为本发明第一实施例web机器人流量识别装置的功能模块示意图。

在第一实施例中，该web机器人流量识别装置包括：

解析建立模块01，用于解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；

分析模块02，用于基于所述页面访问模型对访问页面的行为进行分析；

识别模块03，用于根据分析结果识别所述网络数据流中的web机器人流量。

进一步地，在其他实施例中，上述分析模块02可以用于：根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容，解析所述响应内容获取对应的浏览器URI请求，根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图，将所述浏览器URI请求序列的链接关系图作为正常页面访问模型；将所述页面访问模型与所述正常页面访问模型进行比对；

上述识别模块03可以用于：

未访问与所述响应内容相关的浏览器URI请求链接；

对同一页面的访问次数超过预设次数；

访问失败的页面的比例超过预设比例；

访问的页面资源类型单一。

如图5所示，本发明第二实施例提出一种web机器人流量识别装置，在上述第一实施例的基础上，还包括：

封锁模块04，用于记录所述web机器人流量的源IP地址，并封锁所述源IP地址的流量。

如图6所示，本发明第三实施例提出一种web机器人流量识别装置，在上述第一实施例的基础上，还包括：

归类模块05，用于记录所有识别的web机器人流量日志，并对所有识别的web机器人流量进行归类展示，以配置对应的安全策略。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种web机器人流量识别方法，其特征在于，所述方法包括以下步骤：

基于所述页面访问模型对访问页面的行为进行分析；

根据分析结果识别所述网络数据流中的web机器人流量。

2.如权利要求1所述的web机器人流量识别方法，其特征在于，所述解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型的步骤包括：

3.如权利要求2所述的web机器人流量识别方法，其特征在于，所述基于所述页面访问模型对访问页面的行为进行分析的步骤包括：

将所述页面访问模型与所述正常页面访问模型进行比对；

未访问与所述响应内容相关的浏览器URI请求链接；

对同一页面的访问次数超过预设次数；

访问失败的页面的比例超过预设比例；

访问的页面资源类型单一。

4.如权利要求3所述的web机器人流量识别方法，其特征在于，所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括：

5.如权利要求3所述的web机器人流量识别方法，其特征在于，所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括：

6.一种web机器人流量识别装置，其特征在于，所述web机器人流量识别装置包括：

7.如权利要求6所述的web机器人流量识别装置，其特征在于，所述解析建立模块具体用于：

8.如权利要求7所述的web机器人流量识别装置，其特征在于，所述分析模块具体用于：根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容，解析所述响应内容获取对应的浏览器URI请求，根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图，将所述浏览器URI请求序列的链接关系图作为正常页面访问模型；将所述页面访问模型与所述正常页面访问模型进行比对；

所述识别模块具体用于：

未访问与所述响应内容相关的浏览器URI请求链接；

对同一页面的访问次数超过预设次数；

访问失败的页面的比例超过预设比例；

访问的页面资源类型单一。

9.如权利要求8所述的web机器人流量识别装置，其特征在于，还包括：

10.如权利要求8所述的web机器人流量识别装置，其特征在于，还包括：