CN107644162A

CN107644162A - 一种Web攻击识别方法和装置

Info

Publication number: CN107644162A
Application number: CN201710786707.3A
Authority: CN
Inventors: 练晓谦
Original assignee: Beijing Future Information Technology Co Ltd
Current assignee: Beijing Future Information Technology Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2018-01-30

Abstract

本发明公开了一种Web攻击识别方法和装置；本方法为：1)对Web正常请求集、Web攻击请求集中每一Web请求的URL和POST数据进行分词处理，得到若干字符串；2)对于每一字符串，计算该字符串分别在该Web正常请求集中的出现概率、在该Web攻击请求集中的出现概率；3)将该待识别Web请求中的URL和POST数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，计算该字符串使得该待识别Web请求被识别为攻击请求的概率；4)选取概率最高的若干概率，计算该待识别Web请求为攻击请求的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别Web请求为攻击请求，否则判断为正常请求。

Description

一种Web攻击识别方法和装置

技术领域

本发明属于计算机网络技术领域，涉及一种Web攻击识别方法和装置。

背景技术

贝叶斯定理是统计学中非常重要的一个定理，以贝叶斯定理为基础的统计学派在统计学世界里占据着重要的地位。

条件概率，就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。

公式中的P(A∩B)，指的是事件A和事件B同时发生的概率。

根据公式可以推导出：

P(A∩B)＝P(A|B)P(B)

P(A∩B)＝P(B|A)P(A)

所以：

P(A|B)P(B)＝P(B|A)P(A)

即得到条件概率的计算公式：

使用P(A′)表示为P(A)的互补事件，P(A′)+P(A)＝1，则：

P(B)＝P(B∩A)+P(B∩A′)

P(B)＝P(B|A)P(A)+P(B|A′)P(A′)

所以，条件概率的计算公式，可以推导为：

则得到了贝叶斯公式。

常见的Web攻击识别方法，是基于规则库的判断。维护一个攻击请求规则库，并持续的更新，保证规则库的全面；针对一个Web请求，与规则库中的规则进行逐个的匹配判断，如果匹配上某条规则，则判断该Web请求为攻击请求，若没有匹配上任何规则，则判断该Web请求为正常请求，该方法存在两个缺点：

一是存在一定的漏报率。该方法过于依赖规则库的完备性，事实上很难有规则库可以做到百分百无缺失，况且攻击者还会不停的创造出新的攻击手法，规则库很难百分百涵盖完全，因此该方法不可避免的存在一定的漏报率。

二是性能不高。规则库中，有部分规则是正则表达式，与Web请求进行匹配判断的时候，需要耗费一定时间；特别是当规则库积累的规则逐渐增多，每个Web请求都需要与这些规则逐个进行匹配判断，性能会受影响。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种Web攻击识别方法和装置。本发明使用概率统计学的思路，采用贝叶斯公式来进行计算概率，依据概率判断是否为攻击请求，从而绕过了因为规则库不完备而导致漏报的问题。

本发明包括：前期统计和攻击识别。

前期统计，指的是准备两组已经识别好的Web请求集：攻击请求集和正常请求集；针对这些web请求中的URL和POST数据进行分词处理，得到若干字符串；计算每个字符串在攻击请求和正常请求中的出现概率。

攻击识别，指的是针对一个待识别的Web请求，将该Web请求中的URL和POST数据进行分词处理，得到N个字符串；计算每一个字符串存在时该请求为攻击请求的概率；挑选3个最高的概率，计算联合概率；将联合概率与阈值进行比较，大于阈值则判断该Web请求为攻击请求，小于等于阈值则判断为正常请求。

该发明的流程为：

前期统计，如图1所示，其步骤包括：

步骤1：准备两组已经识别好的Web请求集：正常请求集和攻击请求集；

步骤2：针对这些Web中的URL和POST数据进行分词处理，得到若干字符串；

步骤3：计算每个字符串在攻击请求和正常请求中的出现概率。

攻击识别，如图2所示，其步骤包括：

步骤1：针对一个待识别的Web请求，将该Web请求中的URL和POST数据进行分词处理，得到N个字符串；

步骤2：根据前期统计结果计算每一个字符串存在时该请求为攻击请求的概率；即该待识别Web请求中的每一字符串使得该待识别Web请求被识别为攻击请求的概率；根据每个字符串在攻击请求集和正常请求集的出现概率计算每一个字符串存在时该请求为攻击请求的概率。如果该待识别请求的分词中出现了新的字符串(即攻击请求集和正常请求集分词处理后未出现的字符串)，则设定存在该字符串时为攻击请求的概率为一设定值。

步骤3：挑选3个最高的概率，计算出联合概率；

步骤4：将联合概率与阈值进行比较，大于阈值则判断该Web请求为攻击请求，小于等于阈值则判断为正常请求。

本发明提供了一种Web攻击识别装置，其特征在于，包括前期统计模块和攻击识别模块；

所述前期统计模块，用于对Web正常请求集中每一Web请求的URL和POST数据进行分词处理，得到若干字符串；对Web攻击请求集中每一Web请求的URL和POST数据进行分词处理，得到若干字符串；以及对于得到的每一字符串，计算该字符串分别在该Web正常请求集中的出现概率、在该Web攻击请求集中的出现概率；

所述攻击识别模块，用于针对一待识别Web请求，将该待识别Web请求中的URL和POST数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，根据前期统计模块的统计结果计算该字符串使得该待识别Web请求被识别为攻击请求的概率；选取概率最高的若干概率，计算该待识别Web请求为攻击请求的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别Web请求为攻击请求，否则判断为正常请求。

进一步的，基于贝叶斯公式计算该字符串使得该待识别Web请求被识别为攻击请求的概率。

进一步的，所述攻击识别模块采用公式计算该字符串使得该待识别Web请求被识别为攻击请求的概率P(Y|W)；其中，P(W|Y)为该字符串在Web攻击请求集中的出现概率，P(W|N)为该字符串在Web正常请求集中的出现概率，P(Y)为该待识别Web请求为攻击请求的概率，P(N)为该待识别Web请求为正常请求的概率；如果该待识别Web请求的分词中出现了新的字符串，则设定该字符串使得该待识别Web请求被识别为攻击请求的概率为一设定值。

进一步的，所述攻击识别模块选取概率最高的三个概率P₁、P₂、P₃，采用公式计算所述联合概率P。

本发明主要具有以下优点：

基于规则库的Web攻击识别方法，存在因为规则库覆盖不完全而导致漏报的先天缺陷；本发明使用概率统计学的思路来解决这个问题，而不是通过增加规则的思路来解决；因此本发明大大降低了Web攻击识别的漏报率。

在Web攻击识别的实现过程中，本发明只进行简单的数学公式计算，无需将规则库中的规则逐个和Web请求进行匹配判断，从而缩短了Web攻击识别的耗费时间，提升了Web攻击识别的效率。

附图说明

图1为前期统计流程图；

图2为攻击识别流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

(一)前期统计

(1)准备两组已经识别好的Web请求

准备的请求集，攻击请求和正常请求分别不少于10000条。

(2)针对所有Web请求中的URL和POST数据进行分词处理

URL包括请求协议scheme、目标地址netloc、网页路径path、网页路径所需参数params、查询参数query、片段标识符fragment这6个元素。

scheme://netloc/path；params？query#fragment。

示例：http://admin:pass@www.test.com:80/bbs/index.php；params？id＝10#top。

其中

scheme＝'http',

netloc＝'admin:pass@www.test.com:80',

path＝'/bbs/index.php',

params＝'params',

query＝'id＝10',

fragment＝'top'。

本发明会针对URL中的path、params、query、fragment这4个元素，进行分词处理。

POST数据：GET和POST为HTTP请求最常见的两种方法，GET方法将请求的数据附在URL上，POST方法将请求的数据放置在HTTP包的包体中。

本发明会针对POST数据进行分词处理。

(3)计算每个字符串在攻击请求和正常请求中的出现概率

若有10000条攻击请求和10000条正常请求：

10000条攻击请求中，出现某字符串的请求数量为5000条；

10000条正常请求中，出现某字符串的请求数量为100条。

则：

该字符串在攻击请求集中的出现概率，为0.5。为方便理解，表示为：P(W|Y)；

该字符串在正常请求集中的出现概率，为0.01。为方便理解，表示为：P(W|N)。

(二)攻击识别

(1)将Web请求中的URL和POST数据进行分词处理，得到N个字符串。

(2)针对每个字符串，计算其存在时该请求为攻击请求的概率。

为方便理解，本发明这样表示：

P(Y|W)，表示一个字符串存在时该请求为攻击请求的概率；

P(W|Y)，表示一个字符串在攻击请求集中的出现概率；

P(W|N)，表示一个字符串在正常请求集中的出现概率；

P(Y)，表示一个Web请求为攻击请求的概率，为50％；

P(N)，表示一个Web请求为正常请求的概率，为50％。

贝叶斯公式为：

根据该公式，推导出：计算每一个字符串存在时该Web请求为攻击请求的概率，公式为：

本发明在“前期统计”中已经计算出P(W|Y)和P(W|N)的值，同时本发明也知道P(Y)和P(N)的值。因此，基于这个公式，就可以计算出P(Y|W)，即每一个字符串存在时该Web请求为攻击请求的概率。

(3)挑选3个最高的概率，计算联合概率

第一步，针对每个Web请求，经过分词处理后，得到N个字符串；

第二步，计算每个字符串存在时该Web请求为攻击请求的概率；

第三步就是基于第二步的结果，从N个概率中，挑选出3个最高的概率，依据下面这个联合概率的计算公式，可以计算出联合概率。

(4)将联合概率与阈值进行比较判断

第三步计算出联合概率之后，和事先设置好的阈值进行比较。若大于阈值则判断该Web请求为攻击请求，小于等于阈值则判断为正常请求。

在实现过程中，本发明会针对判断结果进行抽样的人工验证，发现不准确的时候，会对阈值进行调整，以期将判断结果调整的越来越准确。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种Web攻击识别方法，其步骤包括：

1)选取一Web正常请求集和一Web攻击请求集；

2)对该Web正常请求集中每一Web请求的URL和POST数据进行分词处理，得到若干字符串；对该Web攻击请求集中每一Web请求的URL和POST数据进行分词处理，得到若干字符串；

3)对于步骤2)得到的每一字符串，计算该字符串分别在该Web正常请求集中的出现概率、在该Web攻击请求集中的出现概率；

4)针对一待识别Web请求，将该待识别Web请求中的URL和POST数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，根据步骤3)的计算结果计算该字符串使得该待识别Web请求被识别为攻击请求的概率；

5)从步骤4)的结果中选取概率最高的若干概率，计算该待识别Web请求为攻击请求的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别Web请求为攻击请求，否则判断为正常请求。

2.如权利要求1所述的方法，其特征在于，根据步骤3)的计算结果基于贝叶斯公式计算该字符串使得该待识别Web请求被识别为攻击请求的概率。

3.如权利要求2所述的方法，其特征在于，采用公式计算该字符串使得该待识别Web请求被识别为攻击请求的概率P(Y|W)；其中，P(W|Y)为该字符串在Web攻击请求集中的出现概率，P(W|N)为该字符串在Web正常请求集中的出现概率，P(Y)为该待识别Web请求为攻击请求的概率，P(N)为该待识别Web请求为正常请求的概率。

4.如权利要求1或2或3所述的方法，其特征在于，概率最高的三个概率P₁、P₂、P₃，采用公式计算所述联合概率P。

5.如权利要求1所述的方法，其特征在于，所述步骤4)中，如果该待识别Web请求的分词中出现了新的字符串，则设定该字符串使得该待识别Web请求被识别为攻击请求的概率为一设定值。

6.如权利要求1所述的方法，其特征在于，所述步骤2)、步骤4)中，对URL中的网页路径path、网页路径所需参数params、查询参数query、片段标识符fragment进行分词处理。

7.一种Web攻击识别装置，其特征在于，包括前期统计模块和攻击识别模块；其中，

8.如权利要求7所述的Web攻击识别装置，其特征在于，基于贝叶斯公式计算该字符串使得该待识别Web请求被识别为攻击请求的概率。

9.如权利要求8所述的Web攻击识别装置，其特征在于，所述攻击识别模块采用公式计算该字符串使得该待识别Web请求被识别为攻击请求的概率P(Y|W)；其中，P(W|Y)为该字符串在Web攻击请求集中的出现概率，P(W|N)为该字符串在Web正常请求集中的出现概率，P(Y)为该待识别Web请求为攻击请求的概率，P(N)为该待识别Web请求为正常请求的概率；如果该待识别Web请求的分词中出现了新的字符串，则设定该字符串使得该待识别Web请求被识别为攻击请求的概率为一设定值。

10.如权利要求7或8或9所述的Web攻击识别装置，其特征在于，所述攻击识别模块选取概率最高的三个概率P₁、P₂、P₃，采用公式计算所述联合概率P。