CN107995145A

CN107995145A - 一种面向waf日志的攻击行为模式挖掘方法及装置

Info

Publication number: CN107995145A
Application number: CN201610946015.6A
Authority: CN
Inventors: 马冰珂; 孙乾; 杭小勇; 程叶霞; 王村; 王一村
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2018-05-04
Anticipated expiration: 2036-10-26
Also published as: CN107995145B

Abstract

本发明提供一种面向WAF日志的攻击行为模式挖掘方法及装置，涉及信息安全技术领域，用以降低攻击行为模式挖掘的难度。本发明的面向WAF日志的攻击行为模式挖掘方法，包括：获取WAF日志，并从所述WAF日志中提取至少一个待处理攻击序列；从所述至少一个待处理攻击序列中提取至少一个有效攻击序列；对所述至少一个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列；根据所述至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式。本发明主要用于攻击行为模式挖掘技术中。

Description

一种面向WAF日志的攻击行为模式挖掘方法及装置

技术领域

本发明涉及信息安全技术领域，尤其涉及一种面向WAF日志的攻击行为模式挖掘方法及装置。

背景技术

WAF(Web Application Firewall，Web应用防护系统)，是一类新产生的信息安全技术，它通过执行一系列针对HTTP/HTTPS的安全策略，为Web应用提供保护。与传统的防火墙不同，WAF工作在应用层，所以可以对Web应用程序的各类请求进行检测，确保其安全合法，并对于各种非法的请求进行及时的阻断。

WAF的配置往往依赖于领域知识和专家配置，而未配置的攻击行为模式则很难被检测出。自动化WAF攻击行为模式的挖掘方法，由于能够减少WAF规则的配置难度，有效提高WAF的防护效果，对于Web应用防护具有很大的价值，因此一直是研究的热点问题。由于WAF日志记录了WAF处理各类请求的日志信息，基于WAF日志对攻击行为进行模式挖掘，是目前自动化WAF攻击行为模式挖掘的最主要途径。

目前，现有技术中，基于WAF日志进行攻击行为模式挖掘的方法需要利用较多的领域知识进行参数的设置，较为复杂。

发明内容

有鉴于此，本发明提供一种面向WAF日志的攻击行为模式挖掘方法及装置，用以降低攻击行为模式挖掘的难度。

为解决上述技术问题，本发明提供一种面向WAF日志的攻击行为模式挖掘方法，包括：

获取WAF日志，并从所述WAF日志中提取至少一个待处理攻击序列；

从所述至少一个待处理攻击序列中提取至少一个有效攻击序列；

对所述至少一个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列；

根据所述至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式。

其中，所述从所述WAF日志中提取至少一个待处理攻击序列的步骤，包括：

以攻击者的IP地址和被攻击的Web应用的域名为键值，从所述WAF日志中提取至少一个待处理攻击序列。

其中，所述从所述至少一个待处理攻击序列中提取至少一个有效攻击序列的步骤，包括：

将所述至少一个待处理攻击序列中的每一待处理攻击序列，按照预定攻击序列间隔划分成一个或多个待处理攻击子序列；

将所述待处理攻击子序列作为所述有效攻击序列。

其中，所述从所述至少一个待处理攻击序列中提取至少一个有效攻击序列的步骤，还包括：

对所述待处理攻击子序列进行以下任意一种或几种序列操作，获得序列操作后的待处理攻击子序列；所述序列操作包括：去重操作，合并操作，删除操作；

所述将所述待处理攻击子序列作为所述有效攻击序列的步骤具体为：

将所述序列操作后的待处理攻击子序列作为所述有效攻击序列。

其中，所述去重操作包括：从所述待处理攻击子序列中，获取一个或多个待去重攻击子序列，从所述待去重攻击子序列中去除第一数量的待去重攻击子序列；

所述合并操作包括：从所述待处理攻击子序列中，获取一个或多个待合并攻击子序列，将所述待合并攻击子序列进行合并；

所述删除操作包括：从所述待处理攻击子序列中，删除一个或多个待处理无效攻击子序列。

其中，所述对所述至少一个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列的步骤，包括：

将所述至少一个有效攻击序列中的每一有效攻击序列划分成多个序列段；

对于所述至少一个有效攻击序列中的第一有效攻击序列和第二有效攻击序列，计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离；

根据所述第一有效攻击序列中的各个序列段和所述第二有效攻击序列中的各个序列段之间的攻击距离，确定所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离；

若所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离小于预设阈值，则将所述第一有效攻击序列和所述第二有效攻击序列聚类为相同类别的有效攻击序列。

其中，按照下述公式计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离：

θLD(x_[1,i],y_[1,j])＝θ×min(r,s,t)；

其中，参数r,s,t的取值为：

其中，θLD(x_[1,i],y_[1,j])表示序列段x_[1,i]和序列段y_[1,j]之间的攻击距离；θ>0,表示距离调节因子；min(r,s,t)表示参数r,s,t之间的最小值；i，j为自然数。

其中，所述根据所述至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式的步骤，包括：

分别对至少一个类别的有效攻击序列中的每一类有效攻击序列，计算最长公共子串，将所述最长公共子串作为所述每一类有效攻击序列对应的攻击行为模式。

第二方面，提供一种面向WAF日志的攻击行为模式挖掘装置，包括：

第一提取模块，用于获取WAF日志，并从所述WAF日志中提取至少一个待处理攻击序列；

第二提取模块，用于从所述第一提取模块提取的至少一个待处理攻击序列中提取至少一个有效攻击序列；

聚类模块，用于对所述第二提取模块提取的多个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列；

模式获取模块，用于根据所述聚类模块获得的至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式。

其中，所述第一提取模块包括：

获取子模块，用于获取WAF日志；

提取子模块，用于以攻击者的IP地址和被攻击的Web应用的域名为键值，从所述WAF日志中提取至少一个待处理攻击序列。

其中，所述第二提取模块包括：

划分子模块，用于将所述至少一个待处理攻击序列中的每一待处理攻击序列，按照预定攻击序列间隔划分成一个或多个待处理攻击子序列；

确定子模块，用于将所述待处理攻击子序列作为所述有效攻击序列。

其中，所述第二提取模块还包括：

处理子模块，用于对所述待处理攻击子序列进行以下任意一种或几种序列操作，获得序列操作后的待处理攻击子序列；所述序列操作包括：去重操作，合并操作，删除操作；

所述确定子模块具体用于：将所述序列操作后的待处理攻击子序列作为所述有效攻击序列。

其中，所述处理子模块包括以下任意一个或者几个单元的组合：

去重单元，用于从所述待处理攻击子序列中，获取一个或多个待去重攻击子序列，从所述待去重攻击子序列中去除第一数量的待去重攻击子序列；

合并单元，用于从所述待处理攻击子序列中，获取一个或多个待合并攻击子序列，将所述待合并攻击子序列进行合并；

删除单元，用于从所述待处理攻击子序列中，删除一个或多个待处理无效攻击子序列。

其中，所述聚类模块包括：

分段子模块，用于将所述至少一个有效攻击序列中的每一有效攻击序列划分成多个序列段；

第一计算子模块，用于对于所述有效攻击序列中的第一有效攻击序列和第二有效攻击序列，计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离；

第二计算子模块，用于根据所述第一有效攻击序列中的各个序列段和所述第二有效攻击序列中的各个序列段之间的攻击距离，确定所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离；

聚类子模块，用于若所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离小于预设阈值，则将所述第一有效攻击序列和所述第二有效攻击序列聚类为相同类别的有效攻击序列。

θLD(x_[1,i],y_[1,j])＝θ×min(r,s,t)；

其中，参数r,s,t的取值为：

其中，所述模式获取模块具体用于：分别对至少一个类别的有效攻击序列中的每一类有效攻击序列，计算最长公共子串，将所述最长公共子串作为所述每一类有效攻击序列对应的攻击行为模式。

本发明的上述技术方案的有益效果如下：

在本发明实施例中，从WAF日志中提取至少一个待处理攻击序列，从所述至少一个待处理攻击序列中提取至少一个有效攻击序列，并对有效攻击序列进行聚类处理，进而获得至少一个类别的有效攻击序列，进而获得每个类别的攻击序列的攻击行为模式。因而，利用本发明实施例的方案，模型简单容易实现，无需过多的领域知识，从而降低了攻击行为模式挖掘的难度。

附图说明

图1为本发明实施例一的面向WAF日志的攻击行为模式挖掘方法的流程图；

图2为本发明实施例一中DBSCAN聚类伪代码；

图3为本发明实施例一中步骤103的流程图；

图4为本发明实施例二的面向WAF日志的攻击行为模式挖掘装置的结构图。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

如图1所示，本发明实施例一的面向WAF日志的攻击行为模式挖掘方法，包括：

步骤101、获取WAF日志，并从所述WAF日志中提取至少一个待处理攻击序列。

在此，为了使得获得的攻击行为模型更为全面，可从WAF日志中提取出所有的攻击序列。通常一次攻击是某IP发起的一系列针对某Web应用的攻击，所以，在此可以攻击者的IP和被攻击的Web应用的域名为键值进行提取，获得至少一个待处理攻击序列。

步骤102、从所述至少一个待处理攻击序列中提取至少一个有效攻击序列。

通过对大量的WAF日志进行分析，可以得出，通常攻击者会对Web应用进行长时间、多次的攻击。比如，攻击者可能持续的进行SQL(Structured Query Language，结构化查询语言)注入攻击，这时需要对重复的SQL注入攻击合并。攻击者往往在多样的攻击中掺杂某些无用的攻击，此时需要将其删除。所以，有效攻击序列提取旨在对攻击序列进行切分、去除无效攻击、合并重复攻击等。

有效攻击序列是指将待处理攻击序列经过序列操作处理后的序列。其中，该序列操作包括切分操作。进一步的，为了使得获得的攻击行为模型更为准确，所述攻击序列处理操作还可包括删除操作、合并操作、去重操作等操作。

其中，所述划分操作，指的是将长时间的持续攻击进行划分。划分的目的是把多次攻击拆分为单次。在此，将所述至少一个待处理攻击序列中的每一待处理攻击序列按照预定攻击序列间隔划分成一个或多个待处理攻击子序列。其中，该预定攻击序列间隔可以设置为12小时。

其中，所述去重操作，指的是从所述待处理攻击子序列中，获取一个或多个待去重攻击子序列，从所述待去重攻击子序列中去除第一数量的待去重攻击子序列。所述待去重攻击子序列指的是攻击手段、攻击结果等相同的待处理攻击子序列。其中，该第一数量可任意设定。

所述合并操作，指的是从所述待处理攻击子序列中，获取一个或多个待合并攻击子序列，将所述待合并攻击子序列进行合并。所述待合并攻击子序列指的是构成一个完整的攻击行为的多个序列。

所述删除操作，指的是从所述待处理攻击子序列中，删除一个或多个待处理无效攻击子序列。所述待处理无效攻击子序列指的是无用的攻击对应的待处理子序列。

需要说明的是，在本发明实施例中，在进行了划分操作后，可在划分操作的基础上进行去重，合并，删除等任一项或者几项操作，且在进行下一项操作时，可在前一项操作的结果上进行。

步骤103、对所述至少一个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列。

将有效攻击序列进行聚类目的在于聚集相似的有效攻击序列，为下一步的攻击行为模式挖掘做准备。通过有效攻击序列的抽取，可以抽取到多个有效攻击序列。有效攻击序列代表了多种攻击手段，为了更深入的挖掘背后的攻击行为模式，在此对有效攻击序列进行聚类操作。

考虑到攻击行为模式的个数不确定，且容易含有噪声，所以在本发明实施例中选择基于密度的聚类方法DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise，具有噪声的基于密度的聚类方法)。

DBSCAN算法中是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。在DBSCAN算法中不需要事先知道要形成的簇类的数量，并且可以发现任意形状的簇类，同时DBSCAN能够识别出噪声点。所以，非常适合应用于攻击序列的聚类。

聚类中非常重要的概念是攻击距离的定义，攻击距离定义的不同会导致聚类结果的千差万别。对于攻击行为模式的聚类，实质是字符串的聚类，所以此处使用应用于字符串计算的编辑距离方法。

考虑到有效攻击序列的特点，本发明实施例中通过定义距离调节因子θ来调节有效攻击序列的攻击距离的计算。

具体的，在本发明实施例中，如图3所示，此步骤包括：

步骤1031、将所述有效攻击序列中的每一有效攻击序列划分成多个序列段。

其中，序列段的划分可有多种。例如，假设一个有效攻击序列中包括多个攻击步骤对应的序列，那么可将每个攻击步骤对应的序列作为一个序列段。

步骤1032、对于所述有效攻击序列中的第一有效攻击序列和第二有效攻击序列，计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离。

步骤1033、根据所述第一有效攻击序列中的各个序列段和所述第二有效攻击序列中的各个序列段之间的攻击距离，确定所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离。

对于第一有效攻击序列中的每一序列段，都和第二有效攻击序列中的序列段进行计算，求取攻击距离。根据第一有效攻击序列中的各个序列段和所述第二有效攻击序列中的各个序列段之间的攻击距离，利用DBSCAN算法，即可获得两个有效攻击序列之间的攻击距离。

步骤1034、若所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离小于预设阈值，则将所述第一有效攻击序列和所述第二有效攻击序列聚类为相同类别的有效攻击序列。否则，认为不是相同类别的有效攻击序列。

其中，该阈值可任意设置，且可根据不同的攻击类型取值不同。

在具体应用中，按照下述公式(1)计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离：

θLD(x_[1,i],y_[1,j])＝θ×min(r,s,t)； (1)

其中，参数r,s,t的取值为：

在上述公式中，当距离调节因子θ大于1时，表示有效攻击序列之间越接近，则攻击距离越近。所以对于攻击源或者攻击目标是某个IP地址来说，距离调节因子θ设置为大于1的值。同理，对于域名来说，距离调节因子θ需要设置为小于1的值。

在实际应用中，DBSCAN聚类伪代码如图2所示。

步骤104、根据所述至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式。

在此步骤中，对聚类后的有效攻击序列即至少一个类别的有效攻击序列可以进一步计算，得到最终的攻击行为模式。

具体的，在此分别对至少一个类别的有效攻击序列中的每一类有效攻击序列，计算最长公共子串，将所述最长公共子串作为所述每一类有效攻击序列对应的攻击行为模式。

每一个攻击行为模式代表聚类后的多个攻击序列。计算攻击行为模式的方法是使用最长公共子串的方法，对聚类后的攻击序列求其最长公共子串。所以，攻击行为模式是指对相同类的有效攻击序列的统一表达。

由上可以看出，在本发明实施例中，从WAF日志中提取至少一个待处理攻击序列，从所述至少一个待处理攻击序列中提取至少一个有效攻击序列，并对有效攻击序列进行聚类处理，进而获得至少一个类别的有效攻击序列，进而获得每个类别的攻击序列的攻击行为模式。因而，利用本发明实施例的方案，模型简单容易实现，无需过多的领域知识，从而降低了攻击行为模式挖掘的难度。

实施例二

如图4所示，本发明实施例二的面向WAF日志的攻击行为模式挖掘装置，包括：

第一提取模块301，用于获取WAF日志，并从所述WAF日志中提取至少一个待处理攻击序列；第二提取模块302，用于从所述第一提取模块提取的至少一个待处理攻击序列中提取至少一个有效攻击序列；聚类模块303，用于对所述第二提取模块提取的多个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列；模式获取模块304，用于根据所述聚类模块获得的至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式。

其中，所述第一提取模块301包括：获取子模块，用于获取WAF日志；提取子模块，用于以攻击者的IP地址和被攻击的Web应用的域名为键值，从所述WAF日志中提取至少一个待处理攻击序列。

其中，所述第二提取模块302包括：划分子模块，用于将所述至少一个待处理攻击序列中的每一待处理攻击序列，按照预定攻击序列间隔划分成一个或多个待处理攻击子序列；确定子模块，用于将所述待处理攻击子序列作为所述有效攻击序列。

为了提高获得的攻击行为模式的准确性，所述第二提取模块302还包括：

处理子模块，用于对所述待处理攻击子序列进行以下任意一种或几种序列操作，获得序列操作后的待处理攻击子序列；所述序列操作包括：去重操作，合并操作，删除操作；所述确定子模块具体用于：将所述序列操作后的待处理攻击子序列作为所述有效攻击序列。

在具体应用中，所述处理子模块包括以下任一单元或者多个单元的组合：

去重单元，用于从所述待处理攻击子序列中，获取一个或多个待去重攻击子序列，从所述待去重攻击子序列中去除第一数量的待去重攻击子序列；合并单元，用于从所述待处理攻击子序列中，获取一个或多个待合并攻击子序列，将所述待合并攻击子序列进行合并；删除单元，用于从所述待处理攻击子序列中，删除一个或多个待处理无效攻击子序列。

其中，所述聚类模块303包括：

分段子模块，用于将所述至少一个有效攻击序列中的每一有效攻击序列划分成多个序列段；第一计算子模块，用于对于所述有效攻击序列中的第一有效攻击序列和第二有效攻击序列，计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离；第二计算子模块，用于根据所述第一有效攻击序列中的各个序列段和所述第二有效攻击序列中的各个序列段之间的攻击距离，确定所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离；聚类子模块，用于若所述第一有效攻击序列和所述第二有效攻击序列之间的攻击距离小于预设阈值，则将所述第一有效攻击序列和所述第二有效攻击序列聚类为相同类别的有效攻击序列。

在实际应用中，按照公式(1)计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离。

其中，所述模式获取模块304具体用于：分别对至少一个类别的有效攻击序列中的每一类有效攻击序列，计算最长公共子串，将所述最长公共子串作为所述每一类有效攻击序列对应的攻击行为模式。

本发明所述装置的工作原理可参照前述方法实施例的描述。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向WAF日志的攻击行为模式挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述WAF日志中提取至少一个待处理攻击序列的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述至少一个待处理攻击序列中提取至少一个有效攻击序列的步骤，包括：

将所述待处理攻击子序列作为所述有效攻击序列。

4.根据权利要求3所述的方法，其特征在于，所述从所述至少一个待处理攻击序列中提取至少一个有效攻击序列的步骤，还包括：

5.根据权利要求4所述的方法，其特征在于，

所述去重操作包括：从所述待处理攻击子序列中，获取一个或多个待去重攻击子序列，从所述待去重攻击子序列中去除第一数量的待去重攻击子序列；

6.根据权利要求1所述的方法，其特征在于，所述对所述至少一个有效攻击序列进行聚类，获得至少一个类别的有效攻击序列的步骤，包括：

7.根据权利要求6所述的方法，其特征在于，按照下述公式计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离：

θLD(x_[1,i],y_[1,j])＝θ×min(r,s,t)；

其中，参数r,s,t的取值为：

8.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个类别的有效攻击序列，获取每个类别的有效攻击序列对应的攻击行为模式的步骤，包括：

9.一种面向WAF日志的攻击行为模式挖掘装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一提取模块包括：

获取子模块，用于获取WAF日志；

11.根据权利要求9所述的装置，其特征在于，所述第二提取模块包括：

12.根据权利要求11所述的装置，其特征在于，所述第二提取模块还包括：

13.根据权利要求12所述的装置，其特征在于，所述处理子模块包括以下任意一个或者几个单元的组合：

14.根据权利要求9所述的装置，其特征在于，所述聚类模块包括：

15.根据权利要求14所述的装置，其特征在于，按照下述公式计算所述第一有效攻击序列中的任一序列段和所述第二有效攻击序列中的任一序列段之间的攻击距离：

θLD(x_[1,i],y_[1,j])＝θ×min(r,s,t)；

其中，参数r,s,t的取值为：

16.根据权利要求9所述的装置，其特征在于，所述模式获取模块具体用于：分别对至少一个类别的有效攻击序列中的每一类有效攻击序列，计算最长公共子串，将所述最长公共子串作为所述每一类有效攻击序列对应的攻击行为模式。