CN105721427A

CN105721427A - 一种从Web日志中挖掘攻击频繁序列模式的方法

Info

Publication number: CN105721427A
Application number: CN201610023573.5A
Authority: CN
Inventors: 孙建华; 孙慧
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2016-06-29
Anticipated expiration: 2036-01-14
Also published as: CN105721427B

Abstract

本发明涉及网络安全领域的数据挖掘，具体涉及一种从Web日志中挖掘攻击频繁序列模式的方法。本发明的方法包括：收集网站访问日志文件，网页信息及攻击特征码；解析网站日志结构，将解析出的URL与收集到的攻击特征码进行匹配，得到攻击记录，清理URL；对攻击日志数据进行用户识别并区分人为攻击和漏洞扫描器的攻击；分别进行会话识别，得到人为攻击的序列数据库和漏洞扫描器的序列数据库；将字符串数据库转换为数字数据库，并且使用序列模式挖掘方法分别挖掘序列数据库的频繁序列；将挖掘得到的频繁序列最大化并将序列模式转化为可视化的图形语言。其流程如图1所示。该方法能够实现攻击模式的可视化以及探索漏洞扫描器内部的扫描序列。

Description

一种从Web日志中挖掘攻击频繁序列模式的方法

技术领域

本发明涉及Web安全领域的数据挖掘，特别是涉及一种对攻击行为的挖掘。具体涉

及通过对Web日志的挖掘，发现网络攻击者的攻击序列模式的方法。

背景技术

作为互联网上最重要的应用之一，Web提供了便捷的文档发布与获取机制，并逐渐成为各类信息资源的聚集地。信息的丰富性和多样性诱惑着黑客，导致对Web应用的攻击越来越频繁，尤其是针对Web服务器的攻击。这种攻击不仅种类繁多，而且危害巨大，有时会导致公司用户信息泄露，更甚者会致使服务器瘫痪。常见的Web应用漏洞有SQL注入、跨站脚本攻击、目录遍历、文件包含、命令执行等。其中SQL注入是发生在应用程序的数据库层面上的漏洞，被广泛用于非法获取网站的控制权，该漏洞的存在会导致网站被嵌入恶意性代码、植入后门程序，严重时甚至会破坏硬盘数据，导致系统瘫痪。而在跨站脚本攻击中，伪造的URL被作为诱饵，诱导用户点击。用户点击被篡改的URL后，恶意的脚本将会在受害者的浏览器中执行。该漏洞主要被用于窃取密码、钓鱼欺骗、传播恶意代码等。因此对Web应用程序漏洞的利用，是获取公司内部信息的最便捷的路径之一。

Web日志记录了服务器接受和处理请求以及运行时错误的各种原始信息。当用户对服务器发送请求时，服务器的访问日志文件就会记录该请求的详细信息。攻击者如果想要利用某个漏洞，需要通过向服务器发送请求，根据服务器的响应来攻击，因此攻击者的入侵行为也会被记录到Web日志中。在服务器的日常运营和安全应急响应过程中，管理员需要从安全的角度对日志进行分析。在攻击发生后通过对近几天的日志分析，跟踪攻击者，并还原攻击过程。通常是利用grep等文本搜索命令来完成对日志文件某个关键字的搜索，从中发现异常行为，然后对这些存在异常行为的日志进行人为分析。然而这种手动检查的方法既费时又费力。另一种方法是使用自动化工具，可以实现对日志的高效搜索、可视化分析等操作。但是这些分析工具仅仅是对日志做一些简单的统计，比如统计网页点阅数和访问量，而不是日志进行深入的数据分析。此时就需要使用数据挖掘技术对日志数据进行分析，该技术被称为Web使用挖掘(WebUsageMining)。

Web使用挖掘是Web数据挖掘的一部分，挖掘的数据主要来源于服务器的日志，能够实现对日志数据的深入分析。其基本工作流程主要分为三个阶段：数据收集和预处理，模式发现，模式分析。在Web安全领域，Web数据挖掘的应用并不常见，但是对日志中攻击数据进行挖掘，有利于帮助管理员发现漏洞，保护网站。通过对日志中攻击数据的分析，可以比较轻易的知道攻击者感兴趣的地方，以及市面上是否出现了1day攻击的大规模利用。

发明内容

本发明针对目前对网络攻击行为分析的迫切性，结合数据挖掘算法，对攻击者攻击网站的序列进行模式挖掘。一方面可以探索漏洞扫描器内部的扫描路径；另一方面从网站安全角度来考虑，有助于帮助管理员发现和分析攻击者的攻击行为。本发明提供了一种探索攻击者攻击行为的方法，所叙述方法步骤如图1，包括：

1.数据收集阶段

首先，在预处理之前需要收集针对各种网络漏洞进行攻击的特征码，以此来作为匹配攻击的依据。攻击特征码是指在发送请求时包含在URL中的能够对某种特定的漏洞进行利用的特征字符串。将收集到的攻击特征码与其对应攻击类型存储到特定的文件中作为漏洞特征库，格式如图2所示。

其次，作为挖掘数据的主体，网站的日志数据在这一步也要被收集。由于Web服务器的多样性，导致访问日志的格式也多种多样。在收集日志数据的同时要收集日志的结构信息，以此为依据来解析日志的每一个字段。另一方面，为了保持攻击序列的简洁性，将每一个攻击还原到具体的页面，此外还需要收集网站页面信息，作为识别URL请求某一页面的依据。

2.预处理阶段

在日志记录的用户请求信息中，URL是数据分析的重要依据，其中应用最广泛的是HTTP/HTTPS协议的URL。此外，URL也是Web安全的入口点，各种安全威胁都是伴随着URL的请求而进行的，如果客户端到服务端各层的解析没做好，一旦被攻击者利用，篡改URL或请求头部就可能出现安全问题。因此日志中的URL字段也可用于检查该用户该记录是否存在漏洞利用行为的主要依据。

与通用的Web使用挖掘的数据清理不同的是，Web使用挖掘会祛除异常请求和静态请求的部分，常见的有对图片的请求或者是请求响应状态不是“200”的记录。而本方法清理掉正常的用户请求，保留恶意的用户请求，将攻击数据保存后，对攻击数据进行用户识别和会话识别，其具体过程包括以下几个部分：

(1)日志解析。数据收集完毕后，根据日志结构信息对日志文件解析，将日志记录解析为相应的请求IP、请求时间、请求方式、请求URL与请求状态、客户端等字段。

(2)日志清洗。即攻击特征匹配，通过日志中的URL来匹配漏洞特征库，查找日志中含有攻击行为的记录。根据解析到的URL请求与之前收集到的攻击特征码进行逐一对比，如果该URL中包含任意攻击类型的特征码，那么就判定该条日志记录产生了攻击的行为，按照访问时间、访问者IP、客户端浏览器、请求方式、请求URL与请求状态等信息保存在攻击文件中。

(3)URL清理。攻击者的攻击详细信息保存到攻击文件以后，需要对URL字段进行清理。日志中匹配出含有攻击的日志条目中，其解析出的URL，除了包含对网站中某个具体页面的请求，同时存在大量的攻击字符串。这些字符串对于分析攻击者的攻击路径来说是无价值的，因此只需保存该攻击具体产生在哪一个页面，所以额外的一步操作是将被攻击的页面提取出来。依据数据收集阶段搜集的网站页面信息来匹配具体对网站哪一个页面进行了Web漏洞的利用。

(4)用户识别。从日志记录中识别出每一个发送请求的用户。根据请求用户的IP、操作系统、浏览器等信息从大量的Web日志记录中找出访问Web站点的具体用户。针对用户识别有很多有效的算法，通用的算法是通过用户IP和客户端操作系统或浏览器识别不同的用户。本发明依据预处理后的IP和客户端信息来识别不同的用户。

(5)人为攻击和漏洞扫描器攻击的识别。为了更准确的分析人为攻击的攻击模式和机器扫描的攻击模式，将用户分为了两大类，人为攻击和漏洞扫描工具的探测。识别扫描工具可以依据以下几点来做：

●扫描器指纹：不同的扫描器一般都有自己的独特特征，例如发送的请求中会加一些特定的head字段，测试漏洞的请求参数会加上自己扫描器的名称等。比如wvs(AcunetixWebVulnerabilityScanner)在请求的参数URL或post数据中会有“acunetix_wvs_security_test”样式的字符串，又比如AppScan在请求参数中会出现“appscan”这样的字符串。

●单个用户某段时间内触发规则的次数：根据某个用户在某时间段内触发规则的次数，如果大于设定的某个阀值，则判定其为漏洞扫描工具。

●单个用户某个时间段内响应状态错误的比例：这种方法主要用来应对探测敏感目录和文件的扫描器，有些扫描器都是基于字典文件，通过对字典内的URL进行请求，根据获得的返回信息来进行判断目录或者文件是否存在。如果某个用户在一段时间内请求频率过快，这时候可以收集一段时间内返回状态为“404”的数目，到达一定阀值就认为是扫描工具。

(6)会话识别。会话是指用户通过一次或多次点击而请求页面的有限集合。在访问日志中，不同IP地址的用户请求肯定不会在同一会话中，如果同一用户在相隔较长的时间内访问同一网站，也被认为在不同的会话中。用户识别之后需要对用户的每个会话进行分割，选择10分钟作为默认的访问时间阈值，如果用户请求的两个页面之间的时间间隔超过这个阈值则认为用户又开始了一个新的会话。用户识别后生成两个数据库，其中一个是漏洞扫描工具的扫描数据库，另一个是人为攻击的数据库，分别对这两个数据库进行会话识别，即：人为攻击会话识别和漏洞扫描器会话识别。之后数据就被转换成两个对应的序列数据库以备后续的序列模式挖掘。

3.序列模式挖掘

经过预处理后日志数据被转化为两个序列数据库，其中一个序列数据库是人为攻击的序列数据库，另一个则是漏洞扫描工具的攻击序列数据库。为了方便挖掘任务的进行，将序列数据库中所有的字符串转换成对应的数字，并保存一份相对应的文件，然后对转换后的数字数据库采用类似PrefixScan的算法进行序列模式挖掘，得出频繁序列模式。

序列模式挖掘是在给定序列数据库和最小支持度的情况下，挖掘序列数据库中所有的频繁序列，旨在发现序列数据库中频繁的序列模式。序列(Sequence)是指项集的有序排列，可以表示成<s₁，s₂，…，s_n>，其中s_j就是一个项集，也称为序列的一个元素。项集(Itemset)是由项组成的非空集合可以表示成(x₁，x₂，…，x_m)，其中每一个x_k代表一个项。支持数是指序列数据库S中包含某一序列的个数。频繁序列是指一个子序列(一个序列α＝<a₁，a₂，…，a_n>是另一个序列β＝<b₁□，b₂□，…，b_m□>(m>n)的子序列，当且仅当存在i₁<i₂<…<i_n使得a₁∈b_i1，a₂∈b_i2，…，a_n∈b_in)，该子序列的支持度大于最小支持度。

PrefixSpan是序列模式挖掘算法的一种，以下为PrefixSpan的一些基本定义：

前缀(Prefix)：假设所有的项在一个元素中按照字母表的顺序排列出来，给定一个序列α＝<e₁，e₂，…，e_n>(在这里每一个e都和在S中给定的连续的元素相一致)和一个序列β＝<e₁□，e₂□，…，e_m□>(m≤n)，只有如果满足以下三个条件：e_i□＝e_i(i≤m-1)；e_m□∈e_m；所有在(e_m－e_m□)的连续项在e_m□中都是按照字母表顺序排列的，那么就说β是α的一个前缀。

后缀(Suffix)：序列α＝<e₁，e₂，…，e_m□>关于子序列β的投影为α□＝<e₁，e₂，…，e_n>(m≤n)，则序列α关于子序列β的后缀为<e_m□□，e_m+1□，…，e_n□>，其中e_m□□＝(e_m－e_m□)。

投影数据库：令α是在序列数据库S中的一个序列模式，这个α的投影数据库表示为：S|_α，它是在S中关于前缀α的序列的后缀的集合。

由于PrefixSpan算法采用分治策略，生成比原始序列数据库更小的投影序列数据库，相对于其它算法来说更广泛应用于大型的序列数据库。其基本思想是查找频率大于支持度的频繁项，产生对应的后缀，每次递归都找到新的频繁序列，根据前缀构造新的投影数据库。本发明借鉴PrefixSpan算法并在其基础上进行了改进，算法实现步骤如下：

(1)扫描序列数据库，获得所有的1-频繁项集(频繁项集的长度为1)；

(2)对于每个频繁项产生对应的投影数据库；

(3)获取前缀序列中的所有项，将投影数据库中包含的前缀项移除；

(4)对于每个投影数据库递归地发现频繁序列，直到没有频繁序列产生为止。

下面来举例说明该算法：

给定序列数据库S＝[<a(ac)ad(cf)>，<(ad)c(bc)a>，<(ef)(ab)(df)ab>，<eg(af)cac>]最小支持度为70％。第一步要找出支持度大于70％的项，分别为a，c，d，f。第二步，对于每一个频繁项，根据序列数据库中的每一个序列获取它的后缀序列，对于a来说，关于数据库第一个序列的后缀序列是<_(ac)ad(cf)>。然后移除后缀序列中属于其前缀的项，该例子中移除a得到序列<_(_c)_d(cf)>。以此类推得到关于a的后缀数据库为[<_(_c)_d(cf)>，<_(_d)c(bc)>，<_(_b)(df)b>，<_(_f)c_c>]。接着，项a被扩展为序列<a，c>和<(ac)>，如果他们的频率大于最小支持度(如<a，c>)，则被认为是频繁序列的一部分。递归查找直到没有新的频繁序列生成。

4.模式分析

挖掘得到的频繁序列很难直接用于评估网站易受攻击的地方，同样也不可能直接发现漏洞扫描器的内部扫描路径。这是因为，首先，经过序列模式挖掘之后会产生数以万计的序列模式，需要对每一个频繁序列进行分析。其次，挖掘结果得到的频繁序列的格式都是数字格式(在挖掘算法实施前将字符串转化为数字，方便挖掘算法的进行)。例如<6，8，(12，8)，16>就是挖掘得到的一个频繁序列，而这些数字对于分析者来说是没有意义的。为了方便管理员能够更清晰的了解攻击序列，需要对这些序列模式进行分析，实施以下步骤：

(1)序列最大化：在生成的频繁序列中，大量的频繁序列是冗余的。比如一个序列包含于另一个序列，该步骤的任务就是删除这些被包含的序列。例如频繁序列中含有<a(bc)>，<a(fd)(bc)>，<a>，其中第一个序列和第三个序列就包含在第二个序列中，因此删除第一个和第三个序列，仅保留序列□a(fd)(bc)>。

(2)转换为图形化语言：在序列模式挖掘前，字符串被转化成数字文件，该步骤就需要将每个数字转换为对应的字符串，以便能够理解挖掘得到的频繁序列的具体意义。另外为了使攻击模式更易于理解和清晰将序列模式以图形化方式展示给用户。这一步实施的过程中,首先处理最大化后的频繁序列，按照序列模式挖掘前保存的数字与字符串对应关系的文件，将数字转换成该数字代表的字符串，并转化为可视化语言中的一个节点。然后依据序列的顺序画出该节点与其它相关节点的联系图，就可以得到各个攻击节点的顺序关系图。最后借助于图形显示工具将生成的图形语言打开，就可得到攻击序列图，结果如图3所示。

附图说明

图1：系统流程图

图2：SQL注入的部分攻击特征码

图3：人为攻击序列模式结果图

图4：Nginx日志格式示例图

具体实施方式

本发明的硬件环境主要是一台PC主机。其中，PC主机的CPU为Intel(R)Core(TM)i5-4570，3.20GHz，内存为4GBRAM，64位操作系统。

本发明的软件实现以Windows7为平台，在Eclipse环境下，使用Java语言开发。图形化展示借助于Graphviz工具。Java版本为1.8.0_40，Eclipse版本为4.4.2，Graphviz版本为2.37。

实验数据为Nginx服务器访问日志，其格式为访问者IP、授权用户、时间、HTTP请求、状态码、传送数据大小、上级路径、用户代理，具体例子如图4所示。

操作主要分为两部分，第一部分为日志数据预处理部分，第二部分为数据挖掘和图形化展示部分。

1.预处理部分

(1)算法描述

算法输入：L、P_a、W_c

算法输出：S

说明：L为日志文件(其格式如图4所示)，P_a是收集的漏洞利用的特征码(其格式如图2所示)，W_c为该网站的页面信息，S是序列数据库。

算法步骤：

1)解析日志结构；

2)扫描攻击特征码文件，如果日志的URL包含攻击特征码将该日志信息保存；

3)根据日志中的IP字段和客户端信息字段对生成的攻击数据文件进行用户识别，然后划分漏洞扫描工具的数据和人为攻击的数据；

4)根据两次访问的时间对每个用户进行会话识别，生成序列数据库。

其伪代码如下：

2.数据挖掘和图形化展示

(1)算法描述

算法输入：S，S_u，D_max，L_max

算法输出：Map

说明：S是序列数据库的集合，S_u支持度是序列模式挖掘中的最小支持度，D_max为序列间最大间隔，L_max是频繁序列最长长度，Map攻击序列图。

算法步骤：

1)将序列数据库所有字符串转换为数字，并将对应关系存储到文件中；

2)扫描序列数据库,提取频度大于最小支持度的项；

3)对每个项进行查找后缀数据库操作，并移除属于前缀序列的项；

4)判断序列间间隔是否大于最大间隔D_max及序列长度是否大于序列最长长度L_max；

5)递归查找直到没有频繁序列产生为止。

6)序列模式最大化；

7)转化为可视化图形语言，显示图形(如图4所示图形)；

其伪代码如下：

Claims

1.一种从Web日志中挖掘攻击频繁序列模式的方法，其特征在于实施步骤为：

(1)收集日志数据、日志结构信息、网页信息、攻击特征码信息；

(2)将日志进行预处理得到攻击序列数据库，预处理包括攻击特征匹配、URL清理、用户识别、区分人为攻击和漏洞扫描器攻击、会话识别五个步骤；

(3)分别对人为攻击序列数据库和漏洞扫描器攻击序列数据库进行序列模式挖掘；

(4)对频繁序列进行模式分析并转换为图形语言。

2.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法，其特征在于本方法在数据收集阶段要收集四方面的数据：

(1)日志数据，将其作为分析数据的主体；

(2)日志结构信息，用来解析日志数据，将字符串解析到每个相应的字段；

(3)攻击特征码与其对应的攻击类型，保存为漏洞特征库作为判断攻击的依据；

(4)收集网站页面信息并保存到文件中，作为识别URL请求某一页面的依据。

3.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法，其特征在于本方法在数据预处理阶段：

(1)进行攻击特征匹配，清理掉正常的用户请求，保留恶意的用户请求，通过日志中的URL来匹配漏洞特征库，查找日志中含有攻击行为的记录，具体根据收集的日志结构信息，将解析到的URL与之前收集到的攻击特征码进行逐一对比，一旦URL中包含任意攻击类型的特征码，就判定该条日志记录产生了攻击的行为，并将其保存为攻击文件；

(2)攻击者的攻击信息保存到攻击文件后，对URL字段进行清理，依据数据收集阶段搜集的网站页面信息，判断本条攻击是对网站哪一个页面进行了Web漏洞的利用。

4.根据权利要求1或3所述的一种从Web日志中挖掘攻击频繁序列模式的方法，其特征在于本方法保存攻击数据后，对攻击数据分别进行用户识别、区分人为攻击和漏洞扫描器攻击以及会话识别：

(1)依据日志中的IP字段和客户端信息字段识别多个用户；

(2)分别使用扫描工具指纹，单个用户某段时间内触发规则的次数，单个用户某时间段内响应状态错误的比例，这三种方法来将用户划分为人为攻击和漏洞扫描器的攻击两大类；

(3)分别对两类用户中的每个用户进行会话分割，选择10分钟作为默认的访问时间阈值，用户请求相邻两个页面的时间间隔超过这个阈值则认为用户又开始了一个新的会话。

5.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法，其特征在于本方法采用数据挖掘中的序列模式挖掘算法，对网站访问日志的攻击数据进行挖掘，探索攻击者的攻击序列模式，在数据挖掘实施之前，将预处理生成的字符串序列数据库转换成数字序列数据库，保存数字与字符串对应的关系，使用前缀序列模式挖掘算法，并且在生成后缀数据库时，将所有后缀中属于前缀的项移除，算法实现步骤如下：

(2)对于每个频繁项产生对应的投影数据库；

6.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法，其特征在于本方法在得到频繁序列之后，实施：

(1)序列最大化操作，删除挖掘出的频繁序列中冗余的频繁序列；

(2)转化为图形语言操作，本方法按照序列模式挖掘前保存的数字与字符串对应关系的文件，将数字转换成该数字代表的字符串，并转化为图形语言中的一个节点，依据序列的顺序画出该节点与其它相关节点的联系图，得到各个攻击节点的顺序关系图，最后借助于图形显示工具将生成的图形语言打开，得到攻击序列图。