CN102158499B

CN102158499B - 基于http流量分析的挂马网站检测方法

Info

Publication number: CN102158499B
Application number: CN 201110146546
Authority: CN
Inventors: 张健; 杜振华; 张津弟; 陈建民; 曹鹏; 王琚; 孟彬
Original assignee: NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Current assignee: NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Priority date: 2011-06-02
Filing date: 2011-06-02
Publication date: 2013-09-18
Anticipated expiration: 2031-06-02
Also published as: CN102158499A

Abstract

一种基于HTTP流量分析的挂马网站检测方法。其包括在广域网或局域网中抓取用户HTTP请求、还原HTTP Header、提取Referer域值、对HTTPHeader中的HOST属性和Get路径进行规则特征匹配及输出挂马URL和HTTP访问行为完整路径等阶段。本发明提供挂马网站检测方法可以充分利用客户端(普通用户)自主Web访问行为，通过已知挂马网页获得被挂马网站信息，并且能够比较全面、真实地掌握挂马攻击的影响范围、情况，从而在投入较少情况下，仍然能获得比较好的检测效果，而且可以得到大量线索和数据。还可以与传统的挂马网页检测方法相结合。本检测方法在应用中可以前置，从而为传统的挂马网页检测方法缩小检测范围，但仍能保持较好的召回率。

Description

基于HTTP流量分析的挂马网站检测方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于HTTP流量分析的挂马网站检测方法。

背景技术

所谓挂马就是黑客通过各种手段获得网站管理员账号，然后登陆网站后台，通过数据库备份/恢复或者上传漏洞而获得一个webshell。黑客利用获得的webshell可以修改网站页面的内容，向页面中加入恶意转向代码，也可以直接通过弱口令获得服务器或者网站FTP，然后直接对网站页面进行修改。当有人访问被加入恶意代码的页面时，其就会自动地访问被转向的地址或者下载木马病毒。网站被挂马不仅会使自己的网站失去信誉，丢失大量客户，也会让访问网站的普通用户陷入黑客设下的陷阱。

目前常用的网页挂马检测方法主要有静态代码分析和动态行为分析两种方法：

(1)静态代码分析

该方法是对可疑网页的源代码进行分析，以获取各引用链接，再对这些链接包含的页面进行分析，从而判断出一个网页是否为被挂马。虽然这种方法的处理速度较高，但面临加密、代码混淆等方式的挑战，因此对未知挂马网页的判别能力较弱。

(2)动态行为分析

该方法是通过交互性主机蜜罐来诱发挂马网页在蜜罐中完成攻击行为，从而发现被挂马网页。这种方法的优点在于不受代码加密、代码混淆等方式的限制，准确率较高，并对未知挂马网页的判别能力较强。但缺点是该方法往往需要消耗大量的资源，因此投入较大。

由于以上两种方法各有优势，因此在实际工作中往往将这两种方法结合起来使用，从而达得较好的效费比，但缺点是总体成本仍然较高。

另外，上述两种方法作为主动的检测手段只能获取“被挂马网页-＞挂马网页”的路径发现，而无法实现“挂马网页-＞被挂马网页”的逆向发现。即无法从一个独立已知的挂马网页逆向发现其感染的被挂马网页，而这一点恰恰是很多信息安全管理单位的关注焦点。

此外，根据国家计算机病毒应急处理中心和CNCERT/CC发布的监测数据可以发现，挂马攻击随着攻击链条的延伸是呈现收敛趋势的，即：很多被挂马网页最终会指向同一挂马网页，而该挂马网页通常又是由某一挂马网站制作的。但是，传统的挂马网站检测方法往往只能通过自上而下的方式获得挂马攻击的全部过程。该方法通过模拟客户端对海量的网站进行不间断的检测，从而发现攻击的来源以及其中的相互关系，而这样做必然需要消耗大量的资源。

发明内容

为了解决上述问题，本发明的目的在于提供一种能够在大规模网络条件下获得较好的检测效果，并且可以节省资源的基于HTTP流量分析的挂马网站检测方法。

为了达到上述目的，本发明提供的基于HTTP流量分析的挂马网站检测方法包括按顺序进行的下列步骤：

(1)在广域网或局域网中抓取用户HTTP请求的S1阶段：用户HTTP请求是从用户HTTP访问流量缓冲池中得到的；

(2)还原HTTP Header的S2阶段：在此阶段中从用户的HTTP请求信息中提取出HTTP协议数据包头信息中的HOST属性和Get请求的路径；

(3)对挂马URL进行匹配判断的S3阶段：在此阶段中将上述提取出的HOST属性和Get请求的路径与从挂马URL特征池中获得的已知或可疑挂马URL特征进行匹配判别，如果匹配进入S4阶段，否则返回到S1阶段，继续抓取下一个用户的HTTP请求；

(4)提取Referer域值的S4阶段：在此阶段中从HTTP协议数据包头信息中提取出Referer域值；

(5)输出挂马URL和HTTP访问行为完整路径的S5阶段：在此阶段中将输出可疑的挂马URL和相关联的HTTP访问行为完整路径，由此即可检测到相应的被挂马网站。

在S3阶段中，所述的规则特征匹配判别方式如下：

(1)通过数据统计，选取一些具有较强适用性的文件名和路径；

(2)生成一系列规则，如：

匹配文件名为“of.htm”的URL；

匹配路径名为“/wm/”的URL；

匹配路径名为“/xo/”，且文件名为“dk.htm”的URL；

(3)将规则加入原型系统规则库；

(4)分析原型系统监测结果，对结果进一步验证。

本发明提供的基于HTTP流量分析的挂马网站检测方法具有如下有益效果：

(1)本检测方法可以充分利用不可控客户端(普通用户)的能力，通过已知挂马网页获得被挂马网站信息，并且能够比较全面、真实地掌握挂马攻击的影响范围、情况，从而在投入较少情况下，仍然能获得比较好的检测效果，而且可以得到大量线索和数据。

(2)本检测方法还可以与传统的挂马网页检测方法相结合。本检测方法在应用中可以前置，从而为传统的挂马网页检测方法缩小检测范围，但仍能保持较好的召回率。

附图说明

图1为本发明提供的基于HTTP流量分析的挂马网站检测方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于HTTP流量分析的挂马网站检测方法进行详细说明。

本发明人是通过在网络旁路检测已捕获的对已知或可疑挂马网页的访问请求，分析其HTTP协议数据包头部的Referer字段，从而发现那些遭受入侵的被挂马网站。

通过对当前挂马网页的特点进行大量分析、研究后，发现Referer域值在挂马网页检测工作中可能会发挥一定的特殊作用。

HTTP Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器其是从哪个页面链接过来的，服务器籍此可以获得一些信息用于处理。

正是由于Referer域本身的特性，可以使我们在大多数情况下获取一个客户端在某一时间窗口中的HTTP访问行为及路径。

在对挂马网页的测试过程中，本发明人发现referer域值可以有效获得被挂马网页信息，因此完全可以作为挂马网页检测手段中的一种有力补充。

如：已知挂马网页“http://cdma.25tb.info/xo/dk.html”，通过对用户的HTTP访问流量进行分析，发现有对“http://cdma.25tb.info/xo/dk.html”的相应HTTP请求。经解析，该请求的Referer域值为“http://www.jindi.com.cn\r\n”。经过对网页“http://www.jindi.com.cn\r\n”的静态分析，证明确实存在被嵌入的挂马网页“http％3A//％43％44％4D％41％2E％32％35％54％42％2E％49％4E％46％4F/％78％6F/％64％6B.html”，经解密，为http://cdma.25tb.info/xo/dk.html，说明“http://www.jindi.com.cn\r\n”被挂马，从而证明了本检测方法的有效性。

如图1所示，本发明提供的基于HTTP流量分析的挂马网站检测方法包括按顺序进行的下列步骤：

在S3阶段中，所述的规则特征匹配判别方式如下：

(2)生成一系列规则，如：

匹配文件名为“of.htm”的URL；

匹配路径名为“/wm/”的URL；

匹配路径名为“/xo/”，且文件名为“dk.htm”的URL；

(3)将规则加入原型系统规则库；

(4)分析原型系统监测结果，对结果进一步验证。

Claims

1.一种基于HTTP流量分析的挂马网站检测方法，所述的基于HTTP流量分析的挂马网站检测方法包括按顺序进行的下列步骤：

(5)输出挂马URL和HTTP访问行为完整路径的S5阶段：在此阶段中将输出可疑的挂马URL和相关联的HTTP访问行为完整路径，由此即可检测到相应的被挂马网站；

其特征在于：在S3阶段中，所述的特征匹配判别方式如下：

(2)生成如下规则：

匹配文件名为“of.htm”的URL；

匹配路径名为“/wm/”的URL；

匹配路径名为“/xo/”，且文件名为“dk.htm”的URL；

(3)将规则加入原型系统规则库；

(4)分析原型系统监测结果，对结果进一步验证。