CN102158499B - 基于http流量分析的挂马网站检测方法 - Google Patents

基于http流量分析的挂马网站检测方法 Download PDF

Info

Publication number
CN102158499B
CN102158499B CN 201110146546 CN201110146546A CN102158499B CN 102158499 B CN102158499 B CN 102158499B CN 201110146546 CN201110146546 CN 201110146546 CN 201110146546 A CN201110146546 A CN 201110146546A CN 102158499 B CN102158499 B CN 102158499B
Authority
CN
China
Prior art keywords
http
stage
trojan
horse
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110146546
Other languages
English (en)
Other versions
CN102158499A (zh
Inventor
张健
杜振华
张津弟
陈建民
曹鹏
王琚
孟彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Original Assignee
NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER filed Critical NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Priority to CN 201110146546 priority Critical patent/CN102158499B/zh
Publication of CN102158499A publication Critical patent/CN102158499A/zh
Application granted granted Critical
Publication of CN102158499B publication Critical patent/CN102158499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种基于HTTP流量分析的挂马网站检测方法。其包括在广域网或局域网中抓取用户HTTP请求、还原HTTP Header、提取Referer域值、对HTTPHeader中的HOST属性和Get路径进行规则特征匹配及输出挂马URL和HTTP访问行为完整路径等阶段。本发明提供挂马网站检测方法可以充分利用客户端(普通用户)自主Web访问行为,通过已知挂马网页获得被挂马网站信息,并且能够比较全面、真实地掌握挂马攻击的影响范围、情况,从而在投入较少情况下,仍然能获得比较好的检测效果,而且可以得到大量线索和数据。还可以与传统的挂马网页检测方法相结合。本检测方法在应用中可以前置,从而为传统的挂马网页检测方法缩小检测范围,但仍能保持较好的召回率。

Description

基于HTTP流量分析的挂马网站检测方法
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于HTTP流量分析的挂马网站检测方法。
背景技术
所谓挂马就是黑客通过各种手段获得网站管理员账号,然后登陆网站后台,通过数据库备份/恢复或者上传漏洞而获得一个webshell。黑客利用获得的webshell可以修改网站页面的内容,向页面中加入恶意转向代码,也可以直接通过弱口令获得服务器或者网站FTP,然后直接对网站页面进行修改。当有人访问被加入恶意代码的页面时,其就会自动地访问被转向的地址或者下载木马病毒。网站被挂马不仅会使自己的网站失去信誉,丢失大量客户,也会让访问网站的普通用户陷入黑客设下的陷阱。
目前常用的网页挂马检测方法主要有静态代码分析和动态行为分析两种方法:
(1)静态代码分析
该方法是对可疑网页的源代码进行分析,以获取各引用链接,再对这些链接包含的页面进行分析,从而判断出一个网页是否为被挂马。虽然这种方法的处理速度较高,但面临加密、代码混淆等方式的挑战,因此对未知挂马网页的判别能力较弱。
(2)动态行为分析
该方法是通过交互性主机蜜罐来诱发挂马网页在蜜罐中完成攻击行为,从而发现被挂马网页。这种方法的优点在于不受代码加密、代码混淆等方式的限制,准确率较高,并对未知挂马网页的判别能力较强。但缺点是该方法往往需要消耗大量的资源,因此投入较大。
由于以上两种方法各有优势,因此在实际工作中往往将这两种方法结合起来使用,从而达得较好的效费比,但缺点是总体成本仍然较高。
另外,上述两种方法作为主动的检测手段只能获取“被挂马网页->挂马网页”的路径发现,而无法实现“挂马网页->被挂马网页”的逆向发现。即无法从一个独立已知的挂马网页逆向发现其感染的被挂马网页,而这一点恰恰是很多信息安全管理单位的关注焦点。
此外,根据国家计算机病毒应急处理中心和CNCERT/CC发布的监测数据可以发现,挂马攻击随着攻击链条的延伸是呈现收敛趋势的,即:很多被挂马网页最终会指向同一挂马网页,而该挂马网页通常又是由某一挂马网站制作的。但是,传统的挂马网站检测方法往往只能通过自上而下的方式获得挂马攻击的全部过程。该方法通过模拟客户端对海量的网站进行不间断的检测,从而发现攻击的来源以及其中的相互关系,而这样做必然需要消耗大量的资源。
发明内容
为了解决上述问题,本发明的目的在于提供一种能够在大规模网络条件下获得较好的检测效果,并且可以节省资源的基于HTTP流量分析的挂马网站检测方法。
为了达到上述目的,本发明提供的基于HTTP流量分析的挂马网站检测方法包括按顺序进行的下列步骤:
(1)在广域网或局域网中抓取用户HTTP请求的S1阶段:用户HTTP请求是从用户HTTP访问流量缓冲池中得到的;
(2)还原HTTP Header的S2阶段:在此阶段中从用户的HTTP请求信息中提取出HTTP协议数据包头信息中的HOST属性和Get请求的路径;
(3)对挂马URL进行匹配判断的S3阶段:在此阶段中将上述提取出的HOST属性和Get请求的路径与从挂马URL特征池中获得的已知或可疑挂马URL特征进行匹配判别,如果匹配进入S4阶段,否则返回到S1阶段,继续抓取下一个用户的HTTP请求;
(4)提取Referer域值的S4阶段:在此阶段中从HTTP协议数据包头信息中提取出Referer域值;
(5)输出挂马URL和HTTP访问行为完整路径的S5阶段:在此阶段中将输出可疑的挂马URL和相关联的HTTP访问行为完整路径,由此即可检测到相应的被挂马网站。
在S3阶段中,所述的规则特征匹配判别方式如下:
(1)通过数据统计,选取一些具有较强适用性的文件名和路径;
(2)生成一系列规则,如:
匹配文件名为“of.htm”的URL;
匹配路径名为“/wm/”的URL;
匹配路径名为“/xo/”,且文件名为“dk.htm”的URL;
(3)将规则加入原型系统规则库;
(4)分析原型系统监测结果,对结果进一步验证。
本发明提供的基于HTTP流量分析的挂马网站检测方法具有如下有益效果:
(1)本检测方法可以充分利用不可控客户端(普通用户)的能力,通过已知挂马网页获得被挂马网站信息,并且能够比较全面、真实地掌握挂马攻击的影响范围、情况,从而在投入较少情况下,仍然能获得比较好的检测效果,而且可以得到大量线索和数据。
(2)本检测方法还可以与传统的挂马网页检测方法相结合。本检测方法在应用中可以前置,从而为传统的挂马网页检测方法缩小检测范围,但仍能保持较好的召回率。
附图说明
图1为本发明提供的基于HTTP流量分析的挂马网站检测方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于HTTP流量分析的挂马网站检测方法进行详细说明。
本发明人是通过在网络旁路检测已捕获的对已知或可疑挂马网页的访问请求,分析其HTTP协议数据包头部的Referer字段,从而发现那些遭受入侵的被挂马网站。
通过对当前挂马网页的特点进行大量分析、研究后,发现Referer域值在挂马网页检测工作中可能会发挥一定的特殊作用。
HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器其是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。
正是由于Referer域本身的特性,可以使我们在大多数情况下获取一个客户端在某一时间窗口中的HTTP访问行为及路径。
在对挂马网页的测试过程中,本发明人发现referer域值可以有效获得被挂马网页信息,因此完全可以作为挂马网页检测手段中的一种有力补充。
如:已知挂马网页“http://cdma.25tb.info/xo/dk.html”,通过对用户的HTTP访问流量进行分析,发现有对“http://cdma.25tb.info/xo/dk.html”的相应HTTP请求。经解析,该请求的Referer域值为“http://www.jindi.com.cn\r\n”。经过对网页“http://www.jindi.com.cn\r\n”的静态分析,证明确实存在被嵌入的挂马网页“http%3A//%43%44%4D%41%2E%32%35%54%42%2E%49%4E%46%4F/%78%6F/%64%6B.html”,经解密,为http://cdma.25tb.info/xo/dk.html,说明“http://www.jindi.com.cn\r\n”被挂马,从而证明了本检测方法的有效性。
如图1所示,本发明提供的基于HTTP流量分析的挂马网站检测方法包括按顺序进行的下列步骤:
(1)在广域网或局域网中抓取用户HTTP请求的S1阶段:用户HTTP请求是从用户HTTP访问流量缓冲池中得到的;
(2)还原HTTP Header的S2阶段:在此阶段中从用户的HTTP请求信息中提取出HTTP协议数据包头信息中的HOST属性和Get请求的路径;
(3)对挂马URL进行匹配判断的S3阶段:在此阶段中将上述提取出的HOST属性和Get请求的路径与从挂马URL特征池中获得的已知或可疑挂马URL特征进行匹配判别,如果匹配进入S4阶段,否则返回到S1阶段,继续抓取下一个用户的HTTP请求;
(4)提取Referer域值的S4阶段:在此阶段中从HTTP协议数据包头信息中提取出Referer域值;
(5)输出挂马URL和HTTP访问行为完整路径的S5阶段:在此阶段中将输出可疑的挂马URL和相关联的HTTP访问行为完整路径,由此即可检测到相应的被挂马网站。
在S3阶段中,所述的规则特征匹配判别方式如下:
(1)通过数据统计,选取一些具有较强适用性的文件名和路径;
(2)生成一系列规则,如:
匹配文件名为“of.htm”的URL;
匹配路径名为“/wm/”的URL;
匹配路径名为“/xo/”,且文件名为“dk.htm”的URL;
(3)将规则加入原型系统规则库;
(4)分析原型系统监测结果,对结果进一步验证。

Claims (1)

1.一种基于HTTP流量分析的挂马网站检测方法,所述的基于HTTP流量分析的挂马网站检测方法包括按顺序进行的下列步骤:
(1)在广域网或局域网中抓取用户HTTP请求的S1阶段:用户HTTP请求是从用户HTTP访问流量缓冲池中得到的;
(2)还原HTTP Header的S2阶段:在此阶段中从用户的HTTP请求信息中提取出HTTP协议数据包头信息中的HOST属性和Get请求的路径;
(3)对挂马URL进行匹配判断的S3阶段:在此阶段中将上述提取出的HOST属性和Get请求的路径与从挂马URL特征池中获得的已知或可疑挂马URL特征进行匹配判别,如果匹配进入S4阶段,否则返回到S1阶段,继续抓取下一个用户的HTTP请求;
(4)提取Referer域值的S4阶段:在此阶段中从HTTP协议数据包头信息中提取出Referer域值;
(5)输出挂马URL和HTTP访问行为完整路径的S5阶段:在此阶段中将输出可疑的挂马URL和相关联的HTTP访问行为完整路径,由此即可检测到相应的被挂马网站;
其特征在于:在S3阶段中,所述的特征匹配判别方式如下:
(1)通过数据统计,选取一些具有较强适用性的文件名和路径;
(2)生成如下规则:
匹配文件名为“of.htm”的URL;
匹配路径名为“/wm/”的URL;
匹配路径名为“/xo/”,且文件名为“dk.htm”的URL;
(3)将规则加入原型系统规则库;
(4)分析原型系统监测结果,对结果进一步验证。
CN 201110146546 2011-06-02 2011-06-02 基于http流量分析的挂马网站检测方法 Active CN102158499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110146546 CN102158499B (zh) 2011-06-02 2011-06-02 基于http流量分析的挂马网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110146546 CN102158499B (zh) 2011-06-02 2011-06-02 基于http流量分析的挂马网站检测方法

Publications (2)

Publication Number Publication Date
CN102158499A CN102158499A (zh) 2011-08-17
CN102158499B true CN102158499B (zh) 2013-09-18

Family

ID=44439680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110146546 Active CN102158499B (zh) 2011-06-02 2011-06-02 基于http流量分析的挂马网站检测方法

Country Status (1)

Country Link
CN (1) CN102158499B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118007B (zh) * 2013-01-06 2016-02-03 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和系统
CN103530390B (zh) * 2013-10-22 2018-09-04 北京奇虎科技有限公司 网页抓取的方法及设备
CN103607413B (zh) * 2013-12-05 2017-01-18 北京奇虎科技有限公司 一种网站后门程序检测的方法及装置
CN103905422B (zh) * 2013-12-17 2017-04-26 哈尔滨安天科技股份有限公司 一种本地模拟请求辅助查找webshell的方法及系统
CN104539604B (zh) * 2014-12-23 2017-11-24 北京奇安信科技有限公司 网站防护方法和装置
CN105991634A (zh) * 2015-04-29 2016-10-05 杭州迪普科技有限公司 访问控制的方法和装置
CN106911636B (zh) * 2015-12-22 2020-09-04 北京奇虎科技有限公司 一种检测网站是否存在后门程序的方法及装置
CN106911635B (zh) * 2015-12-22 2020-07-28 北京奇虎科技有限公司 一种检测网站是否存在后门程序的方法及装置
CN105721445A (zh) * 2016-01-25 2016-06-29 汉柏科技有限公司 一种挂马防范的方法和系统
CN106067876B (zh) * 2016-05-27 2019-08-16 成都广达新网科技股份有限公司 一种基于模式匹配的http请求报文识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798147A (zh) * 2004-12-28 2006-07-05 华为技术有限公司 一种统一资源定位符的匹配方法
CN100534096C (zh) * 2006-01-05 2009-08-26 珠海金山软件股份有限公司 一种反网络钓鱼的系统和方法
US20080244742A1 (en) * 2007-04-02 2008-10-02 Microsoft Corporation Detecting adversaries by correlating detected malware with web access logs
CN101651579A (zh) * 2009-09-15 2010-02-17 成都市华为赛门铁克科技有限公司 识别僵尸网络的方法及网关设备

Also Published As

Publication number Publication date
CN102158499A (zh) 2011-08-17

Similar Documents

Publication Publication Date Title
CN102158499B (zh) 基于http流量分析的挂马网站检测方法
Luo et al. Position-based automatic reverse engineering of network protocols
JP6258553B2 (ja) ブラックリスト生成装置、ブラックリスト生成システム、ブラックリスト生成方法及びブラックリスト生成プログラム
CN105184159B (zh) 网页篡改的识别方法和装置
CN103428196B (zh) 一种基于url白名单的web应用入侵检测方法
Chaabane et al. Big friend is watching you: Analyzing online social networks tracking capabilities
CN102801697A (zh) 基于多url的恶意代码检测方法和系统
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN103384888A (zh) 用于恶意软件的检测和扫描的系统和方法
CN103001817A (zh) 一种实时检测网页跨域请求的方法和装置
CN101895516A (zh) 一种跨站脚本攻击源的定位方法及装置
Cai et al. Detecting HTTP botnet with clustering network traffic
CN106713318B (zh) 一种web站点安全防护方法及系统
CN107800686A (zh) 一种钓鱼网站识别方法和装置
CN103905372A (zh) 一种钓鱼网站去误报的方法和装置
CN107818132A (zh) 一种基于机器学习的网页代理发现方法
CN103440454A (zh) 一种基于搜索引擎关键词的主动式蜜罐检测方法
CN106911635A (zh) 一种检测网站是否存在后门程序的方法及装置
JP6527111B2 (ja) 解析装置、解析方法および解析プログラム
KR101767594B1 (ko) 악성코드 점검을 위한 웹주소 자동 추출 시스템 및 방법
CN109063479A (zh) 一种木马感染终端的网络定位方法
Wang et al. Minedetector: Javascript browser-side cryptomining detection using static methods
Patil et al. Preprocessing web logs for web intrusion detection
US20140143866A1 (en) Method of inspecting mass websites at high speed
KR20100068352A (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant