CN107612925A - 一种基于访问行为特征的WebShell挖掘方法 - Google Patents

一种基于访问行为特征的WebShell挖掘方法 Download PDF

Info

Publication number
CN107612925A
CN107612925A CN201710948541.0A CN201710948541A CN107612925A CN 107612925 A CN107612925 A CN 107612925A CN 201710948541 A CN201710948541 A CN 201710948541A CN 107612925 A CN107612925 A CN 107612925A
Authority
CN
China
Prior art keywords
record
access
webshell
filter out
behavioural characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710948541.0A
Other languages
English (en)
Inventor
仲俊霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhidaochuangyu Information Technology Co Ltd
Original Assignee
Chengdu Zhidaochuangyu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhidaochuangyu Information Technology Co Ltd filed Critical Chengdu Zhidaochuangyu Information Technology Co Ltd
Priority to CN201710948541.0A priority Critical patent/CN107612925A/zh
Publication of CN107612925A publication Critical patent/CN107612925A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种基于访问行为特征的WebShell挖掘方法,包括数据清洗:提取出网站日志中对动态页面的访问记录;过滤掉URI长度大于指定值的访问记录;过滤掉常见扫描器访问的URI的记录;行为特征过滤:过滤掉单个IP对同一网站访问次数超过指定值的记录;过滤掉单个IP访问网站个数超过另一指定值的记录;过滤掉同一URL超过指定IP个数访问的记录;输出结果:按照IP出现的频率从小到大进行排序;规范化日志格式并保存到文件,供人工复查。本发明通过分析攻击者在访问WebShell时的行为特征可以过滤掉绝大多数无意义的访问记录,并按照可疑度进行排序,可有效的减少最终分析结果的数量,并大大提高WebShell的识别精准度,从而减少人工分析成本,极大的方便了人工复查。

Description

一种基于访问行为特征的WebShell挖掘方法
技术领域
本发明涉及网络日志分析技术领域,具体为一种基于访问行为特征的WebShell挖掘方法。
背景技术
WebShell俗称网站后门,是一种以asp、php、jsp等网页文件形式存在的一种命令执行环境。目前传统的日志分析方法是通过收集网络上公开的WebShell并分析其特征,或者添加一些敏感函数建立WebShell特征库,然后在网站的访问日志中匹配这些特征或敏感函数,如果匹配上,则人工再次确认是否为WebShell。但是由于WebShell特征经常变化,特征库并不能完全匹配出所有的WebShell,容易出现遗漏,而且会产生大量误报。
发明型内容
针对上述问题,本发明的目的在于提供可有效的减少最终分析结果的数量,并大大提高WebShell的识别精准度,从而减少人工分析成本的基于访问行为特征的WebShell挖掘方法。技术方案如下:
一种基于访问行为特征的WebShell挖掘方法,包括以下步骤:
步骤一:数据清洗
1)提取出网站日志中对动态页面的访问记录;
2)在上步所得访问记录的基础上,过滤掉URI长度大于指定值的访问记录;
3)在上步所得访问记录的基础上,过滤掉常见扫描器访问的URI的记录;
步骤二:行为特征过滤
1)在步骤一所得访问记录的基础上,过滤掉单个IP对同一网站访问次数超过指定值的记录;
2)在上步所得访问记录的基础上,过滤掉单个IP访问网站个数超过另一指定值的记录;
3)在上步所得访问记录的基础上,过滤掉同一URL超过指定IP个数访问的记录;
步骤三:输出结果
1)将步骤二所得的访问记录,按照IP出现的频率从小到大进行排序;
2)规范化日志格式并保存到文件,供人工复查。
本发明的有益效果是:本发明通过分析攻击者在访问WebShell时的行为特征可以过滤掉绝大多数无意义的访问记录,并按照可疑度进行排序,可有效的减少最终分析结果的数量,并大大提高WebShell的识别精准度,从而减少人工分析成本,极大的方便了人工复查。
附图说明
图1为本发明基于访问行为特征的WebShell挖掘方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。如图1所示,本实施例按照功能分为三个模块,它们之间是严格按照先后顺序执行。具体如下:
模块一: 数据清洗模块
步骤1. 提取出网站日志中对动态页面的访问记录。
动态页面通常以.php/.jsp/.asp等后缀结尾,如:
http://www.scmyzx.com.cn/index.php
http://www.hbhz.net/index.asp
http://www.longwt.bjshy.gov.cn/index.jsp
步骤2. 在步骤1的结果基础上,过滤掉URI长度大于指定值的访问记录。
此步骤过滤掉URI长度太长的记录是因为在实践中发现会有一些URI超长的访问记录并没有实际意义,因此在数据清洗模块将它们去除。
步骤3. 在步骤2的结果基础上,过滤掉常见扫描器访问的URI的记录。
此步骤过滤掉扫描器访问记录是因为扫描器的访问对日志分析是没有意义的;至于如何收集常见扫描器的URI记录,可以通过在反复的测试过程中得到。
模块二:行为特征过滤模块
通过利用黑客在访问WebShell时的一些行为特征来筛选出可疑度最高的访问记录,可以根据访问的行为特征进行过滤。
步骤1. 在模块一得到的结果基础上,过滤掉单个IP对同一网站访问次数超过指定值的记录。
攻击者访问网站有极强的目的性,通常访问的次数不会太多,而正常的用户在访问网站过程中可能会产生大量的访问请求。因此第一个行为特征:同一个IP地址对网站的访问次数有限。故可先将单个IP对同一网站访问次数超过指定值的记录过滤。
步骤2. 在步骤1的结果基础上,过滤掉单个IP访问网站个数超过另一指定值的记录。
普通用户在互联网上的访问通常是网状分布,也就是会访问很多个网站,比如从A网站跳B网站访问,然后又访问了其它网站,这样的正常用户就会有很多个网站的访问记录。而攻击者在访问WebShell时,通常是直接访问网站后门地址,并且不会有太多网站的访问记录,因此第二个访问特征为:同一个IP地址访问网站的个数有限。所以可再将单个IP访问网站个数超过指定值的记录过滤掉。
步骤3. 在步骤2的结果基础上,过滤掉同一URL超过指定IP个数访问的记录。
每个WebShell都有一地址(即URL),当攻击者访问后门地址时,会产生一条访问记录。而攻击者一般很少将自己的后门共享给他人,也就是说知道这个后门地址的人一定非常少,那么正常用户一般是不会访问到的,而只有攻击者才会访问。因此第三个行为特征为:访问同一个后门地址(URL)的IP个数是有限的。所以可将同一URL超过指定IP个数访问的记录过滤掉。
上文提到的指定值并不是一个明确的数值,可以将它理解为本技术方案中的参数。在实际应用中可以不断的调整这些参数来达到最佳的匹配效果。
将上述3个行为特征配合数据清洗等手法,可以准确的筛选出可疑度最高的访问记录,从而减少人工审查的工作量。
模块三:输出模块
步骤1. 在模块二的结果基础上,按照IP出现的频率从小到大进行排序。
此步骤通过IP出现频率进行排序是因为:IP出现的频率越小,则疑似WebShell的可疑度就越高。经过排序后可疑度越高的访问记录就会排在前面,而可疑度越低的访问记录就会排在后面,方便复查人员以最快的速度找出真实的WebShell。
步骤2.规范化日志格式并保存到文件,供人工进行复查。

Claims (1)

1.一种基于访问行为特征的WebShell挖掘方法,其特征在于,包括以下步骤:
步骤一:数据清洗
提取出网站日志中对动态页面的访问记录;
在上步所得访问记录的基础上,过滤掉URI长度大于指定值的访问记录;
在上步所得访问记录的基础上,过滤掉常见扫描器访问的URI的记录;
步骤二:行为特征过滤
在步骤一所得访问记录的基础上,过滤掉单个IP对同一网站访问次数超过指定值的记录;
在上步所得访问记录的基础上,过滤掉单个IP访问网站个数超过另一指定值的记录;
在上步所得访问记录的基础上,过滤掉同一URL超过指定IP个数访问的记录;
步骤三:输出结果
将步骤二所得的访问记录,按照IP出现的频率从小到大进行排序;
规范化日志格式并保存到文件,供人工复查。
CN201710948541.0A 2017-10-12 2017-10-12 一种基于访问行为特征的WebShell挖掘方法 Pending CN107612925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710948541.0A CN107612925A (zh) 2017-10-12 2017-10-12 一种基于访问行为特征的WebShell挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710948541.0A CN107612925A (zh) 2017-10-12 2017-10-12 一种基于访问行为特征的WebShell挖掘方法

Publications (1)

Publication Number Publication Date
CN107612925A true CN107612925A (zh) 2018-01-19

Family

ID=61068135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710948541.0A Pending CN107612925A (zh) 2017-10-12 2017-10-12 一种基于访问行为特征的WebShell挖掘方法

Country Status (1)

Country Link
CN (1) CN107612925A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108337269A (zh) * 2018-03-28 2018-07-27 杭州安恒信息技术股份有限公司 一种WebShell检测方法
CN108600172A (zh) * 2018-03-23 2018-09-28 广州广电研究院有限公司 撞库攻击检测方法、装置、设备及计算机可读存储介质
CN109831429A (zh) * 2019-01-30 2019-05-31 新华三信息安全技术有限公司 一种Webshell检测方法及装置
CN112600797A (zh) * 2020-11-30 2021-04-02 泰康保险集团股份有限公司 异常访问行为的检测方法、装置、电子设备及存储介质
CN114679306A (zh) * 2022-03-17 2022-06-28 新华三信息安全技术有限公司 一种攻击检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140215619A1 (en) * 2013-01-28 2014-07-31 Infosec Co., Ltd. Webshell detection and response system
CN104765883A (zh) * 2015-04-30 2015-07-08 中电运行(北京)信息技术有限公司 一种用于Webshell的检测方法
CN105279437A (zh) * 2014-06-20 2016-01-27 北京奇虎科技有限公司 一种网站扫描控制方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140215619A1 (en) * 2013-01-28 2014-07-31 Infosec Co., Ltd. Webshell detection and response system
CN105279437A (zh) * 2014-06-20 2016-01-27 北京奇虎科技有限公司 一种网站扫描控制方法和装置
CN104765883A (zh) * 2015-04-30 2015-07-08 中电运行(北京)信息技术有限公司 一种用于Webshell的检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600172A (zh) * 2018-03-23 2018-09-28 广州广电研究院有限公司 撞库攻击检测方法、装置、设备及计算机可读存储介质
CN108600172B (zh) * 2018-03-23 2020-11-24 广州广电研究院有限公司 撞库攻击检测方法、装置、设备及计算机可读存储介质
CN108337269A (zh) * 2018-03-28 2018-07-27 杭州安恒信息技术股份有限公司 一种WebShell检测方法
CN108337269B (zh) * 2018-03-28 2020-12-15 杭州安恒信息技术股份有限公司 一种WebShell检测方法
CN109831429A (zh) * 2019-01-30 2019-05-31 新华三信息安全技术有限公司 一种Webshell检测方法及装置
CN112600797A (zh) * 2020-11-30 2021-04-02 泰康保险集团股份有限公司 异常访问行为的检测方法、装置、电子设备及存储介质
CN114679306A (zh) * 2022-03-17 2022-06-28 新华三信息安全技术有限公司 一种攻击检测方法及装置
CN114679306B (zh) * 2022-03-17 2024-03-12 新华三信息安全技术有限公司 一种攻击检测方法及装置

Similar Documents

Publication Publication Date Title
CN107612925A (zh) 一种基于访问行为特征的WebShell挖掘方法
Zhao Web scraping
TWI711938B (zh) 用於使用無監督式機器學習和優先權演算法的高速威脅性情報管理的系統及方法
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN105224691B (zh) 一种信息处理方法及装置
CN104579773B (zh) 域名系统分析方法及装置
CN105357195A (zh) web访问的越权漏洞检测方法及装置
CN101370024A (zh) 信息的分布式采集方法及系统
CN105357054A (zh) 网站流量分析方法、装置和电子设备
JP2010512563A (ja) 分散型コンピュータネットワークに基づくログファイル分析方法およびシステム
CN108573146A (zh) 一种恶意url检测方法及装置
CN106021418B (zh) 新闻事件的聚类方法及装置
CN107846407A (zh) 一种批量检测ssrf漏洞的方法及系统
CN109359263B (zh) 一种用户行为特征提取方法及系统
CN103530336A (zh) 统一资源定位符url中无效参数的识别设备及方法
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN109391584A (zh) 一种疑似恶意网站的识别方法及装置
CN104967698B (zh) 一种爬取网络数据的方法和装置
CN110489975B (zh) 一种信息系统服务安全评估方法
CN106021552A (zh) 基于人群行为模拟的互联网爬虫并发数据采集方法及系统
CN104731937B (zh) 用户行为数据的处理方法及装置
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN106339372B (zh) 搜索引擎优化的方法和装置
CN103984719A (zh) 一种爬虫模拟登陆采集的方法
Ackland et al. Using the web to examine the evolution of the abortion debate in Australia, 2005–2015

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180119