CN107888571B

CN107888571B - 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统

Info

Publication number: CN107888571B
Application number: CN201711021472.5A
Authority: CN
Inventors: 王林汝; 吴�琳; 蔡冰; 韦芹余; 俞宙; 吴超; 戴雨贤
Original assignee: Jiangsu Branch Center National Computer Network And Information Security Management Center; Jiangsu Internet Industry Management Service Center; Eversec Beijing Technology Co Ltd
Current assignee: Jiangsu Branch Center National Computer Network And Information Security Management Center; Jiangsu Internet Industry Management Service Center; Eversec Beijing Technology Co Ltd
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2020-08-28
Anticipated expiration: 2037-10-26
Also published as: CN107888571A

Abstract

本发明公开了一种基于HTTP日志的多维度webshell入侵检测方法及检测系统，所述方法包括：获取HTTP日志数据；对于HTTP日志数据当中的来访IP字段进行黑名单过滤，如来访IP在黑名单当中，则直接进行存储和上报；利用已知的HTTP正常访问数据及webshell入侵数据，提取访问参数特征及访问行为特征，并根据提取的访问参数特征及访问行为特征使用SVM分类器模型进行训练；对实时HTTP数据提取访问参数特征及访问行为特征，使用训练好的SVM分类器模型进行判断是否遭遇到webshell入侵，并将入侵行为进行存储和上报方便后续处理。本发明的检测方法和检测系统能够依据HTTP访问日志数据准确判断出网页服务器是否遭到WebShell入侵。

Description

一种基于HTTP日志的多维度webshell入侵检测方法及检测系统

技术领域

本发明涉及网络安全应用领域，具体涉及一种HTTP日志的多维度webshell入侵检测方法及检测系统。

背景技术

“Web”的含义是需要服务器开放web服务，“shell”的含义是取得对服务器某种程度上的操作权限，常常被称为匿名用户(入侵者)通过网站端口对网站服务器的某种程度的操作权限。类似于个人电脑的cmd模式。可以通过它，获取服务器系统权限、控制“肉鸡”发起DDos攻击、篡改网站、网页挂马、作为用于隐藏自己的代理服务器、内部扫描、植入暗链/黑链等等。

由于webshell入侵时是ttp协议进行木马上传及恶意操作，因此webshell可以穿越服务器防火墙，由于与被控制的服务器或远程过80端口传递的，因此不会被防火墙拦截。并且使用webshell一般不会在系统日志中留下记录，只会在网站的web日志中留下一些数据提交记录。

因此，如何通过对HTTP日志进行分析来发现webshell入侵行为，是近期网络安全研究的热点，也是目前互联网安全领域亟待解决的问题。

发明内容

基于现有技术的上述缺陷，本发明的目的在于提供一种基于HTTP日志的多维度webshell入侵检测方法及检测系统，以解决原有的web服务器无法有效发现并拦截webshell的入侵。

本发明的一种基于HTTP日志的多维度webshell入侵检测方法，所述方法包括如下步骤：

步骤一、获取HTTP日志数据；

步骤二、对于HTTP日志数据当中的来访IP字段进行黑名单过滤，如来访IP在黑名单当中，则直接进行存储和上报；

步骤三、利用已知的HTTP正常访问数据及webshell入侵数据，提取访问参数特征及访问行为特征，并根据提取的访问参数特征及访问行为特征使用SVM分类器模型进行训练；

步骤四、对实时HTTP数据提取访问参数特征及访问行为特征，使用训练好的SVM分类器模型进行判断是否遭遇到webshell入侵，并将入侵行为进行存储和上报方便后续处理。

进一步地，所述HTTP日志数据包括：源IP，源端口，目标IP，目标端口，HTTP请求方式，访问主机名，URI，访问时间，POST参数。

进一步地，所述的访问参数包括：请求参数名个数，请求参数名平均字符长度，请求参数名最大字符长度，请求参数值平均字符长度，请求参数值最大字符长度，请求参数值是否包含恶意请求函数字符，请求参数值最大熵值。

进一步地，所述的访问行为包括：单位时间内总访问次数，单位时间内访问行为突发程度，单位时间内来访IP最大访问次数占比，单位时间内访问动态文件请求次数占比，单位时间内访问动态HTML页面请求次数占比，单位时间内访问静态HTML页面请求次数占比。

进一步地，在所述步骤三中，依据所述访问参数特征进行训练SVM分类模型的方法包括：判断访问参数的请求方式，若HTTP请求方式为GET，则认定请求参数为URI字符串中字符“？”的后续部分；若HTTP请求方式为POST，则认定请求参数为HTTP日志数据中的POST参数；若请求参数当中包含&字符，则认定请求参数当中具有多个请求参数名及请求参数值；并将请求参数按照&字符切割后，得到多个格式为“请求参数名＝请求参数值”的具体参数。

进一步地，所述访问参数特征是分别对多个具体的请求参数进行统计计算所得。

本发明还提供了一种基于HTTP日志的多维度webshell入侵检测系统，所述系统包括：

数据采集单元，用以采集HTTP请求数据；

数据存储单元，用于存储正常访问的HTTP数据及webshell入侵的HTTP数据；

特征提取单元，利用已知的HTTP正常访问数据及webshell入侵数据，提取访问参数特征及访问行为特征；

模型训练单元，用于训练SVM分类器模型，将已知为正常访问及webshell入侵的HTTP数据经过特征提取单元提取到的特征输入该训练单元，经过模型评估后得到训练好的分类器模型；

数据检测单元，对实时HTTP数据提取特征后的特征进行判断，检测其是否被webshell入侵，并将检测结果分别保存到数据存储单元当中。

进一步地，所述的访问参数包括：请求参数名个数，请求参数名平均字符长度，请求参数名最大字符长度，请求参数值平均字符长度，请求参数值最大字符长度，请求参数值是否包含恶意请求函数字符，请求参数值最大熵值；所述的访问行为包括：单位时间内总访问次数，单位时间内访问行为突发程度，单位时间内来访IP最大访问次数占比，单位时间内访问动态文件请求次数占比，单位时间内访问动态HTML页面请求次数占比，单位时间内访问静态HTML页面请求次数占比。

与现有技术相比，本发明所公开的一种基于HTTP日志的多维度webshell入侵检测方法及系统，其能够基于实时的HTTP日志数据，对正在进行的webshell入侵行为或已有webshell进行检测，通过访问参数检测出已知的webshell入侵，通过访问行为检测出未知类型的webshell入侵，并能对攻击源IP进行定位，方便进行IP封堵等后续操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中一种基于HTTP日志的多维度webshell入侵检测方法的流程示意图；

图2为本发明一个实施例中一种基于HTTP日志的多维度webshell入侵检测系统的业务流程架构图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参照图1所示，本发明实施例所公开的一种基于HTTP日志的多维度webshell入侵检测方法，包括如下步骤：

步骤一、获取HTTP日志数据；

步骤四、对实时HTTP数据提取访问参数特征及访问行为特征，使用训练好的SVM分类器模型进行判断是否遭遇到webshell入侵，并将入侵行为进行存储和上报方便后续处理。所述后续处理包括对相应的IP进行封堵或者其他处理手段。

其中，在上述步骤一中，所述HTTP日志数据至少包括：源IP，源端口，目标IP，目标端口，HTTP请求方式，访问主机名，URI，访问时间(精确到秒)，POST参数等。

在上述步骤二中，如果来访IP不在黑名单中，也即检测到的HTTP日志当中的源IP字段不在黑名单中，则HTTP访问将正常进入后续的检测流程。

在上述步骤三中，所述根据提取的访问参数特征及访问行为特征使用SVM分类器模型进行训练，从HTTP中提取所述的访问参数特征包括：若HTTP的请求方式为GET，则认定请求参数是URI字符串中字符“？”的后续部分；若HTTP请求方式为POST，则认定请求参数为HTTP日志数据中的POST参数；若请求参数当中包含&字符，则说明请求参数当中具有多个请求参数名及请求参数值，将请求参数按照&字符切割后，得到多个格式为“请求参数名＝请求参数值”的具体参数。上述的访问参数特征，则是针对多个具体请求参数进行统计计算所得。本发明实施例中描述的检测主体是HTTP日志当中的请求参数字段，不同的HTTP请求方式，其请求参数字段对应在HTTP日志当中的存储位置不一样。在步骤三中，需要判断当请求方式为GET或POST时(若请求方式不为GET或POST，则忽略该HTTP日志)对应的请求参数字段是在哪里获取。请求参数的格式样例如：“参数1＝值1&参数2＝值2&参数3＝值3..”需要按照字符&将其分割为多个具体参数，下述特征计算均针对这多个参数而言。提取webshell攻击和正常http访问的请求参数，并依据下述特征统计方法计算得到对应特征值，放入SVM训练器进行训练，得到检测模型。当有新的HTTP日志时，提取对应特征值输入检测模型进行判断，得到其是否属于webshell入侵。

其中，本发明实施例中的SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。SVM的主要思想可以概括为两点：⑴它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能；(2)它基于结构风险最小化理论之上在特征空间中构建最优超平面，使得学习器得到全局最优化，并且在整个样本空间的期望以某个概率满足一定上界。关于SVM分类器的模型训练过程，其和现有技术中的SVM模型训练原理一致，故在此不作赘述。不可否认的是，本发明实施例是采用SVM分类模型，但理论上可以由其他机器学习分类模型代替，如随机森林模型等进行训练。

更具体来说，在上述步骤三中，所依据的访问参数包括：请求参数名个数，请求参数名平均字符长度，请求参数名最大字符长度，请求参数值平均字符长度，请求参数值最大字符长度，请求参数值是否包含恶意请求函数字符，请求参数值最大熵值。本发明根据上述的访问参数的各个特征进行综合分析，来判断是否遭遇了webshell入侵，而遭遇了webshell入侵的访问参数与正常的访问参数在数值、字符等方面均存在差异。

其中，根据请求参数名个数的判断方法为：正常访问的http请求参数名个数将稳定在一个正常数量范围，而webshell入侵的http请求参数名个数可能会出现偏多或偏少的现象。

根据请求参数名平均字符长度的判断方法为：正常访问的http请求参数名的字符通常不会过长而且具有较为明确的含义，平均字符长度比较稳定；而webshell入侵的所附带的参数名中可能包含极长或极短的请求参数名，平均字符长度可能偏高或偏低。

根据请求参数名最大字符长度的判断方法为：正常访问的http请求参数名的字符通常不会过长而且具有较为明确的含义，而webshell入侵的所附带的参数名中可能包含极长的请求参数名。

根据请求参数值平均字符长度的判断方法为：正常访问的http请求参数值的字符通常不会过长，平均字符长度比较稳定；而webshell入侵的所附带的参数值中可能包含包含恶意入侵行为代码，因此请求参数值平均字符长度可能偏高。

根据请求参数值最大字符长度的判断方法为：正常访问的http请求参数值的字符通常不会过长；而webshell入侵的所附带的参数值中可能包含包含恶意入侵行为代码，因此请求参数值最大字符长度可能会很大。

根据请求参数值是否包含恶意请求函数字符的判断方法为：对请求参数值当中是否包含系统调用函数或可疑数据库操作字符进行判断，正常访问记录当中通常不会包含系统函数，而webshell入侵则需要调用系统函数进行提权、入侵等操作，因此请求参数值中通常包含系统函数。

根据请求参数值最大熵值的判断方法为：正常访问的请求参数值由正常词组组成，其最大熵值通常较低，而webshell入侵通常会用base64等加密方式对参数进行加密，加密后的字符大多表现为随机出现，整体字符串的熵值很高。

在上述步骤三中，通过访问参数主要是为了检测出已知类型的webshell入侵，而对于未知类型的webshell入侵，则通过访问行为判定，所述的访问行为包括：单位时间内总访问次数，单位时间内访问行为突发程度，单位时间内来访IP最大访问次数占比，单位时间内访问动态文件请求次数占比，单位时间内访问动态HTML页面请求次数占比，单位时间内访问静态HTML页面请求次数占比。本发明根据上述的访问行为的特征进行综合分析，来判断是否遭遇webshell入侵。

具体来说，根据单位时间内总访问次数的判断方法为，正常访问的总访问次数较为稳定，而遭到webshell入侵时总访问次数会异常增大。

根据单位时间内访问行为突发程度的判断方法为：统计N个连续单位时间内的总访问次数，求其标准差及均值；若其中某个单位时间内的总访问次数大于(均值+3*标准差)，也即访问次数大于均值与三倍的标准差之和，则说明该N个连续单位时间内有突发访问行为发生，很可能是遭遇到webshell入侵。

根据单位时间内来访IP最大访问次数占比的判断方法为：正常访问行为当中，每个ip的访问次数占比相对平均；而在webshell入侵行为当中，入侵ip的访问次数占总访问次数占比较大，基本超过90％。

根据单位时间内访问动态文件请求次数占比的判断方法为：正常访问行为当中，访问动态文件的比例较低；而在webshell入侵行为当中，访问动态文件的比例较高。

根据单位时间内访问动态HTML页面请求次数占比的判断方法为：正常访问行为当中，动态HTML页面的请求次数占比较为平均；而在webshell入侵行为当中，访问动态HTML页面的请求次数占比较低，基本集中在访问动态文件当中。

根据单位时间内访问静态HTML页面请求次数占比的判断方法为：正常访问行为当中，静态HTML页面的请求次数占比较高；而在webshell入侵行为当中，访问静态HTML页面的请求次数占比较低，基本集中在访问动态文件当中。

本发明实施例所述的检测方法，通过提取总结已知webshell的请求参数作为恶意代码库，通过对来访HTTP日志的访问参数与恶意代码库进行匹配并依据设定的访问参数特征经行计算，便能识别出已知webshell。而通过所列的访问参数特征，提取已知webshell入侵与正常访问的访问行为特征使用机器学习方式进行模型训练，模型便能识别出webshell与正常访问之间访问行为的差异。因为不同方式实现的webshell其访问行为基本类似，因此可以识别出未知类型(即恶意代码匹配未命中)的webshell入侵行为。

与上述实施例所述的检测方法相对应，本发明还提供了一种基于HTTP日志的多维度webshell入侵检测系统，所述系统包括：

数据采集单元，用以采集HTTP请求数据；

其中，上述数据采集单元采集的所述HTTP日志数据至少包括：源IP，源端口，目标IP，目标端口，HTTP请求方式，访问主机名，URI，访问时间(精确到秒)，POST参数等。

上述特征提取单元，用以提取访问参数特征及访问行为特征。提取的访问参数特征包括：请求参数名个数，请求参数名平均字符长度，请求参数名最大字符长度，请求参数值平均字符长度，请求参数值最大字符长度，请求参数值是否包含恶意请求函数字符，请求参数值最大熵值。提取的访问行为特征包括：单位时间内总访问次数，单位时间内访问行为突发程度，单位时间内来访IP最大访问次数占比，单位时间内访问动态文件请求次数占比，单位时间内访问动态HTML页面请求次数占比，单位时间内访问静态HTML页面请求次数占比。其中，关于是否被webshell入侵的访问参数特征及是否被webshell入侵的访问行为特征可参数上述实施例中的检测方法的判断原则，在此不作赘述。

通过对提取的上述访问参数特征及访问行为特征的数值输入到模型训练单元中，经过模型评估，得到训练好的分类器模型，以后的HTTP数据将根据训练好的分类器模型进行判断是否被webshell入侵，检测结果分别保存到数据存储单元当中。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本发明所述的基于HTTP日志的多维度webshell入侵检测方法及系统，能够依据HTTP访问日志数据准确判断出网页服务器是否遭到WebShell入侵。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于HTTP日志的多维度webshell入侵检测方法，其特征在于，所述方法包括如下步骤：

步骤一、获取HTTP日志数据；

步骤三、利用已知的HTTP正常访问数据及webshell入侵数据，提取访问参数特征及访问行为特征，并根据提取的访问参数特征及访问行为特征使用SVM分类器模型进行训练；其中，所述的访问参数包括：请求参数名个数，请求参数名平均字符长度，请求参数名最大字符长度，请求参数值平均字符长度，请求参数值最大字符长度，请求参数值是否包含恶意请求函数字符，请求参数值最大熵值；所述的访问行为包括：单位时间内总访问次数，单位时间内访问行为突发程度，单位时间内来访IP最大访问次数占比，单位时间内访问动态文件请求次数占比，单位时间内访问动态HTML页面请求次数占比，单位时间内访问静态HTML页面请求次数占比；

步骤四、对实时HTTP数据提取访问参数特征及访问行为特征，使用训练好的SVM分类器模型进行判断是否遭遇到webshell入侵，并将入侵行为进行存储和上报方便后续处理；

在所述步骤三中，从HTTP日志数据中提取所述的访问参数特征包括：判断访问参数的请求方式，若HTTP请求方式为GET，则认定请求参数为URI字符串中字符“？”的后续部分；若HTTP请求方式为POST，则认定请求参数为HTTP日志数据中的POST参数；若请求参数当中包含&字符，则认定请求参数当中具有多个请求参数名及请求参数值；并将请求参数按照&字符切割后，得到多个格式为“请求参数名＝请求参数值”的具体参数；所述访问参数特征是分别对多个具体的请求参数进行统计计算所得。

2.根据权利要求1所述的检测方法，其特征在于，所述HTTP日志数据包括：源IP，源端口，目标IP，目标端口，HTTP请求方式，访问主机名，URI，访问时间，POST参数。

3.一种基于HTTP日志的多维度webshell入侵检测系统，其特征在于，所述系统包括：

数据采集单元，用以采集HTTP请求数据；

特征提取单元，利用已知的HTTP正常访问数据及webshell入侵数据，提取访问参数特征及访问行为特征；所述的访问参数包括：请求参数名个数，请求参数名平均字符长度，请求参数名最大字符长度，请求参数值平均字符长度，请求参数值最大字符长度，请求参数值是否包含恶意请求函数字符，请求参数值最大熵值；所述的访问行为包括：单位时间内总访问次数，单位时间内访问行为突发程度，单位时间内来访IP最大访问次数占比，单位时间内访问动态文件请求次数占比，单位时间内访问动态HTML页面请求次数占比，单位时间内访问静态HTML页面请求次数占比；

数据检测单元，对实时HTTP数据提取特征后的特征进行判断，检测其是否被webshell入侵，并将检测结果分别保存到数据存储单元当中；

所述特征提取单元从HTTP日志数据中提取所述的访问参数特征包括：判断访问参数的请求方式，若HTTP请求方式为GET，则认定请求参数为URI字符串中字符“？”的后续部分；若HTTP请求方式为POST，则认定请求参数为HTTP日志数据中的POST参数；若请求参数当中包含&字符，则认定请求参数当中具有多个请求参数名及请求参数值；并将请求参数按照&字符切割后，得到多个格式为“请求参数名＝请求参数值”的具体参数；所述访问参数特征是分别对多个具体的请求参数进行统计计算所得。

4.根据权利要求3所述的检测系统，其特征在于，所述HTTP日志数据包括：源IP，源端口，目标IP，目标端口，HTTP请求方式，访问主机名，URI，访问时间，POST参数。