CN112052453A

CN112052453A - 基于Relief算法的webshell检测方法及装置

Info

Publication number: CN112052453A
Application number: CN202010920925.3A
Authority: CN
Inventors: 张兰; 徐曼; 马小勤; 赵凌彦
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-08

Abstract

本发明涉及恶意脚本检测领域，本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题，提出一种基于Relief算法的webshell检测方法及装置，技术方案概括为：收集样本，所述样本包括webshell样本和正常样本；提取样本中的文本特征得到文本特征样本集，提取样本中的行为特征得到行为特征样本集；基于Relief算法对所述文本特征样本集和行为特征样本集进行优化，得到文本特征集和行为特征集；根据文本特征集和行为特征集训练webshell检测模型；采用所述webshell检测模型判断待检测文件是否为webshell文件。本发明降低了误报率和漏报率，提高了webshell检测的准确率。

Description

基于Relief算法的webshell检测方法及装置

技术领域

本发明涉及恶意脚本检测领域，具体来说涉及一种基于Relief算法的webshell检测方法及装置。

背景技术

Webshell是以asp，jsp，PHP等脚本文件存在的一种命令执行环境，也可称为是一种网页后门，攻击者入侵网站服务器后，一般会将webshell后门文件和网站服务器web目录下正常脚本文件放在一起，然后再使用浏览器来访问webshell后门文件，得到webshell命令执行环境，达到控制网站服务器的目的。

如今，随着互联网技术的飞速发展,Web应用系统所提供的服务也越来丰富,越来越多的Web应用系统被广泛地应用在各行各业,Web应用系统的安全问题也变得日益突出,攻击者在对Web系统攻击成功后,往往会利用SQL注入、文件上传漏洞等上传WebShell，来达到对服务器的长久控制，因此，如何有效的检测webshell，及时发现并对目标网站服务器做必要的漏洞修补，尽量的将损失降到最低，也是非常重要的。

目前，检测webshell的方式主要有如下两种：

静态检测：传统的静态检测是基于特征库的匹配，这类基于特征字符的匹配一般通过正则表达式来实现，而正则表达式覆盖面不全,会造成一定的漏报和误报,而且攻击者使用混淆手段很容易躲避这类检测。

动态检测：当webshell文件上传到服务器后，攻击者执行去执行webshell文件时所表现出来的特征我们称为动态特征，但只能检测正在上传或者访问webshell的行为，对网站中已有且未使用的webshell无法检测，存在一定的漏报和误报。

综上所述，现有的webshell检测方法存在覆盖面不全，误报和漏报率高，无法检测出未知webshell的问题。

发明内容

本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题，提出一种基于Relief算法的webshell检测方法及装置。

本发明解决上述技术问题所采用的技术方案是：基于Relief算法的webshell检测方法，包括以下步骤：

步骤1、收集样本，所述样本包括webshell样本和正常样本；

步骤2、提取样本中的文本特征得到文本特征样本集，提取样本中的行为特征得到行为特征样本集；

步骤3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化，得到文本特征集和行为特征集；

步骤4、根据所述文本特征集和行为特征集训练webshell检测模型；

步骤5、采用所述webshell检测模型判断待检测文件是否为webshell文件。

进一步的，所述步骤3具体包括：

步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R，然后从和样本R同类的样本中寻找最近邻样本H，从和样本R不同类的样本中寻找最近邻样本M；

步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时，则增加该特征的权重；否则，降低该特征的权重；

步骤33、根据预设次数重复执行步骤31-步骤32，得到每个特征的权重，将权重低于第一预设值的特征移除，得到文本特征集和行为特征集。

进一步的，所述根据文本特征集和行为特征集训练webshell检测模型具体包括：

步骤41、将所述文本特征集和行为特征集组成特征集合，作为训练样本集，计算训练样本集中每个特征的信息熵，计算公式如下：

其中，p_i为每个特征取得的概率，H(X)为每个特征的信息熵；

步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据，信息熵最大的特征作为树的左子树，其他特征作为树的右子树；

步骤43、在右结点中选择信息熵最大特征作为树的左子树，其他作为树的右子树，若根的深度小于第二预设值，则进入步骤42，否则，进入步骤44；

步骤44、将左节点标记为叶子结点，将其中的特征标记为训练样本集中样本最多的特征，得到的决策树模型并将其作为webshell检测模型。

进一步的，所述文本特征包括：信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比；所述行为特征包括：代码执行、文件操作、数据库操作和压缩与混淆编码的次数。

进一步的，所述采用所述webshell检测模型判断待检测文件是否为webshell文件具体包括：

提取待检测文件中的文本特征和行为特征，将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。

本发明还提出一种于Relief算法的webshell检测装置，包括：收集单元、提取单元、优化单元、训练单元和检测单元；

所述收集单元用于收集样本，所述样本包括webshell样本和正常样本；

所述提取单元同于提取样本中的文本特征得到文本特征样本集，提取样本中的行为特征得到行为特征样本集；

所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化，得到文本特征集和行为特征集；

所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型；

所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。

进一步的，所述优化单元还用于执行以下步骤：

进一步的，所述训练单元还用于执行以下步骤：

其中，p_i为每个特征取得的概率，H(X)为每个特征的信息熵；

进一步的，所述检测单元还用于提取待检测文件中的文本特征和行为特征，将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。

本发明的有益效果是：本发明所述的基于Relief算法的webshell检测方法及装置，通过relief算法对提取的文本特征样本集和行为特征样本集进行优化，筛选出分类能力较强的特征来进行webshell检测模型的训练，最后根据待测文本的特征来进行webshell检测。本发明能对未知的webshell进行检测，降低了误报率和漏报率，提高了webshell检测的准确率。

附图说明

图1为本发明实施例所述的基于Relief算法的webshell检测方法的流程示意图；

图2为本发明实施例所述的基于Relief算法的webshell检测装置的结构示意图。

具体实施方式

下面将结合附图对本发明的实施方式进行详细描述。

本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题，提出一种基于Relief算法的webshell检测方法及装置，其主要的技术构思如下：收集样本，所述样本包括webshell样本和正常样本；提取样本中的文本特征得到文本特征样本集，提取样本中的行为特征得到行为特征样本集；基于Relief算法对所述文本特征样本集和行为特征样本集进行优化，得到文本特征集和行为特征集；根据所述文本特征集和行为特征集训练webshell检测模型；采用所述webshell检测模型判断待检测文件是否为webshell文件。

首先，收集已知的样本，包括webshell样本和正常样本，分别对收集的webshell样本和正常样本进行特征提取，特征主要包括文本特征和行为特征，其中，文本特征用于表示样本的文件信息，行为特征用于表示样本的相应操作，其可以通过相应操作对应函数出现的次数来体现，进行文本特征和行为特征提取后，得到文本特征样本集和行为特征样本集；然后基于Relief算法分别对文本特征样本集和行为特征样本集进行优化，采集的样本中特征数量可能较多，其中可能存在不相关的特征，特征之间也可能存在相关性。导致webshell的检测分析特征、特征训练模型所需的时间就越长，模型也会越复杂。利用Relief算法对特征提取，剔除不相关、冗余、没有差异刻画能力的特征，得到优化后的文本特征集和行为特征集；完成对样本的特征优化后,将新的特征集作为特征训练模块的训练样本集,将标注结果作为预期输出,训练分类器，在分类器上,采用决策树算法对样本特征数据进行学习。最后得到webshell检测模型，将待检测样本文本特征和行为特征输入到信息检测模块，判断是否为webshell文件，进而完成对待检测文件的webshell检测。

实施例

本发明实施例所述的基于Relief算法的webshell检测方法，如图1所示，包括以下步骤：

步骤S1、收集样本，所述样本包括webshell样本和正常样本；

正常情况下，webshell样本比较少，可通过对github上webshell信息进行收集，和通过Python脚本获取大量的webshell样本。

步骤S2、提取样本中的文本特征得到文本特征样本集，提取样本中的行为特征得到行为特征样本集；

其中，文本特征用于表示文本信息，可以包括：信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比；提取样本中的文本特征，组成文本特征样本集；

行为特征主要用于表示代码执行、文件操作、数据库操作和压缩与混淆编码等特征，这些特征全面地描述了Webshell的行为，这些行为主要与相关函数出现的次数有关，所以行为特征主要需要提取的是相关函数出现的次数，分别统计每个函数在文本中出现的次数，得到一个矩阵，将其作为行为特征样本集。

步骤S3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化，得到文本特征集和行为特征集；

可以理解，采集的样本中特征数量可能较多，其中可能存在不相关的特征，特征之间也可能存在相关性。导致webshell的检测分析特征、特征训练模型所需的时间就越长，模型也会越复杂。利用Relief算法对特征提取，剔除不相关、冗余、没有差异刻画能力的特征，得到优化后的文本特征集和行为特征集。

在一些实施例中，优化的具体方法可以包括：

具体的，如样本R和样本H在某个特征上的距离小于样本R和样本M上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果样本R和样本H在某个特征的距离大于样本R和样本M上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。重复该过程，最后使得样本R和最近邻样本H在某一特征上的距离与样本R和最近邻样本M在该特征上的距离相同，进而得到各个特征的权重。

具体而言，特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。将最新得到的特征权重值与权重阈值进行比较，小于权重阈值的特征从特征集中移除，大于权重阈值的特征组成新的特征集。文本特征样本集S1和行为特征样本集S2经过优化后得到新的文本特征集T1和行为特征集T2。

下面具体说明基于Relief算法进行特征优化的实现：

输入：文本特征样本集S1，抽样次数m(即预设次数)，特征权重阈值R；输出：文本特征集T1为输出的特征集；

把文本特征样本集S1分成S1+＝{正例}和S1-＝{负例}，权重W＝(0,0,…,0)，当抽样次数小于m时，执行如下操作：

(1)随机选择一个样例X∈S1；

(2)随机选择一个距离X最近邻的一个正例Z+∈S1+；

(3)随机选择一个距离X最近邻的一个负例Z-∈S1-；

(4)如果X是一个正例，那么H＝Z+，M＝Z-；否则H＝Z-，M＝Z+；

(5)计算特征的权重W_i的值：

W_i＝W_i-diff(X_i，H)²+diff(X_i，M)²；

(6)将最后得到的权重W_i由大小进行排序，移除权重低于特征权重阈值R的特征，组合剩余的文本特征，得到文本特征集T1；

同理，针对行为特征样本集S2，可得到行为特征集T。

步骤S4、根据所述文本特征集和行为特征集训练webshell检测模型；

可以理解，完成对文本特征样本集S1和行为特征样本集S2的特征优化后,将新的特征矩阵作为输入，将标注结果作为预期输出，训练分类器。在分类器上，采用决策树算法对样本特征数据进行学习，得到webshell检测模型，具体可以包括：

步骤S41、将所述文本特征集和行为特征集组成特征集合，作为训练样本集，计算训练样本集中每个特征的信息熵，计算公式如下：

其中，p_i为每个特征取得的概率，H(X)为每个特征的信息熵；

步骤S42、选择信息熵最大的特征作为决策树的左右子树划分依据，信息熵最大的特征作为树的左子树，其他特征作为树的右子树；

步骤S43、在右结点中选择信息熵最大特征作为树的左子树，其他作为树的右子树，若根的深度小于第二预设值，则进入步骤S42，否则，进入步骤S44；

步骤S44、将左节点标记为叶子结点，将其中的特征标记为训练样本集中样本最多的特征，得到的决策树模型并将其作为webshell检测模型。

步骤S5、采用所述webshell检测模型判断待检测文件是否为webshell文件。

具体而言，在得到述webshell检测模型后，提取待检测文件中的文本特征和行为特征，将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。若检测到webshell，则进行标记。

基于上述技术方案，本实施例还提出一种基于Relief算法的webshell检测装置，如图2所示，包括：收集单元、提取单元、优化单元、训练单元和检测单元；

可以理解，由于本发明实施例所述的基于Relief算法的webshell检测装置是用于实现实施例所述基于Relief算法的webshell检测方法的装置，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的较为简单，相关之处参见方法的部分说明即可。

Claims

1.基于Relief算法的webshell检测方法，其特征在于，包括以下步骤：

步骤1、收集样本，所述样本包括webshell样本和正常样本；

2.如权利要求1所述的基于Relief算法的webshell检测方法，其特征在于，所述步骤3具体包括：

3.如权利要求1所述的基于Relief算法的的webshell检测方法，其特征在于，所述根据文本特征集和行为特征集训练webshell检测模型具体包括：

其中，p_i为每个特征取得的概率，H(X)为每个特征的信息熵；

4.如权利要求1所述的基于Relief算法的webshell检测方法，其特征在于，所述文本特征包括：信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比；所述行为特征包括：代码执行、文件操作、数据库操作和压缩与混淆编码的次数。

5.如权利要求1所述的基于Relief算法的webshell检测方法，其特征在于，所述采用所述webshell检测模型判断待检测文件是否为webshell文件具体包括：

6.基于Relief算法的webshell检测装置，其特征在于，包括：收集单元、提取单元、优化单元、训练单元和检测单元；

7.如权利要求6所述的基于Relief算法的webshell检测装置，其特征在于，所述优化单元还用于执行以下步骤：

8.如权利要求6所述的基于Relief算法的webshell检测装置，其特征在于，所述训练单元还用于执行以下步骤：

其中，p_i为每个特征取得的概率，H(X)为每个特征的信息熵；

9.如权利要求6所述的基于Relief算法的webshell检测装置，其特征在于，所述文本特征包括：信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比；所述行为特征包括：代码执行、文件操作、数据库操作和压缩与混淆编码的次数。

10.如权利要求6所述的基于Relief算法的webshell检测装置，其特征在于，所述检测单元还用于提取待检测文件中的文本特征和行为特征，将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。