CN109598124A

CN109598124A - 一种webshell检测方法以及装置

Info

Publication number: CN109598124A
Application number: CN201811507820.4A
Authority: CN
Inventors: 姚刚; 陈奋; 孙晓波; 龚利军; 陈荣有
Original assignee: Xiamen Service Cloud Mdt Infotech Ltd
Current assignee: Xiamen Service Cloud Mdt Infotech Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-09

Abstract

本发明公开了一种webshell检测方法以及装置，涉及webshell检测技术领域。该方法包括：获取大量样本数据；对所述样本数据进行特征反混淆处理；根据经过特征反混淆处理后的样本数据，获取webshell检测模型；采用webshell检测模型判断待检测文件是否为webshell文件。该方法通过对Web恶意文件特征混淆方法进行归纳总结，采取相应的反混淆对策，可以有效提取出特征数据，根据经过特征反混淆处理后的样本数据，获取webshell检测模型，具有识别速度快，精确度高的特点，保证Web信息系统的正常运行具有非常重要的意义。

Description

一种webshell检测方法以及装置

技术领域

本发明涉及webshell检测技术领域，特别涉及一种webshell检测方法以及装置。

背景技术

webshell是可以操控Web服务器的恶意页面，和其他正常网页一样，它们运行环境相同，服务端口也相同，因此很容易穿透防火墙并逃避杀毒软件的检测。黑客可以在任何地方通过浏览器访问该webshell页面，对Web服务器进行操控，达到入侵服务器的目的。

当前主流安全软件大都采用静态特征码匹配技术来检测Web恶意文件，该方法依赖于特征码库，可以较准确地检测出已有的Web恶意文件，具有较高的准确率和很低的误报率，但webshell恶意文件可能采用各种混淆技术来混淆特征，从而达到隐藏的目的，而使得目前的检测方法的检测效果不够理想。

发明内容

为了克服如上所述的技术问题，本发明提出一种webshell检测方法以及装置，该方法通过对Web恶意文件特征混淆方法进行归纳总结，采取相应的反混淆对策，可以有效提取出特征数据，根据经过特征反混淆处理后的样本数据，获取webshell检测模型，具有识别速度快，精确度高的特点，保证Web信息系统的正常运行具有非常重要的意义。

本发明所采用的具体技术方案如下：

第一方面，本发明提出一种webshell检测方法，其特征在于，包括：

获取大量样本数据；

对所述样本数据进行特征反混淆处理；

根据经过特征反混淆处理后的样本数据，获取webshell检测模型；

采用webshell检测模型判断待检测文件是否为webshell文件。

进一步地，所述对所述样本数据进行特征反混淆处理，包括：

针对插入注释信息的混淆方法，对所述样本数据进行注释信息清除；

针对字符串连接替换的混淆方法，对所述样本数据进行调用控件、函数和字符处理函数检测；

针对使用加解密的混淆方法，对所述样本数据进行加解密函数以及参数特征检测；

针对化整为散的混淆方法，对所述样本数据进行整体检测；

针对多重编码的混淆方法，对所述样本数据进行解码还原。

进一步地，所述根据经过特征反混淆处理后的样本数据，获取webshell检测模型，包括：

提取所述样本的特征数据；

采用机器学习算法对所述特征数据进行训练学习，得到关于webshell的分类模型；

采用所述分类模型判断待检测文件是否为webshell文件。

进一步地，所述特征数据包括文档特征、基本特征以及高级特征。

进一步地，所述文档特征包括单词数量、不同单词数量、行数、平均每行单词数空字符和空格数量以及最大单词长度；

所述基本特征包括注释数量、字符操作函数、功能函数调用、系统函数调用数量、脚本区块数、函数参数的最大长度以及加解密函数调用；

所述高级特征包括文件重合指数、信息熵、最长字符串长度以及压缩比。

进一步地，所述功能函数调用包括：代码执行函数、代码操作函数、数据库操作函数以及压缩与编码函数。

进一步地，所述采用所述分类模型判断待检测文件是否为webshell文件包括：

提取待检测文件的特征数据；

将所述特征数据输入所述分类模型，所述分类模型输出对所述待检测文件的分类结果。

进一步地，所述机器学习算法为XGboost算法。

进一步地，还包括：

对所述分类模型的检测性能从灵敏度、特指度和准确度三个方面进行评价。

第二方面，本发明提出一种webshell检测装置，包括处理器和存储器，所述存储器存储有至少一段程序，所述程序由所述处理器执行以实现如第一方面所述的webshell检测方法。

第三方面，本发明提出一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序运行时执行如第一方面所述的webshell检测方法。

本发明提供的技术方案带来的有益效果是：

本发明首先通过建立关于webshell的检测模型，该模型的建立步骤包括：获取大量的训练样本；对所述训练样本进行特征反混淆处理；提取所述样本的特征数据，所述特征数据包括文档特征、基本特征以及高级特征；根据经过特征反混淆处理后的样本数据，获取webshell检测模型。然后通过上述步骤得到的检测模型判断待检测文件是否为webshell文件。本发明技术方案所提出的webshell检测方法考虑webshell恶意文件会采用各种混淆技术来混淆特征，从而达到隐藏的目的，本发明技术方案通过对Web恶意文件特征混淆方法进行归纳总结，采取相应的反混淆对策，可以有效提取出特征数据，降低混淆技术对提取特征数据的不利影响，根据经过特征反混淆处理后的样本数据，获取webshell检测模型，具有识别速度快，精确度高的特点，保证Web信息系统的正常运行具有非常重要的意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明一种webshell检测方法示意图；

图2所示为本发明一种获取webshell检测模型的方法示意图；

图3示出了本发明实施例所涉及的webshell检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方案作进一步地详细描述。

如图1所示为本发明一种webshell检测方法示意图，示出了该方法的具体实施步骤，包括：

在步骤101中，获取大量的训练样本；

webshell就是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境，也可以将其称做为一种网页后门。黑客在入侵了一个网站后，通常会将asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起，然后就可以使用浏览器来访问asp或者php后门，得到一个命令执行环境，以达到控制网站服务器的目的。

本步骤中的训练样本，包括正常webshell样本、加密webshell样本和正常网页样本，样本数量越多，通过后续步骤建立的检测模型的检测结果准确性一般越高。容易理解的是，当训练样本的数量比较多时，样本所代表的数据特征会更加全面。

在步骤102中，对所述训练样本进行特征反混淆处理；

通常，Web恶意文件会采用各种混淆技术来混淆特征，从而达到隐藏的目的。为此，针对其混淆方法，采取相应对策，可以有效提取其特征数据。在一种可能的实现中，Web恶意文件有主要下面几种混淆特征的方法以及针对各混淆特征进行反混淆处理方法，在本发明技术方案在实施过程中根据具体需要采用下述处理方法中的至少一种：

(1)插入注释等无用信息。比如在PHP代码中加入形如“/*…*/”，“//…”注释不会影响代码的正常执行，但会影响杀软检测，所以，在提取和注释无关特征时，先将注释内容去除。

(2)字符串连接替换技术。webshell调用系统控件时，为避免被检测到调用相关控件，会将控件名字拆分，然后连接起来，或在字符串里插入空格等特殊字符，然后再替换掉等。因此，需预先对调用控件，函数和字符处理函数进行检测。

(3)使用加解密技术。对于特征数据可预先加密，在调行时动态解密。由于调用解密函数时，其参数内容就是加密数据，所以参数长度一般都很长。因此需对加解密函数进行检测以及参数特征。

(4)化整为散技术。为避免特征过于集中而被杀软检测到，把一个完整的网页拆分成多个网页，再用包含指令如include整合。对此需将相关文件包含进来，然后整体检测。

(5)多重编码技术。对特征数据进行多重编码，可以轻易地改变数据特征，达到混淆的目的。因而，对有多重编码的文件不断进行解码还原，然后再进行检测。

本步骤通过对Web恶意文件特征混淆方法进行归纳总结，采取相应的反混淆对策，可以有效提取出特征数据，降低了混淆技术对提取特征数据的不利影响。

在步骤103中，根据经过特征反混淆处理后的样本数据，获取webshell检测模型；

优选的，如图2所示为本发明一种获取webshell检测模型的方法示意图，本发明技术方案通过下述步骤根据经过特征反混淆处理后的样本数据，获取webshell检测模型，包括：

在步骤201中，提取所述样本的特征数据；

所述样本的特征数据可以根据具体需要从不同方面进行提取，在一种可能的实现中，所述特征数据包括文档特征、基本特征以及高级特征。

容易理解的是，选择良好的特征属性集合可以获得更好检测性能。属性选取应该能够很好地表现出页面的特征，同时应该包含不同层次的页面属性。若我们把页面所有领域特征全部作为机器学习的输入，那么该模型会因参数纬度太大而变得异常复杂且过于匹配，导致很难检测出特征混淆的webshell，其通用性将大大降低。若特征属性过少，那么将导致模型过于简单而降低准确性，所以应该选择一个粒度适中的属性集合。本步骤主要从文档属性，基本属性，高级属性三个层次来抽取特征。在一种可能的实现中，文档属性主要是页面的文档特征，比如文档长度，单词数量等；基本属性主要是页面的语法和函数调用特征，比如注释的数量，函数等；高级属性则是页面的行为特征，主要包括文件重合指数，信息熵，最长字符串长度，压缩比。本步骤将提取到的webshell特征存储在知识库中，供后续步骤进行模型的训练。如表1所示为本发明一种webshell样本属性表。

表1

在一种可能的实现中，基本属性中的功能函数调用包括：代码执行函数、代码操作函数、数据库操作函数以及压缩与编码函数。如表2所示为本步骤一种选取的特征属性中的功能函数表。

表2

本发明技术方案对本步骤中提出的高级属性进行下述说明：

(1)文件重合指数

文件重合指数最早被用于密码分析和文本自然语言分析。webshell经过混淆编码等技术后，已不再具有正常语言的明文特性。根据基本测试和计算，在26个字母构成的一段有意义的文字中，任取两个元素，它们刚好相同的概率为0.065，因此，若一段明文是用同一个字母做密钥加密的，则这个概率是不变的。相关计算如下：如果英文的26个字母在有意义文本中出现的概率分别为p_i(i＝0，1，2，…，25)，那么出现两个元素相同的概率为：

如果是用不同的字母，则这个概率是会发生变化的。经计算可知，在一个随机的字母串(而不是一段有意义的文字)中抽取两个相同的字母，其概率为0.038。计算公式如下：

(2)信息熵

信息熵是数学领域中的一个抽象概念，可被理解成某种特定信息出现的概率。越是有序的信息，信息熵越低；反之，信息熵越大。为了隐藏一些特征，webshell的代码往往很混乱，信息熵也随之变大。因此，信息熵可以作为区分正常文件。

(3)最长字符串长度

正常的网页语言一般不会出现很长的字符串，而webshell经过混淆编码后，容易出现超出正常语法单词的长字符串。如果一个网页中出现了很长的字符串，它被当作webshell的概率就会特别大。因此，可以选取最长字符串作为webshell的一个特征。

(4)压缩比

压缩比，即为压缩文件大小与原始文件大小的比值。使用压缩技术的主要目的是消除字符的不均衡分布，高频字符对应短码，低频字符对应长码。经过混淆编码的webshell消除了非ASCII字符后，会表现出更小的不均衡分布，从而导致压缩值变大。因此，文件的压缩比可以作为webshell的一个特征。

webshell经混淆编码后，在某种意义上可以当作密文，随着其内容的随机性变大，重合指数也会发生相应的变化。因此，可以把重合指数作为webshell的一个特征。

在步骤202中，采用机器学习算法对所述特征数据进行训练学习，得到关于webshell的分类模型；

机器学习算法能够对海量的webshell样本的特征集进行机器学习，并生成决策树形式的学习规则，通过学习规则来判定待检测网页样本是否是webshell。

在一种可能的实际操作中，XGBoost分类器运用的是Boosting技术，Boosting技术是当前应用最广泛的集体学习方法，其思想是首先对每个样本赋予相同的初始权重，在建立构造决策数模型时不断地调整样本的权重，根据调整的样本权重重新构造训练集，然后不断地迭代构造生成树。对部分检测错误的样本，我们希望下一个决策树能够更好地处理这些，因而会加大其权重，使得下一次迭代中出现在训练集中。为表示各个决策树对样本检测能力，每个决策树模型都被赋予一个影响因子，该值于该模型检验能力成正比。本步骤所用的Boosting算法如下：

输入为训练样本提取的特征数据样本，样本总量是n,迭代次数是K，输出为带有影响因子的K个决策树。

训练算法：

1.初始化每个样本t样本的权重；

2.根据样本权重，从样本S中选择训练样本子集S_i，并构造决策树T_i；

3.利用该决策树对样本S进行预测，计算出检测的加权正确率ξ_i；

4.当ξ_i小于0.6或者等于1时，舍弃该决策树，转到本训练算法的步骤2；

5.对于正确分类的样本t，降低其权重，而对于错误分类则提高其权重；

6.调整所有样本的权重，使得加权正确率为1；

7.对决策树T_i赋予影响因子，并输出该树，迭代一次完成；

8.如K次迭代已经结束则退出，否则就转到本训练算法的步骤2继续求下一个决策树。

机器学习算法对多个已标记网页数据的特征进行学习，并保存学习规则供决策树分类器使用；机器学习算法采用了集体学习的思想，利用多个子模型降低单个模型造成的分类错误概率，使得学习出的决策树模型对样本的检测精确度提升；根据决策树分类器对学习规则进行分类判定，将检测结果输出以及决策树分类器的性能参数；根据已知的webshell样本的特征自动学习webshell判定规则，无需庞大的webshell特征库。XGBoost分类器对webshell样本训练一次即可生成学习规则并保存，每次系统重启时无需再重新对样本进行训练，从而提升检测效率。

需要说明的是，经过上述图1所对应的步骤101和步骤102中根据经过特征反混淆处理后的样本数据，基于机器学习算法获取webshell检测模型的方法是作为本发明技术方案的优选实施例，本发明并不以此为限，通过图1所对应的步骤101至步骤102获取到大量经过特征反混淆处理后样本数据后，可选的，可以采用静态特征码匹配方法建立相应的检测模型，跟以前没有经过特征反混淆处理的基础上采用静态特征匹配的检测相比准确度准确度会更高，本领域技术人员所知的其他webshell检测方法也是可行的。

在步骤104中，采用webshell检测模型判断待检测文件是否为webshell文件。

在一种可能的实际操作中，通过图2对应的上述步骤201至步骤202构建关于webshell的分类模型后，将利用该模型对待检测文件进行分析，以判断其是否为webshell文件。在一种可能的实现中，采用所述分类模型判断待检测文件是否为webshell文件包括下述步骤：

首先，提取待检测文件的特征数据；

该步骤实施方法与图2对应的步骤201一致，此处不再赘述，只是提取特征数据的对象在本步骤中为待检测文件，所述待检测文件为需要判定是否为webshell文件的对象。

然后，将所述特征数据输入所述分类模型，所述分类模型输出对所述待检测文件的分类结果。

在一种可能的实际操作中，将待检测网页样本提取的特征数据γ输入到通过步骤201至步骤202所建立的分类模型中，模型将输出预测数据γ对应的类别C(λ)。

利用每个决策树T_i求出数据γ的类别C_i(λ)，然后利用影响因子统计每个类别的得票，得票最高的就是最终输出结果C(λ)。

如表3所示为webshell检测模型对数据检测的分类情况，其中1表示为webshell，0表示为普通页面。

表3

本发明技术方案还包括对所述分类模型的检测性能从灵敏度(Sensitivity)、特指度(Specificity)和准确度(ACC)三个方面进行评价。

其中敏感度是指对实际为Web恶意文件，检测模型能够正确检测出来的概率，其定义为：

而特指度则是指实际为Web正常页面文件，检测模型能够正确检测出来的概率，其定义为：

准确度是指检测模型能够正确检测分类出Web恶意文件和正常文件的准确率，其定义为：

利用灵敏度、特指度和准确度这三个评判标准，可以较好地描述检测系统的检测能力。

本实施例首先通过建立关于webshell的检测模型，该模型的建立步骤包括：获取大量的训练样本；对所述训练样本进行特征反混淆处理；提取所述样本的特征数据，所述特征数据包括文档特征、基本特征以及高级特征；根据经过特征反混淆处理后的样本数据，获取webshell检测模型。然后通过上述步骤得到的检测模型判断待检测文件是否为webshell文件。本发明技术方案所提出的webshell检测方法考虑webshell恶意文件会采用各种混淆技术来混淆特征，从而达到隐藏的目的，本发明技术方案通过对Web恶意文件特征混淆方法进行归纳总结，采取相应的反混淆对策，可以有效提取出特征数据，降低混淆技术对提取特征数据的不利影响，根据经过特征反混淆处理后的样本数据，获取webshell检测模型，具有识别速度快，精确度高的特点，保证Web信息系统的正常运行具有非常重要的意义。

需要说明的是，本发明所提出的关于webshell的分类模型在对待检测文件进行分析检测并输出判断结果后，在一种可能的实现中，所述的判断结果最后还将进行人工确认，并将误报数据重新导入训练样本库中定期重新训练模型，以得到更加准确的分类模型。

图3示出了本发明实施例所涉及的webshell检测装置的结构示意图，该装置主要包括处理器301、存储器302和总线303，所述存储器存储有至少一段程序，所述程序由所述处理器执行以实现如上述实施例所述的webshell检测方法。

处理器301包括一个或一个以上处理核心，处理器301通过总线303与存储器302相连，存储器302用于存储程序指令，处理器301执行存储器302中的程序指令时实现上述方法实施例提供的webshell检测方法。

可选的，存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

本发明还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供的webshell检测方法。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的webshell检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储与一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用于以限制发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种webshell检测方法，其特征在于，包括：

获取大量样本数据；

对所述样本数据进行特征反混淆处理；

采用webshell检测模型判断待检测文件是否为webshell文件。

2.根据权利要求1所述的webshell检测方法，其特征在于，所述对所述样本数据进行特征反混淆处理，包括以下至少一种处理方法：

针对化整为散的混淆方法，对所述样本数据进行整体检测；

针对多重编码的混淆方法，对所述样本数据进行解码还原。

3.根据权利要求1所述的webshell检测方法，其特征在于，所述根据经过特征反混淆处理后的样本数据，获取webshell检测模型，包括：

提取所述样本的特征数据；

采用机器学习算法对所述特征数据进行训练学习，得到关于webshell的分类模型。

4.根据权利要求3所述的webshell检测方法，其特征在于，所述特征数据包括文档特征、基本特征以及高级特征。

5.根据权利要求4所述的webshell检测方法，其特征在于：

所述文档特征包括单词数量、不同单词数量、行数、平均每行单词数空字符和空格数量以及最大单词长度；

6.根据权利要求5所述的webshell检测方法，其特征在于，所述功能函数调用包括：代码执行函数、代码操作函数、数据库操作函数以及压缩与编码函数。

7.根据权利要求3所述的webshell检测方法，其特征在于，所述采用webshell检测模型判断待检测文件是否为webshell文件包括：

提取待检测文件的特征数据；

8.根据权利要求3所述的webshell检测方法，其特征在于，所述机器学习算法为XGboost算法。

9.根据权利要求1所述的webshell检测方法，其特征在于，还包括：

对所述检测模型的检测性能从灵敏度、特指度和准确度三个方面进行评价。

10.一种webshell检测装置，其特征在于，包括处理器和存储器，所述存储器存储有至少一段程序，所述程序由所述处理器执行以实现如权利要求1至9任一所述的webshell检测方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序运行时执行如权利要求1至9任一所述的webshell检测方法。