CN110807194A

CN110807194A - 一种webshell检测方法及装置

Info

Publication number: CN110807194A
Application number: CN201910988968.2A
Authority: CN
Inventors: 王春磊
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-18

Abstract

本发明公开了一种webshell检测方法及装置，方法包括：将待检测的脚本文件转化为机器可识别的指令序列；对所述指令序列进行分词处理，得到多个指令码组；确定每个指令码组在所述脚本文件中的重要程度指数；依据每个指令码组的重要程度指数生成所述脚本文件的特征向量；将所述特征向量输入到已训练的分类器，以由所述分类器依据所述特征向量判别所述脚本文件是否为webshell。通过将脚本文件转化为机器可以识别的指令序列，并基于指令序列获得指令特征，以实现特征的分析，能够检测出明文或密文的webshell脚本，打破文件加密的限制，弥补了特征库匹配检测的不足，自适应性比较强。

Description

一种webshell检测方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种webshell检测方法及装置。

背景技术

webshell是以asp、php、jsp或cgi等脚本文件存在的一种命令执行环境，也可称为是一种网页后门。黑客入侵网站服务器后，通常会将webshell后门文件与网站服务器web目录下正常的脚本文件混在一起，然后可以使用浏览器来访问webshell后门文件，得到webshell命令执行环境，达到控制网站服务器的目的。为了维护网站服务器的安全性，需要对webshell进行检测。

在相关技术中，通过人工分析webshell文件的一些特征属性并添加到特征库中，进而将从待检测的脚本文件中提取的特征属性与特征库进行匹配分析，以判别脚本文件是否为webshell文件。

然而，依赖特征库判别方式需要依靠人工的分析与更新，并且在webshell脚本被加密时，由于无法抽取其特征属性，导致无法实现检测。

发明内容

本发明的目的是针对上述现有技术的不足提出的一种webshell检测方法及装置，该目的是通过以下技术方案实现的。

本发明的第一方面提出了一种webshell检测方法，所述方法包括：

将待检测的脚本文件转化为机器可识别的指令序列；

对所述指令序列进行分词处理，得到多个指令码组；

确定每个指令码组在所述脚本文件中的重要程度指数；

依据每个指令码组的重要程度指数生成所述脚本文件的特征向量；

将所述特征向量输入到已训练的分类器，以由所述分类器依据所述特征向量判别所述脚本文件是否为webshell。

本发明的第二方面提出了一种webshell检测装置，所述装置包括：

转化模块，用于将待检测的脚本文件转化为机器可识别的指令序列；

特征分析模块，用于对所述指令序列进行分词处理，得到多个指令码组，并确定每个指令码组在所述脚本文件中的重要程度指数，并依据每个指令码组的重要程度指数生成所述脚本文件的特征向量；

检测模块，用于将所述特征向量输入到已训练的分类器，以由所述分类器依据所述特征向量判别所述脚本文件是否为webshell。

在本发明实施例中，通过将待检测的脚本文件转化为机器可识别的指令序列，然后通过分析指令序列获得指令特征，即指令码组的重要程度指数，并将由指令特征生成的特征向量输入已训练的分类器，由分类器输出脚本文件是否为webshell的检测结果。

基于上述描述可知，由于无论脚本文件是否被加密，均可以被转化为机器可识别的指令序列，因此通过分析指令序列获得指令特征来实现webshell的检测，可以打破文件加密的限制，弥补了特征库匹配检测的不足，自适应性比较强。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1A为本发明根据一示例性实施例示出的一种webshell检测方法的实施例流程图；

图1B为本发明根据图1A所示实施例示出的一种分类器的训练流程示意图；

图2为本发明根据一示例性实施例示出的一种网站服务器的硬件结构图；

图3为本发明根据一示例性实施例示出的一种webshell检测装置的实施例流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

webshell具有很强的隐蔽性，一般和正常的文件混在一起，甚至隐藏在正常的文件以及图片中，检测难度比较大。常见的对脚本文件进行特征库匹配进行分析检测的方式，只是抽取一些脚本文件的基础特征属性(如文本重合指数、文本信息熵、最长单词或字符串长度、文件属性等)，而当脚本文件是加密文件时，就无法抽取这些基础特征属性，导致特征库匹配方式失效。另外，特征库中的特征还依赖于人工的收集与更新，在webshell脚本无法被识别时，无法更新本地特征库，因此特征库匹配的检测方式自适应低。

为解决上述技术问题，本发明提出了一种改进的webshell检测方案，通过将待检测的脚本文件转化为机器可识别的指令序列，然后对指令序列进行分词处理得到多个指令码组，并确定每个指令码组在脚本文件中的重要程度指数，并依据每个指令码组的重要程度指数生成脚本文件的特征向量，进而通过将特征向量输入到已训练的分类器，由分类器依据特征向量输出脚本文件是否为webshell的检测结果。

基于上述描述可知，由于无论脚本文件是否被加密，均可以被转化为机器可识别的指令序列，因此通过分析指令序列获得指令特征(即指令码组的重要程度指数)来实现webshell的检测，可以打破文件加密的限制，弥补了特征库匹配检测的不足，自适应性比较强。

下面以具体实施例对本发明提出的webshell检测方案进行详细阐述。

图1A为本发明根据一示例性实施例示出的一种webshell检测方法的实施例流程图，该webshell检测方法可以应用于网站服务器上，如图1A所示，该webshell检测方法包括如下步骤：

步骤101：将待检测的脚本文件转化为机器可识别的指令序列。

在步骤101中，无论脚本文件是否被加密，在浏览器访问该脚本文件时，均会将该脚本文件先编译转化为机器可以理解的指令序列，然后再执行指令序列实现访问。由于webshell脚本的指令序列与正常脚本的指令序列存在一些明显的不同，因此可以通过编译方式将待检测的脚本文件转化为机器可识别的指令序列，以用于后续的特征分析。

其中，指令序列是用于指定机器要执行的操作，也就是将人写的代码翻译为机器可以识别的指令，机器根据这些指令来执行指定的具体操作，如读写文件、修改文件属性等操作，指令的格式和规范由处理器的指令规范指定。

下面以php脚本文件为例，转化为Opcode(操作码)序列执行，Opcode是机器指令中的一种，该脚本文件的原始文本内容如下所示：

<？php

$new_array＝array_map("ass\x65rt",(array)$_REQUEST['op'])；

？>

通过编译方式将其转化为Opcode序列如下所示：

SEND_VAL FETCH_R FETCH_DIM_R CAST SEND_VAL DO_FCALL ASSIGN RETURN

其中，该Opcode序列包括8条指令，即8个字符串。

步骤102：对所述指令序列进行分词处理得到多个指令码组，并确定每个指令码组在所述脚本文件中的重要程度指数。

在本发明中，由于webshell不会通过一个机器指令就能辨别出，通常webshell脚本具有大马(代码量大、拥有交互页面的多功能木马)、小马(代码量适中、拥有简单交互页面的小型木马)或一句话木马(一行或几行代码构成的木马)等指令特点，因此可以通过一定的规则对指令序列进行分词处理，以获得指令码组的集合，从而将webshell的差异性通过指令码组的集合来体现，并且通过指令码组还可消除单个机器指令语义上的差异。

示例性的，指令码组的提取方式可以按照Ngram(N元模型的分词算法)的规则进行提取。

下面以2元模型的规则，提取如下所示的指令序列的指令码组：

指令序列：SEND_VAL FETCH_R FETCH_DIM_R CAST SEND_VAL DO_FCALL ASSIGNRETURN

经过分词处理后，获得7个指令码组，具体为：(SEND_VAL，FETCH_R)、(FETCH_R，FETCH_DIM_R)、(FETCH_DIM_R、CAST)、(CAST，SEND_VAL)、(SEND_VAL，DO_FCALL)、(DO_FCALL，ASSIGN)、(ASSIGN，RETURN)。

在本发明中，每个指令码组在脚本文件中的重要程度指数用于表征指令序列对应的指令特征，可以是TF-IDF(term frequency–inverse document frequency，词频-逆文本频率)指数。

每个指令码组的重要程度指数计算过程可以是：通过统计样本集中包含该指令码组的样本数和该指令码组在所述指令序列中出现的次数，所述样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本的指令序列，然后依据样本集中的总样本数、统计得到的样本数和次数，确定该指令码组在所述脚本文件中的重要程度指数。

其中，TF-IDF指数的计算公式如下所示：

其中，j表示指令序列，i表示指令码组，tf_i,j表示指令码组i在指令序列j中出现的次数，N表示用于训练分类器的样本集中的总样本数，df_i表示样本集中包含指令码组i的样本数。

步骤103：依据每个指令码组的重要程度指数生成所述脚本文件的特征向量。

在一实施例中，可以提取脚本文件的原始特征，若提取成功，则将原始特征和每个指令码组的重要程度指数的组合作为脚本文件的特征向量，若提取失败，则将每个指令码组的重要程度指数直接作为脚本文件的特征向量。

在本发明中，在指令特征基础上，再考虑脚本文件的原始特征生成特征向量，可以提升检测准确度。脚本文件的原始特征可以包括脚本文件的文本信息熵、文本压缩比、文本重合指数、最长单词或字符串中的任意一种或多种的组合。

(1)针对文本信息熵，指的是脚本文件中文本信息的复杂度，如果文本信息越有序和简单，则其信息熵越低，而文本信息越混乱且复杂，则其信息熵越高。对于功能比较复杂，且做了混淆的webshell脚本，其文本信息熵也越高，是webshell的可能性也越高。在计算文本信息熵时，可以通过过滤掉文本中的空格、中文等信息，并解析出文本中的所有ASCII编码，然后基于ASCII编码计算熵值，文本信息熵计算公式如下：

其中，n表示ASCII码，n＝127表示空格不参与计算，x_n表示第n位ASCII码在文本中出现的次数，s表示文本中的总字符数。

(2)针对文本压缩比，指的是脚本文件进行压缩和解压缩后的比例。

(3)针对文本重合指数，指的是脚本文件是否被加密的指标，使用该指标可以检测代码被混淆的webshell，假设文本B＝{b₁,b₂…b_k}是一个包括K个字符的字符串，文本B的文本重合指数计算公式如下：

其中，f_k表示文本B中字符串b_k出现的比率。

(4)针对最长单词或字符串，由于webshell中有些代码逻辑为了躲避查杀，会将关键代码进行加密，执行时再解密，因此就会出现很长的单词或字符串，因此可以将脚本文件中的最长单词或字符串也作为一种特征。

步骤104：将所述特征向量输入到已训练的分类器，以由所述分类器依据所述特征向量判别所述脚本文件是否为webshell。

在应用分类器进行分类之前，需要对分类器模型进行训练，如图1B所示，其训练过程可以包括获取样本集、特征分析以及训练模型三个步骤。其中，获取的样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本文件的指令序列；特征分析指的是针对样本集中的每一样本，对该样本的指令序列进行分词处理得到多个指令码组，并确定每个指令码组在该样本中的重要程度指数，并依据每个指令码组的重要程度指数生成该样本的特征向量；训练模型指的是利用样本集中每一样本的特征向量对分类器模型进行训练，直至损失值低于预设数值，停止训练。

其中，分类器模型可以采用朴素贝叶斯算法、决策树算法或者支持向量机算法等任意一种实现。

本领域技术人员可以理解的是，训练过程中涉及到的特征分析步骤的详细实现原理可以参见上述步骤102中的相关描述，在此不再赘述。

在本实施例中，通过将脚本文件转化为机器可以识别的指令序列，然后通过分析指令序列获得指令特征，即指令码组的重要程度指数，并将由指令特征生成的特征向量输入已训练的分类器，由分类器输出脚本文件是否为webshell的检测结果。

图2为本发明根据一示例性实施例示出的一种网站服务器的硬件结构图，该网站服务器包括：通信接口201、处理器202、机器可读存储介质203和总线204；其中，通信接口201、处理器202和机器可读存储介质203通过总线204完成相互间的通信。处理器202通过读取并执行机器可读存储介质203中与webshell检测方法的控制逻辑对应的机器可执行指令，可执行上文描述的webshell检测方法，该方法的具体内容参见上述实施例，此处不再累述。

本发明中提到的机器可读存储介质203可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，机器可读存储介质203可以是RAM(Random Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

与前述webshell检测方法的实施例相对应，本发明还提供了webshell检测装置的实施例。

图3为本发明根据一示例性实施例示出的一种webshell检测装置的实施例流程图，该webshell检测装置可以应用于网站服务器上，如图3所示，该webshell检测装置包括：

转化模块310，用于将待检测的脚本文件转化为机器可识别的指令序列；

特征分析模块320，用于对所述指令序列进行分词处理，得到多个指令码组，并确定每个指令码组在所述脚本文件中的重要程度指数，并依据每个指令码组的重要程度指数生成所述脚本文件的特征向量；

检测模块330，用于将所述特征向量输入到已训练的分类器，以由所述分类器依据所述特征向量判别所述脚本文件是否为webshell。

在一可选实现方式中，所述特征分析模块320，具体用于在确定每个指令码组在所述脚本文件中的重要程度指数过程中，针对每个指令码组，统计样本集中包含该指令码组的样本数和该指令码组在所述指令序列中出现的次数；所述样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本的指令序列；依据所述样本集中的总样本数、统计得到的样本数和次数，确定该指令码组在所述脚本文件中的重要程度指数。

在一可选实现方式中，所述特征分析模块320，具体用于在依据每个指令码组的重要程度指数生成所述脚本文件的特征向量的过程中，提取所述脚本文件的原始特征；若提取成功，则将所述原始特征和每个指令码组的重要程度指数的组合作为所述脚本文件的特征向量；若提取失败，则将每个指令码组的重要程度指数作为所述脚本文件的特征向量。

在一可选实现方式中，所述原始特征包括脚本文件的文本信息熵、文本压缩比、文本重合指数、最长单词或字符串中的任意一种或多种的组合。

在一可选实现方式中，所述装置还包括(图3中未示出)：

训练模块，用于获取样本集，所述样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本文件的指令序列；针对所述样本集中的每一样本，对该样本的指令序列进行分词处理得到多个指令码组，并确定每个指令码组在该样本中的重要程度指数，并依据每个指令码组的重要程度指数生成该样本的特征向量；利用所述样本集中每一样本的特征向量对分类器模型进行训练，直至损失值低于预设数值，停止训练。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种webshell检测方法，其特征在于，所述方法包括：

将待检测的脚本文件转化为机器可识别的指令序列；

对所述指令序列进行分词处理，得到多个指令码组；

确定每个指令码组在所述脚本文件中的重要程度指数；

2.根据权利要求1所述的方法，其特征在于，确定每个指令码组在所述脚本文件中的重要程度指数，包括：

针对每个指令码组，统计样本集中包含该指令码组的样本数和该指令码组在所述指令序列中出现的次数；所述样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本的指令序列；

依据所述样本集中的总样本数、统计得到的样本数和次数，确定该指令码组在所述脚本文件中的重要程度指数。

3.根据权利要求1所述的方法，其特征在于，依据每个指令码组的重要程度指数生成所述脚本文件的特征向量，包括：

提取所述脚本文件的原始特征；

若提取成功，则将所述原始特征和每个指令码组的重要程度指数的组合作为所述脚本文件的特征向量；

若提取失败，则将每个指令码组的重要程度指数作为所述脚本文件的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述原始特征包括脚本文件的文本信息熵、文本压缩比、文本重合指数、最长单词或字符串中的任意一种或多种的组合。

5.根据权利要求1所述的方法，其特征在于，所述分类器的训练过程包括：

获取样本集，所述样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本文件的指令序列；

针对所述样本集中的每一样本，对该样本的指令序列进行分词处理得到多个指令码组，并确定每个指令码组在该样本中的重要程度指数，并依据每个指令码组的重要程度指数生成该样本的特征向量；

利用所述样本集中每一样本的特征向量对分类器模型进行训练，直至损失值低于预设数值，停止训练。

6.一种webshell检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述特征分析模块，具体用于在确定每个指令码组在所述脚本文件中的重要程度指数过程中，针对每个指令码组，统计样本集中包含该指令码组的样本数和该指令码组在所述指令序列中出现的次数；所述样本集包括作为负样本的webshell脚本文件的指令序列和作为正样本的非webshell脚本的指令序列；依据所述样本集中的总样本数、统计得到的样本数和次数，确定该指令码组在所述脚本文件中的重要程度指数。

8.根据权利要求6所述的装置，其特征在于，所述特征分析模块，具体用于在依据每个指令码组的重要程度指数生成所述脚本文件的特征向量的过程中，提取所述脚本文件的原始特征；若提取成功，则将所述原始特征和每个指令码组的重要程度指数的组合作为所述脚本文件的特征向量；若提取失败，则将每个指令码组的重要程度指数作为所述脚本文件的特征向量。

9.根据权利要求8所述的装置，其特征在于，所述原始特征包括脚本文件的文本信息熵、文本压缩比、文本重合指数、最长单词或字符串中的任意一种或多种的组合。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：