CN113032780A

CN113032780A - 一种基于图像分析的Webshell检测方法、终端设备及存储介质

Info

Publication number: CN113032780A
Application number: CN202110224149.8A
Authority: CN
Inventors: 姚刚; 陈奋; 陈荣有; 孙晓波; 龚利军
Original assignee: Xiamen Fuyun Information Technology Co ltd
Current assignee: Xiamen Fuyun Information Technology Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-25

Abstract

本发明涉及一种基于图像分析的Webshell检测方法、终端设备及存储介质，该方法中包括：S1：采集正常和异常两种不同类型的多个Webshell样本；S2：根据采集的各Webshell样本和待测Webshell的Opcode序列和Opcode频率，生成对应的RGB图像；S3：计算待测Webshell的RGB图像与各Webshell样本的RGB图像之间的距离，并按照距离从小到大的顺序将各Webshell样本进行排序，从排序结果中选择前N个Webshell样本并判断类型，将对应数量最多的类型最为待测Webshell的类型。本发明使Opcode特征来表示Webshell的恶意行为，并用Opcode序列生成二维灰度图像，之后结合Opcode频率所生成的灰度图像合成RGB图像，能够更加完整的表征Webshell的恶意行为，提升检测性能。

Description

一种基于图像分析的Webshell检测方法、终端设备及存储介质

技术领域

本发明涉及Webshell检测领域，尤其涉及一种基于图像分析的Webshell检测方法、终端设备及存储介质。

背景技术

Web应用系统现广泛应用于社交、购物、银行和邮件等重要业务线上，在网络资产中占有非常重要的地位。系统的受攻击面广和攻击技术多导致系统易被入侵。Webshell是一种动态脚本形式存在的入侵者对服务器进行控制的后门程序，对网站后门程序进行有效的检测和了解应用程序的安全状况至关重要。受限于检测技术，仍有大量的网站木马无法检出。Webshell变体层出不穷，现有的检测方法很难与其进行有效对抗，形势十分严峻。

现使用Webshell检测方法主要分为静态分析、动态分析以及通过文件属性、内容信息熵、日志文件等其他手段。动态分析方法是根据恶意文件执行时的动态特征进行检测，该方案的优势是恶意行为检出率高，但对于特定用途的后门较难检测，且动态执行需要在系统里面建立虚拟机，对系统资源消耗较大。而且在检测未启动的静默文件时存在漏报和危险感知延迟的现象。静态检测主要使用规则对文件的静态属性进行匹配，市面上某Webshell扫描器使用这种方法进行检测。该检测方法可以快速找到危险的文件，缺点是误报率和漏报率降低空间有限，对抗混淆能力较弱，容易出现绕过手段。规则的性能依赖开发人员的经验，无未知风险对抗能力。其他检测手段如Scott和Ben使用的NeoPI检测方法对信息熵、重合指数、最长单词、压缩比等其他特征对Webshell进行检测。该检测方法可以完成一些变体的标记，但没有从恶意代码的根本特征上解决Webshell检测问题，局限性很大，很容易产生漏报。近年，研究人员更多使用多种方法结合进行检测，如基于决策树的Webshell检测方法，该方法使用SVM算法对动静态检测的结果进行了优化，但是并没有对检测方法进行优化。以上检测方法通常使用基于规则的方式，通过提取出文件或日志的内容及属性与预编写的规则进行匹配，将触发规则的文件标记为Webshell，一般使用正则表达式来描述Webshell的特征。正则表达式本质为限状态自动机，无法良好地定义行为特征和完整覆盖风险模型，因此在检测漏报率和误报率上存在无法跨域的瓶颈。爱荷华大学Hansen在2005年的论文中从理论上证明基于正则的匹配方式一定存在漏报和误报。

发明内容

为了解决上述问题，本发明提出了一种基于图像分析的Webshell检测方法、终端设备及存储介质。

具体方案如下：

一种基于图像分析的Webshell检测方法，包括以下步骤：

S1：采集正常和异常两种不同类型的多个Webshell样本；

S2：根据采集的各Webshell样本和待测Webshell的Opcode序列和Opcode频率，生成对应的RGB图像；

S3：计算待测Webshell的RGB图像与各Webshell样本的RGB图像之间的距离，并按照距离从小到大的顺序将各Webshell样本进行排序，从排序结果中选择前N个Webshell样本并判断类型，将对应数量最多的类型最为待测Webshell的类型。

进一步的，RGB图像的生成过程包括以下步骤：

S201：将Webshell文件分为两部分，分别计算各部分中包含的每个Opcode的频率，并转换为频率灰度图；

S202：提取Webshell文件的Opcode序列，并将其映射至二维矩阵上，其中二维矩阵的行和列均表示Webshell文件中包含的各Opcode，矩阵中每个元素的值表示该元素的行和列对应的两个Opcode在Opcode序列中连续出现的总次数；将二维矩阵转换为序列灰度图；

S203：通过第一部分的频率灰度图填充RGB图像中的红色通道，通过第二部分的频率灰度图填充RGB图像中的绿色通道，通过序列灰度图填充RGB图像中的蓝色通道；

S204：对红色通道、绿色通道和蓝色通道三者进行归一化处理，使三者具有相同的大小后，将红色通道、绿色通道和蓝色通道三者合并生成RGB图像。

进一步的，步骤S201和S202中还包括对频率灰度图和序列灰度图进行以下处理：当元素的最大值超过255时，对各元素的值进行归一化处理，使其最大值小于或等于255，并对各元素进行特征增强：

其中，val_enhance(os_i|x_j)表示元素增强后的值，α表示增强的系数，val(os_i|x_j)表示生成的增强前的值，max表示取最大值。

进一步的，步骤S3之前还包括对RGB图像进行降维处理。

进一步的，降维处理采用主成分分析算法进行。

一种基于图像分析的Webshell检测终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，使Opcode特征来表示Webshell的恶意行为，并用Opcode序列生成二维灰度图像，之后结合Opcode频率所生成的灰度图像合成RGB图像，能够更加完整的表征Webshell的恶意行为，提升检测性能。利用了基于图像距离的分类检测算法，相比传统的机器学习算法，无需单独训练样本，即可实现分类的目的。并且避免了规则库人工维护的线性增长问题。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中OPCODE输出示意图。

图3所示为该实施例中提取OPCODE序列流程图。

图4所示为该实施例中RGB图像生成示意图。

图5所示为该实施例中RGB图像距离计算过程示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种基于图像分析的Webshell检测方法，如图1所示，所述方法包括以下步骤：

S1：采集正常和异常两种不同类型的多个Webshell样本。

S2：根据采集的各Webshell样本和待测Webshell的Opcode序列和Opcode频率，生成对应的RGB图像。

该实施例中以php代码形式的Webshell为例进行说明。当Zend虚拟机执行一段php代码时，一般会经历以下4个步骤：

1)Scanning(Lexing)，即将PHP代码转换为语言片段(Tokens)；

2)Parsing，即将语言片段转换成简单有意义的表达式；

3)Compilation，即将表达式编译成Opcodes；

4)Execution，即Zend引擎顺次执行Opcodes。

php是运行在Zend虚拟机之上的，其Opcode则属于字节码范畴。php的Opcode指Zend虚拟机能够识别的指令。Opcode是可以由Zend虚拟机执行的单个操作的数字标识符，php扫描了人可读代码后并将其嵌入到语言片段中后，这些语言片段在解析阶段被组合在一起，这些小表达式又被编译或转换为操作码。操作码是Zend虚拟机作为一个单元执行的指令，最终会在一个数组中逐个执行并运行。根据上述分析，可以将Opcode作为php执行的最底层单位，php代码的执行可以看做为将代码翻译成Opcode函数后，按照先后顺序挨个执行。php可以理解为由两个参数(op1，op2)、返回值和处理函数组成。

phpWebshell实际上也只是一段php代码，通过加密混淆手法，最终执行了一些特定的操作，比如执行命令、列出目录、上传和查看文件等。如果使用传统静态检测方法，直接对人们编写的源代码进行检测，那么会有很多因素影响检测结果。但是当在Opcode层面对Webshell进行检测则可以绕过这些混淆方法。

对于Opcode的提取该实施例中采用VLD(Vulcan Logic Dumper)，其是一个php扩展，在Zend引擎中通过hook的方式输出php脚本生成的中间代码(执行单元)。最常见的一句话木马在实际运行情况下的操作码为：<？php@eval($_POST['password'])；？>，其Opcode输出如图2所示。

Opcode反映的是代码最底层的操作，可以推测其序列之间存在一定的关系。如第n个Opcode与第n+1个Opcode之间有联系性，那么便可以对整个代码进行序列特征提取，该实施例中称为全局特征。该实施例中以简单的php代码为例来观察其Opcode序列，php代码文件处理提取Opcode序列的流程如图3所示。从图3可以得知，经过处理后得到php文件的Opcode，可以将其Opcode序列表示为：FETCH_R，FETCH_DIM_R，ECHO，ECHO和RETURN。

将提取的Opcode序列映射至二维矩阵上，其中二维矩阵的行和列均表示Webshell文件中包含的各Opcode，矩阵中每个元素的值表示该元素的行和列对应的两个Opcode在Opcode序列中连续出现的总次数。生成的二维矩阵如表1所示。

表1

由于该实施例中所用示例的Opcode序列极短，因此生成的向量矩阵中元素最大值为1，当Webshell样本文件比较大时，其中的Opcode序列关系会变多，相对应的矩阵中元素的值也会变大。但是当样本文件足够大的时候，可能会出现部分元素的值超出了255的范围，也就是超出了灰度图像所能表示的范围，这种情况下需要对这些超出了灰度图像像素范围内的值进行归一化，映射到255的范围之内。

由于相比于矩阵中的最大值，大部分矩阵元素中的取值范围非常的小，因此，该实施例中将矩阵的每个元素与其自身取值的一定范围进行特征增强。

对矩阵中各元素的值进行增强操作后，将二维矩阵转换为序列灰度图，经过处理后的矩阵元素位置即是序列灰度图的像素点位置。

为了进一步的表征Webshell的更多特征，该实施例中进一步将灰度图像转化为RGB图像，通过RGB图像来表征Webshell。

RGB图像(彩色图像)可以看做一个三维矩阵，如400*400*3表示3个400行400列的二维矩阵，其中这3个矩阵称作分量，分别为R、G、B分量，二维矩阵可以看做相对应分量的灰度值。RGB图像中每个像素点都由R、G、B中对应像素点的灰度值来构成，形如(R，G，B)，这里所指的灰度值表示的是在各自分量下的单色光度值。灰度图像被称为单通道图，RGB图像则可以称为三通道图。通过将表征Webshell特征的三个二维灰度图像合成为RGB图像，可以携带更多特征。

该实施例中并没有采用直接将灰度图像转换为RGB图像的方法，而是使用了更有意义的信息来填充RGB图像中的红色、蓝色和绿色通道。对于蓝色通道，采用Opcode的序列灰度图来填充，绿色通道和红色通道分别用Opcode的频率灰度图来填充。具体的，该实施例中将Webshell文件分为两部分，分别计算各部分中包含的每个Opcode的频率，通过第一部分的频率灰度图填充RGB图像中的红色通道，通过第二部分的频率灰度图填充RGB图像中的绿色通道。

Opcode的频率灰度图即表示每个Opcode在代码文件中出现的频率，一个Opcode对应一个像素点，其像素点的灰度值为对应Opcode在php代码中出现的次数。

和Opcode序列映射后生成的灰度图类似，用相应频率来制作灰度图像也会出现部分像素灰度值过高，大部分像素灰度值极低的情况，所以也需要对其进行相应的归一化处理和特征增强处理。

由于填充后的GB图像中的红色通道、绿色通道和蓝色通道三者大小可能不一致，因此还需要对红色通道、绿色通道和蓝色通道三者进行归一化处理，使三者具有相同的大小后，将红色通道、绿色通道和蓝色通道三者合并生成RGB图像。webshell的RGB图像合成过程如图4所示。

由于RGB图像比较大会造成训练过程变得很慢，因此在训练之前需要对其进行降维处理，该实施例中采用主成分分析(PCA)算法。主成分分析算法是一种无参的数据降维方法，其将n维特征向量映射到k维，其中n>k，映射后的k维则称作图像的主成分。主要思想是建立高维度空间，在其中找到方差最大的方向，并把数据映射到更低维度的子空间中。其流程主要为：

1)对原始数据做标准化处理；

2)构造样本协方差矩阵；

3)计算协方差矩阵的特征值和特征向量；

4)选择与前k个最大特征值对应的特征向量，其中k为新特征空间的维度；

5)通过前k个特征向量构建映射矩阵W；

6)通过映射矩阵W将d维的输入数据集X转换到新的k维特征子空间。

该实施例中将k的值设置为50，表示经过主成分分析算法处理后将RGB图片缩减到50个像素。

该实施例中在计算距离时首先将RGB图像转换为向量形式，归一化特征向量。

该实施例中采用的归一化方法为线性变换法，其公式表示为：

在计算RGB图像之间的距离时，因为输入的是RGB图像，所以实际上是对50*50*3的像素进行距离计算。图像距离度量方式该实施例中采用逐个像素计算方式，即计算两幅图像对应的向量I₁和I₂的L1距离

此处的和运算指的是图像中的所有像素之和。Webshell图像距离计算过程如图5所示。

本发明实施例一利用Opcode序列作为恶意特征表示方法，将其映射到二维矩阵转换为二维灰度图像，随后结合Opcode频率所表示的灰度图像生成RGB三维特征图像以表征webshell的特征，并且使用特有的数据处理方法，减少了数据的复杂度，随后利用基于图像距离的分类检测算法，相比传统的机器学习算法，无需单独训练样本，即可实现分类的目的。

实施例二：

本发明还提供一种基于图像分析的Webshell检测终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述基于图像分析的Webshell检测终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于图像分析的Webshell检测终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述基于图像分析的Webshell检测终端设备的组成结构仅仅是基于图像分析的Webshell检测终端设备的示例，并不构成对基于图像分析的Webshell检测终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于图像分析的Webshell检测终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于图像分析的Webshell检测终端设备的控制中心，利用各种接口和线路连接整个基于图像分析的Webshell检测终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于图像分析的Webshell检测终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述基于图像分析的Webshell检测终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于图像分析的Webshell检测方法，其特征在于，包括以下步骤：

S1：采集正常和异常两种不同类型的多个Webshell样本；

2.根据权利要求1所述的基于图像分析的Webshell检测方法，其特征在于：RGB图像的生成过程包括以下步骤：

3.根据权利要求2所述的基于图像分析的Webshell检测方法，其特征在于：步骤S201和S202中还包括对频率灰度图和序列灰度图进行以下处理：当元素的最大值超过255时，对各元素的值进行归一化处理，使其最大值小于或等于255，并对各元素进行特征增强：

4.根据权利要求1所述的基于图像分析的Webshell检测方法，其特征在于：步骤S3之前还包括对RGB图像进行降维处理。

5.根据权利要求4所述的基于图像分析的Webshell检测方法，其特征在于：降维处理采用主成分分析算法进行。

6.一种基于图像分析的Webshell检测终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任一所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～5中任一所述方法的步骤。