CN109462575B

CN109462575B - 一种webshell检测方法及装置

Info

Publication number: CN109462575B
Application number: CN201811142616.7A
Authority: CN
Inventors: 李薛; 张研; 江志华
Original assignee: Nanjing Dongxun Information Technology Co ltd; Dongxun Tech Beijing Co ltd
Current assignee: Nanjing Dongxun Information Technology Co ltd; Dongxun Tech Beijing Co ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2021-09-07
Anticipated expiration: 2038-09-28
Also published as: CN109462575A

Abstract

本发明实施例公开了一种webshell检测方法及装置，该方法包括：将待测试的web脚本文件中的内容转换为抽象语法树；提取抽象语法树的特征向量；将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。将待测试的web脚本文件中的内容转换为抽象语法树。提取抽象语法树中的特征向量后，将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。通过上述方式，可以轻易的确定web脚本文件中语句、函数、函数来源以及语句之间的关联关系等。也即是web脚本文件中的最本质信息，还可以提高准确率和工作效率，降低维护成本。

Description

一种webshell检测方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种webshell检测方法及装置。

背景技术

现有的webshell检测方法包括两大类，网络检测和脚本文件检测。其中，网络检测为分析动态生成的网页和HTTP消息交互过程。而脚本文件检测包括静态检测、动态检测和日志文件检测。

网络检测需要部署网络流量旁路硬件设备或者在网关上部署专门的软件，相对文件来说，投入成本较高，对硬件和软件性能要求高。这种检测方法需要过滤巨量的网络数据，从中捕捉到攻击者上传的Webshell，或者攻击者与Webshell的交互数据。这种检测只能定位到某台机器正在被使用的Webshell，很难发现还没有被攻击者使用的Webshell。

动态检测需要捕获Web脚本调用的函数，以及函数的参数。但是，正常的运行环境不会报告出这些信息。这就需要更改环境，使得可以在运行中可以采集到程序调用的函数和函数的参数。这种采集工作是有代价的，会带来脚本运行性能的下降。

静态检测的主要方法有三个，基于数据哈希值的特征检测、基于混淆特征的检测、和正则表达式匹配。基于数据哈希值的检测最简单，其原理是检测者事先构造一个哈希值的数据库，其中存储大量已经发现的Webshell脚本全部或部分内容的哈希值，判断过程就是查找一个Web脚本的哈希值是否存在于数据库之中。这种检测方法的问题是稍微变换脚本的内容，哈希值就会变化。所以，这种检测方法只对已知的Webshell有效，很难检测未知的和变种的Webshell。基于混淆特征的检测主要应对的是这样一个事实，大多数Webshell会使用混淆手段。基于混淆特征的检测针对几种常见的混淆特征值进行检测，比如信息熵、重合指数和压缩比等。这种检测手段对于未经混淆的Webshell检测效果不佳，另外对于包含大量图像内容的脚本文件误报率较高。正则表达式匹配法的原理是针对已知的Webshell代码构造正则表达式库，检测Webshell时，就是读入Webshell内容看能否在匹配库中找到匹配。目前，正则表达式匹配是主流的webshell检测方法，此方法已广为人知，网络黑客在网上流传各种绕过这些检测的方法，通常是添加注释，添加无用的语句，将一句代码拆分为多句等。在攻与防之间形成了“军备竞赛”。在实践中这种方法检测的效果取决于特征库的更新速度。日志检测则存在其滞后性，不能及时采取有效的预防措施。

发明内容

本发明实施例的目的在于提供一种webshell检测方法及装置，用以减少系统资源的占用、提高webshell检测率，降低开发和维护成本等目的。

为实现上述目的，本发明实施例提供一种webshell检测方法，该方法包括：

将待测试的web脚本文件中的内容转换为抽象语法树；

提取抽象语法树的特征向量；

将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

本发明实施例具有如下优点：将待测试的web脚本文件中的内容转换为抽象语法树。提取抽象语法树中的特征向量后，将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。通过上述方式，可以轻易的确定web脚本文件中语句、函数、函数来源以及语句之间的关联关系等。也即是web脚本文件中的最本质信息，而通过机器学习算法对特征向量分类，还可以提高准确率和工作效率，降低维护成本。

为实现上述目的，本发明实施例提供一种webshell检测装置，该装置包括：

转换单元，用于将待测试的web脚本文件中的内容转换为抽象语法树；

提取单元，用于提取抽象语法树的特征向量；

处理单元，用于将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

附图说明

图1为本发明实施例1提供的一种webshell检测方法流程示意图；

图2为本发明提供的一种基于操作码构造抽象语法树的示意图；

图3为本发明实施例2提供的一种webshell检测装置结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1

本发明实施例1提供了一种webshell检测方法，具体如图1所示，图1为本发明实施例提供的一种webshell检测方法流程示意图，该方法包括：

步骤110，将待测试的web脚本文件中的内容转换为抽象语法树。

步骤120，提取抽象语法树的特征向量。

步骤130，将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

可选的，待测试的web脚本文件中的内容可以是web脚本文件操作码。而将待测试的web脚本文件中内容转换为抽象语法树，则可以包括：

采集待测试的web脚本文件中的操作码。然后将操作码转换为抽象语法树。

在一个具体例子中，web脚本文件的操作码如下：

<？php

$x＝base64_decode("YXNzZXJ0")；

$x($_POST['c'])；

？>

操作码包括两条语句，第一条语句中包含混淆后的代码字符串“YXNzZXJ0”，对其进行解码，然后赋值给变量x；第二条语句动态执行变量x所存储的代码。其参数是通过HTTPPOST字段传输的变量c的值。操作码编译后的语句如表1所示：

表1操作码示例

而将操作码转化为抽象语法树具体过程如下：

INIT_DYNAMIC_CALL是这棵语法树的根节点，包括两个参数。一个是在第5条操作码中的“！0”，另一个是第8条操作码中的“$4”。“！0”由第4条操作码“ASSIGN”得到，再向前关联到第1条操作码“base64_decode”，“base64_decode”的参数由第2条操作码提供。“INIT_DYNAMIC_CALL”的另一个参数“$4”由第7条操作码和第6条操作码共同提供。因此，在语法树中，将具体的'YXNzZXJ0'就可以转换为表示base64编码的“$base64$”。具体的语法树抽象示意图如图2所示。通过构造抽象语法树可以屏蔽掉注释，从而让添加注释混淆代码的攻击手段失效。而让语句之间根据内在的语义关联起来，例如本实施例中，为了有助于说明，因此只列举了两条语句。实际的攻击者为了混淆代码使代码不易检测，会在这两条代码之间增加大量的无用代码。利用抽象语法树可以忽略这些无用代码将两条或更多条有实际语义关联的代码关联起来。

然后，利用国际上流行的机器学习算法，从抽象语法树中提取特征向量，并对提取的特征向量进行分类。从而确定待测试的web脚本文件为webshell文件还是为正常的web脚本文件。

其中，提取特征向量，以及将特征向量代入预设定的机器学习最优模型中进行分类，获取分类结果，然后根据分类结果确定待测试的web脚本文件为webshell文件还是正常的web脚本文件的过程均为现有技术，这里不做过多介绍。

可选的，在将特征向量代入预设定的机器学习最优模型中进行分类，获取分类结果之前，方法还包括：

利用样本数据对预设定的机器学习训练模型进行训练，获取机器学习最优模型，其中样本数据包括已知的正常web脚本文件和webshell文件。

本发明实施例提供的一种webshell检测方法，将待测试的web脚本文件中的内容转换为抽象语法树。提取抽象语法树中的特征向量后，将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。通过上述方式，可以轻易的确定web脚本文件中语句、函数、函数来源以及语句之间的关联关系等。也即是web脚本文件中的最本质信息，而通过机器学习算法对特征向量分类，还可以提高准确率和工作效率，降低维护成本。

实施例2

与上述实施例1相对应的，本发明实施例2提供了一种webshell检测装置，具体如图3所示，图3为本发明实施例提供的一种webshell检测装置结构示意图，该装置包括：转换单元301、提取单元302以及处理单元303。

转换单元301，用于将待测试的web脚本文件中的内容转换为抽象语法树。

提取单元302，用于提取抽象语法树的特征向量。

处理单元303，用于将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

可选的，处理单元303具体用于：将特征向量代入预设定的机器学习最优模型中进行分类，获取分类结果；

根据分类结果确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

可选的，处理单元303还用于，利用样本数据对预设定的机器学习训练模型进行训练，获取机器学习最优模型，其中样本数据包括已知的正常web脚本文件和webshell文件。

可选的，待测试的web脚本文件中的内容包括：web脚本文件操作码；转换单元301具体用于：

采集待测试的web脚本文件中的操作码；

将操作码转换为抽象语法树。

本发明实施例提供的一种webshell检测装置中各部件所执行的功能均已在实施例1所提供的一种webshell检测方法中做了详细说明，这里将不再赘述。

本发明实施例提供的一种webshell检测装置，将待测试的web脚本文件中的内容转换为抽象语法树。提取抽象语法树中的特征向量后，将特征向量代入预设定的机器学习算法中，确定待测试的web脚本文件为webshell文件或者为正常的web脚本文件。通过上述方式，可以轻易的确定web脚本文件中语句、函数、函数来源以及语句之间的关联关系等。也即是web脚本文件中的最本质信息，而通过机器学习算法对特征向量分类，还可以提高准确率和工作效率，降低维护成本。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种webshell检测方法，其特征在于，所述方法包括：

将待测试的web脚本文件中的内容转换为抽象语法树；

提取所述抽象语法树的特征向量；

将所述特征向量代入预设定的机器学习算法中，确定所述待测试的web脚本文件为webshell文件或者为正常的web脚本文件；

将所述特征向量代入预设定的机器学习算法中，确定所述待测试的web脚本文件为webshell文件或者为正常的web脚本文件，具体包括：

将所述特征向量代入预设定的机器学习最优模型中进行分类，获取分类结果；

根据所述分类结果确定所述待测试的web脚本文件为webshell文件或者为正常的web脚本文件；

所述将所述特征向量代入预设定的机器学习最优模型中进行分类，获取分类结果之前，所述方法还包括：

利用样本数据对预设定的机器学习训练模型进行训练，获取机器学习最优模型，其中所述样本数据包括已知的正常web脚本文件和webshell文件；

所述待测试的web脚本文件中的内容包括：web脚本文件操作码；所述将所述待测试web脚本文件中的内容转换为抽象语法树，具体包括：

采集所述待测试的web脚本文件中的操作码；

将所述操作码转换为抽象语法树；

所述操作码包括两条语句，第一条语句中包含混淆后的代码字符串“YXNzZXJ0”，对其进行解码，然后赋值给变量x；第二条语句动态执行变量x所存储的代码，其参数是通过HTTPPOST字段传输的变量c的值；

通过构造抽象语法树屏蔽掉注释，让添加注释混淆代码的攻击手段失效，让语句之间根据内在的语义关联起来；

操作码编译后的语句包括：INIT_FCALL；SEND_VAL；DO_ICALL；ASSIGN；INIT_DYNAMIC_CALL；FETCH_FUNC_ARG；FETCH_DIM_FUNC_ARG；SEND_VAR_EX；DO_FCALL和RETURN；

将操作码转化为抽象语法树具体过程如下：

INIT_DYNAMIC_CALL是这棵语法树的根节点，包括两个参数，一个是在第5条操作码中的“！0”，另一个是第8条操作码中的“$4”；

“！0”由第4条操作码“ASSIGN”得到，再向前关联到第1条操作码“base64_decode”，“base64_decode”的参数由第2条操作码提供；

“INIT_DYNAMIC_CALL”的另一个参数“$4”由第7条操作码和第6条操作码共同提供。

2.一种webshell检测装置，采用如权利要求1的webshell检测方法，其特征在于，所述装置包括：

提取单元，用于提取所述抽象语法树的特征向量；

处理单元，用于将所述特征向量代入预设定的机器学习算法中，确定所述待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

3.根据权利要求2所述的装置，其特征在于，所述处理单元具体用于：将所述特征向量代入预设定的机器学习最优模型中进行分类，获取分类结果；

根据所述分类结果确定所述待测试的web脚本文件为webshell文件或者为正常的web脚本文件。

4.根据权利要求3所述的装置，其特征在于，所述处理单元还用于，利用样本数据对预设定的机器学习训练模型进行训练，获取机器学习最优模型，其中所述样本数据包括已知的正常web脚本文件和webshell文件。

5.根据权利要求4所述的装置，其特征在于，所述待测试的web脚本文件中的内容包括：web脚本文件操作码；所述转换单元具体用于：

采集所述待测试的web脚本文件中的操作码；

将所述操作码转换为抽象语法树。