CN112118225A

CN112118225A - 一种基于RNN的Webshell检测方法及装置

Info

Publication number: CN112118225A
Application number: CN202010809947.2A
Authority: CN
Inventors: 张秀华
Original assignee: Unicloud Nanjing Digital Technology Co Ltd
Current assignee: Unicloud Nanjing Digital Technology Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-22
Anticipated expiration: 2040-08-13
Also published as: CN112118225B; WO2022032917A1

Abstract

本发明公开了一种基于RNN的Webshell检测方法及装置，所述方法包括以下步骤：S1、通过预设方法对源文件进行预处理，获取关键词；S2、采用预设法则构建门控循环单元GRU模型，并进行训练；S3、通过所述门控循环单元GRU模型对所述源文件进行判别。有益效果：本发明从关键词集来近似样本的角度，通过提取关键词，使用样本对应的关键词集来近似表示样本，有效地排除了样本中的无用噪声，相比于传统常用的机器学习算法，本发明能够提取深层次的特征，从而不仅有效地提高了检测的准确率，而且还有效地降低了误报率和漏报率，进而使得本发明能够更加有效地实现对webshell的检测。

Description

一种基于RNN的Webshell检测方法及装置

技术领域

本发明涉及互联网技术领域，具体来说，涉及一种基于RNN的Webshell检测方法及装置。

背景技术

WebShell就是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境，也可以将其称之为一种网页后门。攻击者在入侵了一个网站后，通常会将这些asp或php后门文件与网站服务器web目录下正常的网页文件混在一起，然后使用浏览器来访问这些后门，得到一个命令执行环境，以达到控制网站服务器的目的，这就是webshell文件上传攻击。

Webshell可分为2类，一类是小马，一类是大马。小马，源文件代码量较少，通常是几行到几十行不等，其功能主要是文件上传、执行命令行程序等。大马，文件大小少则几KB，多则几百KB，甚至超过1MB，功能复杂，包括执行命令行程序、上传文件、权限提升、端口扫描、数据库操作等。此外，大马要完成其功能还需要其他源文件的配合，协同作战，达到攻击目的。

当前防范webshell文件上传攻击常见的检测方法有以下几种：1)、将文件上传的目录设置为不可执行；2)、判断文件类型，结合白名单的方式进行访问控制；3)、使用随机数改写文件名和文件类型，增加攻击成本；4)、单独设置文件服务器的域名。其中第二种方法即判断文件类型的方法，普遍采用MIME Type、后缀检查、报文类型魔术字匹配等方式对文件类型进行判断，而此种方法很容易被黑客通过修改后缀、合法文件后添加木马等方法绕过检测。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于RNN的Webshell检测方法及装置，适用于广大计算机从业人员的各类分布式计算的服务器端网络空间安全防护的应用场合，是一种对Webshell的高效检测的方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种基于RNN的Webshell检测方法，包括以下步骤：

S1、通过预设方法对源文件进行预处理，获取关键词；

S2、采用预设法则构建门控循环单元GRU模型，并进行训练；

S3、通过所述门控循环单元GRU模型对所述源文件进行判别。

进一步的，所述S1通过预设方法对源文件进行预处理，获取关键词具体包括以下步骤：

S11、通过预设切词对所述源文件进行切分处理，得到切词结果；

S12、采用词频-逆文档频率TF-IDF算法来对所述切词结果进行关键词提取，得到关键词。

进一步的，所述S1中在对所述源文件进行切分处理之前，保留有所述源文件中的所有信息。

进一步的，所述S11中的预设切词包括非字母字符和非数字字符，且所述非字母字符和所述非数字字符的字符串长度均介于3到15之间。

进一步的，所述S12中词频-逆文档频率TF-IDF算法的计算公式为：

其中，i表示词，j表示文档，tf_i，j表示词i在文档j中出现的频率，df_i表示包含词i的文档数，N表示文档总数。

进一步的，所述S2采用预设法则构建门控循环单元GRU模型，并进行训练具体包括以下步骤：

S21、获取所述门控循环单元GRU模型的重置门及更新门的计算方程；

S22、依据所述重置门及更新门的计算方程来获取所述门控循环单元GRU模型的输出计算方程。

进一步的，所述S21中重置门的计算方程为：

所述更新门的计算方程为：

其中，σ表示sigmoid函数，值域为[0，1]，分别对应于各个门，x表示输入，h表示某时刻的输出，t表示时间，取值范围[1，T]，l表示层，取值范围[1，L]，W和U分别表示对应的权值矩阵。

进一步的，所述S22中门控循环单元GRU模型的输出计算方程为：

其中，符号⊙表示对应元素相乘，σ表示sigmoid函数，值域为[0，1]，分别对应于各个门，x表示输入，h表示某时刻的输出，t表示时间，取值范围[1，T]，l表示层，取值范围[1，L]，W和U分别表示对应的权值矩阵。

进一步的，所述S3通过所述门控循环单元GRU模型对所述源文件进行判别具体包括以下步骤：

S31、向已训练的所述门控循环单元GRU模型中输入所述关键词；

S32、由所述门控循环单元GRU模型依据所述关键词来判别所述源文件是否为命令执行环境webshell。

根据本发明的另一个方面，还提供了一种电子装置，所述电子装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的基于RNN的Webshell检测程序，所述基于RNN的Webshell检测程序被所述处理器执行，以实现上述基于RNN的Webshell检测方法的步骤。

有益效果为：本发明从关键词集来近似样本的角度，通过提取关键词，使用样本对应的关键词集来近似表示样本，有效地排除了样本中的无用噪声，相比于传统常用的机器学习算法，本发明能够提取深层次的特征，从而不仅有效地提高了检测的准确率，而且还有效地降低了误报率和漏报率，进而使得本发明能够更加有效地实现对webshell的检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于RNN的Webshell检测方法的流程图；

图2是根据本发明实施例的一种基于RNN的Webshell检测方法中GRU模型的信息流向示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于RNN的Webshell检测方法及装置。其中，RNN(Recurrent Neural Network)递归神经网络是一种深度学习方法，具有循环结构，被广泛应用于语音识别、机器翻译、文本处理等领域。RNN中的循环结构，有多种选择，本发明选取GRU(Gated Recurrent Unit)。GRU是LSTM(Long Short Term Memory)诸多变体中的一个，在很多领域都得到了大量的使用。

现结合附图和具体实施方式对本发明进一步说明，如图1-2所示，根据本发明的一个实施例，提供了一种基于RNN的Webshell检测方法，包括以下步骤：

S1、通过预设方法对源文件进行预处理，获取关键词；具体的，所述的预处理是对源文件进行处理，以提高效率和识别准确率，预处理工作包括切词、提取关键词等。

其中，所述S1具体包括以下步骤：

在本实施中，所述的切词，对文本数据进行切分，得到具有一定实际意义的词。由于PHP(超文本预处理器)源码中有英文和中文，以及大量的运算符号和标点符号，中文字符一般作为注释或者变量值，英文字符是程序代码的主体部分，因此采用非字母和非数字字符作为切词。从相关代码统计数据得到结论，字符串主要集中在长度小于15的短字符串，而长度小于4的字符串一般没有实际意义。因此在切词数据集中，只保留字符串长度介于3到15之间的字符串。

具体的，所述S11中的预设切词包括非字母字符和非数字字符，且所述非字母字符和所述非数字字符的字符串长度均介于3到15之间。

在本实施中，所述的提取关键词，出于效率的考虑，以及并不是每个词都有助于识别，由此，需要对切词结果进行取舍。本文采用TF-IDF(term frequency–inverse documentfrequency)算法来提取关键词。TF-IDF算法是基于词频-逆文档频率。Webshell源文件调用的主要是系统函数，包括文件操作、执行命令行程序等，正常源文件一般是名称代表意义，webshell文件这种特征并不明显，因此，TF-IDF算法可有效地用于关键词提取。

具体的，所述S12中词频-逆文档频率TF-IDF算法的计算公式为：

此外，对于源文件从总体上来说，源文件中的每一部分，都是为程序实现相关功能服务的，相辅相成。程序代码用来实现其功能，而注释是对程序代码的补充，依赖于具体程序而存在，以提高可读性，以及记录重要信息。不同的源文件，注释不尽相同。因此，所述S1中在对所述源文件进行切分处理之前，保留有所述源文件中的所有信息，包括注释等。

本实施中，使用的GRU是对vanilla LSTM复杂结构的简化，LSTM结构即长短期记忆人工神经网络。原始的LSTM中有3个门，输入门、输出门、遗忘门，GRU只有更新门和重置门2个门。另外，LSTM有cell状态的循环更新，而GRU中则去掉了cell，更多的直接依赖于GRU的输出h的加法和乘法运算，具体如下所示：

S2、采用预设法则构建门控循环单元GRU模型，并进行训练；

其中，所述S2具体包括以下步骤：

具体的，所述S21中重置门的计算方程为：

所述更新门的计算方程为：

具体的，所述S22中门控循环单元GRU模型的输出计算方程为：

其中，符号⊙表示对应元素相乘，σ表示sigmoid函数，值域为[0，1]，分别对应于各个门，x表示输入，h表示某时刻的输出，t表示时间，取值范围[1，T]，l表示层，取值范围[1，L]，W和U分别表示对应的权值矩阵。从上述方程中可见，GRU的相邻时刻的输出联系紧密，上一个时刻的输出贯穿了当前时刻的输出的整个计算流。一般地，对于这种分类问题，通常取GRU地最后一层地最后一个时刻的输出，即

在本实施中，所述的GRU结构中信息流向见方程①-④，结构如图2所示，其中所述重置门和所述更新门都依赖于上一时刻的输出

和当前时刻的输入

两者之间为加法关系，对于上述GRU的输出计算方程③和④，两个门通过其值域限制了上一时刻信息的通过量，即上一时刻的输出

因为门的存在部分信息流向当前时刻的输出

而剩余的信息则被当前时刻的输出丢掉。另外，方程④是对中间状态

和

加权平均，根据门的取值偏向于两者中的一个。

S3、通过所述门控循环单元GRU模型对所述源文件进行判别。

其中，所述S3具体包括以下步骤：

根据本发明的另一个实施例，还提供了一种电子装置。

在本实施例中，所述电子装置可以是电脑或服务器。所述电子装置至少包括存储器、处理器、通信总线以及网络接口。

其中，存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器在一些实施例中可以是电子装置的内部存储单元，例如所述电子装置的硬盘。存储器在另一些实施例中也可以是电子装置的外部存储设备，例如电子装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括电子装置的内部存储单元也包括外部存储设备。存储器不仅可以用于存储安装于电子装置的应用软件及各类数据，例如基于RNN的Webshell检测程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器中存储的程序代码或处理数据。

通信总线用于实现这些组件之间的连接通信。

网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在电子装置与其他电子设备之间建立通信连接。

可选地，电子装置还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。

所述电子装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的基于RNN的Webshell检测程序，所述处理器执行所述存储器中存储的基于RNN的Webshell检测程序时实现如下步骤：

通过预设方法对源文件进行预处理，获取关键词；具体包括以下步骤：首先通过预设切词对所述源文件进行切分处理，得到切词结果；然后采用词频-逆文档频率TF-IDF算法来对所述切词结果进行关键词提取，得到关键词。

采用预设法则构建门控循环单元GRU模型，并进行训练；具体包括以下步骤：首先获取所述门控循环单元GRU模型的重置门及更新门的计算方程；然后依据所述重置门及更新门的计算方程来获取所述门控循环单元GRU模型的输出计算方程；

通过所述门控循环单元GRU模型对所述源文件进行判别。具体包括以下步骤：首先向已训练的所述门控循环单元GRU模型中输入所述关键词；然后由所述门控循环单元GRU模型依据所述关键词来判别所述源文件是否为命令执行环境webshell。

综上所述，借助于本发明的上述技术方案，本发明从关键词集来近似样本的角度，通过提取关键词，使用样本对应的关键词集来近似表示样本，有效地排除了样本中的无用噪声，相比于传统常用的机器学习算法，本发明能够提取深层次的特征，从而不仅有效地提高了检测的准确率，而且还有效地降低了误报率和漏报率，进而使得本发明能够更加有效地检测出webshell。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。