CN112651025A

CN112651025A - 一种基于字符级嵌入编码的webshell检测方法

Info

Publication number: CN112651025A
Application number: CN202110077575.3A
Authority: CN
Inventors: 柳毅; 张凯洪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-04-13

Abstract

本发明涉及一种基于字符级嵌入编码的webshell检测方法，包括以下步骤：先对webshell文件中的字符进行去除首尾字符、空格和换行操作，再将webshell文件中的字符token化形成唯一的ID标识。将webshell文件中的字符进行索引映射，再对内容进行填充或者切割，接着对数据进行嵌入向量化，最后将数据带入设计的神经网络模型中进行训练得出分类结果。与传统方案相比，本发明具有更高的检测准确率、不需要手动设置过多的特征等优点，同时本发明对困难、难分的样本准确率也有一定的提高。

Description

一种基于字符级嵌入编码的webshell检测方法

技术领域

本发明涉及webshell检测方法领域，更具体地，涉及一种基于字符级嵌入编码的webshell检测方法。

背景技术

近年来，一系列的网络安全事件被广泛关注，其中大多数与网站的安全性密切相关。根据国家计算机网络应急技术小组/协调中心(CNCERT/CC)发布的年度安全报告，与网站有关的入侵行为每年都在急剧增加。在各种安全威胁中，网站的后门极为严重。网站的后门程序也称为Webshell，这是基于Web服务的后门程序。网站管理员可以使用该网页通过浏览器上传文件，查看数据库并执行OS命令。同时，恶意用户还可以通过Web Chopper工具(例如China Chopper)发起攻击。在当今社会，Web应用程序系统在不同的日常交易中(例如购物，社交，银行等)扮演着越来越重要的角色。但是Web攻击会以各种方式严重影响Web安全。Webshell作为一种常见的Web后门，对每个Internet用户都构成严重威胁，因为Webshell可以为黑客提供对Web服务器的访问权限，从而达到窃取或篡改数据库中存储的信息，监视Web的目的。用户行为，将恶意文件植入服务器，传播Internet蠕虫，利用Web漏洞等。

目前在webshell检测领域，有许多机器学习的检测方法。FRF-WD(FastText和Random Forest算法结合)方法首先使用操作码的序列特征将单词表示平均为文本表示。然后将文本表示提供给线性分类器，以训练FastText模型。最后，根据操作码的序列特征，通过使用FastText模型的预分类结果和FastText模型的静态特征(最长字符串，信息熵，重合索引，签名，黑名单关键字)训练随机森林模型对Webshell进行分类。矩阵分解方法提取文本特征(单词数，不同单词数，最大词长，文本总长，注释数，特殊字符数)和其他特征(字符操作函数调用，键函数调用)，加密和解密函数调用，系统函数调用，文件调用，ActiveX控件调用，数据库调用，脚本数量)，然后将所有功能归为一组并组合在一起，最后使用矩阵分解模型进行训练和预测。尽管这些算法可以检测所有类型的Webshell，但是其准确性并不高，分类性能不够理想。同时机器学习检测方法存在特征选择的局限性、手动参数设置过多等的问题。

发明内容

本发明的目的在于提供一种基于字符级嵌入编码的webshell检测方法，以克服现有的机器学习检测方法存在手动参数设置过多和准确率不够高的问题。

所述方法包括以下步骤：

步骤1：将Webshell文件压缩去除首尾字符；

步骤2：Token化：将webshell文件进行中每一个字符作为独立的token；

步骤3：字符到索引的映射：将webshell文件中的字符进行字符到索引的映射；

步骤4：webshell文件内容填充或切割；

步骤5：嵌入向量化：使用embedding嵌入处理填充或切割后的数据；

步骤6：构建BIGRU-CNN-FOCAL模型，将webshell数据分为测试集和训练集，并将训练集代入BIGRU-CNN-FOCAL模型中进行训练；

步骤7：将webshell数据中的测试集输入训练好的模型，得出分类结果。

优选地，步骤4中webshell文件内容填充采用循环填充。

优选地，步骤4中当webshell文件内容字符长度超过300时按照前300位进行切割。

优选地，步骤5中使用字符嵌入表示填充或切割后的数据。

优选地，步骤5中embedding嵌入的嵌入层采用256维度来对填充或者切割后的数据进行降维操作。

优选地，步骤6中将webshell数据中的70％划分为训练集，30％划分为测试集。

优选地，构建BIGRU-CNN-FOCAL模型包括以下步骤：

步骤6.1：使用BIGRU双向门控循环单位接embedding预处理后的文本数据；

步骤6.2：对数据进行批规范化处理；

步骤6.3：使用ReLU激活函数增加模型的非线性分割能力；

步骤6.4：在卷积层中使用64个3x3大小的滤波器接收归一化处理后的数据，接着对数据进行一次最大池化操作；

步骤6.5：使用dropout对神经网络进行剪枝操作；

步骤6.6：使用一层全连接层对结果进行训练；

步骤6.7：根据多分类的预测结果代入softmax层中；

步骤6.8：使用Focal Loss损失函数代替传统的交叉熵损失函数；

步骤6.9：用Adam优化器对随机目标函数执行一阶梯度优化。

所述BIGRU-CNN-FOCAL模型构建后第一层为BIGRU层(双向门控循环单位层)，第二层为BN层(batch normalization批规范化层)，第三层为ReLU激活层，第四层为卷积层，第五层为最大池化层，第六层为Dropout正则化层，第七层为全连接层，第八层为softmax分类层。

优选地，步骤6.4中最大池化操作的池化步长为2。

优选地，步骤6.6中全连接层的神经元个数为64个。

优选地，其中多分类的预测结果包括：1、php.ini隐藏后门类别，2、图片木马类别，3、正常文件类别。

本发明先对webshell文件中的字符进行去除首尾字符<？php？>、空格和换行操作，再将webshell文件中的字符token化形成唯一的ID标识。将webshell文件中的字符进行索引映射，再对内容进行填充或者切割，接着对数据进行嵌入向量化，最后将数据带入设计的神经网络模型中进行训练得出分类结果。

与现有技术相比，本发明技术方案的有益效果是：本发明所述方法不需要手动设置机器学习模型的参数。通过对webshell文件内容填充或切割、嵌入向量化，以提高机器学习检测方法的准确率。

附图说明

图1为实施例1所述一种基于字符级嵌入编码的webshell检测方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于字符级嵌入编码的webshell检测方法，如图1所示，所述方法包括以下步骤：

步骤1：将Webshell文件压缩去除首尾字符；即将webshell文件中的内容去除空格换行形成一段连续的字符串同时去除首尾的<？php？>字符。

步骤2：Token化：将webshell文件进行中每一个字符作为独立的token；存入到字典中。这是将文本序列切成称为标记(单词，标点，数字，特殊符号等)的较小语言单元的过程。在本实施例中，webshell文件中的每个单个字符(字母，特殊符号，数字等)都被视为标记。

步骤3：字符到索引的映射：将webshell文件中的字符进行字符到索引的映射。

步骤2中生成的标记只是字母，数字和特殊字符。但是，机器学习的模型仅理解数字值，因此token需要转换。本实施例为词汇表中的每个字符分配了一个唯一的整数id，并且在此预处理步骤中，每个token列表都映射到其相应的id列表。

步骤4：webshell文件内容填充或切割；设置webshell文件中的字符最大长度为300，长度不够300的webshell文件对内容进行循环填充，超过300的按前300个字符进行切割。

本实施例在数据预处理webshell文件填充与切割中，使用循环填充的方式代替传统的补零填充。循环填充的方式能够更准确的还原原有webshell文件的特征。

步骤5：嵌入向量化：使用embedding嵌入处理填充或切割后的数据。

经过步骤1至步骤4四个步骤的处理，获得了一个整数列表，该整数列表对应于数据集中的每个webshell文件内容，其中每个整数代表词汇表中的唯一标记。通常使用的是one-hot编码格式，其中每个整数表示为长度与词汇表大小相同的数组，将“1”表示矢量索引等于整数，将“0”放在其余位置。但是这些编码有几个局限性：首先，每种编码的大小可能取决于词汇量，因此可能会很大，从而导致矩阵非常大且稀疏，从而使训练过程效率低下。假设有20000个词，则需要20000x20000的矩阵来表示每个词汇。第二个是这些表示没有考虑标记之间的关系，即，当在向量空间中绘制两个相似的标记时，它们彼此相距很远。因此，使用embedding稠密矩阵嵌入对webshell文件内容数据进行降维。与one-hot编码不同的是，在通常情况下会根据文本词典的大小使用不同维度的向量来表示，例如100,256,300。其中向量中的每一个值是一个随机生成参数，在后续的训练过程中更新修改向量参数中的值。例如上文中我们使用256维度的向量来表示20000个词，则只需要20000x256来表示字符。大大缩小了存储所需的容量，在后续模型训练上也会减少一定的时间。

本实施例使用字符嵌入表示代替传统的one-hot编码表示数据，缩小存储的容量和后续的训练时间。同时embedding嵌入层我们使用256维度来对填充或者切割后的数据进行降维操作。

本实施例中将webshell数据中的70％划分为训练集，30％划分为测试集。经过训练集训练的模型后，用测试集来检测分类效果。将测试集带入到模型中，模型会根据数据之间的相似性来对测试数据进行对应的分类。

其中，BIGRU-CNN-FOCAL模型具体设计如下：

步骤6.1：使用BIGRU双向门控循环单位接embedding预处理后的文本数据

步骤6.2：使用批规范化对数据进行归一化处理。

批规范化针对的是网络中数据分布会随着不同数据集改变这个现象，主要解决的是反向传播的过程中出现的梯度消失或者梯度爆炸的问题。对深度神经网络而言，由于每一层的参数是逐层学习和传递，第一层参数发生变化时，传递给第二层的输入分布也会发生改变，这在无形中就发生了covariate shift(协变量移位)。正是covariate shift导致神经网络训练时间增加，因此批规范化的核心思想也是为了减少covariate shift。在模型训练每个batch过程中，对参数进行归一化处理，从而达到加快模型训练速度的效果。

步骤6.3：使用ReLU激活函数增加模型的非线性分割能力。

步骤6.4：在卷积层中使用64个3x3大小的滤波器接收上述处理后的数据，接着对数据进行一次最大池化操作，其中最大池化层的步长为2。

步骤6.5：使用dropout对神经网络进行剪枝操作。

步骤6.6：使用一层全连接层对结果进行训练，其中全连接层的神经元个数为64个。

步骤6.7：根据多分类的预测结果带入softmax层中。其中分类的结果为1、php.ini隐藏后门类别，2、图片木马类别，3、正常文件类别。

步骤6.8：使用Focal Loss损失函数代替传统的交叉熵损失函数。

Focal Loss的核心思想就是为了解决分类问题中类别不平衡的问题。与交叉熵损失(公式3)不同的是，Focal Loss(公式4)加上了一个调节因子weight(公式2)。γ称作focusing parameter(聚焦参数)，γ取值大于等于0。为了方便公式表达，我们先定义了一个变量Pt，其中p代表y＝1的概率。Pt表征了分类器产生的预测值与样本真实值的匹配程度，如公式(公式1)显示。我们不难发现，当Pt越大时，预测值和真实值的匹配程度就更高，weight调节因子就越小，这样的性质使得大量简单样本的影响在整个训练过程中变小，使得更多的关注困难、难分的样本。

weight＝(1-p_t)^γ (2)

CE(p_t)＝-α_t log(p_t) (3)

FL(p_t)＝-α_t(1-p_t)^γ log(p_t) (4)

步骤6.9：使用Adam优化器对随机目标函数执行一阶梯度优化。

本实施例在数据预处理webshell文件填充与切割中，我们使用循环填充的方式代替传统的补零填充。循环填充的方式能够更准确的还原原有webshell文件的特征。

本实施例使用字符embedding嵌入表示代替传统的one-hot编码表示数据，缩小存储的容量和后续的训练时间。

本实施例使用Focal Loss损失函数代替传统的交叉熵损失函数。Focal Loss的核心思想就是为了解决分类问题中类别不平衡的问题，使得更多的关注困难、难分的样本。

本实施例使用批规范化对数据进行归一化处理。减少神经网络训练过程中的covariate shift(协变量移位)。从而达到加快模型训练速度的效果。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于字符级嵌入编码的webshell检测方法，其特征在于，所述方法包括以下步骤：

步骤1：将Webshell文件压缩去除首尾字符；

步骤4：webshell文件内容填充或切割；

2.根据权利要求1所述一种基于字符级嵌入编码的webshell检测方法，其特征在于，步骤4中webshell文件内容填充采用循环填充。

3.根据权利要求2所述一种基于字符级嵌入编码的webshell检测方法，其特征在于，步骤4中当webshell文件内容字符长度超过300时按照前300位进行切割。

4.根据权利要求3所述一种基于字符级嵌入编码的webshell检测方法，其特征在于，步骤5中使用字符嵌入表示填充或切割后的数据。

5.根据权利要求4所述一种基于字符级嵌入编码的webshell检测方法，其特征在于，步骤5中embedding嵌入的嵌入层采用256维度来对填充或者切割后的数据进行降维操作。

6.根据权利要求1-5任一项所述一种基于字符级嵌入编码的webshell检测方法，其特征在于，步骤6中将webshell数据中的70％划分为训练集，30％划分为测试集。

7.根据权利要求6所述一种基于字符级嵌入编码的webshell检测方法，其特征在于，构建BIGRU-CNN-FOCAL模型包括以下步骤：