CN110971603A

CN110971603A - 一种基于深度学习的异常流量检测方法及系统

Info

Publication number: CN110971603A
Application number: CN201911228292.3A
Authority: CN
Inventors: 徐小雄; 彭凝多; 唐博; 魏华强
Original assignee: Sichuan Hongwei Technology Co Ltd
Current assignee: Sichuan Hongwei Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-07
Anticipated expiration: 2039-12-04
Also published as: CN110971603B

Abstract

本发明公开了一种基于深度学习的异常流量检测方法，包括：设备源向目标服务器发起HTTP请求；Web应用防护系统通过执行针对HTTP/HTTPS的安全活动规则对HTTP的请求进行异常检测，拒绝不符合安全活动规则的请求并发送至安全团队；将符合安全活动规则的请求向下一级转发；AI WAF对通过WEB应用防护系统检测的请求再次检测，对其中的异常请求进行检测、标记并可视化传送至安全团队。还公开了一种系统，包括：设备源、Web应用防护系统、AI WAF、目标服务器和安全团队。采用AI WAF辅助传统WAF工作，解决传统WAF的准确率不高，效率低下的问题；提高了安全专家的观察和分析恶意流量效率。

Description

一种基于深度学习的异常流量检测方法及系统

技术领域

本发明涉及网络信息安全技术领域，具体的说，是一种基于深度学习的异常流量检测方法及系统。

背景技术

随着智能设备的广泛应用，以及物联网的普及，只要攻克物联网中的一台设备，其他设备就可能瞬间被瓦解。随着互联网的不断发展，内网和外网的分界线逐渐模糊。Web应用防护系统(WAF)是信息安全的第一道防线。其中一个重要的特点通过执行针对HTTP/HTTPS的安全活动规则对HTTP的请求进行异常检测，拒绝不符合活动规则的请求。它可以增大攻击者的攻击难度和攻击成本。但是WAF不是万能的，一方面，硬规则在灵活的黑客面前，很容易通过SQL注入等手段被绕过，并且基于以往知识的规则集难以应对0day攻击(还没有补丁的漏洞)。另一方面，面对黑客试水新技术的工具，单靠安全团队要学习并检测出所有的威胁几乎不可能。这种情况下，防守方规则的构造和维护门开高成本大。

发明内容

本发明的目的在于提供一种基于深度学习的异常流量检测方法及系统，用于解决现有技术中传统WAF的安全活动规则存在异常流量漏检的问题。

本发明通过下述技术方案解决上述问题：

一种基于深度学习的异常流量检测方法，包括：

步骤S100：设备源向目标服务器发起HTTP请求；

步骤S200：Web应用防护系统通过执行针对HTTP/HTTPS的安全活动规则对HTTP的请求进行异常检测，拒绝不符合安全活动规则的请求并发送至安全团队；将符合安全活动规则的请求向下一级转发；

步骤S300：AI WAF对通过WEB应用防护系统检测的请求再次检测，对其中的异常请求进行检测、标记并可视化传送至安全团队；

所述步骤S300具体包括：

步骤S310：对每条请求数据进行数据清洗、去重；

步骤S320：用所有请求数据构建特征矩阵；

步骤S330：将特征矩阵输入恶意流量检测模型，输出得到预测每条请求数据正常的概率、每条请求数据异常的概率以及词向量中每个元素异常的概率：

如果预测一条请求数据是正常的概率比是异常的概率高，则判断为是正常请求数据，直接通过；

如果预测一条请求数据是异常的概率比是正常的概率的高，则判断为是异常请求数据并拦截该条请求数据；

根据词向量中每个元素异常的概率进行异常等级划分，用不同颜色对词汇进行标记并输出至安全团队。

进一步地，所述恶意流量检测模型的训练方法为：

步骤A：通过流量镜像获取通过Web应用防护系统的真实数据，由WAF强规则进行流量标记；

步骤B：对标记的数据进行数据清洗、去重；

步骤C：选取一部分数据作为训练数据集构建特征矩阵，其余数据作为测试数据集，用于检测和评价恶意流量检测模型；

步骤D：利用特征矩阵训练深度网络模型，训练得到恶意流量检测模型；

将提取数据中的其余数据作为测试数据集输入恶意流量检测模型，数据输入模型后都会输出得到该条数据是正常请求数据的概率和该数据是异常请求数据的概率(两个值)、词向量中每个元素异常的概率。

比较是正常的概率和是异常的概率的数值，选择更高的作为模型预测的最终结果：如果预测该条请求数据是异常的概率比是正常的概率的高，则判断为是异常请求数据并预测为‘+1’；如果预测该条请求数据是正常的概率比是异常的概率高，则判断为是正常请求数据并预测为‘-1’。将预测结果与真实标签进行对比，记录标签和预测结果不同的数据个数和相同的个数，用这些数据来计算出准确率(Accuracy)、假阳性率(FPR,又称FalsePositive Rate)、真阳性率(TPF,又称True Positive Rate)、和AUC(Area Under Curve)作为模型的评价标准。

进一步地，步骤S320和步骤C中构建特征矩阵的方法相同，区别在于采用的输入数据不同。构建特征矩阵的方法包括构建字符级HTTP请求矩阵和单词级HTTP请求矩阵；所述构建字符级HTTP请求矩阵的方法为：将数据按字符分词得到字符ID序列，将字符ID序列输入到嵌入层得到字符级HTTP请求矩阵；

所述构建单词级HTTP请求矩阵的方法为：

按单词分词，分别得到单词ID序列和以字符ID形式的单词序列，所述单词ID序列输入嵌入层得到第一单词级HTTP请求矩阵；以字符ID形式的单词序列依次输入嵌入层和求和池化层，得到第二单词级HTTP请求矩阵，将第一单词级HTTP请求矩阵和第二单词级HTTP请求矩阵通过元素加法的方法合成单词级HTTP请求矩阵。

一种基于深度学习的异常流量检测系统，包括：

设备源，用于向目标服务器发起HTTP请求；

Web应用防护系统，用于对HTTP请求执行安全活动规则的检测，拒绝不符合安全活动规则的HTTP请求，并发送检测结果至安全团队，将通过检测的HTTP请求向后一级传送；

AI WAF，用于检测Web应用防护系统遗漏的异常攻击，并输出至安全团队，并将通过检测的HTTP请求传送至目标服务器；

目标服务器，用于执行设备源的HTTP请求。

进一步地，所述AI WAF具体包括：

数据收集标记模块，将WAF规则限制调至最高，在网络的核心层或汇聚层交换机上设置端口，用网络流量镜像收集通过Web应用防护系统后的真实数据；

预处理模块，进行数据清洗和去重；

特征提取模块，进行数据分词和提取词汇特征，构建特征矩阵；

深度神经网络模块，由训练数据集提取的特征矩阵中的数据训练和优化预设的深度网络模型得到，用于检测恶意流量；

输出模型，输出正常域异常的概率以及词向量中每个元素的异常概率，并对异常程度进行分级，用不同颜色对词汇进行标出。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明提出一种深度神经网络模型用于HTTP请求流量的异常检测方法辅助传统WAF(Web应用防护系统)进行工作，在能保证WAF的功能的同时能够快速、准确的识别流量行为、并能够识别全新的恶意流量，解决传统WAF的准确率不高，效率低下的问题；提高了安全专家的观察和分析恶意流量效率。

(2)本发明提出一种异常HTTP请求流量的异常部分定位并可视化功能，能够为安全团队快速定位，提高WAF更新效率。

(3)本发明降低了深度学习模型在数据不平衡性状态下学习过程不稳定的问题；自学习模式极大减少了安全专家的人工干预过程以及降低了系统维护所需时间，节约了大量的时间成本。

附图说明

图1为本发明的应用场景示意图；

图2为AI WAF的结构框图；

图3为数据处理中的分词示意图；

图4为特征矩阵构建示意图；

图5为深度神经网络模型。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，一种基于深度学习的异常流量检测方法，包括：

步骤S100：设备源向目标服务器发起HTTP请求；

所述步骤S300具体包括：

步骤S310：对每条请求数据进行数据清洗、去重；

步骤S320：用所有请求数据构建特征矩阵；

进一步地，所述恶意流量检测模型的训练方法为：

步骤B：对标记的数据进行数据清洗、去重；

所述构建单词级HTTP请求矩阵的方法为：

实施例2：

一种基于深度学习的异常流量检测系统，包括：

设备源，用于向目标服务器发起HTTP请求；设备源可以是笔记本电脑、手机或者电视机；

Web应用防护系统，用于对HTTP请求执行安全活动规则的检测，拒绝不符合安全活动规则的HTTP请求，并发送检测结果至安全团队(安全专家)，将通过检测的HTTP请求向后一级传送；

AI WAF，辅助Web应用防护系统的另一种人工智能WAF，通过深度神经网络模型快速、精准的检测出传统WAF所遗漏的异常攻击，并将其中的恶意代码部分标记、可视化传送至相关安全团队进行审核；并将通过检测的HTTP请求传送至目标服务器；

目标服务器，用于执行设备源的HTTP请求。

结合附图2所示，所述AI WAF具体包括：

数据收集标记模块，将WAF规则限制调至最高，在网络的核心层或汇聚层交换机上设置端口，用网络流量镜像收集通过Web应用防护系统后的真实数据，由WAF强规则进行流量标记，并配合人工对标记为正常的数据进行检查、标记漏报的数据；

预处理模块，进行数据清洗和去重；

实施例3：

在实施例1或2的基础上，进一步地，数据清洗包括：

删除无用的符号、删除重复出现的数据、并将数据按照时间顺序进行排列。清洗后的每条HTTP请求的数据结构如表1所示，

表1 HTTP请求格式

HTTP请求格式主要有四部分组成，分别是请求行、请求头、空行、消息体，每部分内容占一行。其中，请求行由请求方法(GET/POST/DELETE/PUT/HEAD)、请求资源的URL路径、HTTP的版本号；请求头中的信息有和缓存相关的头(Cache-Control等)、客户端身份信息(User-Agent等)等；消息体是客户端发给客户端的请求数据。

数据清洗完成后，提取每条HTTP请求数据中是否是攻击的标签，在每条正常请求流量后面标记成“-1”，异常请求流量后标记成“+1”。将标记成正样本的数据再次进行人工验证标记，发现检测到的异常的请求流量标记改成“+1”。完成后将请求数据中的标记是否是攻击的标签数据清除。

将处理后的数据按随机采样按比例分割成训练数据集和测试数据集，其中，训练数据集将用来训练深度神经网络模型，测试数据集将用来测评训练完成的模型。

进一步，特征提取的具体步骤为：

训练数据为T，{(u₁，y₁)，...，(u_T，y_T)}，其中u_t代表数据中的一条请求流量数据，其中t＝1，...，T，而y_t∈{-1，+1}表示的是请求流量的标签。需要将数据转化成两种特征表达式，分别是字符级HTTP请求矩阵和单词级HTTP请求矩阵：

(1)字符级HTTP请求的特征矩阵获取方法：如图3中最上一行所示，一条数据为单独一行。首先将数据分成单个字母(包括“-”和“_”)、特殊符号(“/”，“.”等)以及集中唯一的字母，因此每一条数据的每一个字母或特殊符号为单独一列；为这些字母赋予索引编号，同样也给‘<PAD>’和‘<UNK>’加上索引编号，这样我们就得到字符数量为M的词袋；接着，我们将在整个数据中出现频率低于100次的字符用‘<UNK>’为分词来代替；将每条序列长度设置成L₁＝256，超过256长度的数据，只截取到第256个字符，未超过256的数据将在其结尾用‘<PAD>’为分词表达符号填充至256；接着，用词袋将字母和特殊符号转化成相应的索引，我们就获得了字符ID序列。

使用嵌入式的方法将字符ID序列转至向量。嵌入层可以将输入映射到高维或低维度空间并固定向量的长度。我们随机初始化一个k＝32维度的嵌入层的权重，将处理的数据输入到这个的嵌入层。最后输出一个L₁×k(200×32)维度的矩阵，这就是我们的字符级HTTP请求矩阵。

(2)单词级HTTP请求的特征矩阵获取方法：如图3所示，根据特殊符号将数据进行分词并将特殊符号当成单词，让每条数据中的每一个单词作为一列，接下来分别用两种方法构建索引矩阵：第一种如图3的中间一行所示，这个方法的步骤跟字符级HTTP请求的特征矩阵获取方法一样：构建词袋、将单词序列转换成数字索引编号、随机初始化嵌入层并将数据嵌入其中。其中嵌入层的维度k＝32和嵌入层的输出矩阵维度为L₂×k(200×32)；第二种方法是图3中的最底下一行，我们把每一行的单词拆分成字母或符号并用字符级HTTP请求的词袋进行索引，这样每一个单词将被分成长度为20的字母序列。我们将数据同样放输入至嵌入层得到L₂×L₃×k(200×20×32)的矩阵，紧接着我们用求和池化层将维度降到L₂×k(200×32)。池化层可以降低特征的维度，提取出原数据矩阵中重要的特征数据。我们选用求和池化层是为了将每个字符的特征信息集合成一个单词的特征信息。

分别用两种方法得到两个，我们将两组单词级HTTP请求矩阵通过元素加法的方法合成为一组L₂×k(200×32)的矩阵。最终所有数据转制的流程如图4所示。

实施例4：

在实施例3的基础上，进一步地，深度神经网络模型构造的方法为：

利用得到的两组数据训练预设的深度学习模型。使用的预设模型是卷积神经元网络CNN，如图5所示每卷机神经网络CNN包含以下结构：

卷积层：每个卷积单元都是随机初始化的，目的是提取不同的特征，层数越深能够提取到越高维度的特征。图中上下两个CNN配置是一样的，每层的滤波器(“卷积核”或者“特征探测器”)的个数分别设定为256个长度为3，4，5，6的滤波器矩阵大小。

非线性层：我们使用的是ReLU(Rectified Linear Unit)，又叫做纠正线性单元，目的是将所有负值的特征替换成0。在这里每一层卷积层后面紧接着的就是ReLU单元。

池化层：这里我们用的是最大池化(Max Pooling)，用2×2的窗口从数据层中提取出最大的元素。一共四层最大池化层，每层都紧跟在CNN+ReLU之后。

截止目前，图5中上下两部分分别有四组CNN+ReLU+最大池化层的组合。接下来：

全连接层：将前面从四层最大池化层中得到的数据串联起来并输入全连接层。全连接意思是上一层中的每一个神经元都和下一层的每个神经元连接。全连接的神经元个数为512个(一个神经元代表一个维度)。同时，我们使用了ReLU激励函数将负值特征转换成0。

串联层：将上下两部分的全连接层的出来的字母和单词特征向量数据串联成一个，得到维度为1024。

我们用串联层先后通过512个和256个神经元的两个全连接+ReLU激励函数的层数，在使用Softmax函数计算长度256维的向量每一个元素的值收束到0和1之间。这里每一个元素代表的是序列长度256的对应的位置，而概率则是异常部分的可能性。最后，我们使用PCA(Principal Component Analysis)对向量进行降维到2。这样两个元素非别代表的正常和异常的概率，我们选择最高的概率的向量元素作为我们最终的预测标签。

模型优化：通过设定次数的迭代训练不断计算预测标签和真实标签，利用反向传播算法根据误差计算所有权重的梯度，并用梯度下降方法更新所有网络层的权重和参数值，让输出误差值最小化。训练结束后将性能最好的模型保存下来，用于线上使用。

进一步地，在被判断为异常流量时会启动可视化工具结构，利用倒数第二层(softmax层)的出来的256个维度的概率为依据对序列数据进行颜色修改。输入数据被分为单词级时，每一个单词位置对应256维度相应的位置，根据其概率进行修改：例如，概率为0～0.3的颜色更改为绿色，表示正常；0.4～0.6修改为黄色，表示不确定性；0.7～1.0修改为红色，表示异常。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于深度学习的异常流量检测方法，其特征在于，包括：

步骤S100：设备源向目标服务器发起HTTP请求；

所述步骤S300具体包括：

步骤S310：对每条请求数据进行数据清洗、去重；

步骤S320：用所有请求数据构建特征矩阵；

2.根据权利要求1所述的一种基于深度学习的异常流量检测方法，其特征在于，所述恶意流量检测模型的训练方法为：

步骤B：对标记的数据进行数据清洗、去重；

步骤D：利用特征矩阵训练深度网络模型，训练得到恶意流量检测模型。

3.根据权利要求1或2所述的一种基于深度学习的异常流量检测方法，其特征在于，所述构建特征矩阵的方法包括构建字符级HTTP请求矩阵和单词级HTTP请求矩阵；所述构建字符级HTTP请求矩阵的方法为：将数据按字符分词得到字符ID序列，将字符ID序列输入到嵌入层得到字符级HTTP请求矩阵；

所述构建单词级HTTP请求矩阵的方法为：

4.一种基于深度学习的异常流量检测系统，其特征在于，包括：

设备源，用于向目标服务器发起HTTP请求；

目标服务器，用于执行设备源的HTTP请求。

5.根据权利要求4所述的一种基于深度学习的异常流量检测系统，其特征在于，所述AIWAF具体包括：

预处理模块，进行数据清洗和去重；