CN111726351A

CN111726351A - 基于Bagging改进的GRU并行网络流量异常检测方法

Info

Publication number: CN111726351A
Application number: CN202010550593.4A
Authority: CN
Inventors: 陶晓玲; 彭洋; 王素芳; 刘梓毅
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-29
Anticipated expiration: 2040-06-16
Also published as: CN111726351B

Abstract

本发明公开了一种基于Bagging改进的GRU并行网络流量异常检测方法，首先利用Spark平台以分布式方式进行数据采集，并对采集的数据进行清洗、转换和标准化后，基于Spark大数据处理技术，以弹性分布式数据集形式对样本集进行有放回抽取采样，利用Bagging算法以并行方式对GRU模型进行训练，同时利用模型平均法，得到集成检测器，利用二分类损失函数对所述集成检测器进行评价，利用所述集成检测器对测试数据集进行检测，得到检测结果，提升检测精度和检测效率。

Description

基于Bagging改进的GRU并行网络流量异常检测方法

技术领域

本发明涉及网络流量异常检测技术领域，尤其涉及一种基于Bagging改进的GRU并行网络流量异常检测方法。

背景技术

在当前大规模复杂网络环境下，网络流量数据的体量越来越庞大，并且现代网络流量数据具备明显的时间依赖特性；传统的网络流量异常检测方法无法做到高精度和高效率的检测。近年来，深度学习作为机器学习领域中的一个新的研究方向，得到了迅速的发展和大量应用，使得人们更加靠近了人工智能的目标。其中，循环神经网络具有记忆性、参数共享并且图灵完备等优点，对非线性特征数据和时间序列数据的学习具有很大优势，可以很好的应用于网络流量异常检测任务，GRU是LSTM神经网络的变体，也是循环神经网络的一员，所以同样能够学习到数据之间的时间依赖关系，以解决普通RNN网络存在的长时期依赖问题。

然而，如果只是利用并行的GRU网络流量异常检测方法进行检测也存在两个问题：只是基于GRU的网络流量异常检测方法虽然能学习到网络流量数据之中的时间依赖特性，但是仅仅这样做的话，其检测率并不高，只有90％左右。并行GRU检测器的训练时相互独立的，因此生成的监检测模型之间存在个体差异性，因而会导致泛化误差，无法带来较大的检测性能提升。

发明内容

本发明的目的在于提供一种基于Bagging改进的GRU并行网络流量异常检测方法，提升检测精度和检测效率。

为实现上述目的，本发明提供了一种基于Bagging改进的GRU并行网络流量异常检测方法，包括：

基于分布式获取数据，并转换为统一数据格式；

基于Spark大数据处理技术，利用Bagging算法对GRU模型进行并行训练；

根据二分类损失函数对检测模型进行评价，并利用所述检测模型进行检测，得到检测结果。

其中，所述基于分布式获取数据，并转换为统一数据格式，包括：

利用Spark平台以分布式方式进行数据采集，并对采集的数据经过预处理后落地存储或者存储到云端服务器。

其中，所述基于分布式获取数据，并转换为统一数据格式，还包括：

读取存储的数据，并将错误、残缺和冗余数据进行清洗后，将所述数据中非数值型数据转换为数值型数据，同时按照数据规约技术，将转换后的数据进行标准化处理，转换为统一的数据格式。

其中，所述基于Spark大数据处理技术，利用Bagging算法对GRU模型进行并行训练，包括：

根据转换为统一数据格式后的数据初始化样本集，并设置基检测器数量，同时基于Spark大数据处理技术创建并执行任务，以弹性分布式数据集形式对样本集进行有放回抽取采样，得到训练数据集。

其中，所述基于Spark大数据处理技术，利用Bagging算法对GRU模型进行并行训练，还包括：

根据所述训练数据集，利用Bagging算法以并行方式对GRU模型进行训练，并对得到的基检测器进行整合，同时利用模型平均法，得到集成检测器。

其中，所述根据二分类损失函数对检测模型进行评价，并利用所述检测模型进行检测，得到检测结果还包括：

利用二分类损失函数对所述集成检测器进行评价，并将除所述训练数据集外的数据作为测试数据集输入所述集成检测器中，利用所述集成检测器对所述测试数据集进行检测，得到异常检测结果。

本发明的一种基于Bagging改进的GRU并行网络流量异常检测方法，首先利用Spark平台以分布式方式进行数据采集，并对采集的数据进行清洗、转换和标准化后，基于Spark大数据处理技术，以弹性分布式数据集形式对样本集进行有放回抽取采样，利用Bagging算法以并行方式对GRU模型进行训练，同时利用模型平均法，得到集成检测器，利用二分类损失函数对所述集成检测器进行评价，利用所述集成检测器对测试数据集进行检测，得到检测结果，提升检测精度和检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于Bagging改进的GRU并行网络流量异常检测方法的步骤示意图。

图2是本发明提供的异常检测流程图。

图3是本发明提供的不同数据集规模下Bagging+GRU方法的检测精度图。

图4是本发明提供的ROC曲线图。

图5是本发明提供的与RNN系列算法的实验对比图。

图6是本发明提供的不同方法性能对比图。

图7是本发明提供的不同数据集规模下运行时间对比图。

图8是本发明提供的不同节点数时加速比曲线图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供一种基于Bagging改进的GRU并行网络流量异常检测方法，包括：

S101、基于分布式获取数据，并转换为统一数据格式。

具体的，在当前网络环境下，网络规模日益巨大化和复杂化，以及“云计算”和“大数据”等范式的出现，使得网络流量数据愈加多源化和复杂化，该层则是为此任务而生。在大数据环境下，利用Spark平台以分布式方式进行数据采集，并对采集的数据经过预处理后落地存储或者存储带云端服务器，以方便后续的操作流程。将大数据平台引入到数据采集层可以大大提升数据采集和传输的效率，进而大大提升整个流程的效率。

在复杂的网络环境下，采集到的原始数据可能来自不同的网络，也可能是通过不同的工具采集得到的，因此在数据格式存在着巨大的差异，而且不安全的采集方式还可能产生大量噪声数据、无用数据，甚至是空缺数据等。因此，在进行异常检测前必须对数据进行清洗、转换和规约等操作来统一数据格式，提高异常检测的性能。

首先读取存储的数据，并将原始流量数据中的一些错误、残缺和冗余数据进行清洗后，将所述数据中非数值型数据转换为数值型数据，同时按照数据规约技术，将转换后的数据进行标准化处理没转换为统一的数据格式，其中，数据转换的主要操作有归纳、旋转、切换、投影及规范化。而数据规约主要是利用一些常用的规约技术，对清洗和转换后的数据进行标准化处理(主要分为规范化方法、正规化方法和归一化方法三大类)。使得数据在保证原始数据集完整性的基础上大大减少数据属性，从而提高数据处理和运算的效率。数据处理完成后可直接存放到HDFS(分布式文件系统)上面，后面进行异常检测时直接从HDFS读取数据，可以大大提升数据读取效率。

S102、基于Spark大数据处理技术，利用Bagging算法对GRU模型进行并行训练。

具体的，为了降低并行训练的GRU检测模型之间的差异性，获得更好更全面的集成分类模型，提升分类精度和效率，利用集成学习算法Bagging对GRU并行网络流量异常检测方法进行改进，如图2所提供的所示，根据转换为统一数据格式后的数据初始化样本集大小，并获取基检测器数量，同时基于Spark大数据处理技术创建并执行任务，以弹性分布式数据集(RDD)形式对样本集进行有放回抽取采样，得到训练数据集，其中，弹性分布式数据集的数量为多个，可以得到多个对应的训练数据集；然后根据所述训练数据集，利用Bagging算法以并行方式对GRU模型进行训练，并对得到的基检测器进行整合，同时利用模型平均法，得到集成检测器；最后将将除所述训练数据集外的数据作为测试数据集输入所述集成检测器中，利用所述集成检测器对所述测试数据集进行检测，得到异常检测结果。

利用GRU网络学习大规模网络流量数据的特征表示和时间依赖关系，挖掘深层次的异常流量模式；然后利用Bagging算法以并行方式对GRU模型进行训练，利用模型平均方法降低GRU训练模型之间的方差，改善泛化误差，提升集成GRU检测模型的检测精度。此外，利用Spark大数据处理技术，对模型的训练和异常检测过程进行并行化改进，提升整体检测效率。

S103、根据二分类损失函数对检测模型进行评价，并利用所述检测模型进行检测，得到检测结果。

具体的，利用二分类损失函数(二元交叉熵损失)对所述集成检测器进行分析，在在数学模型中，我们通常使用熵来表示无序或不确定性。对于具有概率分布P(x)的随机变量，熵S可以表示为：

概率分布的熵值越大，表明分布的不确定性越大。同样，一个较小的熵值可以代表一个更确定的分布。

交叉熵损失也被称为对数似然损失(Log-likelihood Loss)，用于评估分类器的概率输出。对数损失通过惩罚错误的分类，实现对分类器的准确度(Accuracy)的量化，最小化对数损失基本等价于最大化分类器的准确度。二分类情况下的对数损失函数的计算公式如下：

其中，Y为输出变量，X为输入变量，L为损失函数，N为输入样本量；y_i为输入实例x_i的真实类别，p_i为预测输入实例x_i属于类别1的概率。对所有样本的对数损失表示对每个样本的对数损失的平均值，对数损失值越低，代表分类器的性能越完美。

将除所述训练数据集外的数据作为测试数据集输入所述集成检测器中，利用所述集成检测器对所述测试数据集进行检测，得到异常检测结果，如表1所提供的异常检测方法(PB-GUR方法)的伪代码所示，

表1异常检测方法的伪代码

从算法1可知，S代表采样集大小，T代表测试数据集，M代表训练数据集，n代表初始化的基GRU检测器数目，C代表最终的集成GRU检测器。首先，伪代码第1行对S、T、M和n等参数进行初始化；然后，伪代码第2～6行则完成弱GRU检测模型的构建，并借助Bagging算法和Spark大数据技术对基GRU检测器进行强化和并行化改进。其中，伪代码第3行是进行有放回抽取采样，以获得大小为M的训练数据集。伪代码第4行利用采样集S_i对基GRU检测器进行训练和预测，得到基检测器GRU_i。伪代码第5行将得到的基检测器进行整合，得到一个基检测器集合。最后，伪代码第7行对集合中的所有模型利用模型平均法，得到最终的集成GRU检测器C。最后，利用集成检测器C对测试数据集进行检测，得到异常检测结果。

根据所述二分类损失函数对所述集成检测器的分析和得到的检测结果，可以为接下来的流量预测、网络安全和安全态势分析等任务提供指导。通过对异常流量检测结果进行分析和挖掘，可以发现许多有用的网络安全管理数据，帮助网管人员及时掌握网络异常的基本信息，比如产生的时间、地点和原因等。另外，还可以分析出目标网络的安全态势，以帮助网管人员进行及时的预警，并尽快制定抢救措施，争取将网络异常所造成的损失降到最低。

举例来说，设置试验所使用的主机及软件配置为：操作系统Centos7，Pycharm为PyCharm Community 2017.3，Python为Python 3.6；Spark为2.2.0；Java1.8，硬盘SSD 256G+HHD 1T/7200转；内存32g；CPUIntel I7-8700 4核8线程3.4GHz；节点数4(1master，3slaves)；

本发明所使用的数据集是目前学术界所采用的最新的网络入侵检测数据集——UNSW-NB15数据集。现有的基准数据集的正常流量往往不同于真实流量数据，并且现有基准测试数据集存在一些不属于训练集的攻击类型，使得数据分布存在差异性，致使检测器向某些观测值倾斜，从而容易导致高误识率。而UNSW-NB15数据集的出现就是为了解决以上问题。

UNSW-NB15数据集是由澳大利亚网络安全中心的网络安全实验室利用IXIAPerfectStorm工具创建，然后根据现实世界中的网络流量模式生成现代正常活动和综合的现代攻击行为。该数据集涵盖了9类现代攻击类型，每条记录由49个特征和1个标签组成，共分成了4个csv文件，共2540044条记录。其中，正常流量数据是随着时间的变化捕获的网络正常流量数据，异常流量数据总共有30万条。

表4.2UNSW-NB15数据集分布情况

如表2所示，该数据集包含了九种攻击类型，分别是：

(1)Analysis：一种通过端口(如端口扫描)，电子邮件(如垃圾邮件)和Web脚本(如HTML文件)等方式渗透到Web应用程序的入侵手段；

(2)Backdoors：一种绕过隐蔽的普通身份验证和对设备未经授权的远程访问保护，以及在纯文本难以继续被观察时定位其入口的技术；

(3)DoS：拒绝服务攻击，一种通过内存破坏计算机资源的入侵行为；

(4)Exploits：一种利用主机或网络上无意或不受怀疑的行为所引起的小故障、bug或漏洞进行攻击的一系列指令；

(5)Fuzzers：一种攻击者试图通过向程序、操作系统或网络输入大量随机数据，使其崩溃，从而发现其中安全漏洞的攻击类型；

(6)Generic：一种使用哈希函数对每个块密码进行冲突而不考虑块密码配置的技术；

(7)Reconnaissance：也可称为探头，一种收集计算机网络信息以逃避其安全控制的攻击类型；

(8)Shellcode：一种攻击者从一个shell开始穿透一小段代码来控制受攻击的主机的攻击类型；

(9)Worms：蠕虫攻击，一种攻击者通过复制自己以便在计算机上传播的攻击类型。

为了满足PB-GRU算法输入数据格式需求，将数据集中的所有非数值化数据转换为了数值数据。如果存在缺失值，则使用缺失值所在列特征值的平均值进行替代处理，处理之后的数据一共包含47个特征项，然后进行了归一化处理。最后，将所有异常数据标签进行了统一划分，正常流量数据用数字“0”代替，异常流量数据用数字“1”代替。

同样，为了进行算法效率的验证实验，将数据集换分为了不同规模的子数据集，各数据集规模如表3所示。另外，为了保证实验的可行性，将每个子数据集中异常流量比例设置为12％。

表3不同数据规模大小一览表

数据集名称	Data1	Data2	Data3	Data4	Data5
						数据集大小	50w	100w	150w	200w	250w

本发明中GRU神经网络基于Keras 2.2.4实现，由一层GRU层、一层Dropout层和一层Dense层组成，激活函数为sigmoid函数，优化函数为Adam函数，隐藏层节点数为64。

(1)有效性评价

本次实验以准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值和误识率(FAR)作为算法有效性的评价指标。

假设，模型的最终预测结果如表4所示。

表4模型最终预测结果

	Positive	Negative
			True	TP	FP
False	FN	TN

TP代表真阳性率，即正例被分类为正例的情况；

FP代表假阳性率，即反例被分类为正例的情况；

FN代表假阴性率，即正例被分类为反例的情况；

TN代表真阴性率，即反例被分类为反例的情况。

则有，

Precision就是模型所得分类结果中，真正的正例与分类所得正例的比值，也可叫作查准率；Recall就是模型所得分类结果中，真正的正例与数据中实际的正例的比值，也可叫做查全率。但是，如果仅仅精确率或者召回率作为指标去评价模型是的性能优劣是不合理的，为了使模型评价更加具有说服性，一般使用精确率和召回率的综合指标-F1值，作为模型实际评分的准则。

误识率指在标准数据集上测试分类任务时，被错误分类的用例数与测试用例数的壁纸，可以作为评价分类任务分类错误程度的指标。

其中，NFA代表错误接受的次数；NIRA代表类间测试总次数。

另外，由于Bagging算法的思想在于并行训练多个同质弱学习器，然后按照某种确定性的平均过程将它们组合起来，以生成一个更好的学习器。因此，PB-GRU的重点在于获得一个方差比任何基学习器都要好的集成学习器模型。为了分析PB-GRU的性能。在此引入均方误差指标作为模型的性能评判指标之一。

均方误差(Mean squared error，MSE)指参数估计值与参数真值之差平方的期望值；MSE的值与其对数据描述的精确度成反比，值越小，说明描述越精确。

其公式描述如下：

其中，Observed_t代表参数估计值，Predicted_t代表参数真实值

首先根据表3中的数据集划分方式进行实验，实验结果如图3所提供的不同数据集规模下Bagging+GRU方法的检测精度图所示。非并行状态下基于Bagging+GRU的网络流量异常检测方法的检测精度随数据集规模增大而同步增大，这也正好符合深度神经网络的训练特性。众所周知，深度神经网络在模型训练阶段需要大量的测试数据进行训练，以学习输入数据的特征模式，构建分类(检测)模型。使用越多的数据进行训练，则模型学习到的数据特征模式也就更趋向于真实的数据模式，因此分类(检测)精度也就越高。

实验的ROC曲线如图4所示。ROC曲线选取的是数据集规模为250w时的实验结果进行绘制。根据图4，该曲线描述了PB-GRU方法模型的敏感性与特异性之间的关系。首先，可以直观地看到，曲线下方面积，即AUC值为0.981，说明了该方法的检测准确率处于一个很高的水平。并且，该曲线距离纯机遇线(对角线)较远，说明该方法对于被试者(这里指网络流量数据)的辨别力也很强。从ROC曲线可以简单证明PB-GRU方法在当前网络环境下具有很高的检测率。

为了验证实验的有效性，决定采用RNN算法作为对比实验算法；为保证对比实验的可信度，现将所提方法与Apache Spark的方法进行对比实验。另外，所有对比实验都是基于UNSW-NB15数据集进行。对比实验结果如图5、6所示。

从图5可以看出，PB-GRU方法在各项指标上的表现都远远优于单独的RNN系列算法。并且，所提方法对于异常流量的检测率达到了99.6％，证明该方法达到了基本完美的检测精度。然后，实验的损失loss值仅仅为0.023，表明GRU检测器在Bagging算法的改进下确实改进了集成分类器的检测性能。实验结果证明，利用GRU深度神经网络成功学习了流量数据的时间依赖模式，并在Bagging算法的帮助下改进了基于GRU的网络流量异常检测方法，使得绝大部分的异常流量都被成功地检测了出来。

根据图6，其中LR代表逻辑回归算法，DT代表决策树算法，NB代表贝叶斯网络，EM代表最大期望算法，MVO-ANN(Multiverse Optimizer-ANN)为作者提出的新算法。实验结果表明，所提方法(PB-GRU)是其中检测精度最高的算法，FAR指标也达到了与MVO-ANN方法相当的水平，并且PB-GRU方法的检测性能远远优于普通深度学习算法和一般机器学习算法。其中，PB-GRU方法的检测精度达到了99.64％，而错误率仅为0.0036％。毫无疑问，PB-GRU方法表现出了非常好的检测性能。

同时，模型的均方误差值被降低到了0.0178，说明PB-GRU方法通过Bagging算法的并行拟合及模型平均法，极大地改善了GRU异常检测器的均方误差，减小了检测模型的泛化误差。实验结果证明Bagging算法能够强化普通的GRU检测器，并取得良好的检测性能，PB-GRU方法适合于当前复杂网络环境下的流量异常检测应用。

(2)效率评价

为了验证PB-GRU方法的运算性能，本发明在基于Spark大数据处理技术的数据集规模下分别将其与单机环境下基于Bagging+GRU的方法进行运行时间和加速比的对比实验。实验结果如图7、8所示。

如图7所提供的不同数据集规模下运行时间对比图所示，单机环境下的基于Bagging+GRU的网络流量异常检测方法的运行时间随数据量规模的增长而线性增长，而改进的PB-GRU方法则只是表现出了缓慢增长的趋势，并且增长趋势和幅度都远远小于单机环境下的检测方法。这是因为改进后的PB-GRU方法借助了Spark大数据平台基于内存运算方式，当执行迭代运算时，Spark是从内存而不是磁盘读取数据。因此，避免了从本地磁盘读取数据的I/O操作，提升了迭代效率，所以运算速度远远高于基于磁盘的计算方式。实验结果表明，PB-GRU方法适合于大规模网络流量的异常检测任务场景。

为了进一步衡量Spark改进后所带来的算法并行性化性能和效果的提升，将继续使用加速比作为效率评估指标。

加速比由如下公式定义：

其中：

p指计算机节点数量；

T₁指单机环境下算法的执行时间；

T_p指当有p个节点同时计算时算法的执行时间。

因此，将实验中单机和不同节点环境下各算法的执行时间代入以上公式可以得到本实验的加速比曲线图，结果如图8所示。

根据图8所提供的不同节点数时加速比曲线图所示，数据集规模一定时，加速比随着计算机节点数目的增加而不断增加；并且，节点数越大，加速比增大的趋势也更加明显。由于Spark大数据平台的并行优势，当计算节点数越多时，可以将任务分配给更多的工作节点同时执行，主节点只需要负责调度和监控任务的执行即可。当所有节点的任务执行结束之后，主节点再综合所有节点的输出结果即可。因此，Spark平台的并行节点数越多，所带来的运行效率提升也就越强。实验结果表明，Spark大数据处理技术可以帮助PB-GRU方法更高效地执行网络流量异常检测任务，并且为PB-GRU方法提供很强的可扩展性。

综合以上实验结果，Bagging算法能够成功对并行的GRU检测器进行拟合，降低集成检测模型的均方误差，并减少范化误差，使得PB-GRU方法具备较高的检测精度。同时，借助Spark技术使得PB-GRU方法极大地减少了异常检测的时间消耗，提升了检测系统的整体效率，并且具备良好的可扩展性。本发明利用GRU深度网络对大规模的网络流量数据进行分层表征学习，并学习网络流量数据之间的时间依赖关系，以提升异常检测的精度；此外，本发明还与集成学习的Bagging算法进行结合，以降低并行检测模型之间的个体差异性，减少集成计策器的泛化误差，增强异常检测器的检测性能，提升检测精度，降低误识率。为了验证本发明的有效性，与相同数据集下的RNN系列算法(普通RNN、LSTM和GRU)进行了对比实验。实验结果表明，PB-GRU方法无论是在精度、召回率、F1值、误识率或是执行效率等指标上的表现都远远优于普通RNN系列算法和常用的异常检测算法。最后，使用加速比实验再次对算法效率和可扩展性进行验证，展示了PB-GRU方法的检测性能。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于Bagging改进的GRU并行网络流量异常检测方法，其特征在于，包括：

基于分布式获取数据，并转换为统一数据格式；

2.如权利要求1所述的基于Bagging改进的GRU并行网络流量异常检测方法，其特征在于，所述基于分布式获取数据，并转换为统一数据格式，包括：

3.如权利要求1所述的基于Bagging改进的GRU并行网络流量异常检测方法，其特征在于，所述基于分布式获取数据，并转换为统一数据格式，还包括：

4.如权利要求3所述的基于Bagging改进的GRU并行网络流量异常检测方法，其特征在于，所述基于Spark大数据处理技术，利用Bagging算法对GRU模型进行并行训练，包括：

5.如权利要求4所述的基于Bagging改进的GRU并行网络流量异常检测方法，其特征在于，所述基于Spark大数据处理技术，利用Bagging算法对GRU模型进行并行训练，还包括：

6.如权利要求5所述的基于Bagging改进的GRU并行网络流量异常检测方法，其特征在于，所述根据二分类损失函数对检测模型进行评价，并利用所述检测模型进行检测，得到检测结果，包括：