CN116248392A

CN116248392A - 一种基于多头注意力机制的网络恶意流量检测系统及方法

Info

Publication number: CN116248392A
Application number: CN202310213641.4A
Authority: CN
Inventors: 葛丽娜; 樊景威; 周卫; 王哲; 姚星吉
Original assignee: Guangxi University for Nationalities
Current assignee: Guangxi University for Nationalities
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-09

Abstract

本发明属于网络安全技术领域。一种基于多头注意力机制的网络恶意流量检测系统，包括获取模块、数据预处理模块、模型构建模块、模型优化训练模块和测试模块，获取模块用于获取待检测网络流量的样本数据集；数据预处理模块对样本数据集中的数据进行预处理并划分为训练集和测试集；模型构建模块用于构建基于WaveNet的卷积神经网络，并且融合预设深度学习网络的双向门控循环单元和多头注意力构建网络恶意流量检测模型；模型优化训练模块用于对网络恶意流量检测模型进行优化训练，得到最终的网络恶意流量检测模型；测试模块将待检测的网络流量输入最终的网络恶意流量检测模型进行检测，得到预测结果。本发明能够提高网络恶意流量检测的准确率。

Description

一种基于多头注意力机制的网络恶意流量检测系统及方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于多头注意力机制的网络恶意流量检测系统及方法。

背景技术

研究人员提出了许多基于机器学习的流量检测方法，这些方法大部分是基于传统机器学习的浅层方法，浅层机器学习方法不能有效发掘数据特征，在检测中存在一定的局限性，深度学习技术在降维和分类任务方面显示出了其有效性，深度网络可以自动降低网络流量复杂度，无需人工干预就能发现数据之间的相关性。

多头注意力机制能够做到捕获序列内各种范围内的依赖关系，例如短距离依赖和长距离依赖，因此允许注意力机制组合使用查询、键和值的不同的子空间表示后，将组合得结果输出拼接在一起，能够大大提高深度模型的特征提取能力。一般的恶意流量检测模型难以处理复杂和高维的网络流量，导致特征提取不佳，还有一些模型在二分类的时候准确率普遍很高，但处理多分类问题时的效果不佳。

发明内容

本发明克服了上述技术问题的缺点，提供了一种基于多头注意力机制的网络恶意流量检测系统及方法，用于解决现有技术中网络恶意流量检测过程中样本特征提取不佳和模型分类精度下降的问题，能够提高网络恶意流量检测的准确率。

有鉴于此，本发明的第一方面提供了一种基于多头注意力机制的网络恶意流量检测系统，包括：

获取模块，所述获取模块用于获取待检测网络流量的样本数据集；

数据预处理模块，所述数据预处理模块对样本数据集中的数据进行预处理，并采用合成少数类过采样方法)对样本数据进行过采样，将预处理后的数据随机划分为训练集和测试集；

模型构建模块，用于构建基于WaveNet的卷积神经网络，并且融合预设深度学习网络的双向门控循环单元和多头注意力构建网络恶意流量检测模型；

模型优化训练模块，用于使用训练集的数据训练所述网络恶意流量检测模型，训练完后，将测试集的数据输入至网络恶意流量检测模型中进行优化，并使用K折交叉验证的模型评估验证方法对模型进行评估，得到最终的网络恶意流量检测模型；

测试模块，将待检测的网络流量输入最终的网络恶意流量检测模型进行检测，得到预测结果。

本发明的第二个方面提供了一种基于多头注意力机制的网络恶意流量检测方法，该方法包括如下步骤：

步骤1.获取待检测网络流量的样本数据集并进行预处理：

获取待检测网络流量的样本数据集，对样本数据集进行预处理，并采用SMOTE方法对样本数据进行过采样，将预处理后的数据随机划分为训练集和测试集；

步骤2.构建基于卷积神经网络的网络恶意流量检测模型：

构建基于WaveNet的卷积神经网络，并且融合预设深度学习网络的双向门控循环单元和多头注意力构建网络恶意流量检测模型；

步骤3.对网络恶意流量检测模型进行优化训练：

使用训练集的数据训练所述网络恶意流量检测模型，训练完后，将测试集的数据输入至网络恶意流量检测模型中进行优化，并使用K折交叉验证的模型评估验证方法对模型进行评估，得到最终的网络恶意流量检测模型；

步骤S4.网络恶意流量检测：

将待检测的网络流量输入最终的网络恶意流量检测模型进行检测，得到预测结果，确定待检测网络流量属于正常流量或者属于恶意流量。

作为本发明的进一步改进，所述步骤1中，对样本数据集进行预处理的具体流程如下：

(1)使用one-hot编码对样本数据集中的非整形数据进行编码；

(2)使用Impute方法处理样本数据集中的缺失数据，对于分散、缺失较少的流量数据进行异常处理，并对缺失数据用均值代替；

(3)使用min-max标准化算法对样本数据集中的所有数据进行标准化的预处理，标准化预处理公式如下：

其中，X_[i]表示转换后的值；x表示原始数值；X_min表示数据集中的最小值；X_max表示数据集中的最大值。

作为本发明的进一步改进，所述步骤1中，合成少数类过采样方法的具体流程如下：

(1)整体的样本数据集中包含正常流量和恶意流量,根据样本数据集中不平衡的比率U设置的采样倍率N，对于包含恶意流量的每一个少数类样本s，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻；

(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本s，从其k个最近邻中随机选择若干个样本，假设其中一个近邻为S_n；在s和S_n之间进行随机线性插值，

(3)对于每一个随机选出的近邻S_n，分别与原样本按照如下的公式构建新的少数类样本，即新样本S_new，新样本S_new的计算公式如下：

S_new＝S+Rand(0,1)*|S-S_n|

其中，Rand(0,1)表示随机生成(0,1)之间的实数，S表示少数类样本s中的元素，|S-S_n|表示少数类样本元素S与随机选出的近邻S_n在某个属性上的差值；根据采样倍率N，可以生成新的正常流量及恶意流量的样本数据，提高数据的覆盖度和广度。

作为本发明的进一步改进，所述步骤S2中，基于卷积神经网络的网络恶意流量检测模型的构建方法如下：

针对不同数据集的维度不同，使用WaveNet作为输入层；将经过预处理的数据传入WaveNet中，WaveNet的核心就是扩大因果卷积，其结构简单，卷积核可共享且计算速度快，易于叠加，扩大卷积阶段的公式为:

其中，x_t为网络中t时刻对应的神经元输出结果，x₁,...,x_t-1为t时刻之前的点对应的信息，p(x)表示根据序列前t-1个状态结果预测第t个状态，随着t的增加不断更新状态；

其中，k表示t时刻卷积层的尺寸，s表示步长，F表示该卷积层的感受野，扩大卷积因子用符号l表示，这样可以使得滤波器在卷积过程中可以跳过一个或多个点；

并将残差技术应用于扩大卷积层，残差块输出为：

Ｈ(x)＝f(x,{W})+x

式中，x为扩大卷积层的输入，W为权重系数。

接着使用高级激活函数Leaky_ReLU，并设置参数减小梯度损失，使用池化层来降维以提高速度，模型采用一维最大池化层对时域一维信号进行最大值池化，使用批量标准化对最大池化层的输出数据进行规范化；

LeakyReLU函数如下：

其中，-alpha表示高级激活函数Leaky_ReLU中固定的常数因子，x表示输入的数据；

然后将深度学习分为两条支路来并行提取网络流量数据的时空特征，其中，一条支路通过双向门控循环单元学习网络流量数据的时间特征，另一条支路通过引入多头注意力机制，能够捕获序列中任意位置的字符之间的关联关系，用于学习网络流量数据的空间特征，将网络流量数据的时间特征和空间特征进行融合处理，使用多维度下的融合特征作为建模的基础，构建网络恶意流量检测模型；

作为本发明的进一步改进，所述步骤3中，K折交叉验证模型的评估验证方法为：

用k折交叉验证对模型进行评估时，将训练集中的数据划分为k个分区，实例化k个相同的模型，将每个模型在k-1个分区上训练，并在剩下的一个分区上进行评估，得到k个验证分数，并以k个验证分数的平均值做为网络恶意流量检测模型的验证分数。

与现有技术相比，本发明具有以下有益效果：

本发明针对网络恶意流量的检测，通过获取模块、数据预处理模块、模型构建模块、模型优化训练模块以及测试模块的组合，提高了网络恶意流量的检测精度，其中，数据预处理模块可以对样本数据集中的数据进行预处理以提供准确且有用的数据信息，采用模型构建模块构建基于WaveNet的卷积神经网络后，再融合双向门控循环单元和多头注意力构建网络恶意流量检测模型，形成了针对所采集的网络数据集具有自适应性能的卷积神经网络算法，可以提高预测模型的准确性；通过使用多头注意力机制包装双向门控循环单元，在每一个时间步中都引入注意力，提高感受野以进一步提高模型提取高维长序列特征的能力，通过模型优化训练模块对网络恶意流量检测模型进行训练，能够保证训练模型的规范化，进而提高最终模型的检测数据的准确性；通过测试模块对待检测的网络流量进行检测，本发明能够有效地提高恶意流量入侵检测的准确度。

本发明一种基于多头注意力机制的网络恶意流量检测方法能够提高恶意流量的检测精度。本发明基于多头注意力机制的深度学习模型，使用WaveNet卷积层以及池化层提高感受野，再通过多头注意力机制从空间维度去提取网络流量序列的特征，使用双向门控循环单元从时间维度提取特征，能够提高网络恶意流量检测模型的预测准确性。

本发明通过合适的网络流量数据预处理方法和样本采样方法以及模型评估验证方法，使用SMOTE采样技术对样本进行过采样，以处理数据杂乱不平衡的问题，即通过少数类样本合成技术进行平滑处理，从而降低数据的大小和不平衡性，使后期的数据分析更为准确；通过设计结构合理、效果优异的多层神经网路，采用WaveNet卷积神经网络，并研究不同池化方式和池化尺寸以及不同分类器对模型的影响，最终选择最适合提取复杂网络序列的特征；通过泛化能力好的网络恶意流量检测模型，使用多头注意力机制实现并行计算，引入双向门控循环单元解决长序列遗忘的问题，并能缓解模型复杂度与表达能力之间的矛盾。

附图说明

图1是本发明一种基于多头注意力机制的网络恶意流量检测系统中各模块的连接示意图；

图2是本发明中对样本数据集进行预处理，并采用SMOTE方法对样本数据进行过采样的处理流程图；

图3是本发明包装层的示意图，Att表示AttentionValue；

图4是本发明实施例中融合注意力机制和双向门控循环单元的结构示意图；

图5是本发明实施例中一种基于多头注意力机制的网络恶意流量检测方法的流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。需要说明的是，本发明的具体实施例只是为了能更清楚的描述技术方案，而不能作为本发明保护范围的一种限制。

本发明的第一方面提供了一种基于多头注意力机制的网络恶意流量检测系统，包括：

数据预处理模块，所述数据预处理模块对样本数据集中的数据进行预处理，并采用合成少数类过采样方法(SMOTE方法)对样本数据进行过采样，至此，数据预处理完毕，将预处理后的数据随机划分为训练集和测试集；

模型构建模块，用于构建基于WaveNet的卷积神经网络，并且融合预设深度学习网络的双向门控循环单元和多头注意力构建网络恶意流量检测模型；针对网络流量呈现海量复杂和高维的特征，且作为一种长时间序列，网络流量数据也会受到前后序列的影响，因此，本发明设计融合双向门控循环单元和多头注意力的网络恶意流量检测模型，使用多头注意力机制包装双向门控循环单元，在每一个时间步中都引入注意力，以进一步提高模型提取高维长序列特征的能力；

步骤1.获取待检测网络流量的样本数据集并进行预处理：

获取待检测网络流量的样本数据集，对样本数据集进行预处理，并采用合成少数类过采样方法对样本数据进行过采样，将预处理后的数据随机划分为训练集和测试集；

步骤2.构建基于卷积神经网络的网络恶意流量检测模型：

步骤3.对网络恶意流量检测模型进行优化训练：

使用训练集的数据训练所述网络恶意流量检测模型，训练完后，将测试集的数据输入至网络恶意流量检测模型中进行优化，并使用K折交叉验证的模型评估验证方法对模型进行评估，得到最终的网络恶意流量检测模型；本发明使用K折交叉验证的模型评估验证方法，进一步提高模型的泛化能力，并分类输入流量类型；

步骤S4.网络恶意流量检测：

针对数据集中数据杂乱复制、数据不平衡等问题，使用数据标准化、标签编码以及空值处理对数据进行预处理，因此，所述步骤1中，对样本数据集进行预处理的具体流程如下：

(1)使用one-hot编码对样本数据集中的非整形数据进行编码；

(2)使用Impute方法处理样本数据集中的缺失数据，将数据严重缺失的缺失数据不作处理，直接将其判定为异常数据；对于分散、缺失较少的流量数据进行异常处理，并对缺失数据用均值代替；

(3)使用min-max标准化(最大最小标准化)算法对样本数据集中的所有数据进行标准化的预处理，标准化预处理公式如下：

由于UNSW-NB15数据集中的Worms攻击种类的样本数目只有174个，这与样本总数257673相比非常少，所以使用合成少数类过采样技术以减少数据不平衡带来的影响，所述步骤1中，合成少数类过采样方法的具体流程如下：

S_new＝S+Rand(0,1)*|S-S_n|

其中，Rand(0,1)表示随机生成(0,1)之间的实数，S表示少数类样本s中的元素，|S-S_n|表示少数类样本元素S与随机选出的近邻S_n在某个属性上的差值；根据采样倍率N，可以生成新的正常流量及恶意流量的样本数据，提高数据的覆盖度和广度。使用合成少数类过采样技术以减少数据不平衡带来的影响。

针对传统模型训练时间长、多分类检测效果差等问题，本发明加入WaveNet卷积层，并研究不同的池化大小以及不同输入层对模型性能的影响，根据实验结果中分类的准确率和模型特点来选择最合适的池化尺寸、激活函数以及损失函数，因此，所述步骤S2中，基于卷积神经网络的网络恶意流量检测模型的构建方法如下：

针对不同数据集的维度不同，使用WaveNet作为输入层；将经过预处理的数据传入WaveNet中，WaveNet的核心就是扩大因果卷积，卷积核可共享且计算速度快，易于叠加，扩大卷积阶段的公式为:

并将残差技术应用于扩大卷积层，残差块输出为：

H(x)＝f(x,{W})+x

式中，x为扩大卷积层的输入，W为权重系数。

LeakyReLU函数如下：

经过注意力包装层后，使用Flatten层修改数据输出形状，最后经过一个全连接层输出分类结果，根据分类特点，模型在处理二分类，即判断流量是否是恶意流量的情况下，损失函数采用binary_crossentropy，激活函数采用sigmoid，模型在处理多分类，即判断流量具体是哪一种攻击流量的情况下，损失函数采用categorical_crossentropy，激活函数采用softmax。计算公式分别如下：

公式Sigmoid的输出范围是0到1，x是神经元的输入数据；公式Softmax(x)_i表示假设输出层共有n个神经元，计算第i个神经元的输出，x_i和x_j分别是第i个神经元和第j个神经元的输入。

然后将深度学习分为两条支路来并行提取网络流量数据的时空特征，其中，一条支路通过双向门控循环单元学习网络流量数据的时间特征，另一条支路通过引入多头注意力机制，能够捕获序列中任意位置的字符之间的关联关系，用于学习网络流量数据的空间特征，将网络流量数据的时间特征和空间特征进行融合处理，使用多维度下的融合特征作为建模的基础，构建网络恶意流量检测模型。其中，融合多头注意力机制和双向门控循环单元的包装层的方法为：

首先使用双向门控循环单元提取网络数据特征，门控循环单元是长短时记忆的变种，简化了长短时记忆的输入门和遗忘门，并且合并了长短时记忆的细胞状态和隐藏状态。双向的门控循环单元就是将两个门控循环单元组成的序列处理模型，一个正向输入一个反向输入，可以更好处理网络流量数据。

然后引入多头注意力机制，能够捕获序列中任意位置的字符之间的关联关系，使得模型更加方便地学习到长句子的前后文依赖，信息能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理，获得更大的感受野，从数据整体计算目标。其次，多头注意力机制使用权重求和的方式产生输出向量，使其梯度在网络模型中的传播更加容易。

如图3所示，本实施例中包装层用多头注意力机制包装了4层BiGRU层后，在每一层的每一个输入输出的时间步都对数据计算注意力值，并行化后形成一种多通道结构，这样在每个通道都可用来在输入输出中对特征加权，并且每一个通道输出不同的结果，最后将其连接起来进行推断。

(1)每一个融合注意力机制和双向门控循环单元的结构如图4所示：

(2)多头注意力机制的计算过程如下：

Step1:初始化向量Query、Key、Value，将输入序列每一个字符对应的embedding向量与已经训练的三个矩阵W_q、W_k、W_v相乘得到Query向量、Key向量、Value向量:

Query＝W_qX

Key＝W_xX

Value＝W_vX

Step2:计算Attention Score与Softmax Score。Attention Score反映了此字符和其他位置字符的相关程度，同样就反应了对其他位置的“关注程度”。对Attention Score进行缩放和归一化操作，得到Softmax Score：

Attention Score＝q_ik_i

式中，q_i表示第i个数据的Q向量，k_i是第i个输入的k向量，softmax即是softmax激活函数；d_k表示维度。

Step3:最后将每个Value向量乘以Softmax Score得到加权的V₁和V₂，将V₁和V₂求和就可以得到第一个输入的AttentionValue，再对原始的向量Query、Key、Value做多次的线性映射，把每次的结果映射到多个空间中去，重复进行上面的过程，每次得到的结果称作一个“头”，最后将每个“头”拼接得到多头注意力机制。

(3)从输入层到输出层，网络恶意流量检测模型的参数如下：

表1网络恶意流量检测模型参数表

Layer(type)	OutputShape	Parameters
			WaveNet	(None,196,1)	0
LeakyReLU	(None,196,1)	0
			MaxPooling1d	(None,65,1)	0
BatchNormalization	(None,65,1)	4
			MultiHeadAttention(BiGRU)	(None,128,4)	102912
BatchNormalization	(None,128,4)	16
			Flatten	(None,512)	0
Dense	(None,10)	5230

所述步骤3对网络恶意流量检测模型进行优化训练的过程中，使用K折交叉验证的模型评估验证方法，进一步提高模型的泛化能力。K折交叉验证模型的评估验证方法为：

选择分层k折交叉评估验证方法对模型进行调优，最终得到模型泛化能力最优的超参值，k折交叉验证使用了无重复抽样技术，每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会。如图4所示，本实施例分层k折交叉验证的具体步骤如下：

(1)将数据集划分为训练集(Training Set)和测试集(Test Set)，将测试集放在一边；

(2)将训练集分为k份，每次使用的k份中的1份作为验证集(Validation Set)，其他部分全部作为训练集；

(3)提高k次训练后，可以得到k个不同的模型；将每个模型在k-1个分区上训练，并在剩下的一个分区上进行评估，得到k个验证分数，并以k个验证分数的平均值做为网络恶意流量检测模型的验证分数；

最后评估k个模型的效果，从中挑选效果最好的超参数，使用最后的超参数，将k份数据全部作为训练集重新训练模型，得到最终的网络恶意流量检测模型。

最终的网络恶意流量检测模型在UNSW-NB15数据集上的二分类实验结果和多分类实验结果见表2，在CIC-IDS2017数据集上的二分类实验结果和多分类实验结果见表3：

表2UNSW-NB15数据集实验结果

由表2可知，模型在二分类和多分类的准确率和精确率都达到较高的水平，这表明，在引入多头注意力机制后，数据中的越有效特征对模型的贡献越大，神经网络模型有较好的识别性能。

表3CIC-IDS2017数据集实验结果

由表3可知，模型在较新的入侵检测数据集中的二分类和多分类实验中，在各个评估标准中都获得了优异的结果，且多分类召回率效果明显，这表明，引入多头注意力机制的模型可以识别真实世界流量中的危险攻击，召回率高也说明对数据的利用效率较高。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于多头注意力机制的网络恶意流量检测系统，其特征在于，包括：

数据预处理模块，所述数据预处理模块对样本数据集中的数据进行预处理，并采用合成少数类过采样方法对样本数据进行过采样，将预处理后的数据随机划分为训练集和测试集；

2.一种如权利要求1所述的基于多头注意力机制的网络恶意流量检测方法，其特征在于，包括如下步骤：

步骤1.获取待检测网络流量的样本数据集并进行预处理：

步骤2.构建基于卷积神经网络的网络恶意流量检测模型：

步骤3.对网络恶意流量检测模型进行优化训练：

步骤S4.网络恶意流量检测：

3.根据权利要求1所述的一种基于多头注意力机制的网络恶意流量检测方法，其特征在于：所述步骤1中，对样本数据集进行预处理的具体流程如下：

(1)使用one-hot编码对样本数据集中的非整形数据进行编码；

(2)使用Impute方法处理样本数据集中的缺失数据，对于分散、缺失较少的流量数据进行异常处理，并对缺失数据用NaN代替；

4.根据权利要求1所述的一种基于多头注意力机制的网络恶意流量检测方法，其特征在于：所述步骤1中，合成少数类过采样方法的具体流程如下：

(3)对于每一个随机选出的近邻S_n，分别与原样本按照如下的公式构建新的少数类样本，即新样本S_new：

S_new＝S+Rand(0,1)*|S-S_n|

5.根据权利要求1所述的一种基于多头注意力机制的网络恶意流量检测方法，其特征在于：所述步骤S2中，基于卷积神经网络的网络恶意流量检测模型的构建方法如下：

针对不同数据集的维度不同，使用WaveNet作为输入层；将经过预处理的数据传入WaveNet中，WaveNet的核心就是扩大因果卷积，其卷积核可共享且计算速度快，易于叠加，扩大卷积阶段的流程为:

并将残差技术应用于扩大卷积层，残差块输出为：

H(x)＝f(x,{W})+x

式中，x为扩大卷积层的输入，W为权重系数；

LeakyReLU函数如下：

然后将深度学习分为两条支路来并行提取网络流量数据的时空特征，其中，一条支路通过双向门控循环单元学习网络流量数据的时间特征，另一条支路通过引入多头注意力机制，能够捕获序列中任意位置的字符之间的关联关系，用于学习网络流量数据的空间特征，将网络流量数据的时间特征和空间特征进行融合处理，使用多维度下的融合特征作为建模的基础，构建网络恶意流量检测模型。

6.根据权利要求1所述的一种基于多头注意力机制的网络恶意流量检测方法，其特征在于：所述步骤3中，K折交叉验证模型的评估验证方法为：

用k折交叉验证对模型进行评估时，将训练集中的数据划分为k个分区，实例化k个相同的模型，将每个模型在k-1个分区上训练，并在剩下的一个分区上进行评估，得到k个验证分数，并以k个验证分数的平均值作为网络恶意流量检测模型的验证分数。