CN112087442B

CN112087442B - 基于注意力机制的时序相关网络入侵检测方法

Info

Publication number: CN112087442B
Application number: CN202010916431.8A
Authority: CN
Inventors: 陈乃月; 汪静怡; 李浥东; 金�一; 曹原周汉
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2021-12-21
Anticipated expiration: 2040-09-03
Also published as: CN112087442A

Abstract

本发明提供了一种基于注意力机制的时序相关网络入侵检测方法。该方法包括：利用入侵检测数据集对SSAE网络进行训练，得到训练好的待分类的网络流量数据，对待分类的网络流量数据经过独热编码和标准化处理，得到预处理后的网络流量数据；将预处理后的网络流量数据输入到训练好的叠层稀疏自编码器SSAE网络的基于注意力机制的分类器，分类器对待分类的网络流量数据进行分类处理，得到待分类的网络流量数据的网络入侵检测结果。本发明设计了加入了注意力机制的双层Bi‑GRU网络结构作为分类器，具有较高的分类准确率与较低的误报率，同时大大缩短了模型的训练与测试时间。

Description

基于注意力机制的时序相关网络入侵检测方法

技术领域

本发明涉及网络攻击检测技术领域，尤其涉及一种基于注意力机制的时序相关网络入侵检测方法。

背景技术

随着近年来互联网的飞速发展，各种形式的网络攻击层出不穷。如何有效地检测异常行为和攻击类型已成为网络领域的一个重要课题安全。NIDS(network intrusiondetection system，网络入侵检测系统)是指将硬件和软件相结合，检测出危害计算机系统安全的行为，如收集漏洞信息，导致拒绝访问并获得超出法定权限的系统控制权范围。NIDS主要包括三个功能组件：信息来源、分析引擎和响应组件。信息来源负责收集被检测网络或系统的各种信息，并把这些信息作为资料提供给入侵检测系统分析引擎组件。分析引擎利用统计或规则的方式找出可能的入侵行为，并将事件提供给下面的响应组件。响应组件根据分析引擎的输出采取应有的行为，通常具有自动化机制，如主动通知系统管理员、中断入侵者的连接和搜集入侵信息等。

目前，根据观察对象的不同可分为两种类型的入侵检测技术。第一种入侵检测技术是基于签名的入侵检测，称为误用检测方法。第二种入侵检测技术是基于行为的入侵检测，称为异常检测方法。

NIDS中基于异常的检测方法是入侵检测领域的主要研究方向。该方法通过分析网络流量来学习正常和异常行为，并可以检测未知和新的攻击。近年来，大多数研究人员尝试将机器学习应用到入侵检测中，尤其是通过机器学习来解决高误报率的问题。同时，一些研究试图将深度学习应用于网络流量预测。许多研究表明，深度学习在异常识别和预测方面的表现已经能够优于传统方法。近年来，深度神经网络在需要大数据分析领域的各种场景中取得了大范围推广，引发了深度学习的热潮。深度学习是机器学习中的一种算法研究分支，通过将线性或非线性模型转换序列组织为特定数据结构并不断地学习和收敛，训练出目标特征模型。近几年，一些研究已经在利用深度神经网络的优势来完成入侵检测任务。

目前，现有技术中一种使用传统机器学习进行网络入侵检测的方案包括：采用与基于决策树的分类器相关联的递归特征消除过程，以识别有助于提高模型检测率的合适特征。考虑实时性和低功耗的要求。该方案采用基于交互信息的特征选择算法，能够处理线性和非线性相关的数据特征。建立了一个基于最小二乘支持向量机的入侵检测系统来进行分类。在三个不同的数据集上的实验结果表明，该算法检测速度快，计算量小。

上述现有技术中一种使用传统机器学习进行网络入侵检测的方案的缺点为：传统机器学习方法需要人工经验和数据预处理技巧，难以对网络流量数据进行特征化。

现有技术中的一种使用深度学习方法进行网络入侵检测的方案包括：建立了深度学习与浅度学习相结合的检测模型。采用深度自编码进行特征学习，并结合人工蜂群算法对支持向量机进行微调。网络入侵可以看作是与时间相关的事件。由于RNN能够处理与时间相关的序列数据，因此提出了许多基于RNN的NIDS模型。有学者探讨了将LSTM架构应用于NIDS中的可能性，并评估了模型在KDD Cup 99数据集上的性能。还有学者以一个基准数据集NSL-KDD为例，研究了RNN的隐节点和学习率对学习效率的影响。

上述现有技术中的一种使用深度学习方法进行网络入侵检测的方案的缺点为：网络入侵可以看作是时序相关的事件，该方案忽视了数据历史信息长度对于模型性能的影响，不能很好地平衡检测精度和训练速度，准确率过低，误报率过高，训练时间过长，计算开销过大。

发明内容

本发明的实施例提供了一种基于注意力机制的时序相关网络入侵检测方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于注意力机制的时序相关网络入侵检测方法，利用入侵检测数据集对SSAE网络进行训练，得到训练好的待分类的网络流量数据，所述方法包括：

对待分类的网络流量数据经过独热编码和标准化处理，得到预处理后的网络流量数据；

将所述预处理后的网络流量数据输入到训练好的叠层稀疏自编码器SSAE网络的基于注意力机制的分类器，所述分类器对待分类的网络流量数据进行分类处理，得到待分类的网络流量数据的网络入侵检测结果。

优选地，所述的利用入侵检测数据集对SSAE网络进行训练，得到训练好的待分类的网络流量数据，包括：

选取UNSW-NB15数据集作为SSAE网络的训练数据集，采用独热编码将UNSW-NB15数据集中的原始数据中的符号特征转化为数值特征，将原始数据从49维扩展到196维，对所述数值特征使用极小-极大法转换进行标准化处理，将数值映射到[0-1]之间，得到预处理后的原始数据；

所述极小-极大法转换的算法如公式(1)所示：

其中Max为数值的最大值，Min为数值的最小值，X为原数值，X^*为归一化后的数值；

将SSAE网络的输入层单元设为196层，利用所述预处理后的原始数据采用贪婪分层预训练方法对SSAE网络的每一层进行训练，选择误差反向传播方法对SSAE网络进行微调，对输入数据和输出数据之间的误差函数结果进行评估，直到达到预期要求为止，得到SSAE网络的最优连接权值和偏差值；

利用SSAE网络的最优连接权值和偏差值构成SSAE网络的基于流量的注意力机制的分类器。

优选地，所述SSAE网络的基于流量的注意力机制的分类器包括两层Bi-GRU网络，单元数分别为32和12，每层Bi-GRU后接Dropout层，之后是Attention层，后接全连接层和只有一个神经元的输出层，其中优化器使用Adam，全连接层和输出层的激活函数分别使用relu和sigmoid，损失函数使用binary_crossentropy。

优选地，所述SSAE网络的分类器采用基于切片流量的注意力机制，每个时间步所对应的隐藏状态h_i都被输入单层感知机，通过单层感知机来获取隐层表示u_i：

u_i＝tanh(W_ωh_i+b_ω)

使用ui与u_w的相似性来评估在不同时刻每个流量切片的重要性，u_w指相邻切片流量向量，可以看做一个query该时间步流量切片对整体的贡献是多少，通过softmax函数来计算归一化的重要性向量α；

将基于切片流量注意力机制的输出计算为加权和，得到的内容向量v：

优选地，所述分类器输出的待分类的网络流量数据的网络入侵检测结果包括二分类结果的混淆矩阵，包括二分类准确率、检测率、误报率和召回率。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过使用叠层稀疏自编码器对网络流量数据进行降维处理，较好保留数据原始特征的同时加快了后续的分类速度。设计了加入了注意力机制的双层Bi-GRU网络结构作为分类器，具有较高的分类准确率与较低的误报率，同时大大缩短了模型的训练与测试时间。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于注意力机制的时序相关网络入侵检测方法的实现原理图；

图2为本发明实施例提供的一种基于注意力机制的时序相关网络入侵检测方法的处理流程图；

图3为本发明实施例提供的一种SSAE网络的结构模型示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种基于注意力机制的时序相关网络入侵检测模型。通过叠层稀疏自编码器对原始数据进行降维，保留数据原始特征的前提下降低计算开销加快分类速度。使用带有注意力机制双向门控递归单元网络进行分类检测，自动进行特征学习，获得较高准确率与较低误报率，同时缩短训练与测试时间。

本发明实施例提供的一种基于注意力机制的时序相关网络入侵检测方法的实现原理示意图如图1所示，具体处理流程如图2所述，包括如下的处理步骤：

步骤S10：数据预处理。

为了满足模型中输入格式的要求，在数据预处理中对原始数据进行特征变换和归一化处理。上述原始数据是常用的入侵检测数据集UNSW-NB15。UNSW-NB15数据集是正常网络活动流量数据和合成的当代攻击行为流量数据的混合体。其中包含九种类型的攻击数据(Fuzzers,Analysis,Backdoors,DoS,Exploits,Generic,Reconnaissance,Shellcode andWorms.)。使用Tcpdump工具用于捕获原始流量，再使用Argus，Bro-IDS工具，开发了12个相关算法，用以生成带有类标签的49维特征。

由于神经网络计算只允许数值运算，因此，本发明采用独热编码(one-hotencoding)方法将UNSW-NB15数据集中的原始数据中的符号特征(如服务state、状态state、协议proto)转化为数值特征，将原始数据从49维扩展到196维。独热编码后，对所述数值特征使用极小-极大法转换进行标准化处理，将数值映射到[0-1]之间，得到预处理后的原始数据。

在标准化中使用极小-极大法(Min-Max technique)转换，公式如下所示：

公式(1)是常见的数据归一化方法极大-极小值法的计算公式，是对原始样本数据的线性变换，使结果值映射到[0-1]之间。其中Max为数值的最大值，Min为数值的最小值，X为原数值，X^*为归一化后的数值。

步骤S20：SSAE(SparseStackedAuto-Encoder，叠层稀疏自编码器)降维处理。

经过数据预处理后，原始数据维数从49维扩展到196维。因此，将SSAE网络的输入层单元设为196层，本发明实施例提供的一种SSAE网络的结构模型示意图如图3所示。

然后，利用上述预处理后的原始数据采用贪婪分层预训练方法(greedy layer-wise pre-training method)对SSAE网络的每一层进行训练，得到SSAE网络的最优连接权值和偏差值。为了得到最优的参数模型，本发明实施例选择误差反向传播方法对SSAE网络进行微调，对输入数据和输出数据之间的误差函数结果进行评估，直到达到预期要求为止。最后选择隐藏层数为3层，稀疏参数为0.04的SSAE作为最佳编码器结构。

SSAE网络所使用的具体参数见表1。

表1SSAE网络的参数表

注意机制的产生是受人类行为的启发。在某种程度上，人类的注意力主要集中在图像的特定区域或句子中的特殊单词上。注意机制有助于充分利用有限的资源。多个相邻时刻的交通信息有助于判断当前交通流的类型。因此，将多个流量信息组合在一起，称为切片流量。程序中采用了优化的矩阵乘法运算，减少了计算过程中的资源消耗。

SSAE网络中分类器采用基于切片流量的注意力机制，在基于切片流量的注意力机制中，每个时间步(timestep)所对应的隐藏状态h_i都被输入单层感知机，通过单层感知机来获取隐层表示u_i。相应公式如下：

u_i＝tanh(W_ωh_i+b_ω)

W_ω，b_ω分别表示权值向量和偏置项。

然后使用u_i与u_w的相似性来评估在不同时刻每个流量切片的重要性。u_w指相邻切片流量向量，可以看做一个query该时间步流量切片对整体的贡献是多少，然后通过softmax函数来计算归一化的重要性向量——α，也称为注意力权重。

最后将基于切片流量注意力机制的输出计算为加权和，得到的内容向量(contextvector)v可以被视为切片流量的高级表示。

上述内容向量是切片流量的一种表示，是流量特征提取的结果，而分类器输出的结果矩阵是判断模型性能的几项指标。

基于流量的注意力机制是SSAE网络中分类器部分添加的机制，目的是加快分类器的训练速度，提升模型效率。上述提到的计算公式都是关于这个注意力机制的。

对SSAE网络的每一层训练结束后，得到训练好的SSAE网络的基于注意力机制的分类器，该分类器包括两层Bi-GRU网络，单元数分别为32和12，每层Bi-GRU后接Dropout层，之后是Attention层，后接全连接层和只有一个神经元的输出层。其中优化器(optimizer)使用Adam，全连接层和输出层的激活函数(activation function)分别使用relu和sigmoid。损失函数使用binary_crossentropy。分类器所使用的具体参数见表2。

表2分类器参数

上述表2中的参数首先是输入层，输入维度为196维，输入层后连接的是一个具有32个神经元的Bi-GRU层，后接Dropout层，后接具有12个神经元的Bi-GRU层及另一个Dropout层，随后接具有12个神经元的Attention层和具有6个神经元的Dense层，最后的输出层只有一个神经元。表2中展示了分类器的网络结构包括隐藏层数，但是没有展示SSAE的稀疏系数。

上述分类器本发明独创的特征主要是分类器网络结构(4层Bi-GRU)、每层神经元个数的设计、Dropout率的优化等。优化器的作用是更新和计算影响分类模型训练和模型输出的网络参数，使其逼近或达到最优值，从而最小化(或最大化)损失函数。分类器对输入数据不做额外处理。分类器的输出数据是模型二分类结果的混淆矩阵(confusion matrix)，包括二分类准确率(Accuracy)、检测率(DR)、误报率(FAR)、召回率(Recall)。

步骤S30：利用训练好的SSAE网络的基于注意力机制的分类器对待分类的网络流量数据进行分类处理，得到待分类的网络流量数据的网络入侵检测结果。

将所述预处理后的网络流量数据输入到训练好的SSAE网络的基于注意力机制的分类器，所述分类器对待分类的网络流量数据进行分类处理，得到待分类的网络流量数据的网络入侵检测结果。

SSAE网络的分类器对待分类的网络流量数据进行分类处理，输出二分类结果的混淆矩阵，包括二分类准确率、检测率、误报率和召回率，得到待分类的网络流量数据的网络入侵检测结果。

SSAE网络的分类器主要是对输入的网络流量数据进行特征的提取(使用Bi-GRU)，使用流量数据集里带标签的训练数据对模型进行训练之后，就相当于告诉了分类器什么样的流量数据是正常的，什么样的流量数据可以被判定为“入侵的”。训练完成之后要使用测试集里的流量数据验证分类器效果。SSAE网络的分类器输出的混淆矩阵里有如下几个指标：TP、FP、FN及TN。TP是判定结果为入侵实际上也是入侵的数目，FP是判定结果为入侵实际不是入侵的数目，FN是判定结果为正常实际是入侵的数目，TN是判定结果为正常实际也是正常的数目。下表就是分类器输出的混淆矩阵。

本模型中使用的变体RNN网络Bi-GRU被验证为在时序相关的数据分类过程中有出色的表现，参与验证比较的还有LSTM，Bi-LSTM，GRU这几种常见的用于处理时序相关数据的网络结构。

综上所述，本发明实施例通过使用叠层稀疏自编码器对网络流量数据进行降维处理，较好保留数据原始特征的同时加快了后续的分类速度。设计了加入了注意力机制的双层Bi-GRU网络结构作为分类器，具有较高的分类准确率与较低的误报率，同时大大缩短了模型的训练与测试时间。

使用叠层稀疏自编码器进行网络流量数据的预处理，无需依赖人工经验进行特征的选取，在较好保留原始数据信息的基础上极大降低数据维度，加快了后期分类速度；

分类准确率更高(98.68％)，误报率更低(1.32％)；

模型训练与测试时间更短，计算开销更小。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的时序相关网络入侵检测方法，其特征在于，利用入侵检测数据集对SSAE网络进行训练，得到训练好的待分类的网络流量数据，所述方法包括：

将所述预处理后的网络流量数据输入到训练好的叠层稀疏自编码器SSAE网络的基于注意力机制的分类器，所述分类器对待分类的网络流量数据进行分类处理，得到待分类的网络流量数据的网络入侵检测结果；

所述的利用入侵检测数据集对SSAE网络进行训练，得到训练好的待分类的网络流量数据，包括：

所述极小-极大法转换的算法如公式(1)所示：

2.根据权利要求1所述的方法，其特征在于，所述SSAE网络的基于流量的注意力机制的分类器包括两层Bi-GRU网络，单元数分别为32和12，每层Bi-GRU后接Dropout层，之后是Attention层，后接全连接层和只有一个神经元的输出层，其中优化器使用Adam，全连接层和输出层的激活函数分别使用relu和sigmoid，损失函数使用binary_crossentropy。

3.根据权利要求2所述的方法，其特征在于，所述SSAE网络的分类器采用基于切片流量的注意力机制，每个时间步所对应的隐藏状态h_i都被输入单层感知机，通过单层感知机来获取隐层表示u_i：

u_i＝tanh(W_ωh_i+b_ω)

使用u_i与u_w的相似性来评估在不同时刻每个流量切片的重要性，u_w指相邻切片流量向量，可以看做一个query该时间步流量切片对整体的贡献是多少，通过softmax函数来计算归一化的重要性向量α；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述分类器输出的待分类的网络流量数据的网络入侵检测结果包括二分类结果的混淆矩阵，包括二分类准确率、检测率、误报率和召回率。