CN114697096A

CN114697096A - 基于空时特征和注意力机制的入侵检测方法

Info

Publication number: CN114697096A
Application number: CN202210286036.5A
Authority: CN
Inventors: 熊炫睿; 黄杨; 张帆; 贾钰梅; 席娟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-07-01

Abstract

本发明属于入侵检测领域，涉及基于空时特征和注意力机制的入侵检测方法。该方法包括以下步骤：S1)将所用的数据进行预处理；S2)采用多尺度卷积神经网络提出数据的空间域特征；S3)采用双向长短记忆网路提取数据的时间域特征；S4)将融合后的时间特征加入注意力机制并通过softmax分类器分类。提出一种基于空时特征集合和注意力机制的入侵检测方法，该方法根据入侵检测数据具有空时特征的特性，从不同角度充分提取特征信息，相对于传统的入侵检测方法更加的强大，具有更优的入侵检测性能。

Description

基于空时特征和注意力机制的入侵检测方法

技术领域

本发明属于入侵检测技术领域，涉及基于空时特征和注意力机制的入侵检测方法。

背景技术

确保网络安全的最强大机制是使用健壮的网络安全系统，现有的防火墙技术无法做到全面的网络安全防御，因为防火墙只能对网络外部攻击起作用。在当今的网络环境中，各种网络攻击层出不穷、影响的规模越来越大、攻击的频率越来越高，如何及时发现这些网络威胁，确保用户网络安全与利益是一个巨大的挑战。网络入侵检测可以主动的检测各种攻击行为，能够同时检测网络内部和外部的攻击，是当前网络安全领域研究的热门方向。网络入侵检测系统能够对网络流量进行实时的监控并判断流量中是否存在异常行为，若发现异常行为会采取报警等措施。网络入侵检测已经成为网络安全的重要防线，但是目前仍然面临着许多难题。

网络入侵数据中攻击样本的识别检测一直是入侵检测领域关注的重点。过去，基于端口识别，深层包检测类别等传统的网络数据的检测方法和经典的机器学习技术被广泛的应用于入侵检测领域。但是随着网络数据规模的不断扩大与发展，当前的网络攻击无论在数量上或者类别上都发生了天翻地覆的变化，而深度学习在入侵检测领域应用的越来越广泛，被认定为未来入侵检测关键技术的重要研究方法，与传统入侵检测方法有着明显的不同。在真实的网络环境中，存在着大量的多维度、缺少标签、复杂多变的数据，这对入侵检测模型的构建提出了更高的要求，深度学习以其优秀的特征提取能力，给处理复杂的入侵数据带来了全新的思路。许多研究者将各种深度学习应用于入侵检测领域如：卷积神经网络、循环神经网络、深度信念网络等。于是本文采用基于深度学习的方法构建入侵检测模型。

卷积神经网络可以自动提取丰富的局部抽象特征，挖掘数据间的潜在联系，但是不能对数据序列间的关联性进行学习，尤其近年来基于深度学习的入侵检测方法都仅单一关注入侵检测数据的空间或者时间特征，这显然是不够充分的，因为网络数据不仅与自身的空间属性相关联，网络数据也是基于时间连续发送的，不同时间节点的流量数据构成一个时间序列，分析一个事件响应的不同时间也能体现不同网络攻击的特点。因此通过分析前后时间序列的时间域相关性也能够更好的检测入侵行为。当前大部分入侵检测系统的性能高度依赖于特征工程，并且单一的特征提取手段也严重的了入侵检测模型的准确率。

因此设计一种基于空时特征和注意力机制的入侵检测方法对提高入侵检测系统的检测性能具有重要意义。

发明内容

有鉴于此，本发明的目的在于提供一种基于空时特征和注意力机制的入侵检测方法。CNN仅关注图像的一些局部信息，例如边缘特征，但是网络流量的识别不单单依赖于某种局部特征，是需要结合多个局部特征才能完成最终的分类任务。针对于网络入侵数据的局部特征在空间域中层次不一，并且有的特征距离很远，这就导致了如果仅使用固定的卷积核大小进行特征提取，那么神经网络只能提取到相邻位置的空间域特征，无法获取远距离特征属性间的组合。当使用单一的大尺度卷积核进行特征提取时会明显的增加模型计算工作量，也会忽略了一些重要的局部信息而影响模型的最终准确率。虽然增加CNN网络的宽度与深度可以增加模型的性能，但是会加大过拟合和梯度爆炸等问题发生的概率，于是本研究提出了多尺度卷积神经网络(MSCNN)来提取网络入侵数据中的空间域特征。

无论是基本的前馈神经网络还是更进一步发展的CNN和MSCNN，网络结构并没有过大的变化，对特征提取还是保留在空间域关系上，无法对时间特征进行建模。主要原因在于，上一层神经元的输出数据只能够传递给相邻的神经元，而无法与自身的时间特征产生联系。在近几年，许多科研工作者在入侵检测领域都只对空间结构序列和时间结构序列取其一作为研究对象，但这显然是存在缺陷的，因为网络流量不仅与本身的特征序列之间有很紧密的关联性，而且前后数据流也组成了一个时间序列，对一个程序的前后响应的不同阶段可能会体现出一部分异常行为的特点，例如分布式拒绝服务攻击。网络系统和网络协议的大部分接口基本上会存在漏洞，入侵发起者会利用伪装和诈骗等方式来利用这些漏洞，向计算机系统发起大量的请求，导致服务器端填满了请求回复的信息并占用了巨大的网络资源。当服务器将自己的内存资源占用完全时将导致瘫痪。DDoS攻击在网络序列中可以发现在极短时间序列中充满了高强密度、高传输率的重复请求信息。因此，时间域特征的分析极为重要，必须采用融合检测的方法来构建入侵检测模型。

循环神经网络(RNN)中，神经元的信息传递在下一时刻是可以向自身传递的，可以对时间序列建模。很多数据的时间特征信息很关键，即一个流量序列中前后输入的流量信息是有关联的。对于入侵检测领域来说，这个时间序列信息很重要，有不少研究者已经开始使用循环神经网络来对其建模。RNN对于短期记忆数据有着很好的训练效果，在情感分析研究中取得了不俗的表现。RNN可以通过内部的循环结构有效的提取任意序列的上下文信息，但是随着数据序列尺寸长度的不断增加，RNN对序列初始特征的信息关联能力下降，产生长期的依赖问题，更加容易的发生梯度消失和爆炸等问题，针对入侵攻击如APT攻击，僵尸网络等具有较长潜伏期的网络攻击，其检测效果并不理想，于是本研究采用双向长短记忆网络提取数据的时间特征。

经过BiLSTM提取网络入侵数据中的时间域特征之后，最后的分类器通常会使用最后一个时间序列的特征向量或者所有特征向量。但是在一个时间会话中，并不是所有的序列信息都是有着相同的特征重要性，其中较为重要性的特征会包含更多的信息，这就导致分类器无关对关键的重要特征向量给予更多的关注。为了解决上述问题，本文将使用注意力机制(Attention)对BiLSTM的输出做进一步地处理。

本文重点考虑入侵检测数据的特点，提出了一种基于时空特征集成和注意力机制的网络入侵检测方法，该方法首先利用MSCNN分析网络数据的空间特征以进行多个层级局部特征的提取，再添加设计跳跃连接卷积块防止信息丢失，然后利用BiLSTM处理时间特征；为了让有用的输出特征得到更好的表达，引入Attention给特征分配不同的权重使得模型可能更好捕获重要特征。最后通过softmax分类判别。本文所提出的模型充分考虑了入侵检测数据在时间域和空间域的联系，能挖掘数据间的潜在联系，可以有效的提高检测率和减低误报率。通过与经典的深度学习方法和当前最新方法进行对比实验，验证了本文所提出模型的有效性。

为达到上述目的，本发明提供如下技术方案：

一种基于空时特征和注意力机制的入侵检测方法，该方法包括以下步骤：

步骤1)将所用的数据进行预处理；

步骤2)采用多尺度卷积神经网络提出数据的空间域特征；

步骤3)采用双向长短记忆网路提取数据的时间域特征；

步骤4)将融合后的时间特征加入注意力机制；

步骤5)将融合的特征通过softmax分类器分类。

进一步，所述步骤1)具体为包括以下步骤：

步骤11)分类器无法对字符特征进行处理，需要将数据集中的符号型特征转化为数值型特征。例如数据集中包含个非字符型特征，需要将他们进行数字类型转换。例如在proto协议特征中，包含有网络协议tcp，udp和icmp，对其采用one-hot编码方式转换为[1,0,0]，[0,1,0]，[0,0,1]。采用独热编码进行数值转化后，再将无意义的特征删除。

步骤12)在数据集中，连续特征数据的取值范围存在显著差异，其中量级高的数据拥有这更大的权重，而微小值对模型分类的影响将微不足道。因为特征之间数值的巨大差异会对模型地分类效果产生负面影响，因此采用一种归一化处理方法，在[0,1]区间内均匀线性映射各个特征的取值范围。归一化计算公式为：

式中x^*为归一化后的输出数据，x为原始输入数据，x_max和x_min分别是原始数据的最大值和最小值。

进一步，所述步骤2)具体为包括以下步骤：

步骤21)调整了CNN的网络结构以构建多尺度卷积神经网络。在MSCNN中利用大小不同的多个卷积核来提取特征映射，并将他们结合起来得到多组局部特征，从而实现入侵特征的准确识别。MSCNN卷积层将使用1*1,3*3和5*5的卷积核提取特征，由于3*3和5*5的卷积核在运算时时间复杂度很大，Inception网络结构中使用卷积大小为1x1，3x3，5x5，同时使用3x3进行卷积池化，对输入的数据进行不同尺寸大小的特征提取，再将每个分支的结果融合起来，由于卷积与池化后输出数据大小相同，通过多分支叠加可以有效增加网络的宽度，这些不同尺寸大小的卷积核可以有效的提取多个尺度的特征信息，通过最终的分支叠加的特征信息比其单一卷积分支层更加全面。基于此，本文也将采用Inception结构作为多尺度卷积神经网络的一部分进行空间域特征提取，本文参考Inception网络结构在3*3和5*5卷积之前增加1*1的卷积过程，这样做的目的是可以有效的减少特征维度与参数量，此外，使用1x1卷积层可以在不改变特征图尺寸大小的情况下增加网络的深度，提升网络的非线性特征提取能力。针对网络宽度和深度的增加会发生过拟合和梯度爆炸等问题，本文借用残差网络的跳跃连接模型以增强网络模型的泛化性能并加入全局平均池化，使用全局平均池化替代全连接层，其中池化层的主要思路是将特征图映射为多个小尺寸相邻区域并对响应特征图取其指定大小，这样可以有效的特征图进行大小压缩，达到降维和减少参数的目的，同时针对一些复杂包含噪声的数据也可以进行去噪处理，所以添加池化层可以有效增加网络的鲁棒性，在一定程度上减少了网络过拟合的发生。池化计算过程可表示为：

其中ω、b分别表示为权重和偏置，σ为激活函数，down()为下采样函数。

步骤22)设置参数。空间域特征模块在原有MSCNN的基础上由两个多尺度卷积层，三个卷积层，一个平均池化层和一个全连接层构成，本文选择的不同卷积核分别为1x1，,3x3和5x5，同时在卷积神经网络中设置步长大小stride＝1，设置padding＝same，这样设置的目的是为了让每个分支的网络输出数据大小相同，便于后期直接将每个尺度大小的特征进行串行合并。

进一步所诉步骤3)具体包括以下步骤：

步骤31)在提取到对应空间域特征之后，使用BiLSTM提取时间域特征。BiLSTM能够兼顾前后信息对当前信息的影响，由于入侵检测数据具有时序性，可以捕获到更加全面的特征信息以提高模型检测性能。记t时刻正向LSTM输出的隐藏状态为

反向LSTM输出的隐藏状态为

则BiLSTM输出的隐藏状态H_t,可表示为：

进一步，所述步骤4)具体为包括以下步骤：

步骤41)注意力机制是一种模仿人类洞察外界的方法，从全景信息中抓取重要部分并进行特征提取。例如人在进行正常阅读时，会更加关注一段句子中的关键字。网络入侵数据在结构上与本文数据有着相似的地方，因此在网络入侵检测领域中，加入注意力机制的方法，可以不需要使用人工技术或者先验条件，自动的为网络入侵数据分配不同的重要权重。使用以下的Attention层计算步骤，输出最终的时序特征向量。

1.通过全连接层后得到每个隐藏层状态h_i的注意力权重。

v_i＝tanh(Wh_i+b)

W和b分别是权重和偏置。

2.将得到的注意力权重进行概率化，通过softmax函数生成概率向量p_i。

3.得到每个向量的注意力权重之后，通过对应权重大小将每个时间步长分量进行加权求和得到最终会话特征s。

s＝∑p_ih_i

进一步，所述步骤5)具体为包括以下步骤：

步骤51)在模型训练阶段，将模型softmax层预测的数据结果与真实的数据标签进行对照，将预测误差损失值实时记录并反馈给模型，通过多轮次的数据迭代训练，不断优化更新网络节点的权值与偏置，使最终分类结果更加接近真实标签，在完成上述参数训练后，对测试数据进行决策响应。

有益效果：

1.提出的多尺度卷积神经网络能够提取数据更多的局部空间特征，相比于传统神经网络避免了信息上的丢失，在浅层特征提取中具有很大的优势。

2.利用双向长短记忆网络进行高层次的时间域特征提取，能够处理具有前后信息依赖关系的序列，避免了单向时序的重要特征丢失，从而实现更高质量的特征提取。

3.添加注意力机制能够提取到信息在中更加重要的特征，能够有效避免全局平局分类的局限性，突出了多异常行为的重点检测。

4.以特征最优角度出发完成对网络数据的检测，构建的入侵检测系统能够在多项指标中均有最优的性能表现，突出了本文方法的实用性。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为MSCNN结构示意图

图2为BiLSTM-Attention模型示意图

图3为基于空时特征和注意力机制的入侵检测模型总体结构图

具体实施方式

以下将结合附图，对本发明的优选实例进行详细的描述。

本发明提供一种基于空时特征和注意力机制的入侵检测方法，如图1所示为改进的卷积神经网络MSCNN的结构示意图，在提取多层次的网络特征中具有重要作用。图2为BiLSTM-Attention示意图，可以有效提取时间域特征。根据图3的入侵检测流程图所示。该方法包含以下步骤：

步骤1：由于网络数据是高维的线性数据，倘若作为神经网络模型的直接使用，需要使用数据预处理模块对原始数据进行数据预处理工作，首先需要将数据中的符号型特征进行数据化，然后对数据进行归一化映射到[0,1]区间。

步骤2：根据MSCNN的网络结构特点，将一维线性数据转化为矩阵数据进行输入，采用最新数据集UNSW-NB15，原始数据大小为49个特征，经过数据预处理后扩充到196维，然后将其转化为大小为14*14大小的二维矩阵作为网络的输入。

步骤3：首先使用MSCNN对数据进行空间域特征提取，再在池化层进行特征融合和降维操作。通过多尺度卷积和池化的操作可以将边缘和局部信息不断组合为高级抽象特征，然后将其作为输入，使用BiLSTM-Attention处理接受到的数据中时间域特征信息。

步骤4：在模型训练阶段，将模型softmax层预测的数据结果与真实的数据标签记性对照，将预测误差损失值实时记录并反馈给模型，通过多轮次的数据迭代训练，不断优化更新网络节点的权值与偏置，使最终分类结果更加接近真实标签，在完成上述参数训练后，对测试数据进行决策响应。

步骤5：对网络数据的实时响应是入侵检测系统重要的一环，将反馈记录进行实时检测反馈。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于空时特征和注意力机制的入侵检测方法，其特征在于：该方法包括以下步骤：

S1)通过MSCNN提取输入数据的空间域特征；

S2)添加BiLSTM-Attention网络提取时间域特征；

S3)通过softmax分类模块进行分类。

2.根据权利要求1所述的基于空时和注意力机制的入侵检测方法，其特征在于：所述步骤S1中，提取空间域特征包括以下步骤：

步骤S11)本文调整了CNN的网络结构以构建多尺度卷积神经网络(MSCNN)。在MSCNN中利用多个大小不同的多个卷积核来提取多个层次的局部特征。MSCNN卷积层将使用1*1、3*3和5*5的卷积核，由于3*3和5*5的卷积核在运算时时间复杂度很大，本文参考Inception网络结构在3*3和5*5卷积之前添加1*1的卷积核，这样做的目的是为了减少数据的特征维度与参数量。使用1x1卷积层可以在不改变特征图尺寸大小的情况下增加网络的深度，提升网络的非线性特征提取能力。

因为模型的性能会随着网络宽度和深度的增加而下降，往往会存在过拟合和梯度爆炸等问题，尤其在增加网络的深度过程中，对输入层的非线性参数训练将变得异常困难，不可避免的对准确率造成影响。针对上述问题，提出的了残差卷积神经网络，通过网络内部的跳跃连接块，有效降低了深层卷积网络出现梯度弥散的可能性。为此本文借用残差网络设计了带跳跃连接的卷积模块，同时为了避免网络发生梯度弥散，本文借用残差网络的跳跃连接模型以增强网络模型的泛化性能。

同时添加池化层可以有效的减少网络参数量并增强模型的鲁棒性。池化层的主要思路是将特征图映射为多个小尺寸相邻区域并对响应特征图取其指定大小，这样可以有效的特征图进行大小压缩，达到降维和减少参数的目的，同时针对一些复杂包含噪声的数据也可以进行去噪处理，所以添加池化层可以有效增加网络的鲁棒性，在一定程度上减少了网络过拟合的发生。池化计算过程如下所示：

其中

分别表示为权重和偏置，σ为激活函数，down()为下采样函数。

3.根据权利要求1所述的基于空时特征和注意力机制的入侵检测方法，其特征在于：所述步骤S2中，结合时间域特征，使用BiLSTM-Attention进行特征提取包括以下步骤：

步骤S21)在提取到对应空间域特征之后，使用BiLSTM提取时间域特征。BiLSTM能够兼顾前后信息对当前信息的影响，由于入侵检测数据具有时序性，可以捕获到更加全面的特征信息以提高模型检测性能。记t时刻正向LSTM输出的隐藏状态为

反向LSTM输出的隐藏状态为

则BiLSTM输出的隐藏状态H_t,可表示为：

步骤S22)经过BiLSTM提取网络入侵数据中的时间域特征之后，最后的分类器通常会使用最后一个时间序列的特征向量或者所有特征向量。但是在一个时间会话中，并不是所有的序列信息都有着相同的特征重要性，其中较为重要性的特征往往包含更多的信息，而分类器无法对重要的特征向量给予更多的关注。为了解决上述问题，本文将使用注意力机制(Attention)对前向BiLSTM层的输出做进一步地处理。使用以下的Attention层计算步骤，输出最终的时序特征向量。

1.通过全连接层后得到每个隐藏层状态h_i的注意力权重。

v_i＝tanh(Wh_i+b)

W和b分别是权重和偏置。

s＝∑p_ih_i

4.根据权利要求1所述的基于空时集合和注意力机制的入侵检测方法，其特征在于：所述步骤S3中，结合时间域特征，使用softmax进行分类包括以下内容：

步骤S3)将模型softmax层预测的数据结果与真实的数据标签记进行对照，将预测误差损失值实时记录并反馈给模型，通过多轮次的数据迭代训练，不断优化更新网络节点的权值与偏置，使最终分类结果更加接近真实标签，在完成上述参数训练后，对测试数据进行决策响应。