CN117811843B

CN117811843B - 基于大数据分析和自主学习的网络入侵检测方法及系统

Info

Publication number: CN117811843B
Application number: CN202410227507.4A
Authority: CN
Inventors: 冉丽; 何毅舟; 韩旭明; 谢侨; 李哲夫
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-03
Anticipated expiration: 2044-02-29
Also published as: CN117811843A

Abstract

本发明公开了一种基于大数据分析和自主学习的网络入侵检测方法及系统，包括，获取目标网络流量数据并进行预处理，利用特征重构生成重构数据进行特征提取，获取空间特征及时间特征作为目标网络流量数据对应的流特征；构建网络入侵检测模型，利用大数据手段获取具有完备标签信息的相似数据集，进行所述网络入侵检测模型的迁移对抗训练；根据网络入侵检测模型进行目标网络流量数据的入侵检测分类，获取目标设备对应网络流量数据的历史入侵检测数据，提取入侵流量的隐式特征，进行网络入侵检测模型的自主学习更新。本发明通过迁移对抗训练提高了入侵行为检测的鲁棒性，能够在少样本或者无样本的场景下实现对网络流量的高精度、高效率的检测。

Description

基于大数据分析和自主学习的网络入侵检测方法及系统

技术领域

本发明涉及网络入侵检测技术领域，更具体的，涉及一种基于大数据分析和自主学习的网络入侵检测方法及系统。

背景技术

在入侵检测领域中，数据通常具有较高的维度和复杂性。在现有方案中，有监督或无监督的传统机器学习算法在处理数据量较小、维度较低的数据集时取得较为优秀的分类效果，但随着网络容量的扩大，无标签、非线性、高维度的网络拟真数据集纷纷出现，现有检测算法的优势不复存在，算法冗余度高，运算时间长，检测准确率也在不断下降。因此，针对当前网络入侵检测研究中存在的特征维度高、模型适应性不强导致的漏检和误报率高等问题，如何提供一种高效的网络入侵检测方法是亟需解决的问题。

发明内容

为了解决上述技术问题，本发明提出了一种基于大数据分析和自主学习的网络入侵检测方法及系统。

本发明第一方面提供了一种基于大数据分析和自主学习的网络入侵检测方法，包括：

获取目标网络流量数据作为入侵检测数据并进行预处理，将预处理后的目标网络流量数据进行特征重构生成重构数据；

对所述重构数据进行特征提取，获取空间特征及时间特征，将所述空间特征及时间特征进行聚合获取目标网络流量数据对应的流特征；

构建网络入侵检测模型，根据所述流特征利用大数据手段获取具有完备标签信息的相似数据集，根据所述相似数据集进行所述网络入侵检测模型的迁移对抗训练；

训练至损失函数收敛输出训练后的网络入侵检测模型，进行目标网络流量数据的入侵检测分类，获取目标设备对应网络流量数据的历史入侵检测数据，提取入侵流量的隐式特征，进行所述网络入侵检测模型的自主学习更新。

本方案中，获取目标网络流量数据作为入侵检测数据并进行预处理，将预处理后的目标网络流量数据进行特征重构生成重构数据，具体为：

通过在网络边界设置检测设备监控网络流量数据，获取目标网络流量数据作为入侵检测数据，将所述目标网络流量数据进行特征编码及归一化处理，获取预处理后的目标网络流量数据；

利用降噪自编码器构建堆叠自编码器网络，将多个降噪自编码器进行串联组合，上一个降噪自编码器的隐藏层作为下一降噪自编码器的输入层，将预处理后的目标网络流量数据作为堆叠自编码器网络的输入；

通过编码器模块对目标网络流量数据进行特征提取及逐层降维，根据提取的特征计算特征之间的相关性，根据特征之间的相关性构建特征矩阵，基于所述特征矩阵获取特征空间的约束信息；

根据所述约束信息优化堆叠自编码器网络的学习，将提取的特征输入解码器模块进行解码，通过特征维度转换输出目标网络流量数据的重构数据。

本方案中，将所述空间特征及时间特征进行聚合获取目标网络流量数据对应的流特征，具体为：

将目标网络流量的重构数据进行划分，获取相同时间步长的重构数据序列，导入两个特征提取分支进行空间特征及时间特征的提取；

通过DASeq2Seq模型构建时间特征提取分支，将重构数据序列导入时间特征提取分支进行特征编码，在DASeq2Seq模型中融合WaveNet循环结构，将划分的若干重构数据序列作为局部特征提取序列；

使用单个的编码器-解码器结构根据前次编码器的隐藏状态及当前特征输入获取当前编码器的隐藏状态，通过循环调用获取全体局部特征提取序列对应的隐藏状态，获取时间特征；

通过DNN网络构建空间特征提取分支，将划分后的若干重构数据序列导入空间特征提取分支，在所述DNN网络中引入注意力机制，对不同重构数据序列对应的特征进行概率加权；

将加权后的特征导入全连接层，输出获取重构数据空间特征，并利用双头自注意力机制获取时间特征及空间特征的自注意力权重，通过所述自注意力权重聚合后获取目标网络流量数据对应的流特征。

本方案中，根据所述流特征利用大数据手段获取具有完备标签信息的相似数据集，根据所述相似数据集进行所述网络入侵检测模型的迁移对抗训练，具体为：

基于优化后的生成对抗网络构建网络入侵检测模型，根据所述流特征生成检索标签，利用大数据手段获取具有完备标签信息的相似数据集，选取相似度最高的数据集作为源域；

将所述网络入侵检测模型的对应的目标网络流量作为目标域，初始化源域及目标域的权重信息，利用编码器网络替换原始生成对抗网络的生成器网络，将目标域及源域的网络流量样本映射到同一特征空间进行特征编码；

获取特征分布后导入判别器网络进行训练，判断对应的特征分布所属的样本数据域，根据源域及目标域对应的错误率更新所述权重信息，通过最小化分类误差进行判别器网络的训练；

根据生成对抗网络的对抗机制，在完成所述判别器网络的训练后根据判断结果进行编码器网络的训练，根据二元交叉熵设置修改后生成对抗网络的损失函数，迭代训练至损失值平稳。

本方案中，在所述网络入侵检测模型中通过残差连接在修改后生成对抗网络后添加分类模块，在所述分类模块中通过全连接层和softmax激活函数进行源域的标签预测；

将源域的标签预测损失与修改后生成对抗网络的损失函数联合，通过反向传播优化网络入侵检测模型的参数，最小化联合损失函数，获取训练后的网络入侵检测模型；

将目标网络流量数据导入所述训练后的网络入侵检测模型，判断目标网络流量数据中是否存在恶意数据，并输出入侵检测分类标签。

本方案中，获取目标设备对应网络流量数据的历史入侵检测数据，提取入侵流量的隐式特征，进行所述网络入侵检测模型的自主学习更新，具体为：

根据网络入侵检测模型获取目标设备对应网络流量数据的历史入侵检测数据，筛选历史入侵检测数据中的历史入侵流量，将所述历史入侵流量根据标签信息划分为多个子集；

获取各个子集对应标签信息的示例入侵流量，并根据所述历史入侵流量获取对应网络流量数据中的邻域流量，在所述邻域流量中进行采样获取邻域样本，计算不同标签信息下邻域样本与示例入侵流量的相似度；

根据所述相似度生成邻域样本属于标签信息的置信度，当所述置信度大于预设阈值时，为邻域样本设置对应标签信息，获取邻域样本与示例入侵流量的重叠度；

当所述重叠度大预设标准时，则将邻域样本归于标签信息对应子集，利用更新后子集对网络入侵检测模型进行自主学习训练，逐渐优化模型。

本发明第二方面还提供了一种基于大数据分析和自主学习的网络入侵检测系统，该系统包括：存储器、处理器，所述存储器中包括基于大数据分析和自主学习的网络入侵检测方法程序，所述基于大数据分析和自主学习的网络入侵检测方法程序被所述处理器执行时实现如下步骤：

附图说明

图1示出了本发明基于大数据分析和自主学习的网络入侵检测方法的流程图；

图2示出了本发明获取目标网络流量数据对应的流特征的流程图；

图3示出了本发明构建网络入侵检测模型的流程图；

图4示出了本发明基于大数据分析和自主学习的网络入侵检测系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明基于大数据分析和自主学习的网络入侵检测方法的流程图。

如图1所示，本发明第一方面提供了一种基于大数据分析和自主学习的网络入侵检测方法，包括

S102，获取目标网络流量数据作为入侵检测数据并进行预处理，将预处理后的目标网络流量数据进行特征重构生成重构数据；

S104，对所述重构数据进行特征提取，获取空间特征及时间特征，将所述空间特征及时间特征进行聚合获取目标网络流量数据对应的流特征；

S106，构建网络入侵检测模型，根据所述流特征利用大数据手段获取具有完备标签信息的相似数据集，根据所述相似数据集进行所述网络入侵检测模型的迁移对抗训练；

S108，训练至损失函数收敛输出训练后的网络入侵检测模型，进行目标网络流量数据的入侵检测分类，获取目标设备对应网络流量数据的历史入侵检测数据，提取入侵流量的隐式特征，进行所述网络入侵检测模型的自主学习更新。

需要说明的是，以网络流作为基本单位来组织网络流量数据，网络流被定义为在一段时间间隔内，具有相同源IP地址、目的IP地址、源端口、目的端口、协议号的一组数据包的集合。通过在网络边界设置检测设备监控网络流量数据，获取目标网络流量数据作为入侵检测数据，将所述目标网络流量数据进行特征编码及归一化处理，例如独热编码及Min-Max归一化方法，获取预处理后的目标网络流量数据；利用降噪自编码器构建堆叠自编码器网络，通过降噪自编码器提高自编码器的鲁棒性，更适合处理实际网络流量监测数据；将多个降噪自编码器进行串联组合，上一个降噪自编码器的隐藏层作为下一降噪自编码器的输入层，将预处理后的目标网络流量数据作为堆叠自编码器网络的输入；所述堆叠自编码器网络分为编码器模块及解码器模块，通过编码器模块对目标网络流量数据进行特征提取及逐层降维，根据提取的特征计算特征之间的相关性，根据特征之间的相关性构建特征矩阵，基于所述特征矩阵获取特征空间的约束信息；根据所述约束信息优化堆叠自编码器网络的学习，惩罚与特征空间中与多数特征相关性较小的特征；将提取的特征输入解码器模块进行解码，通过特征维度转换输出目标网络流量数据的重构数据。

图2示出了本发明获取目标网络流量数据对应的流特征的流程图。

根据本发明实施例，将所述空间特征及时间特征进行聚合获取目标网络流量数据对应的流特征，具体为：

S202，将目标网络流量的重构数据进行划分，获取相同时间步长的重构数据序列，导入两个特征提取分支进行空间特征及时间特征的提取；

S204，通过DASeq2Seq模型构建时间特征提取分支，将重构数据序列导入时间特征提取分支进行特征编码，在DASeq2Seq模型中融合WaveNet循环结构，将划分的若干重构数据序列作为局部特征提取序列；

S206，使用单个的编码器-解码器结构根据前次编码器的隐藏状态及当前特征输入获取当前编码器的隐藏状态，通过循环调用获取全体局部特征提取序列对应的隐藏状态，获取时间特征；

S208，通过DNN网络构建空间特征提取分支，将划分后的若干重构数据序列导入空间特征提取分支，在所述DNN网络中引入注意力机制，对不同重构数据序列对应的特征进行概率加权；

S210，将加权后的特征导入全连接层，输出获取重构数据空间特征，并利用双头自注意力机制获取时间特征及空间特征的自注意力权重，通过所述自注意力权重聚合后获取目标网络流量数据对应的流特征。

需要说明的是，在时间特征提取分支中在DASeq2Seq模型中融合WaveNet循环结构，根据划分的重构数据序列获取局部序列，循环使用编码器解码器结构对局部序列进行特征提取，在各编码器之间传递记忆信息，提高高维序列的长期记忆信息传递能力，提高时间特征的提取精度；

利用深度卷积网络自动学习特征捕捉非线性特征，通过多个卷积核获取重构数据序列中不同位置的特征，并引入注意力机制表征不同位置特征的重要程度，实现重构数据空间特征空间特征的获取。

图3示出了本发明构建网络入侵检测模型的流程图。

根据本发明实施例，根据所述流特征利用大数据手段获取具有完备标签信息的相似数据集，根据所述相似数据集进行所述网络入侵检测模型的迁移对抗训练，具体为：

S302，基于优化后的生成对抗网络构建网络入侵检测模型，根据所述流特征生成检索标签，利用大数据手段获取具有完备标签信息的相似数据集，选取相似度最高的数据集作为源域；

S304，将所述网络入侵检测模型的对应的目标网络流量作为目标域，初始化源域及目标域的权重信息，利用编码器网络替换原始生成对抗网络的生成器网络，将目标域及源域的网络流量样本映射到同一特征空间进行特征编码；

S306，获取特征分布后导入判别器网络进行训练，判断对应的特征分布所属的样本数据域，根据源域及目标域对应的错误率更新所述权重信息，通过最小化分类误差进行判别器网络的训练；

S308，根据生成对抗网络的对抗机制，在完成所述判别器网络的训练后根据判断结果进行编码器网络的训练，根据二元交叉熵设置修改后生成对抗网络的损失函数，迭代训练至损失值平稳。

需要说明的是，利用编码器网络对生成对抗网络的生成器网络进行替换优化，利用大数据获取大量具有完备标签信息的相似数据集作为源域，生成网络入侵检测模型的训练环境；所述目标网络流量数据无法判断是否存在网络入侵流量，无法获取对应的标签信息，将目标网络流量数据作为目标源，进行网络入侵检测分类。将目标域及源域的网络流量样本映射到同一特征空间进行特征编码，根据编码后特征表示进行判别器网络的训练，使其能够分辨出网络流量样本是来自源域还是目标域，完成判别器网络的训练后根据分辨结果训练编码器网络，使得编码后的目标域网络流量样本更容易被判别器网络辨别为源域网络流量样本。利用交叉熵描述优化后生成对抗网络的损失函数，所述优化后生成对抗网络的损失函数表示为：

；

其中，表示网络流量样本总数，/>表示第/>个网络流量样本的类别，分为目标域或源域，/>表示判别器网络分类的第/>个输出。

需要说明的是，在所述网络入侵检测模型中通过残差连接在修改后生成对抗网络后添加分类模块，在所述分类模块中通过全连接层和softmax激活函数进行源域的标签预测，源域的标签预测损失函数为：/>，其中，/>表示类别/>的总数，表示网络流量样本/>属于类别/>的预测概率。将源域的标签预测损失与修改后生成对抗网络的损失函数联合，通过反向传播优化网络入侵检测模型的参数，最小化联合损失函数，获取训练后的网络入侵检测模型；将目标网络流量数据导入所述训练后的网络入侵检测模型，判断目标网络流量数据中是否存在恶意数据，并输出入侵检测分类标签。

需要说明的是，根据网络入侵检测模型获取目标设备对应网络流量数据的历史入侵检测数据，筛选历史入侵检测数据中的历史入侵流量，将所述历史入侵流量根据标签信息划分为多个子集；获取各个子集对应标签信息的示例入侵流量，并根据所述历史入侵流量获取对应网络流量数据中的邻域流量，在所述邻域流量中进行采样获取邻域样本，计算不同标签信息下邻域样本与示例入侵流量的相似度；根据所述相似度生成邻域样本属于标签信息的置信度，当所述置信度大于预设阈值时，为邻域样本设置对应标签信息，获取邻域样本与示例入侵流量的重叠度；当所述重叠度大预设标准时，则将邻域样本归于标签信息对应子集，利用更新后子集对网络入侵检测模型进行自主学习训练，逐渐优化模型，对于网络入侵的检测随着子集的丰富而精度逐渐提高。

根据本发明实施例，获取目标设备对应网络流量数据的历史入侵流量，根据所述历史入侵流量获取与目标网络流量数据的流特征偏差；提取目标网络流量数据对应的指令信息，利用所述指令信息获取交互响应，并获取历史入侵流量的交互响应偏差，将所述流特征偏差与所述交互响应偏差匹配，结合对应的标签信息存入预设数据库；获取当前网络流量数据对应的交互响应偏差，根据获取的交互响应偏差在预设数据库中进行相似度计算，获取预设数据库中相似度最高的结构数据，解码所述结构数据中的标签信息，利用所述标签信息进行当前网络流量数据的入侵流量的预检测与分类。

本发明第二方面还提供了一种基于大数据分析和自主学习的网络入侵检测系统4，该系统包括：存储器41、处理器42，所述存储器中包括基于大数据分析和自主学习的网络入侵检测方法程序，所述基于大数据分析和自主学习的网络入侵检测方法程序被所述处理器执行时实现如下步骤：

需要说明的是，利用编码器网络对生成对抗网络的生成器网络进行替换优化，利用大数据获取大量具有完备标签信息的相似数据集作为源域，生成网络入侵检测模型的训练环境；所述目标网络流量数据无法判断是否存在网络入侵流量，无法获取对应的标签信息，将目标网络流量数据作为目标源，进行网络入侵检测分类。将目标域及源域的网络流量样本映射到同一特征空间进行特征编码，根据编码后特征表示进行判别器网络的训练，使其能够分辨出网络流量样本是来自源域还是目标域，完成判别器网络的训练后根据分辨结果训练编码器网络，使得编码后的目标域网络流量样本更容易被判别器网络辨别为源域网络流量样本。利用交叉熵描述优化后生成对抗网络的损失函数，所述损失函数表示为：

；

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于大数据分析和自主学习的网络入侵检测方法程序，所述基于大数据分析和自主学习的网络入侵检测方法程序被处理器执行时，实现如上述任一项所述的基于大数据分析和自主学习的网络入侵检测方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于大数据分析和自主学习的网络入侵检测方法，其特征在于，包括以下步骤：

训练至损失函数收敛输出训练后的网络入侵检测模型，进行目标网络流量数据的入侵检测分类，获取目标设备对应网络流量数据的历史入侵检测数据，提取入侵流量的隐式特征，进行所述网络入侵检测模型的自主学习更新；

将所述空间特征及时间特征进行聚合获取目标网络流量数据对应的流特征，具体为：

将加权后的特征导入全连接层，输出获取重构数据空间特征，并利用双头自注意力机制获取时间特征及空间特征的自注意力权重，通过所述自注意力权重聚合后获取目标网络流量数据对应的流特征；

根据所述流特征利用大数据手段获取具有完备标签信息的相似数据集，根据所述相似数据集进行所述网络入侵检测模型的迁移对抗训练，具体为：

根据生成对抗网络的对抗机制，在完成所述判别器网络的训练后根据判断结果进行编码器网络的训练，根据二元交叉熵设置修改后生成对抗网络的损失函数，迭代训练至损失值平稳；

获取目标设备对应网络流量数据的历史入侵检测数据，提取入侵流量的隐式特征，进行所述网络入侵检测模型的自主学习更新，具体为：

2.根据权利要求1所述的一种基于大数据分析和自主学习的网络入侵检测方法，其特征在于，获取目标网络流量数据作为入侵检测数据并进行预处理，将预处理后的目标网络流量数据进行特征重构生成重构数据，具体为：

3.根据权利要求1所述的一种基于大数据分析和自主学习的网络入侵检测方法，其特征在于，在所述网络入侵检测模型中通过残差连接在修改后生成对抗网络后添加分类模块，在所述分类模块中通过全连接层和softmax激活函数进行源域的标签预测；

4.一种基于大数据分析和自主学习的网络入侵检测系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括基于大数据分析和自主学习的网络入侵检测方法程序，所述基于大数据分析和自主学习的网络入侵检测方法程序被所述处理器执行时实现如下步骤：

5.根据权利要求4所述的一种基于大数据分析和自主学习的网络入侵检测系统，其特征在于，在所述网络入侵检测模型中通过残差连接在修改后生成对抗网络后添加分类模块，在所述分类模块中通过全连接层和softmax激活函数进行源域的标签预测；