CN116582301A

CN116582301A - 基于拉普拉斯金字塔的工控网络异常流量检测方法和系统

Info

Publication number: CN116582301A
Application number: CN202310407079.9A
Authority: CN
Inventors: 路松峰; 张九鼎; 狄明宇; 朱建新; 吴俊军; 孙思琪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-08-11
Anticipated expiration: 2043-04-17
Also published as: CN116582301B

Abstract

本发明公开了一种基于拉普拉斯金字塔的工控网络异常流量检测方法，属于网络安全检测领域。本发明引入拉普拉斯金字塔、自监督学习和Transformer模型；通过拉普拉斯金字塔，对网络流量的不同尺度特征进行分析和处理，更好地理解网络流量的本质特征，实现更加精细准确的网络流量处理和分析。通过自监督学习，充分提取无标注数据集中的有用信息，提升了模型特征提取能力，通过少量有标注数据集对模型进行微调实现在少量数据集上的高性能。Transformer模型的网络框架，能够并行处理数据，降低模型各层之间的通讯开销，提高模型速度，而且该模型中自注意力机制实现了以往神经网络中难以实现的全局感知和高拟合能力，提升了模型在面对具有复杂特征数据时的表现。

Description

基于拉普拉斯金字塔的工控网络异常流量检测方法和系统

技术领域

本发明属于网络安全检测技术领域，更具体地，涉及一种基于拉普拉斯金字塔的工控网络异常流量检测方法和系统。

背景技术

随着互联网的发展，网络已经成为了当今社会的基础设施之一。网络在承载越来越多的信息的同时还收到了越来越多的攻击。这种攻击占用服务器资源，影响了客户端的服务质量，某些特殊的攻击方法甚至会导致敏感信息的泄露。性能良好的防火墙能阻挡大部分恶意流量的攻击，保证互联网服务免受恶意流量的影响。传统的防火墙通过大量的规则实现，这些规则在多样的攻击手段下很容易失效。目前基于机器学习的方法则能通过大量数据进行模型学习，生成能识别复杂恶意流量攻击的模型。但目前基于机器学习的方法有还存在以下的问题：

(1)数据集问题

数据质量的高低是决定使用机器学习算法获得预测结果质量高低的重要因素。一般情况下训练模型的时候使用的大部分数据集都是平衡的，在有标签的数据中，每一类别通常有数目相同的样本。但是实际中的数据集的分布与已有的有标签数据集在数据量、数据分布上都会有一定的不同。

除了数据分布情况会存在差异，目前大部分基于机器学习的方法都是假定有足够的标记数据来训练模型，但是在实际应用场景中，获取标签数据需要花费较大成本，甚至很难获取到有标签数据。大部分数据都是无标签的，这样的问题将导致已有方法不适用，不足以训练出可靠的模型。

(2)单次运算只能实现局部感知，感知范围越大计算量越大

基于卷积的神经网络受感受野限制，只能实现局部特征提取，想要实现全局范围的感受野要通过使用多个卷积层或者大的卷积核实现。基于循环神经网络的结构在理论上有全局感受能力，但在实际应用中会出现梯度爆炸和梯度消失，实际上不能实现全局感知，即便对其进行了改进，比如使用长短时记忆模型，也只是改善了这一现象，不能从根本上实现全局感知。

(3)拟合能力弱

传统的神经网络架构，比如多层感知机，卷积等，他们实际上对数据进行了加权特征提取，这些权值是固定的，不随数据改变而改变，这种情况下神经网络不灵活，对数据的拟合能力弱。在真实数据中，不同位置或者是不同通道的特征所需的权值并不相同，使用传统的神经网络架构需要通过复杂的组合才能实现这一功能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于拉普拉斯金字塔的工控网络异常流量检测方法和系统，其目的在于提高检测恶意流量攻击的机器学习模型在现实条件下的识别与分类性能。

为实现上述目的，本发明提供了一种基于拉普拉斯金字塔的工控网络异常流量检测方法，包括：

S1.采集实际环境中的数据包并进行特征提取；

S2.构建异常流量检测网络；所述异常流量检测网络包括拉普拉斯金字塔、重编码模块、混合模块、分类模块；所述重编码模块由多个Transformer模块串联构成；所述混合模块由多个混合单元串联构成；

所述拉普拉斯金字塔，用于将原始数据分解为至少两个不同分辨率的特征；所述重编码模块，用于对不同分辨率的特征进行多次重编码；所述混合模块，用于对不同分辨率的特征进行多次混合；所述分类模块，用于对混合特征进行重映射和分类；

S3.利用公开已标注数据集对异常流量检测网络进行训练；

S4.实时抓取数据包并进行统计特征提取，使用训练好的异常流量检测模型对特征进行分类。

进一步地，步骤S3之前，所述方法还包括：利用真实数据集对异常流量检测网络进行预训练。

进一步地，所述Transformer模块包括位置编码、通道注意力与局部卷积模块和MLP；

其中，通道注意力与局部卷积模块，用于对同一或不同分辨率的特征进行混合。

进一步地，所述混合单元包括重采样单元、通道注意力与局部卷积单元。

进一步地，在步骤S1特征提取之前，将数据包的特征值大于255的数据项取对数。

进一步地，所述分类模块包括重映射单元和Softmax分类器。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

相较于传统入侵检测算法，本发明异常检测网络引入了拉普拉斯金字塔，以及Transformer模型；通过拉普拉斯金字塔，对网络流量的不同尺度特征进行分析和处理，实现了多尺度建模，从而更好地理解网络流量的本质特征，实现更加精细和准确的网络流量处理和分析，且计算量比使用傅里叶变换小；采用Transformer模型的网络框架，能够并行处理数据，降低了模型各层之间的通讯开销，提高了模型速度，而且该模型中自注意力机制实现了以往神经网络中难以实现的全局感知和高拟合能力，模型的训练速度和准确度有一定的提高，提升了模型在面对具有复杂特征数据时的表现。

本发明通过自监督学习，充分提取无标注数据集中的有用信息，扩大可用数据集的来源，提升了模型提取特征的能力，再通过少量有标注数据集对模型进行微调实现在少量数据集上的高性能，提高了模型在现实条件下的识别与分类性能。

附图说明

图1是对数据包进行特征提取示意图；

图2是拉普拉斯金字塔结构图。

图3是本发明提供的异常流量检测网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

传统的防火墙通过大量的规则实现，这些规则在多样的攻击手段下很容易失效。目前基于机器学习的方法则能通过大量数据进行模型学习，生成能识别复杂恶意流量攻击的模型。基于机器学习的模型总体而言可以分为两类：词袋模型、N-gram模型、决策树等传统模型，和采用人工神经网络方法的深度学习模型及卷积神经网络、递归神经网络等变种。

工控网络中的防火墙通过机器学习模型提取网络流量特征，从而实现对恶意流量的过滤。在建立机器学习模型的过程中需要注意三个方面：数据集方面，训练时使用的数据只有来自公开数据集的才是有标签的，来自真实情况的数据集无标签；拟合情况方面，数据特征简单，使用大模型可能会出现过拟合现象；实际要求方面，防火墙要有足够的准确性以满足使用要求。

经典的机器学习分类器如LR，NB，KNN，DT，SVM中，SVM在该问题上的表现更好一些。但有监督的深度学习方法，如递归神经网络(RNN)、卷积神经网络(CNN)，与经典的机器学习分类器相比都有更好的效果。

在大多数情况下，与浅网络相比，深度网络在区分连接记录是正常的还是攻击的方面表现得很好，此外，在将攻击分类到相应的攻击类别方面也表现得很好。其主要原因是，深度网络通过多个层传递信息，每一层的非线性有利于学习正常连接记录和攻击连接记录之间的可区分模式。

例如，CNN广泛应用于计算机视觉领域，CNN及其不同的体系结构表现得非常好，主要是由于CNN具有提取高级特征表示的能力，通过滤波，逐层提取复杂的特征。复杂特征是由一组较低层次的(简单的)特征组成的层次特征表示，而较低层次的特征是由一组更低层次的特征组成的。分层特征表示允许CNN学习不同抽象级别的数据。单个或一组卷积和池化操作以及一个非线性激活函数是CNN的主要组成部分。对于较复杂的网络会产生过拟合的问题，简单的CNN网络对“normal”、“dos”、“probe”等高频攻击表现出最佳的检测性能，只是需要更多的时间，才能达到对低频攻击的可观检测率。对于CNN的过拟合的问题，只能通过数据扩增(data augmentation)在一定程度减轻过拟合现象，但没有彻底的解决这个问题。

RNN与前馈网络(FFNs)相似，只是过去的状态信息影响当前的状态。从一个单元到它的循环连接有助于根据它的当前和过去的信息在特定的时间步骤上存储和更新值。此外，传统的FFN对每个输入特征采用不同的参数，而RNN则跨时间步采用相同的参数。RNN中的共享参数有助于其对序列中的位置、长度等特征进行泛化，在时滞上存储长期依赖的信息，并通过连续的连接序列信息进行调整，从而使RNN体系结构的分类器的误报率较低。RNN和它的延伸模型(CWRNN、IRNN等)对“DoS”和“Probe”攻击表现出了有效的性能，IRNN网络对正常和DoS的检出率最高。这是因为它们形成了一个独特的网络事件时间序列。但是在大多数情况下，低频攻击类别只产生一条连接记录。当这些低频攻击的信息隐藏在其他连接记录中时，提取这些低频攻击显得很困难。此外，当网络的训练次数增多时，检出率会出现波动和降低，这主要是由于过度拟合。它特别表明网络记住了数据集中的数据，这将导致训练出的模型的泛化性能低。

除了CNN与RNN，还有一种深度神经网络(DNN)，将NIDS(NETWORK-BASED INTRUSIONDETECTION SYSTEMS)和HIDS(HOST-BASED INTRUSION DETECTION SYSTEMS)相结合，作为有效的IDS来检测和分类不可预见和不可预测的网络攻击。DNN体系结构，由输入层、5个隐藏层和一个输出层组成。DNN中的分层结构有利于提取高度复杂的特征，对IDS数据具有更好的模式识别能力。每一层估计传递给下一层的非线性特征，DNN中的最后一层执行分类。在准确性方面，DNN的性能明显优于经典的机器学习算法，通常在二进制和多类分类中都有很大的优势。但DNNs的体系结构复杂，需要大量的计算成本，并且没有完全学会区分′U2R′和′R2L′连接记录的最优特征，需要附加的特征才能正确地对其进行分类。

本发明的目的在于使用更广泛的数据集训练模型，同时还使用拟合能力更强和能对上下文进行有效建模的模型，以便得到稳定性更好，识别能力强的模型，以提高在真实数据集上的表现。

本发明方法具体包括以下步骤：

S 1.抓取实际环境中的数据包并对数据包进行特征提取；

首先进行流量数据收集，记录数据包的特征值，将取值可能大于255的数据项的取对数，以将近似指数分布的流量数据转换为线性分布，减少信息损失，多类别的数据进行Word2Vec转换为向量，最后将数据进行归-化。

按TCP/IP网络层次和协议处理收集到的流量数据。主要有以下四种处理：数据链路层处理：拆解数据链路层数据帧的封装，对其特有的封装方式，从地址信息和控制信息中提取具有统计意义的特征。

IP报文处理：拆解IP数据包首部，提取数据包中首部长度、数据包总长度、标志位、标识位、片偏移、首部、源地址和目的地址等信息，然后针对这些关键信息提取出有统计意义的特征。

TCP/UDP/ICMP等报文头处理：对传输层和网络层的不同种类的协议，分别拆解数据包，从其控制信息和传输行为特征中提取出具有统计意义的特征。例如针对TCP报文，从其TCP首部控制信息和建立连接、断开连接、超时重传、拥塞控制等传输行为特征可以分析出具有统计意义的特征。

HTTP等应用层报文头处理：按应用层协议处理流量数据，例如HTTP协议：

对于客户端请求request报文，从其报文头部中的GET字段、User-Agent字段、Host字段和Accept-Language字段中提取有效特征信息。

对于服务端响应response报文，从其报文头部中的Date字段、Server字段、Last-Modified字段、ETag字段、Accept-Ranges字段、Content-Length字段、Vary字段和Content-Type字段中提取有效特征信息。

将处理流量数据得到的统计特征综合计算，然后与当前已知或者已收集的统计特征进行比对，区分出正常的数据流量和异常的数据流量。总体来说有4类特征值：TCP连接基本特征共9种，包含了一些连接的基本属性，如连续时间，协议类型，传送的字节数等；TCP连接的内容特征共13种；基于时间的网络流量统计特征共9种；基于主机的网络流量统计特征共10种。

对于得到的数据进行处理，提取所有的符号型数据包括标签，将其转换为离散值。使用Word2vec中的CBOW模型进行学习，最终得到离散值的向量表示。将其余数据中分布范围大于100的数据取对数y＝log_ax，其中a是对数的底数，而y是x(对于底数a)的对数，其中底数a的定义域为{a|a≠0&&a≠1}。

之后使用线性函数将原始数据线性化转换到[0，1]的范围，实现对原始数据的等比例缩放。归一化公式如下：

其中X_norm为归一化后的数据，X为原始数据，X_max、X_min分别为原始数据集的最大值和最小值。

4类共41种特征值，具体特征描述见下表：

步骤S2.构建图2所示的深度学习网络结构

深度学习网络中数据处理过程可以概括为以下几个步骤：

输入的数据G0通过图3所示高斯模糊和下采样得G1 G2 G3 G0’ G1’ G2’，然后通过简单运算得到四层拉普拉斯金字塔：L0＝G0-reshape(G1)、L1＝G1-reshape(G2)、L2＝G2-reshape(G3)、L3＝G3。

数据重编码：将原始数据通过拉普拉斯金字塔分成四个不同分辨率的层次，每个层次的数据经过一个相同或不同的Transformer模块进行重编码，其中Transformer模块包括位置编码、通道注意力与局部卷积和MLP，在使用相同Transformer模块时参数在不同层次间共享；相比在时间维度上进行注意力计算，在通道方向上能够节省计算量，减小网络参数，节省模型部署所需空间；同时可以不做修改使用同一模块计算不同分辨率的数据实现上述使用同一个Transformer模块对不同层次的数据进行重编码。

多次数据重编码：经过若干次数据重编码，以生成更具抽象性和丰富性的特征。

层次混合：对于每个层次，将来自本层次和其他不同层次的特征组合起来，以使得模型通过不同分辨率的特征重建用来分类的信息，再通过″通道注意力与局部卷积″模块进行重编码。

多次层次混合：经过若干次层次混合，以生成更具抽象性和丰富性的特征。

最终分类：将金字塔中最低层次的重编码后的数据通过一个MLP和softmax进行分类，得到一串分类结果。

该过程的目的是生成更具抽象性和丰富性的特征，以提高分类准确性。重编码和层次混合是为了在保留原始数据特征的基础上，增加数据特征的多样性和准确性，而多次重复这个过程则是为了进一步增加数据特征的抽象性和准确性。最后通过MLP和softmax进行分类，得到最终的结果。

步骤S3.利用公开已标注数据集对异常流量检测网络进行训练；

为了让模型可以更好地学习到数据特征，为后续的任务提供更好的特征表示，在训练之前先使用自监督对比学习模型对真实数据包和KDD99数据集中的数据进行预训练，具体流程如下：将真实采集的数据集和KDD99数据集输入到数据采样器；数据采样器根据数据特征依频率采样数据，并将采样得到的样本数据传入编码器和动量编码器；编码器和动量编码器分别处理其收到的样本数据，其中编码器将样本数据编码为特征向量b，动量编码器将样本数据编码为特征向量c；将特征向量b和c代入对比损失函数，计算得到对比损失；根据对比损失进行梯度回传，将对比损失值传入编码器并调整编码器。

将预训练好的模型在KDD99数据集上进行微调得到最终模型，调整流程：重置编码器中用于分类的部分，以适应KDD99数据集的分类任务；将KDD99数据集中的数据输入到已预训练的编码器，以进行特征提取和编码；使用已预训练的编码器编码处理KDD99数据集中的原始数据，得到KDD99数据对应的分类结果；将KDD99数据集中的标签和分类结果代入到损失函数中，计算得出损失值，然后将反向传播。

模型训练时使用学习率规划器，在使用梯度下降算法的机器学习模型中，相比于固定的学习率，使用自适应的学习率可以提升模型的性能并缩短训练时间。因此，学习率规划器也被称为学习率的模拟退火或自适应学习率，在本发明中统一称为学习率规划器。默认情况下，学习率规划器将在整个数据集上的每个批次训练结束后，使用相同的学习率来更新权重。在训练过程中，最简单的调整学习率的方法是随着时间的推移不断降低学习率。通常在训练开始时，使用较大的学习率可以快速使模型达到较好的性能，随后通过衰减学习率使模型的权重更好地逼近最优配置。

步骤S4.实时抓取数据包并进行统计特征提取，使用模型对特征进行分类，记录非正常数据包的特征。

获取数据：通过socket技术获取网络中的实时流量数据包；根据不同的流量特征和不同的协议通信方式，将流量数据包分类；将分类后的流量数据包存入数据库；归档不同时间段的数据库数据；为提高效率，不单独处理每个流量数据包，而是分析数据库中同一时间段内和不同时间段间的流量数据包特性。

统计特征提取和分类，使用缓存提高防火墙性能：数据输入到缓存队列中，按顺序依次处理缓存中的流量数据；首先将缓存中的流量数据按模型分类，然后将分类后的流量数据传入到异常流量控制系统；异常流量控制系统使用记录日志记录每一条流量是否有异常，若有，则记录具体异常，并且通知缓存流量数据是否异常和是否需要丢弃数据；将缓存中未丢弃的正常的流量数据输出。

分类及后续处理：采用时间序列和深度学习方法分析数据库中同一时间段内和不同时间段间的流量数据包特性，将正常的流量数据包过滤，对于异常的流量数据包，将其存入特定的数据库；定期通过邮件、web页面告警等方式向管理员汇报异常流量数据包的数量和类别等特征。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于拉普拉斯金字塔的工控网络异常流量检测方法，其特征在于，包括：

S1.采集实际环境中的数据包并进行特征提取；

S3.利用公开已标注数据集对异常流量检测网络进行训练；

2.根据权利要求1所述的一种基于拉普拉斯金字塔的工控网络异常流量检测方法，其特征在于，步骤S3之前，所述方法还包括：利用真实数据集对异常流量检测网络进行预训练。

3.根据权利要求2所述的一种基于拉普拉斯金字塔的工控网络异常流量检测方法，其特征在于，所述Transformer模块包括位置编码、通道注意力与局部卷积模块和MLP；其中，所述通道注意力与局部卷积模块，用于对同一或不同分辨率的特征进行混合。

4.根据权利要求2或3所述的一种基于拉普拉斯金字塔的工控网络异常流量检测方法，其特征在于，所述混合单元包括重采样单元、通道注意力与局部卷积单元。

5.根据权利要求2所述一种基于拉普拉斯金字塔的工控网络异常流量检测方法，其特征在于，在步骤S1特征提取之前，将数据包的特征值大于255的数据项取对数。

6.根据权利要求4所述的一种基于拉普拉斯金字塔的工控网络异常流量检测方法，其特征在于，所述分类模块包括重映射单元和Softmax分类器。

7.一种基于拉普拉斯金字塔的工控网络异常流量检测系统，其特征在于，包括：处理器；所述处理器与存储器耦合，所述存储器用于存储计算机程序或指令，所述处理器用于执行存储器中的所述计算机程序或指令，使得权利要求1-6任一项所述的一种基于拉普拉斯金字塔的工控网络异常流量检测方法被执行。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至6任一项所述的一种基于拉普拉斯金字塔的工控网络异常流量检测方法。