CN116628612A

CN116628612A - 一种无监督异常检测方法、装置、介质及设备

Info

Publication number: CN116628612A
Application number: CN202310622475.3A
Authority: CN
Inventors: 尹春勇; 赵峰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-22

Abstract

本发明公开了一种无监督异常检测方法、装置、介质及设备，获取未知类别的网络流量文本数据，将未知类别的网络流量文本数据输入到预先训练好的基于双层注意力机制和变分自编码器的无监督异常检测模型，通过基于双层注意力机制和变分自编码器的无监督异常检测模型输出异常文本数据；基于双层注意力机制和变分自编码器的无监督异常检测模型包括依次线性连接的输入层、输入注意力层、卷积神经网络层、变分自编码器、输出层；变分自编码器包括依次线性连接的编码器、特征注意力层和解码器。优点：在变分自编码器的基础上加入了双层注意力机制，可以兼顾全局和局部信息，自适应选择更重要的序列，以便于更好地捕获网路流量的长期依赖性。

Description

一种无监督异常检测方法、装置、介质及设备

技术领域

本发明涉及一种无监督异常检测方法、装置、介质及设备，属于数据处理技术领域。

背景技术

随着网络技术的发展和普及，网络已经成为人们日常生活和工作中必不可少的一部分。网络的发展给人们带来了很多便利，但同时也带来了很多安全问题。其中，网络攻击和网络流量异常现象是网络安全问题中的两个主要方面。网络攻击是指针对网络中的计算机、服务器、应用程序或网络基础设施进行的恶意攻击行为，而网络流量异常则是指网络中出现的不符合正常流量模式的流量。

网络流量异常检测是指在网络流量中检测和识别不符合正常流量模式的流量，并对其进行处理和管理的技术。网络流量异常检测的主要目的是保护网络的安全和稳定，避免网络中出现异常行为，保障网络资源的有效利用。在网络中，流量异常可能是由于网络攻击、系统故障、设备失效、流量突增等原因导致的，如果不及时进行检测和处理，将会对网络的正常运行产生很大的影响。因此，网络流量异常检测技术已经成为网络安全领域中的一个重要研究方向。

这些年来许多研究者使用机器学习技术去检测网络流量中的异常。在基于统计的方法中，提出通过从大量的历史数据中提取统计特征来构建统计模型。数据中那些与统计模型不匹配的序列往往被识别为异常，这种方法非常简单，但由于准确率较低，不能够很好地检测出异常。在基于概率的方法中，提出隐马尔可夫模型和贝叶斯网络，这种方法假设正常观测值满足特定的概率密度分布，并使用似然值作为异常检测的度量，但是该方法中参数的估计往往是非常复杂的。在近似值的文献中，提出k近邻算法(K-Nearest Neighbor,KNN)和局部离群因子(Local Outlier Factor,LOF)。但是这种方法较为简单，没有考虑到时序数据既有的时间相关性。因此，该种方法不适用于高维数据。目前，由于深度学习方法具有很好地处理网路流量相关性中非线性的能力和出色的学习能力被广泛的应用到网路流量的异常检测。基于深度学习的算法主要有卷积神经网络(ConvolutionalNeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(LongShort-Term Memory，LSTM)、注意力机制等。然而这些深度学习方法需要大批标签数据进行模型的训练，但是网络流量往往缺乏标签，而人工去对数据集进行标记的代价是漫长且昂贵的。因此，设计一种不严重依赖标签数据的方法模型是至关重要的。

目前现有技术存在的问题：传统的深度学习异常检测方法通常基于有监督学习，这类方法往往需要大量的标注数据进行训练，这些数据需要专业人员进行标注，因此需要花费大量的时间和成本；由于有监督学习是在标注数据集上进行训练的，它很容易受到训练数据的影响而出现过拟合，导致模型在未知数据上的泛化能力较弱；当前较多的网络流量异常检测方法忽略了网络流量特有的时间相关性、空间特性和数据前后之前的关系特点，这样会导致检测的准确率不高。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种无监督异常检测方法、装置、介质及设备，能够进行自动、高效、准确地进行网络流量异常检测。

为解决上述技术问题，本发明提供一种无监督异常检测方法，包括：

获取未知类别的网络流量文本数据，将所述未知类别的网络流量文本数据输入到预先训练好的基于双层注意力机制和变分自编码器的无监督异常检测模型，通过所述基于双层注意力机制和变分自编码器的无监督异常检测模型输出异常文本数据；

所述基于双层注意力机制和变分自编码器的无监督异常检测模型包括依次线性连接的输入层、输入注意力层、卷积神经网络层、变分自编码器、输出层；所述变分自编码器包括依次线性连接的编码器、特征注意力层和解码器。

进一步的，在将所述未知类别的网络流量文本数据输入到预先训练好的基于双层注意力机制和变分自编码器的无监督异常检测模型之前，对所述未知类别的网络流量文本数据依次进行数据清洗、重采样、数值化、归一化处理，得到归一化后的未知类别的网络流量文本数据。

进一步的，所述通过所述基于双层注意力机制和变分自编码器的无监督异常检测模型输出异常文本数据，包括：

对通过输入层输入的归一化后的未知类别的网络流量文本数据利用输入注意力层进行加权处理，得到加权后的网络流量文本数据；

将加权后的网络流量文本数据输入卷积神经网络层进行计算，提取未知类别的网络流量文本数据的空间特性；

利用所述编码器对所述未知类别的网络流量文本数据的空间特性进行降维处理同时提取所述未知类别的网络流量文本数据的空间特性的时间相关；

利用特征注意力层对降维得到的所述时间相关进行加权，得到二次加权后的筛选数据；

将所述筛选数据输入到所述解码器进行解码，通过所述输出层输出解码数据，对解码数据计算重构误差，重构误差大于预设阈值的作为异常文本数据。

进一步的，所述基于双层注意力机制和变分自编码器的无监督异常检测模型的训练过程包括：

收集各种类型的网络流量数据样本，包括正常网络状态下的正常网络流量数据样本以及各预设异常类型下的异常网络流量数据样本；

对收集的各种类型的网络流量数据样本进行数据清洗、重采样、数值化、归一化处理，得到网络流量数据集；

对所述网络流量数据集进行划分，划分为训练集、测试集；

构建基于双层注意力机制和变分自编码器的无监督异常检测模型；

对所述双层基于注意力机制和变分自编码器的无监督异常检测模型的初始参数以及超参数进行设置，得到搭建好的无监督异常检测模型；

将训练集的数据输入到搭建好的无监督异常检测模型进行训练，并用验证集对搭建好的无监督异常检测模型的异常检测准确率进行检测，获取搭建好的无监督异常检测模型的最优参数，根据最优参数得到训练好的基于双层注意力机制和变分自编码器的无监督异常检测模型。

进一步的，所述卷积神经网络层的卷积运算过程表示为：

其中，C_ij ^l为第l卷积层的卷积运算结果，l为卷积层数量，i为特征值的索引，j为特征图的索引，表示为前一个卷积层中第m个滤波器的卷积核权重，/>表示前一个卷积层中第i+m-1个网络数据流量，b_j ^l-1表示前一个卷积层中第j个特征图的偏置，M表示卷积层中滤波器的大小，σ为激活函数。

进一步的，所述双层注意力机制的计算过程表示为：

其中，和/>是可学习的网络参数，k表示当前所在节点，/>表示当前第k个节点，注意力得分e_t取决于当前的输入和当前隐藏层状态，随后通过SoftMax函数进行归一化得到权重α_t，e_k表示在节点k时算出的注意力得分，t表示时间步长，/>表示加权后的时间序列，x＝{x₁,x₂,···,x_t}为网络流量文本数据X中的网络数据流量，x_t为网络数据流量中的第t个数据量。

进一步的，将加权后的时间序列输入到有Bi-GRU为基础架构的变分自编码器进行计算的过程表示为：

其中，Z_t为更新门，r_t为重置门，W_z和W_r为权重矩阵，σ为sigmoid激活函数，表示过去的时间，r表示重置门的信息，W为可学习的网络参数；

所述变分自编码器中的代价函数为：

其中，L_rec(θ)为均方误差损失函数，D_KL表示散度，表示根据给定的样本x_i和网络参数/>计算出的潜在变量z的后验分布，p(z)表示先验分布。

一种无监督异常检测装置，包括：

获取模块，用于获取未知类别的网络流量文本数据；

模型处理模块，用于将所述未知类别的网络流量文本数据输入到预先训练好的基于双层注意力机制和变分自编码器的无监督异常检测模型，通过所述基于双层注意力机制和变分自编码器的无监督异常检测模型输出异常文本数据；

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

一种计算机设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

本发明所达到的有益效果：

1、使用由双向门循环单元(Bidirectional-Gated Recurrent Unit，Bi-GRU)构成的变分自编码器来采集数据前后之间的关系特点，并且在模型中加入卷积神经网络来提取网络流量的空间特征，与传统网络流量异常检测方法相比提高的检测准确率。

2、本发明在变分自编码器的基础上加入了双层注意力机制(Dual AttentionMechanism)，它可以兼顾全局和局部信息，自适应选择更重要的序列。以便于更好地捕获网路流量的长期依赖性。

3、由于本发明无需任何标签数据即可进行训练，因此具有很好的灵活性，可以发现那些更微小的异常。此外本发明适用于高维度数据的处理，能够有效的处理数据之间的复杂关系。

附图说明

图1为基于双层注意力机制和变分自编码器的异常检测模型结构图；

图2为GRU结构图；

图3为Bi-GRU结构图；

图4为注意力机制结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种无监督异常检测方法，包括：获取未知类别的网络流量文本数据，将所述未知类别的网络流量文本数据输入到预先训练好的基于注意力机制和变分自编码器的无监督异常检测模型，通过所述基于双层注意力机制和变分自编码器的无监督异常检测模型输出异常文本数据。

如图1所示，所述基于双层注意力机制和变分自编码器的无监督异常检测模型包括依次线性连接的输入层、输入注意力层、卷积神经网络层、变分自编码器、输出层；所述变分自编码器包括依次线性连接的编码器、特征注意力层和解码器

得到所述训练好的基于注意力机制和变分自编码器的无监督异常检测模型的过程包括：

步骤1数据采集。

1.1收集不同类型的网络流量数据样本，其中包括正常网络状态下的正常网络流量数据和各种预设异常类型下的异常网络流量数据。

步骤2数据预处理。

2.1对每个网络流量数据样本进行预处理，包括数据清洗、数值化、重采样和归一化，最终构建预处理后的网络流量数据集。

步骤3数据准备。

3.1对数据集进行划分，将数据集划分为训练集、测试集和验证集，其占比为3：1：1。

步骤4模型初始化。

4.1搭建基于双层注意力机制和变分自编码器的无监督异常检测模型，并对模型中的参数进行随机初始化。

4.2首先，我们将处理好的数据X＝{x₁,x₂,···,x_i,x_t}作为卷积神经网络的输入，通过计算，卷积层可以通过卷积核或者滤波器计算输入数据的卷积来提取数据的空间特性。卷积运算过程如下：

4.3如图4所示，我们分别在模型的输入阶段和变分自编码的解码器阶段加入了注意力机制，第一阶段选择主要的刺激特征，第二阶段使用分类信息解码刺激。双层注意机制可以选择相关的驱动顺序，增强网路流量的长期依赖性。双层注意力机制可以同时处理全局和局部信息，并捕获不同序列之间的依赖关系。计算过程可以定义如下：

4.4如图3所示，我们将步骤4.3加权后的数据输入到有Bi-GRU为基础架构的变分自编码器中。其中包括一个正向GRU和一个反向的GRU，相对于如图2所示，普通的GRU而言，Bi-GRU可以捕获长距离时间序列前后之间的关系特点和高度复杂的相关性。其计算过程如下：

其中为Z_t更新门，r_t为重置门，W_z和W_r为权重矩阵，σ为sigmoid激活函数。相对于LSTM，GRU没有输入门，它将输入门和遗忘门合二为一变成了更新门，更新门帮助模型决定将多少过去的信息传递到未来。重置门主要决定有多少过去的信息需要遗忘。正是这些门和一致的数据流被称为CEC(Constant Error Carrousel)。它可以保持每个单元稳定，不产生梯度爆炸或者梯度消失。

而编码器可以将输入数据映射到潜在空间中的均值和方差，然后通过随机采样从潜在分布中抽取一个样本，解码器部分将该样本映射回原始数据空间中。代价函数如下：

其中，L_rec(θ)为均方误差损失函数(Mean Squared Error Loss)D_KL表示(Kullback-Leibler)散度，表示根据给定的样本x_i和网络参数/>计算出的潜在变量z的后验分布，p(z)表示先验分布。代价函数/>是由重构误差和潜在变量的先验分布之间的差异所组成的，我们需要最小化这个代价函数。通过对代价函数进行求导，我们可以使用反向传播算法来训练变分自编码器，更新网络参数，最小化代价函数。

步骤5模型训练。

5.1设置模型相关超参数，将模型训练次数Epoch设置为50，将模型训练批次batch_size设置为256，训练时使用的优化器为Adam优化器,损失函数是Mean SquaredError Loss损失函数。

5.2将训练集的数据输入到搭建好的模型中进行训练，并用验证集对模型的异常检测准确率进行检测，验证集的作用主要是用来观察模型是否会出现过拟合或欠拟合的问题；最后，获取模型最优参数。

5.3训练完成后保留模型参数，输入测试集进行测试，此时的模型可以输入未知类别的文本数据实现自动分类。

相应的本发明还提供一种无监督异常检测装置，包括：

获取模块，用于获取未知类别的网络流量文本数据；

相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

相应的本发明还提供一种计算机设备，包括，

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种无监督异常检测方法，其特征在于，包括：

2.根据权利要求1所述的无监督异常检测方法，其特征在于，在将所述未知类别的网络流量文本数据输入到预先训练好的基于双层注意力机制和变分自编码器的无监督异常检测模型之前，对所述未知类别的网络流量文本数据依次进行数据清洗、重采样、数值化、归一化处理，得到归一化后的未知类别的网络流量文本数据。

3.根据权利要求2所述的无监督异常检测方法，其特征在于，所述通过所述基于双层注意力机制和变分自编码器的无监督异常检测模型输出异常文本数据，包括：

4.根据权利要求1所述的无监督异常检测方法，其特征在于，所述基于双层注意力机制和变分自编码器的无监督异常检测模型的训练过程包括：

对所述网络流量数据集进行划分，划分为训练集、测试集；

5.根据权利要求1所述的无监督异常检测方法，其特征在于，所述卷积神经网络层的卷积运算过程表示为：

其中，C_ij ^l为第l卷积层的卷积运算结果，l为卷积层数量，i为特征值的索引，j为特征图的索引，表示为前一个卷积层中第m个滤波器的卷积核权重，/>表示前一个卷积层中第_i+m-1个网络数据流量，/>表示前一个卷积层中第j个特征图的偏置，M表示卷积层中滤波器的大小，σ为激活函数。

6.根据权利要求4所述的无监督异常检测方法，其特征在于，所述双层注意力机制的计算过程表示为：

7.根据权利要求6所述的无监督异常检测方法，其特征在于，将加权后的时间序列输入到有Bi-GRU为基础架构的变分自编码器进行计算的过程表示为：

所述变分自编码器中的代价函数为：

8.一种无监督异常检测装置，其特征在于，包括：

获取模块，用于获取未知类别的网络流量文本数据；

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。

10.一种计算机设备，其特征在于，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。