CN117786570A

CN117786570A - 网络异常流量分类方法、装置、设备和存储介质

Info

Publication number: CN117786570A
Application number: CN202311735161.0A
Authority: CN
Inventors: 邓磊; 钱金
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-29

Abstract

本发明公开了一种网络异常流量分类方法、装置、设备和存储介质，将网络流量数据输入到自编码模型中，以使自编码模型输出重构序列，从而根据重构序列对网络流量数据进行识别，在识别到网络流量数据是异常流量数据时，从自编码模型中提取异常流量数据的隐藏特征输入到分类模型中，以使分类模型输出异常流量数据的分类结果，能准确识别到异常流量的具体类型。另外，由于使用自编码模型的隐藏特征作为异常流量数据的特征，并输入分类模型中进行分类，即在异常流量识别的同时已经对异常流量数据进行了特征提取和降维，因此在使用分类模型进行分类时，无需对异常流量数据进行二次特征提取，直接将隐藏特征作为分类模型的输入，能够提高分类效率。

Description

网络异常流量分类方法、装置、设备和存储介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种网络异常流量分类方法、装置、设备和存储介质。

背景技术

随着信息技术的发展，互联网已经深刻渗透到人们的工作和生活当中，然而伴随着互联网快速发展的同时，网络数据量的不断激增，网络环境的日益复杂，也导致网络安全问题的日渐突出。因此，如何及时检测出网络异常流量，实时保障网络的正常运行，对于维护网络安全具有重要意义。近年来，传统的机器学习算法已经广泛应用到网络异常流量检测中，如LSTM-Attention(Long Short Term Memory--Attention，长短期记忆网络-注意力机制)模型，LSTM是一种RNN(Recurrent Neural Network，循环神经网络)类型的时间序列模型，可以学习长短时期的时序特征，但是由于模型结构的特殊性，无法并行计算，当流量数据过大时，其识别网络异常流量的检测效率低，以及以LSTM-Attention模型作为异常流量分类模型时，也同样存在分类效率低的问题。

发明内容

本发明实施例的目的是提供一种网络异常流量分类方法、装置、设备和存储介质，能准确识别到异常流量的具体类型，以及能够提高异常流量数据的分类效率。

为实现上述目的，本发明实施例提供了一种网络异常流量分类方法，包括：

将网络流量数据输入到自编码模型中，以使所述自编码模型输出所述网络流量数据的重构序列；

根据所述重构序列对所述网络流量数据进行识别；

在识别到所述网络流量数据是异常流量数据时，从所述自编码模型中提取所述异常流量数据的隐藏特征；

将所述隐藏特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

作为上述方案的改进，所述根据所述重构序列对所述网络流量数据进行识别，包括：

计算所述重构序列和所述网络流量数据的序列误差；

当所述序列误差小于或等于预设的误差阈值时，判定所述网络流量数据为正常流量数据；

当所述序列误差大于所述误差阈值时，判定所述网络流量数据为异常流量数据。

作为上述方案的改进，所述自编码模型包括编码器和解码器；其中，所述编码器的输入为所述网络流量数据，所述编码器的输出为所述网络流量数据的隐藏特征，所述解码器的输入为所述隐藏特征，所述解码器的输出为所述网络流量数据的重构序列。

作为上述方案的改进，所述编码器用于计算所述网络流量数据中各个元素的注意力分数，以通过归一化指数函数计算所有注意力分数在预设数值区间内的概率矩阵，并根据所述概率矩阵得到所述网络流量数据的隐藏特征。

作为上述方案的改进，从所述自编码模型中提取所述异常流量数据的隐藏特征后，所述方法还包括：

提取所述异常流量数据的深层特征；

将所述隐藏特征和所述深层特征拼接，得到所述异常流量数据的增强特征；

则，所述将所述隐藏特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果，包括：

将所述增强特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

作为上述方案的改进，所述提取所述异常流量数据的深层特征，包括：

将所述异常流量数据输入到堆叠自编码模型中，以使所述堆叠自编码模型输出所述异常流量数据的深层特征；其中，所述堆叠自编码模型包括所述自编码模型、至少一个编码器和至少一个解码器。

作为上述方案的改进，所述将网络流量数据输入到自编码模型前，所述方法还包括：

对网络流量数据进行数据结构化处理。

为实现上述目的，本发明实施例还提供了一种网络异常流量分类装置，包括：

重构序列生成模块，用于将网络流量数据输入到自编码模型中，以使所述自编码模型输出所述网络流量数据的重构序列；

网络流量数据识别模块，用于根据所述重构序列对所述网络流量数据进行识别；

隐藏特征提取模块，用于在识别到所述网络流量数据是异常流量数据时，从所述自编码模型中提取所述异常流量数据的隐藏特征；

异常流量数据分类模块，用于将所述隐藏特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

为实现上述目的，本发明实施例还提供了一种网络异常流量分类设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的网络异常流量分类方法。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的网络异常流量分类方法。

相比于现有技术，本发明公开的网络异常流量分类方法、装置、设备和存储介质，通过将网络流量数据输入到自编码模型中，以使自编码模型输出重构序列，从而根据重构序列对网络流量数据进行识别，在识别到网络流量数据是异常流量数据时，从自编码模型中提取异常流量数据的隐藏特征输入到分类模型中，以使分类模型输出异常流量数据的分类结果，能准确识别到异常流量的具体类型。另外，由于使用自编码模型的隐藏特征作为异常流量数据的特征，并输入分类模型中进行分类，即在异常流量识别的同时已经对异常流量数据进行了特征提取和降维，因此在使用分类模型进行分类时，无需对异常流量数据进行二次特征提取，直接将隐藏特征作为分类模型的输入，能够提高分类效率。并且，本发明实施例中将流量数据的异常检测过程和分类过程分开进行，可以在检测到异常流量数据时，及时通知、告警或做其他处理，与此同时进行异常流量数据的分类，不会因为要进一步识别流量数据的类型导致延迟拦截或通知，在及时拦截异常流量数据的同时还能准确识别这一异常流量数据的类型。

附图说明

图1是本发明实施例提供的一种网络异常流量分类方法的流程图；

图2是本发明实施例提供的一种网络异常流量分类方法的另一流程图；

图3是本发明实施例提供的对网络流量数据进行数据结构化处理的示意图；

图4是本发明实施例提供的自编码模型的结构示意图；

图5是本发明实施例提供的另一种网络异常流量分类方法的流程图；

图6是本发明实施例提供的堆叠自编码模型的结构示意图；

图7是本发明实施例提供的一种网络异常流量分类装置的结构框图；

图8是本发明实施例提供的一种网络异常流量分类设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种网络异常流量分类方法的流程图，所述网络异常流量分类方法包括：

S1、将网络流量数据输入到自编码模型中，以使所述自编码模型输出所述网络流量数据的重构序列；

S2、根据所述重构序列对所述网络流量数据进行识别；

S3、在识别到所述网络流量数据是异常流量数据时，从所述自编码模型中提取所述异常流量数据的隐藏特征；

S4、将所述隐藏特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

值得说明的是，本发明实施例所述的网络异常流量分类方法可由服务器执行实现，上述步骤S1～S4的详细过程可参考图2，图2是本发明实施例提供的一种网络异常流量分类方法的另一流程图，本发明实施例中预先构建一个自编码模型和一个分类模型，首先利用自编码模型进行网络流量数据的异常数据检测，若是检测到网络流量数据为正常流量数据，则正常转发数据；若是检测到网络流量数据为异常流量数据，进行拦截并通知终端，以及将异常流量数据的隐藏特征输入到分类模型中进行分类，以使分类模型输出异常流量数据的分类结果。

具体地，在执行步骤S1前，所述方法还包括：对网络流量数据进行数据结构化处理。

示例性的，在终端与互联网交互的时候，终端需要向外发送以及接收数据包(或者叫分组，也就是Packet)，可以利用抓包工具(如Wireshark)捕捉到网络上的各种分组信息作为网络流量数据。网络中的网络流量数据是分为多种类型的，如IPv4(InternetProtocol Version 4，互联网协议的第4版)、TCP(Transmission Control Protocol，传输控制协议)、UDP(User Datagram Protocol，面向消息的传输层协议)、ICMP(InternetControl Message Protocol，互联网控制消息协议)等，需要把多种类型网络流量数据转换为机器学习可用的数据表示，以供自编码模型进行数据处理。本发明实施例中通过对网络流量数据进行数据结构化处理的方式，得到可供所述自编码模型进行数据处理的结构化数据。如采用nPrint表示方式对网络流量数据进行数据结构化处理。

示例性的，参见图3，图3是本发明实施例提供的对网络流量数据进行数据结构化处理的示意图，图3所示是nPrint的其中一种配置，它可以接受所有采用了IPv4、TCP、UDP、ICMP的网络流量数据的填入，整个nPrint结构由协议头header和负载Payload组成，每个分段都采用这个协议的最大长度,然后将网络流量数据的二进制表示(1或0)填入nPrint中。如果一个网络流量数据并不具备这部分header,那么就填入“-1”，如网络流量数据未采用UDP协议，则UDP对应分段填入“-1”，该编码方式可以表达所选header的所有特征。

图3所示的第一行数据表示nPrint的格式，包括IPv4、TCP、UDP、ICMP这4个协议头Header和一个负载Payload。其中，“IPv4 480 Feature”表示这一网络流量数据为IPv4类型，且含有480个特征，IPv4协议头的最大长度为60字节；“TCP 480 Feature”表示这一网络流量数据为TCP类型，且含有480个特征，TCP协议头的最大长度为60字节；“UDP 64Feature”表示这一网络流量数据为UDP类型，且含有64个特征，UDP协议头的长度为8字节；“ICMP 64 Feature”表示这一网络流量数据为ICMP类型，且含有64个特征，ICMP协议头的长度为8字节；“Payload n Feature”表示这一网络流量数据的负载，且负载含有n个特征，以及由用户定义字节数，即所述负载的长度根据所述网络流量数据的大小来设置。

图3所示的第二行数据表示nPrint的一种示例，此时所述网络流量数据为TCP+IPv4类型，对应的TCP+IPv4的分段填入二进制数值，而ICMP和UDP对应的分段则全部填入“-1”。图3所示的第三行数据表示nPrint的另一种示例，此时所述网络流量数据为UDP+IPv4类型，对应的UDP+IPv4的分段填入二进制数值，而ICMP和TCP对应的分段则全部填入“-1”。

在本发明实施例中，采用nPrint表示方式对网络流量数据进行数据结构化处理，无论网络流量数据是什么类型，都能准确地转换为一定数据长度的表示，以及对于每个特征(feature)的取值只有-1、0、1这三个数值，不需要做任何标准化计算，能快速处理数据。

具体地，在步骤S1中，将进行完数据结构化处理后的网络流量数据输入到自编码模型中，以使所述自编码模型输出所述网络流量数据的重构序列。

示例性的，自编码是一种提取特征的模型结构方式，它使用一个神经网络模型作为编码器角色，将输入转为一个中间向量，再用一个对称结构的神经网络模型作为解码器角色，将中间向量转为和输入尺寸相同的输出向量。在本发明实施例中，所述自编码模型为Transformer模型，或者也可以使用其他自编码模型，所述Transformer模型的网络结构可参考现有技术，在此不再赘述。

示例性的，在数据中正负样本极不平衡时，所述自编码模型可以直接将正样本输入自编码模型中进行训练。由于自编码模型是将输入同时作为标签来训练，即无监督学习提取特征，正样本数据量(正常流量数据样本)占总样本的绝大部分时，模型学习的是正常流量数据的特征，因此在训练所述自编码模型时不需要做正负样本数量调节。另外，因在实际情况中，网络中存在异常流量数据的情况是很少见的，而正常流量数据是很常见的，故本发明实施例中采用正常流量数据作为正样本去训练所述自编码模型，这样即使存在样本不均衡的情况也不需要做正负样本的数量调节。

具体地，所述自编码模型包括编码器和解码器，其中，所述编码器的输入为所述网络流量数据，所述编码器的输出为所述网络流量数据的隐藏特征(以向量形式表征)，所述解码器的输入为所述隐藏特征，所述解码器的输出为所述网络流量数据的重构序列，参见图4，图4是本发明实施例提供的自编码模型的结构示意图，所述自编码模型具有Attention(注意力)机制，所述编码器用于计算所述网络流量数据中各个元素的注意力分数，以通过归一化指数函数计算所有注意力分数在预设数值区间内的概率矩阵，并根据所述概率矩阵得到所述网络流量数据的隐藏特征。

示例性的，将所述网络流量数据以向量形式作为所述自编码模型的输入数据，如将进行完数据结构化处理后的网络数据转化为输入向量X，将所述输入向量X输入到所述编码器中，所述编码器将输入向量X通过所述自编码模型中编码器的参数矩阵W^Q、W^K、W^V分别变换为Q、K、V矩阵，其中，Q、K、V在语义层面可表示为：Q为query，代表问题，用于匹配；K是key，代表了什么问题，用于被匹配；V是value，代表内容，表示被提取的信息，这一矩阵变换过程本质上可以理解为一个查询问题(query)到一系列键值对(key-value)的映射。通过归一化指数函数可以得到输入向量中各个元素(特征)之间的相关性，得到各个元素之间的注意力(Attention)分数，以及能够得到计算注意力分数在数值区间[0，1]区间的概率矩阵α，其中，归一化指数函数为softmax函数，softmax函数是一种用于计算分类概率的函数，可以计算输入为某一分类的概率。

示例性的，通过归一化指数函数计算所有注意力分数在预设数值区间内的概率矩阵，满足以下公式：

其中，α为所述概率矩阵，d_k表示矩阵K的维度，K表示Transformer中的Key矩阵，T表示矩阵的转置，K^T表示矩阵K的转置，Q表示Transformer中的query矩阵。

示例性的，在得到所述概率矩阵α后，计算所述概率矩阵和价值矩阵(上述V矩阵)的乘积，以所述乘积为所述网络流量数据的隐藏特征Z，在解码器中以所述隐藏向量Z作为输入解码得到重构序列。计算所述隐藏特征Z的过程满足以下公式：

Z＝αV (2)。

具体地，在步骤S2中，计算所述重构序列和所述网络流量数据的序列误差；当所述序列误差小于或等于预设的误差阈值时，判定所述网络流量数据为正常流量数据；当所述序列误差大于所述误差阈值时，判定所述网络流量数据为异常流量数据。

示例性的，对于训练好的自编码模型而言，由于自编码模型在训练时是学习正样本特征，因此输入到自编码模型的网络流量数据若是正常流量数据，则自编码模型能够提取到的重构序列是与原始输入的网络流量数据误差很小的，即此时所述序列误差小于或等于所述误差阈值；若是此时输入的网络流量数据是异常流量数据，则自编码模型无法很好的提取特征，就会导致输出的重构序列会与原始输入的网络流量数据相差很大，即此时所述序列误差大于所述误差阈值。

具体地，所述计算所述重构序列和所述网络流量数据的序列误差，满足以下公式：

λ＝∑(x_output-x_input) (3)；

其中，x_input表示输入所述自编码模型的网络流量数据，x_output表示重构序列，λ为序列误差，当λ≤θ时，判定所述网络流量数据为正常流量数据；当λ＞θ时，判定所述网络流量数据为异常流量数据；其中，θ为所述误差阈值。

在本发明实施例中，用于评估网络流量数据是否为异常流量数据的模型是自编码模型，在正常流量数据样本远大于异常流量数据样本时，可以直接通过历史流量数据(包括正常流量数据样本和异常流量数据样本)对自编码模型进行无监督训练，无需注明训练数据标签，降低了模型的训练成本。

具体地，在步骤S3中，在识别到所述网络流量数据是异常流量数据时，从所述自编码模型中提取所述异常流量数据的隐藏特征Z。

示例性的，对于正常流量数据，服务器进行正常转发。对于异常流量数据，则发出通知和/或拦截，可以通知终端此时网络异常，还可以拦截这一异常流量数据。

具体地，在步骤S4中，将所述隐藏特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。如所述异常流量数据的类型包括DDos(DistributionDenial of Service，分布式拒绝服务攻击)、端口扫描攻击或其他攻击类型。

示例性的，所述分类模型采用CNN(Convolutional Neural Network，卷积神经网络)作为分类模型，所述分类模型由历史异常流量数据训练获得，需要人工标注异常类型，然后输入到分类模型中进行训练。由于在自编码模型中已经对输入的所述网络流量数据进行过位置编码，如基于Transformer模型使用的位置编码包括静态位置编码、动态位置编码、绝对位置编码和相对位置编码，具体编码方式可参考现有技术，在此不再赘述，故所述自编码模型输出的隐藏特征中已经含有位置信息。在传统的RNN(Recurrent NeuralNetwork，循环神经网络)模型中，输入序列(比如一个句子)里的各个token(比如词)按它们在序列中的前后位置被一个一个地处理，每个时间步RNN处理一个token，因此RNN模型严格要求了每个token的位置信息，由于RNN是线性序列结构，会把位置信息编码进去。CNN的卷积核是能保留特征之间的相对位置的，滑动窗口从左到右滑动，捕获到的特征也是如此顺序排列，所以它在结构上已经记录了特征的位置信息，因此不需要进行位置信息编码。在本发明实施例中，由于所述自编码模型输出的隐藏特征中已经含有位置信息，无需再次进行位置编码，所以无需采用处理时序任务的RNN类神经网络进行分类，而是采用CNN作为分类模型。

进一步地，本发明实施例除了可以直接将所述自编码模型中输出的隐藏特征作为所述分类模型的输入数据之外，还可以对所述隐藏特征做进一步数据处理，参见图5，此时在执行完步骤S3后，所述方法还包括：

S31、提取所述异常流量数据的深层特征；

S32、将所述隐藏特征和所述深层特征拼接，得到所述异常流量数据的增强特征；

则，所述步骤S4为：将所述增强特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

示例性的，在所述步骤S31中，将所述异常流量数据输入到堆叠自编码模型中，以使所述堆叠自编码模型输出所述异常流量数据的深层特征；其中，所述堆叠自编码模型的结构可参考图6，所述堆叠自编码模型包括所述自编码模型、至少一个编码器和至少一个解码器。可选地，图6所示堆叠模型采用了两个编码器和两个解码器，由于在将所述异常流量数据输入到所述堆叠模型中时，会经过多个编码器的特征提取，因此能够提取得到异常流量数据的更多特征，然后提取位于结构中间的自编码模型内部的隐藏特征作为深层特征，最后将步骤S3得到的隐藏特征和所述深层特征拼接，得到所述异常流量数据的增强特征。另外，所述堆叠模型中解码器的作用是为了输出所述异常流量数据的输出特征，这一输出特征后续也会与作为堆叠模型输入数据的异常流量数据进行误差判定，若是存在误差或者误差比较大，则表示这一堆叠模型需要更新参数，从而使得堆叠模型在后续能够稳定提取特征，使得输入数据和输出数据能够相同或者仅存在很小误差，进而提高模型精度。

进一步地，将所述隐藏特征和所述深层特征进行拼接是为了丰富提取的特征，多层次的特征可以提供更多的信息，在分类时具有更好的分类效果。值得说明的是，特征向量拼接是一种常见的组合特征的方式，多见于残差连接中，具体拼接方式可参考现有技术，在此不再赘述。

在本发明实施例中，可以直接将自编码模型中的隐藏特征作为所述分类模型的输入数据，或者对这一隐藏特征进行数据增强后再作为所述分类模型的输入数据，直接将隐藏特征作为所述分类模型的输入数据的方式，由于不需要再对隐藏特征做数据处理，检测效率较佳，而对隐藏特征进行数据增强的方式，由于需要对隐藏特征进一步数据处理，虽然检测效率较慢，但是可以提取丰富的特征，达到更好的分类效果，提高了分类准确率。

相比于现有技术，本发明公开的网络异常流量分类方法，通过将网络流量数据输入到自编码模型中，以使自编码模型输出重构序列，从而根据重构序列对网络流量数据进行识别，在识别到网络流量数据是异常流量数据时，从自编码模型中提取异常流量数据的隐藏特征输入到分类模型中，以使分类模型输出异常流量数据的分类结果，能准确识别到异常流量的具体类型。另外，由于使用自编码模型的隐藏特征作为异常流量数据的特征，并输入分类模型中进行分类，即在异常流量识别的同时已经对异常流量数据进行了特征提取和降维，因此在使用分类模型进行分类时，无需对异常流量数据进行二次特征提取，直接将隐藏特征作为分类模型的输入，能够提高分类效率。并且，本发明实施例中将流量数据的异常检测过程和分类过程分开进行，可以在检测到异常流量数据时，及时通知、告警或做其他处理，与此同时进行异常流量数据的分类，不会因为要进一步识别流量数据的类型导致延迟拦截或通知，在及时拦截异常流量数据的同时还能准确识别这一异常流量数据的类型。

参见图7，图7是本发明实施例提供的一种网络异常流量分类装置100的结构框图，所述网络异常流量分类装置100包括：

重构序列生成模块11，用于将网络流量数据输入到自编码模型中，以使所述自编码模型输出所述网络流量数据的重构序列；

网络流量数据识别模块12，用于根据所述重构序列对所述网络流量数据进行识别；

隐藏特征提取模块13，用于在识别到所述网络流量数据是异常流量数据时，从所述自编码模型中提取所述异常流量数据的隐藏特征；

异常流量数据分类模块14，用于将所述隐藏特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

具体地，所述网络流量数据识别模块12具体用于：计算所述重构序列和所述网络流量数据的序列误差；当所述序列误差小于或等于预设的误差阈值时，判定所述网络流量数据为正常流量数据；当所述序列误差大于所述误差阈值时，判定所述网络流量数据为异常流量数据。

具体地，所述自编码模型包括编码器和解码器；其中，所述编码器的输入为所述网络流量数据，所述编码器的输出为所述网络流量数据的隐藏特征，所述解码器的输入为所述隐藏特征，所述解码器的输出为所述网络流量数据的重构序列。

具体地，所述编码器用于计算所述网络流量数据中各个元素的注意力分数，以通过归一化指数函数计算所有注意力分数在预设数值区间内的概率矩阵，并根据所述概率矩阵得到所述网络流量数据的隐藏特征。

具体地，所述网络异常流量分类装置100还包括：

增强特征生成模块，用于提取所述异常流量数据的深层特征，将所述隐藏特征和所述深层特征拼接，得到所述异常流量数据的增强特征；

则，所述异常流量数据分类模块14用于：将所述增强特征输入到分类模型中，以使所述分类模型输出所述异常流量数据的分类结果。

具体地，所述增强特征生成模块还用于：将所述异常流量数据输入到堆叠自编码模型中，以使所述堆叠自编码模型输出所述异常流量数据的深层特征；其中，所述堆叠自编码模型包括所述自编码模型、若干个编码器和与所述编码器对应的解码器。

具体地，所述重构序列生成模块11还用于：对网络流量数据进行数据结构化处理。

值得说明的是，本发明实施例所述的网络异常流量分类装置100中各个模块的工作过程可参考上述实施例所述的网络异常流量分类方法的工作过程，在此不再赘述。

本发明公开的网络异常流量分类装置100，通过将网络流量数据输入到自编码模型中，以使自编码模型输出重构序列，从而根据重构序列对网络流量数据进行识别，在识别到网络流量数据是异常流量数据时，从自编码模型中提取异常流量数据的隐藏特征输入到分类模型中，以使分类模型输出异常流量数据的分类结果，能准确识别到异常流量的具体类型。另外，由于使用自编码模型的隐藏特征作为异常流量数据的特征，并输入分类模型中进行分类，即在异常流量识别的同时已经对异常流量数据进行了特征提取和降维，因此在使用分类模型进行分类时，无需对异常流量数据进行二次特征提取，直接将隐藏特征作为分类模型的输入，能够提高分类效率。并且，本发明实施例中将流量数据的异常检测过程和分类过程分开进行，可以在检测到异常流量数据时，及时通知、告警或做其他处理，与此同时进行异常流量数据的分类，不会因为要进一步识别流量数据的类型导致延迟拦截或通知，在及时拦截异常流量数据的同时还能准确识别这一异常流量数据的类型。

参见图8，图8是本发明实施例提供的一种网络异常流量分类设备200的结构框图，所述网络异常流量分类设备200包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述各个网络异常流量分类方法实施例中的步骤，比如步骤S1～S4。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述网络异常流量分类设备200中的执行过程。

所述网络异常流量分类设备200可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是网络异常流量分类设备200的示例，并不构成对网络异常流量分类设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述网络异常流量分类设备200还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述网络异常流量分类设备200的控制中心，利用各种接口和线路连接整个网络异常流量分类设备200的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述网络异常流量分类设备200的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述网络异常流量分类设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种网络异常流量分类方法，其特征在于，包括：

根据所述重构序列对所述网络流量数据进行识别；

2.如权利要求1所述的网络异常流量分类方法，其特征在于，所述根据所述重构序列对所述网络流量数据进行识别，包括：

计算所述重构序列和所述网络流量数据的序列误差；

3.如权利要求1所述的网络异常流量分类方法，其特征在于，所述自编码模型包括编码器和解码器；其中，所述编码器的输入为所述网络流量数据，所述编码器的输出为所述网络流量数据的隐藏特征，所述解码器的输入为所述隐藏特征，所述解码器的输出为所述网络流量数据的重构序列。

4.如权利要求3所述的网络异常流量分类方法，其特征在于，所述编码器用于计算所述网络流量数据中各个元素的注意力分数，以通过归一化指数函数计算所有注意力分数在预设数值区间内的概率矩阵，并根据所述概率矩阵得到所述网络流量数据的隐藏特征。

5.如权利要求1所述的网络异常流量分类方法，其特征在于，从所述自编码模型中提取所述异常流量数据的隐藏特征后，所述方法还包括：

提取所述异常流量数据的深层特征；

6.如权利要求5所述的网络异常流量分类方法，其特征在于，所述提取所述异常流量数据的深层特征，包括：

7.如权利要求1所述的网络异常流量分类方法，其特征在于，所述将网络流量数据输入到自编码模型前，所述方法还包括：

对网络流量数据进行数据结构化处理。

8.一种网络异常流量分类装置，其特征在于，包括：

9.一种网络异常流量分类设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的网络异常流量分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的网络异常流量分类方法。