CN114386514A

CN114386514A - 基于动态网络环境下的未知流量数据识别方法及装置

Info

Publication number: CN114386514A
Application number: CN202210036819.8A
Authority: CN
Inventors: 丁兆云; 张航; 曹得琪; 刘蔚柯; 刘毅; 朱先强; 朱承; 周鋆; 黄松平; 刘斌
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22
Anticipated expiration: 2042-01-13
Also published as: US11658989B1; CN114386514B

Abstract

本申请涉及一种基于动态网络环境下的未知流量数据识别方法及装置。所述方法包括：通过先利用已知网络流量分类模型对网络数据中的已知流量进行分类，再根据分类预测结果进行初步判断，将初步判断为未知流量数的网络数据利用自适应聚类方法对未知流量数据的类别进行划分，再通过相似系数估计方法对各类别进行识别，以识别出属于恶意流量的类别以及正常流量的类别，也就是对未知流量数据的进行进一步的认识及学习，将其转变为已知流量数据，并将该新的已知流量数据再次对已知网络流量分类模型进行训练及更新。采用本方法能够在当前飞速变化的动态网络环境对已知流量数据进行分类以及识别未知流量数据。

Description

基于动态网络环境下的未知流量数据识别方法及装置

技术领域

本申请涉及网络数据识别技术领域，特别是涉及一种基于动态网络环境下的未知流量数据识别方法及装置。

背景技术

近年来，伴随着互联网快速发展，网络流量迎来爆炸性增长，互联网接入流量增长势头迅猛。但是迅猛的发展给网络安全带来了更大的挑战，网络流量的增长，使得未知流量参杂在网络流量数据流中，未知流量中可能存在威胁恶意流量，对用户的网络安全造成巨大威胁，其隐患不容小觑。因此，对未知流量尤其是未知恶意流量的识别与分析成为了重要的研究主题。现有的识别方案采用基于端口的流量识别技术、基于机器学习的流量识别技术或基于深度学习的流量识别技术。在封闭世界问题中，现有研究方法已经可以达到较高的流分类准确率，但在真实世界中，网络应用的数据繁多，并且会随着网络发展不断更新，新的应用对于现有模型来讲是未知的，每当出现新的应用，现有的模型准确度会受到较大影响，造成对未知流量的识别效率下降，甚至威胁网络安全。

发明内容

基于此，有必要针对上述技术问题，提供一种能够应对现在网络环境动态更新速度较快可有效识别出未知流量数据的基于动态网络环境下的未知流量数据识别方法及装置。

一种基于动态网络环境下的未知流量数据识别方法，所述方法包括：

获取需要进行识别的网络流量数据集，所述网络流量数据集中包括多个已知流量数据和/或未知流量数据，其中已知流量数据和未知流量数据中均包括有正常流量数据和恶意流量数据；

基于流量特征排序对所述网络流量数据集进行预处理，得到多个维度的流量数据特征；

将所述多个维度的流量数据特征输入已知网络流量分类模型对所述网络流量数据集中的各流量数据的类别进行预测，并输出相应的类别预测结果；

依据自适应调整的置信度原则对所述类别预测结果对应的流量数据进行未知流量数据的初步判断，得到未知流量数据；

根据自适应聚类方法对所述未知流量数据划分成不同的类别，并依据划分的类别对未知流量数据进行初始标注；

根据相似系数估计方法对所述未知流量数据的类别进行识别，识别出未知流量数据中为恶意流量的类别以及正常流量的类别；

将所述未知流量数据中已经识别出来的恶意流量数据和正常流量数据作为已知流量数据对所述已知网络流量分类模型进行训练并更新。

在其中一实施例中，

获取已知流量数据训练集，所述已知流量数据训练集中包括已知正常流量数据，已知恶意流量数据以及已知正常流量数据以及已知恶意流量数据的混合流量数据；

分别对各所述已知流量训练数据进行预处理后，输入已知网络流量分类模型进行训练，直至使其具备对已知流量数据进行分类的能力，所述已知网络流量分类模型包括三个子流量分类网络，将所述已知正常流量数据，已知恶意流量数据以及混合流量数据分别对三个子流量分类网络进行训练。

在其中一实施例中，

各所述子流量分类网络均包括一维深度神经网络、二维深度神经网络、三维深度神经网络以及决策信息融合层；

在对所述已知流量训练数据进行预处理后得到与各所述已知流量训练数据对应的一维向量数据、二维向量数据以及三维向量数据；

在对各所述子流量分类网络进行训练时，将与所述已知流量训练数据对应的一维向量数据、二维向量数据以及三维向量数据输入对应的所述一维深度神经网络、二维深度神经网络以及三维深度神经网络进行特征提取，将分别提取的特征输入所述决策信息融合层进行融合后再输出所述已知流量训练数据的类别预测结果。

在其中一实施例中，

所述一维深度神经网络、二维深度神经网络以及三维深度神经网络分别包括进行特征提取的两个连续的卷积层，以及连接在各所述卷积层后的一个ReLU函数；

所述决策信息融合层包括依次连接的全连接层以及Softmax层。

在其中一实施例中，所述依据自适应调整的置信度原则对所述类别预测结果对应的流量数据进行未知流量数据的初步判断，得到未知流量数据包括：

若所述类别预测结果小于置信度阈值，则判断所述类别预测结果对应的流量数据为未知流量数据；

若所述类别预测结果大于置信度阈值，则判断所述类别预测结果对应的流量数据为已知流量数据；

当所述网络流量数据集中超过预设数量的流量数据初步判断为未知流量数据，则将类别预测结果最低的预设数量的流量数据判断为未知流量数据。

在其中一实施例中，当根据类别预测结果以及置信度阈值进行未知流量数据的初步判断时：

所述自适应的置信度阈值的初始值为预设值，当所述网络流量数据集中不足预设数量的流量数据初步判断为未知流量数据，则以(1+a)的比例提高预设值，其中a为预设参数。

在其中一实施例中，所述根据自适应聚类方法对所述未知流量数据划分成不同的类别，并依据划分的类别对未知流量数据进行初始标注包括：

将所述未知流量数据采用主成分分析方法进行特征降维；

将降维后的未知流量数据利用聚类方法得到未知流量数据的类别标签。在其中一实施例中，根据相似系数估计方法对所述未知流量数据的类别进行识别，识别出未知流量数据中为恶意流量的类别以及正常流量的类别的过程中，通过计算两种流量数据特征的K-L散度指标，估计流量数据的相似程度。

在其中一实施例中，根据权利要求1所述的未知流量数据识别方法，其特征在于，基于流量特征排序的数据预处理包括采用时序优先，随机抽样，载荷降序和载荷升序四种处理方法。

一种基于动态网络环境下的未知流量数据识别装置，所述装置包括：

网络流量数据集获取模块，用于获取需要进行识别的网络流量数据集，所述网络流量数据集中包括多个已知流量数据和/或未知流量数据，其中已知流量数据和未知流量数据中均包括有正常流量数据和恶意流量数据；

网络流量数据集预处理模块，用于基于流量特征排序对所述网络流量数据集进行预处理，得到多个维度的流量数据特征；

已知流量数据类别预测模块，用于将所述多个维度的流量数据特征输入已知网络流量分类模型对所述网络流量数据集中的各流量数据的类别进行预测，并输出相应的类别预测结果；

未知流量数据初步判断模块，用于依据自适应调整的置信度原则对所述类别预测结果对应的流量数据进行未知流量数据的初步判断，得到未知流量数据；

未知流量数据类别标注模块，用于根据自适应聚类方法对所述未知流量数据划分成不同的类别，并依据划分的类别对未知流量数据进行初始标注；

恶意流量类别识别模块，用于根据相似系数估计方法对所述未知流量数据的类别进行识别，识别出未知流量数据中为恶意流量的类别以及正常流量的类别；

已知网络流量分类模型训练更新模块，用于将所述未知流量数据中已经识别出来的恶意流量数据和正常流量数据作为已知流量数据对所述已知网络流量分类模型进行训练并更新。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将所述未知流量数据中已经识别出来的恶意流量数据和正常流量数据作为已知流量数据对所述已知网络流量分类模型进行训练并更新。上述基于动态网络环境下的未知流量数据识别方法及装置，通过先利用已知网络流量分类模型对网络数据中的已知流量进行分类，再根据分类预测结果进行初步判断，将初步判断为未知流量数的网络数据利用自适应聚类方法对未知流量数据的类别进行划分，再通过相似系数估计方法对各类别进行识别，以识别出属于恶意流量的类别以及正常流量的类别，也就是对未知流量数据的进行进一步的认识及学习，将其转变为已知流量数据，并将该新的已知流量数据再次对已知网络流量分类模型进行训练及更新,使得已知网络流量分类模型在进行实际应用时同时应对不断出现的新网络数据进行学习及训练使其具备识别更多网络流量数据的能力，并不断提高识别未知流量数据的能力，适用于当前飞速变化的动态网络环境。

附图说明

图1为一个实施例中未知流量数据识别方法的流程示意图；

图2为一个实施例中pcap文件结构意图；

图3为一个实施例中二维数据可视化示意图；

图4为一个实施例中已知流量分类模型的示意图；

图5为一个实施例中未知流量数据识别方法基于整体模型结构的流程示意图；

图6为一个实施例中未知流量数据识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

由于在真实的网络世界中，网络应用的数据繁多，并且会随着网络发展不断更新，新的应用对于现有模型来讲是未知的，每当出现新的应用，也就意味着会出现新的未知流量数据，这样现有的模型准确度会受到较大的影响，造成对未知流量数据的识别效率下降，从而导致没有被识别出来的一些未知流量数据威胁到网络安全。

针对上述问题，如图1所示，本申请提供了一种基于动态网络环境下的未知流量数据识别方法，其方法步骤具体包括：

步骤S100，获取需要进行识别的网络流量数据集，网络流量数据集中包括多个已知流量数据和/或未知流量数据，其中已知流量数据和未知流量数据中均包括有正常流量数据和恶意流量数据；

步骤S110，基于流量特征排序对网络流量数据集进行预处理，得到多个维度的流量数据特征；

步骤S120，将多个维度的流量数据特征输入已知网络流量分类模型对网络流量数据集中的各流量数据的类别进行预测，并输出相应的类别预测结果；

步骤S130，依据自适应调整的置信度原则对类别预测结果对应的流量数据进行未知流量数据的初步判断，得到未知流量数据；

步骤S140，根据自适应聚类方法对未知流量数据划分成不同的类别，并依据划分的类别对未知流量数据进行初始标注；

步骤S150，根据相似系数估计方法对未知流量数据的类别进行识别，识别出未知流量数据中为恶意流量的类别以及正常流量的类别；

步骤S160，将未知流量数据中已经识别出来的恶意流量数据和正常流量数据作为已知流量数据对所述已知网络流量分类模型进行训练并更新。

为了解决上述问题，在本方法通过将识别出来的未知流量数据采用聚类的方法对其进行自适应标注，进一步通过相似系数估计方法，识别未知流量中的恶意流量，通过这一认知的过程，将未知流量数据变为已知流量数据。之后，将其作为新的训练数据，更新已知网络流量分类模型，使已知网络流量分类模型不仅能够识别已知类别的正常和恶意流量数据，同时还能识别、标注和利用新出现的正常和恶意网络流量数据。使得本方法中提出的模型可以不断识别并标注网络中新出现的未知流量数据，在动态演进的实际网络环境中，始终高效准确的识别未知流量。

在步骤S100中，网络流量数据集为一段时间内在网络上搜集的需要进行识别的各种流量数据。由于网络流量数据的采集手段限制，和现实世界网络应用和恶意攻击方法不断更新，待识别数据中可能会出现历史采集数据中未能包含的未知正常流量数据和未知恶意流量数据，因此，本方法通过对历史采集的已知正常和恶意流量数据建立分类模型，并通过分类模型的预测结果置信度作为依据，从待识别的流量数据中鉴别确定未知正常流量数据和未知恶意流量数据。

在步骤S110中，采用基于流量特征排序的预处理过程，得到多个维度的流量数据特征。由于网络流量的TCP/UDP中协议包的内容包含很多流量的有效载荷，本方法中采用网络流量数据的深度包检测数据，即网络流量整个数据包中的所有数据。通常，一种网络应用的流量数据中包含不同协议、不同长度的网络流量数据。为了从海量的网络应用流量数据中找出最具有代表性的流量数据作为流量特征，基于流量特征排序的数据预处理方法，有四种流量特征预处理策略，分别是时序优先，随机抽样，载荷降序策略和载荷升序策略。并将网络流量数据转化为一维向量数据、二维向量数据以及三维向量数据，对已知网络流量分类模型进行迭代训练，使其具备对已知流量数据进行分类的能力。

具体的，本方法中使用的网络流量数据用pcap格式进行存储，pcap是一种通用的网络流量数据格式。其数据的基本结构如图2所示，一个pcap文件由文件头(pacp header)和m个流量包包头(packet header)和流量包数据(packet data)组成，其中m是该pcap文件中包含的packet数量。

文件头部分有24个字节，包含以下主要内容：Magic(4Byte)：标记文件开始，并用来识别文件自己和字节顺序；Major(2Byte)：当前文件主要的版本号；Minor(2Byte)：当前文件次要的版本号；ThisZone(4Byte)：当地的标准时间，如果用的是GMT则全零，一般都直接写0000 0000；SigFigs(4Byte)：时间戳的精度；SnapLen(4Byte)：最大的存储长度；LinkType(4Byte)：链路类型。

流量包包头部分有16个字节，包含以下主要内容：TimestampHigh(4Byte)：被捕获时间的高位，精度为秒(seconds)；TimestampLow(4Byte)：被捕获时间的低位，精度为毫秒(microseconds)；Caplen(4Byte)：当前数据区的长度，即抓取到的数据帧长度，不包括流量包包头本身的长度，单位是字节(Byte)，由此可以得到下一个数据帧的位置；Len(4Byte)：离线数据长度：网络中实际数据帧的长度，一般不大于当前数据区的长度(Caplen)，多数情况下和Caplen数值相等。流量包头之后是流量包数据，数据长度就是Caplen个Byte，在此之后是一个新的流量包头，新的流量包数据，如此循环。

在本实施例中，在利用已知网络流量分类模型对网络流量数据集中的各流量数据的类别进行预测之前还对已知网络流量分类模型进行训练包括：获取已知流量数据训练集，已知流量数据训练集中包括有已知正常流量数据，已知恶意流量数据以及已知正常流量数据以及已知恶意流量数据的混合流量数据，分别对各已知流量训练数据进行预处理后输入已知网络流量分类模型进行训练，直至使其具备对已知流量数据进行分类的能力，而已知网络流量分类模型包括三个子流量分类网络，将已知正常流量数据，已知恶意流量数据以及混合流量数据分别对三个子流量分类网络进行训练。其已知网络流量分类模型的结构如图4所示

在这里需要说明的是，在对已知网络流量分类模型进行训练和利用已训练的已知网络流量分类模型输入网络数据时，对网络数据进行预处理均是采用上述的流量特征排序的方法。

由于网络流量数据通常规模较大，并且各个不同类别网络流量数据的流量数据的数量也不同，为了提高已知流量分类模型的质量，本方法从每种网络流量数据包中，都选取相等数量的训练样本。定义历史采集的已知正常网络流量数据包为

其中共有K种不同的已知网络流量类别，已知恶意网络流量数据包为

其中共有L种不同的已知恶意网络流量类别，对于每一种网络流量类别，都从中选择num_sample个样本作为训练数据，在本方法中num_sample通常设置为5000。则算法的预处理过程中，将网络流量的每8个字节，转化为一个十进制正整数(取值范围从0到255)，本方法中的网络流量特征向量长度feature_length设置为1521，一维特征向量为1×1521，二维特征向量为39×39，三维特征向量为22×22×3。

在本实施例中，还提供了对流量数据进行预处理的伪代码，包括：

在本方法中读取pcap流量包时忽略文件头的24字节，只关注有效载荷。对于每种类型的网络流量数据，首先跳过pcap文件头的前24字节，之后通过读取每个16字节的流量包头，获得每一条流量数据的长度，并pcap流量包中的每一条流量数据进行存储，得到只含有流量数据的初始特征集

之后将整个流量包的初始特征集

根据特征排序预处理策略进行排序，在本方法中共有四种策略，分别是时序优先(Strategy_sequential)，随机抽样(Strategy_random)，载荷降序策略(Strategy_descending)和载荷升序策略(Strategy_ascending)。时序优先策略保持原始流量数据的传输时序，不对初始特征集

进行额外的排序操作；随机抽样策略将

中所有的流量数据进行随机重新排序，均匀的获取流量包中不同协议、不同长度的流量特征；载荷降序策略将初始特征集

中的流量数据，按照长度从长到短进行排序，该方法侧重提取一种类型的网络流量数据中载荷较长的流量数据；载荷升序策略将初始特征集

中的流量数据，按照长度从短到长进行排序，该方法侧重提取一种类型的网络流量数据中，载荷较短，通常为广播、传输控制协议的流量数据。而在实际进行特征排序预处理时选择训练得到模型精度最高的方法，作为数据预处理的通用方法。

通过基于特征排序的预处理策略对初始特征集

进行排序后，从

中选择前num_sample个样本，作为训练已知流量分类模型的一种类别网络流量的训练数据，之后对

中所有样本的特征向量长度进行处理，即若流量数据的长度大于预先设定的feature_length，则删去多余的字节，若不足则对不足的字节以0进行填补。之后把一维向量转化为二维特征向量和三维特征向量，用于训练不同维度的深度神经网络模型。图3是二维特征向量(39×39)可视化为灰度图后的结果。

预处理过程中，输入的已知正常流量数据

和已知恶意流量数据

获得其对应的一维、二维、和三维特征向量集合F_H_n＝{1d_H_n，2d_H_n，3d_H_n}，获得了已知恶意流量的特征向量集合F_H_p＝{1d_H_p，2d_H_p，3d_H_p}。分别使用四种特征排序策略分别进行特征预处理，得到四种策略下的流量数据特征。

经过预处理处理后的pcap网络流量数据包，都转化了长度相同的一维、二维、三维向量，并将这三种类型的向量作为下一步已知网络流量分类模型的输入，用于训练预测模型。

而在这里需要说明的是，在实际应用已知网络流量分类模型对网络数据进行分类预测时，也需要将待识别的网络流量数据进行预处理得到对应的一维、二维及三维向量特征，再将其输入至已知网络流量分类模型进行分类预测。

在步骤S120，将处理过的网络流量特征输入已知网络流量集成分类模型，在本实施例中，在对已知网络流量分类模型进行构建时，提出了一种基于深度神经网络的已知网络流量分类模型，深度神经网络模型方面选择卷积神经网络(Convolutional NeuralNetworks,CNN)，作为基础模型，CNN支持对不同维度的数据特征进行学习，在训练已知网络流量分类模型的过程中。

如图4所示，已知网络流量分类集成模型M_ensemble主要由三部分构成，分别对应使用不同的训练特征集，分别是只使用已知正常流量F_H_n＝{1d_H_n，2d_H_n，3d_H_n}作为训练特征的子流量分类网络模型M_n，只使用已知恶意流量F_H_p＝{1d_H_p，2d_H_p，3d_H_p}作为训练特征的子流量分类网络模型M_p和同时使用已知正常流量和已知恶意流量作为训练特征的子流量分类网络模型M_m。

其中，子流量分类网络分别包括三个多维度深度神经网络融合模型，并利用不同的特征集，分别训练三个多维度深度神经网络(CNN)融合模型，包括：一维深度神经网络、二维深度神经网络、三维深度神经网络以及决策信息融合层，将与训练数据对应的一维向量数据、二维向量数据以及三维向量数据输入对应的一维深度神经网络、二维深度神经网络以及三维深度神经网络进行训练，再将不同维度网络的决策信息输入决策信息融合层进行融合后，再输出已知流量训练数据的类别预测结果。

一维CNN分类输入向量尺寸为1×1456。二维CNN分类模型输入向量尺寸为39×39，能够被可视化为灰度二维图像。三维CNN分类模型中，输入向量被转化为22×22×3的三维张量，能够可视化为24比特的RGB图像。对于每个分类模型，输入的向量通过两个连续的卷积层进行特征提取，每次卷积之后通过ReLU函数激活，以提高模型收敛速度。特征提取之后，通过致密层进行特征组合，最后使用Softmax层对输出概率归一化，最终映射为流量数据属于某个类别的概率。

在本实施例中，提供了已知网络流量分类模型的详细参数如表1所示：

表1已知网络流量分类模型详细参数

在训练已知流量分类模型过程中，分别使用四种流量特征排序策略，生成四组不同的已知正常和已知恶意流量特征集，并利用四组特征分别训练四个不同的已知网络流量分类集成模型，并通过交叉验证方式评估不同的特征预处理策略下模型的效果，之后选择准确度最高的已知网络流量分类集成模型作为最终使用的集成分类模型，并对后续的待识别流量采用与准确度最高的模型相同的特征预处理策略。

在步骤S130中，已知网络流量分类集成模型M_ensemble包含已知正常流量分类模型M_n，已知恶意流量分类模型M_p和已知流量分类模型M_m。其中每个模型都包含三个维度的CNN模型，并将三个CNN模型各自Softmax层输出的样本概率，结果通过决策信息融合层进行融合。对于一个样本x，定义分类模型M的决策信息融合层输出的结果为S^N(x)＝{s₁，...，s_N}，对应样本x数据不同类别n的概率，其中N为训练当前模型时使用的已知流量类别个数，则取s^*＝max(s_n)作为模型对样本x的预测置信度。

实际使用过程中，待识别网络流量P中可能包含已知或未知的正常和恶意流量，定义P是中包含的未知网络流量P_u和已知网络流量P_c的混合网络流量数据包，首先使用训练已知流量集成分类模型过程中选定的最优特征预处理策略，对流量数据进行特征预处理，获得其一维、二维和三维特征，之后使用已知正常流量分类模型M_n，已知恶意流量分类模型M_p和已知流量分类模型M_m分别对样本进行预测。基于深度神经网络分类模型对训练过的样本预测置信度较高，而对未知的样本预测置信度偏低的特性，使用已知网络流量分类模型对每一个待识别样本进行预测。在本申请中设定了一个自适应的置信度阈值θ，样本预测类别结果的置信度较低的未知网络流量数据，会从混合网络流量包中筛选出来。也就是步骤S130中，根据类别预测结果对相应的流量数据进行未知流量数据的初步判断。

具体的，基于置信度阈值对样本的类别预测结果进行判断：若类别预测结果小于置信度阈值，则判断类别预测结果对应的流量数据为未知流量数据；若类别预测结果大于置信度阈值，则判断类别预测结果对应的流量数据为已知流量数据。

在本实施例中，还提供基于自适应置信度阈值的未知流量判断方法的伪代码，包括：

当网络流量数据集中超过预设数量num_unknow个的流量样本(通常设为1500)数据初步判断为未知流量数据，则将类别预测结果最低的预设数量个流量数据判断为未知流量数据。

进一步的，在每一次对整个网络流量数据集中根据类别预测结果以及置信度阈值进行未知流量数据的初步判断时：置信度阈值的初始值为预设值，当网络流量数据集中不足预设数量的流量数据初步判断为未知流量数据，则以(1+a)的比例提高预设值，其中a为预设参数，当初始阈值并不能识别出未知流量时，即认为模型没有识别出未知流量。

进一步的，置信度阈值θ是采用的自适应调整策略，而该策略的主要目的是尽可能准确的从混合网络流量包中，筛选出未知流量数据。因此θ首先给定默认初始值，一般取值为0.9，且上限设置为0.98，若筛选出的未知网络流量数据不足num_unknow，则会以(1+a)的比例提高θ值，其中a为预设参数，若筛选出的未知网络流量数据超过num_unknow，则会根据不确定程度选择模型预测置信度最低的前num_unknow个流量数据未知流量样本。

通过已知正常流量分类模型M_n，已知恶意流量分类模型M_p和已知流量分类模型M_m分别对待识别流量中的未知流量数据进行判别，得到三个未知流量包B_n,B_p,B_m并取其中的交集作为最终的识别出的未知网络流量。

为了进一步对识别出的未知网络流量数据进行分析，找出其中可能包含的未知流量类别，也就是步骤S140中，对于未知网络流量的自适应标注方法，为了提高聚类方法的效率和无关特征对于聚类结果的干扰，首先采用主成分分析方法对流量数据特征进行降维，之后使用降维后的特征进行聚类分析。

在本实施例中，未知流量自适应标注方法主要包含特征降维和自适应聚类两个步骤。由于高维度流量数据很难直接使用，需要对其进行降维，提高运算效率和聚类精确度。而传统方法一般从高维特征中选择某几个特征，这种方法会丧失不同维度上的特征信息，因此，在本方法中的聚类采用PCA(Principal Component Analysis，主成分分析方法)，PCA是一种常用的数据分析方法，通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。PCA的思想是将原始数据的W维特征映射到k维空间上k<W，这k维特征是全新的正交特征，代表了原有特征数据在低维线性空间上的正交投影，这个线性空间被称为主子空间，即最大方差理论。

自适应标注方法通过对未知流量数据的进行聚类来实现，由于识别出的未知网络流量并不知道其中具体的类别数目，因此，采用的聚类方法是自下而上的聚合层次聚类算法，聚合层次聚类算法先将每一个数据视为单独的类，然后按照某种距离度量选择距离最近的两个类或者多个类进行合并，之后重复合并过程，直到存在的类别数目逐渐减少。相较于基于划分的方法如K均值算法总需要随机选择划分的起始位置，容易陷入局部最优，层次聚类方法更容易找出网络流量数据中存在的不同类别，但层次聚类算法的计算复杂度相对基于划分的方法会更高。聚类模型选用聚合层次聚类的SLINK算法，聚合层次聚类方法自下而上的将不同的数据簇进行聚合，聚合的依据为不同数据簇之间的距离，数据簇又是数据点之间的集合，因此SLINK算法将两个数据簇之间距离最近的点之间的间距作为簇间距离。层次聚类算法通过不断迭代的聚类过程，最终会将所有的数据汇聚成一个数据簇，但可以通过设定期望的数据簇数目n_clusters来对未知流量中包含的类别数进行检验，在对未知流量进行聚类得到n_clusters个可能的类别之后，本方法采用Calinski-Harabasz(C-H)指标对聚类结果进行评价，C-H指标衡量了类间方差和类内方差之间的比值，指标数值越高，类间方差越大，类内方差越小，则聚类效果越好。选择C-H指标最高的类别数值作为最终的未知流量数据中包含的类别数，并使用相应模型聚类，得到未知流量数据的类别标签。

在本实施例中，还提供了一种数据降维和聚类过程的算法伪代码，包括：

通过自适应类别的聚类方法，得到了最终的未知流量类别数目和对应的标签组成的含标注未知流量数据(P_u,Y)。得到的未知流量的数据特征和类别标签之后，接下来需要对未知流量数据中的恶意

在步骤S150中，通过一种基于数据相似度的方法，对识别出的未知流量数据中的恶意流量进行进一步分析(P_u，Y)，在本申请中，通过计算识别出来的恶意流量数据特征以及正常流量数据特征的K-L散度指标，估计流量数据的相似程度。网络中的恶意流量，经常会通过某些的常用的攻击工具或恶意代码产生，不断新增的未知攻击类型会与过往的攻击存在相似性，恶意攻击流量特征和正常的网络流量之间的相似性会更低，因此，通过分析未知流量中新的流量类型和历史正常流量和恶意流量之间的相似性，能够分析未知流量是否为恶意流量。

首先，对于通过聚类标注的未知流量数据和类别标签(P_u，Y)，对于其中的每一个类别y_i何其对应的数据特征X_i，通过相对熵方法，求解其与所有的已知正常流量数据

和已知恶意流量数据

之间的相似程度，之后按照数据相似程度排序找出和类别y_i最为相似的三个流量类别，若三种流量均为正常流量，即认为y_i为正常流量并进行标注，否则认为y_i为恶意流量并进行标注。通过这种处理方式，能够更加有效的识别并发现其中的恶意流量，从而保证模型对未知恶意流量的精准有效识别。

在本实施例中，还提供了一种相似程度评估的伪代码，包括：

在步骤S160中，给未知网络流量标注后，这些流量数据可以加入最早的已知网络流量数据集，训练及更新已知网络流量分类模型，通过此过程，模型可以不断地识别并标注网络中新出现的未知流量，在动态演进的实际网络环境中，始终高效准确的识别未知流量。

在其中一实施例中，可将已知网络流量分类模型以及其中的置信度阈值判断和对未知流量数据进行自适应标注方法作为一个完整的未知数据识别模型，基于该完成模型的未知流量数据识别方法流程如图5所示。

上述基于动态网络环境下的未知流量数据识别方法中，通过先利用已知网络流量分类模型对网络数据中的已知流量进行分类，再根据分类预测结果进行初步判断，将初步判断为未知流量数的网络数据利用自适应聚类方法对未知流量数据的类别进行划分，再通过相似系数估计方法对各类别进行识别，以识别出属于恶意流量的类别以及正常流量的类别，也就是对未知流量数据的进行进一步的认识及学习，将其转变为已知流量数据，并将该新的已知流量数据再次对已知网络流量分类模型进行训练及更新,使得已知网络流量分类模型在进行实际应用时同时应对不断出现的新网络数据进行学习及训练使其具备识别更多网络流量数据的能力，并不断提高识别未知流量数据的能力，适用于当前飞速变化的动态网络环境。

其中，在构建已知网络流量分类模型以及未知流量鉴别模型时，为了充分利用流量数据特征的有有效性，从多维度提取特征信息考虑分别构建了一维、二维和三维CNN模型。

而在识别未知流量时，还根据已知网络流量的分类模型的预测置信度，通过自适应的置信度阈值，从中筛选预测置信度低的未知流量数据。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于动态网络环境下的未知流量数据识别装置，包括：网络流量数据集获取模块200、网络流量数据集预处理模块210、已知流量数据类别预测模块220、未知流量数据初步判断模块230、未知流量数据类别标注模块240和恶意流量类别识别模块250、已知网络流量分类模型训练更新模块260，其中：

网络流量数据集获取模块200，用于获取需要进行识别的网络流量数据集，所述网络流量数据集中包括多个已知流量数据和/或未知流量数据，其中已知流量数据和未知流量数据中均包括有正常流量数据和恶意流量数据；

网络流量数据集预处理模块210，用于基于流量特征排序对所述网络流量数据集进行预处理，得到多个维度的流量数据特征；

已知流量数据类别预测模块220，用于将所述多个维度的流量数据特征输入已知网络流量分类模型对所述网络流量数据集中的各流量数据的类别进行预测，并输出相应的类别预测结果；

未知流量数据初步判断模块230，用于依据自适应调整的置信度原则对所述类别预测结果对应的流量数据进行未知流量数据的初步判断，得到未知流量数据；

未知流量数据类别标注模块240，用于根据自适应聚类方法对所述未知流量数据划分成不同的类别，并依据划分的类别对未知流量数据进行初始标注；

恶意流量类别识别模块250，用于根据相似系数估计方法对所述未知流量数据的类别进行识别，识别出未知流量数据中为恶意流量的类别以及正常流量的类别；

已知网络流量分类模型训练更新模块260，用于将所述未知流量数据中已经识别出来的恶意流量数据和正常流量数据作为已知流量数据对所述已知网络流量分类模型进行训练并更新。

关于基于动态网络环境下的未知流量数据识别装置的具体限定可以参见上文中对于基于动态网络环境下的未知流量数据识别方法的限定，在此不再赘述。上述基于动态网络环境下的未知流量数据识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于动态网络环境下的未知流量数据识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

基于流量特征排序对所述网络流量数据集进行预处理，得到多个维度的流量数据特征；将所述多个维度的流量数据特征输入已知网络流量分类模型对所述网络流量数据集中的各流量数据的类别进行预测，并输出相应的类别预测结果；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于动态网络环境下的未知流量数据识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的未知流量数据识别方法，其特征在于，在利用所述已知网络流量分类模型对网络流量数据集中的各流量数据的类别进行预测之前还对所述已知网络流量分类模型进行训练，包括：

3.根据权利要求2所述的未知流量数据识别方法，其特征在于，各所述子流量分类网络均包括一维深度神经网络、二维深度神经网络、三维深度神经网络以及决策信息融合层；

4.根据权利要求3所述的未知流量数据识别方法，其特征在于，

所述一维深度神经网络、二维深度神经网络以及三维深度神经网络分别包括进行特征提取的两个连续的卷积层，以及连接在各所述卷积层后的一个ReLU激活函数、全连接层和Softmax输出层；

所述决策信息融合层将三个不同维度深度神经网络的输出结果进行融合。

5.根据权利要求1所述的未知流量数据识别方法，其特征在于，所述依据自适应调整的置信度原则对所述类别预测结果对应的流量数据进行未知流量数据的初步判断，得到未知流量数据包括：

若所述类别预测结果大于等于置信度阈值，则判断所述类别预测结果对应的流量数据为已知流量数据；

6.根据权利要求5所述的未知流量数据识别方法，其特征在于，当根据类别预测结果以及置信度阈值进行未知流量数据的初步判断时：

7.根据权利要求1所述的未知流量数据识别方法，其特征在于，所述根据自适应聚类方法对所述未知流量数据划分成不同的类别，并依据划分的类别对未知流量数据进行初始标注包括：

将所述未知流量数据采用主成分分析方法进行特征降维；

将降维后的未知流量数据利用聚类方法得到未知流量数据的类别标签。

8.根据权利要求1所述的未知流量数据识别方法，其特征在于，根据相似系数估计方法对所述未知流量数据的类别进行识别，识别出未知流量数据中为恶意流量的类别以及正常流量的类别的过程中，通过计算两种流量数据特征的K-L散度指标，估计流量数据的相似程度。

9.根据权利要求1所述的未知流量数据识别方法，其特征在于，基于流量特征排序的数据预处理包括采用时序优先，随机抽样，载荷降序和载荷升序四种处理方法。

10.一种基于动态网络环境下的未知流量数据识别装置，其特征在于，所述装置包括：