CN112381121A

CN112381121A - 一种基于孪生网络的未知类别网络流量的检测与识别方法

Info

Publication number: CN112381121A
Application number: CN202011170964.2A
Authority: CN
Inventors: 苟高鹏; 熊刚; 陈昱彤; 崔明鑫; 石俊峥; 李镇
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-19

Abstract

本发明公开了一种基于孪生网络的未知类别网络流量的检测与识别方法，其步骤包括：1)对于待检测的未标签的数据流i，将该数据流i中的数据包删除以太网头部信息，然后选择每个数据包从IP头部开始的n字节并模糊掉IP层头部的IP地址信息；2)将处理后的该数据流i与已知类别的每类K个数据流组成K个流量对，将每个流量对分别输入训练后的孪生网络，得到每个流量对中数据流的高维特征，判断该数据流i是否为未知类别；3)对检测到的所有未知类别流量的高维特征进行聚类，得到若干聚类簇；4)对所得聚类簇进行人工识别，确定每一聚类簇是否属于新的类别；如果属于新的类别，则将其加到原有已知类别中，训练更新该孪生网络。

Description

一种基于孪生网络的未知类别网络流量的检测与识别方法

技术领域

本发明属于网络测量与行为分析领域，具体涉及一种基于孪生网络的未知类别网络流量的检测与识别方法。

背景技术

目前，随着互联网的快速发展，为了满足用户的多样化需求，互联网中各种新型应用层出不穷，这些新型应用在扩大了互联网的应用规模，提供了更丰富的服务之余，其采用的应用协议特征也有别于传统的应用类型，使网络流量变得更加复杂和多样化，给网络的管理和规划造成了极大的冲击。此外，互联网中各种流量的不断增加，使得网络安全问题也面临着日益严峻的挑战。目前，各种网络攻击泛滥，手段丰富，且规避监测方式较为灵活，如何识别和控制这些非法应用流量，也是网路流量管理控制的重难点之一。因此，能够有效的区分出属于不同应用程序和协议的网络流量的网络流量分类技术，成为了网络管理和网络安全领域的一项关键技术。

近些年来，基于网络流行为的流量分类方法和机器学习算法相结合，通过对数据的智能化处理，能够实现网络流量的有效分类。这些方法大多采用有监督的机器学习算法来实现网络流量分类。在有监督的流量分类中，分类模型在训练阶段接受一组己标记的流样本，根据预定义的协议类别进行学习训练，然后返回一个训练好的分类模型，该分类模型可以预测未来网络流的协议类型。但是，大多数基于流量统计特征的方法基于所有流量都是由已知应用程序生成的假设来对流量进行分类。考虑到现实环境中普遍存在的未知应用程序，如果遇到一个分类器在训练阶段没有遇到过的新类别的未知流量，这些流量是基于有监督学习的分类方法无法处理的。在这种情况下，未知流将被错误地划分到某个预定义的流量类别中去，从而影响分类器的整体精度。

随着应用需求和安全需求的不断增加，互联网上不断部署着许多新的协议和应用程序，未知流量越来越多。在真实的网络环境下，许多网络协议属于未知协议或者私有协议，这些网络协议没有公开可得到的协议规范文档。并且根据Internet2NetFlow组织对骨干网中流量的统计发现，超过40％的网络数据流属于未知应用协议。在这些未知的应用协议中，恶意流量占有很大比例。这些恶意应用通过将自己的数据流伪装在常规协议下或封装在让传统分类器难以识别的协议下，以达到攻击目的。当面临大量未知流量时，传统的检测方法或手段很难对相关未知应用协议做出正确识别，对互联网的网络安全和网络监管带来很大的挑战。所以，识别网络中的未知流量意义重大，针对未知的网络协议流量，设计合理、有效的识别方法给网络安全研究人员带来了新的挑战。

针对于未知流量的检测技术，目前的研究主要分为三类：基于有监督的分类方法、基于无监督的机器分类方法和半监督的分类方法。由于单一的有监督分类器本身并不能识别未知的流量类型，研究人员考虑一类分类情况，为每个已知类别构造了一个一类分类器。将多个一类分类器结合使用，每个分类器判断测试流量是否属于当前的这个已知类别。如果该流不属于任何已知类，则将其标识为未知流量。但在实际的实验中，该方法的分类精度表现不佳。其原因在于，在训练每一个分类器时，两个类别定义分别为目标流量类型和非目标类型，但是非目标流量上实际来自许多应用程序。因此，很难通过单个边界将它们很好地分开。其次，由于训练数据中不存在其他未知类别流量，该边界的检测能力也同样受到限制。

先前的工作还应用了无监督的聚类算法直接对未标记的流量样本进行分类。基于无监督学习的分类方法可以自动聚类未标记的训练样本，将属于不同类别的流量划分到不同的聚簇中去。但是聚类簇的数目必须被设置得足够大，以得到高纯度的流量簇，而且很难在没有监督信息的情况下将大量的流量簇映射到少量的流量类别中。

目前大多数工作基于半监督的学习方法进行未知流量识别。半监督方法使用大量的未标记流量，以及同时使用标记流量，来进行模式识别工作。这类方法的核心思想是首先利用在无标记的网络流量中，提取一部分可靠的“未知流量”，随后，将这部分“未知流量”结合已知类别的流量来构造一个(N+1)的分类器来识别更多的未标记流量数据。然而在现实的应用场景下，仍然存在着一些缺陷。首先是未知流量提取阶段，如何在未标记的数据集中识别出真正的新类别流量是一个难点，并且在提取过程中的“未知流量”通常会是一种或几种未知应用流量的混合。其次，由于构建的分类器依赖于在现有未标记数据集中抽取流量当作“未知”，那么当遇到新的未标记流量，该流量中可能包含先前未标记数据集中新的类别流量。如何将这些流量再次识别出来，这又带来了新的挑战。

发明内容

为了克服现有方法检测未知准确率不高的不足,本发明提出一种未知类别流量检测与识别的网络流量分类方法，直接选择流量的原始字节作为网络数据流的特征，结合深度学习算法，解决现有技术在识别流量时特征提取困难，导致识别精度低、以及不能对未知类别流量识别的问题。

本发明解决上述技术问题所采用的技术方案旨在将未标记的流量数据与已知类别的每类流量数据，利用孪生网络提取高维特征，使用基于度量的方法判定该未标签流量是否属于已有的类别；若是，则标记类别标签；否则将其标记为“未知类别”。在面对具有多种类别的未知流量分类场景时，本发明中的方法可以利用这些未知类别流量的高维特征进行聚类，进行更细粒度的划分，减轻人工识别的负担。本发明还基于低频学习方法，在确定新类别后，对训练器经过少数几轮的迭代训练，可以将新发现的类别扩充类别知识库，从而增加类别知识库的多样性，对未来的网络流量识别打下基础。

本发明的技术方案为：

一种基于孪生网络的未知类别网络流量的检测与识别方法，其步骤包括：

1)从多个已知类别的网络流量中提取单向数据流并标记对应类别，将所得数据流集合作为训练数据集；

2)将该训练数据集中各数据流的数据包删除以太网头部信息，然后将数据包从二进制转为字节，然后选择每个数据包从IP头部开始的n字节，不足n字节则补0；随后对处理后的数据包进行归一化，并模糊掉IP层头部的IP地址信息；

3)将步骤2)处理后的数据流随机成对输入孪生网络，对该孪生网络进行训练；其中类别相同的数据流对与类别不同的数据流对的比例等于或接近1:1，类别相同的数据流对是指该数据流对中的两数据流类别相同；

4)对于待检测的未标签的数据流i，将该数据流i中的数据包删除以太网头部信息，然后将数据包从二进制转为字节，然后选择每个数据包从IP头部开始的n字节，不足n字节则补0；随后对处理后的数据包进行归一化，并模糊掉IP层头部的IP地址信息；

5)将步骤4)处理后的该数据流i与已知类别的每类K个数据流组成K个流量对，将每个流量对分别输入训练后的孪生网络，得到每个流量对中数据流的高维特征，然后计算每个流量对中数据流的高维特征的欧式距离，然后统计该数据流i与每类已知类别数据流的平均欧式距离，若所有平均欧式距离都大于设定阈值，则认为该数据流i为未知类别；否则，选择平均欧式距离最小的一类定为该数据流i的流量类别；

6)对步骤5)中检测到的所有未知类别流量的高维特征进行聚类，得到若干聚类簇；

7)对步骤6)所得聚类簇进行人工识别，确定每一聚类簇是否属于新的类别；如果属于新的类别，则将新得到的类别加到原有已知类别中，训练更新该孪生网络。

进一步的，步骤1)中，如果一条单向数据流中的数据包集中分布在多个不同时间段内，则以空闲期为界将该单向数据流进行划分，得到多条单向数据流；如果一条单向数据流的长度小于设定阈值，则丢弃该单向数据流。

进一步的，训练更新该孪生网络的方法为：在该孪生网络的训练阶段中，每次迭代时平衡训练各个类，利用孪生网络学习不同数据流对的相似性；在更新阶段，将新类别的数据流样本N_update与原已知类别的数据流组成若干流量对，训练更新该孪生网络。

进一步的，步骤2)中，将数据包从二进制转为字节，然后滤除确认包和重传包，然后选择每个数据包从IP头部开始的n字节，不足n字节则补0。

进一步的，所述聚类方法为K-Means算法。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上所述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上所述方法的步骤。

与现有技术相比，本发明的有益效果是：

(1)选择网络流量的原始字节，直接将过滤好的流量的原始字节截取了前784字节，不足填充0，然后输入至孪生网络提取高维特征，相对于传统特征从统计特征(包长、包间隔、头部字段)和原始字节两方面提取特征，避免了人工筛选特征的复杂性。

(2)该方法既能将不同已知类别的网络流量区分出来，又能在流量分类过程中将未知类型的流量识别出来，解决了分类器在遇到的未训练类别时将未知类别数据错分到已知类别的问题，从而提高了分类器的准确性。

(3)将未知类别的流量利用孪生网络提取出的高维特征进行聚类，将混合的未知流量划分为更细粒度的类，便于人工分析。

(4)基于低频学习，确认过的新类别可以快速补充类别知识库，从而节省了手动分类工作。

附图说明

图1为发明方法的模型训练过程；

图2为发明方法的未知流量检测与识别的基本框架图。

具体实施方式

下面结合附图和实例对本发明进行进一步详细描述。

本发明方案包括以下步骤：

模型训练阶段：

(1)已知类别网络流量数据的采集：对于已知类别的网络流量结合主被动方法获取相应的纯净通讯数据流量，按照五元组内容归类，五元组一致的数据包属于同一条上行或下行方向的单向数据流。如果一条数据流出现明显的时间跨度，数据包集中分布在[a,b]、[c，d]等时间段内，则以空闲期为界将其划分为F_a,b，F_c,d等多条流；同时丢弃那些由于连接建立失败等原因而长度过短的流，最终得到符合要求的数据流集合作为训练数据集。

(2)属性提取与预处理：将标定好的数据流量中的所有数据包删除以太网头部信息，并将数据包从二进制转为字节。滤除确认包等没有实际负载的数据包、滤除因网络拥塞产生的TCP Retransmission、Dup ACK等重传包。然后选择每个数据包的从IP头部开始的前n个字节，n＝784字节，不足784字节则补0。随后将其归一化，将范围缩小成[0,1]。最后模糊掉IP层头部的IP地址信息(即将IP地址都设置为0)，防止过拟合，避免源/目的IP的特殊性(强特征)对分类结果的影响。

(3)训练模型：将数据集的流量随机以成对的方式带入孪生网络模型中。如果当前的流量对类别一致，将其标签定为0；否则标签为1。为了使训练过程中为了保持类别均衡，0、1标签的成对流量对的生成比例应该接近于1:1。随后进行有监督的训练，并通过调整模型的参数，保证分类效果最佳。发明方法的模型训练过程如图1所示，其中下层虚线框内为训练分类阶段，其他部分均为流量处理阶段。

发明方法的未知流量检测与识别的基本框架如图2所示，假设已知类别集合N具有五个类别，给定一个已知类别的测试样本，本发明方法会同时使用测试示例和每个已知类别的k个样本，以在未知发现步骤中产生平均欧几里得距离得分。注意本方法在这五个已知类上应用了五次，并获得了五个分数，其中第三类参加了最低分数(小于阈值)作为最后一类。但是，如果测试样本的所有分数均大于阈值，则SEEN会将其标记为未知流量。将保存未知流量的输出，然后将其用于未知群集步骤，以将混合的未知流量分成多个群集。在手动标记集群之后，该方法将学习新的类以补充系统更新的知识。

未标签流量的检测与未知流量识别阶段：

(1)对于要检测的未标签的数据流，首先按照模型训练阶段(2)进行处理。

(2)将未标记的数据流与已知类别的每类K个数据流组成K个流量对，将每个流量对分别带入孪生网络，计算出每对流量对应的高维特征的欧式距离，然后统计当前未标记流量与每类已知流量高维特征的平均欧式距离，若所有平均欧式距离都大于设定阈值，则认为该流量为未知类别。否则，选择平均欧式距离最小的一类定为该流量类别；

(3)将上一步中检测到的所有未知类别流量的高维特征，带入K-Means算法中聚类。通过设置不同的聚类簇数，从而提高聚类纯度；聚类目标是将上一步检测出来的未知流量再更细粒度划分，即将所有的流量判别完之后，再针对检测出来的未知流量(因为未知流量可能是由多种类型的流量组成)进一步划分。聚类的簇数可以手动定义，通过设置不同的簇数对照聚类纯度来找到最优解。

(4)将聚类所得的簇进行人工识别。确定该簇属于新的类别后，将此类别增加到原有类别中去，从而增加了类别数据库的多样性。在系统更新阶段，我们希望以最小的计算和数据成本向现有模型添加其他类别，使得它具识别新类别的能力。在孪生网络的训练阶段中，分类模型收到一组固定的基本类别集合N_base，以及一个数据集Ω，数据集Ω中包含N_base内每个类别的大量样本。SEEN从Ω注入成对的样本以设置孪生网络的参数。在每次迭代中，只需要保证正负对的数量为1：1即可平衡训练过程中的各个类。因此，在表示学习过程中，孪生网络学习的是不同对的相似性(即通过孪生神经网络寻找两个可比较对象的相似程度。两样本输入孪生神经网络，得到两个输出，最后计算两个网络输出的距离，如果距离较近就认为是同一类，较远就认为是不同的类别)，而不是特定类别的特征。在更新系统阶段，模型得到了一组必须学习区分的类别样本N_update。对于每个新类别，该模型都可以访问N_update。此外，对于基本类别，该方法仍然可以访问原有数据Ω。这样就可以继续使用这些样本来设置和修改孪生网络的参数。因此在更新的过程中，该模型不需要重新训练模型，而是直接将新类别增加到原有类别库之上，完成几轮简单的迭代学习即可，从而使得模型增加了识别新类型的能力。

加入新类别样本后，分类模型不需要重新训练，而是在原有模型的基础上将新类样本注入，再增加训练几轮即可。原理在于，在训练过程中，模型学习的只是每个样本对的相似程度，训练更重视的是学习这两个样本对是是相同或相异，与样本所属的类别无关。每次注入的类别也是随机选取，模型只关注这对样本是否来自同一类别。所以在更新阶段，虽然数据集多了新类别样本，但是对于模型来讲区别不大，因为它只学习的是样本对的相似度。

本发明的实例

实例1对恶意流量检测场景下的未知类别检测与识别的网络流量分类

USTC-TFC2016数据集是网络入侵和数据挖掘研究中经常用到的公开网络流量数据集。该数据集包括20类，其中包括10类正常流量和10类恶意流量。10类恶意流量包含2011年至2015年CTU研究人员从真实网络环境中收集的来自公共网站的十种恶意软件流量。正常类别流量使用IXIA BPS收集的十种正常流量。将数据集80％作为训练集，20％作为测试集。随机抽取70％的类别(即14类)作为已知类别，删除训练集中的未知类别(6类)流量数据。根据本发明的技术步骤训练得到分类器，通过分组测试，确定当判别阈值为1，每类对比样本为10时，分类器鉴别效果从时间和准确率两方面来说最佳。在测试数据上进行测试，发现相比于直接使用普通分类器进行分类，本发明提出的技术方案能将分类效果大大提升，总的识别率达到94.63％，对于未知类别，真实检测率达到95.38％。随后对这些混杂的未知类别流量进行细粒度识别。通过对高维特征的聚类，聚类纯度可达到85％以上。随后将知识库进行扩充。实验证明，当增加一个新类别时，模式整体识别能力达到96.03％。其中针对于新增类别的识别能力可达到94.10％。

实例2对vpn场景下的未知类别检测与识别的网络流量分类

ISCX数据集包括6种常规加密流量和6种协议封装流量。将数据集80％作为训练集，20％作为测试集。随机抽取70％的类别(即10类)作为已知类别，删除训练集中的未知类别(2类)流量数据。根据本发明的技术步骤训练得到分类器，通过分组测试，确定当判别阈值为1.5，每类对比样本为10时，分类器鉴别效果从时间和准确率两方面来说最佳。在测试数据上进行测试，发现相比于直接使用普通分类器进行分类，本发明提出的技术方案能将分类效果大大提升，总的识别率达到90.60％，对于未知类别，真实检测率达到93.02％。随后对这些混杂的未知类别流量进行细粒度识别。通过对高维特征的聚类，聚类纯度可达到80％以上。随后将知识库进行扩充。实验证明，当增加一个新类别时，模式整体识别能力达到90.44％。其中针对于新增类别的识别能力可达到93.83％。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于孪生网络的未知类别网络流量的检测与识别方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，步骤1)中，如果一条单向数据流中的数据包集中分布在多个不同时间段内，则以空闲期为界将该单向数据流进行划分，得到多条单向数据流；如果一条单向数据流的长度小于设定阈值，则丢弃该单向数据流。

3.如权利要求1所述的方法，其特征在于，训练更新该孪生网络的方法为：在该孪生网络的训练阶段中，每次迭代时平衡训练各个类，利用孪生网络学习不同数据流对的相似性；在更新阶段，将新类别的数据流样本N_update与原已知类别的数据流组成若干流量对，训练更新该孪生网络。

4.如权利要求1所述的方法，其特征在于，步骤2)中，将数据包从二进制转为字节，然后滤除确认包和重传包，然后选择每个数据包从IP头部开始的n字节，不足n字节则补0。

5.如权利要求1所述的方法，其特征在于，所述聚类方法为K-Means算法。

6.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至5任一所述方法中各步骤的指令。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一所述方法的步骤。