CN109981474A

CN109981474A - 一种面向应用软件的网络流量细粒度分类系统及方法

Info

Publication number: CN109981474A
Application number: CN201910232314.7A
Authority: CN
Inventors: 于爱民; 徐震; 赵力欣; 蔡利君; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-05

Abstract

本发明涉及一种面向应用软件的网络流量细粒度分类系统及方法，包括：数据收集与预处理模块、特征提取与模型训练模块、流关联分析模块；数据收集与预处理模块：收集操作系统背景流量，收集目标应用软件的网络流量，然后进行预处理，从中过滤掉背景流量数据包和错误数据包，并按照流量五元组提取出流；特征提取与模型训练模块：针对提取出的每条流，利用一阶马尔科夫模型对流中的包大小序列进行建模，计算包大小序列的转移概率矩阵，并将其作为特征向量训练分类模型；流关联分析模块：对分类器的分类结果进行置信度检验，将小于类别概率阈值的流标记为模糊流，将模糊流与非模糊流通过K近邻端口进行关联分析，修正模糊流的类别标签，得到最终的分类结果。

Description

一种面向应用软件的网络流量细粒度分类系统及方法

技术领域

本发明涉及一种面向应用软件的网络流量细粒度分类系统及方法，属于计算机网络技术领域。

背景技术

网络流量分类在网络管理和网络安全中发挥着重要的作用。例如，为了更好的进行网络设计和配置，网络管理人员需要充分了解流量的组成和应用的使用趋势；为了更好的进行服务质量控制(QoS)，需要首先将网络中的所有流量按不同应用类型进行划分，然后针对不同类型的应用提供不同的服务质量等级，从而确保关键业务服务质量，维持网络高效通畅运行。在网络安全方面，流量分类是入侵检测系统(IDS)的核心部分，其可发现网络中的突发流量(如分布式拒绝服务攻击)和未知流量，以便于及时采取有效的防御措施。为了有效的进行网络流量分类，多种流量分类方法被相继提出，这些流量分类方法可以被归纳为三个类别：基于端口的方法、基于包负载内容的方法、基于流(flow)统计的方法。

基于端口的方法通过检查网络数据包的传输层端口号，然后根据IANA[9]定制的知名端口号与应用协议的对应关系来将数据包与不同的应用协议关联起来。然而，随着网络应用的不断发展，基于端口的方法逐渐变得不再可靠。已有研究表明[Karagiannis T,Broido A,Brownlee N,et al.Is P2P dying or just hiding？[P2P trafficmeasurement][C]//IEEE Global Telecommunications Conference.2004.]、[MadhukarA,Williamson C.A Longitudinal Study of P2P Traffic Classification[C]//IEEEInternational Symposium on Modeling.2006.]，新型的P2P类应用普遍使用随机端口进行数据传输。与此同时，有些应用将自己的网络流量隐藏在知名的端口之后以规避防火墙的检测，进而导致基于端口的流量分类方法不再适用。

考虑到基于端口的流量分类方法的缺点，基于包负载内容的方法[7,8]被提出。基于包负载内容的方法通过分析数据包的载荷数据来对已知的应用签名进行匹配。基于包负载内容的方法具有准确率高的优点，然而，其同时面临以下不足：(1)非标应用和私有协议缺乏公开可用的协议规范，导致特征串难找易变；(2)无法应对加密网络流量；(3)对数据包内容的检查存在隐私保护问题；(4)系统时间和空间开销巨大。

为了克服以上两种方法的不足，近年来研究人员广泛使用基于网络行为或流统计特征的方法来解决流量分类问题。机器学习技术在基于流统计特征的流量分类中的应用受到了极大的关注。Roughan等人[Roughan M,Sen S,Spatscheck O,et al.Class-of-service mapping for QoS:a statistical signature-based approach to IP trafficclassification[C]//Acm Sigcomm Conference on Internet Measurement.2004.]提出使用K近邻算法进行网络流量分类，该方法共使用了5类特征：分组层次、流层次、连接层次、流与连接内部特征、同一源目主机之间的多条并发流的特征。然而，实验结果表明该方法随着流量类型数量的增加，分类错误率明显上升。Moore等人[Moore A W,Zuev D.Internettraffic classification using bayesian analysis techniques[J].Acm SigmetricsPerformance Evaluation Review,2005,33(1):50-60.]引入朴素贝叶斯方法进行流量分类与应用识别。但是该方法要求样本各个特征之间满足条件独立的假设，这在实际的网络流量特征中难以满足，因此其分类准确率较低。Raahemi等人[Raahemi B,Zhong W,JingL.Peer-to-Peer Traffic Identification by Mining IP Layer Data Streams UsingConcept-Adapting Very Fast Decision Tree[C]//IEEE International Conference onTools with Artificial Intelligence.2008.]提出基于CVFDF决策树算法的P2P流量识别方法，该算法能够得知每个决策节点测试所需要的最少样例数，并能使决策树动态增长，从而满足识别模型动态更新的需要，但决策树方法根据训练数据集的局部信息对样本特征进行过滤，会导致特征选择的局部最优性，进而导致分类结果的不稳定。Sun等人[Sun R,YangB,Peng L,et al.Traffic classification using probabilistic neural networks[C]//Natural Computation(ICNC),2010Sixth International Conference on.IEEE,2010.]提出利用概率神经网络解决流量分类问题，与传统的BP神经网络相比，PNN训练速度更快，收敛性更好，但此方法仅仅限于web与P2P两类流量分类。Taylor V F等人[Taylor VF,Spolaor R,Conti M,et al.AppScanner:Automatic Fingerprinting of SmartphoneApps from Encrypted Network Traffic[C]//IEEE European Symposium on Security&Privacy.IEEE,2016.]、[Taylor V F,Spolaor R,Conti M,et al.Robust Smartphone AppIdentification via Encrypted Network Traffic Analysis[J].IEEE Transactions onInformation Forensics&Security,2017,13(1):63-78.]使用SVM和随机森林算法来从网络流量中对手机APP进行识别，并取得了99.8％的准确率。然而，相比于流量分类，对手机APP进行识别的任务更加简单。从理论上来说，其仅需正确分类目标APP的一条流就可以正确识别该APP，而流量分类则需要对所有网络流量分类正确。

已有的网络流量分类方法的不足：

(1)已有研究工作往往是面向协议(例如HTTP，FTP，SMTP等)或协议族(例如P2P，WEB，Streaming等)的。但是对于一个特定的应用协议来说，其可能同时被多种不同的应用所使用，因此面向具体应用软件的流量分类更加细粒度；对于一个特定的应用软件来说，其可能使用多种不同的协议来完成不同的业务功能，因此应用软件的网络行为更加多样化。传统的简单流统计特征忽略了每条流中数据包之间的时序变化特点，不能有效的表征不同应用软件的流特征，面向应用软件进行流量分类时准确率低。

(2)已有研究工作对于网络流量的分类结果仅仅依赖于分类器本身的判定。但是具有相似业务功能的不同应用软件可能会产生相似的流，使得分类器在特征空间下难以有效区分，进而导致分类准确率低。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种面向应用软件的网络流量细粒度分类系统及方法，同时考虑细粒度流特征刻画和分类结果置信度检验，提高了分类准确率。

本发明技术解决方案：

一种面向应用软件的网络流量细粒度分类系统，包括：数据收集与预处理模块、特征提取与模型训练模块、流关联分析模块；其中：

数据收集与预处理模块：收集操作系统自身产生的网络流量，该流量为背景流量；收集目标应用软件的网络流量，然后进行预处理，从中过滤掉背景流量数据包和错误数据包，并按照流量五元组(源IP，目的IP，源端口，目的端口，传输层协议)提取出流(flow)，其中，一条流是指具有相同五元组的一组连续的数据包；

特征提取与模型训练模块：针对提取出的每条流，获取其包大小序列，按照均匀分布的映射规则将包大小序列映射为状态序列，使用一阶马尔科夫模型对得到的状态序列进行建模，计算该序列的转移概率矩阵，并将转移概率矩阵作为特征向量，使用支持向量机(SVM)算法来训练分类器；

流关联分析模块：对分类器的分类结果进行置信度检验，通过将分类器输出的后验概率与类别概率阈值进行比较，将流样本分为模糊流和非模糊流两类，小于类别阈值的流标记为模糊流，其他标记为非模糊流；将模糊流与非模糊流通过K近邻端口进行关联分析，通过非模糊流的类别标签来修正模糊流的类别标签，得到最终的分类结果。

所述数据收集与预处理模块中，

数据预处理的具体步骤如下：

(1)提取背景流量中出现的IP地址，本机IP地址除外；

(2)解析捕获的网络流量，过滤掉包含(1)中IP地址的数据包以及乱序到达、重传、校验和错误非正常数据包；

(3)对每个应用的网络流量，按照五元组，即源IP，源端口，目的IP，目的端口，传输层协议进行流提取，将网络流量表示为流集合。

所述特征提取与模型训练模块具体步骤如下：

(1)对于每条流，从数据包头中提取包负载大小信息，将流表示为包大小序列，考虑客户端→服务器和服务器→客户端双向流数据，其中客户端→服务器的包大小表示为正值，服务器→客户端的包大小表示为负值；

(2)将原始包大小序列转化为状态转移序列；

(3)计算每条流对应的状态转移序列的转移概率矩阵；

(4)将每个转移概率矩阵按行展开，形成特征向量集。

上述将原始包大小序列转化为状态转移序列，具体步骤如下：

(1)将全部的数据包大小的绝对值按照从小到大的顺序进行排列；

(2)按照等分法对数据包进行分桶，使得每个分桶中的数据包个数满足均匀分布，落在同一个分桶中的数据包映射为同一个状态；

(3)将大小为0、1460和大于1460的数据包作为单独的状态进行映射；

(4)将每个包大小转换为对应的状态。

所述流关联分析模块中，模糊流与非模糊流的区分过程为：

使用SVM算法来训练分类器，SVM的决策函数如下：

其中N表示训练样本的个数，y_i表示第i个训练样本的标签，α_i为第i个训练样本所对应的拉格朗日系数，K为选定的核函数，b为分类超平面的偏置，f(x)的值正比于样本x到分类超平面的距离；

利用Sigmod函数拟合f(x)的输出，通过公式(2)可给出样本类别的后验概率，它表示对于分类结果的确定程度：

通过将分类器输出的后验概率P与类别概率阈值β进行比较，将低于类别概率阈值的流样本标记为模糊流，将大于或等于类别概率阈值的流样本标记为非模糊流。

所述流关联分析模块中，K近邻端口关联分析的方法如下：

(1)获取模糊流的源IP和源端口：对于模糊流集合中的每个流样本s，获取s的源IPip_src_s和源端口port_src_s。

(2)获取与待识别模糊流具有相同源IP且具有K近邻端口关系的非模糊流的类别标签集合：初始化一个空集合Y，遍历非模糊流集合中的每个流样本e，获取e的源IP ip_src_e和源端口port_src_e，若ip_src_s与ip_src_e相同并且port_src_s–K≤port_src_e≤port_src_s+K，则将e对应的类别标签y添加到集合Y中；

(3)结合非模糊流的类别标签来修正待识别模糊流的类别标签：如果Y不为空，则将s的类别标签修改为Y中出现最多的标签值。

本发明一种面向应用软件的网络流量细粒度分类方法，包括以下步骤：

(1)数据收集与预处理：收集操作系统自身产生的网络流量，该流量为背景流量。收集目标应用软件的网络流量，然后进行预处理，从中过滤掉背景流量数据包和错误数据包，并按照流量五元组提取出流(flow)，五元组即源IP，目的IP，源端口，目的端口，传输层协议；其中，一条流是指具有相同五元组的一组连续的数据包；

(2)特征提取与模型训练：针对提取出的每条流，获取其包大小序列，按照均匀分布的映射规则将包大小序列映射为状态序列，使用一阶马尔科夫模型对得到的状态序列进行建模，计算该序列的转移概率矩阵，并将转移概率矩阵作为特征向量，使用支持向量机(SVM)算法来训练分类器；

(3)流关联分析：对分类器的分类结果进行置信度检验，通过将分类器输出的后验概率与类别概率阈值进行比较，将流样本分为模糊流和非模糊流两类，小于类别阈值的流标记为模糊流，其他标记为非模糊流；将模糊流与非模糊流通过K近邻端口进行关联分析，通过非模糊流的类别标签来修正模糊流的类别标签，得到最终的分类结果。

本发明与现有技术相比的优点在于：

(1)同一种应用协议往往被多种不同的应用软件所使用，因此将网络流量按照具体的应用软件进行分类更加细粒度。应用软件往往使用多种不同的协议来完成不同的业务功能，相比于单一的网络协议，其网络行为更加多样化，需要更加细粒度的刻画不同应用软件流量特征。本发明提出的基于马尔科夫链的流特征提取方法，使用一阶马尔科夫模型对每条流中的包大小序列进行建模，将得到的转移概率矩阵作为该条流的特征向量。与传统的流统计特征相比，基于马尔科夫链的特征提取方法考虑了流中数据包之间的时序变化特点。

(2)不同的应用软件也可能会表现出相似的网络行为，使得它们的网络流在特征空间难以区分，进而导致分类准确率低。本发明通过对分类器的分类结果进行置信度检验，将后验概率低于概率阈值的模糊流与高于概率阈值的非模糊流通过K近邻端口进行关联分析，修正模糊流的类别标签，有效的提高了分类准确率。

附图说明

图1为本发明系统组成框图；

图2为本发明特征提取与模型训练模块中特征提取流程图；

图3为本发明中端口空间局部性图；

图4为本发明中K近邻端口关联图，其中(a)端口关联操作前，(b)端口关联操作后。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明的一种面向应用软件的网络流量细粒度分类系统包括：数据收集与预处理模块、特征提取与模型训练模块、流关联分析模块。

步骤1：数据收集与预处理：搭建干净的虚拟机环境，收集操作系统背景流量；然后逐一运行目标应用软件，人工遍历目标软件的各个业务功能模块，收集目标应用软件的网络流量；网络流量收集完成后，从中过滤掉背景流量数据包和错误数据包，并按照流量五元组(源IP，目的IP，源端口，目的端口，传输层协议)提取出流(flow)。

步骤2：特征提取与模型训练：针对提取出的每条流，获取其包大小序列，按照均匀分布的映射规则将包大小序列映射为状态序列，使用一阶马尔科夫模型对得到的状态序列进行建模，计算该序列的转移概率矩阵，并将转移概率矩阵作为特征向量，使用支持向量机(SVM)算法来训练分类器。

步骤3：流关联分析：对分类器的分类结果进行置信度检验，通过将分类器输出的后验概率与类别概率阈值进行比较，将小于类别概率阈值的流标记为模糊流，大于等于类别概率阈值的流标记为非模糊流，将模糊流与非模糊流通过K近邻端口进行关联分析，修正模糊流的类别标签，得到最终的分类结果。

步骤1：数据收集与预处理具体实施步骤

数据收集的具体步骤如下：

(1)创建一个新的虚拟机，安装Windows7操作系统(也可使用其他版本的操作系统)；

(2)让系统运行两个小时，与此同时用数据包捕获工具tshark进行流量捕获，此处捕获的流量为背景流量；

(3)运行目标应用软件，人工遍历目标应用软件的各个功能模块，与此同时用tshark进行流量捕获；

(4)目标应用软件运行1小时后，关闭目标应用软件，停止流量捕获并保存捕获的网络流量。

(5)卸载该目标应用软件，安装下一个目标应用软件，继续步骤(3)，直到所有目标应用软件流量收集结束。

数据预处理的具体步骤如下：

(1)提取背景流量中出现的IP地址(本机IP地址除外)；

(2)解析捕获的网络流量，过滤掉包含(1)中IP地址的数据包以及乱序到达、重传、校验和错误等非正常数据包；

(3)对每个应用的网络流量，按照(源IP，源端口，目的IP，目的端口，传输层协议)五元组来进行流提取，将网络流量表示为流集合。

步骤2：特征提取与模型训练具体实施步骤

1.特征提取

如图2所示，利用马尔科夫链来对每条流中的包大小序列进行建模，提取流特征具体步骤如下：

(1)对于每条流，从数据包头中提取包负载大小信息，将流表示为包大小序列。考虑客户端→服务器和服务器→客户端双向流数据，其中客户端→服务器的包大小表示为正值，服务器→客户端的包大小表示为负值；

(2)将原始包大小序列转化为状态转移序列，具体步骤如下：

1)将全部的数据包大小的绝对值按照从小到大的顺序进行排列；

2)按照等分法对数据包进行分桶，使得每个分桶中的数据包个数满足均匀分布，落在同一个分桶中的数据包映射为同一个状态；

3)将大小为0、1460和大于1460的数据包作为单独的状态进行映射；

4)将每个包大小转换为对应的状态。

(3)计算每条流对应的状态转移序列的转移概率矩阵；

(4)将每个转移概率矩阵按行展开，形成特征向量集。

2.模型训练

考虑到特征提取后形成的特征向量是稀疏的高维向量，所以在进行模型训练之前，先通过PCA对特征向量进行了降维处理，然后使用SVM算法进行多类别分类器训练，得到分类器模型。

步骤3：流关联分析实现步骤

应用软件出于业务功能或性能的需要，在运行过程中往往建立多条连接，虽然应用软件会使用随机端口来与服务器端建立连接，但是一旦其选择了某个端口来初始化第一条连接，接下来在建立其他连接时往往会选择该端口附近的端口来使用，将这种现象称之为应用软件端口使用的“空间局部性”。图3展示了本发明测试的12种不同应用软件端口使用的空间局部性特点。从图3中可以看出，每个应用软件在运行过程中使用的端口范围具有连续性，它们往往在第一条连接使用的端口附近来选择其他端口建立后续的连接。虽然不同应用之间使用的端口范围有一定的重合，但是其对最终的结果不会产生严重影响(这可以从图4的例子中得到验证，后面会进行分析)。

考虑到功能相似的应用软件可能会产生相似的流，即使提取的细粒度的特征可能也无法将它们在特征空间很好的区分，仅仅依赖于分类器本身给出的类别判定结果准确率低。通过设定类别概率阈值将流样本分为模糊流和非模糊流两类，利用K近邻端口来对模糊流和非模糊流进行关联，通过非模糊流的类别标签来修正模糊流的类别标签。

(1)模糊流与非模糊流区分

本发明使用SVM算法来训练分类器，SVM的决策函数如下：

从公式(1)中可以看出，f(x)的值正比于样本x到分类超平面的距离。该算法的核心思想是样本距离分类超平面越近，被分类正确的可能性越低，样本距离分类超平面越远，被分类正确的可能性越高。更一般地，可以通过公式(2)给出样本类别的后验概率，它表示了对于分类结果的确定程度。

通过将分类器输出的后验概率P与类别概率阈值β进行比较，将低于类别概率阈值的流样本标记为模糊流(如图4中的(a)椭圆中样本所示)，这些模糊流对应于不同应用产生的相似流。将大于或等于类别概率阈值的流样本标记为非模糊流(如图4中的(a)中虚线方框中的样本所示)，这些非模糊流对应于不同应用产生的“个性化”流。

(2)K近邻端口关联

从图4中(a)中可以看出，同一应用软件在产生模糊流的同时，会不可避免的产生“个性化”的非模糊流，这是由于不同的应用软件的业务功能的差异性，不同开发人员的差异性等原因导致的。通过利用应用软件端口使用的空间局部性特点，将模糊流与非模糊流进行关联分析，进一步修正模糊流的类别标签。如图4中的(b)所示，经过流关联分析之后，大部分被误分类的模糊流样本被重新标记为了正确的类别。虽然由于不同应用之间端口使用范围的部分重合，使得在进行关联分析后，少量原本分类正确的模糊流样本被标记为了错误的类别，但是从整体来看，关联分析之后的被误分类的模糊流样本大大减少。

K近邻端口关联具体算法如下：

(2)获取与待识别模糊流具有相同源IP且具有K近邻端口关系的非模糊流的类别标签集合：初始化一个空集合Y。遍历非模糊流集合中的每个流样本e，获取e的源IP ip_src_e和源端口port_src_e，若ip_src_s与ip_src_e相同并且port_src_s–K≤port_src_e≤port_src_s+K，则将e对应的类别标签y添加到集合Y中。

总之，针对已有的基于机器学习技术和流统计特征的方法不能有效的表征不同应用软件的流特征和对于不同应用软件产生的相似流不能进行有效判别的问题，本发明一方面利用马尔科夫链对每条流的流特征进行细粒度的刻画，有效的表征了不同应用软件的流特征，另一方面利用不同应用软件端口使用所具有的“空间局部性”特点对分类器不能有效判别的相似流进行关联分析，进一步提高了分类准确率。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种面向应用软件的网络流量细粒度分类系统，其特征在于，包括：数据收集与预处理模块、特征提取与模型训练模块、流关联分析模块；其中：

2.根据权利要求1所述的面向应用软件的网络流量细粒度分类系统，其特征在于：所述数据收集与预处理模块中，

数据预处理的具体步骤如下：

(1)提取背景流量中出现的IP地址，本机IP地址除外；

3.根据权利要求1所述的面向应用软件的网络流量细粒度分类系统，其特征在于：所述特征提取与模型训练模块具体步骤如下：

(2)将原始包大小序列转化为状态转移序列；

(3)计算每条流对应的状态转移序列的转移概率矩阵；

(4)将每个转移概率矩阵按行展开，形成特征向量集。

4.根据权利要求3所述的面向应用软件的网络流量细粒度分类系统，其特征在于：将原始包大小序列转化为状态转移序列，具体步骤如下：

(4)将每个包大小转换为对应的状态。

5.根据权利要求1所述的面向应用软件的网络流量细粒度分类系统，其特征在于：所述流关联分析模块中，模糊流与非模糊流的区分过程为：

使用SVM算法来训练分类器，SVM的决策函数如下：

6.根据权利要求1所述的面向应用软件的网络流量细粒度分类系统，其特征在于：所述流关联分析模块中，K近邻端口关联分析的方法如下：

(1)获取模糊流的源IP和源端口：对于模糊流集合中的每个流样本s，获取s的源IP ip_src_s和源端口port_src_s。

7.一种面向应用软件的网络流量细粒度分类方法，其特征在于，包括以下步骤：

(1)数据收集与预处理：收集操作系统自身产生的网络流量，该流量为背景流量；收集目标应用软件的网络流量，然后进行预处理，从中过滤掉背景流量数据包和错误数据包，并按照流量五元组提取出流(flow)，五元组即源IP，目的IP，源端口，目的端口，传输层协议；其中，一条流是指具有相同五元组的一组连续的数据包；