CN102098346B

CN102098346B - 一种在未知流量中识别p2p流媒体流量的方法

Info

Publication number: CN102098346B
Application number: CN 201110043431
Authority: CN
Inventors: 郑璐; 王洪波; 程时端
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-02-23
Filing date: 2011-02-23
Publication date: 2013-01-23
Anticipated expiration: 2031-02-23
Also published as: CN102098346A

Abstract

一种在未知流量中识别P2P流媒体流量的方法，是先统计大量的包含多类应用的P2P流媒体数据流，提取其中分组的负载长度作为参量，推导出其符合区间离散分布特性的多类应用样本；再对未知流量中传输层的UDP流量以数据流为单位输入，提取其中每个分组而获知其负载长度，根据应用样本得出该分组属于每类应用的先验概率值，结合贝叶斯公式计算其属于每类应用的后验概率值，并选取其中最大值；定义表示数据流属于某类应用的可信度的信度值，再结合后验概率的最大值和通过迭代选取的平均值，作为该数据流的当前信度值；最后将该数据流的当前信度值和预设的判定阈值相比较，就判定得出该数据流归属的应用类别。本发明处理速度快、存储空间小，应用范围广。

Description

一种在未知流量中识别P2P流媒体流量的方法

技术领域

本发明涉及一种流量识别技术，确切地说，涉及一种基于行为特性在未知流量中识别点对点P2P（Peer to Peer）流媒体流量的方法，属于网络互连通信的技术领域。

背景技术

近年来，随着P2P技术的不断发展，大量的P2P应用流量占用了网络出口的巨大带宽，直接影响到人们的学习、工作和生活，同时也在其他方面（例如版权和安全等）给社会带来一定的负面影响。P2P流媒体应用只是P2P诸多应用领域中的一种，因P2P流媒体系统需要的资源少，能够大大降低中心服务器的压力，并且避免了单点故障，这些特性都使其得到了非常频繁和广泛的应用，占据了相当比例的网络流量，并且加速了盗版的传播。在这种情况下，如何合理而高效地识别和控制P2P流量，已经成为一个迫切需要关注和解决的问题。

流量识别技术在行为审计、上网行为管理、流量控制等诸多方面有着广泛应用。在互联网中，位于不同网络节点之间的应用彼此传递消息的单元是数据流和数据分组，然而，这些传输单元中并没有显式的特征与其应用相对应，因此，必须通过流量识别技术，将传输的数据流和数据分组与上层的应用进行匹配操作，才能执行后续的行为审计、管理与流量控制等操作，可以说，流量识别技术是实现上述应用的基础。

最初的P2P流量是很容易识别的，因为其使用固定的传输控制协议TCP（Transmission Control Protocol）或用户报文协议UDP（User Datagram Protocol）端口，但是，随着技术的发展，许多P2P应用开始使用随机选择的端口，甚至其端口是动态改变的；或者伪装成常规应用，因此简单的端口识别技术已经无法使用了。

目前比较常用的识别P2P流媒体流量的方法可以分作下述三类：

（一）深度包检测技术，通过分析数据流中每个分组的应用层负载，寻找其特征值，再与已知的P2P应用特征进行匹配，来区分是哪一种应用。

深度包检测技术是目前运用最广泛的流量识别方法，因为其方法简单，易于实现，并且准确率高，一般情况下很少产生误判。并且由于不同应用的特征值不同，使用深度包检测技术可以精确地匹配到某一类具体应用。但是，该技术也有如下缺点：识别效率低，由于要进入应用层进行协议分析与特征匹配，所以其计算和存储的开销较大，可扩展性差。而且，P2P流媒体应用的更新十分迅速，如果软件协议版本发生变化，其特征值很可能随之发生变化，需要重新更新特征库；另外，无法识别加密应用。随着运营商对P2P流量的重视，P2P流媒体应用所产生的流量逐渐开始向加密的趋势发展，特征码不再明文传输。综合以上讨论可以看出，深度包检测技术虽有优点，也有明显不足，并且随着加密技术的发展，深度包检测技术将会受到很大的局限。

（二）数据流特征检测技术，不同于深度包检测技术，数据流特征检测技术不关心分组应用层的负载部分，只关注每条数据流的部分特性，例如：分组长度、流中的分组到达间隔、流的持续时间等。这种技术以数据流作为研究对象，从而避免了分析和查看应用层负载，更加注重于分析应用行为的本质特性。

根据已有的研究成果，基于数据流特征检测技术主要是结合机器学习和模式识别等技术。2007年兴起的对流特征进行聚类分析的方法，实际上就是一种基于数据流特征的测量，它利用各种方法对P2P系统与生俱来的动态特性（如流间隔时间、流持续时间以及单条流中包的间隔时间）进行测量，通过和预先设定的样本进行对比和匹配，得到P2P节点和流的识别结果。利用动态特性的识别技术基本上能够适用任何类型的P2P系统，但是，这是一种“广义”的识别，并没有深入关注P2P流媒体应用自身具有的一些特性，并且，这类技术通常属于“事后”的统计，其实时性效果欠佳。

（三）基于连接模式检测技术，该技术的本质区别于前两种技术之处在于：其观察和描述都是基于节点级别的，其主要研究对象为节点与节点之间的连接的行为模式，而并不局限于某一条数据流的特性和应用层负载的特征。

基于连接模式检测技术中最为著名的，是在文献《Transport LayerIdentification of P2P Traffic》中首次提到的两个识别思想：

TCP/UDP配对特性：利用P2P系统越来越趋向同时使用TCP和UDP协议进行传输，而绝大多数的传统应用都是固定使用一种传输层协议的特点，几乎所有著名的P2P文件下载系统都采用UDP来发送控制信息，完成节点或内容的搜索，再采用TCP协议来传输数据。

地址/端口对特性：P2P系统中每个节点都要不断向外发起和接受连接，并且每个节点都是每次随机选择一个不同的源端口，且由于动态监听端口技术的使用，每个目的端口也很少重复出现，这就使得从某个节点角度来看，连接该节点的地址和端口个数基本相同，且数量都比较大。因此，可以通过测量节点的连接数和源/目的端口以及源/目的地址之间的数量关系来判断是否为P2P应用。

以上两种技术都具有性能高、易于实现的优点，也对P2P流量的自身特性进行了比较恰当的阐述，但是，它仍然无法区分传统服务器（如mail）的不同流量，而且识别阈值的选取也很难有确定的理论支持；并且通过协议分析可以看到，P2P流媒体系统并不适用这种方法，因为目前绝大多数的P2P流媒体应用是使用UDP完成节点信息的交互与数据的传输；另外，同时使用TCP和UDP的应用越来越多，造成这种方法的误识别率较高，很容易错误识别一些常用应用。

因此，尽快研究和开发一种适用于当前的P2P流媒体流量识别的实时、高效的方法是很有实践价值和实用意义的，也成为业内科技人员关注的焦点课题。

发明内容

有鉴于此，本发明的目的是提供一种基于行为特性在未知流量中识别P2P流媒体流量的方法，本发明能够较好地克服现有技术的各种缺陷，具有快速处理能力和存储空间较小，能够基于行为对特定数据流实现实时识别，能够用于许多需要进行流量识别的场合。

为了达到上述目的，本发明提供了一种在未知流量中识别点对点P2P流媒体流量的方法，其特征在于：统计大量的包含多类应用的P2P流媒体数据流，提取其中分组的负载长度作为参量，推导得出其符合区间离散分布特性的多类应用样本；对于未知流量，将传输层中的用户报文协议UDP（User DatagramProtocol）流量以数据流为单位输入，提取该数据流中的各个分组而分别获知其负载长度，根据应用样本得出该分组属于每类应用的先验概率值，再结合贝叶斯公式计算其属于每类应用的后验概率值，并从中得出其后验概率的最大值；接着，定义数据流的信度值，用于表示该数据流属于某一类应用的可信度，再结合后验概率的最大值和通过迭代选取的平均值，作为该数据流的当前信度值；再将该数据流的当前信度值和预设的判定阈值相比较，就判定得出该数据流所归属的应用类别；所述方法包括下述操作步骤：

（1）生成样本：统计包含多类应用的大量UDP数据流，根据其中分组的负载长度分布特性进行拟合，得到符合区间离散分布特性的各类应用样本；该步骤包括下列操作内容：

（11）因以太网络的最大传输单元MTU（Maximum Transmission Unit）为1500字节，则其对应的UDP分组负载长度的取值范围为[0~1472]字节，将分组负载长度取值范围按照设定的区间长度△L划分为多个等长的区间θ_k，其中，自然数k表示区间序号；同时设置数组C_k，以便使用其中的元素记录数据流归属每个区间的分组数量，因此，该数组C_k中元素的个数等于所述多个区间的总数；

（12）对于某类应用流量的每个数据流中的每个分组执行下述操作：

先读取该分组包头中的负载长度字段获知该分组负载长度值λ，再按照公式：

计算确定该分组归属的区间序号，式中，运算符号

表示对其中数值向上取整；当该分组根据其负载长度归属某个区间时，就将数组C_k中与该区间对应的元素数值递增加1；

（13）当每个数据流中的所有分组都处理后，就获得该数据流的所有分组的负载长度分别归属各个区间的信息，即得到各个区间内分组个数的分布概率密度，用作该数据流的区间离散分布样本；

（14）对同一类应用的多条数据流重复执行步骤（12）和（13），生成该类应用的多个区间离散分布样本S_j，式中，自然数j为数据流的序号；当同类应用的采样数据流数量足够大时，将所有采样的样本S_j的平均值S，作为该类应用的分组负载长度分布特性样本，该样本的数据格式为<区间序号，分布概率>；

（15）对不同类应用的多条数据流分别重复执行步骤（12）~（14），得到对应的不同类应用的多个分组负载长度分布特性样本；

（2）似然计算：对于输入的未知流量，先获知每个数据流的各个分组的负载长度，并根据应用样本得出该分组属于每类应用的先验概率值；再按照贝叶斯公式分别计算其属于某类应用的后验概率值；再根据在多个后验概率值中选取的最大后验概率值以及迭代后的平均值，作为该数据流的当前信度值；

（3）判断决策：将数据流的当前信度值与预设的判定阈值进行比较，判定该数据流所归属的应用类别。

所述步骤（2）包括下列操作内容：

（21）因以数据流中的分组作为处理单元，故先获知每个分组的负载长度，并据此确定其所归属区间以及其在多类应用对应区间的分布概率，即该分组归属已知的第i类应用的先验概率值P(x|D_i)，其中，D_i为第i类应用，其自然数下标i为应用类别序号，x表示分组归属于第i类应用对应的某个区间的事件；

（22）根据贝叶斯公式：

由先验概率值P(x|D_i)计算该分组归属各类应用的后验概率值P(D_i|x)；其中，N为应用类别序号i的最大值，P(D_i)表示分组归属第i类应用的概率；

（23）用数组V记录当前数据流归属的不同应用，该数组中的每个元素用于识别数据流时记录每个分组归属各类应用的次数，故其元素个数等于应用类别序号的最大值；

（24）定义分组归属于每类应用的信度值B_i，该B_i的取值和所述分组归属各类应用的后验概率值P(D_i|x)呈线性比例关系；再在多个信度值B_i中选择其中最大值B_m，并以此将该分组归属于数组V中第m类应用所对应的元素V_m，再将数组V中对应应用的元素V_m数值递增加1；其中，m为分组归属的应用类别序号；

（25）采用下述迭代计算公式选取的平均值，作为该数据流的当前信度值B：其中，M表示当前处理的数据流分组序号。

所述步骤（3）包括下列操作内容：

（31）按照步骤（2）的流程，对已知不同应用类别的多个数据流分别计算信度值后，再迭代计算其平均值，得到不同应用类别中的每类应用的判定阈值；

（32）对于输入的未知流量，将获知的数据流的当前信度值B和判定阈值进行比较：如果信度值B大于或等于设定阈值，则判定该数据流属于P2P流媒体应用的流量；否则，返回执行步骤（2），继续处理该数据流中的后续分组；

（33）将判定为P2P流媒体流量的当前数据流，根据该数据流所归属的应用类别序号及其在数组S中元素最大值获知该分组所归属的具体应用。

（33）根据记录当前数据流归属的不同应用的次数的数组V中的元素最大值下标序号，确定当前数据流归属的具体应用类别。

本发明方法的优点是：不依赖于应用层的特征字，较好地避免了对加密协议无法识别的缺陷；本发明方法和深度包检测方法相比较，只针对每条数据流维护少量特征信息（例如信度值等），节省了大量的存储空间和运算能力；而且，本发明方法每次处理完分组后，就能执行一次判断，较好地实现了识别应用的实时性。另外，本发明方法的识别率高，误识别率低，特别适合应用于工程实践，并且操作步骤非常简单，容易掌握，便于推广应用；因此，本发明具有很好的普及、应用的前景。

附图说明

图1是本发明用于未知流量中识别P2P流媒体流量的方法操作步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明作进一步的详细描述。

本发明是一种用于未知流量中识别P2P流媒体流量的方法，通过统计大量包含多类应用的P2P流媒体数据流，提取其中分组的负载长度作为参量，推导得出符合区间离散分布特性的多类应用样本；对于未知流量，将其中的UDP流量以数据流为单位输入，提取该数据流中的各个分组而分别获知其负载长度，根据应用样本得出该分组属于每类应用的先验概率值，再结合贝叶斯公式计算其属于每类应用的后验概率值，并从中得出其后验概率的最大值；接着，定义数据流的信度值，用于表示该数据流属于某一类应用的可信度，再结合后验概率的最大值和通过迭代选取的平均值，作为该数据流的当前信度值；最后，将该数据流的当前信度值和预设的判定阈值相比较，就能够判定该数据流归属的应用类别。下面介绍本发明方法实施例的具体操作步骤（参见图1）。

步骤1，生成样本：统计包含多类应用的大量UDP数据流，根据其中分组的负载长度分布特性进行拟合，得到符合区间离散分布特性的各类应用样本。

该步骤包括下列具体操作内容：

（11）因以太网络的最大传输单元MTU为1500字节，其对应的UDP分组负载长度的取值范围为[0~1472]字节，将分组负载长度按照设定的区间长度△L划分为多个等长的区间θ_k，其中，自然数k表示区间序号；同时设置数组C_k，以便使用其中的元素记录数据流归属每个区间的分组数量，因此，该数组C_k中元素的个数等于多个区间的总数。本发明实施例设置ΔL=50，则划分的区间总数K：也就是区间序号k的最大值是30，UDP分组负载长度的取值范围被划分为30个等长的区间；

计算确定该分组归属的区间序号，式中，运算符号

（14）对同一类应用的多条数据流重复执行步骤（12）和（13），生成该类应用的多条数据流的多个区间离散分布样本S_j，式中，自然数j为数据流的序号；当同类应用的采样数据流数量足够大时，将所有采样的样本S_j的平均值S，作为该类应用的分组负载长度分布特性样本，该样本的数据格式为<区间序号，分布概率>；

（15）对不同类应用的多条数据流分别重复执行步骤（12）~（14），得到对应的不同类应用的多个分组负载长度分布特性样本。

步骤2，似然计算：对于输入的未知流量中数据流，先获知其中每个分组的负载长度，并根据应用样本得出该分组属于每类应用的先验概率值；再按照贝叶斯公式分别计算其属于某类应用的后验概率值；根据在多个后验概率值中选取的最大后验概率值以及迭代后的平均值，作为该数据流的当前信度值。

该步骤包括下列具体操作内容：

（21）因以数据流中的分组作为处理单元，故先获知每个分组的负载长度，并据此确定其所归属区间以及其在多类应用对应区间的分布概率，即该分组归属已知的第i类应用的先验概率值P(x|D_i)，其中，D_i为第i类应用，其自然数下标i为应用类别序号，实施例共设置N类应用样本，即应用类别序号i的最大值为N；x表示分组归属与第i类应用对应的某个区间的事件；

（22）根据贝叶斯公式：

由先验概率值P(x|D_i)计算该分组归属各类应用的后验概率值P(D_i|x)；P(D_i)是分组归属第i类应用D_j的发生概率；因为输入的未知流量是不带任何条件的，因此可假设每类应用样本事件D_j的发生概率相同，即当i取不同数值时，P(D_i)数值相等，称为每种应用的权重都相等，即有：

对贝叶斯公式加以推导，得出：

P (D_{i} | x) = \frac{P (x | D_{i}) P (D_{i})}{Σ_{i = 1}^{N} P (x | D_{i}) P (D_{i})} = \frac{\frac{1}{N} P (x | D_{i})}{\frac{1}{N} Σ_{i = 1}^{N} P (x | D_{i})} = \frac{P (x | D_{i})}{Σ_{i = 1}^{N} P (x | D_{i})};

观察该推导公式的分母，可以发现：对于同一个分组而言，分母的取值都相同；因此，后续操作中对每个分组归属于应用类别的后验概率值的比较，实质上就是比较上式中的分子；

（23）用数组V记录当前数据流归属的不同应用，该数组中的每个元素是识别数据流时记录每个分组归属各类应用的次数，故其元素个数等于应用类别序号的最大值；

（24）定义分组归属于每类应用的信度值B_i，该B_i的取值和该分组归属各类应用的后验概率值P(D_i|x)呈线性比例关系：B_i=αP(D_i|x)(α>0)，其中，α为线性比例系数，假设α取值为

则有：

B_{i} = αP (D_{i} | x) = α \times \frac{P (x | D_{i})}{Σ_{i = 1}^{N} P (x | D_{i})} = Σ_{i = 1}^{N} P (x | D_{i}) \times \frac{P (x | D_{i})}{Σ_{i = 1}^{N} P (x | D_{i})} = P (x | D_{i});

可以看出，分组属于每类应用的信度值与其后验概率值是相等的；再在多个信度值B_i中选择最大值B_m，并以此将该分组归属于数组V中第m类应用对应的元素V_m，再将数组V中对应应用的元素V_m数值递增加1；其中，m为分组归属的应用类别序号；

（25）采用下述迭代计算公式选取的平均值，作为该数据流的当前信度值B：

其中，M表示当前处理的数据流分组序号。

步骤3，判断决策：将数据流的当前信度值与预设的判定阈值进行比较，判定该数据流归属的应用类别。该步骤包括下列具体操作内容：

（31）按照步骤（2）的流程，对已知不同应用类别的多个数据流分别计算信度值后，再经多次实验迭代计算其平均值，得到不同应用类别中的每类应用的判定阈值；

（33）根据数组V中的元素最大值下标序号，确定当前数据流所归属的具体应用类别。

本发明方法已经进行了多次实施试验，其结果是成功的，证明本发明方法是可行的，实现了发明目的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种在未知流量中识别点对点P2P流媒体流量的方法，其特征在于：统计大量的包含多类应用的P2P流媒体数据流，提取其中分组的负载长度作为参量，推导得出其符合区间离散分布特性的多类应用样本；对于未知流量，将传输层的用户报文协议UDP流量以数据流为单位输入，提取该数据流中的各个分组而分别获知其负载长度，根据应用样本得出该分组属于每类应用的先验概率值，再结合贝叶斯公式计算其属于每类应用的后验概率值，并从中得出其后验概率的最大值；接着，定义数据流的信度值，用于表示该数据流属于某一类应用的可信度，再结合后验概率的最大值和通过迭代选取的平均值，作为该数据流的当前信度值；再将该数据流的当前信度值和预设的判定阈值相比较，就判定得出该数据流所归属的应用类别；所述方法包括下述操作步骤：

（11）因以太网络的最大传输单元MTU为1500字节，则其对应的UDP分组负载长度的取值范围为[0~1472]字节，将分组负载长度取值范围按照设定的区间长度ΔL划分为多个等长的区间θ_k，其中，自然数k表示区间序号；同时设置数组C_k，以便使用其中的元素记录数据流归属每个区间的分组数量，因此，该数组C_k中元素的个数等于所述多个区间的总数；

计算确定该分组归属的区间序号，式中，运算符号

（15）对不同类应用的多条数据流分别重复执行步骤（12）~（14），得到对应的不同类应用的多个分组负载长度分布特性样本

2.根据权利要求1所述的方法，其特征在于：所述步骤（2）包括下列操作内容：

（22）根据贝叶斯公式：

其中，M表示当前处理的数据流分组序号。

3.根据权利要求1所述的方法，其特征在于：所述步骤（3）包括下列操作内容：

（33）根据记录当前数据流归属的不同应用的次数的数组V中的最大值元素的下标序号，确定当前数据流归属的具体应用类别。