CN106878073B

CN106878073B - 基于t分布混合模型的网络多媒体业务半监督分类方法

Info

Publication number: CN106878073B
Application number: CN201710077295.6A
Authority: CN
Inventors: 董育宁; 赵家杰
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2019-10-08
Anticipated expiration: 2037-02-14
Also published as: CN106878073A

Abstract

本发明公开了基于t分布混合模型的网络多媒体业务半监督分类方法，具体包含数据集预处理、t分布聚类过程和分类过程。数据集预处理采集互联网上各种多媒体业务的数据流样本，然后进行预处理操作。t分布聚类过程对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作，得到K个多维t分布聚类。分类过程对上述聚类后的结果进一步进行分类，并计算最后分类的总体正确率。本发明使用t分布混合模型对多媒体业务进行更加精确的拟合，提高了分类的准确度。有限t分布混合模型的EM算法有效地提高了t分布混合模型的收敛速度。实验表明提出的算法有较高的准确率，并且拟合的模型要优于传统的K‑means算法和传统的高斯混合模型的EM算法。

Description

基于t分布混合模型的网络多媒体业务半监督分类方法

技术领域

本发明属于网络流量分类方法，具体涉及一种基于t分布混合模型的网络多媒体业务半监督分类方法。

背景技术

近年来，由于网络多媒体业务的不断发展，网络流量的监测管理和网络安全的难度也随之提升。对当前网络进行流量分类和分析能够帮助互联网服务提供商和相关网络管理人员了解当前网络状况，以保障网络的服务质量(QoS,Quality of Service)、提高计算机网络的性能。因此，网络流量分类成为当前计算机网络的研究热点。

流量分类主要可以分为四种：基于端口号的方式、深度包检测、基于统计的方式和基于行为和机器学习的方式。由于新的网络应用层出不穷，加密传输、动态端口号等技术的出现使得前两种方法对流量分类的准确率大为降低。而单独采用统计的方式只能从宏观角度对流量进行分析，不能规避一些无关的统计特征，导致计算量大。目前通常采用机器学习的方式进行流量分类。

关于流量识别的机器学习算法，主要分为有监督分类算法、无监督分类算法和半监督分类算法。半监督分类是有监督分类和无监督分类的结合。由于其结合了已知标签的样本，可以提前获取部分信息，所以被一些算法所采用。部分半监督网络流量分类的算法采用K-means及其改进算法进行分类；部分算法采用EM(Expectation Maximization)算法并使用高斯混合模型(GMM,Gaussian Mixture Model)进行拟合。但是受到数据样本的离群点的影响，这些算法的准确率都偏低。

发明内容

为克服以上算法的缺点，本发明使用t分布混合模型(TMM,t-distributionMixture Model)的EM算法对网络流量的数据样本进行拟合，并提出一种有限t分布混合模型(LTMM，Limited t-distribution Mixture Model)，提高了TMM拟合时的收敛速度。实验结果表明，本发明对于多媒体网络业务的流量分类，总体正确率可达到97％以上，要优于传统的K-means算法和传统的高斯混合模型的EM算法。

为达到上述目的，本发明的技术方案为基于t分布混合模型的网络多媒体业务半监督分类方法，具体包含以下步骤：

(1)数据集预处理：采集互联网上各种多媒体业务的数据流样本，然后进行预处理操作；

(2)t分布聚类过程：对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作，得到K个多维t分布聚类；

(3)分类过程：对上述聚类后的结果进一步进行分类，并计算最后分类的总体正确率。

进一步，上述预处理操作具体包括：

(2.1)对数据流样本进行z-score标准化操作，使数据无量纲化；

(2.2)特征提取，又包括以下步骤：

(2.2.1)根据数据流样本，分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择，提取出相应的特征组合；

(2.2.2)对这些特征组合分别进行后续的实验分析，确定算法对应的较好的特征选择方法，提取出有效的特征组合；

(2.3)划分已标识样本和未标识样本，采用半监督分类，随机选取一定比例样本作为已标识样本，其余部分作为未标识样本来检测实验效果。

作为优选，上述一定比例为10％。

上述t分布聚类过程，具体包括：

(3.1)为了实现聚类过程，首先需要对数据变量进行初始化，设数据样本为X＝{x1,...,xN}，聚类数为K，包括：

(3.1.1)初始化K个聚类中心，记为μ1,...,μK；

(3.1.2)初始化混合模型参数π1,...,πK为1/K；

(3.1.3)使用协方差公式，计算每个混合模型协方差Σ1,...,ΣK；

(3.2)根据μ,Σ和π向量，执行EM算法的E步，具体步骤为：

(3.2.1)根据已求的μ,Σ和π参数，使用贝叶斯公式计算t分布模型的后验概率；

(3.2.2)如果采用LTMM模型，则需要计算每个样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点；

(3.3)根据EM算法的M步，更新μ,Σ和π，具体步骤为：

(3.3.1)如果采用LTMM模型，则需要在计算M步之前，忽略离群噪声点的影响，否则算法收敛速度较慢；

(3.3.2)根据EM算法的M步公式，更新μ,Σ和π；

(3.4)计算算法的似然函数L(x)，如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps，则算法迭代结束；否则返回步骤3.2。

上述t分布混合模型进行拟合包括：

(5.1)初始化聚类中心μ、协方差Σ和混合模型权重π；

(5.2)执行t分布混合模型的EM算法，更新参数；

(5.3)计算EM算法的似然函数，如果第k+1次迭代的似然函数与第k次似然函数之间的差值小于误差值，则算法迭代结束；否则返回步骤5.2。

上述有限t分布混合模型进行拟合包括：

(6.1)计算E步，根据已求的μ,Σ和π参数，使用贝叶斯公式计算后验概率；

(6.2)计算样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点；

(6.3)忽略离群噪声点的影响，计算M步，更新μ,Σ和π参数。

上述分类过程具体分为以下三类：

(7.1)聚类后的簇中没有已标识的样本，则这个聚类可视为未知聚类，不在考虑范围内；

(7.2)聚类后的簇中已标识的样本的类型仅有一种，则该聚类的所有样本都划分为该类型；

(7.3)聚类后的簇中如果含多种已标识的样本类型，则需要进行进一步的多分类过程。

上述多分类过程是采用Random Forest进行更细粒度的划分，最后根据结果综合确定分类的准确率。

上述多媒体业务的数据流样本包括6种多媒体业务类型，即：在线标清直播视频、在线标清非直播视频、网页浏览、在线音频收听、网页浏览、网络语音聊天。

与现有技术相比，本发明的有益效果：

1、本发明采用半监督分类方法对网络多媒体业务进行流量分类，这种方法结合了有监督分类和无监督分类，可以提高网络流量分类的可靠性和有效性。

2、本发明使用TMM模型对网络数据样本进行拟合，由于t分布的“长尾”特性，能够更好的匹配数据样本的尾部特征，所得到的数据拟合模型将更准确。

3、本发明提出LTMM模型，在进行流量分类的EM算法时由于忽略了数据样本离群边缘点的影响，可以在尽可能不降低准确率的前提下显著地降低迭代次数。

附图说明

图1是本发明网络多媒体流半监督分类的模型图。

图2是图1中预处理部分的流程示意图。

图3是图1中t分布聚类部分的流程示意图。

图4是本发明在不同的聚类数下与现有技术的仿真结果对比图。

具体实施方式

现结合说明书附图对本发明创造作进一步的详细说明。

网络流量分布的数据集常用QoS特征进行衡量，包括数据包大小、数据包传输间隔等。为了衡量数据样本的分布情况，可以引入高斯混合模型(GMM)对样本进行拟合。而t分布可以看作高斯分布的拓展。由于其具有“长尾”特性，可以更准确地拟合出数据样本的分布情况。因此，数据样本可以进一步用t分布混合模型(TMM)进行拟合。

对于高斯分布，数据样本存在3σ准则，即数据样本如果出现在置信区间(μ-3σ,μ+3σ)外的取值不足0.3％，则样本可以认为是噪声点。t分布由于存在自由度的影响，因此置信区间可以进行修正。当t分布自由度ν＝3时，出现在(μ-9.2187σ,μ+9.2187σ)外的取值不足0.3％；当自由度ν＝5时，出现在(μ-5.5070σ,μ+5.5070σ)外的取值不足0.3％，即样本可以认为是噪声点。

在计算高斯混合模型的E步中，需要计算马氏距离(x-μ)^r∑^-1(x-μ)。由于马氏距离可以看成是欧式距离||x-μ||的拓展，所以在计算马氏距离时加上限制：如果某个样本到所有K个高斯分布的马氏距离均大于3，那么该样本可以看作是离群点噪声。在每一次计算M步的时候，首先忽略掉这些噪声样本，那么计算得到μ和Σ值就不会受到这些样本的影响。这样就完成了GMM模型的优化。把这种模型称为有限高斯混合模型(LGMM,Limited GaussianMixture Model)。

有限t分布混合模型(LTMM)的原理与有限高斯混合模型类似，只不过需要修正马氏距离的限制。以ν＝5为例，由于双侧置信度为99.73％的置信区间为(μ-5.5070σ,μ+5.5070σ)，所以算法可修正为：如果某个样本到所有K个高斯分布的马氏距离均大于5.5070，则该样本可视为噪声样本，在执行EM算法前可以忽略。

综上所述，有限的t分布混合模型迭代算法的步骤如下：

步骤1：为了实现聚类过程，首先需要对数据的聚类中心μ、协方差Σ、混合模型参数π进行初始化。

步骤2：执行EM算法的E步，具体步骤为：

(1)根据已求的μ,Σ和π参数，使用贝叶斯公式计算t分布模型的后验概率。

(2)计算每个样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点。

步骤3：执行EM算法的M步，具体步骤为：

(1)在计算M步之前，忽略离群噪声点的影响，否则算法收敛速度较慢；

(2)根据EM算法的M步公式，更新μ,Σ和π

步骤4：计算算法的似然函数。如果第k+1次迭代后的似然函数与第k次的似然函数之间的差值小于误差值，则算法迭代结束；否则返回步骤2。

如图1所示，本发明提出的一种基于t分布混合模型的网络多媒体业务半监督分类方法，该方法包括3个部分：数据集预处理、聚类过程和分类过程：

(1)采集互联网上各种多媒体业务的数据流样本，而后进行预处理操作。

(2)对网络数据流样本执行t分布混合模型(TMM)或有限t分布混合模型(LTMM)的拟合工作，得到K个多维t分布聚类。

(3)聚类后的结果进一步进行分类，并计算最后分类的总体正确率。

下面对本发明实施例进行详细的说明。

如图2所示，采集互联网上各种多媒体业务的数据流样本，而后进行预处理操作。具体步骤包括：

S101：对数据样本进行z-score标准化操作，使数据无量纲化。

S102：特征提取步骤：

(1)根据数据流样本，分别采用信息增益、信息增益率、一致性特征选择等方式进行特征选择，提取出相应的特征组合；

(2)对这些特征组合分别进行后续的实验分析，确定算法对应的较好的特征选择方法，提取出有效的特征组合。

S103：划分已标识样本和未标识样本，采用半监督分类，随机选取10％作为已标识样本，90％作为未标识样本来检测实验效果。

如图3所示，对网络数据流样本执行t分布聚类过程，具体包括：

S201：为了实现聚类过程，首先需要对数据变量的初始化。设数据样本为X＝{x₁,...,x_N}，聚类数为K，包括：

(1)初始化K个聚类中心，记为μ₁,...,μ_K

(2)初始化混合模型参数π₁,...,π_K为1/K

(3)使用协方差公式，计算每个混合模型协方差Σ₁,...,Σ_K

S202：根据μ,Σ和π向量，执行EM算法的E步，具体步骤为：

(2)如果采用LTMM模型，则需要计算每个样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点。

S203：根据EM算法的M步，更新μ,Σ和π。具体步骤为：

(1)如果采用LTMM模型，则需要在计算M步之前，忽略离群噪声点的影响，否则算法收敛速度较慢；

(2)根据EM算法的M步公式，更新μ,Σ和π

S204：计算算法的似然函数L(x)。如果第k+1次迭代后计算的似然函数L^(k+1)(x)与第k次迭代后的似然函数L^(k)(x)的差值小于误差值eps，则算法迭代结束；否则返回步骤2。

聚类后的结果进一步进行分类，并计算最后分类的总体正确率。具体分为三类：

(1)聚类后的簇中没有已标识的样本，则这个聚类可视为未知聚类，不在考虑范围内；

(2)聚类后的簇中已标识的样本的类型仅有一种，则该聚类的所有样本都划分为该类型；

(3)聚类后的簇中含多种已标识的样本类型，那么还要进行进一步的多分类过程。本发明采用Random Forest进行更细粒度的划分，最后将结果综合比较分类的准确率。

本发明的仿真结果：

本发明的仿真实验使用matlab 2012b平台上完成。实验的数据集采用的是南京邮电大学校园网内抓取的网络多媒体业务流。数据集的时间跨度是2014年4月到2015年8月，使用的抓包工具是WireShark。涉及的网络多媒体业务主要可以分为6种多媒体业务类型：在线标清直播视频、在线标清非直播视频、网页浏览(内容为文字和图片)、在线音频收听、网页浏览(内容为文字、图片和视频)、网络语音聊天。每类业务均为60条数据流，每条数据流的长度均为半个小时。

图4给出了不同的聚类数对不同算法的总体正确率。从图4(a)中可以直观的看出，EM算法要优于K-means及其改进算法。对于TMM，采用的模型无论取自由度ν＝3或5，总体的分类正确率均要高于GMM模型的分类正确率。因而采用TMM模型能更精确的拟合流量模型的数据集。

图4(b)验证了常规混合模型和改进的混合模型之间的差异。从图中可以看出，TMM模型的分类正确率均要高于GMM模型的分类正确率，而改进混合模型可能会导致总体分类正确率的降低。但TMM模型和LTMM模型的拟合结果均优于GMM模型，证明LTMM模型在正确率方面还是可以接受的。

步骤2中使用t分布的3σ准则执行去噪过程。对于高斯分布，数据样本存在3σ准则，即数据样本如果出现在置信区间(μ-3σ,μ+3σ)外的取值不足0.3％，则样本可以认为是噪声点。

由于t分布可以看作高斯分布的拓展，因此也存在类似的3σ准则。根据t分布表，置信区间将有所变动。例如，当t分布取自由度ν＝5时，出现在(μ-5.5070σ,μ+5.5070σ)外的取值不足0.3％。因此，当某个样本和所有K个聚类中心的马氏距离均大于5.5070，那么该样本可以看作是离群噪声点。在EM算法每次计算M步时，首先忽略掉这些噪声样本，那么计算得到μ和Σ就不会受到这些样本的影响，算法迭代次数降低，收敛速度提高。

对于算法的迭代次数，经过实验可以得出，当ν＝3，TMM模型的平均迭代次数为115.6，而LTMM模型的平均迭代次数仅为67.8；ν＝5，TMM模型的平均迭代次数为148.4，而LTMM模型的平均迭代次数仅为60.1。证明虽然LTMM模型的总体正确率要稍低于TMM模型，但是收敛速度有显著提高。

Claims

1.基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于包含以下步骤：

(1)数据集预处理：采集互联网上各种多媒体业务的数据流样本，对数据流样本进行z-score标准化操作，使数据无量纲化，然后进行特征提取，包括以下步骤：

(1.1)根据数据流样本，分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择，提取出相应的特征组合；

(1.2)对这些特征组合分别进行后续的实验分析，确定算法对应的较好的特征选择方法，提取出有效的特征组合；

(1.3)划分已标识样本和未标识样本，采用半监督分类，随机选取一定比例样本作为已标识样本，其余部分作为未标识样本来检测实验效果；

(2)t分布聚类过程：对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作，得到K个多维t分布聚类，所述t分布聚类过程，具体包括：

(2.1)为了实现聚类过程，首先需要对数据变量进行初始化，设数据样本为X＝{x₁,...,x_N}，聚类数为K，包括：

(2.1.1)初始化K个聚类中心，记为μ₁,...,μ_K；

(2.1.2)初始化混合模型参数π₁,...,π_K取值为1/K；

(2.1.3)使用协方差公式，计算每个混合模型协方差Σ₁,...,Σ_K；

(2.2)根据μ,Σ和π向量，执行EM算法的E步，具体步骤为：

(2.2.1)根据已求的μ,Σ和π参数，使用贝叶斯公式计算t分布模型的后验概率；

(2.2.2)如果采用有限t分布混合模型，则需要计算每个样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点；

(2.3)根据EM算法的M步，更新μ,Σ和π，具体步骤为：

(2.3.1)如果采用有限t分布混合模型，则需要在计算M步之前，忽略离群噪声点的影响，否则算法收敛速度较慢；

(2.3.2)根据EM算法的M步公式，更新μ,Σ和π；

(2.4)计算算法的似然函数L(x)，如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps，则算法迭代结束；否则返回步骤2.2；

2.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于所述一定比例为10％。

3.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于所述t分布混合模型进行拟合包括：

(3.1)初始化聚类中心μ、协方差Σ和混合模型权重π；

(3.2)执行t分布混合模型的EM算法，更新参数；

(3.3)计算EM算法的似然函数，如果第k+1次迭代的似然函数与第k次似然函数之间的差值小于误差值，则算法迭代结束；否则返回步骤3.2。

4.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于所述有限t分布混合模型进行拟合包括：

(4.1)计算E步，根据已求的μ,Σ和π参数，使用贝叶斯公式计算后验概率；

(4.2)计算样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点；

(4.3)忽略离群噪声点的影响，计算M步，更新μ,Σ和π参数。

5.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于所述分类过程具体分为以下三类：

(5.1)聚类后的簇中没有已标识的样本，则这个聚类可视为未知聚类，不在考虑范围内；

(5.2)聚类后的簇中已标识的样本的类型仅有一种，则该聚类的所有样本都划分为该类型；

(5.3)聚类后的簇中如果含多种已标识的样本类型，则需要进行进一步的多分类过程。

6.根据权利要求5所述的基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于所述多分类过程是采用Random Forest进行更细粒度的划分，最后根据结果综合确定分类的准确率。

7.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于所述多媒体业务的数据流样本包括6种多媒体业务类型，即：在线标清直播视频、在线标清非直播视频、网页浏览、在线音频收听、网页浏览、网络语音聊天。