CN110175635B

CN110175635B - 基于Bagging算法的OTT应用程序用户分类方法

Info

Publication number: CN110175635B
Application number: CN201910374709.0A
Authority: CN
Inventors: 徐忠武; 陈丹伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2022-08-30
Anticipated expiration: 2039-05-07
Also published as: CN110175635A

Abstract

本发明公开了一种基于Bagging算法的异构多分类器OTT应用程序用户分类方法，属于机器学习技术领域。步骤如下：1.对互联网流量进行捕获，取得最初的所有IP数据包，使用网络流量生成器生成流统计特征；2.使用相应流量软件对原始IP数据包进行二次处理，执行深度包检测获得OTT应用程序，即第7层协议名称，合并流统计特征信息生成原始数据集文件；3.对原始数据集文件进行预处理后，生成用户组数据集，执行聚类分析；4.通过先前的聚类分析，使用Bagging算法构建分类模型，采用异构多分类器的方法，即基分类器使用不同的算法分类器。该方法可以通过聚类分析将用户组划分为高消费、中等消费和低消费三个集群，并通过机器学习算法良好的建立一个能够在三个识别的集群之一中对新用户进行分类的分类模型。

Description

基于Bagging算法的OTT应用程序用户分类方法

技术领域

本发明涉及一种应用程序用户分类方法，具体的说是一种基于Bagging算法的异构多分类器OTT应用程序用户分类方法，属于机器学习技术领域。

背景技术

1.服务降级

信息和通信技术市场正在经历极其迅速的变化。使用OTT业务模型的当前一代服务和应用公司作为其新产品的平台，已经开始对互联网服务提供商使用的传统业务模式产生重大变化。腾讯，优酷，YouTube，Netflix等公司和应用程序已经出现，以满足用户需求的通信和功能的新需求。

由于这种变化，互联网服务提供商已经发现自己处于一个困难的场景中，他们不再是市场上唯一的竞争者，而是通过OTT服务提出的方案变成了处于OTT应用和不同互联网用户的中间人。出于这个原因，他们传统的商业模式，即用户雇用访问互联网连接和通过他们的基础设施部署的不同应用程序正在被重新设计，以更灵活地与OTT服务提供商合作。这样，互联网服务提供商可以通过此类应用程序的高消费用户产生收入；另一方面，OTT服务提供商通过遵守保证其应用程序正确运行的服务级别协议来获得好处。

OTT应用程序以其正确操作的大量网络资源消耗和移动网络范围而闻名，其中移动运营商为用户提供有限消费的数据计划，服务降级是一种普遍的方式来对信息量应用进行限制，对用户在一段时间内可以传输的数据量进行限制。当用户超过他/她建立的消费限额时，电信公司为了节省资源并保证网络的正确性能，根据用户消费限制带宽。因此，考虑用户的消费行为来提出一组个性化的服务降级策略在当下显得尤为重要。

2.机器学习

近年来，机器学习的方法越来越多的使用在互联网的应用领域。在网络协议识别方面，利用决策树算法将网络流之间的相关性作为特征，相比于传统协议识别方法有着更快且更准确的优势。

尽管机器学习方法展现出了很大的优势，单一的机器学习并不能完美的解决问题。其中的统计方法认为所有事件皆由统计模型产生，这种方法忽略了参数方法中事先设定的分布模型可能与真实数据不符的风险，从而产生和预期有很大误差的结果；同时，统计模型构成的系统大多在离线状态下工作，无法满足实时监测的要求，所以要达到高准确率就需要非常高效的性能；且统计方法对于阈值的确定非常困难，阈值过高或者过低都会引起误分类或误预测率的上升。

机器学习的算法可以实现先验后验知识的无缝结合，克服框架不够直观的缺点。单一的分类算法由于噪声数据干扰、建模变量过多和抽样方法错误等问题会导致过拟合，因而不能达到很好的实验效果。且模型的精确性需要依赖一定的假设，这些假设是体现在目标系统和网络行为模式等基础上的，与假设违背将会造成准确的大幅度下降。

因此，集成学习方法是解决以上的问题的一个良好方案。Bagging方法是一种从训练集进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测结果进行综合产生最终预测结果的集成学习框架。在学习器的基础上，重新从原始数据集上选取数据集进行分类预测，以多数投票方式敲定标签，同时，检验模型准确率。

发明内容

本发明所要解决的技术问题是提供一种有效的对OTT应用程序用户分类的方法，该方法基于Bagging算法的异构多分类器。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于Bagging算法的异构多分类器OTT应用程序用户分类方法，其特征在于：步骤如下，

S1、对互联网流量进行捕获，取得最初的所有IP数据包，使用网络流量生成器生成流统计特征；

S2、使用相应流量软件对原始IP数据包进行二次处理，执行深度包检测获得OTT应用程序，即第7层协议名称，合并流统计特征信息生成原始数据集文件；

S3、对原始数据集文件进行预处理后，生成用户组数据集，执行聚类分析；

S4、通过先前的聚类分析，使用Bagging算法构建分类模型，采用异构多分类器的方法，即基分类器使用不同的算法分类器。

进一步的，步骤S1的具体步骤为

1.1、使用Wireshark软件捕获大学校园内一周的部分互联网流量，存储为七个PCAP文件；

1.2、使用CICFlowmeter处理这些文件，生成具有85个流统计特征的数据文件，包括持续时间、数据包数量、分组长度等。

进一步的，步骤S2的具体步骤为，

2.1、使用Ntopng网络流量软件对原始IP数据包的PCAP文件进行二次处理，通过允许nDPI对捕获的流执行深度包检测，获得应用程序，即第7层协议名称；

2.2、对于保存的实例，使用基于源和目的IP地址和端口的网络元组比对，将该文件与步骤S1中生成的文件进行比较；

2.3、合并相似属性特征，生成原始数据集文件。

进一步的，步骤S3的具体步骤为

3.1、去除包含网络控制信息的流，如路由器和交换机之间的通信，以及带有加密信息的流的数据；

3.2、使用Kmeans算法对用户组数据集进行聚类分析；

3.3、采用轮廓系数通过每个实例在其指定集群内的程度来衡量聚类的质量，确定最优的集群数量。

进一步的，所述步骤3.3中，使用轮廓系数法对数据集进行聚类分析，方法如下：

3.3.1、计算样本i到同簇其他样本的平均距离a(i)。a(i)越小说明样本i越应该被聚类到该簇。a(i)成为样本i的簇内不相似度；

3.3.2、计算样本i到其他某簇的所有样本的平均距离b(i)，称为样本i与某簇的不相似度。b(i)越大说明样本i越不属于其他簇；

3.3.3、根据样本i的簇内不相似度a(i)和簇间不相似度b(i)，定义样本i的轮廓系数：

3.3.4、轮廓系数范围在-1和1之间变化，s(i)接近1，说明样本i聚类合理；s(i)接近-1，说明样本i更应该分类到另外的簇；s(i)近似为0，说明样本在两个簇的边界上。

进一步的，所述步骤S4的具体步骤为，

4.1、对初始用户组数据集使用Bagging算法进行预处理，通过随机抽取的采样过程得到N个新训练子集；

4.2、在N个训练子集上按照1:1的比例训练SVM和Random Forest，得到N个基分类器；4.3、将得到的N个基分类器的集合进行多数投票决策，获得最终的输出。

进一步的，所述Bagging算法的具体步骤为，

4.1.1、确定原始训练数据集X和算法迭代次数T；

4.1.2、对原始数据集X进行T次随机采样；

4.1.3、用得到的T个新数据集进行训练得到T个基分类器；

4.1.4、将T个基分类器的输出进行多数投票决策集成。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明中使用的Bagging算法是一种从训练集进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测结果进行综合产生最终预测结果的集成学习框架，在学习器的基础上，重新从原始数据集上选取数据集进行分类预测，再以多数投票方式敲定标签，提高了模型准确率。

(2)本发明中Bagging算法的基分类器采用SVM和Random Forest两种，在训练子集上按照1:1的比例进行训练，通过异构多分类器的方法可以有效克服单个分类器稳定性不够这一缺点，在提高算法泛化性能的同时保证了输出的鲁棒性。

(3)本发明中根据消费行为和机器学习算法，首先获取了大量原始IP数据包，使用应用统计分析和深度包检测不同OTT服务，在聚类分析基础上，提出了一种良好的用户分类方法。该方法能够实现良好的在三个集群之一中对新用户进行分类。

附图说明

图1是本发明提供的优选实施例的方法整体流程图。

图2是本方法基于Bagging算法的异构多分类器示例图。

图3是本发明的具体实施方式中的系统架构图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明。

本发明提出了一个用于有效分类OTT应用程序用户的模型。图1所示为整个模型的流程图。对原始的IP数据包分别进行流统计特征的提取和第七层协议的名称的解析，将包含加密信息流的数据和网络控制流的数据去除，可以提高数据集的质量。图2为Bagging算法的异构多分类器示例图，对数据集进行划分后进行机器学习，SVM和Random Forest两种机器学习算法对数据集进行有监督学习1，并通过Bagging算法集成学习，最后将得到的基分类器的集合进行多数投票决策，获得最终的输出结果。图3为具体实施方式中的系统架构图，包括了一系列必要的模块组件。

整个OTT应用程序用户分类模型的重要过程包括：IP流数据集的获取、用户组数据集聚类分析、Bagging算法集成。

一、IP流数据集的获取：

对于最初所有的IP数据包，使用Wireshark软件进行捕获，该软件应用程序可以复制并捕获通过网络部分核心传输的所有流量，并把所有信息文件存储为PCAP文件。考虑到文件的大小，分别存储为每天的流量数据文件。

这些PCAP文件用以下两种方式进行处理：

1)使用CICFlowmeter生成特征，该软件是一个使用Java编写的网络流量生成器，可以生成85个流统计特征，包括持续时间、总字节数、数据包数量和分组长度等。

2)使用Ntopng获取应用程序名称，该网络流量软件再许多其他功能中允许实现nDPI，这是一种允许对捕获的流执行深度包检测并获取第7层协议名称的工具。

通过以上两种方式处理得到各自的CSV文件，将使用CICFlowmeter获得的文件中的实例与来自使用Ntopng生成的文件的所有实例进行比较，比较的方式是使用网络元组匹配，即是否含有相同的源和目的IP地址、端口。当发现匹配时，第7层协议名称属性被添加到文件中。

注意到数据集中存在Unknown、Flow_Not_Found、SSL和SSL_No_Cert四种应用程序标签，这些属性标签表明该流是包含加密信息的流，以及包含网络控制信息(路由器和交换机之间的通信)的流。因此，删除此类软件无法识别应用程序的流，创建最终IP流数据集。

二、用户组数据集聚类分析：

DPI处理旨在使用各自的应用程序标记每个流，聚类分析旨在根据用户的消费行为识别不同的用户群集，所以有必要创建一个新的用户组数据集，该数据集可以保证所有流都来自用户设备，并且它总结了每个用户的消费行为，其中包含来自一系列IP地址(192.168.0.0到192.168.255.255)的所有流，这些流已知只是用户设备。

用户组数据集专注于30个流行的OTT应用程序信息，包含130个属性，包括用户IP地址、每个应用程序的平均流持续时间、每个应用程序生成的IP流总数、每个应用程序的流量平均数据包大小以及每个应用程序的每秒平均字节数。

使用轮廓系数法对数据集进行聚类分析，方法如下：

1)计算样本i到同簇其他样本的平均距离a(i)。a(i)越小说明样本i越应该被聚类到该簇。a(i)成为样本i的簇内不相似度。

2)计算样本i到其他某簇的所有样本的平均距离b(i)，称为样本i与某簇的不相似度。b(i)越大说明样本i越不属于其他簇。

3)根据样本i的簇内不相似度a(i)和簇间不相似度b(i)，定义样本i的轮廓系数：

4)轮廓系数范围在-1和1之间变化。s(i)接近1，说明样本i聚类合理；s(i)接近-1，说明样本i更应该分类到另外的簇；s(i)近似为0，说明样本在两个簇的边界上。

使用Kmeans算法执行测试2-20之间的簇的数量，最终确定为数据集聚类获得的最佳数字是3个聚类。在此结论后，使用k为3的Kmeans算法并使用WEKA实现聚类。通过该处理，将类别标签属性添加到用户组数据集上，最终产生131个特征。

在分析集群的分布之后，可以观察到尽管大多数用户访问相同的应用程序，但是他们的消耗强度不同。集群1的用户消耗的时间最长；集群2的用户消耗的时间略短于集群1；集群3的用户消耗的时间和使用的应用程序数量最低。因此，定义集群1为高消费用户，集群2为中等消费用户，集群3为低消费用户。

三、Bagging算法集成：

通过之前的聚类分析，继续构建分类模型，在用户组数据集上使用机器学习算法测试，以获得能够根据消费行为将用户分配给其中一个识别集群的最佳分类模型。

1、Bagging算法：

它是一种简单而有效的集成学习方法，其通过训练一组基分类器集合，然后把每个基分类器的分类结果进行多数投票得到最终的输出。集成学习方法中的一个影响性能的关键因素是基分类器之间的差异性，Bagging算法通过使用随机抽取的采样过程对每个基分类器的原始样本进行处理，从而获得集成所需要的新样本来实现基分类器的差异性，主要流程如下：

1)确定原始训练数据集X和算法迭代次数T。

2)对原始数据集X进行T次随机采样。

3)用得到的T个新数据集进行训练得到T个基分类器。

4)将T个基分类器的输出进行多数投票决策集成。

2、基于Bagging算法的异构多分类器：

本方法提出的基于Bagging算法的异构多分类器是把SVM和Random Forest作为集成分类器中的基分类器进行训练，从而达到提高算法稳定性和泛化性能的目的，主要流程如下：

1)确定异构多分类器的集成规模N。

2)对初始数据集使用Bagging算法进行预处理，通过随机抽取的采样过程得到N个新训练子集。

3)在N个训练子集上按照1:1的比例训练SVM和Random Forest，得到N个基分类器。

4)将得到的N个SVM和Random Forest基分类器的集合进行多数投票决策，获得最终的输出。

当前，针对OTT应用程序用户分类的方法中，主要使用C4.5决策树、SVM等算法。其中，使用C4.5决策树算法，基于决策树算法进行了优化，可以达到91.8％的准确率。因为本发明所采用的Bagging集成算法，选用了SVM和Random Forest两个分类性能良好的基分类器，因此，使用该方法对OTT应用程序用户分类的准确率可达到94.3％。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。