CN114500387A

CN114500387A - 基于机器学习的移动应用流量识别方法及系统

Info

Publication number: CN114500387A
Application number: CN202210134214.2A
Authority: CN
Inventors: 陈龙; 汤婷婷; 韩世凯
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-13

Abstract

本发明涉及一种基于机器学习的移动应用流量识别方法及系统，属于流量识别领域。所述方法包括：流量采集阶段、流量处理阶段、特征提取阶段、流量标记阶段、流量平衡阶段、模型训练阶段；所述系统包括：流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块、结果展示模块。本发明提出了多特征融合的特征提取方案，提升了信息丰富度，优化了模型训练效果，分类准确性得到提升；设计出SMOTE+ENN样本平衡算法与随机森林算法相结合的模型训练方式，使得少数类样本的误分率降低，提高了分类器的分类识别能力。

Description

基于机器学习的移动应用流量识别方法及系统

技术领域

本发明属于流量识别领域，涉及基于机器学习的移动应用流量识别方法。

背景技术

移动应用流量的特殊性给传统的流量识别方法带来了很大的挑战。首先，移动通信几乎都是通过HTTP/HTTPS传输的，这使得基于端口识别的传统方法只能将移动流量识别为Web，无法识别出流量来自哪个具体的应用程序。其次，基于DPI(深度报文检测技术)的传统方法是通过识别数据包的有效负载来识别流量，如今，为了保护用户的隐私，很多应用程序使用加密协议进行数据的传输，DPI技术就没有办法有效的满足实际应用需求。基于以上原因，传统的流量识别方法不适用于移动应用流量的识别处理。

基于机器学习的移动应用流量识别方法，不需要掌握各种协议数据流的包结构，它们通过学习不同应用数据包的某些统计特征，如报文的间隔时间，报文大小，流持续时间等形成分类器来识别移动应用流量。加密技术一般只对载荷信息进行加密而不是对流量特征进行处理，该方法受加密影响较小。

发明内容

有鉴于此，本发明的目的在于提供一种基于机器学习的移动应用流量识别方法。可以解决移动应用流量类别分布不平衡的问题，提高分类器的分类识别能力，有效保证移动应用流量识别的准确率；提出的轻量级移动应用流量识别系统，能够将捕获到的真实流量，无论这些流量是加密还是未加密的，分析处理，自动地提取相应的统计特征，与APP流量特征库进行匹配，识别出流量来自哪个应用程序。

为达到上述目的，本发明提供如下技术方案：

基于机器学习的移动应用流量识别方法，该方法包括以下步骤：

S1：流量采集阶段：采集相应的APP流量，制作训练模型所需的流量数据集；

S2：流量处理阶段：对采集到的数据包，进行流量数据的预处理；

S3：特征提取阶段：提取流量数据的37个特征值，用于模型的训练；

S4：流量标记阶段：为每条特征流量标记真实的应用类别；

S5：流量平衡阶段：处理类别分布不平衡的应用流量问题；

S6：模型训练阶段：将特征样本分类训练，构建APP流量特征库。

可选的，所述S1具体包括：

S11：手机获取并运行APK文件，同时连接PC端热点；

S12：PC端开启wireshark，采集来自手机的移动应用流量；

S13：采集目标应用时，在手机终端只运行此应用程序，并且关闭手机系统带有的程序后台运行功能，禁止后台运行，以防止有其他应用以及安卓操作系统产生的后台流量带来干扰；

S14：每个应用采集的流量数据以后续生成的特征数据量为依据，采集目标为：采集到的流量经过流量处理和生成特征后，特征数据量能达到3000左右；

S15：采集的数据集中，记录着每一个数据包详细信息，包括：时间、数据包大小、源IP地址、目的IP地址、源端口、目的端口、协议和TCP/IP标志；

S16：在采集数据后，应用流量以pcap格式转储在本地。

可选的，所述步骤S2具体包括：

S21：利用wireshark工具过滤删除错误、重传的数据包；

S22：将pcap文件利用tshark转储为后期可处理的csv文件；tshark是网络分析工具wireshark下的一个工具，对本地存储的pcap文件进行解析，通过命令提取我们所需的数据内容，包括：源IP地址、目的IP地址、源端口、目的端口、数据包大小以及两个数据包发送的间隔时间，将解析到的数据重定向到CSV文件，为后续的特征提取模块做准备。

可选的，所述步骤S3具体包括：

S31：进行过预处理的流量数据集，首先被离散成突发形式的网络流量块；

S32：在每个突发内，依据相同的四元组，即源IP地址、目的IP地址、源端口和目的端口，将突发细分为若干条突发流，作为提取流量特征的基本单位；

S33：对每一条突发流提取相应的特征数据，包括：最大包长、最小包长、包长的平均值、中位数、绝对中位差、总体标准差、总体方差、偏度、峰度以及第10％到90％的数据包的长度、最大的时间间隔、最小的时间间隔、时间间隔的平均值、中位数、绝对中位差、总体标准差、总体方差、偏度、峰度以及第10％到90％的数据包的时间间隔、每条突发流里包的总数，共计37个特征值；

S34：将计算结果保存在本地，作为特征数据集。

可选的，所述步骤S6具体包括：

S61：对特征样本集按8:2划分训练集和测试集；

S62：将训练集输入到初始分类器，利用随机森林算法对其训练分类；

S63：将训练好的分类模型，利用测试集评估分类器的准确率；

S64：将优化后的分类模型保存至APP流量特征库。

基于机器学习的移动应用流量识别系统，该系统包括流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块和结果展示模块；

流量监听模块，部署流量监听工具wireshark，对手机发出的应用流量进行捕获，每捕获1000个数据包自动保存到本地；

流量处理模块，对保存在本地的pcap形式的流量，过滤和删除错误、重传的数据包，再利用tshark命令解析pcap文件，获取每个数据包的源IP地址、目的IP地址、源端口、目的端口、数据包大小以及两个数据包发送的间隔时间，并且重定向到CSV文件中；

流量展示模块，将解析出来的每条数据包，按[源IP地址、目的IP地址、源端口、目的端口、数据包大小、两个数据包发送的间隔时间]的格式，显示在UI界面，供用户直观地了解和观察捕获到的数据包；

特征提取模块，将经过处理后的流量数据，离散成突发形式的网络流量块，再根据四元组，即源IP地址、目的IP地址、源端口和目的端口，分离成突发流，提取每条突发流的37个特征数据，保存为待检测的特征样本；

特征展示模块，将提取到的每条突发流的37个特征数据值，显示在UI界面，供用户直观地了解和观察每条突发流的特征数据；

应用识别模块，将待检测的特征样本放入APP流量特征库中进行匹配，匹配过程中，预测概率大于0.9的结果，被认为与某类别耦合度高，判定移动流量来自此应用；

结果展示模块，将应用识别结果显示在UI界面。

本发明的有益效果在于：

(1)设计出多特征融合的特征提取方案，提升了信息丰富度，优化了模型训练效果，分类准确性得到提升；

(2)设计出利用SMOTE+ENN算法来平衡特征数据集，与随机森林算法相结合的模型训练方式，使得少数类样本的误分率降低，提高了分类器的分类识别能力；

(3)设计出的轻量级移动应用流量识别系统，能够将捕获到的真实流量，自动地进行数据处理，自动地提取相应的统计特征，与APP流量特征库进行匹配，识别出流量来自哪个应用程序。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为APP流量特征库的制作流程图；

图2为移动应用流量识别系统的识别流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1～图2所示，为基于机器学习的移动应用流量识别方法及系统。

实施例1

使用一部没有装载任何应用的手机，连接PC端热点。每采集一个目标应用的流量时，获取并只运行该应用的apk文件，关闭手机系统带有的程序后台运行功能，禁止后台运行。PC端开启wireshark，捕获手机终端发出的流量数据包。每个应用采集的流量数据包以后续生成的特征数据量为依据，采集目标为：采集到的流量经过流量处理和生成特征后，特征数据量能达到3000左右。在采集的数据集中，记录着每一个数据包详细信息。在采集数据后，应用流量以pcap格式转储在本地。

利用wireshark工具处理保存在本地的pcap文件，过滤删除其中错误、重传的数据包。再利用tshark命令解析pcap文件，提取我们所需的数据内容，包括：源IP地址、目的IP地址、源端口、目的端口、数据包大小以及两个数据包发送的间隔时间，将解析到的数据重定向到CSV文件，为后续的特征提取模块做准备。

将处理后的流量数据集，离散成突发形式的网络流量块。再依据相同的四元组(源IP地址、目的IP地址、源端口、目的端口)，将突发细分为若干条突发流。对每一条突发流提取相应的特征数据。进行特征提取的工作分为三步。第一步，提取基本特征，读取流量数据集中每条突发流内所含的数据包总数；第二步，提取统计特征，读取每条突发流内，所有的数据包包长和两个数据包到达的间隔时间，记为包长序列和时间间隔序列，分别对这两个序列计算统计特征，包括：最大值、最小值、平均数、中位数、总体标准差、总体方差、绝对中位差、偏度、峰度；第三步，提取跳跃特征，读取包长序列中第10％到90％个数据包的包长和时间间隔序列中第10％到90％个时间间隔。最终得到特征数据集。每条流量特征属性如表1。

表1 APP流量特征

对得到的特征数据集使用SMOTE+ENN流量平衡算法进行样本的平衡。首先用SMOTE算法对少数类进行分析，并根据少数类样本合成新样本，添加到特征数据集中，再对新得到的特征数据集中的每一个样本使用kNN(这里k的值取为3)方法预测，若预测结果和实际类别标签不符合，则剔除该样本。经过这样的综合处理后，我们便得到了特征样本集，作为待训练的数据集。

对特征样本集按8:2划分为训练集和测试集。将训练集输入到初始分类器，利用随机森林算法对其进行分类训练。随机森林是通过集成学习的思想，将多棵决策树进行集成的一种算法，并且其输出的类别是由个别树输出的类别的众数而定。在当前所有算法中，随机森林具有极好的准确率，能够有效地运行在大数据集上且能够处理具有高维特征的输入样本，而且不需要降维，能够评估各个特征在分类问题上的重要性，在生成过程中，能够获取到内部生成误差的一种无偏估计，并且对于缺省值问题也能够获得很好得结果。

随机森林在分类问题上，原理大致过程如下：(1)从样本集中有放回地随机采样选出n个样本；(2)从所有特征中随机选择k个特征，对选出的样本利用这些特征建立决策树；(3)重复以上两个步骤m次，即生成m棵决策树，形成随机森林；(4)对于新数据，经过每棵树决策，最后投票确认分到哪一类。

将训练好的分类模型，利用测试集评估分类器的准确率。最后将优化后的分类模型保存至APP流量特征库。

实施例2

如图2，本发明使用的移动应用流量识别系统，包括流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块、结果展示模块；

流量监听模块：部署流量监听工具wireshark，对手机发出的应用流量进行捕获，每捕获1000个数据包自动保存到本地；

流量处理模块：对保存在本地的pcap形式的待检测流量，利用tshark命令“-Tfields-eframe.time_delta-e frame.len-e ip.src-e ip.dst-e tcp.srcport-etcp.dstport”解析pcap文件，获取两个数据包发送的间隔时间、数据包大小、每个数据包的源IP地址、目的IP地址、源端口、目的端口，并且重定向到CSV文件中；

流量展示模块：将解析出来的每条数据包，按[源IP地址、目的IP地址、源端口、目的端口、数据包大小、两个数据包发送的间隔时间]格式，显示在UI界面，供用户直观地了解和观察捕获到的数据包；

特征提取模块：将经过处理后的流量数据，首先离散成突发形式的网络流量块，再根据四元组(源IP地址、目的IP地址、源端口、目的端口)分离成突发流，提取每条突发流的37个特征数据，包括：最大数据包包长、最小数据包包长、数据包包长的平均值、中位数、绝对中位差、总体标准差、总体方差、偏度、峰度以及第10％到90％的数据包的长度、最大的时间间隔、最小的时间间隔、时间间隔的平均值、中位数、绝对中位差、总体标准差、总体方差、偏度、峰度以及第10％到90％的数据包的时间间隔、每条突发流里包的总数，保存为待检测的特征样本；

特征展示模块：将提取到的每条突发流的37个特征数据值，显示在UI界面，供用户直观地了解和观察每条突发流的特征数据；

应用识别模块：将待检测的特征样本放入APP流量特征库中进行匹配，匹配过程中，预测概率大于0.9的结果，会被认为与某类别耦合度高，由此判定为，移动流量来自此应用；

结果展示模块：将流量特征匹配出来的结果，显示在UI界面，供用户直观地了解和知道移动应用流量的识别结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于机器学习的移动应用流量识别方法，其特征在于：该方法包括以下步骤：

S4：流量标记阶段：为每条特征流量标记真实的应用类别；

S5：流量平衡阶段：处理类别分布不平衡的应用流量问题；

2.根据权利要求1所述的基于机器学习的移动应用流量识别方法，其特征在于：所述S1具体包括：

S11：手机获取并运行APK文件，同时连接PC端热点；

S12：PC端开启wireshark，采集来自手机的移动应用流量；

S16：在采集数据后，应用流量以pcap格式转储在本地。

3.根据权利要求1所述的基于机器学习的移动应用流量识别方法，其特征在于：所述步骤S2具体包括：

S21：利用wireshark工具过滤删除错误、重传的数据包；

4.根据权利要求1所述的基于机器学习的移动应用流量识别方法，其特征在于：所述步骤S3具体包括：

S34：将计算结果保存在本地，作为特征数据集。

5.根据权利要求1所述的基于机器学习的移动应用流量识别方法，其特征在于：所述步骤S6具体包括：

S61：对特征样本集按8:2划分训练集和测试集；

S64：将优化后的分类模型保存至APP流量特征库。

6.基于机器学习的移动应用流量识别系统，其特征在于：该系统包括流量监听模块、流量处理模块、流量展示模块、特征提取模块、特征展示模块、应用识别模块和结果展示模块；

结果展示模块，将应用识别结果显示在UI界面。