CN111917665A

CN111917665A - 一种终端应用数据流识别方法及系统

Info

Publication number: CN111917665A
Application number: CN202010718118.3A
Authority: CN
Inventors: 钟祎; 魏浩; 韩涛; 葛晓虎; 雷波
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-10

Abstract

本发明公开了一种终端应用数据流识别方法及系统，包括以下步骤：S1、对实时采集的待识别终端应用数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合；S2、对所得各类别的数据包集合，提取其第一数据特征，分别与多个预设应用业务的特征进行匹配，若能够与任意一种预设应用行为的特征匹配成功，则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务，操作结束；否则，转至步骤S3；S3、对所得各类别的数据包集合，提取其第二数据特征，并输入到预训练好的数据流识别模型中，对数据流进行识别；通过分层次的进行数据流识别，能够在保证识别效率的同时，大大提高数据流识别的准确率。

Description

一种终端应用数据流识别方法及系统

技术领域

本发明属于移动通信技术领域，更具体地，涉及一种终端应用数据流识别方法及系统。

背景技术

随着互联网及智能手机的爆发，网络对人们的生活方式产生了深刻的影响，人们的生活越来越离不开网络。网络给人们带来极大便利的同时，也对网络监管和网络负载产生了较大的压力，各种各样的流量在网络中传输，其中可能带有各式各样的恶意流量，对网络产生较大影响。通过识别出不同的网络流量类型，能够实现对流量的针对性管理，如对恶意流量进行拦截，对优先级别高的流量尽快传输等。因此，对流量的类型进行识别和检测是一项十分有意义的技术。

数据流识别是根据底层数据识别其数据类型或者其所属业务或者应用的技术。数据流识别在网络安全、网络传输优化等领域有着重要的意义。网络安全的研究者可以通过识别数据流防治病毒、恶意插件等网络攻击；网络传输优化的研究者可以通过识别数据流来对不同类型的数据流进行传输的优化。因此数据流识别是一个十分重要的技术。

数据流识别方法经历了十分长久的研究历程。在最初的研究中，数据流识别方法主要通过端口来确定数据的类型。因为在最初，各种应用的数据使用的端口较固定，可以通过端口来识别数据的类型。但随着动态端口技术的应用，这种方法的准确率越来越低，直到现在，单靠这种方法已经不能作为数据流识别的主要技术。后来，一门新技术应运而生：深度包检测技术(Deep Packet Insection，DPI)。深度包检测技术主要是对各种类型的数据流统计出其独有的特征(串)，然后通过检测各种流带有的特征进行比较，从而确定出流的类型。但随着加密技术的诞生，这种技术变得越来越不稳定，各种应用的特征越来越不明显，且容易变化，准确率较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种终端应用数据流识别方法及系统，其目的在于解决现有技术进行数据流识别时准确率较低的技术问题。

为实现上述目的，第一方面，本发明提供了一种终端应用数据流识别方法，包括以下步骤：

S1、对实时采集的待识别终端应用数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合；

S2、对所得各类别的数据包集合，提取其第一数据特征，分别与多个预设应用业务的特征进行匹配，若能够与任意一种预设应用行为的特征匹配成功，则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务，操作结束；否则，转至步骤S3；

S3、对所得各类别的数据包集合，提取其第二数据特征，并输入到预训练好的数据流识别模型中，对数据流进行识别；

其中，上述数据流识别模型为机器学习模型，用于识别数据流中各数据包的所属应用业务。

进一步优选地，上述数据流识别模型为决策树模型。

进一步优选地，上述数据流识别模型的训练方法，包括以下步骤：

S01、采集若干终端应用数据流，并标注各数据流中的各数据包的所属应用业务；

S02、分别对各数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合，提取各数据包集合的第二数据特征，与其所属应用业务一起构成训练集；

S03、将所得训练集输入到数据流识别模型中进行训练，得到预训练好的数据流识别模型。

进一步优选地，对数据流进行预处理的方法，包括：

对数据流中的数据包，每隔预设数量进行分组，将每组中的数据包按照五元组信息进行分类，得到多个类别的数据包集合；其中，若某一组中的数据包数量小于预设数量，则继续抓取终端底层的数据流。

优选地，上述预设数量为60。

进一步优选地，上述第一数据特征包括：传输层协议和特征字符串。

进一步优选地，上述第二数据特征包括：

最大包长：数据包集合中数据包的最大长度；

平均下载包长：数据包集合中下载包的包长平均值；

每秒传送包数：传输数据包集合中数据包时每秒传输的包数；

服务器端口：传输数据包集合中各数据包时与终端进行通信的服务器端口；

平均上传负载长度：数据包集合中上传包的负载长度的平均值；

最小包长：数据包集合中数据包的最小长度；

平均上传包长：数据包集合中上传包的包长平均值；

平均下载负载长度：数据包集合中下载包的负载长度的平均值；

平均负载长度：数据包集合中数据包的负载长度的平均值；

其中，数据包集合中的数据包为上传包或下载包；下载包为服务器传输到终端的数据包；上传包为终端传输到服务器的数据包。

第二方面，本发明提供了一种终端应用数据流识别系统，包括：数据预处理模块、模型训练模块和数据流识别模块；

数据预处理模块用于对数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合；

模型训练模块用于采集若干终端应用数据流，并标注各数据流中的各数据包的所属应用业务，将各数据流输入到数据预处理模块中，得到按照五元组信息进行分类后的多个类别的数据包集合，提取各数据包集合的第二数据特征，与其所属应用业务一起构成训练集，并将所得训练集输入到数据流识别模型中进行训练，得到预训练好的数据流识别模型；

数据流识别模块用于将实时采集的待识别终端应用数据流输入到数据预处理模块中，得到按照五元组信息进行分类后的多个类别的数据包集合，对所得各类别的数据包集合，提取其第一数据特征，分别与多个预设应用业务的特征进行匹配，若能够与任意一种预设应用行为的特征匹配成功，则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务，操作结束；否则，对所得各类别的数据包集合，提取其第二数据特征，并输入到预训练好的数据流识别模型中，对数据流进行识别；

进一步优选地，上述数据预处理模块对数据流进行预处理的方法包括：对数据流中的数据包，每隔预设数量进行分组，将每组中的数据包按照五元组信息进行分类，得到多个类别的数据包集合。

进一步优选地，上述第一数据特征包括：传输层协议和特征字符串；

进一步优选地，上述第二数据特征包括：

最大包长：数据包集合中数据包的最大长度；

平均下载包长：数据包集合中下载包的包长平均值；

最小包长：数据包集合中数据包的最小长度；

平均上传包长：数据包集合中上传包的包长平均值；

平均负载长度：数据包集合中数据包的负载长度的平均值；

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明提出了一种终端应用数据流识别方法及系统，由于传统的识别方法只能对存在明显特征的业务流根据其相关特征进行快速识别，对于明显特征发生改变或者不存在明显特征的业务流，传统方法无法进行识别；本发明通过对数据流进行分层次识别，对于存在明显特征的业务流可以直接快速的识别出该业务流的类型，而对于不存在明显特征的业务流则进一步基于机器学习模型的数据流识别模型进行识别，能够在保证识别效率的同时，大大提高数据流识别的准确率。

2、本发明所提出的终端应用数据流识别方法及系统，首先对终端应用数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合，在提取第二数据特征时不仅考虑了平均包长等统计特征，还考虑了不同时间可能造成的影响，将相关的时域特征也考虑在内，并且考虑到不同特征对识别准确率的影响程度，通过实验选取了影响程度最高最具代表性的特征，大大提高了数据流识别的准确率。

3、本发明所提出的终端应用数据流识别方法及系统，综合比较了各种常用的机器学习算法在识别准确率和时间复杂度上的差异，选定效果最优的决策树模型作为识别模型，大大提高了数据流识别的准确率。

附图说明

图1是实施例1所提供的一种终端应用数据流识别方法流程图；

图2是实施例1所提供的将一组数据包按照五元组信息进行分类的示意图；

图3是实施例1所提供的在不同数据包集合大小下，分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型的准确率示意图；

图4是实施例1所提供的数据包集合的各特征权值示意图；

图5是实施例1所提供的在不同特征数量下，分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型，进行数据流识别模型的的准确率示意图；

图6是实施例1所提供的采用本发明所提出的数据流识别方法对不同应用业务的数据流进行识别的准确率示意图；

图7是实施例2所提供的一种终端应用数据流识别系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种终端应用数据流识别方法，如图1所示，包括以下步骤：

具体的，本实施例采用wireshark协议分析软件采集终端应用数据流，并以pcap文件形式进行存储后，对其中的数据包，每隔预设数量进行分组，将每组中的数据包按照五元组信息进行分类，得到多个类别的数据包集合，如图2所示；其中，若某一组中的数据包数量小于预设数量，则继续采集终端底层的数据流。需要说明的是，五元组信息源包括IP地址，源端口，目的IP地址，目的端口和传输层协议，本实施例将一组数据包中五元组信息均相同的数据包归为一个类别，形成数据包集合，该数据包集合中的各数据包所属应用业务相同。具体的，本实施例中，上述预设数量为60个。

具体的，上述第一数据特征包括：传输层协议和特征字符串。除此之外，还可以包括本地IP、远端IP、本地端口、远端端口、传输层协议、应用层协议、负载特征串、包长范围、心跳周期等。本实施例中，通过对常见的APP进行深度分析，找出各种APP携带的特征信息，根据OSI分层模型，网络自底向上常常可以分为物理层、数据链路层、网络层、传输层、应用层。不同的App的数据流在各层都带有不同的信息，如端口、协议以及特征字符串，统计各种APP的各种业务流带有的固定规律的信息，就可以在后续识别系统中进行简单的匹配识别出数据流的类型。在本实施例中采用wireshark协议分析软件进行协助分析，得到如表1所示APP特征表，该特征表征包含了预设应用业务及其对应的特征；其中，预设应用业务包括QQ收发文本消息、QQ语音通话、QQ视频通话、微信收发普通消息、微信收发红包、微信语音通话、微信视频通话、腾讯视频浏览页面和腾讯视频观看视频，预设应用业务的特征包括：传输层协议、应用层协议、端口和特征字符串。

表1

提取数据包集合的传输层协议、应用层协议、端口和特征字符串，与APP特征表中各应用业务所对应的传输层协议、应用层协议、端口和特征字符串一一进行匹配，若能够与任意一种应用行为的特征匹配成功，则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务。

该过程识别效率高，但仅能对存在明显特征的应用业务数据流进行快速识别，并不能识别所有应用业务数据流，故下面对于不存在明显特征的应用业务数据流进行进一步识别。

具体的，上述数据流识别模型为机器学习模型，用于识别数据流中各数据包的所属应用业务。在步骤S2不能准确识别不具有较明显特征的数据流时，使用机器学习算法具有识别准确率高，适用性广的优点。通过本发明所提供的识别方法不仅能将数据流识别的准确率提到最高，而且能够将识别效率最大化，极大地降低数据流识别的计算消耗，从而能够高效、且高准确率进行数据流识别。

进一步地，该数据流识别模型的训练方法，具体包括以下步骤：

具体的，本实施例同样采用wireshark协议分析软件采集终端应用数据流。

需要说明的是，这里对数据流进行预处理的过程，同步骤S1中的预处理过程，这里不再赘述。

需要说明的是，为了确定最优数据流识别模型及其相关参数，本发明分别进行了如下实验。首先，为了确定最优数据包集合大小(即上述预处理分组时的预设数量)，本发明对相同测试集，在不同数据包集合大小下，分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型，进行数据流识别模型的准确性检测，得到如图3所示的结果。从图3可以看出，当数据包集合大小大于等于60时，决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型的准确率均达到最优，且采用决策树模型作为数据流识别模型时的准确率最高。其次，为了确定第二数据特征以及特征的数量，本实施例对数据包集合进行分析，得到了以下特征：最大包长、平均下载包长、每秒传送包数、服务器端口、平均上传负载长、最小包长、平均上传包长、平均下载负载长度、平均负载长度、每秒上传包数、PUSH包数量、平均包长、每秒下载包数量、每秒传输字节数以及包长标准差。并采用sklearn工具库对上述各个特征对分类类型的权值(重要性)进行了计算，得到如图4所示的结果，其中，横坐标表示特征，纵坐标表示权值，从左到右各特征的权值依次降低。需要说明的是，每种特征对于识别准确率的影响不一样，有些特征对准确率提升比较明显，而有些特征在不同APP中没有明显的区分度，对于识别准确率提升效果很小，这里特征的权值越高，说明该特征对于识别准确率的提升效果越明显。进一步地，本实施例按权重从大到小的顺序，以3个特征开始依次递增；对相同测试集，在不同特征数量下分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型，进行数据流识别模型的准确性检测，得到如图5所示的结果，其中，横坐标表示特征数量，纵坐标表示准确率；从图中可以看出，当第二数据特征数量大于等于9时，决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型的准确率均达到最优，且采用决策树模型作为数据流识别模型时的准确率最高。

通过上述实验可知，优选地，上述数据流识别模型为决策树模型，每个数据包集合中的数据包数量为60个(即上述预设数量)，第二数据特征数量为9个，具体包括：最大包长、平均下载包长、每秒传送包数、服务器端口、平均上传负载长、最小包长、平均上传包长、平均下载负载长度和平均负载长度；此时，数据流识别模型的准确率最高。进一步地，本实施例中决策树的最大高度为10。

需要说明的是，数据包集合中的数据包为上传包或下载包；下载包为服务器传输到终端的数据包；上传包为终端传输到服务器的数据包。上述最大包长为数据包集合中数据包的最大长度；上述平均下载包长为数据包集合中下载包的包长平均值；上述每秒传送包数为传输数据包集合中数据包时每秒传输的包数；上述服务器端口为传输数据包集合中各数据包时与终端进行通信的服务器端口；上述平均上传负载长度为数据包集合中上传包的负载长度的平均值；上述最小包长为数据包集合中数据包的最小长度；上述平均上传包长为数据包集合中上传包的包长平均值；上述平均下载负载长度为数据包集合中下载包的负载长度的平均值；上述平均负载长度为数据包集合中数据包的负载长度的平均值。

为了进一步验证本发明所提出的终端应用数据流识别方法的识别准确性，采用本发明所提出的数据流识别方法识别QQ、微信、虎牙、头条、喜马拉雅等APP的不同业务的数据流，所得识别准确率如图6所示；从图中可以看出，采用本发明所提出的数据流识别方法对不同应用业务的数据流进行识别的准确率都达到了99.8％以上，准确率较高。

实施例2、

一种终端应用数据流识别系统，如图7所示，包括：数据预处理模块、模型训练模块和数据流识别模块；

数据预处理模块用于对数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合；具体的，对数据流进行预处理的方法包括：对数据流中的数据包，每隔预设数量进行分组，将每组中的数据包按照五元组信息进行分类，得到多个类别的数据包集合。

其中，上述数据流识别模型为机器学习模型，用于识别数据流中各数据包的所属应用业务。上述第一数据特征包括：传输层协议和特征字符串；上述第二数据特征包括：最大包长、平均下载包长、每秒传送包数、服务器端口、平均上传负载长、最小包长、平均上传包长、平均下载负载长度和平均负载长度。具体含义同实施例1，这里不做赘述。

需要说明的是，本实施例中数据预处理模块、模型训练模块和数据流识别模块的具体操作同实施例1，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种终端应用数据流识别方法，其特征在于，包括以下步骤：

其中，所述数据流识别模型为机器学习模型，用于识别数据流中各数据包的所属应用业务。

2.根据权利要求1所述的终端应用数据流识别方法，其特征在于，所述数据流识别模型的训练方法，包括以下步骤：

3.根据权利要求1或2所述的终端应用数据流识别方法，其特征在于，对数据流进行预处理的方法，包括：对数据流中的数据包，每隔预设数量进行分组，将每组中的数据包按照五元组信息进行分类，得到多个类别的数据包集合。

4.根据权利要求3所述的终端应用数据流识别方法，其特征在于，所述预设数量为60。

5.根据权利要求1所述的终端应用数据流识别方法，其特征在于，所述第一数据特征包括：传输层协议和特征字符串。

6.根据权利要求1或2所述的终端应用数据流识别方法，其特征在于，所述第二数据特征包括：

最大包长：数据包集合中数据包的最大长度；

平均下载包长：数据包集合中下载包的包长平均值；

最小包长：数据包集合中数据包的最小长度；

平均上传包长：数据包集合中上传包的包长平均值；

平均负载长度：数据包集合中数据包的负载长度的平均值；

7.一种终端应用数据流识别系统，其特征在于，包括：数据预处理模块、模型训练模块和数据流识别模块；

所述数据预处理模块用于对数据流进行预处理，得到按照五元组信息进行分类后的多个类别的数据包集合；

所述模型训练模块用于采集若干终端应用数据流，并标注各数据流中的各数据包的所属应用业务，将各数据流输入到数据预处理模块中，得到按照五元组信息进行分类后的多个类别的数据包集合，提取各数据包集合的第二数据特征，与其所属应用业务一起构成训练集，并将所得训练集输入到数据流识别模型中进行训练，得到预训练好的数据流识别模型；

所述数据流识别模块用于将实时采集的待识别终端应用数据流输入到数据预处理模块中，得到按照五元组信息进行分类后的多个类别的数据包集合，对所得各类别的数据包集合，提取其第一数据特征，分别与多个预设应用业务的特征进行匹配，若能够与任意一种预设应用行为的特征匹配成功，则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务，操作结束；否则，对所得各类别的数据包集合，提取其第二数据特征，并输入到预训练好的数据流识别模型中，对数据流进行识别；

8.根据权利要求7所述的终端应用数据流识别系统，其特征在于，所述数据预处理模块对数据流进行预处理的方法包括：对数据流中的数据包，每隔预设数量进行分组，将每组中的数据包按照五元组信息进行分类，得到多个类别的数据包集合。

9.根据权利要求7所述的终端应用数据流识别系统，其特征在于，所述第一数据特征包括：传输层协议和特征字符串。

10.根据权利要求7所述的终端应用数据流识别系统，其特征在于，所述第二数据特征包括：

最大包长：数据包集合中数据包的最大长度；

平均下载包长：数据包集合中下载包的包长平均值；

最小包长：数据包集合中数据包的最大小长度；

平均上传包长：数据包集合中上传包的包长平均值；

平均负载长度：数据包集合中数据包的负载长度的平均值；