CN110048962A

CN110048962A - 一种网络流量分类的方法、系统及设备

Info

Publication number: CN110048962A
Application number: CN201910334035.1A
Authority: CN
Inventors: 刘羲新; 韩一石; 罗吴金; 冯刚强; 刘山彪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-07-23

Abstract

本申请公开了一种网络流量分类的方法，包括：接收输入的真实数据集及待测数据集；对真实数据集进行数据处理，得到训练数据集；利用训练数据集对预设模型进行训练，得到网络流量分类模型；利用网络流量分类模型对待测数据集进行分类，得到分类结果。本申请通过对接收到的真实数据集进行数据处理，得到训练数据集，使得该训练数据集具有真实数据集的全部特征，进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类，得到的分类结果更为准确，提高了网络流量识别的精确度。本申请同时还提供了一种网络流量分类的系统、设备及计算机可读存储介质，具有上述有益效果。

Description

一种网络流量分类的方法、系统及设备

技术领域

本申请涉及网络流量分类领域，特别涉及一种网络流量分类的方法、系统、设备及计算机可读存储介质。

背景技术

在过去的十几年里，随着网络的发展，移动网与互联网融合加剧，网络的管理服务与web服务的竞争不断激化，用户使用的数据类业务的日益丰富加剧了有效的网络管理的挑战性。网络带宽被消耗，网络变拥挤，大大降低了网络的性能，导致用户体验感变差，体验质量(Quality of Experience，QoE)模型出现退化，服务质量(Quality of Service，QoS)模型问题层出不穷。互联网流量特征的不断变化对传统方法可靠性提出了挑战。有效的网络管理依赖高效的网络流量识别，针对现如今复杂的网络环境、新增的各种加密应用协议，需要更健全、精确的识别校验机制。

因此，如何提高网络流量识别的精确度是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种网络流量分类的方法、系统、设备及计算机可读存储介质，用于提高网络流量识别的精确度。

为解决上述技术问题，本申请提供一种网络流量分类的方法，该方法包括：

接收输入的真实数据集及待测数据集；

对所述真实数据集进行数据处理，得到训练数据集；

利用所述训练数据集对预设模型进行训练，得到网络流量分类模型；

利用所述网络流量分类模型对所述待测数据集进行分类，得到分类结果。

可选的，对所述真实数据集进行数据处理，得到训练数据集，包括：

对所述真实数据集进行特征提取，并根据提取到的特征对所述真实数据集进行特征分类，得到各特征分类结果；

利用预设协议标识集对各所述特征分类结果进行协议标识，得到所述训练数据集。

可选的，在利用预设协议标识集对各所述特征分类结果进行协议标识之前，还包括：

获取所述真实数据集的属性信息；其中，所述属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息；

根据所述属性信息对所述预设协议标识集进行补充。

可选的，在得到所述训练数据集之后，还包括：

根据所述训练数据集中数据包的有效负载大小及上下行到达时间确定所述训练数据集中的零负载数据包；

将所述零负载数据包进行排除。

可选的，所述利用所述训练数据集对预设模型进行训练，得到网络流量分类模型，包括：

根据公式分别计算所述训练数据集中各所述特征的信息增益率；

根据各所述特征的信息增益率确定所述预设模型的分类节点，得到所述网络流量分类模型；

其中，GC(S)为所述训练数据集中各所述特征的信息增益率，M(A)为特征A的阈值决策度量，C(A)为特征A的阈值子集偏差。

本申请还提供一种网络流量分类的系统，该系统包括：

接收模块，用于接收输入的真实数据集及待测数据集；

数据处理模块，用于对所述真实数据集进行数据处理，得到训练数据集；

训练模块，用于利用所述训练数据集对预设模型进行训练，得到网络流量分类模型；

分类模块，用于利用所述网络流量分类模型对所述待测数据集进行分类，得到分类结果。

可选的，所述数据处理模块包括：

特征提取子模块，用于对所述真实数据集进行特征提取，并根据提取到的特征对所述真实数据集进行特征分类，得到各特征分类结果；

协议标识子模块，用于利用预设协议标识集对各所述特征分类结果进行协议标识，得到所述训练数据集。

可选的，所述数据处理模块还包括：

获取子模块，用于获取所述真实数据集的属性信息；其中，所述属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息；

补充子模块，用于根据所述属性信息对所述预设协议标识集进行补充。

本申请还提供一种网络流量分类设备，该网络流量分类设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述网络流量分类的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述网络流量分类的方法的步骤。

本申请所提供网络流量分类的方法，包括：接收输入的真实数据集及待测数据集；对真实数据集进行数据处理，得到训练数据集；利用训练数据集对预设模型进行训练，得到网络流量分类模型；利用网络流量分类模型对待测数据集进行分类，得到分类结果。

本申请所提供的技术方案，通过对接收到的真实数据集进行数据处理，得到训练数据集，使得该训练数据集具有真实数据集的全部特征，进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类，得到的分类结果更为准确，提高了网络流量识别的精确度，解决了现有技术中网络流量识别精确度低的问题。本申请同时还提供了一种网络流量分类的系统、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种网络流量分类的方法的流程图；

图2为图1所提供的一种网络流量分类的方法中S103的一种实际表现方式的流程图；

图3为本申请实施例所提供的一种网络流量分类的系统的结构图；

图4为本申请实施例所提供的另一种网络流量分类的系统的结构图；

图5为本申请实施例所提供的一种网络流量分类设备的结构图。

具体实施方式

本申请的核心是提供一种网络流量分类的方法、系统、设备及计算机可读存储介质，用于提高网络流量识别的精确度。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种网络流量分类的方法的流程图。

其具体包括如下步骤：

S101：接收输入的真实数据集及待测数据集；

在现有专利中，如专利号为“201610795539.X”的名“一种互联网流量分类测评方法及系统”中提出了一种互联网分类测评方法，对流量分类样本进行真实标注，发送带标注的样本到待测流量分类系统按五元组建流，对输入数据集进行协议识别，输出分类结果，读取分类结果日志比对源MAC地址、待测系统输出结果，判断分类是否正确。其需要提前对流量分类样本进行标注，也就是说，现有技术中的流量分类方法的粗糙度以及精确度受到流量分类样本的直接影响。

而本申请对接收到的真实数据集进行数据处理，得到训练数据集，使得该训练数据集具有真实数据集的全部特征，进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类，得到的分类结果更为准确，提高了网络流量识别的精确度，解决了现有技术中网络流量识别精确度低的问题。

S102：对真实数据集进行数据处理，得到训练数据集；

本申请是由真实数据集输入，区别于过往在采用数据集时融入了合成数据集，本方案所用的数据集为实地采集输入的数据集，该真实数据集的获取可以通过在各个目标区域基站获取数据集或者社区交换机中捕获数据集，亦可从合作方中直接获取；

这里提到的对真实数据集进行数据处理，得到训练数据集，其目的在于降低真实数据集中的噪声，以提高得到的训练数据集的准确率；

优选的，由于真实数据集的前60秒双向流内容通常为通信双方确认身份的过程，因此在对真实数据集进行数据处理的过程中，还可以将真实数据集中前60秒的双向流过滤掉，以确保提取到的第一个数据包的统计特性，防止对训练数据集的准确率造成影响，而且还能够实现对真实数据集的早期识别，使得到训练数据集的速度更快，提高了效率；

其中，可以通过netstat工具搭配防火墙网关排除不含同步序列编号的双向流，以及前60秒观察到的双向流。

S103：利用训练数据集对预设模型进行训练，得到网络流量分类模型；

在由真实数据集处理得到训练数据集后，利用该训练数据集对预设模型进行训练，其目的在于令得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类，得到的分类结果更为准确；

可选的，这里提到的利用训练数据集对预设模型进行训练，得到网络流量分类模型，其具体可以为：

根据公式分别计算训练数据集中各特征的信息增益率；

根据各特征的信息增益率确定预设模型的分类节点，得到网络流量分类模型；

其中，GC(S)为训练数据集中各特征的信息增益率，M(A)为特征A的阈值决策度量，C(A)为特征A的阈值子集偏差；

这里提到的特征A的阈值决策度量M(A)可以根据公式M(A)＝G(S)-E(A)计算，G(S)为训练数据集S的信息增益，能够根据公式进行计算，E(A)为特征A的阈值熵，根据公式计算；

其中，r_i为训练数据集中特征i对应的子集，m为训练数据集中的特征总数，|S|为训练数据集的数量，n为处于阈值范围的子集的总数，S_j表示训练数据集S中处于阈值范围j内的子集，S_ij表示S_j训练数据子集中属于数据子集r_i的数据集合。

进一步的，上述步骤中提到的，根据各特征的信息增益率确定预设模型的分类节点，其具体可以为：

选择各信息增益率中的最大值做为该最大值信息增益率对应特征的划分节点，并将该训练数据集划分为符合该对应特征的数据集以及不符合该对应特征的数据集，然后再分别计算两个数据集中各特征的信息增益率，重复上述步骤，直至得到的各个数据集分别具有其独一无二的特征或者信息增益率足够小，将各个划分节点作为预设模型的分类节点，得到该网络流量分类模型；

由于特征的信息增益率GC(S)与数据集本身相关联，根据同一特征划分后形成的不同数据集，其可进行更细致的子特征属性划分，因此在对训练数据集依据某个特征进行划分后，需要重新计算划分后的数据集中各子特征的信息增益率，并将最大值作为划分节点对划分后的数据集进行再次划分，直至得到的各个数据集均具有其独一无二的特征，最后将各个数据集的划分节点作为预设模型的分类节点，得到该网络流量分类模型。

S104：利用网络流量分类模型对待测数据集进行分类，得到分类结果。

当训练完成时，利用得到网络流量分类模型对待测数据集进行分类，得到分类结果，此时得到的分类结果是网络流量分类模型根据真实数据的特征对待测数据集进行分类得到的，相对于现有技术分类精确度更高。

基于上述技术方案，本申请所提供的一种网络流量分类的方法，通过对接收到的真实数据集进行数据处理，得到训练数据集，使得该训练数据集具有真实数据集的全部特征，进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类，得到的分类结果更为准确，提高了网络流量识别的精确度，解决了现有技术中网络流量识别精确度低的问题。

针对于上一实施例的步骤S102，其中所描述的对真实数据集进行数据处理，得到训练数据集，其具体也可以为如图2所示的步骤，下面结合图2进行说明。

请参考图2，图2为图1所提供的一种网络流量分类的方法中S102的一种实际表现方式的流程图。

其具体包括以下步骤：

S201：对真实数据集进行特征提取，并根据提取到的特征对真实数据集进行特征分类，得到各特征分类结果；

S202：利用预设协议标识集对各特征分类结果进行协议标识，得到训练数据集。

例如，可以采用nprobe工具(开源社区中常用的用于网络流量监控分析的工具)获取真实数据集中的流特性、HTTP头文件，以及IP报文中的差分服务代码点等特征，并根据这几项特征对该真实数据集进行粗略的分类，然后使用QUIC协议解析器利用预设协议标识集对特征分类结果进行标识，得到该训练数据集；

优选的，在利用预设协议标识集对各特征分类结果进行协议标识之前，还可以包括：

获取真实数据集的属性信息；其中，属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息；

根据属性信息对预设协议标识集进行补充。

优选的，在得到训练数据集之后，还可以包括：

根据训练数据集中数据包的有效负载大小及上下行到达时间确定训练数据集中的零负载数据包；

将零负载数据包进行排除。

例如，可以使用nprobe扩展工具检测数据包的有效负载大小、包的上下行到达时间，进而对零负载数据包进行排除，细化数据集。

请参考图3，图3为本申请实施例所提供的一种网络流量分类的系统的结构图。

该系统可以包括：

接收模块100，用于接收输入的真实数据集及待测数据集；

数据处理模块200，用于对真实数据集进行数据处理，得到训练数据集；

训练模块300，用于利用训练数据集对预设模型进行训练，得到网络流量分类模型；

分类模块400，用于利用网络流量分类模型对待测数据集进行分类，得到分类结果。

请参考图4，图4为本申请实施例所提供的另一种网络流量分类的系统的结构图。

该数据处理模块200可以包括：

特征提取子模块，用于对真实数据集进行特征提取，并根据提取到的特征对真实数据集进行特征分类，得到各特征分类结果；

协议标识子模块，用于利用预设协议标识集对各特征分类结果进行协议标识，得到训练数据集。

该数据处理模块200还可以包括：

获取子模块，用于获取真实数据集的属性信息；其中，属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息；

补充子模块，用于根据属性信息对预设协议标识集进行补充。

该数据处理模块200还可以包括：

第一确定子模块，用于根据训练数据集中数据包的有效负载大小及上下行到达时间确定训练数据集中的零负载数据包；

排除子模块，用于将零负载数据包进行排除。

该训练模块300可以包括：

计算子模块，用于根据公式分别计算训练数据集中各特征的信息增益率；

第二确定子模块，用于根据各特征的信息增益率确定预设模型的分类节点，得到网络流量分类模型；

其中，GC(S)为训练数据集中各特征的信息增益率，M(A)为特征A的阈值决策度量，C(A)为特征A的阈值子集偏差。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图5，图5为本申请实施例所提供的一种网络流量分类设备的结构图。

该网络流量分类设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在网络流量分类设备500上执行存储介质530中的一系列指令操作。

网络流量分类设备500还可以包括一个或一个以上电源525，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图2所描述的网络流量分类的方法中的步骤由网络流量分类设备基于该图5所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种网络流量分类的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种网络流量分类的方法，其特征在于，包括：

接收输入的真实数据集及待测数据集；

对所述真实数据集进行数据处理，得到训练数据集；

2.根据权利要求1所述的方法，其特征在于，对所述真实数据集进行数据处理，得到训练数据集，包括：

3.根据权利要求2所述的方法，其特征在于，在利用预设协议标识集对各所述特征分类结果进行协议标识之前，还包括：

根据所述属性信息对所述预设协议标识集进行补充。

4.根据权利要求2所述的方法，其特征在于，在得到所述训练数据集之后，还包括：

将所述零负载数据包进行排除。

5.根据权利要求1所述的方法，其特征在于，所述利用所述训练数据集对预设模型进行训练，得到网络流量分类模型，包括：

6.一种网络流量分类的系统，其特征在于，包括：

接收模块，用于接收输入的真实数据集及待测数据集；

7.根据权利要求6所述的系统，其特征在于，所述数据处理模块包括：

8.根据权利要求7所述的系统，其特征在于，所述数据处理模块还包括：

9.一种网络流量分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述网络流量分类的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述网络流量分类的方法的步骤。