CN107864168B

CN107864168B - 一种网络数据流分类的方法及系统

Info

Publication number: CN107864168B
Application number: CN201610842056.0A
Authority: CN
Inventors: 陈志堂; 耿彦辉; 简波尼亚斯·乔治
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2021-05-18
Anticipated expiration: 2036-09-22
Also published as: US10999175B2; US20190222499A1; CN107864168A; WO2018054342A1

Abstract

本申请公开了一种网络数据流分类的方法及系统，方法包括：采集待处理的数据流的包含有多个维度信息的信息集合；建立信息集合中每个维度信息的静态行为模型及动态行为模型，静态行为模型表征维度信息的取值规律，动态行为模型表征维度信息在前后时刻之间的关联关系；利用静态行为模型及动态行为模型，分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离；基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型。

Description

一种网络数据流分类的方法及系统

技术领域

本申请涉及数据处理技术领域，特别涉及一种网络数据流分类的方法及系统。

背景技术

随着互联网技术的日益普遍，特别是移动终端的普及，通信网络涌现出越来越多的应用类型的数据流，如交互类型、巨量数据传输类型、流应用的类型及异常流类型，等等。不同的应用类型的数据流对网络服务的要求不尽相同，因此，通常针对不同的应用类型的数据流需要提供不同的服务质量。例如，交互类型的数据，如远程登录等数据，对网络的延迟性要求较高，具有较高的实时性需求；巨量数据传输类型的数据，如文件、视频的下载等，虽然对实时性的需求不高，但需要足够的吞吐量保证；而流应用类型的数据，如在线视频观看、多媒体会议等，对实时性的需求较高，且对网络传输的抖动及丢包率等参数也有较高的要求；或者，异常的数据，而异常的数据可能属于恶意攻击并企图瘫痪网络，需要采取措施限制甚至禁止；等等。

为了实现对不同应用类型的数据流提供不同的服务质量，需要在提供服务之前准确的将网络中的数据流进行应用类型的准确分类。现有技术中通常采用以下两种方案实现：

一种方案中，根据数据流的服务器端口号或客户端端口号对数据流进行应用类型的分类。但是，这种方案需要预先基于IRNA(Internet Assigned Number Authority，网络分配数量权威)将端口号和数据流的应用类型进行关联，而IRNA无法定义所有应用类型的数据流，很多应用并不遵从IRNA的规则而是随机的分配端口号，因此，对应用类型的分类具有局限性；

另一种方案中，通过对数据流的报文内容进行深度的报文解析，以实现区分出异常数据流。但这种方案中，不能适用于对数据流报文加密的网络场景中，仍然存在局限性。

还有一种方案中，通过对数据流进行特征提取，然后利用机器学习根据特征学习出分类器，再对数据流进行应用类型的分类。但这种方案中需要预先进行特征工程，比如对数据流的数据包长度进行简单的统计，计算数据包长度的平均值、方差、最大值及最小值等作为特征，然而这些特征并不能完全的刻画整个数据流的行为，例如，两个不同应用类型的数据流可能具有相同的平均值和方差，因此，对数据流进行应用类型分类并不准确。

因此，亟需一种能够准确的将网络中的数据流进行应用类型分类的技术方案，以实现对不同应用类型的数据流提供不同的服务质量。

发明内容

有鉴于此，本申请的目的是提供一种网络数据流分类的方法及系统，用以解决现有技术中对数据流进行应用类型分类不准确的技术问题。

本发明的第一方面提供了一种网络数据流分类的方法，其中包括以下步骤：采集待处理的数据流的包含有多个维度信息的信息集合，并建立信息集合中每个维度信息的静态行为模型及动态行为模型，再利用静态行为模型及动态行为模型，分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，最后再基于这些静态模型距离及动态模型距离，确定待处理的数据流的应用类型。可见，在对数据流进行应用类型的分类时，基于数据流的信息集合中每个维度信息，建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型，以此更加准确的反映数据流的本质区别，再与目标应用类型的数据流的相应的行为模型进行距离比较，实现数据流的分类，由此提高对数据流的应用类型进行分类的准确性。

本发明的第二方面提供了一种网络数据流分类的系统，其中包括以下结构：包含用于采集终端传输的待处理的数据流的信息集合的信息采集模块的从服务器，以及，包含用于获得信息采集模块采集到的信息集合的数据接口、存储应用程序及应用程序运行所产生的数据的存储器及处理器的主服务器，处理器通过运行应用程序，建立信息集合中每个维度信息的静态行为模型及动态行为模型，再利用静态行为模型及动态行为模型，分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，最后再基于这些静态模型距离及动态模型距离，确定待处理的数据流的应用类型。由此可知，系统在对数据流进行应用类型的分类时，首先由从服务器中的各个信息采集模块采集待处理的数据流的信息集合，再由主服务器基于数据流的信息集合中每个维度信息，建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型，以此准确的反映数据流的本质区别，再与目标应用类型的数据流的相应的行为模型进行距离比较，实现数据流的分类，由此提高对数据流的应用类型进行分类的准确性。

在一个实现方式中，信息集合中包括流层面的第一信息集合及链接层面的第二信息集合，而第一信息集合中至少包括以下维度信息：报文长度、报文到达时间间隔，第二信息集合中至少包括以下维度信息：数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。由此，基于报文长度、报文到达时间间隔，以及，数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔所建立的静态行为模型及动态行为模型能够更加准确的反映数据流的本质区别，再与目标应用类型的数据流的相应的行为模型进行距离比较后，能够更加准确的对数据流的应用类型进行分类。

在一个实现方式中，处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型，包括：获得第一信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布，并基于第一信息集合中每个维度信息的边缘概率分布生成第一信息集合中每个维度信息的静态行为模型；获得第一信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布，并基于第一信息集合中每个维度信息的条件概率分布生成第一信息集合中每个维度信息的动态行为模型；获得第二信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布，并基于第二信息集合中每个维度信息的边缘概率分布生成第二信息集合中每个维度信息的静态行为模型；获得第二信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布，并基于第二信息集合中每个维度信息的条件概率分布，生成第二信息集合中每个维度信息的动态行为模型。可见，通过计算概率分布来对数据流的应用类型进行分类，使得刻画应用类型不同的行为模型准确性更高，进一步准确的对数据流的应用类型进行分类。

在一种实现方式中，处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型，具体为：利用

获得第一信息集合中每个维度信息的静态行为模型，其中，x_i为第一信息集合

中的第i个维度信息，n为第一信息集合

中维度信息的个数，

为核函数k(x,y)的特征函数向量；利用

获得第一信息集合中每个维度信息前后两个时刻的动态行为模型，其中，t为时刻，

且[K_tt]为第一信息集合中维度信息所组成的矩阵，[K_tt]_ij为矩阵中第i行第j个矩阵元素，[K_tt]_ij＝k(x_i,x_j)，x_i为第一信息集合

中的第i个维度信息，n为第一信息集合

中维度信息的个数，

为核函数k(x,y)的特征函数向量，λ为预设参数，I为单位矩阵；利用

获得第二信息集合

中每个维度信息的静态行为模型，其中，x_i为第二信息集合

中的第i个维度信息，n为第二信息集合

中维度信息的个数；利用

获得第二信息集合中每个维度信息前后两个时刻的动态行为模型，其中，t为时刻，

且[K_tt]为所述第二信息集合中维度信息所组成的矩阵，[K_tt]_ij为矩阵中第i行第j个矩阵元素，[K_tt]_ij＝k(x_i,x_j)，x_i为第二信息集合

中的第i个维度信息，n为第二信息集合

中维度信息的个数，

为核函数k(x,y)的特征函数向量。可见，通过计算概率分布来对数据流的应用类型进行分类，使得刻画应用类型不同的行为模型准确性更高，进一步准确的对数据流的应用类型进行分类。

在一种实现方式中，处理器利用静态行为模型及动态行为模型，分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，具体为：利用

获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离，其中，

为待处理的数据流A的第一信息集合

的静态行为模型，

为目标应用类型所属的数据流B的流层面的静态行为模型，

i表示信息集合中的第i个维度信息；利用

获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离，其中，

为待处理的数据流A的第二信息集合

的静态行为模型，

为目标应用类型所属的数据流B的链接层面的静态行为模型；利用

获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离，其中，

为待处理的数据流A的第一信息集合

的静态行为模型，

为目标应用类型所属的数据流B的流层面的静态行为模型；利用

获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离，其中，

为待处理的数据流A的第二信息集合

的动态行为模型，

为目标应用类型所属的数据流B的链接层面的动态行为模型。可见，通过获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，进而基于距离来对数据流进行应用类型的分类，进一步的提高对数据流的应用类型进行分类的准确性。

在一种实现中，处理器基于待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定待处理的数据流的应用类型，具体为：对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到待处理的数据流与各个所述目标数据流之间的特征距离；再利用分类算法，基于特征距离，确定所述待处理的数据流的应用类型。可见，利用不同维度在数据流分类中的重要性不同，使得不同维度的权重不同，因此，将权重考虑到对数据流的应用类型的分类中，进一步的提高对数据流的应用类型进行分类的准确性。

在一个实现方式中，处理器对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离，具体为：基于各个目标应用类型的数据流的静态行为模型及动态行为模型，获得权重矩阵，权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小，从属于不同应用类型的数据流之间的特征距离最大，再利用权重矩阵，对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到待处理的数据流与各个所述目标数据流之间的特征距离。可见，通过最大化不同应用类型的数据流的静态模型距离及动态模型距离，并最小化同一应用类型的数据流的静态模型距离及动态模型距离，从而得到每个维度信息的特征距离的权重，组成权重矩阵，由此，将得到的权重矩阵加入到对数据流的应用类型的分类中，进一步的提高对数据流的应用类型进行分类的准确性。

在一种实现中，分类算法包括：K近邻分类算法或Naive Bayesian分类算法，则处理器利用分类算法，基于所述特征距离，确定述待处理的数据流的应用类型，具体为：基于K近邻分类算法或Naive Bayesian分类算法，将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。由此，基于此处理器实现对数据流的应用类型的分类，更好的提高分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为通信网络中终端进行数据通信的示意图；

图2为本申请实施例的应用示例图；

图3为本申请实施例提供的一种网络数据流分类的方法的实现流程图；

图4a、图4b、图5a及图5b分别为本申请实施例的其他应用示例图；

图6为本申请实施例提供的一种网络数据流分类的系统的结构示意图。

具体实施方式

图1所示为通信网络中终端进行数据通信的示意图，终端可以为各种网络设备，如手机、电脑、服务器等能够进行网络数据通信的设备，终端之间可以通过有线或无线进行连接，进而进行数据通信，形成通信网络，如WiFi、蓝牙、GPS(Global Positioning System，全球移动通信)或卫星通信等。

本申请为实现对通信网络中终端进行数据通信的数据流进行应用类型的分类，可以通过以下方案实现：

图2所示为本实施例中利用服务器群对终端进行数据通信过程中的数据流进行采集并分类的示例图，服务器群中可以包括有从服务器及主服务器。图3为本申请实施例提供的一种网络数据流分类的方法的实现流程图，服务器群为实现对通信网络中的数据流的应用类型的分类，在各个终端的传输接口将数据流进行传输之后，服务器群可以执行如下步骤：

S301：从服务器对经过各个终端上的传输接口进行传输的数据流进行筛选，以筛去已经完成传输的数据流。

S302：从服务器将其余的未完成传输的数据流的信息集合进行采集。

S303：从服务器将这些采集到的信息集合传输给主服务器。

这里的已经完成传输的数据流是指，数据流中的所有的报文都到达目的地的数据流，数据流的目的地可以是传输接口所属的终端，或者与传输接口所属终端之间有数据链接进行数据传输的其他终端。

在终端进行传输数据流时，本实施例中，利用从服务器对各个终端进行传输且未传输到目的地的数据流进行应用类型的分类，进而根据分类结果对未传输到目的地的数据流提供相应服务性能或服务质量的传输服务，以将数据流传输到目的地。

例如，对交互类型的数据流提供快速的传输服务性能，以保证其实时性需求；对巨量数据传输类型的数据流提供足够的数据吞吐量，以保证文件或视频等数据的下载顺畅；对流应用类型的数据流提供较大的传输带宽及数据吞吐量，以保证其实时性的需求及对网络传输的抖动及丢包率等参数的要求；对异常类型的数据流采取措施限制甚至禁止，以保证网络安全及稳定，等等。

从服务器在筛去已经完成传输的数据流时，可以通过以下方式实现：

基于TCP数据流在传输完成时的最后一个报文为FIN报文，从服务器根据目前为止经过传输接口的最后一个报文是否为FIN报文，来确定这个报文所属的数据流是否已经传输完成；

或者，基于UDP数据流在传输完成时的最后一个报文的时间戳与当前系统时间的差值超过预设的阈值，从服务器根据最后传输的报文的时间戳与当前系统时间的差值是否超过预设的阈值，来确定这个报文所属的数据流是否已经老化，即是否传输完成。

从服务器通过对各个终端的传输接口进行监测，以监测到有数据流到来时，本实施例对数据流中的各个报文的报文信息进行采集并对各个数据流的数据流信息进行采集，并生成对应的信息集合，再将这些信息集合实时上传给主服务器。例如：

对于每个终端的传输接口，数据流中各个报文的到来可以看成一个时间序列，数据流中的报文依次经过传输接口，随着时间的推移，数据流中的第1个至第n个报文的到达，从服务器对这些报文的报文信息进行采集，并生成一个信息集合，如图4a中所示，以

表示，这个信息集合

中每个报文信息包括但不仅限于如下的信息：

报文长度(packet size)及与上一个报文之间到达时间的时间间隔(packetinter-arrival time)。

而对于每个终端的传输接口，串行传输的各个数据流的到来可以看成一个时间序列，各个数据流依次经过传输接口，而随着时间的推移，第1个数据流至第n个数据流的到达，从服务器对这些数据流的数据流信息进行采集，并生成一个信息集合，如图4b中所示，以

表示，这个信息集合

中每个数据流信息包括但不仅限于如下的信息：

数据流长度(flow length)、数据流中报文的数目(packet number)、数据流的传输持续时间(flow duration)及与上个数据流之间到达时间的时间间隔(flow inter-arrival time)。

其中，报文信息的信息集合

可以理解为数据流层面数据报文之间的时序信息集合，而数据流信息的信息集合

可以理解为在链接层面上数据流之间的时序信息集合，其中的P与C用以区分数据流层面packet与链接层面connection。

主服务器在接收到从服务器所上传的信息集合之后，对每个待处理的数据流的信息集合执行以下操作，以确定每个待处理的数据流的应用类型：

S304：基于待处理的数据流的信息集合中的各项维度信息，建立每个维度信息的静态行为模型及动态行为模型。

这里的维度信息可以理解为待处理的数据流的信息集合中每个报文信息或每个数据流信息中的信息项目的信息，如报文长度及与上一个报文到达时间的时间间隔，这两个项目信息即为报文信息的信息集合中的两个维度信息，而数据流长度、数据流中报文的数目、数据流的传输持续时间及与上个数据流之间到达时间的时间间隔，这些项目信息即为数据流信息的信息集合中的几个维度信息，等等。

在建立静态行为模型时，主服务器首先获得待处理的数据流的信息集合中每个维度信息的边缘概率分布，这里每个维度信息的边缘概率分布表征该维度信息的规律，也就是这个维度信息的取值规律(不同的应用类型的数据流在每个维度上的取值具有不同的规律)，之后，将边缘概率分布映射到可再生核空间，成为一个向量，即为静态行为模型。

在建立动态行为模型时，主服务器首先获得待处理的数据流的前后两个时刻的信息集合中每个维度信息的条件概率分布，这里每个维度信息的条件概率分布表征待处理的数据流前后时刻的维度信息的关联关系(不同的应用类型的数据流中每个维度上在前后时刻之间的维度信息关联关系不同)，之后，将条件概率分布映射到可再生核空间成为一个操作子，即为动态行为模型。

以下对待处理的数据流的信息集合中每个维度信息的静态行为模型及动态行为模型的建立进行详述：

对于待处理的数据流的信息集合，包括流层面的信息集合

和链接层面的信息集合

流层面的信息集合

包括但不仅限于如下的变量(维度信息)：

数据报文长度(packet size)：p；

数据报文到达时间间隔(packet inter-arrival time)：Δt^p。

而链接层面的信息集合

包含但不仅限于如下的变量：

数据流长度(flow length)：l；

数据流报文数目(packet number)：n；

数据流持续时间(flow duration)：d；

数据流到达时间间隔(flow inter-arrival time)：Δt^f。

本实施例中，主服务器对数据流的静态行为模型的建模是通过对上述各个变量进行边缘概率分布的建模。这里可以采用可再生核希尔伯特空间嵌入(Reproducing KernelHilbert Space Embedding)的方案，也可以采用其他参数化或者非参数化的方案，比如基于K近邻的概率密度函数估计法(k nearest neighbor based probability densityestimation)。本实施例中，可再生核希尔伯特空间嵌入方案将每个变量(维度信息)的边缘概率分布映射到可再生核空间成为一个变量，即可得到每个变量的静态行为模型，也就是RKHS嵌入，如图5a中映射关系所示：

流层面的信息集合

每个维度的变量的静态行为模型如下：

其中，μ_p,i即为流层面(P)的信息集合

中每个维度信息i的静态行为模型。

链接层面的信息集合

中每个维度的变量的静态行为模型如下：

其中，μ_c,i即为流层面(C)的信息集合

中每个维度信息i的静态行为模型。

以数据流的流层面的信息集合的第i个维度的变量(维度信息)为例，以下为建模过程：

设采集到的数据流的流层面的信息集合的第i个维度信息为：

那么，该数据流关于报文长度这一维度信息的静态行为模型可以利用如下公式(1)计算获得：

其中，

为核函数k(x,y)的特征函数向量。

而数据流的动态行为模型是指数据流的信息集合的所有维度上的变量在前后两个时刻的条件概率分布。由于数据流可以看做是一个时间时序，而时间时序的动态行为反应在该时间序列前后时刻变量取值在统计上的相关性，因此，本实施例中通过刻画一个时间序列的动态行为，可以用前后两个时刻的每个维度的变量的条件概率分布。

这里可以采用可再生核希尔伯特空间嵌入(Reproducing Kernel Hilbert SpaceEmbedding)的方案，也可以采用其他参数化或者非参数话的方案。本实施例中，可再生核希尔伯特空间嵌入方案将每个变量(维度信息)的条件概率分布映射到可再生核空间成为一个操作子，也就是RKHS嵌入，如图5b中映射关系所示：

流层面的信息集合

每个维度的变量的动态行为模型如下：

其中，U_p,i即为流层面(P)的信息集合

中前后两个时刻t与t+1每个维度信息i的动态行为模型。

链接层面的信息集合

中每个维度的变量的动态行为模型如下：

其中，U_c,i即为流层面(C)的信息集合

中前后两个时刻t与t+1每个维度信息i的动态行为模型。

设采集到的数据流的流层面的信息集合的t时刻第i个维度信息为：

t+1时刻第i个维度信息为：

那么，该数据流关于报文长度这一维度信息前后两个时刻的动态行为模型可以利用如下公式(2)计算获得：

其中，

且[K_tt]_ij＝k(x_i,x_j)，

为核函数k(x,y)的特征函数向量，K_tt为流层面的信息集合中维度信息所组成的矩阵，[K_tt]_ij为矩阵中第i行第j个矩阵元素，λ为规则化参数，可以由用户根据需求进行定义，I为单位矩阵，即为对角线上矩阵元素为1的对角矩阵。

S305：主服务器计算每个维度信息的静态行为模型分别与预设的各个应用类型相应维度上的目标静态行为模型之间的静态模型距离，并计算每个维度信息的动态行为模型分别与预设的各个应用类型相应维度上的目标动态行为模型之间的动态模型距离。

这里的目标静态行为模型及目标动态行为模型是由主服务器通过预先定期收集网络中不同的目标应用类型的数据流的信息集合，并进行建模所得到的，主服务器获得这些目标静态行为模型及目标动态行为模型的具体方案可以参考前文中主服务器获得待处理的数据流的每个维度信息的静态行为模型及动态行为模型的实现方案。

这里的目标应用类型的数据流的信息集合，是指已知应用类型的数据流的信息集合，这里的目标应用类型可以为根据业务需要进行定义的，如大象流(流量巨大的数据流)、老鼠流(流量小的数据流)、视频流，或者Skype、Edonkey、FTP、SSH等等类型。

静态模型距离为待处理的数据流每个维度信息的静态行为模型与各个目标应用相应维度上的目标静态行为模型之间的距离，也就是每个维度信息的边缘概率分布的距离，以下对静态模型距离的计算进行举例说明：

以待处理的数据流A及目标应用类型所属的数据流B为例，A具有信息集合

和

B具有信息集合

和

主服务器计算数据流A与B的静态行为模型

以及

之后，通过以下公式(3)及(4)计算两个数据流在静态行为模型上的静态模型距离：

这里，以数据流的流层面的信息集合的第i个维度的变量如报文长度为例，数据流A与B的静态行为模型分别为：

和

数据流A与B在报文长度的静态行为模型之间的静态模型距离为：

其中：

动态模型距离为待处理的数据流每个维度信息的动态行为模型与各个目标应用相应维度上的目标动态行为模型之间的距离，也就是每个维度信息前后两个时刻的条件概率分布的距离，以下对动态模型距离的计算进行举例说明：

和

B具有信息集合

和

主服务器计算数据流A与B的动态行为模型

以及

之后，通过以下公式(5)及(6)计算两个数据流在动态行为模型上的动态模型距离：

这里，以数据流的流层面的信息集合的第i个维度的变量如报文长度为例：数据流A与B的动态行为模型分别为：

和

数据流A与B在报文长度前后两个时刻的动态行为模型之间的动态模型距离为：

其中：

基于以上方案可知，以矩阵表示待处理的数据流A及目标应用类型所属的数据流B之间：

静态模型距离向量：

动态模型距离向量：

特征距离向量：

S306：主服务器对待处理的数据流与各个目标应用类型所属数据流之间的静态模型距离及动态模型距离进行加权处理，得到待处理的数据流与各个目标应用类型所属的数据流之间的特征距离。

主服务器预先通过训练学习，获得一个最佳距离权重矩阵，即能够使得从属于同一应用类型的数据流之间的特征距离最小，从属于不同应用类型的数据流之间的特征距离最大。

具体的，主服务器周期性的收集各个目标应用类型的数据流的静态行为模型及动态行为模型，并计算任意两个数据流之间的静态模型距离及动态模型距离，通过最小化同一应用类型的数据流的静态模型距离及动态模型距离，最大化不同应用类型的数据流的静态模型距离及动态模型距离，找到最佳的权重矩阵。

例如，将训练样本的数据流按照是否属于同一应用类型，分为如下两个数据流对集合：

S:(f_i,f_j)∈S，f_i和f_j从属于同一应用类型；

D:(f_i,f_j)∈D，f_i和f_j从属于不同应用类型。

由此，找到半正定矩阵X，使得以下目标函数最小化：

s.t.X＞0

这里，

表示了任意两个数据流的特征距离的目标函数，目标函数最小化后所得到的权重矩阵X即为最佳矩阵，能够使得从属于同一应用类型的数据流之间的特征距离最小，从属于不同应用类型的数据流之间的特征距离最大。

基于以上方案所得到的最佳的权重矩阵X，与特征距离向量进行矩阵计算，得到最终的特征距离。

S307：利用分类算法，基于待处理的数据流与各个目标应用类型所属的数据流之间的特征距离，确定待处理的数据流的应用类型。

本实施例中可以利用KNN(K-Nearest Neighbor，K近邻)、Naive Bayesian(朴素贝页斯)等进行分类，将最小的特征距离所对应的目标应用类型确定为待处理的数据流的应用类型，实现对数据流的应用类型的分类。

由上述方案可知，本申请实施例提供的一种网络数据流分类的方法，通过计算概率分布来对数据流的应用类型进行分类，使得刻画应用类型不同的行为模式准确性更高，避免了复杂低效的特征设计。

进一步的，本申请通过应用类型在静态和动态的行为模式差异，提供更准确的信息用于应用类型的分类。

另外，本申请利用历史训练数据学习出每一个维度的特征距离的重要性，进一步的，周期性的学习可以实现方案的自适应性。

图6所示为图2中从服务器及主服务器所组成的网络数据流分类的系统的细节结构图，其中：

从服务器601，至少包括：信息采集模块611，用于采集各种终端传输的待处理的数据流的信息集合，信息集合包括有多个维度信息；

主服务器602，可以包括有：

数据接口621，用于获得信息采集模块611采集到的信息集合；

存储器622，用于存储应用程序及应用程序运行所产生的数据。

处理器623，与数据接口621相连接，用于运行应用程序，以建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

Claims

1.一种网络数据流分类的方法，其特征在于，包括：

采集待处理的数据流的信息集合，所述信息集合包括有多个维度信息；

建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，所述静态行为模型表征所述维度信息的取值规律，所述动态行为模型表征所述维度信息在前后时刻之间的关联关系，所述信息集合中每个维度信息的静态行为模型，具体为：所述信息集合中每个维度信息的边缘概率分布映射到可再生核空间得到的每个维度信息对应的向量；所述信息集合中每个维度信息的动态行为模型，具体为：前后两个时刻的所述信息集合中每个维度信息的条件概率分布映射到可再生核空间得到所述前后时刻的每个维度信息的操作子；

利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离；

基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型。

2.根据权利要求1所述的方法，其特征在于，所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合；

所述第一信息集合至少包括以下维度信息：报文长度和报文到达时间间隔；

所述第二信息集合至少包括以下维度信息：数据流长度、数据流中的报文数目、数据流持续时间和数据流到达时间间隔。

3.根据权利要求2所述的方法，其特征在于，所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，包括：

获得所述第一信息集合中每个维度信息的边缘概率分布，所述边缘概率分布表征所述维度信息的取值规律，并基于所述第一信息集合中每个维度信息的边缘概率分布，生成所述第一信息集合中每个维度信息的静态行为模型；

获得所述第一信息集合中每个维度信息的条件概率分布，所述条件概率分布表征所述维度信息在前后时刻之间的关联关系，并基于所述第一信息集合中每个维度信息的条件概率分布，生成所述第一信息集合中每个维度信息的动态行为模型；

获得所述第二信息集合中每个维度信息的边缘概率分布，所述边缘概率分布表征所述维度信息的取值规律，并基于所述第二信息集合中每个维度信息的边缘概率分布，生成所述第二信息集合中每个维度信息的静态行为模型；

获得所述第二信息集合中每个维度信息的条件概率分布，所述条件概率分布表征所述维度信息在前后时刻之间的关联关系，并基于所述第二信息集合中每个维度信息的条件概率分布，生成所述第二信息集合中每个维度信息的动态行为模型。

4.根据权利要求2所述的方法，其特征在于，所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，包括：

利用

中的第i个维度信息，n为第一信息集合

中维度信息的个数，

为核函数k(x,y)的特征函数向量，x、y为核函数的变量；

利用

且K_tt为所述第一信息集合中维度信息所组成的矩阵，[K_tt]_ij为矩阵中第i行第j个矩阵元素，[K_tt]_ij＝k(x_i,x_j)，x_i为第一信息集合

中的第i个维度信息，x_j为第一信息集合

中的第j个维度信息，n为第一信息集合

中维度信息的个数，

为核函数k(x,y)的特征函数向量，x、y为核函数的变量，λ为预设参数，I为单位矩阵；

利用

获得第二信息集合

中每个维度信息的静态行为模型，其中，y_i为第二信息集合

中的第i个维度信息，m为第二信息集合

中维度信息的个数；

利用

且K_ss为所述第二信息集合中维度信息所组成的矩阵，[K_ss]_ij为矩阵中第i行第j个矩阵元素，[K_ss]_ij＝k(y_i，y_j)，y_i为第二信息集合

中的第i个维度信息，y_j为第二信息集合

中的第j个维度信息，m为第二信息集合

中维度信息的个数，

为核函数k(x,y)的特征函数向量，x、y为核函数的变量。

5.根据权利要求2所述的方法，其特征在于，利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，包括：

利用

为待处理的数据流A的第一信息集合

的静态行为模型，

为目标应用类型所属的数据流B的流层面的静态行为模型，

i表示信息集合中的第i个维度信息，其中，

为数据流A对应的第一信息集合

关于流层面的静态模型，

为数据流B对应的第一信息集合

关于流层面的静态模型，n为第一信息集合

中维度信息的个数，

为数据流A对应的第一信息集合中维度信息所组成的矩阵，

为数据流A和数据流B对应的第一信息集合中维度信息所组成的矩阵，

为数据流B对应的第一信息集合中维度信息所组成的矩阵，

分别为矩阵

中第i行第j个矩阵元素，

为数据流A对应的第一信息集合

中的第i个维度信息，

为数据流A对应的第一信息集合

中的第j个维度信息，

为数据流A和数据流B对应的第一信息集合

中的第i个维度信息，

为数据流A和数据流B对应的第一信息集合

中的第j个维度信息，

为数据流B对应的第一信息集合

中的第i个维度信息，

为数据流B对应的第一信息集合

中的第j个维度信息，

为变量为

和

的核函数，

为变量为

和

的核函数，

为变量为

和

的核函数；

利用

为待处理的数据流A的第二信息集合

的静态行为模型，

为目标应用类型所属的数据流B的链接层面的静态行为模型，其中，

为数据流A对应的第二信息集合

关于链接层面的静态模型，

为数据流B对应的第二信息集合

关于链接层面的静态模型，m为第二信息集合

中维度信息的个数，

为数据流A对应的第二信息集合中维度信息所组成的矩阵，

为数据流A和数据流B对应的第二信息集合中维度信息所组成的矩阵，

为数据流B对应的第二信息集合中维度信息所组成的矩阵；

利用

为待处理的数据流A的第一信息集合

的动态行为模型，

为目标应用类型所属的数据流B的流层面的动态行为模型，其中，

为数据流A对应的第一信息集合

关于流层面的动态模型，

为数据流A对应的第一信息集合

关于流层面的静态模型，

为数据流A对应的第一信息集合

关于流层面的静态模型，

为数据流B对应的第一信息集合

关于流层面的动态模型，

为数据流B对应的第一信息集合

关于流层面的静态模型，

为数据流B对应的第一信息集合

关于流层面的静态模型；

利用

为待处理的数据流A的第二信息集合

的动态行为模型，

为目标应用类型所属的数据流B的链接层面的动态行为模型，其中，

为数据流A对应的第二信息集合

关于链接层面的动态模型，

为数据流A对应的第二信息集合

关于链接层面的静态模型，

为数据流A对应的第二信息集合

关于链接层面的静态模型，

为数据流B对应的第二信息集合

关于链接层面的动态模型，

为数据流B对应的第二信息集合

关于链接层面的静态模型，

为数据流B对应的第二信息集合

关于链接层面的静态模型。

6.根据权利要求1至5任一项所述的方法，其特征在于，基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型，包括：

对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离；

利用分类算法，基于所述特征距离，确定所述待处理的数据流的应用类型。

7.根据权利要求6所述的方法，其特征在于，对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离，包括：

基于各个目标应用类型的数据流的静态行为模型及动态行为模型，获得权重矩阵，所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小，从属于不同应用类型的数据流之间的特征距离最大；

利用所述权重矩阵，对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离。

8.根据权利要求6所述的方法，其特征在于，所述分类算法包括：K近邻分类算法或Naive Bayesian分类算法；

利用分类算法，基于所述特征距离，确定述待处理的数据流的应用类型，包括：

基于K近邻分类算法或Naive Bayesian分类算法，将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。

9.一种网络数据流分类的系统，其特征在于，包括：

从服务器及主服务器；

所述从服务器，包括信息采集模块，所述信息采集模块用于采集终端传输的待处理的数据流的信息集合，所述信息集合包括有多个维度信息；

所述主服务器，包括：

数据接口，用于获得所述信息采集模块采集到的信息集合；

存储器，用于存储应用程序及应用程序运行所产生的数据；

处理器，用于运行所述应用程序，以实现以下功能：建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，所述静态行为模型表征所述维度信息的取值规律，所述动态行为模型表征所述维度信息在前后时刻之间的关联关系，利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型，其中，所述信息集合中每个维度信息的静态行为模型，具体为：所述信息集合中每个维度信息的边缘概率分布映射到可再生核空间得到的每个维度信息对应的向量；所述信息集合中每个维度信息的动态行为模型，具体为：前后两个时刻的所述信息集合中每个维度信息的条件概率分布映射到可再生核空间得到所述前后时刻的每个维度信息的操作子。

10.根据权利要求9所述的系统，其特征在于，所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合；

11.根据权利要求10所述的系统，其特征在于，所述处理器建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，具体为：

12.根据权利要求10所述的系统，其特征在于，所述处理器建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，具体为：

利用