CN109995611A

CN109995611A - 流量分类模型建立及流量分类方法、装置、设备和服务器

Info

Publication number: CN109995611A
Application number: CN201910203391.XA
Authority: CN
Inventors: 孙尚勇
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-09
Anticipated expiration: 2039-03-18
Also published as: CN109995611B

Abstract

本发明实施例提供了一种流量分类模型建立及流量分类方法、装置、设备和服务器，通过获取样本流量集，提取样本流量集中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离，根据每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与任意的第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，基于针对各样本流量划分的簇，建立流量分类模型。通过本方案，使得基于针对各样本流量划分的簇建立的流量分类模型更为合理，并且在使用该流量分类模型进行流量分类时，能够提高流量分类结果的准确率。

Description

流量分类模型建立及流量分类方法、装置、设备和服务器

技术领域

本发明涉及计算机网络技术领域，特别是涉及一种流量分类模型建立及流量分类方法、装置、设备和服务器。

背景技术

近年来，随着互联网的高速发展，互联网中流量的种类日益增加。网络管理者通常需要使用网络流量分类技术来区分各种应用和协议的流量，再根据特定的要求来限制特定类型的流量或阻断有害应用的流量。

常用的建立流量分类模型的方法为密度聚类法，将样本流量集中每个样本流量的邻域内所包含的样本流量的数目与预设的密度阈值进行比较，如果某一个样本流量的邻域内所包含的样本流量的数目大于或等于密度阈值，则以该样本流量为聚类中心创建簇，基于针对各样本流量创建的簇，建立分类模型。

传统的流量分类模型建立方法中，只要一个样本流量满足以该样本流量为圆心、半径为预设的密度半径的范围内包含的样本流量的数目大于或等于密度阈值，就确定该样本流量为聚类中心，但是，密度半径是人为根据经验设定的，一旦密度半径设定的不合理，极易将不同类型的样本流量划分到同一簇内，使得建立的流量分类模型不合理，最终导致流量分类结果的准确率较低。

发明内容

本发明实施例的目的在于提供一种流量分类模型建立及流量分类方法、装置、设备和服务器，以提高流量分类模型的合理性和流量分类结果的准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种流量分类模型建立方法，所述方法包括：

获取样本流量集，所述样本流量集中包括多个样本流量；

提取所述多个样本流量中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离；

根据所述每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇，所述局部密度参数包括所述截断距离，所述第一样本流量为所述样本流量集中的任一样本流量；

基于针对所述各样本流量划分的簇，建立流量分类模型。

第二方面，本发明实施例提供了一种流量分类方法，所述方法包括：

获取待分类流量的行为特征向量；

将所述待分类流量的行为特征向量输入预先建立的流量分类模型，得到所述待分类流量的类型；

其中，所述流量分类模型为根据样本流量集中每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇建立的，所述局部密度参数包括所述截断距离，所述第一样本流量为所述样本流量集中的任一样本流量。

第三方面，本发明实施例提供了一种流量分类模型建立装置，所述装置包括：

获取模块，用于获取样本流量集，所述样本流量集中包括多个样本流量；

计算模块，用于提取所述多个样本流量中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离；

划分模块，用于根据所述每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇，所述局部密度参数包括所述截断距离，所述第一样本流量为所述样本流量集中的任一样本流量；

建立模块，用于基于针对所述各样本流量划分的簇，建立流量分类模型。

第四方面，本发明实施例提供了一种流量分类装置，所述装置包括：

获取模块，用于获取待分类流量的行为特征向量；

分类模块，用于将所述待分类流量的行为特征向量输入预先建立的流量分类模型，得到所述待分类流量的类型，其中，所述流量分类模型为根据样本流量集中每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇建立的，所述局部密度参数包括所述截断距离，所述第一样本流量为所述样本流量集中的任一样本流量。

第五方面，本发明实施例提供了一种流量分类模型训练设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：执行本发明实施例第一方面所提供的流量分类模型建立方法。

第六方面，本发明实施例提供了一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时，实现本发明实施例第一方面所提供的流量分类模型建立方法。

第七方面，本发明实施例提供了一种流量分类服务器，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：执行本发明实施例第二方面所提供的流量分类方法。

第八方面，本发明实施例提供了一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时，实现本发明实施例第二方面所提供的流量分类方法。

本发明实施例提供的一种流量分类模型建立及流量分类方法、装置、设备和服务器，通过获取样本流量集，提取样本流量集中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离，根据每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与任意的第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，基于针对各样本流量划分的簇，建立流量分类模型。样本流量的行为特征向量表征了样本流量的空间分布情况，通常情况下，同一种类型的流量在空间分布上距离越近，因此，通过将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，能够极大程度地将同一类型的样本流量划分到同一个簇内，从而使得基于针对各样本流量划分的簇建立的流量分类模型更为合理，则在使用该流量分类模型进行流量分类时，能够提高流量分类结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流量分类模型建立方法的流程示意图；

图2为本发明实施例的聚类效果示意图；

图3为本发明实施例的流量分类方法的流程示意图；

图4为本发明实施例的流量分类系统的结构示意图；

图5为本发明实施例的图4所示的流量分类系统下流量分类方法的流程示意图；

图6为本发明实施例的流量分类模型建立装置的结构示意图；

图7为本发明实施例的流量分类模型的结构示意图；

图8为本发明实施例的流量分类模型训练设备的结构示意图；

图9为本发明实施例的流量分类服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高流量分类模型的合理性和流量分类结果的准确率，本发明实施例提供了一种流量分类模型建立及流量分类方法、装置、流量分类模型训练设备、流量分类服务器和机器可读存储介质。

下面，首先对本发明实施例所提供的流量分类模型建立方法进行介绍。

本发明实施例所提供的流量分类方法可以应用于流量分类模型训练设备，流量分类模型训练设备是用于进行流量分类模型训练的设备，在训练得到流量分类模型后，将流量分类模型发送至流量分类服务器，由流量分类服务器进行网络流量的实时分类。当然，流量分类模型训练设备和流量分类服务器还可以为同一个设备，即可以由流量分类服务器自行进行流量分类模型的训练，在训练得到流量分类模型后，直接利用流量分类模型进行网络流量的实时分类。

本发明实施例中所提及的流量分类模型为一种聚类模型，一个分类模型中包括多个簇，每一个簇基于同一种类型的流量创建，在建立流量分类模型之后，直接将待分类流量输入到流量分类模型中，输出的即为待分类流量的类型，是一种端对端的数学模型。

为了提高流量分类模型的合理性，本发明实施例所提供了一种流量分类模型建立方法，应用于流量分类模型训练设备，如图1所示，该流量分类模型建立方法可以包括如下步骤。

S101，获取样本流量集，其中，样本流量集中包括多个样本流量。

样本流量集是用来建立流量分类模型的多个样本流量的集合，流量分类模型训练设备基于样本流量集中的各样本流量即可建立流量分类模型。样本流量是已知类型的网络流量，每一个样本流量在输入时都需要标记有类型标记，以便在进行簇划分时，确定出每一个簇对应的流量类型。

S102，提取各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离。

每一个样本流量在输入网络时，都会根据样本流量的访问信息、数据信息等属性特征信息生成一个行为特征向量，行为特征向量能够表征样本流量的空间分布情况。通常情况下，空间分布越近的样本流量类型相同的几率越大，因此，可以提取各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离。以两个样本流量的行为特征向量之间的距离，来判断每两个样本流量之间的空间分布是否能够满足被视为同一类型的条件(即两个样本流量的行为特征向量之间的距离小于一个阈值)。

假设样本流量集为T(l₁,l₂,l₃,…,l_n)，而提取到的样本流量l₁,l₂,l₃,…,l_n的行为特征向量分别为b₁,b₂,b₃,…,b_n，则b_i和b_j之间的距离可以表示为d_ij。具体计算d_ij的方式可以采用传统的空间向量的距离计算方式，这里不再赘述。

S103，根据每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，其中，局部密度参数包括截断距离。

第一样本流量为样本流量集中的任一样本流量。局部密度参数是指两个样本流量之间的空间分布情况的预设参数，局部密度参数可以包括截断距离。由于空间分布越近的样本流量类型相同的几率越大，则所设置的截断距离即为判断两个样本流量的空间分布能够满足被视为同一类型的阈值，也就是说，如果两个样本流量的行为特征向量之间的距离大于或等于截断距离，则认为这两个样本流量不是同一类型，如果两个样本流量的行为特征向量之间的距离小于截断距离，则认为这两个样本流量是同一类型。截断距离设置的越小，则建立的流量分类模型越准确，但是，如果截断距离设置的太小，容易出现一个簇内只有一个样本流量的情况，导致将本来是同一类型的流量识别为不同类型的情况，因此，一般情况下，会将截断距离设置为一个适当的阈值。

本发明实施例中的分类模型为聚类模型，分类模型中一个簇对应一个流量类型，因此，通过将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，能够保证一个簇中的样本流量属于同一种流量类型，避免将不同类型的流量划分到一个簇内的情况发生。

可选的，局部密度参数还可以包括局部密度阈值。

S103具体可以为：

根据每两个样本流量的行为特征向量之间的距离及截断距离，计算各样本流量的局部密度，其中，局部密度为样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量的总数目；

根据各样本流量的局部密度，确定局部密度大于局部密度阈值的样本流量为聚类中心，并根据局部密度阈值，确定聚类半径；

基于聚类中心及聚类半径，创建簇。

本发明实施例中，针对样本流量集中各样本流量l₁,l₂,l₃,…,l_n，定义了各样本流量的一个属性特征：局部密度。一个样本流量的局部密度是指与该样本流量的行为特征向量之间的距离小于截断距离的其他各样本流量的总数目。

一个样本流量的局部密度越大，说明在空间分布上，该样本流量附近的同类型样本流量的分布越多，则可以考虑将该样本流量作为簇的聚类中心。因此，可以设定一个局部密度阈值，局部密度阈值是一个表示流量数目的阈值，用以作为样本流量是否可以作为聚类中心的判定条件。如果一个样本流量的局部密度大于局部密度阈值，则可以将该样本流量确定为聚类中心。

具体的，可以利用公式(1)计算样本流量l_i的局部密度δ_i。

δ_i＝∑_j∈T,j≠iχ(d_ij-d_c) (1)

其中，d_ij为样本流量l_i的行为特征向量b_i和样本流量l_j的行为特征向量b_j之间的距离，d_c为截断距离，χ是一个分段函数，定义如下。

同时，在进行簇划分时，需要按照一定的聚类半径进行划分，为了防止聚类半径设置过大导致的将不同类型的样本流量划分到同一簇的情况发生，可以根据局部密度阈值，确定聚类半径。局部密度阈值是指一个样本流量作为聚类中心时，其周围分布同类型的样本流量的最小数目，因此，在设置聚类半径时，只要能够保证聚类半径内所包含的样本流量的数目小于局部密度阈值，则可以保证在划分簇时不会出现将不同类型的样本流量划分到同一簇的情况发生。具体的，聚类半径r可以设置为：

r＝a*ε (3)

其中，a是收缩因子，取值范围一般为0.8<a<0.9，ε为局部密度阈值。

在进行簇划分时，一个簇对应的流量类型即为该簇的聚类中心的样本流量的类型。

可选的，在执行根据每两个样本流量的行为特征向量之间的距离及截断距离，计算各样本流量的局部密度的步骤之后，本发明实施例所提供的流量分类模型建立方法还可以执行如下步骤：

根据各样本流量的局部密度及每两个样本流量的行为特征向量之间的距离，计算各样本流量的核心距离，其中，核心距离为样本流量集中局部密度大于第一样本流量的其他样本流量与第一样本流量的行为特征向量之间的距离的最小值。

相应的，根据各样本流量的局部密度，确定局部密度大于局部密度阈值的样本流量为聚类中心的步骤，具体可以为：

根据各样本流量的局部密度及各样本流量的核心距离，确定局部密度大于局部密度阈值、且核心距离大于截断距离的样本流量为聚类中心。

本发明实施例中，针对样本流量集中各样本流量l₁,l₂,l₃,…,l_n，还可以定义各样本流量的另一个属性特征：核心距离。一个样本流量的核心距离是指局部密度大于该样本流量的其他各样本流量与该样本流量的行为特征向量之间的距离的最小值。

在进行聚类时，为了保证不同的簇之间不会出现重叠的情况，一个簇只对应一种类型的流量，因此，两个相邻簇的聚类中心的距离一定要大于截断距离，也就是说，对于一个样本流量而言，如果该样本流量为聚类中心，除了局部密度大于局部密度阈值以外，还需要核心距离大于截断距离。

一个簇可以不断把邻域范围内的数据点吸收进来，这样基于整个样本流量集，可以创建多个簇，每个簇对应一种流量类型，不属于任何簇的样本流量则不被统计，如图2所示，通过聚类，一个圆形区域内的样本流量聚合为一个簇。

具体的，可以利用公式(4)计算样本流量l_i的核心距离λ_i。

λ_i＝min(d_ij)(δ_i<δ_j) (4)

其中，d_ij为样本流量l_i的行为特征向量b_i和样本流量l_j的行为特征向量b_j之间的距离，δ_i为样本流量l_i的局部密度，δ_j为样本流量l_j的局部密度。

S104，基于针对各样本流量划分的簇，建立流量分类模型。

在针对样本流量集中的各样本流量，划分得到各簇后，基于各簇即可建立流量分类模型，由于流量分类模型是基于样本流量的行为特征向量建立的，在利用流量分类模型进行流量分类时，输入的是待分类流量的行为特征向量，判断待分类流量的行为特征向量属于哪一个簇，输出的即为待分类流量的类型。

可选的，在执行S104之后，本发明实施例所提供的流量分类模型建立方法，还可以执行如下步骤：

接收携带有标记类型的流量；

提取流量的行为特征向量；

将流量的行为特征向量输入流量分类模型，确定流量的类型；

判断类型与标记类型是否相同；

若不相同，则调整局部密度参数，并根据调整后的局部密度参数，重新执行S103；

基于重新划分的簇，更新流量分类模型。

由于样本流量集中的样本流量不一定能够完全包含所有的网络流量，因此，还可以利用携带有标记类型的流量对建立的流量分类模型进行更新，每接收到一个携带有标记类型的流量之后，都可以首先利用已建立的流量分类模型对该流量的类型进行识别，如果识别出来的类型与标记类型不同，则说明流量分类模型不够准确，需要通过调整局部密度参数来重新划分簇，进而更新流量分类模型，以达到使得流量分类模型更为准确的目的。

应用本发明实施例，通过获取样本流量集，提取样本流量集中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离，根据每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与任意的第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，基于针对各样本流量划分的簇，建立流量分类模型。样本流量的行为特征向量表征了样本流量的空间分布情况，通常情况下，同一种类型的流量在空间分布上距离越近，因此，通过将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，能够极大程度地将同一类型的样本流量划分到同一个簇内，从而使得基于针对各样本流量划分的簇建立的流量分类模型更为合理。

为了提高流量分类结果的准确率，本发明实施例所提供的一种流量分类方法，应用于流量分类服务器，如图3所示，该流量分类方法可以包括如下步骤。

S301，获取待分类流量的行为特征向量。

由于如图1所示实施例中，流量分类模型是基于样本流量的行为特征向量建立的，因此，输入流量分类模型的实际为流量的行为特征向量。待分类流量可以是流量采集设备(例如流量探针、日志服务器等)采集到的，然后由流量采集设备提取待分类流量的行为特征向量，再由流量采集设备将行为特征向量发送至流量分类服务器进行分类识别。还可以是流量采集设备采集待分类流量，将待分类流量发送给流量分类服务器，由流量分类服务器提取待分类流量的行为特征向量，再进行分类识别。

流量探针可以直接探测到网络中的流量，而日志服务器获取到的是原始日志，通过对原始日志进行解析能够解析出对应的待分类流量。

S302，将待分类流量的行为特征向量输入预先建立的流量分类模型，得到待分类流量的类型。

其中，流量分类模型为根据样本流量集中每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为第一样本流量同簇建立的，局部密度参数包括截断距离，第一样本流量为样本流量集中的任一样本流量。具体的，本发明实施例所涉及的流量分类模型，是基于图1所示实施例的流量分类模型建立方法建立的，详细的建立过程见图1所示实施例，这里不再赘述。

流量分类模型中的每一个簇对应一种流量类型，因此，将待分类流量的行为特征向量输入到流量分类模型中，可以确定出待分类流量的行为特征向量属于哪一个簇，进而可以确定出待分类流量的类型。流量分类服务器可以提供显示流量类型的接口，以便其他用于显示流量类型的设备能够通过该接口实时地接收到当前流量的类型，显示流量的实时状态。

应用本发明实施例，在建立流量分类模型时，由于样本流量的行为特征向量表征了样本流量的空间分布情况，通常情况下，同一种类型的流量在空间分布上距离越近，因此，通过将样本流量集中与任意的第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，能够极大程度地将同一类型的样本流量划分到同一个簇内，从而使得基于针对各样本流量划分的簇建立的流量分类模型更为合理。这样，在使用该流量分类模型进行流量分类时，能够提高流量分类结果的准确率。

为了便于理解，以图4所示的流量分类系统为例，对流量分类系统中各设备交互执行流量分类方法的流程进行介绍，如图5所示。

第一步，流量探针实时探测网络中的流量；日志采集器实时采集网络中原始日志，并将原始日志发送至日志服务器，日志服务器对原始日志进行解析，解析出对应的流量。

第二步，流量探针提取流量的行为特征向量，将行为特征向量发送至流量分类服务器；日志服务器提取流量的行为特征向量，将行为特征向量发送至流量分类服务器。

第三步，流量分类服务器设置截断距离、局部密度阈值、聚类半径等参数，并把流量的行为特征向量输入分类模型进行分类。

第四步，流量分类服务器判断分类的结果准确率是否符合要求。若不符合要求，则调整截断距离、局部密度阈值、聚类半径等参数，继续把流量的行为特征向量输入到流量分类模型中。反之，执行第五步。

判断分类的结果准确率是否符合要求，可以是判断分类的结果与标定的类型是否相同，如果相同则说明结果准确率符合要求，如果不相同则说明结果准确率不符合要求。

第五步，流量分类服务器统计各类型的流量，并记录截断距离、局部密度阈值、聚类半径等参数，形成流量分类模型，发送分类后的流量至Web服务器。

如果分类的结果准确率符合要求，则说明此时设置的截断距离、局部密度阈值、聚类半径等参数可以确定出准确的流量分类模型，最终的分类结果的准确率也较高，因此，可以记录下这些参数，并形成流量分类模型。

第六步，Web服务器显示各流量的实时状态。

通过本方案，通过设置截断距离、局部密度阈值、聚类半径等参数，建立了流量分类模型，流量分类模型中每个簇的聚类中心为与该簇内其他流量的行为特征向量间的距离小于截断距离，即可将同一类型的流量聚类为一个簇，从而提高了流量分类结果的准确率。

相应于图1所示的方法实施例，本发明实施例提供了一种流量分类模型建立装置，如图6所示，该流量分类模型建立装置可以包括：

获取模块610，用于获取样本流量集，所述样本流量集中包括多个样本流量；

计算模块620，用于提取所述多个样本流量中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离；

划分模块630，用于根据所述每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇，所述局部密度参数包括所述截断距离，所述第一样本流量为所述样本流量集中的任一样本流量；

建立模块640，用于基于针对所述各样本流量划分的簇，建立流量分类模型。

可选的，所述局部密度参数还可以包括局部密度阈值；

所述划分模块630，具体可以用于：

根据所述每两个样本流量的行为特征向量之间的距离及所述截断距离，计算所述各样本流量的局部密度，所述局部密度为所述样本流量集中与所述第一样本流量的行为特征向量之间的距离小于所述截断距离的其他样本流量的总数目；

根据所述各样本流量的局部密度，确定局部密度大于所述局部密度阈值的样本流量为聚类中心，并根据所述局部密度阈值，确定聚类半径；

基于所述聚类中心及所述聚类半径，创建簇。

可选的，所述划分模块630，还可以用于：

根据所述各样本流量的局部密度及所述每两个样本流量的行为特征向量之间的距离，计算所述各样本流量的核心距离，所述核心距离为所述样本流量集中局部密度大于所述第一样本流量的其他样本流量与所述第一样本流量的行为特征向量之间的距离的最小值；

所述划分模块630在用于根据所述各样本流量的局部密度，确定局部密度大于所述局部密度阈值的样本流量为聚类中心时，具体可以用于：

根据所述各样本流量的局部密度及所述各样本流量的核心距离，确定局部密度大于所述局部密度阈值、且核心距离大于所述截断距离的样本流量为聚类中心。

可选的，所述装置还可以包括：

接收模块，用于接收携带有标记类型的流量；

提取模块，用于提取所述流量的行为特征向量；

分类模块，用于将所述流量的行为特征向量输入所述流量分类模型，确定所述流量的类型；

判断模块，用于判断所述类型与所述标记类型是否相同；

更新模块，用于若所述判断模块的判断结果为不相同，则调整所述局部密度参数，并根据调整后的所述局部密度参数，重新执行所述根据所述每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇；基于重新划分的簇，更新所述流量分类模型。

相应于图3所示的方法实施例，本发明实施例提供了一种流量分类装置，如图7所示，该流量分类装置可以包括：

获取模块710，用于获取待分类流量的行为特征向量；

分类模块720，用于将所述待分类流量的行为特征向量输入预先建立的流量分类模型，得到所述待分类流量的类型，其中，所述流量分类模型为根据样本流量集中每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇建立的，所述局部密度参数包括所述截断距离，所述第一样本流量为所述样本流量集中的任一样本流量。

本发明实施例还提供了一种流量分类模型训练设备，如图8所示，包括处理器801和机器可读存储介质802，所述机器可读存储介质802存储有能够被所述处理器801执行的机器可执行指令，所述处理器801被所述机器可执行指令促使：执行本发明实施例所提供的流量分类模型建立方法的步骤。

本发明实施例还提供了一种流量分类服务器，如图9所示，包括处理器901和机器可读存储介质902，所述机器可读存储介质902存储有能够被所述处理器901执行的机器可执行指令，所述处理器901被所述机器可执行指令促使：执行本发明实施例所提供的流量分类方法的步骤。

上述机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例中，处理器801通过读取机器可读存储介质802中存储的机器可执行指令，处理器901通过读取机器可读存储介质902中存储的机器可执行指令，被机器可执行指令促使能够实现：通过获取样本流量集，提取样本流量集中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离，根据每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与任意的第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，基于针对各样本流量划分的簇，建立流量分类模型。样本流量的行为特征向量表征了样本流量的空间分布情况，通常情况下，同一种类型的流量在空间分布上距离越近，因此，通过将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，能够极大程度地将同一类型的样本流量划分到同一个簇内，从而使得基于针对各样本流量划分的簇建立的流量分类模型更为合理，则在使用该流量分类模型进行流量分类时，能够提高流量分类结果的准确率。

另外，本发明实施例还提供了一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时，实现本发明实施例所提供的流量分类模型建立方法的步骤。

本发明实施例还提供了一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时，实现本发明实施例所提供的流量分类方法的步骤。

本实施例中，机器可读存储介质在运行时能够实现：通过获取样本流量集，提取样本流量集中各样本流量的行为特征向量，并计算每两个样本流量的行为特征向量之间的距离，根据每两个样本流量的行为特征向量之间的距离及局部密度参数，将样本流量集中与任意的第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，基于针对各样本流量划分的簇，建立流量分类模型。样本流量的行为特征向量表征了样本流量的空间分布情况，通常情况下，同一种类型的流量在空间分布上距离越近，因此，通过将样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与第一样本流量同簇，能够极大程度地将同一类型的样本流量划分到同一个簇内，从而使得基于针对各样本流量划分的簇建立的流量分类模型更为合理，则在使用该流量分类模型进行流量分类时，能够提高流量分类结果的准确率。

对于流量分类模型训练设备、流量分类服务器以及机器可读存储介质实施例而言，由于其涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、流量分类模型训练设备、流量分类服务器以及机器可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种流量分类模型建立方法，其特征在于，所述方法包括：

获取样本流量集，所述样本流量集中包括多个样本流量；

基于针对所述各样本流量划分的簇，建立流量分类模型。

2.根据权利要求1所述的方法，其特征在于，所述局部密度参数还包括局部密度阈值；

所述根据所述每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇，包括：

基于所述聚类中心及所述聚类半径，创建簇。

3.根据权利要求2所述的方法，其特征在于，在所述根据所述每两个样本流量的行为特征向量之间的距离及所述截断距离，计算所述各样本流量的局部密度之后，所述方法还包括：

所述根据所述各样本流量的局部密度，确定局部密度大于所述局部密度阈值的样本流量为聚类中心，包括：

4.根据权利要求1所述的方法，其特征在于，在所述基于针对所述各样本流量划分的簇，建立流量分类模型之后，所述方法还包括：

接收携带有标记类型的流量；

提取所述流量的行为特征向量；

将所述流量的行为特征向量输入所述流量分类模型，确定所述流量的类型；

判断所述类型与所述标记类型是否相同；

若不相同，则调整所述局部密度参数，并根据调整后的所述局部密度参数，重新执行所述根据所述每两个样本流量的行为特征向量之间的距离及局部密度参数，将所述样本流量集中与第一样本流量的行为特征向量之间的距离小于截断距离的其他样本流量归为与所述第一样本流量同簇；

基于重新划分的簇，更新所述流量分类模型。

5.一种流量分类方法，其特征在于，所述方法包括：

获取待分类流量的行为特征向量；

6.一种流量分类模型建立装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述局部密度参数还包括局部密度阈值；

所述划分模块，具体用于：

基于所述聚类中心及所述聚类半径，创建簇。

8.根据权利要求7所述的装置，其特征在于，所述划分模块，还用于：

所述划分模块在用于根据所述各样本流量的局部密度，确定局部密度大于所述局部密度阈值的样本流量为聚类中心时，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收携带有标记类型的流量；

提取模块，用于提取所述流量的行为特征向量；

判断模块，用于判断所述类型与所述标记类型是否相同；

10.一种流量分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类流量的行为特征向量；

11.一种流量分类模型训练设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：执行权利要求1-4任一项所述的方法。

12.一种流量分类服务器，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：执行权利要求5所述的方法。