CN114513473A

CN114513473A - 一种流量类别检测方法、装置及设备

Info

Publication number: CN114513473A
Application number: CN202210294061.8A
Authority: CN
Inventors: 饶思哲
Original assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Current assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-05-17
Anticipated expiration: 2042-03-24
Also published as: CN114513473B

Abstract

本申请提供一种流量类别检测方法、装置及设备，该方法包括：获取M个类别的数据流对应的多个流量特征向量，M为大于1的正整数；针对每个流量特征向量，确定该流量特征向量对应的覆盖比例矩阵；基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组，每个聚类组均包括多个流量特征向量；基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别；基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型；其中，所述目标分类模型用于检测待处理数据对应的实际类别。通过本申请的技术方案，有效提升类别的识别正确率。

Description

一种流量类别检测方法、装置及设备

技术领域

本申请涉及通信技术领域，尤其涉及一种流量类别检测方法、装置及设备。

背景技术

随着科学技术的不断进步，类别种类越来越多，在网络带宽有限的情况下，需要保证重要类别的稳定性，即对不同类别进行带宽限制。例如，在工作环境中，语音类别的数据流应该给予更高优先级，使语音类别占用更多的网络带宽，而游戏类别的数据流应该给予更低优先级，使游戏类别占用更少的网络带宽。

为了实现上述功能，需要基于类别识别技术来分析数据流的类别，继而对不同类别的数据流进行带宽限制。为了分析数据流的类别，则可以采用DPI（Deep PacketInspection，深度包检测）技术或者DFI（Deep/Dynamic Flow Inspection，深度/动态流检测）技术。DPI技术是基于数据流的载荷内容分析数据流的类别，而DFI技术是基于数据流的流量特征分析数据流的类别。

由于DPI技术需要基于数据流的载荷内容分析数据流的类别，即需要对数据包的载荷内容进行解析，导致类别的识别效率很差。DFI技术虽然不需要对数据包的载荷内容进行解析，但是，由于不同类别的数据流的流量特征会存在重叠，从而导致无法准确识别数据流的类别。比如说，视频直播的数据流的流量特征与VoIP语音的数据流的流量特征存在重叠，那么，无法基于流量特征区分出数据流是视频直播的数据流，还是VoIP语音的数据流。

发明内容

有鉴于此，本申请提供了一种流量类别检测方法、装置及设备，用以解决现有技术中，无法准确识别数据流的类别的问题。

第一方面，本申请提供一种流量类别检测方法，所述方法包括：

获取M个类别的数据流对应的多个流量特征向量，M为大于1的正整数；

针对每个流量特征向量，确定该流量特征向量对应的覆盖比例矩阵；

基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组，每个聚类组均包括多个流量特征向量；

基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别；

基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型；其中，所述目标分类模型用于检测待处理数据对应的实际类别。

第二方面，本申请提供一种流量类别检测装置，所述装置包括：

获取模块，用于获取M个类别的数据流对应的多个流量特征向量；

确定模块，用于针对每个流量特征向量，确定该流量特征向量对应的覆盖比例矩阵；

聚类模块，用于基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组，每个聚类组均包括多个流量特征向量；

处理模块，用于基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别；

训练模块，用于基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型；所述目标分类模型用于检测待处理数据对应的实际类别。

第三方面，本申请提供一种流量类别检测设备，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现上述流量类别检测方法。

由以上技术方案可见，本申请实施例中，可以基于流量特征向量对应的覆盖比例矩阵对所有流量特征向量进行聚类，得到多个聚类组，并基于聚类组对应的重叠属性对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别，这样，可以基于流量特征向量对应的目标类别训练得到目标分类模型，提高目标分类模型的可靠性，基于该目标分类模型能够准确识别数据流的类别。在上述方式中，是基于覆盖比例矩阵对类别进行矫正，即对训练数据（如流量特征向量和该流量特征向量的类别）进行处理后再建模，从而有效提升类别的识别正确率，提高类别的识别准确性，能够解决优化类重叠引起正确率低的问题，即优化解决分类问题中的类重叠问题。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其他的附图。

图1是本申请一种实施方式中的流量类别检测方法的流程示意图；

图2是本申请一种实施方式中的覆盖比例曲线的示意图；

图3是本申请一种实施方式中的流量类别检测方法的流程示意图；

图4是本申请一种实施方式中的流量类别检测装置的结构示意图；

图5是本申请一种实施方式中的流量类别检测设备的硬件结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在网络带宽有限的情况下，需要保证重要类别的稳定性，即对不同类别进行带宽限制。例如，语音类别的数据流应该给予更高优先级，使语音类别占用更多的网络带宽，而游戏类别的数据流应该给予更低优先级，使游戏类别占用更少的网络带宽。为了实现上述功能，需要基于类别识别技术来分析数据流的类别，继而对不同类别的数据流进行带宽限制。为了分析数据流的类别，可以采用DPI技术或者DFI技术。DPI技术是基于数据流的载荷内容分析数据流的类别，而DFI技术是基于数据流的流量特征分析数据流的类别。

由于DPI技术需要基于数据流的载荷内容分析数据流的类别，即需要对数据包的载荷内容进行解析，导致类别的识别效率很差。DFI技术通过提取数据流的流量特征来进行识别，相比DPI技术来说，DFI技术不需要对数据包的载荷内容进行解析，不仅仅提升了类别识别的效率，还将类别识别成功拓展到加密报文的类别识别，覆盖范围更大，从而使得DFI技术被广泛使用。

DFI技术虽然不需要对数据包的载荷内容进行解析，但是，由于DFI技术需要提取数据流的流量特征，且不同类别的数据流的流量特征会存在重叠，从而导致无法准确识别数据流的类别，类别识别的准确度较低。

比如说，针对某些应用（一种应用可能对应多种类别，也可能只对应一种类别）来说，这些应用对应以下类别的数据流：VoIP语音类别、视频直播类别、视频会议类别、长视频点播类别、短视频点播类别、文件传输类别、游戏类别、远程桌面类别、Web类别、在线协同办公类别、知名端口协议类别。对于上述类别的数据流来说，不可避免的会存在特征重叠，如视频直播类别的数据流的流量特征与VoIP语音类别的数据流的流量特征存在重叠，那么，就无法基于流量特征区分出数据流是视频直播类别的数据流，还是VoIP语音类别的数据流。

针对上述发现，本申请实施例中提出一种流量类别检测方法，可以基于流量特征向量对应的覆盖比例矩阵对所有流量特征向量进行聚类，得到多个聚类组，并基于聚类组对应的重叠属性对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别，从而基于覆盖比例矩阵对训练数据进行处理后再建模，有效提升数据流的类别识别正确率。

以下结合具体实施例，对本申请实施例的技术方案进行说明。

本申请实施例中提出一种流量类别检测方法，参见图1所示，为该流量类别检测方法的流程示意图，该方法可以应用于任意设备，该方法可以包括：

步骤101、获取M个类别的数据流对应的多个流量特征向量，M为大于1的正整数，针对每个类别，可以获取该类别的数据流对应的多个流量特征向量。

示例性的，M个类别可以是2个类别、3个类别、4个类别等，对此不做限制，是流量特征存在重叠的M个类别。比如说，类别A和类别B的流量特征存在重叠，将类别A和类别B作为M个类别，采用本申请实施例的技术方案，对类别A和类别B的数据流进行类别检测。又例如，类别A、类别B和类别C的流量特征存在重叠，将类别A、类别B和类别C作为M个类别，采用本申请实施例的技术方案，对类别A、类别B和类别C的数据流进行类别检测。为了方便描述，本实施例中以M个类别是2个类别为例，即M个类别包括类别A和类别B，如类别A可以是VoIP语音类别，类别B可以是视频直播类别。

示例性的，在某个实验环境下，每次开启一种类别的业务，并捕获这种类别的业务对应的数据包（数据包也就是一个数据报文），并为该数据包标记该类别。比如说，先开启VoIP语音类别的业务，并捕获这种类别的业务对应的数据包，并为这些数据包标记VoIP语音类别。然后，开启视频直播类别的业务，并捕获这种类别的业务对应的数据包，并为这些数据包标记视频直播类别。

针对VoIP语音类别，在获取到大量数据包之后，可以根据五元组对这些数据包进行划分，相同五元组的数据包合并为一组数据流。其中，五元组可以包括源IP、源端口、目的IP、目的端口、协议类型，若存在五元组A和五元组B，协议一致，但五元组A的源IP为五元组B的目的IP，五元组A的目的IP为五元组B的源IP，五元组A的源端口为五元组B的目的端口，五元组A的目的端口为五元组B的源端口，那么，判定五元组A和五元组B是同一个五元组的正反向流，将五元组A和五元组B合并为同一个五元组，看作一条数据流。

针对每个五元组对应的数据流，若该数据流对应的持续时长在预设时长（如5秒）内，和/或，该数据流对应的数据包总数量在预设数量（如30）下，则说明该数据流是微小流量，需要过滤该数据流，即将该数据流直接过滤剔除，不参与后续处理，否则，说明该数据流不是微小流量，参与后续处理。

示例性的，针对过滤后的每一条数据流，可以获取该数据流对应的流量特征向量，如按照预设时间窗（如每15秒为一个时间窗）对该数据流进行切割，得到N（N大于或等于1）个子数据流，对每一个子数据流进行特征提取，得到该子数据流对应的流量特征向量，即该数据流对应N个流量特征向量。

在对子数据流进行特征提取，得到子数据流对应的流量特征向量时，流量特征向量可以包括但不限于以下至少一种：双向包长度的统计特征、双向包载荷的统计特征、总体包长的统计特征、数据包发送速率、数据包字节发送速率。

其中，双向包长度的统计特征可以包括但不限于以下至少一种：从源端到目的端的所有数据包长度的最大值、最小值、平均值和标准差，从目的端到源端的所有数据包长度的最大值、最小值、平均值和标准差。

其中，双向包载荷的统计特征可以包括但不限于以下至少一种：从源端到目的端的所有数据包的载荷长度的最大值、最小值、平均值和标准差，从目的端到源端的所有数据包的载荷长度的最大值、最小值、平均值和标准差。

其中，总体包长的统计特征可以包括但不限于以下至少一种：从源端到目的端的所有数据包的总数量，从目的端到源端的所有数据包的总数量，源端到目的端的所有数据包的总数量与目的端到源端的所有数据包的总数量之和。

其中，数据包发送速率可以包括但不限于以下至少一种：从源端到目的端的所有数据包的平均发送速率、从目的端到源端的所有数据包的平均发送速率、源端到目的端的所有数据包和目的端到源端的所有数据包的平均发送速率。

其中，数据包字节发送速率可以包括但不限于以下至少一种：从源端到目的端的所有数据包字节的平均发送速率、从目的端到源端的所有数据包字节的平均发送速率、两个方向的所有数据包字节的平均发送速率。

综上所述，针对VoIP语音类别的每一条数据流，可以得到该数据流对应的多个流量特征向量，且每个流量特征向量均标记为VoIP语音类别。同理，可以得到视频直播类别的数据流，针对视频直播类别的每一条数据流，可以得到该数据流对应的多个流量特征向量，且每个流量特征向量均标记为视频直播类别。

综上所述，可以收集VoIP语音类别对应的训练数据，该训练数据包括VoIP语音类别对应的多个流量特征向量和这些流量特征向量对应的标签，即VoIP语音类别，并收集视频直播类别对应的训练数据，该训练数据包括视频直播类别对应的多个流量特征向量和这些流量特征向量对应的标签，即视频直播类别。

示例性的，可以将VoIP语音类别对应的训练数据作为正样本，将视频直播类别对应的训练数据作为负样本，或者，也可以将视频直播类别对应的训练数据作为正样本，将VoIP语音类别对应的训练数据作为负样本。为了方便描述，在后续实施例中，以VoIP语音类别对应的训练数据作为正样本为例。

步骤102、针对每个流量特征向量，确定该流量特征向量对应的覆盖比例矩阵，该覆盖比例矩阵可以包括k个覆盖比例值，k为大于1的正整数；其中，每个覆盖比例值是基于该流量特征向量对应的目标流量特征向量对应的类别确定。

在一种可能的实施方式中，针对已配置的k个邻近值中的每个邻近值，可以基于该流量特征向量与其它流量特征向量的距离，从其它流量特征向量中选取该邻近值个流量特征向量作为目标流量特征向量。基于所有目标流量特征向量对应的类别确定初始类别的数量，基于初始类别的数量和该邻近值确定该邻近值对应的覆盖比例值；其中，初始类别是M个类别中的任一类别。然后，基于k个邻近值对应的覆盖比例值确定该流量特征向量对应的覆盖比例矩阵，也就是说，该覆盖比例矩阵可以包括k个邻近值对应的覆盖比例值。

比如说，以VoIP语音类别对应的某个流量特征向量a1为例，k个邻近值可以是500个邻近值，分别是邻近值1、邻近值2、邻近值3...、邻近值500，当然，500个邻近值只是k个邻近值的一个示例，本实施例中对此不做限制。

针对邻近值500，可以基于流量特征向量a1与除流量特征向量a1之外的每个流量特征向量（VoIP语音类别和视频直播类别对应的所有流量特征向量）之间的距离，如欧式距离，从这些流量特征向量中选取500个流量特征向量作为目标流量特征向量，如距离小的500个流量特征向量作为目标流量特征向量。

初始类别可以是正样本对应的类别，即初始类别是VoIP语音类别，因此，基于 500个目标流量特征向量对应的类别，可以统计VoIP语音类别的数量，并基于VoIP语音类别的数量和该邻近值500确定该邻近值500对应的覆盖比例值。

参见公式（1）所示，是确定覆盖比例值的示例，M _ik表示覆盖比例值，

表示邻近值，在该例子中，

的取值是500，

表示VoIP语音类别的数量，显然，VoIP语音类别的数量可以小于或者等于500。

公式（1）

针对邻近值499，可以基于流量特征向量a1与除流量特征向量a1之外的每个流量特征向量之间的距离，选取499个流量特征向量作为目标流量特征向量，基于499个目标流量特征向量对应的类别，可以统计VoIP语音类别的数量，并基于VoIP语音类别的数量和邻近值499确定邻近值499对应的覆盖比例值。

以此类推，可以得到流量特征向量a1对应的500个覆盖比例值，在此基础上，就可以将500个覆盖比例值组成流量特征向量a1对应的覆盖比例矩阵。

又例如，以视频直播类别对应的某个流量特征向量b1为例，针对邻近值500，可以基于流量特征向量b1与除流量特征向量b1之外的每个流量特征向量之间的距离，从这些流量特征向量中选取500个流量特征向量作为目标流量特征向量。基于 500个目标流量特征向量对应的类别，可以统计VoIP语音类别的数量，并基于VoIP语音类别的数量和邻近值500确定邻近值500对应的覆盖比例值。以此类推，可以得到流量特征向量b1对应的500个覆盖比例值，在此基础上，就可以将500个覆盖比例值组成流量特征向量b1对应的覆盖比例矩阵。

综上可以看出，针对每个流量特征向量，可以确定该流量特征向量对应的覆盖比例矩阵，且该覆盖比例矩阵可以包括500个覆盖比例值。

步骤103、针对每个流量特征向量，基于该流量特征向量对应的覆盖比例矩阵确定该流量特征向量对应的覆盖比例曲线。示例性的，该覆盖比例矩阵包括k个邻近值对应的覆盖比例值，对于该覆盖比例矩阵，该覆盖比例曲线的横坐标是邻近值，该覆盖比例曲线的纵坐标是该邻近值对应的覆盖比例值。

示例性的，基于流量特征向量对应的覆盖比例矩阵，可以将该覆盖比例矩阵的邻近值作为横坐标，将该邻近值对应的覆盖比例值作为纵坐标，得到该流量特征向量对应的覆盖比例曲线，参见图2所示，为该覆盖比例曲线的示例。

在图2中，横坐标的取值依次是1、2、3、...、499、500，横坐标1对应的纵坐标是邻近值1对应的覆盖比例值，横坐标2对应的纵坐标是邻近值2对应的覆盖比例值，以此类推，横坐标500对应的纵坐标是邻近值500对应的覆盖比例值，这样，就可以得到该覆盖比例曲线。显然，基于公式（1）可知，覆盖比例值的取值范围是0-1，因此，该覆盖比例曲线的纵坐标的取值范围是0-1。

步骤104、基于所有流量特征向量对应的覆盖比例曲线对所有流量特征向量进行聚类，得到多个聚类组，每个聚类组可以包括多个流量特征向量。

示例性的，为了对所有流量特征向量进行聚类，可以采用如下步骤：

步骤1041、针对每个覆盖比例曲线，可以确定该覆盖比例曲线对应的时域指标（time-domain factor），并基于该时域指标确定该覆盖比例曲线对应的曲线特征，比如说，可以将该时域指标作为该覆盖比例曲线对应的曲线特征。

在一种可能的实施方式中，时域指标可以包括但不限于以下至少一种：波形指标（shape factor）、脉冲指标（impulse factor）、裕度指标（clearance factor）、峰值指标（crest factor）、偏度指标（skewness factor）、峰度指标（kurtosis factor）；当然，上述6种指标只是时域指标的几个示例，对此时域指标的类型不做限制。

可选的，在一种可能的实施方式中，针对每个覆盖比例曲线来说，可以采用如下公式确定该覆盖比例曲线对应的shape factor、impulse factor、clearance factor、crestfactor、skewness factor、kurtosis factor等6个时域指标。

mean = sequence.mean()

std = sequence.std()

rms = math.sqrt(pow(mean, 2) + pow(std, 2))

peak_max = sequence.max()

shape_factor = rms / abs(sequence).mean()

impulse_factor = peak_max / abs(sequence).mean()

clearance_factor = peak_max / pow(sum/len(sequence)，2)

crest_factor = peak_max / rms

skewness_factor = sequence.skew()

kurtosis_factor = sequence.kurt()

在上述公式中，mean表示该覆盖比例曲线对应的所有覆盖比例值（如500个覆盖比例值）的平均值，std表示该覆盖比例曲线对应的所有覆盖比例值的标准差，rms表示该覆盖比例曲线对应的所有覆盖比例值的均方根，peak_max表示该覆盖比例曲线对应的所有覆盖比例值的最大值。基于上述平均值mean、标准差std、均方根rms和最大值peak_max，具有可以计算6个时域指标。

针对波形指标（shape factor），可以基于均方根rms和平均值mean确定，参见上述公式，abs(sequence).mean()表示所有覆盖比例值的绝对值的平均值。针对脉冲指标（impulse factor），可以基于最大值peak_max和平均值mean确定，参见上述公式，abs(sequence).mean()表示所有覆盖比例值的绝对值的平均值。针对裕度指标（clearancefactor），可以基于最大值peak_max确定，参见上述公式，pow(sum/len(sequence)，2)表示（所有覆盖比例值的和除以所有覆盖比例值的数量）的平方，如（500个覆盖比例值的和除以500）的平方。针对峰值指标（crest factor），可以基于最大值peak_max和均方根rms确定，参见上述公式。

针对偏度指标（skewness factor），可以预先配置偏度指标的函数关系，对于覆盖比例曲线来说，可以基于该函数关系计算该覆盖比例曲线对应的偏度指标，本实施例中对此偏度指标的函数关系不做限制，可以根据经验进行配置。

针对峰度指标（kurtosis factor），可以预先配置峰度指标的函数关系，对于覆盖比例曲线来说，可以基于该函数关系计算该覆盖比例曲线对应的峰度指标，本实施例中对此峰度指标的函数关系不做限制，可以根据经验进行配置。

综上所述，针对每个覆盖比例曲线，可以得到该覆盖比例曲线对应的时域指标，并将该时域指标确定为该覆盖比例曲线对应的曲线特征。

步骤1042、基于每个覆盖比例曲线对应的曲线特征，确定任意两个曲线特征之间的距离，基于任意两个曲线特征之间的距离生成距离矩阵。

示例性的，在得到每个覆盖比例曲线对应的曲线特征之后，可以计算曲线特征之间的距离（欧氏距离），得到距离矩阵。比如说，假设有N个覆盖比例曲线，则得到N个曲线特征，基于N个曲线特征之间的距离，可以得到距离矩阵，该距离矩阵的大小为N*N。针对该距离矩阵中第一行的N个距离，第1个距离是第1个覆盖比例曲线对应的曲线特征与第1个覆盖比例曲线对应的曲线特征之间的距离，第2个距离是第1个覆盖比例曲线对应的曲线特征与第2个覆盖比例曲线对应的曲线特征之间的距离，...，第N个距离是第1个覆盖比例曲线对应的曲线特征与第N个覆盖比例曲线对应的曲线特征之间的距离。针对该距离矩阵中第二行的N个距离，第1个距离是第2个覆盖比例曲线对应的曲线特征与第1个覆盖比例曲线对应的曲线特征之间的距离，第2个距离是第2个覆盖比例曲线对应的曲线特征与第2个覆盖比例曲线对应的曲线特征之间的距离，...，第N个距离是第2个覆盖比例曲线对应的曲线特征与第N个覆盖比例曲线对应的曲线特征之间的距离，以此类推，其它行的距离不再赘述。

步骤1043、基于距离矩阵（距离矩阵包括N*N个距离），采用Ward连接对所有流量特征向量（即N个流量特征向量）进行层次聚类，得到多个聚类组，如采用Ward连接对所有流量特征向量采用自底向上的层次聚类。

示例性的，假设存在N个流量特征向量，每个流量特征向量对应一个覆盖比例曲线，那么，该流量特征向量就对应距离矩阵中某一行的N个距离，例如，第1个流量特征向量对应距离矩阵中第一行的N个距离，第2个流量特征向量对应距离矩阵中第二行的N个距离，...，第N个流量特征向量对应距离矩阵中第N行的N个距离。在此基础上，基于该距离矩阵，可以采用层次聚类算法对N个流量特征向量进行聚类，得到多个聚类组，本实施例中对此层次聚类算法不做限制，只要能够完成N个流量特征向量的聚类，得到多个聚类组即可。

示例性的，层次聚类的连接方式可以包括但不限于Single连接、Complete连接、Average连接、Weighted连接、Centroid连接、Median连接、Ward连接，因此，可以采用Single连接对所有流量特征向量进行层次聚类，或者，采用Complete连接对所有流量特征向量进行层次聚类，或者，采用Average连接对所有流量特征向量进行层次聚类，或者，采用Weighted连接对所有流量特征向量进行层次聚类，或者，采用Centroid连接对所有流量特征向量进行层次聚类，或者，采用Median连接对所有流量特征向量进行层次聚类，或者，采用Ward连接对所有流量特征向量进行层次聚类。为了方便描述，本申请实施例中，以用Ward连接对所有流量特征向量进行层次聚类，得到多个聚类组为例。

综上所述，可以基于覆盖比例曲线对应的时域指标确定覆盖比例曲线对应的曲线特征，并通过覆盖比例曲线对应的曲线特征对流量特征向量进行层次聚类，基于曲线特征进行聚类的方式，能够降低聚类复杂度，降低计算复杂度。

示例性的，除了步骤1041-步骤1043的聚类方式，基于所有流量特征向量对应的覆盖比例曲线，在实际应用中，也可以采用其它聚类方式对所有流量特征向量进行聚类，得到多个聚类组。比如说，在得到所有曲线特征（如波形指标、脉冲指标、裕度指标、峰值指标、偏度指标、峰度指标）之后，可以基于KNN、GMM、KMeans、FCM等聚类方法，对所有流量特征向量进行聚类，而不是采用层次聚类对所有流量特征向量进行聚类。又例如，可以直接计算曲线距离（如Euclidean Distance、或Shape-Based Distance、或Dynamic Time WarpingDistance），在曲线距离的基础上采用层次聚类对所有流量特征向量进行聚类，而不是基于时域指标确定曲线特征，并基于曲线特征确定取曲线距离。

至此，完成步骤104，将所有流量特征向量划分为多个聚类组，且每个聚类组可以包括多个流量特征向量，基于这些聚类组执行后续步骤。

步骤105、针对每个聚类组，基于该聚类组内每个流量特征向量对应的覆盖比例矩阵确定该聚类组对应的置信度。比如说，可以基于该聚类组内每个流量特征向量对应的覆盖比例矩阵确定该聚类组对应的重叠均值（重叠均值可以记为overlap_mean），并基于该聚类组对应的重叠均值确定该聚类组对应的置信度。

示例性的，针对该聚类组内的每个流量特征向量，该流量特征向量对应覆盖比例矩阵或者覆盖比例曲线，该覆盖比例矩阵或者覆盖比例曲线可以包括k个覆盖比例值，可以从k个覆盖比例值中选取部分或者全部覆盖比例值，如选取邻近值是101-400的部分覆盖比例值，可以计算这些选取的覆盖比例值的均值，记为覆盖比例均值，即得到该流量特征向量对应的覆盖比例均值。

然后，基于该聚类组内的所有流量特征向量对应的覆盖比例均值，可以计算这些覆盖比例均值的平均值，这个平均值作为该聚类组对应的重叠均值。

参见公式（2）所示，是计算该聚类组对应的重叠均值的一个示例。

公式（2）

在公式（2）中，

表示该聚类组对应的重叠均值，n表示该聚类组内的流量特征向量的总数量，当i为1时，表示该聚类组内的第1个流量特征向量，当i为2时，表示该聚类组内的第2个流量特征向量，以此类推。

300表示针对每个流量特征向量选取的覆盖比例值的总数量，如选取邻近值是101-400的覆盖比例值时，就表示针对流量特征向量选取300个覆盖比例值。

表示第i个流量特征向量对应的邻近值是k的覆盖比例值，比如说，当i为1，k为101时，表示第1个流量特征向量对应的邻近值是101的覆盖比例值，当i为1， k为300时，表示第1个流量特征向量对应的邻近值是300的覆盖比例值，当i为2，k为300时，表示第2个流量特征向量对应的邻近值是300的覆盖比例值，以此类推，k的取值范围是101- 400。

示例性的，在得到该聚类组对应的重叠均值之后，可以采用公式（3）确定该聚类组对应的置信度，该置信度可以记为conf。当然，公式（3）只是一个示例，本实施例中对此置信度的确定方式不做限制，以公式（3）为例。

公式（3）

在公式（3）中，

是预设数值，可以根据经验进行配置，比如说，在对正负样本一视同仁，不存在重要程度差距时，

的取值可以为0，若正样本比负样本更加重要时，

的取值可以为(0, 0.25]之间的实数，若负样本比正样本更加重要时，

的取值可以为[- 0.25, 0)之间的实数。综上所述，可以根据正样本和负样本的重要程度，设置

的取值，本实施例中对此

的取值不做限制。

综上所述，针对每个聚类组，可以确定该聚类组对应的置信度。

步骤106、根据聚类组对应的置信度确定该聚类组对应的重叠属性。

在一种可能的实施方式中，可以将重叠属性划分为重叠区域和非重叠区域等两种重叠属性，若聚类组对应的置信度大于预设阈值，则确定该聚类组对应的重叠属性是非重叠区域，若聚类组对应的置信度不大于预设阈值，则确定该聚类组对应的重叠属性是重叠区域。其中，该预设阈值可以根据经验配置，对此不做限制，如0.1等，因此，若置信度大于0.1，则确定该聚类组对应的重叠属性是非重叠区域，反之，确定该聚类组对应的重叠属性是重叠区域。

在另一种可能的实施方式中，可以将重叠属性划分为确信重叠、轻微重叠、清晰分割等三种重叠属性，若聚类组对应的置信度小于第一阈值，则确定该聚类组对应的重叠属性是确信重叠，若聚类组对应的置信度不小于第一阈值且不大于第二阈值，则确定该聚类组对应的重叠属性是轻微重叠，若聚类组对应的置信度大于第二阈值，则确定该聚类组对应的重叠属性是清晰分割。

其中，第一阈值和第二阈值可以根据经验配置，对此不做限制，且该第一阈值可以小于该第二阈值，如第一阈值为0.1，第二阈值为0.2，因此，若置信度小于0.1，则确定该聚类组对应的重叠属性是确信重叠（确信重叠也可以称为确信重叠区域），若置信度位于0.1-0.2之间，则确定该聚类组对应的重叠属性是轻微重叠（轻微重叠也可以称为轻微重叠区域），若置信度大于0.2，则确定该聚类组对应的重叠属性是清晰分割（清晰分割也可以称为清晰分割区域）。

当然，在实际应用中，还可以将重叠属性划分为四种重叠属性或者更多的重叠属性，对此不做限制，为了方便描述，在后续实施例中，以将重叠属性划分为确信重叠、轻微重叠、清晰分割等三种重叠属性为例进行说明。

综上所述，针对每个聚类组，可以确定该聚类组对应的重叠属性，该聚类组对应的重叠属性可能为确信重叠、或者轻微重叠、或者清晰分割。

步骤107、基于每个聚类组对应的重叠属性对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别。

在一种可能的实施方式中，对于重叠属性是清晰分割的聚类组，对该聚类组内的各流量特征向量对应的正常类别保持不变，对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注，得到各流量特征向量对应的目标类别。

示例性的，可以先基于该聚类组对应的置信度确定该聚类组属于正样本或负样本；若该聚类组属于正样本，则将与正样本匹配的类别确定为正常类别，将不与正样本匹配的类别确定为错误类别，并对错误类别进行剔除或重标注；若该聚类组属于负样本，则将与负样本匹配的类别确定为正常类别，将不与负样本匹配的类别确定为错误类别，并对错误类别进行剔除或重标注。

其中，对于重叠属性是清晰分割的聚类组，可以基于该聚类组对应的置信度确定该聚类组属于正样本或负样本，比如说，若对该聚类组对应的置信度进行绝对值运算之前是正值，则确定该聚类组属于负样本，若对该聚类组对应的置信度进行绝对值运算之前是负值，则确定该聚类组属于正样本。

如公式（3）所示，关于聚类组对应的置信度计算公式，若

是正值，则确定该聚类组属于负样本，若

是负值，则确定该聚类组属于正样本。

本实施例中，可以将VoIP语音类别对应的训练数据作为正样本，并将视频直播类别对应的训练数据作为负样本，因此，若该聚类组属于正样本，则表示VoIP语音类别是正常类别，视频直播类别是错误类别，若该聚类组属于负样本，则表示视频直播类别是正常类别，VoIP语音类别是错误类别。

显然，若该聚类组属于正样本，针对该聚类组内的每个流量特征向量，若该流量特征向量对应的类别是VoIP语音类别，则该流量特征向量对应的是正常类别，保持该流量特征向量对应的VoIP语音类别不变，即，该流量特征向量对应的目标类别仍然是VoIP语音类别。若该流量特征向量对应的类别是视频直播类别，则该流量特征向量对应的是错误类别，对该流量特征向量对应的视频直播类别进行剔除或重标注，得到该流量特征向量对应的目标类别。

其中，对该流量特征向量对应的视频直播类别进行重标注是指，将该流量特征向量对应的视频直播类别重标注为正常类别，即视频直播类别被重标注为VoIP语音类别，使得该流量特征向量对应的目标类别是VoIP语音类别。

其中，对该流量特征向量对应的视频直播类别进行剔除是指，将该流量特征向量和该流量特征向量对应的视频直播类别删除，不参与后续训练过程。

此外，若该聚类组属于负样本，针对该聚类组内的每个流量特征向量，若该流量特征向量对应的类别是视频直播类别，则该流量特征向量对应的是正常类别，保持该流量特征向量对应的视频直播类别不变，即，该流量特征向量对应的目标类别仍然是视频直播类别。若该流量特征向量对应的类别是VoIP语音类别，则该流量特征向量对应的是错误类别，对该流量特征向量对应的VoIP语音类别进行剔除或重标注，得到该流量特征向量对应的目标类别。

综上所述，对于重叠属性是清晰分割的聚类组（可以是一个聚类组，也可以是多个聚类组），可以得到该聚类组内的每个流量特征向量对应的目标类别。

在一种可能的实施方式中，对于重叠属性是轻微重叠的聚类组，对该聚类组内的各流量特征向量对应的正常类别保持不变，对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注，得到各流量特征向量对应的目标类别。

其中，对于重叠属性是轻微重叠的聚类组，可以基于该聚类组对应的置信度确定该聚类组属于正样本或负样本，确定方式参见清晰分割，在此不再赘述。

其中，若该聚类组属于正样本，则表示VoIP语音类别是正常类别，视频直播类别是错误类别，针对该聚类组内的每个流量特征向量，若该流量特征向量对应的类别是VoIP语音类别，则保持该流量特征向量对应的VoIP语音类别不变，若该流量特征向量对应的类别是视频直播类别，则对该流量特征向量对应的视频直播类别进行剔除或重标注，得到该流量特征向量对应的目标类别。

其中，若该聚类组属于负样本，则表示视频直播类别是正常类别，VoIP语音类别是错误类别，针对该聚类组内的每个流量特征向量，若该流量特征向量对应的类别是视频直播类别，则保持该流量特征向量对应的视频直播类别不变，若该流量特征向量对应的类别是VoIP语音类别，对该流量特征向量对应的VoIP语音类别进行剔除或重标注，得到该流量特征向量对应的目标类别。

综上所述，对于重叠属性是轻微重叠的聚类组（可以是一个聚类组，也可以是多个聚类组），可以得到该聚类组内的每个流量特征向量对应的目标类别。

在一种可能的实施方式中，对于重叠属性是确信重叠的聚类组，对该聚类组内的各流量特征向量对应的类别保持不变，得到各流量特征向量对应的目标类别，即，不需要对确信重叠的聚类组内流量特征向量对应的类别进行调整。

参见表1所示，示出了10个聚类组，聚类组0-聚类组5的重叠属性是清晰分割，聚类组6和聚类组7的重叠属性是轻微重叠，聚类组8和聚类组9的重叠属性是确信重叠，这10个聚类组的相关数据可以参见表1所示。

表1

参见表1所示，聚类组0内存在941个流量特征向量，926个流量特征向量对应的类别是VoIP语音类别，15个流量特征向量对应的类别是视频直播类别（即VC类别），针对聚类组0，若VoIP语音类别是正常类别，视频直播类别是错误类别，则将这15个流量特征向量对应的视频直播类别修改为VoIP语音类别，即“重标注”操作，这样，941个流量特征向量均对应VoIP语音类别。

针对聚类组1，48个流量特征向量对应的类别是VoIP语音类别，4076个流量特征向量对应的类别是视频直播类别，若视频直播类别是正常类别，VoIP语音类别是错误类别，将这48个流量特征向量对应的VoIP语音类别修改为视频直播类别，即“重标注”操作，4124个流量特征向量均对应视频直播类别。

针对聚类组4，31个流量特征向量对应的类别是VoIP语音类别，22个流量特征向量对应的类别是视频直播类别，若视频直播类别是正常类别，VoIP语音类别是错误类别，将这31个流量特征向量对应的VoIP语音类别修改为视频直播类别，即“重标注”操作，53个流量特征向量均对应视频直播类别。

针对聚类组5，9个流量特征向量对应的类别是VoIP语音类别，318个流量特征向量对应的类别是视频直播类别，若视频直播类别是正常类别，VoIP语音类别是错误类别，将9个流量特征向量对应的VoIP语音类别去除，即“剔除”操作，318个流量特征向量对应视频直播类别，9个流量特征向量不参与训练。

参见表1所示，聚类组0-聚类组5的重叠属性是清晰分割，聚类组6和聚类组7的重叠属性是轻微重叠，需要对聚类组0-聚类组7内的流量特征向量对应的类别进行处理，而聚类组8和聚类组9的重叠属性是确信重叠，不需要对聚类组8和聚类组9对应的类别进行处理，保持类别不变。比如说，针对聚类组8，46个流量特征向量对应的类别是VoIP语音类别，113个流量特征向量对应的类别是视频直播类别，不对这些流量特征向量对应的类别进行调整。

在上述实施例中，“剔除”是指剔除错误类别的全部数据，比如说，针对聚类组0（cluster0）来说，VoIP语音类别是正常类别，视频直播类别是错误类别，因此，可以将15个视频直播类别的流量特征向量全部剔除掉。

“重标注”是指将错误类别重标注为正常类别，比如说，针对聚类组0（cluster0）来说，VoIP语音类别是正常类别，视频直播类别是错误类别，因此，可以将15个流量特征向量的视频直播类别重标注为VoIP语音类别。

示例性的，重标注有两种方式可以选择，一种是将错误类别的数据根据类别归属重新标注（负->正，或者，正->负），另一种是结合样本本身的特征只重新标注一个方向（如视频直播类别包含VoIP语音类别，所以仅重标注负->正）。

比如说，在仅重新标注一个方向时，可以将另一个方向错误标注的数据剔除，例如，将聚类组6（cluster6）中的视频直播类别标注为VoIP语音类别，但是，不将聚类组7（cluster7）中的VoIP语音类别标注为视频直播类别，而是删除聚类组7（cluster7）中的VoIP语音类别的流量特征向量。

步骤108、基于流量特征向量和流量特征向量对应的目标类别训练得到目标分类模型；其中，该目标分类模型用于检测待处理数据对应的实际类别。

示例性的，可以构建训练数据集，该训练数据集包括流量特征向量和该流量特征向量对应的目标类别，即该目标类别作为该流量特征向量对应的标签，如目标类别是VoIP语音类别时，该流量特征向量对应的标签是VoIP语音类别，目标类别是视频直播类别时，该流量特征向量对应的标签是视频直播类别。

可以构建初始分类模型，该初始分类模型可以采用随机森林模型，也可以采用其它类型的机器学习分类模型，如logistic regression模型、KNN模型、SVM模型、NaïveBayes模型、XgBoost模型等，也可以采用深度学习的1D卷积层或全连接层、2D卷积层或全连接层，对此初始分类模型的类型不做限制。

在此基础上，可以基于该训练数据集对该初始分类模型进行训练，得到目标分类模型，本实施例中对此初始分类模型的训练过程不做限制。

在一种可能的实施方式中，可以采用如下方式训练得到目标分类模型：

方式1、采用Discarding方式（单步分类方式）训练得到目标分类模型。

在方式1中，需要构建训练数据集，训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，且流量特征向量对应的标签是该流量特征向量对应的目标类别，如目标类别是VoIP语音类别时，流量特征向量对应的标签是VoIP语音类别，目标类别是视频直播类别时，流量特征向量对应的标签是视频直播类别。在该训练数据集中，不包括重叠属性是轻微重叠的聚类组内的各流量特征向量，也不包括重叠属性是确信重叠的聚类组内的各流量特征向量。

在方式1中，需要构建初始分类模型，如随机森林模型等。

在此基础上，可以基于该训练数据集对该初始分类模型进行训练，得到目标分类模型，该目标分类模型用于检测待处理数据对应的实际类别。

显然，由于是基于流量特征向量和标签对初始分类模型进行训练，且标签是VoIP语音类别或者视频直播类别，因此，在得到目标分类模型之后，目标分类模型能够区分VoIP语音类别的数据包和视频直播类别的数据包，也就是说，可以将待处理数据对应的流量特征向量（流量特征向量的确定方式参见步骤101，在此不再重复赘述）输入给目标分类模型，由目标分类模型输出待处理数据对应的检测结果，基于该检测结果可以确定待处理数据对应的实际类别，该实际类别可以是VoIP语音类别，或者，该实际类别可以是视频直播类别。

方式2、采用Merging方式（两步分类模型组合方式）训练目标分类模型。

在方式2中，需要构建第一训练数据集和第二训练数据集，第一训练数据集可以包括重叠属性是清晰分割的聚类组内的各流量特征向量，且流量特征向量对应的标签是该流量特征向量对应的目标类别，如目标类别是VoIP语音类别时，流量特征向量对应的标签是VoIP语音类别，目标类别是视频直播类别时，流量特征向量对应的标签是视频直播类别。以及，第一训练数据集还可以包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且流量特征向量对应的标签是疑似类别，也就是说，无论目标类别是VoIP语音类别还是视频直播类别，该流量特征向量对应的标签均是疑似类别，表示无法确信类别。

第二训练数据集可以包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且流量特征向量对应的标签是该流量特征向量对应的目标类别，如目标类别是VoIP语音类别时，流量特征向量对应的标签是VoIP语音类别，目标类别是视频直播类别时，流量特征向量对应的标签是视频直播类别。

在方式2中，需要构建初始分类模型，如随机森林模型等。该初始分类模型可以包括第一初始子模型和第二初始子模型，第一初始子模型是三分类模型，即有三个分类结果，第二初始子模型是二分类模型，即有二个分类结果。

在此基础上，可以基于第一训练数据集对第一初始子模型进行训练，得到第一目标子模型。显然，由于是基于第一训练数据集中的流量特征向量和标签对第一初始子模型进行训练，且标签是VoIP语音类别、或者视频直播类别、或者疑似类别，因此，在得到第一目标子模型之后，第一目标子模型能够区分VoIP语音类别的数据包、视频直播类别的数据包和疑似类别的数据包，即，可以将待处理数据对应的流量特征向量输入给第一目标子模型，由第一目标子模型输出待处理数据对应的检测结果，基于该检测结果可以确定待处理数据对应的类别，该类别可以是VoIP语音类别，或视频直播类别，或疑似类别。

可以基于第二训练数据集对第二初始子模型进行训练，得到第二目标子模型。由于是基于第二训练数据集中的流量特征向量和标签对第二初始子模型进行训练，且标签是VoIP语音类别或者视频直播类别，因此，在得到第二目标子模型之后，第二目标子模型能够区分VoIP语音类别的数据包和视频直播类别的数据包，即可以将待处理数据对应的流量特征向量输入给第二目标子模型，由第二目标子模型输出待处理数据对应的检测结果，基于该检测结果确定待处理数据对应的类别，该类别可以是VoIP语音类别，或者，视频直播类别。

在得到第一目标子模型和第二目标子模型之后，可以基于第一目标子模型和第二目标子模型生成目标分类模型，即，目标分类模型可以包括第一目标子模型和第二目标子模型，该目标分类模型用于检测待处理数据对应的实际类别。

在一种可能的实施方式中，在得到目标分类模型之后，可以基于目标分类模型检测待处理数据对应的实际类别。比如说，在得到待处理数据之后，可以将待处理数据对应的流量特征向量（流量特征向量的确定方式可以参见步骤101，在不再赘述）输入给目标分类模型的第一目标子模型，得到第一目标子模型输出的第一检测结果。若第一检测结果不是疑似类别，则基于第一检测结果确定该待处理数据对应的实际类别。其中，参见上述描述，第一目标子模型能够区分VoIP语音类别的数据包、视频直播类别的数据包和疑似类别的数据包，基于第一检测结果，可以确定待处理数据对应的类别是VoIP语音类别，或者视频直播类别，或者疑似类别。若待处理数据对应的类别是VoIP语音类别，则说明该待处理数据对应的实际类别就是VoIP语音类别，若待处理数据对应的类别是视频直播类别，则说明该待处理数据对应的实际类别就是视频直播类别。若待处理数据对应的类别是疑似类别，则还需要通过第二目标子模型进行分析。

进一步的，若第一检测结果是疑似类别，则可以将该待处理数据对应的流量特征向量输入给目标分类模型的第二目标子模型，得到第二目标子模型输出的第二检测结果，并基于该第二检测结果确定该待处理数据对应的实际类别。参见上述描述，第二目标子模型能够区分VoIP语音类别的数据包和视频直播类别的数据包，基于第二检测结果，可以确定该待处理数据对应的类别是VoIP语音类别，或者视频直播类别。若该待处理数据对应的类别是VoIP语音类别，则说明该待处理数据对应的实际类别就是VoIP语音类别，若该待处理数据对应的类别是视频直播类别，则说明该待处理数据对应的实际类别就是视频直播类别。

综上所述，在将待处理数据对应的流量特征向量输入给目标分类模型之后，可以得到待处理数据对应的实际类别，如VoIP语音类别，或者，视频直播类别。

综上可以看出，采用Merging方式训练目标分类模型时，可以得到子模型1和子模型2，子模型1是将全部重叠区域数据作为一个新分类，建立分类模型（即原先有2个类和1个重叠区域，则建立三分类模型；若3个类和2个重叠区域，则建立五分类模型）。对于VoIP语音类别和视频直播类别来说，将建立一个三分类模型，VoIP语音类别是标签1，视频直播类别是标签0，两者重叠区域为标签2。子模型2是对重叠区域单独建模（有几个重叠区域就建立几个模型），对于VoIP语音类别和视频直播类别来说，就是针对重叠区域中的数据单独建立一个二分类模型，VoIP语音类别是标签1，视频直播类别是标签0。在预测时，新数据经过特征提取得到特征向量，先使用子模型1进行分类，若结果的类别为重叠区域（如预测标签为2），则根据对应的子模型2重新分类得到最终结果。

方式3、采用Partial discarding方式（部分单步分类方式）训练得到目标分类模型。方式3与方式1类似，不同之处在于，在构建训练数据集中，训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，且流量特征向量对应的标签是该流量特征向量对应的目标类别。训练数据集包括重叠属性是轻微重叠的聚类组内的各流量特征向量，且流量特征向量对应的标签是该流量特征向量对应的目标类别。训练数据集包括重叠属性是确信重叠的聚类组内的各流量特征向量，但是，仅保留目标类别是VoIP语音类别的流量特征向量，即流量特征向量对应的标签是VoIP语音类别；或者，仅保留目标类别是视频直播类别的流量特征向量，即流量特征向量对应的标签是视频直播类别。

方式4、采用Separating方式（分割方式）训练得到目标分类模型。方式4与方式2类似，不同之处在于，在建立两个子模型时，子模型1：剔除全部重叠区域数据，建立分类模型；子模型2：对重叠区域单独建模（有几个重叠区域就建立几个模型）。在预测前，首先计算每类数据的中心点和每个重叠区域的中心点。在预测时，数据经过特征提取得到特征向量，计算特征向量与之前的所有中心点之间的距离，取最小距离。若最小距离是某个重叠区域的中心点，那么使用子模型2进行分类，反之，使用子模型1进行分类。

在上述实施例中，是以二分类为例进行描述，即VoIP语音类别和视频直播类别，在实际应用中，类重叠问题可扩展为3个及以上类别的重叠问题，具体方法与上述方案描述基本一致，仅标签数量不同，如二分类的标签为0或1，三分类标签可为0或1或2等，即本方案可以拓展到多分类以及多个重叠区域，仅需要对样本标签进行修改即可，本实施例中不再重复赘述。

由以上技术方案可见，本申请实施例中，可以基于流量特征向量对应的覆盖比例矩阵对所有流量特征向量进行聚类，得到多个聚类组，并基于聚类组对应的重叠属性对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别，这样，可以基于流量特征向量对应的目标类别训练得到目标分类模型，提高目标分类模型的可靠性，基于该目标分类模型能够准确识别数据流的应用类别。在上述方式中，是基于覆盖比例矩阵对类别进行矫正，即对训练数据（如流量特征向量和类别）进行处理后再建模，从而有效提升应用类别的识别正确率，提高应用类别的识别准确性。对不同置信度的聚类组进行数据预处理，如剔除数据点及重标注；将重叠部分单独建模分类，提升识别正确率；对于无法进一步进行数据清洗的数据集，对于不同类别的覆盖比例曲线进行聚类，而非根据数据特征向量聚类，这样降低了对数据集的影响，根据数据点的相对位置划分区域，并且统计这些区域的平均置信度，从而进行进一步数据剔除和重标注，能够有效优化流量识别中的类重叠问题。

参见表2所示，是测试效果的示例，为了保证测试集的一致性，未采用上述预处理方式对测试集进行剔除、重标注等操作，基于相同测试集，采用本申请实施例的方法建模后，从表2可以看出，识别正确率有明显提升，能够有效优化流量识别中的类重叠问题，表2的accuracy为模型在测试集上的正确率。

表2

基于与上述方法同样的申请构思，本申请实施例中提出一种流量类别检测方法，参见图3所示，为该流量类别检测方法的流程示意图，该方法可以包括：

步骤301，获取M个类别的数据流对应的多个流量特征向量，M大于1。

步骤302、针对每个流量特征向量，确定该流量特征向量对应的覆盖比例矩阵，该覆盖比例矩阵包括k个覆盖比例值，k为大于1的正整数；其中，每个覆盖比例值是基于该流量特征向量对应的目标流量特征向量对应的类别确定。

示例性的，确定该流量特征向量对应的覆盖比例矩阵，可以包括但不限于：针对已配置的k个邻近值中的每个邻近值，基于该流量特征向量与其它流量特征向量的距离，从其它流量特征向量中选取邻近值个流量特征向量作为该流量特征向量对应的目标流量特征向量；基于所有目标流量特征向量对应的类别，确定初始类别的数量；基于初始类别的数量和邻近值，确定该邻近值对应的覆盖比例值；其中，初始类别是M个类别中的任一类别；基于k个邻近值对应的覆盖比例值，确定覆盖比例矩阵，该覆盖比例矩阵包括k个覆盖比例值。

步骤303、基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组，每个聚类组均包括多个流量特征向量。

示例性的，针对每个流量特征向量，可以基于该流量特征向量对应的覆盖比例矩阵，确定该流量特征向量对应的覆盖比例曲线，并基于所有流量特征向量对应的覆盖比例曲线，对所有流量特征向量进行聚类，得到多个聚类组；其中，覆盖比例矩阵包括k个邻近值对应的覆盖比例值，覆盖比例曲线的横坐标是邻近值，该覆盖比例曲线的纵坐标是该邻近值对应的覆盖比例值。

其中，基于所有流量特征向量对应的覆盖比例曲线，对所有流量特征向量进行聚类，得到多个聚类组，可以包括：针对每个覆盖比例曲线，确定该覆盖比例曲线对应的时域指标；其中，时域指标包括以下至少一种：波形指标、脉冲指标、裕度指标、峰值指标、偏度指标、峰度指标；基于该时域指标，确定该覆盖比例曲线对应的曲线特征；基于每个覆盖比例曲线对应的曲线特征，确定任意两个曲线特征之间的距离；基于任意两个曲线特征之间的距离，生成距离矩阵；基于距离矩阵，采用Ward连接对所有流量特征向量进行层次聚类，得到多个聚类组。

步骤304、基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别。

示例性的，针对每个聚类组，基于该聚类组内每个流量特征向量对应的覆盖比例矩阵，确定该聚类组对应的置信度；根据该置信度，确定该聚类组对应的重叠属性；其中，若该置信度小于第一阈值，则确定该聚类组对应的重叠属性是确信重叠；若该置信度大于第一阈值且小于第二阈值，则确定该聚类组对应的重叠属性是轻微重叠；若该置信度大于第二阈值，则确定该聚类组对应的重叠属性是清晰分割；对于重叠属性是轻微重叠或者清晰分割的聚类组，对该聚类组内的各流量特征向量对应的正常类别保持不变，对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注，得到各流量特征向量对应的目标类别；对于重叠属性是确信重叠的聚类组，对该聚类组内的各流量特征向量对应的类别保持不变，得到各流量特征向量对应的目标类别。

示例性的，对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注，可以包括但不限于：基于该聚类组对应的置信度，确定该聚类组属于正样本或负样本；若该聚类组属于正样本，则将与正样本匹配的类别确定为正常类别，将不与正样本匹配的类别确定为错误类别，并对错误类别进行剔除或重标注；若该聚类组属于负样本，则将与负样本匹配的类别确定为正常类别，将不与负样本匹配的类别确定为错误类别，并对错误类别进行剔除或重标注。

步骤305、基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型；其中，目标分类模型用于检测待处理数据对应的实际类别。

示例性的，可以基于第一训练数据集，对第一初始子模型进行训练，得到第一目标子模型；其中，第一训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别；第一训练数据集还包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且该流量特征向量对应的标签是疑似类别；基于第二训练数据集，对第二初始子模型进行训练，得到第二目标子模型；其中，第二训练数据集包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别；基于第一目标子模型和第二目标子模型生成目标分类模型。

示例性的，在得到目标分类模型之后，可以将待处理数据对应的流量特征向量输入至目标分类模型的第一目标子模型，得到第一检测结果；若第一检测结果不是疑似类别，则基于第一检测结果，确定待处理数据对应的实际类别；若第一检测结果是疑似类别，则将待处理数据对应的流量特征向量输入至目标分类模型的第二目标子模型，得到第二检测结果；基于第二检测结果，确定待处理数据对应的实际类别。

示例性的，可以基于训练数据集，对初始分类模型进行训练，得到目标分类模型；其中，训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，该流量特征向量对应的标签是该流量特征向量对应的目标类别。

基于与上述方法同样的申请构思，本申请实施例中提出一种流量类别检测装置，参见图4所示，为流量类别检测装置的结构示意图，所述装置可以包括：

获取模块41，用于获取M个类别的数据流对应的多个流量特征向量；确定模块42，用于针对每个流量特征向量，确定该流量特征向量对应的覆盖比例矩阵；聚类模块43，用于基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组，每个聚类组均包括多个流量特征向量；处理模块44，用于基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别；训练模块45，用于基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型；所述目标分类模型用于检测待处理数据对应的实际类别。

其中，所述确定模块42确定该流量特征向量对应的覆盖比例矩阵时具体用于：针对已配置的k个邻近值中的每个邻近值，基于该流量特征向量与其它流量特征向量的距离，从其它流量特征向量中选取所述邻近值个流量特征向量作为该流量特征向量对应的目标流量特征向量；k为大于1的正整数；

基于所有目标流量特征向量对应的类别，确定初始类别的数量；

基于初始类别的数量和所述邻近值，确定所述邻近值对应的覆盖比例值；其中，所述初始类别是所述M个类别中的任一类别；

基于所述k个邻近值对应的覆盖比例值，确定所述覆盖比例矩阵。

其中，所述聚类模块43基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组时具体用于：

针对每个流量特征向量，基于该流量特征向量对应的覆盖比例矩阵，确定该流量特征向量对应的覆盖比例曲线，并基于所有流量特征向量对应的覆盖比例曲线，对所有流量特征向量进行聚类，得到多个聚类组；

其中，覆盖比例矩阵包括k个邻近值对应的覆盖比例值，覆盖比例曲线的横坐标是邻近值，该覆盖比例曲线的纵坐标是该邻近值对应的覆盖比例值。

其中，所述聚类模块43基于所有流量特征向量对应的覆盖比例曲线，对所有流量特征向量进行聚类，得到多个聚类组时具体用于：

针对每个覆盖比例曲线，确定该覆盖比例曲线对应的时域指标；其中，所述时域指标包括以下至少一种：波形指标、脉冲指标、裕度指标、峰值指标、偏度指标、峰度指标；基于所述时域指标，确定该覆盖比例曲线对应的曲线特征；基于每个覆盖比例曲线对应的曲线特征，确定任意两个曲线特征之间的距离；基于任意两个曲线特征之间的距离，生成距离矩阵；基于所述距离矩阵，采用Ward连接对所有流量特征向量进行层次聚类，得到多个聚类组。

其中，所述处理模块44基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别时具体用于：针对每个聚类组，基于该聚类组内每个流量特征向量对应的覆盖比例矩阵，确定该聚类组对应的置信度；

根据该置信度，确定该聚类组对应的重叠属性；其中，若该置信度小于第一阈值，则确定该聚类组对应的重叠属性是确信重叠；若该置信度大于第一阈值且小于第二阈值，则确定该聚类组对应的重叠属性是轻微重叠；若该置信度大于第二阈值，则确定该聚类组对应的重叠属性是清晰分割；

对于重叠属性是轻微重叠或者清晰分割的聚类组，对该聚类组内的各流量特征向量对应的正常类别保持不变，对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注，得到各流量特征向量对应的目标类别；

对于重叠属性是确信重叠的聚类组，对该聚类组内的各流量特征向量对应的类别保持不变，得到各流量特征向量对应的目标类别。

其中，所述处理模块44对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注时具体用于：

基于该聚类组对应的置信度，确定该聚类组属于正样本或负样本；

若该聚类组属于正样本，则将与正样本匹配的类别确定为正常类别，将不与正样本匹配的类别确定为错误类别，并对错误类别进行剔除或重标注；

若该聚类组属于负样本，则将与负样本匹配的类别确定为正常类别，将不与负样本匹配的类别确定为错误类别，并对错误类别进行剔除或重标注。

其中，所述训练模块45基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型时具体用于：

基于第一训练数据集，对第一初始子模型进行训练，得到第一目标子模型；其中，所述第一训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别；所述第一训练数据集还包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且该流量特征向量对应的标签是疑似类别；基于第二训练数据集，对第二初始子模型进行训练，得到第二目标子模型；其中，所述第二训练数据集包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别；基于所述第一目标子模型和所述第二目标子模型，生成所述目标分类模型。

基于训练数据集，对初始分类模型进行训练，得到目标分类模型；其中，所述训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别。

其中，所述流量类别检测装置还包括：检测模块，用于将待处理数据对应的流量特征向量输入至目标分类模型的第一目标子模型，得到第一检测结果；

若第一检测结果不是疑似类别，则基于所述第一检测结果，确定所述待处理数据对应的实际类别；若所述第一检测结果是疑似类别，则将所述待处理数据对应的流量特征向量输入至所述目标分类模型的第二目标子模型，得到第二检测结果；基于所述第二检测结果，确定所述待处理数据对应的实际类别。

基于与上述方法同样的申请构思，本申请实施例提出一种流量类别检测设备，参见图5所示，流量类别检测设备包括：处理器51和机器可读存储介质52，机器可读存储介质52存储有能够被处理器51执行的机器可执行指令；所述处理器51用于执行机器可执行指令，以实现本申请上述示例的流量类别检测方法。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本申请上述示例公开的流量类别检测方法。

其中，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（Radom Access Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种流量类别检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述确定该流量特征向量对应的覆盖比例矩阵，包括：

针对已配置的k个邻近值中的每个邻近值，基于该流量特征向量与其它流量特征向量的距离，从其它流量特征向量中选取所述邻近值个流量特征向量作为该流量特征向量对应的目标流量特征向量；k为大于1的正整数；

3.根据权利要求1所述的方法，其特征在于，所述基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所有流量特征向量对应的覆盖比例曲线，对所有流量特征向量进行聚类，得到多个聚类组，包括：

针对每个覆盖比例曲线，确定该覆盖比例曲线对应的时域指标；其中，所述时域指标包括以下至少一种：波形指标、脉冲指标、裕度指标、峰值指标、偏度指标、峰度指标；

基于所述时域指标，确定该覆盖比例曲线对应的曲线特征；

基于每个覆盖比例曲线对应的曲线特征，确定任意两个曲线特征之间的距离；

基于任意两个曲线特征之间的距离，生成距离矩阵；

基于所述距离矩阵，采用Ward连接对所有流量特征向量进行层次聚类，得到多个聚类组。

5.根据权利要求1所述的方法，其特征在于，

所述基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别，包括：

针对每个聚类组，基于该聚类组内每个流量特征向量对应的覆盖比例矩阵，确定该聚类组对应的置信度；

6.根据权利要求5所述的方法，其特征在于，所述对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注，包括：

7.根据权利要求5所述的方法，其特征在于，所述基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型，包括：

基于第一训练数据集，对第一初始子模型进行训练，得到第一目标子模型；其中，所述第一训练数据集包括重叠属性是清晰分割的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别；所述第一训练数据集还包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且该流量特征向量对应的标签是疑似类别；

基于第二训练数据集，对第二初始子模型进行训练，得到第二目标子模型；其中，所述第二训练数据集包括重叠属性是轻微重叠和确信重叠的聚类组内的各流量特征向量，且该流量特征向量对应的标签是该流量特征向量对应的目标类别；

基于所述第一目标子模型和所述第二目标子模型，生成所述目标分类模型。

8.根据权利要求5所述的方法，其特征在于，所述基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型之后，所述方法还包括：

将待处理数据对应的流量特征向量输入至目标分类模型的第一目标子模型，得到第一检测结果；

若第一检测结果不是疑似类别，则基于所述第一检测结果，确定所述待处理数据对应的实际类别；

若所述第一检测结果是疑似类别，则将所述待处理数据对应的流量特征向量输入至所述目标分类模型的第二目标子模型，得到第二检测结果；

基于所述第二检测结果，确定所述待处理数据对应的实际类别。

10.一种流量类别检测装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，

所述确定模块确定该流量特征向量对应的覆盖比例矩阵时具体用于：

12.根据权利要求10所述的装置，其特征在于，

所述聚类模块基于所有流量特征向量对应的覆盖比例矩阵，对所有流量特征向量进行聚类，得到多个聚类组时具体用于：

13.根据权利要求12所述的装置，其特征在于，

所述聚类模块基于所有流量特征向量对应的覆盖比例曲线，对所有流量特征向量进行聚类，得到多个聚类组时具体用于：

基于所述时域指标，确定该覆盖比例曲线对应的曲线特征；

基于任意两个曲线特征之间的距离，生成距离矩阵；

14.根据权利要求10所述的装置，其特征在于，所述处理模块基于每个聚类组对应的重叠属性，对该聚类组内的各流量特征向量对应的类别进行数据预处理，得到各流量特征向量对应的目标类别时具体用于：

15.根据权利要求14所述的装置，其特征在于，所述处理模块对该聚类组内的各流量特征向量对应的错误类别进行剔除或重标注时具体用于：

16.根据权利要求14所述的装置，其特征在于，所述训练模块基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型时具体用于：

17.根据权利要求14所述的装置，其特征在于，所述训练模块基于流量特征向量和流量特征向量对应的目标类别，训练得到目标分类模型时具体用于：

18.根据权利要求16所述的装置，其特征在于，还包括：

检测模块，用于将待处理数据对应的流量特征向量输入至目标分类模型的第一目标子模型，得到第一检测结果；

19.一种流量类别检测设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现权利要求1-9任一所述的方法步骤。