CN115600128A

CN115600128A - 一种半监督加密流量分类方法、装置及存储介质

Info

Publication number: CN115600128A
Application number: CN202211327766.1A
Authority: CN
Inventors: 申进
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-13

Abstract

本申请提出了一种半监督加密流量分类方法、装置及存储介质，计算机设备获得包含少量标记样本和大量未标记样本的流量样本集后，将依据层次聚类算法对其包含的大量加密流量样本进行聚类处理，快速得到多个聚类簇，之后，为了提高加密流量分类模型的分类结果可靠性和准确性，可以先对每个聚类簇包含的未标记样本进行类别映射，即采用对各聚类簇包含的加密流量样本的分类检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到大量标记样本后，再对融合多个机器学习算法的集成分类模型进行监督训练，快速得到具有较高分类准确率的加密流量分类模型，由此实现对采集到的待分类加密流量数据的快速分类，保证分类结果高准确率。

Description

一种半监督加密流量分类方法、装置及存储介质

技术领域

本申请主要涉及人工智能应用领域，更具体地说是涉及一种半监督加密流量分类方法、装置及存储介质。

背景技术

随着电商、网络视频、网络办公、智能手机等互联网应用及电子设备的普及，网络流量日益增大，在为广大网民提供便利的同时，也给网络运营管理与服务质量提供提出了很多挑战。因此，为了保证为网民提供更好的服务能力，并确保对网络的有效监控，需要针对不同类型的网络应用采用不同的网络管理措施，从而满足网民对如网络畅通、网络办公以及视频会议等应用无卡顿现象等高质量服务要求，同时实现网络流量有效控制、链路拥堵的有效排障、网络用户行为监控、防入侵和恶意攻击等高标准监控要求。

对此，目前通常是采用如深度包检测技术(Deep Packet Inspection,DPI)，通过判断流量的应用层载荷信息特征是否包含网络协议或网络应用的特征字符串，实现网络流量的准确分类，但这种网络流量分类方式无法识别加密流量，并不适用于加密流量分类场景。

为了满足加密流量分类需求，提出采用基于机器学习的深度流检测技术(DeepFlow Inspection，DFI)实现，不需要提取应用层载荷特征，只需要提取通信双方网络数据包的头部信息，通过对网络流的行为特征进行分析，实现加密流量的识别和分类。但这种网络流量分类方法需要大量标记类别的样本进行模型训练，而这些带流量类别标记的样本必须在严苛的实验条件下获得，导致无法获得大量样本，影响了依赖于该类样本训练所得模型的可靠性和模型训练效率，从而降低了加密流量分类的准确性和效率。

发明内容

为了解决上述技术问题，本申请提供了以下技术方案：

一方面，本申请提出了一种半监督加密流量分类方法，所述方法包括：

获得待分类的流量样本集；所述流量样本集包含多个标记样本和多个未标记样本；所述标记样本是指具有类别标签的加密流量样本，所述未标记样本是指不具有类别标签的加密流量样本；

依据层次聚类算法，对所述流量样本集进行聚类处理，得到多个聚类簇；每个所述聚类簇包含多个所述加密流量样本；

对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果；

依据与所述检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

利用得到的所述标记样本，对集成分类模型进行监督训练，得到加密流量分类模型；所述集成分类模型由多个机器学习算法融合得到。

可选的，所述对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果，包括：

检测每个所述聚类簇包含的不同类别的标记样本各自的第一样本数量；

对同一所述聚类簇的多个所述第一样本数量进行排序，得到该聚类簇包含的同一类别标记样本的最多样本数量和次多样本数量；

检测所述最多样本数量和所述次多样本数量是否满足预设比例关系，得到对应的第一检测结果。

可选的，所述依据与所述检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，包括：

确定所述第一检测结果为所述最多样本数量和所述次多样本数量满足预设比例关系，按照所述最多样本数量对应标记样本具有的所述类别标签，配置相应所述聚类簇包含的未标记样本的类别标签；

确定所述第一检测结果为所述最多样本数量和所述次多样本数量不满足所述预设比例关系，输出针对相应所述聚类簇的第一标记提示信息；

其中，所述第一标记提示信息用于指示标记人员对相应所述聚类簇包含的未标记样本配置对应的类别标签。

可选的，所述对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果，还包括：

检测到任一所述聚类簇包含的多个加密流量样本中仅存在一种标记样本；

所述依据与所述检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，包括：

按照该聚类簇中存在的一种标记样本的类别标签，配置该聚类簇包含的未标记样本的类别标签。

获得所述多个聚类簇各自包含的所述标记样本的第二样本数量；

检测所述第二样本数量是否大于对应的数量阈值，得到对应的第二检测结果；所述数量阈值基于对应的所述聚类簇包含的所述加密流量样本的总样本数量确定；

确定所述第二检测结果为任一所述聚类簇的所述第二样本数量大于所述数量阈值，检测该聚类簇包含的多个加密流量样本中是否仅存在一种标记样本，得到对应的第三检测结果；

确定所述第二检测结果为任一所述聚类簇的所述第二样本数量小于或等于所述数量阈值，输出针对相应所述聚类簇的第二标记提示信息。

检测所述多个聚类簇包含的加密流量样本中是否存在所述标记样本，得到对应的第四检测结果；

确定所述第四检测结果为对应的所述聚类簇中存在标记样本，执行步骤所述获得所述多个聚类簇各自包含的所述标记样本的第二样本数量；

确定所述第四检测结果为对应的所述聚类簇仅包含未标记样本，输出针对相应所述聚类簇的第三标记提示信息。

可选的，所述依据层次聚类算法，对所述流量样本集进行聚类处理，得到多个聚类簇，包括：

将所述流量样本集包含的各所述加密流量样本输入层次聚类模型，输出多个聚类簇；

其中，所述层次聚类模型是基于层次聚类算法BIRCH构建的聚类特征树，所述聚类特征树的每个节点包含至少一个聚类特征信息；

所述机器学习算法包括随机森林算法。

可选的，所述方法还包括：

获得待分类的加密流量数据；

对所述加密流量数据进行归一化和降维处理，得到待分类加密流量特征；

将所述待分类加密流量特征输入所述加密流量分类模型，输出对应所述加密流量数据的分类结果。

又一方面，本申请还提出了一种半监督加密流量分类装置，所述装置包括：

流量样本集获得模块，用于获得待分类的流量样本集；所述流量样本集包含多个已标样本和多个未标记样本；所述标记样本是指具有类别标签的加密流量样本，所述未标记样本是指不具有类别标签的加密流量样本；

聚类处理模块，用于依据层次聚类算法，对所述流量样本集进行聚类处理，得到多个聚类簇；每个所述聚类簇包含多个所述加密流量样本；

分类检测模块，用于对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果；

配置模块，用于依据与所述检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

监督训练模块，用于利用得到的所述标记样本，对集成分类模型进行监督训练，得到加密流量分类模型；所述集成分类模型由多个机器学习算法融合得到。

又一方面，本申请还提出了一种计算机可读存储介质，其上存储计算机程序，所述计算机程序被处理器加载执行，实现如上述的半监督加密流量分类方法。

由此可见，本申请提供了一种半监督加密流量分类方法、装置及存储介质，在加密流量分类场景下，计算机设备获得包含少量标记样本和大量未标记样本的流量样本集后，将依据层次聚类算法对其包含的大量加密流量样本进行聚类处理，快速得到多个聚类簇，之后，为了提高加密流量分类模型的分类结果可靠性和准确性，可以先对每个聚类簇包含的未标记样本进行类别映射，即采用对各聚类簇包含的加密流量样本的分类检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到大量标记样本后，再对融合多个机器学习算法的集成分类模型进行监督训练，快速得到具有较高分类准确率的加密流量分类模型，由此实现对采集到的待分类加密流量数据的快速分类，保证分类结果高准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提出的半监督加密流量分类方法的一可选示例的流程示意图；

图2为本申请提出的半监督加密流量分类方法中，对流量样本集中层次聚类处理方式的示意图；

图3为本申请提出的半监督加密流量分类方法中，一种类别映射方式的可选流程示意图；

图4为本申请提出的半监督加密流量分类方法的又一可选示例的流程示意图；

图5为本申请提出的半监督加密流量分类方法中，一种聚类特征树示意图；

图6为本申请提出的半监督加密流量分类方法的又一可选示例的流程示意图；

图7为本申请提出的半监督加密流量分类装置的一可选示例的结构示意图；

图8为适用于本申请提出的半监督加密流量分类方法的计算机设备的一可选示例的硬件结构示意图。

具体实施方式

针对背景技术部分的描述内容，对于加密网络流量样本(下文简称为加密流量样本)的类别标记方式，为了保证DFI(Deep Flow Inspection，深度流检测技术)所需的实验条件，通常需要实施诸如手工将后台运行的应用程序产生的网络流量进行移除、对后台网络应用程序添加防火墙策略阻隔其进行网络通信、同一时间只运行一个网络应用程序等限制措施，过程非常繁琐，很难获得大量带类别标记的加密流量样本。而深度包检测技术(Deep Packet Inspection,DPI)又无法识别加密流量样本的类别，可见，如何获得大量带类别标记的加密流量样本，成为监督训练加密流量分类模型的难题。

为了解决上述问题，提出采用半监督学习分类算法，即介于有监督学习和无监督学习之间，充分融合了监督学习和无监督学习的思想，结合少量容易获取的标记样本和大批的非标记样本进行学习，利用容易获取到的不带类别标记样本，极大的减少了对标记样本的依赖，从而解决监督学习加密流量分类模型需要大量带类别标记样本进行训练的问题。

其中，在基于半监督学习机制进行网络流量分类过程中，可以利用k-means(一种聚类算法)对网络流进行聚类，确定所得到的每个聚簇包含的不同类别的标记样本，之后，利用同一聚簇的标记样本中占多数的标记样本类别，对该聚簇中其他各流量样本的类别进行映射，从而快速识别未知类别的流量样本。可选的，还可以进一步通过IP地址、端口号信息等作为网络流之间相关性信息，对少数带类别标记样本的规模进行扩展，提高流量分类模型的准确率。

然而，上文描述的半监督网络流量分类方法，在聚类阶段都是采用k-means或者凝聚的层次聚类方法进行聚类，但是在生成的聚簇较多或者数据集较大的情况下，使用这些聚类算法执行一次聚类花费的时间都较长，导致整个半监督分类模型的训练时间复杂度较高，并且聚簇类别映射通常是选择簇中所属类别比例最大的带标记样本，然后以相应的类别作为簇中其余未标记网络流样本的类别，该样本标记过程忽略了聚簇内网络流量的相似性不够高时，聚簇中可能含有多个类别未标记类别样本的情况，这样容易造成所标记的样本纯度不够，进而导致后续分类准确率较低。

为了解决只有少量的带标签样本(本申请是指加密流量样本)可用时，上述监督分类模型(即基于监督学习分类算法训练得到的流量分类模型)分类准确率低的问题，提出通过改进基于深度流检测DFI技术且结合半监督学习分类算法进行加密流量分类，充分利用不带标记的加密流量样本，提升只有少量样本时加密流量分类的准确率。本申请提出的半监督加密流量分类方法，可以对上述流量分类模型的聚类过程进行改进，采用BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies，综合层次聚类算法)代替k-means聚类算法，缩短模型训练时间；并对上文描述的聚簇类别映射过程中的“简单多数”类别映射原则进行改进，增加不同类别标记样本数目的判定条件，使得训练集标签的真实度更高，能够提高半监督加密流量分类模型的准确性和鲁棒性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，为本申请提出的半监督加密流量分类方法的一可选示例的流程示意图，该方法可以适用于计算机设备，该计算机设备可以包括服务器和/或终端设备，如图1所示，该方法可以包括：

步骤S11，获得待分类的流量样本集；该流量样本集包含多个标记样本和多个未标记样本；

本申请实施例中，标记样本可以是指具有类别标签的加密流量样本，未标记样本可以是指不具有类别标签的加密流量样本，这些加密流量样本可以是网络应用中采集到的加密网络流量数据，如到达时间间隔、网络流持续时间等网络流时间类特征；每秒传输的数据包个数、每秒传输的字节量等网络流速率类特征；包长特征；数据报文报头标志位个数等各类网络流特征，本申请对各加密网络流量数据的采集实现方法不做详述，可视情况而定。

为了保证所构建加密流量分类模型的可靠性，需要获得大量带标签样本，如上述分析可知，带标签的加密流量样本获取非常困难，对此，本申请提出一种新的加密流量样本类别映射方式，以利用少量标记样本对大量未标记样本进行类别标记，得到构建加密流量分类模型所需的大量标记样本。因此，本申请可以获取大量加密流量样本构成流量样本集，其中可以包括少量标记样本，但并不限制各标记样本的获取方法。

应该理解的是，对于直接从网络应用中采集到的各加密网络流量数据，通常拥有不同的量纲，如上述单位为微秒，取值为上百万数量级别的网络流时间类特征；单位为每秒传输多少个或字节量，取值为几百、几十或零点几的网络流速率类特征等，为了消除量纲对数据集分类的影响，可以对采集到的各类加密网络流量数据进行z-score归一化处理，之后，再对归一化后的加密网络流量数据进行降维处理，如采用PCA(Principal ComponentAnalysis，主成分分析)技术进行降维处理，如对采集到的原始加密网络流量数据归一化后，设置主成分的方差和占原始加密网络流量数据所有方差和的95％以上，实现对归一化后的加密网络流量数据进行降维处理，实现过程本申请不做详述，且并不局限于本实施例描述的降维处理方式。

步骤S12，依据层次聚类算法，对流量样本集进行聚类处理，得到多个聚类簇；

为了解决基于k-means等聚类算法对网络流进行聚类处理过程中，因忽略聚簇内网络流的相似性不够高时，聚簇中可能含有多个类别分布的未标记样本的情况，即聚簇内样本纯度不够，导致后续分类准确率较低的问题，本申请提出采用层级聚类算法BIRCH替代k-means聚类算法，缩短一次聚类处理所花费的时长，从而降低整个半监督分类模型的训练时间复杂度，缩短模型训练时间。

因此，本申请实施例可以基于BIRCH算法，对获得的流量样本集包含的大量加密流量样本(其包含少量标记样本和大量未标记样本)进行聚类处理，即利用层次方法的平衡迭代规约和聚类，使用三元组维护一个聚类簇的相关特征信息。这样，在该聚类处理过程中，将以各类别融合的距离阈值设定替代聚类簇数的设定，通过加密流量样本的聚类特征CF(Cluster Feature)以及聚类特征树的形式，优化不同样本类别之间的距离阈值的计算过程，不断提高聚类准确性。

其中，每个聚类簇包含多个加密流量样本，每个聚类簇的聚类特征CF(ClusterFeature)＝<n,LS,SS>，n表示该聚类簇包含的加密流量样本的数量；LS可以表示n个加密流量样本各维度特征的线性和；SS可以表示n个加密流量样本各维度特征的平方和，计算过程本申请不做详述。由此可知，该基于层次聚类算法对流量样本集进行聚类处理过程中，本申请实施例所使用的这种三元组聚类特征可以更方便计算不同聚类簇之间的距离，且在需要合并两个聚类簇时，可以对相应的聚类特征三元组进行线性相加，降低了聚类的时间复杂度，从而降低了模型训练时间复杂度。

步骤S13，对多个聚类簇各自包含的加密流量样本进行分类检测，得到对应聚类簇的检测结果；

步骤S14，依据与该检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

本申请实施例中，为了提高聚类所得多个聚类簇的样本纯度，提高加密流量分类模型的准确性，提出对上文描述的“简单多数”聚类簇类别映射方式进行改进。在实际应用中，经过对流量样本集进行聚类处理，得到的每个聚类簇包含的标记样本类别数情况往往不同，如图2所示，通常可以包括以下三种情况：

情况a，同一聚类簇中只包含一个类别的标记样本；情况b，同一聚类簇包含不同类别的标记样本；情况c，同一聚类簇未包含任何标记样本，只包含未标记样本。

本申请可以针对聚类得到的不同情况的聚类簇，可以采用不同的类别映射方式，对其包含的其他未标记样本进行类别映射，即配置同一聚类簇中未标记样本的类别标签。因此，为了检测聚类所得到的各聚类簇属于上述哪种情况，可以对得到的每个聚类簇包含的各加密流量样本进行分类检测，确定该聚类簇包含的每个加密流量样本是否具有类别标签，即是否为标记样本，若存在标记样本，可以确定各类别标记样本的数量等检测结果。

之后，可以将每个聚类簇的检测结果与上述三种情况进行比较，确定所得到的多个聚类簇各自属于哪一种情况，再按照对应的类别映射方式，对该聚类簇中其他未标记样本进行类别映射，即配置对应聚类簇包含的未标记样本的类别标签，以使未标记样本更新为标记样本。关于上述三种情况各自对应的类别映射方式本申请不做限制，可依据实际情况确定。

步骤S15，利用得到的标记样本，对集成分类模型进行监督训练，得到加密流量分类模型；该集成分类模型由多个机器学习算法融合得到。

本申请按照上文描述的优化后的聚类簇类别映射方法，对所得到的每个聚类簇包含的未标记样本进行类别映射，能够在同一聚类簇包含的各加密流量样本的相似度不高时，考虑不同类别标记样本各自的数量，确定未标记样本的类别，提高了各加密流量样本的类别标签真实度，有助于提高加密流量分类模型的准确性和鲁棒性。

按照上述方法获得大量带有类别标签的加密流量样本后，可以使用拥有强大的自适应性和自学习能力的机器学习算法，实现加密流量分类模型，模型训练实现过程本申请不做详述。其中，该机器学习算法可以包括但并不局限于朴素贝叶斯、决策树、向量机、随机森林等一种或多种算法，可视情况而定。

经过实验得知，朴素贝叶斯分类器通常是对含有248个流特征的网络流量进行分类，该分类过程会过渡依赖网络流量样本的先验概率，导致分类结果不稳定。而基于C4.5决策树训练的网络流量分类模型，能够提高分类结果稳定性，但这种模型训练时间更长；支持向量机分类模型能够解决分类困难样本的分类问题，提高流量分类准确率；利用网络流前几个数据包的统计特征构造多个机器学习模型(如决策树模型、随机森林模型等)，得到包含多个分类器的流量分类模型，能够进一步提高网络流量分类准确率。

由此可见，集成学习分类器分类或使用多分类器融合分类，相对于基本机器学习分类器，能够提高网络流量分类准确性。尤其是在网络流分布不均衡时，即实际捕获流量中HTTP、HTTPS流量、P2P流量等常常占据主要的部分，而其余类别网络流量占比相对较小，使用集成分类模型能够更好地处理训练样本不均衡问题，使用其包含的多个机器学习分类器相对于单一分类器，能够获得更好的分类效果。所以，如图3所示，本申请可以使用多种机器学习算法构建初始集成分类模型，使用按照上述方法得到的标记样本，对该集成分类模型进行监督学习，得到用于加密流量数据分类的加密流量分类模型。

需要说明，关于构成集成分类模型的多个机器学习算法的类型本申请不做限制，可以依据实际需求确定，如随机森林、决策树等。且本申请对上述加密流量模型的训练实现过程不做详述。

综上，在加密流量分类场景下，计算机设备获得包含少量标记样本和大量未标记样本的流量样本集后，将依据层次聚类算法对其包含的大量加密流量样本进行聚类处理，快速得到多个聚类簇，之后，为了提高加密流量分类模型的分类结果可靠性和准确性，可以先对每个聚类簇包含的未标记样本进行类别映射，即采用对各聚类簇包含的加密流量样本的分类检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到大量标记样本后，再对融合多个机器学习算法的集成分类模型进行监督训练，快速得到具有较高分类准确率的加密流量分类模型，由此实现对采集到的待分类加密流量数据的快速分类，保证分类结果高准确率。

参照图4，为本申请提出的半监督加密流量分类方法的又一可选示例的流程示意图，本实施例可以对上文描述的半监督加密流量分类方法的一可选细化实现方式进行描述，如图4所示，该方法可以包括：

步骤S41，获得待分类的流量样本集；该流量样本集包含多个标记样本和多个未标记样本；

步骤S42，将流量样本集包含的各加密流量样本输入层次聚类模型，输出多个聚类簇；

本申请实施例中，层次聚类模型可以是基于层次聚类算法BIRCH构建的聚类特征树，如图5所示，该聚类特征树的每个节点包含至少一个聚类特征信息CF，即上述三元组数据<n,LS,SS>。在层级聚类过程中，可以基于每次聚类得到的多个聚类簇各自的质心x0，平均半径R，以及同一聚类簇中任两个加密流量样本(即数据点)之间的平均距离D。其中，聚类簇的这些参数可以按照下文对应公式进行计算：

上述公式中，i、j可以表示第i/j个聚类簇。BIRCH算法可以通过构建分支因子和类直径两个参数的CF树(聚类特征树)进行整体聚类处理，所以说，如图5所示的聚类特征树示意图，该聚类特征树在聚类过程中必须要要满足分支因子和类直径这两个参数，该分支因子可以表示聚类特征树中每个节点的最多子女个数，类直径可以是叶子节点中各子聚类簇的最大直径，以实现样本相似性的判定。具体的，如果待分类的新加密流量样本到某聚类簇中心点的距离小于该最大直径的一半，可以认为该新加密流量样本属于该聚类簇；反之，可以认为该新加密流量样本不属于该聚类簇。

按照上述方法，可以动态构建聚类特征树(即层次聚类模型)，由于本申请实施例使用了CF和CF数的动态构建机制，相对于k-means聚类处理方法，大大提高了聚类运算速度，缩短了聚类时间，有助于提高加密流量数据分类效率。

步骤S43，检测每个聚类簇包含的不同类别的标记样本各自的第一样本数量；

步骤S44，对同一聚类簇的多个第一样本数量进行排序，得到该聚类簇包含的同一类别标记样本的最多样本数量和次多样本数量；

针对如上文描述的情况b，即同一聚类簇包含不同类别标记样本的一类聚类簇，若直接将未标记样本的类别映射为所包含数量最大的一类标记样本的类别标签，忽略了该聚类簇中不同加密流量样本相似度不高时，未标记样本可能会属于不同类别的情况，本申请提出对这种类别映射方法进行改进，增加不同类别标记样本的个数(记为第一样本数量)判定条件，实现对这类聚类簇中未标记样本的类别映射。

因此，通过检测所得到的每个聚类簇中包含的标记样本的类别数量，来确定各聚类簇属于上述哪种情况的聚类簇，从中筛选出属于上述情况b的一类聚类簇后，统计这类聚类簇包含的各类标记样本的第一样本数量，之后，可以对同一聚类簇包含的各类标记样本的第一样本数量进行比较，确定该聚类簇中最大第一样本数量(即属于同一类标记样本的最多样本数量n₁)和第二大第一样本数量(即属于同一类标记样本的次多样本数量n₂)，比较方式本申请不做限制。

步骤S45，检测该最多样本数量和次多样本数量是否满足预设比例关系，如果否，进入步骤S46；如果是，执行步骤S47；

步骤S46，输出针对相应所述聚类簇的第一标记提示信息；

步骤S47，按照该最多样本数量对应标记样本具有的类别标签，配置相应聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

本申请对包含多类标记样本的聚类簇中的未标记样本进行类别映射时，可以先检测该聚类簇中主要类别的标记样本数量与次要类别的标记样本数量之间是否满足预设比例关系，来确定该主要类别的标记样本是否标记样本的大部分数量，得到对应的第一检测结果，以便后续可以对不同内容的第一检测结果，采用对应的类别映射方式，对该聚类簇中未标记样本进行类别映射，以将未标记样本更新为标记样本。

可选的，上述预设比例关系可以包括但并不局限于：n₁≥2n₂，即最多样本数量是否为次多样本数量的2倍及其以上，如果第一检测结果为最多样本数量n₁和次多样本数量n₂满足预设比例关系，可以将该聚类簇中的未标记样本的类别映射为主要类别；反之，即第一检测结果为最多样本数量n₁和次多样本数量n₂不满足预设比例关系，n₁＜2n₂，可以舍弃这类聚类簇，输出对应的第一标记提示信息，来提示用户采用人工查验方式，配置其包含的未标记样本的类别标签。

可见，相对于直接将聚类簇中未标记样本的类别映射为数量最多标记样本的类别，本申请实施例提出的这种类别映射方式，对于包含多种标记样本的聚类簇中未标记样本的类别映射，可以在一定程度上避免对未标记样本的错误标记，提高样本标记可靠性，进而提高由此训练得到的加密流量分类模型的分类结果准确率。

可选的，按照上述检测方式，确定同一聚类簇中属于同一类别标记样本的最多样本数量和次多样本数量之间不满足预设比例关系的情况下，计算机设备可以按照预设通信方式，如预先配置人工配置样本类别标签的客户端标识，或如邮箱、即时通信账号等通信账号标识，将检测到的这类不满足预设比例关系的聚类簇包含的加密流量样本，及其包含的标记样本的第一样本数量等内容，添加至对应的第一标记提示信息中，反馈至预设的通信账号中，用于指示标记人员对相应聚类簇包含的未标记样本配置对应的类别标签，本申请对第一标记提示信息的内容及其输出方式不做限制，可视情况而定。

步骤S48，利用得到的标记样本，对集成分类模型进行监督训练，得到加密流量分类模型；该集成分类模型由多个机器学习算法融合得到，该机器学习算法包括随机森林算法。

本申请经过BIRCH聚类和优化后的聚类簇类别映射处理后，可以将初始包含少量标记样本和大量未标记样本的流量样本集，扩展为包含大量标记样本的流量样本集，之后，可以将这些标记样本输入机器学习模型进行训练，可以得到一个新的分类器，即加密流量分类模型，使用其对获得的待分类加密流量数据进行分类处理，相对于直接使用基于初始流量样本集训练得到的分类器进行分类处理，大大提高了分类准确率。

参照图6，为本申请提出的半监督加密流量分类方法的又一可选示例的流程示意图，本实施例可以对上文描述的半监督加密流量分类方法的又一可选细化实现方式进行描述，本实施例可以对初始获得的流量样本集中未标记样本的类别映射优化过程进行描述，可以对BIRCH聚类处理得到的多个聚类簇中的未标记样本进行类别映射的一可选细化实现过程进行描述，对于聚类簇的聚类获取过程以及基于大量标记样本的模型训练过程，可以参照上文实施例对应部分的描述，本实施例不做赘述。如图6所示，任一聚类簇中未标记样本的类别映射方法可以包括：

步骤S61，检测聚类簇包含的多个加密流量样本中是否存在标记样本；如果是，进入步骤S62；如果否，执行步骤S68；

本申请基于BIRCH聚类算法对流量样本集中的少量标记样本和大量未标记样本进行层次聚类处理，得到多个聚类簇后，可以依据每一个聚类簇包含的各加密流量样本是否具有标记标签，以及所具有的标记标签的类别等检测结果，对这多个聚类簇进行分组，以便后续可以采用对应的类别映射方式，对其包含的未标记样本进行标记。

基于此，针对所获得的每一个聚类簇，可以检测其包含的各加密流量样本中是否存在标记样本，得到对应的第四检测结果，若第四检测结果为该聚类簇中存在至少一个标记样本，可以进一步执行步骤S62；若第四检测结果为该聚类簇不存在任一个标记样本，无法采用基于少量标记样本对未标记样本的自动类别映射方式，可以按照步骤S68描述的方式，输出对应的第三标记提示信息，以提醒标记人员采用人工查验方式进行类别标记。

步骤S62，检测该聚类簇包含的标记样本的第二样本数量是否大于数量阈值；如果是，进入步骤S63；如果否，执行步骤S68；

在实际应用中，由于每次聚类结果即所得到的多个聚类簇存在偶然性，若某一聚类簇包含的标记样本的第二样本数量小于γ_i(即第i个聚类簇中的数量阈值)，可以认为该聚类簇包含的少量标记样本不足以用于对未标记样本进行类别映射，即通过该聚类簇内少量标记样本进行聚类类别映射的方式的标记样本数量不充足，为了避免由此导致错误类别映射，可以舍弃对这类聚类簇执行该类别映射方式。

基于此，经过上述检测方式，确定出的包含有标记样本的这一类聚类簇中的任一聚类簇，可以进一步确定该聚类簇包含的标记样本的第二样本数量，检测该第二样本数量小于或等于针对该聚类簇i的数量阈值γ_i后，可以按照步骤S68描述的方式，输出对应的第二标记提示信息，以提醒标记人员采用人工查验方式进行类别标记，确定这类加密流量样本是否为未知类别或新类别，配置对应的类别标签。反之，若经过该检测得到的第二检测结果为该第二样本数量大于针对该聚类簇C_i的数量阈值γ_i，可以按照下文描述的方式做进一步检测处理。

可选的，上述数量阈值γ_i可以依据标记样本在所有加密流量样本中的占比r_i，以及对应聚类簇C_i包含的加密流量样本的总样本数量n_Ci确定，如γ_i＝1/2*r_i*n_Ci，但并不局限于这种数量阈值获取方法。

步骤S63，检测该聚类簇包含的标记样本的类别是否为一种；如果是，进入步骤S64；如果否，执行步骤S65；

步骤S64，按照该聚类簇存在的一种标记样本的类别标签，配置该聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

继上述分析，在确定包含标记样本的第二样本数量大于对应的数量阈值的各聚类簇中，可以进一步检测每个聚类簇包含的标记样本类别是否是唯一类别，即检测该聚类簇中的多个加密流量样本中是否仅存在一种标记样本，得到对应的第三检测结果，若该第三检测结果为是，说明这类聚类簇包含的加密流量样本属于上述情况a，可以直接将其余未标记样本的类别全部映射为该标记样本的类别。

步骤S65，获得该聚类簇包含的同一类别标记样本的最大样本数量和次多样本数量；

步骤S66，检测该最多样本数量和次多样本数量是否满足预设比例关系，如果是，进入步骤S67；如果否，执行步骤S68；

步骤S67，按照该最多样本数量对应标记样本具有的类别标签，配置相应聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

结合上述检测方式，确定聚类簇包含的加密流量样本属于上述情况b，可以将聚类簇中未标记样本的类别映射为占多数类别标记样本的类别；

步骤S68，输出针对该聚类簇的标记提示信息，以指示标记人员对该聚类簇包含的未标记样本配置对应的类别标签。

按照上文描述的检测方式，确定聚类簇包含的加密流量样本属于上述情况c，该聚类簇中未标记样本可能是未知类别的新加密流量样本，不属于任一种标记样本的类别，可以通过人工查验方式，确定该未标记样本是否属于未知类别的加密流量样本，配置对应的类别标签，使其成为对应的标记样本。

由此可见，对于BIRCH聚类处理得到的多个聚类簇，经过对其包含的标记样本的类别数量的检测，确定该聚类簇可能属于情况a、情况b和情况c之中的任一情况，采用对应的类别映射方式，更精准确定未标记样本的类别标签，得到大量标记样本后，可以据此对随机森林集成分类模型进行训练，得到用于精准实现加密流量数据分类的加密流量分类模型。

这样，在实际应用中，获得待分类的加密流量数据，对该加密流量数据进行归一化和降维处理，得到待分类加密流量特征后，可以将该待分类加密流量特征输入该加密流量分类模型，可以输出对应加密流量数据的高准确率的分类结果。

参照图7，为本申请提出的半监督加密流量分类装置的一可选示例的结构示意图，该装置可以包括：

流量样本集获得模块71，用于获得待分类的流量样本集；所述流量样本集包含多个已标样本和多个未标记样本；所述标记样本是指具有类别标签的加密流量样本，所述未标记样本是指不具有类别标签的加密流量样本；

聚类处理模块72，用于依据层次聚类算法，对所述流量样本集进行聚类处理，得到多个聚类簇；每个所述聚类簇包含多个所述加密流量样本；

分类检测模块73，用于对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果；

配置模块74，用于依据与所述检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，得到对应的标记样本；

监督训练模块75，用于利用得到的所述标记样本，对集成分类模型进行监督训练，得到加密流量分类模型；该集成分类模型由多个机器学习算法融合得到。

可选的，上述分类检测模块73可以包括：

第一检测单元，用于检测每个所述聚类簇包含的不同类别的标记样本各自的第一样本数量；

样本数量排序单元，用于对同一所述聚类簇的多个所述第一样本数量进行排序，得到该聚类簇包含的同一类别标记样本的最多样本数量和次多样本数量；

第二检测单元，用于检测所述最多样本数量和所述次多样本数量是否满足预设比例关系，得到对应的第一检测结果。

可选的，基于上述分析，上述配置模块74可以包括：

第一配置单元，用于确定所述第一检测结果为所述最多样本数量和所述次多样本数量满足预设比例关系，按照所述最多样本数量对应标记样本具有的所述类别标签，配置相应所述聚类簇包含的未标记样本的类别标签；

第一输出单元，用于确定所述第一检测结果为所述最多样本数量和所述次多样本数量不满足所述预设比例关系，输出针对相应所述聚类簇的第一标记提示信息；

在又一些实施例中，上述分类检测模块73还可以包括：

第二检测单元，用于检测到任一所述聚类簇包含的多个加密流量样本中仅存在一种标记样本；

基于此，上述配置模块74还可以包括：

第二配置单元，用于按照该聚类簇中存在的一种标记样本的类别标签，配置该聚类簇包含的未标记样本的类别标签。

在又一些实施例中，上述分类检测模块73还可以包括：

第一获得模块，用于获得所述多个聚类簇各自包含的所述标记样本的第二样本数量；

第三检测单元，用于检测所述第二样本数量是否大于对应的数量阈值，得到对应的第二检测结果；所述数量阈值基于对应的所述聚类簇包含的所述加密流量样本的总样本数量确定；

第四检测单元，用于确定所述第二检测结果为任一所述聚类簇的所述第二样本数量大于所述数量阈值，检测该聚类簇包含的多个加密流量样本中是否仅存在一种标记样本，得到对应的第三检测结果；

基于此，上述配置模块74还可以包括：

第二输出单元，用于确定所述第二检测结果为任一所述聚类簇的所述第二样本数量小于或等于所述数量阈值，输出针对相应所述聚类簇的第二标记提示信息。

在又一些实施例中，上述分类检测模块73还可以包括：

第五检测单元，用于检测所述多个聚类簇包含的加密流量样本中是否存在所述标记样本，得到对应的第四检测结果；

第一确定单元，用于确定所述第四检测结果为对应的所述聚类簇中存在标记样本，执行步骤所述获得所述多个聚类簇各自包含的所述标记样本的第二样本数量；

第三输出单元，用于确定所述第四检测结果为对应的所述聚类簇仅包含未标记样本，输出针对相应所述聚类簇的第三标记提示信息。

基于上文各实施例的描述，上述聚类处理模块72可以包括：

第一聚类处理单元，用于将所述流量样本集包含的各所述加密流量样本输入层次聚类模型，输出多个聚类簇；

其中，所述层次聚类模型是基于层次聚类算法BIRCH构建的聚类特征树，所述聚类特征树的每个节点包含至少一个聚类特征信息；所述机器学习算法可以包括随机森林算法。

在又一些实施例中，结合上文实施例描述的半监督加密流量分类装置，该装置还可以包括：

加密流量数据获得模块，用于获得待分类的加密流量数据；

预处理模块，用于对所述加密流量数据进行归一化和降维处理，得到待分类加密流量特征；

分类处理模块，用于将所述待分类加密流量特征输入所述加密流量分类模型，输出对应所述加密流量数据的分类结果。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的半监督加密流量分类方法的各个步骤。

参照图8，为适用于本申请提出的半监督加密流量分类方法的计算机设备的一可选示例的硬件结构示意图，该计算机设备可以是服务器，如独立的物理服务器、多台物理服务器构成的服务器集群，或者是能够实现云计算的云服务器等。在一些实施例中，该计算机设备也可以是具有一定数据处理能够的电子设备，如台式计算机、机器人等。本申请以计算机设备是服务器为例进行说明。如图8所示，该计算机设备可以包括：通信模块81、至少一个存储器82和至少一个处理器83，其中：

通信模块81可以包括能够利用无线通信网络实现数据交互的通信模块，如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等，以实现与电子设备的通信连接，这样，用户可以使用电子设备访问服务器，基于服务器发送的标记提示信息，采用人工查验方式，配置未标记样本的类别标签，实现过程本申请不做详述。当然，通信模块81还可以包括实现计算机设备内部组成部件之间的数据交互的通信接口，如USB接口、串/并口、I/O口等，本申请对该通信模块81包含的具体内容不做限定。

存储器82可以用于存储实现上述各方法实施例描述的半监督加密流量分类方法的程序；处理器83可以加载并执行存储器存储的该程序，以实现上述相应方法实施例描述的半监督加密流量分类方法的各个步骤，具体实现过程可以参照上述实施例相应部分的描述，不再赘述。

在实际应用中，通信模块81、存储器82和处理器83可以连接通信总线，通过该通信总线实现相互之间，以及与计算机设备的其他结构组成之间的数据交互，具体可以根据实际需求确定，本申请不做详述。

本申请实施例中，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器83，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

应该理解的是，图8所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图8所示的更多的部件，或者组合某些部件，如各种输入组件、输出组件、传感器、电源管理模组等，本申请在此不做一一列举。

最后，需要说明的是，关于上述各实施例中，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

本申请涉及到的术语诸如“第一”、“第二”等仅用于描述目的，用来将一个操作、单元或模块与另一个操作、单元或模块区分开来，而不一定要求或者暗示这些单元、操作或模块之间存在任何这种实际的关系或者顺序。且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种半监督加密流量分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述依据与所述检测结果对应的类别映射方式，配置对应聚类簇包含的未标记样本的类别标签，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述多个聚类簇各自包含的加密流量样本进行分类检测，得到对应所述聚类簇的检测结果，还包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述依据层次聚类算法，对所述流量样本集进行聚类处理，得到多个聚类簇，包括：

所述机器学习算法包括随机森林算法。

8.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获得待分类的加密流量数据；

9.一种半监督加密流量分类装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其上存储计算机程序，其特征在于，所述计算机程序被处理器加载执行，实现如权利要求1-8任一项所述的半监督加密流量分类方法。