CN115348198B

CN115348198B - 基于特征检索的未知加密协议识别分类方法、设备及介质

Info

Publication number: CN115348198B
Application number: CN202211278610.9A
Authority: CN
Inventors: 康璐; 吉庆兵; 罗杰; 谈程; 倪绿林
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-03-21
Anticipated expiration: 2042-10-19
Also published as: CN115348198A

Abstract

本发明公开了一种基于特征检索的未知加密协议识别分类方法、设备及介质，属于网络安全领域，包括：S1，数据预处理；S2，模型构建、训练和优化；S3，将模型迁出，去除模型最后的全连接层和输出层，得到特征提取模型；S4，利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集；S5，输入待测样本并提取其特征向量，在基准数据特征集中检索与特征向量距离最近的基准特征向量；S6，对向量距离值判断，并进行模型更新或数据存储；S7，若所有簇的样本数量均小于阈值，则重复S5~S7。本发明在不对加密流量进行解密的情况下，自动提取网络流量特征，提高了效率，实现了对未知加密协议流量的精准识别和合理划分。

Description

基于特征检索的未知加密协议识别分类方法、设备及介质

技术领域

本发明涉及网络安全领域，更为具体的，涉及一种基于特征检索的未知加密协议识别分类方法、设备及介质。

背景技术

随着互联网技术的持续发展，人们生活水平的不断提高，网络中涌现出了越来越多的服务和应用，产生了海量的网络流量数据。与此同时，面对互联网中不断爆发的安全事件，用户愈发在意自身数据安全，网络服务和应用提供商大量的使用加密协议进行网络通信，导致网络中加密数据不断飙升。近年来，网络加密技术应用门槛不断降低，网络中的一些恶意软件也开始使用加密协议进行网络通信。多数时候，考虑到自身利益、安全等因素，各加密协议的协议细节并被公布。为营造清朗网络空间，提高网络流量的识别能力，在网络流量中的对未知加密协议进行识别与分类是十分必要的。

当前，在网络流量测量领域主要有基于网络固定端口的技术、基于网络流量负载分析的技术、基于网络流量行为的技术以及基于人工智能的网络流量分析技术。但由于端口复用、非标准协议等技术的兴起，基于固定端口的技术的识别效果越来越差。基于负载分析的技术需要先对已知流量做分析，提取已知类别网络流量载荷中的特定字符串作为特征，然后利用字符串匹配技术与待测流量进行匹配，进而完成流量识别过程，该技术无法应对加密流量和未知流量。

随着人工智能技术的不断发展，基于人工智能的未知流量识别方法逐渐成为流量识别领域的一个重要方向。此类方法通常是基于网络流量的统计特征，然后利用人工智能算法完成对未知网络流量的识别。例如Erman等人就分别使用了K-Mmeans和DBSCAN算法完成对未知流量的识别，并通过实验验证了聚类算法在未知流量识别方面的有效性。几年来，基于神经网络的流量识别方法在网络安全领域掀起了研究热潮。例如，2019年Zhang等人利用自编码器和网络流量自身的约束关系实现了未知流量识别；2020年顾存祥等人提出一种基于自编码器的网络流量无监督聚类方法，利用自编码器和KMeans聚类算法实现了基于网络流量的未知协议分类与识别；2021年Li等人考虑到现网环境下未知网络流量识别的效率问题，提出一种轻量级的未知流量识别模型LightSEEN，引入了一维卷积网络和深度残差网络实现了对网络流量的特征自动提取，并在未知网络流量识别领域取得了较好的成果；2022年Zhao等人将n-gram方法引入网络流量预处理，并结合深度神经网络技术和无监督聚类技术实现了一个用于未知网络流量识别的无监督方案。上述方法虽然都在未知网络流量识别领域取得了显著成果，但仍存在如下问题：

（1）未考虑未知加密网络流量的情况，特别是网络加密流量日益飙升的当下，考虑对未知加密网络流量的识别意义重大；

（2）针对只从提取网络流量统计特征（宏观特征）或只从网络流量本身出发提取特征（微观特征）的方法，它们均未将网络流量及其所处网络环境纳入整体考虑，提取的特征具有一定的局限性；

（3）仅识别出网络中的未知流量，而未对识别出的未知网络流量做进一步分析。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于特征检索的未知加密协议识别分类方法、设备及介质，提高了特征提取工作效率，实现在不对加密流量进行解密的情况下，自动提取网络流量特征，实现对未知加密协议流量的精准识别和合理划分，提高了未知加密协议分类效率，增强了识别能力。

本发明的目的是通过以下方案实现的：

一种基于特征检索的未知加密协议识别分类方法，包括步骤：

S1，数据预处理；

S2，模型构建、模型训练和模型优化；

S3，将步骤S2优化后的模型迁出，去除模型结构中最后的全连接层和输出层，得到一个特征提取模型；

S4，利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集；

S5，输入待测样本并提取其特征向量

，在基准数据特征集中检索与该特征向量距离最近的基准特征向量

，

对应的协议标签为

，

与

的向量距离为

；

S6，对向量距离值

进行判断，并进行模型更新或数据存储；

S7，如果所有簇的样本数量均小于阈值

，重复步骤S5~S7；如果聚类结果中簇的样本数量大于等于阈值

，则将其定义为第

类样本，更新

，并更新BallTree模型。

进一步地，在步骤S1中，包括子步骤：

S11，对数据进行分割；

S12，分割会话后，去除会话中的重传包，并按时间戳进行排序；

S13，匿名化处理，去除特异性字段，所述特异性字段包括MAC、IP、PORT；

S14，针对数据包大小

定义一个阈值

字节，超过这个值的数据包将被截断，小于这个值的数据包将在尾部填充数据，直到数据包大小达到

字节，所述填充数据为0x00；

S15，针对数据包数量

定义一个阈值

，对应会话超过这个值的数据包将被抛弃，小于的则进行重放，直到满足阈值要求；

S16，将处理后的数据转换为一个

的图像，其中每一个字节代表一个图像的一个像素点，S表示图像矩阵中每一行的像素点个数；

S17，按会话提取网络流量的统计特征，所述统计特征包括数据包长度、数据包包数量、载荷长度、数据包间隔时间。

进一步地，在步骤S2中，包括子步骤：

S21，构建自编码器网络，所述自编码器网络包括结构为28-20-10-20-28的自编码器网络；

S22，构建输入为图像，经Flatten操作、一维卷积层、Batch Normalization层和多层堆叠的残差层、下采样层和Flatten操作的深度残差网络；所述多层堆叠的残差层包括四层堆叠的残差层；

S23，将步骤S21和步骤S22的输出向量合并成一个向量，得到一个维度为

的向量；M为整数，表示向量的长度；

S24，在合并向量后新增一个含

个神经元的全连接层以及输出为

维的高斯连接层，所述高斯连接层即为输出层；

S25，输入预处理后的数据集并完成模型训练和优化：利用带协议标签的数据集对构建的模型进行训练并调优，得到最佳模型。

进一步地，在步骤S3中，将

分类模型迁出，去除模型结构中最后的全连接层和输出层，得到一个特征提取模型。

进一步地，在步骤S4中，包括子步骤：采用

模型作为数据模型处理特征提取模型处理得到的高维度数据。

进一步地，在步骤S5中，所述在基准数据特征集中检索与该向量距离最近的基准特征向量

，包括基于

模型检索与该向量距离最近的基准特征向量

。

进一步地，在步骤S6中，包括子步骤：

如果距离值

小于等于

，

为训练集中同类别样本特征距离的最大值，那么将该待测样本分配标签

，并且当待测样本被划分为确定类别的样本数量达到阈值

时，更新BallTree模型；

如果距离值

大于阈值

，则说明该样本为未知协议流量，将其存储到数据库DataBase中，并且当数据库DataBase中的样本数量超过

时，调用SPECTRAL聚类算法对BallTree中的样本进行聚类，如果聚类结果中有簇的样本数量超过阈值

，则将其定义为第

类样本，更新，并更新BallTree模型。

进一步地，在步骤S11中，包括子步骤：采用按会话的流量分割方式对原始网络流量进行预处理。

一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载并执行如上任一项所述的方法。

一种可读存储介质，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如上任一项所述的方法。

本发明的有益效果是：

（1）本发明针对在不对加密流量进行解密的情况下，利用深度残差网络构建深度神经网络模型，通过将网络流量转换为图像的方式，自动提取网络流量特征。与此同时，本发明还提取了网络流量的统计特征作为特征补充，并利用自编码器实现对统计特征的降维。最后将深度残差网络和自编码器的输出经过向量组合连接后作为网络加密流量的特征向量，该向量不但考虑了加密流量的统计方面的特征，还考虑了加密流量原始的数据特征，在不解密流量的情况下分别从宏观和微观上实现了对加密流量的全方位描述。

（2）本发明利用已知网络加密协议流量作为训练数据，针对性的训练上述深度神经网络模型，得到适用于网络加密协议的最优N分类深度神经网络模型，最后将该模型迁出，去除模型最后的全连接层和输出层，得到针对网络加密协议流量的特征提取模型。该特征提取模型是利用训练集训练后裁剪得到的，在先前的训练和测试中已经证明了该模型在网络加密协议流量分类的正确性，因此将此模型迁出用于网络加密协议流量的特征提取更具针对性，得到的特征是能够真正用于网络加密协议流量分类的。

（3）本发明利用已知网络加密协议流量作为训练数据作为数据基准，结合特征提取模型得到基准特征集，并利用该特征集构造了BallTree模型，该模型相比于KD树模型其检索效率更高，更适合高维数据情形。当待测样本到来时，使用特征提取模型提取待测样本的特征向量，利用BallTree K近邻搜索算法检索距离待测向量最近的数据基准（K=1），通过判断该距离判断待测样本是否是未知加密协议流量数据。当未知加密协议流量数据累积到一定的数量后，结合SPECTRAL算法实现对未知加密协议流量的再分类。同时考虑到网络环境是不断在变化的，网络中的未知加密协议数量可能会不断的增长，为了让模型持续地实现对未知加密协议的识别，本发明提出将聚类得到的簇中样本数量满足要求的簇纳入数据基准，并更新BallTree模型，以此实现对未知加密协议的持续识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为残差块示意图；

图2为基于特征检索的未知加密协议识别与分类方法的主要步骤流程图；

图3为网络流量转换为图像的步骤流程图；

图4为模型构建与训练示意图；

图5为特征提取模型示意图；

图6为未知流量识别与分类流程图；

图1中，CONV 1D表示一维卷积层（1-D Convolutional）；BN 1D一维表示归一化层（1-D Batch Normalization）；本发明选用ReLU（Rectfier Linear Unit）函数为激活函数。

图4中，Flatten是展平层，是将多维输入一维化的操作；Reslayer表示残差层，每层残差层又包含两个残差块，残差块如图1所示；Avgpooling表示池化层，本发明采用平均池化方法；FullConnectLayer为全连接层；GaussicanConnectLayer为高斯连接层；N为最终特征向量维度。

图5中，Flatten是展平层，是将多维输入一维化的操作；Reslayer表示残差层；Avgpooling表示池化层，本发明采用平均池化方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

本发明提出一种基于特征检索的未知加密协议识别与分类方法，如图1~图6所示，主要解决了如下的技术问题：

（1）针对人工特征工程严重依赖专家知识，且特征提取工作效率低下的问题。本发明实施例方法利用深度神经网络自动提取网络加密流量特征，同时在本发明构思中还考虑到基于深度神经网络在提取网络流量特征时对数据进行了截断和填充的操作，这可能导致会话数据的一部分结构化信息的丢失，因此还对原始流量提取了28种统计特征作为补充，共同构成了加密流量的综合特征。

（2）针对基于未知协议识别和分类任务中的特征工程目的性不强的问题。本发明构思中利用带标签的数据集针对性的训练神经网络模型，得到最优模型后将模型迁出，利用适用于加密协议分类的神经网络针对性的提取特征。

（3）针对目前对未知加密协议流量识别准确率不高，流量划分模糊的问题。本发明构思中以已知加密协议流量为数据基准，结合聚类算法实现对未知加密协议流量的精准识别和合理划分。

（4）针对未知加密协议分类效率不高，识别能力不强的问题。本发明构思中基于BallTree模型可以实现微秒级的未知协议流量分类能力的同时可以处理网络安全领域中的高维数据，并且也可以将已识别的未知协议流量纳入基准数据，从而实现模型的自动增长，进一步增强了模型的识别能力。

本发明实施例提出了一种基于特征检索的未知加密协议识别与分类方法，可用于：1）网络加密协议流量特征自动提取；2）未知网络加密协议流量自动识别；3）未知网络加密协议流量自动分类。如图2所示，该技术方案主要包括以下步骤：

步骤一：数据预处理，具体包括：

（1）按流量会话对数据进行分割，具体如下：

①原始的网络流量

包含了大小不同的数据包

，即：

其中，

代表数据包数量，单个数据包

被定义为

，

为五元组，包含了源IP地址、源端口号、目的IP地址、目的端口号和网络传输层协议；

是数据包的时间戳；

是数据包的字节长度；

②流和会话是当前分割流量的常见的两种方式。流

是指一组具有相同五元组的流量，可以描述为：

其中，

，

。

会话与流十分相似，就是将

中的源和目的互换。本发明实施例的目的是识别网络加密协议，而网络协议指的是计算机网络中相互通信的对等实体之间交换信息时所必须的规则的集合。网络实体间的相互通信势必会产生大量的数据包交互，在进行数据预处理时，为充分保留这种交互关系，本发明实施例采用按会话的流量分割方式对原始网络流量进行预处理。

（2）分割会话后去除会话中的重传包，并按时间戳进行排序。

（3）匿名化处理，主要是去除MAC、IP、PORT等特异性字段，避免特异性字段给特征提取带来影响。

（4）针对数据包大小

定义一个阈值

字节，超过这个值的数据包将被截断，小于这个值的数据包将在尾部填充0x00。

（5）针对数据包数量

定义一个阈值

，对应会话超过这个值的数据包将被抛弃，小于的则进行重放（复制），直到满足阈值要求。

（6）将处理后的数据转换为一个

的图像，其中每一个字节代表一个图像的一个像素点。

（7）按会话提取网络流量的统计特征，包括数据包长度、数据包包数量、载荷长度、数据包间隔时间等方面的统计特征，共计28个。

步骤二：模型构建、模型训练和模型优化，具体步骤如下：

1）构建结构为28-20-10-20-28的自编码器网络，即自编码器对统计特征的降维目标维度为10维。

2）构建输入为图像，经Flatten操作（多维→一维）、一维卷积层、BatchNormalization层和4层堆叠的残差层、下采样层和Flatten操作的深度残差网络。

3）将1）和2）的输出向量合并成一个向量，得到一个维度为

的向量。

4）在合并向量后新增一个含

个神经元的全连接层以及输出为

维的高斯连接层（输出层）。

5）输入预处理后的数据集并完成模型训练和优化：利用带协议标签的数据集对构建的模型进行训练并调优，得到最佳模型。

自编码器能够利用深度神经网络实现原始特征空间的自动映射，它是多层神经网络结构，是通过学习以不同约束条件将输入复制到输出的方式工作，例如通过限制内部表示的尺寸就可实现降维，或对输入数据增加噪声而输出能恢复真实未加噪声数据，从而达到去噪的目的等。本发明实施例将利用自编码器，通过改变自编码器中间层尺寸达到降维的目的。

卷积神经网络已经在图形图像识别、语音识别等多个领域得到了成功应用，例如物品识别、分类等。据YanLeCun的研究表明，数据在满足某些条件时均可使用卷积神经网络，这些条件或特点包括：数据为一维数据或多维数据；数据具有较强的局部相关性；数据的特征普遍性；数据稳定。本发明的发明人经过创造性的思考后认为，从本质上讲，网络流量是一种时序数据，是按照一定规则集组织起来的一维的字节流，数据包之间、会话之间、流之间具有很强的相关性。因此，本发明构思将一维卷积神经网络应用到网络结构构件中。

在本发明构思中将残差网络应用到网络流量特征提取中，在具体实施例中采用了四层残差层，每层残差层又包含两个残差块，图1表示一个残差块，一方面，在数据输入后依次经过一维卷积层一维卷积层（1-D Convolutional，简写为CONV 1D）、一维批标准化层（1-D Batch Normalization，简写为BN 1D）、线性整流（Rectfier Linear Unit，简写为ReLU）激活层、一维卷积层、一维批标准化层进行处理。另一方面，考虑模型退化问题，引入残差思想，同时将原始数据作为后续处理的重要元素之一。最后，应用向量加法操作将两方面数据进行综合处理后输入线性整流激活层即为输出。

步骤三：将上述

步骤四：利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集。由于特征提取模型得到的特征维度较高（通常大于200维），因此，在经过创造性思考后，本发明实施例技术方案采用善于处理高维数据的

模型作为数据模型。

步骤五：输入待测样本并提取其特征向量

，在基准数据特征集中基于

模型检索与该向量距离最近的基准特征向量

，

对应的协议标签为

，

与

的向量距离为

。

为解决KDTree在样本特征维度较高时检索效率低下的问题，有研究人员提出了 “BallTree”方案。KDTree是沿着坐标轴分割数据，而BallTree是在一系列嵌套的超球面上分割数据，即使用的是超球面而不是矩形划分区域。具体而言，BallTree将数据递归地划分到由球心

和半径

定义的节点上，以使得节点内的每一个点都位于球心

和半径

定义的超球面上，并且在检索时通过使用三角不等式来减少候选节点的数量，从而加快检索速度。对于一个由A个样本，样本维度为B的数据集，检索时间复杂度为

，相比于蛮力检索的

提升不少。

步骤六：对距离值

进行判断，并进行模型更新或数据存储。其具体步骤包括：

（1）如果上述距离值

小于等于

（

为训练集中同类别样本特征距离的最大值），那么将该待测样本分配标签

，并且当待测样本被划分为确定类别的样本数量达到阈值

时，更新BallTree模型。

（2）如果上述距离

大于阈值

，那么说明该样本为未知协议流量，将其存储到数据库DataBase中，并且当数据库DataBase中的样本数量超过

时，调用 SPECTRAL聚类算法对BallTree中的样本进行聚类，如果聚类结果中有簇的样本数量超过阈值

，则将其定义为第

类样本，更新

，并更新BallTree模型。

本发明实施例采用了基于无监督的机器学习方法对未知网络加密流量进行分类。在表1中本发明的发明人对几种无监督聚类算法进行了比较，而在现网中通常并不知道具体有多少种未知网络加密协议，并且也不清楚其对应的数据分布情况。所以，在具体比较时，可以选择SPECTRAL算法作为未知网络加密流量的分类算法。

表 1 算法比较

算法	效率	聚类形状	抗干扰性
				K-MEANS	一般	凸型	较低
BIRCH	很高	凸型	较低
				CURE	较高	任意形状	很高
DBSCAN	一般	任意形状	较低
				SPECTRAL	较高	任意形状	不敏感

步骤七：如果所有簇的样本数量均小于阈值

，重复步骤五~七。

国内外针对未知网络协议识别与分类的研究有很多，但这些工作大多是针对网络中的非加密协议而言的，而在当前复杂的网络环境下，随着人们对个人隐私保护意识的不断增强，网络中使用未知加密协议进行数据通信的应用越来越多。此外，当前大多数的研究仅识别出未知网络流量，但并未对其做进一步的处理。本发明的主要分析对象就是未知加密协议流量，首先利用已知的网络加密协议流量为基准，识别出未知网络加密协议流量，在此基础之上利用BallTree模型和聚类算法完成未知加密协议的自动分类。

本发明实施例所具有的有益效果和优点详述如下：

首先，传统的基于专家知识的特征工程往往需要人工进行特征的提取，并且往往针对不同的流量分析任务需要设计不同的特征，而这个过程不但很消耗时间精力，设计的特征还需要经过进一步的分析和筛选才能更好完成任务。本发明实施例针对在不对加密流量进行解密的情况下，利用深度残差网络构建深度神经网络模型，通过将网络流量转换为图像的方式，自动提取网络流量特征。与此同时，考虑到在将网络流量转换为图像的过程中存在对数据包字节长度和数据包数量存在截断和填充的操作，而这可能会导致流量的一些结构化信息的损失，因此本发明实施例还提取了网络流量的统计特征作为特征补充，并利用自编码器实现对统计特征的降维。最后将深度残差网络和自编码器的输出经过向量组合连接后作为网络加密流量的特征向量，该向量不但考虑了加密流量的统计方面的特征，还考虑了加密流量原始的数据特征，在不解密流量的情况下分别从宏观和微观上实现了对加密流量的全方位描述。

其次，本发明实施例利用已知网络加密协议流量作为训练数据，针对性的训练上述深度神经网络模型，得到适用于网络加密协议的最优N分类深度神经网络模型，最后将该模型迁出，去除模型最后的全连接层和输出层，得到针对网络加密协议流量的特征提取模型。该特征提取模型是利用训练集训练后裁剪得到的，在先前的训练和测试中已经证明了该模型在网络加密协议流量分类的正确性，因此将此模型迁出用于网络加密协议流量的特征提取更具针对性，得到的特征是能够真正用于网络加密协议流量分类的。

最后，本发明实施例利用已知网络加密协议流量作为训练数据作为数据基准，结合特征提取模型得到基准特征集，并利用该特征集构造了BallTree模型，该模型相比于KD树模型其检索效率更高，更适合高维数据情形。当待测样本到来时，使用特征提取模型提取待测样本的特征向量，利用BallTree K近邻搜索算法检索距离待测向量最近的数据基准（K=1），通过判断该距离判断待测样本是否是未知加密协议流量数据。当未知加密协议流量数据累积到一定的数量后，结合SPECTRAL算法实现对未知加密协议流量的再分类。同时考虑到网络环境是不断在变化的，网络中的未知加密协议数量可能会不断的增长，为了让模型持续地实现对未知加密协议的识别，本发明实施例提出将聚类得到的簇中样本数量满足要求的簇纳入数据基准，并更新BallTree模型，以此实现对未知加密协议的持续识别。

实施例1

S1，数据预处理；

S2，模型构建、模型训练和模型优化；

S5，输入待测样本并提取其特征向量

，在基准数据特征集中检索与该特征向量距离最近的基准特征向量，

对应的协议标签为

，

与

的向量距离为

；

S6，对向量距离值

进行判断，并进行模型更新或数据存储；

S7，如果所有簇的样本数量均小于阈值

，则将其定义为第

类样本，更新

，并更新BallTree模型。

实施例2

在实施例1的基础上，如图3所示，在步骤S1中，包括子步骤：

S11，对数据进行分割；

S14，针对数据包大小

定义一个阈值

字节，所述填充数据为0x00；

S15，针对数据包数量

定义一个阈值

S16，将处理后的数据转换为一个

实施例3

在实施例1的基础上，在步骤S2中，包括子步骤：

的向量；M为整数，表示向量的长度；

S24，在合并向量后新增一个含

个神经元的全连接层以及输出为

维的高斯连接层，所述高斯连接层即为输出层；

实施例4

在实施例3的基础上，在步骤S3中，将

实施例5

在实施例1的基础上，在步骤S4中，包括子步骤：采用

实施例6

在实施例5的基础上，在步骤S5中，所述在基准数据特征集中检索与该向量距离最近的基准特征向量

，包括基于

模型检索与该向量距离最近的基准特征向量

。

实施例7

在实施例6的基础上，在步骤S6中，包括子步骤：

如果距离值

小于等于

，

，并且当待测样本被划分为确定类别的样本数量达到阈值

时，更新BallTree模型；

如果距离值

大于阈值

，则将其定义为第

类样本，更新

，并更新BallTree模型。

实施例8

在实施例2的基础上，在步骤S11中，包括子步骤：采用按会话的流量分割方式对原始网络流量进行预处理。

实施例9

一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载并执行如实施例1~实施例8任一项所述的方法。

实施例10

一种可读存储介质，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如实施例1~实施例8任一项所述的方法。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于特征检索的未知加密协议识别分类方法，其特征在于，包括步骤：

S1，数据预处理；

S2，模型构建、模型训练和模型优化；

S4，利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集，采用

模型作为数据模型，处理特征提取模型处理得到的高维度数据；

S5，输入待测样本并提取其特征向量

对应的协议标签为

，

与

的向量距离为

；

S6，对向量距离值

进行判断，并根据判断结果将待测样本划分到对应的簇，同时进行模型更新和数据存储；

S7，如果聚类结果中簇的样本数量小于阈值

，则将其定义为第

类样本，更新

，并更新BallTree模型。

2.根据权利要求1所述的基于特征检索的未知加密协议识别分类方法，其特征在于，在步骤S1中，包括子步骤：

S11，对数据进行分割；

S14，针对数据包大小

定义一个阈值

字节，所述填充数据为0x00；

S15，针对数据包数量

定义一个阈值

S16，将处理后的数据转换为一个

3.根据权利要求1所述的基于特征检索的未知加密协议识别分类方法，其特征在于，在步骤S2中，包括子步骤：

的向量；M为整数，表示向量的长度；

S24，在合并向量后新增一个含

个神经元的全连接层以及输出为

维的高斯连接层，所述高斯连接层即为输出层；

4.根据权利要求3所述的基于特征检索的未知加密协议识别分类方法，其特征在于，在步骤S3中，将

5.根据权利要求1所述的基于特征检索的未知加密协议识别分类方法，其特征在于，在步骤S5中，所述在基准数据特征集中检索与该向量距离最近的基准特征向量

，包括基于

模型检索与该向量距离最近的基准特征向量

。

6.根据权利要求5所述的基于特征检索的未知加密协议识别分类方法，其特征在于，在步骤S6中，包括子步骤：

如果距离值

小于等于

，

，并且当待测样本被划分为确定类别的样本数量达到阈值

时，更新BallTree模型；

如果距离值

大于阈值

，则将其定义为第

类样本，更新

，并更新BallTree模型。

7.根据权利要求2所述的基于特征检索的未知加密协议识别分类方法，其特征在于，在步骤S11中，包括子步骤：采用按会话的流量分割方式对原始网络流量进行预处理。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载并执行如权利要求1~7任一项所述的方法。

9.一种可读存储介质，其特征在于，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如权利要求1~7任一项所述的方法。