CN115348198B - 基于特征检索的未知加密协议识别分类方法、设备及介质 - Google Patents
基于特征检索的未知加密协议识别分类方法、设备及介质 Download PDFInfo
- Publication number
- CN115348198B CN115348198B CN202211278610.9A CN202211278610A CN115348198B CN 115348198 B CN115348198 B CN 115348198B CN 202211278610 A CN202211278610 A CN 202211278610A CN 115348198 B CN115348198 B CN 115348198B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- feature
- vector
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/18—Protocol analysers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于特征检索的未知加密协议识别分类方法、设备及介质,属于网络安全领域,包括:S1,数据预处理;S2,模型构建、训练和优化;S3,将模型迁出,去除模型最后的全连接层和输出层,得到特征提取模型;S4,利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集;S5,输入待测样本并提取其特征向量,在基准数据特征集中检索与特征向量距离最近的基准特征向量;S6,对向量距离值判断,并进行模型更新或数据存储;S7,若所有簇的样本数量均小于阈值,则重复S5~S7。本发明在不对加密流量进行解密的情况下,自动提取网络流量特征,提高了效率,实现了对未知加密协议流量的精准识别和合理划分。
Description
技术领域
本发明涉及网络安全领域,更为具体的,涉及一种基于特征检索的未知加密协议识别分类方法、设备及介质。
背景技术
随着互联网技术的持续发展,人们生活水平的不断提高,网络中涌现出了越来越多的服务和应用,产生了海量的网络流量数据。与此同时,面对互联网中不断爆发的安全事件,用户愈发在意自身数据安全,网络服务和应用提供商大量的使用加密协议进行网络通信,导致网络中加密数据不断飙升。近年来,网络加密技术应用门槛不断降低,网络中的一些恶意软件也开始使用加密协议进行网络通信。多数时候,考虑到自身利益、安全等因素,各加密协议的协议细节并被公布。为营造清朗网络空间,提高网络流量的识别能力,在网络流量中的对未知加密协议进行识别与分类是十分必要的。
当前,在网络流量测量领域主要有基于网络固定端口的技术、基于网络流量负载分析的技术、基于网络流量行为的技术以及基于人工智能的网络流量分析技术。但由于端口复用、非标准协议等技术的兴起,基于固定端口的技术的识别效果越来越差。基于负载分析的技术需要先对已知流量做分析,提取已知类别网络流量载荷中的特定字符串作为特征,然后利用字符串匹配技术与待测流量进行匹配,进而完成流量识别过程,该技术无法应对加密流量和未知流量。
随着人工智能技术的不断发展,基于人工智能的未知流量识别方法逐渐成为流量识别领域的一个重要方向。此类方法通常是基于网络流量的统计特征,然后利用人工智能算法完成对未知网络流量的识别。例如Erman等人就分别使用了K-Mmeans和DBSCAN算法完成对未知流量的识别,并通过实验验证了聚类算法在未知流量识别方面的有效性。几年来,基于神经网络的流量识别方法在网络安全领域掀起了研究热潮。例如,2019年Zhang等人利用自编码器和网络流量自身的约束关系实现了未知流量识别;2020年顾存祥等人提出一种基于自编码器的网络流量无监督聚类方法,利用自编码器和KMeans聚类算法实现了基于网络流量的未知协议分类与识别;2021年Li等人考虑到现网环境下未知网络流量识别的效率问题,提出一种轻量级的未知流量识别模型LightSEEN,引入了一维卷积网络和深度残差网络实现了对网络流量的特征自动提取,并在未知网络流量识别领域取得了较好的成果;2022年Zhao等人将n-gram方法引入网络流量预处理,并结合深度神经网络技术和无监督聚类技术实现了一个用于未知网络流量识别的无监督方案。上述方法虽然都在未知网络流量识别领域取得了显著成果,但仍存在如下问题:
(1)未考虑未知加密网络流量的情况,特别是网络加密流量日益飙升的当下,考虑对未知加密网络流量的识别意义重大;
(2)针对只从提取网络流量统计特征(宏观特征)或只从网络流量本身出发提取特征(微观特征)的方法,它们均未将网络流量及其所处网络环境纳入整体考虑,提取的特征具有一定的局限性;
(3)仅识别出网络中的未知流量,而未对识别出的未知网络流量做进一步分析。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于特征检索的未知加密协议识别分类方法、设备及介质,提高了特征提取工作效率,实现在不对加密流量进行解密的情况下,自动提取网络流量特征,实现对未知加密协议流量的精准识别和合理划分,提高了未知加密协议分类效率,增强了识别能力。
本发明的目的是通过以下方案实现的:
一种基于特征检索的未知加密协议识别分类方法,包括步骤:
S1,数据预处理;
S2,模型构建、模型训练和模型优化;
S3,将步骤S2优化后的模型迁出,去除模型结构中最后的全连接层和输出层,得到一个特征提取模型;
S4,利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集;
进一步地,在步骤S1中,包括子步骤:
S11,对数据进行分割;
S12,分割会话后,去除会话中的重传包,并按时间戳进行排序;
S13,匿名化处理,去除特异性字段,所述特异性字段包括MAC、IP、PORT;
S17,按会话提取网络流量的统计特征,所述统计特征包括数据包长度、数据包包数量、载荷长度、数据包间隔时间。
进一步地,在步骤S2中,包括子步骤:
S21,构建自编码器网络,所述自编码器网络包括结构为28-20-10-20-28的自编码器网络;
S22,构建输入为图像,经Flatten操作、一维卷积层、Batch Normalization层和多层堆叠的残差层、下采样层和Flatten操作的深度残差网络;所述多层堆叠的残差层包括四层堆叠的残差层;
S25,输入预处理后的数据集并完成模型训练和优化:利用带协议标签的数据集对构建的模型进行训练并调优,得到最佳模型。
进一步地,在步骤S6中,包括子步骤:
如果距离值大于阈值,则说明该样本为未知协议流量,将其存储到数据
库DataBase中,并且当数据库DataBase中的样本数量超过时,调用SPECTRAL聚
类算法对BallTree中的样本进行聚类,如果聚类结果中有簇的样本数量超过阈值,则将其定义为第类样本,更新,并更新BallTree模型。
进一步地,在步骤S11中,包括子步骤:采用按会话的流量分割方式对原始网络流量进行预处理。
一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如上任一项所述的方法。
一种可读存储介质,在可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行如上任一项所述的方法。
本发明的有益效果是:
(1)本发明针对在不对加密流量进行解密的情况下,利用深度残差网络构建深度神经网络模型,通过将网络流量转换为图像的方式,自动提取网络流量特征。与此同时,本发明还提取了网络流量的统计特征作为特征补充,并利用自编码器实现对统计特征的降维。最后将深度残差网络和自编码器的输出经过向量组合连接后作为网络加密流量的特征向量,该向量不但考虑了加密流量的统计方面的特征,还考虑了加密流量原始的数据特征,在不解密流量的情况下分别从宏观和微观上实现了对加密流量的全方位描述。
(2)本发明利用已知网络加密协议流量作为训练数据,针对性的训练上述深度神经网络模型,得到适用于网络加密协议的最优N分类深度神经网络模型,最后将该模型迁出,去除模型最后的全连接层和输出层,得到针对网络加密协议流量的特征提取模型。该特征提取模型是利用训练集训练后裁剪得到的,在先前的训练和测试中已经证明了该模型在网络加密协议流量分类的正确性,因此将此模型迁出用于网络加密协议流量的特征提取更具针对性,得到的特征是能够真正用于网络加密协议流量分类的。
(3)本发明利用已知网络加密协议流量作为训练数据作为数据基准,结合特征提取模型得到基准特征集,并利用该特征集构造了BallTree模型,该模型相比于KD树模型其检索效率更高,更适合高维数据情形。当待测样本到来时,使用特征提取模型提取待测样本的特征向量,利用BallTree K近邻搜索算法检索距离待测向量最近的数据基准(K=1),通过判断该距离判断待测样本是否是未知加密协议流量数据。当未知加密协议流量数据累积到一定的数量后,结合SPECTRAL算法实现对未知加密协议流量的再分类。同时考虑到网络环境是不断在变化的,网络中的未知加密协议数量可能会不断的增长,为了让模型持续地实现对未知加密协议的识别,本发明提出将聚类得到的簇中样本数量满足要求的簇纳入数据基准,并更新BallTree模型,以此实现对未知加密协议的持续识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为残差块示意图;
图2为基于特征检索的未知加密协议识别与分类方法的主要步骤流程图;
图3为网络流量转换为图像的步骤流程图;
图4为模型构建与训练示意图;
图5为特征提取模型示意图;
图6为未知流量识别与分类流程图;
图1中,CONV 1D表示一维卷积层(1-D Convolutional);BN 1D一维表示归一化层(1-D Batch Normalization);本发明选用ReLU(Rectfier Linear Unit)函数为激活函数。
图4中,Flatten是展平层,是将多维输入一维化的操作;Reslayer表示残差层,每层残差层又包含两个残差块,残差块如图1所示;Avgpooling表示池化层,本发明采用平均池化方法;FullConnectLayer为全连接层;GaussicanConnectLayer为高斯连接层;N为最终特征向量维度。
图5中,Flatten是展平层,是将多维输入一维化的操作;Reslayer表示残差层;Avgpooling表示池化层,本发明采用平均池化方法。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明提出一种基于特征检索的未知加密协议识别与分类方法,如图1~图6所示,主要解决了如下的技术问题:
(1)针对人工特征工程严重依赖专家知识,且特征提取工作效率低下的问题。本发明实施例方法利用深度神经网络自动提取网络加密流量特征,同时在本发明构思中还考虑到基于深度神经网络在提取网络流量特征时对数据进行了截断和填充的操作,这可能导致会话数据的一部分结构化信息的丢失,因此还对原始流量提取了28种统计特征作为补充,共同构成了加密流量的综合特征。
(2)针对基于未知协议识别和分类任务中的特征工程目的性不强的问题。本发明构思中利用带标签的数据集针对性的训练神经网络模型,得到最优模型后将模型迁出,利用适用于加密协议分类的神经网络针对性的提取特征。
(3)针对目前对未知加密协议流量识别准确率不高,流量划分模糊的问题。本发明构思中以已知加密协议流量为数据基准,结合聚类算法实现对未知加密协议流量的精准识别和合理划分。
(4)针对未知加密协议分类效率不高,识别能力不强的问题。本发明构思中基于BallTree模型可以实现微秒级的未知协议流量分类能力的同时可以处理网络安全领域中的高维数据,并且也可以将已识别的未知协议流量纳入基准数据,从而实现模型的自动增长,进一步增强了模型的识别能力。
本发明实施例提出了一种基于特征检索的未知加密协议识别与分类方法,可用于:1)网络加密协议流量特征自动提取;2)未知网络加密协议流量自动识别;3)未知网络加密协议流量自动分类。如图2所示,该技术方案主要包括以下步骤:
步骤一:数据预处理,具体包括:
(1)按流量会话对数据进行分割,具体如下:
会话与流十分相似,就是将中的源和目的互换。本发明实施例的目的是识别网
络加密协议,而网络协议指的是计算机网络中相互通信的对等实体之间交换信息时所必须
的规则的集合。网络实体间的相互通信势必会产生大量的数据包交互,在进行数据预处理
时,为充分保留这种交互关系,本发明实施例采用按会话的流量分割方式对原始网络流量
进行预处理。
(2)分割会话后去除会话中的重传包,并按时间戳进行排序。
(3)匿名化处理,主要是去除MAC、IP、PORT等特异性字段,避免特异性字段给特征提取带来影响。
(7)按会话提取网络流量的统计特征,包括数据包长度、数据包包数量、载荷长度、数据包间隔时间等方面的统计特征,共计28个。
步骤二:模型构建、模型训练和模型优化,具体步骤如下:
1)构建结构为28-20-10-20-28的自编码器网络,即自编码器对统计特征的降维目标维度为10维。
2)构建输入为图像,经Flatten操作(多维→一维)、一维卷积层、BatchNormalization层和4层堆叠的残差层、下采样层和Flatten操作的深度残差网络。
5)输入预处理后的数据集并完成模型训练和优化:利用带协议标签的数据集对构建的模型进行训练并调优,得到最佳模型。
自编码器能够利用深度神经网络实现原始特征空间的自动映射,它是多层神经网络结构,是通过学习以不同约束条件将输入复制到输出的方式工作,例如通过限制内部表示的尺寸就可实现降维,或对输入数据增加噪声而输出能恢复真实未加噪声数据,从而达到去噪的目的等。本发明实施例将利用自编码器,通过改变自编码器中间层尺寸达到降维的目的。
卷积神经网络已经在图形图像识别、语音识别等多个领域得到了成功应用,例如物品识别、分类等。据YanLeCun的研究表明,数据在满足某些条件时均可使用卷积神经网络,这些条件或特点包括:数据为一维数据或多维数据;数据具有较强的局部相关性;数据的特征普遍性;数据稳定。本发明的发明人经过创造性的思考后认为,从本质上讲,网络流量是一种时序数据,是按照一定规则集组织起来的一维的字节流,数据包之间、会话之间、流之间具有很强的相关性。因此,本发明构思将一维卷积神经网络应用到网络结构构件中。
在本发明构思中将残差网络应用到网络流量特征提取中,在具体实施例中采用了四层残差层,每层残差层又包含两个残差块,图1表示一个残差块,一方面,在数据输入后依次经过一维卷积层一维卷积层(1-D Convolutional,简写为CONV 1D)、一维批标准化层(1-D Batch Normalization,简写为BN 1D)、线性整流(Rectfier Linear Unit,简写为ReLU)激活层、一维卷积层、一维批标准化层进行处理。另一方面,考虑模型退化问题,引入残差思想,同时将原始数据作为后续处理的重要元素之一。最后,应用向量加法操作将两方面数据进行综合处理后输入线性整流激活层即为输出。
步骤四:利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据
特征集。由于特征提取模型得到的特征维度较高(通常大于200维),因此,在经过创造性思
考后,本发明实施例技术方案采用善于处理高维数据的模型作为数据模型。
为解决KDTree在样本特征维度较高时检索效率低下的问题,有研究人员提出了
“BallTree”方案。KDTree是沿着坐标轴分割数据,而BallTree是在一系列嵌套的超球面上
分割数据,即使用的是超球面而不是矩形划分区域。具体而言,BallTree将数据递归地划分
到由球心和半径定义的节点上,以使得节点内的每一个点都位于球心和半径定义的
超球面上,并且在检索时通过使用三角不等式来减少候选节点的数量,从而加快检索速度。
对于一个由A个样本,样本维度为B的数据集,检索时间复杂度为,相比于蛮力检
索的提升不少。
(2)如果上述距离大于阈值,那么说明该样本为未知协议流量,将其存储
到数据库DataBase中,并且当数据库DataBase中的样本数量超过时,调用
SPECTRAL聚类算法对BallTree中的样本进行聚类,如果聚类结果中有簇的样本数量超过阈
值,则将其定义为第类样本,更新,并更新BallTree模
型。
本发明实施例采用了基于无监督的机器学习方法对未知网络加密流量进行分类。在表1中本发明的发明人对几种无监督聚类算法进行了比较,而在现网中通常并不知道具体有多少种未知网络加密协议,并且也不清楚其对应的数据分布情况。所以,在具体比较时,可以选择SPECTRAL算法作为未知网络加密流量的分类算法。
表 1 算法比较
算法 | 效率 | 聚类形状 | 抗干扰性 |
K-MEANS | 一般 | 凸型 | 较低 |
BIRCH | 很高 | 凸型 | 较低 |
CURE | 较高 | 任意形状 | 很高 |
DBSCAN | 一般 | 任意形状 | 较低 |
SPECTRAL | 较高 | 任意形状 | 不敏感 |
国内外针对未知网络协议识别与分类的研究有很多,但这些工作大多是针对网络中的非加密协议而言的,而在当前复杂的网络环境下,随着人们对个人隐私保护意识的不断增强,网络中使用未知加密协议进行数据通信的应用越来越多。此外,当前大多数的研究仅识别出未知网络流量,但并未对其做进一步的处理。本发明的主要分析对象就是未知加密协议流量,首先利用已知的网络加密协议流量为基准,识别出未知网络加密协议流量,在此基础之上利用BallTree模型和聚类算法完成未知加密协议的自动分类。
本发明实施例所具有的有益效果和优点详述如下:
首先,传统的基于专家知识的特征工程往往需要人工进行特征的提取,并且往往针对不同的流量分析任务需要设计不同的特征,而这个过程不但很消耗时间精力,设计的特征还需要经过进一步的分析和筛选才能更好完成任务。本发明实施例针对在不对加密流量进行解密的情况下,利用深度残差网络构建深度神经网络模型,通过将网络流量转换为图像的方式,自动提取网络流量特征。与此同时,考虑到在将网络流量转换为图像的过程中存在对数据包字节长度和数据包数量存在截断和填充的操作,而这可能会导致流量的一些结构化信息的损失,因此本发明实施例还提取了网络流量的统计特征作为特征补充,并利用自编码器实现对统计特征的降维。最后将深度残差网络和自编码器的输出经过向量组合连接后作为网络加密流量的特征向量,该向量不但考虑了加密流量的统计方面的特征,还考虑了加密流量原始的数据特征,在不解密流量的情况下分别从宏观和微观上实现了对加密流量的全方位描述。
其次,本发明实施例利用已知网络加密协议流量作为训练数据,针对性的训练上述深度神经网络模型,得到适用于网络加密协议的最优N分类深度神经网络模型,最后将该模型迁出,去除模型最后的全连接层和输出层,得到针对网络加密协议流量的特征提取模型。该特征提取模型是利用训练集训练后裁剪得到的,在先前的训练和测试中已经证明了该模型在网络加密协议流量分类的正确性,因此将此模型迁出用于网络加密协议流量的特征提取更具针对性,得到的特征是能够真正用于网络加密协议流量分类的。
最后,本发明实施例利用已知网络加密协议流量作为训练数据作为数据基准,结合特征提取模型得到基准特征集,并利用该特征集构造了BallTree模型,该模型相比于KD树模型其检索效率更高,更适合高维数据情形。当待测样本到来时,使用特征提取模型提取待测样本的特征向量,利用BallTree K近邻搜索算法检索距离待测向量最近的数据基准(K=1),通过判断该距离判断待测样本是否是未知加密协议流量数据。当未知加密协议流量数据累积到一定的数量后,结合SPECTRAL算法实现对未知加密协议流量的再分类。同时考虑到网络环境是不断在变化的,网络中的未知加密协议数量可能会不断的增长,为了让模型持续地实现对未知加密协议的识别,本发明实施例提出将聚类得到的簇中样本数量满足要求的簇纳入数据基准,并更新BallTree模型,以此实现对未知加密协议的持续识别。
实施例1
一种基于特征检索的未知加密协议识别分类方法,包括步骤:
S1,数据预处理;
S2,模型构建、模型训练和模型优化;
S3,将步骤S2优化后的模型迁出,去除模型结构中最后的全连接层和输出层,得到一个特征提取模型;
S4,利用特征提取模型从训练集中的原始流量数据中提取带标签的基准数据特征集;
实施例2
在实施例1的基础上,如图3所示,在步骤S1中,包括子步骤:
S11,对数据进行分割;
S12,分割会话后,去除会话中的重传包,并按时间戳进行排序;
S13,匿名化处理,去除特异性字段,所述特异性字段包括MAC、IP、PORT;
S17,按会话提取网络流量的统计特征,所述统计特征包括数据包长度、数据包包数量、载荷长度、数据包间隔时间。
实施例3
在实施例1的基础上,在步骤S2中,包括子步骤:
S21,构建自编码器网络,所述自编码器网络包括结构为28-20-10-20-28的自编码器网络;
S22,构建输入为图像,经Flatten操作、一维卷积层、Batch Normalization层和多层堆叠的残差层、下采样层和Flatten操作的深度残差网络;所述多层堆叠的残差层包括四层堆叠的残差层;
S25,输入预处理后的数据集并完成模型训练和优化:利用带协议标签的数据集对构建的模型进行训练并调优,得到最佳模型。
实施例4
实施例5
实施例6
实施例7
在实施例6的基础上,在步骤S6中,包括子步骤:
如果距离值大于阈值,则说明该样本为未知协议流量,将其存储到数据
库DataBase中,并且当数据库DataBase中的样本数量超过时,调用SPECTRAL聚
类算法对BallTree中的样本进行聚类,如果聚类结果中有簇的样本数量超过阈值,则将其定义为第类样本,更新,并更新BallTree模型。
实施例8
在实施例2的基础上,在步骤S11中,包括子步骤:采用按会话的流量分割方式对原始网络流量进行预处理。
实施例9
一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如实施例1~实施例8任一项所述的方法。
实施例10
一种可读存储介质,在可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行如实施例1~实施例8任一项所述的方法。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种基于特征检索的未知加密协议识别分类方法,其特征在于,包括步骤:
S1,数据预处理;
S2,模型构建、模型训练和模型优化;
S3,将步骤S2优化后的模型迁出,去除模型结构中最后的全连接层和输出层,得到一个特征提取模型;
2.根据权利要求1所述的基于特征检索的未知加密协议识别分类方法,其特征在于,在步骤S1中,包括子步骤:
S11,对数据进行分割;
S12,分割会话后,去除会话中的重传包,并按时间戳进行排序;
S13,匿名化处理,去除特异性字段,所述特异性字段包括MAC、IP、PORT;
S17,按会话提取网络流量的统计特征,所述统计特征包括数据包长度、数据包包数量、载荷长度、数据包间隔时间。
3.根据权利要求1所述的基于特征检索的未知加密协议识别分类方法,其特征在于,在步骤S2中,包括子步骤:
S21,构建自编码器网络,所述自编码器网络包括结构为28-20-10-20-28的自编码器网络;
S22,构建输入为图像,经Flatten操作、一维卷积层、Batch Normalization层和多层堆叠的残差层、下采样层和Flatten操作的深度残差网络;所述多层堆叠的残差层包括四层堆叠的残差层;
S25,输入预处理后的数据集并完成模型训练和优化:利用带协议标签的数据集对构建的模型进行训练并调优,得到最佳模型。
7.根据权利要求2所述的基于特征检索的未知加密协议识别分类方法,其特征在于,在步骤S11中,包括子步骤:采用按会话的流量分割方式对原始网络流量进行预处理。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如权利要求1~7任一项所述的方法。
9.一种可读存储介质,其特征在于,在可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211278610.9A CN115348198B (zh) | 2022-10-19 | 2022-10-19 | 基于特征检索的未知加密协议识别分类方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211278610.9A CN115348198B (zh) | 2022-10-19 | 2022-10-19 | 基于特征检索的未知加密协议识别分类方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115348198A CN115348198A (zh) | 2022-11-15 |
CN115348198B true CN115348198B (zh) | 2023-03-21 |
Family
ID=83957013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211278610.9A Active CN115348198B (zh) | 2022-10-19 | 2022-10-19 | 基于特征检索的未知加密协议识别分类方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115348198B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115883263B (zh) * | 2023-03-02 | 2023-05-09 | 中国电子科技集团公司第三十研究所 | 基于多尺度载荷语义挖掘的加密应用协议类型识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8374974B2 (en) * | 2003-01-06 | 2013-02-12 | Halliburton Energy Services, Inc. | Neural network training data selection using memory reduced cluster analysis for field model development |
US20050060295A1 (en) * | 2003-09-12 | 2005-03-17 | Sensory Networks, Inc. | Statistical classification of high-speed network data through content inspection |
US10547674B2 (en) * | 2012-08-27 | 2020-01-28 | Help/Systems, Llc | Methods and systems for network flow analysis |
CN107396306A (zh) * | 2017-06-30 | 2017-11-24 | 北京奇虎科技有限公司 | 基于移动终端的用户活动状态识别方法、装置及移动终端 |
CN110232329B (zh) * | 2019-05-23 | 2023-04-18 | 星际空间(天津)科技发展有限公司 | 基于深度学习的点云分类方法、装置、存储介质及设备 |
CN111131069B (zh) * | 2019-11-25 | 2021-06-08 | 北京理工大学 | 一种基于深度学习策略的异常加密流量检测与分类方法 |
CN112994984B (zh) * | 2021-04-15 | 2021-07-30 | 紫光恒越技术有限公司 | 识别协议及内容的方法、存储设备、安全网关、服务器 |
CN113315721B (zh) * | 2021-05-26 | 2023-01-17 | 恒安嘉新(北京)科技股份公司 | 一种网络数据特征处理方法、装置、设备及存储介质 |
-
2022
- 2022-10-19 CN CN202211278610.9A patent/CN115348198B/zh active Active
Non-Patent Citations (1)
Title |
---|
An Optimization Model for Landscape Planninig and Environmental Design of Smart Cities Based on Big Data Analysis;LiWei Yu et.al;《Scientific Programming》;20220420;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115348198A (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109951444B (zh) | 一种加密匿名网络流量识别方法 | |
CN113037730B (zh) | 基于多特征学习的网络加密流量分类方法及系统 | |
Wang et al. | App-net: A hybrid neural network for encrypted mobile traffic classification | |
WO2022257436A1 (zh) | 基于无线通信网络数据仓库构建方法、系统、设备及介质 | |
CN108540338B (zh) | 基于深度循环神经网络的应用层通信协议识别的方法 | |
CN113762377B (zh) | 网络流量识别方法、装置、设备及存储介质 | |
CN114333064B (zh) | 基于多维原型重构增强学习的小样本行为识别方法及系统 | |
CN115348198B (zh) | 基于特征检索的未知加密协议识别分类方法、设备及介质 | |
CN111817971B (zh) | 一种基于深度学习的数据中心网络流量拼接方法 | |
CN110134719A (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN112633051A (zh) | 一种基于图像搜索的在线人脸聚类方法 | |
Aouedi et al. | Performance evaluation of feature selection and tree-based algorithms for traffic classification | |
Soleymanpour et al. | An efficient deep learning method for encrypted traffic classification on the web | |
Xue et al. | Classification and identification of unknown network protocols based on CNN and T-SNE | |
CN114095447A (zh) | 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法 | |
Doshi et al. | Zero-shot action recognition with transformer-based video semantic embedding | |
CN112383488A (zh) | 一种适用于加密与非加密数据流的内容识别方法 | |
CN112508726A (zh) | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 | |
CN114124437B (zh) | 基于原型卷积网络的加密流量识别方法 | |
CN111160077A (zh) | 一种大规模人脸动态聚类方法 | |
Yang et al. | Deep learning-based reverse method of binary protocol | |
CN114554491A (zh) | 基于改进ssae和dnn模型的无线局域网入侵检测方法 | |
CN114021637A (zh) | 一种基于度量空间下去中心化应用加密流量分类方法及装置 | |
CN114124565A (zh) | 一种基于图嵌入的网络入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |