CN113037730A - 基于多特征学习的网络加密流量分类方法及系统 - Google Patents
基于多特征学习的网络加密流量分类方法及系统 Download PDFInfo
- Publication number
- CN113037730A CN113037730A CN202110221394.3A CN202110221394A CN113037730A CN 113037730 A CN113037730 A CN 113037730A CN 202110221394 A CN202110221394 A CN 202110221394A CN 113037730 A CN113037730 A CN 113037730A
- Authority
- CN
- China
- Prior art keywords
- traffic
- feature
- vector
- data packet
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 94
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000013136 deep learning model Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于网络安全技术领域,特别涉及一种基于多特征学习的网络加密流量分类方法及系统,包含:通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。本发明能够从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类能力,具有较好的应用价值。
Description
技术领域
本发明属于网络安全技术领域,特别涉及一种基于多特征学习的网络加密流量分类方法及系统。
背景技术
近年来,由于加密技术的不断发展,流量加密技术在互联网上得到了广泛的应用。加密技术不仅保护了普通互联网用户的隐私和匿名性,同时也能使用户绕开防火墙和监控系统的检测,这就使得恶意用户有了可乘之机,例如,攻击者对恶意软件通信进行加密,以匿名入侵和攻击系统等。可以说,加密技术的滥用给网络安全和网络管理带来了新的威胁。因此,加密流量分类的识别和分类问题引起了学术界和工业界的广泛关注。流量分类是将网络流量准确识别为特定类别的任务,对许多应用程序都起着重要作用,如服务质量控制、恶意软件检测和入侵检测等。随着时间的推移和科技的进步,流量分类技术已经有了显著的发展。目前,流量分类技术主要有四种方法:基于端口号、基于内容、基于机器学习以及基于深度学习的分类方法。基于端口号对流量进行分类是最简单的一种分类方法。但是由于随机端口分配和端口伪装等技术的发展,这种方法的精度很低,一般不单独使用,而是和其他方法结合,一起进行流量分类。基于内容的流量分类方法依赖于深度数据包检测(DeepPacket Inspection,DPI),通过提取数据包中的关键字与DPI指纹库数据进行特征匹配,从而确定每个应用程序类型。但由于技术性和隐私性等因素无法对加密流量解密,这种方法不适用于加密流量。基于机器学习的流量分类方法的一般工作流程为:首先专家手动进行特征设计,然后从原始流量数据集中进行特征提取,最后将提取的特征输入到机器学习分类器(如决策树或朴素贝叶斯等)中对流量进行分类。可以看出,基于机器学习的分类方法高度依赖人工进行特征选择和提取,极大限制了它们的性能和通用性;而且所有的步骤都是独立的,即使每个步骤都得到了最好的结果,全局的结果也不一定是最优解。
针对机器学习的这些弊端,深度学习模型应运而生。相对于机器学习模型,深度学习模型通过训练自动进行特征选择和提取,不需要人工干涉。在当今流量新类型不断出现、旧类模式不断演变的情况下,这种特性使得深度学习成为一种高效的流量分类方法。深度学习的另一个重要的特性是其强大的学习能力,可以从高度复杂的环境中学习更多特征,从而获得较高的精度和准确率。此外,深度学习作为一种端到端的方法,能够自动学习原始流量与对应类别之间的非线性关系,各步骤之间是统一而非独立的,可以通过训练得到一个全局最优解。在加密流量分类这一领域,已经有很多基于深度学习的研究,但是大多数研究中流量特征通常只用到了空间特征或者时序特征中的某一种,而非全部。这样做虽然能够节省计算和存储开销,但是必然会影响到模型的分类性能。
发明内容
为此,本发明提供一种基于多特征学习的网络加密流量分类方法及系统,能够从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类能力。
按照本发明所提供的设计方案,提供一种基于多特征学习的网络加密流量分类方法,包含:
通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,预处理中,依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,切分中,按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量数据进行切分,得到双向网络流数据。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,清理中,删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包,并利用0x00覆盖IP地址段进行流匿名化操作。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,长度统一中,通过丢弃或补入将流数据包数设定为统一的固定长度;归一化处理中,将每个数据包向量归一化到[0,1]范围内,使得每条数据流形成统一长度的一维流量数据包向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,多通道CNN模型中,利用卷积核从数据包向量中提取空间特征,通过池化层获取一组数据包特征向量矩阵,并利用flatten层将矩阵转换为一维向量,再通过全连接层来获取数据包空间特征向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,LSTM模型中,将数据包向量以时间序列作为模型输入,利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出,通过循环来获取流量时序特征向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,将多通道CNN模型与LSTM输出的特征向量进行拼接,得到全方位流量特征向量,长度表示为2*q,其中,q为多通道CNN模型与LSTM输出两者输出的特征向量长度。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,神经网络全连接层通过softmax函数获取流量类型概率,取概率最高的类作为最后的加密流量分类结果,其中,softmax函数概率计算公式表示为:zi为输出单元的输出值,i为加密流量类别索引,k为加密流量类别总数。
进一步地,本发明还提供一种基于多特征学习的网络加密流量分类系统,包含:预处理模块、并行学习模块、向量拼接模块和分类识别模块,其中,
预处理模块,用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
并行学习模块,用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
向量拼接模块,用于将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
分类识别模块,用于将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
本发明的有益效果:
本发明综合使用两种深度学习模型,以并行的方式提取流量的空间特征和时序特征,避免了传统方法分类准确率低以及两种模型串行工作计算时后面模型的输入依赖于前面模型的输出等这些问题,在加快了计算和分类速度的同时,从多维度充分利用流量特征以提高加密流量分类精度。在加密流量分类这一领域首次使用多通道CNN模型,能够对流中的数据包同时进行特征提取,有效利用了包级特征;基于深度学习模型进行加密流量分类,能够自动进行特征提取,避免了繁杂的人工特征选择和提取过程。两种深度学习模型相互独立,互不影响,其内部构造可以适当进行修改,比如增加或减少多通道CNN中卷积层和池化层的数量等,只需最后输出的向量维度一致即可,从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类识别能力。
附图说明:
图1为实施例中基于多特征学习的网络加密流量分类流程示意图;
图2为实施例中多通道CNN特征提取流程示意;
图3为实施例中单个LSTM细胞结构示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
针对加密流量分类,本发明实施例,参见图1所示,提供一种基于多特征学习的网络加密流量分类方法,包含:通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
综合使用两种深度学习模型,以并行的方式提取流量的空间特征和时序特征,避免了传统方法分类准确率低以及两种模型串行工作计算时后面模型的输入依赖于前面模型的输出等这些问题,在加快了计算和分类速度的同时,从多维度充分利用流量特征以提高加密流量分类精度。
作为实施例中本发明基于多特征学习的网络加密流量分类方法,进一步地,预处理中,依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。
进一步地,切分中,按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量数据进行切分,得到双向网络流数据。
进一步地,清理中,删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包,并利用0x00覆盖IP地址段进行流匿名化操作。删除重复的流;删除不包含与流量分类所需特征无关的以太网头;删除空数据包;此外,因为神经网络可能通过学习IP地址对流量进行分类,为了防止过拟合,提高模型的泛化能力,将IP地址设为0,使流匿名化。
进一步地,长度统一中,通过丢弃或补入将流数据包数设定为统一的固定长度;归一化处理中,将每个数据包向量归一化到[0,1]范围内,使得每条数据流形成统一长度的一维流量数据包向量。
将每条流的数据包数固定为n,如果流中包含的数据包数大于n,则丢弃其他数据包,如果小于n,则通过重复最后一个数据包至总数为n,即:
为了使传输层段均匀,在UDP段的标头(8字节)末尾填充0,以使其与TCP标头的长度(20字节)相等;此外,将每个数据包字节数固定为M,在实现传输层段均匀后,如果数据包的字节数大于M,则截断,如果小于M,则补0至M字节。
将每个数据包向量除以255,归一化到[0,1]范围内,每条流形成n个长度为M的一维数据包向量,作为后续深度学习模型的输入,表示为:
作为本发明实施例中基于多特征学习的网络加密流量分类方法,进一步地,多通道CNN模型中,利用卷积核从数据包向量中提取空间特征,通过池化层获取一组数据包特征向量矩阵,并利用flatten层将矩阵转换为一维向量,再通过全连接层来获取数据包空间特征向量。
如图2所示,借鉴RGB图像特征提取思想,将步骤1中预处理后的数据包向量作为多通道CNN的输入,通道数为n,即每条流的固定数据包数量。通过多通道CNN的卷积核从数据包特征向量中自动提取空间特征,通过池化层获取维度较低的更具有代表性的特征。在该步骤中,共使用了两个卷积层、两个池化层。第一个卷积层的卷积核数量设置为32,滤波器大小为[25,1,n],步长为1;第二个卷积层的卷积核数量设置为64,滤波器大小为[25,1,32],步长为1;所有卷积层均使用ReLU作为激活函数,ReLu函数表达式为ReLU(x)=max(0,x);池化层采用最大池化处理技术(即maxpooling),池化窗口大小为3,步长为3,即在每个步骤中,max pooling处理一个大小为[3,1]的向量输入,过程如下所示:maxpooling[x1,x2,x3]=max(x1,x2,x3)。通过池化层后,得到一组一维数据包特征向量,数量取决于上一层卷积核的个数,将这组向量构成一个矩阵,通过flatten层转换为一维向量,再经过全连接层Fc,最终得到一个长度为q的一维流特征向量,其中,q的大小取决于全连接层神经元的个数;flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡。表1给出了所用多通道CNN的结构和参数。
表1所用CNN的结构和参数
作为本发明实施例中基于多特征学习的网络加密流量分类方法,进一步地,LSTM模型中,将数据包向量以时间序列作为模型输入,利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出,通过循环来获取流量时序特征向量。
n个数据包向量作为LSTM的输入,以时间序列T=n输入到LSTM中,自动提取流的时间特征,最后输出一个长度为q的一维流特征向量。其中,q可以通过控制LSTM中隐藏单元数来控制其大小。如图3所示,LSTM通过遗忘门、输入门、输出门三个门来记忆某一时刻之前的信息,并利用之前的信息影响当前时刻的输出。下面以单个LSTM细胞结构为例来解释其运算步骤:
遗忘门决定应丢弃或保留哪些信息。来自前一个隐藏状态的信息和当前输入的信息同时传递到sigmoid函数中去,输出值介于0和1之间,越接近0意味着越应该丢弃,越接近1意味着越应该保留。在t时刻(0≤t<n)遗忘门的运算公式为:
输入门用于更新细胞状态。在t时刻(0≤t<n)输入门的运算公式为:
输出门用来确定下一个隐藏状态的值,隐藏状态包含了先前输入的信息。输出门的计算公式为:
ot=sigmoid(wo·[ht-1,Pt i]+bo),
ht=ot*tanh(Ct)
上述过程不断循环,LSTM最终时刻的输出包含之前所有时刻的信息,从而学习到了整条流的时序特征。
将多通道CNN模型与LSTM输出的特征向量进行拼接,得到全方位流量特征向量,长度表示为2*q,其中,q为多通道CNN模型与LSTM输出两者输出的特征向量长度。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,神经网络全连接层通过softmax函数获取流量类型概率,取概率最高的类作为最后的加密流量分类结果,其中,softmax函数概率计算公式表示为:zi为输出单元的输出值,i为加密流量类别索引,k为加密流量类别总数。得到的总的流量特征向量表示输入到神经网络全连接层,最后通过softmax函数计算该流属于各类应用的概率,取概率最高的那类作为最后的分类结果,以此实现加密流量分类。其中全连接层可以有多层。
进一步地,基于上述的方法,本发明实施例还提供一种基于多特征学习的网络加密流量分类系统,包含:预处理模块、并行学习模块、向量拼接模块和分类识别模块,其中,
预处理模块,用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
并行学习模块,用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
向量拼接模块,用于将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
分类识别模块,用于将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于多特征学习的网络加密流量分类方法,其特征在于,包含:
通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
2.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,预处理中,依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。
3.根据权利要求2所述的基于多特征学习的网络加密流量分类方法,其特征在于,切分中,按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量数据进行切分,得到双向网络流数据。
4.根据权利要求2所述的基于多特征学习的网络加密流量分类方法,其特征在于,清理中,删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包,并利用0x00覆盖IP地址段进行流匿名化操作。
5.根据权利要求2所述的基于多特征学习的网络加密流量分类方法,其特征在于,长度统一中,通过丢弃或补入将流数据包数设定为统一的固定长度;归一化处理中,将每个数据包向量归一化到[0,1]范围内,使得每条数据流形成统一长度的一维流量数据包向量。
6.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,多通道CNN模型中,利用卷积核从数据包向量中提取空间特征,通过池化层获取一组数据包特征向量矩阵,并利用flatten层将矩阵转换为一维向量,再通过全连接层来获取数据包空间特征向量。
7.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,LSTM模型中,将数据包向量以时间序列作为模型输入,利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出,通过循环来获取流量时序特征向量。
8.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,将多通道CNN模型与LSTM输出的特征向量进行拼接,得到全方位流量特征向量,长度表示为2*q,其中,q为多通道CNN模型与LSTM输出两者输出的特征向量长度。
10.一种基于多特征学习的网络加密流量分类系统,其特征在于,包含:预处理模块、并行学习模块、向量拼接模块和分类识别模块,其中,
预处理模块,用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
并行学习模块,用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
向量拼接模块,用于将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
分类识别模块,用于将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221394.3A CN113037730B (zh) | 2021-02-27 | 2021-02-27 | 基于多特征学习的网络加密流量分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221394.3A CN113037730B (zh) | 2021-02-27 | 2021-02-27 | 基于多特征学习的网络加密流量分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113037730A true CN113037730A (zh) | 2021-06-25 |
CN113037730B CN113037730B (zh) | 2023-06-20 |
Family
ID=76464659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221394.3A Active CN113037730B (zh) | 2021-02-27 | 2021-02-27 | 基于多特征学习的网络加密流量分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113037730B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113452810A (zh) * | 2021-07-08 | 2021-09-28 | 恒安嘉新(北京)科技股份公司 | 一种流量分类方法、装置、设备和介质 |
CN113556328A (zh) * | 2021-06-30 | 2021-10-26 | 杭州电子科技大学 | 基于深度学习的加密流量分类方法 |
CN113627502A (zh) * | 2021-07-30 | 2021-11-09 | 中国人民解放军战略支援部队信息工程大学 | 一种网络加密流量分类方法 |
CN113783795A (zh) * | 2021-07-19 | 2021-12-10 | 北京邮电大学 | 加密流量分类方法及相关设备 |
CN113794687A (zh) * | 2021-08-17 | 2021-12-14 | 北京天融信网络安全技术有限公司 | 基于深度学习的恶意加密流量检测方法及装置 |
CN114205151A (zh) * | 2021-12-12 | 2022-03-18 | 南京理工大学 | 基于多特征融合学习的http/2页面访问流量识别方法 |
CN114301636A (zh) * | 2021-12-10 | 2022-04-08 | 南京理工大学 | 基于流量多尺度时空特征融合的vpn通信行为分析方法 |
CN114615093A (zh) * | 2022-05-11 | 2022-06-10 | 南京信息工程大学 | 基于流量重构与继承学习的匿名网络流量识别方法及装置 |
CN114884896A (zh) * | 2022-05-07 | 2022-08-09 | 大连理工大学 | 一种基于特征扩展和自动机器学习的移动应用流量感知方法 |
CN115314265A (zh) * | 2022-07-27 | 2022-11-08 | 天津市国瑞数码安全系统股份有限公司 | 基于流量和时序识别tls加密应用的方法和系统 |
CN115563610A (zh) * | 2022-12-05 | 2023-01-03 | 江苏新希望科技有限公司 | 入侵检测模型的训练方法、识别方法和装置 |
CN114401229B (zh) * | 2021-12-31 | 2023-09-19 | 北京理工大学 | 一种基于Transformer深度学习模型的加密流量识别方法 |
WO2024180543A1 (en) * | 2023-02-27 | 2024-09-06 | Ariel Scientific Innovations Ltd. | System and method of classifying network traffic |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018086513A1 (zh) * | 2016-11-08 | 2018-05-17 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及装置 |
CN110110707A (zh) * | 2019-05-24 | 2019-08-09 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络动态识别系统 |
CN112054967A (zh) * | 2020-08-07 | 2020-12-08 | 北京邮电大学 | 网络流量分类方法、装置、电子设备及存储介质 |
CN112163594A (zh) * | 2020-08-28 | 2021-01-01 | 南京邮电大学 | 一种网络加密流量识别方法及装置 |
CN112235257A (zh) * | 2020-09-24 | 2021-01-15 | 中国人民解放军战略支援部队信息工程大学 | 融合式加密恶意流量检测方法及系统 |
-
2021
- 2021-02-27 CN CN202110221394.3A patent/CN113037730B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018086513A1 (zh) * | 2016-11-08 | 2018-05-17 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及装置 |
CN110110707A (zh) * | 2019-05-24 | 2019-08-09 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络动态识别系统 |
CN112054967A (zh) * | 2020-08-07 | 2020-12-08 | 北京邮电大学 | 网络流量分类方法、装置、电子设备及存储介质 |
CN112163594A (zh) * | 2020-08-28 | 2021-01-01 | 南京邮电大学 | 一种网络加密流量识别方法及装置 |
CN112235257A (zh) * | 2020-09-24 | 2021-01-15 | 中国人民解放军战略支援部队信息工程大学 | 融合式加密恶意流量检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
YONG ZHANG等: "Network Intrusion Detection:Based on Hierarchical Network and Original Flow Deep Data", 《IEEE ACCESS》, 3 April 2019 (2019-04-03), pages 37004 - 37016 * |
吴迪等: "BotCatcher:基于深度学习的僵尸网络检测系统", 《通信学报》, no. 08, 25 August 2018 (2018-08-25), pages 20 - 26 * |
周衍挺;: "基于改进的多通道卷积神经网络模型的图像分类方法", 佳木斯大学学报(自然科学版), no. 06 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113556328A (zh) * | 2021-06-30 | 2021-10-26 | 杭州电子科技大学 | 基于深度学习的加密流量分类方法 |
CN113452810A (zh) * | 2021-07-08 | 2021-09-28 | 恒安嘉新(北京)科技股份公司 | 一种流量分类方法、装置、设备和介质 |
CN113783795B (zh) * | 2021-07-19 | 2023-07-25 | 北京邮电大学 | 加密流量分类方法及相关设备 |
CN113783795A (zh) * | 2021-07-19 | 2021-12-10 | 北京邮电大学 | 加密流量分类方法及相关设备 |
CN113627502A (zh) * | 2021-07-30 | 2021-11-09 | 中国人民解放军战略支援部队信息工程大学 | 一种网络加密流量分类方法 |
CN113794687A (zh) * | 2021-08-17 | 2021-12-14 | 北京天融信网络安全技术有限公司 | 基于深度学习的恶意加密流量检测方法及装置 |
CN114301636A (zh) * | 2021-12-10 | 2022-04-08 | 南京理工大学 | 基于流量多尺度时空特征融合的vpn通信行为分析方法 |
CN114205151A (zh) * | 2021-12-12 | 2022-03-18 | 南京理工大学 | 基于多特征融合学习的http/2页面访问流量识别方法 |
CN114401229B (zh) * | 2021-12-31 | 2023-09-19 | 北京理工大学 | 一种基于Transformer深度学习模型的加密流量识别方法 |
CN114884896B (zh) * | 2022-05-07 | 2023-10-03 | 大连理工大学 | 一种基于特征扩展和自动机器学习的移动应用流量感知方法 |
CN114884896A (zh) * | 2022-05-07 | 2022-08-09 | 大连理工大学 | 一种基于特征扩展和自动机器学习的移动应用流量感知方法 |
CN114615093B (zh) * | 2022-05-11 | 2022-07-26 | 南京信息工程大学 | 基于流量重构与继承学习的匿名网络流量识别方法及装置 |
CN114615093A (zh) * | 2022-05-11 | 2022-06-10 | 南京信息工程大学 | 基于流量重构与继承学习的匿名网络流量识别方法及装置 |
CN115314265B (zh) * | 2022-07-27 | 2023-07-18 | 天津市国瑞数码安全系统股份有限公司 | 基于流量和时序识别tls加密应用的方法和系统 |
CN115314265A (zh) * | 2022-07-27 | 2022-11-08 | 天津市国瑞数码安全系统股份有限公司 | 基于流量和时序识别tls加密应用的方法和系统 |
CN115563610A (zh) * | 2022-12-05 | 2023-01-03 | 江苏新希望科技有限公司 | 入侵检测模型的训练方法、识别方法和装置 |
WO2024180543A1 (en) * | 2023-02-27 | 2024-09-06 | Ariel Scientific Innovations Ltd. | System and method of classifying network traffic |
Also Published As
Publication number | Publication date |
---|---|
CN113037730B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113037730B (zh) | 基于多特征学习的网络加密流量分类方法及系统 | |
CN112163594B (zh) | 一种网络加密流量识别方法及装置 | |
CN113162908B (zh) | 一种基于深度学习的加密流量检测方法及系统 | |
Rezaei et al. | Deep learning for encrypted traffic classification: An overview | |
CN109951444B (zh) | 一种加密匿名网络流量识别方法 | |
Marín et al. | Rawpower: Deep learning based anomaly detection from raw network traffic measurements | |
CN114615093B (zh) | 基于流量重构与继承学习的匿名网络流量识别方法及装置 | |
Yang et al. | TLS/SSL encrypted traffic classification with autoencoder and convolutional neural network | |
CN111131069B (zh) | 一种基于深度学习策略的异常加密流量检测与分类方法 | |
CN110751222A (zh) | 基于cnn和lstm的在线加密流量分类方法 | |
CN110417729B (zh) | 一种加密流量的服务与应用分类方法及系统 | |
CN110796196A (zh) | 一种基于深度判别特征的网络流量分类系统及方法 | |
CN111565156B (zh) | 一种对网络流量识别分类的方法 | |
CN113329023A (zh) | 一种加密流量恶意性检测模型建立、检测方法及系统 | |
Wang et al. | Automatic mobile app identification from encrypted traffic with hybrid neural networks | |
CN113472751B (zh) | 一种基于数据包头的加密流量识别方法及装置 | |
Soleymanpour et al. | An efficient deep learning method for encrypted traffic classification on the web | |
CN114239737A (zh) | 一种基于时空特征与双层注意力的加密恶意流量检测方法 | |
CN112910853A (zh) | 基于混合特征的加密流量分类方法 | |
CN114401229A (zh) | 一种基于Transformer深度学习模型的加密流量识别方法 | |
CN116318928A (zh) | 一种基于数据增强和特征融合的恶意流量识别方法及系统 | |
CN112383488B (zh) | 一种适用于加密与非加密数据流的内容识别方法 | |
Ding et al. | Network attack detection method based on convolutional neural network | |
Cui et al. | Semi-2DCAE: a semi-supervision 2D-CNN AutoEncoder model for feature representation and classification of encrypted traffic | |
CN116451138A (zh) | 基于多模态学习的加密流量分类方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |