CN114257428A - 一种基于深度学习的加密网络流量识别及分类方法 - Google Patents

一种基于深度学习的加密网络流量识别及分类方法 Download PDF

Info

Publication number
CN114257428A
CN114257428A CN202111509168.1A CN202111509168A CN114257428A CN 114257428 A CN114257428 A CN 114257428A CN 202111509168 A CN202111509168 A CN 202111509168A CN 114257428 A CN114257428 A CN 114257428A
Authority
CN
China
Prior art keywords
encrypted network
network traffic
feature
deep learning
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111509168.1A
Other languages
English (en)
Other versions
CN114257428B (zh
Inventor
凌捷
康健豪
罗玉
黄慧武
区奕宁
区旸
刘艺彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
China ComService Construction Co Ltd
Original Assignee
Guangdong University of Technology
China ComService Construction Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology, China ComService Construction Co Ltd filed Critical Guangdong University of Technology
Priority to CN202111509168.1A priority Critical patent/CN114257428B/zh
Publication of CN114257428A publication Critical patent/CN114257428A/zh
Application granted granted Critical
Publication of CN114257428B publication Critical patent/CN114257428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度学习的加密网络流量识别及分类方法,所述识别方法包括以下步骤:S1:获取加密网络流量数据并进行预处理得到若干单独的会话;S2:对于预处理后的流量数据进行统计特征的选择;S3:对预处理后的流量数据进行有效载荷截取;S4:将统计特征和有效载荷进行特征整合并进行特征标准化;S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;S6:利用训练好的识别模型对加密网络流量进行识别和分类。本发明提高了加密网络流量识别及分类的准确度,实现了更高的分类性能,并且能够对细粒度的加密网络流量进行识别和分类同时具有更强的场景适用性。

Description

一种基于深度学习的加密网络流量识别及分类方法
技术领域
本发明涉及计算机网络安全领域,更具体地,涉及一种基于深度学习的加密网络流量识别及分类方法。
背景技术
网络流量分类是指将相似或相关的流量数据归为同一类别,准确实时的网络流量分类对网络管理、安全监控和入侵检测都是至关重要。但随着网络技术的不断发展和网络规模的迅速扩大,人们对隐私保护的需求增加,VPN、Tor等具有加密与匿名性的网络技术被用于网络通信的隐私保护。这些技术给普通用户带来便利的同时,也被许多非法分子利用,在匿名网络中利用流量加密技术进行传播恶意软件、分发违法内容和入侵网络主机系统等违法犯罪行为。现今,传统的网络流量分类方法无法应对现今的网络环境,给网络监管带来巨大困难。
传统的网络流量分类方案可分为基于端口和基于有效载荷两种方法,这两类方法均有较大局限性。端口隐藏和动态端口技术的广泛使用,使得基于端口的分类方法已趋于无效;同时,现今大部分流量数据都以加密形式传输,使得基于有效载荷的方法无法获取加密流量中的特征字串,并且其需要访问流量的有效载荷,一定程度上侵犯用户隐私,因此这种方法也存在缺陷。
近年来,机器学习方法被用于网络流量识别与分类中,与传统的方法比较,机器学习方法有更好的分类精度和拓展性,但这些方法也存在不足。
一是依赖人工特征作为分类依据,需要专业人士进行流量特征的统计、手工提取,再使用机器学习的方法进行训练并识别。这需要丰富的专业背景,并且难以泛化推广使用;
二是由于在实际网络中加密网络流量的类别多样,获取的样本往往极不平衡,导致分类性能低。有学者提出使用对抗生成网络进行数据生成,但对抗生成网络训练数据计算开销大,且极不稳定,数据生成难度大。
三是分类的粒度不够精细,现有研究大多集中在加密流量服务类别的分类,对具体应用类别的分类研究较少,没有综合考虑加密网络流量的统计特征和有效载荷深层特征,因而对细粒度的加密网络流量分类性能较差。
综上所述,上述方案均有不足,或者方法陈旧不适用于当今的网络环境;或者仅依赖人工选择的特征进行分类,忽略加密流量深层特征,且未考虑样本不均衡的问题,细粒度加密网络流量分类性能较差。因此,亟需提出一种能对加密网络流量进行准确分类的方法。
发明内容
本发明为克服上述现有技术中对加密网络流量识别方法分类性能和分类准确度较低的缺陷,提供一种基于深度学习的加密网络流量识别及分类方法。
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于深度学习的加密网络流量识别方法,包括以下步骤:
S1:获取加密网络流量数据并进行预处理得到若干单独的会话;
S2:对于预处理后的流量数据进行统计特征的选择;
S3:对预处理后的流量数据进行有效载荷截取;
S4:将统计特征和有效载荷进行特征整合并进行特征标准化;
S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;
S6:利用训练好的识别模型对加密网络流量进行识别。
进一步的,步骤S1所述的获取加密网络流量数据并进行预处理具体步骤为:
利用网络抓包工具收集网络通信工具通信的加密网络流量;
对格式为pcap的原始流量文件进行清洗;
将清洗后的原始流量切分成多个单独的会话。
进一步的,步骤S2所述的对于预处理后的流量数据进行统计特征的选择具体步骤为:
利用网络流量特征提取工具提取每个会话的统计特征;
删除Flow ID、Src IP、Dst IP、Timestamp这4个与分类无关的特征,保留其余网络流量统计特征作为识别模型训练的输入之一。
进一步的,步骤S3所述的对预处理后的流量数据进行有效载荷截取具体步骤为:
截取每条切分后的流量会话中密文形式的有效载荷前945个字节,若不足945个字节,则使用0进行填充补齐至945,将其作为模型训练的输入之一。
进一步的,步骤S4所述将统计特征和有效载荷进行特征整合并进行特征标准化具体步骤为:
将步骤S2选择的统计特征和步骤S3得到的有效载荷字节整合成固定长度的特征向量;
使用min-max标准化方法将每个特征缩放至0-1之间,计算方法为
Figure BDA0003404594760000031
Figure BDA0003404594760000032
其中x*为标准化后的特征,x为输入特征,min和max分别对应输入特征的最小值和最大值。
进一步的,S5所述的利用整合后的特征对识别模型进行训练,得到训练好的识别模型具体过程为:
将整合后的特征转换成预设的格式输入Mogrifier LSTM中进行全局时序特征提取;
将Mogrifier LSTM输出的特征矩阵输入至SKCNN网络进行空间局部特征提取,得到空间局部特征的特征图;
利用全连接分类对得到的特征进行分类,经由softmax输出预测结果,最后,使用CBFocalLoss计算损失值,利用反向传播更新权重,优化模型。
进一步的,输入至SKCNN网络的特征矩阵处理过程为:
特征矩阵中的特征图依次经过5×5的卷积、最大池化、两次5×5卷积、一个SK卷积、一次1×1卷积和最后的全局平均池化,最终得到一个长度为8的特征向量;所述SK卷积为一种卷积神经网络的注意力机制,用于对通道加权,具体包括Split,Fuse,Select三个操作,其中:
Split:将输入的加密网络流量特征图通过两个的卷积核变换得到两个分支
Figure BDA0003404594760000033
Figure BDA0003404594760000034
Fuse:将两个分支输出的逐个元素进行相加,即
Figure BDA0003404594760000035
然后,对两个输出U进行全局平均池化操作
Figure BDA0003404594760000036
得每个通道上的全局信息s,即
Figure BDA0003404594760000037
Figure BDA0003404594760000038
最后,对输出s做全连接获得每个通道的权重z,即
Figure BDA0003404594760000039
其中δ为relu激活函数,
Figure BDA00034045947600000310
为批量归一化(batchnorm);
Select:生成的权重z经由softmax运算得到权重a,再计算权重b=1-a,a和b分别对应
Figure BDA00034045947600000311
Figure BDA00034045947600000312
的权重,两两对应相乘得到U1和U2,计算Uout=U1+U2,Uout为最终加权后的输出的特征图。
进一步的,CBFocalLoss计算损失值表达式为:
Figure BDA0003404594760000041
Z为softmax输出的预测结果,y是样本标签,超参数β∈[0,1),ny为加密流量的类别数量,
Figure BDA0003404594760000042
Figure BDA0003404594760000043
进一步的,步骤S6所述的利用训练好的识别模型对加密网络流量进行识别具体为:
将预先人工识别并标记的网络流量数据其作为训练数据,重复训练模型直至最优,保存最优模型;向保存的最优模型中输入未识别的网络流量数据,自动识别出加密网络流量并进行标记。
本发明第二方面提供了一种基于深度学习的加密网络流量分类方法,包括以下步骤:
S1:获取加密网络流量数据并进行预处理得到若干单独的会话;
S2:对于预处理后的流量数据进行统计特征的选择;
S3:对预处理后的流量数据进行有效载荷截取;
S4:将统计特征和有效载荷进行特征整合并进行特征标准化;
S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;
S6:利用训练好的识别模型对加密网络流量进行分类。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过将加密流量中的有效载荷的深度特征和统计特征整合,实现了更高的分类性能,并且能够对细粒度的加密网络流量进行识别和分类从而提高分类的准确度;通过截取加密网络流量的有效载荷作为部分输入,无需将加密后的有效载荷解密成明文,降低了计算开销,保护用户隐私,并且不受流量端口隐藏技术和网络流量加密技术的影响,方法的场景适用性更强。
附图说明
图1为本发明实施例基于深度学习的加密网络流量识别方法流程图。
图2为本发明实施例用于时序特征提取的Mogrifier LSTM网络结构图
图3为本发明实施例基于卷积神经网络设计的SKCNN网络结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明实施例提供了一种基于深度学习的加密网络流量识别及分类方法,该方法将人工选择的流量统计特征和自动获取的深层流量特征进行融合,并将形变LSTM(Mogrifier LSTM)和基于CNN构建的SKCNN进行集成,整合两者分别在时序特征提取和空间局部特征提取的优势,充分表征加密网络流量的关键特征,最后在训练模型的过程中使用类别平衡的CBFocalLoss损失函数进行训练,有效减轻类别不平衡对分类的影响。本发明该方法整合了两种流量特征,且利用两种不同角度的特征提取模块分别对加密网络流量进行特征提取,最后使用针对数据不平衡的损失函数进行训练,实现对加密网络流量的准确识别及分类。
实施例1
如图1所示,一种基于深度学习的加密网络流量识别方法,包括以下步骤:
S1:获取加密网络流量数据并进行预处理得到若干单独的会话;
在一个具体的实施例中,步骤S1的过程如下:
利用网络抓包工具Wireshark收集网络通信工具(如VPN、TOR等)通信的加密网络流量的原始pcap格式文件,本发明实施例中使用CIC-Darknet2020数据集中的原始pcap文件作为实验中的原始加密网络流量数据,其中包含VPN和TOR两种类型的加密网络流量,共有Audio-Stream、Browsing、Chat、Email、P2P、Transfer、Video-Stream和VOIP共8种服务类别;
对格式为pcap的原始流量文件进行清洗;将清洗后的原始流量切分成多个单独的会话,所述清洗即将pcap文件中的重复、冗余和空白等噪声流量删除;然后利用USTC-TK2016工具集将清洗完毕的流量按会话层的形式进行切分,最终形成一条条单独的会话流量。
S2:对于预处理后的流量数据进行统计特征的选择;
在一个具体的实施例中,步骤S2的过程如下:
利用网络流量特征提取工具CICFlowMeter提取每个会话的统计特征,共包含83个特征;
删除Flow ID、Src IP、Dst IP、Timestamp这4个与分类无关的特征,保留79个网络流量统计特征作为识别模型训练的输入之一。
S3:对预处理后的流量数据进行有效载荷截取;
在一个具体实施例中,步骤S3的过程如下:
需要说明的是,将切分出来的每条流量会话进行有效载荷截取,其中有效载荷是每条网络流量传输的有效数据。加密网络流量中的有效载荷是被加密过的密文,这些密文由一系列大小在0-255的字节组成。截取每条切分后的流量会话中密文形式的有效载荷前945个字节,若不足945个字节,则使用0进行填充补齐至945,将其作为模型训练的输入之一。
需要说明的是,本发明截取加密网络流量的有效载荷作为部分输入,无需将加密后的有效载荷解密成明文,可直接将密文对应的逐个字节作为输入,保护用户隐私,并且不受流量端口隐藏技术和网络流量加密技术的影响,因此有更广泛的应用场景。
S4:将统计特征和有效载荷进行特征整合并进行特征标准化;
在一个具体实施例中,步骤S3的过程如下:
将步骤S2选择的79个统计特征和步骤S3得到的945个有效载荷字节整合成固定长度为1024的特征向量;
使用min-max标准化方法将每个特征缩放至0-1之间,计算方法为
Figure BDA0003404594760000061
Figure BDA0003404594760000062
其中x*为标准化后的特征,x为输入特征,min和max分别对应输入特征的最小值和最大值,采用上述方法对特征进行标准化避免大方差特征的干扰,便于模型训练。
需要说明的是,本发明综合考虑有效载荷的深度特征和统计特征,实现了更高的分类性能,并且能够对细粒度的加密网络流量识别并进行分类。
S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;
在一个具体实施例中,步骤S3的过程如下:
将整合后的1024个特征转换成32x32的特征矩阵并输入Mogrifier LSTM中进行全局时序特征提取;如图2所示Mogrifier LSTM将当前输入状态(图2中的X[-1,0…,32])和隐藏状态(图3中的H[0,2,…,32])的充分交互后再输入LSTM中,这种方式可以很好地对上下文无关的输入进行表征。本发明中的输入为两种加密网络流量特征整合的特征矩阵,无明显上下文关系,采用Mogrifier LSTM可有效提取时序特征。
将Mogrifier LSTM输出的特征矩阵输入至SKCNN网络进行空间局部特征提取,得到空间局部特征的特征图;如图3,SKCNN的输入是通道为1(C=1),大小为32×32的特征图,先后经过5×5的卷积、最大池化、两次5×5卷积、一个SK卷积、一次1×1卷积和最后的全局平均池化,最终得到一个长度为8的特征向量。
所述SK卷积为一种卷积神经网络的注意力机制,用于对通道加权,具体包括Split,Fuse,Select三个操作,其中:
Split:将输入的加密网络流量特征图通过3×3和5×5的的卷积核变换得到两个分支
Figure BDA0003404594760000071
Figure BDA0003404594760000072
Fuse:将两个分支输出的逐个元素进行相加,即
Figure BDA0003404594760000073
然后,对两个输出U进行全局平均池化操作
Figure BDA0003404594760000074
得每个通道上的全局信息s,即
Figure BDA0003404594760000075
Figure BDA0003404594760000076
其中H=6,W=6;最后,对输出s做全连接获得每个通道的权重z,即
Figure BDA0003404594760000077
其中δ为relu激活函数,
Figure BDA0003404594760000078
为批量归一化(batchnorm);
Select:生成的权重z经由softmax运算得到权重a,再计算权重b=1-a,a和b分别对应
Figure BDA0003404594760000079
Figure BDA00034045947600000710
的权重,两两对应相乘得到U1和U2,计算Uout=U1+U2,Uout为最终加权后的输出的特征图。
经过SK卷积加权后,使用8个1×1卷积和全局平局池化,得到长度为8的特征向量Z=[z1,z2,z3,z4,z5,z6,z7,z8],输入softmax计算出模型预测的流量类别。最后,使用CBFocalLoss计算损失值,利用反向传播更新权重,优化模型。CBFocalLoss计算方法为:
Figure BDA00034045947600000711
Z=[z1,z2,z3,z4,z5,z6,z7,z8]为模型输出的特征向量,y是样本标签,超参数β∈[0,1),ny为加密流量的类别数量,
Figure BDA00034045947600000712
Figure BDA00034045947600000713
Figure BDA0003404594760000081
需要说明的是,本发明将一种循环神经网络变体Mogrifier LSTM作为时序特征提取模块,再将学习所得的时序特征输入基于卷积神经网络构建的SKCNN网络学习空间局部特征。同时,加入加密流量的统计特征作为一部分原始训练数据,将学习不同特征的网络结构进行堆叠集成,从不同角度学习到更多加密网络流量的关键特征,从而有着更好的识别及分类性能。同时通过采用使用类平衡的损失函数CBFocalLoss训练模型,减少了不平衡数据的影响,无需额外收集或生成数据,有效解决了数据收集困难导致模型性能下降的问题。
S6:利用训练好的识别模型对加密网络流量进行识别。
根据前述实施例中模型训练步骤,将预先人工识别并标记的网络流量数据其作为训练数据,重复训练模型直至最优,保存最优模型;向保存的最优模型中输入未识别的网络流量数据,自动识别出加密网络流量并进行标记。
实施例2
本发明第二方面提供了一种基于深度学习的加密网络流量分类方法,包括以下步骤:
S1:获取加密网络流量数据并进行预处理得到若干单独的会话;
S2:对于预处理后的流量数据进行统计特征的选择;
S3:对预处理后的流量数据进行有效载荷截取;
S4:将统计特征和有效载荷进行特征整合并进行特征标准化;
S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;
S6:利用训练好的识别模型对加密网络流量进行分类。
实施例3
根据前述实施例中模型训练步骤具体阐述加密网络流量进行分类过程:将预先人工识别并标记的加密网络流量数据其作为训练数据,将其作为训练数据重复训练模型直至最优,保存最优模型;向保存的最优模型中输入未分类的加密网络流量数据,将其分类为不同应用类型的网络流量。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度学习的加密网络流量识别方法,其特征在于,包括以下步骤:
S1:获取加密网络流量数据并进行预处理得到若干单独的会话;
S2:对于预处理后的流量数据进行统计特征的选择;
S3:对预处理后的流量数据进行有效载荷截取;
S4:将统计特征和有效载荷进行特征整合并进行特征标准化;
S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;
S6:利用训练好的识别模型对加密网络流量进行识别。
2.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法,其特征在于,步骤S1所述的获取加密网络流量数据并进行预处理具体步骤为:
利用网络抓包工具收集网络通信工具通信的加密网络流量;
对格式为pcap的原始流量文件进行清洗;
将清洗后的原始流量切分成多个单独的会话。
3.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法,其特征在于,步骤S2所述的对于预处理后的流量数据进行统计特征的选择具体步骤为:
利用网络流量特征提取工具提取每个会话的统计特征;
删除Flow ID、Src IP、Dst IP、Timestamp这4个与分类无关的特征,保留其余网络流量统计特征作为识别模型训练的输入之一。
4.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法,其特征在于,步骤S3所述的对预处理后的流量数据进行有效载荷截取具体步骤为:
截取每条切分后的流量会话中密文形式的有效载荷前945个字节,若不足945个字节,则使用0进行填充补齐至945,将其作为模型训练的输入之一。
5.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法,其特征在于,步骤S4所述将统计特征和有效载荷进行特征整合并进行特征标准化具体步骤为:
将步骤S2选择的统计特征和步骤S3得到的有效载荷字节整合成固定长度的特征向量;
使用min-max标准化方法将每个特征缩放至0-1之间,计算方法为
Figure FDA0003404594750000011
Figure FDA0003404594750000021
其中x*为标准化后的特征,x为输入特征,min和max分别对应输入特征的最小值和最大值。
6.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法,其特征在于,S5所述的利用整合后的特征对识别模型进行训练,得到训练好的识别模型具体过程为:
将整合后的特征转换成预设的格式输入Mogrifier LSTM中进行全局时序特征提取;
将Mogrifier LSTM输出的特征矩阵输入至SKCNN网络进行空间局部特征提取,得到空间局部特征的特征图;
利用全连接分类对得到的特征进行分类,经由softmax输出预测结果,最后,使用CBFocalLoss计算损失值,利用反向传播更新权重,优化模型。
7.根据权利要求6所述的一种基于深度学习的加密网络流量识别方法,其特征在于,输入至SKCNN网络的特征矩阵处理过程为:
特征矩阵中的特征图依次经过5×5的卷积、最大池化、两次5×5卷积、一个SK卷积、一次1×1卷积和最后的全局平均池化,最终得到一个长度为8的特征向量;所述SK卷积为一种卷积神经网络的注意力机制,用于对通道加权,具体包括Split,Fuse,Select三个操作,其中:
Split:将输入的加密网络流量特征图通过两个的卷积核变换得到两个分支
Figure FDA0003404594750000022
Figure FDA0003404594750000023
Fuse:将两个分支输出的逐个元素进行相加,即
Figure FDA0003404594750000024
然后,对两个输出U进行全局平均池化操作
Figure FDA0003404594750000025
得每个通道上的全局信息s,即
Figure FDA0003404594750000026
Figure FDA0003404594750000027
最后,对输出s做全连接获得每个通道的权重z,即
Figure FDA0003404594750000028
其中δ为relu激活函数,
Figure FDA0003404594750000029
为批量归一化(batchnorm);
Select:生成的权重z经由softmax运算得到权重a,再计算权重b=1-a,a和b分别对应
Figure FDA00034045947500000210
Figure FDA00034045947500000211
的权重,两两对应相乘得到U1和U2,计算Uout=U1+U2,Uout为最终加权后的输出的特征图。
8.根据权利要求6所述的一种基于深度学习的加密网络流量识别方法,其特征在于,CBFocalLoss计算损失值表达式为:
Figure FDA0003404594750000031
Z为softmax输出的预测结果,y是样本标签,超参数β∈[0,1),ny为加密流量的类别数量,
Figure FDA0003404594750000032
9.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法,其特征在于,步骤S6所述的利用训练好的识别模型对加密网络流量进行识别具体为:
将预先人工识别并标记的网络流量数据其作为训练数据,重复训练模型直至最优,保存最优模型;向保存的最优模型中输入未识别的网络流量数据,自动识别出加密网络流量并进行标记。
10.一种基于深度学习的加密网络流量分类方法,其特征在于,包括以下步骤:
S1:获取加密网络流量数据并进行预处理得到若干单独的会话;
S2:对于预处理后的流量数据进行统计特征的选择;
S3:对预处理后的流量数据进行有效载荷截取;
S4:将统计特征和有效载荷进行特征整合并进行特征标准化;
S5:利用整合后的特征对识别模型进行训练,得到训练好的识别模型;
S6:利用训练好的识别模型对加密网络流量进行分类。
CN202111509168.1A 2021-12-10 2021-12-10 一种基于深度学习的加密网络流量识别及分类方法 Active CN114257428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111509168.1A CN114257428B (zh) 2021-12-10 2021-12-10 一种基于深度学习的加密网络流量识别及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111509168.1A CN114257428B (zh) 2021-12-10 2021-12-10 一种基于深度学习的加密网络流量识别及分类方法

Publications (2)

Publication Number Publication Date
CN114257428A true CN114257428A (zh) 2022-03-29
CN114257428B CN114257428B (zh) 2024-02-27

Family

ID=80794772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111509168.1A Active CN114257428B (zh) 2021-12-10 2021-12-10 一种基于深度学习的加密网络流量识别及分类方法

Country Status (1)

Country Link
CN (1) CN114257428B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114745175A (zh) * 2022-04-11 2022-07-12 中国科学院信息工程研究所 一种基于注意力机制的网络恶意流量识别方法及系统
CN115051828A (zh) * 2022-04-22 2022-09-13 江苏科技大学 面向类别不平衡下的ssl vpn加密流量识别分类方法
CN115134176A (zh) * 2022-09-02 2022-09-30 南京航空航天大学 一种基于不完全监督的暗网加密流量分类方法
CN115296856A (zh) * 2022-07-12 2022-11-04 四川大学 基于ResNet-AIS的加密流量网络威胁检测器进化学习方法
CN116248530A (zh) * 2022-12-12 2023-06-09 国家电网有限公司客户服务中心 一种基于长短时神经网络的加密流量识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730140A (zh) * 2019-10-12 2020-01-24 西安电子科技大学 基于时空特性相结合的深度学习流量分类方法
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN112671757A (zh) * 2020-12-22 2021-04-16 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN112949702A (zh) * 2021-02-23 2021-06-11 广东工业大学 一种网络恶意加密流量识别方法和系统
CN113179223A (zh) * 2021-04-23 2021-07-27 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730140A (zh) * 2019-10-12 2020-01-24 西安电子科技大学 基于时空特性相结合的深度学习流量分类方法
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN112671757A (zh) * 2020-12-22 2021-04-16 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN112949702A (zh) * 2021-02-23 2021-06-11 广东工业大学 一种网络恶意加密流量识别方法和系统
CN113179223A (zh) * 2021-04-23 2021-07-27 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李勤;师维;孙界平;董超;曲天舒;: "基于卷积神经网络的网络流量识别技术研究", 四川大学学报(自然科学版), no. 05, pages 71 - 76 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114745175A (zh) * 2022-04-11 2022-07-12 中国科学院信息工程研究所 一种基于注意力机制的网络恶意流量识别方法及系统
CN114745175B (zh) * 2022-04-11 2022-12-23 中国科学院信息工程研究所 一种基于注意力机制的网络恶意流量识别方法及系统
CN115051828A (zh) * 2022-04-22 2022-09-13 江苏科技大学 面向类别不平衡下的ssl vpn加密流量识别分类方法
CN115296856A (zh) * 2022-07-12 2022-11-04 四川大学 基于ResNet-AIS的加密流量网络威胁检测器进化学习方法
CN115296856B (zh) * 2022-07-12 2024-04-19 四川大学 基于ResNet-AIS的加密流量网络威胁检测器进化学习方法
CN115134176A (zh) * 2022-09-02 2022-09-30 南京航空航天大学 一种基于不完全监督的暗网加密流量分类方法
CN115134176B (zh) * 2022-09-02 2022-11-29 南京航空航天大学 一种基于不完全监督的暗网加密流量分类方法
CN116248530A (zh) * 2022-12-12 2023-06-09 国家电网有限公司客户服务中心 一种基于长短时神经网络的加密流量识别方法

Also Published As

Publication number Publication date
CN114257428B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN114257428A (zh) 一种基于深度学习的加密网络流量识别及分类方法
Wang et al. End-to-end encrypted traffic classification with one-dimensional convolution neural networks
CN110730140B (zh) 基于时空特性相结合的深度学习流量分类方法
WO2022041394A1 (zh) 一种网络加密流量识别方法及装置
CN113179223B (zh) 一种基于深度学习和序列化特征的网络应用识别方法及系统
Liu et al. A byte-level CNN method to detect DNS tunnels
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN112910853A (zh) 基于混合特征的加密流量分类方法
CN111611280A (zh) 一种基于cnn和sae的加密流量识别方法
CN114239737A (zh) 一种基于时空特征与双层注意力的加密恶意流量检测方法
CN113364787A (zh) 一种基于并联神经网络的僵尸网络流量检测方法
Kong et al. Identification of abnormal network traffic using support vector machine
CN115865534B (zh) 一种基于恶意加密流量检测方法、系统、装置及介质
Zhao et al. A few-shot learning based approach to IoT traffic classification
CN110113338A (zh) 一种基于特征融合的加密流量特征提取方法
CN113923026A (zh) 一种基于TextCNN的加密恶意流量检测模型及其构建方法
Tong et al. BFSN: a novel method of encrypted traffic classification based on bidirectional flow sequence network
CN114650229A (zh) 基于三层模型sftf-l的网络加密流量分类方法与系统
CN112465003B (zh) 一种加密离散序列报文的识别方法及系统
Zeng et al. Toward identifying malicious encrypted traffic with a causality detection system
CN114362988A (zh) 网络流量的识别方法及装置
He et al. Identification of SSH applications based on convolutional neural network
CN116248530A (zh) 一种基于长短时神经网络的加密流量识别方法
CN116192504A (zh) 面对样本分布不平衡的恶意加密流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant