CN114650229B - 基于三层模型sftf-l的网络加密流量分类方法与系统 - Google Patents

基于三层模型sftf-l的网络加密流量分类方法与系统 Download PDF

Info

Publication number
CN114650229B
CN114650229B CN202210275051.XA CN202210275051A CN114650229B CN 114650229 B CN114650229 B CN 114650229B CN 202210275051 A CN202210275051 A CN 202210275051A CN 114650229 B CN114650229 B CN 114650229B
Authority
CN
China
Prior art keywords
layer
pooling
network
convolution kernels
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210275051.XA
Other languages
English (en)
Other versions
CN114650229A (zh
Inventor
吉顺慧
曹祎涵
张鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210275051.XA priority Critical patent/CN114650229B/zh
Publication of CN114650229A publication Critical patent/CN114650229A/zh
Application granted granted Critical
Publication of CN114650229B publication Critical patent/CN114650229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于三层模型SFTF‑L的网络加密流量分类方法与系统。方法包括:收集已标注类型的网络加密流量数据集;通过流量切割将加密流量文件切分,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取每条数据流的前三个数据包开展特征学习;针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔在数据包对应图像之间插入时序特征图;设计三层模型SFTF‑L的结构,并利用训练数据集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型。本发明提高了对重要空间特征的学习能力,并提高了对时序特征明显的加密流量的分类准确率。

Description

基于三层模型SFTF-L的网络加密流量分类方法与系统
技术领域
本发明涉及网络安全领域,尤其是一种基于三层模型SFTF-L(Spatial Featuresand Temporal Features Learning)的网络加密流量分类方法与系统。
背景技术
网络流量分类对网络流量进行采集并分析以准确获取网络流量信息类型的重要技术手段,其可以帮助网络管理者有效地进行网络规划、网络优化、网络监控、流量趋势分析等工作。
随着网络技术的发展和成熟,网络中承载的应用及业务由最初的网页、邮件以及即时通信等到日臻完善的各种社区、在线游戏、P2P文件共享等,网络中承载的业务越来越丰富。同时大众网络安全意识也在稳步提升,对于数据保护的意识也愈加强烈。根据最新统计报告,在2017年2月,半数的在线流量均被加密。对于特定类型的流量,加密甚至已成为法律的强制性要求,数据加密俨然已经成为保护隐私的重要手段之一。Gartner统计2019年超过80%的企业网络流量已被加密。Barac统计2020年83%的流量被加密。
虽然加密技术对于重视隐私的用户来说是一个福音,但IT团队将会面临大量不解密就无法检测的流量挑战。流量分类的前提是针对不同的应用或协议有明显的区分特征,加密流量分类和未加密流量分类的本质区别在于流量加密使得用于区分的特征发生了改变。流量加密后的变化可以概括如下:首先,IP报文的明文内容更改为密文。第二,流量加密后有效载荷的统计特征(如随机性或熵)发生改变。第三,流量加密后流统计特性发生改变,如报文长度,报文到达时间间隔和包数。
当前流量分类方法虽然取得了不少研究进展,但这些成果大多针对非加密流量进行分类,当前加密流量分类研究面临着新挑战。
发明内容
发明目的:本发明的目的在于提供一种基于三层模型SFTF-L的网络加密流量分类方法与系统,通过对网络加密流量的处理,并构建三层模型SFTF-L来学习加密流量的空间特征和时序特征,提高模型对时序特征明显的加密流量的分类准确率。
技术方案:为了实现上述发明目的,本发明采用如下技术方案:
一种基于三层模型SFTF-L的网络加密流量分类方法,包括如下步骤:
(1)收集已标注类型的网络加密流量数据集;
(2)通过流量切割将每个加密流量文件进行切分,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取每条数据流的前三个数据包开展特征学习;
(3)针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图;
(4)设计三层模型SFTF-L的结构,并利用训练集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型;所述三层模型SFTF-L的结构包括用于学习加密流量的空间特征XResnet50网络,用于学习加密流量的时序特征的LSTM网络,以及softmax分类器。
进一步地,步骤(3)中自适应插入时序特征图的方法为:
根据数据包d1和d2之间的到达时间间隔t,在d1对应的图片p1以及d2对应的图片p2之间,插入f(t)个时序特征图片,每个时序特征图是元素值为1的28*28灰度图像,f(t)的计算方法如下:
Figure BDA0003555518530000021
进一步地,XResnet50网络模型分为7个Stage:
Stage1:包括两层,即卷积层和池化层,其中卷积层卷积核大小为7*7,步长为2,卷积核数量为64,池化层滑动窗口大小为3*3,步长为2;
Stage2:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,卷积核数量均为64;
Stage3:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠4次,按顺序1*1卷积核数量为128,3*3卷积核数量为128,1*1卷积核数量为512;
Stage4:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠6次,按顺序卷积核数量依次为256、256、1024;
Stage5:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,按顺序卷积核数量依次为512、512、2048;
Stage6:包括两层,用于放大加密流量的空间特征;一层为池化层,包含平均池化和最大池化两步,池化滑动窗口大小均为2*2,另一层为卷积层,卷积核大小为7*7,卷积核数量为2048;Stage6通过池化和卷积生成空间特征的公式为:
S(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
其中S(F)是Stage6池化和卷积后生成的空间特征,f是7*7的卷积核,F是XResnet50中Stage5的输出,AvgPool()是平均池化,MaxPool()是最大池化,[;]表示拼接,σ表示sigmoid函数;
Stage7:包括池化层和全连接层,池化滑动窗口大小为7*7,全连接层输出尺寸为2048。
进一步地,LSTM网络的输入为XResnet50层学习到的空间特征,隐藏层包含128个神经元,通过全连接层(FC)产生输出向量,将时间步长设置为7;
softmax分类器的输入为LSTM层学习到的包含空间和时序的特征,进行预测的计算公式为:
Figure BDA0003555518530000031
其中yi表示待分类流量属于第i种类型的预测概率,n表示加密流量类别总数,fi表示LSTM网络输出层第i种类型的结果。
一种基于三层模型SFTF-L的网络加密流量分类系统,包括:
数据收集模块,用于收集已标注类型的网络加密流量数据集;
数据预处理模块,用于通过流量切割将每个加密流量文件进行切分,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取每条数据流的前三个数据包开展特征学习;
图像生成模块,用于针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图;
以及模型构建模块,用于设计三层模型SFTF-L的结构,并利用训练集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型;所述三层模型SFTF-L的结构包括用于学习加密流量的空间特征XResnet50网络,用于学习加密流量的时序特征的LSTM网络,以及softmax分类器。
一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。
有益效果:本发明提出了一种基于三层模型SFTF-L的网络加密流量分类方法,通过第一层XResnet50网络模型解决了传统卷积网络随着层数加深的网络退化问题,提高了对重要空间特征的学习能力,并且通过在相邻数据包对应图片之间插入时序特征图,考虑了加密流量的时序特征,从而提高模型对时序特征明显的加密流量的分类准确率。
附图说明
图1是本发明实施例的总体流程示意图。
图2是本发明实施例中生成灰度图像的流程示意图。
图3是本发明实施例中SFTF-L模型的结构示意图。
图4是本发明实施例中XResnet50网络的结构示意图。
图5是本发明实施例中12类流量生成的灰度图像样本示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,本发明实施例提供的一种基于三层模型SFTF-L的网络加密流量分类方法,包括如下步骤:
(1)数据收集,收集已经标注过类型的网络加密流量数据集和待分类的网络加密流量。
(2)数据预处理,对收集的网络加密流量进行预处理,预处理工作包括:
首先通过流量切割将每个大型加密流量文件切分为多个小型文件,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取清洗后的每条数据流的前三个数据包开展特征学习。
(3)图像生成,针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图。
(4)模型构建,设计三层模型SFTF-L的结构,并利用训练集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型。将经过数据预处理且标注过的灰度图片输入到XResnet50网络中学习空间特征,然后将XResnet50网络的输出作为LSTM网络的输入学习时序特征,最后通过softmax分类器层对流量数据所属类型进行预测,达到分类效果。
步骤(1)中,数据收集的具体内容为:
收集的加密流量类型包括聊天、电子邮件、视频、语音、文件传输、P2P、VPN聊天、VPN电子邮件、VPN视频、VPN语音、VPN文件传输、VPN-P2P共12类加密流量,加密方式为常规加密(Non-VPN加密)和VPN加密;数据集来源包括公开数据集ISCX VPN-NonVPN以及在真实网络环境捕获的部分网络加密流量。
步骤(2)中,将收集的待分类的网络加密流量进行预处理,具体步骤为:
(a)流量切割,将收集到的每个大型加密流量文件切分为多个独立的小型文件。利用SplitCap工具按照会话的形式进行流量切割,SplitCap根据TCP和UDP会话将一个大型流量文件pcap文件拆分为多个小型文件,每个会话一个pcap文件;
(b)汇聚数据流,将一个会话描述为五元组,包括源IP地址、源端口、目的IP地址、目的端口和传输层协议,相同五元组的会话视为同一数据流,将它们放入一个文件夹汇聚为一条数据流;
(c)流量清洗,去除数据包中对模型分类产生干扰的数据,主要有数据链路层信息、IP地址、时序特征图、重复数据流,具体是通过读取数据包的数据链路层、IP地址、数据内容对应的协议字段和数据包大小来进行清洗。
步骤(3)中,将数据流转化为灰度图像并插入时序特征图,如图2所示,具体包括:
(a)生成灰度图像,将数据包转化为灰度图片的具体步骤为:
①如果数据包长度大于784字节,截取前784字节的数据包字节流信息(784字节在本发明中保证了模型分类准确率的同时减少了计算量);如果数据包长度不足784字节,用0x00补全;
②将字节数据转化为0到255之间的十进制数据(即两位16进制数据转化为一位十进制数据),生成数据包对应的一维向量,并将其转为28*28的矩阵;
③根据矩阵生成png格式的灰度图像。
(b)计算数据包之间的到达时间间隔,根据pcap文件中的数据包达到时间字段,计算同一数据流中相邻数据包的时间间隔,例如t1是第一个数据包到达时间,t2是第二个数据包到达时间,则第一个数据包和第二个数据包的时间间隔Δt=t2-t1(t2>t1)。
(c)根据数据包的到达时间间隔插入时序特征图,来增强时序特征,具体规则是:根据数据包d1和d2之间的到达时间间隔t(秒),在d1对应的图片p1以及d2对应的图片p2之间,插入f(t)个时序特征图片,每个时序特征图是元素值为1的28*28灰度图像,f(t)的计算方法如下:
Figure BDA0003555518530000061
步骤(4)中模型构建的网络结构设计如图3所示,其中,XResnet50网络用于学习空间特征,LSTM网络用于学习时序特征,最后通过softmax层对流量数据所属类型进行预测。
(a)在Resnet50基础上改进的XResnet50网络的结构设计如下:
如图4,XResnet50网络模型分为7个Stage:
Stage1:包括两层,即卷积层和池化层,其中卷积层卷积核大小为7*7,步长为2,卷积核数量为64,池化层滑动窗口大小为3*3,步长为2;
Stage2:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,卷积核数量均为64;
Stage3:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠4次,按顺序1*1卷积核数量为128,3*3卷积核数量为128,1*1卷积核数量为512;
Stage4:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠6次,按顺序卷积核数量依次为256、256、1024;
Stage5:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,按顺序卷积核数量依次为512、512、2048;
Stage6:包括两层,用于放大加密流量的空间特征;一层为池化层,包含平均池化和最大池化两步,池化滑动窗口大小均为2*2,另一层为卷积层,卷积核大小为7*7,卷积核数量为2048;Stage6通过池化和卷积生成空间特征的公式为:
S(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
其中S(F)是Stage6池化和卷积后生成的空间特征,f是7*7的卷积核,F是XResnet50中Stage5的输出,AvgPool()是平均池化,MaxPool()是最大池化,[;]表示拼接,σ表示sigmoid函数;
Stage7:包括池化层和全连接层,池化滑动窗口大小为7*7,全连接层输出尺寸为2048。
(b)LSTM网络结构设计如下:
LSTM网络输入为XResnet50网络学习到的空间特征,隐藏层包含128个神经元,通过全连接层(FC)产生输出向量,经过初步实验将时间步长设置为7。
(c)softmax层的输入为LSTM层学习到的包含空间和时序的特征,使用的预测公式为:
Figure BDA0003555518530000071
其中yi表示待分类流量属于第i种类型的预测概率,n表示加密流量类别总数,fi表示LSTM模型输出层第i种类型的结果。
为了方便描述,我们利用基于深度学习的网络加密流量分类方法为所收集的12类加密流量进行分类。流程如下:
(1)数据收集,共收集到12类加密流量数据,每种类型样本数量如表1所示。
(2)数据预处理,进行流量切割、汇聚数据流、流量清洗。
(3)将加密流量转换为一组带时序特征的灰度图像,并根据到达时间间隔插入时序特征图,最终生成的灰度图像如图5所示。
(4)流量分类模型构建,根据收集到的44905个样本,将数据集随机划分成9份训练集和1份测试集,利用9份训练集中的样本开展模型训练。
通过上述步骤构造出加密流量的分类模型,将分类模型应用到测试集中的流量样本进行分类,针对测试集中的12类流量类型,最终的模型分类效果如表2所示,其中利用准确率、精确率、召回率和F1值对分类效果进行评估。TP(True Positive)是被判定为正样本事实上也是正样本的样本数量,TN(True Negative)是被判定为负样本事实上也是负样本的样本数量,FP(False Positive)是被判定为正样本但事实上是负样本的样本数量,FN(False Negative)是被判定为负样本但事实上是正样本的样本数量。
准确率ACC表示分类正确的样本数占总样本数的比例,计算公式为:
Figure BDA0003555518530000081
精确率Precision表示模型找准正样本的能力,计算公式为:
Figure BDA0003555518530000082
召回率Recall表示模型找全正样本的能力,计算公式为:
Figure BDA0003555518530000083
F1值是精确率和召回率的综合考虑指标,计算公式为:
Figure BDA0003555518530000084
表1 12类加密流量样本信息
流量类型 样本数量
Chat 5000
Email 4767
File 3000
P2P 2900
Streaming 3180
VoIP 4051
VPN-Chat 4471
VPN-email 830
VPN-File 3106
VPN-P2P 4000
VPN-Streaming 4600
VPN-VoIP 5000
Total 44905
表2 12类加密流量的分类结果
流量类型 准确率(%) 精确率(%) 召回率(%) F1值(%)
Chat 95.5 94.9 95.7 95.4
email 96.1 96 95.5 95.4
File 96.8 96.1 96.3 96.4
P2P 96.8 96.2 96 96.0
Streaming 96.8 97.5 96.3 96.8
VoIP 97.9 97.9 96.5 96.6
VPN-Chat 97.4 96.8 96.1 96.1
VPN-email 96.9 95.9 95.5 95.8
VPN-File 96.8 96.5 95.3 95.7
VPN-P2P 97.9 97.9 95.6 95.3
VPN-Streaming 96.1 96.6 98.5 96.5
VPN-VoIP 96.1 96.9 97.6 97.9
平均值 96.8 96.6 96.2 96.2
基于相同的发明构思,本发明实施例提供一种基于三层模型SFTF-L的网络加密流量分类系统,包括:数据收集模块,用于收集已标注类型的网络加密流量数据集;数据预处理模块,用于通过流量切割将每个加密流量文件进行切分,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取每条数据流的前三个数据包开展特征学习;图像生成模块,用于针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图;以及模型构建模块,用于设计三层模型SFTF-L的结构,并利用训练集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型。
以上描述的各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述模块的划分仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统。
基于相同的发明构思,本发明实施例提供一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。
基于相同的发明构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。
本领域技术人员可以理解的是,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例所述方法的全部或部分步骤。存储介质包括:U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (4)

1.一种基于三层模型SFTF-L的网络加密流量分类方法,其特征在于,所述方法包括如下步骤:
(1)收集已标注类型的网络加密流量数据集;
(2)通过流量切割将每个加密流量文件进行切分,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取每条数据流的前三个数据包开展特征学习;
(3)针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图;
(4)设计三层模型SFTF-L的结构,并利用训练集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型;所述三层模型SFTF-L的结构包括用于学习加密流量空间特征的XResnet50网络,用于学习加密流量时序特征的LSTM网络,以及softmax分类器;
步骤(3)中自适应插入时序特征图的方法为:
根据数据包d1和d2之间的到达时间间隔t秒,在d1对应的图片p1以及d2对应的图片p2之间,插入f(t)个时序特征图片,每个时序特征图是元素值为1的28*28灰度图像,f(t)的计算方法如下:
Figure FDA0004051991670000011
XResnet50网络模型分为7个Stage:
Stage1:包括两层,即卷积层和池化层,其中卷积层卷积核大小为7*7,步长为2,卷积核数量为64,池化层滑动窗口大小为3*3,步长为2;
Stage2:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,卷积核数量均为64;
Stage3:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠4次,按顺序1*1卷积核数量为128,3*3卷积核数量为128,1*1卷积核数量为512;
Stage4:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠6次,按顺序卷积核数量依次为256、256、1024;
Stage5:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,按顺序卷积核数量依次为512、512、2048;
Stage6:包括两层,用于放大加密流量的空间特征;一层为池化层,包含平均池化和最大池化两步,池化滑动窗口大小均为2*2,另一层为卷积层,卷积核大小为7*7,卷积核数量为2048;Stage6通过池化和卷积生成空间特征的公式为:
S(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
其中S(F)是Stage6池化和卷积后生成的空间特征,f是7*7的卷积核,F是XResnet50中Stage5的输出,AvgPool()是平均池化,MaxPool()是最大池化,[;]表示拼接,σ表示sigmoid函数;
Stage7:包括池化层和全连接层,池化滑动窗口大小为7*7,全连接层输出尺寸为2048;
LSTM网络的输入为XResnet50层学习到的空间特征,隐藏层包含128个神经元,通过全连接层(FC)产生输出向量,将时间步长设置为7;
softmax分类器的输入为LSTM层学习到的包含空间和时序的特征,进行预测的计算公式为:
Figure FDA0004051991670000021
其中yi表示待分类流量属于第i种类型的预测概率,n表示加密流量类别总数,fi表示LSTM网络输出层第i种类型的结果。
2.一种基于三层模型SFTF-L的网络加密流量分类系统,其特征在于:包括:
数据收集模块,用于收集已标注类型的网络加密流量数据集;
数据预处理模块,用于通过流量切割将每个加密流量文件进行切分,并将相同会话汇聚成一条数据流,然后进行流量清洗去除数据流中的无用信息,选取每条数据流的前三个数据包开展特征学习;
图像生成模块,用于针对每条数据流,将数据包的字节流信息转化为灰度图像,并计算三个数据包之间的到达时间间隔,根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图;
以及模型构建模块,用于设计三层模型SFTF-L的结构,并利用训练集对应的图像进行模型训练,学习加密流量的空间特征和时序特征,构建出网络加密流量分类模型;所述三层模型SFTF-L的结构包括用于学习加密流量空间特征的XResnet50网络,用于学习加密流量时序特征的LSTM网络,以及softmax分类器;
图像生成模块中自适应插入时序特征图的方法为:
根据数据包d1和d2之间的到达时间间隔t秒,在d1对应的图片p1以及d2对应的图片p2之间,插入f(t)个时序特征图片,每个时序特征图是元素值为1的28*28灰度图像,f(t)的计算方法如下:
Figure FDA0004051991670000031
XResnet50网络模型分为7个Stage:
Stage1:包括两层,即卷积层和池化层,其中卷积层卷积核大小为7*7,步长为2,卷积核数量为64,池化层滑动窗口大小为3*3,步长为2;
Stage2:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,卷积核数量均为64;
Stage3:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠4次,按顺序1*1卷积核数量为128,3*3卷积核数量为128,1*1卷积核数量为512;
Stage4:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠6次,按顺序卷积核数量依次为256、256、1024;
Stage5:每个block由1*1、3*3、1*1的卷积核堆叠而成,block堆叠3次,按顺序卷积核数量依次为512、512、2048;
Stage6:包括两层,用于放大加密流量的空间特征;一层为池化层,包含平均池化和最大池化两步,池化滑动窗口大小均为2*2,另一层为卷积层,卷积核大小为7*7,卷积核数量为2048;Stage6通过池化和卷积生成空间特征的公式为:
S(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
其中S(F)是Stage6池化和卷积后生成的空间特征,f是7*7的卷积核,F是XResnet50中Stage5的输出,AvgPool()是平均池化,MaxPool()是最大池化,[;]表示拼接,σ表示sigmoid函数;
Stage7:包括池化层和全连接层,池化滑动窗口大小为7*7,全连接层输出尺寸为2048;
LSTM网络的输入为XResnet50层学习到的空间特征,隐藏层包含128个神经元,通过全连接层(FC)产生输出向量,将时间步长设置为7;
softmax分类器的输入为LSTM层学习到的包含空间和时序的特征,进行预测的计算公式为:
Figure FDA0004051991670000041
其中yi表示待分类流量属于第i种类型的预测概率,n表示加密流量类别总数,fi表示LSTM网络输出层第i种类型的结果。
3.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。
CN202210275051.XA 2022-03-21 2022-03-21 基于三层模型sftf-l的网络加密流量分类方法与系统 Active CN114650229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210275051.XA CN114650229B (zh) 2022-03-21 2022-03-21 基于三层模型sftf-l的网络加密流量分类方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210275051.XA CN114650229B (zh) 2022-03-21 2022-03-21 基于三层模型sftf-l的网络加密流量分类方法与系统

Publications (2)

Publication Number Publication Date
CN114650229A CN114650229A (zh) 2022-06-21
CN114650229B true CN114650229B (zh) 2023-04-07

Family

ID=81995483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210275051.XA Active CN114650229B (zh) 2022-03-21 2022-03-21 基于三层模型sftf-l的网络加密流量分类方法与系统

Country Status (1)

Country Link
CN (1) CN114650229B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242496B (zh) * 2022-07-20 2024-04-16 安徽工业大学 一种基于残差网络的Tor加密流量应用行为分类方法及装置
CN116074087B (zh) * 2023-01-17 2023-08-04 哈尔滨工业大学 一种基于网络流量上下文表征的加密流量分类方法、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162908A (zh) * 2021-03-04 2021-07-23 中国科学院信息工程研究所 一种基于深度学习的加密流量检测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011931B (zh) * 2019-01-25 2020-10-16 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
US20210303984A1 (en) * 2020-03-24 2021-09-30 Fortinet, Inc. Machine-learning based approach for classification of encrypted network traffic
CN112367334A (zh) * 2020-11-23 2021-02-12 中国科学院信息工程研究所 网络流量识别方法、装置、电子设备和存储介质
CN112804253B (zh) * 2021-02-04 2022-07-12 湖南大学 一种网络流量分类检测方法、系统及存储介质
CN113179223B (zh) * 2021-04-23 2022-08-26 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及系统
CN113627502A (zh) * 2021-07-30 2021-11-09 中国人民解放军战略支援部队信息工程大学 一种网络加密流量分类方法
CN113822331A (zh) * 2021-08-11 2021-12-21 北京邮电大学 加密流量的分类方法与装置以及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162908A (zh) * 2021-03-04 2021-07-23 中国科学院信息工程研究所 一种基于深度学习的加密流量检测方法及系统

Also Published As

Publication number Publication date
CN114650229A (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN112163594B (zh) 一种网络加密流量识别方法及装置
Wang et al. A survey of techniques for mobile service encrypted traffic classification using deep learning
Iliyasu et al. Semi-supervised encrypted traffic classification with deep convolutional generative adversarial networks
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN114650229B (zh) 基于三层模型sftf-l的网络加密流量分类方法与系统
CN111340191B (zh) 基于集成学习的僵尸网络恶意流量分类方法及系统
CN113162908B (zh) 一种基于深度学习的加密流量检测方法及系统
CN110751222A (zh) 基于cnn和lstm的在线加密流量分类方法
CN111565156B (zh) 一种对网络流量识别分类的方法
CN110417729B (zh) 一种加密流量的服务与应用分类方法及系统
CN111147394B (zh) 一种远程桌面协议流量行为的多级分类检测方法
CN112350956B (zh) 一种网络流量识别方法、装置、设备及机器可读存储介质
CN111711633A (zh) 多阶段融合的加密流量分类方法
CN112019449B (zh) 流量识别抓包方法和装置
Gu et al. Realtime Encrypted Traffic Identification using Machine Learning.
CN112491894A (zh) 一种基于时空特征学习的物联网网络攻击流量监测系统
CN115037543A (zh) 一种基于双向时间卷积神经网络的异常网络流量检测方法
Dvir et al. Clustering the unknown-the youtube case
CN114095447A (zh) 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法
CN113128626A (zh) 基于一维卷积神经网络模型的多媒体流细分类方法
CN116248530A (zh) 一种基于长短时神经网络的加密流量识别方法
CN116132095A (zh) 一种融合统计特征和图结构特征的隐蔽恶意流量检测方法
Nigmatullin et al. Accumulated Generalized Mean Value-a New Approach to Flow-Based Feature Generation for Encrypted Traffic Characterization
Niu et al. Network steganography based on traffic behavior in dynamically changing wireless sensor networks
Filasiak et al. On the testing of network cyber threat detection methods on spam example

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant