CN113037730A - 基于多特征学习的网络加密流量分类方法及系统 - Google Patents

基于多特征学习的网络加密流量分类方法及系统 Download PDF

Info

Publication number
CN113037730A
CN113037730A CN202110221394.3A CN202110221394A CN113037730A CN 113037730 A CN113037730 A CN 113037730A CN 202110221394 A CN202110221394 A CN 202110221394A CN 113037730 A CN113037730 A CN 113037730A
Authority
CN
China
Prior art keywords
traffic
feature
vector
data packet
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110221394.3A
Other languages
English (en)
Other versions
CN113037730B (zh
Inventor
卜佑军
张稣荣
陈博
张桥
袁征
伊鹏
马海龙
胡宇翔
王方玉
孙嘉
路祥雨
王继
张进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Network Communication and Security Zijinshan Laboratory
Original Assignee
Information Engineering University of PLA Strategic Support Force
Network Communication and Security Zijinshan Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force , Network Communication and Security Zijinshan Laboratory filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202110221394.3A priority Critical patent/CN113037730B/zh
Publication of CN113037730A publication Critical patent/CN113037730A/zh
Application granted granted Critical
Publication of CN113037730B publication Critical patent/CN113037730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于网络安全技术领域,特别涉及一种基于多特征学习的网络加密流量分类方法及系统,包含:通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。本发明能够从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类能力,具有较好的应用价值。

Description

基于多特征学习的网络加密流量分类方法及系统
技术领域
本发明属于网络安全技术领域,特别涉及一种基于多特征学习的网络加密流量分类方法及系统。
背景技术
近年来,由于加密技术的不断发展,流量加密技术在互联网上得到了广泛的应用。加密技术不仅保护了普通互联网用户的隐私和匿名性,同时也能使用户绕开防火墙和监控系统的检测,这就使得恶意用户有了可乘之机,例如,攻击者对恶意软件通信进行加密,以匿名入侵和攻击系统等。可以说,加密技术的滥用给网络安全和网络管理带来了新的威胁。因此,加密流量分类的识别和分类问题引起了学术界和工业界的广泛关注。流量分类是将网络流量准确识别为特定类别的任务,对许多应用程序都起着重要作用,如服务质量控制、恶意软件检测和入侵检测等。随着时间的推移和科技的进步,流量分类技术已经有了显著的发展。目前,流量分类技术主要有四种方法:基于端口号、基于内容、基于机器学习以及基于深度学习的分类方法。基于端口号对流量进行分类是最简单的一种分类方法。但是由于随机端口分配和端口伪装等技术的发展,这种方法的精度很低,一般不单独使用,而是和其他方法结合,一起进行流量分类。基于内容的流量分类方法依赖于深度数据包检测(DeepPacket Inspection,DPI),通过提取数据包中的关键字与DPI指纹库数据进行特征匹配,从而确定每个应用程序类型。但由于技术性和隐私性等因素无法对加密流量解密,这种方法不适用于加密流量。基于机器学习的流量分类方法的一般工作流程为:首先专家手动进行特征设计,然后从原始流量数据集中进行特征提取,最后将提取的特征输入到机器学习分类器(如决策树或朴素贝叶斯等)中对流量进行分类。可以看出,基于机器学习的分类方法高度依赖人工进行特征选择和提取,极大限制了它们的性能和通用性;而且所有的步骤都是独立的,即使每个步骤都得到了最好的结果,全局的结果也不一定是最优解。
针对机器学习的这些弊端,深度学习模型应运而生。相对于机器学习模型,深度学习模型通过训练自动进行特征选择和提取,不需要人工干涉。在当今流量新类型不断出现、旧类模式不断演变的情况下,这种特性使得深度学习成为一种高效的流量分类方法。深度学习的另一个重要的特性是其强大的学习能力,可以从高度复杂的环境中学习更多特征,从而获得较高的精度和准确率。此外,深度学习作为一种端到端的方法,能够自动学习原始流量与对应类别之间的非线性关系,各步骤之间是统一而非独立的,可以通过训练得到一个全局最优解。在加密流量分类这一领域,已经有很多基于深度学习的研究,但是大多数研究中流量特征通常只用到了空间特征或者时序特征中的某一种,而非全部。这样做虽然能够节省计算和存储开销,但是必然会影响到模型的分类性能。
发明内容
为此,本发明提供一种基于多特征学习的网络加密流量分类方法及系统,能够从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类能力。
按照本发明所提供的设计方案,提供一种基于多特征学习的网络加密流量分类方法,包含:
通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,预处理中,依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,切分中,按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量数据进行切分,得到双向网络流数据。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,清理中,删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包,并利用0x00覆盖IP地址段进行流匿名化操作。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,长度统一中,通过丢弃或补入将流数据包数设定为统一的固定长度;归一化处理中,将每个数据包向量归一化到[0,1]范围内,使得每条数据流形成统一长度的一维流量数据包向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,多通道CNN模型中,利用卷积核从数据包向量中提取空间特征,通过池化层获取一组数据包特征向量矩阵,并利用flatten层将矩阵转换为一维向量,再通过全连接层来获取数据包空间特征向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,LSTM模型中,将数据包向量以时间序列作为模型输入,利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出,通过循环来获取流量时序特征向量。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,将多通道CNN模型与LSTM输出的特征向量进行拼接,得到全方位流量特征向量,长度表示为2*q,其中,q为多通道CNN模型与LSTM输出两者输出的特征向量长度。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,神经网络全连接层通过softmax函数获取流量类型概率,取概率最高的类作为最后的加密流量分类结果,其中,softmax函数概率计算公式表示为:
Figure BDA0002955231970000031
zi为输出单元的输出值,i为加密流量类别索引,k为加密流量类别总数。
进一步地,本发明还提供一种基于多特征学习的网络加密流量分类系统,包含:预处理模块、并行学习模块、向量拼接模块和分类识别模块,其中,
预处理模块,用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
并行学习模块,用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
向量拼接模块,用于将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
分类识别模块,用于将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
本发明的有益效果:
本发明综合使用两种深度学习模型,以并行的方式提取流量的空间特征和时序特征,避免了传统方法分类准确率低以及两种模型串行工作计算时后面模型的输入依赖于前面模型的输出等这些问题,在加快了计算和分类速度的同时,从多维度充分利用流量特征以提高加密流量分类精度。在加密流量分类这一领域首次使用多通道CNN模型,能够对流中的数据包同时进行特征提取,有效利用了包级特征;基于深度学习模型进行加密流量分类,能够自动进行特征提取,避免了繁杂的人工特征选择和提取过程。两种深度学习模型相互独立,互不影响,其内部构造可以适当进行修改,比如增加或减少多通道CNN中卷积层和池化层的数量等,只需最后输出的向量维度一致即可,从空间特征和时间特征的角度全方位自动提取和利用流量特征,提升加密流量的分类识别能力。
附图说明:
图1为实施例中基于多特征学习的网络加密流量分类流程示意图;
图2为实施例中多通道CNN特征提取流程示意;
图3为实施例中单个LSTM细胞结构示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
针对加密流量分类,本发明实施例,参见图1所示,提供一种基于多特征学习的网络加密流量分类方法,包含:通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
综合使用两种深度学习模型,以并行的方式提取流量的空间特征和时序特征,避免了传统方法分类准确率低以及两种模型串行工作计算时后面模型的输入依赖于前面模型的输出等这些问题,在加快了计算和分类速度的同时,从多维度充分利用流量特征以提高加密流量分类精度。
作为实施例中本发明基于多特征学习的网络加密流量分类方法,进一步地,预处理中,依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。
进一步地,切分中,按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量数据进行切分,得到双向网络流数据。
按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量进行切分,得到一组双向网络流。流集表示为:F={f1,f2,…}。其中,fi为流集中的流,即
Figure BDA0002955231970000051
K为某条流的数据包数。
进一步地,清理中,删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包,并利用0x00覆盖IP地址段进行流匿名化操作。删除重复的流;删除不包含与流量分类所需特征无关的以太网头;删除空数据包;此外,因为神经网络可能通过学习IP地址对流量进行分类,为了防止过拟合,提高模型的泛化能力,将IP地址设为0,使流匿名化。
进一步地,长度统一中,通过丢弃或补入将流数据包数设定为统一的固定长度;归一化处理中,将每个数据包向量归一化到[0,1]范围内,使得每条数据流形成统一长度的一维流量数据包向量。
将每条流的数据包数固定为n,如果流中包含的数据包数大于n,则丢弃其他数据包,如果小于n,则通过重复最后一个数据包至总数为n,即:
Figure BDA0002955231970000052
为了使传输层段均匀,在UDP段的标头(8字节)末尾填充0,以使其与TCP标头的长度(20字节)相等;此外,将每个数据包字节数固定为M,在实现传输层段均匀后,如果数据包的字节数大于M,则截断,如果小于M,则补0至M字节。
将每个数据包向量除以255,归一化到[0,1]范围内,每条流形成n个长度为M的一维数据包向量,作为后续深度学习模型的输入,表示为:
Figure BDA0002955231970000061
其中,
Figure BDA0002955231970000062
为流集中第i条流的第K个数据包,是一个大小为[M,1]的一维列向量,K=1,2,…,n;
Figure BDA0002955231970000063
为该数据包中的一个字节表示,是[0,1]范围内的一个整数。
作为本发明实施例中基于多特征学习的网络加密流量分类方法,进一步地,多通道CNN模型中,利用卷积核从数据包向量中提取空间特征,通过池化层获取一组数据包特征向量矩阵,并利用flatten层将矩阵转换为一维向量,再通过全连接层来获取数据包空间特征向量。
如图2所示,借鉴RGB图像特征提取思想,将步骤1中预处理后的数据包向量作为多通道CNN的输入,通道数为n,即每条流的固定数据包数量。通过多通道CNN的卷积核从数据包特征向量中自动提取空间特征,通过池化层获取维度较低的更具有代表性的特征。在该步骤中,共使用了两个卷积层、两个池化层。第一个卷积层的卷积核数量设置为32,滤波器大小为[25,1,n],步长为1;第二个卷积层的卷积核数量设置为64,滤波器大小为[25,1,32],步长为1;所有卷积层均使用ReLU作为激活函数,ReLu函数表达式为ReLU(x)=max(0,x);池化层采用最大池化处理技术(即maxpooling),池化窗口大小为3,步长为3,即在每个步骤中,max pooling处理一个大小为[3,1]的向量输入,过程如下所示:maxpooling[x1,x2,x3]=max(x1,x2,x3)。通过池化层后,得到一组一维数据包特征向量,数量取决于上一层卷积核的个数,将这组向量构成一个矩阵,通过flatten层转换为一维向量,再经过全连接层Fc,最终得到一个长度为q的一维流特征向量,其中,q的大小取决于全连接层神经元的个数;flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡。表1给出了所用多通道CNN的结构和参数。
表1所用CNN的结构和参数
Figure BDA0002955231970000064
Figure BDA0002955231970000071
作为本发明实施例中基于多特征学习的网络加密流量分类方法,进一步地,LSTM模型中,将数据包向量以时间序列作为模型输入,利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出,通过循环来获取流量时序特征向量。
n个数据包向量作为LSTM的输入,以时间序列T=n输入到LSTM中,自动提取流的时间特征,最后输出一个长度为q的一维流特征向量。其中,q可以通过控制LSTM中隐藏单元数来控制其大小。如图3所示,LSTM通过遗忘门、输入门、输出门三个门来记忆某一时刻之前的信息,并利用之前的信息影响当前时刻的输出。下面以单个LSTM细胞结构为例来解释其运算步骤:
遗忘门决定应丢弃或保留哪些信息。来自前一个隐藏状态的信息和当前输入的信息同时传递到sigmoid函数中去,输出值介于0和1之间,越接近0意味着越应该丢弃,越接近1意味着越应该保留。在t时刻(0≤t<n)遗忘门的运算公式为:
Figure BDA0002955231970000072
其中wf为遗忘门权重矩阵,
Figure BDA0002955231970000073
为第i条流在时刻t时输入的数据包(即第t个数据包),bf为遗忘门偏置矩阵。
输入门用于更新细胞状态。在t时刻(0≤t<n)输入门的运算公式为:
Figure BDA0002955231970000074
Figure BDA0002955231970000075
其中wc为输入门权重矩阵,bc为输入门偏置矩阵。细胞状态更新公式为:
Figure BDA0002955231970000076
输出门用来确定下一个隐藏状态的值,隐藏状态包含了先前输入的信息。输出门的计算公式为:
ot=sigmoid(wo·[ht-1,Pt i]+bo),
ht=ot*tanh(Ct)
上述过程不断循环,LSTM最终时刻的输出包含之前所有时刻的信息,从而学习到了整条流的时序特征。
将多通道CNN模型与LSTM输出的特征向量进行拼接,得到全方位流量特征向量,长度表示为2*q,其中,q为多通道CNN模型与LSTM输出两者输出的特征向量长度。
作为本发明基于多特征学习的网络加密流量分类方法,进一步地,神经网络全连接层通过softmax函数获取流量类型概率,取概率最高的类作为最后的加密流量分类结果,其中,softmax函数概率计算公式表示为:
Figure BDA0002955231970000081
zi为输出单元的输出值,i为加密流量类别索引,k为加密流量类别总数。得到的总的流量特征向量表示输入到神经网络全连接层,最后通过softmax函数计算该流属于各类应用的概率,取概率最高的那类作为最后的分类结果,以此实现加密流量分类。其中全连接层可以有多层。
进一步地,基于上述的方法,本发明实施例还提供一种基于多特征学习的网络加密流量分类系统,包含:预处理模块、并行学习模块、向量拼接模块和分类识别模块,其中,
预处理模块,用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
并行学习模块,用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
向量拼接模块,用于将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
分类识别模块,用于将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于多特征学习的网络加密流量分类方法,其特征在于,包含:
通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
2.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,预处理中,依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。
3.根据权利要求2所述的基于多特征学习的网络加密流量分类方法,其特征在于,切分中,按照五元组{源IP,源端口,目的IP,目的端口,传输层协议}将原始流量数据进行切分,得到双向网络流数据。
4.根据权利要求2所述的基于多特征学习的网络加密流量分类方法,其特征在于,清理中,删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包,并利用0x00覆盖IP地址段进行流匿名化操作。
5.根据权利要求2所述的基于多特征学习的网络加密流量分类方法,其特征在于,长度统一中,通过丢弃或补入将流数据包数设定为统一的固定长度;归一化处理中,将每个数据包向量归一化到[0,1]范围内,使得每条数据流形成统一长度的一维流量数据包向量。
6.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,多通道CNN模型中,利用卷积核从数据包向量中提取空间特征,通过池化层获取一组数据包特征向量矩阵,并利用flatten层将矩阵转换为一维向量,再通过全连接层来获取数据包空间特征向量。
7.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,LSTM模型中,将数据包向量以时间序列作为模型输入,利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出,通过循环来获取流量时序特征向量。
8.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,将多通道CNN模型与LSTM输出的特征向量进行拼接,得到全方位流量特征向量,长度表示为2*q,其中,q为多通道CNN模型与LSTM输出两者输出的特征向量长度。
9.根据权利要求1所述的基于多特征学习的网络加密流量分类方法,其特征在于,神经网络全连接层通过softmax函数获取流量类型概率,取概率最高的类作为最后的加密流量分类结果,其中,softmax函数概率计算公式表示为:
Figure FDA0002955231960000021
zi为输出单元的输出值,i为加密流量类别索引,k为加密流量类别总数。
10.一种基于多特征学习的网络加密流量分类系统,其特征在于,包含:预处理模块、并行学习模块、向量拼接模块和分类识别模块,其中,
预处理模块,用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量;
并行学习模块,用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习,通过多通道CNN模型提取数据包空间特征,通过LSTM模型提取流量时序特征;
向量拼接模块,用于将数据包空间特征和流量时序特征进行向量拼接,得到全方位流量特征向量;
分类识别模块,用于将全方位流量特征向量输入到神经网络全连接层,通过流量类型概率来获取加密流量分类类型。
CN202110221394.3A 2021-02-27 2021-02-27 基于多特征学习的网络加密流量分类方法及系统 Active CN113037730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110221394.3A CN113037730B (zh) 2021-02-27 2021-02-27 基于多特征学习的网络加密流量分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110221394.3A CN113037730B (zh) 2021-02-27 2021-02-27 基于多特征学习的网络加密流量分类方法及系统

Publications (2)

Publication Number Publication Date
CN113037730A true CN113037730A (zh) 2021-06-25
CN113037730B CN113037730B (zh) 2023-06-20

Family

ID=76464659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110221394.3A Active CN113037730B (zh) 2021-02-27 2021-02-27 基于多特征学习的网络加密流量分类方法及系统

Country Status (1)

Country Link
CN (1) CN113037730B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113452810A (zh) * 2021-07-08 2021-09-28 恒安嘉新(北京)科技股份公司 一种流量分类方法、装置、设备和介质
CN113556328A (zh) * 2021-06-30 2021-10-26 杭州电子科技大学 基于深度学习的加密流量分类方法
CN113627502A (zh) * 2021-07-30 2021-11-09 中国人民解放军战略支援部队信息工程大学 一种网络加密流量分类方法
CN113783795A (zh) * 2021-07-19 2021-12-10 北京邮电大学 加密流量分类方法及相关设备
CN113794687A (zh) * 2021-08-17 2021-12-14 北京天融信网络安全技术有限公司 基于深度学习的恶意加密流量检测方法及装置
CN114205151A (zh) * 2021-12-12 2022-03-18 南京理工大学 基于多特征融合学习的http/2页面访问流量识别方法
CN114301636A (zh) * 2021-12-10 2022-04-08 南京理工大学 基于流量多尺度时空特征融合的vpn通信行为分析方法
CN114615093A (zh) * 2022-05-11 2022-06-10 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN114884896A (zh) * 2022-05-07 2022-08-09 大连理工大学 一种基于特征扩展和自动机器学习的移动应用流量感知方法
CN115314265A (zh) * 2022-07-27 2022-11-08 天津市国瑞数码安全系统股份有限公司 基于流量和时序识别tls加密应用的方法和系统
CN115563610A (zh) * 2022-12-05 2023-01-03 江苏新希望科技有限公司 入侵检测模型的训练方法、识别方法和装置
CN114401229B (zh) * 2021-12-31 2023-09-19 北京理工大学 一种基于Transformer深度学习模型的加密流量识别方法
WO2024180543A1 (en) * 2023-02-27 2024-09-06 Ariel Scientific Innovations Ltd. System and method of classifying network traffic

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086513A1 (zh) * 2016-11-08 2018-05-17 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN110110707A (zh) * 2019-05-24 2019-08-09 苏州闪驰数控系统集成有限公司 人工智能cnn、lstm神经网络动态识别系统
CN112054967A (zh) * 2020-08-07 2020-12-08 北京邮电大学 网络流量分类方法、装置、电子设备及存储介质
CN112163594A (zh) * 2020-08-28 2021-01-01 南京邮电大学 一种网络加密流量识别方法及装置
CN112235257A (zh) * 2020-09-24 2021-01-15 中国人民解放军战略支援部队信息工程大学 融合式加密恶意流量检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086513A1 (zh) * 2016-11-08 2018-05-17 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN110110707A (zh) * 2019-05-24 2019-08-09 苏州闪驰数控系统集成有限公司 人工智能cnn、lstm神经网络动态识别系统
CN112054967A (zh) * 2020-08-07 2020-12-08 北京邮电大学 网络流量分类方法、装置、电子设备及存储介质
CN112163594A (zh) * 2020-08-28 2021-01-01 南京邮电大学 一种网络加密流量识别方法及装置
CN112235257A (zh) * 2020-09-24 2021-01-15 中国人民解放军战略支援部队信息工程大学 融合式加密恶意流量检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YONG ZHANG等: "Network Intrusion Detection:Based on Hierarchical Network and Original Flow Deep Data", 《IEEE ACCESS》, 3 April 2019 (2019-04-03), pages 37004 - 37016 *
吴迪等: "BotCatcher:基于深度学习的僵尸网络检测系统", 《通信学报》, no. 08, 25 August 2018 (2018-08-25), pages 20 - 26 *
周衍挺;: "基于改进的多通道卷积神经网络模型的图像分类方法", 佳木斯大学学报(自然科学版), no. 06 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113556328A (zh) * 2021-06-30 2021-10-26 杭州电子科技大学 基于深度学习的加密流量分类方法
CN113452810A (zh) * 2021-07-08 2021-09-28 恒安嘉新(北京)科技股份公司 一种流量分类方法、装置、设备和介质
CN113783795B (zh) * 2021-07-19 2023-07-25 北京邮电大学 加密流量分类方法及相关设备
CN113783795A (zh) * 2021-07-19 2021-12-10 北京邮电大学 加密流量分类方法及相关设备
CN113627502A (zh) * 2021-07-30 2021-11-09 中国人民解放军战略支援部队信息工程大学 一种网络加密流量分类方法
CN113794687A (zh) * 2021-08-17 2021-12-14 北京天融信网络安全技术有限公司 基于深度学习的恶意加密流量检测方法及装置
CN114301636A (zh) * 2021-12-10 2022-04-08 南京理工大学 基于流量多尺度时空特征融合的vpn通信行为分析方法
CN114205151A (zh) * 2021-12-12 2022-03-18 南京理工大学 基于多特征融合学习的http/2页面访问流量识别方法
CN114401229B (zh) * 2021-12-31 2023-09-19 北京理工大学 一种基于Transformer深度学习模型的加密流量识别方法
CN114884896B (zh) * 2022-05-07 2023-10-03 大连理工大学 一种基于特征扩展和自动机器学习的移动应用流量感知方法
CN114884896A (zh) * 2022-05-07 2022-08-09 大连理工大学 一种基于特征扩展和自动机器学习的移动应用流量感知方法
CN114615093B (zh) * 2022-05-11 2022-07-26 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN114615093A (zh) * 2022-05-11 2022-06-10 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN115314265B (zh) * 2022-07-27 2023-07-18 天津市国瑞数码安全系统股份有限公司 基于流量和时序识别tls加密应用的方法和系统
CN115314265A (zh) * 2022-07-27 2022-11-08 天津市国瑞数码安全系统股份有限公司 基于流量和时序识别tls加密应用的方法和系统
CN115563610A (zh) * 2022-12-05 2023-01-03 江苏新希望科技有限公司 入侵检测模型的训练方法、识别方法和装置
WO2024180543A1 (en) * 2023-02-27 2024-09-06 Ariel Scientific Innovations Ltd. System and method of classifying network traffic

Also Published As

Publication number Publication date
CN113037730B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN113037730B (zh) 基于多特征学习的网络加密流量分类方法及系统
CN112163594B (zh) 一种网络加密流量识别方法及装置
CN113162908B (zh) 一种基于深度学习的加密流量检测方法及系统
Rezaei et al. Deep learning for encrypted traffic classification: An overview
CN109951444B (zh) 一种加密匿名网络流量识别方法
Marín et al. Rawpower: Deep learning based anomaly detection from raw network traffic measurements
CN114615093B (zh) 基于流量重构与继承学习的匿名网络流量识别方法及装置
Yang et al. TLS/SSL encrypted traffic classification with autoencoder and convolutional neural network
CN111131069B (zh) 一种基于深度学习策略的异常加密流量检测与分类方法
CN110751222A (zh) 基于cnn和lstm的在线加密流量分类方法
CN110417729B (zh) 一种加密流量的服务与应用分类方法及系统
CN110796196A (zh) 一种基于深度判别特征的网络流量分类系统及方法
CN111565156B (zh) 一种对网络流量识别分类的方法
CN113329023A (zh) 一种加密流量恶意性检测模型建立、检测方法及系统
Wang et al. Automatic mobile app identification from encrypted traffic with hybrid neural networks
CN113472751B (zh) 一种基于数据包头的加密流量识别方法及装置
Soleymanpour et al. An efficient deep learning method for encrypted traffic classification on the web
CN114239737A (zh) 一种基于时空特征与双层注意力的加密恶意流量检测方法
CN112910853A (zh) 基于混合特征的加密流量分类方法
CN114401229A (zh) 一种基于Transformer深度学习模型的加密流量识别方法
CN116318928A (zh) 一种基于数据增强和特征融合的恶意流量识别方法及系统
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
Ding et al. Network attack detection method based on convolutional neural network
Cui et al. Semi-2DCAE: a semi-supervision 2D-CNN AutoEncoder model for feature representation and classification of encrypted traffic
CN116451138A (zh) 基于多模态学习的加密流量分类方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant