CN114978585A - 基于流量特征的深度学习对称加密协议识别方法 - Google Patents

基于流量特征的深度学习对称加密协议识别方法 Download PDF

Info

Publication number
CN114978585A
CN114978585A CN202210380490.7A CN202210380490A CN114978585A CN 114978585 A CN114978585 A CN 114978585A CN 202210380490 A CN202210380490 A CN 202210380490A CN 114978585 A CN114978585 A CN 114978585A
Authority
CN
China
Prior art keywords
flow
data
symmetric encryption
identification model
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210380490.7A
Other languages
English (en)
Other versions
CN114978585B (zh
Inventor
段运强
佟玲玲
段东圣
谢东岳
邓泽骏
任博雅
井雅琪
时磊
侯炜
王红兵
吕东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fule Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Beijing Fule Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fule Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Beijing Fule Technology Co ltd
Priority to CN202210380490.7A priority Critical patent/CN114978585B/zh
Publication of CN114978585A publication Critical patent/CN114978585A/zh
Application granted granted Critical
Publication of CN114978585B publication Critical patent/CN114978585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开的实施例提供了基于流量特征的深度学习对称加密协议识别方法、装置、设备和计算机可读存储介质。所述方法包括获取网络流量数据;对所述网络流量数据进行预处理,得到对称加密流量;基于主成分分析‑皮尔森系数法流量识别模型和基于注意力机制的CNN‑LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。以此方式,实现了对对称加密协议的高效识别。

Description

基于流量特征的深度学习对称加密协议识别方法
技术领域
本公开的实施例一般涉及网络安全技术领域,并且更具体地,涉及基于流量特征的深度学习对称加密协议识别方法、装置、设备和计算机可读存储介质。
背景技术
当前,对于网络流量的通用识别方法,主要分为基于端口的识别方法、DPI深度包检测方法、DFI深度流检测方法和基于机器学习检测方法。
对于端口识别的方法,因为当下新应用数量越来越多,而且近几年流行的P2P应用,都普遍使用随机端口的策略或者是通过配置用户自定义端口,并且因NAT技术在目前IPv4公网IP缺乏的情况下被大量使用,使得通过端口来识别流量的准确性方法逐步降低,此方法现已变得不在可行。
深度包检测方法通过研究人员预定义一些流量特别的固定串模式,建立研究目标流量的指纹库,通过对测试流量的网络流数据包头部和载荷内容,与指纹库中预定义的相关模式进行匹配,从而判定流量的类别。但是这个方法无法处理加密流量,且对于每个数据包都需要匹配,在实时性高的场合效果不佳。
发明内容
根据本公开的实施例,提供了一种基于流量特征的深度学习对称加密协议识别方案。
在本公开的第一方面,提供了一种基于流量特征的深度学习对称加密协议识别方法。该方法包括:
获取网络流量数据;
对所述网络流量数据进行预处理,得到对称加密流量;
基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;
将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。
进一步地,所述对所述网络流量数据进行预处理,得到对称加密流量包括:
基于流量报文组匹配规则,对所述网络流量数据进行报文匹配,若匹配成功,则基于数据包之间的时间间隔进行规则匹配,得到对称加密流量。
进一步地,所述基于主成分分析-皮尔森系数法流量识别模型通过如下方式进行构建:
生成训练样本集合,其中,训练样本包括带有标注信息的加密的网络流量数据;所述标注信息包括网络流量数据的特征信息;
通过主成分分析法对所述训练样本集合进行降维;
通过皮尔森系数法,对降维后的集合进行阈值鉴定,生成识别加密流量的特征集合;
基于所述特征集合,通过XGBoost分类器,构建基于主成分分析-皮尔森系数法流量识别模型。
进一步地,所述基于注意力机制的CNN-LSTM算法流量识别模型通过如下方式进行构建:
生成训练样本集合,其中,训练样本包括带有标注信息的加密的网络流量数据;所述标注信息包括网络流量数据的特征信息;
将所述训练样本输入至CNN卷积层中,得到数据流特征向量;
将所述数据流特征向量输入至LSTM中进行加强学习,得到特征集合;
基于所述特征集合,通过XGBoost分类器,构建基于注意力机制的CNN-LSTM算法流量识别模型。
进一步地,还包括:
基于隐式流量特征规律,对注意力层中的特征进行标注,引导性增加特征选取;所述隐式流量特征规律,根据对称加密流量的加密协议确定。
进一步地,所述将所述训练样本输入至CNN卷积层中,得到数据流特征向量包括:
将训练样本输入至嵌入层,将所述训练样本中的流量数据归一成嵌入向量;
将所述嵌入向量输入至CNN不同步长的卷积核中,得到数据流特征向量。
进一步地,还包括:
结合注意力机制和隐式流量特征规律,调整LSTM输出的特征集合。
在本公开的第二方面,提供了一种基于流量特征的深度学习对称加密协议识别装置。该装置包括:
获取模块,用于获取网络流量数据;
处理模块,用于对所述网络流量数据进行预处理,得到对称加密流量;
构建模块,用于基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;
识别模块,用于将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。
在本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面的方法。
本申请实施例提供的基于流量特征的深度学习对称加密协议识别方法,通过获取网络流量数据;对所述网络流量数据进行预处理,得到对称加密流量;基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别,实现了网络流量的高效识别。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2示出了根据本公开的实施例的基于流量特征的深度学习对称加密协议识别方法的流程图;
图3示出了根据本公开的实施例的数据输入预处理流程图;
图4示出了根据本公开的实施例的基于注意力机制CNN-LSTM算法流程图;
图5示出了根据本公开的实施例的对称加密协议识别模型示意图;
图6示出了根据本公开的实施例的基于流量特征的深度学习对称加密协议识别装置的方框图;
图7示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1示出了可以应用本申请的基于流量特征的深度学习对称加密协议识别方法或基于流量特征的深度学习对称加密协议识别装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如模型训练类应用、视频识别类应用、网页浏览器应用、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
当终端101、102、103为硬件时,其上还可以安装有视频采集设备。视频采集设备可以是各种能实现采集视频功能的设备,如摄像头、传感器等等。用户可以利用终端101、102、103上的视频采集设备来采集视频。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的数据处理的后台服务器。后台服务器可以对接收到的数据进行分析等处理,并可以将处理结果反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。特别地,在目标数据不需要从远程获取的情况下,上述系统架构可以不包括网络,而只包括终端设备或服务器。
如图2所示,是本申请实施例基于流量特征的深度学习对称加密协议识别方法的流程图。从图2中可以看出,本实施例的基于流量特征的深度学习对称加密协议识别方法,包括以下步骤:
S210,获取网络流量数据。
在本实施例中,用于基于流量特征的深度学习对称加密协议识别方法的执行主体(例如图1所示的服务器)可以通过有线方式或者无线连接的方式获取网络流量数据。
进一步地,上述执行主体可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的网络流量数据,也可以是预先存储于本地的网络流量数据。
S220,对所述网络流量数据进行预处理,得到对称加密流量。
在一些实施例中,参考图3,基于流量报文组(源IP,源端口,目的IP,目的端口等)匹配规则,对所述网络流量数据进行报文匹配,若匹配成功,则基于数据包之间的时间间隔进行规则匹配,得到对称加密流量,即单会话流量,剔除不需要的流量;若匹配失败,则根据失败原因进行标记;
进一步地,
若为报文组不匹配,则标记后日志记录并丢弃该数据包;
若为时间间隔不匹配,则代表可能为客户端服务器端的新连接、网络问题而导致的丢包和/或重发等原因,此时进行初步标记;
若时间间隔匹配,则表示该数据包报文组在流表中已含有,根据之前报文匹配数据包是否被标记判断;若之前(n个)数据包有被标记,则可能为新连接,将之前数据包统筹为新增新会话项;若之前(n个)数据包未被标记,则为已有会话新增通信数据数据包,在已有会话中新增表项;所述,n为人为设定的阈值,可根据实际应用场景进行预先设定。
S230,基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型。
在一些实施例中,基于主成分分析-皮尔森系数法流量识别模型通过如下方式进行构建:
生成训练样本集合,其中,训练样本包括带有标注信息的加密的网络流量数据;所述标注信息包括网络流量数据的特征信息;
通过主成分分析法对所述训练样本集合进行降维;
通过皮尔森系数法,对降维后的集合进行阈值鉴定,生成识别加密流量的特征集合;
基于所述特征集合,通过XGBoost分类器,构建基于主成分分析-皮尔森系数法流量识别模型。
在一些实施例中,参考图4,基于注意力机制的CNN-LSTM算法流量识别模型通过如下方式进行构建:
生成训练样本集合,其中,训练样本包括带有标注信息的加密的网络流量数据;所述标注信息包括网络流量数据的特征信息;
将训练样本输入至嵌入层,将所述训练样本中的流量数据归一成嵌入向量;
将所述嵌入向量输入至CNN不同步长的卷积核中,得到数据流特征向量,即得到不同组特征向量;
将所述数据流特征向量输入至LSTM中进行加强学习,得到特征集合(将每组的特征向量进行拼接集合,通过全连接层对结果综合汇总输出);
基于所述特征集合,通过XGBoost分类器,构建基于注意力机制的CNN-LSTM算法流量识别模型。
进一步地,还包括:
基于隐式流量特征规律,对注意力层中的特征进行标注,引导性增加特征选取;所述隐式流量特征规律,基于对称加密流量的加密协议,通过机器学习的方法确定。
进一步地,
结合注意力机制和隐式流量特征规律,调整LSTM输出的特征集合。即,结合隐式流量特征规律,训练中需要特别注意的特征引入注意力层,引导性增加特征选取。
在一些实施例中,将所述基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型进行结合,构建基于流量特征的对称加密协议识别模型。
S240,将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。
在一些实施例中,如图5所示,将所述对称加密流量输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别;其中,图中的隐式特征集合为隐式流量特征规律的集合。
根据本公开的实施例,实现了以下技术效果:
通过降维的方式,加快了使用分类器对目标通过特征集合的筛选速度。使用注意力机制方法,引导深度学习在某些特别的特征上进行更深入的学习。将特征集与XGBoost相结合,在快速更新特征集合的同时保证了分类器分类效率,实现了对对称加密协议的高效识别。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图6示出了根据本公开的实施例的基于流量特征的深度学习对称加密协议识别装置600的方框图。如图6所示,装置600包括:
获取模块610,用于获取网络流量数据;
处理模块620,用于对所述网络流量数据进行预处理,得到对称加密流量;
构建模块630,用于基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;
识别模块640,用于将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。如图所示,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可以存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元701执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时,可以执行上文描述的方法200、300、400的一个或多个步骤。备选地,在其他实施例中,CPU 701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种基于流量特征的深度学习对称加密协议识别方法,其特征在于,包括:
获取网络流量数据;
对所述网络流量数据进行预处理,得到对称加密流量;
基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;
将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。
2.根据权利要求1所述的方法,其特征在于,所述对所述网络流量数据进行预处理,得到对称加密流量包括:
基于流量报文组匹配规则,对所述网络流量数据进行报文匹配,若匹配成功,则基于数据包之间的时间间隔进行规则匹配,得到对称加密流量。
3.根据权利要求2所述的方法,其特征在于,所述基于主成分分析-皮尔森系数法流量识别模型通过如下方式进行构建:
生成训练样本集合,其中,训练样本包括带有标注信息的加密的网络流量数据;所述标注信息包括网络流量数据的特征信息;
通过主成分分析法对所述训练样本集合进行降维;
通过皮尔森系数法,对降维后的集合进行阈值鉴定,生成识别加密流量的特征集合;
基于所述特征集合,通过XGBoost分类器,构建基于主成分分析-皮尔森系数法流量识别模型。
4.根据权利要求3所述的方法,其特征在于,所述基于注意力机制的CNN-LSTM算法流量识别模型通过如下方式进行构建:
生成训练样本集合,其中,训练样本包括带有标注信息的加密的网络流量数据;所述标注信息包括网络流量数据的特征信息;
将所述训练样本输入至CNN卷积层中,得到数据流特征向量;
将所述数据流特征向量输入至LSTM中进行加强学习,得到特征集合;
基于所述特征集合,通过XGBoost分类器,构建基于注意力机制的CNN-LSTM算法流量识别模型。
5.根据权利要求4所述的方法,其特征在于,还包括:
基于隐式流量特征规律,对注意力层中的特征进行标注,引导性增加特征选取;所述隐式流量特征规律,根据对称加密流量的加密协议确定。
6.根据权利要求5所述的方法,其特征在于,所述将所述训练样本输入至CNN卷积层中,得到数据流特征向量包括:
将训练样本输入至嵌入层,将所述训练样本中的流量数据归一成嵌入向量;
将所述嵌入向量输入至CNN不同步长的卷积核中,得到数据流特征向量。
7.根据权利要求6所述的方法,其特征在于,还包括:
结合注意力机制和隐式流量特征规律,调整LSTM输出的特征集合。
8.一种基于流量特征的深度学习对称加密协议识别装置,其特征在于,包括:
获取模块,用于获取网络流量数据;
处理模块,用于对所述网络流量数据进行预处理,得到对称加密流量;
构建模块,用于基于主成分分析-皮尔森系数法流量识别模型和基于注意力机制的CNN-LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;
识别模块,用于将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN202210380490.7A 2022-04-12 2022-04-12 基于流量特征的深度学习对称加密协议识别方法 Active CN114978585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380490.7A CN114978585B (zh) 2022-04-12 2022-04-12 基于流量特征的深度学习对称加密协议识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380490.7A CN114978585B (zh) 2022-04-12 2022-04-12 基于流量特征的深度学习对称加密协议识别方法

Publications (2)

Publication Number Publication Date
CN114978585A true CN114978585A (zh) 2022-08-30
CN114978585B CN114978585B (zh) 2024-02-27

Family

ID=82977545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380490.7A Active CN114978585B (zh) 2022-04-12 2022-04-12 基于流量特征的深度学习对称加密协议识别方法

Country Status (1)

Country Link
CN (1) CN114978585B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170374016A1 (en) * 2016-06-23 2017-12-28 Cisco Technology, Inc. Utilizing service tagging for encrypted flow classification
CN110391958A (zh) * 2019-08-15 2019-10-29 北京中安智达科技有限公司 一种对网络加密流量自动进行特征提取和识别的方法
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN111277578A (zh) * 2020-01-14 2020-06-12 西安电子科技大学 加密流量分析特征提取方法、系统、存储介质、安全设备
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN112163594A (zh) * 2020-08-28 2021-01-01 南京邮电大学 一种网络加密流量识别方法及装置
CN112165484A (zh) * 2020-09-25 2021-01-01 国家计算机网络与信息安全管理中心 基于深度学习与侧信道分析的网络加密流量识别方法装置
CN112769633A (zh) * 2020-12-07 2021-05-07 深信服科技股份有限公司 一种代理流量检测方法、装置、电子设备及可读存储介质
CN114048795A (zh) * 2021-10-15 2022-02-15 南京邮电大学 一种基于PCA和XGBoost融合的业务类型识别方法
CN114239737A (zh) * 2021-12-21 2022-03-25 国家电网有限公司信息通信分公司 一种基于时空特征与双层注意力的加密恶意流量检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170374016A1 (en) * 2016-06-23 2017-12-28 Cisco Technology, Inc. Utilizing service tagging for encrypted flow classification
CN110391958A (zh) * 2019-08-15 2019-10-29 北京中安智达科技有限公司 一种对网络加密流量自动进行特征提取和识别的方法
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN111277578A (zh) * 2020-01-14 2020-06-12 西安电子科技大学 加密流量分析特征提取方法、系统、存储介质、安全设备
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN112163594A (zh) * 2020-08-28 2021-01-01 南京邮电大学 一种网络加密流量识别方法及装置
CN112165484A (zh) * 2020-09-25 2021-01-01 国家计算机网络与信息安全管理中心 基于深度学习与侧信道分析的网络加密流量识别方法装置
CN112769633A (zh) * 2020-12-07 2021-05-07 深信服科技股份有限公司 一种代理流量检测方法、装置、电子设备及可读存储介质
CN114048795A (zh) * 2021-10-15 2022-02-15 南京邮电大学 一种基于PCA和XGBoost融合的业务类型识别方法
CN114239737A (zh) * 2021-12-21 2022-03-25 国家电网有限公司信息通信分公司 一种基于时空特征与双层注意力的加密恶意流量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
严谨: "基于深度学习的网络流量分类方法研究与仿真实现", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *
吉庆兵等: "基于深度学习的加密网络流量识别方法研究", 《通信技术》, vol. 54, no. 1 *

Also Published As

Publication number Publication date
CN114978585B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN109976995B (zh) 用于测试的方法和装置
CN112104570A (zh) 流量分类方法、装置、计算机设备和存储介质
CN114448830B (zh) 一种设备检测系统及方法
US20240104248A1 (en) Privacy transformations in data analytics
CN113472751B (zh) 一种基于数据包头的加密流量识别方法及装置
CN115412370A (zh) 车辆通信数据检测方法、装置、电子设备和可读介质
CN114978585A (zh) 基于流量特征的深度学习对称加密协议识别方法
CN115564000A (zh) 二维码生成方法、装置、计算机设备及存储介质
CN114882557A (zh) 一种人脸识别方法和装置
CN113378025B (zh) 数据处理方法、装置、电子设备及存储介质
CN115473734A (zh) 基于单分类和联邦学习的远程代码执行攻击检测方法
CN111835720B (zh) 基于特征增强的vpn流量web指纹识别方法
CN114866310A (zh) 一种恶意加密流量检测方法、终端设备及存储介质
CN113642472A (zh) 判别器模型的训练方法和动作识别方法
CN115086242A (zh) 加密数据包识别方法、装置与电子设备
CN113033373A (zh) 用于训练人脸识别模型及识别人脸的方法及相关装置
CN110532113A (zh) 信息处理方法、装置、计算机可读存储介质及电子设备
CN115529159B (zh) 加密流量检测模型的训练方法、装置、设备及存储介质
CN116383391B (zh) 一种文本分类方法及装置
CN115622810B (zh) 一种基于机器学习算法的业务应用识别系统及方法
CN116319575A (zh) 通用路由封装协议报文的限速方法及装置
CN115150165B (zh) 一种流量识别方法及装置
CN113806542B (zh) 文本分析方法及系统
CN113537361B (zh) 联邦学习系统中的跨样本特征选择方法及联邦学习系统
CN114565871A (zh) 一种视频处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant