CN113067839B - 一种基于多模态神经网络的恶意加密流量检测方法 - Google Patents
一种基于多模态神经网络的恶意加密流量检测方法 Download PDFInfo
- Publication number
- CN113067839B CN113067839B CN202110612198.9A CN202110612198A CN113067839B CN 113067839 B CN113067839 B CN 113067839B CN 202110612198 A CN202110612198 A CN 202110612198A CN 113067839 B CN113067839 B CN 113067839B
- Authority
- CN
- China
- Prior art keywords
- flow
- neural network
- data
- modal
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于多模态神经网络的恶意加密流量检测方法,具体包括如下步骤:S1:构建一个特征提取模块,从网络流量上捕获数据包,并输出网络流的多个模态的特征;S2:构建并训练一个神经网络检测模块,输入S1中输出的网络流的多个模态的特征,进行恶意流量检测。本发明能够提取网络流量的多模态特征,从多个维度对网络流量进行分析,提高恶意流量识别率。
Description
技术领域
本发明涉及恶意加密流量检测领域,尤其涉及一种基于多模态神经网络的恶意加密流量检测方法。
背景技术
恶意网络流量检测,Dai, R., Gao, C., Lang, B., Yang, L., Liu, H., &Chen, S. (2019). SSL Malicious Traffic Detection Based On Multi-viewFeatures. In Proceedings of the 2019 the 9th International Conference onCommunication and Network Security.其中提取了加密流量三个方面的32个特征,包含流量的统计特征、SSL协议握手特征和X509证书特征。然后,利用不同特征之间的互信息进行特征选择,去掉关联性不强的3个特征,并将其他特征进行拼接。最后采用通用的四种统计机器学习方法,包括支持向量机、决策树、随机森林和XGBoost,进行模型构建和加密恶意流量的识别。但该现有技术存在如下缺点:
1)限定了所提取的流量特征,即文中的32种;
2)简单地利用互信息进行特征选择,不能保证去掉的特征中包含对模型训练有用的信息;
3)直接将三个部分的特征进行拼接,忽略了各个部分信息之间的冗余,造成恶意流量识别率底;
Celik, Z. B., Walls, R. J., McDaniel, P., & Swami, A. (2015). Malwaretraffic detection using tamper resistant features. In MILCOM 2015 - 2015 IEEEMilitary Communications Conference (pp. 330–335).
John A Quinn and Masashi Sugiyama. A least-squares approach toanomaly detection in static and sequential data. Pattern Recognition Letters,2014.在该现有技术中,通过捕获网络流量中的TCP包,进行流量特征的统计,最终提取了9个特征,使用通用的统计机器学习方法,包括支持向量机、kNN,LSAD 、k-means算法,进行恶意流量检测。但该现有技术存在如下缺点:
1)限定了所提取的流量特征,即文中的9种;
2)只采用了流量的统计特征,信息源不足,造成恶意流量识别率底。
Marin, G., Casas, P., & Capdehourat, G. (2019). Deep in the Dark -Deep Learning-Based Malware Traffic Detection Without Expert Knowledge. In2019 IEEE Security and Privacy Workshops (SPW) (pp. 36–42).在该现有技术中首先捕获网络流量,不做任何特征提取,抽取其前m个流量包的前n个字节,将之作为深度网络模型的输入。该现有技术存在如下缺点:
1)不做任何特征的提取,网络流量的前m个流量包的前n个字节中,包含众多冗余、交叉、含噪的无用数据,导致检测性能较低。
2)没有从多个维度对网络流量进行分析,造成恶意流量识别率底。
发明内容
本发明的目的是提供一种基于多模态神经网络的恶意加密流量检测方法,能够提取网络流量的多模态特征,从多个维度对网络流量进行分析,提高恶意流量识别率。
为达到上述目的而采用了一种基于多模态神经网络的恶意加密流量检测方法,具体包括如下步骤:
S1:构建一个特征提取模块,从网络流量上捕获数据包,并输出网络流的多个模态的特征;
S2:构建并训练一个神经网络检测模块,输入S1中输出的网络流的多个模态的特征,进行恶意流量检测;
作为本发明基于多模态神经网络的恶意加密流量检测方法进一步的改进,S1中:
S1.1:解析流量包中的五元组,判断该流量包是否是使用了TLS协议,若判断结果为否则丢弃,若判断结果为是,则进行步骤S1.2;
S1.2:根据五元组判断该流量包所属的网络流,并判断其在网络流中的位置,若为第一个包,则为该网络流开辟空间;若为最后一个包,则进行S1.3;否则,将该流量包存入对应的网络流空间;
S1.3:对完整的网络流进行统计计算,进行多模态特征提取,多模态特征至少包括流统计特征、TLS协议特征和证书特征。
作为本发明基于多模态神经网络的恶意加密流量检测方法进一步的改进:
提取到的多模态流量特征表示为,其中,X p 表示第p个模态的数据,且共有m个模态,网络流量的标签表示为Y,数据的隐藏表达表示为H,与第p个模态对应的神经网络表示为f Θp ,其中Θp代表第p个神经网络的参数,与数据标签对应的神经网络表示为 g Θ0,Θ0代表其网络参数,假设流量个数为n,则
则神经网络检测模块的训练方法为:
S2.6:随机初始化数据隐藏表达H t ;
作为本发明基于多模态神经网络的恶意加密流量检测方法进一步的改进:
将训练数据划分为多个批次进行训练:
训练过程中,首先接受第一批次多模态流量特征及其标签Y,通过训练得到神经网络参数,Θ0,然后将其用于下一次模型训练,每一批次训练,初始化数据隐藏表达H t ,经过多批次训练后,得到最后更新的神经网络参数,Θ0。
作为本发明基于多模态神经网络的恶意加密流量检测方法进一步的改进:
训练过程和测试过程的交互步骤如下:
本发明通过神经网络的映射分别重构三部分特征,进而得到流量样本的潜在固有表示,该固有表示更具判别性,使得恶意流量识别率高。使用通用的统计机器学习方法构建模型,其特征的学习效果不如本发明中所采用的神经网络模型。本发明可以进行分类任务,本发明可以分批次进行训练,可降低训练开销,并支持模型的迭代更新。本发明将分类标签视为一个模态数据,直接参与模型训练。
本发明针对现存加密恶意流量检测方法,针对恶意流量的多特征多角度特点出发,构建检测模型,检测率高。
本发明使用多个神经网络将该隐藏表达还原为对应的多个模态数据,通过最小化重构误差来优化神经网络和该隐藏表达。
附图说明
图1为基于多模态神经网络的恶意流量检测模型。
图2为特征提取模块。
图3为神经网络检测模块,以两个模态(流统计特征、证书特征)为例。
图4为神经网络检测模块的训练过程和测试过程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明是将多模态神经网络模型应用于恶意加密流量检测,本发明可在结构上分为两部分,即网络流量特征提取和多模态神经网络检测模型,如图1。
首先,本发明采用旁路的方式从网络上捕获流量包,然后通过特征提取模型提取出多个模态的特征,再将其输入多模态的神经网络检测模型。
特征提取模块以网络包为粒度,提取网络流的多模态特征,且流程如图2。
网络流由五元组,<源IP,源端口,目标IP,目标端口,协议名称>,唯一标识。
当捕获流量包之后,其执行步骤如下:
1)解析该流量包中的五元组,判断该流量包是否是使用了TLS协议。若判断结果为否则丢弃;若判断结果为是,则进行步骤2)。
2)根据五元组判断该流量包所属的网络流,并判断其在网络流中的位置。若为第一个包,则为该网络流开辟空间;若为最后一个包,则进行步骤3);否则,将该流量包存入对应的网络流空间。
3)对完整的网络流进行统计计算,进行多模态特征提取,尽可能地提取出更多模态的特征。常用的特征包含流统计特征、TLS协议特征和证书特征等。
特征提取模块输出的多模态特征不进行拼接、选择等操作,直接输入神经网络检测模块。即,神经网络检测模块为多模态输入,其结构如图3。
提取到的多模态流量特征可表示为,其中,X p 表示第p个模态的数据,且共有m个模态。网络流量的标签表示为Y,数据的隐藏表达表示为H,与第p个模态对应的神经网络表示为f Θp ,其中Θp代表第p个神经网络的参数。与数据标签对应的神经网络表示为 g Θ0,Θ0代表其网络参数。假设流量个数为n,则,Y∈ℝ n ,H∈ℝ n×k 。其中d p 表示第p个模态数据的维度,其中,k表示数据隐藏表达的维度,为正整数,需提前设定。
1)随机初始化数据隐藏表达H t 。
本发明可将训练数据划分为多个批次进行训练,训练过程和测试过程的交互如图4所示。
训练过程中,首先接受第一批次多模态流量特征及其标签Y,通过训练得到神经网络参数,Θ0,然后将其用于下一次模型训练。检测过程中,接受n t 个多模态流量,利用训练过程中得到的神经网络参数,Θ0,输出数据标签Y t ,标签表示正常或恶意,完成恶意流量检测。
4、发明的效果或特点
本发明提取多个模态的网络流量特征,并设计了一个多模态神经网络分类模型,进行加密恶意流量检测。与现有方法,加密恶意流量检测方法相比,有如下优点:
1)现有加密恶意流量检测方法将多个模态特征直接拼接,使用简单的统计机器学习方法构建模型。本发明为其定制了一个多模态神经网络分类模型。此模型能够更好地去除多个模态间的冗余信息,从而提高检测率。
2)现有多模态神经网络分类模型需要所有数据一起输入进行训练,大大增加了计算开销。本发明能够将数据分批次进行训练,更加灵活,计算开销小,且可多次反复进行训练,以提高模型性能。此外,现有模型在测试时需依赖训练数据的隐藏表达H,储存和计算开销大。本发明无需依赖训练数据的隐藏表达H,储存和计算开销小。再者,在训练过程中将标签数据作为多模态网络流量的另一个模态,能更好地融合标签信息,从而提高检测率。
在本发明的技术方案中:
1)在模型训练过程和模型检测过程步骤3)中,可采用多种方式计算重构损失,如二范损失 、ℓ p 损失,KL散度损失等;
2)在图4表示的模型训练与测试交互中,模型的训练过程可以一次或多次。
3)在特征提取模块中,多模态的流量特征提取可包含多个模态,并非只有示例所述的三个模态(流统计特征、TLS协议特征和证书特征)。
4)在图3中,采用了全连接网络结构进行示意,其他类型的神经网络结构也可使用,如卷积神经网络结构等。
本发明:
1)从网络流量中提取多个模态的特征,不将它们直接拼接,而是使用多输入的神经网络将其融合。
2)在神经网络模块中,区别于现有方法,将数据标签作为一个模态数据,使用神经网络从数据隐藏表达还原重构数据标签。
3)本发明所设计的神经网络检测模型的结构,即图3。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。
Claims (4)
1.一种基于多模态神经网络的恶意加密流量检测方法,其特征在于,具体包括如下步骤:
S1:构建一个特征提取模块,从网络流量上捕获数据包,并输出网络流的多个模态的特征;
S2:构建并训练一个神经网络检测模块,输入S1中输出的网络流的多个模态的特征,进行恶意流量检测;
S1中:
S1.1:解析流量包中的五元组,判断该流量包是否是使用了TLS协议,若判断结果为否则丢弃,若判断结果为是,则进行步骤S1.2;
S1.2:根据五元组判断该流量包所属的网络流,并判断其在网络流中的位置,若为第一个包,则为该网络流开辟空间;若为最后一个包,则进行S1.3;否则,将该流量包存入对应的网络流空间;
S1.3:对完整的网络流进行统计计算,进行多模态特征提取,多模态特征至少包括流统计特征、TLS协议特征和证书特征;
提取到的多模态流量特征表示为,其中,X p 表示第p个模态的数据,且共有m个模态,网络流量的标签表示为Y,数据的隐藏表达表示为H,与第p个模态对应的神经网络表示为f Θp ,其中Θp代表第p个神经网络的参数,与数据标签对应的神经网络表示为 g Θ0,Θ0代表其网络参数,假设流量个数为n,则
则神经网络检测模块的训练方法为:
S2.6:随机初始化数据隐藏表达H t ;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612198.9A CN113067839B (zh) | 2021-06-02 | 2021-06-02 | 一种基于多模态神经网络的恶意加密流量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612198.9A CN113067839B (zh) | 2021-06-02 | 2021-06-02 | 一种基于多模态神经网络的恶意加密流量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113067839A CN113067839A (zh) | 2021-07-02 |
CN113067839B true CN113067839B (zh) | 2021-08-10 |
Family
ID=76568518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110612198.9A Active CN113067839B (zh) | 2021-06-02 | 2021-06-02 | 一种基于多模态神经网络的恶意加密流量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113067839B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113612767B (zh) * | 2021-07-31 | 2022-09-20 | 中山大学 | 基于多任务学习增强的加密恶意流量检测方法及系统 |
CN113537160B (zh) * | 2021-09-13 | 2022-01-18 | 天津中新智冠信息技术有限公司 | 球磨机负荷测量方法、装置、电子设备和介质 |
CN114301850B (zh) * | 2021-12-03 | 2024-03-15 | 成都中科微信息技术研究院有限公司 | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 |
CN114745175B (zh) * | 2022-04-11 | 2022-12-23 | 中国科学院信息工程研究所 | 一种基于注意力机制的网络恶意流量识别方法及系统 |
CN115378705B (zh) * | 2022-08-22 | 2024-04-05 | 中国人民解放军战略支援部队信息工程大学 | 协议无关的多模态安全方法及装置 |
CN115577353B (zh) * | 2022-12-08 | 2023-04-25 | 深圳市永达电子信息股份有限公司 | 基于脑计算机制的网络安全防护方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105871832B (zh) * | 2016-03-29 | 2018-11-02 | 北京理工大学 | 一种基于协议属性的网络应用加密流量识别方法及其装置 |
US10454961B2 (en) * | 2016-11-02 | 2019-10-22 | Cujo LLC | Extracting encryption metadata and terminating malicious connections using machine learning |
CN109639662A (zh) * | 2018-12-06 | 2019-04-16 | 中国民航大学 | 基于深度学习的机载网络入侵检测方法 |
CN110113349A (zh) * | 2019-05-15 | 2019-08-09 | 北京工业大学 | 一种恶意加密流量特征分析方法 |
CN111277587A (zh) * | 2020-01-19 | 2020-06-12 | 武汉思普崚技术有限公司 | 基于行为分析的恶意加密流量检测方法及系统 |
-
2021
- 2021-06-02 CN CN202110612198.9A patent/CN113067839B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113067839A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113067839B (zh) | 一种基于多模态神经网络的恶意加密流量检测方法 | |
CN110572382B (zh) | 基于smote算法和集成学习的恶意流量检测方法 | |
CN109951444B (zh) | 一种加密匿名网络流量识别方法 | |
CN110011931B (zh) | 一种加密流量类别检测方法及系统 | |
Azab et al. | Network traffic classification: Techniques, datasets, and challenges | |
Wang et al. | App-net: A hybrid neural network for encrypted mobile traffic classification | |
Ducange et al. | A novel approach for internet traffic classification based on multi-objective evolutionary fuzzy classifiers | |
Dainotti et al. | Early classification of network traffic through multi-classification | |
CN113469234A (zh) | 一种基于免模型联邦元学习的网络流量异常检测方法 | |
CN113472809B (zh) | 一种加密恶意流量检测方法、检测系统及计算机设备 | |
CN109818961B (zh) | 一种网络入侵检测方法、装置和设备 | |
CN113259313A (zh) | 一种基于在线训练算法的恶意https流量智能分析方法 | |
CN113542259A (zh) | 基于多模态深度学习的加密恶意流量检测方法及系统 | |
CN112822189A (zh) | 一种流量识别方法及装置 | |
ES2546129T3 (es) | Procedimiento de identificación de un protocolo en el origen de un flujo de datos | |
Yu et al. | An encrypted malicious traffic detection system based on neural network | |
He et al. | Inferring application type information from tor encrypted traffic | |
Vargas-Muñoz et al. | Classification of network anomalies in flow level network traffic using Bayesian networks | |
CN110868312A (zh) | 一种基于遗传算法优化的工业行为异常检测方法 | |
CN111598711A (zh) | 目标用户账号识别方法、计算机设备及存储介质 | |
CN113821793A (zh) | 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
CN113992349A (zh) | 恶意流量识别方法、装置、设备和存储介质 | |
CN116318928A (zh) | 一种基于数据增强和特征融合的恶意流量识别方法及系统 | |
CN115277102A (zh) | 网络攻击检测方法、装置、电子设备及存储介质 | |
Han et al. | An effective encrypted traffic classification method based on pruning convolutional neural networks for cloud platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |