CN114726753A - 一种基于多任务学习的网络加密流量识别方法 - Google Patents
一种基于多任务学习的网络加密流量识别方法 Download PDFInfo
- Publication number
- CN114726753A CN114726753A CN202210566487.4A CN202210566487A CN114726753A CN 114726753 A CN114726753 A CN 114726753A CN 202210566487 A CN202210566487 A CN 202210566487A CN 114726753 A CN114726753 A CN 114726753A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- multitask
- task
- learning
- feature selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法,包括如下步骤:流量数据采集;数据预处理;建立多任务特征选择算法;通过分布优化算法对多任务特征选择算法进行求解;使用多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。本发明提供的方法能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
Description
技术领域
本发明属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法。
背景技术
随着大众网络安全意识的稳步提升,对于数据保护的意识也愈加强烈,网络加密流量的识别问题也愈加引起人们的重视。网络加密流量的有效识别,对保护用户信息、监管非法数据、检测网络攻击、维护网络安全有着重要意义。在面临日益严重的网络安全威胁和攻击时,需要提出有效的识别方法。实现加密流量精细化管理,保障计算机和终端设备安全运行,维护健康绿色的网络环境。
网络流量数据一个突出的特点就是其随时间快速演化,存在概念漂移的现象。实际应用中,对高维网络流量特征使用稀疏学习的方法提取关键特征,一方面可以减少需要提取的特征数量,提高运行效率,另一方面也可以去掉冗余特征,提高识别的效率与准确率。但由于网络流量的演化特性,在一个网络流上的特征选择结果,推广到其他时间或空间的网络流时,会存在一定的局限。多任务学习方法通过任务间的信息共享,可以有效解决这一问题。
大多数现有的多任务学习方法或是识别任务之间的负相关(竞争结构)提高学习性能,或是排除常见的不重要特征(稀疏结构)来提高性能,但这些方法都没有在多任务学习设置中同时学习这两种结构。
为了克服这个限制,本发明提出了一种基于多任务学习的网络加密流量识别方法。
发明内容
为了解决上述技术问题,本发明提供一种基于多任务学习的网络加密流量识别方法,能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征,通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
本发明是这样实现的,提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:
1)流量数据采集;
2)数据预处理;
3)建立多任务特征选择算法;
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
优选的,步骤1)中,流量数据的采集包括如下步骤:
101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
进一步优选,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
进一步优选,步骤3)中,多任务特征选择算法的建立包括如下步骤:
或二元分类模型的逻辑损失:
302)将系数矩阵W分解为两个矩阵P和Q,使得W表示为P和Q的 Hadamard乘积:
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是 正则化项;、是调谐参数,第二个正则化项 对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第kj个元素非零,则 P 和Q的第 kj个元素都非零,同时,如果P或Q的第kj个元素为零,则W的kj个元素将为零。
进一步优选,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:
算法迭代优化P 和Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务考虑以下伪训练数据集:,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
进一步优选,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
13:直到W收敛;
算法Ⅱ:
3:重复:
与现有技术相比,本发明的优点在于:
本发明采用基于多任务学习的网络加密流量识别方法,在网络加密流量识别中,将不同加密协议的网络加密流量识别看作不同的任务,通过多任务学习对多个任务的联合特征进行学习,识别网络加密流量。能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
具体实施方式
下面结合具体的实施方案,对本发明进行进一步的解释说明,但并不用于限制本发明的保护范围。
本发明提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:
1)流量数据采集;
流量数据的采集包括如下步骤:
101)收集公共数据集,如ISCX2012、Moore、USTC-TFC2016和IMTD17等;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
2)数据预处理;
将步骤1)采集的流量数据包存储为Pcap格式文件,该格式的文件除了流量数据外,还有该文件协议额外添加的其他信息,而这些信息有可能干扰分类结果。因此需要对该文件的格式进行解析,提取出有用的数据部分。具体的,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
3)建立多任务特征选择算法;
多任务特征选择算法的建立包括如下步骤:
或二元分类模型的逻辑损失:
302)将系数矩阵W分解为两个矩阵P和Q,使得W表示为P和Q的 Hadamard乘积:
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是 正则化项;、是调谐参数,第二个正则化项对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第kj个元素非零,则 P 和Q的第 kj个元素都非零,同时,如果P或Q的第kj个元素为零,则W的kj个元素将为零。这种多任务学习方法的另一个优点是元素分解框架能够增强特定于任务的特征稀疏性。
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解是通过如下方法;
算法迭代优化P 和Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务考虑以下伪训练数据集:,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
具体的,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
13:直到W收敛;
算法Ⅱ:
3:重复:
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
Claims (6)
1.一种基于多任务学习的网络加密流量识别方法,其特征在于,包括如下步骤:
1)流量数据采集;
2)数据预处理;
3)建立多任务特征选择算法;
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
2.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤1)中,流量数据的采集包括如下步骤:
101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
3.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
4.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤3)中,多任务特征选择算法的建立包括如下步骤:
或二元分类模型的逻辑损失:
302)将系数矩阵W分解为两个矩阵P和Q,使得W表示为P和Q的 Hadamard乘积:
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
5.根据权利要求4所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:
算法迭代优化P 和Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务考虑以下伪训练数据集:,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
6.根据权利要求5所述的基于多任务学习的网络加密流量识别方法,其特征在于,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
13:直到W收敛;
算法Ⅱ:
3:重复:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210566487.4A CN114726753B (zh) | 2022-05-24 | 2022-05-24 | 一种基于多任务学习的网络加密流量识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210566487.4A CN114726753B (zh) | 2022-05-24 | 2022-05-24 | 一种基于多任务学习的网络加密流量识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114726753A true CN114726753A (zh) | 2022-07-08 |
CN114726753B CN114726753B (zh) | 2022-08-26 |
Family
ID=82230400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210566487.4A Active CN114726753B (zh) | 2022-05-24 | 2022-05-24 | 一种基于多任务学习的网络加密流量识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114726753B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115174268A (zh) * | 2022-09-05 | 2022-10-11 | 北京金睛云华科技有限公司 | 基于结构化正则项的入侵检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130151441A1 (en) * | 2011-12-13 | 2013-06-13 | Xerox Corporation | Multi-task learning using bayesian model with enforced sparsity and leveraging of task correlations |
CN107749859A (zh) * | 2017-11-08 | 2018-03-02 | 南京邮电大学 | 一种面向网络加密流量的恶意移动应用检测方法 |
US20190130247A1 (en) * | 2017-10-31 | 2019-05-02 | General Electric Company | Multi-task feature selection neural networks |
CN110391958A (zh) * | 2019-08-15 | 2019-10-29 | 北京中安智达科技有限公司 | 一种对网络加密流量自动进行特征提取和识别的方法 |
CN112003870A (zh) * | 2020-08-28 | 2020-11-27 | 国家计算机网络与信息安全管理中心 | 一种基于深度学习的网络加密流量识别方法及装置 |
CN112671757A (zh) * | 2020-12-22 | 2021-04-16 | 无锡江南计算技术研究所 | 一种基于自动机器学习的加密流量协议识别方法及装置 |
CN113408707A (zh) * | 2021-07-05 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度学习的网络加密流量识别方法 |
CN113627502A (zh) * | 2021-07-30 | 2021-11-09 | 中国人民解放军战略支援部队信息工程大学 | 一种网络加密流量分类方法 |
CN114021637A (zh) * | 2021-11-01 | 2022-02-08 | 中国科学院信息工程研究所 | 一种基于度量空间下去中心化应用加密流量分类方法及装置 |
CN114401229A (zh) * | 2021-12-31 | 2022-04-26 | 北京理工大学 | 一种基于Transformer深度学习模型的加密流量识别方法 |
-
2022
- 2022-05-24 CN CN202210566487.4A patent/CN114726753B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130151441A1 (en) * | 2011-12-13 | 2013-06-13 | Xerox Corporation | Multi-task learning using bayesian model with enforced sparsity and leveraging of task correlations |
US20190130247A1 (en) * | 2017-10-31 | 2019-05-02 | General Electric Company | Multi-task feature selection neural networks |
CN107749859A (zh) * | 2017-11-08 | 2018-03-02 | 南京邮电大学 | 一种面向网络加密流量的恶意移动应用检测方法 |
CN110391958A (zh) * | 2019-08-15 | 2019-10-29 | 北京中安智达科技有限公司 | 一种对网络加密流量自动进行特征提取和识别的方法 |
CN112003870A (zh) * | 2020-08-28 | 2020-11-27 | 国家计算机网络与信息安全管理中心 | 一种基于深度学习的网络加密流量识别方法及装置 |
CN112671757A (zh) * | 2020-12-22 | 2021-04-16 | 无锡江南计算技术研究所 | 一种基于自动机器学习的加密流量协议识别方法及装置 |
CN113408707A (zh) * | 2021-07-05 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度学习的网络加密流量识别方法 |
CN113627502A (zh) * | 2021-07-30 | 2021-11-09 | 中国人民解放军战略支援部队信息工程大学 | 一种网络加密流量分类方法 |
CN114021637A (zh) * | 2021-11-01 | 2022-02-08 | 中国科学院信息工程研究所 | 一种基于度量空间下去中心化应用加密流量分类方法及装置 |
CN114401229A (zh) * | 2021-12-31 | 2022-04-26 | 北京理工大学 | 一种基于Transformer深度学习模型的加密流量识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115174268A (zh) * | 2022-09-05 | 2022-10-11 | 北京金睛云华科技有限公司 | 基于结构化正则项的入侵检测方法 |
CN115174268B (zh) * | 2022-09-05 | 2022-11-18 | 北京金睛云华科技有限公司 | 基于结构化正则项的入侵检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114726753B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909811B (zh) | 一种基于ocsvm的电网异常行为检测、分析方法与系统 | |
CN109951444B (zh) | 一种加密匿名网络流量识别方法 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
Antoniou et al. | On the log-normal distribution of network traffic | |
CN107786388B (zh) | 一种基于大规模网络流数据的异常检测系统 | |
CN112367273B (zh) | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 | |
CN108282460B (zh) | 一种面向网络安全事件的证据链生成方法及装置 | |
CN114726753B (zh) | 一种基于多任务学习的网络加密流量识别方法 | |
CN107370752A (zh) | 一种高效的远控木马检测方法 | |
CN113378160A (zh) | 一种基于生成式对抗网络的图神经网络模型防御方法及装置 | |
CN114239737A (zh) | 一种基于时空特征与双层注意力的加密恶意流量检测方法 | |
CN115348080B (zh) | 基于大数据的网络设备脆弱性综合分析系统及方法 | |
Rong et al. | Umvd-fsl: Unseen malware variants detection using few-shot learning | |
CN114257428A (zh) | 一种基于深度学习的加密网络流量识别及分类方法 | |
CN113408707A (zh) | 一种基于深度学习的网络加密流量识别方法 | |
CN116684877A (zh) | 一种基于gyac-lstm的5g网络流量异常检测方法及系统 | |
CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
Han et al. | An effective encrypted traffic classification method based on pruning convolutional neural networks for cloud platform | |
CN110995770B (zh) | 一种模糊测试应用效果对比方法 | |
CN115473748B (zh) | 基于BiLSTM-ELM的DDoS攻击分类检测方法、装置及设备 | |
CN116827666A (zh) | 一种基于图注意力网络的恶意网络流量检测方法 | |
CN115174268B (zh) | 基于结构化正则项的入侵检测方法 | |
CN114979017B (zh) | 基于工控系统原始流量的深度学习协议识别方法及系统 | |
CN112637165A (zh) | 模型训练方法、网络攻击检测方法、装置、设备及介质 | |
CN114615056B (zh) | 一种基于对抗鲁棒性学习的Tor恶意流量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |