CN114726753A - 一种基于多任务学习的网络加密流量识别方法 - Google Patents

一种基于多任务学习的网络加密流量识别方法 Download PDF

Info

Publication number
CN114726753A
CN114726753A CN202210566487.4A CN202210566487A CN114726753A CN 114726753 A CN114726753 A CN 114726753A CN 202210566487 A CN202210566487 A CN 202210566487A CN 114726753 A CN114726753 A CN 114726753A
Authority
CN
China
Prior art keywords
algorithm
multitask
task
learning
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210566487.4A
Other languages
English (en)
Other versions
CN114726753B (zh
Inventor
杨润峰
胡文友
曲武
胡永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinjing Yunhua Shenyang Technology Co ltd
Beijing Jinjingyunhua Technology Co ltd
Original Assignee
Jinjing Yunhua Shenyang Technology Co ltd
Beijing Jinjingyunhua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinjing Yunhua Shenyang Technology Co ltd, Beijing Jinjingyunhua Technology Co ltd filed Critical Jinjing Yunhua Shenyang Technology Co ltd
Priority to CN202210566487.4A priority Critical patent/CN114726753B/zh
Publication of CN114726753A publication Critical patent/CN114726753A/zh
Application granted granted Critical
Publication of CN114726753B publication Critical patent/CN114726753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法,包括如下步骤:流量数据采集;数据预处理;建立多任务特征选择算法;通过分布优化算法对多任务特征选择算法进行求解;使用多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。本发明提供的方法能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。

Description

一种基于多任务学习的网络加密流量识别方法
技术领域
本发明属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法。
背景技术
随着大众网络安全意识的稳步提升,对于数据保护的意识也愈加强烈,网络加密流量的识别问题也愈加引起人们的重视。网络加密流量的有效识别,对保护用户信息、监管非法数据、检测网络攻击、维护网络安全有着重要意义。在面临日益严重的网络安全威胁和攻击时,需要提出有效的识别方法。实现加密流量精细化管理,保障计算机和终端设备安全运行,维护健康绿色的网络环境。
网络流量数据一个突出的特点就是其随时间快速演化,存在概念漂移的现象。实际应用中,对高维网络流量特征使用稀疏学习的方法提取关键特征,一方面可以减少需要提取的特征数量,提高运行效率,另一方面也可以去掉冗余特征,提高识别的效率与准确率。但由于网络流量的演化特性,在一个网络流上的特征选择结果,推广到其他时间或空间的网络流时,会存在一定的局限。多任务学习方法通过任务间的信息共享,可以有效解决这一问题。
大多数现有的多任务学习方法或是识别任务之间的负相关(竞争结构)提高学习性能,或是排除常见的不重要特征(稀疏结构)来提高性能,但这些方法都没有在多任务学习设置中同时学习这两种结构。
为了克服这个限制,本发明提出了一种基于多任务学习的网络加密流量识别方法。
发明内容
为了解决上述技术问题,本发明提供一种基于多任务学习的网络加密流量识别方法,能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征,通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
本发明是这样实现的,提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:
1)流量数据采集;
2)数据预处理;
3)建立多任务特征选择算法;
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
优选的,步骤1)中,流量数据的采集包括如下步骤:
101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
进一步优选,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
进一步优选,步骤3)中,多任务特征选择算法的建立包括如下步骤:
301)假设有
Figure 214592DEST_PATH_IMAGE001
个学习任务,对应的训练集为
Figure 925190DEST_PATH_IMAGE002
,其中
Figure 2517DEST_PATH_IMAGE003
,即为具有
Figure 939512DEST_PATH_IMAGE004
个样本和d个特征的第k个任务的样本矩阵,而
Figure 318409DEST_PATH_IMAGE005
Figure 539306DEST_PATH_IMAGE006
是回归或分类模型的目标向量,令
Figure 578413DEST_PATH_IMAGE007
,其中
Figure 517550DEST_PATH_IMAGE008
Figure 372242DEST_PATH_IMAGE009
为模型系数,则多任务学习问题可以表示为:
Figure 713225DEST_PATH_IMAGE010
(1)
其中,
Figure 768906DEST_PATH_IMAGE011
是损失函数,表示为回归模型的最小二乘损失:
Figure 680492DEST_PATH_IMAGE012
(2)
或二元分类模型的逻辑损失:
Figure 620766DEST_PATH_IMAGE013
(3)
Figure 65523DEST_PATH_IMAGE014
是一个调整参数,
Figure 901892DEST_PATH_IMAGE015
是一个采用不同形式的正则化项;
302)将系数矩阵W分解为两个矩阵PQ,使得W表示为PQ的 Hadamard乘积:
Figure 940255DEST_PATH_IMAGE016
对矩阵PQ使用不同的正则化项来利用任务之间的关系,对P使用 L1/2正则化来捕获相同特征的任务之间的竞争关系,而对Q使用
Figure 918443DEST_PATH_IMAGE017
Figure 234018DEST_PATH_IMAGE018
正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
Figure 756135DEST_PATH_IMAGE019
Figure 157160DEST_PATH_IMAGE020
(4)
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是
Figure 189969DEST_PATH_IMAGE017
正则化项;
Figure 360051DEST_PATH_IMAGE021
Figure 662856DEST_PATH_IMAGE022
是调谐参数,第二个正则化项
Figure 534866DEST_PATH_IMAGE023
对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第kj个元素非零,则 P Q的第 kj个元素都非零,同时,如果PQ的第kj个元素为零,则Wkj个元素将为零。
进一步优选,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:
算法迭代优化P Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务
Figure 89475DEST_PATH_IMAGE024
考虑以下伪训练数据集:
Figure 238697DEST_PATH_IMAGE025
,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
Figure 601152DEST_PATH_IMAGE026
(5)
其中
Figure 445611DEST_PATH_IMAGE027
对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:
Figure 53179DEST_PATH_IMAGE028
(6)
其中
Figure 197852DEST_PATH_IMAGE029
表示通过线性搜索估计的步长,
Figure 842460DEST_PATH_IMAGE030
对应于迭代
Figure 190527DEST_PATH_IMAGE031
时对
Figure 86939DEST_PATH_IMAGE032
的估计,进一步,(6) 式可改写为:
Figure 210753DEST_PATH_IMAGE033
(7)
其中,
Figure 416475DEST_PATH_IMAGE034
进一步优选,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
1:输入:X、Y、
Figure 235526DEST_PATH_IMAGE035
Figure 794684DEST_PATH_IMAGE036
2:初始化:
Figure 667612DEST_PATH_IMAGE037
3:重复:
Figure 794968DEST_PATH_IMAGE038
4:步骤Ⅰ,即估计P:对于每个任务
Figure 616162DEST_PATH_IMAGE039
生成基于Q的伪训练数据集:
5:
Figure 854376DEST_PATH_IMAGE040
6:并使用固定
Figure 578881DEST_PATH_IMAGE041
优化
Figure 736193DEST_PATH_IMAGE042
,如下所示:
7:
Figure 795416DEST_PATH_IMAGE043
8:步骤Ⅱ,即求解Q:根据每个任务
Figure 821009DEST_PATH_IMAGE044
生成估计P的伪训练数据集:
9:
Figure 773922DEST_PATH_IMAGE045
10:并使用固定的
Figure 243080DEST_PATH_IMAGE042
优化
Figure 271823DEST_PATH_IMAGE041
,如下所示:
11:
Figure 851840DEST_PATH_IMAGE046
12:步骤Ⅲ:设置
Figure 659259DEST_PATH_IMAGE047
13:直到W收敛;
14:输出:
Figure 548586DEST_PATH_IMAGE048
算法Ⅱ:
1:输入:Z、Y、
Figure 316822DEST_PATH_IMAGE049
Figure 451263DEST_PATH_IMAGE050
Figure 378767DEST_PATH_IMAGE051
2:初始化:
Figure 189729DEST_PATH_IMAGE052
3:重复:
4:计算
Figure 428949DEST_PATH_IMAGE053
的梯度,
Figure 616348DEST_PATH_IMAGE054
5:如果
Figure 132780DEST_PATH_IMAGE055
Figure 122165DEST_PATH_IMAGE056
Figure 333834DEST_PATH_IMAGE057
6:then:中断并输出
Figure 183979DEST_PATH_IMAGE058
7:else:
Figure 945130DEST_PATH_IMAGE059
,其中
Figure 97894DEST_PATH_IMAGE060
是用户定义的常数;
8:输出:
Figure 78751DEST_PATH_IMAGE058
与现有技术相比,本发明的优点在于:
本发明采用基于多任务学习的网络加密流量识别方法,在网络加密流量识别中,将不同加密协议的网络加密流量识别看作不同的任务,通过多任务学习对多个任务的联合特征进行学习,识别网络加密流量。能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
具体实施方式
下面结合具体的实施方案,对本发明进行进一步的解释说明,但并不用于限制本发明的保护范围。
本发明提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:
1)流量数据采集;
流量数据的采集包括如下步骤:
101)收集公共数据集,如ISCX2012、Moore、USTC-TFC2016和IMTD17等;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
2)数据预处理;
将步骤1)采集的流量数据包存储为Pcap格式文件,该格式的文件除了流量数据外,还有该文件协议额外添加的其他信息,而这些信息有可能干扰分类结果。因此需要对该文件的格式进行解析,提取出有用的数据部分。具体的,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
3)建立多任务特征选择算法;
多任务特征选择算法的建立包括如下步骤:
301)假设有
Figure 467007DEST_PATH_IMAGE001
个学习任务,对应的训练集为
Figure 833397DEST_PATH_IMAGE002
,其中
Figure 671909DEST_PATH_IMAGE003
,即为具有
Figure 982805DEST_PATH_IMAGE004
个样本和d个特征的第k个任务的样本矩阵,而
Figure 50118DEST_PATH_IMAGE005
Figure 284397DEST_PATH_IMAGE006
是回归或分类模型的目标向量,令
Figure 778963DEST_PATH_IMAGE007
,其中
Figure 842734DEST_PATH_IMAGE008
Figure 963006DEST_PATH_IMAGE009
为模型系数,则多任务学习问题可以表示为:
Figure 303988DEST_PATH_IMAGE010
(1)
其中,
Figure 828510DEST_PATH_IMAGE011
是损失函数,表示为回归模型的最小二乘损失:
Figure 271255DEST_PATH_IMAGE012
(2)
或二元分类模型的逻辑损失:
Figure 680371DEST_PATH_IMAGE061
(3)
λ是一个调整参数,
Figure 125128DEST_PATH_IMAGE015
是一个采用不同形式的正则化项;
302)将系数矩阵W分解为两个矩阵PQ,使得W表示为PQ的 Hadamard乘积:
Figure 86130DEST_PATH_IMAGE016
对矩阵PQ使用不同的正则化项来利用任务之间的关系,对P使用 L1/2正则化来捕获相同特征的任务之间的竞争关系,而对Q使用
Figure 734281DEST_PATH_IMAGE017
Figure 966329DEST_PATH_IMAGE018
正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
Figure 16324DEST_PATH_IMAGE019
Figure 148228DEST_PATH_IMAGE020
(4)
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是
Figure 532942DEST_PATH_IMAGE017
正则化项;
Figure 549440DEST_PATH_IMAGE021
Figure 578576DEST_PATH_IMAGE022
是调谐参数,第二个正则化项
Figure 773059DEST_PATH_IMAGE017
对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第kj个元素非零,则 P Q的第 kj个元素都非零,同时,如果PQ的第kj个元素为零,则Wkj个元素将为零。这种多任务学习方法的另一个优点是元素分解框架能够增强特定于任务的特征稀疏性。
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解是通过如下方法;
算法迭代优化P Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务
Figure 395801DEST_PATH_IMAGE024
考虑以下伪训练数据集:
Figure 199678DEST_PATH_IMAGE025
,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
Figure 348900DEST_PATH_IMAGE026
(5)
其中
Figure 963552DEST_PATH_IMAGE027
对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:
Figure 821393DEST_PATH_IMAGE028
(6)
其中
Figure 179693DEST_PATH_IMAGE062
表示通过线性搜索估计的步长,
Figure 183421DEST_PATH_IMAGE030
对应于迭代
Figure 218242DEST_PATH_IMAGE031
时对
Figure 815577DEST_PATH_IMAGE032
的估计,进一步,(6) 式可改写为:
Figure 462721DEST_PATH_IMAGE033
(7)
其中,
Figure 586535DEST_PATH_IMAGE034
具体的,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
1:输入:X、Y、
Figure 277410DEST_PATH_IMAGE035
Figure 611308DEST_PATH_IMAGE036
2:初始化:
Figure 311411DEST_PATH_IMAGE037
3:重复:
Figure 24152DEST_PATH_IMAGE038
4:步骤Ⅰ,即估计P:对于每个任务
Figure 588993DEST_PATH_IMAGE039
生成基于Q的伪训练数据集:
5:
Figure 754395DEST_PATH_IMAGE063
6:并使用固定
Figure 241877DEST_PATH_IMAGE041
优化
Figure 215649DEST_PATH_IMAGE042
,如下所示:
7:
Figure 638540DEST_PATH_IMAGE043
8:步骤Ⅱ,即求解Q:根据每个任务
Figure 182916DEST_PATH_IMAGE039
生成估计P的伪训练数据集:
9:
Figure 224822DEST_PATH_IMAGE045
10:并使用固定的
Figure 912155DEST_PATH_IMAGE042
优化
Figure 630581DEST_PATH_IMAGE041
,如下所示:
11:
Figure 911521DEST_PATH_IMAGE046
12:步骤Ⅲ:设置
Figure 504920DEST_PATH_IMAGE047
13:直到W收敛;
14:输出:
Figure 187705DEST_PATH_IMAGE048
算法Ⅱ:
1:输入:Z、Y、
Figure 686820DEST_PATH_IMAGE049
Figure 704323DEST_PATH_IMAGE050
Figure 88031DEST_PATH_IMAGE051
2:初始化:
Figure 484377DEST_PATH_IMAGE052
3:重复:
4:计算
Figure 311650DEST_PATH_IMAGE053
的梯度,
Figure 567182DEST_PATH_IMAGE054
5:如果
Figure 3849DEST_PATH_IMAGE055
Figure 520281DEST_PATH_IMAGE056
Figure 236564DEST_PATH_IMAGE057
6:then:中断并输出
Figure 998633DEST_PATH_IMAGE058
7:else:
Figure 583198DEST_PATH_IMAGE059
,其中
Figure 95082DEST_PATH_IMAGE060
是用户定义的常数;
8:输出:
Figure 497114DEST_PATH_IMAGE058
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。

Claims (6)

1.一种基于多任务学习的网络加密流量识别方法,其特征在于,包括如下步骤:
1)流量数据采集;
2)数据预处理;
3)建立多任务特征选择算法;
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
2.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤1)中,流量数据的采集包括如下步骤:
101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
3.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
4.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤3)中,多任务特征选择算法的建立包括如下步骤:
301)假设有
Figure 156507DEST_PATH_IMAGE001
个学习任务,对应的训练集为
Figure 185643DEST_PATH_IMAGE002
,其中
Figure 144240DEST_PATH_IMAGE003
,即为具有
Figure 501403DEST_PATH_IMAGE004
个样本和d个特征的第k个任务的样本矩阵,而
Figure 915067DEST_PATH_IMAGE005
Figure 720081DEST_PATH_IMAGE006
是回归或分类模型的目标向量,令
Figure 537995DEST_PATH_IMAGE007
,其中
Figure 428460DEST_PATH_IMAGE008
Figure 645815DEST_PATH_IMAGE009
为模型系数,则多任务学习问题可以表示为:
Figure 259330DEST_PATH_IMAGE010
(1)
其中,
Figure 638358DEST_PATH_IMAGE011
是损失函数,表示为回归模型的最小二乘损失:
Figure 10260DEST_PATH_IMAGE012
(2)
或二元分类模型的逻辑损失:
Figure 375513DEST_PATH_IMAGE013
(3)
Figure 233748DEST_PATH_IMAGE014
是一个调整参数,
Figure 970628DEST_PATH_IMAGE015
是一个采用不同形式的正则化项;
302)将系数矩阵W分解为两个矩阵PQ,使得W表示为PQ的 Hadamard乘积:
Figure 258521DEST_PATH_IMAGE016
对矩阵PQ使用不同的正则化项来利用任务之间的关系,对P使用 L1/2正则化来捕获相同特征的任务之间的竞争关系,而对Q使用
Figure 739050DEST_PATH_IMAGE017
Figure 451791DEST_PATH_IMAGE018
正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
Figure 47989DEST_PATH_IMAGE019
Figure 400342DEST_PATH_IMAGE020
(4)
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是
Figure 232031DEST_PATH_IMAGE017
正则化项;
Figure 674645DEST_PATH_IMAGE021
Figure 487749DEST_PATH_IMAGE022
是调谐参数,第二个正则化项
Figure 140447DEST_PATH_IMAGE017
对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第kj个元素非零,则 P Q的第 kj个元素都非零,同时,如果PQ的第kj个元素为零,则Wkj个元素将为零。
5.根据权利要求4所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:
算法迭代优化P Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务
Figure 713511DEST_PATH_IMAGE023
考虑以下伪训练数据集:
Figure 259899DEST_PATH_IMAGE024
,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
Figure 260216DEST_PATH_IMAGE025
(5)
其中
Figure 790423DEST_PATH_IMAGE026
对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:
Figure 901599DEST_PATH_IMAGE027
(6)
其中
Figure 177859DEST_PATH_IMAGE028
表示通过线性搜索估计的步长,
Figure 598345DEST_PATH_IMAGE029
对应于迭代
Figure 835423DEST_PATH_IMAGE030
时对
Figure 5416DEST_PATH_IMAGE031
的估计,进一步,(6) 式可改写为:
Figure 667342DEST_PATH_IMAGE032
(7)
其中,
Figure 947144DEST_PATH_IMAGE033
6.根据权利要求5所述的基于多任务学习的网络加密流量识别方法,其特征在于,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
1:输入:X、Y、
Figure 717523DEST_PATH_IMAGE035
Figure 498397DEST_PATH_IMAGE037
2:初始化:
Figure 686933DEST_PATH_IMAGE038
3:重复:
Figure 652484DEST_PATH_IMAGE039
4:步骤Ⅰ,即估计P:对于每个任务
Figure 785525DEST_PATH_IMAGE040
生成基于Q的伪训练数据集:
5:
Figure 291462DEST_PATH_IMAGE042
6:并使用固定
Figure 272187DEST_PATH_IMAGE043
优化
Figure 205377DEST_PATH_IMAGE044
,如下所示:
7:
Figure 28977DEST_PATH_IMAGE045
8:步骤Ⅱ,即求解Q:根据每个任务
Figure 558178DEST_PATH_IMAGE046
生成估计P的伪训练数据集:
9:
Figure 173836DEST_PATH_IMAGE047
10:并使用固定的
Figure 28659DEST_PATH_IMAGE044
优化
Figure 73976DEST_PATH_IMAGE043
,如下所示:
11:
Figure 921715DEST_PATH_IMAGE048
12:步骤Ⅲ:设置
Figure 877033DEST_PATH_IMAGE049
13:直到W收敛;
14:输出:
Figure 230654DEST_PATH_IMAGE050
算法Ⅱ:
1:输入:Z、Y、
Figure 780295DEST_PATH_IMAGE052
Figure 120141DEST_PATH_IMAGE053
Figure 320178DEST_PATH_IMAGE055
2:初始化:
Figure 766071DEST_PATH_IMAGE056
3:重复:
4:计算
Figure 661346DEST_PATH_IMAGE057
的梯度,
Figure 116467DEST_PATH_IMAGE058
5:如果
Figure 171011DEST_PATH_IMAGE059
Figure 741801DEST_PATH_IMAGE060
Figure 249005DEST_PATH_IMAGE061
6:then:中断并输出
Figure 242238DEST_PATH_IMAGE062
7:else:
Figure 761075DEST_PATH_IMAGE063
,其中
Figure 814351DEST_PATH_IMAGE064
是用户定义的常数;
8:输出:
Figure 808852DEST_PATH_IMAGE062
CN202210566487.4A 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法 Active CN114726753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210566487.4A CN114726753B (zh) 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210566487.4A CN114726753B (zh) 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法

Publications (2)

Publication Number Publication Date
CN114726753A true CN114726753A (zh) 2022-07-08
CN114726753B CN114726753B (zh) 2022-08-26

Family

ID=82230400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210566487.4A Active CN114726753B (zh) 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法

Country Status (1)

Country Link
CN (1) CN114726753B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174268A (zh) * 2022-09-05 2022-10-11 北京金睛云华科技有限公司 基于结构化正则项的入侵检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130151441A1 (en) * 2011-12-13 2013-06-13 Xerox Corporation Multi-task learning using bayesian model with enforced sparsity and leveraging of task correlations
CN107749859A (zh) * 2017-11-08 2018-03-02 南京邮电大学 一种面向网络加密流量的恶意移动应用检测方法
US20190130247A1 (en) * 2017-10-31 2019-05-02 General Electric Company Multi-task feature selection neural networks
CN110391958A (zh) * 2019-08-15 2019-10-29 北京中安智达科技有限公司 一种对网络加密流量自动进行特征提取和识别的方法
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN112671757A (zh) * 2020-12-22 2021-04-16 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN113408707A (zh) * 2021-07-05 2021-09-17 哈尔滨理工大学 一种基于深度学习的网络加密流量识别方法
CN113627502A (zh) * 2021-07-30 2021-11-09 中国人民解放军战略支援部队信息工程大学 一种网络加密流量分类方法
CN114021637A (zh) * 2021-11-01 2022-02-08 中国科学院信息工程研究所 一种基于度量空间下去中心化应用加密流量分类方法及装置
CN114401229A (zh) * 2021-12-31 2022-04-26 北京理工大学 一种基于Transformer深度学习模型的加密流量识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130151441A1 (en) * 2011-12-13 2013-06-13 Xerox Corporation Multi-task learning using bayesian model with enforced sparsity and leveraging of task correlations
US20190130247A1 (en) * 2017-10-31 2019-05-02 General Electric Company Multi-task feature selection neural networks
CN107749859A (zh) * 2017-11-08 2018-03-02 南京邮电大学 一种面向网络加密流量的恶意移动应用检测方法
CN110391958A (zh) * 2019-08-15 2019-10-29 北京中安智达科技有限公司 一种对网络加密流量自动进行特征提取和识别的方法
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN112671757A (zh) * 2020-12-22 2021-04-16 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN113408707A (zh) * 2021-07-05 2021-09-17 哈尔滨理工大学 一种基于深度学习的网络加密流量识别方法
CN113627502A (zh) * 2021-07-30 2021-11-09 中国人民解放军战略支援部队信息工程大学 一种网络加密流量分类方法
CN114021637A (zh) * 2021-11-01 2022-02-08 中国科学院信息工程研究所 一种基于度量空间下去中心化应用加密流量分类方法及装置
CN114401229A (zh) * 2021-12-31 2022-04-26 北京理工大学 一种基于Transformer深度学习模型的加密流量识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174268A (zh) * 2022-09-05 2022-10-11 北京金睛云华科技有限公司 基于结构化正则项的入侵检测方法
CN115174268B (zh) * 2022-09-05 2022-11-18 北京金睛云华科技有限公司 基于结构化正则项的入侵检测方法

Also Published As

Publication number Publication date
CN114726753B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN110909811B (zh) 一种基于ocsvm的电网异常行为检测、分析方法与系统
CN109951444B (zh) 一种加密匿名网络流量识别方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
Antoniou et al. On the log-normal distribution of network traffic
CN107786388B (zh) 一种基于大规模网络流数据的异常检测系统
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN108282460B (zh) 一种面向网络安全事件的证据链生成方法及装置
CN114726753B (zh) 一种基于多任务学习的网络加密流量识别方法
CN107370752A (zh) 一种高效的远控木马检测方法
CN113378160A (zh) 一种基于生成式对抗网络的图神经网络模型防御方法及装置
CN114239737A (zh) 一种基于时空特征与双层注意力的加密恶意流量检测方法
CN115348080B (zh) 基于大数据的网络设备脆弱性综合分析系统及方法
Rong et al. Umvd-fsl: Unseen malware variants detection using few-shot learning
CN114257428A (zh) 一种基于深度学习的加密网络流量识别及分类方法
CN113408707A (zh) 一种基于深度学习的网络加密流量识别方法
CN116684877A (zh) 一种基于gyac-lstm的5g网络流量异常检测方法及系统
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
Han et al. An effective encrypted traffic classification method based on pruning convolutional neural networks for cloud platform
CN110995770B (zh) 一种模糊测试应用效果对比方法
CN115473748B (zh) 基于BiLSTM-ELM的DDoS攻击分类检测方法、装置及设备
CN116827666A (zh) 一种基于图注意力网络的恶意网络流量检测方法
CN115174268B (zh) 基于结构化正则项的入侵检测方法
CN114979017B (zh) 基于工控系统原始流量的深度学习协议识别方法及系统
CN112637165A (zh) 模型训练方法、网络攻击检测方法、装置、设备及介质
CN114615056B (zh) 一种基于对抗鲁棒性学习的Tor恶意流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant