CN114726753B - 一种基于多任务学习的网络加密流量识别方法 - Google Patents

一种基于多任务学习的网络加密流量识别方法 Download PDF

Info

Publication number
CN114726753B
CN114726753B CN202210566487.4A CN202210566487A CN114726753B CN 114726753 B CN114726753 B CN 114726753B CN 202210566487 A CN202210566487 A CN 202210566487A CN 114726753 B CN114726753 B CN 114726753B
Authority
CN
China
Prior art keywords
algorithm
task
multitask
feature
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210566487.4A
Other languages
English (en)
Other versions
CN114726753A (zh
Inventor
杨润峰
胡文友
曲武
胡永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinjing Yunhua Shenyang Technology Co ltd
Beijing Jinjingyunhua Technology Co ltd
Original Assignee
Jinjing Yunhua Shenyang Technology Co ltd
Beijing Jinjingyunhua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinjing Yunhua Shenyang Technology Co ltd, Beijing Jinjingyunhua Technology Co ltd filed Critical Jinjing Yunhua Shenyang Technology Co ltd
Priority to CN202210566487.4A priority Critical patent/CN114726753B/zh
Publication of CN114726753A publication Critical patent/CN114726753A/zh
Application granted granted Critical
Publication of CN114726753B publication Critical patent/CN114726753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法,包括如下步骤:流量数据采集;数据预处理;建立多任务特征选择算法;通过分布优化算法对多任务特征选择算法进行求解;使用多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。本发明提供的方法能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。

Description

一种基于多任务学习的网络加密流量识别方法
技术领域
本发明属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法。
背景技术
随着大众网络安全意识的稳步提升,对于数据保护的意识也愈加强烈,网络加密流量的识别问题也愈加引起人们的重视。网络加密流量的有效识别,对保护用户信息、监管非法数据、检测网络攻击、维护网络安全有着重要意义。在面临日益严重的网络安全威胁和攻击时,需要提出有效的识别方法。实现加密流量精细化管理,保障计算机和终端设备安全运行,维护健康绿色的网络环境。
网络流量数据一个突出的特点就是其随时间快速演化,存在概念漂移的现象。实际应用中,对高维网络流量特征使用稀疏学习的方法提取关键特征,一方面可以减少需要提取的特征数量,提高运行效率,另一方面也可以去掉冗余特征,提高识别的效率与准确率。但由于网络流量的演化特性,在一个网络流上的特征选择结果,推广到其他时间或空间的网络流时,会存在一定的局限。多任务学习方法通过任务间的信息共享,可以有效解决这一问题。
大多数现有的多任务学习方法或是识别任务之间的负相关(竞争结构)提高学习性能,或是排除常见的不重要特征(稀疏结构)来提高性能,但这些方法都没有在多任务学习设置中同时学习这两种结构。
为了克服这个限制,本发明提出了一种基于多任务学习的网络加密流量识别方法。
发明内容
为了解决上述技术问题,本发明提供一种基于多任务学习的网络加密流量识别方法,能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征,通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
本发明是这样实现的,提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:
1)流量数据采集;
2)数据预处理;
3)建立多任务特征选择算法;
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
优选的,步骤1)中,流量数据的采集包括如下步骤:
101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
进一步优选,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
进一步优选,步骤3)中,多任务特征选择算法的建立包括如下步骤:
301)假设有
Figure 179797DEST_PATH_IMAGE001
个学习任务,对应的训练集为
Figure 998019DEST_PATH_IMAGE002
,其中
Figure 687626DEST_PATH_IMAGE003
,即为具有
Figure 523864DEST_PATH_IMAGE004
个样本和d个特征的第k个任务的样本矩阵,而
Figure 779265DEST_PATH_IMAGE005
Figure 311265DEST_PATH_IMAGE006
是回归或分类模型的目标向量,令
Figure 284906DEST_PATH_IMAGE007
,其中
Figure 49469DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
为模型系数,则多任务学习问题可以表示为:
Figure 83677DEST_PATH_IMAGE010
(1)
其中,
Figure 518069DEST_PATH_IMAGE011
是损失函数,表示为回归模型的最小二乘损失:
Figure 182269DEST_PATH_IMAGE012
(2)
或二元分类模型的逻辑损失:
Figure 19031DEST_PATH_IMAGE013
(3)
Figure 717866DEST_PATH_IMAGE014
是一个调整参数,
Figure 868966DEST_PATH_IMAGE015
是一个采用不同形式的正则化项;
302)将系数矩阵W分解为两个矩阵PQ,使得W表示为PQ的 Hadamard乘积:
Figure 20462DEST_PATH_IMAGE016
对矩阵PQ使用不同的正则化项来利用任务之间的关系,对P使用 L1/2正则化来捕获相同特征的任务之间的竞争关系,而对Q使用
Figure 736614DEST_PATH_IMAGE017
Figure 821114DEST_PATH_IMAGE018
正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
Figure 66150DEST_PATH_IMAGE019
Figure 707872DEST_PATH_IMAGE020
(4)
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是
Figure 962136DEST_PATH_IMAGE017
正则化项;
Figure 963458DEST_PATH_IMAGE021
Figure 644976DEST_PATH_IMAGE022
是调谐参数,第二个正则化项
Figure 508414DEST_PATH_IMAGE017
对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第k,j个元素非零,则 P Q的第 k,j个元素都非零,同时,如果PQ的第k,j个元素为零,则Wk,j个元素将为零。
进一步优选,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:
算法迭代优化P Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务
Figure 566369DEST_PATH_IMAGE023
考虑以下伪训练数据集:
Figure 828723DEST_PATH_IMAGE024
,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
Figure 149983DEST_PATH_IMAGE025
(5)
其中
Figure 28946DEST_PATH_IMAGE026
对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:
Figure 627942DEST_PATH_IMAGE027
(6)
其中
Figure 10382DEST_PATH_IMAGE028
表示通过线性搜索估计的步长,
Figure 33701DEST_PATH_IMAGE029
对应于迭代
Figure 134381DEST_PATH_IMAGE030
时对
Figure 259770DEST_PATH_IMAGE031
的估计,进一步,(6) 式可改写为:
Figure 231137DEST_PATH_IMAGE032
(7)
其中,
Figure 425358DEST_PATH_IMAGE033
进一步优选,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
1:输入:X、Y、
Figure 482176DEST_PATH_IMAGE034
Figure 420045DEST_PATH_IMAGE035
2:初始化:
Figure 245919DEST_PATH_IMAGE036
3:重复:
Figure 613971DEST_PATH_IMAGE037
4:步骤Ⅰ,即估计P:对于每个任务
Figure 892505DEST_PATH_IMAGE038
生成基于Q的伪训练数据集:
5:
Figure 368486DEST_PATH_IMAGE039
6:并使用固定
Figure 580024DEST_PATH_IMAGE040
优化
Figure 116048DEST_PATH_IMAGE041
,如下所示:
7:
Figure 150388DEST_PATH_IMAGE042
8:步骤Ⅱ,即求解Q:根据每个任务
Figure 695638DEST_PATH_IMAGE043
生成估计P的伪训练数据集:
9:
Figure 27263DEST_PATH_IMAGE044
10:并使用固定的
Figure 734187DEST_PATH_IMAGE045
优化
Figure 518473DEST_PATH_IMAGE046
,如下所示:
11:
Figure 339186DEST_PATH_IMAGE047
12:步骤Ⅲ:设置
Figure 525316DEST_PATH_IMAGE048
13:直到W收敛;
14:输出:
Figure 403143DEST_PATH_IMAGE049
算法Ⅱ:
1:输入:Z、Y、
Figure 409145DEST_PATH_IMAGE050
Figure 296198DEST_PATH_IMAGE045
Figure 351484DEST_PATH_IMAGE051
2:初始化:
Figure 665790DEST_PATH_IMAGE052
3:重复:
4:计算
Figure 159089DEST_PATH_IMAGE053
的梯度,
Figure 318675DEST_PATH_IMAGE054
5:如果
Figure 482327DEST_PATH_IMAGE055
6:则:中断并输出
Figure 233114DEST_PATH_IMAGE056
7:若否,则:
Figure 948129DEST_PATH_IMAGE057
,其中
Figure 442565DEST_PATH_IMAGE058
是用户定义的常数;
8:输出:
Figure 192215DEST_PATH_IMAGE056
与现有技术相比,本发明的优点在于:
本发明采用基于多任务学习的网络加密流量识别方法,在网络加密流量识别中,将不同加密协议的网络加密流量识别看作不同的任务,通过多任务学习对多个任务的联合特征进行学习,识别网络加密流量。能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
具体实施方式
下面结合具体的实施方案,对本发明进行进一步的解释说明,但并不用于限制本发明的保护范围。
本发明提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:
1)流量数据采集;
流量数据的采集包括如下步骤:
101)收集公共数据集,如ISCX2012、Moore、USTC-TFC2016和IMTD17等;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
2)数据预处理;
将步骤1)采集的流量数据包存储为Pcap格式文件,该格式的文件除了流量数据外,还有该文件协议额外添加的其他信息,而这些信息有可能干扰分类结果。因此需要对该文件的格式进行解析,提取出有用的数据部分。具体的,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
3)建立多任务特征选择算法;
多任务特征选择算法的建立包括如下步骤:
301)假设有
Figure 851254DEST_PATH_IMAGE001
个学习任务,对应的训练集为
Figure 319144DEST_PATH_IMAGE059
,其中
Figure 351691DEST_PATH_IMAGE060
,即为具有
Figure 283744DEST_PATH_IMAGE061
个样本和d个特征的第k个任务的样本矩阵,而
Figure 910422DEST_PATH_IMAGE062
Figure 131188DEST_PATH_IMAGE063
是回归或分类模型的目标向量,令
Figure 498584DEST_PATH_IMAGE064
,其中
Figure 276354DEST_PATH_IMAGE065
Figure 805425DEST_PATH_IMAGE066
为模型系数,则多任务学习问题可以表示为:
Figure 779066DEST_PATH_IMAGE067
(1)
其中,
Figure 687503DEST_PATH_IMAGE068
是损失函数,表示为回归模型的最小二乘损失:
Figure 594148DEST_PATH_IMAGE069
(2)
或二元分类模型的逻辑损失:
Figure 825278DEST_PATH_IMAGE070
(3)
Figure 20636DEST_PATH_IMAGE071
是一个调整参数,
Figure 467186DEST_PATH_IMAGE072
是一个采用不同形式的正则化项;
302)将系数矩阵W分解为两个矩阵PQ,使得W表示为PQ的 Hadamard乘积:
Figure 205220DEST_PATH_IMAGE073
对矩阵PQ使用不同的正则化项来利用任务之间的关系,对P使用 L1/2正则化来捕获相同特征的任务之间的竞争关系,而对Q使用
Figure 13776DEST_PATH_IMAGE074
Figure 430851DEST_PATH_IMAGE075
正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
Figure 350266DEST_PATH_IMAGE076
Figure 640957DEST_PATH_IMAGE077
(4)
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是
Figure 151573DEST_PATH_IMAGE074
正则化项;
Figure 259206DEST_PATH_IMAGE078
Figure 982311DEST_PATH_IMAGE079
是调谐参数,第二个正则化项
Figure 390159DEST_PATH_IMAGE074
对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第k,j个元素非零,则 P Q的第 k,j个元素都非零,同时,如果PQ的第k,j个元素为零,则Wk,j个元素将为零。这种多任务学习方法的另一个优点是元素分解框架能够增强特定于任务的特征稀疏性。
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解是通过如下方法;
算法迭代优化P Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务
Figure 351904DEST_PATH_IMAGE080
考虑以下伪训练数据集:
Figure 212412DEST_PATH_IMAGE081
,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
Figure 473629DEST_PATH_IMAGE082
(5)
其中
Figure 470404DEST_PATH_IMAGE083
对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:
Figure 57243DEST_PATH_IMAGE084
(6)
其中
Figure 139469DEST_PATH_IMAGE085
表示通过线性搜索估计的步长,
Figure 207307DEST_PATH_IMAGE086
对应于迭代
Figure 324167DEST_PATH_IMAGE087
时对
Figure 347487DEST_PATH_IMAGE088
的估计,进一步,(6) 式可改写为:
Figure 917008DEST_PATH_IMAGE089
(7)
其中,
Figure 520028DEST_PATH_IMAGE090
具体的,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
1:输入:X、Y、
Figure 756974DEST_PATH_IMAGE091
Figure 422967DEST_PATH_IMAGE092
2:初始化:
Figure 479784DEST_PATH_IMAGE093
3:重复:
Figure 886495DEST_PATH_IMAGE094
4:步骤Ⅰ,即估计P:对于每个任务
Figure 712368DEST_PATH_IMAGE095
生成基于Q的伪训练数据集:
5:
Figure 608649DEST_PATH_IMAGE096
6:并使用固定
Figure 887184DEST_PATH_IMAGE097
优化
Figure 100515DEST_PATH_IMAGE098
,如下所示:
7:
Figure 780895DEST_PATH_IMAGE099
8:步骤Ⅱ,即求解Q:根据每个任务
Figure 51339DEST_PATH_IMAGE100
生成估计P的伪训练数据集:
9:
Figure 817170DEST_PATH_IMAGE101
10:并使用固定的
Figure 831262DEST_PATH_IMAGE098
优化
Figure 631728DEST_PATH_IMAGE097
,如下所示:
11:
Figure 64285DEST_PATH_IMAGE102
12:步骤Ⅲ:设置
Figure 582991DEST_PATH_IMAGE103
13:直到W收敛;
14:输出:
Figure 604036DEST_PATH_IMAGE104
算法Ⅱ:
1:输入:Z、Y、
Figure 180380DEST_PATH_IMAGE105
Figure 795557DEST_PATH_IMAGE098
Figure 535980DEST_PATH_IMAGE106
2:初始化:
Figure 157454DEST_PATH_IMAGE107
3:重复:
4:计算
Figure 666933DEST_PATH_IMAGE108
的梯度,
Figure 918922DEST_PATH_IMAGE109
5:如果
Figure 146641DEST_PATH_IMAGE055
6:则:中断并输出
Figure 40648DEST_PATH_IMAGE110
7:若否,则:
Figure 407563DEST_PATH_IMAGE111
,其中
Figure 361612DEST_PATH_IMAGE112
是用户定义的常数;
8:输出:
Figure 342207DEST_PATH_IMAGE110
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。

Claims (5)

1.一种基于多任务学习的网络加密流量识别方法,其特征在于,包括如下步骤:
1)流量数据采集;
2)数据预处理;
3)建立多任务特征选择算法;
多任务特征选择算法的建立包括如下步骤:
301)假设有
Figure 230847DEST_PATH_IMAGE001
个学习任务,对应的训练集为
Figure 501028DEST_PATH_IMAGE002
,其中
Figure 688426DEST_PATH_IMAGE003
,即为具有
Figure 611383DEST_PATH_IMAGE004
个样本和d个特征的第k个任务的样本矩阵,而
Figure 327666DEST_PATH_IMAGE005
Figure 336074DEST_PATH_IMAGE006
是回归或分类模型的目标向量,令
Figure 327163DEST_PATH_IMAGE007
,其中
Figure 839047DEST_PATH_IMAGE008
Figure 254461DEST_PATH_IMAGE009
为模型系数,则多任务学习问题可以表示为:
Figure 687847DEST_PATH_IMAGE010
(1)
其中,
Figure 217049DEST_PATH_IMAGE011
是损失函数,表示为回归模型的最小二乘损失:
Figure 583439DEST_PATH_IMAGE012
(2)
或二元分类模型的逻辑损失:
Figure 907104DEST_PATH_IMAGE013
(3)
λ是一个调整参数,
Figure 890104DEST_PATH_IMAGE014
是一个采用不同形式的正则化项;
302)将系数矩阵W分解为两个矩阵PQ,使得W表示为PQ的 Hadamard乘积:
Figure 163609DEST_PATH_IMAGE015
对矩阵PQ使用不同的正则化项来利用任务之间的关系,对P使用 L1/2正则化来捕获相同特征的任务之间的竞争关系,而对Q使用
Figure 384506DEST_PATH_IMAGE016
Figure 144651DEST_PATH_IMAGE017
正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:
Figure 818209DEST_PATH_IMAGE018
Figure 689213DEST_PATH_IMAGE019
(4)
其中,第一个正则化项是唯一的L1/2 正则化项,第二个是
Figure 496108DEST_PATH_IMAGE016
正则化项;
Figure 161575DEST_PATH_IMAGE020
Figure 588009DEST_PATH_IMAGE021
是调谐参数,第二个正则化项
Figure 262704DEST_PATH_IMAGE016
对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第k,j个元素非零,则 P Q的第 k,j个元素都非零,同时,如果PQ的第k,j个元素为零,则Wk,j个元素将为零;
4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;
5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
2.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤1)中,流量数据的采集包括如下步骤:
101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
3.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:
201)删除数据链头文件;
202)修改传输头数据;
203)对数据包应用层为零的数据包进行过滤;
204)数据包斩断与填充。
4.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:
算法迭代优化P Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务
Figure 458193DEST_PATH_IMAGE022
考虑以下伪训练数据集:
Figure 294562DEST_PATH_IMAGE023
,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:
Figure 473870DEST_PATH_IMAGE024
(5)
其中
Figure 677888DEST_PATH_IMAGE025
对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:
Figure 993463DEST_PATH_IMAGE026
(6)
其中
Figure 531891DEST_PATH_IMAGE027
表示通过线性搜索估计的步长,
Figure 667338DEST_PATH_IMAGE028
对应于迭代
Figure 683835DEST_PATH_IMAGE029
时对
Figure 853917DEST_PATH_IMAGE030
的估计,进一步,(6) 式可改写为:
Figure 297667DEST_PATH_IMAGE031
(7)
其中,
Figure 183059DEST_PATH_IMAGE032
5.根据权利要求4所述的基于多任务学习的网络加密流量识别方法,其特征在于,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:
算法Ⅰ:
1:输入:X、Y、
Figure 3248DEST_PATH_IMAGE033
Figure 27836DEST_PATH_IMAGE034
2:初始化:
Figure 376908DEST_PATH_IMAGE035
3:重复:
Figure 752526DEST_PATH_IMAGE036
4:步骤Ⅰ,即估计P:对于每个任务
Figure 110826DEST_PATH_IMAGE037
生成基于Q的伪训练数据集:
5:
Figure 255500DEST_PATH_IMAGE038
6:并使用固定
Figure 43983DEST_PATH_IMAGE039
优化
Figure 375738DEST_PATH_IMAGE040
,如下所示:
7:
Figure 272150DEST_PATH_IMAGE041
8:步骤Ⅱ,即求解Q:根据每个任务
Figure 536909DEST_PATH_IMAGE042
生成估计P的伪训练数据集:
9:
Figure 493364DEST_PATH_IMAGE043
10:并使用固定的
Figure 577995DEST_PATH_IMAGE040
优化
Figure 278097DEST_PATH_IMAGE039
,如下所示:
11:
Figure 128854DEST_PATH_IMAGE044
12:步骤Ⅲ:设置
Figure 521789DEST_PATH_IMAGE045
13:直到W收敛;
14:输出:
Figure 93716DEST_PATH_IMAGE046
算法Ⅱ:
1:输入:Z、Y、
Figure 331931DEST_PATH_IMAGE047
Figure 40124DEST_PATH_IMAGE048
Figure 338381DEST_PATH_IMAGE049
2:初始化:
Figure 146673DEST_PATH_IMAGE050
3:重复:
4:计算
Figure 188578DEST_PATH_IMAGE051
的梯度,
Figure 282436DEST_PATH_IMAGE052
5:如果
Figure 486016DEST_PATH_IMAGE054
6:则:中断并输出
Figure DEST_PATH_IMAGE055
7:若否,则:
Figure 704639DEST_PATH_IMAGE056
,其中
Figure DEST_PATH_IMAGE057
是用户定义的常数;
8:输出:
Figure 219409DEST_PATH_IMAGE055
CN202210566487.4A 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法 Active CN114726753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210566487.4A CN114726753B (zh) 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210566487.4A CN114726753B (zh) 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法

Publications (2)

Publication Number Publication Date
CN114726753A CN114726753A (zh) 2022-07-08
CN114726753B true CN114726753B (zh) 2022-08-26

Family

ID=82230400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210566487.4A Active CN114726753B (zh) 2022-05-24 2022-05-24 一种基于多任务学习的网络加密流量识别方法

Country Status (1)

Country Link
CN (1) CN114726753B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174268B (zh) * 2022-09-05 2022-11-18 北京金睛云华科技有限公司 基于结构化正则项的入侵检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107749859A (zh) * 2017-11-08 2018-03-02 南京邮电大学 一种面向网络加密流量的恶意移动应用检测方法
CN110391958A (zh) * 2019-08-15 2019-10-29 北京中安智达科技有限公司 一种对网络加密流量自动进行特征提取和识别的方法
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN113408707A (zh) * 2021-07-05 2021-09-17 哈尔滨理工大学 一种基于深度学习的网络加密流量识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924315B2 (en) * 2011-12-13 2014-12-30 Xerox Corporation Multi-task learning using bayesian model with enforced sparsity and leveraging of task correlations
US11232344B2 (en) * 2017-10-31 2022-01-25 General Electric Company Multi-task feature selection neural networks
CN112671757B (zh) * 2020-12-22 2023-10-31 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN113627502A (zh) * 2021-07-30 2021-11-09 中国人民解放军战略支援部队信息工程大学 一种网络加密流量分类方法
CN114021637A (zh) * 2021-11-01 2022-02-08 中国科学院信息工程研究所 一种基于度量空间下去中心化应用加密流量分类方法及装置
CN114401229B (zh) * 2021-12-31 2023-09-19 北京理工大学 一种基于Transformer深度学习模型的加密流量识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107749859A (zh) * 2017-11-08 2018-03-02 南京邮电大学 一种面向网络加密流量的恶意移动应用检测方法
CN110391958A (zh) * 2019-08-15 2019-10-29 北京中安智达科技有限公司 一种对网络加密流量自动进行特征提取和识别的方法
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN113408707A (zh) * 2021-07-05 2021-09-17 哈尔滨理工大学 一种基于深度学习的网络加密流量识别方法

Also Published As

Publication number Publication date
CN114726753A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110909811B (zh) 一种基于ocsvm的电网异常行为检测、分析方法与系统
CN111865815B (zh) 一种基于联邦学习的流量分类方法及系统
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN107786388B (zh) 一种基于大规模网络流数据的异常检测系统
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN114726753B (zh) 一种基于多任务学习的网络加密流量识别方法
CN108282460B (zh) 一种面向网络安全事件的证据链生成方法及装置
AU2021102261A4 (en) Density-based distributed stochastic gradient federated learning algorithm to Byzantine attack
CN107370752A (zh) 一种高效的远控木马检测方法
CN113660209B (zh) 一种基于sketch与联邦学习的DDoS攻击检测系统及应用
CN113378160A (zh) 一种基于生成式对抗网络的图神经网络模型防御方法及装置
CN114239737A (zh) 一种基于时空特征与双层注意力的加密恶意流量检测方法
CN115296919B (zh) 一种边缘网关对特殊流量包计算方法及系统
CN115348080B (zh) 基于大数据的网络设备脆弱性综合分析系统及方法
CN114257428A (zh) 一种基于深度学习的加密网络流量识别及分类方法
CN113408707A (zh) 一种基于深度学习的网络加密流量识别方法
CN116684877A (zh) 一种基于gyac-lstm的5g网络流量异常检测方法及系统
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
CN114362988A (zh) 网络流量的识别方法及装置
CN110995770B (zh) 一种模糊测试应用效果对比方法
CN110191081A (zh) 基于学习自动机的网络流量攻击检测的特征筛选系统及方法
CN115174268B (zh) 基于结构化正则项的入侵检测方法
CN114979017B (zh) 基于工控系统原始流量的深度学习协议识别方法及系统
CN112637165B (zh) 模型训练方法、网络攻击检测方法、装置、设备及介质
CN113726809B (zh) 基于流量数据的物联网设备识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant