CN114726753B

CN114726753B - 一种基于多任务学习的网络加密流量识别方法

Info

Publication number: CN114726753B
Application number: CN202210566487.4A
Authority: CN
Inventors: 杨润峰; 胡文友; 曲武; 胡永亮
Original assignee: Jinjing Yunhua Shenyang Technology Co ltd; Beijing Jinjingyunhua Technology Co ltd
Current assignee: Jinjing Yunhua Shenyang Technology Co ltd; Beijing Jinjingyunhua Technology Co ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-26
Anticipated expiration: 2042-05-24
Also published as: CN114726753A

Abstract

本发明属于网络流量数据识别技术领域，具体涉及一种基于多任务学习的网络加密流量识别方法，包括如下步骤：流量数据采集；数据预处理；建立多任务特征选择算法；通过分布优化算法对多任务特征选择算法进行求解；使用多任务特征选择算法进行训练，获得稀疏的特征集合以及多任务学习模型，通过多任务学习模型对多个任务进行识别，得到预测的识别结果。本发明提供的方法能够捕捉任务之间的竞争关系，同时从稀疏结构中删除任务中常见的不重要特征；通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。

Description

一种基于多任务学习的网络加密流量识别方法

技术领域

本发明属于网络流量数据识别技术领域，具体涉及一种基于多任务学习的网络加密流量识别方法。

背景技术

随着大众网络安全意识的稳步提升，对于数据保护的意识也愈加强烈，网络加密流量的识别问题也愈加引起人们的重视。网络加密流量的有效识别，对保护用户信息、监管非法数据、检测网络攻击、维护网络安全有着重要意义。在面临日益严重的网络安全威胁和攻击时，需要提出有效的识别方法。实现加密流量精细化管理，保障计算机和终端设备安全运行，维护健康绿色的网络环境。

网络流量数据一个突出的特点就是其随时间快速演化，存在概念漂移的现象。实际应用中，对高维网络流量特征使用稀疏学习的方法提取关键特征，一方面可以减少需要提取的特征数量，提高运行效率，另一方面也可以去掉冗余特征，提高识别的效率与准确率。但由于网络流量的演化特性，在一个网络流上的特征选择结果，推广到其他时间或空间的网络流时，会存在一定的局限。多任务学习方法通过任务间的信息共享，可以有效解决这一问题。

大多数现有的多任务学习方法或是识别任务之间的负相关（竞争结构）提高学习性能，或是排除常见的不重要特征（稀疏结构）来提高性能，但这些方法都没有在多任务学习设置中同时学习这两种结构。

为了克服这个限制，本发明提出了一种基于多任务学习的网络加密流量识别方法。

发明内容

为了解决上述技术问题，本发明提供一种基于多任务学习的网络加密流量识别方法，能够捕捉任务之间的竞争关系，同时从稀疏结构中删除任务中常见的不重要特征，通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。

本发明是这样实现的，提供一种基于多任务学习的网络加密流量识别方法，包括如下步骤：

1）流量数据采集；

2）数据预处理；

3）建立多任务特征选择算法；

4）通过分布优化算法对步骤3）建立的多任务特征选择算法进行求解；

5）使用步骤3）和步骤4）建立的多任务特征选择算法进行训练，获得稀疏的特征集合以及多任务学习模型，通过多任务学习模型对多个任务进行识别，得到预测的识别结果。

优选的，步骤1）中，流量数据的采集包括如下步骤：

101）收集公共数据集；

102）通过数据包采集工具，采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。

进一步优选，步骤2）中，将步骤1）采集的流量数据包存储为Pcap格式文件，对数据包的预处理包括如下步骤：

201）删除数据链头文件；

202）修改传输头数据；

203）对数据包应用层为零的数据包进行过滤；

204）数据包斩断与填充。

进一步优选，步骤3）中，多任务特征选择算法的建立包括如下步骤：

301）假设有

个学习任务，对应的训练集为

，其中

，即为具有

个样本和d个特征的第k个任务的样本矩阵，而

或

是回归或分类模型的目标向量，令

，其中

和

为模型系数，则多任务学习问题可以表示为：

（1）

其中，

是损失函数，表示为回归模型的最小二乘损失：

（2）

或二元分类模型的逻辑损失：

（3）

是一个调整参数，

是一个采用不同形式的正则化项；

302）将系数矩阵W分解为两个矩阵P和Q，使得W表示为P和Q的 Hadamard乘积：

对矩阵P和Q使用不同的正则化项来利用任务之间的关系，对P使用 L_1/2正则化来捕获相同特征的任务之间的竞争关系，而对Q使用

或

正则化以在特征级别实现块稀疏性；

303）根据步骤301）和步骤302），多任务特征选择算法建模为：

（4）

其中，第一个正则化项是唯一的L_1/2 正则化项，第二个是

正则化项；

、

是调谐参数，第二个正则化项

对任务施加逐块惩罚以选择共同特征，使得所有任务的系数对于同一特征将全为零或非零，因此，第二个正则化项在特征级别实现稀疏性，如果W的第k,j个元素非零，则 P 和Q的第 k,j个元素都非零，同时，如果P或Q的第k,j个元素为零，则W的k,j个元素将为零。

进一步优选，步骤4）中，通过分布优化算法对步骤3）建立的多任务特征选择算法进行求解，包括如下步骤：

算法迭代优化P 和Q中的一个，同时修复另一个，并采用近似方法来更新每个组件，具体来说，当算法固定Q的情况下优化P时，为每个任务

考虑以下伪训练数据集：

，得到伪训练数据集后，对于固定矩阵Q，多任务特征选择算法模型（4）可以重新表示为：

（5）

其中

对应于多任务学习损失函数，因此，优化的多任务特征选择算法模型（5）可以通过近端梯度下降优化方法来解决，基于每次迭代中的以下二次近似：

（6）

其中

表示通过线性搜索估计的步长，

对应于迭代

时对

的估计，进一步，(6) 式可改写为：

（7）

其中，

。

进一步优选，多任务特征选择算法模型（4）的交替优化具体步骤见算法Ⅰ和算法Ⅱ，算法Ⅰ为分步优化算法，算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P，估计Q的过程与算法Ⅱ同理：

算法Ⅰ：

1：输入：X、Y、

、

；

2：初始化：

；

3：重复：

；

4：步骤Ⅰ，即估计P：对于每个任务

生成基于Q的伪训练数据集：

5：

；

6：并使用固定

优化

，如下所示：

7：

；

8：步骤Ⅱ，即求解Q：根据每个任务

生成估计P的伪训练数据集：

9：

；

10：并使用固定的

优化

，如下所示：

11:

；

12：步骤Ⅲ：设置

；

13：直到W收敛；

14：输出：

；

算法Ⅱ：

1：输入：Z、Y、

、

、

；

2：初始化：

；

3：重复：

4：计算

的梯度，

；

5：如果

；

6：则：中断并输出

；

7：若否，则:

，其中

是用户定义的常数；

8：输出：

。

与现有技术相比，本发明的优点在于：

本发明采用基于多任务学习的网络加密流量识别方法，在网络加密流量识别中，将不同加密协议的网络加密流量识别看作不同的任务，通过多任务学习对多个任务的联合特征进行学习，识别网络加密流量。能够捕捉任务之间的竞争关系，同时从稀疏结构中删除任务中常见的不重要特征；通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。

具体实施方式

下面结合具体的实施方案，对本发明进行进一步的解释说明，但并不用于限制本发明的保护范围。

本发明提供一种基于多任务学习的网络加密流量识别方法，包括如下步骤：

1）流量数据采集；

流量数据的采集包括如下步骤：

101）收集公共数据集，如ISCX2012、Moore、USTC-TFC2016和IMTD17等；

2）数据预处理；

将步骤1）采集的流量数据包存储为Pcap格式文件，该格式的文件除了流量数据外，还有该文件协议额外添加的其他信息，而这些信息有可能干扰分类结果。因此需要对该文件的格式进行解析，提取出有用的数据部分。具体的，对数据包的预处理包括如下步骤：

201）删除数据链头文件；

202）修改传输头数据；

203）对数据包应用层为零的数据包进行过滤；

204）数据包斩断与填充。

3）建立多任务特征选择算法；

多任务特征选择算法的建立包括如下步骤：

301）假设有

个学习任务，对应的训练集为

，其中

，即为具有

个样本和d个特征的第k个任务的样本矩阵，而

或

是回归或分类模型的目标向量，令

，其中

和

为模型系数，则多任务学习问题可以表示为：

（1）

其中，

是损失函数，表示为回归模型的最小二乘损失：

（2）

或二元分类模型的逻辑损失：

（3）

是一个调整参数，

是一个采用不同形式的正则化项；

或

正则化以在特征级别实现块稀疏性；

（4）

其中，第一个正则化项是唯一的L_1/2 正则化项，第二个是

正则化项；

、

是调谐参数，第二个正则化项

对任务施加逐块惩罚以选择共同特征，使得所有任务的系数对于同一特征将全为零或非零，因此，第二个正则化项在特征级别实现稀疏性，如果W的第k,j个元素非零，则 P 和Q的第 k,j个元素都非零，同时，如果P或Q的第k,j个元素为零，则W的k,j个元素将为零。这种多任务学习方法的另一个优点是元素分解框架能够增强特定于任务的特征稀疏性。

4）通过分布优化算法对步骤3）建立的多任务特征选择算法进行求解是通过如下方法；

考虑以下伪训练数据集：

（5）

其中

（6）

其中

表示通过线性搜索估计的步长，

对应于迭代

时对

的估计，进一步，(6) 式可改写为：

（7）

其中，

。

具体的，多任务特征选择算法模型（4）的交替优化具体步骤见算法Ⅰ和算法Ⅱ，算法Ⅰ为分步优化算法，算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P，估计Q的过程与算法Ⅱ同理：

算法Ⅰ：

1：输入：X、Y、

、

；

2：初始化：

；

3：重复：

；

4：步骤Ⅰ，即估计P：对于每个任务

生成基于Q的伪训练数据集：

5：

；

6：并使用固定

优化

，如下所示：

7：

；

8：步骤Ⅱ，即求解Q：根据每个任务

生成估计P的伪训练数据集：

9：

；

10：并使用固定的

优化

，如下所示：

11:

；

12：步骤Ⅲ：设置

；

13：直到W收敛；

14：输出：

；

算法Ⅱ：

1：输入：Z、Y、

、

、

；

2：初始化：

；

3：重复：

4：计算

的梯度，

；

5：如果

；

6：则：中断并输出

；

7：若否，则:

，其中

是用户定义的常数；

8：输出：

。