CN116192500A

CN116192500A - 一种对抗标签噪声的恶意流量检测装置及方法

Info

Publication number: CN116192500A
Application number: CN202310148063.0A
Authority: CN
Inventors: 牛伟纳; 张岩峰; 姚领风; 胡佳; 赵毅卓
Original assignee: Sichuan Police College; University of Electronic Science and Technology of China
Current assignee: Sichuan Police College; University of Electronic Science and Technology of China
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-30

Abstract

本发明公开了一种对抗标签噪声的恶意流量检测装置及方法，属于恶意流量检测技术领域，主旨在于解决恶意流量检测系统在含有标签噪声情况下泛化性能低的问题。主要方案包括：先将含有标签噪声的数据集分成两个子集，分别对两个模型结构相同的网络进行预训练；将子集分别交叉地输入模型中预测，基于预测误差初步筛选干净样本；将噪声样本视为未标记样本，并根据随机森林特征重要性算法计算得到样本的功能性特征与非功能性特征，基于同类攻击样本的特征数值会在一定范围内扰动这一假设，对流量数据进行数据增强；对数据增强后的样本采用无监督学习与对比学习，从而对预训练的模型进行进一步改进与微调，从而提升模型的泛化性能。

Description

一种对抗标签噪声的恶意流量检测装置及方法

技术领域

本发明涉及恶意流量检测技术领域，提供了一种对抗标签噪声的恶意流量检测装置及方法。

背景技术

网络流量是在网络空间中进行信息交互和传递的主要载体，基于网络流量的异常检测技术在恶意流量检测领域作为一项有效的主动防御技术，它通过对网络流量模式进行识别，及时发现网络流量中异常的流量模式和攻击行为，对于维护网络空间的安全具有重要意义。

然而，目前恶意流量检测系统通常是基于深度学习训练的模型的，而训练模型需要大量带标签的数据，获取高质量的标注数据费时费力。为了降低成本，许多恶意流量数据集都采用众包、自动化系统等方法标注训练数据。这些标注方法往往会产生大量错误标注。另外，信息不足、专家错误和编码错误等因素，也可能使标签受到污染。

为了减少标签噪声对模型训练的影响，研究人员提出了一些方法。

在文献《MentorNet：Learning Data-Driven Curriculum for Very Deep NeuralNetworks on Corrupted Labels》中提出了一种基于smalllosstrick的标签噪声过滤算法，其依据模型往往优先拟合干净样本这一假设，从而将训练损失较小的样本作为干净样本，训练损失较大的视为噪声样本，但是该方法对于过滤出的噪声数据只是简单的舍弃，没有充分的利用训练数据。

文献《EnhancingRobustness of On-Line Learning Models on Highly NoisyData》中提出了一种基于模型投票思想的噪声数据过滤器，它通过多个分类器同时对训练数据进行预测，预测结果不同的数据视为噪声数据，并通过多数投票的方式对噪声标签进行纠正，但是该方法在训练初始分类器时依赖于大量干净的数据集，这与现实情况相违背，且该方法仍然存在无法被纠正的数据。

文献《UNICON：Combating Label Noise Through Uniform Selection andContrastive Learning》提出了一种基于半监督与对比学习思想的分类器，首先基于smalllosstrick对数据进行初步划分，对于噪声数据进行数据增强，并结合半监督与对比学习思想，学习到噪声数据的数据分布，在CV领域获得了成功，但是该方法不能直接用于流量检测领域，因为流量数据与图像数据的区别，常规的数据增强方式效果不好。

发明内容

针对上述现有技术问题，本发明的目的在于提供一种对抗标签噪声的恶意流量检测装置，该系统能够解决在训练集含有标签噪声情况下，训练出的模型难以准确检测恶意流量的问题，从监督学习、半监督学习与对比学习多个角度对流量数据集进行学习，最大程度分析恶意流量样本的特点。将含有标签噪声的数据集分成两个子集，分别对两个模型结构相同的网络进行预训练；将子集分别交叉地输入模型中预测，并基于预测误差初步筛选干净样本；将噪声样本视为未标记样本，并根据随机森林特征重要性算法计算得到样本的功能性特征与非功能性特征，基于同类攻击样本的特征数值会在一定范围内扰动这一假设，对流量数据进行数据增强；对数据增强后的样本采用无监督学习与对比学习，对预训练的模型进行进一步改进与微调，实现在高噪声条件下对恶意流量的检测。

为了达到上述目的，本发明采用如下技术方案：

本发明提供了一种对抗标签噪声的恶意流量检测装置，包括以下器件：

模型预训练模块：将含标签噪声的流量数据集划分成子集1和子集2，分别对两个网络结构相同的模型进行预训练，得到模型1和模型2；

样本选择模块：通过预训练后的模型交叉地对两个数据集子集进行预测，并基于Jensen-Shannon散度计算预测误差，初步筛选干净样本与噪声样本；

数据增强模块：将筛选出的噪声样本视为未标记样本，并根据随机森林特征重要性算法得到样本的功能性特征与非功能性特征，基于同种类型的攻击样本其特征数值会在一定的范围进行扰动原理，对流量样本进行数据增强；

半监督与对比学习训练模块：计算模型1和模型2的半监督损失与对比学习损失，使模型学习到噪声流量样本的数据分布，且不受到噪声标签记忆的影响，最后，通过筛选的干净样本对模型进行微调，得到泛化性能好的恶意流量检测模型。

上述装置中，其中模型预训练模块具体实现步骤如下：

S1：通过随机采样的方式，将含标签噪声的流量数据集划分成两个没有交集的子集，得到子集1和子集2；

S2：定义模型结构，使模型具备两个输出：投影层和分类层，其中，

输入的流量数据经过神经网络中的隐藏层，输出到投影层，得到固定维度的特征表示，并基于该特征表示计算正样本对与负样本对的特征相似性，得到对比学习误差；

输入的流量数据经过神经网络中的隐藏层，同时输出到模型1与模型2的分类层，取两个模型预测结果的平均值作为各类别的预测概率，根据输出得到的概率值与干净样本的实际标签计算监督学习误差，在模型训练开始前，利用监督学习误差通过高斯分布初始化模型参数；

S3：基于构造的模型结构，初始化得到结构相同的模型1和模型2，划分的子集分别输入到两个模型中，训练不超过10个epoch，使模型1与模型2初步学习数据的分布。

通过上述步骤实现监督学习误差用于预训练模型1与模型2，并在半监督与对比学习训练完后对模型进行微调。

上述装置中，其中样本选择模块具体实现步骤如下：

S1：通过交叉预测的方式，用子集1训练的模型1去预测子集2，用子集2训练的模型2去预测子集1，将预测的结果与给定标签计算Jensen-Shannon损失，Jensen-Shannon损失简称JS损失；

S2：得到所有样本的JS损失，并计算得到损失截断值，低于截断值的样本数视为干净样本；

S3：使用统一选择机制选择样本，计算过滤比率R＝低于截断值的样本数/总样本数，从每类样本中选取数量为NR/C的样本作为干净样本，若该类别样本数总数小于NR/C，则将该类别全部样本选作干净样本，其中N表示总样本数，C表示总类别数；

上述装置中，其中数据增强模块具体实现步骤如下：

S1：基于随机森林特征重要性算法，计算筛选出的每类干净样本的特征重要性，取每一类样本特征重要性排名前五的特征的并集作为功能性特征，剩下的为非功能性特征，计算得到各个特征的均值与方差；

S2：将筛选出的噪声样本视为未标记样本，并同时对同一噪声样本做强数据增强与弱数据增强，使增强后得到的两个样本互为正样本对，增强后的样本与其他样本互为负样本对；

对噪声样本进行强增强，其操作如下：保持功能性特征数值不变，用均值为1、方差为2倍特征方差的高斯分布随机值乘以非功能性特征得到强数据增强后的数值，并将其与功能性特征拼接，得到强增强样本；

对噪声样本进行弱增强，其操作如下：保持功能性特征数值不变，用均值为1、方差为特征方差的高斯分布随机值乘以非功能性特征得到弱数据增强后的数值，并将其与功能性特征拼接，得到弱增强样本。

上述装置中，其中半监督与对比学习训练模块具体实现步骤如下：

S1：基于半监督学习的思想，将强增强样本和弱增强样本同时分别输入到模型1与模型2，并取两个模型结果的平均值作为最后的预测结果，对于弱增强的数据，将预测的结果作为弱增强样本的伪标签；对于强增强的数据，同时用模型1和模型2预测各类别的概率，并取两个模型结果的平均值作为预测概率，将预测概率与伪标签的交叉熵损失作为模型1与模型2的半监督损失；

S2：基于对比学习的思想，同时对同一噪声样本做强数据增强与弱数据增强，增强后得到的两个样本互为正样本对，正样本之间的相似性作为对比学习损失的分子；增强后的样本与其他样本互为负样本对，所有的相似性之和作为对比学习损失的分母，具体公式如下，其中sim表示计算二者的余弦相似性，κ表示温度系数，温度系数的作用是调节对困难样本的关注程度，温度系数越大，logits曲线越平滑，温度系数越小，logits曲线越陡峭。z_i和z_j表示样本i和样本j，exp表示以自然常数e为底的指数函数，B表示一个batch大小的值，l_i，j表示互为正样本对的两个样本i、j的对比学习损失，L_c表示一个batch里所有样本的共同对比学习损失：

S3：将S1和S2得到的半监督损失和对比损失和作为模型1和模型2的损失函数，模型反向传播更新参数，使损失值尽可能降低，从而让模型尽可能地学习到未标记的噪声数据的分布；

S4：将样本选择模块筛选出的干净样本作为监督学习的数据，进一步对模型1和模型2的参数进行微调，提高模型的预测准确率。

本发明还提供了一种对抗标签噪声的恶意流量检测方法，包括以下步骤：

S1：将含标签噪声的流量数据划分成两个子集，分别对网络结构相同的模型进行预训练，得到模型1和模型2；

S2：通过预训练后的模型1和模型2交叉地对两个子集进行预测，并基于JS损失计算预测误差，初步筛选干净样本；

S3：将筛选出的噪声样本视为未标记样本，根据随机森林特征重要性算法，得到样本的功能性特征与非功能性特征，基于同种类型的攻击样本其特征数值会在一定的范围内进行扰动原理，对流量样本进行数据增强；

S4：计算模型1和模型2的半监督损失与对比学习损失，使模型学习到噪声流量样本的数据分布，且不受到噪声标签记忆的影响，最后，通过筛选的干净样本对模型进行微调，得到泛化性能好的恶意流量检测模型。

上述方法中，步骤1具体包括以下步骤：

S1.1：通过随机采样的方式，将含标签噪声的流量数据集划分成两个没有交集的子集，得到子集1和子集2；

S1.2：定义模型结构，使模型具备两个输出：投影层和分类层，其中，

S1.3：基于构造的模型结构，初始化得到结构相同的模型1和模型2，划分的子集分别输入到两个模型中，训练不超过10个epoch，使模型1与模型2初步学习数据的分布。

上述方法中，步骤2具体包括以下步骤：

S2.1：通过交叉预测的方式，用子集1训练的模型1去预测子集2，用子集2训练的模型2去预测子集1，将预测的结果与给定标签计算Jensen-Shannon损失，Jensen-Shannon损失简称JS损失；

S2.2：得到所有样本的JS损失，并计算得到损失截断值，低于截断值的样本数视为干净样本；

S2.3：使用统一选择机制选择样本，计算过滤比率R＝低于截断值的样本数/总样本数，从每类样本中选取数量为NR/C的样本作为干净样本，若该类别样本数总数小于NR/C，则将该类别全部样本选作干净样本，其中N表示总样本数，C表示总类别数；

上述方法中，步骤3具体如下：

S3.1：基于随机森林特征重要性算法，计算筛选出的每类干净样本的特征重要性，取每一类样本特征重要性排名前五的特征的并集作为功能性特征，剩下的为非功能性特征，计算得到各个特征的均值与方差；

S3.2：将筛选出的噪声样本视为未标记样本，并同时对同一噪声样本做强数据增强与弱数据增强，使增强后得到的两个样本互为正样本对，增强后的样本与其他样本互为负样本对；

上述方法中，步骤4具体步骤如下：

S4.1：基于半监督学习的思想，将强增强样本和弱增强样本同时分别输入到模型1与模型2，并取两个模型结果的平均值作为最后的预测结果，对于弱增强的数据，将预测的结果作为弱增强样本的伪标签；对于强增强的数据，同时用模型1和模型2预测各类别的概率，并取两个模型结果的平均值作为预测概率，将预测概率与伪标签的交叉熵损失作为模型1与模型2的半监督损失；

S4.2：基于对比学习的思想，同时对同一噪声样本做强数据增强与弱数据增强，增强后得到的两个样本互为正样本对，正样本之间的相似性作为对比学习损失的分子；增强后的样本与其他样本互为负样本对，所有的相似性之和作为对比学习损失的分母，具体公式如下，其中sim表示计算二者的余弦相似性，κ表示温度系数，温度系数的作用是调节对困难样本的关注程度，温度系数越大，logits曲线越平滑，温度系数越小，logits曲线越陡峭。z_i和z_j表示样本i和样本j，exp表示以自然常数e为底的指数函数，B表示一个batch大小的值，l_i，j表示互为正样本对的两个样本i、j的对比学习损失，L_c表示一个batch里所有样本的共同对比学习损失：

S4.3：将S1和S2得到的半监督损失和对比损失和作为模型1和模型2的损失函数，模型反向传播更新参数，使损失值尽可能降低，从而让模型尽可能地学习到未标记的噪声数据的分布；

S4.4：将样本选择模块筛选出的干净样本作为监督学习的数据，进一步对模型1和模型2的参数进行微调，提高模型的预测准确率。

本发明同现有技术相比，其有益效果表现在：

一、目前对模型进行预训练时，往往选用完全相同的模型与训练数据，这会导致模型对噪声数据有一定的记忆能力。该发明通过随机采样的方式，将数据集划分成两个没有交集的子集，并交叉的训练模型，最大限度地排除模型对噪声数据的记忆产生的影响；

二、该发明提出了一种简单而有效的统一选择机制，确保所选的干净样本之间的类平衡，通过实证分析，可以发现类平衡有助于为样本生成更高质量的伪标签；

三、该发明通过使用对比损失来执行无监督学习，进一步降低了标签噪声记忆的风险，这反过来又提升了样本分离的性能；

附图说明

图1是本发明的总体架构图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种对抗标签噪声的恶意流量检测装置，包括以下器件：

模型预训练模块：将含标签噪声的流量数据集划分成子集1和子集2，分别对两个网络结构相同的模型进行预训练，得到模型1和模型2。

样本选择模块：通过预训练后的模型交叉地对两个数据集子集进行预测，并基于Jensen-Shannon散度计算预测误差，初步筛选干净样本与噪声样本。

数据增强模块：将筛选出的噪声样本视为未标记样本，并根据随机森林特征重要性算法得到样本的功能性特征与非功能性特征，基于同种类型的攻击样本其特征数值会在一定的范围进行扰动这一假设，对流量样本进行数据增强。

半监督与对比学习训练模块：基于无监督学习的思想，经过数据增强后的两个样本模型应当预测相同的结果，基于对比学习的思想，经过数据增强后的两个样本互为正样本对，其间距离应尽可能小；其他所有的样本互为负样本对，其间距离应尽可能大。由此得到半监督损失与对比学习损失，使模型学习到噪声流量样本的数据分布，且不受到噪声标签记忆的影响。最后，通过筛选的干净样本对模型进行微调，得到泛化性能好的恶意流量检测模型。

上述技术方案中，其中模型预训练模块具体实现步骤如下：

输入的流量数据经过神经网络中的隐藏层，同时输出到模型1与模型2的分类层，取两个模型预测结果的平均值作为各类别的预测概率，根据输出得到的概率值与干净样本的实际标签计算监督学习误差，在模型训练开始前，通过高斯分布初始化模型参数；

上述技术方案中，其中样本选择模块具体实现步骤如下：

S3：使用统一选择机制选择样本，计算过滤比率R＝低于截断值的样本数/总样本数，从每类样本中选取数量为NR/C的样本作为干净样本，若该类别样本数总数小于NR/C，则将该类别全部样本选作干净样本，其中N表示总样本数，C表示总类别数。

上述技术方案中，其中数据增强模块具体实现步骤如下：

上述技术方案中，其中半监督与对比学习训练模块具体实现步骤如下：

S1：基于半监督学习的思想，将强增强样本和弱增强样本同时分别输入到模型1与模型2，并取两个模型结果的平均值作为最后的预测结果。对于弱增强的数据，将模型预测的结果作为弱增强样本的伪标签；对于强增强的数据，通过模型得到预测各类别的概率，将预测概率与伪标签的交叉熵损失作为模型1与模型2的半监督损失；

S2：基于对比学习的思想，同时对同一噪声样本做强数据增强与弱数据增强，增强后得到的两个样本互为正样本对，二者相似性作为对比学习损失的分子；增强后的样本与其他样本互为负样本对，所有的相似性之和作为对比学习损失的分母；

S3：将样本选择模块筛选出的干净样本作为监督学习的数据，对模型预测进行微调。

本发明还提供了一种对抗标签噪声的恶意流量检测方法，分成四个部分模型预训练模块、样本选择模块、数据增强模块和半监督与对比学习模块，该方法主要包括以下步骤：

S1：将含标签噪声的流量数据划分成两个子集，分别对网络结构相同的模型进行预训练；

S2：通过预训练后的模型交叉地对两个子集进行预测，并基于JS损失计算预测误差，初步筛选干净样本；

S3：将筛选出的噪声样本视为未标记样本，根据随机森林特征重要性算法，得到样本的功能性特征与非功能性特征，基于同种类型的攻击样本其特征数值会在一定的范围内进行扰动的假设，对流量样本进行数据增强；

S4：基于半监督学习思想，使模型预测增强后的数据样本结果趋于一致；基于对比学习思想，使模型预测增强后的样本结果更加接近，其他的负样本对结果更加偏离；最后，通过筛选后的干净样本对模型进行微调。

Claims

1.一种对抗标签噪声的恶意流量检测装置，其特征在于，包括以下器件：

2.根据权利要求1所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，其中模型预训练模块具体实现步骤如下：

3.根据权利要求1所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，其中样本选择模块具体实现步骤如下：

4.根据权利要求1所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，其中数据增强模块具体实现步骤如下：

5.根据权利要求1所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，其中半监督与对比学习训练模块具体实现步骤如下：

6.一种对抗标签噪声的恶意流量检测方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的一种对抗标签噪声的恶意流量检测方法，其特征在于，步骤1具体包括以下步骤：

8.根据权利要求6所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，步骤2具体包括以下步骤：

S2.3：使用统一选择机制选择样本，计算过滤比率R＝低于截断值的样本数/总样本数，从每类样本中选取数量为NR/C的样本作为干净样本，若该类别样本数总数小于NR/C，则将该类别全部样本选作干净样本，其中N表示总样本数，C表示总类别数。

9.根据权利要求6所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，步骤3具体如下：

10.根据权利要求6所述的一种对抗标签噪声的恶意流量检测装置，其特征在于，步骤4具体步骤如下：