CN116055201B

CN116055201B - 基于协同训练的多视图加密恶意流量检测方法

Info

Publication number: CN116055201B
Application number: CN202310069213.9A
Authority: CN
Inventors: 霍跃华; 吴文昊; 赵法起; 范伟强; 任吉凯
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-09-01
Anticipated expiration: 2043-01-16
Also published as: CN116055201A

Abstract

本发明公开了基于协同训练的多视图加密恶意流量检测模型，属于数据识别中的加密恶意流量检测领域，包括：利用Wireshark工具捕获原始pcap流量包；采用Zeek工具解析原始pcap流量包，得到流特征、连接特征和TLS证书特征；将流特征与连接特征融合并进行标准化，经特征重要性评估后构建视图1；对TLS证书特征采用词频‑逆文本频率指数方法进行编码，采用主成分分析法降维后构建视图2，进而构建对视图样本集；将多视图样本集分为训练集和测试集；协同XGBoost分类器和随机森林分类器构造检测模型；利用训练集训练检测模型；利用测试集检验检测模型性能；采用协同训练的方式结合网络流量不同类别的特征进行加密恶意流量检测，具有较强的检测能力。

Description

基于协同训练的多视图加密恶意流量检测方法

技术领域

本发明属于数据识别中的加密恶意流量检测领域，具体涉及基于协同训练的多视图加密恶意流量检测方法。

背景技术

近年来，数字化转型的浪潮席卷各行各业，网络攻击也愈发频繁和多样，钓鱼攻击、数据泄露等层出不穷。为了保护数据传输的安全性，许多网站已经采取了加密传输协议。谷歌透明度报告指出，Chrome加载网页中启用加密的比例从2014年的40%增至2022年的99%。除了合法加密流量之外，恶意流量也采用TLS加密技术来逃避检测，2021年的报告表明46%的恶意软件在Internet中采用TLS加密，相较于2020年，这个比例增长了一倍。

解密技术物理资源消耗多、时间开销大且不能有效保个人隐私。随着近年来计算机物理性能的快速提升和云计算的出现，计算能力得到大幅提高，因此利用基于机器学习和深度学习的方法进行加密恶意流量检测的研究得到更多学者的关注。其中，基于机器学习方法的恶意流量检测总体思路是：提取恶意流量和良性流量的特征，构建模型训练的样本集并进行特征工程处理，利用大量带标签样本集进行机器学习模型的训练，并将训练好的模型用于加密恶意流量检测。基于深度学习的方法与基于机器学习的方法类似，区别在于采用的训练模型由多层网络组合而成，能够自动学习重要特征。

基于机器学习的加密恶意流量检测方法相较于基于深度学习的方法具有更少的运算代价和时间开销，如今已成为加密恶意流量检测的主流方法。但是相关基于机器学习的TLS加密流量检测方法存在以下技术缺陷：

（1）需要大量的标签数据进行模型训练，对标签样本依赖性高；

（2）样本标注的代价高，制约着机器学习方法的应用；

（3）大量无标签样本缺乏有效的利用。

因此需要本发明基于协同训练的多视图加密恶意流量检测方法，本发明采用基于半监督学习的方法，利用大量无标签样本减少机器学习方法对标签样本的依赖，以解决上述所存在的技术缺陷。

发明内容

针对现有技术存在的不足和缺陷，本发明提供了基于协同训练的多视图加密恶意流量检测方法，旨在检测过程中考虑流特征、连接特征和TLS证书特征，构建视图，利用标签样本和无标签样本，采用协同训练策略以解决上述技术缺陷。

本发明的技术路线是在非解密的情况下，提取流特征、连接特征和TLS证书特征来检测混合流量中的加密恶意流量。技术思路是获取完整的原始pcap流量包，将原始pcap流量包解析为流特征、连接特征、TLS证书特征，将流特征和连接特征进行融合得到融合特征，并对融合特征和TLS证书特征进行特征工程处理，构成视图1和视图2，进而构建多视图样本集；将多视图样本集划分为训练集X和测试集T，并将训练集分为标签样本集X_L和无标签样本集X_U；对两个视图分别设计分类器；采用协同策略组合两个分类器，构成检测模型；使用标签样本集X_L和无标签样本集X_U训练检测模型；利用测试集T检验训练之后的检测模型的性能。

本发明基于协同训练的多视图加密恶意流量检测方法具体包括以下步骤：

步骤S1，进行原始pcap流量包捕获；

步骤S2，对步骤S1中捕获的原始pcap流量包进行解析，得到连接特征、流特征、TLS证书特征；

步骤S3，将步骤S2中的连接特征与流特征进行融合，得到融合特征，再对融合特征进行标准化处理，得到融合标准特征，对融合标准特征进行特征重要性评估，根据特征重要性评估的结果设置阈值一，根据设置的阈值一选择融合标准特征，构成视图1；

将步骤S2中的TLS证书特征进行编码，得到TLS证书编码特征，再对TLS证书编码特征进行降维，得到TLS证书编码降维特征，对TLS证书编码降维特征进行特征贡献率评估，根据特征贡献率评估的结果设置阈值二，根据设置的阈值二选择TLS证书编码特征，构成视图2；

将视图1和视图2进行融合，得到多视图样本集；

步骤S4，将步骤S3中的多视图样本集划分为训练集X和测试集T；

对训练集X的一部分样本进行标注，利用标注后的训练集X中的样本构成标签样本集X_L；

将另一部分未标注的训练集X中的样本构成无标签样本集X_U；

将测试集T中样本全部进行标注；

步骤S5，对视图1和视图2分别构建视图1分类器和视图2分类器，通过协同策略将视图1分类器和视图2分类器进行组合，构建检测模型；

步骤S6，利用步骤S4中的标签样本集X_L和无标签样本集X_U训练步骤S5中的检测模型；

步骤S7，利用步骤S4中的测试集T检验步骤S6中训练之后的检测模型的性能。

所述步骤S1中进行原始pcap流量包捕获时采用的工具为Wireshark工具；

所述原始pcap流量包包括恶意流量包和良性流量包。

所述步骤S2中解析时利用的工具为Zeek工具。

所述步骤S3中，进行编码的所述TLS证书特征至少包括‘issuer’,‘subject’,‘cipher’，其中：

‘issuer’表示服务器提供的X.509证书签名者的颁发者；

‘subject’表示服务器提供的X.509证书主体；

‘cipher’表示服务器选择的TLS加密算法套件；

所述编码的方法为词频-逆文本频率指数方法；

所述降维的方法为主成分分析法。

所述步骤S4中标签样本集X_L包含加密恶意样本和加密良性样本，且加密恶意样本和加密良性样本的比例为1：1。

所述步骤S5中，视图1分类器为XGBoost分类器；

视图2分类器为随机森林分类器；

视图1分类器和视图2分类器进行组合时采用的协同策略为协同训练策略。

所述步骤S5中的检测模型包括如下三种模式：

训练模式：利用标签样本集X_L训练检测模型，由标签样本集X_L的视图1训练视图1分类器，标签样本集X_L的视图2训练视图2分类器；

预测模式：利用检测模型对无标签样本集X_U进行预测，使用视图1分类器预测无标签样本集X_U的视图1，使用视图2分类器预测无标签样本集X_U的视图2，计算预测为恶意流量和良性流量的概率，从两个分类器的预测结果中挑选预测概率高的样本进行标注；

更新模式：将已标注样本添加进标签样本集X_L中，从无标签样本集X_U中删去已标注样本。

所述步骤S6中检测模型的训练过程为：

步骤S601，利用标签样本集X_L的视图1训练视图1分类器，利用标签样本集X_L的视图2训练视图2分类器；

步骤S602，从无标签样本集X_U中取出u条样本，构成样本池，进而将样本池中视图1输入步骤S601中训练之后的视图1分类器进行预测，将样本池中视图2输入步骤S601中训练之后的视图2分类器进行预测，计算预测为恶意流量和良性流量的概率；

步骤S603，分别选取预测概率最高的p条预测为恶意流量的样本和n条预测为良性流量的样本进行标注，进而添加到标签样本集X_L中，并从无标签样本集X_U中删去已标注的样本；

步骤S604，利用新的标签样本集训练检测模型；

步骤S605，返回步骤S602并迭代K次。

所述步骤S603中p、n、u满足的条件为：

2p+2n ≤u。

本发明相比现有技术的有益效果为：

1.能够在缺乏标签样本训练的情况下，准确地检测出TLS加密恶意流量，减少对标签样本的依赖。

2.能够有效利用大量无标签样本进行模型训练，增强模型的性能和减小泛化误差。

3.检测模型的视图采用的是独立性强的两种统计特征，能够在只采用统计特征的前提下，高效的检测TLS加密恶意流量，有效减少了检测开销。

附图说明

为了更清楚的表述本发明的技术方案，下面对本发明需要使用的附图进行简要介绍，如下所述附图仅为展示本发明的实施方式，而并不是对本发明的限制。

图1为本发明实施例的流程图；

图2为本发明实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实例中的技术方案进行更加全面、完整的分析和表达，显然，所描述的实施例仅作为本发明的一部分实施例，为了对本发明做进一步解释，使本领域技术人员能够清晰、透彻的理解本发明，并不用于限定本发明。

如图1-2所示，本发明实施例提供的基于协同训练的多视图加密恶意流量检测方法的具体包括：捕获原始pcap流量包，进行原始pcap流量包解析，视图构建，多视图样本集构建，对视图分别建立分类器，通过协同训练策略组合分类器，构建检测模型，训练检测模型，检验检测模型性能。

如图1所示，本发明实施例提供的加密恶意流量检测方法包括以下步骤：

步骤S1，进行原始pcap流量包捕获，其中，进行原始pcap流量包捕获是采用的工具为Wireshark工具，捕获过程包括：

（1）利用Wireshark工具捕获在网络通信环境下运行多种恶意软件所产生的流量，合并后，得到恶意流量包；

（2）利用Wireshark工具捕获在网络通信环境下运行多种良性软件所产生的流量，合并后，得到良性流量包。

步骤S2，对步骤S1中捕获的原始pcap流量包进行解析，得到连接特征、流特征、TLS证书特征，其中，解析原始pcap流量包时采用的工具是Zeek工具。

步骤S3，将步骤S2中的连接特征与流特征进行融合，其中，融合过程通过流指纹标识将同一条流量的连接特征和流特征进行融合，流指纹标识是Zeek软件为每条流量分配的唯一标识，得到融合特征，再对融合特征进行标准化处理，得到融合标准特征，其中，融合标准特征的维数为80维，对融合标准特征进行特征重要性评估，其中，特征重要性评估采用的是XGBoost特征重要性评估，通过XGBoost分类器对特征进行评估，得到融合标准特征中各特征的特征重要性值θ _i，根据特征重要性评估的结果设置阈值一，其中，阈值一是对特征重要性值θ _i设立的，且阈值一的值为0.01，根据设置的阈值一选择融合标准特征，其中，选择的融合标准特征维数为6维，构成视图1。

将步骤S2中的TLS证书特征进行编码，其中，进行编码的TLS证书特征至少包含‘issuer’，‘subject’，‘cipher’；其中‘issuer’表示服务器提供的X.509证书签名者的颁发者，‘subject’表示服务器提供的X.509证书主体，‘cipher’表示服务器选择的TLS加密算法套件，编码的方法采用的是词频-逆文本频率指数方法，得到TLS证书编码特征，其中，TLS证书编码特征的维数为611维，再对TLS证书编码特征进行降维，其中，降维的方法采用的是主成分分析法，得到TLS证书编码降维特征，对TLS证书编码降维特征进行特征贡献率评估，其中，特征贡献率评估根据降维后的特征相较于降维前特征的信息保留度进行评估，得到降维后特征相较于降维前特征的特征贡献率，特征贡献率取值在0到1之间，根据特征贡献率评估的结果设置阈值二，其中，阈值二取值为0.9，根据设置的阈值二选择TLS证书编码特征，得到58为特征，构成视图2。

将视图1和视图2进行融合，其中，融合过程通过流指纹标识将同一流量的视图1与视图2进行融合，得到多视图样本集，其中，多视图指的是样本集中具有同一条流量的多个视图特征，且采用的视图1和视图2均为流量的统计特征，能够有效减少检测开销。

步骤S4，将步骤S3中的多视图样本集划分为训练集X和测试集T，其中训练集X样本数量与测试集T样本数量间的比值为7：3。

对训练集X的一部分样本进行标注，其中，进行标注的训练集X样本占全体训练集样本的0.25%，利用标注后的训练集X中的样本构成标签样本集X_L，其中，标签样本集X_L中包含加密恶意样本和加密良性样本，且加密恶意样本和加密良性样本的比例为1：1。

将另一部分未标注的训练集X中的样本构成无标签样本集X_U。

将测试集T中样本全部进行标注。

步骤S5，对视图1和视图2分别构建视图1分类器和视图2分类器，其中，视图1分类器为XGBoost分类器，视图2分类器为随机森林分类器，通过协同策略将视图1分类器和视图2分类器进行组合，其中，采用的协同策略为协同训练策略，协同训练策略是协同策略的一种，构建检测模型，其中，检测模型包括如下三种模式：

训练模式：利用标签样本集X_L训练检测模型，由标签样本集X_L的视图1训练视图1分类器，标签样本集X_L的视图2训练视图2分类器。

预测模式：利用检测模型对无标签样本集X_U进行预测，使用视图1分类器预测无标签样本集X_U的视图1，使用视图2分类器预测无标签样本集X_U的视图2，计算预测为恶意流量和良性流量的概率，从两个分类器的预测结果中挑选预测概率高的样本进行标注。

步骤S6，利用步骤S4中的标签样本集X_L和无标签样本集X_U训练步骤S5中的检测模型，能够有效利用大量无标签样本进行训练，提升检测模型的性能并减少泛化误差，其中，检测模型的训练过程为：

步骤S601，利用标签样本集X_L的视图1训练视图1分类器，利用标签样本集X_L的视图2训练视图2分类器。

步骤S602，从无标签样本集X_U中取出u条样本，构成样本池，进而将样本池的视图1输入步骤S601中训练之后的视图1分类器进行预测，将样本池的视图2输入步骤S601中训练之后的视图2分类器进行预测，计算预测为恶意流量和良性流量的概率。

步骤S603，分别选取预测概率最高的p条预测为恶意流量的样本和n条预测为良性流量的样本进行标注，进而添加到标签样本集X_L中，并从无标签样本集X_U中删去已标注的样本，其中，p、n、u满足的条件为：2p+2n≤u。

步骤S604，利用新的标签样本集训练检测模型。

步骤S605，返回步骤S602并迭代K次。

步骤S7，利用步骤S4中的测试集T检验步骤S6中训练之后的检测模型的性能，能够在缺乏标签样本的情况下，准确检测出TLS加密恶意流量，减少对标签样本的依赖。

本发明提出的基于协同训练的多视图加密恶意流量检测方法，具体技术效果为：

此外，基于本发明中的检测模型，本发明的基于协同训练的多视图加密恶意流量检测方法包括如下步骤：

第一步：将待检测流量利用Wireshark工具捕获为pcap流量包格式。

第二步：将pcap流量包格式的待检测流量待检测流量利用Zeek工具进行解析，得到流特征、连接特征、TLS证书特征。

第三步：按照本发明提出的检测模型中的视图构建方式，构建待检测流量的视图1和视图2，进而构建待检测流量的样本集。

第四步：将待检测流量的样本集输入到本发明提出的并训练好的检测模型中进行检测。

第五步：得到检测模型的输出结果，确定待检测流量是否为恶意流量。

本检测方法的相比相关技术的技术效果为：

1.利用训练好的检测模型检测混合流量中的加密流量，能够有效提高检测模型的检出率，降低检测的误报率。

2.采用半监督方法进行模型训练，能够有效提升模型泛化能力和检测性能，减少对标签样本的依赖。

3.采用协同训练策略构建检测模型，相对于其他半监督方法，所需的特征更少，能够减少检测开销。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.基于协同训练的多视图加密恶意流量检测方法，其特征在于，检测方法包括以下步骤：

步骤S1，进行原始pcap流量包捕获；

将视图1和视图2进行融合，得到多视图样本集；

将另一部分未标注的训练集X中的样本构成无标签样本集X_U；

将测试集T中样本全部进行标注；

2.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S1中进行原始pcap流量包捕获时采用的工具为Wireshark工具；

所述原始pcap流量包包括恶意流量包和良性流量包。

3.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S2中解析时利用的工具为Zeek工具。

4.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S3中，进行编码的所述TLS证书特征至少包括‘issuer’,‘subject’,‘cipher’，其中：

‘issuer’表示服务器提供的X.509证书签名者的颁发者；

‘subject’表示服务器提供的X.509证书主体；

‘cipher’表示服务器选择的TLS加密算法套件；

所述编码的方法为词频-逆文本频率指数方法；

所述降维的方法为主成分分析法。

5.如权利要求1所述的基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S4中标签样本集X_L包含加密恶意样本和加密良性样本，且加密恶意样本和加密良性样本的比例为1：1。

6.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S5中，视图1分类器为XGBoost分类器；

视图2分类器为随机森林分类器；

7.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S5中的检测模型包括如下三种模式：

8.如权利要求1所述的基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S6中检测模型的训练过程为：

步骤S602，从无标签样本集X_U中取出u条样本，构成样本池，进而将样本池的视图1输入步骤S601中训练之后的视图1分类器进行预测，将样本池的视图2输入步骤S601中训练之后的视图2分类器进行预测，计算预测为恶意流量和良性流量的概率；

步骤S604，利用新的标签样本集训练检测模型；

步骤S605，返回步骤S602并迭代K次。

9.如权利要求8所述的基于协同训练的多视图加密恶意流量检测方法，其特征在于，所述步骤S603中p、n、u满足的条件为：

2p+2n≤u。