CN114785563B

CN114785563B - 一种软投票策略的加密恶意流量检测方法

Info

Publication number: CN114785563B
Application number: CN202210330082.0A
Authority: CN
Inventors: 霍跃华; 赵法起; 李晓宇
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2023-06-06
Anticipated expiration: 2042-03-28
Also published as: CN114785563A

Abstract

本发明公开了一种软投票策略的加密恶意流量检测方法。本发明首先捕获流量包，将所捕获流量打上恶意/良性标签；对流量包进行预处理；对预处理后的流量包进行特征提取，并使用所提取的特征构建两个特征子集；对两个特征子集进行标准化和编码、特征子集降维、特征子集组合处理，进而构成样本集，并划分为训练集和测试集；建立投票器模型，调节投票器模型参数，采用层次分析法确定投票器模型权重；建立软投票的SWVC检测模型，训练模型；检验模型，使用准确率、F₁分数和误报率3个指标来评估SWVC检测模型的性能。本发明采用多特征组合和软投票策略相结合的方式实现对加密恶意流量的检测，具有较强的检测能力。

Description

一种软投票策略的加密恶意流量检测方法

技术领域

本发明属于数据识别中的加密恶意流量检测领域，尤其涉及一种软投票策略的多模型加权投票(SWVC)加密恶意流量检测方法。

背景技术

近年来，网络已经普及到生活中的方方面面，而网络攻击也在急速增长，例如数据泄露、挖矿病毒等安全事件频发。为了保护用户隐私和上网的安全性，许多站点和应用都对自己的通信采取加密措施。现在，已经有一半的流量都采用TLS(Transport LayerSecurity)加密协议来加密通信。然而加密技术是一把双刃剑，在合法流量加密的同时，携带蠕虫、木马的恶意软件也采用TLS加密协议来伪装攻击行为，进而侵入主机，产生恶意行为。

若没有解密技术，就无法得知流量内包含的信息。但解密技术硬件开销大，成本高，不符合保护用户上网隐私的初衷。由于近年来计算机技术的飞速发展，计算机的计算能力有了显著提升，机器学习和深度学习技术也日趋成熟，国内外许多学者开始研究使用机器学习或深度学习的方法来检测网络中的加密流量。例如，思科研究TLS握手的过程，结合机器学习建立了一套TLS加密恶意流量检测系统。还有学者研究基于时序的LSTM神经网络来解决此类问题。

过去常用基于深度包检测和解密的方法，一方面，这两种方法解析的是数据包底层信息，侵犯了用户的上网隐私，另一方面，该方法也存在误报率高的问题，给网络安全从业人员带来了诸多麻烦。如今，基于机器学习的加密恶意流量检测方法已经成为主流研究方法，但是，加密流量检测存在以下问题：(1)加密流量特征类别多样，单一模型不适应于处理多元异构的特征；(2)加密恶意流量检测误报率高。

发明内容

针对现有技术存在的不足和缺陷，本发明提供了一种加密恶意流量检测方法，旨在检测过程中综合考虑流级特征、连接特征、TLS握手特征和X.509证书特征，结合软投票策略解决以上问题。

本发明的技术路线是在不解密TLS加密协议的情况下，提取流级特征、连接特征、TLS握手特征和X.509证书特征来检测混合流量中的TLS加密恶意流量。技术思路是获取完整的pcap流量包，对数据包进行特征提取，按照特征类别组合成2个特征子集，对这2个特征子集分别进行标准化和编码处理，处理后的特征子集进行特征降维和多特征融合，构建样本集；建立5个投票器模型，使用控制变量法或网格搜索法调节模型参数，使用层次分析法确定每个投票器的权重，构成权重矩阵；根据软投票策略和权重矩阵组合5个投票器模型构成SWVC检测模型；将训练集输入SWVC检测模型，训练模型；利用测试集检验训练完成的SWVC检测模型，使用准确率、F₁分数和误报率来评估模型性能。

根据以上实验思路，实现本发明目的的技术方案包括以下步骤：

首先，捕获原始的流量包：

在特定的环境下执行恶意程序，捕获恶意软件运行过程中所产生的恶意流量，得到原始的恶意流量包；捕获网络正常情况下产生的流量，得到原始的良性流量包；

进一步地，数据预处理，将流量包中IP校验和无效的流量过滤，得到纯净的恶意流量包和良性流量包；

进一步地，解析流量包，进行特征提取，得到流级特征、连接特征、TLS握手特征和X.509证书特征，其中，TLS握手特征由Client Hello和Server Hello两部分组成，采用流指纹组合每条流的不同特征；

进一步地，将流级特征和连接特征通过流指纹进行融合，构成流特征子集；将TLS握手特征和X.509证书特征通过流指纹进行融合，构成TLS特征子集；将流特征子集进行标准化，得到标准流特征子集，将TLS特征子集进行one-hot编码，得到稀疏TLS特征子集；

进一步地，采用特征重要性评估法，对标准流特征子集的每一个维度的特征进行重要性评估，选取特征重要性大于0.01的特征作为降维后的流特征子集X₁；采用主成分分析法(PCA)设置累计最大特征贡献率ε≥90％，对稀疏TLS特征子集进行特征降维，得到降维后的TLS特征子集X₂；

进一步地，通过流指纹将两个降维后的特征子集X₁，X₂进行特征融合，添加一个TLS流的标注特征，得到特征集X，特征集X与标签值Y构成样本集，并将样本集划分为训练集和测试集；

进一步地，建立决策树分类器、K近邻分类器、高斯朴素贝叶斯分类器、极限随机树分类器和GBDT分类器5个投票器模型，采用网格搜索法或控制变量法调节投票器参数；采用层次分析法构建判断矩阵，进而得到5个投票器各自的权重ω_i，进而得到权重矩阵ω＝[ω₁,ω₂,ω₃,ω₄,ω₅]；

进一步地，根据软投票策略，将5个投票器按权重矩阵ω组合，构成SWVC检测模型；

进一步地，将训练集输入SWVC检测模型，训练模型；将测试集输入训练完成的SWVC检测模型进行预测，并使用准确率、F₁分数和误报率评估SWVC检测模型性能，其中F₁分数是精确率和召回率的调和平均数，精确率和召回率同等重要，权重均为1。

本发明相比现有技术的有益效果为：

1.针对样本中的TLS加密流量添加了一个4维TLS版本号特征，能够在使用单标签的情况下准确的检测出恶意/良性流量中的TLS加密流量，有利于网络流量分析员精准的定位检测到的TLS加密恶意流量，进而提高响应速度；

2.根据特征工程的原理和处理方式，对流量包进行特征提取、特征子集构建、特征子集标准化和编码以及多特征融合，大大提高了投票器模型的训练效果，进而提高了检测的准确率；

3.采用异构的机器学习模型作为投票器，能够减少SWVC检测模型对数据的倾向性和偏差，进而防止检测模型训练过拟合，提高检测模型的泛化能力。

附图说明

为了更清楚的表述本发明的技术方案，下面对本发明需要使用的附图进行简要介绍，如下所述附图仅为展示本发明的实施方式，而并不是对本发明的限制。

图1为本发明实施例提出的一种软投票策略的加密恶意流量检测方法的流程图；

图2为本发明实施例提出的一种软投票策略的加密恶意流量检测方法的设计图；

图3为本发明实施例提出的SWVC检测模型的原理图。

具体实施方式

如图1-3所示，本发明实施例提供的一种软投票策略的加密恶意流量检测方法，检测模型设计过程为：捕获原始的流量包，进行数据预处理后得到恶意流量包和良性流量包，并打上恶意/良性标签，对预处理后的流量包进行特征提取，进而构建特征子集、特征子集标准化和编码、特征子集降维，将降维后的特征子集组合后，添加TLS流标注特征，构成样本集；建立投票器模型，采用控制变量法或网格寻优法调节投票器参数，采用层次分析法确定投票器权重，并构成权重矩阵；通过软投票策略将5个投票器模型和对应的权重矩阵加权组合，构成SWVC检测模型；训练并测试SWVC检测模型；

如图1所示，一种加密恶意流量检测方法，包含以下步骤：

步骤1，捕获pcap流量包，构建原始数据集。利用Wireshark工具捕获真实网络环境下的pcap流量包，获取7种恶意软件在运行期间产生的流量，构成恶意流量包；捕获正常情况下的良性流量，构成良性流量包；所述7种恶意软件为Yakes、Conficker、Cridex、Dridex、Sality、Razy和TrickBot；

步骤2，数据预处理。利用机器学习来进行加密流量检测，真实有效的数据更有利于发挥机器学习模型的作用，而且真实的网络环境所产生的流量包含加密流量和非加密流量；因此，将流量包中IP校验和无效的流量过滤，得到包含653633条流量的恶意流量包(含35552条TLS加密流量)和含314733条流量良性流量包(含51703条TLS加密流量)，并对两个流量包分别打上恶意/良性标签，恶意流量样本标签为-1，良性流量样本标签为1，构成样本集的标签Y；

步骤3，解析流量包，提取流级特征，连接特征，TLS握手特征和X.509证书特征。

特征工程对TLS加密恶意流量检测有重要作用，TLS加密协议在建立连接过程中很多信息是明文传输的，而这些信息从统计学的角度，对于加密流量的恶意和良性识别来说具有很高的区分度；同样的，流量的行为和连接特性能反映出流的底层行为，也具有较高的区分度；

利用Zeek工具对流量包进行特征提取，所提取的特征包括：流级特征，包括流的特征和到达过程；连接特征，包括跟踪TCP/UDP建立连接的过程；TLS握手特征，包括ClientHello开始到Client Hello Done结束以及Server Hello开始到Server Hello Done结束两个过程所产生的明文信息；X.509证书特征，包括TLS的证书校验过程；所述流级特征，连接特征，TLS握手特征和X.509证书特征分别存放在4个日志文件中，采用流指纹组合每条流在不同日志中的所有特征；

步骤4，构建特征子集并进行标准化和编码。将数值类型的流级特征和连接特征通过流指纹融合，得到流特征子集；将文本类型的TLS握手特征和X.509证书特征通过流指纹融合，得到TLS特征子集；对流特征子集进行标准化处理后，得到标准流特征子集，对TLS特征子集采用one-hot编码后，得到稀疏TLS特征子集；

步骤5，特征子集降维。使用随机森林特征重要性评估器来对标准流特征集的每一维特征进行特征重要性评估，取特征重要性大于0.01的28维特征作为降维后的流特征子集X₁；

采用主成分分析法对稀疏TLS特征子集进行降维，设置累计最大特征重要性贡献率ε≥90％的指标进行特征降维，得到降维后的120维TLS特征子集X₂；

步骤6，特征子集组合，构建样本集。将步骤5中降维后的流特征子集X₁和TLS特征子集X₂通过流指纹进行特征组合；将TLS握手特征中的TLS版本号作为每条TLS加密流的数据标识，对TLS版本号进行编码后得到4个维度的特征，用于表示TLS加密协议的4个版本号SSL3.0/TLS1.0/TLS1.1/TLS1.2，将该数据标注特征与组合后的特征子集通过流指纹拼接，得到153个维度的特征集X；

特征集X和标签Y构成样本集T，将样本集打乱后，按照7:3的比例将样本集划分为训练集和测试集，其中训练集和测试集中恶意流量和良性流量的比例与预处理后的数据集比例保持一致；

步骤7，建立投票器模型，调节投票器模型参数，确定投票器模型权重。建立决策树分类器模型，采用控制变量法得到决策树分类器树的最大深度为20；建立K近邻分类器模型，设置k值为5；建立高斯朴素贝叶斯分类器模型，设置极大似然法计算先验概率；建立极限随机树分类器模型，采用控制变量法，设置迭代器的个数为110，迭代器最大树的深度为20；建立GBDT分类器模型，采用网格搜索法，设置迭代器个数为100，学习速率0.3，树的最大深度20；

采用层次分析法，建立判断矩阵，如表1所示，计算得决策树分类器、K近邻分类器、高斯朴素贝叶斯分类器、极限随机树分类器和GBDT分类器的权重ω₁，ω₂，ω₃，ω₄，ω₅，5个投票器模型的权重构成的权重矩阵ω＝[0.2491，0.1243，0.0501，0.3293，0.2472]，并通过一致性检验；

表1：5个投票器的判断矩阵

步骤8，组合投票器模型，构成SWVC检测模型。根据软投票策略，将5个投票器模型按权重矩阵ω加权组合，构成SWVC检测模型；该模型的训练机制为：每一个投票器模型独立的训练所有样本，训练后为每一个样本输出两个预测的概率值，一个预测概率值是样本x_i为恶意流量的概率ω_i1，另一个预测概率值是样本x_i为良性流量的概率ω_i2，最后通过软投票策略，将5个分类器的预测概率值与这5个投票器的权重矩阵加权求和，得到每个样本为恶意流量的概率ω_-1和为良性流量的概率ω₊₁，其中

/>

对比两个概率值，若ω_-1大于ω₊₁，则SVWC检测模型对样本x_i的预测结果为恶意流量，反之则为良性流量；

步骤9，训练模型，检验模型性能。将训练集输入SWVC检测模型进行训练，将测试集输入训练完成的SWVC检测模型进行检验，采用准确率，F₁分数和误报率来评价SWVC模型性能，如表2所示，其中，误报的TLS加密恶意样本数量为2例；F₁分数是精确率和召回率的调和平均数，精确率和召回率同等重要，权重均为1，F₁分数越高，反映分类效果越好；

其中，FP表示错误识别为恶意样本的良性样本，TN表示正确识别为恶意样本的恶意样本。

表2：SWVC模型性能

综上所述，本发明的一种软投票策略的加密恶意流量检测方法，所提出的SWVC检测模型达到了99.86％的分类准确性，反映了该检测模型具有良好的检测效果；第二，所提出的SWVC检测模型达到了99.88％的F₁分数，反映了该检测模型的精确率和召回率达到了较高的调和平均数，进而说明该检测模型具有较好的二分类效果；第三，整体误报率低于0.1％，其中误报的TLS加密恶意样本数量2例，反映了本发明所提出的SWVC检测模型对TLS加密恶意流量检出率高，大大减轻了网络流量分析人员的工作量。

Claims

1.一种软投票策略的加密恶意流量检测方法，其特征在于，包括以下步骤：

步骤一，捕获流量包，构建原始流量数据集；

步骤二，过滤原始流量数据集中IP校验和无效的流量，并打上恶意/良性标签；

步骤三，解析流量包，进行特征提取，提取流级特征、连接特征、TLS握手特征和X.509证书特征，并采用流指纹组合每条流量的不同特征；

步骤四，将所述流级特征和连接特征通过流指纹组合，构成流特征子集，所述TLS握手特征和X.509证书特征通过流指纹组合，构成TLS特征子集，并将所述流特征子集进行标准化，得到标准流特征子集，将所述TLS特征子集采用ont-hot方式进行编码，

得到稀疏TLS特征子集；

步骤五，采用特征重要性评估法和主成分分析法分别对标准流特征子集和稀疏TLS特征子集进行特征降维；

步骤六，采用流指纹组合降维后的标准流特征子集和稀疏TLS特征子集，并添加一个TLS流的标注特征，得到特征集X；将特征集X与标签值Y构成样本集T，并将T划分为训练集和测试集；

步骤七，建立投票器模型，所述投票器模型包括决策树分类器、K近邻分类器、朴素贝叶斯分类器、极限随机树分类器和GBDT分类器；采用网格搜索法和控制变量法对投票器模型进行参数调节，采用层次分析法确定每一个投票器模型的权重ω_i，所有投票器模型的权重组成权重矩阵ω；

步骤八，根据权重矩阵ω采用加权策略组合投票器模型，建立基于软投票策略的多模型加权投票(SWVC)检测模型；所述SWVC检测模型的训练过程包括：每一个投票器模型独立的训练所有训练集样本，训练后分别输出每一个样本为恶意样本和良性样本的概率值；通过权重矩阵ω对每一个投票器模型的输出进行加权求和，得到每一个样本为恶意样本和良性样本的加权概率值；取两个加权概率值中较大数值所属的类别作为样本的预测类别；

步骤九，将训练集输入SWVC检测模型进行训练，将测试集输入训练完成的SWVC检测模型进行预测，并使用准确率、F₁分数和误报率3个指标对检测模型进行评估，所述F₁分数是精确率和召回率的调和平均数。

2.如权利要求1所述的一种软投票策略的加密恶意流量检测方法，其特征在于，所提取的流级特征、连接特征、TLS握手特征和X.509证书特征包括：

流级特征，包括流的特征和到达过程；连接特征，包括跟踪TCP/UDP建立连接的过程；

TLS握手特征，包括TLS握手过程中的Client Hello和Server Hello部分；X.509证书特征，包括TLS的证书校验过程。

3.如权利要求1所述的一种软投票策略的加密恶意流量检测方法，其特征在于，所述TLS流的标注特征包括：

将TLS握手过程中产生的TLS版本号特征作为一个TLS流的标识，标识由4个维度的稀疏矩阵构成，用于表示TLS加密流量的4个版本号，包括SSL3.0/TLS1.0/TLS1.1/TLS1.2。

4.如权利要求1所述的一种软投票策略的加密恶意流量检测方法，其特征在于，所述投票器模型的建立和参数调节包括：

投票器模型由决策树分类器、K近邻分类器、高斯朴素贝叶斯分类器、极限随机树分类器和GBDT分类器组成，采用控制变量法对决策树分类器、K近邻分类器和极限随机树分类器模型进行参数调节；采用网格寻优法对GBDT分类器和高斯朴素贝叶斯分类器模型进行参数调节。

5.如权利要求1所述的一种软投票策略的加密恶意流量检测方法，其特征在于，所述决策树分类器、K近邻分类器、朴素贝叶斯分类器、极限随机树分类器和GBDT分类器所对应的权重矩阵ω＝[0.2491，0.1243，0.0501，0.3293，0.2472]。