CN113141349B

CN113141349B - 一种多分类器自适应融合的https加密流量分类方法

Info

Publication number: CN113141349B
Application number: CN202110306256.5A
Authority: CN
Inventors: 陈铁明; 呼延东铎; 蒋建可; 宋琪杰; 顾国民
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-07-15
Anticipated expiration: 2041-03-23
Also published as: CN113141349A

Abstract

一种基于多分类器自适应融合的HTTPS加密流量分类方法，选择了HTTPS连接中常见的连接特征、SSL特征、证书特征等三类特征，对于不同特征分别使用不同的分量分类器进行训练并最终将分量分类器进行融合，与每个分量分类器相比，融合分类器拥有更高的分类精度和分类效果。同时，分量分类器融合权重也不是人为设置或根据分量分类器性能进行设置，而是根据训练样本中三类特征相对于各个类别的不同相关性而进行动态权值设置，可以更好的提高融合分类器的分类精度和分类效果。

Description

一种多分类器自适应融合的HTTPS加密流量分类方法

技术领域

本发明涉及网络安全相关技术领域，具体而言，涉及一种HTTPS网络流量分类方法。

背景技术

随着互联网的广泛应用，数据安全保护显得尤为重要。为了解决这一问题，HTTPS协议在HTTP协议的基础上结合了SSL/TLS协议，通过建立安全通道线路对HTTP协议内容进行加密传输，防止通信内容被窃听或篡改。截至今日，超过65％的网络流量已经使用HTTPS加密协议进行传输。伴随着HTTPS的广泛使用，针对HTTPS协议的恶意流量攻击页层出不穷，如SSL劫持攻击、HTTPS Flood攻击等，不同的攻击方式对应的防御方式也有所不同。因此，需要对攻击进行检测分类，针对不同类型攻击采取不同防御手段。

但是，HTTPS协议在保护隐私的同时，也让对恶意流量的检测分类变得困难。传统的检测方法需要通过安装HTTPS拦截代理对加密流量进行解密后使用经典检测方法进行流量检测、分类。不过这一检测方式效率不高。

如果不对HTTPS进行解密操作，而是通过流量包深度解析方式的方式对HTTPS流量进行提取，可以发现HTTPS流量数据包含多种特征，这些特征总体上可以分为连接特征、SSL特征、证书特征等。不同类型的攻击在特定特征空间内可能区分很好，而在其他特征空间很难甚至无法进行区分。而通常我们并不清楚应该选择哪类特征，因此在面对如此多的特征时，通常的做法是将所有特征组合成特征向量，然后根据某些特征选择方法进行特征选择，进而使用分类器实现分类。但是这样做会带来一些列问题，如特征爆炸，不同特征的归一化问题，分类器选择困难等。因此，可以充分利用不同分类器的有点和实用性，采取多模型融合的方式对其进行分类。

在多分类器加权融合的研究中，主要包括平均加权融合和基于识别性能的的加权融合。平均加权融合中各分类器具有相同的权值，无法体现出不同分类器所对应特征的重要程度；基于识别性能的融合基于模型训练结果赋予其不同的权值，但是当某一分类样本过少时容易出现权值误差。

发明内容

为了克服现有技术的不足，本发明提出一种多分类器自适应权值融合的HTTPS加密流量分类方法，提高HTTPS加密流量分类的准确度。

本发明提供的技术方案是：

一种多分类器自适应融合的HTTPS加密流量分类方法，包括以下步骤：

步骤1、获取关于HTTPS恶意攻击流量的数据集，进行解析并构建连接4元组，即源IP、目标IP、目标端口和协议；

步骤2，基于步骤1所提取的数据集进行随机化后提取训练样本和测试样本的特征，包括连接特征、SSL特征和证书特征；

步骤3，以步骤2所得分量训练子数据集和分量测试子数据集训练样本训练并调整分量分类器参数直到分量分类器达到一个较好的效果，然后采用训练后的分量分类器对步骤2所得待测子数据集S′_t进行分类；所述分量分类器包括基于一对多构建的SVM分类器、基于决策树的分类器、基于k最近邻算法KNN的分类器；

步骤4，计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值；标记需要进行结果融合的分类器集合为R＝{R₁,R₂,R₃}，其中R₁，R₂，R₃分别表示SVM分类器、决策树分类器、KNN分类器；任一分类器标记为R_u，u的取值为1、2、3，计算每个待识别样本的各分分量分类器的总权值；

步骤5，根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类，得到最终融合分类器判别分类p,计算公式如下：

步骤6，以步骤5所得融合分类器的结果，以最大测量值原则作为融合决策规则，得到融合分类器对每个待测样本的最终分类结果。

进一步，所述步骤1中，构建过程如下：

步骤1.1，使用Bro IDS对数据集的pacp文件进行深度包解析，获取通信日志、SSL协议日志、证书日志文件；

所述通信日志每一行聚合一组数据包，并描述两个端点之间的连接，连接记录包含IP地址、端口、协议、连接状态、数据包数量和标签信息；

所述SSL协议日志描述了SSL/TLS握手和加密连接建立过程，包含SSL/TLS版本、使用的密码、服务器名称、证书路径、主题和证书发行者；

所述证书日志的每一行都是一个证书记录，用来描述证书信息，如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度；

步骤1.2，通过连接日志中的唯一键，SSL协议日志中的唯一键，ssl协议日志中的证书id键值，证书日志文件中的id键值进行连接，构建4元组，即源IP、目标IP、目标端口和协议，并根据聚合结果对4元组在三个日志文件中的对应各项特征进行提取。

更进一步，所述步骤2中，各类特征详细信息如下所示：

所述连接特征是来自连接记录的特征，描述与证书和加密无关的通信流的常见行为；

所述SSL特征是来自SSL记录的特征，描述了SSL握手和加密通信的信息；

所述证书特征是来自证书记录的特性，描述了web服务人员在SSL握手期间提供给我们的证书的信息；

设数据集为S＝{x^t,yⁱ}(1≤t≤N,1≤i≤m)，其中x^t指样本属性，yⁱ指对应的标签数据，即该条数据对应于第i个分类，N是数据集总样本数，m是分类总数；同时，x^t＝{t₁,…,t_α,t_α+1,…,t_β,t_β+1,…,t_γ}，表示每个训练样本x^t拥有γ维特征，其中1-α维特征表示连接特征，α+1–β维特征表示SSL特征，β+1–γ维特征表示证书特征。

分别基于1-α维特征、α+1–β维特征和β+1–γ维特征取出基于连接特征、SSL特征、证书特征的三类特征的子数据集S_con，S_ssl，S_cer，

步骤2.1，分别对S_con，S_ssl，S_cer使用Z-score标准化方法进行归一化，并合并生成新的全体特征数据集S′，归一化步骤及公式如下：

如上，以子数据集S_con为例，

表示该子数据集所有变量的平均数，σ为数据集的标准差，M为子数据集所包含的特征维数，分量子数据集与完整数据集的数据数量一样，均为N。分别计算分量子数据集的平均数、标准差，然后根据如下公式对子数据集进行Z-score标准化，

然后，根据归一化完成的三个分量子数据集进行横向拼接合并，并结合原数据集中每条数据的标签生成M×(β+1)维新数据集S′，即

S′＝S_con+S_con+S_con

步骤2.2，按照7:2:1从数据集S′中取出训练子数据集、测试子数据集、待检测子数据集S′_t，进而，根据训练子数据集及测试子数据集分别得到分量训练子数据集S′_con,S′_ssl,S′_cer和分量测试子数据集S″_con,S″_ssl,S″_cer。

再进一步，所述步骤3中，，包括以下操作：

用训练样本的连接特征子数据集S′_con、S″_con训练基于SVM算法的多分类器，用训练后所得的SVM分类器对待测子数据集S′_t的连接特征进行分类，获得SVM分类器对基于连接特征所判定的分类的概率输出，记为p_con＝{p_j1,…,p_ji，…,p_jm}(1≤i≤m，1≤j≤q)，m为类别总数量，q为待测样本总数量，p_ji表示第j个验证样本属于类别c_i的概率；

用训练样本的SSL特征子数据集S′_ssl、S″_ssl训练基于KNN的分类器，用训练后所得到的KNN分类器对待测子数据集S′_t的SSL特征进行分类，得到KNN分类器对基于SSL特征所判定的分类的概率输出，记为

p_ssl＝{p_j1,…,p_ji，…,p_jm}，1≤i≤m；

用训练样本的证书特征子数据集S′_cer、S″_cer训练基于决策树的分类器，用训练后的决策树分类器对待测子数据集S′_t的证书特征进行分类，得到决策树分类器对基于证书特征所判定的分类的概率输出，记为

p_cer＝{p_j1,…,p_ji，…,p_jm}，1≤i≤m。

所述步骤4包括以下步骤：

步骤4.1，首先从数据集S′中去除待检测子数据集S′_t后获得数据集S″，然后将m类重新组合为2类，分别是类别c_i(1≤i≤m)、c_o，其中类别c_o由除类别c_i外m-1个类别合并而成。

S″＝S′-S′_t

S″＝{x^t,y^o}，1≤t≤N,1≤o≤2

步骤4.2，使用基于互信息的特征选择法计算数据集S″的γ维特征进与分类结果的相关度，得到每一维特征在类别{c_i,c_o}这个二分类情况下的相关度w_e，1≤e≤γ，即认为该维特征对区分类别c_i的相关度。进而，分别计算连接特征、SSL特征和证书特征相对于类别c_i的权重con_weight，ssl_weight，cer_weight，亦为各分量分类器R_u在融合结果中的权重，计算公式如下：

步骤4.3，重复4.1、4.2步骤m次，得到

1≤i≤m，表示相对于每一个分类c_i，连接特征、SSL特征和证书特征所对应的权值。

本发明提出的一种基于多分类器自适应融合的HTTPS加密流量分类方法，具有以下优点：

由于不同分量分类器各自具有不同的特点，其分类结果具有互补性，融合后的分类效果会更好。为提高不同分类结果之间的互补性，本发明选择了连接特征、SSL特征、证书特征；对于不同特征，选择不同的分类器，如对连接特征选择基于一对多的SVM分类器，对SSL特征选择KNN分类器，对于证书特征选择决策树分类器。与每个单独分类器相比较，融合分类器具有更好的分类精度及分类效果。

本发明中分量分类器的权值并不像其他融合模型一样根据经验设定固定的权值，或者根据各分量分类器的模型结果计算权值，而是根据三种类型的特征在每一个分类中与分类结果的相关度来动态的设定其权值，使得对于不同的分类，该三种类型特征均具有不同的权值。通过将特征和分类动态的结合起来，给每个分类器自适应的分配权值，可以充分发挥每个分类器的性能优势，其融合分类效果比单个分类器分类效果有较大改善。

附图说明

图1为发明实施例的系统流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

参照图1，一种多分类器自适应融合的HTTPS加密流量分类方法，包括以下步骤：

步骤1、获取关于HTTPS恶意攻击流量的数据集，进行解析并构建连接4元组(源IP、目标IP、目标端口和协议)，构建过程如下：

步骤1.1，使用Bro IDS对数据集的pacp文件进行深度包解析，获取通信日志、SSL协议日志、证书日志等3个日志文件。

所述通信日志每一行聚合一组数据包，并描述两个端点之间的连接。连接记录包含IP地址、端口、协议、连接状态、数据包数量、标签等信息。

所述SSL协议日志描述了SSL/TLS握手和加密连接建立过程。包含SSL/TLS版本、使用的密码、服务器名称、证书路径、主题、证书发行者等等。

所述证书日志的每一行都是一个证书记录，用来描述证书信息，如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度等。

步骤1.2，通过连接日志中的唯一键，SSL协议日志中的唯一键，ssl协议日志中的证书id键值，证书日志文件中的id键值进行连接，构建4元组，并根据聚合结果对4元组在三个日志文件中的对应各项特征进行提取，具体步骤如下：

首先，从SSL协议日志文件中读取一条ssl记录，获取其唯一密钥(唯一键)，使用该密钥在连接日志文件中查找唯一的连接记录，并获取4元组的内容(源IP、目的IP、目的端口、传输层协议)及该连接的分类标签，若查找到的连接记录没有相应的标签或者没有找到连接记录则跳至下一条ssl记录。

其次，若4元组成功找到之后，根据ssl记录的证书路径(id键值)在证书日志文件中查找证书第一路径为该路径的证书记录。

经过上述2步之后，若成功找到三条记录，那么在ssl聚合池中确定是否已经有这样的ssl聚合信息，若没有，则将其加入ssl聚合池中。

最后，ssl经聚合处理，然后根据这些HTTPS记录进一步提取其他特征信息。

步骤2、基于步骤1所提取的数据集进行随机化后提取训练样本和测试样本的特征，包括连接特征、SSL特征、证书特征；各类特征详细信息如下所示：

所述连接特征是来自连接记录的特征，描述与证书和加密无关的通信流的常见行为，共提取包括聚合连接记录的数量和、持续时间均值、持续时间标准差、持续时间超出标准差范围的时间占比、总发送包大小等12个连接特征。

所述SSL特征是来自SSL记录的特征，描述了SSL握手和加密通信的信息，共提取TLS与SSL的比值、SNI占比、SNI is IP等10个SSL特征。

所述证书特征是来自证书记录的特性，描述了web服务人员在SSL握手期间提供给我们的证书的信息，共提取证书有效期平均值、证书有效期标准差、捕获期间证书周期的有效性等10个证书特征。

设数据集为S＝{x^t,yⁱ}，1≤t≤N,1≤i≤m，其中x^t指样本属性，yⁱ指对应的标签数据，即即该条数据对应于第i个分类，N是数据集总样本数，m是分类总数；同时，x^t＝{t₁,…,t_α,t_α+1,…,t_β,t_β+1,…,t_γ},表示每个训练样本x^t拥有γ维特征，其中1-α维特征表示连接特征，α+1–β维特征表示SSL特征，β+1–γ维特征表示证书特征。

步骤2.1，分别对S_con，S_ssl，S_cer使用Z-score标准化方法进行归一化，并合并生成新的全体特征数据集S′。归一化步骤及公式如下：

如上，以子数据集S_con为例，

表示该子数据集所有变量的平均数，σ为数据集的总体标准差，M为子数据集所包含的特征维数，分量子数据集与完整数据集的数据数量一样，均为N。分别计算分量子数据集的平均数、标准差，然后根据如下公式对子数据集进行Z-score标准化。

S′＝S_con+S_con+S_con

步骤3、以步骤2所得分量训练子数据集和分量测试子数据集训练样本训练并调整分量分类器参数直到分量分类器达到一个较好的效果，然后采用训练后的分量分类器对步骤2所得待测子数据集S′_t进行分类；所述分量分类器包括基于一对多构建的SVM分类器、基于决策树的分类器、基于k最近邻算法(KNN)的分类器，具体包括以下操作：

用训练样本的连接特征子数据集S′_con、S″_con训练基于SVM算法的多分类器，用训练后所得的SVM分类器对待测子数据集S′_t的连接特征进行分类，获得SVM分类器对基于连接特征所判定的分类的概率输出，记为p_con＝{p_j1,…,p_ji，…,p_jm}，1≤i≤m，1≤j≤q，m为类别总数量，q为待测样本总数量，p_ji表示第j个验证样本属于类别c_i的概率；

p_ssl＝{p_j1,…,p_ji，…,p_jm}，1≤i≤m；

p_cer＝{p_j1,…,p_ji，…,p_jm}，1≤i≤m；

步骤4、计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值；标记需要进行结果融合的分类器集合为R＝{R₁,R₂,R₃}，其中R₁，R₂，R₃分别表示SVM分类器、决策树分类器、KNN分类器；任一分类器标记为R_u，u的取值为1、2、3，计算每个待识别样本的各分量分类器的总权值包括以下步骤：

步骤4.1，首先从数据集S′中去除待检测子数据集S′_t后获得数据集S″，然后将m类重新组合为2类，分别是类别c_i、c_o，1≤i≤m，类别c_o由除类别c_i外m-1个类别合并而成。

S″″＝S′-S′_t

S″＝{x^t,y^o}，1≤t≤N,1≤o≤2

步骤4.3，重复4.1、4.2步骤m次，得到

步骤5、根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类，得到最终融合分类器判别分类p，计算公式如下:

步骤6，以步骤5所得融合分类器的结果，以最大测量值原则作为融合决策规则，得到融合分类器对每个样本的最终分类结果。

为便于了解本发明的效果起见，提供以下实验说明：

实验数据中恶意流量数据来自由捷克共和国CTU大学捕获的开源数据集。本实验选择部分类型流量，包含恶意软件HtBot产生的流量(Class1)，僵尸网络Sathurbot产生的流量(Class2)。同时，通过模拟捕获更多的正常流量(Class3)，即访问一系列主流网站，利用Wireshark抓取筛选其中的HTTPS流量。对以上两部分流量进行融合后共10019条数据，其中Class1分类包含2631条数据，Class2类别包含4072条数据，Class3类别包含3316条数据。

利用SVM分类器对连接特征进行分类，获得HTTPS加密流量的分类结果1；利用KNN分类器对SSL特征进行分类，获得HTTPS加密流量的分类结果2；利用决策树分类器对连接特征进行分类，获得HTTPS加密流量的分类结果3；利用本发明的多分类器自适应权值融合方法，获得HTTPS流量最终的分类结果。

实验结果如下：

表1

表2

可见，本发明的基于多分类器自适应权值融合的HTTPS加密流量分类方法，能综合考虑样本总体分布和样本个体特性，自动的为每种类别在每个分类器都分配一个与之相适应的权值，有效地提高了融合分类结果的精度及召回率。

以上所述具体实施例仅展示了本申请的一种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种多分类器自适应融合的HTTPS加密流量分类方法，其特征在于，所述方法包括以下步骤：

步骤4，计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值；标记需要进行结果融合的分类器集合为R＝{R₁，R₂，R₃}，其中R₁，R₂，R₃分别表示SVM分类器、决策树分类器、KNN分类器；任一分类器标记为R_u，u的取值为1、2、3，计算每个待识别样本的各分量分类器的总权值；

步骤5，根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类，得到最终融合分类器判别分类p，计算公式如下：

步骤6，以步骤5所得融合分类器的结果，以最大测量值原则作为融合决策规则，得到融合分类器对每个待测样本的最终分类结果；

所述步骤2中，各类特征详细信息如下所示：

设数据集为S＝{x^t，yⁱ}(1≤t≤N，1≤i≤m)，其中x^t指样本属性，yⁱ指对应的标签数据，即该条数据对应于第i个分类，N是数据集总样本数，m是分类总数；同时，x^t＝{t₁，…，t_α，t_α+1，…，t_β，t_β+1，…，t_γ}，表示每个训练样本x^t拥有γ维特征，其中1-α维特征表示连接特征，α+1-β维特征表示SSL特征，β+1-γ维特征表示证书特征；

分别基于1-α维特征、α+1-β维特征和β+1-γ维特征取出基于连接特征、SSL特征、证书特征的三类特征的子数据集S_con，S_ssl，S_cer，

如上，以子数据集S_con为例，

表示该子数据集所有变量的平均数，σ为数据集的标准差，M为子数据集所包含的特征维数，分量子数据集与完整数据集的数据数量一样，均为N，分别计算分量子数据集的平均数、标准差，然后根据如下公式对子数据集进行Z-score标准化，

然后，根据归一化完成的三个分量子数据集进行横向拼接合并，并结合原数据集中每条数据的标签生成N×(γ+1)维新数据集S′，即

S′＝S_con+S_ssl+S_cer

步骤2.2，按照7∶2∶1从数据集S′中取出训练子数据集、测试子数据集、待检测子数据集S′_t，进而，根据训练子数据集及测试子数据集分别得到分量训练子数据集S′_con，S′_ssl，S′_cer和分量测试子数据集S″_con，S″_ssl，S″_cer；

所述步骤3中，，包括以下操作：

用训练样本的连接特征子数据集S′_con、S″_con训练基于SVM算法的多分类器，用训练后所得的SVM分类器对待测子数据集S′_t的连接特征进行分类，获得SVM分类器对基于连接特征所判定的分类的概率输出，记为p_con＝{p_j1，…，p_ji，…，p_jm}(1≤i≤m，1≤j≤q)，m为类别总数量，q为待测样本总数量，p_ji表示第j个验证样本属于类别c_i的概率；

用训练样本的SSL特征子数据集S′_ssl、S″_ssl训练基于KNN的分类器，用训练后所得到的KNN分类器对待测子数据集S′_t的SSL特征进行分类，得到KNN分类器对基于SSL特征所判定的分类的概率输出，记为p_ssl＝{p_j1，…，p_ji，…，p_jm}，1≤i≤m；

用训练样本的证书特征子数据集S′_cer、S″_cer训练基于决策树的分类器，用训练后的决策树分类器对待测子数据集S′_t的证书特征进行分类，得到决策树分类器对基于证书特征所判定的分类的概率输出，记为P_cer＝{p_j1，…，p_ji，…，p_jm}，1≤i≤m；

所述步骤4包括以下步骤：

步骤4.1，首先从数据集S′中去除待检测子数据集S′_t后获得数据集S″，然后将m类重新组合为2类，分别是类别c_i(1≤i≤m)、c_o，其中类别c_o由除类别c_i外m-1个类别合并而成；

S″＝S′-S′_t

S″＝{x^t，y^o}，1≤t≤N，1≤o≤2

步骤4.2，使用基于互信息的特征选择法计算数据集S″的γ维特征进与分类结果的相关度，得到每一维特征在类别{c_i，c_o}这个二分类情况下的相关度w_e，1≤e≤γ，即认为该维特征对区分类别c_i的相关度，进而，分别计算连接特征、SSL特征和证书特征相对于类别c_i的权重con_weight，ssl_weight，cer_weight，亦为各分量分类器R_u在融合结果中的权重，计算公式如下：

步骤4.3，重复4.1、4.2步骤m次，得到

表示相对于每一个分类c_i，连接特征、SSL特征和证书特征所对应的权值。

2.如权利要求1所述的一种多分类器自适应融合的HTTPS加密流量分类方法，其特征在于，所述步骤1中，构建过程如下：

步骤1.1，使用BroIDS对数据集的pacp文件进行深度包解析，获取通信日志、SSL协议日志、证书日志文件；