CN113141349A - 一种多分类器自适应融合的https加密流量分类方法 - Google Patents

一种多分类器自适应融合的https加密流量分类方法 Download PDF

Info

Publication number
CN113141349A
CN113141349A CN202110306256.5A CN202110306256A CN113141349A CN 113141349 A CN113141349 A CN 113141349A CN 202110306256 A CN202110306256 A CN 202110306256A CN 113141349 A CN113141349 A CN 113141349A
Authority
CN
China
Prior art keywords
classifier
ssl
certificate
data set
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110306256.5A
Other languages
English (en)
Other versions
CN113141349B (zh
Inventor
陈铁明
呼延东铎
蒋建可
宋琪杰
顾国民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110306256.5A priority Critical patent/CN113141349B/zh
Publication of CN113141349A publication Critical patent/CN113141349A/zh
Application granted granted Critical
Publication of CN113141349B publication Critical patent/CN113141349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于多分类器自适应融合的HTTPS加密流量分类方法,选择了HTTPS连接中常见的连接特征、SSL特征、证书特征等三类特征,对于不同特征分别使用不同的分量分类器进行训练并最终将分量分类器进行融合,与每个分量分类器相比,融合分类器拥有更高的分类精度和分类效果。同时,分量分类器融合权重也不是人为设置或根据分量分类器性能进行设置,而是根据训练样本中三类特征相对于各个类别的不同相关性而进行动态权值设置,可以更好的提高融合分类器的分类精度和分类效果。

Description

一种多分类器自适应融合的HTTPS加密流量分类方法
技术领域
本发明涉及网络安全相关技术领域,具体而言,涉及一种HTTPS 网络流量分类方法。
背景技术
随着互联网的广泛应用,数据安全保护显得尤为重要。为了解决这一问题,HTTPS协议在HTTP协议的基础上结合了SSL/TLS协议,通过建立安全通道线路对HTTP协议内容进行加密传输,防止通信内容被窃听或篡改。截至今日,超过65%的网络流量已经使用HTTPS加密协议进行传输。伴随着HTTPS的广泛使用,针对HTTPS协议的恶意流量攻击页层出不穷,如SSL劫持攻击、HTTPS Flood攻击等,不同的攻击方式对应的防御方式也有所不同。因此,需要对攻击进行检测分类,针对不同类型攻击采取不同防御手段。
但是,HTTPS协议在保护隐私的同时,也让对恶意流量的检测分类变得困难。传统的检测方法需要通过安装HTTPS拦截代理对加密流量进行解密后使用经典检测方法进行流量检测、分类。不过这一检测方式效率不高。
如果不对HTTPS进行解密操作,而是通过流量包深度解析方式的方式对HTTPS流量进行提取,可以发现HTTPS流量数据包含多种特征,这些特征总体上可以分为连接特征、SSL特征、证书特征等。不同类型的攻击在特定特征空间内可能区分很好,而在其他特征空间很难甚至无法进行区分。而通常我们并不清楚应该选择哪类特征,因此在面对如此多的特征时,通常的做法是将所有特征组合成特征向量,然后根据某些特征选择方法进行特征选择,进而使用分类器实现分类。但是这样做会带来一些列问题,如特征爆炸,不同特征的归一化问题,分类器选择困难等。因此,可以充分利用不同分类器的有点和实用性,采取多模型融合的方式对其进行分类。
在多分类器加权融合的研究中,主要包括平均加权融合和基于识别性能的的加权融合。平均加权融合中各分类器具有相同的权值,无法体现出不同分类器所对应特征的重要程度;基于识别性能的融合基于模型训练结果赋予其不同的权值,但是当某一分类样本过少时容易出现权值误差。
发明内容
为了克服现有技术的不足,本发明提出一种基于多分类器自适应权值融合的HTTPS加密流量分类方法,提高HTTPS加密流量分类的准确度。
本发明提供的技术方案是:
一种基于多分类器自适应融合的HTTPS加密流量分类方法,包括以下步骤:
步骤1、获取关于HTTPS恶意攻击流量的数据集,进行解析并构建连接4元组,即源IP、目标IP、目标端口和协议;
步骤2,基于步骤1所提取的数据集进行随机化后提取训练样本和测试样本的特征,包括连接特征、SSL特征和证书特征;
步骤3,以步骤2所得分量训练子数据集和分量测试子数据集训练样本训练并调整分量分类器参数直到分量分类器达到一个较好的效果,然后采用训练后的分量分类器对步骤2所得待测子数据集S′t进行分类;所述分量分类器包括基于一对多构建的SVM分类器、基于决策树的分类器、基于k最近邻算法KNN的分类器;
步骤4,计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值;标记需要进行结果融合的分类器集合为 R={R1,R2,R3},其中R1,R2,R3分别表示SVM分类器、决策树分类器、 KNN分类器;任一分类器标记为Ru,u的取值为1、2、3,计算每个待识别样本的各分分量分类器的总权值;
步骤5,根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类,得到最终融合分类器判别分类p,计算公式如下:
Figure BDA0002987824600000031
步骤6,以步骤5所得融合分类器的结果,以最大测量值原则作为融合决策规则,得到融合分类器对每个待测样本的最终分类结果。
进一步,所述步骤1中,构建过程如下:
步骤1.1,使用Bro IDS对数据集的pacp文件进行深度包解析,获取通信日志、SSL协议日志、证书日志文件;
所述通信日志每一行聚合一组数据包,并描述两个端点之间的连接,连接记录包含IP地址、端口、协议、连接状态、数据包数量和标签信息;
所述SSL协议日志描述了SSL/TLS握手和加密连接建立过程,包含SSL/TLS版本、使用的密码、服务器名称、证书路径、主题和证书发行者;
所述证书日志的每一行都是一个证书记录,用来描述证书信息,如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度;
步骤1.2,通过连接日志中的唯一键,SSL协议日志中的唯一键, ssl协议日志中的证书id键值,证书日志文件中的id键值进行连接,构建 4元组,即源IP、目标IP、目标端口和协议,并根据聚合结果对4元组在三个日志文件中的对应各项特征进行提取。
更进一步,所述步骤2中,各类特征详细信息如下所示:
所述连接特征是来自连接记录的特征,描述与证书和加密无关的通信流的常见行为;
所述SSL特征是来自SSL记录的特征,描述了SSL握手和加密通信的信息;
所述证书特征是来自证书记录的特性,描述了web服务人员在SSL 握手期间提供给我们的证书的信息;
设数据集为S={xt,yi}(1≤t≤N,1≤i≤m),其中xt指样本属性,yi指对应的标签数据,即该条数据对应于第i个分类,N是数据集总样本数, m是分类总数;同时,xt={t1,…,tα,tα+1,…,tβ,tβ+1,…,tγ},表示每个训练样本xt拥有γ维特征,其中1-α维特征表示连接特征,α+1-β维特征表示 SSL特征,β+1-γ维特征表示证书特征。
分别基于1-α维特征、α+1-β维特征和β+1-γ维特征取出基于连接特征、SSL特征、证书特征的三类特征的子数据集Scon,Sssl,Scer
Figure BDA0002987824600000041
Figure BDA0002987824600000042
Figure BDA0002987824600000043
步骤2.1,分别对Scon,Sssl,Scer使用Z-score标准化方法进行归一化,并合并生成新的全体特征数据集S′,归一化步骤及公式如下:
Figure BDA0002987824600000051
Figure BDA0002987824600000052
如上,以子数据集Scon为例,
Figure BDA0002987824600000053
表示该子数据集所有变量的平均数,σ为数据集的标准差,M为子数据集所包含的特征维数,分量子数据集与完整数据集的数据数量一样,均为N。分别计算分量子数据集的平均数、标准差,然后根据如下公式对子数据集进行Z-score标准化,
Figure BDA0002987824600000054
然后,根据归一化完成的三个分量子数据集进行横向拼接合并,并结合原数据集中每条数据的标签生成M×(β+1)维新数据集S′,即
S′=Scon+Scon+Scon
步骤2.2,按照7∶2∶1从数据集S′中取出训练子数据集、测试子数据集、待检测子数据集S′t,进而,根据训练子数据集及测试子数据集分别得到分量训练子数据集S′con,S′ssl,S′cer和分量测试子数据集S″con,S″ssl,S″cer
再进一步,所述步骤3中,,包括以下操作:
用训练样本的连接特征子数据集S′con、S″con训练基于SVM算法的多分类器,用训练后所得的SVM分类器对待测子数据集S′t的连接特征进行分类,获得SVM分类器对基于连接特征所判定的分类的概率输出,记为 pcon={pj1,…,pji,…,pjm}(1≤i≤m,1≤j≤q),m为类别总数量,q为待测样本总数量,pji表示第j个验证样本属于类别ci的概率;
用训练样本的SSL特征子数据集S′ssl、S″ssl训练基于KNN的分类器,用训练后所得到的KNN分类器对待测子数据集S′t的SSL特征进行分类,得到KNN分类器对基于SSL特征所判定的分类的概率输出,记为 pssl={pj1,…,pji,…,pjm},1≤i≤m;
用训练样本的证书特征子数据集S′cer、S″cer训练基于决策树的分类器,用训练后的决策树分类器对待测子数据集S′t的证书特征进行分类,得到决策树分类器对基于证书特征所判定的分类的概率输出,记为 pcer={pj1,…,pji,…,pjm},1≤i≤m。
所述步骤4包括以下步骤:
步骤4.1,首先从数据集S′中去除待检测子数据集S′t后获得数据集 S〞,然后将m类重新组合为2类,分别是类别ci(1≤i≤m)、co,其中类别co由除类别ci外m-1个类别合并而成。
S〞=S′-S′t
S〞={xt,yo},1≤t≤N,1≤o≤2
步骤4.2,使用基于互信息的特征选择法计算数据集S〞的γ维特征进与分类结果的相关度,得到每一维特征在类别{ci,co}这个二分类情况下的相关度we,1≤e≤γ,即认为该维特征对区分类别ci的相关度。进而,分别计算连接特征、SSL特征和证书特征相对于类别ci的权重conweight, sslweight,cerweight,亦为各分量分类器Ru在融合结果中的权重,计算公式如下:
Figure BDA0002987824600000061
Figure BDA0002987824600000062
Figure BDA0002987824600000063
步骤4.3,重复4.1、4.2步骤m次,得到
Figure BDA0002987824600000071
1≤i≤m,表示相对于每一个分类ci,连接特征、SSL特征和证书特征所对应的权值。
本发明提出的一种基于多分类器自适应融合的HTTPS加密流量分类方法,具有以下优点:
由于不同分量分类器各自具有不同的特点,其分类结果具有互补性,融合后的分类效果会更好。为提高不同分类结果之间的互补性,本发明选择了连接特征、SSL特征、证书特征;对于不同特征,选择不同的分类器,如对连接特征选择基于一对多的SVM分类器,对SSL特征选择 KNN分类器,对于证书特征选择决策树分类器。与每个单独分类器相比较,融合分类器具有更好的分类精度及分类效果。
本发明中分量分类器的权值并不像其他融合模型一样根据经验设定固定的权值,或者根据各分量分类器的模型结果计算权值,而是根据三种类型的特征在每一个分类中与分类结果的相关度来动态的设定其权值,使得对于不同的分类,该三种类型特征均具有不同的权值。通过将特征和分类动态的结合起来,给每个分类器自适应的分配权值,可以充分发挥每个分类器的性能优势,其融合分类效果比单个分类器分类效果有较大改善。
附图说明
图1为发明实施例的系统流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
参照图1,一种基于多分类器自适应融合的HTTPS加密流量分类方法,包括以下步骤:
步骤1、获取关于HTTPS恶意攻击流量的数据集,进行解析并构建连接4元组(源IP、目标IP、目标端口和协议),构建过程如下:
步骤1.1,使用Bro IDS对数据集的pacp文件进行深度包解析,获取通信日志、SSL协议日志、证书日志等3个日志文件。
所述通信日志每一行聚合一组数据包,并描述两个端点之间的连接。连接记录包含IP地址、端口、协议、连接状态、数据包数量、标签等信息。
所述SSL协议日志描述了SSL/TLS握手和加密连接建立过程。包含SSL/TLS版本、使用的密码、服务器名称、证书路径、主题、证书发行者等等。
所述证书日志的每一行都是一个证书记录,用来描述证书信息,如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度等。
步骤1.2,通过连接日志中的唯一键,SSL协议日志中的唯一键, ssl协议日志中的证书id键值,证书日志文件中的id键值进行连接,构建 4元组,并根据聚合结果对4元组在三个日志文件中的对应各项特征进行提取,具体步骤如下:
首先,从SSL协议日志文件中读取一条ssl记录,获取其唯一密钥 (唯一键),使用该密钥在连接日志文件中查找唯一的连接记录,并获取4元组的内容(源IP、目的IP、目的端口、传输层协议)及该连接的分类标签,若查找到的连接记录没有相应的标签或者没有找到连接记录则跳至下一条ssl记录。
其次,若4元组成功找到之后,根据ssl记录的证书路径(id键值) 在证书日志文件中查找证书第一路径为该路径的证书记录。
经过上述2步之后,若成功找到三条记录,那么在ssl聚合池中确定是否已经有这样的ssl聚合信息,若没有,则将其加入ssl聚合池中。
最后,ssl经聚合处理,然后根据这些HTTPS记录进一步提取其他特征信息。
步骤2、基于步骤1所提取的数据集进行随机化后提取训练样本和测试样本的特征,包括连接特征、SSL特征、证书特征;各类特征详细信息如下所示:
所述连接特征是来自连接记录的特征,描述与证书和加密无关的通信流的常见行为,共提取包括聚合连接记录的数量和、持续时间均值、持续时间标准差、持续时间超出标准差范围的时间占比、总发送包大小等 12个连接特征。
所述SSL特征是来自SSL记录的特征,描述了SSL握手和加密通信的信息,共提取TLS与SSL的比值、SNI占比、SNI is IP等10个SSL特征。
所述证书特征是来自证书记录的特性,描述了web服务人员在SSL 握手期间提供给我们的证书的信息,共提取证书有效期平均值、证书有效期标准差、捕获期间证书周期的有效性等10个证书特征。
设数据集为S={xt,yi},1≤t≤N,1≤i≤m,其中xt指样本属性,yi指对应的标签数据,即即该条数据对应于第i个分类,N是数据集总样本数,m是分类总数;同时,xt={t1,…,tα,tα+1,…,tβ,tβ+1,…,tγ},表示每个训练样本xt拥有γ维特征,其中1-α维特征表示连接特征,α+1-β维特征表示SSL特征,β+1-γ维特征表示证书特征。
分别基于1-α维特征、α+1-β维特征和β+1-γ维特征取出基于连接特征、SSL特征、证书特征的三类特征的子数据集Scon,Sssl,Scer
Figure BDA0002987824600000101
Figure BDA0002987824600000102
Figure BDA0002987824600000103
步骤2.1,分别对Scon,Sssl,Scer使用Z-score标准化方法进行归一化,并合并生成新的全体特征数据集S′。归一化步骤及公式如下:
Figure BDA0002987824600000104
Figure BDA0002987824600000105
如上,以子数据集Scon为例,
Figure BDA0002987824600000106
表示该子数据集所有变量的平均数,σ为数据集的总体标准差,M为子数据集所包含的特征维数,分量子数据集与完整数据集的数据数量一样,均为N。分别计算分量子数据集的平均数、标准差,然后根据如下公式对子数据集进行Z-score标准化。
Figure BDA0002987824600000107
然后,根据归一化完成的三个分量子数据集进行横向拼接合并,并结合原数据集中每条数据的标签生成M×(β+1)维新数据集S′,即
S′=Scon+Scon+Scon
步骤2.2,按照7∶2∶1从数据集S′中取出训练子数据集、测试子数据集、待检测子数据集S′t,进而,根据训练子数据集及测试子数据集分别得到分量训练子数据集S′con,S′ssl,S′cer和分量测试子数据集S″con,S″ssl,S″cer
步骤3、以步骤2所得分量训练子数据集和分量测试子数据集训练样本训练并调整分量分类器参数直到分量分类器达到一个较好的效果,然后采用训练后的分量分类器对步骤2所得待测子数据集S′t进行分类;所述分量分类器包括基于一对多构建的SVM分类器、基于决策树的分类器、基于k最近邻算法(KNN)的分类器,具体包括以下操作:
用训练样本的连接特征子数据集S′con、S″con训练基于SVM算法的多分类器,用训练后所得的SVM分类器对待测子数据集S′t的连接特征进行分类,获得SVM分类器对基于连接特征所判定的分类的概率输出,记为 pcon={pj1,…,pji,…,pjm},1≤i≤m,1≤j≤q,m为类别总数量,q为待测样本总数量,pji表示第j个验证样本属于类别ci的概率;
用训练样本的SSL特征子数据集S′ssl、S″ssl训练基于KNN的分类器,用训练后所得到的KNN分类器对待测子数据集S′t的SSL特征进行分类,得到KNN分类器对基于SSL特征所判定的分类的概率输出,记为 pssl={pj1,…,pji,…,pjm},1≤i≤m;
用训练样本的证书特征子数据集S′cer、S″cer训练基于决策树的分类器,用训练后的决策树分类器对待测子数据集S′t的证书特征进行分类,得到决策树分类器对基于证书特征所判定的分类的概率输出,记为 Pcer={pj1,…,pji,…,pjm},1≤i≤m;
步骤4、计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值;标记需要进行结果融合的分类器集合为 R={R1,R2,R3},其中R1,R2,R3分别表示SVM分类器、决策树分类器、 KNN分类器;任一分类器标记为Ru,u的取值为1、2、3,计算每个待识别样本的各分量分类器的总权值包括以下步骤:
步骤4.1,首先从数据集S′中去除待检测子数据集S′t后获得数据集 S〞,然后将m类重新组合为2类,分别是类别ci、co,1≤i≤m,类别co由除类别ci外m-1个类别合并而成。
S〞=S′-S′t
S〞={xt,yo},1≤t≤N,1≤o≤2
步骤4.2,使用基于互信息的特征选择法计算数据集S〞的γ维特征进与分类结果的相关度,得到每一维特征在类别{ci,co}这个二分类情况下的相关度we,1≤e≤γ,即认为该维特征对区分类别ci的相关度。进而,分别计算连接特征、SSL特征和证书特征相对于类别ci的权重conweight, sslweight,cerweight,亦为各分量分类器Ru在融合结果中的权重,计算公式如下:
Figure BDA0002987824600000121
Figure BDA0002987824600000122
Figure BDA0002987824600000123
步骤4.3,重复4.1、4.2步骤m次,得到
Figure BDA0002987824600000124
1≤i≤m,表示相对于每一个分类ci,连接特征、SSL特征和证书特征所对应的权值。
步骤5、根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类,得到最终融合分类器判别分类p,计算公式如下:
Figure BDA0002987824600000125
步骤6,以步骤5所得融合分类器的结果,以最大测量值原则作为融合决策规则,得到融合分类器对每个样本的最终分类结果。
为便于了解本发明的效果起见,提供以下实验说明:
实验数据中恶意流量数据来自由捷克共和国CTU大学捕获的开源数据集。本实验选择部分类型流量,包含恶意软件HtBot产生的流量(Class1),僵尸网络Sathurbot产生的流量(Class2)。同时,通过模拟捕获更多的正常流量(Class3),即访问一系列主流网站,利用 Wireshark抓取筛选其中的HTTPS流量。对以上两部分流量进行融合后共10019条数据,其中Class1分类包含2631条数据,Class2类别包含 4072条数据,Class3类别包含3316条数据。
利用SVM分类器对连接特征进行分类,获得HTTPS加密流量的分类结果1;利用KNN分类器对SSL特征进行分类,获得HTTPS加密流量的分类结果2;利用决策树分类器对连接特征进行分类,获得HTTPS 加密流量的分类结果3;利用本发明的多分类器自适应权值融合方法,获得HTTPS流量最终的分类结果。
实验结果如下:
Figure BDA0002987824600000131
表1
Figure BDA0002987824600000132
表2
可见,本发明的基于多分类器自适应权值融合的HTTPS加密流量分类方法,能综合考虑样本总体分布和样本个体特性,自动的为每种类别在每个分类器都分配一个与之相适应的权值,有效地提高了融合分类结果的精度及召回率。
以上所述具体实施例仅展示了本申请的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (5)

1.一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述方法包括以下步骤:
步骤1、获取关于HTTPS恶意攻击流量的数据集,进行解析并构建连接4元组,即源IP、目标IP、目标端口和协议;
步骤2,基于步骤1所提取的数据集进行随机化后提取训练样本和测试样本的特征,包括连接特征、SSL特征和证书特征;
步骤3,以步骤2所得分量训练子数据集和分量测试子数据集训练样本训练并调整分量分类器参数直到分量分类器达到一个较好的效果,然后采用训练后的分量分类器对步骤2所得待测子数据集S′t进行分类;所述分量分类器包括基于一对多构建的SVM分类器、基于决策树的分类器、基于k最近邻算法KNN的分类器;
步骤4,计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值;标记需要进行结果融合的分类器集合为R={R1,R2,R3},其中R1,R2,R3分别表示SVM分类器、决策树分类器、KNN分类器;任一分类器标记为Ru,u的取值为1、2、3,计算每个待识别样本的各分分量分类器的总权值;
步骤5,根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类,得到最终融合分类器判别分类p,计算公式如下:
Figure FDA0002987824590000011
步骤6,以步骤5所得融合分类器的结果,以最大测量值原则作为融合决策规则,得到融合分类器对每个待测样本的最终分类结果。
2.如权利要求1所述的一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述步骤1中,构建过程如下:
步骤1.1,使用Bro IDS对数据集的pacp文件进行深度包解析,获取通信日志、SSL协议日志、证书日志文件;
所述通信日志每一行聚合一组数据包,并描述两个端点之间的连接,连接记录包含IP地址、端口、协议、连接状态、数据包数量和标签信息;
所述SSL协议日志描述了SSL/TLS握手和加密连接建立过程,包含SSL/TLS版本、使用的密码、服务器名称、证书路径、主题和证书发行者;
所述证书日志的每一行都是一个证书记录,用来描述证书信息,如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度;
步骤1.2,通过连接日志中的唯一键,SSL协议日志中的唯一键,ssl协议日志中的证书id键值,证书日志文件中的id键值进行连接,构建4元组,即源IP、目标IP、目标端口和协议,并根据聚合结果对4元组在三个日志文件中的对应各项特征进行提取。
3.如权利要求1或2所述的一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述步骤2中,各类特征详细信息如下所示:
所述连接特征是来自连接记录的特征,描述与证书和加密无关的通信流的常见行为;
所述SSL特征是来自SSL记录的特征,描述了SSL握手和加密通信的信息;
所述证书特征是来自证书记录的特性,描述了web服务人员在SSL握手期间提供给我们的证书的信息;
设数据集为S={xt,yi}(1≤t≤N,1≤i≤m),其中xt指样本属性,yi指对应的标签数据,即该条数据对应于第i个分类,N是数据集总样本数,m是分类总数;同时,xt={t1,…,tα,tα+1,…,tβ,tβ+1,…,tγ},表示每个训练样本xt拥有γ维特征,其中1-α维特征表示连接特征,α+1-β维特征表示SSL特征,β+1-γ维特征表示证书特征;
分别基于1-α维特征、α+1-β维特征和β+1-γ维特征取出基于连接特征、SSL特征、证书特征的三类特征的子数据集Scon,Sssl,Scer
Figure FDA0002987824590000021
Figure FDA0002987824590000022
Figure FDA0002987824590000023
步骤2.1,分别对Scon,Sssl,Scer使用Z-score标准化方法进行归一化,并合并生成新的全体特征数据集S′,归一化步骤及公式如下:
Figure FDA0002987824590000024
Figure FDA0002987824590000025
如上,以子数据集Scon为例,
Figure FDA0002987824590000026
表示该子数据集所有变量的平均数,σ为数据集的标准差,M为子数据集所包含的特征维数,分量子数据集与完整数据集的数据数量一样,均为N,分别计算分量子数据集的平均数、标准差,然后根据如下公式对子数据集进行Z-score标准化,
Figure FDA0002987824590000027
然后,根据归一化完成的三个分量子数据集进行横向拼接合并,并结合原数据集中每条数据的标签生成M×(β+1)维新数据集S′,即
S′=Scon+Scon+Scon
步骤2.2,按照7∶2∶1从数据集S′中取出训练子数据集、测试子数据集、待检测子数据集S′t,进而,根据训练子数据集及测试子数据集分别得到分量训练子数据集S′con,S′ssl,S′cer和分量测试子数据集S″con,S″ssl,S″cer
4.如权利要求1或2所述的一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述步骤3中,,包括以下操作:
用训练样本的连接特征子数据集S′con、S″con训练基于SVM算法的多分类器,用训练后所得的SVM分类器对待测子数据集S′t的连接特征进行分类,获得SVM分类器对基于连接特征所判定的分类的概率输出,记为pcon={pj1,…,pji,…,pjm}(1≤i≤m,1≤j≤q),m为类别总数量,q为待测样本总数量,pji表示第j个验证样本属于类别ci的概率;
用训练样本的SSL特征子数据集S′ssl、S″ssl训练基于KNN的分类器,用训练后所得到的KNN分类器对待测子数据集S′t的SSL特征进行分类,得到KNN分类器对基于SSL特征所判定的分类的概率输出,记为pssl={pj1,…,pji,…,pjm},1≤i≤m;
用训练样本的证书特征子数据集S′cer、S″cer训练基于决策树的分类器,用训练后的决策树分类器对待测子数据集S′t的证书特征进行分类,得到决策树分类器对基于证书特征所判定的分类的概率输出,记为pcer={pj1,…,pji,…,pjm},1≤i≤m。
5.如权利要求1或2所述的一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述步骤4包括以下步骤:
步骤4.1,首先从数据集S′中去除待检测子数据集S′t后获得数据集S〞,然后将m类重新组合为2类,分别是类别ci(1≤i≤m)、co,其中类别co由除类别ci外m-1个类别合并而成;
S〞=S′-S′t
S〞={xt,yo},1≤t≤N,1≤o≤2
步骤4.2,使用基于互信息的特征选择法计算数据集S〞的γ维特征进与分类结果的相关度,得到每一维特征在类别{ci,co}这个二分类情况下的相关度we,1≤e≤γ,即认为该维特征对区分类别ci的相关度,进而,分别计算连接特征、SSL特征和证书特征相对于类别ci的权重conweight,sslweight,cerweight,亦为各分量分类器Ru在融合结果中的权重,计算公式如下:
Figure FDA0002987824590000031
Figure FDA0002987824590000032
Figure FDA0002987824590000041
步骤4.3,重复4.1、4.2步骤m次,得到
Figure FDA0002987824590000042
表示相对于每一个分类ci,连接特征、SSL特征和证书特征所对应的权值。
CN202110306256.5A 2021-03-23 2021-03-23 一种多分类器自适应融合的https加密流量分类方法 Active CN113141349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110306256.5A CN113141349B (zh) 2021-03-23 2021-03-23 一种多分类器自适应融合的https加密流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110306256.5A CN113141349B (zh) 2021-03-23 2021-03-23 一种多分类器自适应融合的https加密流量分类方法

Publications (2)

Publication Number Publication Date
CN113141349A true CN113141349A (zh) 2021-07-20
CN113141349B CN113141349B (zh) 2022-07-15

Family

ID=76811592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110306256.5A Active CN113141349B (zh) 2021-03-23 2021-03-23 一种多分类器自适应融合的https加密流量分类方法

Country Status (1)

Country Link
CN (1) CN113141349B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046269A (zh) * 2015-06-19 2015-11-11 鲁东大学 一种基于多核融合的多示例多标签场景分类方法
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN110516735A (zh) * 2019-08-27 2019-11-29 天津科技大学 一种基于LSTM网络和Adam算法的天然气管道事件分类方法
CN111310821A (zh) * 2020-02-11 2020-06-19 佛山科学技术学院 多视图特征融合方法、系统、计算机设备及存储介质
CN111711633A (zh) * 2020-06-22 2020-09-25 中国科学技术大学 多阶段融合的加密流量分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN105046269A (zh) * 2015-06-19 2015-11-11 鲁东大学 一种基于多核融合的多示例多标签场景分类方法
CN110516735A (zh) * 2019-08-27 2019-11-29 天津科技大学 一种基于LSTM网络和Adam算法的天然气管道事件分类方法
CN111310821A (zh) * 2020-02-11 2020-06-19 佛山科学技术学院 多视图特征融合方法、系统、计算机设备及存储介质
CN111711633A (zh) * 2020-06-22 2020-09-25 中国科学技术大学 多阶段融合的加密流量分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENGQIU WENG 等: "TLSmell: Direct Identification on Malicious HTTPs Encryption Traffic with Simple Connection-Specific Indicators", 《CSSE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113705619B (zh) * 2021-08-03 2023-09-12 广州大学 一种恶意流量检测方法、系统、计算机及介质

Also Published As

Publication number Publication date
CN113141349B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN113259313A (zh) 一种基于在线训练算法的恶意https流量智能分析方法
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
Piskozub et al. Malphase: Fine-grained malware detection using network flow data
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
Liu et al. Maldetect: A structure of encrypted malware traffic detection
Liu et al. A distance-based method for building an encrypted malware traffic identification framework
CN111224946A (zh) 一种基于监督式学习的tls加密恶意流量检测方法及装置
CN112217763A (zh) 一种基于机器学习的隐蔽tls通信流检测方法
Yadav et al. Data preprocessing for intrusion detection system using encoding and normalization approaches
Mahbooba et al. Trust in intrusion detection systems: an investigation of performance analysis for machine learning and deep learning models
CN112800424A (zh) 一种基于随机森林的僵尸网络恶意流量监测方法
CN114785563A (zh) 一种软投票策略的加密恶意流量检测方法
Mane et al. Anomaly based ids using backpropagation neural network
Liu et al. A survey on encrypted traffic identification
CN113141349B (zh) 一种多分类器自适应融合的https加密流量分类方法
Zhang et al. An uncertainty-based traffic training approach to efficiently identifying encrypted proxies
Gautam et al. Anomaly detection system using entropy based technique
CN111371727A (zh) 一种针对ntp协议隐蔽通信的检测方法
Komisarek et al. A novel, refined dataset for real-time Network Intrusion Detection
Tojeiro et al. Port scan identification through regression applying logistic testing methods to balanced data
Tan et al. Detecting advanced persistent threats based on entropy and support vector machine
Sembiring et al. A Novel Approach to Network Forensic Analysis: Combining Packet Capture Data and Social Network Analysis
Kai et al. Anomaly detection on dns traffic using big data and machine learning
Berenjestanaki et al. Application detection in anonymous communication networks
CN112565179B (zh) 一种针对加密代理通道内应用层协议的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant