CN110417810A - 基于逻辑回归的增强模型的恶意加密流量检测方法 - Google Patents

基于逻辑回归的增强模型的恶意加密流量检测方法 Download PDF

Info

Publication number
CN110417810A
CN110417810A CN201910767112.2A CN201910767112A CN110417810A CN 110417810 A CN110417810 A CN 110417810A CN 201910767112 A CN201910767112 A CN 201910767112A CN 110417810 A CN110417810 A CN 110417810A
Authority
CN
China
Prior art keywords
samples
flow
malicious
classifier
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910767112.2A
Other languages
English (en)
Other versions
CN110417810B (zh
Inventor
杨超
强薇
苏锐丹
郑昱
张晓雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910767112.2A priority Critical patent/CN110417810B/zh
Publication of CN110417810A publication Critical patent/CN110417810A/zh
Application granted granted Critical
Publication of CN110417810B publication Critical patent/CN110417810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于逻辑回归的增强模型的恶意加密流量检测方法,用于在保证恶意加密流量检测查准率的前提下提高查全率。实现步骤为:获取训练样本集S'和测试样本集X';构建基于逻辑回归的分类器集合H(x);对基于逻辑回归的分类器集合H(x)进行训练;获取恶意加密流量的检测结果。本发明通过优化代价函数,采用多个代价敏感分类器迭代的增强模型区分出存在于加密网络流量中的恶意加密流量。用于解决现有技术中,由于异常加密流量数据远少于良性加密流量造成的,难以在保证查准率的前提下提升查全率的技术问题。

Description

基于逻辑回归的增强模型的恶意加密流量检测方法
技术领域
本发明属于网络空间安全技术领域,涉及一种恶意加密流量检测方法,特别涉及一种基于逻辑回归的增强模型的恶意加密流量检测方法,可用于真实环境流量非平衡条件下恶意加密流量的检测。
背景技术
网络环境中恶意攻击频发,导致用户隐私被侵害,造成大量财产损失。恶意攻击往往伴随着恶意流量的产生,通过检测网络中的恶意流量可以及时发现网络中存在的恶意攻击,并采取相应的防御措施。现有的主要检测技术为:1)基于规则的深度包检测技术与内容识别技术;2)采用机器学习方法构建检测模型。
随着流量加密技术的不断发展,恶意攻击利用加密技术隐藏了恶意活动流量的明显特征。但深度包检测技术需要先解密流量,对用户隐私有一定的侵犯性,且大大增加了检测的处理时间和难度。
目前使用机器学习技术进行恶意加密流量检测在检测的查准率与查全率上更具优势,主要包括三个阶段:1)加密流量采集与预处理;2)特征提取和3)分类器构建。在加密流量采集与预处理阶段,需要捕捉具有权威性的恶意样本的活动进行恶意加密流量的收集。在特征提取阶段,将具有代表性的特征通过特征提取技术从处理后的流量中提取出来。在分类器构建阶段,将特征提取阶段提取的具有代表性的特征输入到分类器中进行训练得到分类模型。目前常用的分类器算法主要包括逻辑回归和支持向量机等。使用分类模型对网络中的流量进行分类,分类结果为恶意的流量即为检测得到的恶意加密流量。
但使用机器学习技术进行恶意加密流量检测在处理非平衡数据上有其不足之处。从训练模型的角度来说,如果某类的样本数量很少,即使分错了这些极少数正类,但由于所带来的损失较小,当满足停机条件或者达到最大迭代次数之后,模型并没有学习到如何去判别出少数类。另一方面,模型在做出决策时希望能够遵循真实样本总体的样本分布。如果训练样本时不考虑样本的真实分布是不平衡的情况,导致少数类样本很容易被分类为多数类,降低分类的查全率。
增强学习对多个分类器进行集成训练,可改进单分类器带来的查全率下降问题。增强模型的工作机制是从训练集用初始权重训练出弱学习器A,根据弱学习器A的学习误差率来更新训练样本的权重,使得之前弱学习器A中学习误差率高的训练样本点权重变高。然后这些误差率高的点在弱学习器B中得到更高的重视,利用调整权重后的训练集来训练弱学习器B。最终将这T个弱学习器通过集合策略进行整合,得到最终的增强学习器。
2016年AIsec会议上,Anderson提出并于Proceedings of the 2016ACM Workshopon Artificial Intelligence and Security的35页至46页发表论文“IdentifyingEncrypted Malware Traffic with Contextual Flow Data”,公开了利用机器学习技术从加密的网络流量中识别出具有恶意行为的网络流量的方法。在不解密数据的前提下,利用数据包头部字段数据结合上下文信息进行异常加密流量检测。对采集的流量分析TLS流、DNS流和HTTP流的不同之处,具体包括未加密的TLS握手信息、DNS响应信息、HTTP头部信息,然后从上述信息中提取特征,并进行归一化处理,随后采用逻辑回归算法训练模型。该方案与仅采用流量统计特征的方法相比,查准率得到进一步提升。但在保证查准率的前提下,查全率的提升效果并不理想。当采用人工调整的平衡数据集时,查准率得到提升但导致查全率的下降,当直接为恶意类设置较高代价时,查全率得到提升但导致查准率的下降。
这是由于真实网络环境下的正常加密流量远多于异常加密流量,逻辑回归算法通常是偏向数量占优的类,即偏向将恶意流量判别为良性流量,甚至异常加密流量样本会被视为正常加密流量样本的异常点而被忽略。导致了由数据非平衡造成难以在保证查准率的前提下提升查全率的技术问题。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提出了一种基于逻辑回归的增强模型的恶意加密流量检测方法,用于解决现有技术中,由于异常加密流量数据远少于良性加密流量造成的,难以在保证查准率的前提下提升查全率的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集S'和测试样本集X':
(1a)获取训练样本集S':
(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;
(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;
(1a3)对每个流xi的进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;
(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;
(1b)获取测试样本集X':
将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;
(2)构建基于逻辑回归的分类器集合H(x):
(2a)构建包括T个逻辑回归分类器的分类器集合H(x):
H(x)={h1(x),h2(x),...,ht(x),...,hT(x)} (1)
其中,ht(x)表示第t个逻辑回归分类器,T≥2;
(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数ltt)进行优化:
定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为ltt)进行优化,得到ht(x)优化后的极大似然函数其中,ltt)和的表达式分别为:
其中,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数,表示求和函数;
(3)对基于逻辑回归的分类器集合H(x)进行训练:
(3a)初始化t=1,
(3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑回归分类器ht(x)的输入,计算ht(x)优化后的极大似然函数的值η(θ't):
(3c)计算η(θ't)为最小值时的参数向量θ't的值,并将θ't的值作为代价敏感分类器h't(x)的参数,得到代价敏感分类器h't(x);
(3d)通过θ't计算S'中第i个特征样本x'i的预测值ht'(x”i):
其中,x”i表示x'i加上一个偏置项x'i0=1的M+1维特征向量,θ't T表示θ't的转置;
(3e)采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,然后根据εt取值确定h't(x)参与最终决策的权重αt
其中,TPRt表示h't(x)识别出的正样本占所有真实正样本的比例,TNRt表示h't(x)识别出的负样本占所有真实负样本的比例;
(3f)判断t=T是否成立,若是,将T个代价敏感分类器h'1(x),h'2(x),...,h't(x),...,h'T(x)和T个权重α12,...,αt,...,αT进行组合,得到基于逻辑回归分类器的增强模型H'(x),否则,执行步骤(3g),其中, 表示求和函数,sign(·)表示符号函数;
(3g)令t=t+1,对ωt进行更新,并执行步骤(3b),其中, 表示第t-1个逻辑回归分类器的代价调整系数,FNt-1表示使用第t-1个逻辑回归分类器被判定为负样本但实际是正样本的样本数,N表示正样本数,Zt-1表示使各逻辑回归分类器权重和为1的第t-1个逻辑回归分类器的归一化因子,
(4)获取恶意加密流量的检测结果:
计算增强模型H'(x)的阈值λ”,并使用增强模型H'(x)和λ”对测试样本集X'中的每一个特征样本x”i进行分类,得到d个分类结果u1,u2,...,ui,...,ud,ui∈{0,1},0表示恶意加密流量,1表示正常加密流量,并将ui=0时的x”i作为所检测的恶意加密流量。
本发明与现有技术相比,具有如下优点:
本发明在检测恶意加密网络流量时,针对真实环境下良性加密流量远多于恶意加密流量的现实问题。提出了一种基于逻辑回归的增强模型的恶意加密流量检测方法,通过优化代价函数,采用多个代价敏感分类器迭代的增强模型对恶意加密流量进行检测,在保证异常加密流量检测查准率的前提下提升了检测的查全率。
附图说明
图1为本发明的实现流程图。
具体实施方式
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集S'和测试样本集X':
步骤1a)获取训练样本集S':
步骤1a1)在主机中搭建windows7沙箱环境,并关闭系统安全设置,使用python中threading库与os库编写程序,自动化运行一个病毒程序5分钟,结束后更新沙箱环境并自动运行下一个病毒程序,重复该过程至全部病毒程序运行完成,病毒程序由权威病毒检测机构提供,在沙箱环境网络流量出口处使用scapy库中的监听方法sniff(),监听出口网卡,采集恶意代码活动产生的流量作为恶意流量,搭建局域网,使用监听方法sniff()捕捉经过路由器的出口网卡的用户正常上网流量作为良性流量,使用scapy库中的IP()函数解析TLS数据包和DNS数据包,将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包以及与TLS数据具有包相同IP的DNS数据包作为流单位,流量采集时间单位为5分钟,该时间单位是通过多次实验得出的最佳结果,由于TLS通信的握手阶段在5分钟之内可以完成,过长的采集时间会导致资源浪费,过短的采集时间会导致握手信息收集不完整不能用做流量样本;
步骤1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到4000个恶意流和60000个良性流,并选取其中的2000个恶意流和40000个良性流,组成流集合{x1,x2,...,xi,...,x42000},由于真实环境下良性加密流量远多于恶意加密流量,因此在组成流集合时,使用的良性流远大于恶意流,本实例中选取的流数量是通过多次实验得出的结果,数量过少会因信息不足导致模型的泛化能力不足,容易产生过拟合现象导致模型的分类能力较弱;
步骤1a3)为恶意流添加0标签,为良性流添加1标签;
步骤1a4)使用scapy库中的TLS()函数以及DNS()函数解析TLS数据包和DNS数据包,提取TLS数据包头部的SAN数量numSAN、TLS公钥长度lenPKI,、2个TLS版本特征、364个TLS密码套件特征、57个TLS扩展特征,提取DNS数据包头部的域名长度lenDOMAIN、域名中数字数量numDOMAIN_NUM、域名中英文字符数量numDOMAIN_ENG、IP数量numIP、69个域名后缀特征、33个TTL值特征,numSAN、numDOMAIN_NUM、lenPKI、lenDOMAIN、numDOMAIN_ENG、numIP在特征向量对应位置用数值表示,其余特征若存在于数据包中则将特征向量对应位置标1,否则标0,并按照由大到小的顺序对531个协议头特征在流中出现频率进行排序,将前150个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,yi表示x'i的标签,yi∈{0,1},0表示恶意加密流量,1表示正常加密流量,并采用MIN-MAX标准化方法进行归一化处理,进行归一化处理提升模型的收敛速度,以及提升模型的查准率,找到区分恶意加密流量与良性加密流量的性能显著的特征向量子集,通过特征选择降低样本维数降低学习的难度,避免过多特征维度造成模型的过拟合现象增加计算复杂度;
步骤1b)获取测试样本集X':
使用监听方法sniff()捕捉经过路由器的出口网卡的用户上网流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分500个流,对每个流提取步骤(1a4)所排序得到的前150个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d];
步骤2)构建基于逻辑回归的分类器集合H(x):
步骤2a)利用前面筛选完的特征,构建包括T个逻辑回归分类器的分类器集合H(x),
H(x)={h1(x),h2(x),...,ht(x),...,hT(x)} (1)
ht(x)表示第t个逻辑回归分类器,本实施例中T取50,T的选值是通过多次实验得出的最佳结果;
步骤2b)定义代价ωt=[w0t,w1t],对第t个逻辑回归分类器ht(x)的极大似然函数进行改进,将ltt)修改为
其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数,表示求和函数,ωt通过训练不断的迭代优化至50次迭代结束,代价ωt=[w0t,w1t]放大了将恶意加密流量判错为良性加密流量的代价,针对真实环境下良性加密流量远多于恶意加密流量的现实问题,在保证查准率的前提下,提高恶意加密流量检测的查全率,解决了由数据非平衡带来的技术问题;
步骤3)对基于逻辑回归的分类器集合H(x)进行训练:
步骤3a)初始化t=1,该代价是通过多次实验得出的最佳结果,初始代价w0t与w1t之比过小或过大会导致后续迭代收敛较慢,延长迭代时间浪费资源;
步骤3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑回归分类器ht(x)的输入,计算ht(x)优化后的极大似然函数的值η(θ't):
步骤3c)对步骤(3b)中的公式(4)进行求导:
对θ'tj:=θ'tj+μ[w0tyi+(w1t-w0t)ht(x'i)yi-w1tht(x'i)]x'j进行多次计算至θ'tj收敛,得到参数向量θ't=θ'tj,其中,x'j表示第j个特征样本,θ'tj表示迭代过程中第j个θ值,w0t表示将实际属于正类的样本分为负类所造成的代价,w1t表示将实际属于负类的样本分为正类所造成的代价;
步骤3d)通过θ't计算S'中第i个特征样本x'i的预测值ht'(x”i):
其中,x”i表示x'i加上一个偏置项x'i0=1的M+1维特征向量,θ't T表示θ't的转置;
步骤3e)采用最大类间方差法确定h't(x)的阈值为λ't,避免了因偶然性导致阈值与真实概率分割阈值不符,缩小阈值的可取值范围,提高了确定阈值搜索效率,更快定位合适阈值解决分类模型阈值定义不准导致样本被错误分类问题;
步骤3e1)将训练集中恶意样本得到的最大预测值与良性样本得到的最大预测值相加取均值λmax,将恶意样本得到的最小预测值与良性样本得到的最小预测值相加取均值λmin,λmax、λmin为阈值取值范围的上界与下界,根据定义在阈值取值范围内的取值步长λstep共取K个阈值λ12,...,λk,...,λK,使用阈值判断样本正负类,预测值大于阈值为正类,预测值小于阈值为负类,其中, 表示向上取整,λk表示第k个阈值;
步骤3e2)令k=1,以λk为阈值,计算正类与负类的类间方差σ2 k,σ2 k=v0k*(u0k-uk)*(u0k-uk)+v1k*(u1k-uk)*(u1k-uk)=v0k*v1k*(u0k-u1k)*(u0k-u1k),其中,v0k表示在阈值分割下被分类为良性的样本数量占总测试样本数量的比例,v1k表示在阈值分割下被分类为恶意的样本数量占总测试样本数量的比例,u0k表示在阈值分割下被分类为良性样本的预测概率均值,u1k表示在阈值分割下被分类为恶意样本的预测概率均值,uk表示全体测试样本预测概率的均值,uk=v0k*u0k+v1k*u1k
方差用于判断数据的稳定性,方差越大,数据的波动越大;方差越小,数据的波动就越小,因此,方差可以用于判断两个类别是否有明显区别,方差越大说明两个类别的区别更明显,
类间方差如果越大,就说明两个类别样本的预测概率差别越大,当部分良性加密流量样本被错分为恶意加密流量样本或部分恶意加密流量样本被错分为良性加密流量样本,都会导致两部分差别变小,当所取阈值的分割使类间方差最大时就意味着错分概率最小,因此,可以认为良性加密流量样本的预测概率和恶意加密流量样本的预测概率差异最大,此时定义的阈值是最佳阈值;
步骤3e3)判断k=K是否成立,若是,对应最大类间方差的阈值λk作为第t个逻辑回归分类器的阈值λ't,否则,执行步骤(3e4);
本实例通过比较得到的所有类间方差值,得到最大类间方差值,并使用该最大类间方差值对应的阈值作为分类良性流量类与恶意流量类的分割阈值,即样本的预测概率大于该阈值分为恶意样本类,样本的预测概率小于该阈值分为良性样本类,在使用该阈值时错分概率最小;
步骤3e4)令k=k+1,以λk为阈值,计算正类与负类的类间方差,并执行步骤(3e3);
步骤3e5)通过λ't计算代价敏感分类器h't(x)分类误差率εt,εt=(FNt+FPt)/(TPt+TNt+FNt+FPt),其中,FNt表示被判为负样本但实际为正样本的样本数,FPt表示被判为正样本但实际是负样本的样本数,TNt表示被判为负样本实际也是负样本的样本数,TPt表示被判为正样本实际也是正样本的样本数;
本实例中,根据εt取值确定h't(x)参与最终决策的权重αt
其中,TPRt表示h't(x)识别出的正样本占所有真实正样本的比例,TNRt表示h't(x)识别出的负样本占所有真实负样本的比例;
分类误差率若大于0.5,则说明分类器没有任何效果,将该分类器参与最终决策的权重定义为0,若分类误差率若小于0.5,则说明分类器分类效果合格,进一步计算αt的值,由于真实样本存在数据非平衡的问题,所以在考虑模型参与最终决策的权重问题时,不单要考虑分类误差率,还应考虑GMeant的值,使得分类误差率低且对非平衡数据集有更好分类效果的模型得到更大参与最终决策的权重,从而得到在真实非平衡加密流量数据集中分类效果更好的分类模型,在保证查准率的前提下,提高恶意加密流量检测的查全率;
步骤3f)判断t=T是否成立,若是,将T个代价敏感分类器h'1(x),h'2(x),...,h't(x),...,h'T(x)和T个权重α12,...,αt,...,αT进行组合,得到基于逻辑回归分类器的增强模型H'(x),否则,执行步骤(3g),其中, 表示求和函数;
本实例中,采用上述计算公式,将代价敏感分类器与参与最终决策的权重对应结合,根据不同代价敏感分类器对真实非平衡加密流量分类的分类效果,效果更好的代价敏感分类器得到更大的权重,得到在真实非平衡加密流量数据集中分类效果更好的增强模型H'(x);
步骤3g)令t=t+1,重新计算代价ωt,使容易被分类错误的恶意加密流量的代价增加,良性加密流量的代价减小,使分类器会更关注检测容易被错分类的恶意加密流量,并执行步骤(3b),其中, 表示第t-1个逻辑回归分类器的代价调整系数, FNt-1表示使用第t-1个逻辑回归分类器被判定为负样本但实际是正样本的样本数,N表示正样本数,Zt-1表示使各逻辑回归分类器权重和为1的第t-1个逻辑回归分类器的归一化因子,
本实例中,根据定义的计算方式计算代价调整系数,通过定义μt-1,使模型更关注被错分为良性加密流量的恶意加密流量样本,通过给本轮迭代过程的类别权重分别乘上相应的调整系数,降低或增加相应类别的权重,并将该更新后的权重用于下一轮迭代过程,得到趋于优化的适应于现实非平衡加密流量样本的分类模型;
步骤4)获取恶意加密流量的检测结果:
计算增强模型H'(x)的阈值λ”,并使用增强模型H'(x)和λ”对测试样本集X'中的500个特征样本x”i进行分类,得到500个分类结果u1,u2,...,ui,...,ud,ui∈{0,1},0表示恶意加密流量,1表示正常加密流量,并将ui=0时的x”i作为所检测的恶意加密流量。

Claims (4)

1.一种基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,包括如下步骤:
(1)获取训练样本集S'和测试样本集X':
(1a)获取训练样本集S':
(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;
(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;
(1a3)对每个流xi进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;
(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;
(1b)获取测试样本集X':
将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征
作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;
(2)构建基于逻辑回归的分类器集合H(x):
(2a)构建包括T个逻辑回归分类器的分类器集合H(x):
H(x)={h1(x),h2(x),...,ht(x),...,hT(x)} (1)
其中,ht(x)表示第t个逻辑回归分类器,T≥2;
(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数ltt)进行优化:
定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为ltt)进行优化,得到ht(x)优化后的极大似然函数其中,ltt)和的表达式分别为:
其中,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数,表示求和函数;
(3)对基于逻辑回归的分类器集合H(x)进行训练:
(3a)初始化t=1,
(3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑回归分类器ht(x)的输入,计算ht(x)优化后的极大似然函数的值η(θ't):
(3c)计算η(θ't)为最小值时的参数向量θ't的值,并将θ't的值作为代价敏感分类器h't(x)的参数,得到代价敏感分类器h't(x);
(3d)通过θ't计算S'中第i个特征样本x'i的预测值ht'(x”i):
其中,x”i表示x'i加上一个偏置项x'i0=1的M+1维特征向量,θ't T表示θ't的转置;
(3e)采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,然后根据εt取值确定h't(x)参与最终决策的权重αt
其中,TPRt表示h't(x)识别出的正样本占所有真实正样本的比例,TNRt表示h't(x)识别出的负样本占所有真实负样本的比例;
(3f)判断t=T是否成立,若是,将T个代价敏感分类器h'1(x),h'2(x),...,h't(x),...,h'T(x)和T个权重α12,...,αt,...,αT进行组合,得到基于逻辑回归分类器的增强模型H'(x),否则,执行步骤(3g),其中, 表示求和函数,sign(·)表示符号函数;
(3g)令t=t+1,对ωt进行更新,并执行步骤(3b),其中, 表示第t-1个逻辑回归分类器的代价调整系数, FNt-1表示使用第t-1个逻辑回归分类器被判定为负样本但实际是正样本的样本数,N表示正样本数,Zt-1表示使各逻辑回归分类器权重和为1的第t-1个逻辑回归分类器的归一化因子,
(4)获取恶意加密流量的检测结果:
计算增强模型H'(x)的阈值λ”,并使用增强模型H'(x)和λ”对测试样本集X'中的每一个特征样本x”i进行分类,得到d个分类结果u1,u2,...,ui,...,ud,ui∈{0,1},0表示恶意加密流量,1表示良性加密流量,并将ui=0时的x”i作为所检测的恶意加密流量。
2.根据权利要求1所述的基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,步骤(1a4)中所述的提取每个流xi的W个协议头特征,实现方法为:
(1a41)将第i个流xi包含的TLS数据包中的SAN数量numSAN、TLS公钥长度lenPKI和DNS数据包中的域名长度lenDOMAIN、域名中数字数量numDOMAIN_NUM、域名中英文字符数量numDOMAIN_ENG、IP数量numIP组成数字型特征LN;
(1a42)将第i个流xi包含的TLS数据包中的TLS版本集合TLS密码套件集合TLS扩展集合和DNS数据包中的域名后缀集合TTL值集合组成集合SET;
(1a43)将SET转换为二进制形式的字段型特征LL,并将LL与LN的拼接结果作为第i个流xi的W个协议头特征,其中,字段型特征LL第g位的值LLg为:
其中,SETg表示集合SET的第g个元素,W=n1+n2+n3+n4+n5+6。
3.根据权利要求1所述的基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,步骤(3c)中所述的计算η(θ't)为最小值时的参数向量θ't的值,实现步骤如下:
对步骤(3b)中的公式(4)进行求导:
计算θ'tj:=θ'tj+μ[w0tyi+(w1t-w0t)ht(x'i)yi-w1tht(x'i)]x'j至θ'tj的值收敛,并将该θ'tj的值作为η(θ't)为最小值时的参数向量θ't的值,其中,θ'tj:=f(θ'tj)表示用以θ'tj为变量的函数f(θ'tj)给θ'tj赋值,f(θ'tj)=θ'tj+μ[w0tyi+(w1t-w0t)ht(x'i)yi-w1tht(x'i)]x'j,x'j表示第j个特征样本,θ'tj表示迭代过程中第j个θ值,w0t表示将实际属于正类的样本分为负类所造成的代价,w1t表示将实际属于负类的样本分为正类所造成的代价。
4.根据权利要求1所述的基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,步骤(3e)所述的采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,实现步骤如下:
(3e1)定义阈值取值范围的上界λmax定义阈值取值范围的下界λmin其中,表示yi=0对应的特征样本x'i的预测值ht'(x”i)中的最大值,表示yi=0对应的特征样本x'i的预测值ht'(x”i)中的最小值,表示yi=1对应的特征样本x'i的预测值ht'(x”i)中的最大值,将yi=1对应的特征样本x'i的预测值ht'(x”i)中的最小值,并以λstep为步长取K个阈值λ12,...,λk,...,λK,特征样本x'i的预测值ht'(x”i)大于阈值为正类,预测值小于阈值为负类,其中, 表示向上取整,λk表示第k个阈值;
(3e2)令k=1,计算正类与负类的类间方差σ2 k,σ2 k=v0k*(u0k-uk)*(u0k-uk)+v1k*(u1k-uk)*(u1k-uk)=v0k*v1k*(u0k-u1k)*(u0k-u1k),其中,v0k表示在阈值λk分割下被分类为良性的样本数量占总测试样本数量的比例,v1k表示在阈值λk分割下被分类为恶意的样本数量占总测试样本数量的比例,u0k表示在阈值λk分割下被分类为良性样本的预测概率均值,u1k表示在阈值λk分割下被分类为恶意样本的预测概率均值,uk表示全体测试样本在阈值λk分割下预测概率的均值,uk=v0k*u0k+v1k*u1k
(3e3)判断k=K是否成立,若是,将对应最大类间方差σ2 k的阈值λk作为第t个逻辑回归分类器的阈值λ't,并执行步骤(3e5),否则,执行步骤(3e4);
(3e4)令k=k+1,使用λk计算正类与负类的类间方差σ2 k,并执行步骤(3e3);
(3e5)通过λ't计算代价敏感分类器h't(x)分类误差率εt,计算公式为:
εt=(FNt+FPt)/(TPt+TNt+FNt+FPt)
其中,FNt表示被判为负样本但实际为正样本的样本数,FPt表示被判为正样本但实际是负样本的样本数,TNt表示被判为负样本实际也是负样本的样本数,TPt表示被判为正样本实际也是正样本的样本数。
CN201910767112.2A 2019-08-20 2019-08-20 基于逻辑回归的增强模型的恶意加密流量检测方法 Active CN110417810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910767112.2A CN110417810B (zh) 2019-08-20 2019-08-20 基于逻辑回归的增强模型的恶意加密流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910767112.2A CN110417810B (zh) 2019-08-20 2019-08-20 基于逻辑回归的增强模型的恶意加密流量检测方法

Publications (2)

Publication Number Publication Date
CN110417810A true CN110417810A (zh) 2019-11-05
CN110417810B CN110417810B (zh) 2021-06-25

Family

ID=68367992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910767112.2A Active CN110417810B (zh) 2019-08-20 2019-08-20 基于逻辑回归的增强模型的恶意加密流量检测方法

Country Status (1)

Country Link
CN (1) CN110417810B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110912910A (zh) * 2019-11-29 2020-03-24 北京工业大学 一种dns网络数据过滤方法及装置
CN111209959A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于数据包时序的加密网页流量分割点识别方法
CN111224946A (zh) * 2019-11-26 2020-06-02 杭州安恒信息技术股份有限公司 一种基于监督式学习的tls加密恶意流量检测方法及装置
CN111832791A (zh) * 2019-11-27 2020-10-27 北京中交兴路信息科技有限公司 一种基于机器学习逻辑回归的加油站预测方法
CN112465001A (zh) * 2020-11-23 2021-03-09 上海电气集团股份有限公司 一种基于逻辑回归的分类方法及装置
CN113114691A (zh) * 2021-04-15 2021-07-13 西安交通大学 一种网络入侵检测方法、系统、设备和可读存储介质
CN113329023A (zh) * 2021-05-31 2021-08-31 西北大学 一种加密流量恶意性检测模型建立、检测方法及系统
CN113595967A (zh) * 2020-04-30 2021-11-02 深信服科技股份有限公司 数据识别方法、设备、存储介质及装置
CN113660210A (zh) * 2021-07-20 2021-11-16 北京天融信网络安全技术有限公司 恶意tls加密流量检测模型训练方法、检测方法及终端
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113938314A (zh) * 2021-11-17 2022-01-14 北京天融信网络安全技术有限公司 一种加密流量的检测方法及装置、存储介质
CN114662107A (zh) * 2022-03-29 2022-06-24 安天科技集团股份有限公司 恶意程序的防御方法、装置、电子设备及存储介质
CN116319107A (zh) * 2023-05-19 2023-06-23 新华三人工智能科技有限公司 一种数据流量识别模型训练方法及装置
CN118568266A (zh) * 2024-08-05 2024-08-30 湖州南浔交水规划设计研究有限公司 一种市政工程设计数据处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106982230A (zh) * 2017-05-10 2017-07-25 深信服科技股份有限公司 一种流量检测方法及系统
CN108768986A (zh) * 2018-05-17 2018-11-06 中国科学院信息工程研究所 一种加密流量分类方法及服务器、计算机可读存储介质
CN108881192A (zh) * 2018-06-04 2018-11-23 上海交通大学 一种基于深度学习的加密型僵尸网络检测系统及方法
CN108965248A (zh) * 2018-06-04 2018-12-07 上海交通大学 一种基于流量分析的p2p僵尸网络检测系统及方法
CN109547423A (zh) * 2018-11-09 2019-03-29 上海交通大学 一种基于机器学习的web恶意请求深度检测系统及方法
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109948339A (zh) * 2019-03-20 2019-06-28 国家计算机网络与信息安全管理中心 一种基于机器学习的恶意脚本检测方法
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106982230A (zh) * 2017-05-10 2017-07-25 深信服科技股份有限公司 一种流量检测方法及系统
CN108768986A (zh) * 2018-05-17 2018-11-06 中国科学院信息工程研究所 一种加密流量分类方法及服务器、计算机可读存储介质
CN108881192A (zh) * 2018-06-04 2018-11-23 上海交通大学 一种基于深度学习的加密型僵尸网络检测系统及方法
CN108965248A (zh) * 2018-06-04 2018-12-07 上海交通大学 一种基于流量分析的p2p僵尸网络检测系统及方法
CN109547423A (zh) * 2018-11-09 2019-03-29 上海交通大学 一种基于机器学习的web恶意请求深度检测系统及方法
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109948339A (zh) * 2019-03-20 2019-06-28 国家计算机网络与信息安全管理中心 一种基于机器学习的恶意脚本检测方法
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RAJESH KUMAR等: ""MALICIOUS URL DETECTION USING MULTI-LAYER FILTERING MODEL"", 《2017 14TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSI》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111224946A (zh) * 2019-11-26 2020-06-02 杭州安恒信息技术股份有限公司 一种基于监督式学习的tls加密恶意流量检测方法及装置
CN111832791A (zh) * 2019-11-27 2020-10-27 北京中交兴路信息科技有限公司 一种基于机器学习逻辑回归的加油站预测方法
CN110912910A (zh) * 2019-11-29 2020-03-24 北京工业大学 一种dns网络数据过滤方法及装置
CN111209959A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于数据包时序的加密网页流量分割点识别方法
CN111209959B (zh) * 2020-01-05 2022-03-04 西安电子科技大学 基于数据包时序的加密网页流量分割点识别方法
CN113595967A (zh) * 2020-04-30 2021-11-02 深信服科技股份有限公司 数据识别方法、设备、存储介质及装置
CN112465001A (zh) * 2020-11-23 2021-03-09 上海电气集团股份有限公司 一种基于逻辑回归的分类方法及装置
CN113114691A (zh) * 2021-04-15 2021-07-13 西安交通大学 一种网络入侵检测方法、系统、设备和可读存储介质
CN113114691B (zh) * 2021-04-15 2022-02-22 西安交通大学 一种网络入侵检测方法、系统、设备和可读存储介质
CN113329023A (zh) * 2021-05-31 2021-08-31 西北大学 一种加密流量恶意性检测模型建立、检测方法及系统
CN113660210A (zh) * 2021-07-20 2021-11-16 北京天融信网络安全技术有限公司 恶意tls加密流量检测模型训练方法、检测方法及终端
CN113660210B (zh) * 2021-07-20 2023-05-12 北京天融信网络安全技术有限公司 恶意tls加密流量检测模型训练方法、检测方法及终端
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113705619B (zh) * 2021-08-03 2023-09-12 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113938314A (zh) * 2021-11-17 2022-01-14 北京天融信网络安全技术有限公司 一种加密流量的检测方法及装置、存储介质
CN113938314B (zh) * 2021-11-17 2023-11-28 北京天融信网络安全技术有限公司 一种加密流量的检测方法及装置、存储介质
CN114662107A (zh) * 2022-03-29 2022-06-24 安天科技集团股份有限公司 恶意程序的防御方法、装置、电子设备及存储介质
CN116319107A (zh) * 2023-05-19 2023-06-23 新华三人工智能科技有限公司 一种数据流量识别模型训练方法及装置
CN116319107B (zh) * 2023-05-19 2023-08-18 新华三人工智能科技有限公司 一种数据流量识别模型训练方法及装置
CN118568266A (zh) * 2024-08-05 2024-08-30 湖州南浔交水规划设计研究有限公司 一种市政工程设计数据处理方法
CN118568266B (zh) * 2024-08-05 2024-10-15 湖州南浔交水规划设计研究有限公司 一种市政工程设计数据处理方法

Also Published As

Publication number Publication date
CN110417810B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110417810B (zh) 基于逻辑回归的增强模型的恶意加密流量检测方法
Tesfahun et al. Intrusion detection using random forests classifier with SMOTE and feature reduction
CN106960154A (zh) 一种基于决策树模型的恶意程序动态识别方法
CN113259313A (zh) 一种基于在线训练算法的恶意https流量智能分析方法
CN102420723A (zh) 一种面向多类入侵的异常检测方法
CN109525508B (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
CN113489685B (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
US11544575B2 (en) Machine-learning based approach for malware sample clustering
CN114124482B (zh) 基于lof和孤立森林的访问流量异常检测方法及设备
CN114553475A (zh) 一种基于网络流量属性有向拓扑的网络攻击检测方法
CN113489751A (zh) 一种基于深度学习的网络流量过滤规则转化方法
CN110519228B (zh) 一种黑产场景下恶意云机器人的识别方法及系统
CN116015708A (zh) 基于深度学习预测不确定性的恶意流量开集识别方法及装置
CN114581694A (zh) 一种基于改进的支持向量机的网络安全态势评估方法
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN111970305B (zh) 基于半监督降维和Tri-LightGBM的异常流量检测方法
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
Tseng et al. Data labeling with novel decision module of tri-training
Hsieh et al. On the classification of mobile broadband applications
CN114021637A (zh) 一种基于度量空间下去中心化应用加密流量分类方法及装置
Juvonen et al. Anomaly detection framework using rule extraction for efficient intrusion detection
CN113468555A (zh) 一种客户端访问行为识别方法、系统及装置
Liu et al. FewFine: Few-shot malware traffic classification via transfer learning based on fine-tuning strategy
CN112347475A (zh) 一种基于深度学习技术的恶意证书自动检测系统及方法
CN113221110B (zh) 一种基于元学习的远程访问木马智能分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant