CN102801719B - 基于主机流量功率谱相似性度量的僵尸网络检测方法 - Google Patents

基于主机流量功率谱相似性度量的僵尸网络检测方法 Download PDF

Info

Publication number
CN102801719B
CN102801719B CN201210279978.7A CN201210279978A CN102801719B CN 102801719 B CN102801719 B CN 102801719B CN 201210279978 A CN201210279978 A CN 201210279978A CN 102801719 B CN102801719 B CN 102801719B
Authority
CN
China
Prior art keywords
host
mrow
power spectrum
sequence
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210279978.7A
Other languages
English (en)
Other versions
CN102801719A (zh
Inventor
邹鹏
郑黎明
李润恒
贾焰
王宇
韩伟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Equipment College
Original Assignee
PLA Equipment College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Equipment College filed Critical PLA Equipment College
Priority to CN201210279978.7A priority Critical patent/CN102801719B/zh
Publication of CN102801719A publication Critical patent/CN102801719A/zh
Application granted granted Critical
Publication of CN102801719B publication Critical patent/CN102801719B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主机流量功率谱相似性度量的僵尸网络检测方法,属于网络通信安全领域。对采集到的网络出口流量数据进行预处理后,利用自相关函数对其进行描述,自相关函数取离散傅里叶变换得到各主机流量功率谱序列,计算主机对功率谱序列的优化DTW距离,将优化DTW距离小于阈值的主机对放入主机对集合,最后利用时空关联算法计算主机对集合中的各主机对所处状态的可信度,根据该值的大小判断被检测网络中是否存在僵尸网络,实现僵尸网络的检测。采用优化DTW距离描述主机对流量功率谱的相似性,避免了僵尸主机个体差异给检测效果带来的影响;时空关联法分析主机对所处状态的可信度,充分利用了主机流量在时间和空间上的相关性,提高检测效果。

Description

基于主机流量功率谱相似性度量的僵尸网络检测方法
技术领域
本发明涉及网络通信安全领域,尤其涉及一种基于主机流量功率谱相似性度量的僵尸网络检测方法。
背景技术
僵尸网络(botnet)是指攻击者出于恶意目的,传播僵尸程序控制大量主机,通过一对多的命令与控制信道(Command and Control,C&C)所组成的网络。僵尸网络为攻击者提供了隐匿、灵活且高效的一对多命令与控制机制,僵尸网络的控制者可以控制大量僵尸主机来实现信息窃取、分布式拒绝服务攻击和垃圾邮件发送等攻击目的。僵尸网络正步入快速发展期,对因特网安全造成了严重威胁。
国内外有代表性的对僵尸网络的检测策略主要有基于蜜罐密网技术的检测、基于终端信息的检测和基于流量的检测方法。但是这些研究通常都是用于检测IRC类型僵尸网络,对P2P类型的僵尸网络检测效果较差。
参考文献1(臧天宁等.基于通讯特征和D-S证据理论分析僵尸网络相似度.通信学报.2011,32(4):66-76)针对不同僵尸网络之间可能存在潜在的隐藏关系,通过提取时间域内僵尸网络内部通信的数据流数量、流中数据分组数量、主机通信量和数据分组负载等特征,并定义了特征相识度统计函数,利用改进的D-S证据理论建立了僵尸网络之间的相似性关系。在实际应用中该方法提取,由于僵尸网络主机的网络带宽、延时、用户习惯等原因,使得僵尸网络内部通信特征在时间域上并不一定呈现出严格的相似性,如果用该方法检测僵尸网络,容易导致检测失效。
参考文献2(金鑫等.基于通信特征曲线动态时间弯曲距离的IRC僵尸网络同源判别方法.计算机研究与发展.2012,49(3):481-490)针对IRC类型僵尸网络IRC服务器和bot连接的动态特性,提取僵尸网络的通信量特征曲线、通信频率特征曲线,采用改进的动态时间弯曲距离判别不同的僵尸网络是否同源。该方法的目的是识别使用不同IRC控制服务器的同源僵尸网络,只适用于IRC型僵尸网络,对新型的P2P僵尸网络效果较差。
发明内容
鉴于此,本发明提出一种基于主机流量功率谱相似性度量的僵尸网络检测方法,利用主机对功率谱序列的DTW距离对主机流量功率谱的相似性进行度量。本发明方法的基本思想是采集网络出口流量数据,对该流量数据进行预处理后,利用自相关函数对其进行描述,自相关函数取离散傅里叶变换得到各主机流量功率谱序列,计算主机对功率谱序列的优化动态时间弯曲距离(Dynamic Time Warping Distance,简称DTW距离),将优化DTW距离小于阈值的主机对放入主机对集合,最后利用时空关联算法计算主机对集合中的各主机对所处状态的可信度,根据该值的大小判断被检测网络中是否存在僵尸网络,实现僵尸网络的检测。
具体实现步骤如下:
步骤一、网络出口流量数据采集
基于libpcap/winpcap等工具软件在企业网的出口处采集所有的网络流量,作为检测的原始数据,并根据不同的内网主机对采集到的网络流量进行分类,最后将流量数据存入数据中心;
步骤二、采用黑名单和白名单技术对流量数据进行预处理
在对僵尸网络的检测过程中主要关注两大类流量,一类是僵尸网络的通信流量,包括IRC流量、HTTP流量和P2P流量;另一类是僵尸主机的攻击流量,包括扫描流量、DDoS攻击流量、电子邮件流量。
采用黑名单和白名单技术对流量数据预处理的具体步骤如下:
(1)将上述两大类网络流量加入黑名单;
(2)采用白名单技术将明显不是检测所关注的流量从黑名单中剔除,本发明针对不同的网络流量设置了不同的白名单:
IRC流量:因IRC流量在现实环境中较少出现,出现就极有可能是僵尸网络,所以没有设置白名单;
HTTP流量:将典型门户网站(Sohu,Sina,ifeng,163,QQ,中华网,土豆网,Yahoo)、搜索引擎(google,baidu)、论坛(CSDN,mop,tianya,人人网,开心网)、电子商务网站(淘宝,京东,各大团购网,当当网,亚马逊)等的HTTP流量都设置成白名单;
P2P流量:利用网络流(网络流包括源IP、目的IP、源端口、目的端口和协议号)的特征进行过滤,如果在时间间距L内,网络流流量除以P2P连接时间的值大于设定的阈值,则将该网络流列入白名单;
扫描流量:借助其他的检测工具,如借助开源的入侵检测工具snort,检测扫描流量是否要列为白名单;
DDoS攻击流量:现实中出现的有效DDoS攻击绝大部分采用SYN攻击方式,所以在数据采集过程中采用黑名单技术,采集所有的SYN请求流量;
电子邮件流量:如果出现了大于1M的附件,则将该电子邮件流量列入白名单。
(3)计算网络主机在固定时间长度内的通讯量,并对其进行归一化处理,得到网络主机的通讯量函数,即网络主机流量函数,记为x(t),t=1,2,…,N,其中,N为观测的时间步长;在时间间距为L时,网络主机流量的自相关函数定义为:
Rx(L)=E[x(t)x(t+L)]
其中,E[·]表示取数学期望。
步骤三、通过离散傅里叶变换得到各主机流量功率谱序列
通过对主机流量的自相关函数取离散傅里叶变换来获得主机流量功率谱序列,表示为:
ψ ( R x ( L ) , k ) = Σ i = 0 N - 1 ( R x ( L ) e - j 2 πki / N ) , k = 1,2 , . . . , N - 1 - - - ( 1 )
步骤四、主机对流量功率谱的相似性度量
提取步骤三中主机流量功率谱序列的特征点,得到特征点的数目q,并记录特征点的序号is;将长度为N的主机流量功率谱序列转换为长度为f的功率谱特征序列,并分别计算转换前后序列的查询上界和查询下界;计算主机对功率谱特征序列的优化DTW距离,若距离值小于设定的阈值,则将主机对加入主机对集合ASB,以备下一步的检测。
所述的长度为N的主机流量功率谱序列是指主机流量功率谱序列包含N个元素。
主机对流量功率谱相似性度量的具体实现步骤为:
①提取主机流量功率谱序列的特征点
定义主机流量功率谱序列的特征点为:功率谱序列的起点、终点和横坐标间的距离大于阈值△的极值点;
特征点的序号记为is,1≤s≤q;is=a表示功率谱序列中的第a个元素是该序列的特征点,根据特征点的定义易知i1=1,iq=N;
②将长度为N的n个主机流量功率谱序列,记为S1(N),S2(N),…,Sn(N),转换为长度为f的功率谱特征序列并分别计算转换前后的查询上界序列和查询下界序列;
其中,f=q-1;1≤j≤n,表示转换后第j个主机流量功率谱特征序列,该序列的第k个元素为1≤k≤f,Sj[ik]表示转换前第j个主机流量功率谱序列Sj(N)的第ik个元素,ik为特征点序号,1≤ik≤N;
计算功率谱序列S1(N),S2(N),…,Sn(N)的查询上界序列和查询下界序列,分别记为U1(N),U2(N),…,Un(N)和L1(N),L2(N),…,Ln(N),
U l [ i ] = max - ρ ≤ r ≤ ρ S l [ i + r ] L l [ i ] = min - ρ ≤ r ≤ ρ S l [ i + r ] , 1 ≤ l ≤ n , 1 ≤ i ≤ N - - - ( 2 )
其中,表示以Sl[i]为中心,以弯曲率ρ为半径的第l个主机流量功率谱的最大值;表示以Sl[i]为中心,以弯曲率ρ为半径的第l个主机流量功率谱的最小值;
计算长度为f的功率谱特征序列的查询上界序列和查询下界序列
U l [ i ] ‾ = 1 i k + 1 - i k + 1 ( U l [ i k ] + U l [ i k + 1 ] ) L i [ i ] ‾ = 1 i k + 1 - i k + 1 ( L l [ i k ] + L l [ i k + 1 ] ) , 1 ≤ l ≤ n , 1 ≤ i ≤ f - - - ( 3 )
③计算主机对功率谱特征序列的优化DTW距离
由于直接计算主机对功率谱特征序列的DTW距离,计算量很大,为了减小计算的复杂度,本发明对主机对功率谱特征序列DTW距离的计算进行了优化:
首先,计算主机对功率谱特征序列DTW距离的下界1≤i<j≤n:
LB _ PAA ( S i ( f ) &OverBar; , S j ( f ) &OverBar; ) = &Sigma; k = 1 f n f | S j [ k ] &OverBar; - U i [ k ] &OverBar; | &rho; &rho; , S j [ k ] &OverBar; > U i [ k ] &OverBar; &Sigma; k = 1 f n f | S j [ k ] &OverBar; - L i [ k ] &OverBar; | &rho; &rho; , S j [ k ] &OverBar; < L i [ k ] &OverBar; 0 , L i [ k ] &OverBar; < S j [ k ] &OverBar; < U i [ k ] &OverBar; , 1 &le; k &le; f - - - ( 4 )
小于阈值η1,则递归计算主机对功率谱特征序列的优化DTW距离
DTW &rho; ( S i ( f ) &OverBar; , S j ( f ) &OverBar; ) = | S i [ 1 ] &OverBar; - S j [ 1 ] &OverBar; | &rho; + min ( a , b , c ) &rho; - - - ( 5 )
其中,min(a,b,c)表示取a,b,c三者中的最小值,
a = DTW ( rest ( S i ( f ) &OverBar; ) , rest ( S j ( f ) &OverBar; ) ) , 表示序列的DTW距离,
b = DTW ( S i ( f ) &OverBar; , rest ( S j ( f ) &OverBar; ) ) , 表示序列的DTW距离,
c = DTW ( rest ( S i ( f ) &OverBar; ) , S j ( f ) &OverBar; ) , 表示序列的DTW距离,
表示序列除去第一个元素后的子序列;
④若小于阈值η2,则主机对为需要重点检测的主机对,放入集合ASB中。
步骤五、时空关联分析
首先利用空间关联分析法分析主机对处于每种状态的可信度,即通过基本概率赋值函数bpa(·)将主机对的优化DTW距离转换为主机对所处状态的可信度;再利用时间关联分析法对主机对中存在僵尸主机的可信度进行修正,得到更精确的检测结果;最后判断待检测网络是否为僵尸网络。
所述的主机对所处状态包括主机对处于非工作状态、主机对中存在僵尸主机、主机对中不存在僵尸主机和不能确定主机对中是否存在僵尸主机。
(1)空间关联分析
采用D-S证据理论实现空间关联分析。
设辨识框架表示主机所处状态的集合,其中C表示主机是僵尸主机;表示主机不是僵尸主机;则主机对所处状态的集合,即辨识框架U的幂集合2U为:
其中,表示主机对处于非工作状态;表示主机对所处的状态无法判断,即主机对中可能存在僵尸主机,也可能不存在僵尸主机。
幂集合2U中各元素的基本概率赋值函数bpa(2U)定义为:
m ( C ) = 0.8 / ( 1 + e - ( Y &OverBar; t - 1.5 ) ) + 0.0667 - - - ( 6 - 1 )
m ( &Not; C ) = 0.8 / ( 1 + e ( Y &OverBar; t + 1.5 ) ) + 0.0667 - - - ( 6 - 2 )
m ( U ~ ) = 1 - m ( C ) - m ( &Not; C ) - - - ( 6 - 3 )
其中,
Y &OverBar; t = 10 &times; ( Y t ) / ( max ( Y t ) - min ( Y t ) ) - - - ( 7 )
Yt表示在当前t时刻,当前主机对流量功率谱特征序列的优化DTW距离。
(2)时间关联分析
为了提高僵尸网络的检测精度,本发明通过时间关联分析,即利用主机对流量功率谱优化DTW距离的时间相关性,对主机对中存在僵尸主机的可信度m(C)进行修正。如果当前时刻主机对流量功率谱优化DTW距离依然小于设定的阈值η2,增大其可能是僵尸主机的概率;反之,减小其可能是僵尸主机的概率。
用原假设H0表示前一时刻主机对不是僵尸主机,备择假设H1表示前一时刻主机对是僵尸主机,则当H1成立时,该主机对流量功率谱的DTW距离为当前时刻的DTW距离的概率为Pr(Yt|H1);当H0成立时,该主机对流量功率谱的DTW距离为当前时刻的DTW距离的概率为Pr(Yt|H0)。考虑到不同时刻,主机流量不会完全相同,因此功率谱序列也不会完全相同,所以只要主机对的DTW距离在某一范围内,我们就认为主机对的DTW距离与前一时刻的距离相等,即在实际操作中,用Pr(Yt≤ε|H0)、Pr(Yt≤ε|H1)分别代替Pr(Yt|H0)、Pr(Yt|H1)。
定义:Pr(Yt≤ε|H0)=θ0、Pr(Yt≤ε|H1)=θ1
其中,θ0和θ1都是Yt和ε的函数,定义为:
&theta; 0 ( Y i , &epsiv; ) = 1 1 + exp ( ( Y t - &epsiv; ) &times; k ) (8)
&theta; 1 ( Y i , &epsiv; ) = 1 1 + exp ( - ( Y t - &epsiv; ) &times; k )
式中,k为系统参数,ε为不采用时间相关性分析时系统的阈值。
那么,当前时刻主机对为僵尸主机的可信度的修正系数,即幂集合2U的子集{C}的基本概率值修正系数为:
K s = P r ( Y t | H 1 ) P r ( Y t | H 0 ) - - - ( 9 )
修正后,该主机对在当前时刻为僵尸主机的可信度为:
m'(C)=m(C)×Ks                          (10)
步骤六、异常判断
根据时空关联分析法分别计算出集合ASB中的n1个主机对存在僵尸主机的可信度,用表示,则待检测网络为僵尸网络的可信度表示为:
m web = m 1 &CirclePlus; m 2 &CirclePlus; . . . &CirclePlus; m n 1 - - - ( 11 )
其中,表示正交和;
mweb定义为:
其中, 表示集合ASB中的n1个主机对都有僵尸主机存在,即待检测网络为僵尸网络;表示集合ASB中的n1个主机对均处于工作状态,且所处状态相同;mi(Ci)表示在当前时刻第i个主机对中存在僵尸主机的可信度,即在当前时刻第i个主机对中存在僵尸主机的概率值为mi(Ci),由式(10)计算得到。
由式(12)得到待检测网络所处状态的可信度,判断待检测网络为僵尸网络的可信度是否大于给定的阈值,若是则认为待检测网络中存在僵尸网络;否则,认为待检测网络为安全网络。
有益效果
本发明方法采用黑白名单技术对流量数据进行预处理,能够避免普通流量对检测效果的影响,不需要对正常的网络流量进行建模,是一种非监督式的僵尸网络检测方法;
将时域内主机流量的自相关函数描述转换到频域内的功率谱描述,可以有效应对僵尸网络通信流量在时域上的不严格相似性;
采用优化DTW距离描述主机对流量功率谱的相似性,避免了僵尸主机个体差异给检测效果带来的影响,还可以有效减少计算量,提高检测的准确性;
时空关联法分析主机对所处状态的可信度,充分利用了僵尸网络主机流量在时间和空间上的相关性,提高检测效果。
本发明方法较现有方法检测准确率更高,误报率更低。
附图说明
图1为IRC僵尸网络关系图;
图2为本发明方法的流程图;
具体实施方式
本发明提出一种基于主机流量功率谱相似性度量的僵尸网络检测方法,其基本思想是对采集到的网络出口流量数据进行预处理后,利用自相关函数对主机流量进行描述,自相关函数取离散傅里叶变换后得到各主机流量功率谱序列,计算主机对功率谱序列的优化DTW距离,将优化DTW距离小于阈值的主机对放入主机对集合,最后利用时空关联算法计算主机对集合中的各主机对所处状态的可信度,根据该值的大小判断被检测网络中是否存在僵尸网络,实现僵尸网络的检测。
下面结合附图及具体实施例对本发明方法做进一步详细说明。
一种基于主机流量功率谱相似性度量的僵尸网络检测方法,其基本实施过程如图2所示,具体实现步骤为:
步骤一、网络出口流量数据采集
基于libpcap/winpcap等工具软件在企业网的出口处采集所有的网络流量,作为检测的原始数据,并根据不同的内网主机对采集到的网络流量进行分类,最后将流量数据存入数据中心;
步骤二、采用黑名单和白名单技术对流量数据进行预处理
在对僵尸网络的检测过程中主要关注两大类流量,一类是僵尸网络的通信流量,包括IRC流量、HTTP流量和P2P流量;另一类是僵尸主机的攻击流量,包括扫描流量、DDoS攻击流量、电子邮件流量。
采用黑名单和白名单技术对流量数据预处理的具体步骤如下:
(1)将上述两大类网络流量加入黑名单;
(2)采用白名单技术将明显不是检测所关注的流量从黑名单中剔除,本发明针对不同的网络流量设置了不同的白名单:
IRC流量:因IRC流量在现实环境中较少出现,出现就极有可能是僵尸网络,所以没有设置白名单;
HTTP流量:将典型门户网站(Sohu,Sina,ifeng,163,QQ,中华网,土豆网,Yahoo)、搜索引擎(google,baidu)、论坛(CSDN,mop,tianya,人人网,开心网)、电子商务网站(淘宝,京东,各大团购网,当当网,亚马逊)等的HTTP流量都设置成白名单;
P2P流量:利用网络流(网络流包括源IP、目的IP、源端口、目的端口和协议号)的特征进行过滤,如果在时间间距L内,网络流流量除以P2P连接时间的值大于设定的阈值,则将该网络流列入白名单;
扫描流量:借助其他的检测工具,如借助开源的入侵检测工具snort,检测扫描流量是否要列为白名单;
DDoS攻击流量:现实中出现的有效DDoS攻击绝大部分采用SYN攻击方式,所以在数据采集过程中采用黑名单技术,采集所有的SYN请求流量;
电子邮件流量:如果出现了大于1M的附件,则将该电子邮件流量列入白名单。
(3)计算网络主机在固定时间长度内的通讯量,并对其进行归一化处理,得到网络主机的通讯量函数,即网络主机流量函数,记为x(t),t=1,2,…,N,其中,N为观测的时间步长;在时间间距为L时,网络主机流量的自相关函数定义为:
Rx(L)=E[x(t)x(t+L)]
其中,E[·]表示取数学期望。
步骤三、通过离散傅里叶变换得到各主机流量功率谱序列
通过对主机流量的自相关函数取离散傅里叶变换来获得主机流量功率谱序列,表示为:
&psi; ( R x ( L ) , k ) = &Sigma; i = 0 N - 1 ( R x ( L ) e - j 2 &pi;ki / N ) , k = 1,2 , . . . , N - 1 - - - ( 1 )
步骤四、主机对流量功率谱的相似性度量
提取步骤三中主机流量功率谱序列的特征点,得到特征点的数目q,并记录特征点的序号is;将长度为N的主机流量功率谱序列转换为长度为f的功率谱特征序列,并分别计算转换前后序列的查询上界和查询下界;计算主机对功率谱特征序列的优化DTW距离,若距离值小于设定的阈值,则将主机对加入主机对集合ASB,以备下一步的检测。
所述的长度为N的主机流量功率谱序列是指主机流量功率谱序列包含N个元素。
主机对流量功率谱相似性度量的具体实现步骤为:
①提取主机流量功率谱序列的特征点
定义主机流量功率谱序列的特征点为:功率谱序列的起点、终点和横坐标间的距离大于阈值△的极值点;
特征点的序号记为is,1≤s≤q;is=a表示功率谱序列中的第a个元素是该序列的特征点,根据特征点的定义易知i1=1,iq=N;
②将长度为N的n个主机流量功率谱序列,记为S1(N),S2(N),…,Sn(N),转换为长度为f的功率谱特征序列并分别计算转换前后的查询上界序列和查询下界序列;
其中,f=q-1;1≤j≤n,表示转换后第j个主机流量功率谱特征序列,该序列的第k个元素为1≤k≤f,Sj[ik]表示转换前第j个主机流量功率谱序列Sj(N)的第ik个元素,ik为特征点序号,1≤ik≤N;
计算功率谱序列S1(N),S2(N),…,Sn(N)的查询上界序列和查询下界序列,分别记为U1(N),U2(N),…,Un(N)和L1(N),L2(N),…,Ln(N),
U l [ i ] = max - &rho; &le; r &le; &rho; S l [ i + r ] L l [ i ] = min - &rho; &le; r &le; &rho; S l [ i + r ] , 1 &le; l &le; n , 1 &le; i &le; N - - - ( 2 )
其中,表示以Sl[i]为中心,以弯曲率ρ为半径的第l个主机流量功率谱的最大值;表示以Sl[i]为中心,以弯曲率ρ为半径的第l个主机流量功率谱的最小值;
计算长度为f的功率谱特征序列的查询上界序列和查询下界序列
U l [ i ] &OverBar; = 1 i k + 1 - i k + 1 ( U l [ i k ] + U l [ i k + 1 ] ) L i [ i ] &OverBar; = 1 i k + 1 - i k + 1 ( L l [ i k ] + L l [ i k + 1 ] ) , 1 &le; l &le; n , 1 &le; i &le; f - - - ( 3 )
③计算主机对功率谱特征序列的优化DTW距离
由于直接计算主机对功率谱特征序列的DTW距离,计算量很大,为了减小计算的复杂度,本发明对主机对功率谱特征序列DTW距离的计算进行了优化:
首先,计算主机对功率谱特征序列DTW距离的下界1≤i<j≤n:
LB _ PAA ( S i ( f ) &OverBar; , S j ( f ) &OverBar; ) = &Sigma; k = 1 f n f | S j [ k ] &OverBar; - U i [ k ] &OverBar; | &rho; &rho; , S j [ k ] &OverBar; > U i [ k ] &OverBar; &Sigma; k = 1 f n f | S j [ k ] &OverBar; - L i [ k ] &OverBar; | &rho; &rho; , S j [ k ] &OverBar; < L i [ k ] &OverBar; 0 , L i [ k ] &OverBar; < S j [ k ] &OverBar; < U i [ k ] &OverBar; , 1 &le; k &le; f - - - ( 4 )
小于阈值η1,则递归计算主机对功率谱特征序列的优化DTW距离
DTW &rho; ( S i ( f ) &OverBar; , S j ( f ) &OverBar; ) = | S i [ 1 ] &OverBar; - S j [ 1 ] &OverBar; | &rho; + min ( a , b , c ) &rho; - - - ( 5 )
其中,min(a,b,c)表示取a,b,c三者中的最小值,
a = DTW ( rest ( S i ( f ) &OverBar; ) , rest ( S j ( f ) &OverBar; ) ) , 表示序列的DTW距离,
b = DTW ( S i ( f ) &OverBar; , rest ( S j ( f ) &OverBar; ) ) , 表示序列的DTW距离,
c = DTW ( rest ( S i ( f ) &OverBar; ) , S j ( f ) &OverBar; ) , 表示序列的DTW距离,
表示序列除去第一个元素后的子序列;
④若小于阈值η2,则主机对(Si(N),Sj(N))为需要重点检测的主机对,放入集合ASB中。
步骤五、时空关联分析
首先利用空间关联分析法分析主机对处于每种状态的可信度,即通过基本概率赋值函数bpa(·)将主机对的优化DTW距离转换为主机对所处状态的可信度;再利用时间关联分析法对主机对中存在僵尸主机的可信度进行修正,得到更精确的检测结果;最后判断待检测网络是否为僵尸网络。
所述的主机对所处状态包括主机对处于非工作状态、主机对中存在僵尸主机、主机对中不存在僵尸主机和不能确定主机对中是否存在僵尸主机。
(1)空间关联分析
采用D-S证据理论实现空间关联分析。
设辨识框架表示主机所处状态的集合,其中C表示主机是僵尸主机;表示主机不是僵尸主机;则主机对所处状态的集合,即辨识框架U的幂集合2U为:
其中,表示主机对处于非工作状态;表示主机对所处的状态无法判断,即主机对中可能存在僵尸主机,也可能不存在僵尸主机。
幂集合2U中各元素的基本概率赋值函数bpa(2U)定义为:
m ( C ) = 0.8 / ( 1 + e - ( Y &OverBar; t - 1.5 ) ) + 0.0667 - - - ( 6 - 1 )
m ( &Not; C ) = 0.8 / ( 1 + e ( Y &OverBar; t + 1.5 ) ) + 0.0667 - - - ( 6 - 2 )
m ( U ~ ) = 1 - m ( C ) - m ( &Not; C ) - - - ( 6 - 3 )
其中,
Y &OverBar; t = 10 &times; ( Y t ) / ( max ( Y t ) - min ( Y t ) ) - - - ( 7 )
Yt表示在当前t时刻,当前主机对流量功率谱特征序列的优化DTW距离。
(2)时间关联分析
为了提高僵尸网络的检测精度,本发明通过时间关联分析,即利用主机对流量功率谱优化DTW距离的时间相关性,对主机对中存在僵尸主机的可信度m(C)进行修正。如果当前时刻主机对流量功率谱优化DTW距离依然小于设定的阈值η2,增大其可能是僵尸主机的概率;反之,减小其可能是僵尸主机的概率。
用原假设H0表示前一时刻主机对不是僵尸主机,备择假设H1表示前一时刻主机对是僵尸主机,则当H1成立时,该主机对流量功率谱的DTW距离为当前时刻的DTW距离的概率为Pr(Yt|H1);当H0成立时,该主机对流量功率谱的DTW距离为当前时刻的DTW距离的概率为Pr(Yt|H0)。考虑到不同时刻,主机流量不会完全相同,因此功率谱序列也不会完全相同,所以只要主机对的DTW距离在某一范围内,我们就认为主机对的DTW距离与前一时刻的距离相等,即在实际操作中,用Pr(Yt≤ε|H0)、Pr(Yt≤ε|H1)分别代替Pr(Yt|H0)、Pr(Yt|H1)。
定义:Pr(Yt≤ε|H0)=θ0、Pr(Yt≤ε|H1)=θ1
其中,θ0和θ1都是Yt和ε的函数,定义为:
&theta; 0 ( Y i , &epsiv; ) = 1 1 + exp ( ( Y t - &epsiv; ) &times; k ) (8)
&theta; 1 ( Y i , &epsiv; ) = 1 1 + exp ( - ( Y t - &epsiv; ) &times; k )
式中,k为系统参数,ε为不采用时间相关性分析时系统的阈值。
那么,当前时刻主机对为僵尸主机的可信度的修正系数,即幂集合2U的子集{C}的基本概率值修正系数为:
K s = P r ( Y t | H 1 ) P r ( Y t | H 0 ) - - - ( 9 )
修正后,该主机对在当前时刻为僵尸主机的可信度为:
m'(C)=m(C)×Ks                     (10)
步骤六、异常判断
根据时空关联分析法分别计算出集合ASB中的n1个主机对存在僵尸主机的可信度,用表示,则待检测网络为僵尸网络的可信度表示为:
m web = m 1 &CirclePlus; m 2 &CirclePlus; . . . &CirclePlus; m n 1 - - - ( 11 )
其中,表示正交和;
mweb定义为:
其中, 表示集合ASB中的n1个主机对都有僵尸主机存在,即待检测网络为僵尸网络;表示集合ASB中的n1个主机对均处于工作状态,且所处状态相同;mi(Ci)表示在当前时刻第i个主机对中存在僵尸主机的可信度,即在当前时刻第i个主机对中存在僵尸主机的概率值为mi(Ci),由式(10)计算得到。
由式(12)得到待检测网络所处状态的可信度,判断待检测网络为僵尸网络的可信度是否大于给定的阈值,若是则认为待检测网络中存在僵尸网络;否则,认为待检测网络为安全网络。
综上所述,以上仅为本发明的一种较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于主机流量功率谱相似性度量的僵尸网络检测方法,其特征在于: 
该方法的具体实现步骤为: 
步骤一、网络出口流量数据采集 
基于libpcap/winpcap工具软件在企业网的出口处采集所有的网络流量,作为检测的原始数据,并根据不同的内网主机对采集到的网络流量进行分类,最后将流量数据存入数据中心; 
步骤二、对流量数据进行预处理后,计算网络主机在固定时间长度内的通讯量,并进行归一化处理,得到网络主机的通讯量函数,即网络主机流量函数,记为x(t),t=1,2,…,N,其中,N为观测的时间步长,在时间间距为L时,网络主机流量的自相关函数定义为: 
Rx(L)=E[x(t)x(t+L)] 
其中,E[·]表示取数学期望; 
步骤三、通过离散傅里叶变换得到各主机流量功率谱序列 
通过对主机流量的自相关函数取离散傅里叶变换来获得主机流量功率谱序列,表示为: 
步骤四、主机对流量功率谱的相似性度量 
提取步骤三中主机流量功率谱序列的特征点,得到特征点的数目q,并记录特征点的序号is;将长度为N的主机流量功率谱序列转换为长度为f的功率谱特征序列,并分别计算转换前后序列的查询上界和查询下界;计算主机对功率谱特征序列的优化动态时间弯曲DTW距离,若距离值小于设定的阈值,则将主机对加入主机对集合ASB,以备下一步的检测; 
所述的长度为N的主机流量功率谱序列是指主机流量功率谱序列包含N个元素; 
步骤五、时空关联分析 
首先利用空间关联分析法分析主机对处于每种状态的可信度,即通过基本概率赋值函数bpa(·)将主机对的优化DTW距离转换为主机对所处状态的可信 度;再利用时间关联分析法对主机对中存在僵尸主机的可信度进行修正,得到更精确的检测结果;最后判断待检测网络是否为僵尸网络; 
所述的主机对所处状态包括主机对处于非工作状态、主机对中存在僵尸主机、主机对中不存在僵尸主机和不能确定主机对中是否存在僵尸主机; 
(1)空间关联分析 
采用D-S证据理论实现空间关联分析,设辨识框架表示主机所处状态的集合,其中C表示主机是僵尸主机;表示主机不是僵尸主机;则主机对所处状态的集合,即辨识框架U的幂集合2U为: 
其中,表示主机对处于非工作状态;表示主机对所处的状态无法判断,即主机对中可能存在僵尸主机,也可能不存在僵尸主机; 
幂集合2U中各元素的基本概率赋值函数bpa(2U)定义为: 
其中,
Yt表示在当前t时刻,当前主机对流量功率谱特征序列的优化DTW距离; 
通过基本概率赋值函数bpa(·)将各主机对流量功率谱特征序列的优化DTW距离转换为主机对所处状态的可信度; 
(2)时间关联分析 
用原假设H0表示前一时刻主机对不是僵尸主机,备择假设H1表示前一时刻主机对是僵尸主机,则当H1成立时,该主机对流量功率谱的DTW距离为当前时刻的DTW距离的概率为Pr(Yt|H1);当H0成立时,该主机对流量功率谱的DTW距离为当前时刻的DTW距离的概率为Pr(Yt|H0);用Pr(Yt≤ε|H0)、Pr(Yt≤ε|H1)分别代替Pr(Yt|H0)、Pr(Yt|H1); 
定义:Pr(Yt≤ε|H0)=θ0、Pr(Yt≤ε|H1)=θ1, 
其中,θ0和θ1都是Yt和ε的函数,定义为: 
式中,k为系统参数,ε为不采用时间相关性分析时系统的阈值; 
当前时刻主机对为僵尸主机的可信度的修正系数,即幂集合2U的子集{C}的基本概率值修正系数为: 
修正后,该主机对在当前时刻为僵尸主机的可信度为: 
m′(C)=m(C)×Ks   (10) 
步骤六、异常判断 
根据时空关联分析法分别计算出集合ASB中n1个主机对存在僵尸主机的可信度,用m1,m2,…,表示,则待检测网络为僵尸网络的可信度表示为: 
其中,表示正交和; 
mweb定义为: 
其中, 表示集合ASB中的n1个主机对都有僵尸主机存在,即待检测网络为僵尸网络;表示集合ASB中的n1个主机对均处于工作状态,且所处状态相同;mi(Ci)表示在当前时刻第i个主机对中存在僵尸主机的可信度,即在当前时刻第i个主机对中存在僵尸主机的概率值 为mi(Ci),由式(10)计算得到; 
由式(12)得到待检测网络所处状态的可信度,判断待检测网络为僵尸网络的可信度是否大于给定的阈值,若是则认为待检测网络中存在僵尸网络;否则,认为待检测网络为安全网络。 
2.根据权利要求1所述的一种基于主机流量功率谱相似性度量的僵尸网络检测方法,其特征在于: 
所述的数据流量是指在对僵尸网络检测过程中主要关注的两大类流量,一类是僵尸网络的通信流量,包括IRC流量、HTTP流量和P2P流量;另一类是僵尸主机的攻击流量,包括扫描流量、DDoS攻击流量、电子邮件流量; 
步骤二中采用黑名单和白名单技术对数据流量进行预处理的具体步骤为: 
(1)将上述两大类网络流量加入黑名单; 
(2)采用白名单技术将明显不是检测所关注的流量从黑名单中剔除,针对不同的网络流量设置了不同的白名单: 
IRC流量:因IRC流量在现实环境中较少出现,出现就极有可能是僵尸网络,所以没有设置白名单; 
HTTP流量:将典型门户网站、搜索引擎、论坛和电子商务网站的HTTP流量都设置成白名单; 
P2P流量:利用网络流,包括源IP、目的IP、源端口、目的端口和协议号的特征进行过滤,如果在时间间距L内,网络流流量除以P2P连接时间的值大于设定的阈值,则将该网络流列入白名单; 
扫描流量:借助其他的检测工具检测扫描流量是否要列为白名单; 
DDoS攻击流量:现实中出现的有效DDoS攻击绝大部分采用SYN攻击方式,所以在数据采集过程中采用黑名单技术,采集所有的SYN请求流量; 
电子邮件流量:如果出现了大于1M的附件,则将该电子邮件流量列入白名单; 
所述的典型门户网站包括Sohu、Sina、ifeng、163、QQ、中华网、土豆网 和Yahoo;搜索引擎包括google和baidu;论坛包括CSDN、mop、tianya、人人网和开心网;电子商务网站包括淘宝、京东、各大团购网、当当网和亚马逊。 
3.根据权利要求1所述的一种基于主机流量功率谱相似性度量的僵尸网络检测方法,其特征在于: 
采用主机对流量功率谱的优化DTW距离对主机对流量的相似性进行度量,具体实现步骤为: 
①提取主机流量功率谱序列的特征点 
定义主机流量功率谱序列的特征点为:功率谱序列的起点、终点和横坐标间的距离大于阈值Δ的极值点; 
特征点的序号记为is,1≤s≤q;is=a表示功率谱序列中的第a个元素是该序列的特征点,根据特征点的定义易知i1=1,iq=N;q表示功率谱序列的特征点数目; 
②将长度为N的n个主机流量功率谱序列,记为S1(N),S2(N),…,Sn(N),转换为长度为f的功率谱特征序列并分别计算转换前后的查询上界序列和查询下界序列; 
其中,f=q-1;1≤j≤n,表示转换后第j个主机流量功率谱特征序列,该序列的第k个元素1≤k≤f,Sj[ik]表示转换前第j个主机流量功率谱序列Sj(N)的第ik个元素,ik为特征点序号,1≤ik≤N; 
计算功率谱序列S1(N),S2(N),…,Sn(N)的查询上界序列和查询下界序列,分别记为U1(N),U2(N),…,Un(N)和L1(N),L2(N),…,Ln(N), 
其中,表示以Sl[i]为中心,以弯曲率ρ为半径的第l个主机流量功率谱的最大值;表示以Sl[i]为中心,以弯曲率ρ为半径的第l个主机流量功率谱的最小值; 
计算长度为f的功率谱特征序列的查询上界序列和查询下界序列
③计算主机对功率谱特征序列的优化DTW距离 
首先,计算主机对功率谱特征序列DTW距离的下界1≤i<j≤n: 
小于阈值η1,则递归计算主机对功率谱特征序列的优化DTW距离
其中,min(a,b,c)表示取a,b,c三者中的最小值, 
表示序列和rest的DTW距离, 
表示序列的DTW距离, 
表示序列的DTW距离, 
表示序列除去第一个元素后的子序列; 
④若 小于阈值η2,则主机对(Si(N),Sj(N))为需要重点检测的主机对,放入集合ASB中。 
CN201210279978.7A 2012-08-08 2012-08-08 基于主机流量功率谱相似性度量的僵尸网络检测方法 Expired - Fee Related CN102801719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210279978.7A CN102801719B (zh) 2012-08-08 2012-08-08 基于主机流量功率谱相似性度量的僵尸网络检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210279978.7A CN102801719B (zh) 2012-08-08 2012-08-08 基于主机流量功率谱相似性度量的僵尸网络检测方法

Publications (2)

Publication Number Publication Date
CN102801719A CN102801719A (zh) 2012-11-28
CN102801719B true CN102801719B (zh) 2015-02-25

Family

ID=47200682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210279978.7A Expired - Fee Related CN102801719B (zh) 2012-08-08 2012-08-08 基于主机流量功率谱相似性度量的僵尸网络检测方法

Country Status (1)

Country Link
CN (1) CN102801719B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016146610A1 (en) * 2015-03-17 2016-09-22 British Telecommunications Public Limited Company Malicious encrypted network traffic identification using fourier transform
CN105025028B (zh) * 2015-07-28 2018-07-24 中国工程物理研究院计算机应用研究所 基于流量分析的ip黑洞发现方法
CN109948636A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 数据融合方法和装置
CN109977923B (zh) * 2019-04-12 2020-12-29 江西科技学院 基于脑电信号的驾驶员性别检测方法及系统
CN110086811B (zh) * 2019-04-29 2022-03-22 深信服科技股份有限公司 一种恶意脚本检测方法及相关装置
CN115060631B (zh) * 2022-07-14 2023-07-25 长光辰英(杭州)科学仪器有限公司 一种自适应的颗粒物拉曼相似度判别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101895521A (zh) * 2009-05-22 2010-11-24 中国科学院研究生院 一种网络蠕虫检测与特征自动提取方法及其系统
CN102045214A (zh) * 2009-10-20 2011-05-04 成都市华为赛门铁克科技有限公司 僵尸网络检测方法、装置和系统
CN102104506A (zh) * 2009-12-17 2011-06-22 中国人民解放军国防科学技术大学 僵尸网络相似性度量的训练和测试方法及相应系统
CN102238044A (zh) * 2010-04-30 2011-11-09 中国人民解放军国防科学技术大学 同源僵尸网络判别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101070614B1 (ko) * 2009-12-18 2011-10-10 한국인터넷진흥원 봇넷 정보를 이용한 악성 트래픽 격리 시스템과 봇넷 정보를 이용한 악성 트래픽 격리 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101895521A (zh) * 2009-05-22 2010-11-24 中国科学院研究生院 一种网络蠕虫检测与特征自动提取方法及其系统
CN102045214A (zh) * 2009-10-20 2011-05-04 成都市华为赛门铁克科技有限公司 僵尸网络检测方法、装置和系统
CN102104506A (zh) * 2009-12-17 2011-06-22 中国人民解放军国防科学技术大学 僵尸网络相似性度量的训练和测试方法及相应系统
CN102238044A (zh) * 2010-04-30 2011-11-09 中国人民解放军国防科学技术大学 同源僵尸网络判别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《IRC botnets’ homology identifying method based on improved LB_PAA distance of communication characteristic curves》;Yan Jia et al.;《Third International Symposium on Intelligent Information Technology and Security Informatics》;20100430;全文 *
《基于通信特征提取和IP聚集的僵尸网络相似性度量模型》;李润恒 等;《计算机学报》;20100131;第33卷(第1期);全文 *
《大规模网络中僵尸网络分析技术研究》;李润恒;《中国博士学位论文全文数据库 信息科技辑》;20120415(第4期);全文 *

Also Published As

Publication number Publication date
CN102801719A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
Bilge et al. Disclosure: detecting botnet command and control servers through large-scale netflow analysis
CN109600363B (zh) 一种物联网终端网络画像及异常网络访问行为检测方法
CN108289088B (zh) 基于业务模型的异常流量检测系统及方法
CN102801719B (zh) 基于主机流量功率谱相似性度量的僵尸网络检测方法
US8762298B1 (en) Machine learning based botnet detection using real-time connectivity graph based traffic features
Wu et al. Sequence alignment detection of TCP-targeted synchronous low-rate DoS attacks
JP6184270B2 (ja) 将来のネットワーク攻撃を検知及び予測するために、様々な指標と過去の攻撃事例を相関させ、攻撃に関する指標のプロファイルを作成するシステム及び方法
Soe et al. Rule generation for signature based detection systems of cyber attacks in iot environments
US8682812B1 (en) Machine learning based botnet detection using real-time extracted traffic features
US8611219B2 (en) Method of detecting anomalies in a communication system using symbolic packet features
CN108632224B (zh) 一种apt攻击检测方法和装置
Wu et al. Bot detection using unsupervised machine learning
US8352393B2 (en) Method and system for evaluating tests used in operating system fingerprinting
Otoum et al. Mitigating False Negative intruder decisions in WSN-based Smart Grid monitoring
Haddadi et al. Botnet behaviour analysis using ip flows: with http filters using classifiers
Wei et al. Profiling and Clustering Internet Hosts.
CN110650156B (zh) 网络实体的关系聚类方法、装置及网络事件的识别方法
Fraunholz et al. YAAS-On the Attribution of Honeypot Data.
CN112788007A (zh) 基于卷积神经网络的DDoS攻击检测方法
Fallahi et al. Automated flow-based rule generation for network intrusion detection systems
Bereziński et al. Entropy-based internet traffic anomaly detection: A case study
Bernieri et al. Kingfisher: An industrial security framework based on variational autoencoders
Sawaya et al. Detection of attackers in services using anomalous host behavior based on traffic flow statistics
CN111182002A (zh) 基于http首个问答包聚类分析的僵尸网络检测装置
CN102437936A (zh) 基于双过滤机制的高速网络僵尸报文的检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150225

Termination date: 20170808