CN104243245A - 一种基于不可分小波svm的对等网络流量识别方法和系统 - Google Patents

一种基于不可分小波svm的对等网络流量识别方法和系统 Download PDF

Info

Publication number
CN104243245A
CN104243245A CN201410547394.2A CN201410547394A CN104243245A CN 104243245 A CN104243245 A CN 104243245A CN 201410547394 A CN201410547394 A CN 201410547394A CN 104243245 A CN104243245 A CN 104243245A
Authority
CN
China
Prior art keywords
peer
svm
nest
network flow
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410547394.2A
Other languages
English (en)
Inventor
王春枝
叶志伟
陈宏伟
宗欣露
刘伟
徐慧
张会丽
喻东阳
陈秋霞
周正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201410547394.2A priority Critical patent/CN104243245A/zh
Publication of CN104243245A publication Critical patent/CN104243245A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明提供了一种基于不可分小波SVM的对等网络流量识别方法和系统,本发明根据对等网络流量相似性、突变性、多尺度的特性,引入小波分析工具,构造不可分小波作为SVM的核函数,提高了识别正确率;此外,针对网格搜索算法确定SVM惩罚参数和核函数效率低下的问题,引入杜鹃搜索快速确定SVM的最优参数,加快SVM的训练速度,提高识别正确率和计算效率;本发明能够在小样本下、实时高效地识别对等网络流量。

Description

一种基于不可分小波SVM的对等网络流量识别方法和系统
技术领域
本发明涉及网络流量识别方法和系统,具体的为一种基于不可分小波SVM的对等网络流量识别方法和系统。
背景技术
随着互联网的发展,对等网络技术(Peer to Peer简称为P2P)在影片下载、在线视频、文件下载等方面得到了广泛的应用。通过P2P文件的下载速度、视频的观看效果均有极大的改善。然而,P2P技术一方面丰富了网络中应用,同时另一方面也带来了许多负面影响,主要体现在以下几个方面:①占据大量的网络带宽,其产生的网络流量占据互联网流量的80%以上;②网络安全防护问题;③P2P文件共享的版权问题。因此,检测和控制P2P流量引起了学术界和网络运营商的高度重视。而在检测和控制P2P流量的过程中关键部分是对P2P流量的识别操作,只有正确识别出感兴趣的或异常的P2P流量,才能对它们进行有效的监控。由于P2P流量识别工作的重要性,P2P流量识别已经成为网络测量领域的研究热点,常见的P2P流量识别主要可以分成如下四类:
(1)基于端口号的P2P流量识别技术。端口识别技术是根据TCP/UDP数据包首部的源端口或目的端口号来识别流量。然而,由于伪端口技术、用户定义的端口技术、随机端口技术的出现使得基于端口号的P2P流量识别技术的准确度是逐渐降低,难以满足识别要求。
(2)深度包检测技术。该方法很大程度上提高了流量识别的准确率,但是该方法仍然存在一些缺点,首先,很多P2P应用程序不开源,准确性和有效性都得不到保证;其次,部分P2P应用己经开始对传输内容进行加密,根本无法获取其真实有效的载荷信息。因此深度数据包检测技术在流量识别方面的效果需要进一步提高。
(3)深度流检测方法。该方法使用的是来自IP数据包首部的信息,因此它能够克服上述两种方法的缺点,而且可有效地避免负载加密的影响。由于它只适用于流量记录分析,而且由于网络环境的复杂性导致该方法的流量识别精度下降;更重要的是这种方法大都以离线数据分析为主,缺乏P2P流量的实时识别能力。
(4)连接模式识别法。连接模式识别法是一种在传输层识别P2P流量的方法,它仅仅统计用户分组的首部信息,观察源和目的IP地址和端口的连接模式。有些模式是P2P所独有的或少数应用所共有,因此可以由此直接将P2P流量识别出来。其准确性会受NAT等端口/IP地址转换技术或监测设备位置的干扰。
P2P流量识别问题本质上就是一个分类问题,各种基于机器学习的分类方法很自然的被应用到P2P流量识别问题,如基于神经网络的P2P流量识别,基于贝叶斯网络的P2P流量识别等等,然而神经网络方法和贝叶斯网络方法训练过程非常繁杂耗时;网络的学习和记忆具有不稳定性。
支持向量机(Support Vector Machine,SVM)是一种基于统计学原理的机器学习方法,该方法具有较强的泛化能力,不会出现局部极小和维数灾难等优点。对等网络流量识别本质上是一个二类分类问题,即P2P流量和非P2P流量,因此可以使用SVM进行P2P流量的分类识别。然而模型参数(惩罚因子C、核函数类型和核函数参数σ)的选择对SVM分类结果的准确度具有至关重要的影响。对于SVM参数C和σ的选择问题,本发明采用杜鹃搜索算法快速寻优得到最优C和σ配置组合。在选取支持向量机核函数方面,对于在真实网络环境中的P2P网络流量,无论从宏观上还是微观上都呈现出非常明显的自相似性、突变性、多尺度的特性,常用的核函数如线性核函数和RBF在处理这类问题时不够理想,相对于常用的可分小波核函数,不可分小波构造上有更大的自由度而且它将高维信号作为整体来处理,更有利于高维信号的各个方向信息的分析[1-2],因此采用不可分小波作为支持向量积的核函数,可以带来更好的识别效果。因而本发明提出一种基于不可分小波SVM的对等网络流量识别方法,同时使用杜鹃搜索算法加快SVM分类模型训练过程。杜鹃搜索算法是2009年新提出的一种模仿杜鹃鸟巢寄生和列维飞行机理的元启发优化算法,其基本数学模型如下[3]。
(1)一只杜鹃一次只能产一枚蛋,并通过随机游走的方式选择一个寄生鸟巢来孵化这枚鸟蛋。
(2)在随机选择的寄生鸟巢中,只有最好的寄生鸟巢能够保留到下一代。
(3)可以产蛋的寄生巢数量是确定的,一个寄生巢的鸟主人能发现一个外来鸟蛋的概率是pa。如果被发现,鸟巢的主人要么将杜鹃鸟蛋扔掉,要么将鸟巢弃掉,重新再次建立一个新鸟巢。对于待优化的问题,为方便起见有如下约定。①一个巢里面的每个蛋代表一个待求解问题的解决方案;②一个杜鹃鸟的蛋代表了一种新的解决方案,目的是利用新的以及潜在更好的解决方案,来取代一个在巢里的不那么好的解决方案。在这三个理想的状态下,杜鹃鸟寻找鸟巢的路径和位置用如下公式更新:
x i ( t + 1 ) = x i ( t ) + a &CirclePlus; levy ( &lambda; ) levy ( &lambda; ) ~ u = t - &lambda; , 1 < &lambda; < 3
其中,xi(t)表示第i个鸟巢在第t代的鸟巢位置,α是速度步长控制量并且α>0,表示点对点乘法,Levy(λ)是均匀Levy分布随机数,服从Levy~u=t(1<λ≤3),i表示第i个鸟巢的位置,t表示迭代次数,λ是列维飞行步长控制参数。在自然界中,动物随机或者准随机的寻找食物,动物的觅食路径实际上是一个随机行走,因为接下来的行动是基于当前位置或者状态和转移概率到下一个位置的。位置更新以后,算法进行进入局部搜索阶段,将预设的发现外来鸟蛋的概率pa与随机数r(r∈[0,1])进行对比,如果前者小,位置不变,否则对xi(t+1)运用Levy飞行进行随机改变,通过以上位置更新方式,杜鹃搜索算法能够在解的局部搜索战略和整个搜索空间的高效探索之间保持好的平衡,具有良好的性能。杜鹃搜索算法本质上属于随机搜索算法,终止条件通常是设定的种群最大的运行迭代次数N。
参考文献:
[1]黄靖.基于不可分小波的旋转不变性的虹膜识别方法[D].华中科技大学博士论文.武汉,2009
[2]苑玮琦,王浩.基于二维不可分小波相关性分析的虹膜识别[J].光电子·激光,2010,21(4):593-597
[3]X.-S.Yang,S.Deb,Engineering optimization by cuckoo search[J],Int.J.MathematicalModeling and Numerical Optimization.2010,vol.1(4):330-343.
发明内容
本发明针对上述问题,提出了一种基于不可分小波SVM的对等网络流量识别方法和系统,此方法及系统能够在小样本下实时高效地识别对等网络流量。
本发明的技术方案是:一种基于不可分小波SVM的对等网络流量识别方法,包括如下步骤:
步骤1不可分小波SVM的训练步骤:
步骤1.1抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
步骤1.2对步骤1.1抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理,作为步骤1.3中SVM的训练集数据存入到数据库中;
步骤1.3构造不可分小波函数作为SVM的核函数;使用步骤1.2中归一化处理存在数据库中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;
步骤1.3.1构造不可分小波函数作为SVM的核函数;
K ( x , x &prime; ) = &Pi; i = 1 n ( 1 - | | x - x &prime; | | 2 a i ) exp ( | | x - x &prime; | | 2 2 a i 2 )
其中,K(x,x')表示核函数,x∈Rd,x'∈Rd表示经过数据预处理和归一化处理过的P2P样本数据,ai是小波伸缩因子,且ai>0,exp代表指数函数;
步骤1.3.2使用步骤1.2中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;并以SVM对训练样本的识别的正确率作为杜鹃搜索算法的适应度函数值,设定训练SVM终止条件,利用抓取的网络流数据包完成对不可分小波SVM对等网络识别模型的训练,得到分类决策函数;
步骤2基于不可分小波SVM对等网络流量识别阶段;
步骤2.1抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
步骤2.2对步骤2.1抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理;
步骤2.3利用步骤1中已经训练得到不可分小波SVM识别决策函数对步骤2.1中对等网络流数据样本集和非对等网络流数据样本集,进行计算判别分类,如果最终的识别决策函数值大于0,则认为它是对等网络流量并进行相应的控制和处理,否则是正常网络流量不予处理;
步骤3结束。
所述的步骤1.2或2.2中对抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理是通过数据包、网络流、节点连接三个层面进行特征数据的预处理;
数据包层面的特征:包括数据包的平均长度,数据包的最大长度,数据包的最小长度,以及方差统计特征;
网络流层面的特征:包括流的平均持续的时间,平均传输速率,流的平均字节数,数据包到达的时间间隔以及方差;
节点连接层面的特征:通过TCP的连接状态,对节点连接的相关特征进行统计,包括连接呈现出的对称性以及IP地址,端口特性。
所述的步骤1.2或2.2中对抓取的对等网络流量样本集和非对等网络流量样本集进行最小-最大归一化方法对原始数据进行归一化处理;假定minv和maxv分别为特征v的最小和最大值。最小-最大归一化方法通过下式:
A &prime; = A - min v max v - min v
其中A′表示特征v的原始值A映射到[0,1]之间的归一化值,minv和maxv分别为特征v的最小和最大值。
所述的步骤1.3.2包括以下步骤:
步骤1.3.2.1.输入步骤1.2中归一化处理过的SVM训练样本集;
步骤1.3.2.2初始化杜鹃算法种群的规模,鸟巢的初始位值nest=(nest1,nest2,…,nestm),其中第i个鸟巢的位置nesti=(c,σ),种群的迭代最大运行迭代次数N,杜鹃鸟蛋被发现的概率pa
步骤1.3.2.3将每个鸟巢nesti=(c,σ)的值分别代入到不可分小波核函数中,作为候选的参数,将使用此参数的不可分小波SVM对训练集进行识别,识别的正确率就是对应的这个鸟巢的适应度函数值,比较每个鸟巢nesti的适应度函数值,并记录和保留当前适应度值最大的群体最优鸟巢位置(c,σ)1
步骤1.3.2.4利用杜鹃搜索算法的位置更新公式对鸟巢位置进行更新,生成一组新的鸟巢nest′i的位置作为不可分小波SVM的参数值,计算新位置的适应度函数值,比较这组新解的适应度函数值并记其具有最高适应度函数值的位置(c,σ)2;将新巢nest′i与上一代鸟巢nesti的适应度值进行对比,如果新巢nest′i适应度值更好就用新的位置作为鸟巢的位置,否则鸟巢位置不变,其中杜鹃搜索算法采用如下公式进行位置更新;
x i ( t + 1 ) = x i ( t ) + &alpha; &CirclePlus; Levy ( &lambda; ) , i = 1,2 . . . n
其中α是速度步长控制量并且α>0,表示点对点乘法,Levy(λ)是均匀Levy分布随机数,服从Levy~μ=t(1<λ≤3),i表示第i个鸟巢的位置,t表示迭代次数,λ是列维飞行步长控制参数;
步骤1.3.2.5利用随机数r∈[0,1]与杜鹃鸟蛋被发现的概率pa对比,如果r>Pa,则通过列维飞行随机改变鸟巢nest′i的位置,得到一组新的鸟巢位置并计算其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置(c,σ)3;然后进入步骤1.3.2.6;如果r<Pa,则顺序执行下述步骤1.3.2.6;
步骤1.3.2.6对比位置(c,σ)1、位置(c,σ)2、位置(c,σ)3的适应度函数值,重新选出当前最优位置(c,σ)′1
步骤1.3.2.7如迭代次数t未到达设定的算法最大迭代次数N,则跳到步骤1.3.2.4,继续迭代更新;如果已经达到最大的迭代次数,则输出步骤1.3.2.6中的当前最优位置(c,σ)′1作为不可分小波SVM的参数;
步骤1.3.2.8将输出的最优解作为到SVM的惩罚参数和核函数参数,完成对不可分小波SVM对等网络流量识别模型的训练,得到最终的分类决策函数;
f ( x ) = sgn { &Sigma; i = 1 n l i &times; y i K ( x i , x ) + b * }
其中,sgn为符号函数,li为Lagrange系数,(xi,yi),i=1,2,…n为样本集,且yi表示分类的类别识别标号,K(xi,x)为不可分小波核函数,b*为分类的阈值。
一种基于不可分小波SVM的对等网络流量识别系统,包括如下模块:
不可分小波SVM的训练模块包括如下模块;
第一抓取模块:用于抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
第一处理模块:用于对第一抓取模块抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理,作为第一计算模块中SVM的训练集数据存入到数据库中;
第一计算模块:用于构造不可分小波函数作为SVM的核函数;使用第一处理模块中归一化处理存在数据库中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;
用于构造不可分小波函数作为SVM的核函数;
K ( x , x &prime; ) = &Pi; i = 1 n ( 1 - | | x - x &prime; | | 2 a i ) exp ( | | x - x &prime; | | 2 2 a i 2 )
其中,K(x,x')表示核函数,x∈Rd,x'∈Rd表示经过数据预处理和归一化处理过的P2P样本数据,ai是小波伸缩因子,且ai>0,exp代表指数函数;
用于使用第一处理模块中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;并以SVM对训练样本的识别的正确率作为杜鹃搜索算法的适应度函数值,设定训练SVM终止条件,利用抓取的网络流数据包完成对不可分小波SVM对等网络识别模型的训练,得到分类决策函数;
不可分小波SVM对等网络流量识别模块;
第二抓取模块:用于抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
第二处理模块,用于对步骤第二抓取模块抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理;
第二计算模块:用于利用第二抓取模块中已经训练得到不可分小波SVM识别决策函数对第二抓取模块中对等网络流数据样本集和非对等网络流数据样本集,进行计算判别分类,如果最终的识别决策函数值大于0,则认为它是对等网络流量并进行相应的控制和处理,否则是正常网络流量不予处理。
本发明的有益效果是:一种基于不可分小波SVM的对等网络流量识别方法和系统根据对等网络流量相似性、突变性、多尺度的特性,引入小波分析工具,构造不可分小波作为SVM的核函数,提高了识别正确率;此外,针对网格搜索算法确定SVM惩罚参数和核函数效率低下的问题,引入杜鹃搜索快速确定SVM的最优参数,加快SVM的训练速度,提高识别正确率和计算效率;本发明能够在小样本下、实时高效地识别对等网络流量。
附图说明
图1为本发明的整体流程图;
图2为本发明中基于杜鹃搜索算法确定不可分小波SVM最优参数步骤流程图。
具体实施方式
下面结合附图及实施例,对本发明作进一步详细的描述。
如图1,一种基于不可分小波SVM的对等网络流量识别方法,包括如下步骤:
步骤1不可分小波SVM的训练步骤;
步骤1.1利用网络数据抓取模块抓取网络数据包,这里使用Wincap工具从网络上随机抓取某一段时间内网络数据流包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集,作为步骤1.3中SVM的训练集;
步骤1.2对步骤1.1抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理,作为步骤1.3中SVM的训练集数据存入到数据库中;
选取合适的特征向量和特征数据预处理是对等网络流量识别的重要步骤之一,本发明中通过数据包、网络流、节点连接三个层面进行特征数据预处理的分析;
①数据包层面的特征:包括数据包的平均长度,数据包的最大长度,数据包的最小长度,以及方差统计特征。
②网络流层面的特征:包括流的平均持续的时间,平均传输速率,流的平均字节数,数据包到达的时间间隔以及方差。
③节点连接层面的特征:通过TCP的连接状态,对节点连接的相关特征进行统计,包括连接呈现出的对称性以及IP地址,端口特性。
为了消除不同特征量纲对于识别结果的影响,这里采用对最小-最大归一化方法对原始三个特征数据进行归一化处理。假定minv和maxv分别为特征v的最小和最大值。最小-最大归一化方法通过下式
A &prime; = A - min v max v - min v
其中A′表示特征v的原始值A映射到[0,1]之间的归一化值,minv和maxv分别为特征v的最小和最大值,经过归一化处理以后,所有的特征数据都变成了数字向量形式,方便SVM进行训练和识别决策。
步骤1.3构造不可分小波函数作为SVM的核函数;使用步骤1.2中归一化处理存在数据库中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;
步骤1.3.1构造不可分小波函数作为SVM的核函数;
对等网络流量,无论从宏观上还是微观上都呈现出非常明显的自相似性、突变性、多尺度的特性,这些复杂的特性使得一些传统意义上的识别模型已经不能将对等网络流量进行有效的识别,而小波分析适合于信号的局部分析和突变信号的检测,将小波分析中多尺度的学习方法和SVM优点结合起来,而且不可分小波在构造上有更大的自由度而且它将高维信号作为整体来处理,更有利于高维信号的各个方向信息的分析。因此本发明构造不可分小波函数作为SVM的核函数,并且用于对等网络的流量识别。本发明以Mexican hat小波函数作为不可分小波核函数的实例,并在此基础上构造如下SVM核函数
K ( x , x &prime; ) = &Pi; i = 1 n ( 1 - | | x - x &prime; | | 2 a i ) exp ( | | x - x &prime; | | 2 2 a i 2 )
其中,K(x,x')表示核函数,x∈Rd,x'∈Rd表示经过数据预处理和归一化处理过的P2P样本数据,ai是小波伸缩因子,且ai>0,exp代表指数函数;
步骤1.3.2使用步骤1.2中的SVM训练样本集,SVM中惩罚因子C和核函数参数σ对分类准确率有很大影响,基于网格搜索的参数确定方法计算耗时,效率低下,本发明使用杜鹃搜索算法快速获得最优SVM的惩罚参数C和核函数参数σ;并以SVM对训练样本的识别的正确率作为杜鹃搜索算法的适应度函数值,设定训练SVM终止条件,利用抓取的网络流数据包完成对Mexican hat不可分小波SVM对等网络识别模型的训练,得到分类决策函数;
如图2所示所述的步骤1.3.2包括以下步骤:
步骤1.3.2.1.输入步骤1.2中归一化处理过的SVM训练样本集;
步骤1.3.2.2初始化杜鹃算法种群的规模,鸟巢的初始位值nest=(nest1,nest2,…,nestm),其中第i个鸟巢的位置nesti=(c,σ),种群的迭代最大运行迭代次数N,杜鹃鸟蛋被发现的概率pa
步骤1.3.2.3将每个鸟巢nesti=(c,σ)的值分别代入到不可分小波核函数中,作为候选的参数,将使用此参数的不可分小波SVM对训练集进行识别,识别的正确率就是对应的这个鸟巢的适应度函数值,比较每个鸟巢nesti的适应度函数值,并记录和保留当前适应度值最大的群体最优鸟巢位置(c,σ)1
步骤1.3.2.4利用杜鹃搜索算法的位置更新公式对鸟巢位置进行更新,生成一组新的鸟巢nest′i的位置作为SVM的不可分小波核函数的参数值,计算新位置的适应度函数值,比较这组新解的适应度函数值并记其具有最高适应度函数值的位置(c,σ)2;将新巢nest′i与上一代鸟巢nesti的适应度值进行对比,如果新巢nest′i适应度值更好就用新的位置作为鸟巢的位置,否则鸟巢位置不变,其中杜鹃搜索算法采用如下公式进行位置更新;
x i ( t + 1 ) = x i ( t ) + &alpha; &CirclePlus; Levy ( &lambda; ) , i = 1,2 . . . n
其中α是速度步长控制量并且α>0,表示点对点乘法,Levy(λ)是均匀Levy分布随机数,服从Levy~μ=t(1<λ≤3),i表示第i个鸟巢的位置,t表示迭代次数,λ是列维飞行步长控制参数;
步骤1.3.2.5利用随机数r∈[0,1]与杜鹃鸟蛋被发现的概率pa对比,如果r>Pa,则通过列维飞行随机改变鸟巢nest′i的位置,得到一组新的鸟巢位置并计算其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置(c,σ)3;然后进入步骤1.3.2.6;如果r<Pa,则顺序执行下述步骤1.3.2.6;
步骤1.3.2.6.对比位置(c,σ)1、位置(c,σ)2、位置(c,σ)3的应度函数值,重新选出当前最优位置(c,σ)′1
步骤1.3.2.7如迭代次数t未到达设定的算法最大迭代次数N,则跳到步骤1.3.2.4.,继续迭代更新;如果已经达到最大的迭代次数,则输出步骤1.3.2.6中的当前最优位置(c,σ)′1作为不可分小波SVM的参数;
步骤1.3.2.8将输出的最优解作为到SVM的惩罚参数和核函数参数,完成对不可分小波SVM对等网络流量识别模型的训练,得到最终的分类决策函数;
f ( x ) = sgn { &Sigma; i = 1 n l i &times; y i K ( x i , x ) + b * }
其中,sgn为符号函数,li为Lagrange系数,(xi,yi),i=1,2,…n为样本集,且yi表示分类的类别识别标号,K(xi,x)为不可分小波核函数,b*为分类的阈值。
步骤2基于不可分小波SVM对等网络流量识别阶段;
步骤2.1抓取网络数据包,这里使用Wincap工具从网络上随机抓取某一段时间内网络数据流包并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集。
步骤2.2对抓取的网络数据包提取流量特征,将其转换为数值向量形式并归一化其值到0与1之间并存入到数据库中;
选取合适的特征向量和特征数据预处理是对等网络流量识别的重要步骤之一,本发明中通过数据包、网络流、节点连接三个层面进行特征向量的分析;
①数据包层面的特征:包括包的平均长度,包的最大长度,包的最小长度,以及方差统计特征。
②网络流层面的特征:包括流的平均持续的时间,平均传输速率,流的平均字节数,包到达的时间间隔以及方差。
③节点连接层面的特征:通过TCP的连接状态,对节点连接的相关特征进行统计,包括连接呈现出的对称性以及IP地址,端口特性等。
为了消除不同特征量纲对于识别结果的影响,这里采用对最小-最大归一化方法对原始三个特征数据进行归一化处理。假定minv和maxv分别为特征v的最小和最大值。最小-最大归一化方法通过下式:
A &prime; = A - min v max v - min v
其中A’表示特征v的原始值A映射到[0,1]之间的归一化值,minv和maxv分别为特征v的最小和最大值,经过归一化处理以后,所有的特征数据都变成了数字向量形式,方便SVM进行训练和识别决策。
步骤2.3利用步骤1中已经训练得到不可分小波SVM识别决策函数对步骤2.1中对等网络流数据样本集和非对等网络流数据样本集,进行计算判别分类,如果最终的识别决策函数值大于0,则认为它是对等网络流量并进行相应的控制和处理,否则是正常网络流量不予处理;
步骤3,结束。
一种基于不可分小波SVM的对等网络流量识别系统,其特征在于:包括如下模块:
不可分小波SVM的训练模块包括如下模块:
第一抓取模块:用于抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
第一处理模块:用于对第一抓取模块抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理,作为第一计算模块中SVM的训练集数据存入到数据库中;
第一计算模块:用于构造不可分小波函数作为SVM的核函数;使用第一处理模块中归一化处理存在数据库中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;
用于构造不可分小波函数作为SVM的核函数;
K ( x , x &prime; ) = &Pi; i = 1 n ( 1 - | | x - x &prime; | | 2 a i ) exp ( | | x - x &prime; | | 2 2 a i 2 )
其中,K(x,x')表示核函数,x∈Rd,x'∈Rd表示经过数据预处理和归一化处理过的P2P样本数据,ai是小波伸缩因子,且ai>0,exp代表指数函数;
用于使用第一处理模块中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;并以SVM对训练样本的识别的正确率作为杜鹃搜索算法的适应度函数值,设定训练SVM终止条件,利用抓取的网络流数据包完成对不可分小波SVM对等网络识别模型的训练,得到分类决策函数;
不可分小波SVM对等网络流量识别模块;
第二抓取模块:用于抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
第二处理模块,用于对步骤第二抓取模块抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理;
第二计算模块:用于利用第二抓取模块中已经训练得到不可分小波SVM识别决策函数对第二抓取模块中对等网络流数据样本集和非对等网络流数据样本集,进行计算判别分类,如果最终的识别决策函数值大于0,则认为它是对等网络流量并进行相应的控制和处理,否则是正常网络流量不予处理。
本文中所描述的具体实施例仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,例如不可分小波有本领域技术人员自行根据具体情况构造,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于不可分小波SVM的对等网络流量识别方法,其特征在于,包括如下步骤:
步骤1不可分小波SVM的训练步骤;
步骤1.1抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
步骤1.2对步骤1.1抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理,作为步骤1.3中SVM的训练集数据存入到数据库中;
步骤1.3构造不可分小波函数作为SVM的核函数;使用步骤1.2中归一化处理存在数据库中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;
步骤1.3.1构造不可分小波函数作为SVM的核函数;
K ( x , x &prime; ) = &Pi; i = 1 n ( 1 - | | x - x &prime; | | 2 a i ) exp ( | | x - x &prime; | | 2 2 a i 2 )
其中,K(x,x')表示核函数,x∈Rd,x'∈Rd表示经过数据预处理和归一化处理过的P2P样本数据,ai是小波伸缩因子,且ai>0,exp代表指数函数;
步骤1.3.2使用步骤1.2中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;并以SVM对训练样本的识别的正确率作为杜鹃搜索算法的适应度函数值,设定训练SVM终止条件,利用抓取的网络流数据包完成对不可分小波SVM对等网络识别模型的训练,得到分类决策函数;
步骤2基于不可分小波SVM对等网络流量识别阶段;
步骤2.1抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
步骤2.2对步骤2.1抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理;
步骤2.3利用步骤1中已经训练得到不可分小波SVM识别决策函数对步骤2.1中对等网络流数据样本集和非对等网络流数据样本集,进行计算判别分类,如果最终的识别决策函数值大于0,则认为它是对等网络流量并进行相应的控制和处理,否则是正常网络流量不予处理;
步骤3结束。
2.根据权利要求1所述的一种基于不可分小波SVM的对等网络流量识别方法,其特征在于,所述的步骤1.2或2.2中对抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理是通过数据包、网络流、节点连接三个层面进行特征数据的预处理;
数据包层面的特征:包括数据包的平均长度,数据包的最大长度,数据包的最小长度,以及方差统计特征;
网络流层面的特征:包括流的平均持续的时间,平均传输速率,流的平均字节数,数据包到达的时间间隔以及方差;
节点连接层面的特征:通过TCP的连接状态,对节点连接的相关特征进行统计,包括连接呈现出的对称性以及IP地址,端口特性。
3.根据权利要求1所述的一种基于不可分小波SVM的对等网络流量识别方法,其特征在于,所述的步骤1.2或2.2中对抓取的对等网络流量样本集和非对等网络流量样本集进行最小-最大归一化方法对原始数据进行归一化处理;假定minv和maxv分别为特征v的最小和最大值;最小-最大归一化方法通过下式:
A &prime; = A - min v max v - min v
其中A′表示特征v的原始值A映射到[0,1]之间的归一化值,minv和maxv分别为特征v的最小和最大值。
4.根据权利要求1所述的一种基于不可分小波SVM的对等网络流量识别方法,其特征在于,所述的步骤1.3.2包括以下步骤:
步骤1.3.2.1输入步骤1.2中归一化处理过的SVM训练样本集;
步骤1.3.2.2初始化杜鹃算法种群的规模,鸟巢的初始位值nest=(nest1,nest2,…,nestm),其中第i个鸟巢的位置nesti=(c,σ),种群的迭代最大运行迭代次数N,杜鹃鸟蛋被发现的概率pa
步骤1.3.2.3将每个鸟巢nesti=(c,σ)的值分别代入到不可分小波核函数中,作为候选的参数,将使用此参数的不可分小波SVM对训练集进行识别,识别的正确率就是对应的这个鸟巢的适应度函数值,比较每个鸟巢nesti的适应度函数值,并记录和保留当前适应度值最大的群体最优鸟巢位置(c,σ)1
步骤1.3.2.4利用杜鹃搜索算法的位置更新公式对鸟巢位置进行更新,生成一组新的鸟巢nesti′的位置作为SVM的不可分小波核函数的参数值,计算新位置的适应度函数值,比较这组新解的适应度函数值并记其具有最高适应度函数值的位置(c,σ)2;将新巢nesti'与上一代鸟巢nesti的适应度值进行对比,如果新巢nesti'适应度值更好就用新的位置作为鸟巢的位置,否则鸟巢位置不变,其中杜鹃搜索算法采用如下公式进行位置更新;
x i ( t + 1 ) = x i ( t ) + &alpha; &CirclePlus; Levy ( &lambda; ) , i = 1,2 . . . n
其中α是速度步长控制量并且α>0,表示点对点乘法,Levy(λ)是均匀Levy分布随机数,服从Levy~μ=t(1<λ≤3),i表示第i个鸟巢的位置,t表示迭代次数,λ是列维飞行步长控制参数;
步骤1.3.2.5利用随机数r∈[0,1]与杜鹃鸟蛋被发现的概率pa对比,如果r>Pa,则通过列维飞行随机改变鸟巢nesti'的位置,得到一组新的鸟巢位置并计算其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置(c,σ)3;然后进入步骤1.3.2.6;如果r<Pa,则顺序执行下述步骤1.3.2.6;
步骤1.3.2.6对比位置(c,σ)1、位置(c,σ)2、位置(c,σ)3的适应度函数值,重新选出当前最优位置(c,σ)1';
步骤1.3.2.7如迭代次数t未到达设定的算法最大迭代次数N,则跳到步骤1.3.2.4,继续迭代更新;如果已经达到最大的迭代次数,则输出步骤1.3.2.6中的当前最优位置(c,σ)1'作为不可分小波SVM的参数;
步骤1.3.2.8.将输出的最优解作为到SVM的惩罚参数和核函数参数,完成对不可分小波SVM对等网络流量识别模型的训练,得到最终的分类决策函数;
f ( x ) = sgn { &Sigma; i = 1 n l i &times; y i K ( x i , x ) + b * }
其中,sgn为符号函数,li为Lagrange系数,(xi,yi),i=1,2,…n为样本集,且yi表示分类的类别识别标号,K(xi,x)为不可分小波核函数,b*为分类的阈值。
5.一种基于不可分小波SVM的对等网络流量识别系统,其特征在于,包括如下模块:
不可分小波SVM的训练模块包括如下模块;
第一抓取模块:用于抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
第一处理模块:用于对第一抓取模块抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理,作为第一计算模块中SVM的训练集数据存入到数据库中;
第一计算模块:用于构造不可分小波函数作为SVM的核函数;使用第一处理模块中归一化处理存在数据库中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;
用于构造不可分小波函数作为SVM的核函数;
K ( x , x &prime; ) = &Pi; i = 1 n ( 1 - | | x - x &prime; | | 2 a i ) exp ( | | x - x &prime; | | 2 2 a i 2 )
其中,K(x,x')表示核函数,x∈Rd,x'∈Rd表示经过数据预处理和归一化处理过的P2P样本数据,ai是小波伸缩因子,且ai>0,exp代表指数函数;
用于使用第一处理模块中的SVM训练样本集,利用杜鹃搜索算法确定SVM的惩罚参数C和核函数参数σ;并以SVM对训练样本的识别的正确率作为杜鹃搜索算法的适应度函数值,设定训练SVM终止条件,利用抓取的网络流数据包完成对不可分小波SVM对等网络识别模型的训练,得到分类决策函数;
不可分小波SVM对等网络流量识别模块;
第二抓取模块:用于抓取网络数据包,并统计其中对等网络流数据样本和非对等网络流数据样本数目,得到对等网络流数据样本集和非对等网络流数据样本集;
第二处理模块,用于对步骤第二抓取模块抓取的对等网络流量样本集和非对等网络流量样本集进行特征数据预处理和归一化处理;
第二计算模块:用于利用第二抓取模块中已经训练得到不可分小波SVM识别决策函数对第二抓取模块中对等网络流数据样本集和非对等网络流数据样本集,进行计算判别分类,如果最终的识别决策函数值大于0,则认为它是对等网络流量并进行相应的控制和处理,否则是正常网络流量不予处理。
CN201410547394.2A 2014-10-16 2014-10-16 一种基于不可分小波svm的对等网络流量识别方法和系统 Pending CN104243245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410547394.2A CN104243245A (zh) 2014-10-16 2014-10-16 一种基于不可分小波svm的对等网络流量识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410547394.2A CN104243245A (zh) 2014-10-16 2014-10-16 一种基于不可分小波svm的对等网络流量识别方法和系统

Publications (1)

Publication Number Publication Date
CN104243245A true CN104243245A (zh) 2014-12-24

Family

ID=52230642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410547394.2A Pending CN104243245A (zh) 2014-10-16 2014-10-16 一种基于不可分小波svm的对等网络流量识别方法和系统

Country Status (1)

Country Link
CN (1) CN104243245A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345704A (zh) * 2008-08-15 2009-01-14 南京邮电大学 基于支持向量机的对等网络流量检测方法
CN101510841A (zh) * 2008-12-31 2009-08-19 成都市华为赛门铁克科技有限公司 端到端流量识别方法和系统
US20140059216A1 (en) * 2012-08-27 2014-02-27 Damballa, Inc. Methods and systems for network flow analysis
CN103780501A (zh) * 2014-01-03 2014-05-07 濮阳职业技术学院 一种不可分小波支持向量机的对等网络流量识别方法
CN203596829U (zh) * 2013-11-25 2014-05-14 湖北工业大学 一种不可分小波支持向量机的对等网络流量识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345704A (zh) * 2008-08-15 2009-01-14 南京邮电大学 基于支持向量机的对等网络流量检测方法
CN101510841A (zh) * 2008-12-31 2009-08-19 成都市华为赛门铁克科技有限公司 端到端流量识别方法和系统
US20140059216A1 (en) * 2012-08-27 2014-02-27 Damballa, Inc. Methods and systems for network flow analysis
CN203596829U (zh) * 2013-11-25 2014-05-14 湖北工业大学 一种不可分小波支持向量机的对等网络流量识别系统
CN103780501A (zh) * 2014-01-03 2014-05-07 濮阳职业技术学院 一种不可分小波支持向量机的对等网络流量识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李沁沄: "融合杜鹃搜索的粒子群算法的P2P流量识别方法研究", 《中国优秀硕士学位论文全文数据库》 *

Similar Documents

Publication Publication Date Title
Gu et al. Ensemble meta-learning for few-shot soot density recognition
Zhang et al. ARFace: attention-aware and regularization for face recognition with reinforcement learning
De la Hoz et al. Feature selection by multi-objective optimisation: Application to network anomaly detection by hierarchical self-organising maps
CN107145827A (zh) 基于自适应距离度量学习的跨摄像机行人再识别方法
Wang et al. App-net: A hybrid neural network for encrypted mobile traffic classification
Wang et al. A deep hierarchical network for packet-level malicious traffic detection
CN104036255A (zh) 一种人脸表情识别方法
CN110222718B (zh) 图像处理的方法及装置
CN110210335A (zh) 一种行人重识别学习模型的训练方法、系统和装置
CN112995150B (zh) 一种基于cnn-lstm融合的僵尸网络检测方法
Han et al. A packet-length-adjustable attention model based on bytes embedding using flow-wgan for smart cybersecurity
Xu et al. DDoS detection using a cloud-edge collaboration method based on entropy-measuring SOM and KD-tree in SDN
Chen et al. A feature selection method for intrusion detection based on parallel sparrow search algorithm
Subramanian et al. PSO Based Fuzzy-Genetic Optimization Technique for Face Recognition
Guo et al. A novel cluster-head selection algorithm based on hybrid genetic optimization for wireless sensor networks
CN112990371A (zh) 一种基于特征扩增的无监督夜间图像分类方法
CN102984131A (zh) 一种信息识别方法和装置
CN112308093A (zh) 基于图像识别的空气质量感知方法、模型训练方法及系统
CN116977725A (zh) 一种基于改进卷积神经网络的异常行为识别方法及装置
CN116916317A (zh) 一种基于大白鲨和随机森林的入侵检测方法
CN104243245A (zh) 一种基于不可分小波svm的对等网络流量识别方法和系统
CN115225310B (zh) 基于优化元学习的轻量恶意软件流量检测方法及装置
CN113256507B (zh) 一种针对二进制流量数据生成图像的注意力增强方法
Shaik et al. Dynamic Object Detection Revolution: Deep Learning with Attention, Semantic Understanding, and Instance Segmentation for Real-World Precision.
Xie et al. CoCoS: Enhancing semi-supervised learning on graphs with unlabeled data via contrastive context sharing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224

WD01 Invention patent application deemed withdrawn after publication