CN104702465A - 一种并行网络流量分类方法 - Google Patents

一种并行网络流量分类方法 Download PDF

Info

Publication number
CN104702465A
CN104702465A CN201510066197.3A CN201510066197A CN104702465A CN 104702465 A CN104702465 A CN 104702465A CN 201510066197 A CN201510066197 A CN 201510066197A CN 104702465 A CN104702465 A CN 104702465A
Authority
CN
China
Prior art keywords
vector
base grader
class label
value
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510066197.3A
Other languages
English (en)
Other versions
CN104702465B (zh
Inventor
王勇
龙也
陶晓玲
何倩
韦毅
曾小宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201510066197.3A priority Critical patent/CN104702465B/zh
Publication of CN104702465A publication Critical patent/CN104702465A/zh
Application granted granted Critical
Publication of CN104702465B publication Critical patent/CN104702465B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种并行网络流量分类方法,基于Hadoop集群平台提供的MapReduce并行框架,先对数据集进行预处理,通过特征选择方法对高维网络流量数据降维,去除不相关以及冗余特征;然后通过选择性集成学习训练多个基分类器,选出其中准确率高以及差异性大的基分类器集成;最后通过多数投票方式得出最终分类结果。本发明能够有效的解决海量数据降维及分类问题,很大程度上提高了数据处理效率。

Description

一种并行网络流量分类方法
技术领域
本发明属于数据处理技术领域,具体涉及一种并行网络流量分类方法。
背景技术
随着高速网络的迅速发展,新型网络业务不断涌现,网络规模因其开放性、共享性等特点不断地扩大,不同的应用流量呈现不同特征,日趋严重的网络安全以及网络服务质量问题给网络流量分类领域带来巨大的挑战。网络流量分类是认识、管理和优化各种网络资源的重要依据,它将基于TCP/IP协议的Internet产生的双向TCP流或UDP流按照网络应用类型(例如WWW、FTP、MAIL、P2P等)进行分类。
网络流量特征选择作为流量分类的关键步骤,在损失较少信息的情况下,从大量候选特征属性中删除无关或冗余的特征,降低候选特征维数,减少训练时间和计算复杂度,提高学习算法效率及分类的精度。虽然特征选择从研究之初到现在,已有很多成熟的方法,但是关于网络流量方面的特征选择方法研究较少。
在网络流量分类算法方面,基于流统计特征的机器学习方法成为主流,大多数基于流统计特征的机器学习方法均使用单个基分类器处理流量分类问题,而其缺陷在于难以适应网络环境的动态变化,在不同环境下的分类效果差距较大。集成学习通过对样本学习训练出若干个基分类器,然后根据某种规则将这些分类结果进行整合以解决某一具体问题。而大量研究发现,选择部分基分类器进行集成学习比选择所有的基分类器具有更好的泛化性,这种方法被称为选择性集成。基分类器选择性集成学习目的在于不降低甚至进一步提高基分类器预测精度的前提下,尽可能减少参与集成学习的基分类器数目。
尽管结合特征选择方法与选择性集成思想可以很大程度上提高分类准确率并体现出较好的泛化性,但随着数据采集和数据存储技术的飞速发展,网络流量数据集规模越来越大,单一的计算节点资源已不能高效快速的解决分类问题,数据存储方式的变化对分类算法的计算效率、并行性和分布化都提出了要求。
发明内容
本发明所要解决的是目前单一计算节点资源不能高效解决大规模数据处理的问题而提供一种并行网络流量分类方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种并行网络流量分类方法,包括对网络流量数据进行特征选择过程S1和对网络流量分类得到分类结果过程S2。
上述网络流量数据进行特征选择的过程S1具体如下:
S1-1.将初始数据DA处理成特征向量X后,按照设定的向量个数a将其划分为a份特征向量子集Y,且所有类标签作为单独一个类标签向量C;
S1-2.启动映射任务,将a份特征向量子集Y均分到a个映射任务节点上,并将类标签向量C传到这a个映射任务节点;
S1-3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C),从各特征向量X中预选出鉴别能力强与相关性大的特征向量,整合预选出的特征向量得到整合特征向量子集S,并将整合特征向量子集S与类标签向量C一起发送到规约任务节点上;
S1-4.启动规约任务,规约任务节点计算整合特征向量子集S的每个特征向量与类标签向量C的类标签互信息标准化值SU(x,C);
S1-5.初始化优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该特征向量;
S1-6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量,计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值SU(x,x’),如果该特征向量存在特征互信息标准化值SU(x,x’)大于类标签互信息标准化值SU(x,C)的情形,则从整合特征向量子集S中删除该特征向量,否则将该特征向量加入到优选特征向量子集V中;
S1-7.重复步骤S1-6,直到整合特征向量子集S为空,此时整合优选特征向量子集V与类标签向量C构成训练集L输出到后续对网络流量分类得到分类结果过程S2中。
步骤S1-3中,鉴别能力强与相关性大的特征的预选过程如下:
S1-31.根据费舍尔得分公式计算每个特征向量的费舍尔得分Fk
F k = Σ i = 1 c n i ( x k l ‾ - x k ‾ ) 2 Σ i = 1 c n i ( σ k i ) 2
式中,i表示类别,c表示类的数量,ni表示第i类样本的数量,表示第i类中第k个特征的均值,表示所有样本中第k个特征的均值,表示第i类中第k个特征的方差;
S1-32.根据互信息的标准化公式计算每个特征向量与类标签向量的类标签互信息标准化值SU(x,C);
SU ( x , C ) = 2 I ( x , C ) H ( C ) + H ( x )
式中,H(x)表示特征向量x的信息熵,H(C)表示类标签向量C的信息熵,I(x,C)表示特征向量x与类标签向量C的联合熵;
S1-33.根据给定的权重系数α,将上述两个公式融合得到目标评价函数Tk
Tk=α×Fk+(1-α)×SU(x,C)
S1-34.选出各特征向量子集Y中目标评价函数Tk大于预设阈值的特征向量,并将特征向量进行整合后得到整合特征向量子集S。
步骤S1-4中的类标签互信息标准化值SU(x,C)和步骤S1-6中的特征互信息标准化值SU(x,x’)的计算公式分别为:
SU ( x , C ) = 2 I ( x , C ) H ( C ) + H ( x )
SU ( x , x , ) = 2 I ( x , x , ) H ( x , ) + H ( x )
式中,H(x)表示特征向量x的信息熵,H(x’)表示特征向量x’的信息熵,H(C)表示类标签向量C的信息熵,I(x,C)表示特征向量x与类标签向量C的联合熵,I(x,x’)表示特征向量x与特征向量x’的联合熵。
上述对网络流量分类得到分类结果的过程S2具体如下:
S2-1.对经过特征选择之后的训练集L按样本向量化,按设定的向量个数s重复抽样s份作为样本训练集,随机抽取其中的一份作为测试集;
S2-2.再次启动映射任务,将划分后的s-1份样本训练集均分到s-1个映射任务节点上,并将测试集传到这s-1个映射任务节点;
S2-3.对每个样本训练集训练一个基分类器,用测试集分别测试各基分类器得到该基分类器的预测类标签向量;将预测类标签向量中的类标签与实际的类标签向量中的类标签逐一进行比较,获得每个基分类器的分类准确率;选出分类准确率大于设定阈值的基分类器,将被选基分类器、该基分类器对应的分类准确率和预测类标签向量一起传送到规约任务节点;
S2-4.再次启动规约任务,根据不一致性度量公式计算各基分类器的差异性值dij,选出差异性大的基分类器集成为分类器集;
S2-5.通过多数投票方式,用得到的分类器集对测试集进行分类。
步骤S2-4具体如下:
S2-41.根据不一致性度量公式计算两个基分类器di和dj之间的差异dij
d ij = N 01 + N 10 N 11 + N 10 + N 01 + N 00
式中,N00和N11分别表示2个基分类器di与dj均预测错误与均预测正确的样本数目,N01表示基分类器di预测错误而基分类器dj预测正确的样本数目,N10表示基分类器di预测正确而基分类器dj预测错误的数目;
S2-42.度量n个基分类器间的差异,可得基分类器差异性矩阵Div;
式中,dij表示基分类器di与dj的差异性值;
S2-43.根据下式计算每个基分类器di在整体基分类器的差异性值
∂ i = Σ j = 1 n d ij / n
式中,dij表示基分类器di与dj的差异性值,n表示基分类器的个数;
S2-44.整合上述3个公式得到基分类器差异性矩阵Ds
D s = ∂ 1 ∂ 2 . . . ∂ n
式中,表示基分类器di在整体基分类器的差异性值,i=1,2,…,n,n表示基分类器的个数;
S2-45.根据下公式计算整体基分类器的平均差异性值AV;
AV = Σ i = 1 n ∂ i / n - - - ( 11 )
式中,表示基分类器di在整体基分类器的差异性值,i=1,2,…,n,n表示基分类器的个数;
S2-46.将基分类器差异性矩阵Ds中各基分类器的差异性与平均差异性值AV比较,当则选中该基分类器di参与最后的集成预测。
步骤S2-41中dij的值的变化范围在[0,1]之间,dij值越大,表示基分类器间的差异性越大。
与现有技术相比,本发明的有益效果在于:
(1)通过特征选择剔除大量无关的、冗余的特征,实现高维数据的降维,可以提高基分类器的分类准确率;
(2)基于Hadoop集群环境和MapReduce并行计算模型可以提高特征选择和训练基分类器的效率。
附图说明
图1是基于互信息与集成学习的并行网络流量分类方法的总流程图。
图2是图1中网络流量特征选择过程的流程图。
图3是图1中网络流量分类过程的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
一种并行网络流量分类方法,如图1所示,其通过两个Map-Reduce过程完成:第一个Map-Reduce过程对网络流量数据进行特征选择,剔除不相关及冗余性大的特征;第二个Map-Reduce过程采用选择性集成学习算法对网络流量分类得到分类结果。
如图2所示,基于MapReduce并行框架的网络流量特征选择的过程,先通过费舍尔得分与类标签互信息标准化值预选出鉴别能力较强、相关性较高的特征向量子集,然后通过特征互信息标准化值剔除被选特征向量子集中的冗余特征。
S1-1.数据预处理,将初始数据DA={d1,d2,…,dn}(例如Moore-set,其中di为训练样本,每个样本共249种特征,其中最后一个特征为类标签)处理成特征向量形式X={x1,x2,…,xm}。
按设定的向量个数a划分为a(a<248)份特征向量子集Y={y1,y2,…,yl}(yi∈X,=1,2…l,l<m)。
另外,数据通过预处理之后还剩10个类别:即
"WWW","SERVICES","P2P","MULTIMEDIA","MAIL","FTP-PASV","FTP-DATA","FTP-CONTROL",DATABASE","ATTACK",
作为单独一个向量,即类标签向量C={c1,c2,…,cn}(第249个特征,ci为xi的类标签。
S1-2.数据部署,在Hadoop平台的各个节点启动Map任务(简称Mapper),将划分后的a份特征向量子集Y均分到a个Mapper节点,并将类标签向量C传到这a个Mapper节点;其传送形式为<key,value>键值对,key值为特征子集向量,value值为类标签向量C。
S1-3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C),从特征向量子集Y中预选出鉴别能力强与相关性大的特征,整合预选出的特征向量得到整合特征向量子集S,将整合特征向量子集S与类标签向量C一起发送到Reduce任务节点上;其传送形式<key,value>键值对中,key值为整合特征子集向量S,value值为类标签向量C。
S1-31.根据费舍尔得分公式(1)计算每个特征向量的费舍尔得分Fk,其中,类标签i表示类别,c表示类的数量,ni表示第类样本的数量,表示第i类中第k个特征的均值,表示所有样本中第k个特征的均值,表示第i类中第k个特征的方差;
F k = &Sigma; i = 1 c n i ( x k l &OverBar; - x k &OverBar; ) 2 &Sigma; i = 1 c n i ( &sigma; k i ) 2 - - - ( 1 )
S1-32.根据信息熵公式(2)计算每个特征向量和类标签向量的信息熵,其中,i表示类别,c表示类的数量,p表示出现的概率;
H ( x ) = &Sigma; i = 1 c - p ( x i ) log 2 p ( x i ) - - - ( 2 )
S1-33.根据联合熵公式(3)计算每个特征与类标签向量的联合熵,其中,i,j表示类别,h,c表示类的数量,p表示出现的概率;
H ( x , y ) = - &Sigma; j = 1 h p ( y j ) ( &Sigma; i = 1 c - p ( x i / y j ) log 2 p ( x i / y j ) ) - - - ( 3 )
S1-34.根据互信息公式(4)计算每个特征向量与类标签向量的互信息;
I(x,C)=H(x)+H(C)-H(x,C)    (4)
S1-35.根据互信息的标准化形式(Symmetrical uncertainty,SU)(5)计算每个特征向量与类标签向量的互信息标准化值,其中,H(x)表示特征向量x的信息熵,H(C)表示类标签向量C的信息熵,I(x,C)表示特征向量x与类标签向量C的联合熵;
SU ( x , C ) = 2 I ( x , C ) H ( C ) + H ( x ) - - - ( 5 )
S1-36.根据费舍尔得分与互信息的标准化形式这两种算法的不同特性,给F和SU分配一个权重系数α。融合公式(1)和(5)得到目标评价函数Tk,根据公式(6)计算每个特征向量的值,当Tk的值越大,表示第k个特征有更好的区分度和类别相关性,选出Tk较大的特征。
Tk=α×Fk+(1-α)×SU(x,C)    (6)
需要指出的是:所述步骤S1-36根据目标评价函数计算第k特征向量的值Tk时,权重系数α根据具体的Fk和SU值大小而定(当Fk起主导作用时增加Fk权重,反之增加SU的权重),对Tk值进行排序,选出Tk值较大的特征。
S1-4.启动Reduce任务(简称Reducer),Reducer节点计算整合特征向量子集S的每个特征向量与类标签向量的类标签互信息标准化值SU(x,C)。
S1-5.初始优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准化值SU(x,C)值最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该特征向量。
S1-6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)值最大的特征,计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值SU(x,x’)值,如果该特征向量存在特征互信息标准化值SU(x,x’)值大于类标签互信息标准化值SU(x,C)值,则从整合特征向量子集S删除该特征向量,否则将该特征向量加入优选特征向量子集V。
S1-7.重复步骤S1-6,直到整合特征向量子集S为空,得到的最优特征向量子集V,整合特征向量子集V与类标签向量C作为训练集L输出到后续网络流量分类过程中;其输出形式<key,value>键值对中,key值为被选特征向量名称,value值为训练集L)。
需要指出的是:所述步骤S1-4中的类标签互信息标准化值SU(x,C)和步骤S1-6中的特征互信息标准化SU(x,x’)均通过步骤S1-3中的公式(2)-(5)计算得出。只是步骤S1-6中的特征互信息标准化SU(x,x’)需要将类标签向量C的信息熵H(C)替换成特征向量x’的信息熵H(x’),特征向量x与类标签向量C的联合熵I(x,C)替换成特征向量与特征向量的联合熵I(x,x’)。
如图3所示,基于选择性集成学习思想对网络流量分类的过程,针对通过特征选择之后训练集L训练出多个基分类器,选出其中准确率高、差异性大的基分类器集成为分类器集,最终分类结果通过该分类器集采用多数投票方式所得,其具体步骤如下:
S2-1.对经过特征选择之后的数据集L={l1,l2,…,ln}按样本向量化,按设定的向量个数s重复抽样s份作为样本训练集(取数据集的1%作为一个训练样本),随机抽取其中一份作为测试集Y。
S2-2.再次启动Mapper,将划分后的s-1份样本训练集均分到s-1个Mapper节点,并将测试集传到这s-1个映射任务节点;其输入形式为<key,value>键值对,key值为偏移量,value值为训练样本集、测试集。
S2-3.对每个样本集训练一个基分类器ci,用测试集分别测试各基分类器得到该基分类器的预测类标签向量A={A1,A2,…,As-1},其中Ai为基分类器ci的预测类标签向量;将预测类标签向量与实际的类标签向量中的每个元素进行逐一对比,如果预测类标签向量里面存在有与类标签向量中元素不一样的,说明预测错误,由此获得该基分类器的分类准确率,选出准确率大于设定阈值γ的基分类器,将被选基分类器、其准确率以及与其对应的预测类标签向量以<key,value>形式传送到Reducer端,key值为被选基分类器准确率,value值为预测类标签向量和被选基分类器。
S2-4.再次启动Reduce任务,Reducer端接收Mapper传送的数据,根据不一致性度量公式计算各基分类器的差异性值dij,选出差异性较大的基分类器集成为分类器集输出;其输出的<key,value>键值对中,key值为差异性值,value值为分类器集。
S2-41.根据不一致性度量公式(7)计算两个基分类器di和dj之间的差异,其中,N00和N11分别表示两个基分类器均预测错误与均预测正确的样本数目,N01表示基分类器di预测错误而基分类器dj预测正确的样本数目,N10表示基分类器di预测正确而基分类器dj预测错误的数目,dij的值的变化范围在[0,1]之间,dij值越大,表示基分类器间的差异性越大;
d ij = N 01 + N 10 N 11 + N 10 + N 01 + N 00 - - - ( 7 )
S2-42.度量n个基分类器间的差异,可得基分类器差异性矩阵Div,其中,dij表示基分类器di与dj的差异性值,如公式(8)所示;
S2-43.根据公式(9)计算每个基分类器di在整体基分类器的差异性值其中,dij表示基分类器di与dj的差异性值,n表示基分类器的个数;
&PartialD; i = &Sigma; j = 1 n d ij / n - - - ( 9 )
S2-44.整合公式(8)-(9)得到基分类器差异性矩阵Ds,其中,表示基分类器di在整体基分类器的差异性值,i=1,2,…,n,n表示基分类器的个数,如公式(10)所示;
D s = &PartialD; 1 &PartialD; 2 . . . &PartialD; n - - - ( 10 )
S2-45.根据公式(11)计算整体基分类器的平均差异性值AV,其中,表示基分类器di在整体基分类器的差异性值,i=1,2,…,n,n表示基分类器的个数;
AV = &Sigma; i = 1 n &PartialD; i / n - - - ( 11 )
S2-46.将基分类器差异性矩阵中各基分类器的差异性与平均差异性值AV比较,当则选中该基分类器di参与最后的集成预测。
S2-5.通过多数投票方式,用得到的分类器集对测试集进行分类。

Claims (6)

1.一种并行网络流量分类方法,包括对网络流量数据进行特征选择过程S1和对网络流量分类得到分类结果过程S2,其特征是,上述网络流量数据进行特征选择的过程S1具体如下:
S1-1.将初始数据DA处理成特征向量后,按照设定的向量个数a将其划分为a份特征向量子集,且所有类标签作为单独一个类标签向量C;
S1-2.启动映射任务,将a份特征向量子集Y均分到a个映射任务节点上,并将类标签向量C传到这a个映射任务节点;
S1-3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C),从各特征向量中预选出鉴别能力强与相关性大的特征向量,整合预选出的特征向量得到整合特征向量子集S,并将整合特征向量子集S与类标签向量C一起发送到规约任务节点上;
S1-4.启动规约任务,规约任务节点计算整合特征向量子集S的每个特征向量与类标签向量的类标签互信息标准化值SU(x,C);
S1-5.初始化优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该特征向量;
S1-6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量,计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值SU(x,x’),如果该特征向量存在特征互信息标准化值SU(x,x’)大于类标签互信息标准化值SU(x,C)的情形,则从整合特征向量子集S中删除该特征向量,否则将该特征向量加入到优选特征向量子集中;
S1-7.重复步骤S1-6,直到整合特征向量子集S为空,此时整合优选特征向量子集V与类标签向量C构成训练集L输出到后续对网络流量分类得到分类结果过程S2中。
2.根据权利要求1所述的一种并行网络流量分类方法,其特征是,步骤S1-3中,鉴别能力强与相关性大的特征的预选过程如下:
S1-31.根据费舍尔得分公式计算每个特征向量的费舍尔得分Fk
F k = &Sigma; i = 1 c n i ( x k l &OverBar; - x k &OverBar; ) 2 &Sigma; i = 1 c n i ( &sigma; k i ) 2
式中,i表示类别,c表示类的数量,ni表示第i类样本的数量,表示第i类中第k个特征的均值,表示所有样本中第k个特征的均值,表示第i类中第k个特征的方差;
S1-32.根据互信息的标准化公式计算每个特征向量与类标签向量的类标签互信息标准化值SU(x,C);
SU ( x , C ) = 2 I ( x , C ) H ( C ) + H ( x )
式中,H(x)表示特征向量x的信息熵,H(C)表示类标签向量C的信息熵,I(x,C)表示特征向量x与类标签向量C的联合熵;
S1-33.根据给定的权重系数α,将上述两个公式融合得到目标评价函数Tk
Tk=α×Fk+(1-α)×SU(x,C)
S1-34.选出各特征向量子集Y中目标评价函数Tk大于预设阈值的特征向量,并将特征向量进行整合后得到整合特征向量子集S。
3.根据权利要求1所述的一种并行网络流量分类方法,其特征是,步骤S1-4中的类标签互信息标准化值SU(x,C)和步骤S1-6中的特征互信息标准化值SU(x,x’)的计算公式分别为:
SU ( x , C ) = 2 I ( x , C ) H ( C ) + H ( x )
SU ( x , x , ) = 2 I ( x , x , ) H ( x , ) + H ( x )
式中,H(x)表示特征向量x的信息熵,H(x’)表示特征向量x’的信息熵,H(C)表示类标签向量C的信息熵,I(x,C)表示特征向量x与类标签向量C的联合熵,I(x,x’)表示特征向量x与特征向量x’的联合熵。
4.根据权利要求1所述的一种并行网络流量分类方法,其特征是,上述对网络流量分类得到分类结果的过程S2具体如下:
S2-1.对经过特征选择之后的训练集L按样本向量化,按设定的向量个数s重复抽样s份作为样本训练集,随机抽取其中的一份作为测试集;
S2-2.再次启动映射任务,将划分后的s-1份样本训练集均分到s-1个映射任务节点上,并将测试集传到这s-1个映射任务节点;
S2-3.对每个样本训练集训练一个基分类器,用测试集分别测试各基分类器得到该基分类器的预测类标签向量;将预测类标签向量中的类标签与实际的类标签向量中的类标签逐一进行比较,获得每个基分类器的分类准确率;选出分类准确率大于设定阈值的基分类器,将被选基分类器、该基分类器对应的分类准确率和预测类标签向量一起传送到规约任务节点;
S2-4.再次启动规约任务,根据不一致性度量公式计算各基分类器的差异性值dij,选出差异性大的基分类器集成为分类器集;
S2-5.通过多数投票方式,用得到的分类器集对测试集进行分类。
5.根据权利要求4所述的一种并行网络流量分类方法,其特征是,步骤S2-4具体如下:
S2-41.根据不一致性度量公式计算两个基分类器di和dj之间的差异dij
d ij = N 01 + N 10 N 11 + N 10 + N 01 + N 00
式中,N00和N11分别表示2个基分类器di与dj均预测错误与均预测正确的样本数目,N01表示基分类器di预测错误而基分类器dj预测正确的样本数目,N10表示基分类器di预测正确而基分类器dj预测错误的数目;
S2-42.度量n个基分类器间的差异,可得基分类器差异性矩阵Div;
式中,dij表示基分类器di与dj的差异性值;
S2-43.根据下式计算每个基分类器di在整体基分类器的差异性值
&PartialD; i = &Sigma; j = 1 n d ij / n
式中,dij表示基分类器di与dj的差异性值,n表示基分类器的个数;
S2-44.整合上述3个公式得到基分类器差异性矩阵Ds
D s = &PartialD; 1 &PartialD; 2 . . . &PartialD; n
式中,表示基分类器di在整体基分类器的差异性值,i=1,2,...,n,n表示基分类器的个数;
S2-45.根据下公式计算整体基分类器的平均差异性值AV;
AV = &Sigma; i = 1 n &PartialD; i / n - - - ( 11 )
式中,表示基分类器di在整体基分类器的差异性值,i=1,2,...,n,n表示基分类器的个数;
S2-46.将基分类器差异性矩阵Ds中各基分类器的差异性与平均差异性值AV比较,当,则选中该基分类器di参与最后的集成预测。
6.根据权利要求5所述的一种并行网络流量分类方法,其特征是,步骤S2-41中dij的值的变化范围在[0,1]之间,dij值越大,表示基分类器间的差异性越大。
CN201510066197.3A 2015-02-09 2015-02-09 一种并行网络流量分类方法 Expired - Fee Related CN104702465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510066197.3A CN104702465B (zh) 2015-02-09 2015-02-09 一种并行网络流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510066197.3A CN104702465B (zh) 2015-02-09 2015-02-09 一种并行网络流量分类方法

Publications (2)

Publication Number Publication Date
CN104702465A true CN104702465A (zh) 2015-06-10
CN104702465B CN104702465B (zh) 2017-10-10

Family

ID=53349255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510066197.3A Expired - Fee Related CN104702465B (zh) 2015-02-09 2015-02-09 一种并行网络流量分类方法

Country Status (1)

Country Link
CN (1) CN104702465B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516020A (zh) * 2015-12-22 2016-04-20 桂林电子科技大学 一种基于本体知识推理的并行网络流量分类方法
CN105591972A (zh) * 2015-12-22 2016-05-18 桂林电子科技大学 一种基于本体的网络流量分类方法
CN106101121A (zh) * 2016-06-30 2016-11-09 中国人民解放军防空兵学院 一种全网络流量异常抽取方法
CN106529575A (zh) * 2016-10-20 2017-03-22 浙江大学 一种面向对象的分类规则集自动构建方法
CN106529503A (zh) * 2016-11-30 2017-03-22 华南理工大学 一种集成卷积神经网络人脸情感识别方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
WO2018027459A1 (zh) * 2016-08-08 2018-02-15 深圳市博信诺达经贸咨询有限公司 分类比对在大数据中的应用方法及系统
CN110245879A (zh) * 2019-07-02 2019-09-17 中国农业银行股份有限公司 一种风险评级方法及装置
CN110288465A (zh) * 2019-06-19 2019-09-27 北京明略软件系统有限公司 对象确定方法及装置、存储介质、电子装置
WO2022006005A1 (en) * 2020-07-01 2022-01-06 Viasat, Inc. Parallel and tiered network traffic classification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6894639B1 (en) * 1991-12-18 2005-05-17 Raytheon Company Generalized hebbian learning for principal component analysis and automatic target recognition, systems and method
CN103023725A (zh) * 2012-12-20 2013-04-03 北京工业大学 一种基于网络流量分析的异常检测方法
CN104050242A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104135385A (zh) * 2014-07-30 2014-11-05 南京市公安局 Tor匿名通信流量应用分类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6894639B1 (en) * 1991-12-18 2005-05-17 Raytheon Company Generalized hebbian learning for principal component analysis and automatic target recognition, systems and method
CN103023725A (zh) * 2012-12-20 2013-04-03 北京工业大学 一种基于网络流量分析的异常检测方法
CN104050242A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104135385A (zh) * 2014-07-30 2014-11-05 南京市公安局 Tor匿名通信流量应用分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾静静: "基于Map_Reduce构建高效文本聚类系统", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
郑天红: "基于Hadoop的网络流量分流并行化设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516020A (zh) * 2015-12-22 2016-04-20 桂林电子科技大学 一种基于本体知识推理的并行网络流量分类方法
CN105591972A (zh) * 2015-12-22 2016-05-18 桂林电子科技大学 一种基于本体的网络流量分类方法
CN105591972B (zh) * 2015-12-22 2018-09-11 桂林电子科技大学 一种基于本体的网络流量分类方法
CN105516020B (zh) * 2015-12-22 2018-09-11 桂林电子科技大学 一种基于本体知识推理的并行网络流量分类方法
CN106101121A (zh) * 2016-06-30 2016-11-09 中国人民解放军防空兵学院 一种全网络流量异常抽取方法
CN106101121B (zh) * 2016-06-30 2019-01-22 中国人民解放军防空兵学院 一种全网络流量异常抽取方法
WO2018027459A1 (zh) * 2016-08-08 2018-02-15 深圳市博信诺达经贸咨询有限公司 分类比对在大数据中的应用方法及系统
CN106529575A (zh) * 2016-10-20 2017-03-22 浙江大学 一种面向对象的分类规则集自动构建方法
CN106529503A (zh) * 2016-11-30 2017-03-22 华南理工大学 一种集成卷积神经网络人脸情感识别方法
CN106529503B (zh) * 2016-11-30 2019-10-18 华南理工大学 一种集成卷积神经网络人脸情感识别方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN110288465A (zh) * 2019-06-19 2019-09-27 北京明略软件系统有限公司 对象确定方法及装置、存储介质、电子装置
CN110245879A (zh) * 2019-07-02 2019-09-17 中国农业银行股份有限公司 一种风险评级方法及装置
WO2022006005A1 (en) * 2020-07-01 2022-01-06 Viasat, Inc. Parallel and tiered network traffic classification

Also Published As

Publication number Publication date
CN104702465B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN104702465A (zh) 一种并行网络流量分类方法
CN111199343B (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
Christian et al. Exploration of classification using NBTree for predicting students' performance
CN102789498B (zh) 基于集成学习的中文评论文本的情感分类方法与系统
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
Liu et al. Deep learning approaches for link prediction in social network services
Utari et al. Implementation of data mining for drop-out prediction using random forest method
CN105893483A (zh) 大数据挖掘过程模型总体框架的构造方法
CN106055661A (zh) 基于多Markov链模型的多兴趣资源推荐方法
Park et al. Large imbalance data classification based on mapreduce for traffic accident prediction
CN103473231A (zh) 分类器构建方法和系统
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN110377605A (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN110134719A (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN106934410A (zh) 数据的分类方法及系统
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法
CN105184654A (zh) 一种基于社区划分的舆情热点实时获取方法与获取装置
CN106056164A (zh) 一种基于贝叶斯网络的分类预测方法
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法
Aouay et al. Feature based link prediction
Julian et al. Application of machine learning to link prediction
Kirshners et al. Combining clustering and a decision tree classifier in a forecasting task
CN110287237A (zh) 一种基于社会网络结构分析高效社团数据挖掘方法
CN107092644A (zh) 一种基于MPI和Adaboost.MH的中文文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20150610

Assignee: Guangxi Boyan Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000542

Denomination of invention: A parallel network traffic classification method

Granted publication date: 20171010

License type: Common License

Record date: 20221229

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171010