CN109981335B

CN109981335B - 组合型类不均衡流量分类的特征选择方法

Info

Publication number: CN109981335B
Application number: CN201910077766.2A
Authority: CN
Inventors: 唐宏; 刘丹; 姚立霜; 王云锋; 裴作飞
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2022-02-22
Anticipated expiration: 2039-01-28
Also published as: CN109981335A

Abstract

本发明公开了一种组合型类不均衡流量分类的特征选择方法，采用非搜索型算法利用加权对称不确定性WSU来计算类别与特征之间的相关度，根据特征之间的WSU滤除冗余特征，从而得到第一目标特征集合，可以显著降低后续特征子集筛选的计算复杂度，然后采用SFS算法进一步降低特征的维数，直到特征数增加到指定的维数为止，这样就可以减小样本分布不平衡问题给网络流量分类带来的不良影响，选择出具有强区分能力的特征集合，从而可以显著提高网络流量的分类精度。

Description

组合型类不均衡流量分类的特征选择方法

技术领域

本发明涉及网络流量分类技术领域，更具体地说，涉及一种组合型类不均衡流量分类的特征选择方法。

背景技术

随着互联网的飞速发展，网络覆盖范围不断扩大，网络应用种类不断增多。这些变化在给人们的生活带来便利的同时，也给网络的运营管理带来了巨大的挑战。网络研究人员提出了一系列的措施来保证网络的健康运行，但无论是基于用户需求实现业务的高效承载，还是根据网络应用的发展趋势对现有的网络进行扩容改造，都必须对网络流量中的各种应用进行准确的分类与识别。此外，在入侵检测等领域，网络流量分类具有极其重要的意义。

网络流量分类是指基于TCP/IP协议的Internet中，按照网络的应用类型(HTTP、DNS、FTP、P2P等)，将网络通信产生的双向TCP流或UDP流进行分类。在对网络流量进行分类前，通常需要对数据进行预处理。在数据预处理时，一般会对流量特征进行降维，因为网络流量的特征一般都是高维的，其中包含大量的无关特征和冗余特征，这些特征可能会降低分类器的性能。特征选择是实现特征降维的一种方式，其目的就是从一组给定的特征集合中挑选出部分特征作为最优特征子集。

目前对特征选择方法的研究主要集中于搜索策略和评价准则。1)按照搜索策略，可以将特征选择算法分为全局最优搜索策略、随机搜索策略以及启发式搜索策略3类。全局最优搜索策略是对原始特征集的全部特征进行搜索，从而发现相关性强的特征，构建最佳分类效果的特征子集，但是此算法处理高维多类问题时运算效率低，且难以事先确定最优子集的特征数目，难以设计满足要求的评价准则；随机搜索策略通过设定阀值和迭代次数，对原始特征集进行特征选择，选择特征分类相关性紧密的特征子集，此类算法需要设定一些参数，参数的选择对最后结果的影响较大；启发式搜索策略相对来说较好实现，在整个搜索过程中搜索空间相对较小，能够对原始特征子集进行快速的搜索，选择出最佳的特征子集，但是此类算法以牺牲全局最优为代价获得较高的运算速率，在计算复杂度与最优解之间折中。2)根据评价策略可以将特征选择算法分为三大类：滤波式(Filter)、封装式(Wrapper)和嵌入式(Embedded)。三者的区别在于是否使用后续学习算法来评价特征子集的性能。Filter方法与后续的学习算法无关，Wrapper方法则需要利用后续的学习算法进行特征评估，Embedded方法则将特征选择融入到后续学习算法中。

现有的大部分传统特征选择方法是以提高分类精度为优化目标，没有充分考虑数据样本的分布状况，且普遍追求大类的学习效果，容易忽略小类的学习性能。

发明内容

为解决上述技术问题，本发明提供一种组合型类不均衡流量分类的特征选择方法。

本发明采用的技术方案是：

一种组合型类不均衡流量分类的特征选择方法，包括：

S1：对网络流量样本数据进行统计得到统计结果，每一条网络流量对应的样本数据包括该网络流量所属的类别信息以及多个属性特征的取值；

S2：根据所述统计结果计算网络流量类别与各属性特征之间的相关度，并基于所述相关度从多个属性特征中进行筛选得到第一目标特征集合；

S3：将第二目标特征集合初始化为空集；

S4：计算所述第一目标特征集合中每一属性特征的特征评估函数值，将当前计算得到的最大特征评估函数值对应的属性特征加入所述第二目标特征集合；

S5：针对所述第一目标特征集合中当前未选入所述第二目标特征集合中的每一未入选属性特征，分别将其与当前所述第二目标特征集合中的属性特征进行匹配，得到与每一未入选属性特征对应的组合特征；

S6：计算各组合特征的特征评估函数值，将当前计算得到的最大特征评估函数值对应的未入选属性特征加入所述第二目标特征集合；

S7：判断所述第二目标特征集合中的属性特征的数量是否达到预设数量阈值，如是，转至S8，否则，转至S5；

S8：将当前所述第二目标特征集合中的属性特征作为用于进行网络流量分类的特征。

可选的，所述网络流量样本数据为Moore公开数据集中的数据。

可选的，每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值。

可选的，所述步骤S2中通过公式

计算网络流量类别与每一属性特征之间的相关度，其中，X表示网络流量类别，Y为一种属性特征，

IG_w(X|Y)＝H_w(X)-H_w(X|Y)，

p(x_i,y_j)表示网络流量类别X为x_i与属性特征Y取值为y_j的联合概率，p(x_i)表示网络流量类别X取x_i的概率，p(y_j)表示属性特征Y取值为y_j的概率，p(x_i|y_j)表示属性特征Y取值为y_j的条件下网络流量类别X为x_i的概率，

N为网络流量样本数，n_i为网络流量样本中类别x_i对应的样本数。

可选的，所述步骤S2包括：

S21：将网络流量类别与每一属性特征之间的相关度与相关度门限阈值δ进行比较；

S22：筛选出相关度大于相关度门限阈值δ的属性特征。

可选的，在步骤S22之后，还包括：

S23：将网络流量类别X与步骤S22中筛选出来的各属性特征f_m之间的相关度按照从小到大的顺序排列，并依次计算每个属性特征f_m与排序中小于WSU(X,f_m)的其他所有属性特征f_n之间的相关度；

S24：针对步骤S22中得到的属性特征，如果WSU(f_m,f_n)>WSU(X,f_n)，则删除对应的f_n，从而得到所述第一目标特征集合。

可选的，所述步骤S23中通过公式

计算属性特征f_m与属性特征f_n之间的相关度，其中，

IG_w(f_m|f_n)＝H_w(f_m)-H_w(f_m|f_n)，

H_w(f_m|f_n)＝H_w(f_m，f_n)-H_w(f_n)，

p(f’_im,f’_in)表示属性特征f_m的取值为f’_im，属性特征f_n的取值为f’_in的联合概率，p(x_i,f’_im,f’_in)表示在类别x_i中属性特征f_m的取值为f’_im，属性特征f_n的取值为f’_in的联合概率，p(x_i,f’_in)表示网络流量类别X取x_i与属性特征f_n的取值为f’_in的联合概率，p(x_i,f’_im)表示网络流量类别X取x_i与属性特征f_m的取值为f’_im的联合概率，p(f’_in)表示属性特征f_n的取值为f’_in的概率，p(f’_im)表示属性特征f_m的取值为f’_im的概率，f’_in表示类别x_i下属性特征f_n的取值，f’_im表示类别x_i下属性特征f_m的取值。

可选的，所述步骤S4中通过公式

计算所述第一目标特征集合中每一属性特征的特征评估函数值，其中，X表示网络流量样本所含的类别，μ_i和μ_j分别表示第i类和第j类的类内特征向量均值，σ_i ²和σ_j ²分别表示第i类和第j类的类内方差。

本发明提供的组合型类不均衡流量分类的特征选择方法，采用非搜索型算法计算网络流量类别与各属性特征之间的相关度，并基于相关度从多个属性特征中进行筛选得到第一目标特征集合，然后针对第一目标特征集合采用SFS算法进一步降低特征的维数，直到特征数增加到指定的维数为止，这样就可以减小样本分布不平衡问题给网络流量分类带来的不良影响，选择出具有强区分能力的特征集合，从而可以显著提高网络流量的分类精度；

进一步地，在得到第一目标特征集合的过程中利用加权对称不确定性WSU来计算类别与特征之间的相关性，根据特征之间的WSU滤除冗余特征，可以显著降低后续特征子集筛选的计算复杂度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例提供的组合型类不均衡流量分类的特征选择方法的第一流程示意图；

图2为本发明实施例提供的组合型类不均衡流量分类的特征选择方法的第二流程示意图；

图3为得到第一目标特征集合以及第二目标特征集合的细化流程示意图。

具体实施方式

本实施例提供一种组合型类不均衡流量分类的特征选择方法，请参见图1所示，包括：

S1：对网络流量样本数据进行统计得到统计结果，每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值。

可选的，流量样本数据为Moore公开数据集中的数据。具体的，可以从网络中下载Moore公开数据集，在所有数据流中随机选取其中2/3为训练集，剩余1/3为测试集。数据集中各个应用类别及其数据流数量如下面的表1所示：

表1

每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值，比如包括流持续的时间、源/目的端口、分组到达时间的间隔(最大/最小值、平均值)、分组长度(最大/最小值、平均值)等。

S2：根据统计结果计算网络流量类别与各属性特征之间的相关度，并基于相关度从多个属性特征中进行筛选得到第一目标特征集合。

可选的，所述步骤S2中可以采用FCBF算法，利用以下公式：

计算网络流量类别与每一属性特征之间的相关度，其中，X表示网络流量类别，Y为一种属性特征。

给定网络流量类别x_i，网络流量样本数为N，权值定义为：

其中，n_i为网络流量样本中类别x_i对应的样本数，识别小类别的特征度量的权值较高，这有益于特征度量偏向于小类别，使得识别小类别的特征易于被选择出来。

属性特征Y的加权熵定义为：

网络流量类别X的加权熵定义为：

在属性特征Y发生的前提下，网络流量类别X的加权条件熵定义为：

加权互信息量为：

IG_w(X|Y)＝H_w(X)-H_w(X|Y) (5)

因此网络流量类别X与属性特征Y之间的相关度(即加权对称不确定性)为：

p(x_i,y_j)表示网络流量类别X为x_i与属性特征Y取值为y_j的联合概率，p(x_i)表示网络流量类别X取x_i的概率，p(y_j)表示属性特征Y取值为y_j的概率，p(x_i|y_j)表示属性特征Y取值为y_j的条件下网络流量类别X为x_i的概率，这些概率值都可以根据统计结果计算得到。

请参见图2所示，步骤S2中可以包括以下步骤：

S21：将网络流量类别与每一属性特征之间的相关度与相关度门限阈值δ进行比较。

S22：筛选出相关度大于相关度门限阈值δ的属性特征。

在一种实施例中可以直接将步骤S22中筛选出来的属性特征组成的集合作为第一目标特征集合，在另外一种实施例中，在步骤S22以后，还可以包括以下步骤：

S23：将网络流量类别X与步骤S22中筛选出来的各属性特征f_m之间的相关度按照从小到大的顺序排列，并依次计算每个属性特征f_m与排序中小于WSU(X,f_m)的其他所有属性特征f_n之间的相关度。

S24：针对步骤S22中得到的属性特征，如果WSU(f_m,f_n)>WSU(X,f_n)，则删除对应的f_n，从而得到第一目标特征集合。

本实施例中的步骤S23中可以通过以下公式计算属性特征f_m与属性特征f_n之间的相关度：

其中，IG_w(f_m|f_n)＝H_w(f_m)-H_w(f_m|f_n)，

H_w(f_m|f_n)＝H_w(f_m，f_n)-H_w(f_n)，

S3：将第二目标特征集合初始化为空集。

S4：计算第一目标特征集合中每一属性特征的特征评估函数值，将当前计算得到的最大特征评估函数值对应的属性特征加入第二目标特征集合。

可选的，步骤S4中可以通过公式

计算第一目标特征集合中每一属性特征的特征评估函数值，其中，X表示网络流量样本所含的类别，μ_i和μ_j分别表示第i类和第j类的类内特征向量均值，σ_i ²和σ_j ²分别表示第i类和第j类的类内方差，(μ_i-μ_j)²代表各类别之间的差异性，σ_i ²-σ_j ²代表的是各自类内的分布一致性。

S5：针对第一目标特征集合中当前未选入第二目标特征集合中的每一未入选属性特征，分别将其与当前第二目标特征集合中的属性特征进行匹配，得到与每一未入选属性特征对应的组合特征。

网络流量样本中的每一个属性特征都有其对应的值，本实施例步骤S5中得到组合特征的过程实质上就是将第一目标特征集合中的每一未入选属性特征的对应值分别与第二目标特征集合中的属性特征的对应值相加，这样就可以得到与每一未入选属性特征对应的组合特征的值，然后再按照上述FDR的求解公式进行计算，就可以得到每一组合特征对应的特征评估函数值。

S6：计算各组合特征的特征评估函数值，将当前计算得到的最大特征评估函数值对应的未入选属性特征加入第二目标特征集合。

S7：判断第二目标特征集合中的属性特征的数量是否达到预设数量阈值，如是，转至S8，否则，转至S5。

S8：将当前第二目标特征集合中的属性特征作为用于进行网络流量分类的特征。

本实施例在FCBF算法中引入了易于识别小类别的特征度量值WSU，使得该方法能够适用于样本分布不平衡状态下的网络流量分类，同时，采用FCBF作为预过滤器，计算类别与特征之间的WSU，将小于设定阈值δ的不相关特征删除，根据特征之间的WSU滤除冗余特征，显著降低了后续特征子集筛选的计算复杂度，在生成的新特征子集(第二目标特征集合)上，选用时间复杂度比较低的SFS算法，进一步降低特征的维数，直到特征数增加到指定的维数为止。这样就可以选出具有强区分能力的特征子集，从而显著提高网络流量分类精度，为了更好的理解发明提供的方案，下面对得到第一目标特征集合以及第二目标特征集合的过程进行更加具体的介绍，请参见图3所示，包括：

步骤1：初始化，F←(f₁，...，f_D)，S←空集。

步骤1中将第一目标特征集合设置为空集，网络流量样本中的特征由集合F中的特征以及类别进行描述。

步骤2：根据公式(6)计算类别X与每个特征f_i之间的加权对称不确定性WSU(X，f_i)，其中f_i∈F。

步骤3：判断WSU(X，f_i)是否大于相关度门限阈值δ，如是，转至步骤4，否则，转至步骤5。

步骤4：删除特征f_i。

步骤5：将选出的特征按照WSU(X，f_i)降序排列后组成特征子集S*。

步骤6：判断S*是否为空集，如是，转至S42，如否，转至S37。

步骤7：选择S*中的第一个特征f_j为显著特征。

步骤8：S←S∪{f_j}，S^*←S^*\{f_j}。

步骤8中表示将f_j加入集合S，并从集合S*中删除。

步骤9：对每一个f_j计算f_j与候选特征f_i的加权对称不确定性WSU(f_j，f_i)。

步骤10：判断WSU(f_j，f_i)是否大于WSU(X，f_i)，如是，转至S41，否则，转至步骤6。

步骤11：S^*←S^*\{f_i}。

步骤12：输出第一目标特征集合S。

步骤13：初始化：F_o←空集。

步骤13中将第二目标特征集合F₀设置为空集。

步骤14：计算第一目标特征集合S(f₁，f₂，...，f_n)中每一个特征f_d的特征评估函数值FDR(f_d)。

步骤15：若FDR(f_a)＝max{FDR(f_d)}，则把f_a加入F_o，并将其从集合S中删除。

步骤16：将集合S中未入选的特征分别与集合F_o中的特征进行匹配，得到匹配后组合特征的评估函数值。

步骤17：将最大组合特征评估函数值对应的特征加入集合F_o，并将该特征从集合S中删除。

比如，对于第一次组合特征的评估函数值计算，应当将其余未入选的n-1个特征依次与已入选特征f_a匹配，得到匹配后的组合特征的准则函数值FDR的大小按照升序排序，如果：

FDR(F_o∪{S₁})＞FDR(F_o∪{S₂})＞…＞FDR(F_o∪{S_n-1})；

则将能使FDR值最大的特征加入到目标特征子集F_o中，即F_o←F_o∪S₁。

步骤18：判断F_o中的特征的数量是否达到预设数量阈值L，如是，转至步骤19，否则，转至步骤16。

步骤19：输出集合F_o。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种组合型类不均衡流量分类的特征选择方法，其特征在于，包括：

S1：对网络流量样本数据进行统计得到统计结果，每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值；

S3：将第二目标特征集合初始化为空集；

所述步骤S4中通过公式

计算所述第一目标特征集合中每一属性特征的特征评估函数值FDR，其中，X表示网络流量样本所含的类别，μ_i和μ_j分别表示第i类和第j类的类内特征向量均值，σ_i ²和σ_j ²分别表示第i类和第j类的类内方差；

2.如权利要求1所述的组合型类不均衡流量分类的特征选择方法，其特征在于，所述网络流量样本数据为Moore公开数据集中的数据。

3.如权利要求2所述的组合型类不均衡流量分类的特征选择方法，其特征在于，每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值。

4.如权利要求1所述的组合型类不均衡流量分类的特征选择方法，其特征在于，所述步骤S2中通过公式

5.如权利要求4所述的组合型类不均衡流量分类的特征选择方法，其特征在于，所述步骤S2包括：

S22：筛选出相关度大于相关度门限阈值δ的属性特征。

6.如权利要求5所述的组合型类不均衡流量分类的特征选择方法，其特征在于，在步骤S22之后，还包括：

7.如权利要求6所述的组合型类不均衡流量分类的特征选择方法，其特征在于，所述步骤S23中通过公式

计算属性特征f_m与属性特征f_n之间的相关度，其中，

IG_w(f_m|f_n)＝H_w(f_m)-H_w(f_m|f_n)，

H_w(f_m|f_n)＝H_w(f_m,f_n)-H_w(f_n)，

p(f′_im,f′_in)表示属性特征f_m的取值为f′_im，属性特征f_n的取值为f′_in的联合概率，p(x_i,f′_im,f′_in)表示在类别x_i中属性特征f_m的取值为f′_im，属性特征f_n的取值为f′_in的联合概率，p(x_i,f′_in)表示网络流量类别X取x_i与属性特征f_n的取值为f′_in的联合概率，p(x_i,f′_im)表示网络流量类别X取x_i与属性特征f_m的取值为f′_im的联合概率，p(f′_in)表示属性特征f_n的取值为f′_in的概率，p(f′_im)表示属性特征f_m的取值为f′_im的概率，f′_in表示类别x_i下属性特征f_n的取值，f′_im表示类别x_i下属性特征f_m的取值。