CN110009005A

CN110009005A - 一种基于特征强相关的网络流量分类方法

Info

Publication number: CN110009005A
Application number: CN201910198841.0A
Authority: CN
Inventors: 张登银; 吴思远; 丁飞; 赵莎莎; 张恩轩; 郭诗源
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-12

Abstract

本发明提出一种基于特征强相关的网络流量分类方法，包括以下4个步骤：输入需要训练的数据，对输入数据进行特征提取，形成一个多维特征向量集合；利用特征与响应变量之间的互信息计算特征之间的相关性；根据互信息计算特征之间的冗余度，并通过迭代计算选出得分最高的特征作为最终的特征向量；根据分类目标构建基于特征强相关的网络流量分类模型并得到分类结果。本发明能够充分利用特征之间的相关性，在学习器训练过程中提取出相关性最大冗余度最小的特征，在相同的分类模型下，能够在保证分类精度的前提下有效提升分类效率，解决现有基于启发式搜索的特征选择方法未考虑特征之间相关性导致的不足。

Description

一种基于特征强相关的网络流量分类方法

技术领域

本发明涉及数据处理和机器学习，特别涉及基于特征强相关的网络流量分类方法。

背景技术

随着网络技术的发展，网络中的流量增长十分迅速。然而，在促进网络进一步深化发展的同时，也带来了很多的问题。不断扩大的数据规模以及日益增多的应用类型会导致网络资源的利用率下降。有些链路的吞吐量大，而有些链路几乎处于闲置状态，这将导致网络资源的利用率下降。

因此，在过去几年中，网络流量的分类技术已经引起越来越多的关注。从安全角度来看，快速识别恶意流量将有助于安全控制和隔离攻击者。从QoS的角度来看，不同流量的准确分类有助于利用网络资源识别应用程序。此外，网络运营商可以跟踪不同应用的增长情况相应的提供带宽，用来适应用户群的不同需求。

特征选择是“数据预处理”的一个重要的过程，在实际的机器学习任务中，在获得数据后通常先进行特征选择，然后再进行训练。我们经常在真实的任务中遇到维数灾难的问题，这是由于特征值的属性太多导致的，如果可以选择一些重要的特征，使得训练的过程中只需要一部分用来建模的特征，维数灾难的问题将会极大的减少。去掉相关的特征将会极大的减少学习器的难度，这会使学习器的训练时间和效率都会有所提升。

发明内容

发明目的：为解决上述技术问题，本发明提出一种基于特征强相关的网络流量分类方法。该方法利用特征强相关作为参数评估来源，利用降维的方法对特征进行了处理，因此可以对多分类场景下的网络流量进行快速识别。

技术方案：为实现上述技术效果，本发明提供的技术方案为：

一种基于特征强相关的网络流量分类方法，包括步骤：

步骤一：利用特征与响应变量之间的互信息获得预先提取的特征之间的相关性；

步骤二：确定特征之间的相关性，根据特征之间的相关性确定特征之间的冗余度，并根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征；按照预先设定的次数m次迭代确定m个得分最高的特征作为最终的特征向量；

步骤三：根据分类目标构建分类模型并得到特征强相关网络流量分类结果。

进一步地，所述步骤二中利用特征与响应变量之间的互信息获得特征之间的相关性，具体过程为：

假定X和Y表示两个随机变量，则特征与响应变量之间的互信息公式如下所示：

其中，Ω_X和Ω_Y分别是随机变量X和Y的样本空间，p(x,y)是联合概率密度函数，p(x)和p(y)是边缘概率密度函数。

特征的相关性R_S计算公式为：

其中，c∈C＝{+1,-1}表示类变量，S表示数据的特征向量集F的子集，f_i为特征向量集F中的一个特征向量。

进一步地，所述步骤三中根据特征之间的相关性确定特征之间的冗余度的公式为：

其中，f_i,f_j分别为子集S中的特征。

进一步地，步骤二中根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征的公式如下：

按照预先设定的次数m次迭代确定m个得分最高的特征，表示如下：如下；

优选地，根据分类目标构建分类模型是采用支持向量机SVM模型。

进一步地，根据分类目标构建分类模型并得到特征强相关网络流量分类结果具体包括以下步骤：

首先对分类目标进行分类，并针对不同的分类目标分别训练分类模型；

将特征向量输入不同的训练模型得到最终的特征强相关网络流量分类结果。

与现有技术相比，本发明所取得的有益技术效果：

1、本发明利用利用随机变量之间的互信息，对网络流量特征进行了降维处理，不仅提升了学习器的训练效率，同时具备较好的推广能力和适应性。

2、支持向量机器可以处理非线性分类问题，因此可解决网络流量分类在特征空间线性不可分的问题，提升了判别的准确性。

3、本发明所提出的特征强相关分类方法，利用树形结构构建分类模型，可以有效提升网络流量分类过程中的效率。

附图说明

图1为本发明具体实施例的原理流程图；

图2为本发明具体实施例的分类器构成示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

图1为本发明的原理流程图，包括步骤：

(1)对输入的数据进行特征提取，形成一个多维的特征向量集合：对于数据提取其n个特征分别为f₁，f₂，…，f_n，然后其所形成的特征向量的为F＝{f₁，f₂，…，f_n}。

(2)计算特征之间的相关性：假定X和Y表示两个随机变量，则二者的互信息公式如下所示：

其中，Ω_X和Ω_Y分别是随机变量X和Y的样本空间，p(x，y)是联合概率密度函数，p(x)和p(y)是边缘概率密度函数。

特征的相关性R_S计算公式为：

其中，c∈C＝{+1，-1}表示类变量(正样本或负样本)，S表示F的子集。

(3)计算出特征之间的冗余度，迭代计算出得分最高的特征，得到最终的特征向量：

特征的冗余度计算公式为：

其中，f_i，f_j分别为子集S中的特征。

所筛选出的得分最高的特征的表达式如下：

迭代m次最终得到的特征向量如下；

(4)根据分类目标构建特征强相关网络流量分类模型

在本实施例中采用SVM分类器模型实现网络流量分类模型，在其它实施例中也可以采用现有技术中的分类器模型实现本发明方法中基于特征强相关的网络流量分类模型，并得到分类结果：

需要说明的是，训练SVM分类器的方法为现有技术，此处不做详细阐述。

以下结合图2说明本实施例。

分类目标的类型分别为A、B、C和D。首先将特征向量通过可以分类A∪B和C∪D的分类模型SVM1中：

其中，ω₁和b₁是模型SVM1的参数。

如果f₁(x)＞0，则分类的结果是A∪B；如果f₁(x)＜0，则分类结果是C∪D。

分别特征向量通过可以分类A和B的分类模型SVM2以及分类C和D的分类模型SVM3中：

其中，ω₂和b₂是模型SVM2的参数；ω₃和b₃是模型SVM3的参数

如果f₂(x)＞0，则最终的分类结果为A；如果f₂(x)＜0，则最终的分类结果为B；如果f₃(x)＞0，则最终的分类结果为C；如果f₃(x)＞0，则最终的分类结果为D。

本实施例首先对特征向量的分类目标粗分类并投入到SVM，再根据分类结果将不同类的特征向量再次投入到相应的SVM分类模型中，实现了二分类的SVM分类模型完成多分类的效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于特征强相关的网络流量分类方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述的一种基于特征强相关的网络流量分类方法，其特征在于：所述步骤二中利用特征与响应变量之间的互信息获得特征之间的相关性，具体过程为：

其中，Ω_X和Ω_Y分别是随机变量X和Y的样本空间，p(x,y)是联合概率密度函数，p(x)和p(y)是边缘概率密度函数；

特征的相关性R_S计算公式为：

3.根据权利要求2所述的一种基于特征强相关的网络流量分类方法，其特征在于：所述步骤三中根据特征之间的相关性确定特征之间的冗余度的公式为：

其中，f_i,f_j分别为子集S中的特征。

4.根据权利要求3所述的一种基于特征强相关的网络流量分类方法，其特征在于：步骤二中根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征的公式如下：

按照预先设定的次数m次迭代确定m个得分最高的特征，表示如下：

5.根据权利要求1所述的一种基于特征强相关的网络流量分类方法，其特征在于:根据分类目标构建分类模型是采用支持向量机SVM模型。

6.根据权利要求1所述的一种基于特征强相关的网络流量分类方法，其特征在于:根据分类目标构建分类模型并得到特征强相关网络流量分类结果具体包括以下步骤：

7.根据权利要求6所述的一种基于特征强相关的网络流量分类方法，其特征在于:步骤三的具体方法包括以下步骤：

分类目标的类型分别为A、B、C和D，将分类目标的类型进行分类，分为A∪B、C∪D、A、B、C和D六类；

首先将特征向量分类模型SVM1中，所述分类模型SVM1用于分出A∪B和C∪D两类；

将分类结果为A∪B类的特征向量通过分类模型SVM2，将分类结果为C∪D的特征向量通过分类模型SVM3中，所述分类模型SVM2用于分出A类和B类，所述分类模型SVM3用于分出C类和D类。