CN104050242B

CN104050242B - 基于最大信息系数的特征选择、分类方法及其装置

Info

Publication number: CN104050242B
Application number: CN201410228055.8A
Authority: CN
Inventors: 孙广路; 何勇军; 刘广明
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2018-03-27
Anticipated expiration: 2034-05-27
Also published as: CN104050242A

Abstract

本发明涉及一种基于最大信息系数的特征选择、分类方法及其装置，所述特征选择方法包括：S1，基于互信息准则将原始特征进行排序，将相关度低于阈值的特征删除，并将所述相关度高于阈值的特征形成初始特征子集；S2，计算在所述初始特征子集中的特征之间的最大信息系数；S3，根据所述最大信息系数，删除所述初始特征子集中的冗余特征，得到低维特征子集。本发明所述的特征选择方法通过使用互信息以及最大信息系数的方式进行特征选择，从而去除冗余特征，降低了数据的维度。

Description

基于最大信息系数的特征选择、分类方法及其装置

技术领域

本发明涉及无线通信领域，具体地，涉及一种基于最大信息系数的特征选择、分类方法及其装置。

背景技术

随着科学技术的发展，数据规模也随之快速增长，对这些数据进行智能化的分析和处理变得越来越重要。但是随之而来的问题是，海量的原始数据中存在着大量冗余信息，对模式识别、机器学习等领域的算法提出了挑战。一方面,冗余数据极大地增加了算法的时间复杂度和空间复杂度，浪费了存储资源，增加了处理时间；另一方面，冗余数据由于存在较大相关性，导致分类结果产生偏差，降低了智能信息处理软件的性能。特征选择以消除数据冗余，降低数据维数为目的，是解决上述问题的有效方法，因而一直是学术界研究的热点。

网络流量的特征种类多样，数值覆盖范围广，兼有离散和连续特征，处理起来有着很大的困难，难以得到有利于分类的优秀的特征子集。

在特征选择方面已有许多成型方法，典型的有基于信息增益的、基于神经网络的、基于决策树的方法等。从广义上来说，特征选择可分为两大类，第一类是特征排序，第二类是特征子集选择。特征排序的方法首先计算特征与类别之间的相关性，然后根据相关性对特征进行排序，保留与类别相关性强的特征。尽管这类方法速度快，但是难以消除冗余特征。特征子集选择通过选择维数尽可能低、各位之间相关性尽可能小的一个特征子集，能有效消除冗余特征。但传统的特征子集选择方法大都根据特征之间的线性相关性选择特征，难以消除普遍存在的非线性冗余，这限制了该类方法性能的提高。

发明内容

本发明提供了一种基于最大信息系数的特征选择、分类方法及其装置，通过使用互信息以及最大信息系数的方式进行特征选择，从而去除冗余特征，降低了数据的维度。

为此目的，本发明提出了一种基于最大信息系数的特征选择方法，其特征在于，所述方法包括：S1，基于互信息准则将原始特征进行排序，将相关度低于阈值的特征删除，并将所述相关度高于阈值的特征形成初始特征子集；S2，计算在所述初始特征子集中的特征之间的最大信息系数；S3，根据所述最大信息系数，删除所述初始特征子集中的冗余特征，得到低维特征子集。

其中，步骤S1具体包括：根据所述原始特征与类别之间的相关程度对所述原始特征进行排序，并将相关程度低于阈值的特征删除。

其中，所述步骤S2包括：S21，将所述初始特征子集中的特征放置在二维坐标系中；S22，对所述二维坐标系进行多次网格划分；S23，计算在每次网格划分下，每一块网格中的特征之间的互信息值，计算每次网格划分的最大互信息值，并建立最大互信息矩阵；S24，通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。

其中，所述建立最大互信息矩阵包括：设定每次网格划分的大小小于B，B为根据所述特征的数量设定的值，所述最大互信息矩阵的计算公式如下：

其中，M(D)_i,j为所述最大互信息矩阵的第i行第j列的值，表示在不同的网格划分条件下得到的最大互信息值，且i，j满足0＜i＜B，0＜j＜B，i×j＜B。

其中，所述步骤S3包括：选择最大信息系数超过设定阈值的特征对；将相互关联的特征对组成冗余特征集合；选取每个冗余特征集合中贡献度最大的特征作为子特征，并将所述每个冗余特征集合中的其他特征删除；将每个所述冗余特征集合的子特征组成所述低维特征子集。

根据本发明的另一个方面，提供了一种基于上述特征选择方法进行数据分类的方法，所述方法包括：S101，根据上述特征选择方法对数据进行选择；S102，将选择后的数据通过训练形成模型；S103，通过所述模型对待测数据进行识别。

其中，使用增量式支持向量机模型对所述选择后的数据进行训练。

根据本发明的又一个方面，提供了一种基于最大信息数的特征选择装置，其特征在于，所述装置包括：初始特征形成模块，基于互信息准则将原始特征进行排序，并将低于阈值的特征删除，形成初始特征子集；最大信息系数计算模块，计算在初始特征子集中的特征之间的最大信息系数；特征选择模块，根据最大信息系数，删除所述初始特征子集中的冗余特征，得到低维特征子集。

其中，所述最大信息系数计算模块包括：坐标系建立单元，将所述初始特征子集中的特征放置在二维坐标系中；网格划分单元，对所述二维坐标系进行多次网格划分；最大互信息计算单元，计算在每次网格划分下，每一块网格中的特征之间的互信息值，计算每次网格划分的最大互信息值，并建立最大互信息矩阵；最大信息系数计算单元，通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。

根据本发明的又另一个方面，提供了一种基于上述特征选择装置的数据分类装置，其特征在于，所述系统包括：上述特征选择装置，对数据进行选择，删除冗余数据；模型训练模块，将选择后的数据通过训练形成模型；识别模块，通过所述模型对待测数据进行识别。

通过上述实施例可知，使用本发明所述特征选择、分类方法及其装置，具有以下有益效果：

1、对特征选择采用删除不相关特征和删除冗余特征两种方式，从而能够将网络量中的大量冗余特征进行删除，从而降低了数据维数，便于在进行数据处理中减少了处理时间和空间，避免了资源的浪费；

2.采用最大信息系数的方法删除冗余特征，可以同时将特征集中的线性相关和非线性相关的冗余特征去除，从而可以很好地降低数据的维数；

3.使用本发明的特征选择方法后的特征进行分类，可以减少数据的处理量，从而减少了计算的复杂度，并且不会影响数据的计算精度。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明的一种基于最大信息系数的特征选择方法的流程图；

图2示出了本发明的一种基于最大信息系数的特征选择方法的步骤S2的流程图；

图3示出了本发明的一种基于最大信息系数的特征选择方法的步骤S3的流程图；

图4示出了本发明的一种基于上述特征选择方法进行数据分类的方法的流程图；

图5示出了本发明的一种基于最大信息系数的特征选择装置1001的结构框图；

图6示出了本发明的一种基于最大信息系数的特征选择装置的最大信息数计算模块200的结构框图；

图7示出了本发明的一种基于上述特征选择装置的数据分类装置的结构框图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

图1示出了本发明的一种基于最大信息系数的特征选择方法的流程图。

参照图1，本发明的实施例的基于最大信息系数的特征选择方法包括步骤：

S1、基于互信息准则将原始特征进行排序，将相关度低于阈值的特征删除，并将相关度高于阈值的特征形成初始特征子集。

由于网络流量数据存在大量的冗余以及不相关特征，因此首先利用特征与类别之间的相关程度对特征进行排序，保留与类别的相关性强的特征，删除相关性弱的特征。

本实施例中，基于互信息的方法，计算特征f_i与类别C相关性的公式如下：

其中p(f_i)表示特征f_i的概率密度函数，p(C)表示类别C的概率密度函数，p(f_i,C)表示特征f_i和类别C的联合概率密度函数。

在本实施例中，由于无法得知特征的概率分布，也很难估计出来特征的分布，因此采用原始的概率公式来统计，即通过频率来估计概率，在样本充足的情况下，可以很好的反应实际情况。

根据特征与类别的相关性I(f_i；C)的值对特征进行排序，并根据需要设置阈值θ，如果I(f_i；C)≥θ，那么对应的特征f_i将被保留，反之则被删除。最后得到初始特征子集F。

S2、计算在初始特征子集中的特征之间的最大信息系数；

对于初始特征子集F，里面还存着这大量的冗余特征，这些特征之间存在着线性或者非线性的关系，也就意味着特征之间所包含的信息有很大一部分是重叠的，需要删除这样的特征或者是子集。

本实施例中，采用网格划分的方式，定量地衡量特征之间的非线性关系。

参照图2，步骤S2的具体过程如下：

S21，将所述初始特征子集中的特征放置在二维坐标系中；

S22，对所述二维坐标系进行多次网格划分；

S23，计算在每次网格划分下，每一块网格中的特征之间的互信息值，计算每次网格划分的最大互信息值，并建立最大互信息矩阵；

S24，通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。

在本实施例中，对于特征的网格划分方法，已一种网格划分方式为例，方法如下：

假设有限集D包含有一对特征，将此特征对放置于x×y二维坐标系中，然后对坐标系进行网格划分，划分大小为m×n，并命名为这种网格划分方法为G。设定此对特征之间的最大互信息为I^*(D,x,y)，公式如下：

I^*(D,x,y)＝maxI(D|G)

其中I(D|G)表示在网格划分G的条件下，每一块网格中变量之间的互信息值，I^*(D,x,y)表示这些互信息的最大值。互信息的计算公式如上所述的计算特征与类别之间相关度的公式，I^*(D,x,y)可以在一定程度上表示特征在划分G下的相关程度。

同时，在本实施例中，一种网格划分无法准确地描述非线性关系，因此进行了多种网格划分的方式。方法如下：

规定网格划分的大小为m×n＜B，一般情况下取B＝N^0.6，N为样本个数。建立最大互信息矩阵，计算公式如下：

其中，M(D)_i,j为矩阵的第i行第j列的值，表示在不同的网格划分条件下得到的最大互信息值，且i，j满足0＜i＜B，0＜j＜B，i×j＜B。

本发明采用最大信息系数的评价指标，评价特征之间的非线性关系的强弱，最大信息系数MIC(D)计算公式如下：

每两个变量之间都会计算得出有一个MIC值，通过MIC对特征之间的非线性关系进行度量。

S3、根据最大信息系数，删除初始特征子集中的冗余特征，得到低维特征子集。

图3示出了本发明的一种基于最大信息系数的特征选择方法的步骤S3的流程图。

参照图3，步骤S3的具体过程为：

S31，选择最大信息系数超过设定阈值的特征对；

S32，将相互关联的特征对组成冗余特征集合；

S33，选取每个冗余特征集合中贡献度最大的特征作为子特征，并将所述每个冗余特征集合中的其他特征删除；

S34，将每个所述冗余特征集合的子特征组成所述低维特征子集。

以下实施例将具体描述上述过程。

通过MIC值衡量非线性关系，认为当MIC≥0.8时，变量之间有着强的非线性关系，意味着这两个变量是相互冗余的。由于特征都是成对出现的，那么把相互关联的特征放到一起，将会得到由特征对组成的集合，每个集合都可以认为是冗余特征集合。这些特征之间都有着很强的非线性关系，然后选出一个最具代表性的特征，来代替其它冗余特征。

假设一个特征对集合中有k个特征f₁,f₂......f_k，其中特征f_i和f_j之间的MIC值为m_ij，且只保留m_ij＞0.8的值，其他特征对之间的MIC值设置为0，如此会得到一个k×k的矩阵，其中元素只包含0和大于0.8的数值，矩阵如下：

f₁f₂...f_k

对矩阵的每一列求和，得到一组数值M₁,M₂......M_k，其中的每一个值代表特征f_i在这个矩阵(特征集合)中的贡献度，值越大表示f_i包含的信息越多，可以代表整个特征集合包的信息，那么其它特征就可以被删除。对每一个特征集合做相同的操作，这样将会删除大量的冗余特征，得到最终的低维特征子集。

在本发明的另一个实施例中，提供了一种数据分类方法。

图4示出了本发明的一种基于上述特征选择方法进行数据分类的方法的流程图。

参照图4，该方法具体包括：

S101，根据上述的特征选择方法对数据进行选择。

使用上述的基于最大信息系数的特征选择方法，对数据进行特征选择，从而将冗余特征删除，从而可以减少数据的计算量，避免存储资源以及计算资源的浪费。

S102，将选择后的数据通过训练形成模型。

本实施例增量式支持向量机模型对数据进行训练。

首先，选择支持向量机模型是因为它可以很好的处理连续的数值特征，而且具有良好的鲁棒性，对于流量分类来说是最好的选择。其次，由于支持向量机模型的训练过程需要消耗大量的时间，而且每一次的更新需要遍历所有的数据，这带来许多附加的消耗，增量式的更新方法可以很好的解决这个问题。

支持向量机是定义在特征空间上的间隔最大的线性分类器，通过核技巧的运用，使它成为实质上的非线性分类器。通过间隔最大化方法学习到的分类超平面为：

w·x+b＝0

以及相应的分类决策函数为

f(x)＝sign(w·x+b)

其中x为输入样本，w为权重向量，b为偏置。

通过最大化间隔可以得到下面的最优化问题：

s.t.y_i(w·x_i+b)-1≥0,i＝1,2,...,N

其中N为样本个数。上面的最优化问题的一个问题是只能处理线性可分问题，但是实际问题中很难直接提供线性可分的数据，因此一般采用软间隔支持向量机模型，可以很好地处理线性不可分数据，其最优化问题如下：

s.t.y_i(w·x_i+b)≥1-ξ_i,i＝1,2,...,N

ξ_i≥0,i＝1,2,...,N

其中ξ_i为松弛变量，作用于第i个样本，C＞0称为惩罚参数，一般由应用问题决定，C值大时对误分类的惩罚增大，C值小时对误分类的惩罚减小。最小化目标函数包含两层含义：使尽量小即间隔尽量大，同时使误分点的个数尽量少，C是调和二者的系数。

通过求解最优化问题可以得到支持向量以及w和b，即产生分类超平面w·x+b＝0。本发明使用增量式的更新方式，可以大大减少时间复杂度。

对于增量式的更新方法，一般地根据需要将训练数据分成若干份，选择其中一份进行训练，输出一组支持向量，将本次支持向量加入到第二份数据中继续训练，可以得到一组支持向量，如此循环往复知道遍历所有数据得到最终的支持向量并得到分类超平面w^*"x+b^*＝0。

S103，通过所述模型对待测数据进行识别。

通过增量式支持向量机模型的训练得到一个分类超平面：

w^*·x+b^*＝0

并且决策函数为：

当待测样本到来时，只需提取最优特征子集中的特征，然后通过决策函数f(x)进行判断。

当旧的模型分类器性能下降时，可以通过增量式的方法对模型进行更新，得到适用于新数据的新模型。

在本发明的又一个实施例中，提供了一种基于最大信息数的特征选择装置。

图5示出了本发明的一种基于最大信息系数的特征选择装置1001的结构框图。

参照图5，基于最大信息系数的特征选择装置1001包括：

初始特征形成模块100，基于互信息准则将原始特征进行排序，并将低于阈值的特征删除，形成初始特征子集；

最大信息系数计算模块200，计算在初始特征子集中的特征之间的最大信息系数；

特征选择模块300，根据最大信息系数，删除所述初始特征子集中的冗余特征，得到低维特征子集。

图6示出了本发明的一种基于最大信息系数的特征选择装置1001的最大信息数计算模块200的结构框图。

参照图6，最大信息系数计算模块200包括：

坐标系建立单元201，将所述初始特征子集中的特征放置在二维坐标系中；

网格划分单元202，对所述二维坐标系进行多次网格划分；

最大互信息计算单元203，计算在每次网格划分下，每一块网格中的特征之间的互信息值，计算每次网格划分的最大互信息值，并建立最大互信息矩阵；

最大信息系数计算单元204，通过最大互信息矩阵计算所述初始特征子集中的特征的最大信息系数。

在本发明的又一个实施例中。提供了一种数据分类系统。

参照图7，本实施例的数据分类系统包含上述的基于最大信息系数的特征选择装置1001，还包括：

模型训练模块1002，将选择后的数据通过训练形成模型；

识别模块1003，通过所述模型对待测数据进行识别。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于最大信息系数的特征选择方法，其特征在于，所述方法包括：

S1，基于互信息准则将原始特征进行排序，将相关度低于阈值的特征删除，并将所述相关度高于阈值的特征形成初始特征子集；

S2，计算在所述初始特征子集中的特征之间的最大信息系数；

S3，根据所述最大信息系数，删除所述初始特征子集中的冗余特征，得到低维特征子集；

所述步骤S3包括：

S31，选择最大信息系数超过设定阈值的特征对；

S32，将相互关联的特征对组成冗余特征集合；

假设一个特征对集合中有k个特征f₁,f₂......f_k，其中特征f_i和f_j之间的MIC值为m_ij，且只保留m_ij>0.8的值，其他特征对之间的MIC值设置为0，如此会得到一个k×k的矩阵，其中元素只包含0和大于0.8的数值，矩阵如下：

对矩阵的每一列求和，得到一组数值M₁,M₂......M_k，其中的每一个值代表特征f_i在特征对集合中的贡献度；

2.根据权利要求1所述的一种基于最大信息系数的特征选择方法，其特征在于，所述步骤S1具体包括：

根据所述原始特征与类别之间的相关程度对所述原始特征进行排序，并将相关程度低于阈值的特征删除。

3.根据权利要求1所述的一种基于最大信息系数的特征选择方法，其特征在于，所述步骤S2包括：

S21，将所述初始特征子集中的特征放置在二维坐标系中；

S22，对所述二维坐标系进行多次网格划分；

S24，通过最大互信息矩阵计算所述初始特征子集中的特征的最大信息系数。

4.根据权利要求3所述的一种基于最大信息系数的特征选择方法，其特征在于，所述建立最大互信息矩阵包括：设定每次网格划分的大小小于B，B为根据所述特征的数量设定的值，所述最大互信息矩阵的计算公式如下：

其中，M(D)_i,j为所述最大互信息矩阵的第i行第j列的值，表示在不同的网格划分条件下得到的最大互信息值，且i，j满足0＜i＜B，0＜j＜B，i×j＜B，I^*(D,i,j)表示二维数据集D使用i*j网格划分下的最大互信息。

5.一种基于权利要求1-4的任一项所述的特征选择方法进行数据分类的方法，其特征在于，所述方法包括：

S101，根据权利要求1-4的任一项所述的特征选择方法对数据进行选择；

S102，将选择后的数据通过训练形成模型；

S103，通过所述模型对待测数据进行识别。

6.根据权利要求5所述的一种数据分类方法，其特征在于，

使用增量式支持向量机模型对所述选择后的数据进行训练。

7.一种基于最大信息系数的特征选择装置，其特征在于，所述装置包括：

初始特征形成模块，基于互信息准则将原始特征进行排序，并将低于阈值的特征删除，形成初始特征子集；

最大信息系数计算模块，计算在初始特征子集中的特征之间的最大信息系数；

特征选择模块，根据最大信息系数，删除所述初始特征子集中的冗余特征，得到低维特征子集；

所述特征选择模块，具体用于：

选择最大信息系数超过设定阈值的特征对；

将相互关联的特征对组成冗余特征集合；

选取每个冗余特征集合中贡献度最大的特征作为子特征，并将所述每个冗余特征集合中的其他特征删除；

将每个所述冗余特征集合的子特征组成所述低维特征子集。

8.根据权利要求7所述的装置，其特征在于，所述最大信息系数计算模块包括：

坐标系建立单元，将所述初始特征子集中的特征放置在二维坐标系中；

网格划分单元，对所述二维坐标系进行多次网格划分；

最大互信息计算单元，计算在每次网格划分下，每一块网格中的特征之间的互信息值，计算每次网格划分的最大互信息值，并建立最大互信息矩阵；

最大信息系数计算单元，通过最大互信息矩阵计算所述初始特征子集中的特征的最大信息系数。

9.一种基于权利要求7-8任一项所述的特征选择装置的数据分类装置，其特征在于，所述装置包括：

权利要求7-8任一项所述的特征选择装置，对数据进行选择，删除冗余数据；

模型训练模块，将选择后的数据通过训练形成模型；

识别模块，通过所述模型对待测数据进行识别。