CN104050242B - 基于最大信息系数的特征选择、分类方法及其装置 - Google Patents
基于最大信息系数的特征选择、分类方法及其装置 Download PDFInfo
- Publication number
- CN104050242B CN104050242B CN201410228055.8A CN201410228055A CN104050242B CN 104050242 B CN104050242 B CN 104050242B CN 201410228055 A CN201410228055 A CN 201410228055A CN 104050242 B CN104050242 B CN 104050242B
- Authority
- CN
- China
- Prior art keywords
- feature
- maximum
- subset
- value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013459 approach Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009329 sexual behaviour Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于最大信息系数的特征选择、分类方法及其装置,所述特征选择方法包括:S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将所述相关度高于阈值的特征形成初始特征子集;S2,计算在所述初始特征子集中的特征之间的最大信息系数;S3,根据所述最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集。本发明所述的特征选择方法通过使用互信息以及最大信息系数的方式进行特征选择,从而去除冗余特征,降低了数据的维度。
Description
技术领域
本发明涉及无线通信领域,具体地,涉及一种基于最大信息系数的特征选择、分类方法及其装置。
背景技术
随着科学技术的发展,数据规模也随之快速增长,对这些数据进行智能化的分析和处理变得越来越重要。但是随之而来的问题是,海量的原始数据中存在着大量冗余信息,对模式识别、机器学习等领域的算法提出了挑战。一方面,冗余数据极大地增加了算法的时间复杂度和空间复杂度,浪费了存储资源,增加了处理时间;另一方面,冗余数据由于存在较大相关性,导致分类结果产生偏差,降低了智能信息处理软件的性能。特征选择以消除数据冗余,降低数据维数为目的,是解决上述问题的有效方法,因而一直是学术界研究的热点。
网络流量的特征种类多样,数值覆盖范围广,兼有离散和连续特征,处理起来有着很大的困难,难以得到有利于分类的优秀的特征子集。
在特征选择方面已有许多成型方法,典型的有基于信息增益的、基于神经网络的、基于决策树的方法等。从广义上来说,特征选择可分为两大类,第一类是特征排序,第二类是特征子集选择。特征排序的方法首先计算特征与类别之间的相关性,然后根据相关性对特征进行排序,保留与类别相关性强的特征。尽管这类方法速度快,但是难以消除冗余特征。特征子集选择通过选择维数尽可能低、各位之间相关性尽可能小的一个特征子集,能有效消除冗余特征。但传统的特征子集选择方法大都根据特征之间的线性相关性选择特征,难以消除普遍存在的非线性冗余,这限制了该类方法性能的提高。
发明内容
本发明提供了一种基于最大信息系数的特征选择、分类方法及其装置,通过使用互信息以及最大信息系数的方式进行特征选择,从而去除冗余特征,降低了数据的维度。
为此目的,本发明提出了一种基于最大信息系数的特征选择方法,其特征在于,所述方法包括:S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将所述相关度高于阈值的特征形成初始特征子集;S2,计算在所述初始特征子集中的特征之间的最大信息系数;S3,根据所述最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集。
其中,步骤S1具体包括:根据所述原始特征与类别之间的相关程度对所述原始特征进行排序,并将相关程度低于阈值的特征删除。
其中,所述步骤S2包括:S21,将所述初始特征子集中的特征放置在二维坐标系中;S22,对所述二维坐标系进行多次网格划分;S23,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;S24,通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。
其中,所述建立最大互信息矩阵包括:设定每次网格划分的大小小于B,B为根据所述特征的数量设定的值,所述最大互信息矩阵的计算公式如下:
其中,M(D)i,j为所述最大互信息矩阵的第i行第j列的值,表示在不同的网格划分条件下得到的最大互信息值,且i,j满足0<i<B,0<j<B,i×j<B。
其中,所述步骤S3包括:选择最大信息系数超过设定阈值的特征对;将相互关联的特征对组成冗余特征集合;选取每个冗余特征集合中贡献度最大的特征作为子特征,并将所述每个冗余特征集合中的其他特征删除;将每个所述冗余特征集合的子特征组成所述低维特征子集。
根据本发明的另一个方面,提供了一种基于上述特征选择方法进行数据分类的方法,所述方法包括:S101,根据上述特征选择方法对数据进行选择;S102,将选择后的数据通过训练形成模型;S103,通过所述模型对待测数据进行识别。
其中,使用增量式支持向量机模型对所述选择后的数据进行训练。
根据本发明的又一个方面,提供了一种基于最大信息数的特征选择装置,其特征在于,所述装置包括:初始特征形成模块,基于互信息准则将原始特征进行排序,并将低于阈值的特征删除,形成初始特征子集;最大信息系数计算模块,计算在初始特征子集中的特征之间的最大信息系数;特征选择模块,根据最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集。
其中,所述最大信息系数计算模块包括:坐标系建立单元,将所述初始特征子集中的特征放置在二维坐标系中;网格划分单元,对所述二维坐标系进行多次网格划分;最大互信息计算单元,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;最大信息系数计算单元,通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。
根据本发明的又另一个方面,提供了一种基于上述特征选择装置的数据分类装置,其特征在于,所述系统包括:上述特征选择装置,对数据进行选择,删除冗余数据;模型训练模块,将选择后的数据通过训练形成模型;识别模块,通过所述模型对待测数据进行识别。
通过上述实施例可知,使用本发明所述特征选择、分类方法及其装置,具有以下有益效果:
1、对特征选择采用删除不相关特征和删除冗余特征两种方式,从而能够将网络量中的大量冗余特征进行删除,从而降低了数据维数,便于在进行数据处理中减少了处理时间和空间,避免了资源的浪费;
2.采用最大信息系数的方法删除冗余特征,可以同时将特征集中的线性相关和非线性相关的冗余特征去除,从而可以很好地降低数据的维数;
3.使用本发明的特征选择方法后的特征进行分类,可以减少数据的处理量,从而减少了计算的复杂度,并且不会影响数据的计算精度。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明的一种基于最大信息系数的特征选择方法的流程图;
图2示出了本发明的一种基于最大信息系数的特征选择方法的步骤S2的流程图;
图3示出了本发明的一种基于最大信息系数的特征选择方法的步骤S3的流程图;
图4示出了本发明的一种基于上述特征选择方法进行数据分类的方法的流程图;
图5示出了本发明的一种基于最大信息系数的特征选择装置1001的结构框图;
图6示出了本发明的一种基于最大信息系数的特征选择装置的最大信息数计算模块200的结构框图;
图7示出了本发明的一种基于上述特征选择装置的数据分类装置的结构框图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
图1示出了本发明的一种基于最大信息系数的特征选择方法的流程图。
参照图1,本发明的实施例的基于最大信息系数的特征选择方法包括步骤:
S1、基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将相关度高于阈值的特征形成初始特征子集。
由于网络流量数据存在大量的冗余以及不相关特征,因此首先利用特征与类别之间的相关程度对特征进行排序,保留与类别的相关性强的特征,删除相关性弱的特征。
本实施例中,基于互信息的方法,计算特征fi与类别C相关性的公式如下:
其中p(fi)表示特征fi的概率密度函数,p(C)表示类别C的概率密度函数,p(fi,C)表示特征fi和类别C的联合概率密度函数。
在本实施例中,由于无法得知特征的概率分布,也很难估计出来特征的分布,因此采用原始的概率公式来统计,即通过频率来估计概率,在样本充足的情况下,可以很好的反应实际情况。
根据特征与类别的相关性I(fi;C)的值对特征进行排序,并根据需要设置阈值θ,如果I(fi;C)≥θ,那么对应的特征fi将被保留,反之则被删除。最后得到初始特征子集F。
S2、计算在初始特征子集中的特征之间的最大信息系数;
对于初始特征子集F,里面还存着这大量的冗余特征,这些特征之间存在着线性或者非线性的关系,也就意味着特征之间所包含的信息有很大一部分是重叠的,需要删除这样的特征或者是子集。
本实施例中,采用网格划分的方式,定量地衡量特征之间的非线性关系。
图2示出了本发明的一种基于最大信息系数的特征选择方法的步骤S2的流程图;
参照图2,步骤S2的具体过程如下:
S21,将所述初始特征子集中的特征放置在二维坐标系中;
S22,对所述二维坐标系进行多次网格划分;
S23,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;
S24,通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。
在本实施例中,对于特征的网格划分方法,已一种网格划分方式为例,方法如下:
假设有限集D包含有一对特征,将此特征对放置于x×y二维坐标系中,然后对坐标系进行网格划分,划分大小为m×n,并命名为这种网格划分方法为G。设定此对特征之间的最大互信息为I*(D,x,y),公式如下:
I*(D,x,y)=maxI(D|G)
其中I(D|G)表示在网格划分G的条件下,每一块网格中变量之间的互信息值,I*(D,x,y)表示这些互信息的最大值。互信息的计算公式如上所述的计算特征与类别之间相关度的公式,I*(D,x,y)可以在一定程度上表示特征在划分G下的相关程度。
同时,在本实施例中,一种网格划分无法准确地描述非线性关系,因此进行了多种网格划分的方式。方法如下:
规定网格划分的大小为m×n<B,一般情况下取B=N0.6,N为样本个数。建立最大互信息矩阵,计算公式如下:
其中,M(D)i,j为矩阵的第i行第j列的值,表示在不同的网格划分条件下得到的最大互信息值,且i,j满足0<i<B,0<j<B,i×j<B。
本发明采用最大信息系数的评价指标,评价特征之间的非线性关系的强弱,最大信息系数MIC(D)计算公式如下:
每两个变量之间都会计算得出有一个MIC值,通过MIC对特征之间的非线性关系进行度量。
S3、根据最大信息系数,删除初始特征子集中的冗余特征,得到低维特征子集。
图3示出了本发明的一种基于最大信息系数的特征选择方法的步骤S3的流程图。
参照图3,步骤S3的具体过程为:
S31,选择最大信息系数超过设定阈值的特征对;
S32,将相互关联的特征对组成冗余特征集合;
S33,选取每个冗余特征集合中贡献度最大的特征作为子特征,并将所述每个冗余特征集合中的其他特征删除;
S34,将每个所述冗余特征集合的子特征组成所述低维特征子集。
以下实施例将具体描述上述过程。
通过MIC值衡量非线性关系,认为当MIC≥0.8时,变量之间有着强的非线性关系,意味着这两个变量是相互冗余的。由于特征都是成对出现的,那么把相互关联的特征放到一起,将会得到由特征对组成的集合,每个集合都可以认为是冗余特征集合。这些特征之间都有着很强的非线性关系,然后选出一个最具代表性的特征,来代替其它冗余特征。
假设一个特征对集合中有k个特征f1,f2......fk,其中特征fi和fj之间的MIC值为mij,且只保留mij>0.8的值,其他特征对之间的MIC值设置为0,如此会得到一个k×k的矩阵,其中元素只包含0和大于0.8的数值,矩阵如下:
f1f2...fk
对矩阵的每一列求和,得到一组数值M1,M2......Mk,其中的每一个值代表特征fi在这个矩阵(特征集合)中的贡献度,值越大表示fi包含的信息越多,可以代表整个特征集合包的信息,那么其它特征就可以被删除。对每一个特征集合做相同的操作,这样将会删除大量的冗余特征,得到最终的低维特征子集。
在本发明的另一个实施例中,提供了一种数据分类方法。
图4示出了本发明的一种基于上述特征选择方法进行数据分类的方法的流程图。
参照图4,该方法具体包括:
S101,根据上述的特征选择方法对数据进行选择。
使用上述的基于最大信息系数的特征选择方法,对数据进行特征选择,从而将冗余特征删除,从而可以减少数据的计算量,避免存储资源以及计算资源的浪费。
S102,将选择后的数据通过训练形成模型。
本实施例增量式支持向量机模型对数据进行训练。
首先,选择支持向量机模型是因为它可以很好的处理连续的数值特征,而且具有良好的鲁棒性,对于流量分类来说是最好的选择。其次,由于支持向量机模型的训练过程需要消耗大量的时间,而且每一次的更新需要遍历所有的数据,这带来许多附加的消耗,增量式的更新方法可以很好的解决这个问题。
支持向量机是定义在特征空间上的间隔最大的线性分类器,通过核技巧的运用,使它成为实质上的非线性分类器。通过间隔最大化方法学习到的分类超平面为:
w·x+b=0
以及相应的分类决策函数为
f(x)=sign(w·x+b)
其中x为输入样本,w为权重向量,b为偏置。
通过最大化间隔可以得到下面的最优化问题:
s.t.yi(w·xi+b)-1≥0,i=1,2,...,N
其中N为样本个数。上面的最优化问题的一个问题是只能处理线性可分问题,但是实际问题中很难直接提供线性可分的数据,因此一般采用软间隔支持向量机模型,可以很好地处理线性不可分数据,其最优化问题如下:
s.t.yi(w·xi+b)≥1-ξi,i=1,2,...,N
ξi≥0,i=1,2,...,N
其中ξi为松弛变量,作用于第i个样本,C>0称为惩罚参数,一般由应用问题决定,C值大时对误分类的惩罚增大,C值小时对误分类的惩罚减小。最小化目标函数包含两层含义:使尽量小即间隔尽量大,同时使误分点的个数尽量少,C是调和二者的系数。
通过求解最优化问题可以得到支持向量以及w和b,即产生分类超平面w·x+b=0。本发明使用增量式的更新方式,可以大大减少时间复杂度。
对于增量式的更新方法,一般地根据需要将训练数据分成若干份,选择其中一份进行训练,输出一组支持向量,将本次支持向量加入到第二份数据中继续训练,可以得到一组支持向量,如此循环往复知道遍历所有数据得到最终的支持向量并得到分类超平面w*"x+b*=0。
S103,通过所述模型对待测数据进行识别。
通过增量式支持向量机模型的训练得到一个分类超平面:
w*·x+b*=0
并且决策函数为:
当待测样本到来时,只需提取最优特征子集中的特征,然后通过决策函数f(x)进行判断。
当旧的模型分类器性能下降时,可以通过增量式的方法对模型进行更新,得到适用于新数据的新模型。
在本发明的又一个实施例中,提供了一种基于最大信息数的特征选择装置。
图5示出了本发明的一种基于最大信息系数的特征选择装置1001的结构框图。
参照图5,基于最大信息系数的特征选择装置1001包括:
初始特征形成模块100,基于互信息准则将原始特征进行排序,并将低于阈值的特征删除,形成初始特征子集;
最大信息系数计算模块200,计算在初始特征子集中的特征之间的最大信息系数;
特征选择模块300,根据最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集。
图6示出了本发明的一种基于最大信息系数的特征选择装置1001的最大信息数计算模块200的结构框图。
参照图6,最大信息系数计算模块200包括:
坐标系建立单元201,将所述初始特征子集中的特征放置在二维坐标系中;
网格划分单元202,对所述二维坐标系进行多次网格划分;
最大互信息计算单元203,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;
最大信息系数计算单元204,通过最大互信息矩阵计算所述初始特征子集中的特征的最大信息系数。
在本发明的又一个实施例中。提供了一种数据分类系统。
图7示出了本发明的一种基于上述特征选择装置的数据分类装置的结构框图。
参照图7,本实施例的数据分类系统包含上述的基于最大信息系数的特征选择装置1001,还包括:
模型训练模块1002,将选择后的数据通过训练形成模型;
识别模块1003,通过所述模型对待测数据进行识别。
通过上述实施例可知,使用本发明所述特征选择、分类方法及其装置,具有以下有益效果:
1、对特征选择采用删除不相关特征和删除冗余特征两种方式,从而能够将网络量中的大量冗余特征进行删除,从而降低了数据维数,便于在进行数据处理中减少了处理时间和空间,避免了资源的浪费;
2.采用最大信息系数的方法删除冗余特征,可以同时将特征集中的线性相关和非线性相关的冗余特征去除,从而可以很好地降低数据的维数;
3.使用本发明的特征选择方法后的特征进行分类,可以减少数据的处理量,从而减少了计算的复杂度,并且不会影响数据的计算精度。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (9)
1.一种基于最大信息系数的特征选择方法,其特征在于,所述方法包括:
S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将所述相关度高于阈值的特征形成初始特征子集;
S2,计算在所述初始特征子集中的特征之间的最大信息系数;
S3,根据所述最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集;
所述步骤S3包括:
S31,选择最大信息系数超过设定阈值的特征对;
S32,将相互关联的特征对组成冗余特征集合;
S33,选取每个冗余特征集合中贡献度最大的特征作为子特征,并将所述每个冗余特征集合中的其他特征删除;
假设一个特征对集合中有k个特征f1,f2......fk,其中特征fi和fj之间的MIC值为mij,且只保留mij>0.8的值,其他特征对之间的MIC值设置为0,如此会得到一个k×k的矩阵,其中元素只包含0和大于0.8的数值,矩阵如下:
对矩阵的每一列求和,得到一组数值M1,M2......Mk,其中的每一个值代表特征fi在特征对集合中的贡献度;
S34,将每个所述冗余特征集合的子特征组成所述低维特征子集。
2.根据权利要求1所述的一种基于最大信息系数的特征选择方法,其特征在于,所述步骤S1具体包括:
根据所述原始特征与类别之间的相关程度对所述原始特征进行排序,并将相关程度低于阈值的特征删除。
3.根据权利要求1所述的一种基于最大信息系数的特征选择方法,其特征在于,所述步骤S2包括:
S21,将所述初始特征子集中的特征放置在二维坐标系中;
S22,对所述二维坐标系进行多次网格划分;
S23,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;
S24,通过最大互信息矩阵计算所述初始特征子集中的特征的最大信息系数。
4.根据权利要求3所述的一种基于最大信息系数的特征选择方法,其特征在于,所述建立最大互信息矩阵包括:设定每次网格划分的大小小于B,B为根据所述特征的数量设定的值,所述最大互信息矩阵的计算公式如下:
<mrow>
<mi>M</mi>
<msub>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<mi>I</mi>
<mo>*</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>,</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mi> </mi>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mo>{</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>}</mo>
</mrow>
</mfrac>
</mrow>
其中,M(D)i,j为所述最大互信息矩阵的第i行第j列的值,表示在不同的网格划分条件下得到的最大互信息值,且i,j满足0<i<B,0<j<B,i×j<B,I*(D,i,j)表示二维数据集D使用i*j网格划分下的最大互信息。
5.一种基于权利要求1-4的任一项所述的特征选择方法进行数据分类的方法,其特征在于,所述方法包括:
S101,根据权利要求1-4的任一项所述的特征选择方法对数据进行选择;
S102,将选择后的数据通过训练形成模型;
S103,通过所述模型对待测数据进行识别。
6.根据权利要求5所述的一种数据分类方法,其特征在于,
使用增量式支持向量机模型对所述选择后的数据进行训练。
7.一种基于最大信息系数的特征选择装置,其特征在于,所述装置包括:
初始特征形成模块,基于互信息准则将原始特征进行排序,并将低于阈值的特征删除,形成初始特征子集;
最大信息系数计算模块,计算在初始特征子集中的特征之间的最大信息系数;
特征选择模块,根据最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集;
所述特征选择模块,具体用于:
选择最大信息系数超过设定阈值的特征对;
将相互关联的特征对组成冗余特征集合;
选取每个冗余特征集合中贡献度最大的特征作为子特征,并将所述每个冗余特征集合中的其他特征删除;
假设一个特征对集合中有k个特征f1,f2......fk,其中特征fi和fj之间的MIC值为mij,且只保留mij>0.8的值,其他特征对之间的MIC值设置为0,如此会得到一个k×k的矩阵,其中元素只包含0和大于0.8的数值,矩阵如下:
对矩阵的每一列求和,得到一组数值M1,M2......Mk,其中的每一个值代表特征fi在特征对集合中的贡献度;
将每个所述冗余特征集合的子特征组成所述低维特征子集。
8.根据权利要求7所述的装置,其特征在于,所述最大信息系数计算模块包括:
坐标系建立单元,将所述初始特征子集中的特征放置在二维坐标系中;
网格划分单元,对所述二维坐标系进行多次网格划分;
最大互信息计算单元,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;
最大信息系数计算单元,通过最大互信息矩阵计算所述初始特征子集中的特征的最大信息系数。
9.一种基于权利要求7-8任一项所述的特征选择装置的数据分类装置,其特征在于,所述装置包括:
权利要求7-8任一项所述的特征选择装置,对数据进行选择,删除冗余数据;
模型训练模块,将选择后的数据通过训练形成模型;
识别模块,通过所述模型对待测数据进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410228055.8A CN104050242B (zh) | 2014-05-27 | 2014-05-27 | 基于最大信息系数的特征选择、分类方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410228055.8A CN104050242B (zh) | 2014-05-27 | 2014-05-27 | 基于最大信息系数的特征选择、分类方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104050242A CN104050242A (zh) | 2014-09-17 |
CN104050242B true CN104050242B (zh) | 2018-03-27 |
Family
ID=51503074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410228055.8A Expired - Fee Related CN104050242B (zh) | 2014-05-27 | 2014-05-27 | 基于最大信息系数的特征选择、分类方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104050242B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468603B (zh) * | 2014-08-22 | 2019-04-02 | 腾讯科技(深圳)有限公司 | 数据选择方法及装置 |
CN104702465B (zh) * | 2015-02-09 | 2017-10-10 | 桂林电子科技大学 | 一种并行网络流量分类方法 |
CN105548744A (zh) * | 2015-12-04 | 2016-05-04 | 国网技术学院 | 一种基于运检大数据的变电设备故障识别方法及其系统 |
CN107122327B (zh) * | 2016-02-25 | 2021-06-29 | 阿里巴巴集团控股有限公司 | 一种利用训练数据训练模型的方法和训练系统 |
CN107622408B (zh) * | 2016-07-15 | 2021-10-01 | 北京易车互联信息技术有限公司 | 购车线索交易转化的预估方法和预估装置 |
CN106341845A (zh) * | 2016-08-11 | 2017-01-18 | 盐城师范学院 | 一种移动网络服务信息传输中冗余量消除方法 |
CN106909972B (zh) * | 2017-01-09 | 2020-04-10 | 浙江大学 | 一种传感器数据校准模型的学习方法 |
CN107085775A (zh) * | 2017-06-13 | 2017-08-22 | 国网辽宁省电力有限公司锦州供电公司 | 基于格栅获取法及最大信息系数法的电力应急抢修光源评价方法 |
CN107478963A (zh) * | 2017-09-30 | 2017-12-15 | 山东海兴电力科技有限公司 | 基于电网大数据的小电流接地系统单相接地故障选线方法 |
CN109598275A (zh) * | 2017-09-30 | 2019-04-09 | 富士通株式会社 | 特征选择装置、方法及电子设备 |
CN107767934B (zh) * | 2017-10-11 | 2020-11-03 | 天津理工大学 | 一种用于描述压力的hrv特征范围估计方法 |
CN107992447B (zh) * | 2017-12-13 | 2019-12-17 | 电子科技大学 | 一种应用于河流水位预测数据的特征选择分解方法 |
CN110362603A (zh) * | 2018-04-04 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 一种特征冗余性分析方法、特征选择方法和相关装置 |
CN109522830A (zh) * | 2018-11-06 | 2019-03-26 | 哈尔滨工程大学 | 一种面向海底底质分类的声纳图像特征选择的方法 |
CN110426612B (zh) * | 2019-08-17 | 2020-09-01 | 福州大学 | 一种两级式变压器油纸绝缘时域介电响应特征量优选方法 |
CN110598760B (zh) * | 2019-08-26 | 2023-10-24 | 华北电力大学(保定) | 一种变压器振动数据无监督特征选择方法 |
CN111442827B (zh) * | 2020-04-08 | 2022-07-19 | 南京艾森斯智能科技有限公司 | 一种变压器绕组振动的光纤无源在线监测系统 |
CN113466634B (zh) * | 2021-08-20 | 2023-12-29 | 青岛鼎信通讯股份有限公司 | 一种基于故障指示器的接地故障波形识别方法 |
CN114462627A (zh) * | 2022-03-16 | 2022-05-10 | 兰州理工大学 | 基于灰狼算法与支持向量机顶吹熔炼系统异常诊断方法 |
CN116026780B (zh) * | 2023-03-28 | 2023-07-14 | 江西中医药大学 | 基于串联策略波长选择的包衣吸湿率在线检测方法及系统 |
CN116915511B (zh) * | 2023-09-13 | 2023-12-08 | 中移(苏州)软件技术有限公司 | 信息处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609714A (zh) * | 2011-12-31 | 2012-07-25 | 哈尔滨理工大学 | 基于信息增益和在线支持向量机的新型分类器及分类方法 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103559205A (zh) * | 2013-10-09 | 2014-02-05 | 山东省计算中心 | 基于MapReduce的并行特征选择方法 |
-
2014
- 2014-05-27 CN CN201410228055.8A patent/CN104050242B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609714A (zh) * | 2011-12-31 | 2012-07-25 | 哈尔滨理工大学 | 基于信息增益和在线支持向量机的新型分类器及分类方法 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103559205A (zh) * | 2013-10-09 | 2014-02-05 | 山东省计算中心 | 基于MapReduce的并行特征选择方法 |
Non-Patent Citations (2)
Title |
---|
基于最大信息系数的人脸特征选择;战泉茹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140215(第02期);I138-769 * |
特征选择算法及其在网络流量识别中的应用研究;杨飞虎;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120715(第07期);I139-111 * |
Also Published As
Publication number | Publication date |
---|---|
CN104050242A (zh) | 2014-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050242B (zh) | 基于最大信息系数的特征选择、分类方法及其装置 | |
CN105446979B (zh) | 数据挖掘方法和节点 | |
Mora-Meliá et al. | Efficiency of evolutionary algorithms in water network pipe sizing | |
CN104536412B (zh) | 基于指标预报和解相似度分析的光刻工序动态调度方法 | |
CN109543203A (zh) | 一种基于随机森林的建筑冷热负荷预测方法 | |
CN103745273B (zh) | 一种半导体制造过程的多性能预测方法 | |
CN108776820A (zh) | 一种利用宽度神经网络改进的随机森林集成方法 | |
CN108986470A (zh) | 粒子群算法优化lstm神经网络的行程时间预测方法 | |
CN106202335B (zh) | 一种基于云计算框架的交通大数据清洗方法 | |
CN102737126B (zh) | 云计算环境下的分类规则挖掘方法 | |
CN108090510A (zh) | 一种基于间隔优化的集成学习方法及装置 | |
CN107748693A (zh) | 云计算环境下的群组虚拟机调度策略 | |
CN109117380A (zh) | 一种软件质量评价方法、装置、设备及可读存储介质 | |
CN105654196A (zh) | 一种基于电力大数据的自适应负荷预测选择方法 | |
CN104050547A (zh) | 一种油田开发规划方案非线性优选决策方法 | |
CN109508498A (zh) | 基于bp人工神经网络的橡胶减振器配方设计系统及方法 | |
Reddy et al. | Performance evaluation of elitist-mutated multi-objective particle swarm optimization for integrated water resources management | |
CN107807919A (zh) | 一种利用循环随机游走网络进行微博情感分类预测的方法 | |
CN104217296A (zh) | 一种上市公司绩效综合评价方法 | |
CN110298506A (zh) | 一种城市建设水平预测系统 | |
CN103605493A (zh) | 基于图形处理单元的并行排序学习方法及系统 | |
CN106897292A (zh) | 一种互联网数据聚类方法及系统 | |
CN116822742A (zh) | 一种基于动态分解-重构集成处理的电力负荷预测方法 | |
Zhang et al. | A Bayesian discrete optimization algorithm for permutation based combinatorial problems | |
CN115271221A (zh) | 一种城市扩展预测方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180327 |