CN1731401A

CN1731401A - 数据挖掘中一种基于混合互信息的特征选择方法

Info

Publication number: CN1731401A
Application number: CN 200510092983
Authority: CN
Inventors: 孙宏斌; 张伯明; 吴文传; 王皓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2005-08-26
Filing date: 2005-08-26
Publication date: 2006-02-08
Anticipated expiration: 2025-08-26
Also published as: CN100354864C

Abstract

本发明涉及一种数据挖掘中基于混合互信息的特征选择方法，属于数据处理技术领域，本方法包括：数据表中指定D个属性组成候选属性集合F，设置特征属性集合S为空集；对于F中的任意一个属性f_i，计算f_i与类别标号属性C的互信息I；从中选择最大化互信息I的属性f_i，将其从F中去除，并添加到S中；重复步骤a、b直至符合终止条件：a.对于F中的任意一个属性f_i，计算混合互信息HMI；b.选取最大化HMI的属性f_i，将其从F中去除，并添加S中；输出选出的特征属性集合S，作为数据挖掘的输入属性。本发明能够更快速、更有效地完成从数据表中选择特征属性的任务，提高数据挖掘的精度和效率。

Description

数据挖掘中一种基于混合互信息的特征选择方法

技术领域

本发明属于数据挖掘(data mining)或知识发现(knowledge discovery indatabase)中的特征选择(feature selection)技术领域。

背景技术

数据挖掘致力在海量的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。目前已经有不少基于计算机的数据挖掘(或知识发现)系统应用到电力、金融、商业、军事、医药、生命等领域。一个典型的基于计算机的数据挖掘过程由准备数据和预处理、数据挖掘、结果分析与知识应用等步骤组成。在实际应用中，数据表中每一列称为一个属性。特征选择是数据挖掘重要的预处理步骤，从高维属性空间中选取少量主要属性，作为数据挖掘的输入属性，可以有效提高数据挖掘的精度和效率。

特征提取的原理可以描述如下：给定n个样本，每个样本均给出D个描述该样本的观测值(D个属性的值)，并给定样本所属的类别(即：类别标号属性C的值)，特征选择就是要从给定D个属性中，选出d个有助于确定样本所属类别的特征属性。特征属性的数量d以及d个特征属性的构成方式直接影响数据挖掘的效果。从特征属性的数量上来讲，属性过少，将会丢失大量的有用信息，势必不能得到精确的结果。属性过多，一方面导致输入数据量过多，降低数据挖掘速度，另一方面由于引入弱相关或者不相关属性，会向数据挖掘过程引入过多的噪声，降低挖掘知识的泛化能力。在特征属性个数d已经确定的情况下，这d个属性的构成对数据挖掘的结果也有至关重要的影响，当这d个属性能够最大程度地提供样本所属类别的信息时，这组属性才是最优的。

特征属性的数量d以及d个特征属性如何构成是特征选择的核心问题。特征选择已有大量的方法，其中基于信息论的特征选择方法是一类重要的方法，已经在数据挖掘中得到了大量应用，这类方法将数据表的每个属性看作一个随机变量，并用信息论中相关理论指导特征选择。下面简要介绍信息论中相关内容：

根据香农的信息理论，熵(entropy)是随机变量不确定性的度量。如果一个离散随机变量X，其可能取值集合记为S_x，对应于X的任意可能取值x∈S_x，其出现概率为p(x)，则X的熵定义为：

H (X) = - \underset{{x &Element; s}_{x}}{Σ} p (x) \log p (x) - - - (1)

当变量Y已知，变量X中剩余的不确定性用条件熵(conditional entropy)来度量：

H (X | Y) = - \underset{{x &Element; S}_{x}}{Σ} \underset{{y &Element; S}_{y}}{Σ} p (x, y) \log p (x | y) - - - (2)

两个随机变量X和Y的统计依存关系用互信息(mutual information)来度量：

I (X; Y) = \underset{{x &Element; S}_{x}}{Σ} \underset{{y &Element; S}_{y}}{Σ} p (x, y) \log \frac{p (x, y)}{p (x) p (y)} - - - (3)

如果两个随机变量的互信息较大，则这两个随机变量相关性较大。互信息和熵有如下关系：

I(X；Y)＝H(X)-H(X|Y)

＝H(X)+H(Y)-H(XY) (4)

多个随机变量的联合互信息是二维互信息的推广，现以X与YZ的互信息来说明，更高维的情况与此类似：

I (X; YZ) = \underset{{x &Element; S}_{x}}{Σ} \underset{{y &Element; S}_{y}}{Σ} \underset{{z &Element; S}_{z}}{Σ} p (x, y, z) \log \frac{p (x, y, z)}{p (x) p (y, z)} - - - (5)

在Z已知的条件下，X和Y的统计依存度可以用条件互信息来表示：

I (X; Y | Z) = \underset{{x &Element; S}_{x}}{Σ} \underset{{y &Element; S}_{y}}{Σ} \underset{{z &Element; S}_{z}}{Σ} p (x, y, z) \log \frac{p (x, y | z)}{p (x | z) p (y | z)} - - - (6)

条件互信息与熵、互信息有如下关系：

I(X；Y|Z)＝I(X；YZ)-I(X；Z)

＝H(XZ)+H(YZ)-H(Z)-H(XYZ) (7)

对于连续随机变量，微分熵、互信息、条件互信息分别定义如下：

h (X) = - \underset{x}{&Integral;} p (x) \log p (x) dx - - - (8)

I (X; Y) = \underset{x, y}{&Integral; &Integral;} p (x, y) \log \frac{p (x, y)}{p (x) p (y)} dxdy - - - (9)

I (X; Y | Z) \underset{x, y, z}{&Integral; &Integral; &Integral;} p (x, y, z) \log \frac{p (x, y | Z)}{p (x | z) p (y | z)} dzdydz - - - (10)

其中p(x)，p(y)，p(x，y)以及p(x，y，z)为概率密度函数。

对于连续随机变量，其概率密度函数通常难以获得，另外积分运算也很困难，导致连续随机变量的互信息难以计算。目前主要有两类方法来解决这个问题：一、将连续随机变量离散化(分段)，然后用离散随机变量的公式进行计算；二、估计出概率密度函数(例如：用Parzen窗的方法)，并将积分转化为代数和进行计算。

已有的基于互信息的特征选择方法在实际应用中仍有一定局限性：有的方法未考虑己选属性间的相关性，在属性之间相关性较强时，难以获得满意的效果；有的方法虽然考虑了任意两个属性之间的相关性，但是没有考虑多个属性之间的相关性，因而无法保证所选属性组合在一起效果最优。新近提出的PWFS(基于Parzen窗的属性选取方法)是考虑多个属性之间互信息的“理想贪婪”特征选择法(ideal greedyalgorithm)，其具体实现步骤如下：

1.从数据表中人工指定D个属性{f₁，f₂，…，f_D)组成候选属性集合F，设置特征属性集合S为空集；

2.对于候选属性集合F中的任意一个属性f_i，计算f_i与类别标号属性C的互信息I(C；f_i)；

3.从步骤2的计算结果中选择最大化互信息I(C；f_i)的属性f_i(即f_i是所有候选属性中与C的互信息最大的)，将其从候选属性集合F中去除，并添加到特征属性集合S中；

4.重复a.b直至特征属性集合S中的属性个数达到预先设定值d

a)对于候选属性集合F中的任意一个属性f_i，计算联合互信息I(C；f_i，S)；

b)选取最大化I(C；f_i，S)的属性f_i，将其从候选属性集合F中去除，并添加到特征属性集合S中；

5.特征选择完毕，输出选出的特征属性集合S，作为数据挖掘的输入属性。

上述方法实现了从D个候选属性中选择d个特征属性，组成特征属性集合S输出。步骤2及步骤4中涉及到互信息的计算，考虑到连续随机变量互信息计算的困难，PWFS法用Parzen窗估计概率密度函数，并将积分转化为代数和从而实现互信息的计算。具体方法简介如下：步骤2中的I(C；f_i)和步骤4中的I(C；f_i，S)可统一为计算类别标号属性C和一个随机矢量X(对于I(C；f_i)，X为一维矢量；对于I(C；f_i，S)且S为k维，则X为k+l维矢量)的互信息，如式(11)所示。其中，H(C)的计算是十分简便的，只要统计类别标号属性C的每个可能取值c的出现次数n_c，用n_c/n作为p(c)的估计值，便可以用式(12)算出(其中N为类别标号属性C的不同值个数)。H(C|X)的计算需要确定随机矢量X的概率密度函数p(x)，以及X已知条件下C的概率密度函数p(c|x)，并按式(13)进行积分运算。p(x)可用1/n来估计，p(c|x)可用高斯型Parzen窗估计，化简后的计算式如(14)所示(上标^表示估计)，其中：i为样本编号，I_c为属于类别c的样本编号集合，h为窗宽可取1/logn，∑为随机矢量x-x_i的协方差矩阵。最终H(C|X)的估计值可以用式(15)得到。如欲进一步了解具体实现方法请参阅文献(基于Parzen窗的互信息输入特征选择方法，Nojun Kwak，Chong-Ho Choi.Input feature selection by mutual information based on Parzen window.IEEETransactions on Pattern Analysis and Machine Intelligence，Vol.24，No.12，DECEMBER 2002)。

I(C；X)＝H(C)-H(C|X) (11)

H (C) = - Σ_{c = 1}^{N} p (c) \log p (c) - - - (12)

H (C | X) = - {&Integral;}_{x} p (x) Σ_{c = 1}^{N} p (c | x) \log p (c | x) dx - - - (13)

\hat{p} (c | x) = \frac{\underset{{i &Element; I}_{c}}{Σ} \exp (- \frac{{(x - x_{i})}^{T} Σ^{- 1} (x - x_{i})}{2 h^{2}})}{Σ_{k = 1}^{N} Σ_{{i &Element; I}_{k}} \exp (- \frac{{(x - x_{i})}^{T} Σ^{- 1} (x - x_{i})}{2 h^{2}})} - - - (14)

\hat{H} (C | X) = - Σ_{j = 1}^{n} \frac{1}{n} Σ_{c = 1}^{N} \hat{p} (c | x_{j}) \log \hat{p} (c | x_{j}) - - - (15)

PWFS法逐次选取能够提供最多新信息量的属性，但是到了筛选后期，容易引入弱相关属性，同时由于连续随机变量的互信息需要估计连续随机变量的概率密度函数并进行积分运算，虽然适当简化后可以将积分运算用代数和代替，然而计算量仍较大，时间复杂度为O(D*n²)(其中D为维数，n为样本数)，处理海量数据能力不足。虽然可以采用对原始数据“聚类→采样”的方法减少计算量，但这是以牺牲计算精度为代价的。

如果将连续属性离散化，然后用离散随机变量(每个属性看作一个随机变量)的公式计算互信息，则按传统计算方法能够较有效地计算两个属性之间的互信息，但计算高维离散互信息时会遇到突出的困难：记类别标号属性C不同的值个数为Kc(有Kc个类别)，第j个属性有P_j个不同的值，则按传统方法，在计算k个属性与分类标号属性C的互信息I(C；f_i，S)的时候需要占用K_c×∏_j＝1 ^kP_j个内存单元。这说明内存需要量是随着属性个数按指数方式增长的，即使在属性个数较少时，仍将需要巨大的内存空间来辅助计算。例如：Kc＝3，k＝10，P_j＝10时，计算I(C；f_i，S)将需要使用3×10¹⁰个内存单元。内存需求量随着维数按指数增长，这导致了传统方法难以对高维离散互信息进行计算，成为应用高维离散互信息的一个重大障碍。

发明内容

本发明为了克服已有的特征选取方法的不足之处，提出一种基于混合互信息(HMI，Hybrid Mutual Information)的特征选择方法，该方法同时考虑了候选属性与类别标号属性的相关性以及候选属性所能够提供的新信息量。本发明能够更快速、更有效地完成从数据表中选择特征属性的任务，提高数据挖掘的精度和效率。

本发明提出的基于混合互信息的特征选择方法的步骤如下：

1.从数据表中人工指定D个属性{f₁，f₂，…，f_D}组成候选属性集合F，设置特征属性集合S为空集

2.对于候选属性集合F中的任意一个属性f_i，计算f_i与类别标号属性C的互信息I(C；f_i)

3.从步骤2的计算结果中选择最大化互信息I(C；f_i)的属性f_i，将其从候选属性集合F中去除，并添加到特征属性集合S中

4.重复a.b直至符合终止条件

c.对于候选属性集合F中的任意一个属性f_i，计算混合互信息HMI(C；f_i|S)

d.选取最大化HMI(C；f_i|S)的属性f_i，将其从候选属性集合F中去除，并添加到特征属性集合S中

5.特征选择完毕，输出选出的特征属性集合S，作为数据挖掘的输入属性

步骤4中的混合互信息(HMI，Hybrid Mutual Information)是本发明提出的一种度量属性的指标，它兼顾了候选属性f与C的相关性以及f所能提供的关于C的新信息量，计算公式如下：

HMI(C；f|S)＝(1-W)*I(C；f)+W*I(C；f|S) (16)

式(16)中W∈[0，1]，为混合系数。特别地，如果W＝0，则混合互信息退化为互信息；如果W＝1，则混合互信息退化为条件互信息。

式(16)中的互信息I(C；f)，度量了属性f与分类目标属性C的相关程度，采用离散型的计算方法，其计算公式参见式(17)，其中y为属性f的某一特定取值。

I (C; f) = \underset{{c &Element; S}_{c}}{Σ} \underset{{y &Element; S}_{f}}{Σ} p (c, y) \log \frac{p (c, y)}{p (c) p (y)} - - - (17)

式(16)中的条件互信息I(C；f|S)度量了已经向特征属性集合S中选取了一些属性的条件下，候选属性f所能提供的关于C的新信息量，采用离散型的计算方法，其计算公式参见式(18)，其中s为特征属性集合S的某一特定取值矢量。

I (C; f | S) = \underset{{c &Element; S}_{c}}{Σ} \underset{{y &Element; S}_{f}}{Σ} \underset{{s &Element; S}_{s}}{Σ} p (c, y, s) \log \frac{p (c, y | s)}{p (c | s) p (y | s)} - - - (18)

本发明采用的方法与已有方法的显著区别：在步骤4中，本发明采用混合互信息代替已有方法中的联合互信息作为度量属性的指标。

发明原理

HMI是本发明定义的一种属性度量指标，它综合衡量了候选属性与类别标号属性的相关性以及候选属性所能提供的新信息量。下面结合图1对混合互信息法中涉及到的概念和原理进行物理意义上的说明。设候选属性集合F＝{f₁，f₂，f₃}，图中的方框面积表示正确预测类别标号属性C所需要的信息量，图中各圆的面积表示各候选属性所含的信息量，各图形间的重合部分面积表示各属性间的互信息量。

互信息表示两个属性之间的相关程度。I(C；f₁)、I(C；f₂)、I(C；f₃)分别表示f₁，f₂，f₃与C的相关程度，用与C重合部分面积(即图中的f1∩C、f₂∩C和f₃∩C的面积，其中：∩表示两个集合的交，∪表示两个集合的并，\表示两个集合的差)表示。从图中可以看出

I(C；f₁)＞I(C；f₃)＞I(C；f₂) (19)

如果按照候选属性与类别标号属性之间的相关性为标准，则在选取第一个属性f1后，便会选取f₃，这种依次选取与类别标号属性互信息最大的属性的特征选择方法即为传统的信息增益法。信息增益法不考虑所选属性之间的相关性，因此信息增益法不能有效取得分类所需信息，例如：图1中f₁和f₃联合在一起所能提供的关于C的信息量((f₁∪f₃)∩C部分面积)，并没有f₁和f₂联合在一起所能提供的关于C的信息量((f₁∪f₂)∩C部分面积)多。

条件互信息表示候选属性所能够提供的关于C的新信息量。I(C；f₂|f₁)和I(C；f₃|f₁)分别表示选取f₁后，f₂和f₃所能提供的关于C的新信息量，分别用图中(f₂∩C)\f₁部分面积和(f₃∩C)\f₁部分面积来表示，由图可以看出

I(C；f₂|f₁)＞I(C；f₃|f₁) (20)

如果按照候选属性能够提供的关于C的新信息量为标准，则在选取f₁之后，会选取f₂，这种依次选取具有最大条件互信息的属性的特征选择方法本发明称之为条件互信息法。理想贪婪方法是选取最大化I(C；f_i，S)的属性f_i，由于在S确定后I(C；S)是定值，所以由式(21)可知最大化I(C；f_i，S)等价于最大化I(C；f_i|S)，因此条件互信息法与PWFS采用的“理想贪婪”法是等价的。

maxI(C；f_i，S)

＝max{I(C；S)+I(C；f_i|S)} (21)

＝I(C；S)+maxI(C；f_i|S)

按条件互信息法选取f₂仍有不足，因为f₂与C的相关性较f₃与C的相关性弱，如果采用弱相关的属性f₂进行分类的话，f₂与C的不相关部分(图中f₂\C部分面积)作为噪声，会对分类结果造成不良影响。

特征选择过程中，如果分别采用互信息和条件互信息为标准，则很可能得到相互矛盾的结果。互信息强调相关性，可能忽视新信息量；条件互信息强调新信息量，可能忽视相关性。

为了同时考虑相关性和新信息量，本发明提出了混合互信息的属性度量准则。依次选取具有最大混合互信息的属性的特征选择方法即为混合互信息法。混合互信息法可以使得算法前期选择的属性能够提供较多的新信息量，同时相关性也较强；后期所选的属性有较强的相关性，并兼顾所能提供的新信息量。

技术特点及效果

本发明的特征选择方法是一种基于混合互信息(HMI，Hybrid Mutual Information)的特征选择方法，是在已有基于互信息方法基础上的一种改进。本方法的创新点主要是提出了HMI这一属性度量准则，HMI能够同时考虑属性的相关性及属性能够提供的新信息量。采用本方法从数据表大量候选属性中选出少量特征属性作为数据挖掘的输入属性，不但可提高数据挖掘的速度，还可提高数据挖掘的精度。

附图说明

图1为本发明采用的混合互信息法中的基本原理示意图。

图2为本发明的基于混合互信息的特征选择方法的实现步骤框图。

图3为本发明方法中的K维矢量X₁X₂…X_k的熵计算步骤框图。

具体实施方式

本发明提出的数据挖掘中一种基于混合互信息的特征选择方法结合附图及实施例详细说明如下：

本发明的方法如图2所示。包括以下步骤：

1.从数据表中人工指定D个属性{f₁，f₂，…，f_D}组成候选属性集合F，设置特征属性集合S为空集(F所有的D个候选属性，S Φ)

在数据挖掘应用中，数据表一般由研究领域的海量数据构成，通常含有大量属性。特征属性选择第一步应由领域专家依据经验人工从大量属性中选择D个较为重要的属性组成候选属性集合F。由于特征属性选择尚未进行，故特征属性集合S应为空集。候选属性集合F以及特征属性集合S的实施例可以用链表方式存储。

2.对于候选属性集合F中的任意一个属性f_i，计算f_i与类别标号属性C的互信息I(C；f_i).(f_i F，计算I(C；f_i))

这一步骤，对任一属于候选属性集合F的属性f_i，计算其与类别标号属性C之间的互信息，并将这一结果用一个D维数组保存。I(C；f_i)可用式(22)表示，其计算可采用步骤4中本发明提出的“高维离散随机变量互信息”的计算方法。

I(C；f_i)＝H(C)+H(f_i)-H(Cf_i) (22)

在选取第一个属性时，因为在步骤2中已经计算出所有属性与类别标号属性C的互信息，所以这一步只需选取具有最大I(C；f_i)的属性f_i，并把f_i从候选属性集合F中去掉，填入特征属性集合S中。实施例中，这对应着将f_i从链表F中移除，并将其插入链表S中。

4.重复a.b直至符合终止条件

这一部分是算法的核心，是一个循环过程，循环直至终止条件满足为止。终止条件可以是属性数目达到期望值或者所选属性集合S与类别标号属性C的互信息达到设定值。每一次循环均选取一个属性，在每一轮循环过程中，都需要计算候选属性与类别标号属性之间的混合互信息，选取具有最大混合互信息的属性f_i，并把f_i从候选属性集合F中去掉，填入特征属性集合S中。这一部分可分为：a.计算HMI和b.选取属性两个子步骤。

a.对于候选属性集合F中的任意一个属性f_i，计算混合互信息HMI(C；f_i|S).(f_i F，计算HMI(C；S|f_i))

对于所有在候选属性集合F中的属性f_i，计算HMI(C；f_i|S)。如式(23)所示，

HMI(C；f|S)＝(1-W)*I(C；f)+W*I(C；f|S) (23)

HMI(C；f_i|S)是I(C；f_i)与I(C；f_i|S)以W为权重的线性组合，因此需要确定I(C；f_i)、I(C；f_i|S)以及W的值。

I(C；f_i)和I(C；f_i|S)的计算是十分重要的环节。可采用连续型的算法，但计算时间复杂度为O(D*n²)，时间复杂度较高；也可采用传统的离散型算法，其空间复杂度为O(K_c×∏_j＝1 ^kP_j)(Kc为类别标号属性C不同值个数，P_j为第j个属性不同值个数)，空间复杂度较高。

本发明提出了一种计算高维离散随机变量熵的算法，该算法不需额外内存，计算时间复杂度为O(nlogn)，适合处理海量高维数据。熵H的总体计算步骤，如图3所示，包括：

1)离散：将原始数据表的连续属性离散化(分段)，形成离散形式的数据表；

2)编码：对离散属性的数据表中的数据编码；

3)排序：对编码后的数据排序，形成有序编码表；

4)遍历：遍历有序编码表，用离散随机变量的公式计算出熵H

按上面的步骤计算出熵H(C)、H(f_i)、H(Cf_i)、H(CS)、H(f_iS)和H(Cf_iS)后，按式(24)、(25)便可以得到互信息I(C；f_i)和条件互信息I(C；f_i|S)。

I(C；f_i)＝H(C)+H(f_i)-H(Cf_i) (24)

I(C；f_i|S)＝H(CS)+H(f_iS)-H(C)-H(Cf_iS) (25)

下面首先说明本发明提出的高维离散随机变量熵的计算方法。以计算K维矢量X_i1X_i2…X_iK(其中i₁，i₂，…i_K∈{1，2，…，D})的熵H(X_i1X_i2…X_iK)为例。K维矢量X_i1X_i2…X_iK在某一特定取值x_i1x_i2…x_iK的概率p(x_i1x_i2…x_iK)，可以用n_i1i2…iK/n估计，其中n_i1i2…iK为样本空间中对应于x_i1x_i2…x_iK的样本数，n为样本总数。通过推导，可得到K维熵计算的简化公式(26)，只要逐个确定K维矢量所有可能取值对应的样本数n_i1i2…iK，则可以很简便地计算K维熵H(X_i1X_i2…X_iK)。

\begin{matrix} H (X_{i_{1}} X_{i_{2}} . . . X_{i_{K}}) = - \underset{x_{i_{1}} x_{i_{2}} x_{i_{K}}}{Σ} p (x_{i_{1}} x_{i_{2}} x_{i_{K}}) \log p (x_{i_{1}} x_{i_{2}} x_{i_{K}}) \\ = - \underset{n_{i_{1} i_{2} . . . i_{K}}}{Σ} \frac{n_{i_{1} i_{2} . . . i_{K}}}{n} \log \frac{n_{i_{1} i_{2} . . . i_{K}}}{n} \\ = - \log n - \frac{1}{n} \underset{n_{i_{1} i_{2} . . . i_{K}}}{Σ} n_{i_{1} i_{2} . . . i_{K}} \log n_{i_{1} i_{2} . . . i_{K}} \end{matrix} - - - (26)

由此可以得到K维矢量X₁X₂…X_k的熵计算程序，如图3所示。下面分步骤说明：

1)离散化

离散化可以选用已有的离散化计算方法，如：等宽法、等概率法、Chi2法、CAMI法等。如果采用等宽法/等概率法，则该步骤的计算复杂度为O(n*D)，其中n为样本数目，D(Dimension)为数据的维数。

2)编码

数据离散之后，编码步骤只需将属于不同区间的数据用区间标号代替即可，计算复杂度为O(n*D*P)，P(Partition)为离散的分段数。

3)排序

为了计算K维矢量的熵，需要对数据编码表按X_i1X_i2…X_iK排序。排序中需要比较两个样本按X_i1X_i2…X_iK比较的大小，这可以用表1的程序实现，如果Sample1按X_i1X_i2…X_iK大于Sample2，则输出true，否则输出false。排序可以采用经典的排序算法(例如：堆排序、快速排序法等)，计算复杂度为O(D*n*log(n))。

表1两个样本大小比较程序。如果按X_i1X_i2…X_iK比较，Sample1大于Sample2，则输出true；否则，输出false

bool Large(Sample1(X₁X₂…X_D)，Sample2(X₁X₂…X_D)){bool bLarge＝false；for i＝i₁，i₂，…，i_k{if(Sample1.X₁＞Sample2.X₁){bLarge＝true；break；}}return bLarge；}

4)遍历

排序之后，具有相同X_i1X_i2…X_iK取值的样本便聚集在一起了，于是一次对数据编码表的遍历就可以得到对应于X_i1X_i2…X_iK不同取值的样本数n_i1i2…iK。最后，利用式(26)便可以得到H(X_i1X_i2…X_iK)。

下面以3维熵为例说明高维熵的计算步骤：首先进行离散化，其次进行元组编码，然后按X₁X₂X₃对编码表进行排序，再然后从上至下遍历数据统计每种可能取值的样本量n_i，最后用式(26)计算熵。

在求得熵之后，条件熵、互信息、条件互信息等即可通过熵直接求出，分别如式(27)、式(28)以及式(29)所示：

H(X₁X₂…X_K|Y₁Y₂…Y_J)＝H(X₁X₂…X_KY₁Y₂…Y_J)-H(Y₁Y₂…Y_J) (27)

I(X₁X₂…X_K；Y₁Y₂…Y_J)

＝H(X₁X₂…X_K)+H(Y₁Y₂…Y_J)-H(X₁X₂…X_KY₁Y₂…Y_J) (28)

I(X₁X₂…X_K；Y₁Y₂…Y_J|Z₁Z₂…Z_L)

＝H(X₁X₂…X_KY₁Y₂…Y_J)+H(Y₁Y₂…Y_JZ₁Z₂…Z_L) (29)

-H(X₁X₂…X_KY₁Y₂…Y_JZ₁Z₂…Z_L)

-H(Z₁Z₂…Z_L)

在上面的计算中，不同的计算顺序，计算量会有差异。当用式(27)计算条件熵时，应先按Y₁Y₂…Y_JX₁X₂…X_K排序，计算出H(X₁X₂…X_KY₁Y₂…Y_J)；由于按Y₁Y₂…Y_JX₁X₂…X_K排序的结果自然满足按Y₁Y₂…Y_J的要求，故在计算H(Y₁Y₂…Y_J)时，不必重新排序，直接计算即可。用类似的方法也可以对互信息和条件互信息的计算进行进一步的简化，避免不必要的排序计算。

另外，当重复运算时，只需生成一次编码表，以后的所有操作只需对编码表排序、计算便可以了，不必每次都离散化和编码。

I(C；f_i)已经在步骤2中计算出，不必重复计算。

I(C；f_i|S)可以按照上面给出的方法计算。计算后用数组保存。

混合系数W的确定

应用HMI法时，必需确定混合系数。混合系数确定原则如下：在算法初期(选取的特征属性较少时)，考虑属性之间的相关性多一些，也就是条件互信息占主导地位，使得前期所选的属性能够提供较多的分类信息；而在算法后期(已经选取较多的特征属性时)，考虑属性与类别标号属性的相关性多一些，也就是互信息占主导地位，使得筛选出的属性与C有较强的相关性，避免引入噪声。为了达到这样一个目的，取混合系数W为随着己选的特征属性个数递减的函数，式(30)和(31)表示的函数即可满足要求。其中：i为已筛选出的特征属性个数，n为候选属性个数。

W (i) = \exp (- \frac{i}{n}) - - - (30)

W (i) = 1 - \frac{i}{n} - - - (31)

通过研究可以发现，如果将W取一个较大的常数值(例如：W介于0.8和0.95之间)也可以满足上述要求。这是因为：在特征选择前期，条件互信息数值上与互信息相差不大(例如：对于第1个候选属性，二者是一致的)，所以选取较大的W便可以使得条件互信息占较大的比例，起主导作用；在属性选取后期，由于后期所选属性的条件互信息只是对少量样本所提供的新信息量，故后期所选属性的条件互信息很小，甚至跟互信息数值上相差一两个数量级，这时虽然条件互信息所占比例较大，但是由于条件互信息数值很小，所以起主导作用的是互信息。为简便起见，W的一种实施例可采用定常的W。

在计算出I(C；f_i)、I(C；f_i|S)并确定了W的值之后，便可以按照式(16)计算HMI(C；f_i|S)，计算后保存于一数组中。

b.选取最大化HMI(C；f_i|S)的属性f_i，将其从候选属性集合F中去除，并添加到特征属性集合S中(对于最大化HMI(C；S|f_i)的属性f_i F，设置F F\{f_i}，S S∪{f_i})

在对于所有在候选属性集合F中的属性计算出混合互信息后，选取HMI(C；f_i|S)最大的属性f_i，将其从候选属性集合F中删除，并添加到特征属性集合S中。

将特征属性集合输出，完成属性选取过程。选出的特征属性作为后续数据挖掘的输入属性，可以提高数据挖掘的精度及速度。

Claims

1、一种数据挖掘中基于混合互信息的特征选择方法，其特征在于，包括以下步骤：

1)数据表中指定D个属性{f₁，f₂，…，f_D}组成候选属性集合F，设置特征属性集合S为空集；

2)对于候选属性集合F中的任意一个属性f_i，计算f_i与类别标号属性C的互信息I(C；f_i)；

3)从步骤2)的计算结果中选择最大化互信息I(C；f_i)的属性f_i，将其从候选属性集合F中去除，并添加到特征属性集合S中；

4)重复步骤a、b直至符合终止条件

a.对于候选属性集合F中的任意一个属性f_i，计算混合互信息HMI(C；f_i|S)；

b.选取最大化HMI(C；f_i|S)的属性f_i，将其从候选属性集合F中去除，并添加到特征属性集合S中；

5)特征选择完毕，输出选出的特征属性集合S，作为数据挖掘的输入属性。

所述步骤4)中的混合互信息计算公式如下：

HMI(C；f|S)＝(1-W)*I(C；f)+W*I(C；f|S)

式中W∈[0，1]，为混合系数；

式中的互信息I(C；f)的计算公式为：

I (C; f) = \underset{c &Element; S_{c}}{Σ} \underset{y &Element; S_{f}}{Σ} p (c, y) \log \frac{p (c, y)}{p (c) p (y)}

式中的条件互信息I(C；f|S)的计算公式为：

(C; f | S) = \underset{c &Element; S_{c}}{Σ} \underset{y &Element; S_{f}}{Σ} \underset{s &Element; S_{5}}{Σ} p (c, y, s) \log \frac{p (c, y | s)}{p (c | s) p (y | s)}

2、如权利要求1所述的特征选择方法，其特征在于，所述混合互信息HMI(C；f_i|S)具体计算方法通过高维离散随机变量熵的计算得出：先计算熵H，由熵得到互信息I(C；f_i)和条件互信息I(C；f_i|S)；所述高维离散随机变量熵H的总体计算步骤，包括：

1)离散：将原始数据表的连续属性离散化，形成离散形式的数据表；

2)编码：对离散属性的数据表中的数据编码；

3)排序：对编码后的数据排序，形成有序编码表；

4)遍历：遍历有序编码表，用离散随机变量的公式计算出熵H：

按上面的步骤计算出熵H(C)、H(f_i)、H(Cf_i)、H(CS)、H(f_iS)和H(Cf_iS)后，得到互信息I(C；f_i)和条件互信息I(C；f_i|S)：

I(C；f_i)＝H(C)+H(f_i)-H(Cf_i)

I(C；f_i|S)＝H(CS)+H(f_iS)-H(C)-H(Cf_iS)

3、如权利要求1所述的特征选择方法，其特征在于，所述混合互信息HMI(C；f_i|S)中的混合系数W的取值范围为0.8和0.95之间。