CN108564009A

CN108564009A - 一种基于互信息量的改进特征评价方法

Info

Publication number: CN108564009A
Application number: CN201810265014.4A
Authority: CN
Inventors: 张涛; 丁碧云; 赵鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-09-21

Abstract

一种基于互信息量的改进特征评价方法：输入一个特征子集维度为m的数据，每个特征包含有若干个样本；计算特征子集的相关性，即特征子集中所有特征与目标类别标签的互信息量之和；计算特征子集中特征之间的冗余性，即特征子集中所有特征之间的互信息量的平均值；计算特征子集的评估值，即是特征子集的评估值。本发明的一种基于互信息量的改进特征评价方法，针对复杂信号的特征有效性评估问题，结合实际应用，既考虑冗余性又考虑相关性，有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题，更高效的完成特征选择任务，最终提高数据挖掘与模式识别的效率。

Description

一种基于互信息量的改进特征评价方法

技术领域

本发明涉及一种特征评价方法。特别是涉及一种针对特征选择中无法高效评估复杂信号特征有效性的基于互信息量的改进特征评价方法。

背景技术

1、特征选择的概念

随着数据采集与存储技术的发展，高维数据广泛存在于自然界，金融学，工业，生物医学等诸多领域，其中在多个特征之间包含复杂的非线性关系。从高维数据中找到潜在的有用信息和建立预测模型已经成为数据挖掘和知识发现的最重要的方面之一。虽然高维数据可以提供丰富的信息，但随着数据集的维数和规模的不断增大，建立精确的预测模型越来越困难。同时，不相关冗余特征的存在很容易掩盖重要特征的影响，对建模有负面影响。因此，针对这些问题，包括特征提取和特征选择在内的降维方法备受关注。

特征选择是从原始数据集中选择一个最优的特征子集的过程。它是模式识别领域的一个关键问题，被广泛应用于处理高维数据集。一个典型的特征选择方法包括四个基本步骤，它的过程被分为：生成过程，评估函数，停止准则和验证过程。生成过程是一个搜索过程，评估函数是评估正在检查的子集，停止准则是决定特征选择何时停止，验证过程是检查子集是否有效。目前对特征选择方法的研究主要集中于搜索策略和评价准则。

2、评价准则

评价准则是定义一个适当的评估函数来为一组特征进行评分，用于衡量特征区分不同类别标签的识别能力。根据评估标准，所有特征选择方法可以分为两大类：过滤式(Filter)和封装式(Wrapper)。过滤式利用独立的评价准则在给定分类器的学习过程被执行之前选择特征的适当子集。过滤式的评价准则可以分为四类：距离，信息，依赖性和一致性。封装式使用给定分类器(即分类器错误率度量)的性能作为评估指标。过滤式选择算法在计算上比封装式更有效率，因为它们使用可快速测试的评价准则来衡量所选特征的有效性。此外，一个有效的过滤式可以获得适合不同学习算法的特征子集。然而，这也可能导致非最佳的特征子集，特别是当特征依赖于分类器时。封装式虽然可以获得较好的性能，但是算法本身效率较低，并容易出现过拟合现象。因此在需要处理大数据集的实际应用中，常用过滤式特征选择来选取合适的特征子集。在过滤式特征选择中，由于互信息量能在没有先验知识情况下测量特征间的线性和非线性依赖关系，其在特征选择问题中得到了广泛的应用。因此互信息量常作为特征子集好坏的评价准则。

互信息(Mutual Information，MI)是信息论中的一个基本概念，它表示了两个离散变量之间拥有共同信息的含量，可以用于评估这两个变量之间的相似程度和依赖关系。对于两个离散变量X和Y，假设它们的边缘概率分布为p(x)和p(y)，则可以通过下面的公式计算它们之间的互信息I(X；Y)：

其中，p(x,y)是x和y的联合概率分布。通常情况下，都是通过信息熵来计算两个变量之间的互信息，计算公式如下：

I(X；Y)＝H(X)-H(X|Y)

其中，H(X)表示变量X的信息熵，它的计算公式如下：

H(X|Y)表示X关于Y的条件熵，它的计算公式如下：

互信息可以用于表示两个变量之间的依赖程度，当X和Y完全独立时，它们之间的互信息值为0，当X和Y之间的相似程度越大，互信息的值就越大。

数据一般存在强相关、弱相关和无关三种特征，除此之外特征之间也存在相关性，这些特征称为冗余特征。特征选择的目的就是要搜索出具有强相关性和具有弱相关性但是无冗余的特征。因此实现最大相关性和最小冗余的特征选择是一种有效的方法，此处的相关性和冗余性分别用特征与目标类别标签相关性和特征间相关性表示。由于互信息可以表示两个变量之间的相似程度，所以可以用于衡量相关性和冗余性的标准。目前基于互信息量的特征选择算法包括BIF、MIFS、MIFSU和mRMR等。

3、最小冗余最大相关性(mRMR)

最小冗余最大相关性(mRMR)是基于互信息量的标准，通过消除不相关和冗余的特征来选择所有的特征。最小冗余最大相关度(mRMR)评估准则，如下所示：

φ＝D(S；L)-R

此处D(S,L)表示特征子集S与目标类别标签相关性，R表示特征子集S中特征间的冗余性，|S|是特征子集S的维度，S_i和S_j分别表示第i和第j个特征，L表示目标类别标签，I(S_i|L)表示该第i个特征和目标类别标签的互信息量，I(S_i|S_j)表示第i个特征和第j个特征之间的互信息量。φ的值越大，说明这个特征子集中的特征与目标类别标签相似度高且内部之间的相似度低，φ就是特征选择中其中一种评价准则。

目前已有的基于互信息量的评价准则在实际应用中存在无法高效评估复杂信号特征有效性。

发明内容

本发明所要解决的技术问题是，提供一种能够有效提升特征选择效率的基于互信息量的改进特征评价方法。

本发明所采用的技术方案是：一种基于互信息量的改进特征评价方法，包括如下步骤：

1)输入一个特征子集维度为m的数据，每个特征包含有若干个样本；

2)计算特征子集的相关性，即特征子集中所有特征与目标类别标签的互信息量之和，用D(S,L)表示，公式如下：

D(S,L)＝∑I(S_i；L)

S_i表示特征子集中第i个特征，L表示目标类别标签，I(S_i；L)表示特征子集中的第i个特征和目标类别标签的互信息量；

3)计算特征子集中特征之间的冗余性，即特征子集中所有特征之间的互信息量的平均值，用R表示，公式如下：

S_i和S_j分别表示特征子集中的第i和第j个特征，I(S_i；S_j)表示特征子集中的第i个特征和第j个特征之间的互信息量；

4)计算特征子集的评估值Eva

Eva＝D(S,L)-R

其中，Eva是特征子集的相关性与冗余性的差值，这个值越大，说明对应的特征子集中的特征与目标类别标签相关性高，且特征子集中特征之间的相关性低，这个评估准则能够同时排除无关特征和冗余特征，最终计算的Eva的值就是特征子集的评估值。

本发明的一种基于互信息量的改进特征评价方法，针对复杂信号的特征有效性评估问题，结合实际应用，既考虑冗余性又考虑相关性，有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题，更高效的完成特征选择任务，最终提高数据挖掘与模式识别的效率。

具体实施方式

下面结合实施例对本发明的一种基于互信息量的改进特征评价方法做出详细说明。

本发明的一种基于互信息量的改进特征评价方法，包括如下步骤：

D(S,L)＝∑I(S_i；L)

4)计算特征子集的评估值Eva

Eva＝D(S,L)-R

下面给出具体实例：

1)若给定一个维度为5的特征子集，其中每个特征包含10样本，此时特征子集S＝{S₁,S₂,S₃,S₄,S₅}，数据如下：

特征子集的数据为：

若数据的类别标签L＝[1 1 1 1 1 0 0 0 0 0]'；

2)计算特征子集的相关性D(S,L)为：

D(S,L)＝I(S₁；L)+I(S₂；L)+I(S₃；L)+I(S₄；L)+I(S₅；L)

≈0.3377+0.5+0.3377+0.1979+0.3195

＝1.6929

3)计算特征子集中特征之间的冗余性R为：

4)计算特征子集的评估值Eva为：

Eva＝D(S,L)-R＝1.2437

由上计算可得特征子集S＝{S₁,S₂,S₃,S₄,S₅}的评估值为1.2437。

Claims

1.一种基于互信息量的改进特征评价方法，其特征在于，包括如下步骤：

D(S,L)＝∑I(S_i；L)

4)计算特征子集的评估值Eva

Eva＝D(S,L)-R