CN104598930A

CN104598930A - 特征分辨力快速测量方法

Info

Publication number: CN104598930A
Application number: CN201510061146.1A
Authority: CN
Inventors: 王挺; 关圣威
Original assignee: Xian Jiaotong Liverpool University; Wuxi Research Institute of Applied Technologies of Tsinghua University
Current assignee: Xian Jiaotong Liverpool University; Wuxi Research Institute of Applied Technologies of Tsinghua University
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2015-05-06

Abstract

本发明涉及一种特征分辨力快速测量方法，其包括如下步骤：步骤1、获取包含N个特征量的数据集，数据集中每个特征量依据类别标识均被划分为C类别组，并对所述数据集进行所需的预处理；步骤2、计算数据集中任一特征量中每个类别组的方差，以得到所述特征量的C个特征量方差；步骤3、计算数据集中上述特征量中每个类别组对应的样本均值，以得到C个类别组均值，并计算所述C个类别组均值的均值方差；步骤4、根据上述C个特征量方差以及均值方差，计算所述特征量对应的特征分辨力；步骤5、重复上述步骤2~4，直至得到数据集中N个特征量的特征分辨力。本发明操作方便，能快速稳定地获得特征分辨力的测量结果，能降低计算复杂度。

Description

特征分辨力快速测量方法

技术领域

本发明涉及一种测量方法，尤其是一种特征分辨力快速测量方法，属于模式识别的技术领域。

背景技术

特征分辨力(Discriminability)是特征所具有的分辨事物类别的能力。一般来说，一个样本属于某一个类别可以通过该样本所具备的特征来判断。而不同的特征分辨同一类别的能力是不同的。比如分辨黄瓜和茄子，从颜色上比较容易区分，而从形状上比较难区分，则可以说对于分辨黄瓜和茄子来说，颜色的特征分辨力大于形状的特征分辨力。

Fisher线性判别法(Fisher's Linear Discriminant)也称线性判别分析(LinearDiscriminant Analysis)，是一种统计分析方法，用于在已知的分类之下遇到有新的样本时，选定一个判别标准，以判定如何将新样本放置于哪一个类别之中。Fisher在1936年发表的经典论文(Fisher R A.The use of multiple measurements intaxonomic problems)，其基本思想是选择使得Fisher准则函数达到极值的向量作为最佳投影方向，从而使得样本在该方向上投影后，达到最大的类间离散度和最小的类内离散度。这种方法主要应用于医学的患者疾病分级，以及人脸识别、经济学的市场定位、产品管理及市场研究等范畴。

特征选择(Feature Selection)是指从已有的m个特征(Feature)中选择n个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高机器学习算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。

目前，常用的Fisher线性判别法仅适用于两个类别的分类问题。如果现在的问题是个多目标的分类问题，即有多个类别需要分辨，则传统的Fisher线性判别法将无法胜任。此外，Fisher线性判别法主要是直接用于分类，并非直接用于特征选择。

针对Fisher线性判别法的不足，可以利用改进的Fisher线性判别法-FisherScore，针对常用的Fisher线性判别法作了两方面的改进：一是将传统的Fisher线性判别法升级为多目标分类方法；二是不再寻找区分度最大的投影，而是转为直接计算每个类别的样本在特征上的区分度，即计算每个特征的分辨力。Fisher Score将传统的Fisher线性判别法升级为多目标分类方法采用的是“一对其余”的办法。也就是说把某一类作为当前类，把其他类均作为非当前类。这样多目标分类问题就转化成了符合传统的Fisher线性判别法二类分类问题。然后针对每一类别完成计算后，再做整合。

Fisher Score虽然在一定程度上可以解决多目标的分类问题的特征选择，但由于其主要采用“一对其余”的办法，因此，如果有M个类别，就要做M-1次的计算，才能把所有类别都计算到。这种方法严重影响了计算效率，尤其是高维问题的求解。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种特征分辨力快速测量方法，其操作方便，能快速稳定地获得特征分辨力的测量结果，为特征选择提供依据，能降低计算复杂度，提高适应范围。

按照本发明提供的技术方案，一种特征分辨力快速测量方法，所述测量方法包括如下步骤：

步骤1、获取包含N个特征量的数据集，数据集中每个特征量依据类别标识均被划分为C类别组，并对所述数据集进行所需的预处理；

步骤2、计算数据集中任一特征量中每个类别组的方差，以得到所述特征量的C个特征量方差；

步骤3、计算数据集中上述特征量中每个类别组对应的样本均值，以得到C个类别组均值，并计算所述C个类别组均值的均值方差；

步骤4、根据上述C个特征量方差以及均值方差，计算所述特征量对应的特征分辨力，所述特征分辨力D为

D = \frac{S_{μ}^{2}}{Σ_{j = 1}^{C} S_{j}^{2}}

其中，S_μ为均值方差，S_j(j∈[1,C])为特征量方差；

步骤5、重复上述步骤2～4，直至得到数据集中N个特征量的特征分辨力。

所述步骤1中，对数据集进行的预处理步骤包括归一化以及数据补齐。

在得到数据集的N个特征量的特征分辨力后，对数据集的特征分辨力进行排序，并对数据集排序后的特征分辨力进行特征选择。

本发明的优点：用计算平均值的方差来代替计算两两类别样本的平均值之差，一步到位，能快速稳定地获得特征分辨力的测量结果，能降低计算复杂度，提高适应范围。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如图1所示：为了能快速稳定地获得特征分辨力的测量结果，能降低计算复杂度，提高适应范围，本发明测量方法包括如下步骤：

具体地，对于一个获得确定的数据集，数据集内包含的N个特征量以及依据类别表示划分的类别组数量C均为已知，具体为本技术领域人员所熟知，此处不再赘述。本发明实施例中，对数据集进行的预处理步骤包括归一化以及数据补齐，其中，对数据集中数据的归一化是将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量，归一化的具体实施措施为：

y＝(x-MinValue)/(MaxValue-MinValue)

其中，y为归一化后的数据，x为数据集中的原始数据，MinValue为数据集中的最小数据，MaxValue为数据集中的最大数据。

数据补齐(Missing Data Evaluation)是把数据集中的缺失数据补齐的操作，在具体实施时，可以采用取平均或回归预测的方法进行。

本发明实施例中，对于确定的数据集，数据集中特征量的个数N也随之确定，因此，每个特征量中所包含的特征值也具有确定性。对于每个特征量中特征值会根据类别标识划分到不同的类别组中，即每个类别组中的特征值也具有确定性，因此，对于每个类别组中的特征值能够计算方差，由于数据集中的数据被划分成C个类别组，在计算方差时，即得到C个特征量方差。

本发明实施例中，由于每个特征量中的特征值均被划分成C个类别组，对于每个类别组能计算得到每个类别组内的样本均值，在得到C个类别组均值后，能够得到C个类别均值的均值方差。样本均值以及方差的具体计算过程均采用本技术领域通用的计算方法，为本技术领域人员所熟知，此处不再赘述。

D = \frac{S_{μ}^{2}}{Σ_{j = 1}^{C} S_{j}^{2}}

其中，S_μ为均值方差，S_j(j∈[1,C])为特征量方差；

本发明实施例中，对于每个特征量而言，在得到C个特征量方差以及一个均值方差后，即能够计算得到这个特征量对应的特征分辨力。基于在线性可分情况下，类别之间距离越远、聚得越拢就越容易被分割，因此，可以把类别间的距离和类内聚拢程度作为对特征分辨力的描述，这也是现有Fisher线性判别法的主要思想，不过现有的Fisher线性判别法并不适合同时处理多类别问题，而本发明采用方差来描述类别间的距离和类内聚拢程度可以同时并行处理多类别分类问题，即本发明的特征分辨力对所有线性可分的问题都有效。

本发明实施例中，对于数据集中其他特征量均采用相同的方法累得到对应的特征分辨力，在得到数据集的N个特征量的特征分辨力后，对数据集的特征分辨力进行排序，并对数据集排序后的特征分辨力进行特征选择。对于特征分辨力进行排序主要是为了对特征分辨力进行选择，对于特征分辨力的选择主要是为了进行机器学习和分类，对于特征排序、特征选择、机器学习和分类的步骤主要模式识别。

以采用美国加州大学尔湾分校(University of California，Irvine)所提供的机器学习数据集中的Glass Identification数据集(以下简称Glass)进行说明(http://archive.ics.uci.edu/ml/datasets/Glass+Identification)。Glass是一个拥有214组数据，9个特征和6个类别的数据集。数据集没有缺省值。

在取得原始数据以后，对数据进行归一化操作，把所有数据归一至[0，1]区间。然后将数据按50％，25％，25％的比例随机分成3份，分别为训练数据、校验数据和测试数据。取出训练数据，并对训练数据进行分析。取第1个特征量，然后判断是否曾对其进行过分辨力计算，如没有，则对其进行分辨力计算。计算完毕后，取第2个特征，进行分辨力计算，直至所有特征的分辨力全部计算完毕，。计算所得的所有特征按分辨力大小从大到小排。如表1所示，取前5个特征作为特征选择结果，将原数据集的训练数据、校验数据和测试数据统一按新特征重新排好，此为第7步。

表1.特征分辨力排序

排序	1	2	3	4	5	6	7	8	9
										分辨力	0.3226	0.2605	0.1716	0.1566	0.1514	0.0976	0.0802	0.0764	0.0542
特征	3	8	4	2	6	5	9	1	7

通过机器学习，进行模式分类。这里的机器学习算法用的是BP神经网络。整个实验做了20次随机数据集分割，错误率及其相关结果如表2所示，表2同时对比不采用特征选择的机器学习方法，由此可见，采用特征选择，将明显降低分类的错误率：

表2.分类结果

	本发明所采用的方法	传统方法
			20次分类结果均值	35.000015	41.226405
20次分类结果方差	6.173650317	19.5891439
			20次内最小值	30.1887	33.9623
20次内最大值	39.6226	47.1698

本实验采用Intel Core i7 2640处理器，8G内存进行实验。实验中，采用FisherScore的方法与采用本发明的方法所得到的特征选择结果是一致的，但是FisherScore的方法用时0.0640秒，而本发明所用的方法用时仅0.0210秒，速度提高到了原来的3倍。由此可见，在采用相同机器学习方法进行模式分类的时候，本发明所使用的方法能够较稳定、快速地得到更好的结果。

本发明用计算平均值的方差来代替计算两两类别样本的平均值之差，一步到位，能快速稳定地获得特征分辨力的测量结果，能降低计算复杂度，提高适应范围。

Claims

1.一种特征分辨力快速测量方法，其特征是，所述测量方法包括如下步骤：

D = \frac{S_{μ}^{2}}{Σ_{j = 1}^{C} S_{j}^{2}}

其中，S_μ为均值方差，S_j(j∈[1,C])为特征量方差；

2.根据权利要求1所述的特征分辨力快速测量方法，其特征是：所述步骤1中，对数据集进行的预处理步骤包括归一化以及数据补齐。

3.根据权利要求1所述的特征分辨力快速测量方法，其特征是：在得到数据集的N个特征量的特征分辨力后，对数据集的特征分辨力进行排序，并对数据集排序后的特征分辨力进行特征选择。