CN103942568B

CN103942568B - 一种基于无监督特征选择的分类方法

Info

Publication number: CN103942568B
Application number: CN201410166747.4A
Authority: CN
Inventors: 郑宝芬; 苏宏业; 罗林
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2017-04-05
Anticipated expiration: 2034-04-22
Also published as: CN103942568A

Abstract

本发明公开了一种基于无监督特征选择的分类方法，将高维数据表述成相似图形式，用信息理论度量学习（ITML）得到样本点之间的距离，建立原高维数据的相似矩阵；接着对相似矩阵和其对应的对角矩阵，采用SM算法完成原始样本集到特征向量空间的映射；然后通过学习稀疏系数向量和MCFS得分，得到原始样本集中每个属性的权重系数，并选出最能表达原样本信息的属性；最后用支持向量机对特征选择后的数据建立分类模型，对驾驶员的疲劳状况进行预测。本方法在建立分类模型前，对高维数据在保留数据簇结构的情况下进行特征选择，从而解决了维度灾难给数据分类带来的负面影响。

Description

一种基于无监督特征选择的分类方法

技术领域

本发明涉及信号处理、数据挖掘以及聚类分析等数据处理领域，具体涉及一种利用基于信息度量学习的无监督特征选择方法对高维数据进行降维，然后用支持向量机建立分类模型的方法。

背景技术

随着互联网和信息行业的不断发展，经济、电子信息、医学、气象等多个领域的数据信息也迎来了爆发式增长的阶段，其中不乏海量的高维数据。如何对高维数据进行分类，以更好地发现潜在的有用信息，是数据挖掘领域的研究热点。

分类是通过建立描述预先定义的数据类或概念集的分类器，预测数据类标号的过程，有助于我们更好地全面了解数据，广泛应用于数据挖掘、机器学习、模式识别等领域，在电子商务等实际应用中创造了巨大的价值。

针对高维数据分类问题，传统方法通常是先对数据进行特征选择，再建立分类模型。然而在特征选择的时候通常是通过某种评价标准来对高维数据的特征进行重要性排序，忽略了不同的特征之间可能存在的关联，因此不能产生最优的特征子集，从而不能得到最优的分类结果。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于无监督特征选择的分类方法。

本发明的目的是通过以下技术方案来实现的：一种基于无监督特征选择的分类方法，该方法包括以下步骤：

(1)采集疲劳驾驶实验中志愿者的脑电图，对脑电图数据进行预处理，并进行特征抽取和归一化，得到样本数据集；

(2)将步骤(1)得到的样本数据集表述成相似图形式，并采用信息理论度量学习得到样本数据集中不同样本点之间的距离，即建立样本数据集的相似矩阵，其中，x_i、x_j代表两个不同的样本数据，M是一个d×d维的半正定矩阵，d为输入空间的维度，W_M(x_i,x_j)为x_i、x_j两个样本点之间的距离；

(3)采用SM算法，利用样本数据集的相似矩阵W和其对应的对角矩阵D得到相似图的非规格拉普拉斯矩阵L，求解L的广义特征向量，取前k个记为Y＝[y₁,…,y_k]，完成样本数据集到特征向量空间的映射；

(4)对样本数据集的每个维度的重要性，首先计算各维度沿每个特征向量的相关系数，然后通过MCFS得分，得到每个维度对于样本数据集的相关系数；

(5)将每个维度对于样本数据集的相关系数从大到小进行排序，选择相关系数较大的维度，完成高维数据的特征选择；

(6)用支持向量机对步骤(5)特征选择后的数据建立分类模型；

(7)采集驾驶员的脑电数据，将其进行步骤(1)到步骤(5)所述的处理后，输入步骤(6)建立的分类模型，判断其是否处于疲劳状态。

进一步地，所述步骤(2)中所述的相似矩阵的建立方法如下：

(2.1)将样本数据集表示成相似图形式，具体方法为：若数据点为x＝[x₁,x₂…,x_d]，将数据集中的每个对象看作是图的顶点V，把任意两个顶点的相似性度量作为这两个顶点连接边E的权值，得到一个基于相似度的无向加权图G(V,E)，每个顶点只与k个相似度最高的点连边，以简化计算复杂度；

(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离，其中马氏距离的定义为ITML引入了LogDet散度正规化，即用最小化D_ld(M,M₀)方法求解半正定矩阵M，其中u，v是阈值参数，ξ_ij是一个松弛变量，M₀为M₀为M要保持接近的半正定矩阵，D_ld(M,M₀)是LogDet散度。

进一步地，所述步骤(3)中所述的样本数据集到特征向量空间的映射的方法具体如下：

(3.1)定义一个对角矩阵D，其对角线上的数为W中对应行的和，即D_ii＝∑_jW_ij。则相似图的非规格拉普拉斯矩阵L定义为L＝D-W；

(3.2)通过Ly＝λDy计算得到拉普拉斯矩阵的前k个特征向量，记为Y＝[y₁,…,y_k]，完成了样本数据集到特征向量空间的映射，λ表示特征向量对应的特征值。

进一步地，所述步骤(4)中所述的得到每个维度对于样本数据集的相关系数的方法具体如下：

(4.1)根据步骤(3)得到的y_i(i＝1,2,...,k)，通过最小化拟合误差公式找到一个最佳子集，其中a_i为M维向量，代表不同维度的相关系数，X是样本数据集矩阵，β是权重系数，求解该公式可采用最小角度回归(LARs)算法，得到第i维数据沿第j个特征向量的相关系数a_i,j；

(4.2)根据步骤(4.1)得到的每个维度对应的k个相关系数，根据MCFS得分的公式：

得到第i维度对于样本数据集的相关系数MCFS(j)。

本发明的有益效果是，针对传统高维数据分类方法在特征选择时忽略了不同特征之间可能存在的关联从而引起的分类精确度下降的问题，提供了一种能在保留数据簇结构的情况下，进行特征选择并建立分类模型的方法，提升了分类速度和分类精确度。

附图说明

图1为本发明的算法流程图；

图2为高维数据挖掘的处理流程图；

图3为本发明提出的分类方法和传统分类方法的精确度对比图。

具体实施方式

本发明针对“维度灾难”对高维数据挖掘的影响，首先通过谱图理论和ITML度量学习获得高维数据的相似矩阵，然后采用SM算法完成原始样本集到特征向量空间的映射，通过学习稀疏系数向量和MCFS得分进行特征选择。最后，通过支持向量机对特征选择后的数据建立分类模型并对驾驶员的脑电数据进行分类，验证算法的有效性。相比其他算法，本发明在建立分类模型之前进行特征选择时，很好地保留了高维数据特征之间的关联，有利于克服“维度灾难”对高维数据的影响。

如图1、图2所示，本发明基于无监督特征选择的分类方法，包括以下步骤：

(1)采集模拟驾驶的脑电图，数据预处理、特征抽取、归一化

在屏蔽室内搭建模拟驾驶的实验平台，用32通道的Ag/AgCI电极帽采集志愿者模拟驾驶时的脑电数据。结合脑疲劳相关理论知识和实验数据质量的需要，每次实验持续2～2.5个小时，记录志愿者模拟驾驶时的脑电图。然后，对脑电数据以5秒为一个样本点进行离散化，进行缺失值填补、去噪等数据预处理，提取σ，θ，α，β四种代表大脑清醒程度的节律波，采用小波变换、近似熵、样本熵和最大Lyapunov指数4种特征表示的方法进行特征抽取，得到一个149×352的数据集，对该数据集进行归一化。

(2)将样本数据集表述成相似矩阵

(2.1)将样本数据集表示成相似图形式。假设数据点为x＝[x₁,x₂…,x_d]，将数据集中的每个对象看作是图的顶点V，把任意两个顶点的相似性度量作为这两个顶点连接边E的权值，得到一个基于相似度的无向加权图G(V,E)，每个顶点只与k个相似度最高的点连边，以简化计算复杂度。

(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离，其中马氏距离的定义为x_i、x_j代表两个不同的样本数据，M是一个d×d维的半正定矩阵，保证了W_M符合伪距离的条件。ITML引入了LogDet散度正规化，即用最小化D_ld(M,M₀)方法求解半正定矩阵M，其中u，v是阈值参数。

(3)将样本数据集映射到特征向量空间

定义一个对角矩阵D，其对角线上的数为W中对应行的和，即D_ii＝∑_jW_ij。则相似图的非规格拉普拉斯矩阵定义为L＝D-W。通过Ly＝λDy计算得到拉普拉斯矩阵的前k个特征向量，记为Y＝[y₁,…,y_k]，完成了原始样本集到特征向量空间的映射。

(4)计算样本数据集每个维度的相关系数

(4.1)计算各维度沿每个特征向量的相关系数。给定y_i(i＝1,2,...,k)，通过最小化拟合误差公式找到一个最佳子集，其中a_i为M维向量，代表不同维度的相关系数，X是样本数据矩阵，β是权重系数，求解该公式可采用最小角度回归(LARs)算法。

(4.2)根据得到的每个维度对应的d个相关系数，采用MCFS得分的方法，即选取其中最大的一个相关系数作为该维度的相关系数。

(5)对样本数据集进行特征选择

将每个维度对样本数据的相关系数从大到小进行排序，选择相关系数较大的维度，完成样本数据的特征选择。

(6)对特征选择后的数据建立分类模型

采用支持向量机算法对特征选择后的数据建立分类模型，分类结果包括疲劳和不疲劳两种状态。将模拟驾驶脑电数据的维度分别选取20、40、60、80、100，用支持向量机建立模型。在每个特征选择后的样本集中，随机抽取70％作为训练集，用来建立分类模型，30％作为测试集，用来预测模型的准确度。预测结果输出图如图3所示，其中MLUFS_SVM表示本发明提出的分类方法。由图可以看出新的方法相比于传统方法，具有更高的预测精度，而且更稳定。

(7)用建立好的分类模型进行分类

采集驾驶员的脑电数据，将其进行步骤(1)到步骤(5)的数据处理，然后输入到步骤(6)建立的分类模型，判断某一时刻驾驶员是否处于疲劳状态。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于无监督特征选择的分类方法，其特征在于，包括以下步骤：

(2)将步骤(1)得到的样本数据集表述成相似图形式，并采用信息理论度量学习得到样本数据集中不同样本点之间的距离，即建立样本数据集的相似矩阵W，其中，x_i、x_j代表两个不同的样本数据，M是一个d×d维的半正定矩阵，d为输入空间的维度，W_M(x_i,x_j)为x_i、x_j两个样本点之间的距离；

(5)将步骤(4)得到的每个维度对于样本数据集的相关系数从大到小进行排序，选择相关系数较大的维度，完成样本数据集的特征选择；

(6)用支持向量机对步骤(5)特征选择后的数据建立分类模型；

2.根据权利要求1所述的基于无监督特征选择的分类方法，其特征在于，所述步骤(2)中所述的相似矩阵的建立方法如下：

(2.1)将样本数据集表示成相似图形式，具体方法为：若数据点为x＝[x₁,x₂…,x_d]，将样本数据集中的每个对象看作是图的顶点V，把任意两个顶点的相似性度量作为这两个顶点连接边E的权值，得到一个基于相似度的无向加权图G(V,E)，每个顶点只与k个相似度最高的点连边，以简化计算复杂度；

(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离，其中马氏距离的定义为ITML引入了LogDet散度正规化，即用最小化D_ld(M,M₀)方法求解半正定矩阵M，其中u，v是阈值参数，ξ_ij是一个松弛变量，M₀为M要保持接近的半正定矩阵，D_ld(M,M₀)是LogDet散度。

3.根据权利要求1所述的基于无监督特征选择的分类方法，其特征在于，所述步骤(3)中所述的样本数据集到特征向量空间的映射的方法具体如下：

(3.1)定义一个对角矩阵D，其对角线上的数为W中对应行的和，即D_ii＝∑_jW_ij，则相似图的非规格拉普拉斯矩阵L定义为L＝D-W；

4.根据权利要求1所述的基于无监督特征选择的分类方法，其特征在于，所述步骤(4)中所述的得到每个维度对于样本数据集的相关系数的方法具体如下：

得到第i维度对于样本数据集的相关系数MCFS(j)。