CN103942568B - 一种基于无监督特征选择的分类方法 - Google Patents
一种基于无监督特征选择的分类方法 Download PDFInfo
- Publication number
- CN103942568B CN103942568B CN201410166747.4A CN201410166747A CN103942568B CN 103942568 B CN103942568 B CN 103942568B CN 201410166747 A CN201410166747 A CN 201410166747A CN 103942568 B CN103942568 B CN 103942568B
- Authority
- CN
- China
- Prior art keywords
- dimension
- data set
- matrix
- sample
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于无监督特征选择的分类方法,将高维数据表述成相似图形式,用信息理论度量学习(ITML)得到样本点之间的距离,建立原高维数据的相似矩阵;接着对相似矩阵和其对应的对角矩阵,采用SM算法完成原始样本集到特征向量空间的映射;然后通过学习稀疏系数向量和MCFS得分,得到原始样本集中每个属性的权重系数,并选出最能表达原样本信息的属性;最后用支持向量机对特征选择后的数据建立分类模型,对驾驶员的疲劳状况进行预测。本方法在建立分类模型前,对高维数据在保留数据簇结构的情况下进行特征选择,从而解决了维度灾难给数据分类带来的负面影响。
Description
技术领域
本发明涉及信号处理、数据挖掘以及聚类分析等数据处理领域,具体涉及一种利用基于信息度量学习的无监督特征选择方法对高维数据进行降维,然后用支持向量机建立分类模型的方法。
背景技术
随着互联网和信息行业的不断发展,经济、电子信息、医学、气象等多个领域的数据信息也迎来了爆发式增长的阶段,其中不乏海量的高维数据。如何对高维数据进行分类,以更好地发现潜在的有用信息,是数据挖掘领域的研究热点。
分类是通过建立描述预先定义的数据类或概念集的分类器,预测数据类标号的过程,有助于我们更好地全面了解数据,广泛应用于数据挖掘、机器学习、模式识别等领域,在电子商务等实际应用中创造了巨大的价值。
针对高维数据分类问题,传统方法通常是先对数据进行特征选择,再建立分类模型。然而在特征选择的时候通常是通过某种评价标准来对高维数据的特征进行重要性排序,忽略了不同的特征之间可能存在的关联,因此不能产生最优的特征子集,从而不能得到最优的分类结果。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于无监督特征选择的分类方法。
本发明的目的是通过以下技术方案来实现的:一种基于无监督特征选择的分类方法,该方法包括以下步骤:
(1)采集疲劳驾驶实验中志愿者的脑电图,对脑电图数据进行预处理,并进行特征抽取和归一化,得到样本数据集;
(2)将步骤(1)得到的样本数据集表述成相似图形式,并采用信息理论度量学习得到样本数据集中不同样本点之间的距离,即建立样本数据集的相似矩阵,其中,xi、xj代表两个不同的样本数据,M是一个d×d维的半正定矩阵,d为输入空间的维度,WM(xi,xj)为xi、xj两个样本点之间的距离;
(3)采用SM算法,利用样本数据集的相似矩阵W和其对应的对角矩阵D得到相似图的非规格拉普拉斯矩阵L,求解L的广义特征向量,取前k个记为Y=[y1,…,yk],完成样本数据集到特征向量空间的映射;
(4)对样本数据集的每个维度的重要性,首先计算各维度沿每个特征向量的相关系数,然后通过MCFS得分,得到每个维度对于样本数据集的相关系数;
(5)将每个维度对于样本数据集的相关系数从大到小进行排序,选择相关系数较大的维度,完成高维数据的特征选择;
(6)用支持向量机对步骤(5)特征选择后的数据建立分类模型;
(7)采集驾驶员的脑电数据,将其进行步骤(1)到步骤(5)所述的处理后,输入步骤(6)建立的分类模型,判断其是否处于疲劳状态。
进一步地,所述步骤(2)中所述的相似矩阵的建立方法如下:
(2.1)将样本数据集表示成相似图形式,具体方法为:若数据点为x=[x1,x2…,xd],将数据集中的每个对象看作是图的顶点V,把任意两个顶点的相似性度量作为这两个顶点连接边E的权值,得到一个基于相似度的无向加权图G(V,E),每个顶点只与k个相似度最高的点连边,以简化计算复杂度;
(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离,其中马氏距离的定义为ITML引入了LogDet散度正规化,即用最小化Dld(M,M0)方法求解半正定矩阵M,其中u,v是阈值参数,ξij是一个松弛变量,M0为M0为M要保持接近的半正定矩阵,Dld(M,M0)是LogDet散度。
进一步地,所述步骤(3)中所述的样本数据集到特征向量空间的映射的方法具体如下:
(3.1)定义一个对角矩阵D,其对角线上的数为W中对应行的和,即Dii=∑jWij。则相似图的非规格拉普拉斯矩阵L定义为L=D-W;
(3.2)通过Ly=λDy计算得到拉普拉斯矩阵的前k个特征向量,记为Y=[y1,…,yk],完成了样本数据集到特征向量空间的映射,λ表示特征向量对应的特征值。
进一步地,所述步骤(4)中所述的得到每个维度对于样本数据集的相关系数的方法具体如下:
(4.1)根据步骤(3)得到的yi(i=1,2,...,k),通过最小化拟合误差公式找到一个最佳子集,其中ai为M维向量,代表不同维度的相关系数,X是样本数据集矩阵,β是权重系数,求解该公式可采用最小角度回归(LARs)算法,得到第i维数据沿第j个特征向量的相关系数ai,j;
(4.2)根据步骤(4.1)得到的每个维度对应的k个相关系数,根据MCFS得分的公式:
得到第i维度对于样本数据集的相关系数MCFS(j)。
本发明的有益效果是,针对传统高维数据分类方法在特征选择时忽略了不同特征之间可能存在的关联从而引起的分类精确度下降的问题,提供了一种能在保留数据簇结构的情况下,进行特征选择并建立分类模型的方法,提升了分类速度和分类精确度。
附图说明
图1为本发明的算法流程图;
图2为高维数据挖掘的处理流程图;
图3为本发明提出的分类方法和传统分类方法的精确度对比图。
具体实施方式
本发明针对“维度灾难”对高维数据挖掘的影响,首先通过谱图理论和ITML度量学习获得高维数据的相似矩阵,然后采用SM算法完成原始样本集到特征向量空间的映射,通过学习稀疏系数向量和MCFS得分进行特征选择。最后,通过支持向量机对特征选择后的数据建立分类模型并对驾驶员的脑电数据进行分类,验证算法的有效性。相比其他算法,本发明在建立分类模型之前进行特征选择时,很好地保留了高维数据特征之间的关联,有利于克服“维度灾难”对高维数据的影响。
如图1、图2所示,本发明基于无监督特征选择的分类方法,包括以下步骤:
(1)采集模拟驾驶的脑电图,数据预处理、特征抽取、归一化
在屏蔽室内搭建模拟驾驶的实验平台,用32通道的Ag/AgCI电极帽采集志愿者模拟驾驶时的脑电数据。结合脑疲劳相关理论知识和实验数据质量的需要,每次实验持续2~2.5个小时,记录志愿者模拟驾驶时的脑电图。然后,对脑电数据以5秒为一个样本点进行离散化,进行缺失值填补、去噪等数据预处理,提取σ,θ,α,β四种代表大脑清醒程度的节律波,采用小波变换、近似熵、样本熵和最大Lyapunov指数4种特征表示的方法进行特征抽取,得到一个149×352的数据集,对该数据集进行归一化。
(2)将样本数据集表述成相似矩阵
(2.1)将样本数据集表示成相似图形式。假设数据点为x=[x1,x2…,xd],将数据集中的每个对象看作是图的顶点V,把任意两个顶点的相似性度量作为这两个顶点连接边E的权值,得到一个基于相似度的无向加权图G(V,E),每个顶点只与k个相似度最高的点连边,以简化计算复杂度。
(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离,其中马氏距离的定义为xi、xj代表两个不同的样本数据,M是一个d×d维的半正定矩阵,保证了WM符合伪距离的条件。ITML引入了LogDet散度正规化,即用最小化Dld(M,M0)方法求解半正定矩阵M,其中u,v是阈值参数。
(3)将样本数据集映射到特征向量空间
定义一个对角矩阵D,其对角线上的数为W中对应行的和,即Dii=∑jWij。则相似图的非规格拉普拉斯矩阵定义为L=D-W。通过Ly=λDy计算得到拉普拉斯矩阵的前k个特征向量,记为Y=[y1,…,yk],完成了原始样本集到特征向量空间的映射。
(4)计算样本数据集每个维度的相关系数
(4.1)计算各维度沿每个特征向量的相关系数。给定yi(i=1,2,...,k),通过最小化拟合误差公式找到一个最佳子集,其中ai为M维向量,代表不同维度的相关系数,X是样本数据矩阵,β是权重系数,求解该公式可采用最小角度回归(LARs)算法。
(4.2)根据得到的每个维度对应的d个相关系数,采用MCFS得分的方法,即选取其中最大的一个相关系数作为该维度的相关系数。
(5)对样本数据集进行特征选择
将每个维度对样本数据的相关系数从大到小进行排序,选择相关系数较大的维度,完成样本数据的特征选择。
(6)对特征选择后的数据建立分类模型
采用支持向量机算法对特征选择后的数据建立分类模型,分类结果包括疲劳和不疲劳两种状态。将模拟驾驶脑电数据的维度分别选取20、40、60、80、100,用支持向量机建立模型。在每个特征选择后的样本集中,随机抽取70%作为训练集,用来建立分类模型,30%作为测试集,用来预测模型的准确度。预测结果输出图如图3所示,其中MLUFS_SVM表示本发明提出的分类方法。由图可以看出新的方法相比于传统方法,具有更高的预测精度,而且更稳定。
(7)用建立好的分类模型进行分类
采集驾驶员的脑电数据,将其进行步骤(1)到步骤(5)的数据处理,然后输入到步骤(6)建立的分类模型,判断某一时刻驾驶员是否处于疲劳状态。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (4)
1.一种基于无监督特征选择的分类方法,其特征在于,包括以下步骤:
(1)采集疲劳驾驶实验中志愿者的脑电图,对脑电图数据进行预处理,并进行特征抽取和归一化,得到样本数据集;
(2)将步骤(1)得到的样本数据集表述成相似图形式,并采用信息理论度量学习得到样本数据集中不同样本点之间的距离,即建立样本数据集的相似矩阵W,其中,xi、xj代表两个不同的样本数据,M是一个d×d维的半正定矩阵,d为输入空间的维度,WM(xi,xj)为xi、xj两个样本点之间的距离;
(3)采用SM算法,利用样本数据集的相似矩阵W和其对应的对角矩阵D得到相似图的非规格拉普拉斯矩阵L,求解L的广义特征向量,取前k个记为Y=[y1,…,yk],完成样本数据集到特征向量空间的映射;
(4)对样本数据集的每个维度的重要性,首先计算各维度沿每个特征向量的相关系数,然后通过MCFS得分,得到每个维度对于样本数据集的相关系数;
(5)将步骤(4)得到的每个维度对于样本数据集的相关系数从大到小进行排序,选择相关系数较大的维度,完成样本数据集的特征选择;
(6)用支持向量机对步骤(5)特征选择后的数据建立分类模型;
(7)采集驾驶员的脑电数据,将其进行步骤(1)到步骤(5)所述的处理后,输入步骤(6)建立的分类模型,判断其是否处于疲劳状态。
2.根据权利要求1所述的基于无监督特征选择的分类方法,其特征在于,所述步骤(2)中所述的相似矩阵的建立方法如下:
(2.1)将样本数据集表示成相似图形式,具体方法为:若数据点为x=[x1,x2…,xd],将样本数据集中的每个对象看作是图的顶点V,把任意两个顶点的相似性度量作为这两个顶点连接边E的权值,得到一个基于相似度的无向加权图G(V,E),每个顶点只与k个相似度最高的点连边,以简化计算复杂度;
(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离,其中马氏距离的定义为ITML引入了LogDet散度正规化,即用最小化Dld(M,M0)方法求解半正定矩阵M,其中u,v是阈值参数,ξij是一个松弛变量,M0为M要保持接近的半正定矩阵,Dld(M,M0)是LogDet散度。
3.根据权利要求1所述的基于无监督特征选择的分类方法,其特征在于,所述步骤(3)中所述的样本数据集到特征向量空间的映射的方法具体如下:
(3.1)定义一个对角矩阵D,其对角线上的数为W中对应行的和,即Dii=∑jWij,则相似图的非规格拉普拉斯矩阵L定义为L=D-W;
(3.2)通过Ly=λDy计算得到拉普拉斯矩阵的前k个特征向量,记为Y=[y1,…,yk],完成了样本数据集到特征向量空间的映射,λ表示特征向量对应的特征值。
4.根据权利要求1所述的基于无监督特征选择的分类方法,其特征在于,所述步骤(4)中所述的得到每个维度对于样本数据集的相关系数的方法具体如下:
(4.1)根据步骤(3)得到的yi(i=1,2,...,k),通过最小化拟合误差公式找到一个最佳子集,其中ai为M维向量,代表不同维度的相关系数,X是样本数据集矩阵,β是权重系数,求解该公式可采用最小角度回归(LARs)算法,得到第i维数据沿第j个特征向量的相关系数ai,j;
(4.2)根据步骤(4.1)得到的每个维度对应的k个相关系数,根据MCFS得分的公式:
得到第i维度对于样本数据集的相关系数MCFS(j)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410166747.4A CN103942568B (zh) | 2014-04-22 | 2014-04-22 | 一种基于无监督特征选择的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410166747.4A CN103942568B (zh) | 2014-04-22 | 2014-04-22 | 一种基于无监督特征选择的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103942568A CN103942568A (zh) | 2014-07-23 |
CN103942568B true CN103942568B (zh) | 2017-04-05 |
Family
ID=51190231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410166747.4A Active CN103942568B (zh) | 2014-04-22 | 2014-04-22 | 一种基于无监督特征选择的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103942568B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598930A (zh) * | 2015-02-05 | 2015-05-06 | 清华大学无锡应用技术研究院 | 特征分辨力快速测量方法 |
CN104680176B (zh) * | 2015-02-09 | 2018-04-24 | 北京邮电大学 | 一种基于非高斯中性向量特征选择的脑电波(eeg)信号分类方法 |
CN105184767B (zh) * | 2015-07-22 | 2018-04-06 | 北京工业大学 | 一种运动人体姿态相似性度量方法 |
CN105653672A (zh) * | 2015-12-29 | 2016-06-08 | 郑州轻工业学院 | 一种基于时间序列的计算机数据挖掘方法 |
CN106339354B (zh) * | 2016-08-17 | 2018-11-20 | 盐城师范学院 | 基于改进pca的云计算网络中高维数据可视化方法 |
CN106570178B (zh) * | 2016-11-10 | 2020-09-29 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
CN106611169B (zh) * | 2016-12-31 | 2018-10-23 | 中国科学技术大学 | 一种基于深度学习的危险驾驶行为实时检测方法 |
CN107334481B (zh) * | 2017-05-15 | 2020-04-28 | 清华大学 | 一种驾驶分心检测方法及系统 |
CN107239798B (zh) * | 2017-05-24 | 2020-06-09 | 武汉大学 | 一种面向软件缺陷个数预测的特征选择方法 |
CN107909077A (zh) * | 2017-10-10 | 2018-04-13 | 安徽信息工程学院 | 半监督情况下基于稀疏化理论的特征选择方法 |
CN109993180A (zh) * | 2017-12-29 | 2019-07-09 | 新华网股份有限公司 | 人体生物电数据处理方法和装置、存储介质和处理器 |
CN109165673B (zh) * | 2018-07-18 | 2021-08-31 | 广东工业大学 | 基于度量学习和多示例支持向量机的图像分类方法 |
CN109522478A (zh) * | 2018-11-09 | 2019-03-26 | 广东原昇信息科技有限公司 | 客户属性离散化指标的无监督分类方法 |
CN110584657B (zh) * | 2019-03-15 | 2022-09-23 | 华为技术有限公司 | 一种注意力检测方法及系统 |
CN109993132B (zh) * | 2019-04-04 | 2021-07-13 | 北京理工大学 | 一种基于脑电信号的图形识别生成方法及系统 |
CN111027607B (zh) * | 2019-11-29 | 2023-10-17 | 泰康保险集团股份有限公司 | 无监督高维数据特征重要性评估与选择的方法及装置 |
CN113359682B (zh) * | 2021-06-30 | 2022-12-02 | 西安力传智能技术有限公司 | 设备故障预测方法、装置、设备故障预测平台及介质 |
CN113408651B (zh) * | 2021-07-12 | 2024-01-23 | 厦门大学 | 基于局部判别性增强的无监督三维物体分类方法 |
CN114186182A (zh) * | 2021-11-02 | 2022-03-15 | 联想(北京)有限公司 | 一种处理方法、装置、设备及存储介质 |
CN116701725B (zh) * | 2023-08-09 | 2023-10-24 | 匠达(苏州)科技有限公司 | 基于深度学习的工程师人员数据画像处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722578A (zh) * | 2012-05-31 | 2012-10-10 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
CN102982346A (zh) * | 2012-11-30 | 2013-03-20 | 湖州师范学院 | 一种最小最大局部结构信息的特征选择方法 |
-
2014
- 2014-04-22 CN CN201410166747.4A patent/CN103942568B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722578A (zh) * | 2012-05-31 | 2012-10-10 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
CN102982346A (zh) * | 2012-11-30 | 2013-03-20 | 湖州师范学院 | 一种最小最大局部结构信息的特征选择方法 |
Non-Patent Citations (4)
Title |
---|
Jason V.Davis et al..Information-Theoretic Metric Learning.《Proceedings of the 24th International Conference on Machine Learning》.2007,第209-216页. * |
Prateek Jain et al..Metric and Kernel Learning Using a Linear Transformation.《Journal of Machine Learning Research》.2012,第13卷(第01期),第519-547页. * |
Unsupervised Feature Selection for Multi-Cluster Data;Deng Cai et al.;《Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining》;20100725;第333-342页 * |
蒋盛益等.基于特征相关性的特征选择.《计算机工程与应用》.2010,第46卷(第20期),第153-156页. * |
Also Published As
Publication number | Publication date |
---|---|
CN103942568A (zh) | 2014-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103942568B (zh) | 一种基于无监督特征选择的分类方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN105956560B (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
CN102324047B (zh) | 基于稀疏核编码skr的高光谱图像地物识别方法 | |
CN109697285A (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN109241995B (zh) | 一种基于改进型ArcFace损失函数的图像识别方法 | |
CN106845528A (zh) | 一种基于K‑means与深度学习的图像分类算法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN105678261B (zh) | 基于有监督图的直推式数据降维方法 | |
CN109117781A (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN111985581A (zh) | 一种基于样本级注意力网络的少样本学习方法 | |
CN106709528A (zh) | 基于多目标函数深度学习的车辆重识别方法及装置 | |
CN106203483A (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 | |
CN112990296A (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN105976397B (zh) | 一种目标跟踪方法 | |
CN112529638A (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN105631477A (zh) | 基于极限学习机和自适应提升的交通标志识别方法 | |
CN115564996A (zh) | 一种基于注意力联合网络的高光谱遥感图像分类方法 | |
CN104766051B (zh) | 基于结构化的特征图的人体行为识别方法 | |
CN103336830B (zh) | 基于结构语义直方图的图像检索方法 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |