CN107203787B - 一种无监督正则化矩阵分解特征选择方法 - Google Patents
一种无监督正则化矩阵分解特征选择方法 Download PDFInfo
- Publication number
- CN107203787B CN107203787B CN201710446167.4A CN201710446167A CN107203787B CN 107203787 B CN107203787 B CN 107203787B CN 201710446167 A CN201710446167 A CN 201710446167A CN 107203787 B CN107203787 B CN 107203787B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- feature selection
- matrix
- urmffs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 46
- 238000010187 selection method Methods 0.000 title claims abstract description 23
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 36
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000001815 facial effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000012353 t test Methods 0.000 description 7
- 238000000692 Student's t-test Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000001959 radiotherapy Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 230000001668 ameliorated effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000000035 biogenic effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007427 paired t-test Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2133—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种无监督正则化矩阵分解特征选择方法(URMFFS方法),该方法通过引入内积正则化约束考虑所选特征之间的相关性,使所选的特征子集不仅能够很好的表示原始高维特征并且具有较低冗余性。本发明还设计了一种迭代优化算法来求解URMFFS方法。将URMFFS方法与目前较为流行的无监督特征选择方法分别在六个常用数据库(AR10P、Yale、ORL、Jaffe、PIE10P和TOX‑171)上进行了大量对比实验,实验结果表明,URMFFS方法的性能显著优于其它无监督特征选择方法。
Description
技术领域
本发明涉及信号处理、数据分析技术领域,具体涉及一种无监督正则化矩阵分解特征选择方法。
背景技术
随着计算机科技、社会网络信息化及互联网的日益普及,涌现出大量高维数据,如:文本、多媒体、视频、图像等,而且它们来源于不同的系统、传感器和移动设备等。这些高维数据通常具有多样性、复杂性和冗余性等特点,如果利用计算机直接处理这些高维数据,这需要巨大内存存储空间和计算成本,严重则会造成“维数灾难”(Curseofdimensionality)问题,这会降低算法的计算效率和性能。“维数灾难”是在涉及向量的计算中要确保一定的准确率,进而对变量或者特征有更加精确的估计,随着样本维数的增加,其计算量呈指数变化。除了缓解“信息丰富、知识匮乏”的状况从而降低复杂度,还要从这些数据中提取有价值的特性能更好地认识和理解数据,非常重要的一个步骤就是需要更加新颖的分析方法和工具来预处理高维数据。降维技术的出现有效的改善这类问题。
降维又称维数约简,是指高维空间中的数据找到一个最能反映原始高维数据特性的低维表示。最核心的降维技术主要包括两类:特征提取(Feature Extraction)和特征选择(Feature Selection)。特征提取是将原始高维空间中的数据点,通过某种映射方法投影到低维空间中,达到在高维特征空间中挖掘出能反映实际本征维度的低维结构的目的。根据不同的映射方式,特征提取被分为线性和非线性两种。其中,线性特征提取主要包括主成分分析(Principal Component Analysis,PCA)、局部保持投影(Locality PreservingProjection,LPP)、线性判别分析(Linear Discriminant Analysis,LDA)和多维尺度变换(Multidimensional Scaling,MDS)等。而近年来才被广泛研究的非线性特征提取方法主要包括拉普拉斯特征映射(LaplacianEigenmaps,LE)、局部线性嵌入(Locally LinearEmbedding,LLE)、等距映射(Isometric Mapping,ISOMAP)等。由于特征提取是将原数据通过线性或非线性变换得到较少数量的新特征,会导致提取的这些新特征与样本类别之间的关系很难解释,这会给人们的判断和理解带来一定程度的影响。
与之不同的特征选择方法,是根据某种评判标准从原始高维数据中选择数量少且最优的特征子集,对模式识别领域中的数据预处理有着广泛的应用。通过特征选择一组与样本类别相关性强、特征彼此间相关性弱的特征子集用于构建模型是非常重要的,从而达到降低特征维数,提高模型精确度,减少运行时间,提高数据存储和处理效率的目的。此外,选取出真正相关的特征简化模型,将有利于协助理解数据产生的过程,因此,在解决高维数据的机器学习问题上特征选择扮演一个举足轻重的角色。经典的特征选择方法主要包括:拉普拉斯得分(LaplacianScore,LS)、Fisher得分(Fisher Score,FS)、ReliefF、互信息等。特征选择去掉了无关紧要的特征,保留了选择的具有代表性特征的原始信息,这有助于提高机器学习算法效率。
此外,特征选择已成功应用在不同领域中,如基因工程、计算机视觉、生物特征识别和无机化学等。众所周知,随着大数据的不断涌现,数据的规模呈现爆炸式增长,也给研究人员提供了机遇和前所未有的挑战。
虽然特征选择起源于二十世纪六十年,但目前仍然是一个热门的研究课题。在许多国际期刊,如:PAMI、IJCV、IJCAI、Signal Processing、PR等,国际会议,如:CVPR、ECCV、ICCV、ACCV等,高质量的科技论文犹如雨后春笋般地出现。还有许多国内外的大学和研究所,如:哈尔滨工业大学、华中科技大学、浙江大学、Stanford、MIT等也在特征学习领域投入了大量的工作,并且取得了显著的成果。
根据实际应用的需求,科研人员相继提出各种特征选择策略及方法。首先,基于搜索策略划分的特征选择方法可以分为:全局最优、随机搜索和启发式搜索。其中,比较典型的采用全局最优搜索策略的特征选择方法是“分支定界”(Branch and Bound)算法。以概率推理和采样过程作为基础的随机搜索策略的特征选择算法,结合了遗传算法、模拟退火算法、随机重采样、搜索算法和粒子群算法。采用启发式搜索策略的特征选择算法主要有:单独最优特征组合,序列前向选择(Sequential Forward Selection,SFS),广义序列前向选择(Generalized Sequential Forward Selection,GSFS),序列后向选择(SequentialBackward Selection,SBS)和广义序列后向选择(Generalized Sequential BackwardSelection,GSBS)等等。就目前的研究情况而言,特征选择方法中被广泛使用的是随机搜索和启发式策略。然后,根据是否利用后续的学习算法来评估特征子集,提出基于评价准则划分的特征选择方法,可分为三类:过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)。
过滤式特征选择方法独立于后续的学习算法,它是根据信息统计准则来选择预测能力比较好的特征组成特征子集。目前比较典型的过滤式方法有信息熵法、ReliefF、FS及相关测量法。封装式特征选择方法依赖于学习算法模型,它首先利用所选择的特征子集直接来学习训练,然后根据测试集的识别性能作为评价特征子集的好坏。另外,研究者在用决策树、Fisher判别分析和人工神经网络中结合遗传算法进行特征选择,并且取得较为满意的结果。嵌入式特征选择方法将过滤式和封装式两种方法相结合,作为一个整体嵌入到学习算法中,它除了可以同时执行特征选择外,还能解决分类、聚类或回归问题。这类算法主要有C4.5、ID3及CART等比较经典的决策树方法。
根据是否利用了样本数据类别的标签信息,可将特征选择方法分为有监督特征选择(Supervised Feature Selection)、半监督特征选择(Semi-supervised FeatureSelection)和无监督特征选择(Unsupervised Feature Selection)三类。
有监督的特征选择方法根据样本的标签类别信息与特征的关系选择具有判别性的特征。如:Fisher得分(Fisher Score,FS)、最大权重最小冗余(Maximum Weight andMinimum Redundancy,MWMR)等。
在实际应用中难以获取大量带有标签信息的训练样本,并且人为标记比较费时费力的。因此,研究者利用少量已标记样本数据和大量未标记样本数据对特征进行评估,提出了半监督特征选择方法,如:基于谱分析半监督特征选择方法(Semi-supervised FeatureSelection via Spectral Analysis)。
同监督和半监督方法比较,无监督特征选择方法没有利用训练样本的标签类别信息。此类方法包括方差(Variance)、拉普拉斯得分(Laplacian Score,LS)、多重聚类特征选择(Multi-cluster Feature Selection,MCFS)、谱特征选择(Spectral FeatureSelection,SPEC和无监督判别特征选择(Unsupervised Discriminative FeatureSelection,UDFS)等。
基于矩阵分解的特征选择(Matrix Factorization Feature Selection,MFFS)算法成功搭建矩阵分解和特征选择之间的桥梁,并且其性能要优于目前大量的特性选择方法,但是MFFS方法的约束条件过于严格,并且在实际应用中难以满足,而且还忽略了特征之间的相关性,导致所选择的特征子集可能存在一定冗余性而不是最优的特征子集。
发明内容
为了克服MFFS方法的局限性,本发明提出一种无监督正则化矩阵分解特征选择算法,该算法充分考虑了特征之间的相关性。
本发明通过引入内积正则化提出一种无监督正则化矩阵分解特征选择(Unsupervised RegularizedMatrix Factorization Feature Selection,URMFFS)方法。与其它无监督特征选择算法,如:MCFS、UDFS、RSR和MFFS等进行比较,URMFFS方法不仅能选一个最能近似表示所有特征的特征子集,而且还能使得所选的特征子集的冗余性低,即URMFFSF方法所选的特征子集具有较强的代表性和线性无关性。本发明引入的内积正则化一个可以看作-范数和-范数相结合的正则项。而且,提出一种简单有效的迭代更新算法优化URMFFS的目标函数,同时在理论上分析与证明了URMFFS方法的收敛性。为了方便表示,表1列出算法中常用的符号标识。
表1本文使用的符号
首先,定义矩阵X=[x1;x2;...;xn]∈Rn×m表示高维数据,其中,xi∈R1×m是第i个样本,n是样本总数,m是样本特征数目。URMFFS方法的目的是选择一个最优特征子集,它能捕捉到最有用的信息近似表示所有的特征。假设在特征空间中所有特征都位于一个线性流形上,则特征选择可以表示如下公式:
其中,I表示所选特征的索引集合,XI表示X的子集,span(·)表示集合张成的空间,表示两个子空间的距离。从公式(1)很明显地看出XI中子集可以被XI准确表示,因此,公式(1)的优化问题可以等价于如下形式:
因此,特征选择问题可以表示为如下:
其中,H是系数矩阵,k是所选特征的索引。从矩阵分解的角度可以将特征选择问题表示如下:
其中,W是特征权矩阵。从公式(4)可以看到约束条件WTW=Ik×k是为了确保W的每个元素是0或1,而且每行(列)最多只有一个非零元素,所以,W也可以定义为所选择特征的指示矩阵。
考虑到实际问题的数据通常是非负的,所以添加约束项H≥0保证任意特征能被所选特征的正线性组合所描述。因此,公式(4)可重写为如下形式:
其中,Ik×k是k×k大小的单位矩阵,H∈Rk×m是系数矩阵,它将原始特征投影到被选特征所张成的子空间中,W=[w1,w2,w3,...,wm]T∈Rm×k是特征权矩阵。
虽然公式(5)能实现特征选择目的,但它忽略了所选特征之间的相关性,而且约束条件过于严格而难以满足实际应用。虽然可以通过对W添加-范数或-范数约束条件作为正则项来解决这个问题。然而-范数或-范数不能同时保证特征的稀疏性和低冗余性,因此,它们所选的特征子集未必是最优的。
因此,本发明引入一个可以刻画变量独立性和显著性的正则项。该正则项是用特征权向量内积的绝对值表示,即|<wi,wj>|,其中wi∈R1×k(i=1,2,...,m)是W的第i行权向量。考虑到W所有的权向量,所以URMFFS方法的正则项可以被定义为:
最小化公式(7),则可以减小冗余特征和不重要特征所对应的权值,达到所选特征子集是稀疏的和低冗余的。所以,通过结合公式(5)和公式(7),URMFFS方法的目标函数如下:
其中,公式(8)的第一项是度量所选特征表示原始高维特征的能力,第二项是确保特征权矩阵W是稀疏和低冗余的,β是平衡这两项之间的权衡参数。
当获得W后,根据||wi||2(i=1,2,...,m)对所有的特征按降序方式进行排序,并选择最靠前的p个特征作为特征子集。
然后,对URMFFS算法进行优化。在URMFFS算法中需要优化两个变量W和H,从公式(8)中可知,目标函数对每个变量W(或者H)而言它是凸函数,但是对于所有变量而言是非凸的,所以不能给出目标函数的显式解。因此,为了解决这个问题,本发明提出一种迭代更新算法来优化URMFFS算法的目标函数。
令F(W,H)表示公式(8)的目标函数值,则有:
通过代数运算,公式(9)可重写为:
其中,1m×m是大小为m×m全1矩阵。考虑到约束条件W≥0和H≥0,可定义它们的拉格朗日乘子,分别是α∈Rm×k和λ∈Rk×m。则公式(10)的拉格朗日函数形式如下:
更新变量W:
拉格朗日函数(11)对变量W求偏导如下:
通过利用(Karush-Kuhn-Tucker,KKT)互补性条件αijWij=0,可以得到:
[-XTXHT+XTXWHHT+β(1m×mW-W)]ijWij=0 (13)
根据公式(13),可以得到特征权值矩阵W的更新规则:
更新变量H:
拉格朗日函数(11)对变量H求偏导如下:
同样利用KTT条件λjiHji=0,可以得到:
[-WTXTX+WTXTXWH]jiHji=0 (16)
根据公式(16),可以得到系数矩阵H的更新规则:
综上所述,给出URMFFS方法的具体流程,包括以下步骤:
1)输入数据矩阵X∈Rn×m、平衡参数β和特征选择个数p,其中,n是样本总数,m是样本特征数目;
2)初始化权值矩阵W=rand(m,k)和系数矩阵H=rand(k,m),其中,rand()为随机函数,k为任意非负整数,最大迭代次数T,t=1;
3)重复执行如下几步,直到满足t>T停止
b)计算W=WD-1和H=DH;
e)t=t+1;
4)计算||wi||2,i=1,2,...,m值按升序方式排序m个特征,选择前p个特征形成最优特征子集,它们对应的索引集合{idx1,idx2,...,idxp}作为输出。
本发明的有益效果:1)URMFFS算法考虑了特征之间的相关性,并利用内积正则化约束进行特征选择,所以它的平均聚类准确率(ACC)较高,平均归一化互信息(NMI)也较高。2)URMFFS算法通过引入内积正则化来考虑所有特征之间的相关性,使所选的特征子集不仅能很好的表示原始高维数据并且具有较低冗余性。
附图说明
图1是五个标准人脸图像数据库中部分人脸图像。
图2是六个数据库上不同算法的聚类准确率(ACC)与维度变化的曲图
图3是六个数据库上不同算法的归一化互信息(NMI)与维度变化的曲线图。
图4是URMFFS算法在六个数据库上不同β值的聚类准确率(ACC)直方图。
图5是URMFFS算法在六个数据库上不同β值的归一化互信息(NMI)直方图。
图6是Glass数据集上不同特征间的Pearson相关系数的绝对值数据图。
图9是基于内积正则化的特征系数矩阵图。
具体实施方式
为了充分验证本发明URMFFS算法的有效性,首先在六个常用的基本数据库上(AR10P、Yale、ORL、Jaffe、PIE10P和TOX-171)测试URMFFS算法的聚类性能,同时与以下六种目前比较流行的无监督特征选择算法进行比较:
(1)LS:拉普拉斯得分特征选择(Laplacian Score Feature Selection,LS),该方法选择那些最能保持数据的局部流形结构的特征作为特征子集。
(2)SPEC:谱特征选择(Spectral Feature Selection,SPEC),该方法在基于图谱理论的基础上,分析谱聚类实现特征选择。
(4)UDFS:无监督判别特征选择(Unsupervised Discriminative Featureselection,UDFS),该方法通过联合-范数和局部判别信息作为一个统一框架来进行特征选择。
(6)MFFS:矩阵分解特征选择(Robust Unsupervised Feature Selection,MFFS),在该方法通过有着正交约束的矩阵分解来达到特征选择的目的。
实验中,在六个数据库上对URMFFS算法与其他六种无监督特征选择算法进行对比实验,六个数据库包括五个人脸图像数据库(AR10P、Yale、ORL、Jaffe和PIE10P)和一个生物基因数据库(TOX-171)。
在AR人脸图像数据库中,包含了来自126个人的4000多张正面图像,每个人在不同的表情、光照、面部遮挡或伪装的情况下采集26张人脸图像。实验将从AR数据库中选择一个包含13个人的子集(AR10P)作为数据集。
Yale人脸图像数据库包含来自15个人的165张人脸图像,每个人的11张图像采自于不同的光照条件、姿势和面部表情(例如:左/中/右光照、犯困、眨眼、戴/没戴眼镜、快乐、正常、悲伤,惊喜)。
ORL人脸图像数据库一共包括了40个人,每人都含有10张不同的人脸图像,这些图像来自于不同的面部表情(例如:睁/闭眼、笑/不笑、戴/没戴眼镜)。
Jaffe人脸图像数据库包括213张含7种面部表情(例如:快乐、悲伤、惊讶、厌恶、恐惧、愤怒、中性)的图片。
CMU PIE人脸图像数据库总共包含了68个人的41,368张图像,实验将从CMU PIE数据库中选择一个包含10个人的210张人脸图像的子集(PIE10P)作为实验数据集。
TOX-171生物基因数据库包含了来自4类(例如:遭受放射治疗患者(RadS)、控制放射治疗患者(RadC)、皮肤癌患者(SkCa)和无癌症患者(NoCa))的171个样本,而每个样本有5748个基因。
表2给出了各个数据库的基本信息和图1给出了五个人脸图像数据库中部分人脸图像的样例。
表2六个数据库的基本信息
在实验中,为了评价不同无监督特征选择方法的性能,采用两种被广泛应用的评价标准,即聚类的准确率(Accuracy,ACC)和归一化互信息(Normalize MutualInformation,NMI)。对于一个输入样本xi,假设ci和pi是它的聚类结果和真实标签。那么ACC的定义如下:
其中,如果当x=y时,δ(x,y)=1,否则δ(x,y)=0。map(·)是一个最好的映射函数,它的功能是通过Kuhn-Munkres算法把实验得到的聚类标签与样本的真实标签进行匹配。当ACC的值越大意味着聚类性能越好,这表明获得的聚类标签更加接近样本真实的标签。
给定任意两个变量P和C,NMI可以定义为:
其中,I(P,C)表示P和C两者之间的互信息,H(P)和H(C)分别表示P和C的熵。在实验中,P是输入样本的聚类结果,C是它们的真实标签。类似于ACC,NMI的值越大意味着聚类性能越好。
在实验中将对URMFFS算法和其他对比方法的参数进行设置。对于所有的算法,设置选择特征的个数从20到100(间隔为10)。将LS、SPEC、MCFS和UDFS算法,在所有数据库上把它们近邻参数的大小都设置为k=5。稀疏项参数(如:UDFS中的参数γ和RSR中的参数λ)采用交替网格搜索的方式确定它们的值,其网格搜索范围设置为{0.001,0.01,0.1,1,10,100,1000},并记录其中最优参数所对应的最好结果。MFFS方法中参数ρ的大小设置为108。对于URMFFS算法中参数β的取值,同样采用网格搜索方式确定其最优取值,实验中取值范围设置为{1,101,102,103,104,105,106,107,108}。最后,记录最好的实验结果。
当不同特征选择算法完成特征选择之后,采用K-means算法对它们所选的低维特征进行聚类。考虑到K-means聚类的性能会受到初始化的影响,因此,重复执行20次不同的随机初始化实验,然后记录它们的平均结果和对应的标准差。
结果分析
测试了所提出算法在聚类任务上的性能,同时也对比较的实验结果进行了总结和分析。
首先,表3和表4给出了不同方法在六个数据库上的最好平均聚类结果,从实验结果中可以总结出以下几点:第一,因为LS和SPEC是按照一个接一个这种单独的方式选择特征,所以在多数数据库上它们的聚类性能不如其他方法;第二,MCFS、UDFS和RSR都是稀疏正则化的特征选择算法,而且它们都是按照批量的方式进行特征选择,因此,可以看出这三种方法的聚类性能要优于以单独方式选择特征的方法,如:LS和SPEC;第三,由于MFFS是基于矩阵分解理论,所以也能以批量的方式来选择特征,这也使得它的性能要优于LS和SPEC方法。然而它却忽略了所选特征之间的相关性,而且通过观察可以发现只有在Yale数据库上,它的性能才好于其他稀疏正则化方法能。最后,可以明显地看到,本发明提出的URMFFS在所有数据库实验中的性能都要优于其他对比方法。由于URMFFS算法考虑了特征之间的相关性,并利用内积正则化约束进行特征选择,所以它的平均聚类准确率(ACC)要高于其他方法0.12%~20.79%,平均归一化互信息(NMI)要高于其他方法0.79%~26.87%。
表3不同特征选择算法在六个数据集上的ACC(%)与标准差(%)
注:括号中的数字表示对应最好聚类结果的特征维数。
表4不同特征选择算法在六个数据集上的NMI(%)与标准差(%)
注:括号中的数字表示对应最好聚类结果的特征维数。
然后,不同方法在六个标准数据库上的聚类准确率(ACC)和归一化互信息(NMI)与特征维度变化的曲线图如图2和图3所示。从实验结果可以看出本发明提出的URMFFS算法在多数情况下要优于其他对比方法。在Yale和PIE10P数据库上,虽然当选择的特征维度相对较小时,通过本发明提出的URMFFS算法得到的聚类结果要比其他算法(如:MCFS和MFFS)稍微差一些,但是随着特征维度的增加,URMFFS算法的性能随之变好,并最终在更高的维度优于其他无监督特征选择方法,表明了URMFFS算法的优势。
为了进一步验证URMFFS算法的优越性,采用t检验(t-test)在六个数据库上来验证URMFFS算法的性能是否显著优于其他对比方法。在t检验中,原假设是URMFFS算法的性能与其它实验对比方法比较没有差异,而备择假设则是URMFFS算法的性能与其它对比方法比较具有显著性的提高。例如,比较URMFFS算法与LS算法的性能,可用符号标记为:URMFFSvs.LS,原假设H0表示为MURMFFS=MLS,备择假设H1表示为MURMFFS>MLS,其中,MURMFFS和MLS分别表示URMFFS算法和LS算法在所有数据库上的聚类结果。在实验中,将显著水平设置为0.01。表5至表6给出了在所有数据库上所有方法的成对单边t检验p值。从表5至表6中的实验结果可以看出,在所有数据库上的成对单边t检验获得的p值均小于0.01,该结果意味着在所有成对t检验中原假设不成立,而备择假设成立。因此,证明URMFFS算法的性能要显著优于其它对比方法。
表5在ACC上所有方法的成对单边t检验p值
表6在NMI上所有方法的成对单边t检验p值
接下来,测试参数β不同取值对URMFFS算法聚类性能的影响。实验中设置参数取值为{1,101,102,103,104,105,106,107,108}。图4和5给出URMFFS算法在参数β值不同的情况下对应的平均聚类准确率(ACC)和归一化互信息(NMI)。从图中可以看出,在所有的数据库上当参数β的取值(小于103)相对较小时,URMFFS算法能实现最好的性能。这是因为较大的β值会使URMFFS算法的目标函数(公式8)的第二项(正则项)会占主导地位,而忽视了第一项矩阵分解的作用,会导致所选特征不能很好的表示原始特征。
URMFFS算法的收敛性分析
在本小节,主要分析本发明提出的优化算法的收敛性。基于更新规则公式(14)和(17),有如下理论。
定理1:对于W≥0和H≥0,URMFFS的目标函数F(W,H),即公式(9)在公式(14)和(17)更新规则下是非递增的。
为了证明定理1,下面给出辅助函数的定义。
根据辅助函数,可以得到如下引理:
其中,t是第t次的迭代次数。
接下来,需要证明矩阵W和H的更新规则公式(14)和公式(17)的收敛性。
ψij(Wij)=(-2HTWTXTX+HTWTXTXWH+β1m×mWTW-βWTW)ij (21)
▽ψij(Wij)=(-2XTXHT+2XTXWHHT+2β1m×mW-2βW)ij (22)
▽2ψij(Wij)=2(XTX)ii(HTH)jj+2β(1m×m-I)ii (23)
其中,1m×m是m×m大小全为1的矩阵,▽ψij(Wij)和▽2ψij(Wij)分别表示函数ψij对变量Wij的一阶导数和二阶导数。
引理2:公式(24)是ψij(Wij)的辅助函数:
证明:将ψij(Wij)通过泰勒级数展开,可以得到:
根据线性代数,可以得到:
ψji(Hji)=(-2HTWTXTX+HTWTXTXWH)ji (29)
▽ψji(Hji)=(-2WTXTX+2WTXTXWH)ji (30)
▽2ψji(Hji)=2(WTXTXW)jj (31)
其中,▽ψji(Hji)和▽2ψji(Hji)分别表示函数ψij对变量Hji的一阶导数和二阶导数。
引理3:公式(34)是ψji(Hji)的辅助函数:
证明:将ψji(Hji)通过泰勒级数展开,可以得到:
根据线性代数,可以得到:
最后,我们证明定理1的收敛性。
因为公式(24)和公式(32)都是函数ψij的辅助函数,所以函数ψij采用公式(14)和(17)的更新规则来更新是非递增的。同时,目标函数公式(8)的所有项都是不小于零的,具有下界。因此,根据柯西收敛规则,本发明提出的URMFFS算法是收敛的,即定理1的收敛性获证。
与其他正则项的比较
下面,将内积正则项与其他被广泛用于特征选择的正则项进行比较,如-范数和-范数。为此,从UCI机器学习库中选择一个含有214个样本和9个特征的Glass数据集(Glass数据集可以从该网站下载:http://mlearn.ics.uci.edu/MLRepository.html)进行实验,图6给出各个特征之间的Pearson相关系数的绝对值。图7显示了基于-范数的正则化得到的特征权矩阵W。从图7中可以看出,由于-范数正则项是对W的每一行单独学习的,并没有考虑所有不同样本之间的相关性。所以根据||wi||2的值按降序方式排序,通过-范数正则项选择最前面的3个特征分别为feature 1、feature 2和feature 3。从图6中的Pearson相关系数可以发现,这些特征之间的平均相关系数是0.4259。从图8中可以观察到,对于-范数正则项,虽然它能使W变得行稀疏,但却忽略了冗余的特征。从结果可以看到W的非零行对应的特征是高度相关的,比如Feature 1和Feature 7,这就意味着通过-范数正则项选择的特征子集很有可能存在冗余性。另外通过-范数正则项选择最前面的3个特征是Feature 3、Feature 5和Feature 1,它们之间的平均相关系数是0.2768。最后,从图9可以看到URMFFS方法采用内积正则项作用W后使它是稀疏和低冗余的。例如,由于Feature 1和Feature 7之间的相关性高,本文正则化方法会使得Feature 1所对应的权值为0(即W的第一行),最终只选择Feature 7。通过本发明引入的正则项选择最前面的3个特征是Feature 5、Feature 2和Feature 7,它们之间的平均相关系数是0.1846,要比用-范数和-范数得到的值要小,说明本发明正则项是可行的。
Claims (2)
1.一种无监督正则化矩阵分解特征选择方法,包括以下步骤:
1)输入样本数据矩阵X∈Rn×m;其中,n表示样本总数,m表示数据的特征维数;所述样本数据为人脸图像数据;
2)构建基于非负矩阵分解模型用于特性选择:
其中,Ik×k是大小为k×k的单位矩阵,H∈Rk×m是系数矩阵,它将原始特征投影到被选特征所张成的子空间中,W=[w1,w2,w3,...,wm]T∈Rm×k为特征权值矩阵;
3)构建内积正则项约束用于降低特征的相关性:
4)构建基于内积正则化非负矩阵分解的特征选择目标函数:
其中,公式(3)的第一项是度量被选特征表示原始高维数据的能力,第二项是确保特征权矩阵W是稀疏和低冗余的,β是平衡这两项之间的权衡参数;
5)通过迭代优化策略求解目标函数;
6)计算||wi||2,i=1,2,...,m值按升序方式排序m个特征,选择前p个特征形成最优特征子集,它们对应的索引集合{idx1,idx2,...,idxp}作为最终输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710446167.4A CN107203787B (zh) | 2017-06-14 | 2017-06-14 | 一种无监督正则化矩阵分解特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710446167.4A CN107203787B (zh) | 2017-06-14 | 2017-06-14 | 一种无监督正则化矩阵分解特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107203787A CN107203787A (zh) | 2017-09-26 |
CN107203787B true CN107203787B (zh) | 2021-01-08 |
Family
ID=59906920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710446167.4A Active CN107203787B (zh) | 2017-06-14 | 2017-06-14 | 一种无监督正则化矩阵分解特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107203787B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319987B (zh) * | 2018-02-20 | 2021-06-29 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN108932530A (zh) * | 2018-06-29 | 2018-12-04 | 新华三大数据技术有限公司 | 标签体系的构建方法及装置 |
CN109002794B (zh) * | 2018-07-13 | 2022-01-14 | 深圳大学 | 一种非线性非负矩阵分解人脸识别构建方法、系统及存储介质 |
CN109493929B (zh) * | 2018-09-20 | 2022-03-15 | 北京工业大学 | 基于分组变量的低冗余特征选择方法 |
CN110046634B (zh) * | 2018-12-04 | 2021-04-27 | 创新先进技术有限公司 | 聚类结果的解释方法和装置 |
CN109754008B (zh) * | 2018-12-28 | 2022-07-19 | 上海理工大学 | 基于矩阵分解的高维对称稀疏网络缺失信息的估计方法 |
CN111783816B (zh) * | 2020-02-27 | 2024-09-20 | 北京沃东天骏信息技术有限公司 | 特征选择方法和装置、多媒体和网络数据降维方法和设备 |
CN112183597B (zh) * | 2020-09-21 | 2023-10-31 | 西安理工大学 | 一种基于谱聚类的非均衡交通事故严重程度分析方法 |
CN112270282B (zh) * | 2020-11-03 | 2021-12-10 | 华北电力大学 | 一种利用矩阵谱模的功率信号滤波方法和系统 |
CN112231933B (zh) * | 2020-11-06 | 2023-07-28 | 中国人民解放军国防科技大学 | 一种面向雷达电磁干扰效应分析的特征选择方法 |
CN112597328B (zh) * | 2020-12-28 | 2022-02-22 | 推想医疗科技股份有限公司 | 标注方法、装置、设备及介质 |
CN113177604B (zh) * | 2021-05-14 | 2024-04-16 | 东北大学 | 一种基于改进l1正则化和聚类的高维数据特征选择方法 |
CN114119057B (zh) * | 2021-08-10 | 2023-09-26 | 国家电网有限公司 | 用户画像模型的构建系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722578A (zh) * | 2012-05-31 | 2012-10-10 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
CN103559294A (zh) * | 2013-11-12 | 2014-02-05 | 中国石油大学(北京) | 支持向量机分类器的构造方法及装置、分类方法及装置 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN104978573A (zh) * | 2015-07-06 | 2015-10-14 | 河海大学 | 一种应用于高光谱图像处理的非负矩阵分解方法 |
CN105373802A (zh) * | 2015-03-26 | 2016-03-02 | 东莞职业技术学院 | 基于区间Type-2模糊支持向量机的场景图像分类方法 |
CN105718959A (zh) * | 2016-01-27 | 2016-06-29 | 中国石油大学(华东) | 一种基于自编码的物体识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8774513B2 (en) * | 2012-01-09 | 2014-07-08 | General Electric Company | Image concealing via efficient feature selection |
US9163649B2 (en) * | 2012-10-16 | 2015-10-20 | General Electric Company | Mechanical stop adjustment for jack |
-
2017
- 2017-06-14 CN CN201710446167.4A patent/CN107203787B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722578A (zh) * | 2012-05-31 | 2012-10-10 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
CN103559294A (zh) * | 2013-11-12 | 2014-02-05 | 中国石油大学(北京) | 支持向量机分类器的构造方法及装置、分类方法及装置 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN105373802A (zh) * | 2015-03-26 | 2016-03-02 | 东莞职业技术学院 | 基于区间Type-2模糊支持向量机的场景图像分类方法 |
CN104978573A (zh) * | 2015-07-06 | 2015-10-14 | 河海大学 | 一种应用于高光谱图像处理的非负矩阵分解方法 |
CN105718959A (zh) * | 2016-01-27 | 2016-06-29 | 中国石油大学(华东) | 一种基于自编码的物体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107203787A (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107203787B (zh) | 一种无监督正则化矩阵分解特征选择方法 | |
Wen et al. | Generalized incomplete multiview clustering with flexible locality structure diffusion | |
CN111667884B (zh) | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 | |
Li et al. | Towards faster training of global covariance pooling networks by iterative matrix square root normalization | |
Bai et al. | Multi-view feature selection via nonnegative structured graph learning | |
CN108647690B (zh) | 基于判别稀疏保持投影的非约束人脸图像降维方法 | |
Gou et al. | Weighted discriminative collaborative competitive representation for robust image classification | |
CN110222213B (zh) | 一种基于异构张量分解的图像分类方法 | |
Qian et al. | Double constrained NMF for partial multi-view clustering | |
CN107330355B (zh) | 一种基于正样本平衡约束的深度行人再标识方法 | |
CN105469034A (zh) | 基于加权式鉴别性稀疏约束非负矩阵分解的人脸识别方法 | |
CN109241813B (zh) | 基于判别稀疏保持嵌入的非约束人脸图像降维方法 | |
Li et al. | Affinity learning via a diffusion process for subspace clustering | |
CN108229295A (zh) | 一种基于多重局部约束的图优化维数约简方法 | |
Xue et al. | Deep Correlated Predictive Subspace Learning for Incomplete Multi-View Semi-Supervised Classification. | |
Shu et al. | Parameter-less auto-weighted multiple graph regularized nonnegative matrix factorization for data representation | |
Lu et al. | Feature fusion with covariance matrix regularization in face recognition | |
Levin et al. | Out-of-sample extension of graph adjacency spectral embedding | |
CN111444390A (zh) | 一种基于Spark和深度哈希的视频并行检索方法 | |
Tong et al. | A deep discriminative and robust nonnegative matrix factorization network method with soft label constraint | |
CN111695455B (zh) | 一种基于耦合判别流形对齐的低分辨人脸识别方法 | |
Liu et al. | Multi-view subspace clustering network with block diagonal and diverse representation | |
Peng et al. | Multiview clustering via hypergraph induced semi-supervised symmetric nonnegative matrix factorization | |
CN116597186A (zh) | 一种多视图子空间聚类方法、系统、电子设备及存储介质 | |
Lu et al. | Generative essential graph convolutional network for multi-view semi-supervised classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |