CN107203787B

CN107203787B - 一种无监督正则化矩阵分解特征选择方法

Info

Publication number: CN107203787B
Application number: CN201710446167.4A
Authority: CN
Inventors: 易玉根; 王建中; 齐妙; 王婷; 郭常禄
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2021-01-08
Anticipated expiration: 2037-06-14
Also published as: CN107203787A

Abstract

本发明提供了一种无监督正则化矩阵分解特征选择方法(URMFFS方法)，该方法通过引入内积正则化约束考虑所选特征之间的相关性，使所选的特征子集不仅能够很好的表示原始高维特征并且具有较低冗余性。本发明还设计了一种迭代优化算法来求解URMFFS方法。将URMFFS方法与目前较为流行的无监督特征选择方法分别在六个常用数据库(AR10P、Yale、ORL、Jaffe、PIE10P和TOX‑171)上进行了大量对比实验，实验结果表明，URMFFS方法的性能显著优于其它无监督特征选择方法。

Description

一种无监督正则化矩阵分解特征选择方法

技术领域

本发明涉及信号处理、数据分析技术领域，具体涉及一种无监督正则化矩阵分解特征选择方法。

背景技术

随着计算机科技、社会网络信息化及互联网的日益普及，涌现出大量高维数据，如：文本、多媒体、视频、图像等，而且它们来源于不同的系统、传感器和移动设备等。这些高维数据通常具有多样性、复杂性和冗余性等特点，如果利用计算机直接处理这些高维数据，这需要巨大内存存储空间和计算成本，严重则会造成“维数灾难”(Curseofdimensionality)问题，这会降低算法的计算效率和性能。“维数灾难”是在涉及向量的计算中要确保一定的准确率，进而对变量或者特征有更加精确的估计，随着样本维数的增加，其计算量呈指数变化。除了缓解“信息丰富、知识匮乏”的状况从而降低复杂度，还要从这些数据中提取有价值的特性能更好地认识和理解数据，非常重要的一个步骤就是需要更加新颖的分析方法和工具来预处理高维数据。降维技术的出现有效的改善这类问题。

降维又称维数约简，是指高维空间中的数据找到一个最能反映原始高维数据特性的低维表示。最核心的降维技术主要包括两类：特征提取(Feature Extraction)和特征选择(Feature Selection)。特征提取是将原始高维空间中的数据点，通过某种映射方法投影到低维空间中，达到在高维特征空间中挖掘出能反映实际本征维度的低维结构的目的。根据不同的映射方式，特征提取被分为线性和非线性两种。其中，线性特征提取主要包括主成分分析(Principal Component Analysis，PCA)、局部保持投影(Locality PreservingProjection，LPP)、线性判别分析(Linear Discriminant Analysis，LDA)和多维尺度变换(Multidimensional Scaling，MDS)等。而近年来才被广泛研究的非线性特征提取方法主要包括拉普拉斯特征映射(LaplacianEigenmaps，LE)、局部线性嵌入(Locally LinearEmbedding，LLE)、等距映射(Isometric Mapping，ISOMAP)等。由于特征提取是将原数据通过线性或非线性变换得到较少数量的新特征，会导致提取的这些新特征与样本类别之间的关系很难解释，这会给人们的判断和理解带来一定程度的影响。

与之不同的特征选择方法，是根据某种评判标准从原始高维数据中选择数量少且最优的特征子集，对模式识别领域中的数据预处理有着广泛的应用。通过特征选择一组与样本类别相关性强、特征彼此间相关性弱的特征子集用于构建模型是非常重要的，从而达到降低特征维数，提高模型精确度，减少运行时间，提高数据存储和处理效率的目的。此外，选取出真正相关的特征简化模型，将有利于协助理解数据产生的过程，因此，在解决高维数据的机器学习问题上特征选择扮演一个举足轻重的角色。经典的特征选择方法主要包括：拉普拉斯得分(LaplacianScore，LS)、Fisher得分(Fisher Score，FS)、ReliefF、互信息等。特征选择去掉了无关紧要的特征，保留了选择的具有代表性特征的原始信息，这有助于提高机器学习算法效率。

此外，特征选择已成功应用在不同领域中，如基因工程、计算机视觉、生物特征识别和无机化学等。众所周知，随着大数据的不断涌现，数据的规模呈现爆炸式增长，也给研究人员提供了机遇和前所未有的挑战。

虽然特征选择起源于二十世纪六十年，但目前仍然是一个热门的研究课题。在许多国际期刊，如：PAMI、IJCV、IJCAI、Signal Processing、PR等，国际会议，如：CVPR、ECCV、ICCV、ACCV等，高质量的科技论文犹如雨后春笋般地出现。还有许多国内外的大学和研究所，如：哈尔滨工业大学、华中科技大学、浙江大学、Stanford、MIT等也在特征学习领域投入了大量的工作，并且取得了显著的成果。

根据实际应用的需求，科研人员相继提出各种特征选择策略及方法。首先，基于搜索策略划分的特征选择方法可以分为：全局最优、随机搜索和启发式搜索。其中，比较典型的采用全局最优搜索策略的特征选择方法是“分支定界”(Branch and Bound)算法。以概率推理和采样过程作为基础的随机搜索策略的特征选择算法，结合了遗传算法、模拟退火算法、随机重采样、搜索算法和粒子群算法。采用启发式搜索策略的特征选择算法主要有：单独最优特征组合，序列前向选择(Sequential Forward Selection，SFS)，广义序列前向选择(Generalized Sequential Forward Selection，GSFS)，序列后向选择(SequentialBackward Selection，SBS)和广义序列后向选择(Generalized Sequential BackwardSelection，GSBS)等等。就目前的研究情况而言，特征选择方法中被广泛使用的是随机搜索和启发式策略。然后，根据是否利用后续的学习算法来评估特征子集，提出基于评价准则划分的特征选择方法，可分为三类：过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)。

过滤式特征选择方法独立于后续的学习算法，它是根据信息统计准则来选择预测能力比较好的特征组成特征子集。目前比较典型的过滤式方法有信息熵法、ReliefF、FS及相关测量法。封装式特征选择方法依赖于学习算法模型，它首先利用所选择的特征子集直接来学习训练，然后根据测试集的识别性能作为评价特征子集的好坏。另外，研究者在用决策树、Fisher判别分析和人工神经网络中结合遗传算法进行特征选择，并且取得较为满意的结果。嵌入式特征选择方法将过滤式和封装式两种方法相结合，作为一个整体嵌入到学习算法中，它除了可以同时执行特征选择外，还能解决分类、聚类或回归问题。这类算法主要有C4.5、ID3及CART等比较经典的决策树方法。

根据是否利用了样本数据类别的标签信息，可将特征选择方法分为有监督特征选择(Supervised Feature Selection)、半监督特征选择(Semi-supervised FeatureSelection)和无监督特征选择(Unsupervised Feature Selection)三类。

有监督的特征选择方法根据样本的标签类别信息与特征的关系选择具有判别性的特征。如：Fisher得分(Fisher Score，FS)、最大权重最小冗余(Maximum Weight andMinimum Redundancy，MWMR)等。

在实际应用中难以获取大量带有标签信息的训练样本，并且人为标记比较费时费力的。因此，研究者利用少量已标记样本数据和大量未标记样本数据对特征进行评估，提出了半监督特征选择方法，如：基于谱分析半监督特征选择方法(Semi-supervised FeatureSelection via Spectral Analysis)。

同监督和半监督方法比较，无监督特征选择方法没有利用训练样本的标签类别信息。此类方法包括方差(Variance)、拉普拉斯得分(Laplacian Score，LS)、多重聚类特征选择(Multi-cluster Feature Selection，MCFS)、谱特征选择(Spectral FeatureSelection，SPEC和无监督判别特征选择(Unsupervised Discriminative FeatureSelection，UDFS)等。

基于矩阵分解的特征选择(Matrix Factorization Feature Selection，MFFS)算法成功搭建矩阵分解和特征选择之间的桥梁，并且其性能要优于目前大量的特性选择方法，但是MFFS方法的约束条件过于严格，并且在实际应用中难以满足，而且还忽略了特征之间的相关性，导致所选择的特征子集可能存在一定冗余性而不是最优的特征子集。

发明内容

为了克服MFFS方法的局限性，本发明提出一种无监督正则化矩阵分解特征选择算法，该算法充分考虑了特征之间的相关性。

本发明通过引入内积正则化提出一种无监督正则化矩阵分解特征选择(Unsupervised RegularizedMatrix Factorization Feature Selection，URMFFS)方法。与其它无监督特征选择算法，如：MCFS、UDFS、RSR和MFFS等进行比较，URMFFS方法不仅能选一个最能近似表示所有特征的特征子集，而且还能使得所选的特征子集的冗余性低，即URMFFSF方法所选的特征子集具有较强的代表性和线性无关性。本发明引入的内积正则化一个可以看作

-范数和

-范数相结合的正则项。而且，提出一种简单有效的迭代更新算法优化URMFFS的目标函数，同时在理论上分析与证明了URMFFS方法的收敛性。为了方便表示，表1列出算法中常用的符号标识。

表1本文使用的符号

首先，定义矩阵X＝[x₁；x₂；...；x_n]∈R^n×m表示高维数据，其中，x_i∈R^1×m是第i个样本，n是样本总数，m是样本特征数目。URMFFS方法的目的是选择一个最优特征子集，它能捕捉到最有用的信息近似表示所有的特征。假设在特征空间中所有特征都位于一个线性流形上，则特征选择可以表示如下公式：

其中，I表示所选特征的索引集合，X_I表示X的子集，span(·)表示集合张成的空间，

表示两个子空间的距离。从公式(1)很明显地看出X_I中子集可以被X_I准确表示，因此，公式(1)的优化问题可以等价于如下形式：

其中，

表示X_I的子集。

因此，特征选择问题可以表示为如下：

其中，H是系数矩阵，k是所选特征的索引。从矩阵分解的角度可以将特征选择问题表示如下：

其中，W是特征权矩阵。从公式(4)可以看到约束条件W^TW＝I_k×k是为了确保W的每个元素是0或1，而且每行(列)最多只有一个非零元素，所以，W也可以定义为所选择特征的指示矩阵。

考虑到实际问题的数据通常是非负的，所以添加约束项H≥0保证任意特征能被所选特征的正线性组合所描述。因此，公式(4)可重写为如下形式：

其中，I_k×k是k×k大小的单位矩阵，H∈R^k×m是系数矩阵，它将原始特征投影到被选特征所张成的子空间中，W＝[w₁,w₂,w₃,...,w_m]^T∈R^m×k是特征权矩阵。

虽然公式(5)能实现特征选择目的，但它忽略了所选特征之间的相关性，而且约束条件过于严格而难以满足实际应用。虽然可以通过对W添加

-范数或

-范数约束条件作为正则项来解决这个问题。然而

-范数或

-范数不能同时保证特征的稀疏性和低冗余性，因此，它们所选的特征子集未必是最优的。

因此，本发明引入一个可以刻画变量独立性和显著性的正则项。该正则项是用特征权向量内积的绝对值表示，即|＜w_i,w_j＞|，其中w_i∈R^1×k(i＝1,2,...,m)是W的第i行权向量。考虑到W所有的权向量，所以URMFFS方法的正则项可以被定义为：

公式(6)通过简单的数学变换，可以写成由矩阵W^TW的

-范数和矩阵W的

-范数的组合形式：

最小化公式(7)，则可以减小冗余特征和不重要特征所对应的权值，达到所选特征子集是稀疏的和低冗余的。所以，通过结合公式(5)和公式(7)，URMFFS方法的目标函数如下：

其中，公式(8)的第一项是度量所选特征表示原始高维特征的能力，第二项是确保特征权矩阵W是稀疏和低冗余的，β是平衡这两项之间的权衡参数。

当获得W后，根据||w_i||₂(i＝1,2,...,m)对所有的特征按降序方式进行排序，并选择最靠前的p个特征作为特征子集。

然后，对URMFFS算法进行优化。在URMFFS算法中需要优化两个变量W和H，从公式(8)中可知，目标函数对每个变量W(或者H)而言它是凸函数，但是对于所有变量而言是非凸的，所以不能给出目标函数的显式解。因此，为了解决这个问题，本发明提出一种迭代更新算法来优化URMFFS算法的目标函数。

令F(W,H)表示公式(8)的目标函数值，则有：

通过代数运算，公式(9)可重写为：

其中，1_m×m是大小为m×m全1矩阵。考虑到约束条件W≥0和H≥0，可定义它们的拉格朗日乘子，分别是α∈R^m×k和λ∈R^k×m。则公式(10)的拉格朗日函数形式如下：

更新变量W：

拉格朗日函数(11)对变量W求偏导如下：

通过利用(Karush-Kuhn-Tucker，KKT)互补性条件α_ijW_ij＝0，可以得到：

[-X^TXH^T+X^TXWHH^T+β(1_m×mW-W)]_ijW_ij＝0 (13)

根据公式(13)，可以得到特征权值矩阵W的更新规则：

更新变量H：

拉格朗日函数(11)对变量H求偏导如下：

同样利用KTT条件λ_jiH_ji＝0，可以得到：

[-W^TX^TX+W^TX^TXWH]_jiH_ji＝0 (16)

根据公式(16)，可以得到系数矩阵H的更新规则：

综上所述，给出URMFFS方法的具体流程，包括以下步骤：

1)输入数据矩阵X∈R^n×m、平衡参数β和特征选择个数p，其中，n是样本总数，m是样本特征数目；

2)初始化权值矩阵W＝rand(m,k)和系数矩阵H＝rand(k,m)，其中，rand()为随机函数，k为任意非负整数，最大迭代次数T，t＝1；

3)重复执行如下几步，直到满足t>T停止

a)计算对角矩阵

b)计算W＝WD^-1和H＝DH；

c)固定H，更新W：

d)固定W，更新H：

e)t＝t+1；

4)计算||w_i||₂,i＝1,2,...,m值按升序方式排序m个特征，选择前p个特征形成最优特征子集，它们对应的索引集合{idx₁,idx₂,...,idx_p}作为输出。

本发明的有益效果：1)URMFFS算法考虑了特征之间的相关性，并利用内积正则化约束进行特征选择，所以它的平均聚类准确率(ACC)较高，平均归一化互信息(NMI)也较高。2)URMFFS算法通过引入内积正则化来考虑所有特征之间的相关性，使所选的特征子集不仅能很好的表示原始高维数据并且具有较低冗余性。

附图说明

图1是五个标准人脸图像数据库中部分人脸图像。

图2是六个数据库上不同算法的聚类准确率(ACC)与维度变化的曲图

图3是六个数据库上不同算法的归一化互信息(NMI)与维度变化的曲线图。

图4是URMFFS算法在六个数据库上不同β值的聚类准确率(ACC)直方图。

图5是URMFFS算法在六个数据库上不同β值的归一化互信息(NMI)直方图。

图6是Glass数据集上不同特征间的Pearson相关系数的绝对值数据图。

图7是基于

-范数正则化的特征系数矩阵图。

图8是基于

-范数正则化的特征系数矩阵图。

图9是基于内积正则化的特征系数矩阵图。

具体实施方式

为了充分验证本发明URMFFS算法的有效性，首先在六个常用的基本数据库上(AR10P、Yale、ORL、Jaffe、PIE10P和TOX-171)测试URMFFS算法的聚类性能，同时与以下六种目前比较流行的无监督特征选择算法进行比较：

(1)LS：拉普拉斯得分特征选择(Laplacian Score Feature Selection，LS)，该方法选择那些最能保持数据的局部流形结构的特征作为特征子集。

(2)SPEC：谱特征选择(Spectral Feature Selection，SPEC)，该方法在基于图谱理论的基础上，分析谱聚类实现特征选择。

(3)MCFS：多重聚类特征选择(Mutli-Cluster Feature Selection，简称MFFS)，该方法利用基于

-范数的谱回归正则化进行选择特征。

(4)UDFS：无监督判别特征选择(Unsupervised Discriminative Featureselection，UDFS)，该方法通过联合

-范数和局部判别信息作为一个统一框架来进行特征选择。

(5)RSR：正则化自表示(Regularized Self-Representation，RSR)，该方法利用

-范数正则化去度量不同特征之间的自表示能力来进行特征选择。

(6)MFFS：矩阵分解特征选择(Robust Unsupervised Feature Selection，MFFS)，在该方法通过有着正交约束的矩阵分解来达到特征选择的目的。

实验中，在六个数据库上对URMFFS算法与其他六种无监督特征选择算法进行对比实验，六个数据库包括五个人脸图像数据库(AR10P、Yale、ORL、Jaffe和PIE10P)和一个生物基因数据库(TOX-171)。

在AR人脸图像数据库中，包含了来自126个人的4000多张正面图像，每个人在不同的表情、光照、面部遮挡或伪装的情况下采集26张人脸图像。实验将从AR数据库中选择一个包含13个人的子集(AR10P)作为数据集。

Yale人脸图像数据库包含来自15个人的165张人脸图像，每个人的11张图像采自于不同的光照条件、姿势和面部表情(例如：左/中/右光照、犯困、眨眼、戴/没戴眼镜、快乐、正常、悲伤，惊喜)。

ORL人脸图像数据库一共包括了40个人，每人都含有10张不同的人脸图像，这些图像来自于不同的面部表情(例如：睁/闭眼、笑/不笑、戴/没戴眼镜)。

Jaffe人脸图像数据库包括213张含7种面部表情(例如：快乐、悲伤、惊讶、厌恶、恐惧、愤怒、中性)的图片。

CMU PIE人脸图像数据库总共包含了68个人的41,368张图像，实验将从CMU PIE数据库中选择一个包含10个人的210张人脸图像的子集(PIE10P)作为实验数据集。

TOX-171生物基因数据库包含了来自4类(例如：遭受放射治疗患者(RadS)、控制放射治疗患者(RadC)、皮肤癌患者(SkCa)和无癌症患者(NoCa))的171个样本，而每个样本有5748个基因。

表2给出了各个数据库的基本信息和图1给出了五个人脸图像数据库中部分人脸图像的样例。

表2六个数据库的基本信息

在实验中，为了评价不同无监督特征选择方法的性能，采用两种被广泛应用的评价标准，即聚类的准确率(Accuracy，ACC)和归一化互信息(Normalize MutualInformation，NMI)。对于一个输入样本x_i，假设c_i和p_i是它的聚类结果和真实标签。那么ACC的定义如下：

其中，如果当x＝y时，δ(x,y)＝1，否则δ(x,y)＝0。map(·)是一个最好的映射函数，它的功能是通过Kuhn-Munkres算法把实验得到的聚类标签与样本的真实标签进行匹配。当ACC的值越大意味着聚类性能越好，这表明获得的聚类标签更加接近样本真实的标签。

给定任意两个变量P和C，NMI可以定义为：

其中，I(P,C)表示P和C两者之间的互信息，H(P)和H(C)分别表示P和C的熵。在实验中，P是输入样本的聚类结果，C是它们的真实标签。类似于ACC，NMI的值越大意味着聚类性能越好。

在实验中将对URMFFS算法和其他对比方法的参数进行设置。对于所有的算法，设置选择特征的个数从20到100(间隔为10)。将LS、SPEC、MCFS和UDFS算法，在所有数据库上把它们近邻参数的大小都设置为k＝5。稀疏项参数(如：UDFS中的参数γ和RSR中的参数λ)采用交替网格搜索的方式确定它们的值，其网格搜索范围设置为{0.001,0.01,0.1,1,10,100,1000}，并记录其中最优参数所对应的最好结果。MFFS方法中参数ρ的大小设置为10⁸。对于URMFFS算法中参数β的取值，同样采用网格搜索方式确定其最优取值，实验中取值范围设置为{1,10¹,10²,10³,10⁴,10⁵,10⁶,10⁷,10⁸}。最后，记录最好的实验结果。

当不同特征选择算法完成特征选择之后，采用K-means算法对它们所选的低维特征进行聚类。考虑到K-means聚类的性能会受到初始化的影响，因此，重复执行20次不同的随机初始化实验，然后记录它们的平均结果和对应的标准差。

结果分析

测试了所提出算法在聚类任务上的性能，同时也对比较的实验结果进行了总结和分析。

首先，表3和表4给出了不同方法在六个数据库上的最好平均聚类结果，从实验结果中可以总结出以下几点：第一，因为LS和SPEC是按照一个接一个这种单独的方式选择特征，所以在多数数据库上它们的聚类性能不如其他方法；第二，MCFS、UDFS和RSR都是稀疏正则化的特征选择算法，而且它们都是按照批量的方式进行特征选择，因此，可以看出这三种方法的聚类性能要优于以单独方式选择特征的方法，如：LS和SPEC；第三，由于MFFS是基于矩阵分解理论，所以也能以批量的方式来选择特征，这也使得它的性能要优于LS和SPEC方法。然而它却忽略了所选特征之间的相关性，而且通过观察可以发现只有在Yale数据库上，它的性能才好于其他稀疏正则化方法能。最后，可以明显地看到，本发明提出的URMFFS在所有数据库实验中的性能都要优于其他对比方法。由于URMFFS算法考虑了特征之间的相关性，并利用内积正则化约束进行特征选择，所以它的平均聚类准确率(ACC)要高于其他方法0.12％～20.79％，平均归一化互信息(NMI)要高于其他方法0.79％～26.87％。

表3不同特征选择算法在六个数据集上的ACC(％)与标准差(％)

注：括号中的数字表示对应最好聚类结果的特征维数。

表4不同特征选择算法在六个数据集上的NMI(％)与标准差(％)

注：括号中的数字表示对应最好聚类结果的特征维数。

然后，不同方法在六个标准数据库上的聚类准确率(ACC)和归一化互信息(NMI)与特征维度变化的曲线图如图2和图3所示。从实验结果可以看出本发明提出的URMFFS算法在多数情况下要优于其他对比方法。在Yale和PIE10P数据库上，虽然当选择的特征维度相对较小时，通过本发明提出的URMFFS算法得到的聚类结果要比其他算法(如：MCFS和MFFS)稍微差一些，但是随着特征维度的增加，URMFFS算法的性能随之变好，并最终在更高的维度优于其他无监督特征选择方法，表明了URMFFS算法的优势。

为了进一步验证URMFFS算法的优越性，采用t检验(t-test)在六个数据库上来验证URMFFS算法的性能是否显著优于其他对比方法。在t检验中，原假设是URMFFS算法的性能与其它实验对比方法比较没有差异，而备择假设则是URMFFS算法的性能与其它对比方法比较具有显著性的提高。例如，比较URMFFS算法与LS算法的性能，可用符号标记为：URMFFSvs.LS，原假设H₀表示为M_URMFFS＝M_LS，备择假设H₁表示为M_URMFFS>M_LS，其中，M_URMFFS和M_LS分别表示URMFFS算法和LS算法在所有数据库上的聚类结果。在实验中，将显著水平设置为0.01。表5至表6给出了在所有数据库上所有方法的成对单边t检验p值。从表5至表6中的实验结果可以看出，在所有数据库上的成对单边t检验获得的p值均小于0.01，该结果意味着在所有成对t检验中原假设不成立，而备择假设成立。因此，证明URMFFS算法的性能要显著优于其它对比方法。

表5在ACC上所有方法的成对单边t检验p值

表6在NMI上所有方法的成对单边t检验p值

接下来，测试参数β不同取值对URMFFS算法聚类性能的影响。实验中设置参数取值为{1,10¹,10²,10³,10⁴,10⁵,10⁶,10⁷,10⁸}。图4和5给出URMFFS算法在参数β值不同的情况下对应的平均聚类准确率(ACC)和归一化互信息(NMI)。从图中可以看出，在所有的数据库上当参数β的取值(小于10³)相对较小时，URMFFS算法能实现最好的性能。这是因为较大的β值会使URMFFS算法的目标函数(公式8)的第二项(正则项)会占主导地位，而忽视了第一项矩阵分解的作用，会导致所选特征不能很好的表示原始特征。

URMFFS算法的收敛性分析

在本小节，主要分析本发明提出的优化算法的收敛性。基于更新规则公式(14)和(17)，有如下理论。

定理1：对于W≥0和H≥0，URMFFS的目标函数F(W,H)，即公式(9)在公式(14)和(17)更新规则下是非递增的。

为了证明定理1，下面给出辅助函数的定义。

定义1：如果函数满足

和

则称函数

是函数ψ(u)的辅助函数。

根据辅助函数，可以得到如下引理：

引理1：如果函数

是函数ψ的辅助函数，则函数ψ采用如下更新规则是非增的：

其中，t是第t次的迭代次数。

证明：

引理1获证。

接下来，需要证明矩阵W和H的更新规则公式(14)和公式(17)的收敛性。

首先，需要证明当设计一个合适的辅助函数

时，变量W的更新公式(14)与公式(20)是一致的，为此，定义ψ_ij(W_ij)表示目标函数公式(9)中仅与W矩阵的W_ij元素相关的部分。于是可以得到：

ψ_ij(W_ij)＝(-2H^TW^TX^TX+H^TW^TX^TXWH+β1_m×mW^TW-βW^TW)_ij (21)

▽ψ_ij(W_ij)＝(-2X^TXH^T+2X^TXWHH^T+2β1_m×mW-2βW)_ij (22)

▽²ψ_ij(W_ij)＝2(X^TX)_ii(H^TH)_jj+2β(1_m×m-I)_ii (23)

其中，1_m×m是m×m大小全为1的矩阵，▽ψ_ij(W_ij)和▽²ψ_ij(W_ij)分别表示函数ψ_ij对变量W_ij的一阶导数和二阶导数。

引理2：公式(24)是ψ_ij(W_ij)的辅助函数：

证明：将ψ_ij(W_ij)通过泰勒级数展开，可以得到：

通过比较公式(24)和公式(25)，可以发现

是等价于如下不等式：

根据线性代数，可以得到：

由不等式(27)和(28)，可知不等式(26)成立，从而

成立。而且

显然成立的。于是引理2获证。

然后，采取同样的方式，证明当设计一个合适的辅助函数

时，变量H的更新公式(17)和公式(20)是一致的。在此，定义ψ_ji(H_ji)来表示目标函数(9)中只与H矩阵的H_ji元素相关的部分。于是可以得到：

ψ_ji(H_ji)＝(-2H^TW^TX^TX+H^TW^TX^TXWH)_ji (29)

▽ψ_ji(H_ji)＝(-2W^TX^TX+2W^TX^TXWH)_ji (30)

▽²ψ_ji(H_ji)＝2(W^TX^TXW)_jj (31)

其中，▽ψ_ji(H_ji)和▽²ψ_ji(H_ji)分别表示函数ψ_ij对变量H_ji的一阶导数和二阶导数。

引理3：公式(34)是ψ_ji(H_ji)的辅助函数：

证明：将ψ_ji(H_ji)通过泰勒级数展开，可以得到：

通过比较公式(32)和公式(33)，可以发现

是等价于以下不等式：

根据线性代数，可以得到：

由不等式(35)，可知不等式(34)成立，从而

成立。而且

显然成立的。于是引理3获证。

最后，我们证明定理1的收敛性。

定理1的证明：用辅助函数(24)替代公式(20)中的

可以得到以下更新规则：

用类似的方法，用辅助函数(32)替代公式(20)中的

可以得到以下更新规则：

因为公式(24)和公式(32)都是函数ψ_ij的辅助函数，所以函数ψ_ij采用公式(14)和(17)的更新规则来更新是非递增的。同时，目标函数公式(8)的所有项都是不小于零的，具有下界。因此，根据柯西收敛规则，本发明提出的URMFFS算法是收敛的，即定理1的收敛性获证。

与其他正则项的比较

下面，将内积正则项与其他被广泛用于特征选择的正则项进行比较，如

-范数和

-范数。为此，从UCI机器学习库中选择一个含有214个样本和9个特征的Glass数据集(Glass数据集可以从该网站下载:http://mlearn.ics.uci.edu/MLRepository.html)进行实验，图6给出各个特征之间的Pearson相关系数的绝对值。图7显示了基于

-范数的正则化得到的特征权矩阵W。从图7中可以看出，由于

-范数正则项是对W的每一行单独学习的，并没有考虑所有不同样本之间的相关性。所以根据||w_i||₂的值按降序方式排序，通过

-范数正则项选择最前面的3个特征分别为feature 1、feature 2和feature 3。从图6中的Pearson相关系数可以发现，这些特征之间的平均相关系数是0.4259。从图8中可以观察到，对于

-范数正则项，虽然它能使W变得行稀疏，但却忽略了冗余的特征。从结果可以看到W的非零行对应的特征是高度相关的，比如Feature 1和Feature 7，这就意味着通过

-范数正则项选择的特征子集很有可能存在冗余性。另外通过

-范数正则项选择最前面的3个特征是Feature 3、Feature 5和Feature 1，它们之间的平均相关系数是0.2768。最后，从图9可以看到URMFFS方法采用内积正则项作用W后使它是稀疏和低冗余的。例如，由于Feature 1和Feature 7之间的相关性高，本文正则化方法会使得Feature 1所对应的权值为0(即W的第一行)，最终只选择Feature 7。通过本发明引入的正则项选择最前面的3个特征是Feature 5、Feature 2和Feature 7，它们之间的平均相关系数是0.1846，要比用

-范数和

-范数得到的值要小，说明本发明正则项是可行的。