CN112364902A

CN112364902A - 一种基于自适应相似性的特征选择学习方法

Info

Publication number: CN112364902A
Application number: CN202011187744.0A
Authority: CN
Inventors: 韩晓红; 刘欣宇; 宋可
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-12
Anticipated expiration: 2040-10-30
Also published as: CN112364902B

Abstract

本发明涉及多视图特征选择领域，一种基于自适应相似性的特征选择学习方法，为解决传统特征选择方法忽略视图内部特征的相关性及不同视图之间的特征关联性问题，提出了一种基于自适应相似性的特征选择学习方法，该方法在特征选择时首先考虑视图内部的特征相关性，对每个视图进行特征选择，同时，通过引入图正则化以充分利用数据的局部几何特性，使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性。另外，引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率。通过与现有的特征方法进行对比分析，提出方法在ACC和NMI上优于其他方法。

Description

一种基于自适应相似性的特征选择学习方法

技术领域

本发明涉及基于自适应相似性的无监督多视图特征选择，其中联合图正则化与L_1/2稀疏范数，属于模式识别领域。

背景技术

近年来，随着大数据时代的到来，不光数据维数在增加，计算量也呈指数倍增长，导致了“维数灾难”。解决这个问题方法之一是降维。降维常用的方法是特征选择，根据所使用数据集的不同来源，特征选择可分为单视图特征选择方法与多视图特征选择方法。较早的特征选择方法大多使用单视图特征，但目前单视图特征已经满足不了日常生活的需要，所以高维度的多视图特征被广泛用于各种研究领域中，例如多媒体计算，机器学习和数据挖掘。多视图特征可以从不同角度更精确、更全面地表征数据，其主要问题在于怎样有效地将多视图特征的多样性和一致性结合起来识别特征，以此来保留原始特征的一些关键特征。但是高维多视图特征将不可避免地产生昂贵的计算成本及大量的存储成本。这个问题的解决方法在于将多视图特征整合，并将多视图特征看成单视图特征进行特征选择。代表性的方法包括拉普拉斯分数(LapScor)，光谱特征选择(SPEC)，最小冗余谱特征选择算法(MRSF)等。尽管这些方法取得了一定的成功，但这类方法忽略了视图内部间的特征相关性和不同视图特征间的关联性，使特征选择的性能受到了影响。

发明内容

本发明所要解决的技术问题是：如何解决背景技术中的相关问题，使得同类别特征之间的联系更加密切,从而增加算法的鲁棒性。

本发明所采用的技术方案是：一种基于自适应相似性的特征选择学习方法，按照以下步骤：

步骤一、采集数据形成数据集，对数据集进行预处理，即将数据集安颜色矩特征，GIST特征，SIFT特征，CENTRIST特征和LBP特征进行分类并提取相应特征值，分类过程采用matlab 处理，提取的特征值以.mat形式的文件加以保存；

步骤二、由于数据常常具有多个视角,形成多视图数据，特征选择时首先考虑视图与视图的特征相关性，对每个视图进行特征选择；

步骤三、通过引入图正则化以充分利用数据的局部几何特性，使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性；

步骤四、引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率；

步骤五、对模型参数进行迭代更新。

步骤二中对每个视图进行特征选择的具体方法为：给定训练集 X＝[X¹,X²,...,X^V]∈R^N×d,其表示第V个视图的全部特征数据集，X表示样本，X^V∈R^N×dv代表第v个视图的样本，d表示特征维数，d_v表示第v个视图的特征维数，为了选择最具有代表性的特征，首先要利用最小损失函数来使特征间的差距最小化:

其中S_j∈R^N×1表示特征间的相似性，Wj＝[w_j ¹,w_j ²,...,w_j ³]^T∈R^V×1表示第j列相似特征的权重，W＝[W₁,W₂,...,W_N]∈R^V×N表示所有列相似特征的权重，||*||_F表示F范数。S表示相似矩阵，R表示实数。步骤三中增强算法的鲁棒性的具体方法为：为了更好的区分特征，进一步加强增加矩阵的低秩性，引入了图正则化思想，

公式可以改写成：

这里的

L_S是相似结构S的拉普拉斯矩阵,D_S表示对角矩阵，α为参数。

步骤四中降低噪声、提高了分类模型的准确率的具体方法为：首先采用稀疏回归模型来学习投影矩阵Q，Q∈R^d×k，使得XQ近似的等于F，F是聚类指标。为了选择特征，本文还对Q引入了L_1/2范数，提出的L_1/2范数能够选择出更具代表性的特征，减少时间开销。γ是正则化参数，用于控制稀疏表示系数向量Q的稀疏性。最终的公式表现为：

I_k表示单位矩阵，F^T表示F范数的转置。

本发明的有益效果是：本发明将自适应相似性应用到无监督多视图特征选择中，并考虑视图内部特征的相关性及不同视图之间的特征关联性，同时，通过引入图正则化以利用数据的局部几何特性，使得同类别特征之间的联系更加密切,从而增加算法的鲁棒性。为了降低特定视图相似结构中潜在的数据噪声对特征选择的影响，本文引入L_1/2稀疏范数在降低噪声的同时提高分类模型的准确率。

附图说明

图1为参数选择；

图2为不同算法的ACC对比图；a为不同算法对MSRC-v1数据集的ACC对比图，b为不同算法对Outdoor Scene数据集的ACC对比图，c为不同算法对Handwritten Numeral数据集的ACC 对比图，d为不同算法对YouTube数据集的ACC对比图；

图3为不同算法的NMI对比图；a为不同算法对MSRC-v1数据集的NMI对比图，b为不同算法对Outdoor Scene数据集的NMI对比图，c为不同算法对Handwritten Numeral数据集的 NMI对比图，图3d为不同算法对YouTube数据集的NMI对比图。

具体实施方式

下面结合附图对本发明做详细的说明。

本实施方法所述基于自适应相似性的无监督多视图特征选择，并结合图正则化与L_1/2稀疏范数，它包括以下步骤：

步骤一：采集数据集，对数据集进行预处理：对于每个数据集，我们将数据集按类别分类，然后再从每张图片中提取五类视觉特征，其中包括颜色矩特征，GIST特征，SIFT特征， CENTRIST特征和LBP特征。再用matlab处理过程中，需要将提取出的特征改为.mat形式的文件加以应用。

步骤二：由于数据常常具有多个视角,形成多视图数据，而特征选择时首先考虑视图与视图的特征相关性，对每个视图进行特征选择。

步骤三：通过引入图正则化以充分利用数据的局部几何特性，使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性。

步骤四：引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率。

步骤五：对模型参数进行迭代更新。

步骤二中对每个视图进行特征选择的具体方法为：给定训练集 X＝[X¹,X²,...,X^V]∈R^N×d,其表示第V个视图的全部特征数据集，X表示样本，X^V∈R^N×dv代表第v个视图的样本，d表示特征维数，d_v表示第v个视图的特征维数，为了选择最具有代表性的特征，本文首先要利用最小损失函数来使特征间的差距最小化:

其中S_j∈R^N×1表示特征间的相似性，

表示第j列相似特征的权重，W＝[W₁,W₂,...,W_N]∈R^V×N表示所有列相似特征的权重。||*||_F表示F范数。

步骤三中增强算法的鲁棒性的具体方法为：为了更好的区分特征，进一步加强增加矩阵的低秩性，引入了图正则化思想，

公式可以改写成：

这里的

L_S是相似结构S的拉普拉斯矩阵，rank(L_S)＝n-k。

步骤四中降低噪声、提高了分类模型的准确率的具体方法为：首先，采用稀疏回归模型来学习投影矩阵Q，Q∈R^d×k，使得XQ近似的等于F，F是聚类指标。为了选择特征，本文还对Q引入了L_1/2范数，提出的L_1/2范数能够选择出更具代表性的特征，减少时间开销。γ是正则化参数，用于控制稀疏表示系数向量Q的稀疏性。最终的公式表现为：

步骤五中对模型参数进行迭代更新：

更新Q：固定F,S和W，使Q最小化，Q的优化可以推导为：

对于L_1/2稀疏约束项,我们参照已有的添加稀疏约束的方法：

更新F：固定其他变量，F的优化可以推导为：

图正则化思想为了在低维空间保持实例的原始结构,需要用下面的式子对低维表示的平滑性进行度量:

对R进行变换,可得:

我们对F进行更新时，需要考虑Tr(FLF^T)，我们根据文献^[8]中的梯度下降的方法对F进行优化，设更新H的目标函数为O,有如下的加法更新规则:我们最终可得公式：

其中δ_ij是步长参数.

令δ_ij＝-f_ij/(X^TXF+FD^T)_i,j可得：

根据文献^[7]最终可得到更新规则如下：

更新S：固定其他变量，S的优化能够写成如下形式：

能够被写成:

S_i,j表示S矩阵第i行，第j列的元素，S矩阵的优化过程是独立的，

因此，S又能够被写成：

A_j是N×1维行向量。它的第i个元素为

所以，S的最优化公式可以写成：

更新W：与更新S类似，W也是独立于其他变量，因此，W矩阵的第j列能够被表示成：

其中：

利用拉格朗日函数可得：

ψ是拉格朗日乘数，通过对上式W_j求导，并令其为0，最终获得：

图1所示为实验参数设置，对每个数据集，本文将新提出的方法与其他无监督多视图特征选择方法进行比较，其中进行比较的方法包括：LapScor，SPEC，MRSF，AMFS,MVFS和AUMFS。每次利用K-means聚类将实验重复50次，并取其平均值。

参数设置：在执行上述方法时，优化参数α,β,γ的范围是10^-4到10⁴，四个数据集提取特征数量设置为{100，200，300，400，500}。

图2所示为算法评价指标，具体实施方式如下：我们采取两种典型的评价指标:标准化互信息(Normal Mutual Information，NMI)和聚类准确率(Clustering Accuracy，ACC)。ACC和 NMI的值越大，代表特征选择的效果越好，根据文献，ACC与NMI的定义如下：ACC：

其中，N是数据集的类别数；y_i和c_i分别是数据点x_i的真实类别标签和预测类别标签；δ(y_i,c)是一个函数，如果y＝c,则等于1，反之等于0；map(·)是最优映射函数，将每个类别标签映射到Hungarian算法的类别中。

NMI：

其中H(P)和H(Q)分别是P和Q的熵，I(P,Q)是P和Q之间的互信息。对于我们的算法，P和Q分别是K-means聚类结果和真实标签。NMI反映了K-means聚类结果和真实标签之间的一致性。

Claims

1.一种基于自适应相似性的特征选择学习方法，其特征在于：按照以下步骤：

步骤一、采集数据形成数据集，对数据集进行预处理，即将数据集安颜色矩特征，GIST特征，SIFT特征，CENTRIST特征和LBP特征进行分类并提取相应特征值，分类过程采用matlab处理，提取的特征值以.mat形式的文件加以保存；

步骤五、对模型参数进行迭代更新。

2.根据权利要求1所述的一种基于自适应相似性的特征选择学习方法，其特征在于：步骤二中对每个视图进行特征选择的具体方法为：给定训练集X＝[X¹,X²,...,X^V]∈R^N×d,其表示第V个视图的全部特征数据集，X表示样本，X^V∈R^N×dv代表第v个视图的样本，d表示特征维数，d_v表示第v个视图的特征维数，为了选择最具有代表性的特征，首先要利用最小损失函数来使特征间的差距最小化:

s.t.S_j≥0，

其中S_j∈R^N×1表示特征间的相似性，Wj＝[w_j ¹,w_j ²,...,w_j ³]^T∈R^V×1表示第j列相似特征的权重，W＝[W₁,W₂,...,W_N]∈R^V×N表示所有列相似特征的权重，||*||_F表示F范数，S表示相似特征，R表示实数。

3.根据权利要求1所述的一种基于自适应相似性的特征选择学习方法，其特征在于：步骤三中增强算法的鲁棒性的具体方法为：为了更好的区分特征，进一步加强增加矩阵的低秩性，引入了图正则化思想，

公式可以改写成：

s.t.S_j≥0，

F∈R^N×k,F^TF＝I_k

这里的

L_S是相似结构S的拉普拉斯矩阵,S为相似矩阵，D_S表示对角矩阵，α为参数。

4.根据权利要求1所述的一种基于自适应相似性的特征选择学习方法，其特征在于：步骤四中降低噪声、提高了分类模型的准确率的具体方法为：首先采用稀疏回归模型来学习投影矩阵Q，Q∈R^d×k，使得XQ近似的等于F，F是聚类指标，对Q引入了L_1/2范数，L_1/2范数能够选择出更具代表性的特征，减少时间开销，γ是正则化参数，用于控制稀疏表示系数向量Q的稀疏性，最终的公式表现为：

I_k表示单位矩阵，F^T表示F范数的转置。