CN112364902A - 一种基于自适应相似性的特征选择学习方法 - Google Patents
一种基于自适应相似性的特征选择学习方法 Download PDFInfo
- Publication number
- CN112364902A CN112364902A CN202011187744.0A CN202011187744A CN112364902A CN 112364902 A CN112364902 A CN 112364902A CN 202011187744 A CN202011187744 A CN 202011187744A CN 112364902 A CN112364902 A CN 112364902A
- Authority
- CN
- China
- Prior art keywords
- representing
- features
- view
- feature
- feature selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及多视图特征选择领域,一种基于自适应相似性的特征选择学习方法,为解决传统特征选择方法忽略视图内部特征的相关性及不同视图之间的特征关联性问题,提出了一种基于自适应相似性的特征选择学习方法,该方法在特征选择时首先考虑视图内部的特征相关性,对每个视图进行特征选择,同时,通过引入图正则化以充分利用数据的局部几何特性,使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性。另外,引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率。通过与现有的特征方法进行对比分析,提出方法在ACC和NMI上优于其他方法。
Description
技术领域
本发明涉及基于自适应相似性的无监督多视图特征选择,其中联合图正则化与L1/2稀疏范数,属于模式识别领域。
背景技术
近年来,随着大数据时代的到来,不光数据维数在增加,计算量也呈指数倍增长,导致了“维数灾难”。解决这个问题方法之一是降维。降维常用的方法是特征选择,根据所使用数据集的不同来源,特征选择可分为单视图特征选择方法与多视图特征选择方法。较早的特征选择方法大多使用单视图特征,但目前单视图特征已经满足不了日常生活的需要,所以高维度的多视图特征被广泛用于各种研究领域中,例如多媒体计算,机器学习和数据挖掘。多视图特征可以从不同角度更精确、更全面地表征数据,其主要问题在于怎样有效地将多视图特征的多样性和一致性结合起来识别特征,以此来保留原始特征的一些关键特征。但是高维多视图特征将不可避免地产生昂贵的计算成本及大量的存储成本。这个问题的解决方法在于将多视图特征整合,并将多视图特征看成单视图特征进行特征选择。代表性的方法包括拉普拉斯分数(LapScor),光谱特征选择(SPEC),最小冗余谱特征选择算法(MRSF)等。尽管这些方法取得了一定的成功,但这类方法忽略了视图内部间的特征相关性和不同视图特征间的关联性,使特征选择的性能受到了影响。
发明内容
本发明所要解决的技术问题是:如何解决背景技术中的相关问题,使得同类别特征之间的联系更加密切,从而增加算法的鲁棒性。
本发明所采用的技术方案是:一种基于自适应相似性的特征选择学习方法,按照以下步骤:
步骤一、采集数据形成数据集,对数据集进行预处理,即将数据集安颜色矩特征,GIST特征,SIFT特征,CENTRIST特征和LBP特征进行分类并提取相应特征值,分类过程采用matlab 处理,提取的特征值以.mat形式的文件加以保存;
步骤二、由于数据常常具有多个视角,形成多视图数据,特征选择时首先考虑视图与视图的特征相关性,对每个视图进行特征选择;
步骤三、通过引入图正则化以充分利用数据的局部几何特性,使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性;
步骤四、引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率;
步骤五、对模型参数进行迭代更新。
步骤二中对每个视图进行特征选择的具体方法为:给定训练集 X=[X1,X2,...,XV]∈RN×d,其表示第V个视图的全部特征数据集,X表示样本,XV∈RN×dv代表第v个视图的样本,d表示特征维数,dv表示第v个视图的特征维数,为了选择最具有代表性的特征,首先要利用最小损失函数来使特征间的差距最小化:
其中Sj∈RN×1表示特征间的相似性,Wj=[wj 1,wj 2,...,wj 3]T∈RV×1表示第j列相似特征的权重,W=[W1,W2,...,WN]∈RV×N表示所有列相似特征的权重,||*||F表示F范数。S表示相似矩阵,R表示实数。步骤三中增强算法的鲁棒性的具体方法为:为了更好的区分特征,进一步加强增加矩阵的低秩性,引入了图正则化思想,
公式可以改写成:
步骤四中降低噪声、提高了分类模型的准确率的具体方法为:首先采用稀疏回归模型来学习投影矩阵Q,Q∈Rd×k,使得XQ近似的等于F,F是聚类指标。为了选择特征,本文还对Q引入了L1/2范数,提出的L1/2范数能够选择出更具代表性的特征,减少时间开销。γ是正则化参数,用于控制稀疏表示系数向量Q的稀疏性。最终的公式表现为:
Ik表示单位矩阵,FT表示F范数的转置。
本发明的有益效果是:本发明将自适应相似性应用到无监督多视图特征选择中,并考虑视图内部特征的相关性及不同视图之间的特征关联性,同时,通过引入图正则化以利用数据的局部几何特性,使得同类别特征之间的联系更加密切,从而增加算法的鲁棒性。为了降低特定视图相似结构中潜在的数据噪声对特征选择的影响,本文引入L1/2稀疏范数在降低噪声的同时提高分类模型的准确率。
附图说明
图1为参数选择;
图2为不同算法的ACC对比图;a为不同算法对MSRC-v1数据集的ACC对比图,b为不同算法对Outdoor Scene数据集的ACC对比图,c为不同算法对Handwritten Numeral数据集的ACC 对比图,d为不同算法对YouTube数据集的ACC对比图;
图3为不同算法的NMI对比图;a为不同算法对MSRC-v1数据集的NMI对比图,b为不同算法对Outdoor Scene数据集的NMI对比图,c为不同算法对Handwritten Numeral数据集的 NMI对比图,图3d为不同算法对YouTube数据集的NMI对比图。
具体实施方式
下面结合附图对本发明做详细的说明。
本实施方法所述基于自适应相似性的无监督多视图特征选择,并结合图正则化与L1/2稀疏范数,它包括以下步骤:
步骤一:采集数据集,对数据集进行预处理:对于每个数据集,我们将数据集按类别分类,然后再从每张图片中提取五类视觉特征,其中包括颜色矩特征,GIST特征,SIFT特征, CENTRIST特征和LBP特征。再用matlab处理过程中,需要将提取出的特征改为.mat形式的文件加以应用。
步骤二:由于数据常常具有多个视角,形成多视图数据,而特征选择时首先考虑视图与视图的特征相关性,对每个视图进行特征选择。
步骤三:通过引入图正则化以充分利用数据的局部几何特性,使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性。
步骤四:引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率。
步骤五:对模型参数进行迭代更新。
步骤二中对每个视图进行特征选择的具体方法为:给定训练集 X=[X1,X2,...,XV]∈RN×d,其表示第V个视图的全部特征数据集,X表示样本,XV∈RN×dv代表第v个视图的样本,d表示特征维数,dv表示第v个视图的特征维数,为了选择最具有代表性的特征,本文首先要利用最小损失函数来使特征间的差距最小化:
公式可以改写成:
步骤四中降低噪声、提高了分类模型的准确率的具体方法为:首先,采用稀疏回归模型来学习投影矩阵Q,Q∈Rd×k,使得XQ近似的等于F,F是聚类指标。为了选择特征,本文还对Q引入了L1/2范数,提出的L1/2范数能够选择出更具代表性的特征,减少时间开销。γ是正则化参数,用于控制稀疏表示系数向量Q的稀疏性。最终的公式表现为:
步骤五中对模型参数进行迭代更新:
更新Q:固定F,S和W,使Q最小化,Q的优化可以推导为:
对于L1/2稀疏约束项,我们参照已有的添加稀疏约束的方法:
更新F:固定其他变量,F的优化可以推导为:
图正则化思想为了在低维空间保持实例的原始结构,需要用下面的式子对低维表示的平滑性进行度量:
对R进行变换,可得:
我们对F进行更新时,需要考虑Tr(FLFT),我们根据文献[8]中的梯度下降的方法对F进行优化,设更新H的目标函数为O,有如下的加法更新规则:我们最终可得公式:
其中δij是步长参数.
令δij=-fij/(XTXF+FDT)i,j可得:
根据文献[7]最终可得到更新规则如下:
更新S:固定其他变量,S的优化能够写成如下形式:
能够被写成:
Si,j表示S矩阵第i行,第j列的元素,S矩阵的优化过程是独立的,
因此,S又能够被写成:
更新W:与更新S类似,W也是独立于其他变量,因此,W矩阵的第j列能够被表示成:
利用拉格朗日函数可得:
ψ是拉格朗日乘数,通过对上式Wj求导,并令其为0,最终获得:
图1所示为实验参数设置,对每个数据集,本文将新提出的方法与其他无监督多视图特征选择方法进行比较,其中进行比较的方法包括:LapScor,SPEC,MRSF,AMFS,MVFS和AUMFS。每次利用K-means聚类将实验重复50次,并取其平均值。
参数设置:在执行上述方法时,优化参数α,β,γ的范围是10-4到104,四个数据集提取特征数量设置为{100,200,300,400,500}。
图2所示为算法评价指标,具体实施方式如下:我们采取两种典型的评价指标:标准化互信息(Normal Mutual Information,NMI)和聚类准确率(Clustering Accuracy,ACC)。ACC和 NMI的值越大,代表特征选择的效果越好,根据文献,ACC与NMI的定义如下:ACC:
其中,N是数据集的类别数;yi和ci分别是数据点xi的真实类别标签和预测类别标签;δ(yi,c)是一个函数,如果y=c,则等于1,反之等于0;map(·)是最优映射函数,将每个类别标签映射到Hungarian算法的类别中。
NMI:
其中H(P)和H(Q)分别是P和Q的熵,I(P,Q)是P和Q之间的互信息。对于我们的算法,P和Q分别是K-means聚类结果和真实标签。NMI反映了K-means聚类结果和真实标签之间的一致性。
Claims (4)
1.一种基于自适应相似性的特征选择学习方法,其特征在于:按照以下步骤:
步骤一、采集数据形成数据集,对数据集进行预处理,即将数据集安颜色矩特征,GIST特征,SIFT特征,CENTRIST特征和LBP特征进行分类并提取相应特征值,分类过程采用matlab处理,提取的特征值以.mat形式的文件加以保存;
步骤二、由于数据常常具有多个视角,形成多视图数据,特征选择时首先考虑视图与视图的特征相关性,对每个视图进行特征选择;
步骤三、通过引入图正则化以充分利用数据的局部几何特性,使同类别特征之间的联系更加紧密以达到增强算法的鲁棒性;
步骤四、引入L1/2稀疏范数在有效降低噪声的同时提高了分类模型的准确率;
步骤五、对模型参数进行迭代更新。
2.根据权利要求1所述的一种基于自适应相似性的特征选择学习方法,其特征在于:步骤二中对每个视图进行特征选择的具体方法为:给定训练集X=[X1,X2,...,XV]∈RN×d,其表示第V个视图的全部特征数据集,X表示样本,XV∈RN×dv代表第v个视图的样本,d表示特征维数,dv表示第v个视图的特征维数,为了选择最具有代表性的特征,首先要利用最小损失函数来使特征间的差距最小化:
其中Sj∈RN×1表示特征间的相似性,Wj=[wj 1,wj 2,...,wj 3]T∈RV×1表示第j列相似特征的权重,W=[W1,W2,...,WN]∈RV×N表示所有列相似特征的权重,||*||F表示F范数,S表示相似特征,R表示实数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011187744.0A CN112364902B (zh) | 2020-10-30 | 2020-10-30 | 一种基于自适应相似性的特征选择学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011187744.0A CN112364902B (zh) | 2020-10-30 | 2020-10-30 | 一种基于自适应相似性的特征选择学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364902A true CN112364902A (zh) | 2021-02-12 |
CN112364902B CN112364902B (zh) | 2022-11-15 |
Family
ID=74513833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011187744.0A Active CN112364902B (zh) | 2020-10-30 | 2020-10-30 | 一种基于自适应相似性的特征选择学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364902B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177604A (zh) * | 2021-05-14 | 2021-07-27 | 东北大学 | 一种基于改进l1正则化和聚类的高维数据特征选择方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213153A1 (en) * | 2016-01-22 | 2017-07-27 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for embedded unsupervised feature selection |
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
CN109685093A (zh) * | 2018-09-19 | 2019-04-26 | 合肥工业大学 | 无监督的自适应特征选择方法 |
US20190207960A1 (en) * | 2017-12-29 | 2019-07-04 | DataVisor, Inc. | Detecting network attacks |
CN110689485A (zh) * | 2019-10-14 | 2020-01-14 | 中国空气动力研究与发展中心超高速空气动力研究所 | 一种应用于大型压力容器红外无损检测的sift图像拼接方法 |
CN111325275A (zh) * | 2020-02-20 | 2020-06-23 | 南京审计大学 | 基于低秩二维局部鉴别图嵌入的鲁棒图像分类方法及装置 |
CN111340106A (zh) * | 2020-02-25 | 2020-06-26 | 西北工业大学 | 基于图学习和视图权重学习的无监督多视图特征选择方法 |
CN111652265A (zh) * | 2020-04-13 | 2020-09-11 | 华东交通大学 | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 |
-
2020
- 2020-10-30 CN CN202011187744.0A patent/CN112364902B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213153A1 (en) * | 2016-01-22 | 2017-07-27 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for embedded unsupervised feature selection |
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
US20190207960A1 (en) * | 2017-12-29 | 2019-07-04 | DataVisor, Inc. | Detecting network attacks |
CN109685093A (zh) * | 2018-09-19 | 2019-04-26 | 合肥工业大学 | 无监督的自适应特征选择方法 |
CN110689485A (zh) * | 2019-10-14 | 2020-01-14 | 中国空气动力研究与发展中心超高速空气动力研究所 | 一种应用于大型压力容器红外无损检测的sift图像拼接方法 |
CN111325275A (zh) * | 2020-02-20 | 2020-06-23 | 南京审计大学 | 基于低秩二维局部鉴别图嵌入的鲁棒图像分类方法及装置 |
CN111340106A (zh) * | 2020-02-25 | 2020-06-26 | 西北工业大学 | 基于图学习和视图权重学习的无监督多视图特征选择方法 |
CN111652265A (zh) * | 2020-04-13 | 2020-09-11 | 华东交通大学 | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 |
Non-Patent Citations (7)
Title |
---|
HONGFU LIU等: "Robust Multi-View Feature Selection", 《2016 IEEE 16TH INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 * |
XIAOHONG HAN等: "A new graph-preserving unsupervised feature selection embedding LLE with low-rank constraint and feature-level representation", 《ARTIFCIAL INTELLIGENCE REVIEW》 * |
XIAOHUI CHENG等: "A novel low-rank hypergraph feature selection for multi-view classification", 《NEUROCOMPUTING》 * |
YINFU FENG等: "Adaptive Unsupervised Multi-view Feature Selection for Visual Concept Recognition", 《ASIAN CONFERENCE ON COMPUTER VISION 》 * |
周楠: "基于稀疏和信息论的无监督特征学习算法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
李金霞等: "改进的局部和相似性保持特征选择算法", 《计算机科学》 * |
祖辰: "基于稀疏结构特征学习的脑图像分析及其应用研究", 《中国博士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177604A (zh) * | 2021-05-14 | 2021-07-27 | 东北大学 | 一种基于改进l1正则化和聚类的高维数据特征选择方法 |
CN113177604B (zh) * | 2021-05-14 | 2024-04-16 | 东北大学 | 一种基于改进l1正则化和聚类的高维数据特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112364902B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN109815357B (zh) | 一种基于非线性降维及稀疏表示的遥感图像检索方法 | |
Xie et al. | Texture classification via patch-based sparse texton learning | |
CN109543723B (zh) | 一种鲁棒的图像聚类方法 | |
CN107633065B (zh) | 一种基于手绘草图的识别方法 | |
CN111191698B (zh) | 基于非负矩阵分解和模糊c均值的聚类方法 | |
CN109670418B (zh) | 结合多源特征学习和组稀疏约束的无监督物体识别方法 | |
Mishra et al. | Image mining in the context of content based image retrieval: a perspective | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
Asadi Amiri et al. | A novel content-based image retrieval system using fusing color and texture features | |
CN112364902B (zh) | 一种基于自适应相似性的特征选择学习方法 | |
Kumar et al. | Efficient deep feature based semantic image retrieval | |
Pavithra et al. | An efficient seed points selection approach in dominant color descriptors (DCD) | |
Gao et al. | Dimensionality reduction of SPD data based on Riemannian manifold tangent spaces and local affinity | |
Lu et al. | Image retrieval based on incremental subspace learning | |
CN114140657A (zh) | 一种基于多特征融合的图像检索方法 | |
CN110852304B (zh) | 基于深度学习方法的高光谱数据处理方法 | |
Jin et al. | Ensemble based extreme learning machine for cross-modality face matching | |
Ahmad et al. | SSH: Salient structures histogram for content based image retrieval | |
Adnan et al. | Automated image annotation with novel features based on deep ResNet50-SLT | |
CN111783615B (zh) | 基于加权块张量稀疏图映射的非约束人脸识别方法 | |
Yu et al. | A multi-view fusion method via tensor learning and gradient descent for image features | |
Feng et al. | Discriminative dictionary learning based on supervised feature selection for image classification | |
Chang et al. | A Robust Color Image Quantization Algorithm Based on Knowledge Reuse of K-Means Clustering Ensemble. | |
CN112528061B (zh) | 一种基于选择性卷积描述符聚合的多目标图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |