CN113469209A - 一种基于噪声抑制的无监督数据降维方法 - Google Patents
一种基于噪声抑制的无监督数据降维方法 Download PDFInfo
- Publication number
- CN113469209A CN113469209A CN202011567582.3A CN202011567582A CN113469209A CN 113469209 A CN113469209 A CN 113469209A CN 202011567582 A CN202011567582 A CN 202011567582A CN 113469209 A CN113469209 A CN 113469209A
- Authority
- CN
- China
- Prior art keywords
- matrix
- objective function
- elements
- calculating
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于噪声抑制的无监督数据降维方法,首先初始化全局散度矩阵、图矩阵、投影矩阵、拉普拉斯矩阵及正则化参数,然后更新矩阵F,再更新投影矩阵P,重复迭代直到目标函数收敛,实现无监督数据降维。本发明减小了计算复杂度,加快了运算时间,可以实现对高位数据快速、有效的降维。
Description
技术领域
本发明属于机器学习技术领域,具体涉及一种无监督数据降维方法。
背景技术
随着信息获取技术的不断发展,数据拥有了更多的样本数量和特征数量。然而,这些大量的特征并不是完全独立的,其中存在大量的噪声和冗余信息。为了剔除冗余、噪声信息,保留最主要的数据特征,以及缓解高维度带来的“维数灾难”的问题,研究人员提出了越来越多的数据降维方法。作为机器学习领域的研究热点之一,这些数据降维方法被广泛的应用到了人脸识别、图像压缩、高光谱波段选择和医学影像处理等领域。
周志华(周志华,机器学习[M].清华大学出版社,2016,P225-241)在《机器学习》书中介绍了基于流形学习的降维方法。这种降维方法借鉴了拓扑流形的概念,在高维空间中嵌入低维流型,则数据在高维空间的分布虽然看上去更加复杂,但是在局部仍然具备欧氏空间的性质。因此,这种方法先在局部建立映射关系,然后推广到全局。但是由于此方法在建立模型的过程是将局部的映射关系推广到全局,因此这种方法可能把噪声的局部结构也学习到投影矩阵中,从而导致了将位置后无法有效的去除噪声数据,影响了后续的数据处理。
发明内容
为了克服现有技术的不足,本发明提供了一种基于噪声抑制的无监督数据降维方法,首先初始化全局散度矩阵、图矩阵、投影矩阵、拉普拉斯矩阵及正则化参数,然后更新矩阵F,再更新投影矩阵P,重复迭代直到目标函数收敛,实现无监督数据降维。本发明减小了计算复杂度,加快了运算时间,可以实现对高位数据快速、有效的降维。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:初始化;
其中σi=||xi-xK||2,σj=||xj-xK||2,xK为样本点xi或xj的第K个近邻;
其中,1为n×1的列向量,向量的元素全为1;
步骤1-5:定义矩阵B=λ(L+λI)-1,λ为正则化参数,λ>0;
步骤2:给定目标函数:
对式(1)的目标函数学习得到投影矩阵P,通过变换Y=PTX,将原始d维的数据投影到d′维的子空间中;
对式(1)的目标函数进行变换:
得到新的目标函数:
s.t.PTP=I,||P||2,0=k
采用交替优化算法求解式(2)的目标函数,如后续步骤;
步骤3:固定P更新F;
将目标函数转化为:
将式(3)对F求偏导,并令结果为0,得到:
得到F的更新策略如下:
F=BXTP (4)
步骤4:固定F更新P;
将目标函数变为:
s.t.PTP=I,||P||2,0=k
将式(4)代入式(5),得:
目标函数变为:
s.t.PTP=I,||P||2,0=k
进一步,目标函数转化为如下形式:
令A=St-αC,得到:
步骤5:求解式(6)如下:
④在Pt的主对角线上选取最大的k个元素,这k个元素所在行的值保持不变,为非零行;其余元素所在行所有元素的值清零;
⑥令t加1,循环执行②-⑤步直到式(6)收敛;
优选地,所述K=7。
本发明的有益效果如下:
2、本发明采用了无监督的方法进行数据降维,而且在迭代求解的过程中无需更新图矩阵S,因此减小了计算复杂度,加快了运算时间。
3、本发明无需用到标签数据,减小了大量的获取标签数据所用到的时间,可以实现对高位数据快速、有效的降维。
附图说明
图1是本发明方法的流程图。
图2是本发明方法在Wine数据集上不同子空间维度上的检测结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
针对目前已有的有监督数据降维算法需要耗费大量的时间获取数据标签,无监督数据降维方法计算复杂度高,以及无法针对性的解决噪声对数据降维影响,本发明采用一种基于噪声抑制的无监督流形学习降维算法,在数据降维的同时,去除噪声对主要信息的干扰,保留了数据最主要的信息。
如图1所示,一种基于噪声抑制的无监督数据降维方法,包括以下步骤:
步骤1:初始化;
其中σi=||xi-xK||2,σj=||xj-xK||2,xK为样本点xi或xj的第7个近邻;
其中,1为n×1的列向量,向量的元素全为1;
步骤1-5:定义矩阵B=λ(L+λI)-1,λ为正则化参数,λ>0;
步骤2:给定目标函数:
对式(1)的目标函数学习得到投影矩阵P,通过变换Y=PTX,将原始d维的数据投影到d′维的子空间中;
对式(1)的目标函数进行变换:
得到新的目标函数:
s.t.PTP=I,||P||2,0=k
采用交替优化算法求解式(2)的目标函数,如后续步骤;
步骤3:固定P更新F;
将目标函数转化为:
将式(3)对F求偏导,并令结果为0,得到:
得到F的更新策略如下:
F=BXTP (4)
步骤4:固定F更新P;
将目标函数变为:
s.t.PTP=I,||P||2,0=k
将式(4)代入式(5),得:
目标函数变为:
s.t.PTP=I,||P||2,0=k
进一步,目标函数转化为如下形式:
令A=St-αC,得到:
步骤5:求解式(6)如下:
④在Pt的主对角线上选取最大的k个元素,这k个元素所在行的值保持不变,为非零行;其余元素所在行所有元素的值清零;
⑥令t加1,循环执行②-⑤步直到式(6)收敛;
具体实施例:
如图2所示,本发明提出的方法与对比算法主成分分析(Principal ComponentAnalysis,PCA)、核主成分分析(Kernel Principal Component Analysis,KPCA)在Wine数据集上的结果。Wine数据集一共178个样本,维度为13,总共3类。以上三种降维方法把原始数据降维到子空间之后会通过K-means进行聚类,聚类之后得到的标签和样本真实的标签进行对比得到整体分类精确度为评价指标,整体分类精确度取值为0-1,数值越大,证明降维方法越好。如下图所示,本发明提出的方法在子空间维度上的整体分类精确度都要高于对比算法,这也从实验方面证明了本方法在降维方面的有效性。
Claims (2)
1.一种基于噪声抑制的无监督数据降维方法,其特征在于,包括以下步骤:
步骤1:初始化;
其中σi=||xi-xK||2,σj=||xj-xK||2,xK为样本点xi或xj的第K个近邻;
其中,1为n×1的列向量,向量的元素全为1;
步骤1-5:定义矩阵B=λ(L+λI)-1,λ为正则化参数,λ>0;
步骤2:给定目标函数:
对式(1)的目标函数学习得到投影矩阵P,通过变换Y=PTX,将原始d维的数据投影到d′维的子空间中;
对式(1)的目标函数进行变换:
得到新的目标函数:
采用交替优化算法求解式(2)的目标函数,如后续步骤;
步骤3:固定P更新F;
将目标函数转化为:
将式(3)对F求偏导,并令结果为0,得到:
得到F的更新策略如下:
F=BXTP (4)
步骤4:固定F更新P;
将目标函数变为:
将式(4)代入式(5),得:
目标函数变为:
s.t.PTP=I,||P||2,0=k
进一步,目标函数转化为如下形式:
令A=St-αC,得到:
步骤5:求解式(6)如下:
④在Pt的主对角线上选取最大的k个元素,这k个元素所在行的值保持不变,为非零行;其余元素所在行所有元素的值清零;
⑥令t加1,循环执行②-⑤步直到式(6)收敛;
2.根据权利要求1所述的一种基于噪声抑制的无监督数据降维方法,其特征在于,所述K=7。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567582.3A CN113469209A (zh) | 2020-12-26 | 2020-12-26 | 一种基于噪声抑制的无监督数据降维方法 |
PCT/CN2021/090832 WO2022134420A1 (zh) | 2020-12-26 | 2021-04-29 | 一种基于噪声抑制的无监督数据降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567582.3A CN113469209A (zh) | 2020-12-26 | 2020-12-26 | 一种基于噪声抑制的无监督数据降维方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113469209A true CN113469209A (zh) | 2021-10-01 |
Family
ID=77868517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011567582.3A Pending CN113469209A (zh) | 2020-12-26 | 2020-12-26 | 一种基于噪声抑制的无监督数据降维方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113469209A (zh) |
WO (1) | WO2022134420A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841214A (zh) * | 2022-05-18 | 2022-08-02 | 杭州电子科技大学 | 基于半监督判别投影的脉搏数据分类方法及装置 |
CN114863151A (zh) * | 2022-03-20 | 2022-08-05 | 西北工业大学 | 一种基于模糊理论的图像降维聚类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049632A (zh) * | 2011-10-13 | 2013-04-17 | 陈红兵 | 一种针对非线性数据的无监督降维方法 |
US9519859B2 (en) * | 2013-09-06 | 2016-12-13 | Microsoft Technology Licensing, Llc | Deep structured semantic model produced using click-through data |
CN105160623B (zh) * | 2015-08-17 | 2018-05-25 | 河南科技学院 | 基于组块低秩张量模型的无监督高光谱数据降维方法 |
CN109447116A (zh) * | 2018-09-20 | 2019-03-08 | 中山大学 | 一种基于低秩约束图谱学习的无监督特征选择算法 |
CN111476272B (zh) * | 2020-03-11 | 2023-02-21 | 重庆邮电大学 | 一种基于结构约束对称低秩保留投影的降维方法 |
-
2020
- 2020-12-26 CN CN202011567582.3A patent/CN113469209A/zh active Pending
-
2021
- 2021-04-29 WO PCT/CN2021/090832 patent/WO2022134420A1/zh active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863151A (zh) * | 2022-03-20 | 2022-08-05 | 西北工业大学 | 一种基于模糊理论的图像降维聚类方法 |
CN114863151B (zh) * | 2022-03-20 | 2024-02-27 | 西北工业大学 | 一种基于模糊理论的图像降维聚类方法 |
CN114841214A (zh) * | 2022-05-18 | 2022-08-02 | 杭州电子科技大学 | 基于半监督判别投影的脉搏数据分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022134420A1 (zh) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Tensor ring decomposition with rank minimization on latent space: An efficient approach for tensor completion | |
WO2021003951A1 (zh) | 一种基于标签约束弹性网图模型的高光谱图像分类方法 | |
Feng et al. | Adaptive unsupervised multi-view feature selection for visual concept recognition | |
Kong et al. | Spectral–spatial feature extraction for HSI classification based on supervised hypergraph and sample expanded CNN | |
Ou et al. | Robust discriminative nonnegative dictionary learning for occluded face recognition | |
US20150104102A1 (en) | Semantic segmentation method with second-order pooling | |
Hu et al. | Semi-supervised tensor-based graph embedding learning and its application to visual discriminant tracking | |
Yang et al. | Discriminative analysis-synthesis dictionary learning for image classification | |
CN111695456B (zh) | 一种基于主动判别性跨域对齐的低分辨人脸识别方法 | |
US20070098255A1 (en) | Image processing system | |
Zhao et al. | Global-and-local-structure-based neural network for fault detection | |
CN108960422B (zh) | 一种基于主成分分析的宽度学习方法 | |
Ou et al. | Object tracking based on online representative sample selection via non-negative least square | |
CN112528928A (zh) | 一种基于自注意力深度网络的商品识别方法 | |
Deng et al. | Invariant subspace learning for time series data based on dynamic time warping distance | |
CN113469209A (zh) | 一种基于噪声抑制的无监督数据降维方法 | |
CN111695455B (zh) | 一种基于耦合判别流形对齐的低分辨人脸识别方法 | |
CN110866439A (zh) | 基于多特征学习及超像素核稀疏表示的高光谱图像联合分类方法 | |
He et al. | Novel discriminant locality preserving projection integrated with Monte Carlo sampling for fault diagnosis | |
Song et al. | MPPCANet: A feedforward learning strategy for few-shot image classification | |
CN111325275A (zh) | 基于低秩二维局部鉴别图嵌入的鲁棒图像分类方法及装置 | |
Cao et al. | Bayesian correlation filter learning with Gaussian scale mixture model for visual tracking | |
Ma et al. | Spectral correlation-based diverse band selection for hyperspectral image classification | |
Dong et al. | Orthonormal dictionary learning and its application to face recognition | |
Dong et al. | Occlusion expression recognition based on non-convex low-rank double dictionaries and occlusion error model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |