CN115169436A - 一种基于模糊局部判别分析的数据降维方法 - Google Patents
一种基于模糊局部判别分析的数据降维方法 Download PDFInfo
- Publication number
- CN115169436A CN115169436A CN202210673065.7A CN202210673065A CN115169436A CN 115169436 A CN115169436 A CN 115169436A CN 202210673065 A CN202210673065 A CN 202210673065A CN 115169436 A CN115169436 A CN 115169436A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- dimension reduction
- fuzzy
- discriminant analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于机器学习领域,涉及一种基于模糊局部判别分析的数据降维方法。
背景技术
随着计算机科学的发展,人们从各领域获取的原始数据存在维度高、冗余度高和分布复杂等特征,不仅计算效率低,还会导致“维数灾难”问题。数据降维方法通过将原始高维数据映射至低维空间,并保留原始空间的结构特征,达到减轻计算负担和提高泛化性能的效果。目前,数据降维技术已广泛应用于计算机视觉、模式识别和医疗等领域。近来,基于局部判别分析的有监督数据降维方法由于对有噪声数据和非高斯分布数据具有鲁棒性,能同时探究样本的局部和全局结构,相比于传统的线性判别分析方法(Linear DiscriminantAnalysis,LDA)具有更好的实践推广性能,受到研究人员的极大关注,并在高光谱图像处理、遥感图像分类等场景取得成功应用。
姚裕等人(《鲁棒的非负监督低秩鉴别嵌入算法》,智能科学与技术学报,2021,3(03):342-350.)将散度矩阵的判别信息与非负矩阵分解相结合,保留了数据的局部和全局特征,并通过L1范数约束增强了噪声的稀疏性和鲁棒性。此外,该方法还引入了图嵌入理论与低秩表示以表征局部信息,避免了人工选择近邻参数的影响。然而,该模型本身是一个非确定性多项式(Non-deterministic Polynomial,NP)问题,在求解时将其近似约化为凸优化问题,难以得到准确的最优解。另外整个算法流程需要交替迭代优化七个变量,且模型参数复杂,计算难度大,无法在实际场景中大量应用。
现有的局部判别分析方法大多通过高斯核函数或k近邻方法在原始空间构造所有样本点之间的相似图,不仅参数调节困难,计算复杂度高,还容易受到原始空间中噪声和冗余特征的干扰。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于模糊局部判别分析的数据降维方法,降低计算复杂度和参数冗余度,同时保留每个类别的聚类结构。该算法在最优子空间中对每个类别进行模糊聚类,以适应同一类别的多模态数据,克服噪声和冗余特征的影响。此外,通过引入正则化最大总体散度,对投影矩阵施加正交约束,增强算法对数据的全局信息表征能力。
技术方案
一种基于模糊局部判别分析的数据降维方法,其特征在于步骤如下:
步骤1、对数据矩阵和标签矩阵进行数据预处理:
步骤2、建立基于模糊局部判别分析的数据降维模型:
其中,ck表示第k类的聚类中心数量。表示低维投影空间的聚类中心,满足矩阵为原始空间的聚类中心矩阵,每个表示一个小类在原始空间的聚类中心坐标,为聚类中心总数。St为总体散度矩阵,当数据矩阵完成中心化时St=XXT。正整数q是模糊聚类参数,P1n=1n表示P中元素为0或且每个样本点对应q个模糊聚类中心显然,对于所有类别k,q<ck。λ是平衡参数,其取值一般较大,目的是使样本点间尽可能分开,以便模型更准确地学习样本的局部特征;
步骤3、求解数据降维模型:
①固定W和P,优化M
②固定W和M,优化P
③固定M和P,优化W
有益效果
本发明提出的一种基于模糊局部判别分析的数据降维方法,构建数据矩阵、标签矩阵并进行数据预处理,建立基于模糊局部判别分析的数据降维模型,求解数据降维模型,取最后一次迭代得到的矩阵作为最终投影矩阵,则降维后的数据矩阵为将去中心化得到最终的投影结果Z。本发明降低计算复杂度和参数冗余度,同时保留每个类别的聚类结构。该算法在最优子空间中对每个类别进行模糊聚类,以适应同一类别的多模态数据,克服噪声和冗余特征的影响。此外,通过引入正则化最大总体散度,对投影矩阵施加正交约束,增强算法对数据的全局信息表征能力。
采用本发明的方法有益效果主要包括:
(1)提出了一种新的类内散度矩阵计算方法,对每类数据引入小类模糊聚类中心来简化类内散度矩阵的计算,减小了数据降维的计算复杂度。
(2)将低维空间的全局散度矩阵作为平衡项,在最小化子空间每类样本间距离的同时,所有样本点能尽可能分散开,使模型能自适应地学习样本点的不同局部特征,不仅避免了平凡解,还提高了数据降维的学习性能。
(3)对隶属度矩阵施加离散约束进行模糊聚类,并在低维空间中自适应迭代更新,为每个样本自动分配最佳的q个聚类中心,减少了原始空间噪声的影响。
附图说明
图1是算法流程图
图2是Yale_32×32人脸数据集上的灰度图像
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明提出了一种基于模糊局部判别分析的数据降维方法,其具体步骤如下:
步骤1:构建数据矩阵、标签矩阵并进行数据预处理。
假设原始数据矩阵为其中n为样本点的数量,d为样本点的维度。标签向量为其中元素yi代表类别序号,通常为1至c之间的整数,c为样本点的类别数。为后续数据处理方便,根据类别顺序将数据矩阵重新排列,并进行中心化处理,使得数据矩阵行和为0,即X1n=0,其中为元素全为1的列向量。记录处理后的数据矩阵为X。
步骤2:建立基于模糊局部判别分析的数据降维模型。
步骤1中数据矩阵X已按照标签顺序排列,即X=[X(1),X(2),...,X(c)],其中表示由第i类样本构成的数据矩阵,ni表示第i类的样本个数。再设投影矩阵为d1为低维空间的维度。采用以下模型来探索每类中数据点之间的局部关系:
与传统LDA方法相比,式(1)研究了每个类别数据点之间的分布,能更好地学习样本的局部结构。此外,通过施加正交约束使投影向量线性无关,且数据重构更为简单。然而,该模型依赖于每类中所有数据对的距离,时间复杂度高,容易导致模型冗余,因此本发明采用基于子空间模糊聚类的方法改善该模型,同时引入子空间总体散度矩阵作为平衡项避免平凡解,得到如下目标函数:
其中,ck表示第k类的聚类中心数量。表示低维投影空间的聚类中心,满足矩阵为原始空间的聚类中心矩阵,每个表示一个小类在原始空间的聚类中心坐标,为聚类中心总数。St为总体散度矩阵,当数据矩阵完成中心化时St=XXT。正整数q是模糊聚类参数,P1n=1n表示P中元素为0或且每个样本点对应q个模糊聚类中心显然,对于所有类别k,q<ck。λ是平衡参数,其取值一般较大,目的是使样本点间尽可能分开,以便模型更准确地学习样本的局部特征。
步骤3:求解数据降维模型。
目标函数(2)共有3个优化变量,采用交替迭代方法优化求解。首先根据约束条件进行初始化,得到任意单位正交矩阵W0和隶属度矩阵P0。然后进行迭代优化,具体步骤如下所示:
①固定W和P,优化M。
此时仅有一个变量M,优化函数为:
由于每个类别的数据相互独立,可以分别进行优化,得到下式:
可得:
②固定W和M,优化P。
此时仅有P为变量,目标函数为:
③固定M和P,优化W。
该情况下的目标函数为:
根据拉普拉斯矩阵的嵌入表达,将式(12)的第一项转化为矩阵迹的形式,转换后上式变为:
度矩阵为:
则拉普拉斯矩阵LS由公式LS=DS-S计算得到。式(13)可等价转化为:
本发明实施例基本流程图如图1所示。下面以Yale_32×32人脸数据集应用至数据降维问题为例介绍具体实施方式,包括以下步骤:
步骤1:构建数据矩阵、标签矩阵并进行数据预处理。
获取Yale_32×32人脸图像数据集,图像个数n=165,图像分辨率为32×32,将每张图片拉长为d=1024维度的向量,一共有c=15类。由此得到原始数据矩阵为标签向量为元素yi(i=1,2,...,165)为1到15之间的整数,代表样本类别。将样本矩阵中的数据点按照类别顺序排列并进行中心化处理,记录处理后的数据矩阵为X。
步骤2:建立基于模糊局部判别分析的数据降维模型。
数据矩阵X按照标签顺序排列为X=[X(1),X(2),...,X(c)],其中表示由第i类样本构成的数据矩阵,ni表示第i类的样本个数,本例中ni均为13。投影矩阵为d1为低维空间的维度。模型的目标函数为:
其中,ck表示第k类的聚类中心数量,一般取值为2至5之间的整数。St为总体散度矩阵,当数据矩阵完成中心化时St=XXT。正整数q一般设置为2或3(q<ck)。λ是平衡参数,可以设置为2。
步骤3:求解数据降维模型。
目标函数(17)共有3个优化变量,采用交替迭代方法优化求解。首先进行初始化得到任意单位正交矩阵W0和隶属度矩阵P0,然后进行迭代优化,具体步骤如下所示:①固定W和P,优化M。
此时仅有一个变量M,优化函数为:
由于每个类别的数据相互独立,可以分别进行优化,得到下式:
可得:
对每个类别执行相同的操作,分别求得M(1),M(2),...,M(15),最终合并得到所有子空间聚类中心矩阵M=[M(1),M(2),...,M(15)]。
②固定W和M,优化P。
此时仅有P为变量,目标函数为:
首先只考虑第k类数据,式(22)转化为对P(k)进行分别优化,其向量形式表示为:
③固定M和P,优化W。
该情况下的目标函数为:
式(26)可等价转化为:
其中LS是拉普拉斯矩阵,表达式为LS=DS-S,其中:
至此,三个变量M、P和W更新完毕,接下来重新按照步骤3进行下一次迭代计算,直到目标函数值收敛(取偏差值ε=10-4)。取最后一次迭代得到的矩阵作为最终投影矩阵W。
步骤4:对得到的低维结果进行分类和识别。
Claims (1)
1.一种基于模糊局部判别分析的数据降维方法,其特征在于步骤如下:
步骤1、对数据矩阵和标签矩阵进行数据预处理:
步骤2、建立基于模糊局部判别分析的数据降维模型:
其中,ck表示第k类的聚类中心数量。表示低维投影空间的聚类中心,满足矩阵为原始空间的聚类中心矩阵,每个表示一个小类在原始空间的聚类中心坐标,为聚类中心总数。St为总体散度矩阵,当数据矩阵完成中心化时St=XXT。正整数q是模糊聚类参数,P1n=1n表示P中元素为0或且每个样本点对应q个模糊聚类中心显然,对于所有类别k,q<ck。λ是平衡参数,其取值一般较大,目的是使样本点间尽可能分开,以便模型更准确地学习样本的局部特征;
步骤3、求解数据降维模型:
①固定W和P,优化M
②固定W和M,优化P
③固定M和P,优化W
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673065.7A CN115169436A (zh) | 2022-06-14 | 2022-06-14 | 一种基于模糊局部判别分析的数据降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673065.7A CN115169436A (zh) | 2022-06-14 | 2022-06-14 | 一种基于模糊局部判别分析的数据降维方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115169436A true CN115169436A (zh) | 2022-10-11 |
Family
ID=83485968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210673065.7A Pending CN115169436A (zh) | 2022-06-14 | 2022-06-14 | 一种基于模糊局部判别分析的数据降维方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115169436A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384949A (zh) * | 2023-06-05 | 2023-07-04 | 北京东联世纪科技股份有限公司 | 一种基于数字化管理的智慧政务信息数据管理系统 |
-
2022
- 2022-06-14 CN CN202210673065.7A patent/CN115169436A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384949A (zh) * | 2023-06-05 | 2023-07-04 | 北京东联世纪科技股份有限公司 | 一种基于数字化管理的智慧政务信息数据管理系统 |
CN116384949B (zh) * | 2023-06-05 | 2023-08-11 | 北京东联世纪科技股份有限公司 | 一种基于数字化管理的智慧政务信息数据管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107578007A (zh) | 一种基于多特征融合的深度学习人脸识别方法 | |
CN112836672A (zh) | 一种基于自适应近邻图嵌入的无监督数据降维方法 | |
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN108415883A (zh) | 基于子空间聚类的凸非负矩阵分解方法 | |
CN111191719A (zh) | 一种基于自表示和图谱约束的非负矩阵分解的图像聚类方法 | |
Tscherepanow et al. | A hierarchical ART network for the stable incremental learning of topological structures and associations from noisy data | |
CN110717519A (zh) | 训练、特征提取、分类方法、设备及存储介质 | |
López-Rubio | Probabilistic self-organizing maps for continuous data | |
CN110889865A (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
Tariyal et al. | Greedy deep dictionary learning | |
Chen et al. | Robust matrix factorization with spectral embedding | |
CN114863151B (zh) | 一种基于模糊理论的图像降维聚类方法 | |
CN110348287A (zh) | 一种基于字典和样本相似图的无监督特征选择方法和装置 | |
CN116188900A (zh) | 一种基于全局和局部特征增广的小样本图像分类方法 | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
CN115169436A (zh) | 一种基于模糊局部判别分析的数据降维方法 | |
CN113920210B (zh) | 基于自适应图学习主成分分析方法的图像低秩重构方法 | |
CN109063725B (zh) | 面向多视图聚类的多图正则化深度矩阵分解方法 | |
Kayo | Locally linear embedding algorithm: extensions and applications | |
Li et al. | Dimensionality reduction with sparse locality for principal component analysis | |
CN113269231A (zh) | 一种基于局部核的最优邻居多核聚类方法及系统 | |
CN110852304B (zh) | 基于深度学习方法的高光谱数据处理方法 | |
CN114692809A (zh) | 基于神经集群的数据处理方法及装置、存储介质、处理器 | |
CN110781972A (zh) | 一种增量无监督多模态相关特征学习模型 | |
CN112488187B (zh) | 一种基于核二维岭回归子空间聚类的图像处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |