CN113743485A - 一种基于傅里叶域主成分分析的数据降维方法 - Google Patents
一种基于傅里叶域主成分分析的数据降维方法 Download PDFInfo
- Publication number
- CN113743485A CN113743485A CN202110968131.9A CN202110968131A CN113743485A CN 113743485 A CN113743485 A CN 113743485A CN 202110968131 A CN202110968131 A CN 202110968131A CN 113743485 A CN113743485 A CN 113743485A
- Authority
- CN
- China
- Prior art keywords
- data
- fourier
- batch
- matrix
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 29
- 230000009467 reduction Effects 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 42
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 9
- 230000001133 acceleration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
本发明公开了一种基于傅里叶域主成分分析的数据降维方法,通过将高维数据投影到傅里叶域,利用循环矩阵和傅里叶矩阵的性质,将主成分分析的求解特征向量问题转化为寻找有意义的傅里叶域基。由于傅里叶域基是预先定义的,且数据的主成分分布是有序的,因此可以通过将训练样本分批次输入来加速训练,直到所需的傅立叶基稳定有序。确定傅里叶基个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集,以方便数据的快速处理。本发明提供的数据降维方法,基于主成分分析和快速傅里叶变换,可以去除高维度数据集中的噪声和冗余信息,减少数据处理中不必要的运算过程,提高算法的运行速度和内存效率。
Description
技术领域
本发明属于计算机科学和图像处理技术邻域,尤其是一种基于傅里叶域主成分分析的数据降维方法。
背景技术
传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时,随着大数据处理和云计算所产生的数据维度不断增加,为了去除高维度数据集中的噪声和冗余信息,减少数据处理中不必要的运算过程,提高算法的运行效率,对高维数据进行降维处理也更加必要。
主成分分析(Principal Component Analysis,PCA)是一种高级的数据探索算法,可用于寻找数据中的模式,以及找到可以强调这些模式的数据变换表示。主成分分析通过原始数据集坐标轴的正交旋转,使得原本分散的样本点在旋转后集中在某一些特征坐标轴的附近,当忽略承载原始信息量小的那些主成分时,即达到了对原始数据降维的效果,实现了数据的压缩。主成分分析是一种强大的数据转换技术,您可以应用此技术,再进行进一步的分析工作。这种方法在您遇到高维数据集时非常实用,它可以帮助理解底层数据结构、聚类分析、回归分析和许多其他任务。
然而,尽管主成分分析表现出了良好的性能,但由于其计算复杂度高,因此在海量数据处理问题中的应用受到限制。为了处理大规模数据,人们提出了许多优化技术来加速主成分分析算法。根据解决这一问题的不同策略,现有的优化技术大致可以分为以下两类:一种是使用Nystrom的矩阵近似技术,它通过将计算出的子矩阵特征向量用于近似原矩阵特征向量,来降低特征分解步骤的计算代价。另一种方法是使用Random Fourier Features来近似矩阵,该方法可将原来的KPCA问题转化为一个高维的线性PCA问题。然而,上述方法虽然解决了海量数据的应用处理问题,但它们在速度和内存效率等方面的利用仍不够充分,海量数据的快速高效计算依然是我们面临的问题。
发明内容
为了解决现有技术中存在的不足,本发明提出了一种基于傅里叶域主成分分析的数据降维方法,利用快速傅里叶变换方法从频域的角度来观察序列中每个数据点,构造成新型基于傅里叶变换的主成分分析算法。通过优化主成分分析的求解特征向量问题为寻找有意义的傅里叶域基,以及分批次输入训练,用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维的运算速度和内存利用率,并且提供对大规模数据进行主成分分析的支持和加速。
本发明所采用的技术方案如下:
一种基于傅里叶域主成分分析的数据降维方法,包括如下步骤:
步骤1,数据初始化,采集数据样本集X作为所需的数据集,X为M×N维的矩阵;且初始化当前批次数j、初始的M×N维零矩阵Λ0、随机傅里叶基集合P0和离散傅里叶矩阵F; M表示数据集X的维度,N是数据的样本数量;
随着小批量样本的不断输入,将每一批次的批量样本集Xb所获特征值矩阵Λb添加到Λj,用Λj表示在输入第j批次批量样本集后的特征值的累积,该过程表示为:Λj←Λj-1+Λb;其中,Λj-1表示在输入j-1批次样本集Xb后所获得的特征值累积;
步骤4,获得批量样本集的傅里叶投影基,将取为F的列向量;对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取最小的前r个特征值λ1,λ2,...λr所对应的矩阵F中的傅里叶基构成当前的投影集合r是预先设定的所需傅里叶投影基个数;
进一步,设置阈值g,批量样本集Xb的样本数量为b=N*g,b<<M。
进一步,阈值g取值0.5%~5%。
进一步,获得样本向量xi的方法为:将数据样本集表示为X=[x1 x2 ... xN],由数据样本集X中的第i列数据样本构成样本向量xi,i=1,2,...N,N代表的是数据样本的数量;样本向量xi中包含第i列中M个维度的数据样本。
其中,circ表示对向量xi进行移位构造对应的循环矩阵这种循环矩阵的特性就是可以被傅里叶变换对角化,FH=(F*)T是傅里叶矩阵F的共轭转置,H表示共轭转置运算。按照如下方式得到当前批次的批量样本Xb的特征值:
其中,λ为拉格朗日因子;b是批量样本的数量;是的复共轭矩阵;⊙是矩阵的元素点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;为训练数据集X 的主投影向量,即特征向量。对于每批次随机输入的样本Xb,我们可以得到Λb:
其中,Λb为该批次样本所获得的特征值矩阵。
进一步,所述傅里叶域基向量为:
其中V是投影列向量v的集合,即V=[v1 v2 … vn]。
本发明的有益效果:
1、利用数据序列可重复性的特点对数据进行傅里叶域建模。利用快速傅里叶变换方法从频域的角度来观察序列中每个数据点,构造成新型基于傅里叶域的主成分分析算法。找到主成分分析的投影目标可以通过找到预先定义好的有意义的傅里叶基来实现。
2、由于傅里叶域的运算性质,我们可以通过简单的傅里叶域的矩阵点积运算来避免在时域进行复杂的矩阵求逆运算。
3、为了有意义的获得傅里叶基,训练的过程不需要加载所有的数据样本,只需要加载几批数据样本,直到追求傅里叶基的顺序稳定为止,这无疑可以更高效的使用内存。
4、通过优化主成分分析的求解特征向量问题为寻找有意义的傅里叶域基,以及分批次输入训练,用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率,并且提供对海量数据进行主成分分析的支持和加速。
附图说明
图1是本发明提出的方法的主流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示的一种基于傅里叶域主成分分析的数据降维方法,包括如下步骤:
步骤1,数据集准备,采集数据样本集X(M×N)作为所需的数据集,将数据样本集表示为X=[x1 x2 ... xN],由数据样本集X中的第i列数据样本构成样本向量xi, i=1,2,...N,N代表的是数据样本的数量;样本向量xi中包含第i列中M个维度的数据样本。
初始化参数:j、Λ0、F、P0。其中,j表示分批次训练的当前批次数,且j=1;Λ0表示初始的M×M维零矩阵;F是离散傅里叶矩阵(DFT);P0是一个随机傅里叶基集合,P0集合的元素为离散傅里叶矩阵(DFT)F的列向量。离散傅里叶矩阵(DFT)F表示为:
其中,V是投影列向量v的集合,即V=[v1 v2 … vn],n是集合V的列数;ω是一个复数且可被表示为ω=e-2πi/M,i为虚数单位。
步骤2,构造批量样本及其傅里叶数据表达。
根据阈值g,随机输入数量为b=N*g的批量样本Xb∈RM×b,g取0.5%~5%。对批量样本Xb进行快速傅里叶变换,利用快速傅里叶变换方法从频域的角度来观察数据,表示如下:
步骤3,获得当前批量样本的特征值。
按照如下方式得到当前批次的批量样本Xb的特征值:
其中,λ为拉格朗日因子;b是批量样本的数量;是的复共轭矩阵;⊙是矩阵中元素的点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;为训练数据集X 的主投影向量,即特征向量;FH是傅里叶矩阵F的共轭转置,H表示共轭转置运算。根据公式(2),对于每批次随机输入的样本Xb,可以得到:
其中,Λb为该批次样本所获得的特征值矩阵。我们用Λj表示在输入第j批次样本后的特征值的累积,j表示当前输入的批次数。随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj,
Λj←Λj-1+Λb (4)
其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积。
步骤4,获得批量样本的傅里叶投影基。
根据公式(2),将取为F的列向量,对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...λr所对应矩阵F中的傅里叶基构成当前的投影集合其中,r是预先设定的所需傅里叶投影基个数,此处取值为50。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (7)
1.一种基于傅里叶域主成分分析的数据降维方法,其特征在于,包括如下步骤:
步骤1,数据初始化,采集数据样本集X作为所需的数据集,X为M×N维的矩阵;且初始化当前批次数j、初始的M×M维零矩阵Λ0、随机傅里叶基集合P0和离散傅里叶矩阵F;M表示数据集X的维度,N是数据的样本数量;
随着小批量样本的不断输入,将每一批次的批量样本集Xb所获特征值矩阵Λb添加到Λj,用Λj表示在输入第j批次批量样本集后的特征值的累积,该过程表示为:Λj←Λj-1+Λb;其中,Λj-1表示在输入j-1批次样本集Xb后所获得的特征值累积;
步骤4,获得批量样本集的傅里叶投影基,将取为F的列向量;对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取最小的前r个特征值λ1,λ2,...λr所对应的矩阵F中的傅里叶基构成当前的投影集合r是预先设定的所需傅里叶投影基个数;
2.根据权利要求1所述的一种基于傅里叶域主成分分析的数据降维方法,其特征在于,设置阈值g,批量样本集Xb的样本数量为b=N*g,b<<M。
3.根据权利要求2所述的一种基于傅里叶域主成分分析的数据降维方法,其特征在于,阈值g取值0.5%~5%。
5.根据权利要求4所述的一种基于傅里叶域主成分分析的数据降维方法,其特征在于,获得样本向量xi的方法为:将数据样本集表示为X=[x1 x2...xN],由数据样本集X中的第i列数据样本构成样本向量xi,i=1,2,...N,N代表的是数据样本的数量;样本向量xi中包含第i列中M个维度的数据样本。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968131.9A CN113743485A (zh) | 2021-08-23 | 2021-08-23 | 一种基于傅里叶域主成分分析的数据降维方法 |
PCT/CN2021/120524 WO2023024210A1 (zh) | 2021-08-23 | 2021-09-26 | 一种基于傅里叶域主成分分析的数据降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968131.9A CN113743485A (zh) | 2021-08-23 | 2021-08-23 | 一种基于傅里叶域主成分分析的数据降维方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743485A true CN113743485A (zh) | 2021-12-03 |
Family
ID=78732295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110968131.9A Pending CN113743485A (zh) | 2021-08-23 | 2021-08-23 | 一种基于傅里叶域主成分分析的数据降维方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113743485A (zh) |
WO (1) | WO2023024210A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861224B (zh) * | 2023-09-04 | 2023-12-01 | 鲁东大学 | 基于间歇过程软测量建模方法的间歇过程软测量建模系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004008391A1 (ja) * | 2002-07-16 | 2004-01-22 | Nec Corporation | パターン特徴抽出方法及びその装置 |
CN112149045A (zh) * | 2020-08-19 | 2020-12-29 | 江苏大学 | 一种适用于大规模数据的降维、关联分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682089A (zh) * | 2012-04-24 | 2012-09-19 | 浙江工业大学 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
CN102938072B (zh) * | 2012-10-20 | 2016-05-11 | 复旦大学 | 一种基于分块低秩张量分析的高光谱图像降维和分类方法 |
US11106719B2 (en) * | 2019-02-22 | 2021-08-31 | International Business Machines Corporation | Heuristic dimension reduction in metadata modeling |
-
2021
- 2021-08-23 CN CN202110968131.9A patent/CN113743485A/zh active Pending
- 2021-09-26 WO PCT/CN2021/120524 patent/WO2023024210A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004008391A1 (ja) * | 2002-07-16 | 2004-01-22 | Nec Corporation | パターン特徴抽出方法及びその装置 |
CN112149045A (zh) * | 2020-08-19 | 2020-12-29 | 江苏大学 | 一种适用于大规模数据的降维、关联分析方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023024210A1 (zh) | 2023-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023273045A1 (zh) | 量子系统的基态获取方法、装置、设备、介质及程序产品 | |
Zhang et al. | Robust low-rank kernel multi-view subspace clustering based on the schatten p-norm and correntropy | |
Chen et al. | A Jacobian-free Newton-GMRES (m) method with adaptive preconditioner and its application for power flow calculations | |
CN113496285B (zh) | 基于量子电路的数据处理方法及装置、电子设备和介质 | |
WO2022037012A1 (zh) | 一种适用于大规模数据的降维、关联分析方法 | |
CN114897174A (zh) | 一种基于张量网络和量子线路的混合计算方法及装置 | |
CN110677297A (zh) | 一种基于自回归滑动平均模型和极限学习机的组合网络流量预测方法 | |
CN114239840A (zh) | 量子信道噪声系数估计方法及装置、电子设备和介质 | |
CN113743485A (zh) | 一种基于傅里叶域主成分分析的数据降维方法 | |
CN110471768B (zh) | 一种基于fastPCA-ARIMA的负载预测方法 | |
CN110619311A (zh) | 一种基于eemd-ica-svm的数据分类方法 | |
CN111401413A (zh) | 一种基于优化理论的带规模约束的并行聚类方法 | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
Nakaji et al. | Measurement optimization of variational quantum simulation by classical shadow and derandomization | |
CN113221992A (zh) | 一种基于l2,1范数的大规模数据快速聚类方法 | |
CN109902720A (zh) | 基于子空间分解进行深度特征估计的图像分类识别方法 | |
WO2022188711A1 (zh) | Svm模型的训练方法、装置、设备和计算机可读存储介质 | |
CN111738298B (zh) | 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 | |
CN114742228A (zh) | 一种基于神经网络和量子线路的混合计算方法及装置 | |
CN114580649A (zh) | 消除量子泡利噪声的方法及装置、电子设备和介质 | |
Dong et al. | Variational Bayesian and Generalized Approximate Message Passing-Based Sparse Bayesian Learning Model for Image Reconstruction | |
Gong et al. | A fast dual projected newton method for l1-regularized least squares | |
TWI829195B (zh) | 資訊處理裝置、程式產品及資訊處理方法 | |
Huang et al. | cuTensor-HT: High performance third-order hierarchical tucker tensor decomposition on GPUs | |
CN110399654B (zh) | 基于Nataf变换的MEMS器件不确定性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |