CN112149045A - 一种适用于大规模数据的降维、关联分析方法 - Google Patents
一种适用于大规模数据的降维、关联分析方法 Download PDFInfo
- Publication number
- CN112149045A CN112149045A CN202010835235.8A CN202010835235A CN112149045A CN 112149045 A CN112149045 A CN 112149045A CN 202010835235 A CN202010835235 A CN 202010835235A CN 112149045 A CN112149045 A CN 112149045A
- Authority
- CN
- China
- Prior art keywords
- fourier
- batch
- matrix
- data
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Abstract
本发明公开了一种适用于大规模数据的降维、关联分析方法,通过将高维数据投影到傅里叶域,将线性关联分析的求解特征向量问题转化为寻找有意义的傅里叶域基。由于傅里叶域基是预先定义的,且数据的特征值分布是有序的,因此通过将训练样本分批次输入来加速训练,直到所需的傅立叶基稳定有序。确定傅里叶基个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘从而得到低维数据集,以方便数据的快速处理。本发明的数据降维方法,基于快速傅里叶变换和关联分析,可以去除高维度数据集中的噪声和冗余信息,减少数据处理中不必要的运算过程,提高数据降维计算中的运行速度和内存使用效率。
Description
技术领域
本发明属于计算机科学和图像处理技术邻域,尤其是一种适用于大规模数据的降维、关联分析方法。
背景技术
传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时,随着大数据处理和云计算所产生的数据维度不断增加,在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。
典型关联分析(Canonical Correlation Analysis,CCA)是最常用的挖掘数据关联关系的算法之一,也是一种降维技术,可用于检验数据的相关性,以及找到可以强调这些相关性的数据变换表示。典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合),用这些指标的相关关系来表示原来的两组变量的相关关系,它可以帮助理解底层数据结构、聚类分析、回归分析和许多其他任务。
然而,尽管典型关联分析表现出了良好的性能,但由于其计算复杂度高,因此在海量数据处理问题中的应用受到限制。为了处理大规模数据,人们提出了许多优化技术来加速相关分析算法。根据解决这一问题的不同策略,现有的优化技术大致可以分为以下两类:一种是使用Nystrom的矩阵近似技术,它通过将计算出的子矩阵特征向量用于近似原矩阵特征向量,来降低特征分解步骤的计算代价。另一种方法是使用Random Fourier Features来近似矩阵,该方法可将原来的KCCA问题转化为一个高维的线性CCA问题。然而,上述方法虽然解决了海量数据的应用处理问题,但它们在速度和内存效率等方面的利用仍不够充分,海量数据的快速高效计算依然是我们面临的问题。
发明内容
针对现有技术中存在的不足,本发明提出了一种适用于大规模数据的降维、关联分析方法,通过优化关联分析的求解特征向量问题为寻找有意义的傅里叶域基,以及分批次输入训练,用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率,并且提供对海量数据进行关联分析的支持和加速。
本发明所采用的技术方案如下:
一种适用于大规模数据的降维、关联分析方法,包括如下步骤:
步骤1,数据初始化,采集数据样本集X(M1×N)和Y(M2×N)作为所需的数据集,且初始化当前批次数j、维度参数M、初始的M×M维零矩阵Λ0、随机傅里叶基集合P0和离散傅里叶矩阵F;其中,M1和M2分别表示数据集X和Y的维度,N是数据的样本数量;
步骤3,对于每批次随机输入的样本Xb,Yb,计算该批次样本所获得的特征值矩阵Λb,随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj,用Λj表示在输入第j次部分样本后的特征值的累积,该过程表示为:
Λj←Λj-1+Λb;
其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积。
步骤4,获得批量样本的傅里叶投影基,将取为F的列向量。对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...,λr所对应的矩阵F中的傅里叶基构成当前的投影集合r是预先设定的所需傅里叶投影基个数。
进一步,维度参数M要求满足M≥M1且M≥M2;
进一步,离散傅里叶矩阵(DFT)F表示为:
其中,ω是一个复数且可被表示为ω=e-2πi/M,i为虚数单位。
进一步,批量样本Xb和Yb是根据阈值g,随机输入数量为b=N*g的批量样本;
进一步,按照如下方式得到当前批次的批量样本Xb和Yb的特征值:
其中,1./是对向量每个元素的倒数运算,λ为拉格朗日因子;b是批量样本的数量;分别是的复共轭矩阵;⊙是矩阵中元素的点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;为训练数据集X的主投影向量,即特征向量;FH是傅里叶矩阵F的共轭转置,H表示共轭转置运算。对于每批次随机输入的样本Xb,Yb,我们可以得到Λb:
其中,Λb为该批次样本所获得的特征值矩阵。
本发明的有益效果:
1、利用数据序列可重复性的特点对数据进行傅里叶域建模。利用快速傅里叶变换方法从频域的角度来观察时间序列中每个数据点,构造成新型基于傅里叶域的关联分析算法。找到关联分析的投影目标可以通过找到预先定义好的有意义的傅里叶基来实现。
2、由于傅里叶域的运算性质,我们可以通过简单的傅里叶域的矩阵点积运算来避免在时域进行复杂的矩阵求逆运算。
3、为了有意义的获得傅里叶基,训练的过程不需要加载所有的数据样本,只需要加载几批数据样本,直到追求傅里叶基的顺序稳定为止,这无疑可以更高效的使用内存。
4、通过优化关联分析的求解特征向量问题为寻找有意义的傅里叶域基,以及分批次输入训练,用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率,并且提供对海量数据进行关联分析的支持和加速。
附图说明
图1是本发明提出的方法的主流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示的一种适用于大规模数据的降维、关联分析方法,包括如下步骤:
步骤1,数据初始化,采集数据样本集X(M1×N)和Y(M2×N)作为所需的数据集。在此说明M1和M2分别表示数据集X和Y的维度,即将X和Y的每一行作为数据的一种属性;X=[x1x2 ... xN],同理,Y=[y1 y2 ... yN],N代表的是数据的样本数量,即每一列向量(即xi和yi,i=1,2,...N)表示数据样本在相同维度下的所有的值。
初始化参数:j、M、Λ0、F、P0。其中,j表示分批次训练的当前批次数,且j=1;M是为了获得更精细的特征向量而构造的维度参数,M>M1且M>M2;Λ0表示初始的M×M维零矩阵;P0是一个随机傅里叶基集合,P0集合的元素为离散傅里叶矩阵(DFT)F的列向量。离散傅里叶矩阵(DFT)F表示为:
其中,ω是一个复数且可被表示为ω=e-2πi/M,i为虚数单位。
步骤2,构造批量样本的傅里叶数据表达。
根据阈值g,随机输入数量为b=N*g的批量样本和g取0.5%~5%。以数据集Xb为例,对数据集Xb中的每个样本通过零元素填充增加至M维,即其中,分别表示样本点xi在不同属性下的值。利用快速傅里叶变换方法从频域的角度来观察数据:
步骤3,获得批量样本的特征值。
按照如下方式得到当前批次的批量样本Xb和Yb的特征值:
其中,1./是对向量每个元素的倒数运算,λ为拉格朗日因子;b是批量样本的数量;分别是的复共轭矩阵;⊙是矩阵中元素的点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;为训练数据集X的主投影向量,即特征向量;FH是傅里叶矩阵F的共轭转置,H表示共轭转置运算。根据公式(2),对于每批次随机输入的样本Xb和Yb,我们可以得到:
其中,Λb为该批次样本所获得的特征值矩阵。我们用Λj表示在输入第j次部分样本后的特征值的累积,j表示当前输入的批次数。随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj,
Λj←Λj-1+Λb (4)
其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积。
步骤4,获得批量样本的傅里叶投影基。
根据公式(2),将取为F的列向量,对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...,λr所对应矩阵F中的傅里叶基构成当前的投影集合其中,r是预先设定的所需傅里叶投影基个数,此处取值为50。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (6)
1.一种适用于大规模数据的降维、关联分析方法,其特征在于,包括如下步骤:
步骤1,数据初始化,采集数据样本集X(M1×N)和Y(M2×N)作为所需的数据集,且初始化当前批次数j、维度参数M、初始的M×M维零矩阵Λ0、随机傅里叶基集合P0和离散傅里叶矩阵F;其中,M1和M2分别表示数据集X和Y的维度,N是数据的样本数量;
步骤3,对于每批次随机输入的样本Xb,Yb,计算该批次样本所获得的特征值矩阵Λb,随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj,用Λj表示在输入第j次部分样本后的特征值的累积,表示为:Λj←Λj-1+Λb;其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积;
步骤4,获得批量样本的傅里叶投影基,将取为F的列向量。对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...,λr所对应的矩阵F中的傅里叶基构成当前的投影集合r是预先设定的所需傅里叶投影基个数;
2.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,维度参数M要求满足M≥M1且M≥M2。
4.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,批量样本Xb和Yb是根据阈值g,随机输入数量为b=N*g的批量样本。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010835235.8A CN112149045A (zh) | 2020-08-19 | 2020-08-19 | 一种适用于大规模数据的降维、关联分析方法 |
PCT/CN2021/073088 WO2022037012A1 (zh) | 2020-08-19 | 2021-01-21 | 一种适用于大规模数据的降维、关联分析方法 |
GB2110472.4A GB2601862A (en) | 2020-08-19 | 2021-01-21 | Dimension reduction and correlation analysis method applicable to large-scale data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010835235.8A CN112149045A (zh) | 2020-08-19 | 2020-08-19 | 一种适用于大规模数据的降维、关联分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149045A true CN112149045A (zh) | 2020-12-29 |
Family
ID=73887570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010835235.8A Pending CN112149045A (zh) | 2020-08-19 | 2020-08-19 | 一种适用于大规模数据的降维、关联分析方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112149045A (zh) |
WO (1) | WO2022037012A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743485A (zh) * | 2021-08-23 | 2021-12-03 | 江苏大学 | 一种基于傅里叶域主成分分析的数据降维方法 |
WO2022037012A1 (zh) * | 2020-08-19 | 2022-02-24 | 江苏大学 | 一种适用于大规模数据的降维、关联分析方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510880B (zh) * | 2022-04-19 | 2022-07-12 | 中国石油大学(华东) | 一种基于傅里叶变换和几何特征的有杆泵工况诊断方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413551B (zh) * | 2013-07-16 | 2015-11-18 | 清华大学 | 基于稀疏降维的说话人识别方法 |
CN108682007B (zh) * | 2018-04-28 | 2021-09-10 | 华中师范大学 | 基于深度随机森林的jpeg图像重采样自动检测方法 |
US10803627B2 (en) * | 2018-09-20 | 2020-10-13 | At&T Intellectual Property I, L.P. | Enabling secure video sharing by exploiting data sparsity |
CN112149045A (zh) * | 2020-08-19 | 2020-12-29 | 江苏大学 | 一种适用于大规模数据的降维、关联分析方法 |
-
2020
- 2020-08-19 CN CN202010835235.8A patent/CN112149045A/zh active Pending
-
2021
- 2021-01-21 WO PCT/CN2021/073088 patent/WO2022037012A1/zh active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022037012A1 (zh) * | 2020-08-19 | 2022-02-24 | 江苏大学 | 一种适用于大规模数据的降维、关联分析方法 |
CN113743485A (zh) * | 2021-08-23 | 2021-12-03 | 江苏大学 | 一种基于傅里叶域主成分分析的数据降维方法 |
WO2023024210A1 (zh) * | 2021-08-23 | 2023-03-02 | 江苏大学 | 一种基于傅里叶域主成分分析的数据降维方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022037012A1 (zh) | 2022-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Pruning filters with L1-norm and capped L1-norm for CNN compression | |
Wang et al. | Pruning from scratch | |
CN112149045A (zh) | 一种适用于大规模数据的降维、关联分析方法 | |
CN109242223B (zh) | 城市公共建筑火灾风险的量子支持向量机评估与预测方法 | |
Zeng et al. | A GA-based feature selection and parameter optimization for support tucker machine | |
CN111914728B (zh) | 高光谱遥感影像半监督分类方法、装置及存储介质 | |
CN109886464B (zh) | 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法 | |
CN114580747A (zh) | 基于数据相关性和模糊系统的异常数据预测方法及系统 | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN111401413A (zh) | 一种基于优化理论的带规模约束的并行聚类方法 | |
CN110619311A (zh) | 一种基于eemd-ica-svm的数据分类方法 | |
CN113221992A (zh) | 一种基于l2,1范数的大规模数据快速聚类方法 | |
CN113743485A (zh) | 一种基于傅里叶域主成分分析的数据降维方法 | |
CN109858543B (zh) | 基于低秩稀疏表征和关系推断的图像可记忆度预测方法 | |
Ding et al. | Efficient model-based collaborative filtering with fast adaptive PCA | |
Jackson et al. | Bayesian unsupervised signal classification by Dirichlet process mixtures of Gaussian processes | |
WO2022188711A1 (zh) | Svm模型的训练方法、装置、设备和计算机可读存储介质 | |
CN109902720A (zh) | 基于子空间分解进行深度特征估计的图像分类识别方法 | |
Nabatian et al. | An adaptive scaling technique to quantum clustering | |
CN111738298B (zh) | 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 | |
Wang et al. | A fast and scalable joint estimator for learning multiple related sparse gaussian graphical models | |
Shu-Juan | Fast incremental spectral clustering in titanate application via graph Fourier transform | |
Zhang et al. | Contraction of a quasi-Bayesian model with shrinkage priors in precision matrix estimation | |
CN113449817B (zh) | 基于幻影梯度的图像分类隐式模型加速训练方法 | |
Berglund et al. | Zeroth-order randomized subspace Newton methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |