CN112149045A - 一种适用于大规模数据的降维、关联分析方法 - Google Patents

一种适用于大规模数据的降维、关联分析方法 Download PDF

Info

Publication number
CN112149045A
CN112149045A CN202010835235.8A CN202010835235A CN112149045A CN 112149045 A CN112149045 A CN 112149045A CN 202010835235 A CN202010835235 A CN 202010835235A CN 112149045 A CN112149045 A CN 112149045A
Authority
CN
China
Prior art keywords
fourier
batch
matrix
data
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010835235.8A
Other languages
English (en)
Inventor
沈项军
徐兆瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010835235.8A priority Critical patent/CN112149045A/zh
Publication of CN112149045A publication Critical patent/CN112149045A/zh
Priority to PCT/CN2021/073088 priority patent/WO2022037012A1/zh
Priority to GB2110472.4A priority patent/GB2601862A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Abstract

本发明公开了一种适用于大规模数据的降维、关联分析方法,通过将高维数据投影到傅里叶域,将线性关联分析的求解特征向量问题转化为寻找有意义的傅里叶域基。由于傅里叶域基是预先定义的,且数据的特征值分布是有序的,因此通过将训练样本分批次输入来加速训练,直到所需的傅立叶基稳定有序。确定傅里叶基个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘从而得到低维数据集,以方便数据的快速处理。本发明的数据降维方法,基于快速傅里叶变换和关联分析,可以去除高维度数据集中的噪声和冗余信息,减少数据处理中不必要的运算过程,提高数据降维计算中的运行速度和内存使用效率。

Description

一种适用于大规模数据的降维、关联分析方法
技术领域
本发明属于计算机科学和图像处理技术邻域,尤其是一种适用于大规模数据的降维、关联分析方法。
背景技术
传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时,随着大数据处理和云计算所产生的数据维度不断增加,在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。
典型关联分析(Canonical Correlation Analysis,CCA)是最常用的挖掘数据关联关系的算法之一,也是一种降维技术,可用于检验数据的相关性,以及找到可以强调这些相关性的数据变换表示。典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合),用这些指标的相关关系来表示原来的两组变量的相关关系,它可以帮助理解底层数据结构、聚类分析、回归分析和许多其他任务。
然而,尽管典型关联分析表现出了良好的性能,但由于其计算复杂度高,因此在海量数据处理问题中的应用受到限制。为了处理大规模数据,人们提出了许多优化技术来加速相关分析算法。根据解决这一问题的不同策略,现有的优化技术大致可以分为以下两类:一种是使用Nystrom的矩阵近似技术,它通过将计算出的子矩阵特征向量用于近似原矩阵特征向量,来降低特征分解步骤的计算代价。另一种方法是使用Random Fourier Features来近似矩阵,该方法可将原来的KCCA问题转化为一个高维的线性CCA问题。然而,上述方法虽然解决了海量数据的应用处理问题,但它们在速度和内存效率等方面的利用仍不够充分,海量数据的快速高效计算依然是我们面临的问题。
发明内容
针对现有技术中存在的不足,本发明提出了一种适用于大规模数据的降维、关联分析方法,通过优化关联分析的求解特征向量问题为寻找有意义的傅里叶域基,以及分批次输入训练,用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率,并且提供对海量数据进行关联分析的支持和加速。
本发明所采用的技术方案如下:
一种适用于大规模数据的降维、关联分析方法,包括如下步骤:
步骤1,数据初始化,采集数据样本集X(M1×N)和Y(M2×N)作为所需的数据集,且初始化当前批次数j、维度参数M、初始的M×M维零矩阵Λ0、随机傅里叶基集合P0和离散傅里叶矩阵F;其中,M1和M2分别表示数据集X和Y的维度,N是数据的样本数量;
步骤2,构造批量样本的傅里叶数据表达,随机输入数量为b的批量样本集
Figure BDA0002639451690000021
Figure BDA0002639451690000022
通过零元素填充的方式分别将Xb和Yb增加至M维;分别对Xb、Yb中的样本xi、yi进行傅里叶变换得到
Figure BDA0002639451690000023
步骤3,对于每批次随机输入的样本Xb,Yb,计算该批次样本所获得的特征值矩阵Λb,随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj,用Λj表示在输入第j次部分样本后的特征值的累积,该过程表示为:
Λj←Λj-1b
其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积。
步骤4,获得批量样本的傅里叶投影基,将
Figure BDA0002639451690000029
取为F的列向量。对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...,λr所对应的矩阵F中的傅里叶基
Figure BDA0002639451690000024
构成当前的投影集合
Figure BDA0002639451690000025
r是预先设定的所需傅里叶投影基个数。
步骤5,若集合Pj与Pj-1相同,则结束执行步骤2~4,并获得所需的傅立叶基
Figure BDA0002639451690000026
作为最终的傅里叶投影基,否则执行步骤2~4,并更新当前输入的批次数,j←j+1。
步骤6,对集合Pj中每一个傅里叶投影基执行反傅里叶变换
Figure BDA0002639451690000027
Figure BDA0002639451690000028
i=1,...,r,构成投影矩阵V′=[p1 p2 … pr];将高维数据集X与投影矩阵V′T相乘,即得到降维后的数据集X′=V′TX。
进一步,维度参数M要求满足M≥M1且M≥M2
进一步,离散傅里叶矩阵(DFT)F表示为:
Figure BDA0002639451690000031
其中,ω是一个复数且可被表示为ω=e-2πi/M,i为虚数单位。
进一步,批量样本Xb和Yb是根据阈值g,随机输入数量为b=N*g的批量样本;
进一步,xi、yi进行傅里叶变换得到
Figure BDA0002639451690000032
分别表示为:
Figure BDA0002639451690000033
Figure BDA0002639451690000034
其中,
Figure BDA0002639451690000035
分别是傅里叶变换的生成向量,
Figure BDA0002639451690000036
分别表示对向量xi、yi进行快速傅里叶变换,F是离散傅里叶矩阵;
进一步,按照如下方式得到当前批次的批量样本Xb和Yb的特征值:
Figure BDA0002639451690000037
其中,1./是对向量每个元素的倒数运算,λ为拉格朗日因子;b是批量样本的数量;
Figure BDA0002639451690000038
分别是
Figure BDA0002639451690000039
的复共轭矩阵;⊙是矩阵中元素的点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;
Figure BDA00026394516900000310
为训练数据集X的主投影向量,即特征向量;FH是傅里叶矩阵F的共轭转置,H表示共轭转置运算。对于每批次随机输入的样本Xb,Yb,我们可以得到Λb
Figure BDA00026394516900000311
其中,Λb为该批次样本所获得的特征值矩阵。
本发明的有益效果:
1、利用数据序列可重复性的特点对数据进行傅里叶域建模。利用快速傅里叶变换方法从频域的角度来观察时间序列中每个数据点,构造成新型基于傅里叶域的关联分析算法。找到关联分析的投影目标可以通过找到预先定义好的有意义的傅里叶基来实现。
2、由于傅里叶域的运算性质,我们可以通过简单的傅里叶域的矩阵点积运算来避免在时域进行复杂的矩阵求逆运算。
3、为了有意义的获得傅里叶基,训练的过程不需要加载所有的数据样本,只需要加载几批数据样本,直到追求傅里叶基的顺序稳定为止,这无疑可以更高效的使用内存。
4、通过优化关联分析的求解特征向量问题为寻找有意义的傅里叶域基,以及分批次输入训练,用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率,并且提供对海量数据进行关联分析的支持和加速。
附图说明
图1是本发明提出的方法的主流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示的一种适用于大规模数据的降维、关联分析方法,包括如下步骤:
步骤1,数据初始化,采集数据样本集X(M1×N)和Y(M2×N)作为所需的数据集。在此说明M1和M2分别表示数据集X和Y的维度,即将X和Y的每一行作为数据的一种属性;X=[x1x2 ... xN],同理,Y=[y1 y2 ... yN],N代表的是数据的样本数量,即每一列向量(即xi和yi,i=1,2,...N)表示数据样本在相同维度下的所有的值。
初始化参数:j、M、Λ0、F、P0。其中,j表示分批次训练的当前批次数,且j=1;M是为了获得更精细的特征向量而构造的维度参数,M>M1且M>M2;Λ0表示初始的M×M维零矩阵;P0是一个随机傅里叶基集合,P0集合的元素为离散傅里叶矩阵(DFT)F的列向量。离散傅里叶矩阵(DFT)F表示为:
Figure BDA0002639451690000041
其中,ω是一个复数且可被表示为ω=e-2πi/M,i为虚数单位。
步骤2,构造批量样本的傅里叶数据表达。
根据阈值g,随机输入数量为b=N*g的批量样本
Figure BDA0002639451690000051
Figure BDA0002639451690000052
g取0.5%~5%。以数据集Xb为例,对数据集Xb中的每个样本
Figure BDA0002639451690000053
通过零元素填充增加至M维,即
Figure BDA0002639451690000054
其中,
Figure BDA0002639451690000055
分别表示样本点xi在不同属性下的值。利用快速傅里叶变换方法从频域的角度来观察数据:
Figure BDA0002639451690000056
其中,
Figure BDA0002639451690000057
表示对向量xi进行快速傅里叶变换;F是离散傅里叶矩阵;
Figure BDA0002639451690000058
是傅里叶变换的生成向量,用∧表示快速傅里叶变换的生成向量。同理,对数据集Yb中的每个样本向量
Figure BDA0002639451690000059
通过零元素填充增加至M维,并进行快速傅里叶变换
Figure BDA00026394516900000510
步骤3,获得批量样本的特征值。
按照如下方式得到当前批次的批量样本Xb和Yb的特征值:
Figure BDA00026394516900000511
其中,1./是对向量每个元素的倒数运算,λ为拉格朗日因子;b是批量样本的数量;
Figure BDA00026394516900000512
分别是
Figure BDA00026394516900000513
的复共轭矩阵;⊙是矩阵中元素的点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;
Figure BDA00026394516900000514
为训练数据集X的主投影向量,即特征向量;FH是傅里叶矩阵F的共轭转置,H表示共轭转置运算。根据公式(2),对于每批次随机输入的样本Xb和Yb,我们可以得到:
Figure BDA00026394516900000515
其中,Λb为该批次样本所获得的特征值矩阵。我们用Λj表示在输入第j次部分样本后的特征值的累积,j表示当前输入的批次数。随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj
Λj←Λj-1b (4)
其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积。
步骤4,获得批量样本的傅里叶投影基。
根据公式(2),将
Figure BDA0002639451690000066
取为F的列向量,对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...,λr所对应矩阵F中的傅里叶基
Figure BDA0002639451690000061
构成当前的投影集合
Figure BDA0002639451690000062
其中,r是预先设定的所需傅里叶投影基个数,此处取值为50。
步骤5,若集合Pj与Pj-1相同,则结束执行步骤2~4,并获得所需的傅立叶基
Figure BDA0002639451690000063
作为最终的傅里叶投影基。否则执行步骤2~4,并更新当前输入的批次数,j←j+1。
步骤6,对集合Pj中每一个傅里叶投影基执行反傅里叶变换
Figure BDA0002639451690000064
Figure BDA0002639451690000065
i=1,...,r,获得投影矩阵V′=[p1 p2 … pr]。将高维数据集X与投影矩阵V′T相乘,即得到降维后的数据集X′=V′TX。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (6)

1.一种适用于大规模数据的降维、关联分析方法,其特征在于,包括如下步骤:
步骤1,数据初始化,采集数据样本集X(M1×N)和Y(M2×N)作为所需的数据集,且初始化当前批次数j、维度参数M、初始的M×M维零矩阵Λ0、随机傅里叶基集合P0和离散傅里叶矩阵F;其中,M1和M2分别表示数据集X和Y的维度,N是数据的样本数量;
步骤2,构造批量样本的傅里叶数据表达,随机输入数量为b的批量样本集
Figure FDA0002639451680000011
Figure FDA0002639451680000012
通过零元素填充的方式分别将Xb和Yb增加至M维;分别对Xb、Yb中的样本xi、yi进行傅里叶变换得到
Figure FDA0002639451680000013
步骤3,对于每批次随机输入的样本Xb,Yb,计算该批次样本所获得的特征值矩阵Λb,随着小批量样本的不断输入,将每一批样本所获特征值矩阵Λb添加到Λj,用Λj表示在输入第j次部分样本后的特征值的累积,表示为:Λj←Λj-1b;其中,Λj-1表示在输入j-1批次样本后所获得的特征值累积;
步骤4,获得批量样本的傅里叶投影基,将
Figure FDA0002639451680000014
取为F的列向量。对特征值矩阵Λj的对角元素λ1,λ2,...,λM进行升序排序,选取前r个最小的特征值λ1,λ2,...,λr所对应的矩阵F中的傅里叶基
Figure FDA0002639451680000015
构成当前的投影集合
Figure FDA0002639451680000016
r是预先设定的所需傅里叶投影基个数;
步骤5,若集合Pj与Pj-1相同,则结束执行步骤2~4,并获得所需的傅立叶基
Figure FDA0002639451680000017
作为最终的傅里叶投影基,否则执行步骤2~4,并更新当前输入的批次数,j←j+1;
步骤6,对集合Pj中每一个傅里叶投影基执行反傅里叶变换
Figure FDA0002639451680000018
Figure FDA0002639451680000019
构成投影矩阵V′=[p1 p2 … pr];将高维数据集X与投影矩阵V′T相乘,即得到降维后的数据集X′=V′TX。
2.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,维度参数M要求满足M≥M1且M≥M2
3.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,离散傅里叶矩阵(DFT)F表示为:
Figure FDA0002639451680000021
其中,ω是一个复数且可被表示为ω=e-2πi/M,i为虚数单位。
4.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,批量样本Xb和Yb是根据阈值g,随机输入数量为b=N*g的批量样本。
5.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,xi、yi进行傅里叶变换得到
Figure FDA0002639451680000022
分别表示为:
Figure FDA0002639451680000023
Figure FDA0002639451680000024
其中,
Figure FDA0002639451680000025
分别是傅里叶变换的生成向量,
Figure FDA0002639451680000026
分别表示对向量xi进行快速傅里叶变换,F是离散傅里叶矩阵。
6.根据权利要求1所述的一种适用于大规模数据的降维、关联分析方法,其特征在于,按照如下方式得到当前批次的批量样本Xb和Yb的特征值:
Figure FDA0002639451680000027
其中,1./是对向量每个元素的倒数运算,λ为拉格朗日因子;b是批量样本的数量;
Figure FDA0002639451680000028
分别是
Figure FDA0002639451680000029
的复共轭矩阵;⊙是矩阵中元素的点乘运算;diag表示将向量转化为主对角线为向量元素的对角矩阵;
Figure FDA00026394516800000210
为训练数据集X的主投影向量,即特征向量;FH是傅里叶矩阵F的共轭转置,H表示共轭转置运算。对于每批次随机输入的样本Xb,Yb,我们可以得到Λb
Figure FDA00026394516800000211
其中,Λb为该批次样本所获得的特征值矩阵。
CN202010835235.8A 2020-08-19 2020-08-19 一种适用于大规模数据的降维、关联分析方法 Pending CN112149045A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010835235.8A CN112149045A (zh) 2020-08-19 2020-08-19 一种适用于大规模数据的降维、关联分析方法
PCT/CN2021/073088 WO2022037012A1 (zh) 2020-08-19 2021-01-21 一种适用于大规模数据的降维、关联分析方法
GB2110472.4A GB2601862A (en) 2020-08-19 2021-01-21 Dimension reduction and correlation analysis method applicable to large-scale data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010835235.8A CN112149045A (zh) 2020-08-19 2020-08-19 一种适用于大规模数据的降维、关联分析方法

Publications (1)

Publication Number Publication Date
CN112149045A true CN112149045A (zh) 2020-12-29

Family

ID=73887570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010835235.8A Pending CN112149045A (zh) 2020-08-19 2020-08-19 一种适用于大规模数据的降维、关联分析方法

Country Status (2)

Country Link
CN (1) CN112149045A (zh)
WO (1) WO2022037012A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743485A (zh) * 2021-08-23 2021-12-03 江苏大学 一种基于傅里叶域主成分分析的数据降维方法
WO2022037012A1 (zh) * 2020-08-19 2022-02-24 江苏大学 一种适用于大规模数据的降维、关联分析方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510880B (zh) * 2022-04-19 2022-07-12 中国石油大学(华东) 一种基于傅里叶变换和几何特征的有杆泵工况诊断方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413551B (zh) * 2013-07-16 2015-11-18 清华大学 基于稀疏降维的说话人识别方法
CN108682007B (zh) * 2018-04-28 2021-09-10 华中师范大学 基于深度随机森林的jpeg图像重采样自动检测方法
US10803627B2 (en) * 2018-09-20 2020-10-13 At&T Intellectual Property I, L.P. Enabling secure video sharing by exploiting data sparsity
CN112149045A (zh) * 2020-08-19 2020-12-29 江苏大学 一种适用于大规模数据的降维、关联分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022037012A1 (zh) * 2020-08-19 2022-02-24 江苏大学 一种适用于大规模数据的降维、关联分析方法
CN113743485A (zh) * 2021-08-23 2021-12-03 江苏大学 一种基于傅里叶域主成分分析的数据降维方法
WO2023024210A1 (zh) * 2021-08-23 2023-03-02 江苏大学 一种基于傅里叶域主成分分析的数据降维方法

Also Published As

Publication number Publication date
WO2022037012A1 (zh) 2022-02-24

Similar Documents

Publication Publication Date Title
Kumar et al. Pruning filters with L1-norm and capped L1-norm for CNN compression
Wang et al. Pruning from scratch
CN112149045A (zh) 一种适用于大规模数据的降维、关联分析方法
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
Zeng et al. A GA-based feature selection and parameter optimization for support tucker machine
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
CN109886464B (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN114580747A (zh) 基于数据相关性和模糊系统的异常数据预测方法及系统
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN111401413A (zh) 一种基于优化理论的带规模约束的并行聚类方法
CN110619311A (zh) 一种基于eemd-ica-svm的数据分类方法
CN113221992A (zh) 一种基于l2,1范数的大规模数据快速聚类方法
CN113743485A (zh) 一种基于傅里叶域主成分分析的数据降维方法
CN109858543B (zh) 基于低秩稀疏表征和关系推断的图像可记忆度预测方法
Ding et al. Efficient model-based collaborative filtering with fast adaptive PCA
Jackson et al. Bayesian unsupervised signal classification by Dirichlet process mixtures of Gaussian processes
WO2022188711A1 (zh) Svm模型的训练方法、装置、设备和计算机可读存储介质
CN109902720A (zh) 基于子空间分解进行深度特征估计的图像分类识别方法
Nabatian et al. An adaptive scaling technique to quantum clustering
CN111738298B (zh) 一种基于深宽可变多核学习的mnist手写数字数据的分类方法
Wang et al. A fast and scalable joint estimator for learning multiple related sparse gaussian graphical models
Shu-Juan Fast incremental spectral clustering in titanate application via graph Fourier transform
Zhang et al. Contraction of a quasi-Bayesian model with shrinkage priors in precision matrix estimation
CN113449817B (zh) 基于幻影梯度的图像分类隐式模型加速训练方法
Berglund et al. Zeroth-order randomized subspace Newton methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229