CN113743485A

CN113743485A - 一种基于傅里叶域主成分分析的数据降维方法

Info

Publication number: CN113743485A
Application number: CN202110968131.9A
Authority: CN
Inventors: 沈项军; 徐兆瑞; 刘志锋
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-03
Also published as: WO2023024210A1

Abstract

本发明公开了一种基于傅里叶域主成分分析的数据降维方法，通过将高维数据投影到傅里叶域，利用循环矩阵和傅里叶矩阵的性质，将主成分分析的求解特征向量问题转化为寻找有意义的傅里叶域基。由于傅里叶域基是预先定义的，且数据的主成分分布是有序的，因此可以通过将训练样本分批次输入来加速训练，直到所需的傅立叶基稳定有序。确定傅里叶基个数与投影矩阵，将所述投影矩阵与所述高维数据集相乘得到低维数据集，以方便数据的快速处理。本发明提供的数据降维方法，基于主成分分析和快速傅里叶变换，可以去除高维度数据集中的噪声和冗余信息，减少数据处理中不必要的运算过程，提高算法的运行速度和内存效率。

Description

一种基于傅里叶域主成分分析的数据降维方法

技术领域

本发明属于计算机科学和图像处理技术邻域，尤其是一种基于傅里叶域主成分分析的数据降维方法。

背景技术

传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时，随着大数据处理和云计算所产生的数据维度不断增加，为了去除高维度数据集中的噪声和冗余信息，减少数据处理中不必要的运算过程，提高算法的运行效率，对高维数据进行降维处理也更加必要。

主成分分析(Principal Component Analysis，PCA)是一种高级的数据探索算法，可用于寻找数据中的模式，以及找到可以强调这些模式的数据变换表示。主成分分析通过原始数据集坐标轴的正交旋转，使得原本分散的样本点在旋转后集中在某一些特征坐标轴的附近，当忽略承载原始信息量小的那些主成分时，即达到了对原始数据降维的效果，实现了数据的压缩。主成分分析是一种强大的数据转换技术，您可以应用此技术，再进行进一步的分析工作。这种方法在您遇到高维数据集时非常实用，它可以帮助理解底层数据结构、聚类分析、回归分析和许多其他任务。

然而，尽管主成分分析表现出了良好的性能，但由于其计算复杂度高，因此在海量数据处理问题中的应用受到限制。为了处理大规模数据，人们提出了许多优化技术来加速主成分分析算法。根据解决这一问题的不同策略，现有的优化技术大致可以分为以下两类：一种是使用Nystrom的矩阵近似技术，它通过将计算出的子矩阵特征向量用于近似原矩阵特征向量，来降低特征分解步骤的计算代价。另一种方法是使用Random Fourier Features来近似矩阵，该方法可将原来的KPCA问题转化为一个高维的线性PCA问题。然而，上述方法虽然解决了海量数据的应用处理问题，但它们在速度和内存效率等方面的利用仍不够充分，海量数据的快速高效计算依然是我们面临的问题。

发明内容

为了解决现有技术中存在的不足，本发明提出了一种基于傅里叶域主成分分析的数据降维方法，利用快速傅里叶变换方法从频域的角度来观察序列中每个数据点，构造成新型基于傅里叶变换的主成分分析算法。通过优化主成分分析的求解特征向量问题为寻找有意义的傅里叶域基，以及分批次输入训练，用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维的运算速度和内存利用率，并且提供对大规模数据进行主成分分析的支持和加速。

本发明所采用的技术方案如下：

一种基于傅里叶域主成分分析的数据降维方法，包括如下步骤：

步骤1，数据初始化，采集数据样本集X作为所需的数据集，X为M×N维的矩阵；且初始化当前批次数j、初始的M×N维零矩阵Λ₀、随机傅里叶基集合P₀和离散傅里叶矩阵F； M表示数据集X的维度，N是数据的样本数量；

步骤2，构造批量样本以及批量样本的傅里叶数据表达，随机输入数量为b的批量样本集X_b∈R^M×b，对X_b中的样本向量x_i进行傅里叶变换得到

步骤3，对于每批次随机输入的批量样本集X_b，计算该批次的批量样本集X_b所获得的特征值矩阵Λ_b，表示为：

是

的复共轭矩阵；

随着小批量样本的不断输入，将每一批次的批量样本集X_b所获特征值矩阵Λ_b添加到Λ_j，用Λ_j表示在输入第j批次批量样本集后的特征值的累积，该过程表示为：Λ_j←Λ_j-1+Λ_b；其中，Λ_j-1表示在输入j-1批次样本集X_b后所获得的特征值累积；

步骤4，获得批量样本集的傅里叶投影基，将

取为F的列向量；对特征值矩阵Λ_j的对角元素λ₁，λ₂，...，λ_M进行升序排序，选取最小的前r个特征值λ₁，λ₂，...λ_r所对应的矩阵F中的傅里叶基

构成当前的投影集合

r是预先设定的所需傅里叶投影基个数；

步骤5，若集合P_j与P_j-1相同，则结束执行步骤2～4，并获得所需的傅立叶基

作为最终的傅里叶投影基，否则执行步骤2～4，并更新当前输入的批次数， j←j+1；

步骤6，对集合P_j中每一个傅里叶投影基执行反傅里叶变换

i＝1，...，r，构成投影矩阵V′＝[p₁ p₂ … p_r]；将高维数据集X与投影矩阵V′^T相乘，即得到降维后的数据集X′＝V′^TX。

进一步，设置阈值g，批量样本集X_b的样本数量为b＝N*g，b＜＜M。

进一步，阈值g取值0.5％～5％。

进一步，对样本向量x_i进行傅里叶变换得到

表示为：

其中，

是傅里叶变换的生成向量，

表示对向量x_i进行快速傅里叶变换，F是离散傅里叶矩阵；

进一步，获得样本向量x_i的方法为：将数据样本集表示为X＝[x₁ x₂ ... x_N]，由数据样本集X中的第i列数据样本构成样本向量x_i，i＝1，2，...N，N代表的是数据样本的数量；样本向量x_i中包含第i列中M个维度的数据样本。

进一步，在本实施例中，

是由样本x_i构造的循环矩阵，表示为：

其中，circ表示对向量x_i进行移位构造对应的循环矩阵

这种循环矩阵的特性就是可以被傅里叶变换对角化，

F^H＝(F^*)^T是傅里叶矩阵F的共轭转置，H表示共轭转置运算。按照如下方式得到当前批次的批量样本X_b的特征值:

其中，λ为拉格朗日因子；b是批量样本的数量；

是

的复共轭矩阵；⊙是矩阵的元素点乘运算；diag表示将向量转化为主对角线为向量元素的对角矩阵；

为训练数据集X 的主投影向量，即特征向量。对于每批次随机输入的样本X_b，我们可以得到Λ_b：

其中，Λ_b为该批次样本所获得的特征值矩阵。

进一步，所述傅里叶域基向量为：

其中V是投影列向量v的集合，即V＝[v₁ v₂ … v_n]。

本发明的有益效果：

1、利用数据序列可重复性的特点对数据进行傅里叶域建模。利用快速傅里叶变换方法从频域的角度来观察序列中每个数据点，构造成新型基于傅里叶域的主成分分析算法。找到主成分分析的投影目标可以通过找到预先定义好的有意义的傅里叶基来实现。

2、由于傅里叶域的运算性质，我们可以通过简单的傅里叶域的矩阵点积运算来避免在时域进行复杂的矩阵求逆运算。

3、为了有意义的获得傅里叶基，训练的过程不需要加载所有的数据样本，只需要加载几批数据样本，直到追求傅里叶基的顺序稳定为止，这无疑可以更高效的使用内存。

4、通过优化主成分分析的求解特征向量问题为寻找有意义的傅里叶域基，以及分批次输入训练，用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率，并且提供对海量数据进行主成分分析的支持和加速。

附图说明

图1是本发明提出的方法的主流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示的一种基于傅里叶域主成分分析的数据降维方法，包括如下步骤：

步骤1，数据集准备，采集数据样本集X(M×N)作为所需的数据集，将数据样本集表示为X＝[x₁ x₂ ... x_N]，由数据样本集X中的第i列数据样本构成样本向量x_i， i＝1，2，...N，N代表的是数据样本的数量；样本向量x_i中包含第i列中M个维度的数据样本。

初始化参数：j、Λ₀、F、P₀。其中，j表示分批次训练的当前批次数，且j＝1；Λ₀表示初始的M×M维零矩阵；F是离散傅里叶矩阵(DFT)；P₀是一个随机傅里叶基集合，P₀集合的元素为离散傅里叶矩阵(DFT)F的列向量。离散傅里叶矩阵(DFT)F表示为：

其中，V是投影列向量v的集合，即V＝[v₁ v₂ … v_n]，n是集合V的列数；ω是一个复数且可被表示为ω＝e^-2πi/M，i为虚数单位。

步骤2，构造批量样本及其傅里叶数据表达。

根据阈值g，随机输入数量为b＝N*g的批量样本X_b∈R^M×b，g取0.5％～5％。对批量样本X_b进行快速傅里叶变换，利用快速傅里叶变换方法从频域的角度来观察数据，表示如下：

其中，

表示对向量x_i进行快速傅里叶变换；F是离散傅里叶矩阵；

是傅里叶变换后生成的向量，用∧表示快速傅里叶变换后生成向量。x_i表示数据样本集X中第i列向量。

步骤3，获得当前批量样本的特征值。

按照如下方式得到当前批次的批量样本X_b的特征值：

其中，λ为拉格朗日因子；b是批量样本的数量；

是

的复共轭矩阵；⊙是矩阵中元素的点乘运算；diag表示将向量转化为主对角线为向量元素的对角矩阵；

为训练数据集X 的主投影向量，即特征向量；F^H是傅里叶矩阵F的共轭转置，H表示共轭转置运算。根据公式(2)，对于每批次随机输入的样本X_b，可以得到：

其中，Λ_b为该批次样本所获得的特征值矩阵。我们用Λ_j表示在输入第j批次样本后的特征值的累积，j表示当前输入的批次数。随着小批量样本的不断输入，将每一批样本所获特征值矩阵Λ_b添加到Λ_j，

Λ_j←Λ_j-1+Λ_b (4)

其中，Λ_j-1表示在输入j-1批次样本后所获得的特征值累积。

步骤4，获得批量样本的傅里叶投影基。

根据公式(2)，将

取为F的列向量，对特征值矩阵Λ_j的对角元素λ₁，λ₂，...，λ_M进行升序排序，选取前r个最小的特征值λ₁，λ₂，...λ_r所对应矩阵F中的傅里叶基

构成当前的投影集合

其中，r是预先设定的所需傅里叶投影基个数，此处取值为50。

作为最终的傅里叶投影基。否则执行步骤2～4，并更新当前输入的批次数， j←j+1。

步骤6，对集合P_j中每一个傅里叶投影基执行反傅里叶变换

i＝1，...，r，获得投影矩阵V′＝[p₁ p₂ … p_r]。将高维数据集X与投影矩阵V′^T相乘，即得到降维后的数据集X′＝V′^TX。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于傅里叶域主成分分析的数据降维方法，其特征在于，包括如下步骤：

步骤1，数据初始化，采集数据样本集X作为所需的数据集，X为M×N维的矩阵；且初始化当前批次数j、初始的M×M维零矩阵Λ₀、随机傅里叶基集合P₀和离散傅里叶矩阵F；M表示数据集X的维度，N是数据的样本数量；

是

的复共轭矩阵；

步骤4，获得批量样本集的傅里叶投影基，将

构成当前的投影集合

r是预先设定的所需傅里叶投影基个数；

作为最终的傅里叶投影基，否则执行步骤2～4，并更新当前输入的批次数，j←j+1；

步骤6，对集合P_j中每一个傅里叶投影基执行反傅里叶变换

构成投影矩阵V′＝[p₁ p₂…p_r]；将高维数据集X与投影矩阵V′^T相乘，即得到降维后的数据集X′＝V′^TX。

2.根据权利要求1所述的一种基于傅里叶域主成分分析的数据降维方法，其特征在于，设置阈值g，批量样本集X_b的样本数量为b＝N*g，b＜＜M。

3.根据权利要求2所述的一种基于傅里叶域主成分分析的数据降维方法，其特征在于，阈值g取值0.5％～5％。

4.根据权利要求1所述的一种基于傅里叶域主成分分析的数据降维方法，其特征在于，对样本向量x_i进行傅里叶变换得到

表示为：

其中，

是傅里叶变换的生成向量，

表示对向量x_i进行快速傅里叶变换，F是离散傅里叶矩阵。

5.根据权利要求4所述的一种基于傅里叶域主成分分析的数据降维方法，其特征在于，获得样本向量x_i的方法为：将数据样本集表示为X＝[x₁ x₂...x_N]，由数据样本集X中的第i列数据样本构成样本向量x_i，i＝1，2，...N，N代表的是数据样本的数量；样本向量x_i中包含第i列中M个维度的数据样本。

6.根据权利要求1所述的一种基于傅里叶域主成分分析的数据降维方法，其特征在于，按照如下方式得到当前批次的批量样本X_b的特征值:

其中，λ为拉格朗日因子；b是批量样本的数量；

是

为训练数据集X的主投影向量，即特征向量。对于每批次随机输入的样本X_b，我们可以得到Λ_b：

其中，Λ_b为该批次样本所获得的特征值矩阵。

7.根据权利要求4所述的一种基于傅里叶域主成分分析的数据降维方法，其特征在于，所述傅里叶域基向量为：

其中，V是投影列向量v的集合，即V＝[v₁ v₂…v_n]，n是集合V的列数；ω是一个复数且可被表示为ω＝e^-2πi/M，i为虚数单位。