CN112149045A

CN112149045A - 一种适用于大规模数据的降维、关联分析方法

Info

Publication number: CN112149045A
Application number: CN202010835235.8A
Authority: CN
Inventors: 沈项军; 徐兆瑞
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-29
Also published as: WO2022037012A1

Abstract

本发明公开了一种适用于大规模数据的降维、关联分析方法，通过将高维数据投影到傅里叶域，将线性关联分析的求解特征向量问题转化为寻找有意义的傅里叶域基。由于傅里叶域基是预先定义的，且数据的特征值分布是有序的，因此通过将训练样本分批次输入来加速训练，直到所需的傅立叶基稳定有序。确定傅里叶基个数与投影矩阵，将所述投影矩阵与所述高维数据集相乘从而得到低维数据集，以方便数据的快速处理。本发明的数据降维方法，基于快速傅里叶变换和关联分析，可以去除高维度数据集中的噪声和冗余信息，减少数据处理中不必要的运算过程，提高数据降维计算中的运行速度和内存使用效率。

Description

一种适用于大规模数据的降维、关联分析方法

技术领域

本发明属于计算机科学和图像处理技术邻域，尤其是一种适用于大规模数据的降维、关联分析方法。

背景技术

传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时，随着大数据处理和云计算所产生的数据维度不断增加，在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。

典型关联分析(Canonical Correlation Analysis，CCA)是最常用的挖掘数据关联关系的算法之一，也是一种降维技术，可用于检验数据的相关性，以及找到可以强调这些相关性的数据变换表示。典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合)，用这些指标的相关关系来表示原来的两组变量的相关关系，它可以帮助理解底层数据结构、聚类分析、回归分析和许多其他任务。

然而，尽管典型关联分析表现出了良好的性能，但由于其计算复杂度高，因此在海量数据处理问题中的应用受到限制。为了处理大规模数据，人们提出了许多优化技术来加速相关分析算法。根据解决这一问题的不同策略，现有的优化技术大致可以分为以下两类：一种是使用Nystrom的矩阵近似技术，它通过将计算出的子矩阵特征向量用于近似原矩阵特征向量，来降低特征分解步骤的计算代价。另一种方法是使用Random Fourier Features来近似矩阵，该方法可将原来的KCCA问题转化为一个高维的线性CCA问题。然而，上述方法虽然解决了海量数据的应用处理问题，但它们在速度和内存效率等方面的利用仍不够充分，海量数据的快速高效计算依然是我们面临的问题。

发明内容

针对现有技术中存在的不足，本发明提出了一种适用于大规模数据的降维、关联分析方法，通过优化关联分析的求解特征向量问题为寻找有意义的傅里叶域基，以及分批次输入训练，用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率，并且提供对海量数据进行关联分析的支持和加速。

本发明所采用的技术方案如下：

一种适用于大规模数据的降维、关联分析方法，包括如下步骤：

步骤1，数据初始化，采集数据样本集X(M₁×N)和Y(M₂×N)作为所需的数据集，且初始化当前批次数j、维度参数M、初始的M×M维零矩阵Λ₀、随机傅里叶基集合P₀和离散傅里叶矩阵F；其中，M₁和M₂分别表示数据集X和Y的维度，N是数据的样本数量；

步骤2，构造批量样本的傅里叶数据表达，随机输入数量为b的批量样本集

和

通过零元素填充的方式分别将X_b和Y_b增加至M维；分别对X_b、Y_b中的样本x_i、y_i进行傅里叶变换得到

步骤3，对于每批次随机输入的样本X_b，Y_b，计算该批次样本所获得的特征值矩阵Λ_b，随着小批量样本的不断输入，将每一批样本所获特征值矩阵Λ_b添加到Λ_j，用Λ_j表示在输入第j次部分样本后的特征值的累积，该过程表示为：

Λ_j←Λ_j-1+Λ_b；

其中，Λ_j-1表示在输入j-1批次样本后所获得的特征值累积。

步骤4，获得批量样本的傅里叶投影基，将

取为F的列向量。对特征值矩阵Λ_j的对角元素λ₁，λ₂，...，λ_M进行升序排序，选取前r个最小的特征值λ₁，λ₂，...，λ_r所对应的矩阵F中的傅里叶基

构成当前的投影集合

r是预先设定的所需傅里叶投影基个数。

步骤5，若集合P_j与P_j-1相同，则结束执行步骤2～4，并获得所需的傅立叶基

作为最终的傅里叶投影基，否则执行步骤2～4，并更新当前输入的批次数，j←j+1。

步骤6，对集合P_j中每一个傅里叶投影基执行反傅里叶变换

i＝1，...，r，构成投影矩阵V′＝[p₁ p₂ … p_r]；将高维数据集X与投影矩阵V′^T相乘，即得到降维后的数据集X′＝V′^TX。

进一步，维度参数M要求满足M≥M₁且M≥M₂；

进一步，离散傅里叶矩阵(DFT)F表示为：

其中，ω是一个复数且可被表示为ω＝e^-2πi/M，i为虚数单位。

进一步，批量样本X_b和Y_b是根据阈值g，随机输入数量为b＝N*g的批量样本；

进一步，x_i、y_i进行傅里叶变换得到

分别表示为：

其中，

分别是傅里叶变换的生成向量，

分别表示对向量x_i、y_i进行快速傅里叶变换，F是离散傅里叶矩阵；

进一步，按照如下方式得到当前批次的批量样本X_b和Y_b的特征值:

其中，1./是对向量每个元素的倒数运算，λ为拉格朗日因子；b是批量样本的数量；

分别是

的复共轭矩阵；⊙是矩阵中元素的点乘运算；diag表示将向量转化为主对角线为向量元素的对角矩阵；

为训练数据集X的主投影向量，即特征向量；F^H是傅里叶矩阵F的共轭转置，H表示共轭转置运算。对于每批次随机输入的样本X_b，Y_b，我们可以得到Λ_b：

其中，Λ_b为该批次样本所获得的特征值矩阵。

本发明的有益效果：

1、利用数据序列可重复性的特点对数据进行傅里叶域建模。利用快速傅里叶变换方法从频域的角度来观察时间序列中每个数据点，构造成新型基于傅里叶域的关联分析算法。找到关联分析的投影目标可以通过找到预先定义好的有意义的傅里叶基来实现。

2、由于傅里叶域的运算性质，我们可以通过简单的傅里叶域的矩阵点积运算来避免在时域进行复杂的矩阵求逆运算。

3、为了有意义的获得傅里叶基，训练的过程不需要加载所有的数据样本，只需要加载几批数据样本，直到追求傅里叶基的顺序稳定为止，这无疑可以更高效的使用内存。

4、通过优化关联分析的求解特征向量问题为寻找有意义的傅里叶域基，以及分批次输入训练，用稳定有序的部分样本特征值近似获得全局样本的特征值分布。进而提高数据降维过程的运算速度和内存利用率，并且提供对海量数据进行关联分析的支持和加速。

附图说明

图1是本发明提出的方法的主流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示的一种适用于大规模数据的降维、关联分析方法，包括如下步骤：

步骤1，数据初始化，采集数据样本集X(M₁×N)和Y(M₂×N)作为所需的数据集。在此说明M₁和M₂分别表示数据集X和Y的维度，即将X和Y的每一行作为数据的一种属性；X＝[x₁x₂ ... x_N]，同理，Y＝[y₁ y₂ ... y_N]，N代表的是数据的样本数量，即每一列向量(即x_i和y_i，i＝1，2，...N)表示数据样本在相同维度下的所有的值。

初始化参数：j、M、Λ₀、F、P₀。其中，j表示分批次训练的当前批次数，且j＝1；M是为了获得更精细的特征向量而构造的维度参数，M＞M₁且M＞M₂；Λ₀表示初始的M×M维零矩阵；P₀是一个随机傅里叶基集合，P₀集合的元素为离散傅里叶矩阵(DFT)F的列向量。离散傅里叶矩阵(DFT)F表示为：

步骤2，构造批量样本的傅里叶数据表达。

根据阈值g，随机输入数量为b＝N*g的批量样本

和

g取0.5％～5％。以数据集X_b为例，对数据集X_b中的每个样本

通过零元素填充增加至M维，即

其中，

分别表示样本点x_i在不同属性下的值。利用快速傅里叶变换方法从频域的角度来观察数据：

其中，

表示对向量x_i进行快速傅里叶变换；F是离散傅里叶矩阵；

是傅里叶变换的生成向量，用∧表示快速傅里叶变换的生成向量。同理，对数据集Y_b中的每个样本向量

通过零元素填充增加至M维，并进行快速傅里叶变换

步骤3，获得批量样本的特征值。

按照如下方式得到当前批次的批量样本X_b和Y_b的特征值：

分别是

为训练数据集X的主投影向量，即特征向量；F^H是傅里叶矩阵F的共轭转置，H表示共轭转置运算。根据公式(2)，对于每批次随机输入的样本X_b和Y_b，我们可以得到：

其中，Λ_b为该批次样本所获得的特征值矩阵。我们用Λ_j表示在输入第j次部分样本后的特征值的累积，j表示当前输入的批次数。随着小批量样本的不断输入，将每一批样本所获特征值矩阵Λ_b添加到Λ_j，

Λ_j←Λ_j-1+Λ_b (4)

其中，Λ_j-1表示在输入j-1批次样本后所获得的特征值累积。

步骤4，获得批量样本的傅里叶投影基。

根据公式(2)，将

取为F的列向量，对特征值矩阵Λ_j的对角元素λ₁，λ₂，...，λ_M进行升序排序，选取前r个最小的特征值λ₁，λ₂，...，λ_r所对应矩阵F中的傅里叶基

构成当前的投影集合

其中，r是预先设定的所需傅里叶投影基个数，此处取值为50。

作为最终的傅里叶投影基。否则执行步骤2～4，并更新当前输入的批次数，j←j+1。

步骤6，对集合P_j中每一个傅里叶投影基执行反傅里叶变换

i＝1，...，r，获得投影矩阵V′＝[p₁ p₂ … p_r]。将高维数据集X与投影矩阵V′^T相乘，即得到降维后的数据集X′＝V′^TX。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种适用于大规模数据的降维、关联分析方法，其特征在于，包括如下步骤：

和

步骤3，对于每批次随机输入的样本X_b，Y_b，计算该批次样本所获得的特征值矩阵Λ_b，随着小批量样本的不断输入，将每一批样本所获特征值矩阵Λ_b添加到Λ_j，用Λ_j表示在输入第j次部分样本后的特征值的累积，表示为：Λ_j←Λ_j-1+Λ_b；其中，Λ_j-1表示在输入j-1批次样本后所获得的特征值累积；

步骤4，获得批量样本的傅里叶投影基，将