CN108734206B

CN108734206B - 一种基于深度参数学习的最大相关主成分分析方法

Info

Publication number: CN108734206B
Application number: CN201810441389.1A
Authority: CN
Inventors: 孙艳丰; 陈浩然; 胡永利
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2020-04-14
Anticipated expiration: 2038-05-10
Also published as: CN108734206A

Abstract

本发明公开了一种基于深度参数学习的最大相关主成分分析方法，其针对具有非线性结构的高维数据能够有效地降维。这种基于深度参数学习的最大相关主成分分析方法，利用深度参数化的方法逼近未知但存在的非线性函数，把具有非线性结构的高维数据映射为具有线性结构的同维度数据，然后利用主成分分析对数据降维。

Description

一种基于深度参数学习的最大相关主成分分析方法

技术领域

本发明属于数据处理，尤其是人脸数据库的数据降维的技术领域，具体地涉及一种基于深度参数学习的最大相关主成分分析方法。

背景技术

在大数据时代，面临着越来越多的数据分析和数据处理任务。面对这些任务时，主要存在两个问题。一是，在现实世界中，通常获取到的是更高维形式的数据。这些数据一般是把隐藏在低维子空间或者流形的本征低维结构嵌入在高维数据空间。高维度不仅需要更多的存储空间和计算成本，而且由于维度“诅咒”也增加了数据分析的难度。二是，现实世界的数据很可能被各种各样的噪声所破坏，这阻碍了分析数据中真实的信息和存在的相关性。

为了准确、高效地处理这些真实世界的数据，人们总是努力从原始的高维数据中降低数据的维数和提取出重要的特征。其中主成分分析(PCA)是一种标准工具，可以从带噪声的或高维数据中提取相关特征信息。通过最小的努力，PCA提供了一种基本的方法来揭示隐藏的或简化的结构，并将高维数据降到更低的维度。在一些科学研究领域中，PCA有着广泛的应用，如图像分析，模式识别和机器学习。然而，PCA只考虑变量(特征)之间的线性相关性，不适用一些具有非线性相关结构的数据，比如瑞士卷数据。由于大多数真实世界数据是非线性，这将限制PCA的应用。

为了解决PCA的这一缺点，许多科研人员致力于研究非线性降维方法。有人提出了核PCA(KPCA)方法，它是在特征空间中改写传统的PCA，通过使用核技巧，在一个再生核Hilbert空间中执行传统的线性算子PCA。事实上，一个大的数据集会导致一个大的核矩阵，而存储核矩阵可能变得困难。此外，如何选择合适的核函数完全取决于经验和列举。为了解决这个问题，最大方差展开(MVU)尝试学习一个核矩阵。然而，MVU增加了优化问题的约束，这可能不利于展开数据所在的流形空间。等距特征映射算法(Isomap)也是一种通过在低维流形上或者附近点保持数据两点间的测地线距离来展开数据的方法。Isomap基于每个数据点邻域的粗略计算，对估计数据流形的本征几何提供了一种简单的方法。然而，Isomap可能在邻域图中建立错误的连接，如短路。为了克服Isomap的缺点，提出了几种改进的Isomap方法。它们确实取得了良好的效果，但也缩小了Isomap的应用范围。

与前面提到的关于全矩阵特征分解的非线性降维方法相比，局部线性嵌入(LLE)也侧重于保持数据的局部结构。与Isomap相比，它具有几个优点，包括在执行稀疏矩阵算法时实现更快的优化，有很多问题可以获得更好的结果。然而，当大比例的数据在低维空间中保持集中，或者遇到包含洞的流形时，可能会表现较差的性能。另一类降维方法是优化非凸目标函数，如多层自编码，局部线性调和(LLC)，Sammon映射。多层自编码是这些方法中应用最广泛的一种。多层自编码可以看作是非线性PCA，它使用自适应多层“编码器”网络将高维数据转换为低维代码，以及类似的“解码器”网络，从低维代码中恢复数据。自编码的目标是从数据集中学习的一种表示(编码)，通常是为了达到降维的目的。自编码已经成功地应用于数据的生成模型。然而，他们的训练可能很复杂。

另一种类型的PCA是最大相关主成分分析(MCPCA)，它首先通过线性或者非线性的转移算子，把数据映射到同纬度空间。然后最大化映射后得数据的协方差的q-Ky Fan范数(协方差矩阵的前q个最大的特征值之和)。然而，寻找转移算子是一项艰巨的任务。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于深度参数学习的最大相关主成分分析方法，其针对具有非线性结构的高维数据能够有效地降维。

本发明的技术解决方案是：这种基于深度参数学习的最大相关主成分分析方法，利用深度参数化的方法逼近未知但存在的非线性函数，把具有非线性结构的高维数据映射为具有线性结构的同维度数据，然后利用主成分分析对数据降维。

本发明通过学习来对转移算子进行参数化，该方法对各个特征采用相互独立的映射链，与神经网络的正向传播结构相似，但变量间的相互作用是独立的。因此，每个映射链只有一个输入变量，并逼近非线性转移算子。该方法利用深度参数化的方法逼近未知但存在的非线性函数，把具有非线性结构的高维数据映射为具有线性结构的同维度数据，然后利用主成分分析对数据降维，因此针对具有非线性结构的高维数据能够有效地降维。

附图说明

图1示出了几种人脸数据库的采样。

图2是图1的数据使用降维方法，基于1-NN分类器获得的相对于降维维度的准确度。

具体实施方式

这种基于深度参数学习的最大相关主成分分析方法，利用深度参数化的方法逼近未知但存在的非线性函数，把具有非线性结构的高维数据映射为具有线性结构的同维度数据，然后利用主成分分析对数据降维。

优选地，该方法包括以下步骤：

(1)提出目标函数；

(2)对目标函数优化。

优选地，所述步骤(1)中：

对于给定的原始数据集，表示为

其中m和分别表示原始数据的维度和样本个数，原始数据X⁽⁰⁾已经中心化；

定义公式(1)的数据流

其中

是权重，

是偏值项，diag(·)表示把一个向量映射成一个对角矩阵，激活函数

以及

表示元素全为1的向量；使用φ表示对原始数据的非线性变换,X⁽²⁾＝φ(X⁽⁰⁾)；通过最大化映射后的数据X⁽²⁾的协方差的q-FyFan范数，使协方差矩阵具有低秩属性。

优选地，目标函数为公式(2)

优选地，在所述步骤(2)中：

考虑矩阵K的奇异值分解，K＝Udiag(λ)V^T，其中λ＝(λ₁，λ₂，…，λ_m)^T表示K的m个由大到小排列的奇异值；diag(λ)＝U^TKV以及λ_i＝U(：，i)^TKV(：，i)；当K是一个正定对称矩阵时，U＝V；协方差矩阵被认为是对称正定矩阵，q-Ky Fan范数(q≤m)写成公式(3)

关于变量w₁，w₂，b₁和b₂的导数,写为公式(11)

令θ＝[w₁，w₂，b₁，b₂]，J关于θ的导数为

优选地，在所述步骤(2)中：获得目标函数关于变量的导数或者梯度后，采用最速下降法或者共轭梯度法逼近目标函数的最优点。

现在给出一个本发明的详细实施例。

该技术方案主要分为两个步骤，一是提出目标函数，二是对目标函数优化。

(1)提出目标函数

对于给定的原始数据集，表示为

其中m和n分别表示原始数据的维度和样本个数。为了不失一般性，原始数据X⁽⁰⁾已经中心化。深度参数化方法(以两层为例进行解释)定义下面的数据流

其中

是权重，

是偏值项。diag(·)表示把一个向量映射成一个对角矩阵。激活函数

以及

表示元素全为1的向量。

使用φ表示对原始数据的非线性变换,是对深度参数化方法的简化记号。即X⁽²⁾＝φ(X⁽⁰⁾)。MCPCADP通过最大化映射后的数据X⁽²⁾的协方差的q-Fy Fan范数，使协方差矩阵具有低秩属性。即，考察目标函数

(2)目标函数优化

为了优化该目标函数，需要对目标函数进行反向求导。由于目标函数时一个多层的复合函数，根据求导链式法则，需要对目标函数逐层求导。为了表述严格，使用微分符号代替导数符号。

考虑矩阵K的奇异值分解，K＝Udiag(λ)V^T，其中λ＝(λ₁，λ₂，…，λ_m)^T表示K的m个由大到小排列的奇异值。则diag(λ)＝U^TKV以及λ_i＝U(：，i)^TKV(：，i)。特别的，当K是一个正定对称矩阵时，有U＝V。协方差矩阵一般认为是对称正定矩阵。那么q-Ky Fan范数(q≤m)可以写成

为了给出J关于K的微分，给出下面定理

定理1考虑矩阵对称正定矩阵K的SVD分解，K＝Udiag(λ)U^T。则q-Ky Fan范数J关于K的导数行形式为

其中

表示U的前q列。

证明根据(3)式，可得

则

注意到

其中I是一个单位矩阵。则公式(4)可以写成

证毕。

因此J关于K的微分是

其中K：表示把矩阵K的每一列连成一个长向量，

因为有

可以得到K关于X⁽²⁾的微分

其中

表示Kronecker积,T_m，m是一个向量化的转置矩阵，即X^T：＝T_m，nX：，以及

接下来，根据深度参数化方法(1)式，X⁽²⁾＝g(H⁽²⁾)，其中g是一个变量元素对应一个变量元素的映射，得到微分

dX⁽²⁾：＝g′(H⁽²⁾)：⊙dH⁽²⁾：， (7)

其中⊙表示Hadamard积。结合(5)，(6)和(7)式，可得

其中

表示对矩阵M的每一行与向量g′(H⁽²⁾)：^T做Hadamard积。则行向量

根据H⁽²⁾＝diag(w₂)X⁽¹⁾+b₂*1^T,可以得到

其中

表示Khatri-Rao积，即对A＝[a₁，a₂，…，a_n],B＝[b₁，b₂，…，b_n]，

深度参数方法第一层的微分与第二层的微分相似，我们直接给出

其中dX⁽⁰⁾＝0。因此J关于变量w₁，w₂，b₁和b₂的微分写成

其中行向量

写成导数形式，可得J关于变量w₁，w₂，b₁和b₂的导数,分别写为,

令θ＝[w₁，w₂，b₁，b₂]，则J关于θ的导数为

一旦获得了目标函数关于变量的导数或者梯度，可以采用现有的最速下降法或者共轭梯度法逼近目标函数的最优点。

本发明选用合成数据库Swiss roll数据库和四个自然数据库，即，Yale，ORL，CMU-PIE,Dyntex++视频数据库(如图2(a)、(b)、(c)、(d)所示)。选用的对比方法包括PCA和其他广泛采用的非线性降维方法，如KPCA，Siomap，LLE，多层自动编码器(Autoencodes)，MCPCA。这些实验是为了证明提出的算法MCPCADP对具有非线性结构数据降维的有效性。

1数据准备

在实验中使用了以下几个数据库：

●Swiss roll database

(http://people.cs.uchicago.edu/～dinoj/manifold/swissroll.html).

●Yale face database

(http://vision.ucsd.edu/content/yale-face-database).

●ORL face database

(http://www.cl.cam.ac.uk/research/dtg/att-archive/facedatabase.html.

●CMU Multi-PIE face database

(https://www.flintbox.com/public/project/4742/).

●Dynamic++texture database

(http://vision.ai.uiuc.edu/～bghanem2/DynTex++.htm).

Swiss roll数据是一个由光滑的非线性函数把2维数据映射成3维数据，创建的数据库。原始数据是一个高斯混合模型(7.5,7.5)，(7.5,12.5)，(12.5,7.5)和(12.5,12.5)中随机采样400个点。每个高斯分布的协方差是2x2的单位矩阵。这些数据点可以被记录为一个1600x2矩阵。它的标签是一个1600x1向量(标签为1,2,3或4)，标签是取决于是哪个混合模型生成的这个点。然后把这个2维数据通过下面函数映射成3维数据瑞士卷

f：(x，y)→(x cos x，y，x sin x)， (12)

结果是形成的数据库是一个1600×3矩阵。将每个类数据集的200个点随机选择为训练数据集，其余的点用于测试。

第二个数据库是Yale人脸数据库，包括15个人，每人11张图片，共有165

张图片。每个人都提供的图片具有不同的面部表情或不同的外部条件，比如，中心灯，带眼镜，或不戴眼镜，正常，右光，悲伤，困倦，惊讶和眨眼等等。图1(a)显示了来自该数据库的一些样本图像。在实验中，每个人的前8张图像作为训练样本，其余的图像用于测试。每幅图像的像素缩放到32x32的分辨率，然后拉成为1024维向量。下面的数据库被调整为相同的大小和向量化。

第三个数据库是ORL数据库，包括40个有400个图像的人，每个人提供11种不同的图像，不同的灯光，面部表情(开/闭的眼睛，微笑/不微笑)和面部细节(眼镜/不戴眼镜)。每个人的前8张图像用于训练，其余的图像用于测试。图1(b)显示了一些样本图像。

第四个数据库，CMU-PIE是一个广泛使用的面部数据库，有68人，超过40000张图片。我们总共使用11554张人脸图像。在实验中，随机抽取每个人的120张图像作为训练样本，剩下的图像用于测试。在图1(c)中显示一些样本图像。

最后一个数据库是DynTex++数据库，一个动态纹理视频集。从656个视频序列中选择345个视频序列，剪辑出3600个视频。视频的场景包括飞鸟、车辆、河水、云朵等等。这些视频片段共分为36个类，每个类包括大小为50x 50x50d的100个视频片段。如图1(d)中显示了DynTex++的一些样本。在本实验中，随机选择50个视频片段作为训样本，其他50个视频片段作为测试样本。对于每个视片段，使用LBP-Top特性，然后通过SVD提取线性不变结构。调整视频片段为177×1矩阵。根据在高斯核函数,采用Grassmann测地线距离，获得核矩阵。

2实验结果分析

基于1-最近邻分类器(1-NN),本发明的MCPCADP与对比算法PCA,KPCA,Isomap，LLE,Autoencoders，MCPCA一起比较在数据集上的分类准确率(见表1)。

Database	PCA	KPCA	Isomap	LLE	Autoencoder	MCPCA	MCPCADP
								Swiss roll	0.7138	0.7588	0.8675	0.9288	0.9000	0.2488	0.9650

表1

Swiss roll数据库是一个3维具有“流形”非线性结构的合成数据库，隐含着2维的本征结构。从Swiss roll数据库到起本征维度数据的降维是非线性。

到内在数据库。因此，Swiss roll数据库是一个测试非线性降维算法的理想数据库。

如表1所示，给出了各个算法基于1-NN分类器的分类准确率。因为MCPCA没有考虑数据的局部邻域，所以在Swiss roll数据库表现较差。我们提出的MCPCADP和其他线性或者非线性的降维方法比较，具有明显的优势。这说明MCPCADP通过深度参数学习，具有较强的提取特征能力和泛化能力。

接下来，将使用Yale、ORL、CMU-PIE face数据库和DynTex++纹理数据库等四个自然数据库进行基于1-NN分类器的实验。它们也都是公开的数据集，具有不同的挑战性，广泛应用于模式识别领域。在图2(a)、(b)和(d)中，本发明的MCPCADP具有最高的分类准确率。在图2(c)中，对数据降维到大于3时，自编码具有最好的性能，MCPCADP具有次优的性能。

从图2中可以看出，MCPCA表现并不出色，这可能是与因为数据样本没有对齐有关。从这一点可以看出，通过深度参数化学习的MCPCADP比MCPCA更具有鲁棒性。此外，当MCPCADP模型训练完成，任何测试数据都可以通过训练的参数直接降维，然而，MCPCA需要重新寻找非线性变换。从图2中可以看出，MCPCADP非常适合从原始的高维数据中提取非线性特征，以及具有较好的适用性。图2(d)没有对比KPCA方法，是因为DynTex++数据库已经被核方法处理过。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。