CN105389343A

CN105389343A - 一种向量化降维方法

Info

Publication number: CN105389343A
Application number: CN201510695870.XA
Authority: CN
Inventors: 孙艳丰; 句福娇; 胡永利; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2016-03-09
Anticipated expiration: 2035-10-23
Also published as: CN105389343B

Abstract

本发明公开了一种向量化降维方法，其识别率大大提高。所述方法包括步骤：(1)根据公式(1)的向量化降维模型，将张量数据表示成若干个基张量的线性组合；(2)将张量数据直接降维到一个向量数据,将样本Y_i重新写成投影基底W_k(k＝1，...，K)的线性组合，投影基底W_k与样本Y_i有相同的维度，得到2D数据的向量化的降维；(3)假设噪声满足矩阵高斯分布E_i的每个元素满足正态分布

Description

一种向量化降维方法

技术领域

本发明属于数据降维的技术领域，具体地涉及一种向量化降维方法。

背景技术

多模态数据和高维数据在现代计算机视觉的研究中随处可见。数据的高维度不仅增加了算法的复杂性和存储的开销，而且也降低了算法在实际应用中的广泛性。然而，高维数据往往是均匀分布在一个低维空间或流行空间上。所以，找到高维观测数据在低维空间中的一种映射关系已成为机器学习研究的一个具有挑战性的问题。在过去的几十年中，关于数据降维的算法已取得很大进展。

主成分分析(PrincipalComponentAnalysis,PCA)是一种广泛应用于模式识别和机器学习的降维方法。众所周知，PCA方法是一种向量化的降维方法，它可以将向量数据表示成一组基向量的线性组合形式。由于基向量的正交性，因此降维后的系数可以用来代表原始的向量数据。然而，今天的数据一般拥有更复杂的结构，例如，图像可以看做是2D数据。在2D数据上应用PCA方法，需要首先将数据向量化，而向量化不仅会产生维度灾难的问题，而且还会破坏高维数据的内在结构，从而忽略高维数据中的空间信息。与PCA不同的是，2DPCA算法是直接在2D数据上降维，即分别对行和列方向降维，降维后的系数仍是2D数据。

对于高阶张量数据，一种典型的降维方法是Tucker分解。WangandAhuja将高维的数据看成是张量，而不是矩阵或向量，并且提出了一种秩为1的分解算法(TROD)，这种分解方式是将张量分解成一组秩为1的张量和的形式。这种算法是对张量的每个维度降维，并且是通过对一个张量数据降维得到。

高阶张量的降维目前是一个具有挑战性的问题。经典的方法都是将张量数据向量化或是利用Tucker分解对高维数据降维，这样会得到较低阶张量或破坏原始张量数据的内部结构，从而识别率较低。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种向量化降维方法，其识别率大大提高。

本发明的技术解决方案是：这种向量化降维方法，所述方法包括以下步骤：

(1)根据公式(1)的向量化降维模型，将张量数据表示成若干个基张量的线性组合

其中给定样本集包含M个独立同分布的样本，这些样本可以组成一个三阶张量此张量的每一面是一个样本Y_i

h = {h_{i}}_{i = 1}^{M},

K表示降维后的维度；

(2)将张量数据直接降维到一个向量数据

Y_{i} = Σ_{k = 1}^{K} h_{k}^{(i)} W_{k} + E_{i} - - - (2)

公式(2)中表示h_i的第k个元素，W_k是张量的第k个面,将样本Y_i重新写成投影基底W_k(k＝1，...，K)的线性组合，投影基底W_k与样本Y_i.有相同的维度，得到2D数据的向量化的降维；

(3)假设噪声满足矩阵高斯分布E_i的每个元素满足正态分布为了应用以上模型，根据公式(3)给定隐变量一个先验分布：

假设满足Gamma分布：

p_{σ} (ρ) = Γ (ρ | a, b) = \frac{b^{a}}{Γ (a)} ρ^{a - 1} \exp {- b ρ}

对于公式(1)，假设handρ是模型的隐变量，是参数；根据公式(4)对于给定的样本极大化似然函数等价于极大化似然函数的对数值，

其中联合分布为：

其中，Y_i代表第i个样本，是降维基底，是样本Y_i在降维基底下的系数。

本发明引入了一种基于张量数据的概率方法的向量化降维模型，应用此模型可以将张量数据可以表示成若干个基张量的线性组合，这样它可以提供一种方法可以将张量数据直接降维到一个向量数据，所以其识别率大大提高。

附图说明

图1a是本方法和PCA的比较结果，这两种方法都是将数据映射到向量上。图1b是本方法和GLRAM，TUCKER的重构误差结果。

图2是GLRAM,B2DPCA和本方法在Yale数据库上的人脸识别率。

具体实施方式

这种向量化降维方法，所述方法包括以下步骤：

h = {h_{i}}_{i = 1}^{M},

K表示降维后的维度；

(2)将张量数据直接降维到一个向量数据

Y_{i} = Σ_{k = 1}^{K} h_{k}^{(i)} W_{k} + E_{i} - - - (2)

假设满足Gamma分布：

p_{σ} (ρ) = Γ (ρ | a, b) = \frac{b^{a}}{Γ (a)} ρ^{a - 1} \exp {- b ρ}

其中联合分布为：

优选地，所述方法还包括步骤(4)，假设基底满足CP分解的结构，应用基于变分EM算法的贝叶斯推断对公式(1)求解。

优选地，所述步骤(4)中，根据公式(5)求解的CP分解:

利用上次迭代的W⁽¹⁾，W⁽²⁾和W⁽³⁾作为下一次的初始值，当得到W⁽³⁾后，利用公式(6)求解W^(h)

W⁽³⁾＝M^TW^(h)(6)

进而可以将上述二阶数据的模型推广到高阶张量数据的降维中。

下面更详细地说明本方法。

1.张量数据贝叶斯方法的向量化降维模型

给定样本集包含M个独立同分布的样本。这些样本可以组成一个三阶张量此张量的每一面是一个样本Y_i。假设每个样本Y_i可以分解成一个隐变量的线性组合，即

其中

h = {h_{i}}_{i = 1}^{M},

以及K表示降维后的维度。换句话说，模型(1)可以表示成

Y_{i} = Σ_{k = 1}^{K} h_{k}^{(i)} W_{k} + E_{i}

其中表示h_i的第k个元素，以及W_k是张量的第k个面。在这种情况下,可以将样本Y_i重新写成投影基底W_k(k＝1，...，K)的线性组合.投影基底W_k与样本Y_i.有相同的维度。这样可以得到2D数据的向量化的降维。

假设噪声满足矩阵高斯分布即E_i的每个元素满足正态分布为了应用贝叶斯模型，进一步给定隐变量一个先验分布：

为了方便，假设满足Gamma分布：

p_{σ} (ρ) = Γ (ρ | a, b) = \frac{b^{a}}{Γ (a)} ρ^{a - 1} \exp {- b ρ}

对于给定的模型(1)，为了引入变分的学习算法,假设handρ是模型的隐变量，是参数。对于给定的样本极大化似然函数等价于极大化似然函数的对数值，

其中联合分布为：

2模型求解

对于上述模型，任务是求解模型参数使得似然函数极大。利用任意分布可以得到的下界函数：

上面的不等式成立是基于詹森不等式成立。第二个等式成立是基于假设有分离的形式,即这样变分EM算法的目的是求解极大化时的和

(1)迭代更新h_i的后验分布:

给定样本Y_i,可以证明h_i的后验分布仍是正态分布在(2)中,最后一项期望与h_i无关，因此只用计算前两项的期望值即可。在E步，求解m_i和Σ极大化下界函数。从而得到，

其中是K×K的对称矩阵，每个元素是p，q＝1，...K，a_i是一个K×1的向量，每个元素是k＝1，...，K，以及表示ρ的均值。

(2)迭代更新ρ的后验分布

ρ的后验分布可以通过下式计算

其中

可以证明ρ的后验分布为似然函数在所有其他隐变量下的期望。这样由上面的式子可以得到：

因此仍然是Gamma分布参数为以及

在M步中，更新参数使得最大化。一个主要的问题是中的自由元素太多，所以假设满足CP分解的结构：

其中λ是常向量，因子矩阵以及为了简单固定λ＝1，所以可以得到：

w_{d_{1} d_{2} k} = Σ_{f = 1}^{F} \underset{d_{1}, d_{2}, k}{Σ} w_{d_{1} f}^{(1)} w_{d_{2} f}^{(2)} w_{k f}^{(h)}

为了求解需要求解一下优化问题：:

注意

其中α_k(k＝1，...，K)表示的特征值。通过实验测试，所有的特征值α_k随着的更新只有很小的变化，所以上式中有很小的扰动。在这种情况下可以将其忽略。进而，目标变为求解的CP分解的问题：

其中W⁽³⁾＝M^TW^(h)，是所有h排成的均值矩阵。这样，可以得到：

利用交替最小而成的方法(ALS)求解上述问题。利用上次迭代的W⁽¹⁾，W⁽²⁾和W⁽³⁾作为下一次的初始值。当得到W⁽³⁾后，可以利用下式求解W^(h)

W⁽³⁾＝M^TW^(h)

为了说明提出模型的优越性，本文在模拟数据和两个公开的数据库上做实验。通过和其他已存在的降维方法(PCA,2DPCA和Tucker分解)做对比，主要比较他们降维后的重构结果。所有的实验都是利用MatlabR2012b做实验，同时其他实验环境有：CPU(3.20GHz)和6GRAMs。

1.拟合数据上的实验结果

在这个实验中，在不同大小的拟合数据上比较不同算法。为了产生数据，每个数据点包含两部分：投影与投影系数h的线性组合和噪声部分。其中的CP分解的因子矩阵和投影系数是从以0为均值，单位1的独立同分布产生的数据。令K＝F＝8。对于噪声部分，加入服从的高斯噪声。为了验证提出模型的有效性，分别在二维数据和三维数据上验证，每个样本集包含50个样本。样本的大小已列在下面的表1中。

Size	PCA	GLRAM	TUCKER	TBV-DR
					10×10	3.9456	40.6599	5.7647	2.3627
50×50	15.1874	43.9522	6.2441	3.4738
					100×100	29.9237	47.462	6.7480	3.438
200×200	60.0581	56.2310	8.0308	6.0598
					10×10×10	9.8081	44.0926	6.8883	2.4543
50×50×50		104.9704	7.3931	3.8101
					100×100×100		195.5850	8.2749	5.3616
200×200×200			9.5527	7.1251

表1

当应用PCA时，需要讲二维或三维数据向量化，即D₁×D₂转化为D₁*D₂(或者D₁×D₂×D₃转化为D₁*D₂*D₃)。同样，GLRAM是2DPCA算法，所以在三维数据上应用此算法时，需将数据D₁×D₂×D₃转化为(D₁*D₂)×D₃。在应用TBV-DR时，随机初始化W⁽¹⁾，W⁽²⁾，W^(h)，以及设定参数a＝b＝1，K＝F＝8。从表(1)中可以看出，本发明的方法重构误差最小，由此可以验证算法的可行性和有效性。

2.手写体数据上的实验结果

选择手写体数据的一个子集：50幅数字4图像，所有图像是灰色图像且大小为28×28。因此训练样本为通过提出的算法，可以得到投影张量和所有样本降维后的系数这样，就可以直接重构出原来的数字图像最后，利用计算重构误差。实验中，随机初始化W⁽¹⁾，W⁽²⁾，W^(h)，以及设定参数a＝b＝1，K＝F＝8。

在这个实验中，分别做两个测试。第一个测试是比较PCA和本方法，因为这两种方法都是将数据映射到向量上。需注意的是K和F的增加意味着中自由变量数据的增加。从图1a,可以看出，在投影中自由参数相同的情况下，本方法相对于PCA得到的重构误差小。第二个测试是比较GLRAM，TUCKER和本方法的重构误差。由于这三种方法都是非向量化降维，因此，要求相同的降维维数的前提下计算重构结果，如图1b。可以看出，本方法要优于其他两种算法。

3.Yale数据上的识别结果

在这个实验中，本方法将会与GLRAM和B2DPCA方法做对比，验证本方法在识别中的优势。Yake数据库中包含15个人，每个人11幅图像，每张图像具有不同光照和不同表情。

每个人都选择6幅图像做测试，剩下的图片做测试。所有的图像都灰度图像，并且调整到64×64的大小。

在这个实验中，用(r，c)分别表示降维后的行和列的维数。为了比较的公正性，在本方法中，设定K＝r*c。降维后，利用最近邻(1-NN)算法作为分类器。图2中显示了上面三种方法的识别率，为了更清楚的显示结果，定义γ为识别率，然后通过指数函数对识别率进行映射，即10^2γ。从图2中可以看出，当降维维度超过5×5时，本方法得到的识别率最高。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种向量化降维方法，其特征在于：所述方法包括以下步骤：

其中给定样本集包含M个独立同分布的样本，这些样本可以组成一个三阶张量此张量的每一面是一个样本Y_i，K表示降维后的维度；

(2)将张量数据直接降维到一个向量数据

Y_{i} = Σ_{k = 1}^{K} h_{k}^{(i)} W_{k} + E_{i} - - - (2)

(3)假设噪声满足矩阵高斯分布的每个元素满足正态分布为了应用以上模型，根据公式(3)给定隐变量一个先验分布：

假设满足Gamma分布：

p_{σ} (ρ) = Γ (ρ | a, b) = \frac{b^{a}}{Γ (a)} ρ^{a - 1} \exp {- b ρ}

对于公式(1)，假设h和ρ是模型的隐变量，是参数；根据公式(4)对于给定的样本极大化似然函数等价于极大化似然函数的对数值，

其中联合分布为：

2.根据权利要求1所述的向量化降维方法，其特征在于：所述方法还包括步骤(4)，假设基底满足CP分解的结构，应用基于变分EM算法的贝叶斯推断对公式(1)求解。

3.根据权利要求2所述的向量化降维方法，其特征在于：所述步骤(4)中，根据公式(5)求解的CP分解:

\begin{matrix} \underset{\hat{y}}{m i n} | | y - \hat{y} | | & w i t h & \hat{y} = W^{(1)}, W^{(2)}, W^{(3)} \end{matrix} - - - (5)

W⁽³⁾＝M^TW^(h)(6)