CN105389343A - 一种向量化降维方法 - Google Patents

一种向量化降维方法 Download PDF

Info

Publication number
CN105389343A
CN105389343A CN201510695870.XA CN201510695870A CN105389343A CN 105389343 A CN105389343 A CN 105389343A CN 201510695870 A CN201510695870 A CN 201510695870A CN 105389343 A CN105389343 A CN 105389343A
Authority
CN
China
Prior art keywords
data
sample
formula
dimensionality reduction
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510695870.XA
Other languages
English (en)
Other versions
CN105389343B (zh
Inventor
孙艳丰
句福娇
胡永利
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510695870.XA priority Critical patent/CN105389343B/zh
Publication of CN105389343A publication Critical patent/CN105389343A/zh
Application granted granted Critical
Publication of CN105389343B publication Critical patent/CN105389343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种向量化降维方法,其识别率大大提高。所述方法包括步骤:(1)根据公式(1)的向量化降维模型,将张量数据表示成若干个基张量的线性组合;(2)将张量数据直接降维到一个向量数据,将样本Yi重新写成投影基底Wk(k=1,...,K)的线性组合,投影基底Wk与样本Yi有相同的维度,得到2D数据的向量化的降维;(3)假设噪声满足矩阵高斯分布Ei的每个元素满足正态分布

Description

一种向量化降维方法
技术领域
本发明属于数据降维的技术领域,具体地涉及一种向量化降维方法。
背景技术
多模态数据和高维数据在现代计算机视觉的研究中随处可见。数据的高维度不仅增加了算法的复杂性和存储的开销,而且也降低了算法在实际应用中的广泛性。然而,高维数据往往是均匀分布在一个低维空间或流行空间上。所以,找到高维观测数据在低维空间中的一种映射关系已成为机器学习研究的一个具有挑战性的问题。在过去的几十年中,关于数据降维的算法已取得很大进展。
主成分分析(PrincipalComponentAnalysis,PCA)是一种广泛应用于模式识别和机器学习的降维方法。众所周知,PCA方法是一种向量化的降维方法,它可以将向量数据表示成一组基向量的线性组合形式。由于基向量的正交性,因此降维后的系数可以用来代表原始的向量数据。然而,今天的数据一般拥有更复杂的结构,例如,图像可以看做是2D数据。在2D数据上应用PCA方法,需要首先将数据向量化,而向量化不仅会产生维度灾难的问题,而且还会破坏高维数据的内在结构,从而忽略高维数据中的空间信息。与PCA不同的是,2DPCA算法是直接在2D数据上降维,即分别对行和列方向降维,降维后的系数仍是2D数据。
对于高阶张量数据,一种典型的降维方法是Tucker分解。WangandAhuja将高维的数据看成是张量,而不是矩阵或向量,并且提出了一种秩为1的分解算法(TROD),这种分解方式是将张量分解成一组秩为1的张量和的形式。这种算法是对张量的每个维度降维,并且是通过对一个张量数据降维得到。
高阶张量的降维目前是一个具有挑战性的问题。经典的方法都是将张量数据向量化或是利用Tucker分解对高维数据降维,这样会得到较低阶张量或破坏原始张量数据的内部结构,从而识别率较低。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种向量化降维方法,其识别率大大提高。
本发明的技术解决方案是:这种向量化降维方法,所述方法包括以下步骤:
(1)根据公式(1)的向量化降维模型,将张量数据表示成若干个基张量的线性组合
其中给定样本集包含M个独立同分布的样本,这些样本可以组成一个三阶张量此张量的每一面是一个样本Yi h = { h i } i = 1 M , K表示降维后的维度;
(2)将张量数据直接降维到一个向量数据
Y i = Σ k = 1 K h k ( i ) W k + E i - - - ( 2 )
公式(2)中表示hi的第k个元素,Wk是张量的第k个面,将样本Yi重新写成投影基底Wk(k=1,...,K)的线性组合,投影基底Wk与样本Yi.有相同的维度,得到2D数据的向量化的降维;
(3)假设噪声满足矩阵高斯分布Ei的每个元素满足正态分布为了应用以上模型,根据公式(3)给定隐变量一个先验分布:
假设满足Gamma分布:
p σ ( ρ ) = Γ ( ρ | a , b ) = b a Γ ( a ) ρ a - 1 exp { - b ρ }
对于公式(1),假设handρ是模型的隐变量,是参数;根据公式(4)对于给定的样本极大化似然函数等价于极大化似然函数的对数值,
其中联合分布为:
其中,Yi代表第i个样本,是降维基底,是样本Yi在降维基底下的系数。
本发明引入了一种基于张量数据的概率方法的向量化降维模型,应用此模型可以将张量数据可以表示成若干个基张量的线性组合,这样它可以提供一种方法可以将张量数据直接降维到一个向量数据,所以其识别率大大提高。
附图说明
图1a是本方法和PCA的比较结果,这两种方法都是将数据映射到向量上。图1b是本方法和GLRAM,TUCKER的重构误差结果。
图2是GLRAM,B2DPCA和本方法在Yale数据库上的人脸识别率。
具体实施方式
这种向量化降维方法,所述方法包括以下步骤:
(1)根据公式(1)的向量化降维模型,将张量数据表示成若干个基张量的线性组合
其中给定样本集包含M个独立同分布的样本,这些样本可以组成一个三阶张量此张量的每一面是一个样本Yi h = { h i } i = 1 M , K表示降维后的维度;
(2)将张量数据直接降维到一个向量数据
Y i = Σ k = 1 K h k ( i ) W k + E i - - - ( 2 )
公式(2)中表示hi的第k个元素,Wk是张量的第k个面,将样本Yi重新写成投影基底Wk(k=1,...,K)的线性组合,投影基底Wk与样本Yi.有相同的维度,得到2D数据的向量化的降维;
(3)假设噪声满足矩阵高斯分布Ei的每个元素满足正态分布为了应用以上模型,根据公式(3)给定隐变量一个先验分布:
假设满足Gamma分布:
p σ ( ρ ) = Γ ( ρ | a , b ) = b a Γ ( a ) ρ a - 1 exp { - b ρ }
对于公式(1),假设handρ是模型的隐变量,是参数;根据公式(4)对于给定的样本极大化似然函数等价于极大化似然函数的对数值,
其中联合分布为:
其中,Yi代表第i个样本,是降维基底,是样本Yi在降维基底下的系数。
本发明引入了一种基于张量数据的概率方法的向量化降维模型,应用此模型可以将张量数据可以表示成若干个基张量的线性组合,这样它可以提供一种方法可以将张量数据直接降维到一个向量数据,所以其识别率大大提高。
优选地,所述方法还包括步骤(4),假设基底满足CP分解的结构,应用基于变分EM算法的贝叶斯推断对公式(1)求解。
优选地,所述步骤(4)中,根据公式(5)求解的CP分解:
利用上次迭代的W(1),W(2)和W(3)作为下一次的初始值,当得到W(3)后,利用公式(6)求解W(h)
W(3)=MTW(h)(6)
进而可以将上述二阶数据的模型推广到高阶张量数据的降维中。
下面更详细地说明本方法。
1.张量数据贝叶斯方法的向量化降维模型
给定样本集包含M个独立同分布的样本。这些样本可以组成一个三阶张量此张量的每一面是一个样本Yi。假设每个样本Yi可以分解成一个隐变量的线性组合,即
其中 h = { h i } i = 1 M , 以及K表示降维后的维度。换句话说,模型(1)可以表示成
Y i = Σ k = 1 K h k ( i ) W k + E i
其中表示hi的第k个元素,以及Wk是张量的第k个面。在这种情况下,可以将样本Yi重新写成投影基底Wk(k=1,...,K)的线性组合.投影基底Wk与样本Yi.有相同的维度。这样可以得到2D数据的向量化的降维。
假设噪声满足矩阵高斯分布即Ei的每个元素满足正态分布为了应用贝叶斯模型,进一步给定隐变量一个先验分布:
为了方便,假设满足Gamma分布:
p σ ( ρ ) = Γ ( ρ | a , b ) = b a Γ ( a ) ρ a - 1 exp { - b ρ }
对于给定的模型(1),为了引入变分的学习算法,假设handρ是模型的隐变量,是参数。对于给定的样本极大化似然函数等价于极大化似然函数的对数值,
其中联合分布为:
2模型求解
对于上述模型,任务是求解模型参数使得似然函数极大。利用任意分布可以得到的下界函数:
上面的不等式成立是基于詹森不等式成立。第二个等式成立是基于假设有分离的形式,即这样变分EM算法的目的是求解极大化时的
(1)迭代更新hi的后验分布:
给定样本Yi,可以证明hi的后验分布仍是正态分布在(2)中,最后一项期望与hi无关,因此只用计算前两项的期望值即可。在E步,求解mi和Σ极大化下界函数。从而得到,
其中是K×K的对称矩阵,每个元素是p,q=1,...K,ai是一个K×1的向量,每个元素是k=1,...,K,以及表示ρ的均值。
(2)迭代更新ρ的后验分布
ρ的后验分布可以通过下式计算
其中
可以证明ρ的后验分布为似然函数在所有其他隐变量下的期望。这样由上面的式子可以得到:
因此仍然是Gamma分布参数为以及
在M步中,更新参数使得最大化。一个主要的问题是中的自由元素太多,所以假设满足CP分解的结构:
其中λ是常向量,因子矩阵以及为了简单固定λ=1,所以可以得到:
w d 1 d 2 k = Σ f = 1 F Σ d 1 , d 2 , k w d 1 f ( 1 ) w d 2 f ( 2 ) w k f ( h )
为了求解需要求解一下优化问题::
注意
其中αk(k=1,...,K)表示的特征值。通过实验测试,所有的特征值αk随着的更新只有很小的变化,所以上式中有很小的扰动。在这种情况下可以将其忽略。进而,目标变为求解的CP分解的问题:
其中W(3)=MTW(h),是所有h排成的均值矩阵。这样,可以得到:
利用交替最小而成的方法(ALS)求解上述问题。利用上次迭代的W(1),W(2)和W(3)作为下一次的初始值。当得到W(3)后,可以利用下式求解W(h)
W(3)=MTW(h)
进而可以将上述二阶数据的模型推广到高阶张量数据的降维中。
为了说明提出模型的优越性,本文在模拟数据和两个公开的数据库上做实验。通过和其他已存在的降维方法(PCA,2DPCA和Tucker分解)做对比,主要比较他们降维后的重构结果。所有的实验都是利用MatlabR2012b做实验,同时其他实验环境有:CPU(3.20GHz)和6GRAMs。
1.拟合数据上的实验结果
在这个实验中,在不同大小的拟合数据上比较不同算法。为了产生数据,每个数据点包含两部分:投影与投影系数h的线性组合和噪声部分。其中的CP分解的因子矩阵和投影系数是从以0为均值,单位1的独立同分布产生的数据。令K=F=8。对于噪声部分,加入服从的高斯噪声。为了验证提出模型的有效性,分别在二维数据和三维数据上验证,每个样本集包含50个样本。样本的大小已列在下面的表1中。
Size PCA GLRAM TUCKER TBV-DR
10×10 3.9456 40.6599 5.7647 2.3627
50×50 15.1874 43.9522 6.2441 3.4738
100×100 29.9237 47.462 6.7480 3.438
200×200 60.0581 56.2310 8.0308 6.0598
10×10×10 9.8081 44.0926 6.8883 2.4543
50×50×50 104.9704 7.3931 3.8101
100×100×100 195.5850 8.2749 5.3616
200×200×200 9.5527 7.1251
表1
当应用PCA时,需要讲二维或三维数据向量化,即D1×D2转化为D1*D2(或者D1×D2×D3转化为D1*D2*D3)。同样,GLRAM是2DPCA算法,所以在三维数据上应用此算法时,需将数据D1×D2×D3转化为(D1*D2)×D3。在应用TBV-DR时,随机初始化W(1),W(2),W(h),以及设定参数a=b=1,K=F=8。从表(1)中可以看出,本发明的方法重构误差最小,由此可以验证算法的可行性和有效性。
2.手写体数据上的实验结果
选择手写体数据的一个子集:50幅数字4图像,所有图像是灰色图像且大小为28×28。因此训练样本为通过提出的算法,可以得到投影张量和所有样本降维后的系数这样,就可以直接重构出原来的数字图像最后,利用计算重构误差。实验中,随机初始化W(1),W(2),W(h),以及设定参数a=b=1,K=F=8。
在这个实验中,分别做两个测试。第一个测试是比较PCA和本方法,因为这两种方法都是将数据映射到向量上。需注意的是K和F的增加意味着中自由变量数据的增加。从图1a,可以看出,在投影中自由参数相同的情况下,本方法相对于PCA得到的重构误差小。第二个测试是比较GLRAM,TUCKER和本方法的重构误差。由于这三种方法都是非向量化降维,因此,要求相同的降维维数的前提下计算重构结果,如图1b。可以看出,本方法要优于其他两种算法。
3.Yale数据上的识别结果
在这个实验中,本方法将会与GLRAM和B2DPCA方法做对比,验证本方法在识别中的优势。Yake数据库中包含15个人,每个人11幅图像,每张图像具有不同光照和不同表情。
每个人都选择6幅图像做测试,剩下的图片做测试。所有的图像都灰度图像,并且调整到64×64的大小。
在这个实验中,用(r,c)分别表示降维后的行和列的维数。为了比较的公正性,在本方法中,设定K=r*c。降维后,利用最近邻(1-NN)算法作为分类器。图2中显示了上面三种方法的识别率,为了更清楚的显示结果,定义γ为识别率,然后通过指数函数对识别率进行映射,即10。从图2中可以看出,当降维维度超过5×5时,本方法得到的识别率最高。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (3)

1.一种向量化降维方法,其特征在于:所述方法包括以下步骤:
(1)根据公式(1)的向量化降维模型,将张量数据表示成若干个基张量的线性组合
其中给定样本集包含M个独立同分布的样本,这些样本可以组成一个三阶张量此张量的每一面是一个样本YiK表示降维后的维度;
(2)将张量数据直接降维到一个向量数据
Y i = Σ k = 1 K h k ( i ) W k + E i - - - ( 2 )
公式(2)中表示hi的第k个元素,Wk是张量的第k个面,将样本Yi重新写成投影基底Wk(k=1,...,K)的线性组合,投影基底Wk与样本Yi.有相同的维度,得到2D数据的向量化的降维;
(3)假设噪声满足矩阵高斯分布的每个元素满足正态分布为了应用以上模型,根据公式(3)给定隐变量一个先验分布:
假设满足Gamma分布:
p σ ( ρ ) = Γ ( ρ | a , b ) = b a Γ ( a ) ρ a - 1 exp { - b ρ }
对于公式(1),假设h和ρ是模型的隐变量,是参数;根据公式(4)对于给定的样本极大化似然函数等价于极大化似然函数的对数值,
其中联合分布为:
其中,Yi代表第i个样本,是降维基底,是样本Yi在降维基底下的系数。
2.根据权利要求1所述的向量化降维方法,其特征在于:所述方法还包括步骤(4),假设基底满足CP分解的结构,应用基于变分EM算法的贝叶斯推断对公式(1)求解。
3.根据权利要求2所述的向量化降维方法,其特征在于:所述步骤(4)中,根据公式(5)求解的CP分解:
m i n y ^ | | y - y ^ | | w i t h y ^ = W ( 1 ) , W ( 2 ) , W ( 3 ) - - - ( 5 )
利用上次迭代的W(1),W(2)和W(3)作为下一次的初始值,当得到W(3)后,利用公式(6)求解W(h)
W(3)=MTW(h)(6)
进而可以将上述二阶数据的模型推广到高阶张量数据的降维中。
CN201510695870.XA 2015-10-23 2015-10-23 一种向量化降维方法 Active CN105389343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510695870.XA CN105389343B (zh) 2015-10-23 2015-10-23 一种向量化降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510695870.XA CN105389343B (zh) 2015-10-23 2015-10-23 一种向量化降维方法

Publications (2)

Publication Number Publication Date
CN105389343A true CN105389343A (zh) 2016-03-09
CN105389343B CN105389343B (zh) 2019-08-16

Family

ID=55421633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510695870.XA Active CN105389343B (zh) 2015-10-23 2015-10-23 一种向量化降维方法

Country Status (1)

Country Link
CN (1) CN105389343B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845517A (zh) * 2016-12-14 2017-06-13 西北大学 一种基于Tucker分解的光谱张量降维及分类方法
CN107038456A (zh) * 2017-03-23 2017-08-11 北京工业大学 一种基于l1范数的概率线性判别分析的图像分类方法
CN107491419A (zh) * 2017-09-06 2017-12-19 四川大学 一种具有双线性低秩子空间的线性判别分析方法
CN107609604A (zh) * 2017-10-19 2018-01-19 北京工业大学 一种基于l1范数的二维概率线性判别分析的图像识别方法
CN108109612A (zh) * 2017-12-07 2018-06-01 苏州大学 一种基于自适应降维的语音识别分类方法
CN109885628A (zh) * 2019-03-20 2019-06-14 上海燧原智能科技有限公司 一种张量转置方法、装置、计算机及存储介质
CN109993199A (zh) * 2019-01-10 2019-07-09 北京工业大学 一种针对高阶张量数据的处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411610A (zh) * 2011-10-12 2012-04-11 浙江大学 一种用于高维数据聚类的半监督降维方法
CN103886329A (zh) * 2014-03-21 2014-06-25 西安电子科技大学 基于张量分解降维的极化图像分类方法
CN104091333A (zh) * 2014-07-01 2014-10-08 黄河科技学院 基于区域可信融合的多类无监督彩色纹理图像分割方法
CN104318252A (zh) * 2014-11-02 2015-01-28 西安电子科技大学 基于分层概率模型的高光谱图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411610A (zh) * 2011-10-12 2012-04-11 浙江大学 一种用于高维数据聚类的半监督降维方法
CN103886329A (zh) * 2014-03-21 2014-06-25 西安电子科技大学 基于张量分解降维的极化图像分类方法
CN104091333A (zh) * 2014-07-01 2014-10-08 黄河科技学院 基于区域可信融合的多类无监督彩色纹理图像分割方法
CN104318252A (zh) * 2014-11-02 2015-01-28 西安电子科技大学 基于分层概率模型的高光谱图像分类方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845517A (zh) * 2016-12-14 2017-06-13 西北大学 一种基于Tucker分解的光谱张量降维及分类方法
CN106845517B (zh) * 2016-12-14 2020-03-20 西北大学 一种基于Tucker分解的光谱张量降维及分类方法
CN107038456A (zh) * 2017-03-23 2017-08-11 北京工业大学 一种基于l1范数的概率线性判别分析的图像分类方法
CN107491419A (zh) * 2017-09-06 2017-12-19 四川大学 一种具有双线性低秩子空间的线性判别分析方法
CN107491419B (zh) * 2017-09-06 2020-06-23 四川大学 一种具有双线性低秩子空间的线性判别分析方法
CN107609604A (zh) * 2017-10-19 2018-01-19 北京工业大学 一种基于l1范数的二维概率线性判别分析的图像识别方法
CN108109612A (zh) * 2017-12-07 2018-06-01 苏州大学 一种基于自适应降维的语音识别分类方法
CN109993199A (zh) * 2019-01-10 2019-07-09 北京工业大学 一种针对高阶张量数据的处理方法
CN109993199B (zh) * 2019-01-10 2020-11-17 北京工业大学 一种针对高阶张量数据的处理方法
CN109885628A (zh) * 2019-03-20 2019-06-14 上海燧原智能科技有限公司 一种张量转置方法、装置、计算机及存储介质
CN109885628B (zh) * 2019-03-20 2020-05-12 上海燧原智能科技有限公司 一种张量转置方法、装置、计算机及存储介质

Also Published As

Publication number Publication date
CN105389343B (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN105389343A (zh) 一种向量化降维方法
US10037457B2 (en) Methods and systems for verifying face images based on canonical images
Zhao et al. $ L_ {1} $-norm low-rank matrix factorization by variational Bayesian method
EP3077960B1 (en) A method and system for computing distance measures on a quantum computer
Jain et al. A survey paper on comparative study between principal component analysis (PCA) and exploratory factor analysis (EFA)
CN104850533A (zh) 一种带约束的非负矩阵分解方法及求解方法
CN109993199B (zh) 一种针对高阶张量数据的处理方法
CN104376051A (zh) 随机结构保形哈希信息检索方法
Khayati et al. Memory-efficient centroid decomposition for long time series
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Shi et al. Efficient statistical validation of machine learning systems for autonomous driving
Ballani et al. Sparse inverse covariance estimation with hierarchical matrices
Beraha et al. Spatially dependent mixture models via the logistic multivariate CAR prior
Cerkezi et al. Towards more discriminative features for texture recognition
Payandeh Najafabadi et al. A k-inflated negative binomial mixture regression model: application to rate–making systems
Liu et al. A three-stage method for batch-based incremental nonnegative matrix factorization
Rattray A model-based distance for clustering
CN104700117A (zh) 一种二维概率主成分分析方法
Wang et al. Variable selection and parameter estimation via WLAD–SCAD with a diverging number of parameters
EP3660742B1 (en) Method and system for generating image data
Laha et al. A novel sandwich algorithm for empirical Bayes analysis of rank data
Wang et al. Computationally efficient banding of large covariance matrices for ordered data and connections to banding the inverse Cholesky factor
Jin et al. Distributed estimation of principal support vector machines for sufficient dimension reduction
Cardona et al. Convolved multi-output Gaussian processes for semi-supervised learning
Zaorálek et al. Dimension reduction methods in graph drawing problem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant