CN109063725B

CN109063725B - 面向多视图聚类的多图正则化深度矩阵分解方法

Info

Publication number: CN109063725B
Application number: CN201810607971.0A
Authority: CN
Inventors: 舒振球; 陆翼; 孙艳武; 张�杰; 汤嘉立; 李仁璞; 范洪辉; 叶飞跃
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2021-09-28
Anticipated expiration: 2038-06-13
Also published as: CN109063725A

Abstract

本发明提供了一种面向多视图聚类的多图正则化深度矩阵分解方法，包括：获取待分解的多视图样本集X＝{X⁽¹⁾,...,X^(υ),...,X^(V)}，其中，V表示视图的个数，

k_υ为视图样本的维数，n为多视图样本的个数；根据多视图样本集构建目标函数：根据所述目标函数，使用迭代加权的方法，输出特征矩阵D_m，完成对多视图样本集X的分解。其采用多图正则项来保持每层系数矩阵中的固有几何结构信息，确保每层系数矩阵进行有效合理的优化，以提高多视图聚类的精确度。

Description

面向多视图聚类的多图正则化深度矩阵分解方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种面向多视图聚类的多图正则化深度矩阵分解方法。

背景技术

由于许多真实的数据是由不同的表示或者视图组成的，因而多视图聚类(MAC)最近得到了越来越多的关注。多视图聚类的关键在于探索互补信息，使集群问题得到解决。以往解决该问题的方法通常是寻找高维数据中的低维表示，从而达到提高计算效率。

传统聚类是以在单一视图数据中识别“相似行为”的群体为目的。由于现实世界的数据总是从多个来源获取或由几个不同的特征集表示，多视图聚类(MAC)是通过利用异构数据实验实现相同目标而进行深入研究的。不同的特征描述了不同的数据集，例如，一个图像可以用不同的特征来描述，如颜色，纹理，形状等等。这些不同类型的特征可以从不同的视图中提取出有用的信息。多视图聚类(MAC)旨在将多个特征集聚集在一起，然后从不同的视图中发现相同的潜在信息。但是现有的多视图聚类(MAC)方法没有考虑也不能保留每个视图的流形结构，导致在很多情况下多视图聚类(MAC)方法的精确度仍然不能满足需求。

发明内容

针对上述问题，本发明提供了一种面向多视图聚类的多图正则化深度矩阵分解方法，有效解决现有技术中多视图聚类(MAC)方法没有考虑也不能保留每个视图的流形结构，导致多视图聚类(MAC)方法的精确度不够的技术问题。

本发明提供的技术方案如下：

一种面向多视图聚类的多图正则化深度矩阵分解方法，包括：

S10获取待分解的多视图样本集X＝{X⁽¹⁾,...,X^(υ),...,X^(V)}，其中，V表示视图的个数，

k_υ为视图样本的维数，n为多视图样本的个数；

S20根据所述多视图样本集构建目标函数：

其中，X^(υ)为视图υ的样本数据；W_i ^(υ)表示视图υ的第i层映射，m为层数,i∈{1,2,...,m}；D_m表示相应视图样本的特征矩阵；α^(υ)表示视图υ的加权系数；γ表示控制权重参数分布；L_v表示视图υ的拉普拉斯图，且L_υ＝A_υ-H_υ，其中A_υ表示第υ个视图的权重矩阵，

S30根据所述目标函数，使用迭代加权的方法，输出特征矩阵D_m，完成对多视图样本集X的分解。

进一步优选地，在步骤S20中包括：

对视图样本中每层进行预训练，得到初始的权矩阵W_i ^(υ)和特征矩阵

并根据成本函数c对每层的权值进行微调，其中，

进一步优选地，根据多图正则化函数对成本函数c进行求解得到微调函数C，并利用微调函数C对每层的权值进行微调，其中，多图正则化函数O^MultiGr(D,τ)为：

其中，D为样本特征矩阵；L_υ为样本υ的拉普拉斯图；τ_υ为样本υ的权重；

求微调函数C为：

进一步优选地，在步骤S30中，权矩阵W_i ^(υ)的更新函数为：

特征矩阵

的更新函数为：

其中，[M]^pos表示矩阵中所有负元素都被0替换，[M]^neg表示矩阵中所有正元素都被0替换；

权重矩阵D_m的更新函数为：

其中，θ_u(D_m,A)＝β([D_mA^(υ)]^pos+[D_mM^(υ)]^neg)，

θ_d(D_m,A)＝β([D_mA^(υ)]^neg+[D_mM^(υ)]^pos)；

加权系数α^(υ)的更新函数为：

其中，

λ为拉格朗日乘数。

进一步优选地，在步骤S30中，根据函数

优化权重τ，其中，E_υ＝Τr(DL_υD^T)。

本发明中的面向多视图聚类的多图正则化深度矩阵分解方法，通过多层半非负矩阵分解，消除各种形式的不良影响，只保留输出中层的类信息；另外，采用多层结构来学习数据中隐含的表示结构，助于提取其结构中的有效信息，特别是常见的结构信息，帮助消除计算过程中的不良影响；再有，采用多图正则项来保持每层系数矩阵中的固有几何结构信息，确保每层系数矩阵进行有效合理的优化，以提高多视图聚类的精确度。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中面向多视图聚类的多图正则化深度矩阵分解方法流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

对于半非负矩阵(Deep Semi-NMF)分解来说，其目标函数为

其中，X∈IR^m×n表示n个样本的输入数据，每个样本为m维特征，A∈IR^m×r，W∈IR^r×n,W≥0，W表示“软”聚类分配矩阵。而在现实中，自然数据可能包含不同的模式联系(或因素)，例如，表达照明在人脸数据集上的影响，单一的非负矩阵分解不足以消除这些不良因素的影响，并且也无法提取出其内在的类信息。因而，在本发明提出基于半非负矩阵分解的深层模型，其具有很好的数据表示方法。具体，多层分解过程可以表示为：

X≈A₁W₁ ⁺

...

其中，A_i表示第i层基矩阵，W_i ⁺是第i层表示矩阵。

基于此，如图1所示为本发明提供的面向多视图聚类的多图正则化深度矩阵分解方法流程示意图，从图中可以看出，在该分解方法中包括：

k_υ为视图样本的维数，n为多视图样本的个数；

S20根据多视图样本集构建式(1)中的目标函数：

在该分解方法中，为了加快模型中变量的逼近，每一层都经过预先训练，以得到变量W_i ^(υ),

的初始近似值。我们将输入数据分解矩阵

进行预先训练，同理，

预先训练所有层。在此之后，每一层的权值由成本函数c的交替最小化进行微调，其中成本函数c如式(2)：

之后，根据多图正则化函数对成本函数c进行求解得到微调函数C，并利用微调函数C对每层的权值进行微调。

对于多图正则项来说，在GrNMF中，通过以下方式中对NMF进行局部不变的假设。如果这两个特征向量x_n和x_m在数据分布的内在几何结构中是闭合的，那么D_n和D_m这两个特征向量在新的基底上的编码向量也彼此接近，反之亦然。局部几何结构是由一个P最近邻图G对数据点的散射进行建模.对于每一个特征向量x_n∈X,它的P近邻图N_n在X中第一次被发现。然后为X作为G＝{υ,ε,A}，构造一个P最近邻图，其中，节点集υ对应于N个数据点，ε为边缘集，如果x_m∈N_n或x_n∈N_m，则(n,m)∈ε.A∈R^N×N是图上的权值矩阵，并且A_nm与边(n,m)权值相等。在加权矩阵A中，可采用图正则项来度量D中低维编码向量表示的平滑度，如式(3)：

其中，U为对角矩阵，

并且L＝U-A是图的拉普拉斯矩阵。

假设计算出的一组候选拉普拉斯图{L₁,...,L_k},则拉普拉斯矩阵L如式(4)：

将式(4)带入式(3)得到本发明使用的多图正则化函数O^MultiGr(D,τ)，如式(5)：

其中，D为样本特征矩阵；L_υ为样本υ的拉普拉斯图；τ_υ为样本υ的权重。

基于此，得到的微调函数C如式(6)：

显示，微调函数C并不是最优的，是以，之后使用迭代加权的方法，根据预先设置的迭代次数n对输出视图υ输出的权矩阵W_i ^(υ)和特征矩阵

进行迭代更新，具体：

1)将视图υ中第i层特权矩阵W_i ^(υ)的其他变量进行固定，通过对权矩阵W_i ^(υ)求偏导

的方式得到更新函数，进而对目标值进行修正。权矩阵W_i ^(υ)的更新函数如式(7)：

2)特征矩阵

的更新函数如式(8)：

3)权重矩阵D_m的更新函数如式(9)：

其中，θ_u(D_m,A)＝β([D_mA^(υ)]^pos+[D_mM^(υ)]^neg)，θ_d(D_m,A)＝β([D_mA^(υ)]^neg+[D_mM^(υ)]^pos)。

4)令

则式(2)中的α^(υ)可以被写成：

对式(10)进行拉格朗日处理：

其中λ为拉格朗日乘数，通过式(11)对α^(υ)求导，再令它为0，得

然后将式(12)中的α^(υ)用

代替得：

当γ接近于无穷时，得到了与更新前相等的权值；当γ接近于1时，视图υ的R^(υ)的重量值是最小的分配给1，其他人被分配到0。

5)通过固定(H,W)和删除无关项，优化将(5)问题转化为

其中，E_υ＝Τr(DL_υD^T),

使得式(1)所呈现的优化问题转化为约束二次规划问题(5)，故通过坐标下降的算法有效地解决式(14)的优化问题。

本发明还提供了一种图像聚类方法，在该图像聚类方法中包括：从图像库中提取出m个图像，并构造q个最邻近图；采用上述概念分解方法得到特征矩阵D_m；利用k-means算法对特征矩阵D_m进行分析，完成图像聚类。具体，该图像聚类方法除了可以应用于正常的图片聚类之外，可以应用于人脸图像聚类等。

应当说明的是，上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通相关人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。