CN113313153B

CN113313153B - 基于自适应图正则化的低秩nmf图像聚类方法与系统

Info

Publication number: CN113313153B
Application number: CN202110551165.8A
Authority: CN
Inventors: 徐晓华; 王珊珊; 何萍; 方威
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-06-23
Anticipated expiration: 2041-05-20
Also published as: CN113313153A

Abstract

本发明公开了一种基于自适应图正则化的低秩NMF图像聚类方法与系统，首先对原始图像数据集应用RPCA算法，获得低秩图像集和噪声；然后对低秩图像集应用NMF，得到基图像集和对应的非负线性表达系数矩阵，再利用分解后的低维流形嵌入结构进行聚类，具体包括：对低秩图像集进行NMF，得到基图像集和非负线性表达系数矩阵；在基图像集上进行Tikhonov正则化，在非负线性表达系数矩阵上进行谱图正则化；对基图像集和非负线性表达系数矩阵分别进行迭代优化；最后，对迭代优化所得的非负线性表达系数矩阵进行聚类，获得图像聚类结果。本发明可解决图像数据进行聚类时不能考虑图像数据的有效结构信息隐藏在其低秩部分的问题，并提高图像数据聚类的准确性。

Description

基于自适应图正则化的低秩NMF图像聚类方法与系统

技术领域

本发明属于图像识别领域中对于图像数据集进行聚类的方法，特别涉及一种基于自适应图正则化的低秩NMF(非负矩阵分解)图像聚类方法与系统。

背景技术

非负矩阵分解方法是近年来一种新颖的降维方法，能够帮助人们从高维复杂的数据样本中挖掘和提取核心特征和信息。在图像数据特征分析上，由于非负性带来的纯加性性质，非负矩阵分解能够很好地提取图像的局部特征，构造一种局部组成整体的抽象。由于非负矩阵分解本身潜在的聚类表征，发现它与传统的谱聚类、kmeans聚类之间的联系，随后便出现了许多基于非负矩阵分解的聚类算法。这些新的分解范式和算法不但拓宽了非负矩阵分解的应用范畴，而且提高了其在无监督聚类上的性能表现。图像聚类的目的是将特征相似的图像样本分到相同的类或簇中，将特征差异较大的图像样本分到不同的类中。与图像分类不同，图像聚类中的类别及其特性不是定义好的，而是在学习中找出相似图像样本所共有的特性。

在本发明作出之前，现有的大多数矩阵分解方法应用于图像数据聚类时，不能考虑图像数据的有效结构信息隐藏在其低秩的部分，并且一般的矩阵分解方法都直接应用于高维的图像数据以计算原始图像的有效表示，这样的做法往往会使得原始数据的噪声会影响到最终的结果，缺乏稳定性和准确性。

发明内容

发明目的：本发明的目的在于克服上述缺陷，提供一种基于自适应图正则化的低秩NMF图像聚类方法与系统，以提高图像聚类的鲁棒性和准确性。

技术方案：为实现上述发明目的，本发明提供的一种基于自适应图正则化的低秩NMF图像聚类方法，将原始图像数据集按照RPCA(鲁棒主成分分析)算法分解为低秩图像集和噪声，对于低秩图像集，通过NMF分为基图像集和对应的非负线性表达系数矩阵，分别对基图像集和对应的非负线性表达系数矩阵做Tikhonov正则化和谱图正则化约束，经过交替迭代优化对模型最优化问题进行计算，经过模型参数更新，最后输出最终模型，最终获得聚类结果。具体步骤如下：

(1)对原始图像数据集应用RPCA算法，获得低秩图像集和噪声；

(2)对低秩图像集应用NMF，得到相应的基图像集和对应的非负线性表达系数矩阵，再利用分解后的低维流形嵌入结构进行聚类，具体包括：对低秩图像集进行NMF，得到基图像集和对应的非负线性表达系数矩阵；在基图像集上进行Tikhonov正则化，在非负线性表达系数矩阵上进行谱图正则化；对基图像集和对应的非负线性表达系数矩阵分别进行迭代优化。

(3)对迭代优化所得的非负线性表达系数矩阵进行聚类，获得聚类结果。

作为优选，步骤(1)中，通过求解如下凸优化问题获得原始图像集的低秩图像集和噪声：

s.t.X＝X_L+X_S,rank(X_L)≤r

其中，λ表示超参数，μ表示用于控制正则项权重的正参数，r表示低秩图像集的图像个数，X表示原始图像集，X_L表示低秩图像集，X_S表示噪声，||.||_*表示矩阵的核范数，||.||₁表示矩阵的1范数，||.||_F表示矩阵的F范数，rank(.)表示矩阵的秩。

作为优选，通过构造增广拉格朗日函数，利用迭代阈值算法来更新X_L、X_S和增广拉格朗日矩阵求解所述凸优化问题。

作为优选，步骤(2)中，基于低秩图像集的基图像集和对应的非负线性表达系数矩阵，利用低维嵌入下的流形结构在特征空间中对低秩图像集进行NMF得到基图像集和对应的非负线性表达系数矩阵，并对对应的非负线性表达系数矩阵进行谱图正则化，对基图像集进行Tikhonov正则化，以保证其范数约束，得到最终的模型，模型的目标函数如下：

s.t.V≥0,F^TF＝I

其中，α和β表示平衡参数，X_L表示低秩图像集，U表示基图像集，V表示基图像集U对应的非负线性表达系数矩阵，L_V表示非负线性表达系数矩阵V构图

的拉普拉斯矩阵，/>

中的每个点表示图像，每条边表示图像之间的相似度，/>

表示由L_V的前c个最小特征向量构成的矩阵，n表示低秩图像集的图像个数，c表示低秩图像集的图像簇数，||.||_F表示矩阵的F范数，tr(.)表示矩阵的迹，I表示单位矩阵。

作为优选，步骤(2)中，基于低秩图像集通过NMF得到的基图像集和对应的非负线性表达系数矩阵，利用交替迭代优化的方法求解模型的目标函数，即首先固定矩阵F和非负线性表达系数矩阵V，更新基图像集U，得到模型的优化问题为：

再固定矩阵F和基图像集U，更新非负线性表达系数矩阵V，得到模型的优化问题为：

然后，通过自适应更新特征图像V得到自适应图正则项：

L_V＝diag(VV^T1_n)-VV^T

其中，diag(.)表示矩阵的对角型，1_n表示全1的n维向量；

最后，固定基图像集U和非负线性表达系数矩阵V，更新矩阵F，此时优化问题转变为：

s.t.F^TF＝I

根据上述过程迭代地更新系数矩阵，即可获得最终的非负线性表达系数矩阵V。

基于相同的发明构思，本发明提供的基于自适应图正则化的低秩NMF图像聚类系统，包括：

图像去噪模块，对原始图像数据集应用RPCA算法，获得低秩图像集和噪声；

NMF模块，对低秩图像集应用NMF，得到相应的基图像集和对应的非负线性表达系数矩阵，再利用分解后的低维流形嵌入结构进行聚类，具体包括：对低秩图像集进行NMF，得到基图像集和对应的非负线性表达系数矩阵，并进行随机初始化；在基图像集上进行Tikhonov正则化，在非负线性表达系数矩阵上进行谱图正则化；对基图像集和对应的非负线性表达系数矩阵分别进行迭代优化；

图像聚类模块，对迭代优化所得的非负线性表达系数矩阵进行聚类，获得聚类结果。

基于相同的发明构思，本发明提供的基于自适应图正则化的低秩NMF图像聚类系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于自适应图正则化的低秩NMF图像聚类方法。

有益效果：本发明提出了一种基于自适应图正则化的低秩NMF图像聚类方法，其优点和效果在于通过非负矩阵分解和RPCA算法，提出了基于自适应图正则化的非负低秩矩阵分解图像聚类算法，并提高了对噪声和离群图像数据的抗干扰能力。我们所提出的自适应图正则化的非负低秩矩阵分解图像聚类算法主要应用于图像数据，目的是通过对原始图像集进行低秩NMF获得原始图像的低秩以减轻噪声的影响，然后对得到的低秩图像集进行NMF来获得基图像集和对应的非负线性表达系数矩阵，再根据图光滑性对非负线性表达系数矩阵构造谱图正则项并进行自适应学习更新，具体表现为：

1)提出的方法是对原始图像数据集应用RPCA，在迭代阈值更新的过程中，获取原始图像集的低秩图像集和噪声。

2)基于低维嵌入的流形结构，将低秩图像集进行NMF，利用分解后的低维流形嵌入结构进行聚类，可以更好的得到基图像集和对应的非负线性表达系数矩阵。

3)每个自适应图正则化的低秩NMF图像数据的噪声影响都不相同，模拟了显示各种图像数据不同的种类和原因的情况，更加贴合与现实世界的图像数据聚类情形，且易于移植到不同的数据集，处理图像噪声的鲁棒性较强，因此有利于提高聚类的准确性。

本发明针对现有的NMF方法在对图像数据进行聚类时不能考虑图像数据的有效结构信息隐藏在其低秩部分的问题，提出了一种新的NMF算法称为自适应图正则化的非负低秩矩阵分解算法(AGNLMF)，它先对原始图像集应用RPCA算法，获得低秩图像集和噪声，再利用NMF对低秩图像集进行分解，得到基图像集和对应的非负线性表达系数矩阵，接着自适应学习低维嵌入的流形拉普拉斯图正则项和图的光滑性，最后利用优化得到的非负线性表达系数矩阵完成聚类，提高聚类准确性。大量实验证明了我们所提出的图像聚类算法具有更好的聚类性能。

附图说明

图1为本发明实施例的方法总体流程示意图。

图2为本发明实施例的详细结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进行进一步说明。

本发明采用自适应图正则化的低秩NMF图像聚类方法对图像数据集进行聚类的过程。针对现有的NMF方法在对图像数据集进行聚类时不能考虑图像数据的有效结构信息隐藏在其低秩部分的难题，根据图的光滑性对非负线性表达系数矩阵构造谱图正则项并进行自适应学习更新，利用交替迭代优化算法更新非负线性表达系数矩阵，再利用kmeans算法对迭代优化所得的非负系数矩阵进行聚类，获得图像数据的聚类结果。如图1所示，本发明实施例提供的一种基于自适应图正则化的低秩NMF图像聚类方法，主要包括如下步骤：

(1)对原始图像数据集应用RPCA算法，获得低秩图像集和噪声。

本步骤中，输入原始数字图像集X，将其进行RPCA算法得到对应的低秩图像集和噪声。由于秩在优化上存在非凸以及l₀范数的非光滑性，我们设置凸优化问题为：

其中，λ表示超参数，r表示低秩图像集的图像个数，X_L表示低秩图像集，X_S表示噪声，||.||_*表示矩阵的核范数，||.||₁表示矩阵的1范数，rank(.)表示矩阵的秩。

接下来，采用迭代阈值算法来恢复低秩图像集，将上述公式(1)的凸优化问题正则化如下：

其中，μ表示正则项参数，||.||_F表示矩阵的F范数。

在公式(2)的基础上，我们构造增广拉格朗日函数如下：

其中，Y表示拉格朗日构造矩阵。

接着，利用迭代阈值算法来更新X_L、X_S和增广拉格朗日矩阵。它通过最小化

对X_L和X_S的偏导数来更新，并固定增广拉格朗日矩阵。然后，利用约束X＝X_L+X_S来更新增广拉格朗日矩阵，并设置迭代处理条件。当迭代结束后，对X_L将有非负性约束，即

最终输出经过RPCA算法处理的最优解低秩图像集和噪声。

(2)对低秩图像集应用NMF，得到相应的基图像集和对应的非负线性表达系数矩阵，再利用分解后的低维流形嵌入结构进行聚类，具体包括：对低秩图像集进行NMF，得到基图像集和对应的非负线性表达系数矩阵，并进行随机初始化；在基图像集上进行Tikhonov正则化，在非负线性表达系数矩阵上进行谱图正则化；对基图像集和对应的非负线性表达系数矩阵分别进行迭代优化。

本步骤中，对低秩图像集进行NMF，获得对应的基图像集和对应的非负线性表达系数矩阵，具体为：利用步骤(1)所获得的原始图像集的低秩维度对基图像集和对应的非负线性表达系数矩阵进行随机初始化。对低秩图像集X_L进行NMF，得到该空间下的基图像集U和对应的非负线性表达系数矩阵V，即有X_L≈UV。

为了充分利用低维嵌入下的数据几何信息，通过设置V的构图

其中，图像作为

的顶点集，图像之间的相似度作为/>

的边集，定义vⁱ为V的第i行向量，V的相似度矩阵定义为W_v＝[w_V(i，j)]_n×n＝[<vⁱ,v^j>]_n×n＝VV^T，这表示相似的数据嵌入与相似的局部中心点是关联的，且随着非负线性表达系数矩阵的更新，图/>

也会自适应更新。由此我们可以得到图

的拉普拉斯矩阵L_V如下：

L_V＝D_V-W_V#(5)

其中，D_V表示对角矩阵，W_V表示相似度矩阵。

根据图的光滑性，相似的数据点往往属于相同的簇，对V执行谱聚类可以得到：

其中，tr(.)表示矩阵的迹，||.||₂表示矩阵的2范数。

为确保基图像集的范数不过大，我们在U上施加了Tikhonov正则化约束：

综合上述考虑，我们得到所述算法的最终目标函数如下：

其中，α和β表示平衡参数，I表示单位矩阵。

考虑到算法的公式(7)对基矩阵和系数矩阵都是非凸的，利用交替迭代优化方法，求解过程如下：首先，固定矩阵F和非负线性表达系数矩阵V，更新基图像集U，得到模型的优化问题为：

其中，β表示平衡参数。

上式可以变换为：

可以得到关于U的偏导数为：

由此可以得到U的更新公式为：

其中，⊙为Hadamard乘积，表示对应位置元素相乘。

接着，固定矩阵F和基图像集U，更新非负线性表达系数矩阵V，得到模型的优化问题为：

其中：

其中，<Q_F,VV^T>表示矩阵Q_F和矩阵VV^T的内积。

所以该优化问题等价于：

其中，Q_F＝[q_F(i,j)]_n×n，其元素定义如下：

同理可以得到公式(15)关于V的偏导数为：

由此可以得到V的更新公式为：

其中，⊙为Hadamard乘积，表示对应位置元素相乘。

这里通过自适应更新V得到自适应图正则项：

L_V＝diag(VV^T1_n)-VV^T #(19)

其中，1_n表示全1的n维向量。

最后，固定U和V，更新F，此时优化问题转变为：

根据公式(12)、公式(18)迭代地更新，即可获得最终的非负线性表达系数矩阵。

(3)对优化得到的非负线性表达系数矩阵进行聚类，获得基于自适应图正则化的非负低秩矩阵分解图像聚类结果。本步骤中利用kmeans算法对迭代优化所得的非负线性表达系数矩阵进行聚类，获得图像数据的聚类结果。

基于相同的发明构思，本发明实施例提供的一种基于自适应图正则化的低秩NMF图像聚类系统，包括：

基于相同的发明构思，本发明实施例提供的基于自适应图正则化的低秩NMF图像聚类系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于自适应图正则化的非负低秩矩阵分解图像聚类方法。

为证明本发明的效果，将本发明在不同图像数据集上分别与现有方法进行了对比。

如表1-表3所示，表中展示了本发明(英文缩写为AGNLMF)在3个图像数据集下的聚类表现情况。3个数据集中包括两个人脸图像数据集和一个手写数字图像数据集。Yale数据集包含15个类的165幅图像样本，每类根据姿态，表情，光照不同分为11张。ORL数据集包含40个类的400幅图像样本，每类包含10幅人脸图像，图像拍摄的时间、光照、面部表情及细节等都有差异。MNIST手写数字图像数据集包含10个类的2000幅图像样本，其中每个样本是一个手写数字(0-9)。所有的比较算法的最佳正则化参数都从{0.001，0.01，0.1，1，10，100，1000}中搜索(本发明中的算法最佳正则化参数为公式(8)中的参数α和β)，采用聚类性能Accuracy、聚类性能Rand Index，聚类性能NMI作为聚类评价指标，其中Accuracy是用来比较聚类结果的标签和数据原有的真实标签，Rand Index是主要计算正确聚类结果的比例，NMI是利用互信息函数和熵函数对聚类结果进行评价，下表采用了4种不同的算法下的Accuracy，Rand Index，NMI三个指标的比较。

表1在不同图像数据集上的Accuracy聚类指标(均值)的比较

表2在不同图像数据集上的Rand Index聚类指标(均值)的比较

表3在不同图像数据集上的NMI聚类指标(均值)的比较

从表1-表3可以看出，本发明(AGNLMF)在大多数指标和大多数数据集上实验效果更佳。

Claims

1.基于自适应图正则化的低秩NMF图像聚类方法，其特征在于，包括如下步骤：

(1)对原始图像数据集应用RPCA算法，获得低秩图像集和噪声；

(2)对低秩图像集应用NMF，得到相应的基图像集和对应的非负线性表达系数矩阵，再利用分解后的低维流形嵌入结构进行聚类，具体包括：对低秩图像集进行NMF，得到基图像集和对应的非负线性表达系数矩阵；在基图像集上进行Tikhonov正则化，在非负线性表达系数矩阵上进行谱图正则化；对基图像集和对应的非负线性表达系数矩阵分别进行迭代优化；目标函数如下：

s.t.V≥0,F^TF＝I

的拉普拉斯矩阵，/>

中的每个点表示图像，每条边表示图像之间的相似度，/>

表示由L_V的前c个最小特征向量构成的矩阵，n表示低秩图像集的图像个数，c表示低秩图像集的图像簇数，‖.‖_F表示矩阵的F范数，tr(.)表示矩阵的迹，I表示单位矩阵；

利用交替迭代优化的方法求解模型的目标函数，首先固定矩阵F和非负线性表达系数矩阵V，更新基图像集U，得到模型的优化问题为：

然后，通过自适应更新非负线性表达系数矩阵V得到自适应图正则项：

L_V＝diag(VV^T1_n)-VV^T

其中，diag(.)表示矩阵的对角型，1_n表示全1的n维向量；

s.t.F^TF＝I

根据上述过程迭代地更新系数矩阵，即可获得最终的非负线性表达系数矩阵V；

2.根据权利要求1所述的基于自适应图正则化的低秩NMF图像聚类方法，其特征在于，步骤(1)中，通过求解如下凸优化问题获得原始图像数据集的低秩图像集和噪声：

s.t.X＝X_L+X_S,rank(X_L)≤r

其中，λ表示超参数，μ表示用于控制正则项权重的正参数，r表示低秩图像集的图像个数，X表示原始图像集，X_L表示低秩图像集，X_S表示噪声，‖.‖_*表示矩阵的核范数，‖.‖₁表示矩阵的1范数，‖.‖_F表示矩阵的F范数，rank(.)表示矩阵的秩。

3.根据权利要求2所述的基于自适应图正则化的低秩NMF图像聚类方法，其特征在于，通过构造增广拉格朗日函数，利用迭代阈值算法来更新X_L、X_S和增广拉格朗日矩阵求解所述凸优化问题。

4.基于自适应图正则化的低秩NMF图像聚类系统，其特征在于，包括：

NMF模块，对低秩图像集应用NMF，得到相应的基图像集和对应的非负线性表达系数矩阵，再利用分解后的低维流形嵌入结构进行聚类，具体包括：对低秩图像集进行NMF，得到基图像集和对应的非负线性表达系数矩阵，并进行随机初始化；在基图像集上进行Tikhonov正则化，在非负线性表达系数矩阵上进行谱图正则化；对基图像集和对应的非负线性表达系数矩阵分别进行迭代优化；目标函数如下：

s.t.V≥0,F^TF＝I

的拉普拉斯矩阵，/>

中的每个点表示图像，每条边表示图像之间的相似度，/>

L_V＝diag(VV^T1_n)-VV^T

其中，diag(.)表示矩阵的对角型，1_n表示全1的n维向量；

s.t.F^TF＝I

5.根据权利要求4所述的基于自适应图正则化的低秩NMF图像聚类系统，其特征在于，图像去噪模块中，通过求解如下凸优化问题获得原始图像集的低秩图像集和噪声：

s.t.X＝X_L+X_S,rank(X_L)≤r

6.基于自适应图正则化的低秩NMF图像聚类系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-3任一项所述的基于自适应图正则化的低秩NMF图像聚类方法。