CN116597186A

CN116597186A - 一种多视图子空间聚类方法、系统、电子设备及存储介质

Info

Publication number: CN116597186A
Application number: CN202310273822.6A
Authority: CN
Inventors: 兰伟; 杨田川; 陈庆锋
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-08-15

Abstract

本发明提供一种多视图子空间聚类方法、系统、电子设备及存储介质，所述方法包括以下步骤：获取多视图数据，自表示生成系数矩阵；将系数矩阵输入优化后的多视图子空间聚类框架进行迭代优化，获得低秩对称系数矩阵；将对低秩对称系数矩阵输入优化模型得到相似矩阵；最终将相似矩阵输入谱聚类中获取聚类结果，本发明聚类性能优秀。

Description

一种多视图子空间聚类方法、系统、电子设备及存储介质

技术领域

本发明属于计算机学领域，具体涉及一种多视图子空间聚类方法、系统、电子设备及存储介质。

背景技术

随着信息技术的快速发展，多视图数据在许多具有多个收集源的现实场景中越来越普遍。例如，可以用不同的特征来描述图像，例如颜色、纹理和形状。不同视图的特征有其特定的属性，并相互提供互补的信息。单独考虑这些观点往往是不够的或不完整的。因此，有效地集成每个视图的特有的信息是至关重要的。在聚类问题中，多视图聚类可以挖掘不同视图之间潜在的一致性信息，充分利用各个视图之间的互补信息。因此，多视图聚类方法与单视图聚类方法相比具有优势。

多视图聚类通常与子空间聚类结合使用。此外，基于“自我表达”的子空间聚类可用于捕获每个视图中的互补信息和多样性。自我表达的原理是，给定从特定子空间中提取的一组数据点，假设每个数据点都可以表示为其他数据点的线性组合。其中最具代表性的方法是低秩表示(LRR)。LRR的目标是通过对数据点施加低秩约束来获得系数矩阵的最低秩表示。基于LRR的子空间聚类可以得到低秩系数矩阵，揭示数据的内在子空间结构。该方法可以有效地将系数矩阵转化为相似矩阵进行谱聚类。鉴于子空间聚类对互补信息集成的有效性，可以将子空间聚类扩展到多视图学习，形成多视图子空间聚类。

许多多视图子空间聚类方法基于互补信息提取的机制做出改进。此外，视图间一致信息的利用也可以提高聚类性别。还有许多令人印象深刻的方法都是利用谱聚类来获得最终的聚类结果，这其中构建高质量的图是获得良好谱聚类性能的关键。虽然这些多视图子空间聚类方法已经取得了很大的成功，但它们仍然存在以下局限性:1)它们大多通过学习共享系数矩阵或亲和图来探索一致性信息，而不是聚类结构。2)所构建的图或相似矩阵仍然可能包含不相关的表示或噪声，这将破坏共识图并导致性能下降。3)它们大多先学习系数矩阵，然后经过对称后处理构造相似度矩阵。然而这么做可能忽略了相似矩阵的固有对称性，不能有效地描述数据点之间的内在关系。4)核范数最小化(Nuclear NormMinimization,NNM)是原秩最小化问题的最紧凸松弛，由于其凸性和简单性，经常在许多多视图子空间聚类方法的优化过程中涉及。然而，这种凸松弛可能会由于噪声的影响而导致性能较差，并且解可能严重偏离秩最小化问题的原始解。由于这些局限，急需开发一种多视图子空间聚类方法来解决这些问题。

发明内容

本发明针对现有技术的不足，提供一种多视图子空间聚类方法、系统、电子设备及存储介质，提高了聚类的准确性。

一种多视图子空间聚类方法，包括以下步骤：

获取多视图数据，自表示生成系数矩阵；

将系数矩阵输入优化后的多视图子空间聚类框架进行迭代优化，获得低秩对称系数矩阵；

将对低秩对称系数矩阵输入优化模型得到相似矩阵；

最终将相似矩阵输入谱聚类中获取聚类结果。

进一步的，所述对多视图数据进行自表达的过程如下：

根据以下公式：X_v＝X_vZ_v+E_v，将多视图数据X_v表示为自身与系数矩阵Z_v的乘积加上一个误差矩阵E_v。

进一步的，所述优化多视图子空间聚类框架的优化过程为：

对自表达得到的系数矩阵Z_v施加Schatten p范数，可表示为：

对自表达得到的误差矩阵E_v施加l2,1范数，其具体形式为：||_v||_2,1；

基于施加范数的系数矩阵Z_v和误差矩阵E_v生成优化后的多视图子空间聚类框架，具体为：

s.t.X_v＝X_vZ_v+E_v

其中，X_v、Z_v和E_v分别为第v个视图的数据矩阵、系数矩阵和误差矩阵。

进一步的，获得低秩对称系数矩阵的过程为：

对系数矩阵Z_v进行三因子分解，将系数矩阵Z_v分解为三个矩阵的乘积以保持一致性，具体公式为:

考虑到低秩结构可以恢复底层的数据聚类结构，从而揭示数据的正确分割，因此每个视图的系数矩阵Z_v可以通过矩阵三分解共享相同的低秩结构C；

对得到的低秩系数矩阵Z_v施加对称约束。

进一步的，优化模型的过程为：

以最小化损失函数值为目标，迭代求解模型的解，得到每个矩阵变量的更新公式，再根据更新公式不断迭代直至收敛；根据上述步骤的内容，得到本方法的损失函数为：

其中λ是两项正则化贡献的平衡参数，p是Schatten p范数的参数，矩阵L_v和R_v都有正交约束。根据损失函数优化后所得的矩阵更新公式进行迭代，在每一次迭代过程中，按以下公式更新各个变量：

其中，[E_v]_:,为矩阵E_v的第i列； M_v和N_v是对矩阵/>奇异值分解所得的左、右奇异值矩阵；关于R_v的更新方式类似L_v；I是单位矩阵；/>

进一步的，得到相似矩阵的过程为：

首先累加优化后得到的系数矩阵然后执行SVD分解：Z^*＝U^*∑*(V^*)^T,其中定义：M＝U^*(∑*)^1/2然后用所有矩阵M的行向量的角信息来定义相似矩阵M:

其中m_i和m_j分别表示矩阵M的第i行和第j行。

本发明还提供了一种多视图子空间聚类装置，包括：

自表示处理模块，用于生成系数矩阵；

迭代模块，用于将系数矩阵输入优化后的多视图子空间聚类框架进行迭代优化，获得低秩对称系数矩阵；

优化模块，用于将对低秩对称系数矩阵输入优化模型得到相似矩阵；

空间聚类模块，用于将将相似矩阵输入谱聚类中获取聚类结果。

本发明还提供了一种电子，设备包括存储器和处理器，其中，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时所述处理器用于执行：所述的一种多视图子空间聚类方法。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，在所述计算机程序被计算机执行时，所述计算机用于执行：所述的一种多视图子空间聚类方法。

本发明的技术效果：

本发明提出了一种基于多视图子空间聚类方法。首先，在自表达框架中，采用带有正交约束的系数矩阵矩阵三分解，将自表达属性和矩阵三分解整合到统一的框架中，挖掘互补信息，保持不同视图之间聚类结构的一致性。然后，对系数矩阵学习过程施加对称性约束，以保持其固有的对称性，尽量避免对称后处理。采用Schatten p范数代替核范数，合理地逼近秩函数。这样，利用Schatten p正则化约束和对称约束学习出对称的低秩系数矩阵，保持了高维噪声数据固有的子空间结构，可以准确地表示聚类结构，并对判别信息进行编码。最终利用谱聚类方法构建易于分离的相似矩阵。此外，为了减少冗余信息和噪声的影响，设计了一种自适应信息约简策略，保留有价值的内容，去除不相关的信息。进一步利用融合机制获取原始矩阵中数据点的内在结构(即主方向的角度信息)。利用这两种策略对系数矩阵进行融合，得到了具有清晰块对角结构的高质量相似矩阵。最终利用谱聚类得到聚类结果。在11个数据集上进行了大量实验并且计算了聚类性能的评估指标，结果验证了本发明的优秀性能和有效性。

附图说明

附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了本发明的框架流程图；

图2示出了本发明的系数矩阵和相似矩阵性能的可视化效果图；

图3示出了本发明的参数敏感图；

图4为本发明和其他方法的聚类指标比较图；

图5为本发明各个策略的消融实验结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本实施例具体实现过程如下：

首先将多视图数据X₁,X₂,…,X_v输入到优化框架中。由多视图数据自表示生成系数矩阵在优化框架中迭代优化，获得低秩对称系数矩阵/>以有效地捕获多个视图之间的一致性并保持对称性。在后处理步骤中，利用信息约简和融合策略对Z^*进行处理，得到高质量的相似矩阵。最后，通过谱聚类得到聚类结果。

一、模型建立与优化

1.Schatten p范数、自表达与基于LRR的多视图子空间聚类框架

高维数据，如图像和视频，通常可以由多个低维子空间更好地表示。同一低维结构的样本往往具有较高的相似性。因此，可以通过划分子空间来获得聚类结果。给定一个数据矩阵X，假设样本点分别从多个子空间中提取。子空间聚类的目的是将这些样本点正确地划分到各自的子空间中。子空间聚类可以通过“自表达性”学习系数矩阵Z。“自表达性”是指每个数据点都可以用同一子空间中其他数据点的线性组合来表示。不同的多视图子空间聚类方法往往采用不同的正则化策略。低秩表示(Low-rank representation,LRR)是一种著名的策略，它可以从包含误差(如噪声和离群值)的数据中恢复子空间结构。该策略利用低秩最小化恢复底层行空间，得到数据的正确分割。然而，由于秩函数的离散性，很难得到解。在这种情况下，核范数可以作为其凸松弛。考虑到为了减少噪声干扰，可以使用l2,1范数来增强列的稀疏性。基于LRR的多视图子空间聚类框架可以表示为：

s.t.X_v＝X_vZ_v+E_v

Schatten p范数可以合理地近似秩函数。理论上，Schatten p范数可以保证信息的准确恢复。实验结果还表明，Schatten p范数优于标准的核范数，且总能生成较低秩的解。因此，我们用Schatten p范数的p次幂来代替核范数。将基于LRR的多视图子空间聚类基础框架被重新定义为:

s.t.X_v＝_vZ_v+_v

2.矩阵三分解捕捉视图间的共识

不同视图之间的互补性和一致性是提高多视图子空间聚类性能的关键。互补性是指不同的视图从不同的角度提供丰富的互补信息。前述内容利用自我表达来探索互补信息。一致性是指多个视图之间的一致性，即不同视图的共享表示结构。考虑到低秩结构可以恢复底层的数据聚类结构，从而揭示数据的正确分割，因此每个视图的系数矩阵Z_v可以共享相同的低秩结构。可以通过将Z_v分解为三个矩阵的乘积以保持一致性:

L_v和R_v上的正交约束旨在防止平凡解。C可视为相同的表示结构，所有视图的系数矩阵Z_v都共享该表示结构。这样，C可以保留原始信息，有效地促进不同视图之间的结构一致性。

3.系数矩阵对称属性的保留

在多视图子空间聚类中，和/>表示向量/>和/>在第v个视图中的相似度。从图论的角度来看，/>和/>应该是一致的。因此，许多多视图子空间聚类方法通常通过对称后处理来构造谱聚类步骤的相似矩阵。但在实践中，/>和/>的贡献并不一定等于/>和/>的贡献，简单的对称后处理可能会失去一些固有的特征。为了克服这个问题，可以对低秩系数矩阵施加一个对称约束，即/>通过这种方式，在整个学习过程中保持对称性，以显式地获得对称矩阵。最终本发明的损失函数定义如下:

4.损失函数与模型优化

根据对损失函数的求解，本方法的各个变量将按照如下公式进行迭代直至收敛：

二、模型后处理阶段与聚类结果获得

本发明最终的聚类结果将通过谱聚类算法获得。谱聚类的关键步骤是构建高质量的相似矩阵。直接从优化后获得的对称系数矩阵构造通常是不满足的。其原因是没有利用其主方向的角信息。低秩系数矩阵的行、列误差较小，因此角信息基本不受影响。因此，角信息可以用来构造相似矩阵。为此，本方法采用了一种融合机制来捕捉角信息。其具体步骤如下：首先累加优化后得到的系数矩阵/>然后执行SVD分解：Z^*＝U^*∑*(V^*)^T,其中定义：M＝U^*(∑*)^1/2然后用所有矩阵M的行向量的角信息来定义相似矩阵W:

其中m_i和m_j分别表示矩阵M的第i行和第j行。这种融合机制直接在各系数矩阵累加后(即)进行后续处理，这可能会忽略累加后的冗余信息，导致聚类性能较差。在实际应用中，系数矩阵中信息的一定比例通常表征了矩阵中所包含的最重要的结构信息。因此，本发明在Z^*上设计了一种自适应的信息约简策略，以减少冗余信息并保留有意义的结构信息。一般来说，样本越多，冗余信息越多。设置信息保留比例的一个直观的方法是，该比例应该与样本量n成反比。因此，我们将其定义为::/>式中η为Z^*中保留内容的比例，即Z^*中每一列前η％的内容将保留，其余部分设置为0。其中n是数据集中的样本数。α₁、α₂、α₃为常数，在不同数据集中它们设置相同，具体设置为α₁＝0.032,α₂＝0.018,α₃＝-1.42。具体来说，我们将Z^*的每一列中的项按值降序累积，直到达到当前列之和的η％。这些η％项将被保留，其余项设置为0。该策略删除了弱连接，在保持连接的同时增加了稀疏性。同时，相似图质量受冗余信息和不准确的相似度量的影响较小。

最终将相似矩阵W输入谱聚类中获取聚类结果。

三、实验验证

1.聚类指标比较

我们在11个数据集上进行了聚类实验，并将本发明(LSGMC)与10种最先进的方法进行了比较。实验中，比较算法的所有MATLAB实现均从作者的网站下载。超参数是根据相应论文的建议设置的。为了比较不同方法的性能，采用五个常用的评价指标:ACC(准确度)、NMI(归一化互信息)、Precision(精密度)、F-score和ARI(调整后的Rand指数)来衡量聚类结果。对于这些指标，数值越高表示聚类性能越好。最好的结果用粗体突出显示，次好结果用下划线标出。实验结果记录在图4中。

我们用最优参数运行每个算法10次，并报告评估指标的均值和标准差。特别是，对于所有使用k-means的算法，我们在随机初始化下重复k-means过程200次，以达到公平和降低随机性的目的。从实验结果中，我们可以得出以下结论。在所有情况下，LSGMC方法比其他最先进的多视图聚类方法获得了最好的聚类性能。例如，在各个数据集上ACC分别比次优方法提高了至少4.32％、4.20％、4.99％、7.62％、9.37％、5.58％、3.16％和2.31％。较次优方法NMI分别提高了3.28％、5.64％、2.99％、10.85％、4.97％、7.08％、0.18％和2.42％。值得注意的是，LSGMC在COIL-20数据集中的所有指标都达到了100％。这些结果表面本发明(LSGMC)可以构造一个高质量的亲和图，通过最大化的一致性来明确判别结构，充分利用每个视图中的信息嵌入。

2.聚类结果可视化分析

理想相似矩阵通常具有清晰的块对角结构，这意味着子空间中的样本在相似图中紧密相连。相反，子空间外的样本彼此之间是不相连的。我们用比较了系数矩阵Z^*和经过信息融合和约简的相似矩阵W之间的差异。可视化结果如图2所示。从图2的顶部可以看出，Z^*(没有信息融合和约简)具有一个带有噪声的大致块对角线结构。从图2底部可以发现W(经过信息融合约简)具有清晰的块对角结构，噪声小。验证了信息融合约简的有效性。此外，该结果还表明对称约束和低秩约束对于清晰揭示底层聚类结构和获得高质量的相似矩阵至关重要。

3.参数敏感性分析

在LSGMC中，有两个参数需要被调整:λ用于平衡噪声的影响，p是Schatten p范数的参数。我们使用网格搜索技术搜索λ和p，图3显示了四个数据集上ACC随这些参数的变化。在图中，(a)和(b)分别表示Flowers和MSRC-v1数据集，结果表明λ一般不能太大或太小。此外，我们还发现LSGMC对p的选择不敏感，ACC在一定范围内是稳定的。一般来说，随着p的减小，Schatten p范数可以更接近真实秩。

虽然参数λ和p对性能有重要影响，但是如(c)和(d)所示，它们分别是YaleB和COIl-20数据集上的结果，LSGMC在一些数据集上的所有参数调整结果均优于其比较方法，这也证明了本模型的稳定性。

4.消融实验结果分析

在我们的模型中，有几个重要的策略会影响性能。在这里，我们实验评估了四个因素的影响，在8个数据集上的聚类结果如图5所示，图中显示聚类精度(ACC)的值。具体而言，1)LSGMC-N表明用核范数代替Schatten p范数作为秩函数的凸松弛；2)LSGMC-A表示不采用自适应信息约简策略的LSGMC；3)LSGMC-B表示没有系数矩阵融合机制的LSGMC，但采用一般的类似矩阵构造方法；4)LSGMC-C表示在LSGMC中使用C代替Z^*进行后续处理。对于这三种方法，λ和p两个参数都在与LSGMC相同的范围内搜索。结果表明，这三种策略对于保证所提方法的有效性是不可或缺的。Schatten p范数可以更准确地逼近低秩。自适应信息约简策略可以去除冗余信息和不准确的相似度量。系数融合机制可以获得多视图共享的紧凑表示，全面描述多视图数据的隶属度。

以上所述，仅为本发明优选的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种多视图子空间聚类方法，其特征在于，包括以下步骤：

获取多视图数据，自表示生成系数矩阵；

将对低秩对称系数矩阵输入优化模型得到相似矩阵；

最终将相似矩阵输入谱聚类中获取聚类结果。

2.根据权利要求1所述的方法，其特征在于，所述对多视图数据进行自表达的过程如下：

3.根据权利要求1所述的方法，其特征在于，所述优化多视图子空间聚类框架的优化过程为：

对自表达得到的系数矩阵Z_v施加Schatten p范数，可表示为：

对自表达得到的误差矩阵E_v施加l2，1范数，其具体形式为：||E_v||_2，1；

s.t.X_v＝X_vZ_v+E_v

4.根据权利要求1所述的方法，其特征在于，获得低秩对称系数矩阵的过程为：

对系数矩阵Z_v进行三因子分解，将系数矩阵Z_v分解为三个矩阵的乘积以保持一致性，具体公式为：

对得到的低秩系数矩阵Z_v施加对称约束。

5.根据权利要求1所述的方法，其特征在于，优化模型的过程为：

s.t.X_v＝X_vZ_v+E_v，

其中入是两项正则化贡献的平衡参数，p是Schatten p范数的参数，矩阵L_v和R_v都有正交约束。根据损失函数优化后所得的矩阵更新公式进行迭代，在每一次迭代过程中，按以下公式更新各个变量：

其中，[E_v]_：，i为矩阵E_v的第i列； M_v和N_v是对矩阵/>奇异值分解所得的左、右奇异值矩阵；关于R_v的更新方式类似L_v；I是单位矩阵；/>

6.根据权利要求1所述的方法，其特征在于，得到相似矩阵的过程为：

首先累加优化后得到的系数矩阵然后执行SVD分解：Z^*＝U^*∑*(V^*)^T，其中定义：M＝U^*(∑*)^1/2然后用所有矩阵M的行向量的角信息来定义相似矩阵W：

其中m_i和m_j分别表示矩阵M的第i行和第j行。

7.一种多视图子空间聚类装置，其特征在于，包括：

自表示处理模块，用于生成系数矩阵；

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，其中，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时所述处理器用于执行：

如权利要求1至6中任一项所述的一种多视图子空间聚类方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，在所述计算机程序被计算机执行时，所述计算机用于执行：如权利要求1至6中任一项所述的一种多视图子空间聚类方法。