CN117523244A

CN117523244A - 一种多视图聚类方法、系统、电子设备及存储介质

Info

Publication number: CN117523244A
Application number: CN202311439517.6A
Authority: CN
Inventors: 晁国清; 乔智栋; 曾仕聪; 孟凡超; 周学权; 涂志莹; 初佃辉
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-06
Anticipated expiration: 2043-10-31
Also published as: CN117523244B

Abstract

本发明实施例提供一种多视图聚类方法、系统、电子设备及存储介质，属于信息技术领域。该方法包括：获取待聚类的多个数据缺失视图；利用多重插补法，对所述多个数据缺失视图中缺失的数据进行缺失值处理，获得多个完整视图，并生成不确定性度量矩阵；提取所述不确定性度量矩阵中易于聚类的隐空间特征；将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多个数据缺失视图的聚类结果。通过上述技术方案，利用多重插补法，不仅可以充分利用多视图数据之间的互补信息，对缺失数据进行有效插补，增强了数据之间的关联性，还通过循环对抗生成网络在此基础上实现高效率的多个数据缺失视图的聚类。

Description

一种多视图聚类方法、系统、电子设备及存储介质

技术领域

本发明涉及信息技术领域，具体地涉及一种多视图聚类方法、系统、电子设备及存储介质。

背景技术

随着大数据技术的快速发展，现实生活中产生了大量的多视图数据，多视图数据是指从不同视角、不同特征提取方式或不同数据源获得的数据集，多视图聚类方法通过利用多个视角之间的互补信息进行聚类，已经在许多领域取得了显著的效果，如图像识别、文本分类和生物信息学等。然而，在实际应用中，多视图数据往往存在着不同程度的缺失。这些缺失数据会导致传统的多视图聚类方法在聚类过程中产生误导，从而降低聚类性能。因此，如何有效处理缺失多视图数据，提高聚类性能成为了一个重要的研究问题。

目前，针对缺失多视图数据的聚类方法主要分为两类：第一类方法是在聚类前预处理阶段对缺失数据进行插补，如均值插补、中位数插补、最近邻插补等；第二类方法是在聚类过程中直接处理缺失数据，如基于模型的聚类方法、基于优化的聚类方法等。这些方法在一定程度上可以处理缺失多视图数据，但仍存在一定的局限性。

但是，对于第一类方法，传统的插补方法往往只考虑了单一视图的信息，而忽略了其他视图的信息。这可能导致插补后的数据不符合真实数据的分布，进而影响聚类性能。此外，这类方法通常需要人为选择合适的插补方法，具有一定的主观性；而且在多视图数据中，不同视图的缺失情况可能不同，选择合适的插补方法变得更为困难。对于第二类方法，虽然在聚类过程中直接处理缺失数据，但往往需要引入额外的模型假设和优化目标。这可能导致算法的复杂性增加，降低聚类效率。同时，这些方法在处理缺失数据时，通常只考虑单个缺失值的影响，而忽略了缺失值之间的关联性，这可能导致聚类性能受到限制。

发明内容

本发明实施例的目的是提供一种多视图聚类方法、系统、电子设备及存储介质，用于全部或至少部分的解决上述现有技术中存在的技术问题。

为了更清晰展现本发明的具体实现方法，先描述一些相关的概念：

多重插补是一种用于函数逼近的方法，它的目的是通过已知的一些输入和输出数据，来预测那些未知的输入对应的输出，多重插补可以被看作是一种回归分析，在机器学习中，多重插补通常用于处理缺失数据或者对连续变量建模，可以用于图像处理、语音处理、自然语言处理等领域。

自编码器是一种用于无监督学习的神经网络模型，它的目的是将输入数据压缩成与输入数据相同的形状。在编码器分为编码器和解码器两部分，其中，编码器将输入数据转换为编码，解码器将编码转换为输出数据。自编码器可以被看作是一种特殊的神经网络结构，可以用于维度约简、特征学习、数据生成等领域。

循环对抗生成神经网络是一种用于生成序列数据的神经网络模型。它由两个循环神经网络组成，一个是生成器，另一个是判别器。生成器的作用是生成与真实序列数据相似的序列数据，判别器的作用是判断生成的序列数据是否真实。生成器和判别器通过对抗训练进行优化，使得生成器可以生成更加真实的序列数据，循环对抗生成神经网络可以用于图像处理、语音处理、自然语言处理等领域，例如图像描述生成、语音合成、文本生成等任务。

为了实现上述目的，本发明实施例提供一种多视图聚类方法，包括：

获取待聚类的多个数据缺失视图；

利用多重插补法，对所述多个数据缺失视图中缺失的数据进行缺失值处理，获得多个完整视图，并生成不确定性度量矩阵；

提取所述不确定性度量矩阵中易于聚类的隐空间特征；

将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多个数据缺失视图的聚类结果。

可选的，所述缺失多视图聚类方法还包括：

对待聚类的数据集进行预处理，提取出多种视图作为数据缺失视图。

可选的，提取所述不确定性度量矩阵中易于聚类的隐空间特征，包括：

将所述不确定性度量矩阵输入至自编码器，使得所述自编码器根据损失函数和跨视图对比损失函数，提取所述不确定性度量矩阵中易于聚类的隐空间特征。

可选的，所述循环对抗生成网络包括：第一生成器、第二生成器、第一判别器、第二判别器以及聚类层。

可选的，将所述易于聚类的隐空间特征以及进行缺失值处理后的多个数据缺失视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多视图数据的聚类结果，包括：

利用所述循环对抗生成网络中的所述第一生成器、所述第二生成器、所述第一判别器、所述第二判别器对所述多个完整视图进行对齐处理，以确保所述多个完整视图之间的一致性；

将所述易于聚类的隐空间特征输入至所述循环对抗生成网络的聚类层进行谱聚类，获得所述待聚类的多个数据缺失视图的聚类结果。

另一方面，本发明还提供一种多视图聚类系统，包括：

获取单元，用于获取待聚类的多个数据缺失视图；

生成单元，用于利用多重插补法，对所述多个数据缺失视图中缺失的数据进行缺失值处理，获得多个完整视图，并生成不确定性度量矩阵；

提取单元，用于提取所述不确定性度量矩阵中易于聚类的隐空间特征；

聚类单元，用于将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多个数据缺失视图的聚类结果。

另一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序，所述处理器执行所述程序时实现上述所述的多视图聚类方法的步骤。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的多视图聚类方法的步骤。

通过上述技术方案，利用多重插补法，不仅可以充分利用多视图数据之间的互补信息，对缺失数据进行有效插补，增强了数据之间的关联性，还通过循环对抗生成网络在此基础上实现高效率的多个数据缺失视图的聚类。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的一种多视图聚类方法实施流程图；

图2是本发明实施例提供的一种原始数据示意图；

图3是本发明实施例提供的一种对原始数据进行预处理之后的数据示意图；

图4是本发明实施例提供的一种经插补后的数据示意图；

图5是本发明实施例提供的一种循环对抗生成网络的架构图；

图6是本发明实施例提供的一种基于循环对抗生成网络的多视图聚类示意图；

图7是本发明实施例提供的一种多视图聚类系统的结构示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

参阅图1所示，为本发明实施例提供的一种多视图聚类方法实施流程图，包括以下执行步骤：

步骤100：获取待聚类的多个数据缺失视图。

在一些实施方式中，在执行步骤100之前，还执行对待聚类的数据集进行预处理，提取出多个视图作为数据缺失视图。

在一些实施方式中，对数据集进行预处理，提取出两种视图作为样本视图并对数据做缺失处理，原始数据如图2所示，预处理后的数据如图3所示。

步骤101：利用多重插补法，对所述多个数据缺失视图中缺失的数据进行缺失值处理，并生成不确定性度量矩阵。

在一些实施方式中，通过MICE-FOREST库来进行多重插补，通过已有数据推断缺失数据，同时生成不确定性度量矩阵来衡量插补数据的可信度，插补后的数据如图4所示。

步骤102：提取所述不确定性度量矩阵中易于聚类的隐空间特征。

步骤103：将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多个数据缺失视图的聚类结果。

在一些实施方式中，所述循环对抗生成网络包括：第一生成器、第二生成器、第一判别器、第二判别器以及聚类层。

在一些实施方式中，可以采用以下方式提取所述不确定性度量矩阵中易于聚类的隐空间特征：将所述不确定性度量矩阵输入至所述自编码器，使得所述自编码器根据损失函数和跨视图对比损失函数，提取所述不确定性度量矩阵中易于聚类的隐空间特征。

在一些实施方式中，提取易于聚类的隐空间特征，填补数据并得到不确定性度量矩阵后，进一步将不确定性度量矩阵引入到自编码器的损失函数中，同时引入跨视图对比损失函数来最大化不同视图之间的互信息。

在一些实施方式中，执行步骤103时，可以执行以下步骤：

S1030：利用所述循环对抗生成网络中的所述第一生成器、所述第二生成器、所述第一判别器、所述第二判别器对所述多个完整视图进行对齐处理，以确保所述多个完整视图之间的一致性。

在一些实施方式中，利用循环对抗生成网络来对齐视图，在训练过程中，第一生成器(G1)负责将第二类视图转化为最终视图1，第二生成器(G2)负责将第一类视图转化为最终视图2，由第一判别器(D1)和第二判别器(D2)分别判断最终视图1和最终视图2是否属于同一类视图；通过最优化损失函数，达到强调视图间的一致性，捕捉样本的一致性信息的目的，循环生成对抗生成网络的架构图如图5所示。

S1031：将所述易于聚类的隐空间特征输入至所述循环对抗生成网络的聚类层进行谱聚类，获得所述待聚类的多视图数据的聚类结果。

在一些实施方式中，参阅图6所示，为本发明实施例提供的一种基于循环对抗生成网络的多视图聚类示意图，首先将数据缺失视图1和数据缺失视图2分别进行缺失值处理，得到完整视图1和完整视图2，并生成不确定性度量M，分别将两幅完整视图输入至自编码器中的编码器(e1、e2)，提取出隐空间特征，将隐空间特征输入至解码器(d1、d2)进行解码，之后输入至生成器(G1、G2)，并分别将第二类视图和第一类视图转化为最终视图，通过判别器(D1、D2)判断最终视图1和最终视图2是否属于同一类视图，最终输出聚类结果。

在一些实施方式中，基于多重插补的缺失多视图聚类算法可以实现多视图聚类，具体算法如下：

输入：缺失数据簇数量K，预训练迭代次数PreIter，训练迭代数MaxIter，输出：聚类结果C；具体如下：

1：将缺失数据输入到多重插补层进行多重插补得到完整数据X，同时计算生成不确定性度量矩阵M^v；

2：初始化自编码器的编码器Encoder E^v、解码器Decoder D^v；

3：for iter∈1,2,…PreIter do；

4：Enocder E^v生成样本的隐表示，Decoder D^v对样本的隐表示进行解码；

5：计算反向更新参数；

6：end；

7：利用自编码器学习的隐表示C^v来训练循环对抗生成网络；

8：for iter∈1,2,…MaxIter do；

9：编码器Enocder E^v生成样本的隐表示C^v；

10：计算生成器G₁₂损失函数，更新生成器G₁₂的参数，反向传播；

11：计算生成器G₂₁损失函数，更新生成器G₂₁的参数，反向传播；

12：计算判别器D₁损失函数，更新判别器D₁的参数，反向传播；

13：计算判别器D₂损失函数，更新判别器D₂的参数，反向传播；

14：计算更新编码器Encoder E^v的参数；

15：end；

16：编码器生成样本的隐表示C^v；

17：将样本的隐表示输入到谱聚类中得到聚类结果；

18：return R。

这样，在补齐缺失数据时，同时引入不确定性度量矩阵来衡量插补数据的可靠性，并且将该矩阵引入到损失函数中，在自编码器的训练过程中引入跨视图对比损失函数，能够让自编码器学习到更有利于聚类的样本的隐表示，在此基础上为了强调两个视图的一致性，引入循环生成对抗神经网络，来对齐两个视图，不仅能够将缺失多视图聚类问题转化为完整多视图聚类问题，降低问题的复杂程度，而且能够充分捕捉数据特征，获得更好的聚类效果。

参阅图7所示，为本发明实施例提供的一种多视图聚类系统的结构示意图，包括：

获取单元700：用于获取待聚类的多个数据缺失视图；

生成单元701，用于利用多重插补法，对所述多个数据缺失视图中缺失的数据进行缺失值处理，获得多个完整视图，并生成不确定性度量矩阵；

提取单元702，用于提取所述不确定性度量矩阵中易于聚类的隐空间特征；

聚类单元703，用于将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多个数据缺失视图的聚类结果。

这样，在多视图聚类系统中各单元的协同作用下，不仅可以充分利用多视图数据之间的互补信息，对缺失数据进行有效插补，增强了数据之间的关联性，还通过循环对抗生成网络在此基础上实现高效率的多个数据缺失视图的聚类。

另一方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述的多视图聚类方法的步骤。

另一方面。本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的多视图聚类方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多视图聚类方法，其特征在于，包括：

获取待聚类的多个数据缺失视图；

提取所述不确定性度量矩阵中易于聚类的隐空间特征；

2.根据权利要求1所述的多视图聚类方法，其特征在于，所述缺失多视图聚类方法还包括：

对待聚类的数据集进行预处理，提取出多个视图作为数据缺失视图。

3.根据权利要求1所述的多视图聚类方法，其特征在于，提取所述不确定性度量矩阵中易于聚类的隐空间特征，包括：

4.根据权利要求1所述的多视图聚类方法，其特征在于，所述循环对抗生成网络包括：第一生成器、第二生成器、第一判别器、第二判别器以及聚类层。

5.根据权利要求4所述的多视图聚类方法，其特征在于，将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类，获得所述待聚类的多个数据缺失视图的聚类结果，包括：

6.一种多视图聚类系统，其特征在于，包括：

获取单元，用于获取待聚类的多个数据缺失视图；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的多视图聚类方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的多视图聚类方法的步骤。