CN117523244A - 一种多视图聚类方法、系统、电子设备及存储介质 - Google Patents
一种多视图聚类方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117523244A CN117523244A CN202311439517.6A CN202311439517A CN117523244A CN 117523244 A CN117523244 A CN 117523244A CN 202311439517 A CN202311439517 A CN 202311439517A CN 117523244 A CN117523244 A CN 117523244A
- Authority
- CN
- China
- Prior art keywords
- views
- clustering
- data
- missing
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000005259 measurement Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Complex Calculations (AREA)
Abstract
本发明实施例提供一种多视图聚类方法、系统、电子设备及存储介质,属于信息技术领域。该方法包括:获取待聚类的多个数据缺失视图;利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,获得多个完整视图,并生成不确定性度量矩阵;提取所述不确定性度量矩阵中易于聚类的隐空间特征;将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。通过上述技术方案,利用多重插补法,不仅可以充分利用多视图数据之间的互补信息,对缺失数据进行有效插补,增强了数据之间的关联性,还通过循环对抗生成网络在此基础上实现高效率的多个数据缺失视图的聚类。
Description
技术领域
本发明涉及信息技术领域,具体地涉及一种多视图聚类方法、系统、电子设备及存储介质。
背景技术
随着大数据技术的快速发展,现实生活中产生了大量的多视图数据,多视图数据是指从不同视角、不同特征提取方式或不同数据源获得的数据集,多视图聚类方法通过利用多个视角之间的互补信息进行聚类,已经在许多领域取得了显著的效果,如图像识别、文本分类和生物信息学等。然而,在实际应用中,多视图数据往往存在着不同程度的缺失。这些缺失数据会导致传统的多视图聚类方法在聚类过程中产生误导,从而降低聚类性能。因此,如何有效处理缺失多视图数据,提高聚类性能成为了一个重要的研究问题。
目前,针对缺失多视图数据的聚类方法主要分为两类:第一类方法是在聚类前预处理阶段对缺失数据进行插补,如均值插补、中位数插补、最近邻插补等;第二类方法是在聚类过程中直接处理缺失数据,如基于模型的聚类方法、基于优化的聚类方法等。这些方法在一定程度上可以处理缺失多视图数据,但仍存在一定的局限性。
但是,对于第一类方法,传统的插补方法往往只考虑了单一视图的信息,而忽略了其他视图的信息。这可能导致插补后的数据不符合真实数据的分布,进而影响聚类性能。此外,这类方法通常需要人为选择合适的插补方法,具有一定的主观性;而且在多视图数据中,不同视图的缺失情况可能不同,选择合适的插补方法变得更为困难。对于第二类方法,虽然在聚类过程中直接处理缺失数据,但往往需要引入额外的模型假设和优化目标。这可能导致算法的复杂性增加,降低聚类效率。同时,这些方法在处理缺失数据时,通常只考虑单个缺失值的影响,而忽略了缺失值之间的关联性,这可能导致聚类性能受到限制。
发明内容
本发明实施例的目的是提供一种多视图聚类方法、系统、电子设备及存储介质,用于全部或至少部分的解决上述现有技术中存在的技术问题。
为了更清晰展现本发明的具体实现方法,先描述一些相关的概念:
多重插补是一种用于函数逼近的方法,它的目的是通过已知的一些输入和输出数据,来预测那些未知的输入对应的输出,多重插补可以被看作是一种回归分析,在机器学习中,多重插补通常用于处理缺失数据或者对连续变量建模,可以用于图像处理、语音处理、自然语言处理等领域。
自编码器是一种用于无监督学习的神经网络模型,它的目的是将输入数据压缩成与输入数据相同的形状。在编码器分为编码器和解码器两部分,其中,编码器将输入数据转换为编码,解码器将编码转换为输出数据。自编码器可以被看作是一种特殊的神经网络结构,可以用于维度约简、特征学习、数据生成等领域。
循环对抗生成神经网络是一种用于生成序列数据的神经网络模型。它由两个循环神经网络组成,一个是生成器,另一个是判别器。生成器的作用是生成与真实序列数据相似的序列数据,判别器的作用是判断生成的序列数据是否真实。生成器和判别器通过对抗训练进行优化,使得生成器可以生成更加真实的序列数据,循环对抗生成神经网络可以用于图像处理、语音处理、自然语言处理等领域,例如图像描述生成、语音合成、文本生成等任务。
为了实现上述目的,本发明实施例提供一种多视图聚类方法,包括:
获取待聚类的多个数据缺失视图;
利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,获得多个完整视图,并生成不确定性度量矩阵;
提取所述不确定性度量矩阵中易于聚类的隐空间特征;
将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
可选的,所述缺失多视图聚类方法还包括:
对待聚类的数据集进行预处理,提取出多种视图作为数据缺失视图。
可选的,提取所述不确定性度量矩阵中易于聚类的隐空间特征,包括:
将所述不确定性度量矩阵输入至自编码器,使得所述自编码器根据损失函数和跨视图对比损失函数,提取所述不确定性度量矩阵中易于聚类的隐空间特征。
可选的,所述循环对抗生成网络包括:第一生成器、第二生成器、第一判别器、第二判别器以及聚类层。
可选的,将所述易于聚类的隐空间特征以及进行缺失值处理后的多个数据缺失视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多视图数据的聚类结果,包括:
利用所述循环对抗生成网络中的所述第一生成器、所述第二生成器、所述第一判别器、所述第二判别器对所述多个完整视图进行对齐处理,以确保所述多个完整视图之间的一致性;
将所述易于聚类的隐空间特征输入至所述循环对抗生成网络的聚类层进行谱聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
另一方面,本发明还提供一种多视图聚类系统,包括:
获取单元,用于获取待聚类的多个数据缺失视图;
生成单元,用于利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,获得多个完整视图,并生成不确定性度量矩阵;
提取单元,用于提取所述不确定性度量矩阵中易于聚类的隐空间特征;
聚类单元,用于将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序,所述处理器执行所述程序时实现上述所述的多视图聚类方法的步骤。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的多视图聚类方法的步骤。
通过上述技术方案,利用多重插补法,不仅可以充分利用多视图数据之间的互补信息,对缺失数据进行有效插补,增强了数据之间的关联性,还通过循环对抗生成网络在此基础上实现高效率的多个数据缺失视图的聚类。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的一种多视图聚类方法实施流程图;
图2是本发明实施例提供的一种原始数据示意图;
图3是本发明实施例提供的一种对原始数据进行预处理之后的数据示意图;
图4是本发明实施例提供的一种经插补后的数据示意图;
图5是本发明实施例提供的一种循环对抗生成网络的架构图;
图6是本发明实施例提供的一种基于循环对抗生成网络的多视图聚类示意图;
图7是本发明实施例提供的一种多视图聚类系统的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
参阅图1所示,为本发明实施例提供的一种多视图聚类方法实施流程图,包括以下执行步骤:
步骤100:获取待聚类的多个数据缺失视图。
在一些实施方式中,在执行步骤100之前,还执行对待聚类的数据集进行预处理,提取出多个视图作为数据缺失视图。
在一些实施方式中,对数据集进行预处理,提取出两种视图作为样本视图并对数据做缺失处理,原始数据如图2所示,预处理后的数据如图3所示。
步骤101:利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,并生成不确定性度量矩阵。
在一些实施方式中,通过MICE-FOREST库来进行多重插补,通过已有数据推断缺失数据,同时生成不确定性度量矩阵来衡量插补数据的可信度,插补后的数据如图4所示。
步骤102:提取所述不确定性度量矩阵中易于聚类的隐空间特征。
步骤103:将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
在一些实施方式中,所述循环对抗生成网络包括:第一生成器、第二生成器、第一判别器、第二判别器以及聚类层。
在一些实施方式中,可以采用以下方式提取所述不确定性度量矩阵中易于聚类的隐空间特征:将所述不确定性度量矩阵输入至所述自编码器,使得所述自编码器根据损失函数和跨视图对比损失函数,提取所述不确定性度量矩阵中易于聚类的隐空间特征。
在一些实施方式中,提取易于聚类的隐空间特征,填补数据并得到不确定性度量矩阵后,进一步将不确定性度量矩阵引入到自编码器的损失函数中,同时引入跨视图对比损失函数来最大化不同视图之间的互信息。
在一些实施方式中,执行步骤103时,可以执行以下步骤:
S1030:利用所述循环对抗生成网络中的所述第一生成器、所述第二生成器、所述第一判别器、所述第二判别器对所述多个完整视图进行对齐处理,以确保所述多个完整视图之间的一致性。
在一些实施方式中,利用循环对抗生成网络来对齐视图,在训练过程中,第一生成器(G1)负责将第二类视图转化为最终视图1,第二生成器(G2)负责将第一类视图转化为最终视图2,由第一判别器(D1)和第二判别器(D2)分别判断最终视图1和最终视图2是否属于同一类视图;通过最优化损失函数,达到强调视图间的一致性,捕捉样本的一致性信息的目的,循环生成对抗生成网络的架构图如图5所示。
S1031:将所述易于聚类的隐空间特征输入至所述循环对抗生成网络的聚类层进行谱聚类,获得所述待聚类的多视图数据的聚类结果。
在一些实施方式中,参阅图6所示,为本发明实施例提供的一种基于循环对抗生成网络的多视图聚类示意图,首先将数据缺失视图1和数据缺失视图2分别进行缺失值处理,得到完整视图1和完整视图2,并生成不确定性度量M,分别将两幅完整视图输入至自编码器中的编码器(e1、e2),提取出隐空间特征,将隐空间特征输入至解码器(d1、d2)进行解码,之后输入至生成器(G1、G2),并分别将第二类视图和第一类视图转化为最终视图,通过判别器(D1、D2)判断最终视图1和最终视图2是否属于同一类视图,最终输出聚类结果。
在一些实施方式中,基于多重插补的缺失多视图聚类算法可以实现多视图聚类,具体算法如下:
输入:缺失数据簇数量K,预训练迭代次数PreIter,训练迭代数MaxIter,输出:聚类结果C;具体如下:
1:将缺失数据输入到多重插补层进行多重插补得到完整数据X,同时计算生成不确定性度量矩阵Mv;
2:初始化自编码器的编码器Encoder Ev、解码器Decoder Dv;
3:for iter∈1,2,…PreIter do;
4:Enocder Ev生成样本的隐表示,Decoder Dv对样本的隐表示进行解码;
5:计算反向更新参数;
6:end;
7:利用自编码器学习的隐表示Cv来训练循环对抗生成网络;
8:for iter∈1,2,…MaxIter do;
9:编码器Enocder Ev生成样本的隐表示Cv;
10:计算生成器G12损失函数,更新生成器G12的参数,反向传播;
11:计算生成器G21损失函数,更新生成器G21的参数,反向传播;
12:计算判别器D1损失函数,更新判别器D1的参数,反向传播;
13:计算判别器D2损失函数,更新判别器D2的参数,反向传播;
14:计算更新编码器Encoder Ev的参数;
15:end;
16:编码器生成样本的隐表示Cv;
17:将样本的隐表示输入到谱聚类中得到聚类结果;
18:return R。
这样,在补齐缺失数据时,同时引入不确定性度量矩阵来衡量插补数据的可靠性,并且将该矩阵引入到损失函数中,在自编码器的训练过程中引入跨视图对比损失函数,能够让自编码器学习到更有利于聚类的样本的隐表示,在此基础上为了强调两个视图的一致性,引入循环生成对抗神经网络,来对齐两个视图,不仅能够将缺失多视图聚类问题转化为完整多视图聚类问题,降低问题的复杂程度,而且能够充分捕捉数据特征,获得更好的聚类效果。
参阅图7所示,为本发明实施例提供的一种多视图聚类系统的结构示意图,包括:
获取单元700:用于获取待聚类的多个数据缺失视图;
生成单元701,用于利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,获得多个完整视图,并生成不确定性度量矩阵;
提取单元702,用于提取所述不确定性度量矩阵中易于聚类的隐空间特征;
聚类单元703,用于将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
这样,在多视图聚类系统中各单元的协同作用下,不仅可以充分利用多视图数据之间的互补信息,对缺失数据进行有效插补,增强了数据之间的关联性,还通过循环对抗生成网络在此基础上实现高效率的多个数据缺失视图的聚类。
另一方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的多视图聚类方法的步骤。
另一方面。本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的多视图聚类方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种多视图聚类方法,其特征在于,包括:
获取待聚类的多个数据缺失视图;
利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,获得多个完整视图,并生成不确定性度量矩阵;
提取所述不确定性度量矩阵中易于聚类的隐空间特征;
将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
2.根据权利要求1所述的多视图聚类方法,其特征在于,所述缺失多视图聚类方法还包括:
对待聚类的数据集进行预处理,提取出多个视图作为数据缺失视图。
3.根据权利要求1所述的多视图聚类方法,其特征在于,提取所述不确定性度量矩阵中易于聚类的隐空间特征,包括:
将所述不确定性度量矩阵输入至自编码器,使得所述自编码器根据损失函数和跨视图对比损失函数,提取所述不确定性度量矩阵中易于聚类的隐空间特征。
4.根据权利要求1所述的多视图聚类方法,其特征在于,所述循环对抗生成网络包括:第一生成器、第二生成器、第一判别器、第二判别器以及聚类层。
5.根据权利要求4所述的多视图聚类方法,其特征在于,将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果,包括:
利用所述循环对抗生成网络中的所述第一生成器、所述第二生成器、所述第一判别器、所述第二判别器对所述多个完整视图进行对齐处理,以确保所述多个完整视图之间的一致性;
将所述易于聚类的隐空间特征输入至所述循环对抗生成网络的聚类层进行谱聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
6.一种多视图聚类系统,其特征在于,包括:
获取单元,用于获取待聚类的多个数据缺失视图;
生成单元,用于利用多重插补法,对所述多个数据缺失视图中缺失的数据进行缺失值处理,获得多个完整视图,并生成不确定性度量矩阵;
提取单元,用于提取所述不确定性度量矩阵中易于聚类的隐空间特征;
聚类单元,用于将所述易于聚类的隐空间特征以及所述多个完整视图输入至循环对抗生成网络进行聚类,获得所述待聚类的多个数据缺失视图的聚类结果。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的多视图聚类方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的多视图聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439517.6A CN117523244B (zh) | 2023-10-31 | 2023-10-31 | 一种多视图聚类方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439517.6A CN117523244B (zh) | 2023-10-31 | 2023-10-31 | 一种多视图聚类方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117523244A true CN117523244A (zh) | 2024-02-06 |
CN117523244B CN117523244B (zh) | 2024-05-24 |
Family
ID=89750480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311439517.6A Active CN117523244B (zh) | 2023-10-31 | 2023-10-31 | 一种多视图聚类方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523244B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200074220A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Multi-view image clustering techniques using binary compression |
CN113239983A (zh) * | 2021-04-25 | 2021-08-10 | 浙江师范大学 | 基于高阶关联保持的缺失多视图子空间聚类方法及系统 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
CN113705603A (zh) * | 2021-07-12 | 2021-11-26 | 北京邮电大学 | 不完整多视角数据的聚类方法、电子设备 |
US20210390270A1 (en) * | 2020-06-16 | 2021-12-16 | Baidu Usa Llc | Cross-lingual unsupervised classification with multi-view transfer learning |
CN114565783A (zh) * | 2022-03-03 | 2022-05-31 | 天津大学 | 一种基于集成异构图注意力网络的缺失多视图聚类方法 |
US20220261668A1 (en) * | 2021-02-12 | 2022-08-18 | Tempus Labs, Inc. | Artificial intelligence engine for directed hypothesis generation and ranking |
CN115311483A (zh) * | 2022-08-16 | 2022-11-08 | 哈尔滨工业大学(深圳) | 基于局部结构与平衡感知的不完备多视图聚类方法及系统 |
CN115527052A (zh) * | 2022-09-26 | 2022-12-27 | 内蒙古工业大学 | 一种基于对比预测的多视图聚类方法 |
WO2022267954A1 (zh) * | 2021-06-24 | 2022-12-29 | 浙江师范大学 | 基于统一锚点与子空间学习的谱聚类方法及系统 |
CN115546525A (zh) * | 2022-10-20 | 2022-12-30 | 重庆长安汽车股份有限公司 | 多视图聚类方法、装置、电子设备及存储介质 |
WO2023015631A1 (zh) * | 2021-08-13 | 2023-02-16 | 广东技术师范大学 | 一种基于缺失数据的分类模型生成方法 |
US11687730B1 (en) * | 2019-05-21 | 2023-06-27 | Asapp, Inc. | Automated conversation goal discovery using neural networks and deep multi-view clustering |
CN116361670A (zh) * | 2023-03-17 | 2023-06-30 | 中国科学院深圳先进技术研究院 | 不完备多视图聚类方法、系统、设备以及存储介质 |
CN116415121A (zh) * | 2021-12-24 | 2023-07-11 | 江南大学 | 一种基于不完整多视角聚类的金融缺失数据填补方法 |
CN116451095A (zh) * | 2023-03-27 | 2023-07-18 | 华南理工大学 | 多源异构医疗数据多视图聚类方法、装置、介质及设备 |
-
2023
- 2023-10-31 CN CN202311439517.6A patent/CN117523244B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200074220A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Multi-view image clustering techniques using binary compression |
US11687730B1 (en) * | 2019-05-21 | 2023-06-27 | Asapp, Inc. | Automated conversation goal discovery using neural networks and deep multi-view clustering |
US20210390270A1 (en) * | 2020-06-16 | 2021-12-16 | Baidu Usa Llc | Cross-lingual unsupervised classification with multi-view transfer learning |
US20220261668A1 (en) * | 2021-02-12 | 2022-08-18 | Tempus Labs, Inc. | Artificial intelligence engine for directed hypothesis generation and ranking |
CN113239983A (zh) * | 2021-04-25 | 2021-08-10 | 浙江师范大学 | 基于高阶关联保持的缺失多视图子空间聚类方法及系统 |
WO2022267954A1 (zh) * | 2021-06-24 | 2022-12-29 | 浙江师范大学 | 基于统一锚点与子空间学习的谱聚类方法及系统 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
CN113705603A (zh) * | 2021-07-12 | 2021-11-26 | 北京邮电大学 | 不完整多视角数据的聚类方法、电子设备 |
WO2023015631A1 (zh) * | 2021-08-13 | 2023-02-16 | 广东技术师范大学 | 一种基于缺失数据的分类模型生成方法 |
CN116415121A (zh) * | 2021-12-24 | 2023-07-11 | 江南大学 | 一种基于不完整多视角聚类的金融缺失数据填补方法 |
CN114565783A (zh) * | 2022-03-03 | 2022-05-31 | 天津大学 | 一种基于集成异构图注意力网络的缺失多视图聚类方法 |
CN115311483A (zh) * | 2022-08-16 | 2022-11-08 | 哈尔滨工业大学(深圳) | 基于局部结构与平衡感知的不完备多视图聚类方法及系统 |
CN115527052A (zh) * | 2022-09-26 | 2022-12-27 | 内蒙古工业大学 | 一种基于对比预测的多视图聚类方法 |
CN115546525A (zh) * | 2022-10-20 | 2022-12-30 | 重庆长安汽车股份有限公司 | 多视图聚类方法、装置、电子设备及存储介质 |
CN116361670A (zh) * | 2023-03-17 | 2023-06-30 | 中国科学院深圳先进技术研究院 | 不完备多视图聚类方法、系统、设备以及存储介质 |
CN116451095A (zh) * | 2023-03-27 | 2023-07-18 | 华南理工大学 | 多源异构医疗数据多视图聚类方法、装置、介质及设备 |
Non-Patent Citations (6)
Title |
---|
CHANGQING ZHANG ET AL: "Latent Multi-view Subspace Clustering", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 9 November 2017 (2017-11-09) * |
SUDIPTO MUKHERJEE ET AL: "ClusterGAN : Latent Space Clustering in Generative Adversarial Networks", ARXIV, 10 September 2018 (2018-09-10) * |
YUFENG WANG ET AL: "PC-GAIN: Pseudo-label conditional generative adversarial imputation networks for incomplete data", NEURAL NETWORKS, 1 September 2021 (2021-09-01) * |
何雪梅;: "多视图聚类算法综述", 软件导刊, no. 04, 25 March 2019 (2019-03-25) * |
姜健伟;殷俊;: "基于正交约束的分块不完整多视角聚类", 模式识别与人工智能, no. 01, 15 January 2020 (2020-01-15) * |
季琳雅;吕鑫;陶飞飞;曾涛;: "基于对抗自编码网络的水利数据补全方法", 计算机工程, no. 04, 29 November 2018 (2018-11-29) * |
Also Published As
Publication number | Publication date |
---|---|
CN117523244B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN113361250A (zh) | 一种基于语义一致性的双向文本生成图像方法及系统 | |
CN112258625B (zh) | 基于注意力机制的单幅图像到三维点云模型重建方法及系统 | |
CN113254729B (zh) | 基于动态超图网络的多模态演化特征自动共形表示方法 | |
CN114419464B (zh) | 一种基于深度学习的孪生网络变化检测模型的构建方法 | |
CN115951883B (zh) | 分布式微服务架构的服务组件管理系统及其方法 | |
CN116152611B (zh) | 一种多级多尺度点云补全方法、系统、设备及存储介质 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN116030018A (zh) | 用于门加工的来料合格检验系统及方法 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
CN117033657A (zh) | 一种信息检索方法及装置 | |
CN112529862A (zh) | 一种交互循环特征重塑的显著性图像检测方法 | |
CN115659175A (zh) | 一种面向微服务资源的多模态数据分析方法、装置及介质 | |
CN116433223A (zh) | 基于双域稀疏Transformer模型的变电站设备故障预警方法及设备 | |
CN113761282B (zh) | 视频查重方法、装置、电子设备以及存储介质 | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
CN113409803B (zh) | 语音信号处理方法、装置、存储介质及设备 | |
Yuan et al. | CTIF-Net: A CNN-Transformer Iterative Fusion Network for Salient Object Detection | |
CN113299298A (zh) | 残差单元及网络及目标识别方法及系统及装置及介质 | |
CN117523244B (zh) | 一种多视图聚类方法、系统、电子设备及存储介质 | |
CN116663523A (zh) | 多角度增强网络的语义文本相似度计算方法 | |
CN112818164B (zh) | 音乐类型识别方法、装置、设备及存储介质 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |