CN113705603A - 不完整多视角数据的聚类方法、电子设备 - Google Patents

不完整多视角数据的聚类方法、电子设备 Download PDF

Info

Publication number
CN113705603A
CN113705603A CN202110784672.6A CN202110784672A CN113705603A CN 113705603 A CN113705603 A CN 113705603A CN 202110784672 A CN202110784672 A CN 202110784672A CN 113705603 A CN113705603 A CN 113705603A
Authority
CN
China
Prior art keywords
view data
view
clustering
representation
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110784672.6A
Other languages
English (en)
Inventor
薛哲
杜军平
宋杰
郑长伟
梁美玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Beijing University of Posts and Telecommunications
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Beijing University of Posts and Telecommunications filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110784672.6A priority Critical patent/CN113705603A/zh
Publication of CN113705603A publication Critical patent/CN113705603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种不完整多视角数据的聚类方法、电子设备,所述方法包括:通过多视角自编码器对不完整多视角数据缺失的多视角特征进行补全,以得到完整多视角数据及其统一特征表示;通过单层神经网络模型对完整多视角数据的局部结构进行学习,并利用图卷积网络对完整多视角数据的局部结构信息进行提取,以得到完整多视角数据各视角的节点特征表示;基于统一特征表示以及节点特征表示,通过预设的聚类算法进行聚类得到完整多视角数据的聚类结果。本公开的技术方案在补全不完整多视角数据的缺失特征后,通过结合多视角数据的全局结构和局部结构,增强多视角数据的特征表示,进而获得更准确的多视角数据的聚类结果。

Description

不完整多视角数据的聚类方法、电子设备
技术领域
本公开涉及数据分析技术领域,尤其涉及一种不完整多视角数据的聚类方法、电子设备。
背景技术
现有的不完整多视角数据的聚类方法一般利用深度多视角自编码器对来自多个视角的数据学习统一的数据表示,对每个视角的特征都建立一套多视角自编码器,其包括编码器部分和解码器两个部分。对于不完整的多视角数据,采用加权融合的方式,把各个视角编码器的输出融合并统一表示,同时,在统一表示学习过程中加入图嵌入约束,使得所学的表示能够保留局部结构信息,此外,在统一表示层后加入聚类的损失函数,对多视角数据进行聚类。
传统的不完整多视角数据的聚类方法没有补全缺失的多视角特征,对于全局结构信息和局部结构信息没有进行同时利用,也没有对不同视角的重要性分配权重,导致最终无法对多视角数据准确聚类。
发明内容
有鉴于此,本公开的目的在于提出一种用于解决上述问题的不完整多视角数据的聚类方法、电子设备。
基于上述目的,本公开提供了一种不完整多视角数据的聚类方法,包括:
通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示;
根据所述数据重构表示,对所述不完整多视角数据缺失的多视角特征进行补全,以得到完整多视角数据及其统一特征表示;
通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习,以得到所述完整多视角数据的图;
基于所述完整多视角数据的图,利用预先训练的图卷积网络对所述完整多视角数据的局部结构信息进行提取,以得到所述完整多视角数据各视角的节点特征表示;
基于所述统一特征表示以及所述节点特征表示,通过预设的聚类算法对所述完整多视角数据进行聚类,得到聚类结果。
基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
从上面所述可以看出,本公开提供的不完整多视角数据的聚类方法、电子设备,通过对不完整多视角数据缺失的多视角特征进行补全,能够得到完整的多视角数据,从而避免由数据缺失对聚类性能产生的影响;通过对补全后的完整多视角数据的局部结构信息进行学习并提取,能够得到多视角数据的内在分布规律,从而有效提升多视角聚类性能;基于多视角数据的全局结构信息和局部结构信息,并利用多核聚类算法对不同视角分配不同的权重,进而获得更准确、可靠的聚类结果。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的不完整多视角数据的聚类方法流程图;
图2为本公开实施例的对多视角自编码器和图卷积网络进行自监督训练的流程图;
图3为本公开实施例的不完整多视角数据的聚类装置结构示意图;
图4为本公开实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
如背景技术部分所述,相关技术中的不完整多视角数据聚类的技术方案还难以满足需要,申请人在实现本公开的过程中发现相关技术中的技术方案存在以下问题:对于不完整多视角数据,没有对缺失的多视角特征进行补全,因而容易受到缺失特征的影响;其次,在聚类时没有同时结合多视角数据的全局结构信息,导致无法准确表示多视角数据;另外,对于不准确的视角没有进行处理,导致对聚类结果产生影响,无法准确聚类多视角数据。
有鉴于此,本公开实施例提供了一种不完整多视角数据的聚类方法,通过训练好的不完整多视角数据的多视角自编码器的输出,对多视角数据缺失的多视角特征进行补全;利用训练好的图卷积网络对补全多视角特征后的多视角数据的局部结构信息进行提取;通过结合全局结构信息和局部结构信息,同时对多视角数据的不同视角分配不同权重,以准确聚类多视角数据。
以下,通过具体的是实施例来详细说明本公开的技术方案。
参考图1,本公开一个实施例的不完整多视角数据的聚类方法,包括以下步骤:
步骤S101,通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示;根据所述数据重构表示,对所述不完整多视角数据缺失的多视角特征进行补全,以得到完整多视角数据及其统一特征表示。
在本步骤中,不完整多视角数据可以通过矩阵
Figure BDA0003158743070000031
进行表示,其中,V表示视角数量,且v=1,...,V,n表示样本样本数量,mv表示第v个视角的特征维度,相应的,第i个样本xi可表示为
Figure BDA0003158743070000032
需要说明的是,本公开中的变量R(·)表示具有相应维度的矩阵,例如
Figure BDA0003158743070000033
表示一个大小为n行mv列的矩阵。
不完整多视角数据的多视角自编码器包括编码器网络和解码器网络,需要说明的是,对不完整多视角数据的每个视角均需构建一个编码器网络f(v)(·)和解码器网络g(v)(·),可将第v个视角的第i个样本经过相应编码器网络的输出记作
Figure BDA0003158743070000034
将各视角的编码网器络输出保持一致,以获得不完整多视角数据统一特征表示记作h,即
Figure BDA0003158743070000041
这样,对于不完整多视角数据任意一个样本xi,均可通过编码器网络得到统一特征表示hi,
Figure BDA0003158743070000042
因此不完整多视角数据所有样本的统一特征表示可记为
Figure BDA0003158743070000043
进而将各样本的统一特征表示hi表示输入至解码器网络g(v)(·)中,获得不完整多视角数据的数据重构表示
Figure BDA0003158743070000044
利用数据重构表示
Figure BDA0003158743070000045
对不完整多视角数据缺失的多视角特征进行补全,从而获得完整多视角数据
Figure BDA0003158743070000046
及其统一特征表示H。
此外,可通过预设的损失函数对所述多视角自编码器进行训练,所述损失函数LR的表达式如下:
Figure BDA0003158743070000047
其中,X(v)表示不完整多视角数据的特征矩阵,P(v)表示对角矩阵,用于标记缺失样本,
Figure BDA0003158743070000048
表示第i个样本在第v个视角中时存在的,否则
Figure BDA0003158743070000049
X(v)表示完整多视角数据的特征矩阵。
经过多视角自编码器输出的完整多视角数据的统一特征表示能够较完整的保留多视角数据的全局结构信息以及多视角数据的互补信息。
可见,通过解码器网络产生的数据重构表示,对不完整多视角数据缺失的多视角特征进行补全,从而得到完整多视角数据,能够克服多视角数据缺失对聚类结果的影响。
步骤S102,通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习,以得到所述完整多视角数据的图。
在本步骤中,通过多视角自编码器能够获得多视角数据的全局结构信息,但忽略了对局部结构信息的提取,为保证对多视角数据的局部结构信息进行有效提取,需要对多视角数据的局部结构进行学习。
将单层神经网络模型学习的图记作
Figure BDA00031587430700000410
图S(v)是通过完整多视角数据第v个视角学习的图,该图能够有效保留多视角数据的近邻信息和局部结构信息,需要说明的是,图S(v)中的每个节点均表示不同的多视角数据样本。
所述完整多视角数据的图S(v)能够得到所述图S(v)中第i个节点和第j个节点之间的相似度
Figure BDA0003158743070000051
Figure BDA0003158743070000052
其中,σ表示激活函数,可采用ReLu函数,a(v)表示单层神经网络模型的网络参数,
Figure BDA0003158743070000053
表示完整多视角数据第i个样本在第v个视角的特征,
Figure BDA0003158743070000054
表示完整多视角数据第j个样本在第v个视角的特征,
Figure BDA0003158743070000055
表示完整多视角数据第k个样本在第v个视角的特征。
对于该单层神经网络模型采用softmax函数,可以保证图S(v)结构的准确性,即满足以下条件成立:
Figure BDA0003158743070000056
进一步的,通过第一目标函数对多视角数据的局部结构进行学习,第一目标函数LG的表达式如下:
Figure BDA0003158743070000057
其中,λ表示调节图稀疏度的参数。
通过调节图的稀疏度,能够使图S(v)保留完整多视角数据的近邻信息和局部结构信息,进一步提高不完整多视角数据聚类结果的准确性。
步骤S103,基于所述完整多视角数据的图,利用预先训练的图卷积网络(GCN)对所述完整多视角数据的局部结构信息进行提取,以得到所述完整多视角数据各视角的节点特征表示。
在本步骤中,为每个多视角数据的视角创建图卷积网络,其卷积层的表达式为:
Figure BDA0003158743070000058
其中,
Figure BDA0003158743070000059
表示第v个视角的GCN网络的第l层,D(v)表示对角矩阵,所述对角矩阵的对角元素满足
Figure BDA00031587430700000510
表示卷积层的权重矩阵,σ表示激活函数。
需要说明的是,可选择通过自编码网络补全多视角特征后的完整多视角数据特征作为图卷积网络节点的初始特征
Figure BDA00031587430700000511
记作
Figure BDA00031587430700000512
这样,经过多层的图卷积操作,GCN网络最高层的节点特征表示记作
Figure BDA0003158743070000061
将输出的节点特征表示编码至低维隐空间。该节点特征表示能够有效保留多视角数据的局部结构信息。
步骤S104,基于所述统一特征表示以及所述节点特征表示,通过预设的聚类算法对所述完整多视角数据进行聚类,得到聚类结果。
在本步骤中,根据完整多视角数据每个视角GCN所学的节点特征表示Z(v),确定第一核矩阵K(v),其表达式为K(v)=K(Z(v),Z(v));此外,为了保留多视角数据的全局结构信息,根据多视角自编码器输出的完整多视角数据的统一特征表示,确定第二核矩阵K(V+1),其表达式为K(V+1)=K(H,H);通过多核聚类算法将第一核矩阵和第二核矩阵进行融合,进而获得统一的核矩阵表示Ku,其表达式为
Figure BDA0003158743070000062
式中β=[β(1)(2),...,β(V)]表示权重系数,用于控制每个核矩阵的重要程度,参数r用于控制权重系数β的稀疏度;当0<r<1时,权重系数β中各分量的分布较为稀疏,此时多核聚类算法倾向于选择某个视角的信息来进行聚类;当r>1时,权重系数β中各分量的分布较为平滑,此时多核聚类倾向于选择多个视角的信息来进行聚类。
多核聚类算法的目标函数的表达式如下:
minTr(Ku(In-QQT)),
Figure BDA0003158743070000063
s.t.QTQ=IcT1V+1=1,
Figure BDA0003158743070000064
其中,Q表示待学习的嵌入矩阵,QT表示待学习的嵌入矩阵的转置矩阵,
Figure BDA0003158743070000065
表示长度为V+1并且取值非负的向量,1V+1表示长度为V+1并且取值全部为1的向量,βT表示权重系数矩阵的转置矩阵,In和Ic分别表示一个大小为n*n和c*c的单位矩阵。
通过多核聚类算法的目标函数能够求得待学习的嵌入矩阵以及权重系数β,对待学习的嵌入矩阵进行k均值聚类,便可获得完整多视角数据各样本的聚类结果qi,qi∈{0,1}c,i=1,...,n。
可见,通过多视角自编码器的重构功能,能够将不完整缺失的多视角特征进行补全,产生完整的多视角数据,利用损失函数对多视角自编码器进行训练,使其输出的统一特征表示有效保留多视角数据的全局结构信息;通过单层神经网络模型对补全特征后的多视角数据的局部结构进行学习,能够构建反映多视角数据局部结构信息的图,利用图卷积网络对该图的局部结构信息进行提取,能够得到包含多视角数据局部结构信息的节点特征表示;依据统一特征表示和节点特征表示,经过聚类得到相应的聚类结果;通过本方法获得的聚类结果鲁棒性更高,大幅度提升了多视角聚类性能。
在一些实施例中,参考图2,所述多视角自编码器和所述图卷积网络是通过以下方式而被训练的:
步骤S201,将所述数据重构表示和所述节点特征表示进行拼接,以得到多视角数据表示。
在本步骤中,获得的多视角数据表示R的表达式如下:
Figure BDA0003158743070000071
其中,其中R的第i行ri表示第i个多视角样本的特征向量。
步骤S202,将所述多视角数据表示输入至神经网络模型的全连接层,以得到对各样本的类别预测结果。
在本步骤中,将多视角数据表示R输入神经网络模型的全连接层
Figure BDA0003158743070000072
中进行类别预测,将该全连接层输出记作
Figure BDA0003158743070000073
其中yi表示对第i个样本的类别预测结果。
步骤S203,基于所述类别预测结果和所述聚类结果,利用预设的第二目标函数对所述多视角自编码器和所述图卷积网络进行自监督训练。
在本步骤中,第二目标函数LC的表达式如下:
Figure BDA0003158743070000074
其中,
Figure BDA0003158743070000075
表示通过softmax函数对类别预测结果yi的归一化结果,φi表示基于qi获得的第i个样本的伪类别,
Figure BDA0003158743070000076
表示类别的聚类中心向量,由该类别中所有样本的平均值得到,θ表示权重参数。
通过获得的聚类结果对多视角自编码器和GCN网络进行自监督训练,能够有效地增强所学的数据结构信息,经过不断迭代产生更为准确的聚类结果。
在一些实施例中,所述多视角自编码器、所述图卷积网络以及所述单层神经网络模型是通过以下方式而被训练的:
利用第三目标函数对所述损失函数、所述第一目标函数以及所述第二目标函数进行优化;其中,所述第三目标函数的表达式如下:
L=LR1LG2LC
其中,η1和η2均表示权重参数。
通过对损失函数、第一目标函数以及第二目标函数进行优化,能够联合利用多视角数据的全局结构信息和局部结构信息,进一步提升本技术方案的聚类算法的聚类性能,最终获得更为准确的聚类结果。
在一些实施例中,所述方法还包括:
对于多次聚类所得到的多个聚类结果,
利用匈牙利算法对相邻两次的聚类结果进行匹配,以使同一类簇在相邻两次的聚类中获得同一类别标号。
由于聚类算法每次迭代产生的聚类结果可能存在差异,同一类簇在前后两次聚类中获得的类别标号可能不一致,因而通过采用匈牙利算法对相邻两次的聚类结果进行匹配,能够保证类别标签在迭代过程中的一致性。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种不完整多视角数据的聚类装置。
参考图3,所述不完整多视角数据的聚类装置,包括:
多视角特征补全模块301:被配置为通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示;根据所述数据重构表示,对所述不完整多视角数据缺失的多视角特征进行补全,以得到完整多视角数据及其统一特征表示。
局部结构信息提取模块302:被配置为通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习,以得到所述完整多视角数据的图;基于所述完整多视角数据的图,利用预先训练的图卷积网络对所述完整多视角数据的局部结构信息进行提取,以得到所述完整多视角数据各视角的节点特征表示。
多视角数据聚类模块303:被配置为基于所述统一特征表示以及所述节点特征表示,通过预设的聚类算法对所述完整多视角数据进行聚类,得到聚类结果。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的不完整多视角数据的聚类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的不完整多视角数据的聚类方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的不完整多视角数据的聚类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的不完整多视角数据聚类。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的不完整多视角数据的聚类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种不完整多视角数据的聚类方法,包括:
通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示;
根据所述数据重构表示,对所述不完整多视角数据缺失的多视角特征进行补全,以得到完整多视角数据及其统一特征表示;
通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习,以得到所述完整多视角数据的图;
基于所述完整多视角数据的图,利用预先训练的图卷积网络对所述完整多视角数据的局部结构信息进行提取,以得到所述完整多视角数据各视角的节点特征表示;
基于所述统一特征表示以及所述节点特征表示,通过预设的聚类算法对所述完整多视角数据进行聚类,得到聚类结果。
2.根据权利要求1所述的方法,其中,所述多视角自编码器是利用以下损失函数LR而被训练的:
Figure FDA0003158743060000011
其中,n表示样本数量,V表示视角总数,X(v)表示不完整多视角数据的特征矩阵,P(v)表示对角矩阵,用于标记缺失样本,
Figure FDA0003158743060000012
表示第i个样本在第v个视角中时存在的,否则
Figure FDA0003158743060000013
X(v)表示完整多视角数据的特征矩阵。
3.根据权利要求2所述的方法,其中,所述完整多视角数据的图S(v)中第i个节点和第j个节点之间的相似度
Figure FDA0003158743060000014
由下式表示:
Figure FDA0003158743060000015
其中,σ表示激活函数,a(v)表示所述单层神经网络模型的网络参数,
Figure FDA0003158743060000016
表示完整多视角数据第i个样本在第v个视角的特征,
Figure FDA0003158743060000017
表示完整多视角数据第j个样本在第v个视角的特征,
Figure FDA0003158743060000018
表示完整多视角数据第k个样本在第v个视角的特征。
4.根据权利要求3所述的方法,其中,所述单层神经网络模型通过如下第一目标函数对所述完整多视角数据的局部结构进行学习:
Figure FDA0003158743060000021
其中,n表示样本数量,V表示视角总数,λ表示调节图稀疏度的参数。
5.根据权利要求3所述的方法,其中,所述图卷积网络的卷积层由下式表示:
Figure FDA0003158743060000022
其中,
Figure FDA0003158743060000023
表示第v个视角的所述图卷积网络的第l层,D(v)表示对角矩阵,所述对角矩阵的对角元素
Figure FDA0003158743060000024
Figure FDA0003158743060000025
表示卷积层的权重矩阵,σ表示激活函数。
6.根据权利要求1所述的方法,其中,所述基于所述统一特征表示以及所述节点特征表示,通过预设的聚类算法进行聚类得到所述完整多视角数据的聚类结果包括:
基于所述完整多视角数据各视角所学的节点特征表示,确定第一核矩阵;
基于所述完整多视角数据各样本的统一特征表示,确定第二核矩阵;
通过多核聚类算法对所述第一核矩阵和第二核矩阵进行融合,以得到统一的核矩阵表示;
基于所述核矩阵表示,并通过所述多核聚类算法的目标函数确定待学习的嵌入矩阵;
对所述待学习的嵌入矩阵进行k均值聚类,以得到所述完整多视角数据各样本的聚类结果。
7.根据权利要求4所述的方法,其中,所述多视角自编码器和所述图卷积网络是通过下列方式而被训练的:
将所述统一特征表示和所述节点特征表示进行拼接,以得到新的多视角数据表示;
将所述多视角数据表示输入至神经网络模型的全连接层,以得到对各样本的类别预测结果;
基于所述类别预测结果和所述聚类结果,利用如下第二目标函数对所述多视角自编码器和所述图卷积网络进行自监督训练:
Figure FDA0003158743060000026
其中,
Figure FDA0003158743060000027
表示通过softmax函数对类别预测结果yi的归一化结果,φi表示基于聚类结果qi获得的第i个样本的伪类别,
Figure FDA0003158743060000031
表示类别的聚类中心向量,θ表示权重参数。
8.根据权利要求7所述的方法,其中,所述自编码器、所述图卷积网络以及所述单层神经网络模型整体是通过优化如下第三目标函数而被训练的:
L=LR1LG2LC
其中,η1和η2均表示权重参数。
9.根据权利要求1至8中任一项所述的方法,还包括:
利用匈牙利算法对相邻两次的聚类结果进行匹配。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的方法。
CN202110784672.6A 2021-07-12 2021-07-12 不完整多视角数据的聚类方法、电子设备 Pending CN113705603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110784672.6A CN113705603A (zh) 2021-07-12 2021-07-12 不完整多视角数据的聚类方法、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110784672.6A CN113705603A (zh) 2021-07-12 2021-07-12 不完整多视角数据的聚类方法、电子设备

Publications (1)

Publication Number Publication Date
CN113705603A true CN113705603A (zh) 2021-11-26

Family

ID=78648447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110784672.6A Pending CN113705603A (zh) 2021-07-12 2021-07-12 不完整多视角数据的聚类方法、电子设备

Country Status (1)

Country Link
CN (1) CN113705603A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882288A (zh) * 2022-05-25 2022-08-09 江苏大学 基于分层图增强堆叠自编码器的多视图图像分类方法
CN116415121A (zh) * 2021-12-24 2023-07-11 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法
CN117523244A (zh) * 2023-10-31 2024-02-06 哈尔滨工业大学(威海) 一种多视图聚类方法、系统、电子设备及存储介质
CN117542057A (zh) * 2024-01-09 2024-02-09 南京信息工程大学 一种基于模块化网络建模视角间关系的多视角聚类方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415121A (zh) * 2021-12-24 2023-07-11 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法
CN116415121B (zh) * 2021-12-24 2024-04-19 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法
CN114882288A (zh) * 2022-05-25 2022-08-09 江苏大学 基于分层图增强堆叠自编码器的多视图图像分类方法
CN117523244A (zh) * 2023-10-31 2024-02-06 哈尔滨工业大学(威海) 一种多视图聚类方法、系统、电子设备及存储介质
CN117523244B (zh) * 2023-10-31 2024-05-24 哈尔滨工业大学(威海) 一种多视图聚类方法、系统、电子设备及存储介质
CN117542057A (zh) * 2024-01-09 2024-02-09 南京信息工程大学 一种基于模块化网络建模视角间关系的多视角聚类方法
CN117542057B (zh) * 2024-01-09 2024-04-05 南京信息工程大学 一种基于模块化网络建模视角间关系的多视角聚类方法

Similar Documents

Publication Publication Date Title
CN113705603A (zh) 不完整多视角数据的聚类方法、电子设备
CN110383299B (zh) 记忆增强的生成时间模型
US11151335B2 (en) Machine translation using attention model and hypernetwork
CN113039559A (zh) 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化
JP7403909B2 (ja) 系列マイニングモデルの訓練装置の動作方法、系列データの処理装置の動作方法、系列マイニングモデルの訓練装置、系列データの処理装置、コンピュータ機器、及びコンピュータプログラム
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN113065013B (zh) 图像标注模型训练和图像标注方法、系统、设备及介质
CN108681746A (zh) 一种图像识别方法、装置、电子设备和计算机可读介质
CN110070140B (zh) 基于多类别信息的用户相似性确定方法及装置
KR20210152385A (ko) 메모리 장치 및 이의 동작 방법
CN114072816A (zh) 用于神经主题建模中的多视图和多源迁移的方法和系统
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CN113887821A (zh) 一种用于风险预测的方法和装置
CN113535912A (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
KR20210150966A (ko) 머신 러닝을 적용하여 에러 정정 코드를 디코딩하는 방법 및 이를 적용한 디코더
CN115438755B (zh) 分类模型的增量训练方法、装置和计算机设备
CN116383441A (zh) 社群检测方法、装置、计算机设备和存储介质
Sobrecueva Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding
CN115511070A (zh) 模型训练方法、装置及可读存储介质
CN116011515B (zh) 几何神经网络模型构建方法、装置、设备及存储介质
US20230084240A1 (en) Neural-network-based mapping of potential leakage pathways of subsurface carbon dioxide storage
CN114357503A (zh) 满足差分隐私的域自适应方法及相关设备
CN117609864A (zh) 一种基于双通道图对比学习的虚假信息检测方法及系统
CN108875929B (zh) 字形编码生成方法及设备、字形编码、存储介质
KR20230154600A (ko) 표 인식을 위한 모델의 학습 데이터를 생성하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination