CN114612671A - 一种多视图子空间聚类方法、装置、设备及存储介质 - Google Patents
一种多视图子空间聚类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114612671A CN114612671A CN202210158539.4A CN202210158539A CN114612671A CN 114612671 A CN114612671 A CN 114612671A CN 202210158539 A CN202210158539 A CN 202210158539A CN 114612671 A CN114612671 A CN 114612671A
- Authority
- CN
- China
- Prior art keywords
- tensor
- matrix
- expression
- view
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本实施例提供一种多视图子空间聚类方法、装置、设备及存储介质,属于模式识别技术领域。该方法包括:通过对多视图数据进行特征提取,得到数据特征矩阵;对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵;根据自表示矩阵构造多视图数据的第一表示张量;对第一表示张量进行张量奇异值分解,得到第二表示张量;基于第二表示张量计算得到多视图数据的亲和度矩阵;利用聚谱类算法对亲和度矩阵进行分割,得到子空间聚类结果。本申请能够通过一步化的张量低秩方法对多视图数据进行聚类,以提升多视图子空间聚类方法的鲁棒性与准确率。
Description
技术领域
本申请涉及模式识别技术领域,尤其涉及一种多视图子空间聚类方法、装置、设备及存储介质。
背景技术
子空间聚类旨在样本没有标签信息的前提下,根据样本的相似性将样本分成不同的群集并找到一个低维的子空间表示,主要分两步:首先,构建亲和度矩阵来描述多媒体数据点之间的关系;然后,在亲和度矩阵上应用聚类算法以获得最终聚类结果。因此,亲和度矩阵的质量在很大程度上决定了聚类性能,但由于噪声和异常值的存在,在原始数据特征上构建的亲和度矩阵往往不够鲁棒且多视图数据的相关性往往不能充分挖掘。
现有的多视图子空间聚类方法主要进行两步学习,即学习表示张量和学习亲和度矩阵。在两个独立的步骤中,依据表示张量对亲和度矩阵进行固定求解,无法有效地挖掘两者的高度相关性;同时,多视图数据的张量表示学习方法缺乏鲁棒性,易受噪声和异常值的影响,难以探索高阶交叉视图相关性,而基于图的多视图子空间聚类算法中,往往直接根据学习的自表示矩阵进行对图的构建,缺少灵活性,从而产生较大的时空开销,且导致现有方法难以适用于海量多视图聚类任务。
发明内容
本申请实施例的主要目的在于提出一种多视图子空间聚类方法、装置、设备及存储介质,能够通过一步化的张量低秩方法对多视图数据进行聚类,以提升多视图子空间聚类方法的鲁棒性与准确率。
为实现上述目的,本申请实施例的第一方面提出了一种多视图子空间聚类方法,包括:
对多视图数据进行特征提取,得到数据特征矩阵;
对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵;
根据所述自表示矩阵构造所述多视图数据的第一表示张量;
对所述第一表示张量进行张量奇异值分解,得到第二表示张量;
基于所述第二表示张量计算得到所述多视图数据的亲和度矩阵;
利用聚谱类算法对所述亲和度矩阵进行分割,得到子空间聚类结果。
在一些实施例,所述对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵,包括:
获取所述多视图数据的数据特征矩阵Xv;
利用下述公式对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵Zv:
Xv=XvZv+Ev,v=1,2,…,V;
其中,V表示所述多视图数据中的视图数量,Xv表示第v个视图中的所述数据特征矩阵,Zv表示所述第v个视图中的所述自表示矩阵,Ev表示所述第v个视图中的噪声矩阵。
在一些实施例,所述根据所述自表示矩阵构造所述多视图数据的第一表示张量,包括:
将得到的V个自表示矩阵(Z1,Z2,…,ZV)分别作为正面切片;
在一些实施例,所述对所述第一表示张量进行张量奇异值分解,得到第二表示张量,包括:
其中,所述第一表示张量经过张量奇异值分解被定义为三个矩阵张量的乘积形式,表示第一正交张量,v表示第二正交张量,vT表示对所述第二正交张量的转置,和表示由张量特征值构成的对角张量,n1、n2、n3分别表示所述第一表示张量的三个维度值。
在一些实施例,所述基于所述第二表示张量计算得到所述多视图数据的亲和度矩阵,包括:
利用下述公式计算所述多视图数据的优化目标函数:
s.t.Xv=XvZv+Ev,v=1,2,…,V;
E=[E1;E2;…;EV],AT1=1,0≤A≤1;
其中,表示所述第一表示张量,E表示由V个视图构成的噪声矩阵,A表示亲和度矩阵,表示核范数,V表示输入的视图数量,α表示第一惩罚参数,tr(·)表示求解矩阵的迹,LA表示所述亲和度矩阵的图拉普拉斯矩阵,s.t.表示所述优化目标函数需要满足的约束条件,Zv表示第v个视图中的所述自表示矩阵,β表示对应于所述亲和度矩阵的第二惩罚参数,γ表示对应于所述噪声矩阵的第三惩罚参数,Xv表示所述第v个视图中的所述数据特征矩阵;
根据所述优化目标函数得到所述多视图数据的所述亲和度矩阵。
在一些实施例,所述根据所述优化目标函数得到所述多视图数据的所述亲和度矩阵,包括:
采用交替方向乘子法求解所述优化目标函数的最优化参数;
根据所述最优化参数求解所述多视图数据的亲和度矩阵。
本申请实施例的第二方面提出了一种多视图子空间聚类装置,包括:
特征提取模块,用于对多视图数据进行特征提取,得到数据特征矩阵;
自表示处理模块,用于对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵;
表示张量构造模块,用于根据所述自表示矩阵构造所述多视图数据的第一表示张量;
张量奇异值分解模块,用于对所述第一表示张量进行张量奇异值分解,得到第二表示张量;
亲和度矩阵计算模块,用于基于所述第二表示张量计算得到所述多视图数据的亲和度矩阵;
子空间聚类模块,用于利用聚谱类算法对所述亲和度矩阵进行分割,得到子空间聚类结果。
在一些实施例,所述张量奇异值分解模块,用于对所述第一表示张量进行张量奇异值分解,得到第二表示张量,包括:
获取所述多视图数据的数据特征矩阵Xv;
利用下述公式对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵Zv:
Xv=XvZv+Ev,v=1,2,…,V;
其中,V表示所述多视图数据中的视图数量,Xv表示第v个视图中的所述数据特征矩阵,Zv表示所述第v个视图中的所述自表示矩阵,Ev表示所述第v个视图中的噪声矩阵。
本申请实施例的第三方面提出了一种计算机设备,所述一种计算机设备包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时所述处理器用于执行如本申请第一方面实施例任一项所述的一种多视图子空间聚类方法。
本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,在所述计算机程序被计算机执行时,所述计算机用于执行如本申请第一方面实施例任一项所述的一种多视图子空间聚类方法。
本申请实施例提出的一种多视图子空间聚类方法、装置、设备及存储介质,通过对多视图数据进行特征提取,得到数据特征矩阵;对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵;根据自表示矩阵构造多视图数据的第一表示张量;对第一表示张量进行张量奇异值分解,得到第二表示张量;基于第二表示张量计算得到多视图数据的亲和度矩阵;利用聚谱类算法对亲和度矩阵进行分割,得到子空间聚类结果。本申请能够通过一步化的张量低秩方法对多视图数据进行聚类,以提升多视图子空间聚类方法的鲁棒性与准确率。
附图说明
图1是本申请实施例提供的一种多视图子空间聚类方法的流程图;
图2是本申请实施例提供的第一表示张量的张量奇异值分解的示意图;
图3是本申请实施例中步骤S152的流程图;
图4是本申请一个具体实施例提供的一种多视图子空间聚类方法的流程架构图;
图5是本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
聚谱类算法(Spectral Clustering,SC):是建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。该算法的主要思想是将数据集中的每个对象看作是图的顶点,这些顶点之间可以用边连接起来,则将顶点间的相似度量化作为相应顶点连接边的权值,其中,距离较远的两点之间边的权重值较低,距离较近的两点之间边的权重值较高,然后通过对所有数据点组成的图进行切图,让切图后不同子图间边的权重之和尽可能低,子图内边的权重之和尽可能高,从而达到聚类的目的。
张量奇异值分解(Tensor Singular Value Decomposition,t-SVD):是基于管纤维(tube fiber)卷积产生的,不仅能比其他张量分解方式更能充分表达在空间结构上的相关性,而且可通过傅里叶变换进行快速计算,提高计算效率。
交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),是一种求解具有可分离的凸优化问题的计算框架,由于其处理速度快,收敛性能好,ADMM适用于求解分布式凸优化问题,特别是统计学习问题。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
本申请实施例提供的一种多视图子空间聚类方法可以应用于人工智能之中,人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
子空间聚类旨在样本没有标签信息的前提下,根据样本的相似性将样本分成不同的群集并找到一个低维的子空间表示,主要分两步:首先,构建亲和度矩阵来描述多媒体数据点之间的关系;然后,在亲和度矩阵上应用聚类算法以获得最终聚类结果。因此,亲和度矩阵的质量在很大程度上决定了聚类性能,但由于噪声和异常值的存在,在原始数据特征上构建的亲和度矩阵往往不够鲁棒且多视图数据的相关性往往不能充分挖掘。
现有的多视图子空间聚类方法主要进行两步学习,即学习表示张量和学习亲和度矩阵。在两个独立的步骤中,依据表示张量对亲和度矩阵进行固定求解,无法有效地挖掘两者的高度相关性;同时,多视图数据的张量表示学习方法缺乏鲁棒性,易受噪声和异常值的影响,难以探索高阶交叉视图相关性,而基于图的多视图子空间聚类算法中,往往直接根据学习的自表示矩阵进行对图的构建,缺少灵活性,从而产生较大的时空开销,且导致现有方法难以适用于海量多视图聚类任务。
基于此,本申请实施例的主要目的在于提出一种多视图子空间聚类方法、装置、设备及存储介质,能够通过一步化的张量低秩方法对多视图数据进行聚类,以提升多视图子空间聚类方法的鲁棒性与准确率。
本申请实施例提供的一种多视图子空间聚类方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现上述方法的应用等,但并不局限于以上形式。
本申请实施例可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费计算机设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图1,根据本申请实施例第一方面实施例的一种多视图子空间聚类方法,包括但不限于步骤S110至步骤S160。
S110,对多视图数据进行特征提取,得到数据特征矩阵;
S120,对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵;
S130,根据自表示矩阵构造多视图数据的第一表示张量;
S140,对第一表示张量进行张量奇异值分解,得到第二表示张量;
S150,基于第二表示张量计算得到多视图数据的亲和度矩阵;
S160,利用聚谱类算法对亲和度矩阵进行分割,得到子空间聚类结果。
在步骤S110中,对多视图数据进行特征提取,得到数据特征矩阵。具体地,多视图数据由同一个数据的不同表现形式构成,为了更好的描述视图图像的多个模态特征,输入由V个视图构成的多视图矩阵其中,Xv表示V个视图中第v个视图的数据特征矩阵,dv表示第v个数据特征矩阵的维度,n表示第v个数据特征矩阵的数据点的个数。
需要说明的是,为了方便后续数据处理,可对数据特征矩阵中的各数据点进行归一化处理。
在一些实施例中,步骤S120具体包括步骤S110至步骤S120。
S121,获取多视图数据的数据特征矩阵Xv;
S122,利用下述公式(1)对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵Zv:
Xv=XvZv+Ev,v=1,2,…,V (1)
其中,V表示多视图数据中的视图数量,Xv表示第v个视图中的数据特征矩阵,Zv表示第v个视图中的自表示矩阵,Ev表示第v个视图中的噪声矩阵。
步骤S121至步骤S122中,对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵。具体地,由于数据的自表示依赖于每个数据样本都可以表示为同一子空间内其他数据样本的线性组合的假设情况,则通过获取多视图数据的数据特征矩阵Xv,并对数据特征矩阵Xv进行自表示处理,即通过公式(1)对数据特征矩阵Xv进行自表示处理,得到多视图数据的自表示矩阵Zv,其中,自表示矩阵Zv中的第(i,j)个元素表示在第v个视图中样本xj在重建样本xi的过程中所作的贡献,反映了样本xi和xj之间的相似度关系。
在一些实施例中,步骤S130具体包括步骤S131至步骤S132。
S131,将得到的V个自表示矩阵(Z1,Z2,…,ZV)分别作为正面切片;
在步骤S131至步骤S132中,为了挖掘数据更多的底层结构信息,保留数据的完整性信息,采用张量表示来探索多视图数据中不同视图之间的关系,即根据自表示矩阵构造多视图数据的第一表示张量。具体地,将得到的V个自表示矩阵(Z1,Z2,…,ZV)分别作为正面切片,并根据公式(2)的Φ(·)将V个正面切片进行合并,构造三阶表示张量,即得到多视图数据的第一表示张量其中n×n表示特定于视图的表示张量的矩阵大小,V表示多视图数据中的视图数量。
在一些实施例中,步骤S140具体包括步骤S141至步骤S142。
其中,第一表示张量经过张量奇异值分解被定义为三个矩阵张量的乘积形式,表示第一正交张量,v表示第二正交张量,vT表示对第二正交张量的转置,和表示由张量特征值构成的对角张量,n1、n2、n3分别表示第一表示张量的三个维度值。
在步骤S141至步骤S142中,为了减少视图中噪声和异常值的影响,对第一表示张量进行张量奇异值分解,即根据公式(3)和公式(4)对第一表示张量采用张量奇异值分解进行低秩约束处理,以得到第二表示张量具体地,如图2所示,获取第一表示张量根据公式(3)所示,经过张量奇异值分解后,该第一表示张量被定义u、和v三个矩阵张量的乘积形式。根据公式(4)所示,通过对第一表示张量计算张量核范数,得到第二表示张量从而可以更好地捕获多视图数据之间的一致性和特定于视图的信息。在公式(4)中,表示n3个正面切片中的每一个都是n×n(n=min(n1,n2))大小的对角张量,该对角张量中对角线元素的值为第一表示张量中对应于第k个正面切片对应的矩阵的特征值,且表示对n3个正面切片矩阵的第(,i)个元素(即对角线的第i个值)的求和,之后分别对n3个正面切片中对角张量对应的对角矩阵的每个元素进行求和。
在一些实施例中,步骤S150具体包括步骤S151至步骤S152。
S151,利用下述公式(5)计算多视图数据的优化目标函数:
其中,表示第一表示张量,E表示由V个视图构成的噪声矩阵,A表示亲和度矩阵,表示核范数,V表示输入的视图数量,α表示第一惩罚参数,tr(·)表示求解矩阵的迹,LA表示亲和度矩阵的图拉普拉斯矩阵,s.t.表示优化目标函数需要满足的约束条件,Zv表示第v个视图中的自表示矩阵,β表示对应于亲和度矩阵的第二惩罚参数,γ表示对应于噪声矩阵的第三惩罚参数,Xv表示第v个视图中的数据特征矩阵;
S152,根据优化目标函数得到多视图数据的亲和度矩阵。
在步骤S151至步骤S152中,为了学习一个更具鲁棒性的亲和度矩阵,利用第一惩罚参数α、第二惩罚参数β和第三惩罚参数γ来涵盖多种损失和误差,即通过将公式(5)最小化得到多视图数据的优化目标函数,进而根据优化目标函数可以得到多视图数据最优的亲和度矩阵。在上述优化目标函数中,aij表示亲和度矩阵A的第(,j)个项,亲和度矩阵A的图拉普拉斯矩阵表示为LA=D-(A+AT)/2,其中,D是第i个对角线项为的对角线矩阵。需要说明的是,s.t.(subject to)用于表示优化目标函数需要满足的约束条件。此外,由于不同视图的维度可能不同,将特定于视图的噪声矩阵进行垂直连接,以构造噪声矩阵E。
在一些实施例中,参照图3,步骤S152具体包括但不限于步骤S210至步骤S220。
步骤S210,采用交替方向乘子法求解优化目标函数的最优化参数;
步骤S220,根据最优化参数求解多视图数据的亲和度矩阵。
在步骤S210至步骤S220中,采用交替方向乘子法即通过ADMM优化算法求解优化目标函数的最优化参数后,根据最优化参数求解多视图数据的亲和度矩阵A。具体地,由于公式(4)是通过将第一表示张量与目标函数和两个约束条件(Xv=XvZv+Ev,v=1,2,…,V和)耦合相关得到优化目标函数,再通过将实现对优化目标函数的解耦合。为了便于求解,引入辅助变量在优化目标函数中分离第一表示张量并通过固定其他变量而迭代更新其中的每个变量,从而优化对的求解过程,再通过求解辅助变量得到优化目标函数的最优化参数,进而根据最优化参数求解多视图数据的亲和度矩阵。
具体地,通过ADMM优化算法求解优化目标函数的最优化参数的具体过程如下所示。
其中,Θ和∏表示拉格朗日算子,<·,·>表示内积,ρ为第四惩罚参数。
其中,由于不同视图之间互不干扰,故公式(9)中的V个变量Yv是相互独立的,因此可将公式(9)转换为V个优化子问题,例如,其中第v个视图的变量更新问题如公式(10)所示。
因此,通过将Yv的导数为0,求得公式(10)的解如公式(11)所示。
步骤S340,固定公式(7)中的其他变量以更新噪声矩阵E,求解关于噪声矩阵E的优化子问题,通过引入一个沿列方向连接矩阵{v}的临时变量则对噪声矩阵E的第t+1次迭代的优化问题可化为如公式(12)所示。
因此,对公式(12)中Et+1的最优解如公式(13)所示。
其中,Et+1(:,j)表示Et+1的第j列。
步骤S350,固定公式(7)中的其他变量以更新亲和度矩阵A,求解关于亲和度矩阵A的优化子问题,则对亲和度矩阵A的第t+1次迭代的优化问题可化为如公式(14)所示。
s.t.AT1=1,0≤A≤1 (15)
因此,根据公式(16)所示对公式(15)中i个独立的优化子问题中的ai进行求解。
其中,η和δ表示拉普拉斯乘法算子,根据卡罗需-库恩-塔克条件可知, 同时,为了确保类内样本点的相似度高于类间样本点的相似度,如公式(18)和(19)所示,采用自适应最近邻方法对亲和度矩阵A进行求解,即仅保留亲和度矩阵A中最大的前K项,以提高聚类的性能。
根据公式(18)和(19)所示,公式(7)中的β由自适应最近邻方法的数量K决定。
步骤S360,固定公式(7)中的其他变量以更新拉格朗日算子v、Π和第四惩罚参数ρ,求解关于拉格朗日算子v、Π和第四惩罚参数ρ的优化子问题,则对拉格朗日算子Θ、∏和第四惩罚参数ρ的第t+1次迭代的优化问题可化为如公式(20)所示。
其中,参数λ>1,ρmax表示ρ的最大值。因此,通过上述公式(8)至公式(20)实现对公式(7)的优化,进而得到亲和度矩阵A的最优解。之后,将得到的亲和度矩阵A应用于谱聚类算法,得到子空间聚类结果。因此,为了充分挖掘数据的多模态,本申请通过学习一个具有鲁棒性的一步化低秩张量图方法进行聚类,即通过对表示张量与亲和度矩阵进行联合学习,以解决传统亲和度矩阵固定求解而无法探索两者之间高度相关性的问题。具体地,利用张量奇异值分解对表示张量进行高阶约束,以减少数据噪声和异常值的影响,并利用K-自适应最近邻方法对亲和度矩阵进行重建,提高了子空间聚类的效率。
在一具体的实施例中,如图4所示,对多视图数据进行特征提取,得到特定于每个多视图特征的数据特征矩阵(X1,X2,…,XV),对每个数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵(Z1,Z2,…,ZV),根据得到的多个自表示矩阵构造多视图数据的第一表示张量为了更好地提高对多视图数据的聚类性能,提高表示张量的鲁棒性,通过对第一表示张量进行张量奇异值分解的低秩约束处理,得到第二表示张量,再与亲和度矩阵A采用交替方向乘子法进行联合优化,以求解最优的多视图数据的亲和度矩阵A。最后,采用聚谱类算法对亲和度矩阵进行分割,输出得到子空间聚类结果。本申请通过学习一个具有鲁棒性的一步化低秩张量图方法进行聚类,即通过对表示张量与亲和度矩阵进行联合学习,以解决传统亲和度矩阵固定求解而无法探索两者之间高度相关性的问题。
本申请实施例还提出了一种多视图子空间聚类装置,该多视图子空间聚类装置包括特征提取模块、自表示处理模块、表示张量构造模块、张量奇异值分解模块、亲和度矩阵计算模块和子空间聚类模块。特征提取模块用于对多视图数据进行特征提取,得到数据特征矩阵;自表示处理模块用于对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵;表示张量构造模块用于根据自表示矩阵构造多视图数据的第一表示张量;张量奇异值分解模块用于对第一表示张量进行张量奇异值分解,得到第二表示张量;亲和度矩阵计算模块用于基于第二表示张量计算得到多视图数据的亲和度矩阵;子空间聚类模块用于利用聚谱类算法对亲和度矩阵进行分割,得到子空间聚类结果。本申请实施例的一种多视图子空间聚类装置用于执行上述实施例中的一种多视图子空间聚类方法,其具体处理过程与上述实施例中的一种多视图子空间聚类方法相同,此处不再一一赘述。
在一些实施例中,张量奇异值分解模块用于对第一表示张量进行张量奇异值分解,得到第二表示张量,包括获取多视图数据的数据特征矩阵Xv,并利用公式(1)对数据特征矩阵进行自表示处理,得到多视图数据的自表示矩阵Zv:
其中,V表示多视图数据中的视图数量,Xv表示第v个视图中的数据特征矩阵,Zv表示第v个视图中的自表示矩阵,Ev表示第v个视图中的噪声矩阵。
需要说明的是,本申请上述实施例的一种多视图子空间聚类装置用于执行上述实施例中的一种多视图子空间聚类方法,其具体处理过程与上述实施例中的一种多视图子空间聚类方法相同,此处不再一一赘述。
本申请实施例还提供了一种计算机设备,包括存储器和处理器,其中,存储器中存储有计算机程序,该计算机程序被处理器执行时处理器用于执行如本申请第一方面实施例中任一项的一种多视图子空间聚类方法。
下面结合图5对计算机设备的硬件结构进行详细说明。该计算机设备包括:处理器501、存储器502、输入/输出接口503、通信接口504和总线505。
处理器501,可以采用通用的CPU(Central Processin Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器502,可以采用ROM(Read Only Memory,只读存储器)、静态存储设备、动态存储设备或者RAM(Random Access Memory,随机存取存储器)等形式实现。存储器502可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器502中,并由处理器501来调用执行本申请实施例的一种多视图子空间聚类方法;
输入/输出接口503,用于实现信息输入及输出;
通信接口504,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和总线505,在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息;
其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,在计算机程序被计算机执行时,计算机用于执行如本申请第一方面实施例中任一项的一种多视图子空间聚类方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1至图3中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种多视图子空间聚类方法,其特征在于,包括:
对多视图数据进行特征提取,得到数据特征矩阵;
对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵;
根据所述自表示矩阵构造所述多视图数据的第一表示张量;
对所述第一表示张量进行张量奇异值分解,得到第二表示张量;
基于所述第二表示张量计算得到所述多视图数据的亲和度矩阵;
利用聚谱类算法对所述亲和度矩阵进行分割,得到子空间聚类结果。
2.根据权利要求1所述的一种多视图子空间聚类方法,其特征在于,所述对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵,包括:
获取所述多视图数据的数据特征矩阵Xv;
利用下述公式对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵Zv:
Xv=XvZv+Ev,v=1,2,…,V;
其中,V表示所述多视图数据中的视图数量,Xv表示第v个视图中的所述数据特征矩阵,Zv表示所述第v个视图中的所述自表示矩阵,Ev表示所述第v个视图中的噪声矩阵。
5.根据权利要求1至4任一项所述的一种多视图子空间聚类方法,其特征在于,所述基于所述第二表示张量计算得到所述多视图数据的亲和度矩阵,包括:
利用下述公式计算所述多视图数据的优化目标函数:
s.t.Xv=XvZv+Ev,v=1,2,…,V;
E=[E1;E2;…;EV],AT1=1,0≤A≤1;
其中,表示所述第一表示张量,E表示由V个视图构成的噪声矩阵,A表示亲和度矩阵,表示核范数,V表示输入的视图数量,α表示第一惩罚参数,tr(·)表示求解矩阵的迹,LA表示所述亲和度矩阵的图拉普拉斯矩阵,s.t.表示所述优化目标函数需要满足的约束条件,Zv表示第v个视图中的所述自表示矩阵,β表示对应于所述亲和度矩阵的第二惩罚参数,γ表示对应于所述噪声矩阵的第三惩罚参数,Xv表示所述第v个视图中的所述数据特征矩阵;
根据所述优化目标函数得到所述多视图数据的所述亲和度矩阵。
6.根据权利要求5所述的一种多视图子空间聚类方法,其特征在于,所述根据所述优化目标函数得到所述多视图数据的所述亲和度矩阵,包括:
采用交替方向乘子法求解所述优化目标函数的最优化参数;
根据所述最优化参数求解所述多视图数据的亲和度矩阵。
7.一种多视图子空间聚类装置,其特征在于,包括:
特征提取模块,用于对多视图数据进行特征提取,得到数据特征矩阵;
自表示处理模块,用于对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵;
表示张量构造模块,用于根据所述自表示矩阵构造所述多视图数据的第一表示张量;
张量奇异值分解模块,用于对所述第一表示张量进行张量奇异值分解,得到第二表示张量;
亲和度矩阵计算模块,用于基于所述第二表示张量计算得到所述多视图数据的亲和度矩阵;
子空间聚类模块,用于利用聚谱类算法对所述亲和度矩阵进行分割,得到子空间聚类结果。
8.根据权利要求7所述的一种多视图子空间聚类装置,其特征在于,所述张量奇异值分解模块,用于对所述第一表示张量进行张量奇异值分解,得到第二表示张量,包括:
获取所述多视图数据的数据特征矩阵Xv;
利用下述公式对所述数据特征矩阵进行自表示处理,得到所述多视图数据的自表示矩阵Zv:
Xv=XvZv+Ev,v=1,2,…,V;
其中,V表示所述多视图数据中的视图数量,Xv表示第v个视图中的所述数据特征矩阵,Zv表示所述第v个视图中的所述自表示矩阵,Ev表示所述第v个视图中的噪声矩阵。
9.一种计算机设备,其特征在于,所述一种计算机设备包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时所述处理器用于执行:
如权利要求1至6中任一项所述的一种多视图子空间聚类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,在所述计算机程序被计算机执行时,所述计算机用于执行:
如权利要求1至6中任一项所述的一种多视图子空间聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158539.4A CN114612671A (zh) | 2022-02-21 | 2022-02-21 | 一种多视图子空间聚类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158539.4A CN114612671A (zh) | 2022-02-21 | 2022-02-21 | 一种多视图子空间聚类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114612671A true CN114612671A (zh) | 2022-06-10 |
Family
ID=81858575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210158539.4A Pending CN114612671A (zh) | 2022-02-21 | 2022-02-21 | 一种多视图子空间聚类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612671A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310452A (zh) * | 2023-02-16 | 2023-06-23 | 广东能哥知识科技有限公司 | 一种多视图聚类方法及系统 |
CN117611931A (zh) * | 2024-01-23 | 2024-02-27 | 西南科技大学 | 一种基于深度自表示局部块学习的数据分类方法及系统 |
-
2022
- 2022-02-21 CN CN202210158539.4A patent/CN114612671A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310452A (zh) * | 2023-02-16 | 2023-06-23 | 广东能哥知识科技有限公司 | 一种多视图聚类方法及系统 |
CN116310452B (zh) * | 2023-02-16 | 2024-03-19 | 广东能哥知识科技有限公司 | 一种多视图聚类方法及系统 |
CN117611931A (zh) * | 2024-01-23 | 2024-02-27 | 西南科技大学 | 一种基于深度自表示局部块学习的数据分类方法及系统 |
CN117611931B (zh) * | 2024-01-23 | 2024-04-05 | 西南科技大学 | 一种基于深度自表示局部块学习的数据分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koch et al. | Abc: A big cad model dataset for geometric deep learning | |
WO2022041678A1 (zh) | 张量协作图判别分析遥感图像特征提取方法 | |
CN114612671A (zh) | 一种多视图子空间聚类方法、装置、设备及存储介质 | |
Qi et al. | TenSR: Multi-dimensional tensor sparse representation | |
Dua et al. | Parallel lossless HSI compression based on RLS filter | |
CN115223251A (zh) | 签名检测模型的训练方法和装置、电子设备及存储介质 | |
CN108121962B (zh) | 基于非负自适应特征提取的人脸识别方法、装置及设备 | |
CN114065850A (zh) | 基于统一锚点与子空间学习的谱聚类方法及系统 | |
CN115222583A (zh) | 模型训练方法及装置、图像处理方法、电子设备、介质 | |
CN114529785A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN114549859A (zh) | 骨龄预测方法、装置、电子设备及存储介质 | |
CN114064894A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN114911778A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN114897053A (zh) | 一种子空间聚类方法、装置、设备及存储介质 | |
CN114492517B (zh) | 电梯检测方法、电梯检测装置、电子设备及存储介质 | |
US20230055263A1 (en) | Stratification in non-classified heterogeneous object labels | |
CN115272121A (zh) | 图像处理方法、图像处理装置、计算机设备和存储介质 | |
CN115439713A (zh) | 模型训练方法及装置、图像分割方法、设备、存储介质 | |
CN115982452A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN116129007A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114494021A (zh) | 图像重建方法、装置、电子设备及存储介质 | |
CN114913305A (zh) | 模型处理方法、装置、设备、存储介质及计算机程序产品 | |
Belilovsky et al. | Convex relaxations of penalties for sparse correlated variables with bounded total variation | |
CN114742720B (zh) | 一种张量补全的方法、张量补全的装置、设备及存储介质 | |
CN113256386A (zh) | 一种基于人工智能的商品描述方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |