CN116310462B - 一种基于秩约束自表示的图像聚类方法及装置 - Google Patents
一种基于秩约束自表示的图像聚类方法及装置 Download PDFInfo
- Publication number
- CN116310462B CN116310462B CN202310567195.7A CN202310567195A CN116310462B CN 116310462 B CN116310462 B CN 116310462B CN 202310567195 A CN202310567195 A CN 202310567195A CN 116310462 B CN116310462 B CN 116310462B
- Authority
- CN
- China
- Prior art keywords
- self
- matrix
- image
- expression
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 132
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 18
- 230000003595 spectral effect Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000012805 post-processing Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000000452 restraining effect Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于秩约束自表示的图像聚类方法及装置,该方法包括:获取图像数据并对其进行预处理得到图像样本;通过自编码神经网络模型的编码模块对图像样本进行特征提取,得到对应的图像特征,通过解码模块对图像特征进行重构,得到重构图像样本;基于图像样本、图像特征、重构图像样本建立重构误差和自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构目标,其中通过对自表示矩阵的秩约束保证其连通性,从而得到优化目标;通过交替更新自编码神经网络模型的参数和自表示矩阵求解优化目标;将求解得到的自表示矩阵经过后处理得到邻接矩阵;利用谱聚类算法对邻接矩阵进行计算分割,实现图像样本的聚类,从而实现图片识别。
Description
技术领域
本发明属于模式识别及计算机技术领域,尤其涉及一种基于秩约束自表示的图像聚类方法及装置。
背景技术
随着人工智能的发展,图像识别技术在刷脸支付、驾驶环境分析、超市自动结算等诸多场景中有愈发广泛的应用。图像识别的重要任务之一是将图像按照其中内容进行分组。例如,将分属于同一个人的图像划分为一类,即可实现人脸识别。得益于深度学习技术的发展,这一任务在图像数据拥有足够标签时,能够有效解决。然而,实际中的很多数据往往难以甚至无法获得其标签,这使得对无标签图像进行分组,即图像聚类任务,受到关注。
常见的聚类方法包括以下三类:第一类方法基于数据的空间聚集属性。例如,假设同类样本聚集在一个中心周围的K均值算法,和假设同类样本连续且密集地分布在一定区域内的DBSCAN算法。第二类是子空间聚类方法,主要解决同类样本分散地分布在一个线性子空间内的情形。第三类是将神经网络和子空间聚类相结合的深度子空间方法,该方法放松了子空间聚类对线性子空间的要求,可以处理分布在非线性子空间(即流形)中的样本。
由于受到光照、角度等多种因素的影响,同类甚至同个对象的图像数据往往分布得非常分散。例如,同个人在不同光照下的人脸图像近似分布在一个九维的线性空间内,而非聚集在一起。类内的差异性使得子空间和深度子空间聚类方法更适用于图像聚类的场景。这两类方法的核心是找到类间可分且类内连通的自表示矩阵。为保证自表示矩阵的结构,子空间和深度子空间方法要求不同类样本所在子空间相互独立,或者不同类样本通过神经网络提取的特征所在子空间相互独立。然而,由于待识别对象(例如不同人的脸)之间的相似性,实际中的图像数据在部分特征上是相似的。这导致子空间独立假设过强,无法适用实际图像聚类场景。针对以上现状,迫切需要一种针对图像数据的特点的聚类方法,以克服在当前图像聚类应用中的不足。
发明内容
图像数据特有的类内分布分散、类间同质性强等特点,导致现有通用聚类方法在图像聚类任务中效果有限。本申请以深度子空间聚类方法为基础,通过改变其约束自表示矩阵连通性的方式,提出一种基于秩约束自表示的图像聚类方法及装置,放松现有技术对子空间独立性的要求,改善图像聚类精度。
根据本申请实施例的第一方面,提供一种基于秩约束自表示的图像聚类方法,包括:
(1)获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
(2)通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
(3)基于所述图像样本和重构图像样本建立重构误差,基于所述图像特征建立自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构的目标,其中在块对角结构中,通过对自表示矩阵的秩约束保证其连通性,综合所述重构误差、自表示误差和块对角结构目标得到优化目标;
(4)通过交替更新所述自编码神经网络模型的参数和所述自表示矩阵求解所述优化目标;
(5)将求解得到的自表示矩阵经过后处理得到邻接矩阵;
(6)利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别。
进一步地,所述编码模块为多层卷积编码器或多层感知机,所述解码模块为与所述编码模块对称的多层卷积编码器或多层感知机。
进一步地,所述优化目标为:
其中,,/>是第/>个图像样本,/>是以/>为网络参数的编码模块,/>是以/>为网络参数的解码模块,/>是第一度量函数,/>是由所述编码模块所提取的特征按列排成的矩阵,/>表示第二度量函数,/>是给定的超参数,/>是/>阶的自表示矩阵,/>是/>的对角元,/>是所有N阶对称半正定矩阵,/>为矩阵的秩。
进一步地,若图像样本所在线性空间或流形的维数信息已知,则取参数为各类样本所在线性空间或流形的维数之和;若图像样本所在线性空间或流形的维数信息未知,则通过/>进行估计,其中/>为数据集/>中显著奇异值的个数,/>为图像样本的类别数量。
进一步地,步骤(4)包括:
(4.1)根据的限制,将/>阶自表示矩阵/>矩阵改写为大小分别为/>和/>的矩阵之积,实现秩约束/>的等价表示;
(4.2)初始化神经网络参数和/>和自表示矩阵/>;
(4.3)基于梯度下降法及其变体交替更新神经网络参数和自表示矩阵,直至迭代收敛。
进一步地,步骤(5)包括:
(5.1)给定超参数;
(5.2)对自表示矩阵C的每一列进行稀疏化,对每个i,将列中最小的k个元素置为0得到/>使得/>,将稀疏化后的矩阵记为/>;
(5.3)对进行奇异值分解得到/>,其中/>是对角阵,其对角元是/>的奇异值,W和V是/>的左、右奇异向量按列排成的矩阵,丢掉小于的奇异值及对应奇异向量,记截断后的左奇异向量矩阵和奇异值矩阵分别为/>和/>,根据/>和/>构造邻接矩阵/>,使得
其中是/>的第i行。
进一步地,步骤(6)包括:
(6.1)计算所述邻接矩阵的度矩阵/>;
(6.2)计算归一化的拉普拉斯矩阵,其中/>为单位矩阵;
(6.3)计算拉普拉斯矩阵的特征向量,取最小的K个特征值对应的特征向量按列排列成矩阵/>,其中K为待聚类的类别数,对矩阵P的各行单位化得到作为图像样本/>的表示;
(6.4)用K均值聚类方法对进行聚类,得到K个聚类结果。
根据本申请实施例的第二方面,提供一种基于秩约束自表示的图像聚类装置,包括:
数据获取及预处理模块,用于获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
编码及解码模块,用于通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
优化目标建立模块,用于基于所述图像样本和重构图像样本建立重构误差,基于所述图像特征建立自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构目标,其中在块对角结构中,通过对自表示矩阵的秩约束保证其连通性,综合所述重构误差、自表示误差和块对角结构目标得到优化目标;
优化目标求解模块,用于通过交替更新所述自编码神经网络模型的参数和所述自表示矩阵求解所述优化目标;
后处理模块,用于将求解得到的自表示矩阵经过后处理得到邻接矩阵;
谱聚类模块,用于利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请针对图像聚类任务中图像数据类内分布分散且类间存在重叠的困难场景,在现有深度子空间聚类技术的基础上进行改进,提出了一种基于秩约束自表示的图像聚类方法和装置。与通过最小化秩或近似秩来刻画连通性的现有技术不同,本发明将秩的要求从目标函数中转移到约束中,通过对自表示矩阵的秩约束保证其连通性。这一改变可以避免对数据的子空间独立性要求。在异类样本存在一定相似度时,仍能保证自表示矩阵获得得到良好的类间可分性,进而改善聚类精度。为图像聚类任务中异类同质性高的难题,提供了一种可能的解决方案。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种基于秩约束自表示的图像聚类方法的流程图。
图2是根据一示例性实施例示出的子空间聚类引导编码与融合模型示意图。
图3是根据一示例性实施例示出的一种基于秩约束自表示的图像聚类装置的框图。
图4是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种基于秩约束自表示的图像聚类方法的流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
(1)获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
(2)通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
(3)基于所述图像样本和重构图像样本建立重构误差,基于所述图像特征建立自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构目标,其中在块对角结构中,通过对自表示矩阵的秩约束保证其连通性,综合所述重构误差、自表示误差和块对角结构目标得到优化目标;
(4)通过交替更新所述自编码神经网络模型的参数和所述自表示矩阵求解所述优化目标,得到自表示矩阵;
(5)将求解得到的自表示矩阵经过后处理得到邻接矩阵;
(6)利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别。
在步骤(1)的具体实施中,获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
具体地,在一实施例中获取的图像数据可以包括:通过网址http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html下载耶鲁大学计算视觉与控制中心创建的YALE人脸数据库、通过网址http://vis-www.cs.umass.edu/lfw/下载马萨诸塞大学创建的LFW人脸数据库。
具体地,对图像数据进行的预处理可以包括:对所述图像数据集中的图像进行裁剪为统一的大小;若图像数据集中包含彩色图像,则对彩色图像进行降维处理;若图片中像素点取值范围为0~255,则令每个像素点取值除以255,以调整其取值范围为0~1,实现图片的单位化;对图像提取人工特征,如人脸图像数据则提取Gabor特征。
在步骤(2)的具体实施中,通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
具体地,图像样本、图像特征、重构图像样本、解码模块和编码模块的关系如图2所示,自编码神经网络模型的编码模块可为多层卷积编码器或多层感知机,输入为图像样本,输出为图像特征的编码表示/>,其中/>,/>为编码模块,/>是编码模块的网络参数。解码模块为与编码模块对称的多层卷积编码器或多层感知机,输入为图像特征的编码表示/>,输出为重构图像的编码表示/>,其中/>为解码模块,/>是解码模块的网络参数。通过编码模块提取潜在数据特征能够进一步挖掘原始数据特征的非线性几何信息,克服原始数据分布在非线性子空间的问题。使得所述方法不仅适用于图像数据近似分布在多个线性空间的场景,也适用于图像数据近似分布在多个非线性空间的场景,扩大适用的图像聚类任务的应用范围。
在具体实施中,可根据图像数据的大小选取编码模块和解码模块,以YALE人脸数据库大小为64*64*1的人脸图片为例,可选取conv(16,3)-pool(2)-conv(8,3)-pool(2)-conv(8,3)-pool(2) flatten-FCL(128)为编码模块,其中conv(16, 3)表示通道数为16,卷积核大小为3*3的卷积层;pool(2)表示大小为2*2的最大池化层;flatten表示将所得张量展平为向量;FCL(128)表示输出神经元个数为128的全连接层。解码模块可与编码模块对称,如上例,解码模块为FCL(512)-unflatten-upsample(2)-conv(8,3)-upsample(2)-conv(16,3)-upsample(2)-conv(1,3),其中unflatten是编码模块所述flatten的逆过程,即将向量重排为张量;upsample(2)是上采样层,是pool(2)的逆过程。
在步骤(3)的具体实施中,基于所述图像样本和重构图像样本建立重构误差,基于所述图像特征建立自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构的目标,其中在块对角结构中,通过对自表示矩阵的秩约束保证其连通性,综合所述重构误差、自表示误差和块对角结构目标得到优化目标;
具体地,如图2所示,重构性质用以保证所述编码模块保留输入图像样本的有效信息,重构性质通过极小化重构误差实现,其中/>,/>是总样本数,/>是第/>个样本。/>是以/>为参数的多层神经网络,是神经网络模型的编码模块;/>是以为参数的多层神经网络,是神经网络模型的解码模块,/>是某种度量函数,如/>-范数。
自表示性质是指一种样本可以用且仅用同类样本表示的性质:假设一类样本分布于一个子空间内,则其中的任一数据样本都能用且仅用与它同类的其他样本线性组合得到。用数学公式表示,若为满足自表示性质的一类样本,则其满足/>且。若所有K类样本均满足自表示性质,将K类样本打乱顺序放在一起可知
,
这里是一个重排矩阵,/>表示以/>为对角块的块对角矩阵。记/>,/>,则有/>,/>且/>除去一个重排是块对角矩阵,每个对角块所在的行号恰好是一类样本的编号。因此找到块对角的自表示矩阵就意味着找到聚类结果。
所述自表示性质用来约束所述编码模块,引导得到满足自表示性质的特征,即其将不同类的样本映射到不同线性空间,同类样本映射到同类线性空间,以便于后续图像识别。
对于所述自表示矩阵满足的性质和/>,本发明通过极小化自表示误差/>实现,其中/>是由步骤(2)所述编码器所提取的潜在数据特征按列排成的矩阵。/>表示某种度量函数,如/>-范数。/>是给定的超参数。阶方阵/>是待求的自表示矩阵,/>是/>的对角元。
所述自表示矩阵满足的块对角性质可拆分为类间可分性和类内连通性。类间可分性指自表示矩阵非对角块的位置为零,类内连通性指每个对角块是一个连通矩阵。所述类间可分性常通过极小化稀疏度量实现。理论分析证明,单纯限制稀疏性会破坏类内连通性。类内连通性常通过极小化自表示矩阵的秩或近似秩实现。然而,理论分析证明,为保证自表示矩阵在秩达到极小时仍然具有类间可分性,需要不同类样本所在子空间相互独立。
考虑到子空间的独立性假设过强,不适用于图像数据。因此,本发明不采用极小化秩的方式,而是改用低秩约束的方式刻画连通性。即,要求,其中,/>是给定的超参数,是估计的各类样本所处空间或流形的维数之和。/>是对C矩阵的其他可能约束,如对称、正定、非负等。据此放松对子空间独立性的要求,允许子空间相交,从而更适用于图像聚类任务的特点。
综合所述优化目标与约束,得到所述步骤(3)的优化目标函数型为:
在具体实施中,重构误差的度量函数可选为/>,即2-范数的平方;自表示误差度量函数/>可选为/>,其中/>为Frobenius范数;自表示矩阵/>可被限制为对称半正定矩阵,记为/>,以便于优化目标的后续求解,/>为矩阵的秩。至此,目标函数确定为
其中,超参数可以通过网格搜索实现调优。特别地,如果知道图像样本分布的维数信息,可取参数/>为各类样本所在线性空间或流形的维数之和。例如,YALE人脸数据集收集了38个人在不同光照下的照片,每个人的所有照片位于9维空间内,此时应取。当无法获取各线性空间或维数信息时,可通过/>进行估计,其中/>为已知的聚类个数(即图像样本的类别数量),/>为数据集/>中显著奇异值的个数。
具体来说,可以将的奇异值从大到小排序为/>,然后取/>为奇异值突然变小的位置,即/>或/>。此外可以指定阈值/>,取/>使得/>占/>的比例刚好超过/>,即
在步骤(4)的具体实施中,通过交替更新神经网络参数和自表示矩阵求解所述优化目标;
具体地,步骤(4)可以通过以下子步骤来实现且以下子步骤结合步骤(3)部分的具体实施进行解释说明:
(4.1)根据的限制,将/>阶自表示方阵/>矩阵改写为大小分别为/>和/>的矩阵之积,实现秩约束/>的等价表示;
具体地,引入矩阵,将约束/>等价地改写为/>。
(4.2)初始化神经网络参数和/>和自表示矩阵/>;
具体地,随机初始化神经网络参数和/>,例如可以通过高斯分布、均匀分布、Xavier初始化或者He初始化等方法进行。
(4.3)基于梯度下降法及其变体交替更新神经网络参数和自表示矩阵,直至迭代收敛;
在本实施例中,步骤(4.3)可以通过以下子步骤(4.3.1)~(4.3.4)实现:
(4.3.1)基于高斯分布随机初始化矩阵,其中/>是给定的整数,不超过/>非零奇异值的个数。基于/>初始化自表示矩阵参数/>,其中/>是X最大的r个奇异值对应的奇异向量,/>是V的正交补。
(4.3.2)利用Pytorch或TensorFlow等深度学习包计算神经网络参数的梯度,并利用Adam算法更新网络参数;
(4.3.3)利用深度学习包计算的梯度/>,对/>进行修正得到/>。其中/>,/>是满足等式/>的矩阵,用/>更新梯度对降低目标函数几乎不起作用,通过去掉梯度/>中的/>能够一定程度上加快目标函数的下降速度。
(4.3.4)交替执行(4.3.2)和(4.3.3)直至收敛。
具体地,每执行一次(4.3.2)或(4.3.3)均会使得目标函数下降。随着(4.3.2)和(4.3.3)的交替执行,神经网络参数和/>和自表示矩阵/>逐步收敛于极小值点。
其中,步骤(4.3.3)中的梯度修正可以通过以下步骤实现:
(4.3.3.1)计算的特征分解/>,其中Q是/>的特征向量构成的矩阵,/>是以/>的特征值/>为对角元的对角阵;
(4.3.3.2)计算和/>;
(4.3.3.3)计算矩阵,其/>元素为
其中是矩阵/>的/>元素;
(4.3.3.4)修正,其中/>。
具体地,由于用进行梯度下降几乎不影响目标函数,去掉这一部分得到的修正后的梯度,能够改善梯度下降的效率,加快目标函数的下降速度。
在步骤(5)的具体实施中,将求解得到的自表示矩阵经过后处理得到邻接矩阵;
具体地,所述步骤(5)可以通过以下子步骤来实现:
(5.1)给定超参数;
具体地,超参数可以通过网格搜索实现调优。特别地,可作为一种缺省方案。此时邻接矩阵的构造过程最为简单。
(5.2)对C的每一列进行稀疏化,对每个i,将最小的k个元素置为0得到/>使得,将稀疏化后的矩阵记为/>;
(5.3)对进行奇异值分解得到/>,其中/>是对角阵,其对角元是/>的奇异值,W和V是/>的左、右奇异向量按列排成的矩阵,丢掉小于的奇异值及对应奇异向量,记截断后的左奇异向量矩阵和奇异值矩阵分别为/>和/>,这里/>是人为给定的常数,根据/>和/>构造邻接矩阵/>使得
其中是/>的第i行。
在具体实施中,步骤(5.2)的稀疏化操作和步骤(5.3)的奇异值截断操作均可省略。此时只需对所求自表示矩阵进行奇异值分解得到/>,构造邻接矩阵/>为/>,其中/>是/>对第/>行。
在步骤(6)的具体实施中,利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别;
具体地,步骤(6)可以包括以下子步骤:
(6.1)计算所述邻接矩阵的度矩阵/>;
(6.2)计算归一化的拉普拉斯矩阵,其中/>为单位矩阵;
(6.3)计算拉普拉斯矩阵的特征向量,取最小的K个特征值对应的特征向量按列排列成矩阵/>,其中K为待聚类的类别数,对矩阵P的各行单位化得到作为图像样本/>的表示;
(6.4)用K均值聚类方法对进行聚类,得到K个聚类结果;
在步骤(6.1)-(6.4)的具体实施中,通过谱聚类算法得到的聚类结果将邻接矩阵所示关系紧密的点归为同一类;邻接矩阵所示关系划分为不同类,即越大,图片i和j越可能为同类图片;/>越小,图片i和j越可能为不同类图片。当/>具有类间为0,类内联通的块对角结构时,谱聚类可以得到正确的聚类结果。
由上述实施例可知,本申请针对图像聚类任务中图像数据类内分布分散且类间存在重叠的困难场景,在现有深度子空间聚类技术的基础上进行改进,提出了一种基于秩约束自表示的图像聚类方法和装置。与通过最小化秩或近似秩来刻画连通性的现有技术不同,本发明将秩的要求从目标函数中转移到约束中,通过对自表示矩阵的秩约束保证其连通性。这一改变可以避免对数据的子空间独立性要求。在异类样本存在一定相似度时,仍能保证自表示矩阵获得得到良好的类间可分性,进而改善聚类精度。为图像聚类任务中同类差异性大、异类同质性高的难题,提供了一种可能的解决方案。例如人脸识别任务中,同一人的面部由于光照、阴影和拍摄角度等因素的干扰,呈现明显不同,因而同类差异性大;而不同人的面部大体相似,只在五官细节存在差异,因而异类同质性高。本项目申请的图像聚类方法,可有效提改这类图像识别任务的识别准确度。此外,为有效求解秩约束优化问题,本发明在进行迭代更新时,对梯度进行了有效修正,提高求解速度,降低在图像识别应用中的时间延迟,提高该方法的实用性。
与前述的基于秩约束自表示的图像聚类方法的实施例相对应,本申请还提供了基于秩约束自表示的图像聚类装置的实施例。
图3是根据一示例性实施例示出的一种基于秩约束自表示的图像聚类装置的框图。参照图3,该装置可以包括:
获取模块21,用于获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
编码解码模块22,用于通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
优化目标建立模块23,用于基于所述图像特征和重构图像样本,建立极小化重构误差和自表示误差的优化目标,其中在自表示误差中,通过对自表示矩阵的秩约束保证其连通性;
求解模块24,用于通过交替更新所述自编码神经网络模型的参数和所述自表示矩阵求解所述优化目标;
后处理模块25,用于将求解得到的自表示矩阵经过后处理得到邻接矩阵;
谱聚类模块26,用于利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于秩约束自表示的图像聚类方法。如图4所示,为本发明实施例提供的一种基于秩约束自表示的图像聚类方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于秩约束自表示的图像聚类方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (9)
1.一种基于秩约束自表示的图像聚类方法,其特征在于,包括:
(1)获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
(2)通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
(3)基于所述图像样本和重构图像样本建立重构误差,基于所述图像特征建立自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构的目标,其中在块对角结构中,通过对自表示矩阵的秩约束保证其连通性,综合所述重构误差、自表示误差和块对角结构目标得到优化目标;
(4)通过交替更新所述自编码神经网络模型的参数和所述自表示矩阵求解所述优化目标;
(5)将求解得到的自表示矩阵经过后处理得到邻接矩阵;
(6)利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别;
其中,重构误差为;
自表示误差为;
块对角结构目标为;
所述优化目标为:
,
,
其中,,/>是第/>个图像样本,/>是以/>为网络参数的编码模块,/>是以/>为网络参数的解码模块,/>是第一度量函数,/>是由所述编码模块所提取的特征按列排成的矩阵,/>表示第二度量函数,/>是给定的超参数,/>是/>阶的自表示矩阵,/>是/>的对角元,/>是所有N阶对称半正定矩阵,/>为矩阵的秩。
2.根据权利要求1所述的方法,其特征在于,所述编码模块为多层卷积编码器或多层感知机,所述解码模块为与所述编码模块对称的多层卷积编码器或多层感知机。
3.根据权利要求1所述的方法,其特征在于,若图像样本所在线性空间或流形的维数信息已知,则取参数为各类样本所在线性空间或流形的维数之和;若图像样本所在线性空间或流形的维数信息未知,则通过/>进行估计,其中/>为数据集/>中显著奇异值的个数,/>为图像样本的类别数量。
4.根据权利要求1所述的方法,其特征在于,步骤(4)包括:
(4.1)根据的限制,将/>阶自表示矩阵/>矩阵改写为大小分别为/>和/>的矩阵之积,实现秩约束/>的等价表示;
(4.2)初始化神经网络参数和/>和自表示矩阵/>;
(4.3)基于梯度下降法及其变体交替更新神经网络参数和自表示矩阵,直至迭代收敛。
5.根据权利要求1所述的方法,其特征在于,步骤(5)包括:
(5.1)给定超参数;
(5.2)对自表示矩阵C的每一列进行稀疏化,对每个i,将列中最小的k个元素置为0得到/>使得/>,将稀疏化后的矩阵记为/>;
(5.3)对进行奇异值分解得到/>,其中/>是对角阵,其对角元是/>的奇异值,W和V是/>的左、右奇异向量按列排成的矩阵,丢掉小于/>的奇异值及对应奇异向量,记截断后的左奇异向量矩阵和奇异值矩阵分别为/>和,根据/>和/>构造邻接矩阵/>,使得
,
其中是/>的第i行。
6.根据权利要求1所述的方法,其特征在于,步骤(6)包括:
(6.1)计算所述邻接矩阵的度矩阵/>;
(6.2)计算归一化的拉普拉斯矩阵,其中/>为单位矩阵;
(6.3)计算拉普拉斯矩阵的特征向量,取最小的K个特征值对应的特征向量按列排列成矩阵/>,其中K为待聚类的类别数,对矩阵P的各行单位化得到作为图像样本/>的表示;
(6.4)用K均值聚类方法对进行聚类,得到K个聚类结果。
7.一种基于秩约束自表示的图像聚类装置,其特征在于,包括:
数据获取及预处理模块,用于获取图像数据并对其进行预处理,将预处理后的图像作为输入的图像样本,其中/>是总样本数;
编码及解码模块,用于通过自编码神经网络模型的编码模块对所述图像样本进行特征提取,得到对应的图像特征,通过解码模块对所述图像特征进行重构,得到重构图像样本;
优化目标建立模块,用于基于所述图像样本和重构图像样本建立重构误差,基于所述图像特征建立自表示误差,针对自表示误差中的自表示矩阵建立刻画其块对角结构的目标,其中在块对角结构中,通过对自表示矩阵的秩约束保证其连通性,综合所述重构误差、自表示误差和块对角结构目标得到优化目标;
优化目标求解模块,用于通过交替更新所述自编码神经网络模型的参数和所述自表示矩阵求解所述优化目标;
后处理模块,用于将求解得到的自表示矩阵经过后处理得到邻接矩阵;
谱聚类模块,用于利用谱聚类算法对所述邻接矩阵进行计算分割,实现所述图像样本的聚类,从而实现图片识别;
其中,重构误差为;
自表示误差为;
块对角结构目标为;
所述优化目标为:
,
,
其中,,/>是第/>个图像样本,/>是以/>为网络参数的编码模块,/>是以/>为网络参数的解码模块,/>是第一度量函数,/>是由所述编码模块所提取的特征按列排成的矩阵,/>表示第二度量函数,/>是给定的超参数,/>是/>阶的自表示矩阵,/>是/>的对角元,/>是所有N阶对称半正定矩阵,/>为矩阵的秩。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310567195.7A CN116310462B (zh) | 2023-05-19 | 2023-05-19 | 一种基于秩约束自表示的图像聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310567195.7A CN116310462B (zh) | 2023-05-19 | 2023-05-19 | 一种基于秩约束自表示的图像聚类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116310462A CN116310462A (zh) | 2023-06-23 |
CN116310462B true CN116310462B (zh) | 2023-08-11 |
Family
ID=86801762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310567195.7A Active CN116310462B (zh) | 2023-05-19 | 2023-05-19 | 一种基于秩约束自表示的图像聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310462B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788843B (zh) * | 2024-02-27 | 2024-04-30 | 青岛超瑞纳米新材料科技有限公司 | 一种基于神经网络算法的碳纳米管图像处理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932705A (zh) * | 2018-06-27 | 2018-12-04 | 北京工业大学 | 一种基于矩阵变量变分自编码器的图像处理方法 |
CN109063757A (zh) * | 2018-07-20 | 2018-12-21 | 西安电子科技大学 | 基于块对角表示和视图多样性的多视图子空间聚类方法 |
CN109359525A (zh) * | 2018-09-07 | 2019-02-19 | 西安电子科技大学 | 基于稀疏低秩的判别谱聚类的极化sar图像分类方法 |
CN109993208A (zh) * | 2019-03-04 | 2019-07-09 | 北京工业大学 | 一种有噪声图像的聚类处理方法 |
CN110020599A (zh) * | 2019-02-28 | 2019-07-16 | 浙江工业大学 | 一种稀疏强化型低秩约束的人脸图像聚类方法 |
CN111310813A (zh) * | 2020-02-07 | 2020-06-19 | 广东工业大学 | 一种潜在低秩表示的子空间聚类方法及装置 |
CN112884030A (zh) * | 2021-02-04 | 2021-06-01 | 重庆邮电大学 | 一种基于交叉重建的多视角分类系统及方法 |
CN113033626A (zh) * | 2021-03-02 | 2021-06-25 | 西北工业大学 | 基于多任务协同学习的图像分类方法 |
WO2022199432A1 (zh) * | 2021-03-25 | 2022-09-29 | 浙江师范大学 | 一种基于最优传输的深度缺失聚类机器学习方法及系统 |
-
2023
- 2023-05-19 CN CN202310567195.7A patent/CN116310462B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932705A (zh) * | 2018-06-27 | 2018-12-04 | 北京工业大学 | 一种基于矩阵变量变分自编码器的图像处理方法 |
CN109063757A (zh) * | 2018-07-20 | 2018-12-21 | 西安电子科技大学 | 基于块对角表示和视图多样性的多视图子空间聚类方法 |
CN109359525A (zh) * | 2018-09-07 | 2019-02-19 | 西安电子科技大学 | 基于稀疏低秩的判别谱聚类的极化sar图像分类方法 |
CN110020599A (zh) * | 2019-02-28 | 2019-07-16 | 浙江工业大学 | 一种稀疏强化型低秩约束的人脸图像聚类方法 |
CN109993208A (zh) * | 2019-03-04 | 2019-07-09 | 北京工业大学 | 一种有噪声图像的聚类处理方法 |
CN111310813A (zh) * | 2020-02-07 | 2020-06-19 | 广东工业大学 | 一种潜在低秩表示的子空间聚类方法及装置 |
CN112884030A (zh) * | 2021-02-04 | 2021-06-01 | 重庆邮电大学 | 一种基于交叉重建的多视角分类系统及方法 |
CN113033626A (zh) * | 2021-03-02 | 2021-06-25 | 西北工业大学 | 基于多任务协同学习的图像分类方法 |
WO2022199432A1 (zh) * | 2021-03-25 | 2022-09-29 | 浙江师范大学 | 一种基于最优传输的深度缺失聚类机器学习方法及系统 |
Non-Patent Citations (1)
Title |
---|
夏雨晴,张振跃.子空间聚类的重建模型及其快速算法.计算数学.2019,第第41卷卷(第第1期期),第1-11页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116310462A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Factorization-based texture segmentation | |
Jia et al. | Image transformation based on learning dictionaries across image spaces | |
Xie et al. | m-SNE: Multiview stochastic neighbor embedding | |
Van Der Maaten | Barnes-hut-sne | |
CN110659665B (zh) | 一种异维特征的模型构建方法及图像识别方法、装置 | |
Lee et al. | Collaborative expression representation using peak expression and intra class variation face images for practical subject-independent emotion recognition in videos | |
Choi et al. | Incremental face recognition for large-scale social network services | |
CN105160312A (zh) | 基于人脸相似度匹配的明星脸装扮推荐方法 | |
US20140099033A1 (en) | Fast computation of kernel descriptors | |
CN116310462B (zh) | 一种基于秩约束自表示的图像聚类方法及装置 | |
Xu et al. | Robust PCANet on target recognition via the UUV optical vision system | |
Thomas et al. | Integrating GWTM and BAT algorithm for face recognition in low-resolution images | |
Lensink et al. | Fully hyperbolic convolutional neural networks | |
Pokrass et al. | A correspondence-less approach to matching of deformable shapes | |
Siméoni et al. | Unsupervised object discovery for instance recognition | |
CN110659641B (zh) | 一种文字识别的方法、装置及电子设备 | |
CN111723759B (zh) | 基于加权张量稀疏图映射的非约束人脸识别方法 | |
Yan et al. | A parameter-free framework for general supervised subspace learning | |
Luo et al. | Piecewise linear regression-based single image super-resolution via Hadamard transform | |
Forczmański et al. | Comparative analysis of simple facial features extractors | |
CN115457638A (zh) | 模型训练方法、数据检索方法、装置、设备及存储介质 | |
Aissa et al. | Unsupervised features extraction using a multi-view self organizing map for image classification | |
Hsieh et al. | Video-based human action and hand gesture recognition by fusing factored matrices of dual tensors | |
WO2015061972A1 (en) | High-dimensional feature extraction and mapping | |
Purnomo et al. | Face recognition using Gabor wavelet and non-negative matrix factorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |