CN113920346B

CN113920346B - 基于锚点孪生图自动编码器的大规模图像聚类方法

Info

Publication number: CN113920346B
Application number: CN202111058986.4A
Authority: CN
Inventors: 张睿; 李学龙; 张鸿远; 时建坤
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-07-05
Filing date: 2021-09-09
Publication date: 2024-03-01
Anticipated expiration: 2041-09-09
Also published as: CN113920346A

Abstract

本发明提供了一种基于锚点孪生图自动编码器的大规模图像聚类方法。首先，利用输入图像数据特征构建锚点矩阵和概率矩阵，然后，将其输入到孪生图卷积自动编解码器网络，并通过网络训练得到稳定的特征和锚点矩阵的嵌入式表示，利用网络输出进行锚点矩阵和概率矩阵的更新，如此反复，直至得到最终的概率矩阵；最后，通过对概率矩阵进行奇异值分解，再对分解的奇异向量进行聚类处理，得到最终的图像聚类结果。本发明为了使图卷积神经网络用于大规模图像数据集，引入锚点来加速图的构造和图的卷积，能够大大降低时间复杂度和空间复杂度，可以解决图像数据集过大时，现有机器学习模型运行时间过长或因空间复杂度过大无法运行的问题。

Description

基于锚点孪生图自动编码器的大规模图像聚类方法

技术领域

本发明属图像处理技术领域，具体涉及一种基于锚点孪生图自动编码器的大规模图像聚类方法。

背景技术

基于图的聚类是图像聚类领域的重要方法，它通过构造一个图来对数据点进行非线性分组。由于基于图的聚类方法需要构造图，所以在大规模数据集上存在效率低下的问题，而且对于谱聚类方法，需要计算特征值分解，这又大大增加了时间复杂度。现有的聚类方法可以分为深度学习聚类和非深度学习聚类两类。深度学习聚类方法可以提取图像的嵌入表示，往往准确率比非深度学习聚类方法更高，但是速度更慢。非深度学习聚类方法直接根据图像的特征进行聚类，因此速度更快，操作更简单。

典型的深度学习聚类方法如Kipf等人在文献”T.N.Kipf and M.Welling,Variational graph auto-encoders,NIPS Workshop on Bayesian Deep Learning,2016.”中首次将图卷积神经网络和自动编码器相结合，以图数据作为图自动编码器的输入，并以图潜在表示的内积作为目标函数，在很多经典的图像数据集中取得了优异的效果。但是该方法需要构建图并计算图数据的特征向量，因此有很高的时间复杂度和空间复杂度。Wu等人在文献”F.Wu,T.Zhang,A.H.Souza,a De C.Fifty,T.Yu,and K.Q.Weinberger,Simplifying Graph Convolutional Networks,Eprint Arxiv,2019.”中提出了一种简易图卷积神经网络，该方法假设图卷积神经网络层之间的非线性不是关键的，最关键的是局部邻居的平均聚合操作，进而将复杂的图卷积神经网络中的非线性部分去除，只保留平滑部分。虽然相比传统的图卷积神经网络节省了部分时间，但是仍有很高的时间复杂度，而且该方法也需要构建图，相比于传统的图卷积神经网络，其空间复杂度没有改变。Chiang等人在文献”W.L.Chiang,X.Liu,S.Si,Y.Li,S.Bengio,and C.J.Hsieh,Cluster-GCN:AnEfficient Algorithm for Training Deep and Large Graph Convolutional Networks,Eprint Arxiv,2019.”中提出一种高效的图卷积神经网络聚类方法，该方法将原始的图结构分成多块，并构成对角结构，而且用新的子图代替原图，把旧邻接矩阵的非对角部分舍去，该方法用到了同类点在下次聚类时很大概率还是同类点的原理，将大规模图巧妙分为多个小规模图，通过舍去原图中部分信息，减少时间复杂度和空间复杂度，缺点是有可能舍弃原图的关键信息。

发明内容

为了克服现有技术的不足，本发明提供一种基于锚点孪生图自动编码器的大规模图像聚类方法。首先，利用输入图像数据特征构建锚点矩阵和概率矩阵，然后，将其输入到孪生图卷积自动编解码器网络，并通过网络训练得到稳定的特征和矩阵的嵌入式表示，利用网络输出再进行锚点矩阵和概率矩阵的更新，如此反复，直至得到最终的概率矩阵；最后，通过对概率矩阵进行奇异值分解，再对分解的左奇异向量进行聚类处理，得到最终的图像聚类结果。本发明为了使图卷积神经网络用于大规模图像数据集，引入锚点来加速图的构造和图的卷积，能够大大降低每次前向传播的时间复杂度，同时降低空间复杂度，可以解决图像数据集过大时，现有机器学习模型运行时间过长或因空间复杂度过大无法运行的问题。

一种基于锚点孪生图自动编码器的大规模图像聚类方法，其特征在于步骤如下：

步骤1：输入图像的数据特征X∈R^n×d和图像标签，数据特征的每一行代表一个图像像素矩阵拉直后的向量，图像标签为每个图像所属的类别，n表示图像数量，d表示图像特征维度；从图像的数据特征中随机选择m行构成原始锚点矩阵C′∈R^m×d，m的取值范围为[100,n/10]；计算数据特征X的第一行和原始锚点矩阵C′每一行的欧几里得距离，得到的向量作为初始概率矩阵的第一行，如此遍历数据特征的每一行，得到初始概率矩阵B₀∈R^n×m；再按照下式计算得到初始锚点矩阵C₀：

C₀＝X^TB₀ (1)

步骤2：以图像的数据特征、锚点矩阵和概率矩阵作为输入，按照以下过程进行迭代更新，直至达到设定的最大迭代次数T，T的设定值为5，得到最终的概率矩阵B：

步骤a，初始化：分别以步骤1得到的初始锚点矩阵C₀、初始概率矩阵B₀作为初始化锚点矩阵和概率矩阵；设置邻居个数初始值为k₀＝3；迭代次数初始值t＝1；

步骤b，计算重构的概率矩阵：输入图像的数据特征、锚点矩阵和概率矩阵，设置学习率为5×10^-3，采用梯度下降法对孪生图卷积自动编解码器网络进行训练，直至达到设定的训练次数F，F的设定值为1000，此时网络的输出即为最终重构的概率矩阵；

所述的孪生图卷积自动编解码器网络包括编码部分和解码部分，编码部分采用两层图卷积神经网络，每一层包括卷积和激活函数操作，第一层卷积使用ReLU激活函数，第二层卷积使用线性激活函数，连接方式为全连接，将图像的数据特征X、锚点矩阵C和概率矩阵B分别输入到编码部分，输出分别得数据特征的嵌入表示矩阵和锚点矩阵的嵌入表示矩阵/>每一层图卷积的计算过程如下式所示：

其中，H表示输出，表示激活函数，B表示概率矩阵，Δ表示概率矩阵B的度矩阵，W表示卷积参数；对于输入为锚点矩阵时，将公式中的数据特征X替换为锚点矩阵C；

解码部分首先计算编码部分输出的数据特征的嵌入表示矩阵和锚点矩阵的嵌入表示矩阵/>的两两行向量之间的欧几里得距离，构成新矩阵，然后使用softmax函数对新矩阵进行归一化操作，得到重构的概率矩阵/>

孪生图卷积自动编解码器的损失函数采用交叉熵损失，具体公式如下：

其中，L表示交叉熵损失，表示重构的概率矩阵/>的第i行j列元素，B_ij表示输入的概率矩阵B的第i行j列元素；

步骤c，更新概率矩阵和锚点矩阵：按照更新锚点矩阵C，计算数据特征X的第一行和更新锚点矩阵每一行的欧几里得距离，得到的向量作为新概率矩阵的第一行，如此遍历数据特征的每一行，得到新的概率矩阵，令新概率矩阵的每一行的前k个最大值元素不变，其他元素值置为0，得到更新后的概率矩阵；

重复上述锚点矩阵和概率矩阵更新过程，如果满足重复更新次数达到25次或锚点矩阵和概率矩阵均不再变化，则停止更新；

步骤d，更新邻居个数：按照下式计算得到更新后的邻居个数k：

k←k+s (4)

其中，s表示邻居个数更新的步长，按照下式计算得到：

其中，表示向下取整，k₀为邻居个数初始值，k_m为邻居个数最大值，按照下式计算得到：

其中，n_s表示最小类别数，按照或/>设置，c为输入图像数据集包含的类别总数；

步骤f，更新迭代次数：按照t←t+1更新迭代次数，如果t＝T，结束迭代更新，此时得到的即为最终的锚点矩阵和概率矩阵，否则，返回步骤b进行下一次迭代更新；

步骤3：对步骤2得到的最终的概率矩阵进行奇异值分解，其左奇异向量的每一行包含了一幅图像的特征，以左奇异向量的每一行作为新的图像特征，采用K-means方法对新的图像特征进行聚类处理，得到最终的图像聚类结果。

本发明的有益效果是：由于在图卷积自动编码器中引入锚点，用锚点矩阵代替邻接矩阵，在卷积过程中节约了大量时间和空间，能够降低聚类方法的时间和空间复杂度；由于采用奇异值分解的方法代替特征值分解，能够提高方法运行速度；由于采用交叉熵作为自动编码器的重构损失，能够提高聚类准确率。

附图说明

图1是本发明基于锚点孪生图自动编码器的大规模图像聚类方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。如图1所示，本发明提供了一种基于锚点孪生图自动编码器的大规模图像聚类方法，其具体实现过程如下：

C₀＝X^TB₀ (7)

k←k+s (10)

其中，s表示邻居个数更新的步长，按照下式计算得到：

为验证本发明的效果，在中央处理器为i7-10700F 2.90GHz CPU、内存16G、WINDOWS 10操作系统上，运用python软件进行仿真实验。实验分别采用USPS、COIL20、COIL100、MNIST-TEST、MNIST-FULL、CMU-PIE和CIFAR-10-TEST共7种图像数据集，各个数据集信息如表1所示。

表1

数据集	图像特征维度	图像个数	类别数
				USPS	256	9298	10
COIL20	1024	1440	20
				COIL100	1024	7200	100
MNIST-TEST	784	10000	10
				MNIST-FULL	784	70000	10
CMU-PIE	1024	3332	68
				CIFAR-10-TEST	3072	10000	10

采用K-Means、Nystrom、CSC、KASP、LSC、SNC、SGC、GAE和ClusterGCN等9种已有方法作为对比方法，分别计算不同方法在不同数据集上聚类结果的准确率(ACC)、归一化信息值(NMI)，准确率值是聚类正确的样本数除以总的样本数，其值越大说明聚类效果越好，归一化信息值是度量两个聚类结果的相近程度，其值越大说明聚类效果越好，计算结果分别如表2和表3所示。可以看出，本发明方法的ACC和NMI值在大部分数据集中优于其他方法。另外，实验中还统计了不同深度学习方法的运行时间，如表4所示。可以看出，本发明在CMU-PIE这类数据集规模小的时候，运行效率高的优势并不明显，这是因为获得更高的ACC和NMI值，选择了更多的锚点，但是在处理大规模的图像数据集时，本发明方法的运行时间远小于其他方法，说明本发明在大规模图像数据集中效率高。

本发明方法-L4表示将网络层数修改为4层的实验结果，表明本发明可以扩展为较多的网络层数。本发明方法-A和本发明方法-B为本发明方法的消融实验，分别表示固定邻居数k的值和不更新锚点矩阵与概率矩阵的实验结果，表明自增邻居数k和更新锚点矩阵与概率矩阵方法的必要性。因为SNC，SGC和GAE不能用于大规模数据集，会出现内存溢出异常，在表格中用“-”表示。

表2

表3

表4

Claims

1.一种基于锚点孪生图自动编码器的大规模图像聚类方法，其特征在于步骤如下：

C₀＝X^TB₀ (1)

所述的孪生图卷积自动编解码器网络包括编码部分和解码部分，编码部分采用两层图卷积神经网络，每一层包括卷积和激活函数操作，第一层卷积使用ReLU激活函数，第二层卷积使用线性激活函数，连接方式为全连接，将图像的数据特征X、锚点矩阵C和概率矩阵B分别输入到编码部分，输出分别得数据特征的嵌入表示矩阵和锚点矩阵的嵌入表示矩阵每一层图卷积的计算过程如下式所示：

k←k+s (4)

其中，s表示邻居个数更新的步长，按照下式计算得到：