CN114266911A

CN114266911A - 基于可微k-均值的嵌入式可解释图像聚类方法

Info

Publication number: CN114266911A
Application number: CN202111516439.6A
Authority: CN
Inventors: 彭玺; 李云帆; 吕建成
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-01

Abstract

本发明公开了基于可微k‑均值的嵌入式可解释图像聚类方法，涉及数据识别与处理技术领域，解决现有两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题，包括如下步骤：步骤1、获取原始样本数据X，计算样本特征h_i＝f(X_i)，X_i表示第i个样本；步骤2、将样本特征h_i＝f(X_i)输入单层聚类神经网络，采用第二损失函数对单层神经网络进行训练；步骤3、待测样本输入单层聚类神经网络，得到样本聚类结果。本发明赋予了传统k‑均值算法处理大规模在线数据的能力，具备可解释性机器学习中更加直接同时也更具挑战性的模型透明性，且提出的单层聚类神经网络面向无监督聚类和表示学习，是在无监督可解释性研究领域的一次前瞻性的尝试。

Description

基于可微k-均值的嵌入式可解释图像聚类方法

技术领域

本发明涉及数据识别与处理技术领域，更具体的是涉及可解释神经网络和聚类分析技术领域。

背景技术

作为无监督机器学习的基础方法之一，聚类旨在根据数据自身特点及数据的间相似性，在不依赖外部标签的前提下，自动的将数据划分为若干个类别，满足每一类的数据具有相同特性，而不同类的数据间具有显著差异。聚类在现实生活中的应用十分广泛：例如，在手机相册中，通过对大量照片的分析，将无标签图片自动划分为若干类别(如自然风光、人物特写等)，帮助用户进行图片整理和进一步检索；在电商平台上，通过对用户消费行为的分析，将用户划分为若干具有不同偏好的群体(如美食、科技爱好者等)，帮助商家进行针对性推荐和营销。

现有的聚类方法通常分为两个阶段实现，首先通过子空间学习方法或深度神经网络提取出原始数据的特征，之后通过k-均值、混合高斯模型等方法对数据进行聚类。Yang,J.,et al.(2016),Joint unsupervised learning of deep representations and imageclusters.该论文首先利用k-均值方法对数据进行聚类，将聚类结果作为伪标签，通过分类任务优化特征提取网络，交替进行该过程，不断提升所提取特征的表征能力，进而提升聚类效果。Caron,M.,et al.(2018),Deep clustering for unsupervised learning ofvisual features.该论文首先预训练一个自编码器以进行数据的特征提取并用k-均值方法初始化聚类中心，之后根据样本距中心的距离计算软标签并构建辅助数据分布，通过不断优化实际数据分布和辅助数据分布间的KL散度以实现聚类。

上述两阶段聚类方法主要存在如下缺陷，第一，无法实现大规模的在线聚类，其中大规模指的是数据量大，在线指的是数据以流的形式呈现，每一时刻只能获取到部分数据。而现有聚类方法通常依赖于数据的全局相似性信息，当设备不足以同时存储全部数据，或数据以在线流的形式呈现时，两阶段聚类方法将不再适用。事实上，该缺陷本质上来自于k-均值或混合高斯模型等方法的不可微性，无法通过批优化进行训练。第二，现有方法的可解释性差，即模型进行聚类的过程不透明，模型各部分的功能不直观。例如在自编码器提取特征+k-均值聚类这一典型的两阶段聚类框架中，自编码器中网络层的神经元个数，权重，以及激活函数等部分没有明确的物理意义，导致用户难以理解模型的运作机理。

发明内容

本发明的目的在于：为了解决上述两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题，本发明提供基于可微k-均值的嵌入式可解释图像聚类方法。

本发明为了实现上述目的具体采用以下技术方案：

基于可微k-均值的嵌入式可解释图像聚类方法，包括如下步骤：

步骤1、获取原始样本数据X，计算样本特征h_i＝f(X_i)，X_i表示第i个样本；

步骤2、将样本特征h_i＝f(X_i)输入单层聚类神经网络，采用第二损失函数对单层神经网络进行训练，第二损失函数为：

其中，

表示第i个样本相对第j个聚类中心的损失函数，W_j表示W矩阵的第j列，I_j(X_i)表示第i个样本与第j个类别的从属关系，W_j ^T表示W_j的转置，X_i表示第i个样本；

步骤3、待测样本输入单层聚类神经网络，得到样本聚类结果。

本申请的技术方案中，将传统的k-均值算法重构为单层聚类神经网络，其权重W对应聚类中心，argmax激活函数对应聚类分配(argmax之后的结果即为聚类分配)，且直接通过k-均值的目标函数来优化，具有透明的工作机理和良好的可解释性，具体的：单层聚类神经网络输入X对应给定的样本点，单层聚类神经网络的权重W对应聚类中心，单层聚类神经网络的激活函数argmax将各样本点分配到距离其最近的类别，单层聚类神经网络的第二损失函数由传统k-均值方法的目标函数转换得到，用于实现聚类。本申请直接设计了一层工作机理透明的单层聚类神经网络，网络中各模块具有直观的物理意义，具备可解释性机器学习中更加直接同时也更具挑战性的模型透明性，且提出的单层聚类神经网络面向无监督聚类和表示学习，是在无监督可解释性研究领域的一次前瞻性的尝试。对于聚类任务来说，通过对k-均值算法的单层聚类神经网络实现，不再需要不再需要一次性读取全部的样本点以计算全局的聚类中心，每次仅需读取一批次数据，即可优化聚类中心(单层聚类神经网络的权重W对应聚类中心)并输出聚类结果，赋予了传统k-均值算法处理大规模在线数据的能力。解决了上述两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题。

进一步的，将单层聚类神经网络嵌入深度神经网络中，深度神经网络包括三层编码器、单层聚类神经网络和三层解码器，原始样本数据X作为三层编码器的输入，三层编码器的输出作为单层聚类神经网络和三层解码器的输入，单层聚类神经网络的输出即为聚类结果。

更进一步的，步骤2中，将样本特征h_i＝f(X_i)输入深度神经网络，采用整体损失函数对深度神经网络进行训练，整体损失函数为：

将样本特征h_i＝f(X_i)输入三层解码器，得到的输出

用于重构原始输入样本数据X，

其中，

用于对深度神经网络的三层解码器与三层解码器进行训练，

用于对深度神经网络的三层解码器与单层聚类神经网络进行训练；W_j表示W矩阵的第j列，I_j(X_i)表示第i个样本与第j个类别的从属关系；λ＝0.01用于权衡两个损失函数的比重；

表示第i个样本相对第j个聚类中心的损失函数，X_i表示第i个样本；W_j ^T表示W_j的转置，

表示第i个样本的重构，f(X_i)表示第i个样本的特征，

更进一步的，步骤2中，对深度神经网络进行训练时，具体的训练步骤为：

步骤e、经三层编码器编码后的样本特征h_i＝f(X_i)输入单层聚类神经网络，计算聚类损失

步骤f、经三层编码器编码后的样本特征h_i＝f(X_i)输入三层解码器，得到的输出

用于重构原始输入的样本数据X，计算重构损失

步骤g、计算整体损失函麴

步骤h、根据

并使用随机梯度下降优化单层聚类神经网络的参数、根据

并使用随机梯度下降优化解码器的参数、根据

并使用随机梯度下降优化编码器的参数；

步骤i、重复步骤e-h直到深度神经网络收敛。

进一步的，第二损失函数通过如下方法获得：

重构获得第一损失函数：

其中，

表示第i个样本相对第j个聚类中心的损失函数，W_j ^T表示W_j的转置，W_j表示W矩阵的第j列，b_j表示向量b中第j个位置的数值，β_i表示非负的常量，对应样本点X_i的长度，I_j(X_i)表示第i个样本与第j个类别的从属关系，τ为温度系数，用于控制I_j(X_i)的平滑程度，W和b分别对应单层聚类神经网络的权重和偏置参数，exp表示自然指数；W_k表示W矩阵的第k列，

表示W_k的转置，b_k表示向量b中第k个位置的数值；

为了防止权重W在梯度下降更新过程中出现不收敛的情况，对权重W进行二范数正则化，而为保持样本数据X和聚类中心间欧氏距离度量的有效性，同时对样本进行二范数正则化，使其满足

之后第一损失函数简化为第二损失函数，并基于该第二损失函数获得单层聚类神经网络，第二损失函数如下：

其中，

对权重W进行二范数正则化的具体公式如下：

其中，Ω_j表示第j个聚类中心，对应权重矩阵的第j列，W_j＝2Ω_j；

第二损失函数对权重的偏导数为梯度δ，如下式表示：

W′＝W-lr*δ

其中，lr是随机梯度下降优化器SGD的学习率，初始值设置为lr＝0.001，W′表示经过一轮梯度更新后的权重；

对梯度δ进行二范数正则化，二范数正则化处理的具体公式为：

δ_j表示第二损失函数

对W_j的梯度。

更进一步的，第一损失函数的重构方法，包括如下步骤：

步骤1、对于给定的数据集X＝{X₁，X₂，…，X_N}，k-均值方法的目标是将每个样本点X_i归到S＝{S₁，S₂，...，S_K}这K个类别集合中的某一类，其归类的依据为最小化同类样本之间的距离，其目标函数如下式所示：

其中，Ω_j表示第j个类的聚类中心；

步骤2、Ω_j通过S_j中所有样本的均值计算给出，如下式所示：

其中，|S_j|表示属于第j个类的样本个数；

步骤3、将目标函数重写等价形式：

其中，I_j(X_i)表示第i个样本与第j个类别的从属关系，如果样本i属于类别j，则I_j(X_i)＝1，反之I_j(X_i)＝0；

步骤4、定义

其中，W_j表示W矩阵的第j列，b_j表示向量b中第j个位置的数值，β_i表示非负的常量，对应样本点X_i的长度；

在上述定义下，

步骤5、步骤3中，I_j(X_i)通过计算样本距离各个聚类中心的距离，将I_j(X_i)定义为概率图，即softmax函数，公式为：

其中，τ为温度系数，用于控制I_j(X_i)的平滑程度，实际应用中考虑τ趋近于0的情况，此时退化为argmax函数，即I_j(X_i)中只有最大项对应位置的数值为1，其余位置数值为0，至此，目标函数被重构为第一损失函数。

对于聚类任务来说，通过对k-均值算法的单层聚类神经网络实现，不再需要不再需要一次性读取全部的样本点以计算全局的聚类中心，而是可通过单层聚类神经网络的批优化(batch-wise optimization)和随机梯度下降(SGD)方法，每次仅需读取一批次数据，即可优化聚类中心并输出聚类结果，赋予了传统k-均值算法处理大规模在线数据的能力。在将k-均值算法转换为单层聚类神经网络的过程中，本申请充分考虑了基于梯度的优化中可能出现的训练不收敛和不稳定问题，并针对性的提出了样本/权重/梯度正则化方法，增强了模型的鲁棒性。此外，作为单层聚类神经网络，本申请可以嵌入到任意的深度神经网络(包括全连接神经网络、卷积神经网络等)以帮助网络实现端到端的聚类和表示学习，这是传统的k-均值算法无法做到的。

由于在神经网络优化过程中W和b无耦合，直接使用梯度下降优化易出现训练不收敛或不稳定的问题，故需同时对聚类中心Ω和梯度δ进行二范数正则化，即

其中，Ω_j表示第j个聚类中心，对应权重矩阵的第j列(W_j＝2Ω_j)，而δ_j表示损失函数

对W_j的梯度；

由于对Ω_j正则化后，W_j的长度为2，因此在梯度前乘以0.2使其长度为W_j的10％。

本申请的技术方案中，原始样本数据X为数据集MNIST，其包含70000张10个不同数字(0-9)的手写体图片；原始样本数据X为数据集CIFAR-10，其包含60000张来自10个物体类别的图片。

本发明的有益效果如下：

1.本申请将传统离线的k-均值方法转换为可微的单层聚类神经网络，通过单层聚类神经网络的批优化(batch-wise optimization)和随机梯度下降(SGD)方法，每次仅需读取一批次数据，即可优化聚类中心并输出聚类结果，赋予了传统k-均值算法处理大规模在线数据的能力，更符合实际应用需求；

2.在将k-均值算法转换为单层聚类神经网络的过程中，本申请充分考虑了基于梯度的优化中可能出现的训练不收敛和不稳定问题，并针对性的提出了样本/权重/梯度正则化方法，增强了模型的鲁棒性；

3.本申请直接设计了一层工作机理透明(能使用户直观地理解图像聚类方法的行为)的聚类神经网络，单层聚类神经网络中各模块具有直观的物理意义，具备更加直接同时也更具挑战性的可解释性，且提出的单层聚类神经网络面向无监督聚类和表示学习，是在无监督可解释性研究领域的一次前瞻性的尝试；

4.作为单层聚类神经网络，本申请可以嵌入到任意的深度神经网络(包括全连接神经网络、卷积神经网络等)以帮助网络实现端到端的聚类和表示学习，具有广泛的应用场景，这是传统的k-均值算法无法做到的；

5.本申请的图像聚类方法在标准化互信息(NMI)聚类指标上，相较传统聚类方法具有明显的性能提升，验证了本图像聚类方法的有效性。

附图说明

图1是本发明中构建的单层聚类神经网络的结构示意图；

图2是本发明基于可微k-均值的嵌入式可解释图像聚类方法的框图；

图3是本发明权重/梯度正则化的必要性示意图。

图1中X_i表示给定的输入，I_j(X_i)表示X_i的标签分配；使用的激活函数将各个样本分配至距离其最近的聚类中心，通过argmax函数实现。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，基于可微k-均值的嵌入式可解释图像聚类方法，包括如下步骤：

其中，

实施例2

如图2所示，基于可微k-均值的嵌入式可解释图像聚类方法，包括如下步骤：

步骤1、获取原始样本数据X，计算样本特征h_i＝f(X_i)，X_i表示第i个样本，将单层聚类神经网络嵌入深度神经网络中，深度神经网络包括三层编码器、单层聚类神经网络和三层解码器；

步骤2中，将样本特征h_i＝f(X_i)输入深度神经网络，采用整体损失函数对深度神经网络进行训练，整体损失函数为：

将样本特征h_i＝f(X_i)输入三层解码器，得到的输出

用于重构原始输入样本数据X，

其中，

用于对深度神经网络的三层解码器与三层解码器进行训练，

表示第i个样本的重构，f(X_i)表示第i个样本的特征，

步骤3、原始样本数据X作为三层编码器的输入，三层编码器的输出作为单层聚类神经网络和三层解码器的输入，单层聚类神经网络的输出即为聚类结果。

实施例3

基于实施例2，步骤2中，对深度神经网络进行训练时，具体的训练步骤为：

用于重构原始输入的样本数据X，计算重构损失

步骤g、计算整体损失函数

步骤h、根据

并使用随机梯度下降优化单层聚类神经网络的参数、根据

并使用随机梯度下降优化解码器的参数、根据

并使用随机梯度下降优化编码器的参数；

步骤i、重复步骤e-h直到深度神经网络收敛。

训练完成后即可进行数据聚类。

实施例4

第二损失函数通过如下方法获得：

重构获得第一损失函数：

其中，

表示W_k的转置，b_k表示向量b中第k个位置的数值；

其中，

对权重W进行二范数正则化的具体公式如下：

第二损失函数对权重的偏导数为梯度δ，如下式表示：

W′＝W-lr*δ

δ_j表示第二损失函数

对W_j的梯度。

实施例5

基于实施例4，第一损失函数的重构方法，包括如下步骤：

其中，Ω_j表示第j个类的聚类中心；

其中，|S_j|表示属于第j个类的样本个数；

步骤3、将目标函数重写等价形式：

步骤4、定义

在上述定义下，

实施例6

如图3所示，对于构建的单层聚类神经网络，直接使用SGD更新其网络参数可能会出现训练不收敛或者不稳定的现象，如图3中(a)所示，若不对单层聚类神经网络的权重参数W进行正则化，第一损失函数会随着W的增大而不断减小，即对W的梯度会最终使W趋于无穷，导致模型难以收敛。而对单层聚类神经网络权重进行正则化后，如图3中(b)所示，较大的梯度将显著改变模型权重W，由于W_j＝2Ω_j，其中Ω_j表示第j个类的聚类中心，而聚类中心的大幅变化会导致其对应的语义信息不稳定，从而导致更新前后分配到该类的样本点实际来自不同类别，最终影响模型的稳定更新，因此，在本申请中，同时对聚类中心Ω和梯度δ进行二范数正则化，如图3中(c)所示，即

对W_j的梯度；

由于对Ω_j正则化后，W_j的长度为2，因此在梯度前乘以0.2使其长度为W_j的10％，保证聚类中心每次更新的幅度较小，其语义信息不会被破坏，从而保障模型的稳定训练，而对聚类中心进行正则化后，为了保持欧氏距离度量的有效性，为了保持欧氏距离度量的有效性，对样本进行二范数正则化，使其满足

对样本、权重及梯度进行二范数正则化后，第一损失函数简化为第二损失函数：

实施例7

测试阶段

包括如下步骤：

步骤A、对于数据集X中每一个样本X_i计算特征h_i＝f(X_i)；

步骤B、计算样本属于各个类别的概率

样本最终的聚类结果为c_i＝argmax([I₁(X_i)，I₂(X_i)，...，I_K(X_i)])；

步骤C、(可选)使用聚类损失(第二损失函数)

更新单层聚类神经网络权重参数W。

试验例

选国际上比较先进的方法，包含k-均值聚类方法(k-means)、混合高斯模型(GMM)方法，模糊C-均值方法(FCM)，谱聚类方法(SC、LRR、LSR)、大规模数据聚类方法(SLRR、LSC)、基于矩阵分解的方法(NMF、ZAC)、深度聚类方法(DEC、VaDE)，在手写体识别数据集MNIST和物体图片数据集CIFAR-10上进行验证，其中LSC具有两种变种，分别记为LSC-R和LSC-K。使用衡量聚类效果常用的指标，即标准化互信息(NMI)，作为实验的量化指标，验证算法效果。NMI取值范围0～1，数字越大表示聚类效果越好，为1时表示算法能完全正确的将数据聚类正确。NMI计算方式如下：

其中Y是算法预测类别信息，C是数据实际类别信息。H(·)代表信息熵，I(Y；C)代表互信息。

使用数据集MNIST，其包含70000张10个不同数字(0-9)的手写体图片，实验数据类别信息和样本数量分布如表1，实验结果如表2所示。

表1实验数据类别信息和样本数量

0	1	2	3	4	5	6	7	8	9
										6903	7877	6990	7141	6824	6313	6876	7293	6825	6958

表2数据集MNIST上的聚类结果

从表2可以看出，本申请的单层聚类神经网络相比其他聚类方法在标准化互信息这一指标上有较大提升，具有明显优越性。

使用数据集CIFAR-10，其包含60000张来自10个物体类别的图片，实验数据类别信息和样本数量分布如表3，实验结果如表4所示。

表3实验数据类别信息和样本数量

飞机	轿车	鸟	猫	鹿	狗	青蛙	马	船	卡车
										6000	6000	6000	6000	6000	6000	6000	6000	6000	6000

表4数据集CIFAR-10上的聚类结果

从表4中可以看出本申请的单层聚类神经网络相比其他聚类方法在标准化互信息这一指标上有比较大的提升，意味着能在实际应用中能更好的将物体图片数据聚类正确，能够减少费时费力的人工标注过程。

上述实验中的结果由本申请的单层聚类神经网络嵌入到标准自编码器得到，其中涉及的神经网络结构如下：

1、编码器f由四层卷积神经网络和两层全连接神经网络构成，结构为conv(16,3,1,1)-conv(32,3,2,1)-conv(32,3,1,1)-conv(16,3,2,1)-fc(256)-fc(10)，其中conv(16,3,1,1)表示一层通道数为16，卷积核长度为3，步长为1，填充长度为1的卷积神经网络，fc(256)表示一层具有256个神经元的全连接神经网络。每个卷积层后进行批归一化操作，各网络层的激活函数均采用ReLU。

2、解码器g由四层卷积神经网络和两层全连接神经网络构成，结构为conv(16,3,1,1)-conv(32,3,2,1)-conv(32,3,1,1)-conv(16,3,2,1)-fc(256)-fc(10)，含义同上。每个卷积层后进行批归一化操作，除最后一层输出层采用sigmoid激活函数外，各网络层的激活函数均采用ReLU。

3、聚类层为单层全连接神经网络层，结构为fc(K)，其中K为目标聚类个数，激活函数为argmax。

Claims

1.基于可微k-均值的嵌入式可解释图像聚类方法，其特征在于：包括如下步骤：

其中，

2.根据权利要求1所述的基于可微k-均值的嵌入式可解释图像聚类方法，其特征在于：将单层聚类神经网络嵌入深度神经网络中，深度神经网络包括三层编码器、单层聚类神经网络和三层解码器，原始样本数据X作为三层编码器的输入，三层编码器的输出作为单层聚类神经网络和三层解码器的输入，单层聚类神经网络的输出即为聚类结果。

3.根据权利要求2所述的基于可微k-均值的嵌入式可解释图像聚类方法，其特征在于：步骤2中，将样本特征h_i＝f(X_i)输入深度神经网络，采用整体损失函数对深度神经网络进行训练，整体损失函数为：

将样本特征h_i＝f(X_i)输入三层解码器，得到的输出

用于重构原始输入样本数据X，

其中，

用于对深度神经网络的三层解码器与三层解码器进行训练，

表示第i个样本的重构，f(X_i)表示第i个样本的特征，

4.根据权利要求2所述的基于可微k-均值的嵌入式可解释图像聚类方法，其特征在于：步骤2中，对深度神经网络进行训练时，具体的训练步骤为：

用于重构原始输入的样本数据X，计算重构损失

步骤g、计算整体损失函数

步骤h、根据

并使用随机梯度下降优化单层聚类神经网络的参数、根据

并使用随机梯度下降优化解码器的参数、根据

并使用随机梯度下降优化编码器的参数；

步骤i、重复步骤e-h直到深度神经网络收敛。

5.根据权利要求3或4所述的基于可微k-均值的嵌入式可解释图像聚类方法，其特征在于：第二损失函数通过如下方法获得：

重构获得第一损失函数：

其中，

表示第i个样本相对第j个聚类中心的损失函数，W_j ^T表示W_j的转置，W_j表示W矩阵的第j列，b_j表示向量b中第j个位置的数值，β_i表示非负的常量，对应样本点X_i的长度，I_j(X_i)表示第i个样本与第j个类别的从属关系，τ为温度系数，用于控制I_j(X_i)的平滑程度，W和b分别对应单层聚类神经网络的权重和偏置参数，exp表示自然指数；W_k表示W矩阵的第k列，W_k ^T表示W_k的转置，b_k表示向量b中第k个位置的数值；

对权重W进行二范数正则化，同时对样本进行二范数正则化，使其满足