CN114266911A - 基于可微k-均值的嵌入式可解释图像聚类方法 - Google Patents

基于可微k-均值的嵌入式可解释图像聚类方法 Download PDF

Info

Publication number
CN114266911A
CN114266911A CN202111516439.6A CN202111516439A CN114266911A CN 114266911 A CN114266911 A CN 114266911A CN 202111516439 A CN202111516439 A CN 202111516439A CN 114266911 A CN114266911 A CN 114266911A
Authority
CN
China
Prior art keywords
sample
clustering
neural network
layer
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111516439.6A
Other languages
English (en)
Inventor
彭玺
李云帆
吕建成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111516439.6A priority Critical patent/CN114266911A/zh
Publication of CN114266911A publication Critical patent/CN114266911A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了基于可微k‑均值的嵌入式可解释图像聚类方法,涉及数据识别与处理技术领域,解决现有两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题,包括如下步骤:步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练;步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。本发明赋予了传统k‑均值算法处理大规模在线数据的能力,具备可解释性机器学习中更加直接同时也更具挑战性的模型透明性,且提出的单层聚类神经网络面向无监督聚类和表示学习,是在无监督可解释性研究领域的一次前瞻性的尝试。

Description

基于可微k-均值的嵌入式可解释图像聚类方法
技术领域
本发明涉及数据识别与处理技术领域,更具体的是涉及可解释神经网络和聚类分析技术领域。
背景技术
作为无监督机器学习的基础方法之一,聚类旨在根据数据自身特点及数据的间相似性,在不依赖外部标签的前提下,自动的将数据划分为若干个类别,满足每一类的数据具有相同特性,而不同类的数据间具有显著差异。聚类在现实生活中的应用十分广泛:例如,在手机相册中,通过对大量照片的分析,将无标签图片自动划分为若干类别(如自然风光、人物特写等),帮助用户进行图片整理和进一步检索;在电商平台上,通过对用户消费行为的分析,将用户划分为若干具有不同偏好的群体(如美食、科技爱好者等),帮助商家进行针对性推荐和营销。
现有的聚类方法通常分为两个阶段实现,首先通过子空间学习方法或深度神经网络提取出原始数据的特征,之后通过k-均值、混合高斯模型等方法对数据进行聚类。Yang,J.,et al.(2016),Joint unsupervised learning of deep representations and imageclusters.该论文首先利用k-均值方法对数据进行聚类,将聚类结果作为伪标签,通过分类任务优化特征提取网络,交替进行该过程,不断提升所提取特征的表征能力,进而提升聚类效果。Caron,M.,et al.(2018),Deep clustering for unsupervised learning ofvisual features.该论文首先预训练一个自编码器以进行数据的特征提取并用k-均值方法初始化聚类中心,之后根据样本距中心的距离计算软标签并构建辅助数据分布,通过不断优化实际数据分布和辅助数据分布间的KL散度以实现聚类。
上述两阶段聚类方法主要存在如下缺陷,第一,无法实现大规模的在线聚类,其中大规模指的是数据量大,在线指的是数据以流的形式呈现,每一时刻只能获取到部分数据。而现有聚类方法通常依赖于数据的全局相似性信息,当设备不足以同时存储全部数据,或数据以在线流的形式呈现时,两阶段聚类方法将不再适用。事实上,该缺陷本质上来自于k-均值或混合高斯模型等方法的不可微性,无法通过批优化进行训练。第二,现有方法的可解释性差,即模型进行聚类的过程不透明,模型各部分的功能不直观。例如在自编码器提取特征+k-均值聚类这一典型的两阶段聚类框架中,自编码器中网络层的神经元个数,权重,以及激活函数等部分没有明确的物理意义,导致用户难以理解模型的运作机理。
发明内容
本发明的目的在于:为了解决上述两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题,本发明提供基于可微k-均值的嵌入式可解释图像聚类方法。
本发明为了实现上述目的具体采用以下技术方案:
基于可微k-均值的嵌入式可解释图像聚类方法,包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;
步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练,第二损失函数为:
Figure BDA0003405083860000021
其中,
Figure BDA0003405083860000022
表示第i个样本相对第j个聚类中心的损失函数,Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系,Wj T表示Wj的转置,Xi表示第i个样本;
步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。
本申请的技术方案中,将传统的k-均值算法重构为单层聚类神经网络,其权重W对应聚类中心,argmax激活函数对应聚类分配(argmax之后的结果即为聚类分配),且直接通过k-均值的目标函数来优化,具有透明的工作机理和良好的可解释性,具体的:单层聚类神经网络输入X对应给定的样本点,单层聚类神经网络的权重W对应聚类中心,单层聚类神经网络的激活函数argmax将各样本点分配到距离其最近的类别,单层聚类神经网络的第二损失函数由传统k-均值方法的目标函数转换得到,用于实现聚类。本申请直接设计了一层工作机理透明的单层聚类神经网络,网络中各模块具有直观的物理意义,具备可解释性机器学习中更加直接同时也更具挑战性的模型透明性,且提出的单层聚类神经网络面向无监督聚类和表示学习,是在无监督可解释性研究领域的一次前瞻性的尝试。对于聚类任务来说,通过对k-均值算法的单层聚类神经网络实现,不再需要不再需要一次性读取全部的样本点以计算全局的聚类中心,每次仅需读取一批次数据,即可优化聚类中心(单层聚类神经网络的权重W对应聚类中心)并输出聚类结果,赋予了传统k-均值算法处理大规模在线数据的能力。解决了上述两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题。
进一步的,将单层聚类神经网络嵌入深度神经网络中,深度神经网络包括三层编码器、单层聚类神经网络和三层解码器,原始样本数据X作为三层编码器的输入,三层编码器的输出作为单层聚类神经网络和三层解码器的输入,单层聚类神经网络的输出即为聚类结果。
更进一步的,步骤2中,将样本特征hi=f(Xi)输入深度神经网络,采用整体损失函数对深度神经网络进行训练,整体损失函数为:
Figure BDA0003405083860000031
将样本特征hi=f(Xi)输入三层解码器,得到的输出
Figure BDA0003405083860000032
用于重构原始输入样本数据X,
Figure BDA0003405083860000033
Figure BDA0003405083860000041
Figure BDA0003405083860000042
其中,
Figure BDA0003405083860000043
用于对深度神经网络的三层解码器与三层解码器进行训练,
Figure BDA0003405083860000044
用于对深度神经网络的三层解码器与单层聚类神经网络进行训练;Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系;λ=0.01用于权衡两个损失函数的比重;
Figure BDA0003405083860000045
表示第i个样本相对第j个聚类中心的损失函数,Xi表示第i个样本;Wj T表示Wj的转置,
Figure BDA0003405083860000046
表示第i个样本的重构,f(Xi)表示第i个样本的特征,
Figure BDA0003405083860000047
更进一步的,步骤2中,对深度神经网络进行训练时,具体的训练步骤为:
步骤e、经三层编码器编码后的样本特征hi=f(Xi)输入单层聚类神经网络,计算聚类损失
Figure BDA0003405083860000048
步骤f、经三层编码器编码后的样本特征hi=f(Xi)输入三层解码器,得到的输出
Figure BDA0003405083860000049
用于重构原始输入的样本数据X,计算重构损失
Figure BDA00034050838600000410
步骤g、计算整体损失函麴
Figure BDA00034050838600000411
步骤h、根据
Figure BDA00034050838600000412
并使用随机梯度下降优化单层聚类神经网络的参数、根据
Figure BDA00034050838600000413
并使用随机梯度下降优化解码器的参数、根据
Figure BDA00034050838600000414
并使用随机梯度下降优化编码器的参数;
步骤i、重复步骤e-h直到深度神经网络收敛。
进一步的,第二损失函数通过如下方法获得:
重构获得第一损失函数:
Figure BDA00034050838600000415
Figure BDA0003405083860000051
其中,
Figure BDA0003405083860000052
表示第i个样本相对第j个聚类中心的损失函数,Wj T表示Wj的转置,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度,Ij(Xi)表示第i个样本与第j个类别的从属关系,τ为温度系数,用于控制Ij(Xi)的平滑程度,W和b分别对应单层聚类神经网络的权重和偏置参数,exp表示自然指数;Wk表示W矩阵的第k列,
Figure BDA0003405083860000053
表示Wk的转置,bk表示向量b中第k个位置的数值;
为了防止权重W在梯度下降更新过程中出现不收敛的情况,对权重W进行二范数正则化,而为保持样本数据X和聚类中心间欧氏距离度量的有效性,同时对样本进行二范数正则化,使其满足
Figure BDA0003405083860000054
之后第一损失函数简化为第二损失函数,并基于该第二损失函数获得单层聚类神经网络,第二损失函数如下:
Figure BDA0003405083860000055
其中,
Figure BDA0003405083860000056
表示第i个样本相对第j个聚类中心的损失函数,Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系,Wj T表示Wj的转置,Xi表示第i个样本;
对权重W进行二范数正则化的具体公式如下:
Figure BDA0003405083860000057
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列,Wj=2Ωj
第二损失函数对权重的偏导数为梯度δ,如下式表示:
Figure BDA0003405083860000061
W′=W-lr*δ
其中,lr是随机梯度下降优化器SGD的学习率,初始值设置为lr=0.001,W′表示经过一轮梯度更新后的权重;
对梯度δ进行二范数正则化,二范数正则化处理的具体公式为:
Figure BDA0003405083860000062
δj表示第二损失函数
Figure BDA0003405083860000063
对Wj的梯度。
更进一步的,第一损失函数的重构方法,包括如下步骤:
步骤1、对于给定的数据集X={X1,X2,…,XN},k-均值方法的目标是将每个样本点Xi归到S={S1,S2,...,SK}这K个类别集合中的某一类,其归类的依据为最小化同类样本之间的距离,其目标函数如下式所示:
Figure BDA0003405083860000064
其中,Ωj表示第j个类的聚类中心;
步骤2、Ωj通过Sj中所有样本的均值计算给出,如下式所示:
Figure BDA0003405083860000065
其中,|Sj|表示属于第j个类的样本个数;
步骤3、将目标函数重写等价形式:
Figure BDA0003405083860000066
Figure BDA0003405083860000067
其中,Ij(Xi)表示第i个样本与第j个类别的从属关系,如果样本i属于类别j,则Ij(Xi)=1,反之Ij(Xi)=0;
步骤4、定义
Figure BDA0003405083860000071
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
在上述定义下,
Figure BDA0003405083860000072
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
步骤5、步骤3中,Ij(Xi)通过计算样本距离各个聚类中心的距离,将Ij(Xi)定义为概率图,即softmax函数,公式为:
Figure BDA0003405083860000073
其中,τ为温度系数,用于控制Ij(Xi)的平滑程度,实际应用中考虑τ趋近于0的情况,此时退化为argmax函数,即Ij(Xi)中只有最大项对应位置的数值为1,其余位置数值为0,至此,目标函数被重构为第一损失函数。
对于聚类任务来说,通过对k-均值算法的单层聚类神经网络实现,不再需要不再需要一次性读取全部的样本点以计算全局的聚类中心,而是可通过单层聚类神经网络的批优化(batch-wise optimization)和随机梯度下降(SGD)方法,每次仅需读取一批次数据,即可优化聚类中心并输出聚类结果,赋予了传统k-均值算法处理大规模在线数据的能力。在将k-均值算法转换为单层聚类神经网络的过程中,本申请充分考虑了基于梯度的优化中可能出现的训练不收敛和不稳定问题,并针对性的提出了样本/权重/梯度正则化方法,增强了模型的鲁棒性。此外,作为单层聚类神经网络,本申请可以嵌入到任意的深度神经网络(包括全连接神经网络、卷积神经网络等)以帮助网络实现端到端的聚类和表示学习,这是传统的k-均值算法无法做到的。
由于在神经网络优化过程中W和b无耦合,直接使用梯度下降优化易出现训练不收敛或不稳定的问题,故需同时对聚类中心Ω和梯度δ进行二范数正则化,即
Figure BDA0003405083860000081
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列(Wj=2Ωj),而δj表示损失函数
Figure BDA0003405083860000082
对Wj的梯度;
由于对Ωj正则化后,Wj的长度为2,因此在梯度前乘以0.2使其长度为Wj的10%。
本申请的技术方案中,原始样本数据X为数据集MNIST,其包含70000张10个不同数字(0-9)的手写体图片;原始样本数据X为数据集CIFAR-10,其包含60000张来自10个物体类别的图片。
本发明的有益效果如下:
1.本申请将传统离线的k-均值方法转换为可微的单层聚类神经网络,通过单层聚类神经网络的批优化(batch-wise optimization)和随机梯度下降(SGD)方法,每次仅需读取一批次数据,即可优化聚类中心并输出聚类结果,赋予了传统k-均值算法处理大规模在线数据的能力,更符合实际应用需求;
2.在将k-均值算法转换为单层聚类神经网络的过程中,本申请充分考虑了基于梯度的优化中可能出现的训练不收敛和不稳定问题,并针对性的提出了样本/权重/梯度正则化方法,增强了模型的鲁棒性;
3.本申请直接设计了一层工作机理透明(能使用户直观地理解图像聚类方法的行为)的聚类神经网络,单层聚类神经网络中各模块具有直观的物理意义,具备更加直接同时也更具挑战性的可解释性,且提出的单层聚类神经网络面向无监督聚类和表示学习,是在无监督可解释性研究领域的一次前瞻性的尝试;
4.作为单层聚类神经网络,本申请可以嵌入到任意的深度神经网络(包括全连接神经网络、卷积神经网络等)以帮助网络实现端到端的聚类和表示学习,具有广泛的应用场景,这是传统的k-均值算法无法做到的;
5.本申请的图像聚类方法在标准化互信息(NMI)聚类指标上,相较传统聚类方法具有明显的性能提升,验证了本图像聚类方法的有效性。
附图说明
图1是本发明中构建的单层聚类神经网络的结构示意图;
图2是本发明基于可微k-均值的嵌入式可解释图像聚类方法的框图;
图3是本发明权重/梯度正则化的必要性示意图。
图1中Xi表示给定的输入,Ij(Xi)表示Xi的标签分配;使用的激活函数将各个样本分配至距离其最近的聚类中心,通过argmax函数实现。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,基于可微k-均值的嵌入式可解释图像聚类方法,包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;
步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练,第二损失函数为:
Figure BDA0003405083860000091
其中,
Figure BDA0003405083860000092
表示第i个样本相对第j个聚类中心的损失函数,Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系,Wj T表示Wj的转置,Xi表示第i个样本;
步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。
实施例2
如图2所示,基于可微k-均值的嵌入式可解释图像聚类方法,包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本,将单层聚类神经网络嵌入深度神经网络中,深度神经网络包括三层编码器、单层聚类神经网络和三层解码器;
步骤2中,将样本特征hi=f(Xi)输入深度神经网络,采用整体损失函数对深度神经网络进行训练,整体损失函数为:
Figure BDA0003405083860000101
将样本特征hi=f(Xi)输入三层解码器,得到的输出
Figure BDA0003405083860000102
用于重构原始输入样本数据X,
Figure BDA0003405083860000103
Figure BDA0003405083860000104
Figure BDA0003405083860000105
其中,
Figure BDA0003405083860000106
用于对深度神经网络的三层解码器与三层解码器进行训练,
Figure BDA0003405083860000107
用于对深度神经网络的三层解码器与单层聚类神经网络进行训练;Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系;λ=0.01用于权衡两个损失函数的比重;
Figure BDA0003405083860000108
表示第i个样本相对第j个聚类中心的损失函数,Xi表示第i个样本;Wj T表示Wj的转置,
Figure BDA0003405083860000109
表示第i个样本的重构,f(Xi)表示第i个样本的特征,
Figure BDA00034050838600001010
步骤3、原始样本数据X作为三层编码器的输入,三层编码器的输出作为单层聚类神经网络和三层解码器的输入,单层聚类神经网络的输出即为聚类结果。
实施例3
基于实施例2,步骤2中,对深度神经网络进行训练时,具体的训练步骤为:
步骤e、经三层编码器编码后的样本特征hi=f(Xi)输入单层聚类神经网络,计算聚类损失
Figure BDA0003405083860000111
步骤f、经三层编码器编码后的样本特征hi=f(Xi)输入三层解码器,得到的输出
Figure BDA0003405083860000112
用于重构原始输入的样本数据X,计算重构损失
Figure BDA0003405083860000113
步骤g、计算整体损失函数
Figure BDA0003405083860000114
步骤h、根据
Figure BDA0003405083860000115
并使用随机梯度下降优化单层聚类神经网络的参数、根据
Figure BDA0003405083860000116
并使用随机梯度下降优化解码器的参数、根据
Figure BDA0003405083860000117
并使用随机梯度下降优化编码器的参数;
步骤i、重复步骤e-h直到深度神经网络收敛。
训练完成后即可进行数据聚类。
实施例4
第二损失函数通过如下方法获得:
重构获得第一损失函数:
Figure BDA0003405083860000118
Figure BDA0003405083860000119
其中,
Figure BDA00034050838600001110
表示第i个样本相对第j个聚类中心的损失函数,Wj T表示Wj的转置,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度,Ij(Xi)表示第i个样本与第j个类别的从属关系,τ为温度系数,用于控制Ij(Xi)的平滑程度,W和b分别对应单层聚类神经网络的权重和偏置参数,exp表示自然指数;Wk表示W矩阵的第k列,
Figure BDA0003405083860000121
表示Wk的转置,bk表示向量b中第k个位置的数值;
为了防止权重W在梯度下降更新过程中出现不收敛的情况,对权重W进行二范数正则化,而为保持样本数据X和聚类中心间欧氏距离度量的有效性,同时对样本进行二范数正则化,使其满足
Figure BDA0003405083860000122
之后第一损失函数简化为第二损失函数,并基于该第二损失函数获得单层聚类神经网络,第二损失函数如下:
Figure BDA0003405083860000123
其中,
Figure BDA0003405083860000124
表示第i个样本相对第j个聚类中心的损失函数,Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系,Wj T表示Wj的转置,Xi表示第i个样本;
对权重W进行二范数正则化的具体公式如下:
Figure BDA0003405083860000125
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列,Wj=2Ωj
第二损失函数对权重的偏导数为梯度δ,如下式表示:
Figure BDA0003405083860000126
W′=W-lr*δ
其中,lr是随机梯度下降优化器SGD的学习率,初始值设置为lr=0.001,W′表示经过一轮梯度更新后的权重;
对梯度δ进行二范数正则化,二范数正则化处理的具体公式为:
Figure BDA0003405083860000127
δj表示第二损失函数
Figure BDA0003405083860000131
对Wj的梯度。
实施例5
基于实施例4,第一损失函数的重构方法,包括如下步骤:
步骤1、对于给定的数据集X={X1,X2,…,XN},k-均值方法的目标是将每个样本点Xi归到S={S1,S2,...,SK}这K个类别集合中的某一类,其归类的依据为最小化同类样本之间的距离,其目标函数如下式所示:
Figure BDA0003405083860000132
其中,Ωj表示第j个类的聚类中心;
步骤2、Ωj通过Sj中所有样本的均值计算给出,如下式所示:
Figure BDA0003405083860000133
其中,|Sj|表示属于第j个类的样本个数;
步骤3、将目标函数重写等价形式:
Figure BDA0003405083860000134
Figure BDA0003405083860000135
其中,Ij(Xi)表示第i个样本与第j个类别的从属关系,如果样本i属于类别j,则Ij(Xi)=1,反之Ij(Xi)=0;
步骤4、定义
Figure BDA0003405083860000136
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
在上述定义下,
Figure BDA0003405083860000137
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
步骤5、步骤3中,Ij(Xi)通过计算样本距离各个聚类中心的距离,将Ij(Xi)定义为概率图,即softmax函数,公式为:
Figure BDA0003405083860000141
其中,τ为温度系数,用于控制Ij(Xi)的平滑程度,实际应用中考虑τ趋近于0的情况,此时退化为argmax函数,即Ij(Xi)中只有最大项对应位置的数值为1,其余位置数值为0,至此,目标函数被重构为第一损失函数。
实施例6
如图3所示,对于构建的单层聚类神经网络,直接使用SGD更新其网络参数可能会出现训练不收敛或者不稳定的现象,如图3中(a)所示,若不对单层聚类神经网络的权重参数W进行正则化,第一损失函数会随着W的增大而不断减小,即对W的梯度会最终使W趋于无穷,导致模型难以收敛。而对单层聚类神经网络权重进行正则化后,如图3中(b)所示,较大的梯度将显著改变模型权重W,由于Wj=2Ωj,其中Ωj表示第j个类的聚类中心,而聚类中心的大幅变化会导致其对应的语义信息不稳定,从而导致更新前后分配到该类的样本点实际来自不同类别,最终影响模型的稳定更新,因此,在本申请中,同时对聚类中心Ω和梯度δ进行二范数正则化,如图3中(c)所示,即
Figure BDA0003405083860000142
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列(Wj=2Ωj),而δj表示损失函数
Figure BDA0003405083860000143
对Wj的梯度;
由于对Ωj正则化后,Wj的长度为2,因此在梯度前乘以0.2使其长度为Wj的10%,保证聚类中心每次更新的幅度较小,其语义信息不会被破坏,从而保障模型的稳定训练,而对聚类中心进行正则化后,为了保持欧氏距离度量的有效性,为了保持欧氏距离度量的有效性,对样本进行二范数正则化,使其满足
Figure BDA0003405083860000151
对样本、权重及梯度进行二范数正则化后,第一损失函数简化为第二损失函数:
Figure BDA0003405083860000152
实施例7
测试阶段
包括如下步骤:
步骤A、对于数据集X中每一个样本Xi计算特征hi=f(Xi);
步骤B、计算样本属于各个类别的概率
Figure BDA0003405083860000153
样本最终的聚类结果为ci=argmax([I1(Xi),I2(Xi),...,IK(Xi)]);
步骤C、(可选)使用聚类损失(第二损失函数)
Figure BDA0003405083860000154
更新单层聚类神经网络权重参数W。
试验例
选国际上比较先进的方法,包含k-均值聚类方法(k-means)、混合高斯模型(GMM)方法,模糊C-均值方法(FCM),谱聚类方法(SC、LRR、LSR)、大规模数据聚类方法(SLRR、LSC)、基于矩阵分解的方法(NMF、ZAC)、深度聚类方法(DEC、VaDE),在手写体识别数据集MNIST和物体图片数据集CIFAR-10上进行验证,其中LSC具有两种变种,分别记为LSC-R和LSC-K。使用衡量聚类效果常用的指标,即标准化互信息(NMI),作为实验的量化指标,验证算法效果。NMI取值范围0~1,数字越大表示聚类效果越好,为1时表示算法能完全正确的将数据聚类正确。NMI计算方式如下:
Figure BDA0003405083860000155
其中Y是算法预测类别信息,C是数据实际类别信息。H(·)代表信息熵,I(Y;C)代表互信息。
使用数据集MNIST,其包含70000张10个不同数字(0-9)的手写体图片,实验数据类别信息和样本数量分布如表1,实验结果如表2所示。
表1实验数据类别信息和样本数量
0 1 2 3 4 5 6 7 8 9
6903 7877 6990 7141 6824 6313 6876 7293 6825 6958
表2数据集MNIST上的聚类结果
Figure BDA0003405083860000161
从表2可以看出,本申请的单层聚类神经网络相比其他聚类方法在标准化互信息这一指标上有较大提升,具有明显优越性。
使用数据集CIFAR-10,其包含60000张来自10个物体类别的图片,实验数据类别信息和样本数量分布如表3,实验结果如表4所示。
表3实验数据类别信息和样本数量
飞机 轿车 鹿 青蛙 卡车
6000 6000 6000 6000 6000 6000 6000 6000 6000 6000
表4数据集CIFAR-10上的聚类结果
Figure BDA0003405083860000162
从表4中可以看出本申请的单层聚类神经网络相比其他聚类方法在标准化互信息这一指标上有比较大的提升,意味着能在实际应用中能更好的将物体图片数据聚类正确,能够减少费时费力的人工标注过程。
上述实验中的结果由本申请的单层聚类神经网络嵌入到标准自编码器得到,其中涉及的神经网络结构如下:
1、编码器f由四层卷积神经网络和两层全连接神经网络构成,结构为conv(16,3,1,1)-conv(32,3,2,1)-conv(32,3,1,1)-conv(16,3,2,1)-fc(256)-fc(10),其中conv(16,3,1,1)表示一层通道数为16,卷积核长度为3,步长为1,填充长度为1的卷积神经网络,fc(256)表示一层具有256个神经元的全连接神经网络。每个卷积层后进行批归一化操作,各网络层的激活函数均采用ReLU。
2、解码器g由四层卷积神经网络和两层全连接神经网络构成,结构为conv(16,3,1,1)-conv(32,3,2,1)-conv(32,3,1,1)-conv(16,3,2,1)-fc(256)-fc(10),含义同上。每个卷积层后进行批归一化操作,除最后一层输出层采用sigmoid激活函数外,各网络层的激活函数均采用ReLU。
3、聚类层为单层全连接神经网络层,结构为fc(K),其中K为目标聚类个数,激活函数为argmax。

Claims (6)

1.基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;
步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练,第二损失函数为:
Figure FDA0003405083850000011
其中,
Figure FDA0003405083850000012
表示第i个样本相对第j个聚类中心的损失函数,Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系,Wj T表示Wj的转置,Xi表示第i个样本;
步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。
2.根据权利要求1所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:将单层聚类神经网络嵌入深度神经网络中,深度神经网络包括三层编码器、单层聚类神经网络和三层解码器,原始样本数据X作为三层编码器的输入,三层编码器的输出作为单层聚类神经网络和三层解码器的输入,单层聚类神经网络的输出即为聚类结果。
3.根据权利要求2所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:步骤2中,将样本特征hi=f(Xi)输入深度神经网络,采用整体损失函数对深度神经网络进行训练,整体损失函数为:
Figure FDA0003405083850000013
将样本特征hi=f(Xi)输入三层解码器,得到的输出
Figure FDA0003405083850000014
用于重构原始输入样本数据X,
Figure FDA0003405083850000021
Figure FDA0003405083850000022
Figure FDA0003405083850000023
其中,
Figure FDA0003405083850000024
用于对深度神经网络的三层解码器与三层解码器进行训练,
Figure FDA0003405083850000025
用于对深度神经网络的三层解码器与单层聚类神经网络进行训练;Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系;λ=0.01用于权衡两个损失函数的比重;
Figure FDA0003405083850000026
表示第i个样本相对第j个聚类中心的损失函数,Xi表示第i个样本;Wj T表示Wj的转置,
Figure FDA0003405083850000027
表示第i个样本的重构,f(Xi)表示第i个样本的特征,
Figure FDA0003405083850000028
4.根据权利要求2所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:步骤2中,对深度神经网络进行训练时,具体的训练步骤为:
步骤e、经三层编码器编码后的样本特征hi=f(Xi)输入单层聚类神经网络,计算聚类损失
Figure FDA0003405083850000029
步骤f、经三层编码器编码后的样本特征hi=f(Xi)输入三层解码器,得到的输出
Figure FDA00034050838500000210
用于重构原始输入的样本数据X,计算重构损失
Figure FDA00034050838500000211
步骤g、计算整体损失函数
Figure FDA00034050838500000212
步骤h、根据
Figure FDA00034050838500000213
并使用随机梯度下降优化单层聚类神经网络的参数、根据
Figure FDA00034050838500000214
并使用随机梯度下降优化解码器的参数、根据
Figure FDA00034050838500000215
并使用随机梯度下降优化编码器的参数;
步骤i、重复步骤e-h直到深度神经网络收敛。
5.根据权利要求3或4所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:第二损失函数通过如下方法获得:
重构获得第一损失函数:
Figure FDA0003405083850000031
Figure FDA0003405083850000032
其中,
Figure FDA0003405083850000033
表示第i个样本相对第j个聚类中心的损失函数,Wj T表示Wj的转置,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度,Ij(Xi)表示第i个样本与第j个类别的从属关系,τ为温度系数,用于控制Ij(Xi)的平滑程度,W和b分别对应单层聚类神经网络的权重和偏置参数,exp表示自然指数;Wk表示W矩阵的第k列,Wk T表示Wk的转置,bk表示向量b中第k个位置的数值;
对权重W进行二范数正则化,同时对样本进行二范数正则化,使其满足
Figure FDA0003405083850000034
之后第一损失函数简化为第二损失函数,并基于该第二损失函数获得单层聚类神经网络,第二损失函数如下:
Figure FDA0003405083850000035
其中,
Figure FDA0003405083850000036
表示第i个样本相对第j个聚类中心的损失函数,Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系,Wj T表示Wj的转置,Xi表示第i个样本;
对权重W进行二范数正则化的具体公式如下:
Figure FDA0003405083850000037
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列,Wj=2Ωj
第二损失函数对权重的偏导数为梯度δ,如下式表示:
Figure FDA0003405083850000041
W′=W-lr*δ
其中,lr是随机梯度下降优化器SGD的学习率,初始值设置为lr=0.001,W′表示经过一轮梯度更新后的权重;
对梯度δ进行二范数正则化,二范数正则化处理的具体公式为:
Figure FDA0003405083850000042
δj表示第二损失函数
Figure FDA0003405083850000043
对Wj的梯度。
6.根据权利要求5所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:第一损失函数的重构方法,包括如下步骤:
步骤1、对于给定的数据集X={X1,X2,…,XN},k-均值方法的目标是将每个样本点Xi归到S={S1,S2,...,SK}这K个类别集合中的某一类,其归类的依据为最小化同类样本之间的距离,其目标函数如下式所示:
Figure FDA0003405083850000044
其中,Ωj表示第j个类的聚类中心;
步骤2、Ωj通过Sj中所有样本的均值计算给出,如下式所示:
Figure FDA0003405083850000045
其中,|Sj|表示属于第j个类的样本个数;
步骤3、将目标函数重写等价形式:
Figure FDA0003405083850000046
Figure FDA0003405083850000047
其中,Ij(Xi)表示第i个样本与第j个类别的从属关系,如果样本i属于类别j,则Ij(Xi)=1,反之Ij(Xi)=0;
步骤4、定义Wj=2Ωj
Figure FDA0003405083850000051
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
在上述定义下,
Figure FDA0003405083850000052
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
步骤5、步骤3中,Ij(Xi)通过计算样本距离各个聚类中心的距离,将Ij(Xi)定义为概率图,即softmax函数,公式为:
Figure FDA0003405083850000053
其中,τ为温度系数,用于控制Ij(Xi)的平滑程度,实际应用中考虑τ趋近于0的情况,此时退化为argmax函数,即Ij(Xi)中只有最大项对应位置的数值为1,其余位置数值为0,至此,目标函数被重构为第一损失函数。
CN202111516439.6A 2021-12-10 2021-12-10 基于可微k-均值的嵌入式可解释图像聚类方法 Pending CN114266911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111516439.6A CN114266911A (zh) 2021-12-10 2021-12-10 基于可微k-均值的嵌入式可解释图像聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111516439.6A CN114266911A (zh) 2021-12-10 2021-12-10 基于可微k-均值的嵌入式可解释图像聚类方法

Publications (1)

Publication Number Publication Date
CN114266911A true CN114266911A (zh) 2022-04-01

Family

ID=80826792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111516439.6A Pending CN114266911A (zh) 2021-12-10 2021-12-10 基于可微k-均值的嵌入式可解释图像聚类方法

Country Status (1)

Country Link
CN (1) CN114266911A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115816466A (zh) * 2023-02-02 2023-03-21 中国科学技术大学 一种提升视觉观测机器人控制稳定性的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764362A (zh) * 2018-06-05 2018-11-06 四川大学 基于神经网络的k-means聚类方法
CN109086805A (zh) * 2018-07-12 2018-12-25 华南理工大学 一种基于深度神经网络和成对约束的聚类方法
CN109635946A (zh) * 2018-11-29 2019-04-16 华南理工大学 一种联合深度神经网络和成对约束的聚类方法
CN110457447A (zh) * 2019-05-15 2019-11-15 国网浙江省电力有限公司电力科学研究院 一种电网任务型对话系统
CN110650153A (zh) * 2019-10-14 2020-01-03 北京理工大学 一种基于聚焦损失深度神经网络的工控网络入侵检测方法
CN111259979A (zh) * 2020-02-10 2020-06-09 大连理工大学 一种基于标签自适应策略的深度半监督图像聚类方法
CN111598830A (zh) * 2020-02-18 2020-08-28 天津大学 一种基于无监督学习的皮肤癌疾病检测方法
CN112489098A (zh) * 2020-12-09 2021-03-12 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法
CN112561027A (zh) * 2019-09-25 2021-03-26 华为技术有限公司 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN112668627A (zh) * 2020-12-24 2021-04-16 四川大学 一种基于对比学习的大规模图像在线聚类系统及方法
CN113469236A (zh) * 2021-06-25 2021-10-01 江苏大学 一种自我标签学习的深度聚类图像识别系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764362A (zh) * 2018-06-05 2018-11-06 四川大学 基于神经网络的k-means聚类方法
CN109086805A (zh) * 2018-07-12 2018-12-25 华南理工大学 一种基于深度神经网络和成对约束的聚类方法
CN109635946A (zh) * 2018-11-29 2019-04-16 华南理工大学 一种联合深度神经网络和成对约束的聚类方法
CN110457447A (zh) * 2019-05-15 2019-11-15 国网浙江省电力有限公司电力科学研究院 一种电网任务型对话系统
CN112561027A (zh) * 2019-09-25 2021-03-26 华为技术有限公司 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN110650153A (zh) * 2019-10-14 2020-01-03 北京理工大学 一种基于聚焦损失深度神经网络的工控网络入侵检测方法
CN111259979A (zh) * 2020-02-10 2020-06-09 大连理工大学 一种基于标签自适应策略的深度半监督图像聚类方法
CN111598830A (zh) * 2020-02-18 2020-08-28 天津大学 一种基于无监督学习的皮肤癌疾病检测方法
CN112489098A (zh) * 2020-12-09 2021-03-12 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法
CN112668627A (zh) * 2020-12-24 2021-04-16 四川大学 一种基于对比学习的大规模图像在线聚类系统及方法
CN113469236A (zh) * 2021-06-25 2021-10-01 江苏大学 一种自我标签学习的深度聚类图像识别系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115816466A (zh) * 2023-02-02 2023-03-21 中国科学技术大学 一种提升视觉观测机器人控制稳定性的方法

Similar Documents

Publication Publication Date Title
CN111191732B (zh) 一种基于全自动学习的目标检测方法
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN105701502B (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN109446332B (zh) 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN105184298B (zh) 一种快速局部约束低秩编码的图像分类方法
CN109101938B (zh) 一种基于卷积神经网络的多标签年龄估计方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN110866530A (zh) 一种字符图像识别方法、装置及电子设备
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN109273054B (zh) 基于关系图谱的蛋白质亚细胞区间预测方法
CN110516070B (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN111881671B (zh) 一种属性词提取方法
CN112668627A (zh) 一种基于对比学习的大规模图像在线聚类系统及方法
CN108537257B (zh) 基于判别性字典矩阵对的零样本图像分类方法
CN111985247A (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
Yang et al. Handwriting text recognition based on faster R-CNN
CN115049952B (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN110569780A (zh) 一种基于深度迁移学习的高精度人脸识别方法
CN112800249A (zh) 基于生成对抗网络的细粒度跨媒体检索方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN112800927A (zh) 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220401