CN114266911A - 基于可微k-均值的嵌入式可解释图像聚类方法 - Google Patents
基于可微k-均值的嵌入式可解释图像聚类方法 Download PDFInfo
- Publication number
- CN114266911A CN114266911A CN202111516439.6A CN202111516439A CN114266911A CN 114266911 A CN114266911 A CN 114266911A CN 202111516439 A CN202111516439 A CN 202111516439A CN 114266911 A CN114266911 A CN 114266911A
- Authority
- CN
- China
- Prior art keywords
- sample
- clustering
- neural network
- layer
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000013528 artificial neural network Methods 0.000 claims abstract description 109
- 230000006870 function Effects 0.000 claims abstract description 91
- 239000002356 single layer Substances 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 9
- 239000010410 layer Substances 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 27
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于可微k‑均值的嵌入式可解释图像聚类方法,涉及数据识别与处理技术领域,解决现有两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题,包括如下步骤:步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练;步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。本发明赋予了传统k‑均值算法处理大规模在线数据的能力,具备可解释性机器学习中更加直接同时也更具挑战性的模型透明性,且提出的单层聚类神经网络面向无监督聚类和表示学习,是在无监督可解释性研究领域的一次前瞻性的尝试。
Description
技术领域
本发明涉及数据识别与处理技术领域,更具体的是涉及可解释神经网络和聚类分析技术领域。
背景技术
作为无监督机器学习的基础方法之一,聚类旨在根据数据自身特点及数据的间相似性,在不依赖外部标签的前提下,自动的将数据划分为若干个类别,满足每一类的数据具有相同特性,而不同类的数据间具有显著差异。聚类在现实生活中的应用十分广泛:例如,在手机相册中,通过对大量照片的分析,将无标签图片自动划分为若干类别(如自然风光、人物特写等),帮助用户进行图片整理和进一步检索;在电商平台上,通过对用户消费行为的分析,将用户划分为若干具有不同偏好的群体(如美食、科技爱好者等),帮助商家进行针对性推荐和营销。
现有的聚类方法通常分为两个阶段实现,首先通过子空间学习方法或深度神经网络提取出原始数据的特征,之后通过k-均值、混合高斯模型等方法对数据进行聚类。Yang,J.,et al.(2016),Joint unsupervised learning of deep representations and imageclusters.该论文首先利用k-均值方法对数据进行聚类,将聚类结果作为伪标签,通过分类任务优化特征提取网络,交替进行该过程,不断提升所提取特征的表征能力,进而提升聚类效果。Caron,M.,et al.(2018),Deep clustering for unsupervised learning ofvisual features.该论文首先预训练一个自编码器以进行数据的特征提取并用k-均值方法初始化聚类中心,之后根据样本距中心的距离计算软标签并构建辅助数据分布,通过不断优化实际数据分布和辅助数据分布间的KL散度以实现聚类。
上述两阶段聚类方法主要存在如下缺陷,第一,无法实现大规模的在线聚类,其中大规模指的是数据量大,在线指的是数据以流的形式呈现,每一时刻只能获取到部分数据。而现有聚类方法通常依赖于数据的全局相似性信息,当设备不足以同时存储全部数据,或数据以在线流的形式呈现时,两阶段聚类方法将不再适用。事实上,该缺陷本质上来自于k-均值或混合高斯模型等方法的不可微性,无法通过批优化进行训练。第二,现有方法的可解释性差,即模型进行聚类的过程不透明,模型各部分的功能不直观。例如在自编码器提取特征+k-均值聚类这一典型的两阶段聚类框架中,自编码器中网络层的神经元个数,权重,以及激活函数等部分没有明确的物理意义,导致用户难以理解模型的运作机理。
发明内容
本发明的目的在于:为了解决上述两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题,本发明提供基于可微k-均值的嵌入式可解释图像聚类方法。
本发明为了实现上述目的具体采用以下技术方案:
基于可微k-均值的嵌入式可解释图像聚类方法,包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;
步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练,第二损失函数为:
步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。
本申请的技术方案中,将传统的k-均值算法重构为单层聚类神经网络,其权重W对应聚类中心,argmax激活函数对应聚类分配(argmax之后的结果即为聚类分配),且直接通过k-均值的目标函数来优化,具有透明的工作机理和良好的可解释性,具体的:单层聚类神经网络输入X对应给定的样本点,单层聚类神经网络的权重W对应聚类中心,单层聚类神经网络的激活函数argmax将各样本点分配到距离其最近的类别,单层聚类神经网络的第二损失函数由传统k-均值方法的目标函数转换得到,用于实现聚类。本申请直接设计了一层工作机理透明的单层聚类神经网络,网络中各模块具有直观的物理意义,具备可解释性机器学习中更加直接同时也更具挑战性的模型透明性,且提出的单层聚类神经网络面向无监督聚类和表示学习,是在无监督可解释性研究领域的一次前瞻性的尝试。对于聚类任务来说,通过对k-均值算法的单层聚类神经网络实现,不再需要不再需要一次性读取全部的样本点以计算全局的聚类中心,每次仅需读取一批次数据,即可优化聚类中心(单层聚类神经网络的权重W对应聚类中心)并输出聚类结果,赋予了传统k-均值算法处理大规模在线数据的能力。解决了上述两阶段聚类方法存在无法实现大规模的在线聚类及现有方法可解释性差的问题。
进一步的,将单层聚类神经网络嵌入深度神经网络中,深度神经网络包括三层编码器、单层聚类神经网络和三层解码器,原始样本数据X作为三层编码器的输入,三层编码器的输出作为单层聚类神经网络和三层解码器的输入,单层聚类神经网络的输出即为聚类结果。
更进一步的,步骤2中,将样本特征hi=f(Xi)输入深度神经网络,采用整体损失函数对深度神经网络进行训练,整体损失函数为:
其中,用于对深度神经网络的三层解码器与三层解码器进行训练,用于对深度神经网络的三层解码器与单层聚类神经网络进行训练;Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系;λ=0.01用于权衡两个损失函数的比重;表示第i个样本相对第j个聚类中心的损失函数,Xi表示第i个样本;Wj T表示Wj的转置,表示第i个样本的重构,f(Xi)表示第i个样本的特征,
更进一步的,步骤2中,对深度神经网络进行训练时,具体的训练步骤为:
步骤i、重复步骤e-h直到深度神经网络收敛。
进一步的,第二损失函数通过如下方法获得:
重构获得第一损失函数:
其中,表示第i个样本相对第j个聚类中心的损失函数,Wj T表示Wj的转置,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度,Ij(Xi)表示第i个样本与第j个类别的从属关系,τ为温度系数,用于控制Ij(Xi)的平滑程度,W和b分别对应单层聚类神经网络的权重和偏置参数,exp表示自然指数;Wk表示W矩阵的第k列,表示Wk的转置,bk表示向量b中第k个位置的数值;
为了防止权重W在梯度下降更新过程中出现不收敛的情况,对权重W进行二范数正则化,而为保持样本数据X和聚类中心间欧氏距离度量的有效性,同时对样本进行二范数正则化,使其满足之后第一损失函数简化为第二损失函数,并基于该第二损失函数获得单层聚类神经网络,第二损失函数如下:
对权重W进行二范数正则化的具体公式如下:
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列,Wj=2Ωj;
第二损失函数对权重的偏导数为梯度δ,如下式表示:
其中,lr是随机梯度下降优化器SGD的学习率,初始值设置为lr=0.001,W′表示经过一轮梯度更新后的权重;
对梯度δ进行二范数正则化,二范数正则化处理的具体公式为:
更进一步的,第一损失函数的重构方法,包括如下步骤:
步骤1、对于给定的数据集X={X1,X2,…,XN},k-均值方法的目标是将每个样本点Xi归到S={S1,S2,...,SK}这K个类别集合中的某一类,其归类的依据为最小化同类样本之间的距离,其目标函数如下式所示:
其中,Ωj表示第j个类的聚类中心;
步骤2、Ωj通过Sj中所有样本的均值计算给出,如下式所示:
其中,|Sj|表示属于第j个类的样本个数;
步骤3、将目标函数重写等价形式:
其中,Ij(Xi)表示第i个样本与第j个类别的从属关系,如果样本i属于类别j,则Ij(Xi)=1,反之Ij(Xi)=0;
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
步骤5、步骤3中,Ij(Xi)通过计算样本距离各个聚类中心的距离,将Ij(Xi)定义为概率图,即softmax函数,公式为:
其中,τ为温度系数,用于控制Ij(Xi)的平滑程度,实际应用中考虑τ趋近于0的情况,此时退化为argmax函数,即Ij(Xi)中只有最大项对应位置的数值为1,其余位置数值为0,至此,目标函数被重构为第一损失函数。
对于聚类任务来说,通过对k-均值算法的单层聚类神经网络实现,不再需要不再需要一次性读取全部的样本点以计算全局的聚类中心,而是可通过单层聚类神经网络的批优化(batch-wise optimization)和随机梯度下降(SGD)方法,每次仅需读取一批次数据,即可优化聚类中心并输出聚类结果,赋予了传统k-均值算法处理大规模在线数据的能力。在将k-均值算法转换为单层聚类神经网络的过程中,本申请充分考虑了基于梯度的优化中可能出现的训练不收敛和不稳定问题,并针对性的提出了样本/权重/梯度正则化方法,增强了模型的鲁棒性。此外,作为单层聚类神经网络,本申请可以嵌入到任意的深度神经网络(包括全连接神经网络、卷积神经网络等)以帮助网络实现端到端的聚类和表示学习,这是传统的k-均值算法无法做到的。
由于在神经网络优化过程中W和b无耦合,直接使用梯度下降优化易出现训练不收敛或不稳定的问题,故需同时对聚类中心Ω和梯度δ进行二范数正则化,即
由于对Ωj正则化后,Wj的长度为2,因此在梯度前乘以0.2使其长度为Wj的10%。
本申请的技术方案中,原始样本数据X为数据集MNIST,其包含70000张10个不同数字(0-9)的手写体图片;原始样本数据X为数据集CIFAR-10,其包含60000张来自10个物体类别的图片。
本发明的有益效果如下:
1.本申请将传统离线的k-均值方法转换为可微的单层聚类神经网络,通过单层聚类神经网络的批优化(batch-wise optimization)和随机梯度下降(SGD)方法,每次仅需读取一批次数据,即可优化聚类中心并输出聚类结果,赋予了传统k-均值算法处理大规模在线数据的能力,更符合实际应用需求;
2.在将k-均值算法转换为单层聚类神经网络的过程中,本申请充分考虑了基于梯度的优化中可能出现的训练不收敛和不稳定问题,并针对性的提出了样本/权重/梯度正则化方法,增强了模型的鲁棒性;
3.本申请直接设计了一层工作机理透明(能使用户直观地理解图像聚类方法的行为)的聚类神经网络,单层聚类神经网络中各模块具有直观的物理意义,具备更加直接同时也更具挑战性的可解释性,且提出的单层聚类神经网络面向无监督聚类和表示学习,是在无监督可解释性研究领域的一次前瞻性的尝试;
4.作为单层聚类神经网络,本申请可以嵌入到任意的深度神经网络(包括全连接神经网络、卷积神经网络等)以帮助网络实现端到端的聚类和表示学习,具有广泛的应用场景,这是传统的k-均值算法无法做到的;
5.本申请的图像聚类方法在标准化互信息(NMI)聚类指标上,相较传统聚类方法具有明显的性能提升,验证了本图像聚类方法的有效性。
附图说明
图1是本发明中构建的单层聚类神经网络的结构示意图;
图2是本发明基于可微k-均值的嵌入式可解释图像聚类方法的框图;
图3是本发明权重/梯度正则化的必要性示意图。
图1中Xi表示给定的输入,Ij(Xi)表示Xi的标签分配;使用的激活函数将各个样本分配至距离其最近的聚类中心,通过argmax函数实现。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,基于可微k-均值的嵌入式可解释图像聚类方法,包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本;
步骤2、将样本特征hi=f(Xi)输入单层聚类神经网络,采用第二损失函数对单层神经网络进行训练,第二损失函数为:
步骤3、待测样本输入单层聚类神经网络,得到样本聚类结果。
实施例2
如图2所示,基于可微k-均值的嵌入式可解释图像聚类方法,包括如下步骤:
步骤1、获取原始样本数据X,计算样本特征hi=f(Xi),Xi表示第i个样本,将单层聚类神经网络嵌入深度神经网络中,深度神经网络包括三层编码器、单层聚类神经网络和三层解码器;
步骤2中,将样本特征hi=f(Xi)输入深度神经网络,采用整体损失函数对深度神经网络进行训练,整体损失函数为:
其中,用于对深度神经网络的三层解码器与三层解码器进行训练,用于对深度神经网络的三层解码器与单层聚类神经网络进行训练;Wj表示W矩阵的第j列,Ij(Xi)表示第i个样本与第j个类别的从属关系;λ=0.01用于权衡两个损失函数的比重;表示第i个样本相对第j个聚类中心的损失函数,Xi表示第i个样本;Wj T表示Wj的转置,表示第i个样本的重构,f(Xi)表示第i个样本的特征,
步骤3、原始样本数据X作为三层编码器的输入,三层编码器的输出作为单层聚类神经网络和三层解码器的输入,单层聚类神经网络的输出即为聚类结果。
实施例3
基于实施例2,步骤2中,对深度神经网络进行训练时,具体的训练步骤为:
步骤i、重复步骤e-h直到深度神经网络收敛。
训练完成后即可进行数据聚类。
实施例4
第二损失函数通过如下方法获得:
重构获得第一损失函数:
其中,表示第i个样本相对第j个聚类中心的损失函数,Wj T表示Wj的转置,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度,Ij(Xi)表示第i个样本与第j个类别的从属关系,τ为温度系数,用于控制Ij(Xi)的平滑程度,W和b分别对应单层聚类神经网络的权重和偏置参数,exp表示自然指数;Wk表示W矩阵的第k列,表示Wk的转置,bk表示向量b中第k个位置的数值;
为了防止权重W在梯度下降更新过程中出现不收敛的情况,对权重W进行二范数正则化,而为保持样本数据X和聚类中心间欧氏距离度量的有效性,同时对样本进行二范数正则化,使其满足之后第一损失函数简化为第二损失函数,并基于该第二损失函数获得单层聚类神经网络,第二损失函数如下:
对权重W进行二范数正则化的具体公式如下:
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列,Wj=2Ωj;
第二损失函数对权重的偏导数为梯度δ,如下式表示:
其中,lr是随机梯度下降优化器SGD的学习率,初始值设置为lr=0.001,W′表示经过一轮梯度更新后的权重;
对梯度δ进行二范数正则化,二范数正则化处理的具体公式为:
实施例5
基于实施例4,第一损失函数的重构方法,包括如下步骤:
步骤1、对于给定的数据集X={X1,X2,…,XN},k-均值方法的目标是将每个样本点Xi归到S={S1,S2,...,SK}这K个类别集合中的某一类,其归类的依据为最小化同类样本之间的距离,其目标函数如下式所示:
其中,Ωj表示第j个类的聚类中心;
步骤2、Ωj通过Sj中所有样本的均值计算给出,如下式所示:
其中,|Sj|表示属于第j个类的样本个数;
步骤3、将目标函数重写等价形式:
其中,Ij(Xi)表示第i个样本与第j个类别的从属关系,如果样本i属于类别j,则Ij(Xi)=1,反之Ij(Xi)=0;
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
步骤5、步骤3中,Ij(Xi)通过计算样本距离各个聚类中心的距离,将Ij(Xi)定义为概率图,即softmax函数,公式为:
其中,τ为温度系数,用于控制Ij(Xi)的平滑程度,实际应用中考虑τ趋近于0的情况,此时退化为argmax函数,即Ij(Xi)中只有最大项对应位置的数值为1,其余位置数值为0,至此,目标函数被重构为第一损失函数。
实施例6
如图3所示,对于构建的单层聚类神经网络,直接使用SGD更新其网络参数可能会出现训练不收敛或者不稳定的现象,如图3中(a)所示,若不对单层聚类神经网络的权重参数W进行正则化,第一损失函数会随着W的增大而不断减小,即对W的梯度会最终使W趋于无穷,导致模型难以收敛。而对单层聚类神经网络权重进行正则化后,如图3中(b)所示,较大的梯度将显著改变模型权重W,由于Wj=2Ωj,其中Ωj表示第j个类的聚类中心,而聚类中心的大幅变化会导致其对应的语义信息不稳定,从而导致更新前后分配到该类的样本点实际来自不同类别,最终影响模型的稳定更新,因此,在本申请中,同时对聚类中心Ω和梯度δ进行二范数正则化,如图3中(c)所示,即
由于对Ωj正则化后,Wj的长度为2,因此在梯度前乘以0.2使其长度为Wj的10%,保证聚类中心每次更新的幅度较小,其语义信息不会被破坏,从而保障模型的稳定训练,而对聚类中心进行正则化后,为了保持欧氏距离度量的有效性,为了保持欧氏距离度量的有效性,对样本进行二范数正则化,使其满足对样本、权重及梯度进行二范数正则化后,第一损失函数简化为第二损失函数:
实施例7
测试阶段
包括如下步骤:
步骤A、对于数据集X中每一个样本Xi计算特征hi=f(Xi);
试验例
选国际上比较先进的方法,包含k-均值聚类方法(k-means)、混合高斯模型(GMM)方法,模糊C-均值方法(FCM),谱聚类方法(SC、LRR、LSR)、大规模数据聚类方法(SLRR、LSC)、基于矩阵分解的方法(NMF、ZAC)、深度聚类方法(DEC、VaDE),在手写体识别数据集MNIST和物体图片数据集CIFAR-10上进行验证,其中LSC具有两种变种,分别记为LSC-R和LSC-K。使用衡量聚类效果常用的指标,即标准化互信息(NMI),作为实验的量化指标,验证算法效果。NMI取值范围0~1,数字越大表示聚类效果越好,为1时表示算法能完全正确的将数据聚类正确。NMI计算方式如下:
其中Y是算法预测类别信息,C是数据实际类别信息。H(·)代表信息熵,I(Y;C)代表互信息。
使用数据集MNIST,其包含70000张10个不同数字(0-9)的手写体图片,实验数据类别信息和样本数量分布如表1,实验结果如表2所示。
表1实验数据类别信息和样本数量
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
6903 | 7877 | 6990 | 7141 | 6824 | 6313 | 6876 | 7293 | 6825 | 6958 |
表2数据集MNIST上的聚类结果
从表2可以看出,本申请的单层聚类神经网络相比其他聚类方法在标准化互信息这一指标上有较大提升,具有明显优越性。
使用数据集CIFAR-10,其包含60000张来自10个物体类别的图片,实验数据类别信息和样本数量分布如表3,实验结果如表4所示。
表3实验数据类别信息和样本数量
飞机 | 轿车 | 鸟 | 猫 | 鹿 | 狗 | 青蛙 | 马 | 船 | 卡车 |
6000 | 6000 | 6000 | 6000 | 6000 | 6000 | 6000 | 6000 | 6000 | 6000 |
表4数据集CIFAR-10上的聚类结果
从表4中可以看出本申请的单层聚类神经网络相比其他聚类方法在标准化互信息这一指标上有比较大的提升,意味着能在实际应用中能更好的将物体图片数据聚类正确,能够减少费时费力的人工标注过程。
上述实验中的结果由本申请的单层聚类神经网络嵌入到标准自编码器得到,其中涉及的神经网络结构如下:
1、编码器f由四层卷积神经网络和两层全连接神经网络构成,结构为conv(16,3,1,1)-conv(32,3,2,1)-conv(32,3,1,1)-conv(16,3,2,1)-fc(256)-fc(10),其中conv(16,3,1,1)表示一层通道数为16,卷积核长度为3,步长为1,填充长度为1的卷积神经网络,fc(256)表示一层具有256个神经元的全连接神经网络。每个卷积层后进行批归一化操作,各网络层的激活函数均采用ReLU。
2、解码器g由四层卷积神经网络和两层全连接神经网络构成,结构为conv(16,3,1,1)-conv(32,3,2,1)-conv(32,3,1,1)-conv(16,3,2,1)-fc(256)-fc(10),含义同上。每个卷积层后进行批归一化操作,除最后一层输出层采用sigmoid激活函数外,各网络层的激活函数均采用ReLU。
3、聚类层为单层全连接神经网络层,结构为fc(K),其中K为目标聚类个数,激活函数为argmax。
Claims (6)
2.根据权利要求1所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:将单层聚类神经网络嵌入深度神经网络中,深度神经网络包括三层编码器、单层聚类神经网络和三层解码器,原始样本数据X作为三层编码器的输入,三层编码器的输出作为单层聚类神经网络和三层解码器的输入,单层聚类神经网络的输出即为聚类结果。
3.根据权利要求2所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:步骤2中,将样本特征hi=f(Xi)输入深度神经网络,采用整体损失函数对深度神经网络进行训练,整体损失函数为:
5.根据权利要求3或4所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:第二损失函数通过如下方法获得:
重构获得第一损失函数:
其中,表示第i个样本相对第j个聚类中心的损失函数,Wj T表示Wj的转置,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度,Ij(Xi)表示第i个样本与第j个类别的从属关系,τ为温度系数,用于控制Ij(Xi)的平滑程度,W和b分别对应单层聚类神经网络的权重和偏置参数,exp表示自然指数;Wk表示W矩阵的第k列,Wk T表示Wk的转置,bk表示向量b中第k个位置的数值;
对权重W进行二范数正则化的具体公式如下:
其中,Ωj表示第j个聚类中心,对应权重矩阵的第j列,Wj=2Ωj;
第二损失函数对权重的偏导数为梯度δ,如下式表示:
其中,lr是随机梯度下降优化器SGD的学习率,初始值设置为lr=0.001,W′表示经过一轮梯度更新后的权重;
对梯度δ进行二范数正则化,二范数正则化处理的具体公式为:
6.根据权利要求5所述的基于可微k-均值的嵌入式可解释图像聚类方法,其特征在于:第一损失函数的重构方法,包括如下步骤:
步骤1、对于给定的数据集X={X1,X2,…,XN},k-均值方法的目标是将每个样本点Xi归到S={S1,S2,...,SK}这K个类别集合中的某一类,其归类的依据为最小化同类样本之间的距离,其目标函数如下式所示:
其中,Ωj表示第j个类的聚类中心;
步骤2、Ωj通过Sj中所有样本的均值计算给出,如下式所示:
其中,|Sj|表示属于第j个类的样本个数;
步骤3、将目标函数重写等价形式:
其中,Ij(Xi)表示第i个样本与第j个类别的从属关系,如果样本i属于类别j,则Ij(Xi)=1,反之Ij(Xi)=0;
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
其中,Wj表示W矩阵的第j列,bj表示向量b中第j个位置的数值,βi表示非负的常量,对应样本点Xi的长度;
步骤5、步骤3中,Ij(Xi)通过计算样本距离各个聚类中心的距离,将Ij(Xi)定义为概率图,即softmax函数,公式为:
其中,τ为温度系数,用于控制Ij(Xi)的平滑程度,实际应用中考虑τ趋近于0的情况,此时退化为argmax函数,即Ij(Xi)中只有最大项对应位置的数值为1,其余位置数值为0,至此,目标函数被重构为第一损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111516439.6A CN114266911A (zh) | 2021-12-10 | 2021-12-10 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111516439.6A CN114266911A (zh) | 2021-12-10 | 2021-12-10 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114266911A true CN114266911A (zh) | 2022-04-01 |
Family
ID=80826792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111516439.6A Pending CN114266911A (zh) | 2021-12-10 | 2021-12-10 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114266911A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115816466A (zh) * | 2023-02-02 | 2023-03-21 | 中国科学技术大学 | 一种提升视觉观测机器人控制稳定性的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764362A (zh) * | 2018-06-05 | 2018-11-06 | 四川大学 | 基于神经网络的k-means聚类方法 |
CN109086805A (zh) * | 2018-07-12 | 2018-12-25 | 华南理工大学 | 一种基于深度神经网络和成对约束的聚类方法 |
CN109635946A (zh) * | 2018-11-29 | 2019-04-16 | 华南理工大学 | 一种联合深度神经网络和成对约束的聚类方法 |
CN110457447A (zh) * | 2019-05-15 | 2019-11-15 | 国网浙江省电力有限公司电力科学研究院 | 一种电网任务型对话系统 |
CN110650153A (zh) * | 2019-10-14 | 2020-01-03 | 北京理工大学 | 一种基于聚焦损失深度神经网络的工控网络入侵检测方法 |
CN111259979A (zh) * | 2020-02-10 | 2020-06-09 | 大连理工大学 | 一种基于标签自适应策略的深度半监督图像聚类方法 |
CN111598830A (zh) * | 2020-02-18 | 2020-08-28 | 天津大学 | 一种基于无监督学习的皮肤癌疾病检测方法 |
CN112489098A (zh) * | 2020-12-09 | 2021-03-12 | 福建农林大学 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
CN112561027A (zh) * | 2019-09-25 | 2021-03-26 | 华为技术有限公司 | 神经网络架构搜索方法、图像处理方法、装置和存储介质 |
CN112668627A (zh) * | 2020-12-24 | 2021-04-16 | 四川大学 | 一种基于对比学习的大规模图像在线聚类系统及方法 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
-
2021
- 2021-12-10 CN CN202111516439.6A patent/CN114266911A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764362A (zh) * | 2018-06-05 | 2018-11-06 | 四川大学 | 基于神经网络的k-means聚类方法 |
CN109086805A (zh) * | 2018-07-12 | 2018-12-25 | 华南理工大学 | 一种基于深度神经网络和成对约束的聚类方法 |
CN109635946A (zh) * | 2018-11-29 | 2019-04-16 | 华南理工大学 | 一种联合深度神经网络和成对约束的聚类方法 |
CN110457447A (zh) * | 2019-05-15 | 2019-11-15 | 国网浙江省电力有限公司电力科学研究院 | 一种电网任务型对话系统 |
CN112561027A (zh) * | 2019-09-25 | 2021-03-26 | 华为技术有限公司 | 神经网络架构搜索方法、图像处理方法、装置和存储介质 |
CN110650153A (zh) * | 2019-10-14 | 2020-01-03 | 北京理工大学 | 一种基于聚焦损失深度神经网络的工控网络入侵检测方法 |
CN111259979A (zh) * | 2020-02-10 | 2020-06-09 | 大连理工大学 | 一种基于标签自适应策略的深度半监督图像聚类方法 |
CN111598830A (zh) * | 2020-02-18 | 2020-08-28 | 天津大学 | 一种基于无监督学习的皮肤癌疾病检测方法 |
CN112489098A (zh) * | 2020-12-09 | 2021-03-12 | 福建农林大学 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
CN112668627A (zh) * | 2020-12-24 | 2021-04-16 | 四川大学 | 一种基于对比学习的大规模图像在线聚类系统及方法 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115816466A (zh) * | 2023-02-02 | 2023-03-21 | 中国科学技术大学 | 一种提升视觉观测机器人控制稳定性的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191732B (zh) | 一种基于全自动学习的目标检测方法 | |
CN110334765B (zh) | 基于注意力机制多尺度深度学习的遥感影像分类方法 | |
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN105701502B (zh) | 一种基于蒙特卡罗数据均衡的图像自动标注方法 | |
CN106203523B (zh) | 基于梯度提升决策树半监督算法融合的高光谱图像分类方法 | |
CN109446332B (zh) | 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法 | |
CN105184298B (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
CN109101938B (zh) | 一种基于卷积神经网络的多标签年龄估计方法 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN109273054B (zh) | 基于关系图谱的蛋白质亚细胞区间预测方法 | |
CN110309868A (zh) | 结合无监督学习的高光谱图像分类方法 | |
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
CN110516070B (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN109492750B (zh) | 基于卷积神经网络和因素空间的零样本图像分类方法 | |
CN115049952B (zh) | 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 | |
CN105205449A (zh) | 基于深度学习的手语识别方法 | |
CN110569780A (zh) | 一种基于深度迁移学习的高精度人脸识别方法 | |
Yang et al. | Handwriting text recognition based on faster R-CNN | |
CN112800249A (zh) | 基于生成对抗网络的细粒度跨媒体检索方法 | |
CN114092699B (zh) | 基于迁移学习的群猪图像分割的方法及系统 | |
CN113095229B (zh) | 一种无监督域自适应行人重识别系统及方法 | |
CN110414587A (zh) | 基于渐进学习的深度卷积神经网络训练方法与系统 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220401 |
|
RJ01 | Rejection of invention patent application after publication |