CN113469236A - 一种自我标签学习的深度聚类图像识别系统及方法 - Google Patents
一种自我标签学习的深度聚类图像识别系统及方法 Download PDFInfo
- Publication number
- CN113469236A CN113469236A CN202110711320.8A CN202110711320A CN113469236A CN 113469236 A CN113469236 A CN 113469236A CN 202110711320 A CN202110711320 A CN 202110711320A CN 113469236 A CN113469236 A CN 113469236A
- Authority
- CN
- China
- Prior art keywords
- sample
- clustering
- layer
- convolution
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 50
- 230000004913 activation Effects 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 210000004205 output neuron Anatomy 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 229910001374 Invar Inorganic materials 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种自我标签学习的深度聚类图像识别系统及方法,属于计算机视觉、图像聚类及人工智能技术领域,包括以下模块:预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块。与现有技术相比,本发明针对图像数据设计了的一种自我标签学习的深度聚类图像识别方法,通过卷积自动编码器提取样本的深度特征,并通过嵌入的聚类层为每个样本分配聚类后的伪标签,然后筛选出伪标签中置信度较高的样本,传入卷积神经网络进行再训练,进而得到一个更好的聚类模型。该方法可以有效的提高样本聚类后伪标签信息的利用率,提高图像聚类算法的性能。
Description
技术领域
本发明属于计算机视觉、图像聚类、人工智能技术领域,更具体地说,是涉及一种自我标签学习的深度聚类图像识别系统及方法。
背景技术
人们常说“物以类聚,人以群分”。面对数量庞大的图像信息,寻找一种快捷、有效的图像分类方法已经成为图像处理工作的重要环节。深度聚类分析方法就是对图像的深度特征按照某种相似性原则进行划分,把相似性较高的图像集聚合为一类。目前,图像聚类是一项具挑战性的任务。由于没有样本的标签作为监督信息,目前很多的深度学习算法很难直接应用于图像聚类问题。传统的聚类算法如K-means、DBSCAN、谱聚类、层次聚类等在聚类效果上有各有优势。但是当样本维度过高时(如图像数据),若直接在原始的特征空间上进行样本的相似性度量,则度量效果较差,从而导致聚类效果不理想。
为了解决以上难点,研究者们大致提出了两种有效的解决方案,一种是基于自动编码器的深度聚类方法,如陈志奎等人利用多个自动编码器来提取多个视角空间下的图像特征。吴永贤等人采用自动编码器提取特征并借鉴软标签的思想构建自己的聚类模块。除此以外,另一种是基于生成对抗网络的深度聚类方法,如殷海兵等人利用GAN以及迁移学习的思想来提取图像特征并对特征进行最后的聚类。张利等人也利用GAN和模糊聚类在不完整的数据中取得了不错的聚类效果。由于自编码器和GAN本身也属于无监督算法的一种,在与聚类算法结合时依旧不需要样本标签的参与。如果有了神经网络的加入,深度聚类算法就可以通过神经网络进行非线性降维来解决维度过高带来的问题,同时也可以利用神经网络提取到样本的潜在特征,然后再配合普通的聚类算法对样本进行划分。这样既解决了传统聚类算法在数据集过大、样本维度过高时带来的问题,也有利于模型对样本特征的提取。但是当数据集中含有大量噪声样本或难以辨别的样本时,往往上述的深度聚类算法结果会受到一定程度的影响。
相比而言,本发明提出了一种自我标签学习的深度聚类图像识别方法,不仅采用了无监督的深度模型,即卷积自动编码器,还采用自监督的思想进行合理的利用伪标签信息,提高模型的特征提取能力以及最后的聚类精度。
发明内容
本发明的目是要解决现有技术中存在的当数据集含有大量噪声样本或难以辨别的样本时,聚类效果较差的问题。为此,本发明提供一种自我标签学习的深度聚类图像识别方法。
为解决上述技术问题,本发明采用的技术方案是:先是使用卷积自编码器对样本提取特征,然后通过聚类对样本进行划分,并为每个样本分配伪标签。接着根据样本与每个类中心点的相似度,选取出置信度高的样本作为可信赖样本,并用挑选出的带有伪标签的可信赖样本参与卷积神经网络的训练,训练后的卷积神经网络就具有了分类的功能。模型在自编码的设计上不仅采用了卷积层,还嵌入了池化层和上采样层来进一步提取样本的潜在特征,并设计新的损失函数进行反向传播,最终实现一个深度聚类方法。
本发明提出的一种自我标签学习的深度聚类图像识别系统包括预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块;
所述预训练深度卷积自动编码器模块用来初始化自编码器的权重参数,并实现对样本特征的初步提取;
所述样本特征聚类模块负责使用模型自带的聚类层对编码层提取到的样本特征进行聚类;
所述样本再选择与重训练模块负责将样本聚类后得到的伪标签进行筛选,挑出部分置信度较高的样本作为可信赖样本,传入卷积神经网络进一步训练网络的特征提取能力,从而得到一个更好的图像聚类模型。
进一步,所述预训练深度卷积自动编码器模块包括预训练卷积编码器,使用图像数据集,经过编码层的特征提取得到样本特征,然后将样本特征送入解码器,使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像。其中,该预训练深度卷积自动编码器模块采用了卷积层、池化层、反卷积层、上采样层和全连接层。
进一步,所述样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成。将样本通过编码层提取特征,然后对特征使用Kmeans算法得到初始的簇类中心,然后模型通过自定义的聚类层,采用t分布作为核来度量样本点与簇类中心之间的相似度,用于微调聚类中心,并同时为每个样本重新分配簇id。
进一步,所述样本再选择与重训练模块包括选取可信赖样本以及卷积神经网络的训练。根据聚类层得到样本的伪标签以及簇类中心,模型将选取伪标签中置信度较高的样本作为可信赖样本,参与模型的重训练,卷积神经网络利用置信度较高的样本来训练,进而提升网络特征提取的能力,为后续的特征聚类模块提供保障。
进一步,所述的编码器由三层卷积层、两层最大池化层以及两层全连接构成,所述的解码器由三层反卷积层、两层上采样层和两层全连接层构成。
进一步,所述的样本再选择与重训练模块利用聚类层得到的样本伪标签,将部分可靠样本作为输入来自监督学习卷积神经网络,从而得到一个比预训练卷积编码器性能更强大的特征提取模型。
进一步,所述的卷积神经网络由六层卷积层,三层最大池化层以及四层全连接层构成,主要用于特征提取。
依次经过上述模块的处理,便可以完成图像数据集的深度聚类效果。
本发明同时提出了一种自我标签学习的深度聚类图像识别方法,包括如下步骤:
S1、设计预训练深度卷积自动编码器模块,用于初始化自编码器的权重参数,并实现对样本特征的初步提取;
S2、设计样本特征聚类模块,用于使用模型自带的聚类层对编码层提取到的样本特征进行聚类;
S3、设计样本再选择与重训练模块,用于将样本聚类后得到的伪标签进行筛选,挑出部分置信度较高的样本作为可信赖样本,输入卷积神经网络以提高训练网络的特征提取能力,得到一个更好的图像聚类模型。
进一步,所述S1中预训练深度卷积自动编码器模块包括预训练卷积编码器,使用图像数据集,经过编码层的特征提取得到样本特征,然后将样本特征送入解码器,使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像;
其中,编码器包括三个卷积层、两个线性层以及两个最大池化层;前两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数翻倍,最后一个卷积层除了采用3x3的卷积核以外,其余操作均和前两个卷积核相同;池化层池化后的数据长宽各缩小一倍;线性层输入为1152维向量,输出维10维向量,采用Batch Normalization进行归一化,采用ReLu函数进行激活;
其中,解码器包括两个线性层、三个反卷积层以及2个上采样层;线性层采用BatchNormalization进行归一化,激活函数为ReLu函数;反卷积层的第一层参数采用的卷积核尺寸为3x3,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数减半,后两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,激活函数为LeakyReLu,其中最后一层卷积层不使用激活函数。
进一步,所述S2中的样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成;将样本通过编码层提取特征,对特征使用Kmeans算法得到初始的簇类中心,再通过自定义的聚类层,采用t分布作为核来度量样本点与簇类中心之间的相似度,用于微调聚类中心,并同时为每个样本重新分配簇id;
其中,样本聚类包括聚类层Q与聚类层P,
聚类层Q对样本特征整体进行Kmeans聚类,获取每个簇的聚类中心,然后传入到聚类层P中,采用t分布作为核来度量样本点与簇中心之间的相似度,用于微调聚类中心,其中样本i属于类j的概率设计为:
其中Zi表示样本i经过聚类层Q得到的特征,uj表示第j类的簇中心,α为t分布的自由度,实验中设置为1。为了优化聚类中心,模型定义了一个辅助的目标概率分布qij用于衡量样本i属于类j的概率,然后用KL散度作为聚类损失拉近原始分布与目标分布之间的距离;
聚类损失函数LC设计为:
其中,聚类层P中,样本i属于第j类的概率pij的计算方式为:
将上式的计算结果作为聚类层P的输出。
进一步,所述S3中样本再选择与重训练模块,用于选取可信赖样本以及卷积神经网络模块的训练;根据聚类层得到样本的伪标签以及簇类中心,选取伪标签中置信度较高的样本作为可信赖样本,卷积神经网络模块利用置信度较高的样本完成训练,提升网络特征提取的能力,为后续的特征聚类模块提供保障;
其中,可信赖样本的判断依据为:
若样本xi距离类中心的距离D小于阈值λ时,则样本xi将被选为可信赖样本(vi=1),否则样本将被判为噪点(vi=0),距离D的计算公式如下:
式中,uj表示Kmeans得到的第j类的聚类中心;
其中,卷积神经网络模块包括六个卷积层和三个池化层以及四个全连接层;卷积层的卷积核尺寸为3x3,步长为2,填充为1,不进行归一化,激活函数为Relu,输出通道数分别为64、64、128、128、256、256;池化层采用的是最大池化,经过池化后的特征长宽个缩小一倍;全连接层的神经元个数依次为2304、4096、4096、1024、10,不进行归一化,激活函数为ReLu;其中,最后一层全连接采用Softmax激活函数,输出的神经元个数为样本的总类别数。
本发明的有益效果:
1、本发明在进行自编码器提取特征以及聚类之后,筛选出带有伪标签的可信赖样本,并利用这些样本训练出一个特征提取效果更好的深度模型。这样有效的缓解了噪声样本对聚类带来的影响,提高了模型识别的精确度。在MNIST数据集上的聚类精确度从原先的84.7%提升到了94.8%。
2、本发明设计了特定的深度聚类模型结构和对应损失函数。模型结构上,采用的是带有池化层和上采样层的卷积自编码器以及具有软标签分配能力的聚类层。根据深度聚类模型的重构损失、聚类损失以及权重和偏置的正则化约束项提出了新的损失函数,提高了模型的特征提取能力与最终的聚类效果。
3、通过生成更高质量的带有伪标签的样本,可将之用来进一步训练特征提取模型,进而提高模型聚类的精度与泛化性能。通过预训练的卷积自动编码器及嵌入的聚类层,为每个样本获取的伪标签(即簇id)的可靠性提供了保证。
附图说明
图1是本发明方法的整体结构示意图;
图2是本发明方法的卷积自动编码器模块的一个结构示意图;
图3是本发明方法的样本特征聚类模块的一个结构示意图;
图4是本发明方法的样本再选择与重训练模块的一个结构示意图;
图5是本发明方法的整体流程图。
其中,附图中的标号如下:
000-图片样本;100-卷积自动编码器模块、110-编码器、120-样本特征、130-解码器、200-样本特征聚类模块、201-聚类层Q、202-聚类层P、300-样本再选择与重训练模块;310-样本再选择模块、320-卷积神经网络模块、330-样本特征的聚类模块。
具体实施方式
为使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合具体附图及具体实施例,进一步对本发明作详细说明。其中,本发明具体实施例的附图中相同或相似的标号表示相同或相似的元件,或者具有相同或类似功能的元件。应当理解地,下面所描述的具体实施例旨在用于解释本发明,并不用于限定本发明。
一种自我标签学习的深度聚类图像识别方法,包括预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块;
所述预训练深度卷积自动编码器模块用来初始化自编码器的权重参数,并实现对样本特征的初步提取;所述样本特征聚类模块负责使用模型自带的聚类层对编码层提取到的样本特征进行聚类;所述样本再选择与重训练模块负责将样本聚类后得到的伪标签进行筛选,挑出部分置信度较高的样本作为可信赖样本,传入卷积神经网络进一步训练网络的特征提取能力,从而得到一个更好的图像聚类模型;
上述预训练深度卷积自动编码器模块包括预训练卷积编码层110,使用图像数据集000,经过编码层的特征提取得到样本特征120,然后将样本特征送入解码层130,使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像。其中,该预训练深度卷积自动编码器100采用了卷积层、池化层、反卷积层、上采样层和全连接层。
上述样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成。将样本通过编码层提取特征,然后对特征使用Kmeans算法得到初始的簇类中心,然后模型通过自定义的聚类层200,采用t分布作为核来度量样本点与簇类中心之间的相似度,用于微调聚类中心,并同时为每个样本重新分配簇id。
上述样本再选择与重训练模块包括选取可信赖样本310以及卷积神经网络320的训练。根据聚类层得到样本的伪标签以及簇类中心,模型将选取伪标签中置信度较高的样本作为可信赖样本,参与模型的重训练,卷积神经网络320利用置信度较高的样本来训练,进而提升网络特征提取的能力,为后续的特征聚类模块330提供保障。
以下结合附图1至图5对本发明提供的一种自我标签学习的深度聚类图像识别方法进行详细地描述。
一种深度卷积自动编码器100,由编码器110,中间特征层和解码器130三个部分构成。编码器将真实图片样本000,传入到110中进行编码,得到低维空间下的样本特征120,然后将提取到的特征传入解码器130进行解码,并通过对比解码器的输出与原始数据的差异来作为损失函数优化该卷积自编码器。具体结构如图2所示。
在本发明实施例中,编码器110由三个卷积层、两个线性层以及两个最大池化层构成。对于前两个卷积层而言,卷积核尺寸为5x5,步长为1,填充为1,采用BatchNormalization进行归一化,激活函数为LeakyReLu,每经过一层通道数翻倍,最后一个卷积层除了采用3x3的卷积核以外,其余操作均和前两个卷积核相同。池化层采用的是最大池化,池化后的数据长宽各缩小一倍。线性层输入为1152维向量,输出维10维向量,采用BatchNormalization进行归一化,采用ReLu函数进行激活。
解码器130由两个线性层、三个反卷积层以及2个上采样层构成,线性层采用BatchNormalization进行归一化,激活函数为ReLu函数。反卷积层的第一层参数采用的卷积核尺寸为3x3,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数减半。后两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,激活函数为LeakyReLu。其中最后一层卷积层不使用激活函数。
一种样本特征聚类模块200,由聚类层Q201与聚类层P202两部分构成,所述的特征聚类模块连接在自编码器的编码器110后面,即将样本特征120作为聚类层Q201的输入进行聚类。具体结构如图3所示。
在本实施例中,模型先对样本特征120整体进行Kmeans聚类,获取每个簇的聚类中心,然后传入到聚类层P202中采用t分布作为核来度量样本点与簇中心之间的相似度,用于微调聚类中心。样本i属于类j的概率设计为:
其中Zi表示样本i经过聚类层Q得到的特征,uj表示第j类的簇中心,α为t分布的自由度,实验中设置为1。为了优化聚类中心,模型定义了一个辅助的目标概率分布qij用于衡量样本i属于类j的概率,然后用KL散度作为聚类损失拉近原始分布与目标分布之间的距离。
聚类损失函数LC设计为:
其中,聚类层P中,样本i属于第j类的概率pij的计算方式为:
将上式的计算结果作为聚类层P202的输出。
一种样本再选择与重训练模块,由样本再选择模块310、卷积神经网络模块320、样本特征的聚类模块330三部分组成。所述样本再选择模块310,是指为了确保伪标签的可靠性,在所有样本中挑选出每个簇中距离中心点较近的样本参与模型的再训练,这样就可以有效地过滤掉大部分不可靠的伪标签样本。利用选取出来的可信赖样本及其伪标签,对卷积神经网络模块320进行训练,通过剔除属于噪声的样本数据让模型能够更好地学习到每类样本的显著性特征,从而达到更好的分类效果。最终在测试模型时,就可以直接将所有样本放入自己构建的CNN模型中提取特征并聚类,得到最终的聚类结果。具体结构如图4所示。
在本实施例中,通过具体的可信赖样本挑选机制,将为标签中置信度较高的样本挑选出来进行重训练。若样本xi距离类中心的距离D小于阈值λ时,则样本xi将被选为可信赖样本(vi=1),否则样本将被判为噪点(vi=0),距离D的计算公式如下:
其中,为样本xi的特征,即centerj为第j类的中心。考虑到在选取可信赖样本时可能会出现某一类未找到样本的情况,本发明提出的算法并非简单地将该类中所有的可信赖样本特征求均值作为该类的中心点,而是在此基础上选取离中心点最近的样本点作为该类的中心,这样就能确保每个类中至少包含一个可信赖样本点。因此,类中心centerj的计算方式为:
其中,uj表示Kmeans得到的第j类的聚类中心。选取后的可信赖样本虽然得到类标签依然是Kmeans算法分配的伪标签,但经过选取规则过滤后的样本其伪标签的总体可信度较高。
所述卷积神经网络320由六个卷积层和三个池化层以及四个全连接层构成。卷积层的卷积核尺寸为3x3,步长为2,填充为1,不进行归一化,激活函数为Relu,输出通道数分别为64、64、128、128、256、256。池化层采用的是最大池化,经过池化后的特征长宽个缩小一倍。全连接层的神经元个数依次为2304、4096、4096、1024、10,不进行归一化,激活函数为ReLu。其中,最后一层全连接采用Softmax激活函数。输出的神经元个数为样本的总类别数。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种自我标签学习的深度聚类图像识别系统,其特征在于,包括预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块;
所述预训练深度卷积自动编码器模块用于初始化自编码器的权重参数,并实现对样本特征的初步提取;
所述样本特征聚类模块用于使用模型自带的聚类层对编码层提取到的样本特征进行聚类;
所述样本再选择与重训练模块用于将样本聚类后得到的伪标签进行筛选,挑出部分置信度较高的样本作为可信赖样本,输入卷积神经网络以提高训练网络的特征提取能力,得到一个更好的图像聚类模型。
2.根据权利要求1所述的一种自我标签学习的深度聚类图像识别系统,其特征在于,所述预训练深度卷积自动编码器模块包括预训练卷积编码器,使用图像数据集,经过编码层的特征提取得到样本特征,然后将样本特征送入解码器,使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像;
所述样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成;将样本通过编码层提取特征,对特征使用Kmeans算法得到初始的簇类中心,再通过自定义的聚类层,采用t分布作为核来度量样本点与簇类中心之间的相似度,用于微调聚类中心,并同时为每个样本重新分配簇id;
所述样本再选择与重训练模块用于选取可信赖样本以及卷积神经网络模块的训练;根据聚类层得到样本的伪标签以及簇类中心,选取伪标签中置信度较高的样本作为可信赖样本,卷积神经网络模块利用置信度较高的样本完成训练,提升网络特征提取的能力,为后续的特征聚类模块提供保障。
3.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统,其特征在于,所述预训练深度卷积自动编码器模块中,编码器和解码器的具体实现如下:
编码器包括三个卷积层、两个线性层以及两个最大池化层;前两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数翻倍,最后一个卷积层除了采用3x3的卷积核以外,其余操作均和前两个卷积核相同;池化层池化后的数据长宽各缩小一倍;线性层输入为1152维向量,输出维10维向量,采用Batch Normalization进行归一化,采用ReLu函数进行激活;
解码器包括两个线性层、三个反卷积层以及2个上采样层;线性层采用BatchNormalization进行归一化,激活函数为ReLu函数;反卷积层的第一层参数采用的卷积核尺寸为3x3,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数减半,后两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,激活函数为LeakyReLu,其中最后一层卷积层不使用激活函数。
4.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统,其特征在于,所述样本特征聚类模块200中的样本聚类部分包括聚类层Q201与聚类层P202,
聚类层Q201对样本特征120整体进行Kmeans聚类,获取每个簇的聚类中心,然后传入到聚类层P202中,采用t分布作为核来度量样本点与簇中心之间的相似度,用于微调聚类中心,其中样本i属于类j的概率设计为:
其中zi表示样本i经过聚类层Q得到的特征,uj表示第j类的簇中心,α为t分布的自由度,实验中设置为1。为了优化聚类中心,模型定义了一个辅助的目标概率分布qij用于衡量样本i属于类j的概率,然后用KL散度作为聚类损失拉近原始分布与目标分布之间的距离;
聚类损失函数Lc设计为:
其中,聚类层P中,样本i属于第j类的概率pij的计算方式为:
将上式的计算结果作为聚类层P202的输出。
6.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统,其特征在于,所述卷积神经网络模块320包括六个卷积层和三个池化层以及四个全连接层;卷积层的卷积核尺寸为3x3,步长为2,填充为1,不进行归一化,激活函数为Relu,输出通道数分别为64、64、128、128、256、256;池化层采用的是最大池化,经过池化后的特征长宽个缩小一倍;全连接层的神经元个数依次为2304、4096、4096、1024、10,不进行归一化,激活函数为ReLu;其中,最后一层全连接采用Softmax激活函数,输出的神经元个数为样本的总类别数。
7.一种自我标签学习的深度聚类图像识别方法,其特在于,包括如下步骤:
S1、设计预训练深度卷积自动编码器模块,用于初始化自编码器的权重参数,并实现对样本特征的初步提取;
S2、设计样本特征聚类模块,用于使用模型自带的聚类层对编码层提取到的样本特征进行聚类;
S3、设计样本再选择与重训练模块,用于将样本聚类后得到的伪标签进行筛选,挑出部分置信度较高的样本作为可信赖样本,输入卷积神经网络以提高训练网络的特征提取能力,得到一个更好的图像聚类模型。
8.根据权利要求7所述的一种自我标签学习的深度聚类图像识别方法,其特在于,所述S1中预训练深度卷积自动编码器模块包括预训练卷积编码器,使用图像数据集,经过编码层的特征提取得到样本特征,然后将样本特征送入解码器,使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像;
其中,编码器包括三个卷积层、两个线性层以及两个最大池化层;前两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数翻倍,最后一个卷积层除了采用3x3的卷积核以外,其余操作均和前两个卷积核相同;池化层池化后的数据长宽各缩小一倍;线性层输入为1152维向量,输出维10维向量,采用Batch Normalization进行归一化,采用ReLu函数进行激活;
其中,解码器包括两个线性层、三个反卷积层以及2个上采样层;线性层采用BatchNormalization进行归一化,激活函数为ReLu函数;反卷积层的第一层参数采用的卷积核尺寸为3x3,步长为1,填充为1,采用Batch Normalization进行归一化,激活函数为LeakyReLu,每经过一层通道数减半,后两个卷积层的卷积核尺寸为5x5,步长为1,填充为1,激活函数为LeakyReLu,其中最后一层卷积层不使用激活函数。
9.根据权利要求7所述的一种自我标签学习的深度聚类图像识别方法,其特在于,所述S2中的样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成;将样本通过编码层提取特征,对特征使用Kmeans算法得到初始的簇类中心,再通过自定义的聚类层,采用t分布作为核来度量样本点与簇类中心之间的相似度,用于微调聚类中心,并同时为每个样本重新分配簇id;
其中,样本聚类包括聚类层Q201与聚类层P202,
聚类层Q201对样本特征120整体进行Kmeans聚类,获取每个簇的聚类中心,然后传入到聚类层P202中,采用t分布作为核来度量样本点与簇中心之间的相似度,用于微调聚类中心,其中样本i属于类j的概率设计为:
其中zi表示样本i经过聚类层Q得到的特征,uj表示第j类的簇中心,α为t分布的自由度,实验中设置为1。为了优化聚类中心,模型定义了一个辅助的目标概率分布qij用于衡量样本i属于类j的概率,然后用KL散度作为聚类损失拉近原始分布与目标分布之间的距离;
聚类损失函数Lc设计为:
其中,聚类层P中,样本i属于第j类的概率pij的计算方式为:
将上式的计算结果作为聚类层P202的输出。
10.根据权利要求7所述的一种自我标签学习的深度聚类图像识别方法,其特在于,所述S3中样本再选择与重训练模块,用于选取可信赖样本以及卷积神经网络模块的训练;根据聚类层得到样本的伪标签以及簇类中心,选取伪标签中置信度较高的样本作为可信赖样本,卷积神经网络模块利用置信度较高的样本完成训练,提升网络特征提取的能力,为后续的特征聚类模块提供保障;
其中,可信赖样本的判断依据为:
若样本xi距离类中心的距离D小于阈值λ时,则样本xi将被选为可信赖样本(vi=1),否则样本将被判为噪点(vi=0),距离D的计算公式如下:
式中,uj表示Kmeans得到的第j类的聚类中心;
其中,卷积神经网络模块320包括六个卷积层和三个池化层以及四个全连接层;卷积层的卷积核尺寸为3x3,步长为2,填充为1,不进行归一化,激活函数为Relu,输出通道数分别为64、64、128、128、256、256;池化层采用的是最大池化,经过池化后的特征长宽个缩小一倍;全连接层的神经元个数依次为2304、4096、4096、1024、10,不进行归一化,激活函数为ReLu;其中,最后一层全连接采用Softmax激活函数,输出的神经元个数为样本的总类别数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711320.8A CN113469236A (zh) | 2021-06-25 | 2021-06-25 | 一种自我标签学习的深度聚类图像识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711320.8A CN113469236A (zh) | 2021-06-25 | 2021-06-25 | 一种自我标签学习的深度聚类图像识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113469236A true CN113469236A (zh) | 2021-10-01 |
Family
ID=77873002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110711320.8A Pending CN113469236A (zh) | 2021-06-25 | 2021-06-25 | 一种自我标签学习的深度聚类图像识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469236A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688951A (zh) * | 2021-10-25 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 视频数据处理方法以及装置 |
CN114266911A (zh) * | 2021-12-10 | 2022-04-01 | 四川大学 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
CN114595732A (zh) * | 2022-05-10 | 2022-06-07 | 西安晟昕科技发展有限公司 | 基于深度聚类的雷达辐射源分选方法 |
CN114863242A (zh) * | 2022-04-26 | 2022-08-05 | 北京拙河科技有限公司 | 一种面向图像识别的深度学习网络的优化方法及系统 |
CN115457299A (zh) * | 2022-11-14 | 2022-12-09 | 中国科学院光电技术研究所 | 传感芯片投影光刻机匹配方法 |
CN116342915A (zh) * | 2023-05-30 | 2023-06-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种深度图像聚类方法、系统及存储介质 |
CN117274719A (zh) * | 2023-11-14 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、计算机设备及存储介质 |
CN117523244A (zh) * | 2023-10-31 | 2024-02-06 | 哈尔滨工业大学(威海) | 一种多视图聚类方法、系统、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN110309868A (zh) * | 2019-06-24 | 2019-10-08 | 西北工业大学 | 结合无监督学习的高光谱图像分类方法 |
US20200125897A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-Supervised Person Re-Identification Using Multi-View Clustering |
-
2021
- 2021-06-25 CN CN202110711320.8A patent/CN113469236A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
US20200125897A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-Supervised Person Re-Identification Using Multi-View Clustering |
CN110309868A (zh) * | 2019-06-24 | 2019-10-08 | 西北工业大学 | 结合无监督学习的高光谱图像分类方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688951A (zh) * | 2021-10-25 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 视频数据处理方法以及装置 |
CN114266911A (zh) * | 2021-12-10 | 2022-04-01 | 四川大学 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
CN114863242A (zh) * | 2022-04-26 | 2022-08-05 | 北京拙河科技有限公司 | 一种面向图像识别的深度学习网络的优化方法及系统 |
CN114863242B (zh) * | 2022-04-26 | 2022-11-29 | 北京拙河科技有限公司 | 一种面向图像识别的深度学习网络的优化方法及系统 |
CN114595732A (zh) * | 2022-05-10 | 2022-06-07 | 西安晟昕科技发展有限公司 | 基于深度聚类的雷达辐射源分选方法 |
CN115457299A (zh) * | 2022-11-14 | 2022-12-09 | 中国科学院光电技术研究所 | 传感芯片投影光刻机匹配方法 |
CN115457299B (zh) * | 2022-11-14 | 2023-03-31 | 中国科学院光电技术研究所 | 传感芯片投影光刻机匹配方法 |
CN116342915A (zh) * | 2023-05-30 | 2023-06-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种深度图像聚类方法、系统及存储介质 |
CN117523244A (zh) * | 2023-10-31 | 2024-02-06 | 哈尔滨工业大学(威海) | 一种多视图聚类方法、系统、电子设备及存储介质 |
CN117274719A (zh) * | 2023-11-14 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、计算机设备及存储介质 |
CN117274719B (zh) * | 2023-11-14 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469236A (zh) | 一种自我标签学习的深度聚类图像识别系统及方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Springenberg et al. | Improving deep neural networks with probabilistic maxout units | |
CN111553127B (zh) | 一种多标记的文本类数据特征选择方法及装置 | |
CN113139591B (zh) | 一种基于增强多模态对齐的广义零样本图像分类方法 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
Dou et al. | Band selection of hyperspectral images using attention-based autoencoders | |
Fang et al. | Confident learning-based domain adaptation for hyperspectral image classification | |
CN113095370A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN110674774A (zh) | 一种改进的深度学习人脸面部表情识别方法及系统 | |
CN114120041A (zh) | 一种基于双对抗变分自编码器的小样本分类方法 | |
CN109711442A (zh) | 无监督逐层生成对抗特征表示学习方法 | |
CN111898704A (zh) | 对内容样本进行聚类的方法和装置 | |
Li et al. | Structure guided deep neural network for unsupervised active learning | |
CN108388918A (zh) | 具有结构保持特性的数据特征选择方法 | |
CN112699782A (zh) | 基于N2N和Bert的雷达HRRP目标识别方法 | |
CN108960005A (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统 | |
CN111401440A (zh) | 目标分类识别方法、装置、计算机设备及存储介质 | |
CN114387524B (zh) | 基于多层级二阶表征的小样本学习的图像识别方法和系统 | |
CN115995040A (zh) | 一种基于多尺度网络的sar图像小样本目标识别方法 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
Abaynarh et al. | ENHANCED FEATURE EXTRACTION OF HANDWRITTEN CHARACTERS AND RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. | |
CN115063374A (zh) | 模型训练、人脸图像质量评分方法、电子设备及存储介质 | |
Guzzi et al. | Distillation of a CNN for a high accuracy mobile face recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Lu Hu Inventor after: Chen Chao Inventor before: Chen Chao Inventor before: Lu Hu |