CN113469236A

CN113469236A - 一种自我标签学习的深度聚类图像识别系统及方法

Info

Publication number: CN113469236A
Application number: CN202110711320.8A
Authority: CN
Inventors: 陈超; 陆虎
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-01

Abstract

本发明公开了一种自我标签学习的深度聚类图像识别系统及方法，属于计算机视觉、图像聚类及人工智能技术领域，包括以下模块：预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块。与现有技术相比，本发明针对图像数据设计了的一种自我标签学习的深度聚类图像识别方法，通过卷积自动编码器提取样本的深度特征，并通过嵌入的聚类层为每个样本分配聚类后的伪标签，然后筛选出伪标签中置信度较高的样本，传入卷积神经网络进行再训练，进而得到一个更好的聚类模型。该方法可以有效的提高样本聚类后伪标签信息的利用率，提高图像聚类算法的性能。

Description

一种自我标签学习的深度聚类图像识别系统及方法

技术领域

本发明属于计算机视觉、图像聚类、人工智能技术领域，更具体地说，是涉及一种自我标签学习的深度聚类图像识别系统及方法。

背景技术

人们常说“物以类聚，人以群分”。面对数量庞大的图像信息，寻找一种快捷、有效的图像分类方法已经成为图像处理工作的重要环节。深度聚类分析方法就是对图像的深度特征按照某种相似性原则进行划分，把相似性较高的图像集聚合为一类。目前，图像聚类是一项具挑战性的任务。由于没有样本的标签作为监督信息，目前很多的深度学习算法很难直接应用于图像聚类问题。传统的聚类算法如K-means、DBSCAN、谱聚类、层次聚类等在聚类效果上有各有优势。但是当样本维度过高时(如图像数据)，若直接在原始的特征空间上进行样本的相似性度量，则度量效果较差，从而导致聚类效果不理想。

为了解决以上难点，研究者们大致提出了两种有效的解决方案，一种是基于自动编码器的深度聚类方法，如陈志奎等人利用多个自动编码器来提取多个视角空间下的图像特征。吴永贤等人采用自动编码器提取特征并借鉴软标签的思想构建自己的聚类模块。除此以外，另一种是基于生成对抗网络的深度聚类方法，如殷海兵等人利用GAN以及迁移学习的思想来提取图像特征并对特征进行最后的聚类。张利等人也利用GAN和模糊聚类在不完整的数据中取得了不错的聚类效果。由于自编码器和GAN本身也属于无监督算法的一种，在与聚类算法结合时依旧不需要样本标签的参与。如果有了神经网络的加入，深度聚类算法就可以通过神经网络进行非线性降维来解决维度过高带来的问题，同时也可以利用神经网络提取到样本的潜在特征，然后再配合普通的聚类算法对样本进行划分。这样既解决了传统聚类算法在数据集过大、样本维度过高时带来的问题，也有利于模型对样本特征的提取。但是当数据集中含有大量噪声样本或难以辨别的样本时，往往上述的深度聚类算法结果会受到一定程度的影响。

相比而言，本发明提出了一种自我标签学习的深度聚类图像识别方法，不仅采用了无监督的深度模型，即卷积自动编码器，还采用自监督的思想进行合理的利用伪标签信息，提高模型的特征提取能力以及最后的聚类精度。

发明内容

本发明的目是要解决现有技术中存在的当数据集含有大量噪声样本或难以辨别的样本时，聚类效果较差的问题。为此，本发明提供一种自我标签学习的深度聚类图像识别方法。

为解决上述技术问题，本发明采用的技术方案是：先是使用卷积自编码器对样本提取特征，然后通过聚类对样本进行划分，并为每个样本分配伪标签。接着根据样本与每个类中心点的相似度，选取出置信度高的样本作为可信赖样本，并用挑选出的带有伪标签的可信赖样本参与卷积神经网络的训练，训练后的卷积神经网络就具有了分类的功能。模型在自编码的设计上不仅采用了卷积层，还嵌入了池化层和上采样层来进一步提取样本的潜在特征，并设计新的损失函数进行反向传播，最终实现一个深度聚类方法。

本发明提出的一种自我标签学习的深度聚类图像识别系统包括预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块；

所述预训练深度卷积自动编码器模块用来初始化自编码器的权重参数，并实现对样本特征的初步提取；

所述样本特征聚类模块负责使用模型自带的聚类层对编码层提取到的样本特征进行聚类；

所述样本再选择与重训练模块负责将样本聚类后得到的伪标签进行筛选，挑出部分置信度较高的样本作为可信赖样本，传入卷积神经网络进一步训练网络的特征提取能力，从而得到一个更好的图像聚类模型。

进一步，所述预训练深度卷积自动编码器模块包括预训练卷积编码器，使用图像数据集，经过编码层的特征提取得到样本特征，然后将样本特征送入解码器，使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像。其中，该预训练深度卷积自动编码器模块采用了卷积层、池化层、反卷积层、上采样层和全连接层。

进一步，所述样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成。将样本通过编码层提取特征，然后对特征使用Kmeans算法得到初始的簇类中心，然后模型通过自定义的聚类层，采用t分布作为核来度量样本点与簇类中心之间的相似度，用于微调聚类中心，并同时为每个样本重新分配簇id。

进一步，所述样本再选择与重训练模块包括选取可信赖样本以及卷积神经网络的训练。根据聚类层得到样本的伪标签以及簇类中心，模型将选取伪标签中置信度较高的样本作为可信赖样本，参与模型的重训练，卷积神经网络利用置信度较高的样本来训练，进而提升网络特征提取的能力，为后续的特征聚类模块提供保障。

进一步，所述的编码器由三层卷积层、两层最大池化层以及两层全连接构成，所述的解码器由三层反卷积层、两层上采样层和两层全连接层构成。

进一步，所述的样本再选择与重训练模块利用聚类层得到的样本伪标签，将部分可靠样本作为输入来自监督学习卷积神经网络，从而得到一个比预训练卷积编码器性能更强大的特征提取模型。

进一步，所述的卷积神经网络由六层卷积层，三层最大池化层以及四层全连接层构成，主要用于特征提取。

依次经过上述模块的处理，便可以完成图像数据集的深度聚类效果。

本发明同时提出了一种自我标签学习的深度聚类图像识别方法，包括如下步骤：

S1、设计预训练深度卷积自动编码器模块，用于初始化自编码器的权重参数，并实现对样本特征的初步提取；

S2、设计样本特征聚类模块，用于使用模型自带的聚类层对编码层提取到的样本特征进行聚类；

S3、设计样本再选择与重训练模块，用于将样本聚类后得到的伪标签进行筛选，挑出部分置信度较高的样本作为可信赖样本，输入卷积神经网络以提高训练网络的特征提取能力，得到一个更好的图像聚类模型。

进一步，所述S1中预训练深度卷积自动编码器模块包括预训练卷积编码器，使用图像数据集，经过编码层的特征提取得到样本特征，然后将样本特征送入解码器，使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像；

其中，编码器包括三个卷积层、两个线性层以及两个最大池化层；前两个卷积层的卷积核尺寸为5x5，步长为1，填充为1，采用Batch Normalization进行归一化，激活函数为LeakyReLu，每经过一层通道数翻倍，最后一个卷积层除了采用3x3的卷积核以外，其余操作均和前两个卷积核相同；池化层池化后的数据长宽各缩小一倍；线性层输入为1152维向量，输出维10维向量，采用Batch Normalization进行归一化，采用ReLu函数进行激活；

其中，解码器包括两个线性层、三个反卷积层以及2个上采样层；线性层采用BatchNormalization进行归一化，激活函数为ReLu函数；反卷积层的第一层参数采用的卷积核尺寸为3x3，步长为1，填充为1，采用Batch Normalization进行归一化，激活函数为LeakyReLu，每经过一层通道数减半，后两个卷积层的卷积核尺寸为5x5，步长为1，填充为1，激活函数为LeakyReLu，其中最后一层卷积层不使用激活函数。

进一步，所述S2中的样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成；将样本通过编码层提取特征，对特征使用Kmeans算法得到初始的簇类中心，再通过自定义的聚类层，采用t分布作为核来度量样本点与簇类中心之间的相似度，用于微调聚类中心，并同时为每个样本重新分配簇id；

其中，样本聚类包括聚类层Q与聚类层P，

聚类层Q对样本特征整体进行Kmeans聚类，获取每个簇的聚类中心，然后传入到聚类层P中，采用t分布作为核来度量样本点与簇中心之间的相似度，用于微调聚类中心，其中样本i属于类j的概率设计为：

其中Z_i表示样本i经过聚类层Q得到的特征，u_j表示第j类的簇中心，α为t分布的自由度，实验中设置为1。为了优化聚类中心，模型定义了一个辅助的目标概率分布q_ij用于衡量样本i属于类j的概率，然后用KL散度作为聚类损失拉近原始分布与目标分布之间的距离；

聚类损失函数L_C设计为：

其中，聚类层P中，样本i属于第j类的概率p_ij的计算方式为：

将上式的计算结果作为聚类层P的输出。

进一步，所述S3中样本再选择与重训练模块，用于选取可信赖样本以及卷积神经网络模块的训练；根据聚类层得到样本的伪标签以及簇类中心，选取伪标签中置信度较高的样本作为可信赖样本，卷积神经网络模块利用置信度较高的样本完成训练，提升网络特征提取的能力，为后续的特征聚类模块提供保障；

其中，可信赖样本的判断依据为：

若样本x_i距离类中心的距离D小于阈值λ时，则样本x_i将被选为可信赖样本(v_i＝1)，否则样本将被判为噪点(v_i＝0)，距离D的计算公式如下：

其中，

为样本x_i的特征，即

center_j为第j类的中心，center_j的计算方式为：

式中，u_j表示Kmeans得到的第j类的聚类中心；

其中，卷积神经网络模块包括六个卷积层和三个池化层以及四个全连接层；卷积层的卷积核尺寸为3x3，步长为2，填充为1，不进行归一化，激活函数为Relu，输出通道数分别为64、64、128、128、256、256；池化层采用的是最大池化，经过池化后的特征长宽个缩小一倍；全连接层的神经元个数依次为2304、4096、4096、1024、10，不进行归一化，激活函数为ReLu；其中，最后一层全连接采用Softmax激活函数，输出的神经元个数为样本的总类别数。

本发明的有益效果：

1、本发明在进行自编码器提取特征以及聚类之后，筛选出带有伪标签的可信赖样本，并利用这些样本训练出一个特征提取效果更好的深度模型。这样有效的缓解了噪声样本对聚类带来的影响，提高了模型识别的精确度。在MNIST数据集上的聚类精确度从原先的84.7％提升到了94.8％。

2、本发明设计了特定的深度聚类模型结构和对应损失函数。模型结构上，采用的是带有池化层和上采样层的卷积自编码器以及具有软标签分配能力的聚类层。根据深度聚类模型的重构损失、聚类损失以及权重和偏置的正则化约束项提出了新的损失函数，提高了模型的特征提取能力与最终的聚类效果。

3、通过生成更高质量的带有伪标签的样本，可将之用来进一步训练特征提取模型，进而提高模型聚类的精度与泛化性能。通过预训练的卷积自动编码器及嵌入的聚类层，为每个样本获取的伪标签(即簇id)的可靠性提供了保证。

附图说明

图1是本发明方法的整体结构示意图；

图2是本发明方法的卷积自动编码器模块的一个结构示意图；

图3是本发明方法的样本特征聚类模块的一个结构示意图；

图4是本发明方法的样本再选择与重训练模块的一个结构示意图；

图5是本发明方法的整体流程图。

其中，附图中的标号如下：

000-图片样本；100-卷积自动编码器模块、110-编码器、120-样本特征、130-解码器、200-样本特征聚类模块、201-聚类层Q、202-聚类层P、300-样本再选择与重训练模块；310-样本再选择模块、320-卷积神经网络模块、330-样本特征的聚类模块。

具体实施方式

为使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合具体附图及具体实施例，进一步对本发明作详细说明。其中，本发明具体实施例的附图中相同或相似的标号表示相同或相似的元件，或者具有相同或类似功能的元件。应当理解地，下面所描述的具体实施例旨在用于解释本发明，并不用于限定本发明。

一种自我标签学习的深度聚类图像识别方法，包括预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块；

所述预训练深度卷积自动编码器模块用来初始化自编码器的权重参数，并实现对样本特征的初步提取；所述样本特征聚类模块负责使用模型自带的聚类层对编码层提取到的样本特征进行聚类；所述样本再选择与重训练模块负责将样本聚类后得到的伪标签进行筛选，挑出部分置信度较高的样本作为可信赖样本，传入卷积神经网络进一步训练网络的特征提取能力，从而得到一个更好的图像聚类模型；

上述预训练深度卷积自动编码器模块包括预训练卷积编码层110，使用图像数据集000，经过编码层的特征提取得到样本特征120，然后将样本特征送入解码层130，使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像。其中，该预训练深度卷积自动编码器100采用了卷积层、池化层、反卷积层、上采样层和全连接层。

上述样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成。将样本通过编码层提取特征，然后对特征使用Kmeans算法得到初始的簇类中心，然后模型通过自定义的聚类层200，采用t分布作为核来度量样本点与簇类中心之间的相似度，用于微调聚类中心，并同时为每个样本重新分配簇id。

上述样本再选择与重训练模块包括选取可信赖样本310以及卷积神经网络320的训练。根据聚类层得到样本的伪标签以及簇类中心，模型将选取伪标签中置信度较高的样本作为可信赖样本，参与模型的重训练，卷积神经网络320利用置信度较高的样本来训练，进而提升网络特征提取的能力，为后续的特征聚类模块330提供保障。

以下结合附图1至图5对本发明提供的一种自我标签学习的深度聚类图像识别方法进行详细地描述。

一种深度卷积自动编码器100，由编码器110，中间特征层和解码器130三个部分构成。编码器将真实图片样本000，传入到110中进行编码，得到低维空间下的样本特征120，然后将提取到的特征传入解码器130进行解码，并通过对比解码器的输出与原始数据的差异来作为损失函数优化该卷积自编码器。具体结构如图2所示。

在本发明实施例中，编码器110由三个卷积层、两个线性层以及两个最大池化层构成。对于前两个卷积层而言，卷积核尺寸为5x5，步长为1，填充为1，采用BatchNormalization进行归一化，激活函数为LeakyReLu，每经过一层通道数翻倍，最后一个卷积层除了采用3x3的卷积核以外，其余操作均和前两个卷积核相同。池化层采用的是最大池化，池化后的数据长宽各缩小一倍。线性层输入为1152维向量，输出维10维向量，采用BatchNormalization进行归一化，采用ReLu函数进行激活。

解码器130由两个线性层、三个反卷积层以及2个上采样层构成，线性层采用BatchNormalization进行归一化，激活函数为ReLu函数。反卷积层的第一层参数采用的卷积核尺寸为3x3，步长为1，填充为1，采用Batch Normalization进行归一化，激活函数为LeakyReLu，每经过一层通道数减半。后两个卷积层的卷积核尺寸为5x5，步长为1，填充为1，激活函数为LeakyReLu。其中最后一层卷积层不使用激活函数。

一种样本特征聚类模块200，由聚类层Q201与聚类层P202两部分构成，所述的特征聚类模块连接在自编码器的编码器110后面，即将样本特征120作为聚类层Q201的输入进行聚类。具体结构如图3所示。

在本实施例中，模型先对样本特征120整体进行Kmeans聚类，获取每个簇的聚类中心，然后传入到聚类层P202中采用t分布作为核来度量样本点与簇中心之间的相似度，用于微调聚类中心。样本i属于类j的概率设计为：

其中Z_i表示样本i经过聚类层Q得到的特征，u_j表示第j类的簇中心，α为t分布的自由度，实验中设置为1。为了优化聚类中心，模型定义了一个辅助的目标概率分布q_ij用于衡量样本i属于类j的概率，然后用KL散度作为聚类损失拉近原始分布与目标分布之间的距离。

聚类损失函数L_C设计为：

其中，聚类层P中，样本i属于第j类的概率p_ij的计算方式为：

将上式的计算结果作为聚类层P202的输出。

一种样本再选择与重训练模块，由样本再选择模块310、卷积神经网络模块320、样本特征的聚类模块330三部分组成。所述样本再选择模块310，是指为了确保伪标签的可靠性，在所有样本中挑选出每个簇中距离中心点较近的样本参与模型的再训练，这样就可以有效地过滤掉大部分不可靠的伪标签样本。利用选取出来的可信赖样本及其伪标签，对卷积神经网络模块320进行训练，通过剔除属于噪声的样本数据让模型能够更好地学习到每类样本的显著性特征，从而达到更好的分类效果。最终在测试模型时，就可以直接将所有样本放入自己构建的CNN模型中提取特征并聚类，得到最终的聚类结果。具体结构如图4所示。

在本实施例中，通过具体的可信赖样本挑选机制，将为标签中置信度较高的样本挑选出来进行重训练。若样本x_i距离类中心的距离D小于阈值λ时，则样本x_i将被选为可信赖样本(v_i＝1)，否则样本将被判为噪点(v_i＝0)，距离D的计算公式如下：

其中，

为样本x_i的特征，即

center_j为第j类的中心。考虑到在选取可信赖样本时可能会出现某一类未找到样本的情况，本发明提出的算法并非简单地将该类中所有的可信赖样本特征求均值作为该类的中心点，而是在此基础上选取离中心点最近的样本点作为该类的中心，这样就能确保每个类中至少包含一个可信赖样本点。因此，类中心center_j的计算方式为：

其中，u_j表示Kmeans得到的第j类的聚类中心。选取后的可信赖样本虽然得到类标签依然是Kmeans算法分配的伪标签，但经过选取规则过滤后的样本其伪标签的总体可信度较高。

所述卷积神经网络320由六个卷积层和三个池化层以及四个全连接层构成。卷积层的卷积核尺寸为3x3，步长为2，填充为1，不进行归一化，激活函数为Relu，输出通道数分别为64、64、128、128、256、256。池化层采用的是最大池化，经过池化后的特征长宽个缩小一倍。全连接层的神经元个数依次为2304、4096、4096、1024、10，不进行归一化，激活函数为ReLu。其中，最后一层全连接采用Softmax激活函数。输出的神经元个数为样本的总类别数。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种自我标签学习的深度聚类图像识别系统，其特征在于，包括预训练深度卷积自动编码器模块、样本特征聚类模块、样本再选择与重训练模块；

所述预训练深度卷积自动编码器模块用于初始化自编码器的权重参数，并实现对样本特征的初步提取；

所述样本特征聚类模块用于使用模型自带的聚类层对编码层提取到的样本特征进行聚类；

所述样本再选择与重训练模块用于将样本聚类后得到的伪标签进行筛选，挑出部分置信度较高的样本作为可信赖样本，输入卷积神经网络以提高训练网络的特征提取能力，得到一个更好的图像聚类模型。

2.根据权利要求1所述的一种自我标签学习的深度聚类图像识别系统，其特征在于，所述预训练深度卷积自动编码器模块包括预训练卷积编码器，使用图像数据集，经过编码层的特征提取得到样本特征，然后将样本特征送入解码器，使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像；

所述样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成；将样本通过编码层提取特征，对特征使用Kmeans算法得到初始的簇类中心，再通过自定义的聚类层，采用t分布作为核来度量样本点与簇类中心之间的相似度，用于微调聚类中心，并同时为每个样本重新分配簇id；

所述样本再选择与重训练模块用于选取可信赖样本以及卷积神经网络模块的训练；根据聚类层得到样本的伪标签以及簇类中心，选取伪标签中置信度较高的样本作为可信赖样本，卷积神经网络模块利用置信度较高的样本完成训练，提升网络特征提取的能力，为后续的特征聚类模块提供保障。

3.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统，其特征在于，所述预训练深度卷积自动编码器模块中，编码器和解码器的具体实现如下：

编码器包括三个卷积层、两个线性层以及两个最大池化层；前两个卷积层的卷积核尺寸为5x5，步长为1，填充为1，采用Batch Normalization进行归一化，激活函数为LeakyReLu，每经过一层通道数翻倍，最后一个卷积层除了采用3x3的卷积核以外，其余操作均和前两个卷积核相同；池化层池化后的数据长宽各缩小一倍；线性层输入为1152维向量，输出维10维向量，采用Batch Normalization进行归一化，采用ReLu函数进行激活；

解码器包括两个线性层、三个反卷积层以及2个上采样层；线性层采用BatchNormalization进行归一化，激活函数为ReLu函数；反卷积层的第一层参数采用的卷积核尺寸为3x3，步长为1，填充为1，采用Batch Normalization进行归一化，激活函数为LeakyReLu，每经过一层通道数减半，后两个卷积层的卷积核尺寸为5x5，步长为1，填充为1，激活函数为LeakyReLu，其中最后一层卷积层不使用激活函数。

4.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统，其特征在于，所述样本特征聚类模块200中的样本聚类部分包括聚类层Q201与聚类层P202，

聚类层Q201对样本特征120整体进行Kmeans聚类，获取每个簇的聚类中心，然后传入到聚类层P202中，采用t分布作为核来度量样本点与簇中心之间的相似度，用于微调聚类中心，其中样本i属于类j的概率设计为：

聚类损失函数L_c设计为：

其中，聚类层P中，样本i属于第j类的概率p_ij的计算方式为：

将上式的计算结果作为聚类层P202的输出。

5.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统，其特征在于，所述样本再选择与重训练模块，可信赖样本的判断依据为：

其中，

为样本x_i的特征，即

center_j为第j类的中心，center_j的计算方式为：

其中，u_j表示Kmeans得到的第j类的聚类中心。

6.根据权利要求2所述的一种自我标签学习的深度聚类图像识别系统，其特征在于，所述卷积神经网络模块320包括六个卷积层和三个池化层以及四个全连接层；卷积层的卷积核尺寸为3x3，步长为2，填充为1，不进行归一化，激活函数为Relu，输出通道数分别为64、64、128、128、256、256；池化层采用的是最大池化，经过池化后的特征长宽个缩小一倍；全连接层的神经元个数依次为2304、4096、4096、1024、10，不进行归一化，激活函数为ReLu；其中，最后一层全连接采用Softmax激活函数，输出的神经元个数为样本的总类别数。

7.一种自我标签学习的深度聚类图像识别方法，其特在于，包括如下步骤：

8.根据权利要求7所述的一种自我标签学习的深度聚类图像识别方法，其特在于，所述S1中预训练深度卷积自动编码器模块包括预训练卷积编码器，使用图像数据集，经过编码层的特征提取得到样本特征，然后将样本特征送入解码器，使用一致性约束来确保解码后的图像能够最大程度的还原成原始图像；

9.根据权利要求7所述的一种自我标签学习的深度聚类图像识别方法，其特在于，所述S2中的样本特征聚类模块包括初始化聚类中心以及样本聚类两部分构成；将样本通过编码层提取特征，对特征使用Kmeans算法得到初始的簇类中心，再通过自定义的聚类层，采用t分布作为核来度量样本点与簇类中心之间的相似度，用于微调聚类中心，并同时为每个样本重新分配簇id；

其中，样本聚类包括聚类层Q201与聚类层P202，

聚类损失函数L_c设计为：

其中，聚类层P中，样本i属于第j类的概率p_ij的计算方式为：

将上式的计算结果作为聚类层P202的输出。

10.根据权利要求7所述的一种自我标签学习的深度聚类图像识别方法，其特在于，所述S3中样本再选择与重训练模块，用于选取可信赖样本以及卷积神经网络模块的训练；根据聚类层得到样本的伪标签以及簇类中心，选取伪标签中置信度较高的样本作为可信赖样本，卷积神经网络模块利用置信度较高的样本完成训练，提升网络特征提取的能力，为后续的特征聚类模块提供保障；

其中，可信赖样本的判断依据为：

其中，

为样本x_i的特征，即

center_j为第j类的中心，center_j的计算方式为：

式中，u_j表示Kmeans得到的第j类的聚类中心；

其中，卷积神经网络模块320包括六个卷积层和三个池化层以及四个全连接层；卷积层的卷积核尺寸为3x3，步长为2，填充为1，不进行归一化，激活函数为Relu，输出通道数分别为64、64、128、128、256、256；池化层采用的是最大池化，经过池化后的特征长宽个缩小一倍；全连接层的神经元个数依次为2304、4096、4096、1024、10，不进行归一化，激活函数为ReLu；其中，最后一层全连接采用Softmax激活函数，输出的神经元个数为样本的总类别数。