CN113095335B

CN113095335B - 一种基于类别一致性深度学习的图像识别方法

Info

Publication number: CN113095335B
Application number: CN202110408724.XA
Authority: CN
Inventors: 赵汉理; 卢望龙; 何奇; 黄辉
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2023-06-30
Anticipated expiration: 2041-04-16
Also published as: CN113095335A

Abstract

本发明提出一种基于类别一致性深度学习的图像识别方法。首先使用自动协同定位方法对训练集进行标注，得到类别一致二值掩码标签。用特征提取模块、分类器模块和类别一致掩码学习模块构造本发明的识别方法。每次迭代训练时，特征提取模块对输入图像进行特征提取；分类器模块根据提取的特征，进行计算并给出识别结果；类别一致掩码学习模块根据提取的特征，预测类别一致二值掩码。结合交叉熵损失和类别一致损失函数计算出损失值并进行反向传播，对识别方法的网络参数进行调整。重复上述步骤，直至训练结束，选择最优网络参数作为识别模型参数；实施本发明，能够以一种自监督学习的方式促进网络对关键特征的学习，实现高鲁棒性高准确率的图像识别。

Description

一种基于类别一致性深度学习的图像识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于类别一致性深度学习的图像识别方法。

背景技术

在图像识别方法中，基于手工特征的图像识别算法依赖较多的人工干预，且容易受到光照、旋转、扭曲等因素的干扰。而卷积神经网络能够将特征提取和识别步骤相结合，通过端对端的学习，能够让卷积神经网络自动提取抽象特征，实现精确、高效的识别。另一方面，由于网络在训练的过程中，是直接对整张图像进行识别和训练，图像中的无关背景使得网络无法聚焦于每个类别下的视觉共性区域。如果能够在训练的过程中，同时要求网络对当前图像类别下包含视觉共性特征的区域进行定位分割，那么可以进一步加深网络对每个图像对象关键特征的理解，从而达到强化特征学习的目的。因此，本发明结合自监督学习的思想和自动协同定位方法，提出一种基于类别一致性深度学习的图像识别方法。通过强迫网络关注包含同一类别下的视觉共性特征区域，来强化对关键特征的学习，从而进一步提升识别性能，实现高鲁棒性、高准确率的图像智能识别。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于类别一致性深度学习的图像识别方法，通过强迫卷积神经网络关注包含同一类别下的视觉共性特征区域，来强化对关键特征的学习，从而进一步提升识别性能，并防止网络对无关背景特征的学习，实现高鲁棒性、高准确率的图像识别。

为了解决上述技术问题，本发明实施例提供了一种基于类别一致性深度学习的图像识别方法，所述方法包括以下步骤：

步骤S1、给定训练集I_train＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,N]}以及测试集I_test＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,H]}；使用自动协同定位方法对训练集I_train进行标注，得到训练集的类别一致二值掩码标签Mask_train＝{m_i∈R^1×K×K|i∈[1,N]},这种掩码能够分割出每张图片所包含视觉共性特征的区域。其中，R表示实数域，a_i表示第i张输入图像，3表示颜色通道数量，对应的颜色通道d∈{红,绿,蓝}，K表示单张图片的宽或高的尺寸；b_i表示第i张输入图像中对应的类别标签，根据所给定类别，生成对应的独热编码(one-hot)向量，C为类别数量；m_i为对应的类别一致二值掩码标签。N表示训练集I_train的样本数量；H表示测试集I_test的样本数量；

步骤S2、构建基于类别一致性深度学习的图像识别方法，首先用卷积神经网络构建特征提取模块用于图像特征的提取；然后构建分类器模块，将提取的特征进行输入，并进行预测给出识别结果；接着构建类别一致掩码学习模块，利用提取的特征进行类别一致二值掩码的预测。这三个模块的所有参数的总和称为θ，第q次迭代训练的参数设为θ_q。

步骤S3、在第q次迭代训练过程中，将所述训练集I_train＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,N]}中的图像作为输入，特征提取模块进行特征提取，通过网络逐层计算，并将特征输入到分类器中，得到分类结果Y_train＝{y_i∈R^1×C|i∈[1,N]}；同时类别一致掩码学习模块利用提取的特征进行类别一致二值掩码的预测，得到预测的类别一致二值掩码

其中，y_i表示分类器模块对训练集I_train的第i张图像的识别结果；/>

表示对训练集I_train的第i张输入图像进行预测的类别一致二值掩码，K'为预测的类别一致二值掩码的图像尺寸。

步骤S4、根据交叉熵损失函数计算识别结果Y_train和训练集I_train中的类别标签之间的误差；利用类别一致损失函数计算预测的类别一致二值掩码Mask_out和训练集的类别一致二值掩码标签Mask_train之间的误差。根据损失值进行反向传播，利用随机梯度下降法，对特征提取模块、分类器模块和类别一致掩码学习模块的参数进行更新。

步骤S5、利用测试集I_test对本发明的基于类别一致性深度学习的图像识别方法的模型进行评估。将测试集I_test输入到特征提取模块中，并由分类器模块输出识别结果Y_test，若测试结果的准确率最高。则保存当前模型，并令θ_best＝θ_q；θ_best表示在当前保存的最优基于类别一致性深度学习的图像识别方法模型的参数。同时在参数更新结束阶段，判断训练迭代次数q是否已达到最大迭代次数n，若已经达到最大迭代次数n，则训练阶段结束，进入下一步骤S6；反之，将跳转至步骤S3进行循环迭代训练，并令q＝q+1；

步骤S6、得到本发明的基于类别一致性深度学习的图像识别方法的最优模型网络参数θ_best，并根据所得到的最终的最优网络参数θ_best，更新本发明的基于类别一致性深度学习的图像识别方法的参数；

在所述步骤S1中，自动协同定位方法为基于图像的协同定位，对同一类别的图像中的对象进行自动协同定位，而无需手工标注。自动协同定位方法为基于深度描述子变换的协同定位方法(请参考：Wei,X.S.,Zhang,C.L.,Wu,J.,Shen,C.,&Zhou,Z.H.(2019).Unsupervised object discovery and co-localization by deep descriptortransformation.Pattern Recognition,88,113–126.https://doi.org/10.1016/j.patcog.2018.10.022)。

在所述步骤S2中，特征提取模块、分类器模块和类别一致掩码学习模块都由卷积神经网络构造。特征提取模块可以是目前流行的卷积神经网络架构，如VGG-Net(请参考：Simonyan,K.,&Zisserman,A,Very deep convolutional networks for large-scaleimage recognition[C],3rd International Conference on LearningRepresentations,ICLR 2015-Conference Track Proceedings,2015,pp.1–14.)、ResNet(请参考：K.He,X.Zhang,S.Ren,and J.Sun,Deep residual learning for imagerecognition[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016,pp.770-778.)、DenseNet(请参考：G.Huang,Z.Liu,L.V.D.Maaten,and K.Q.Weinberger,Densely connected convolutionalnetworks[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Honolulu,HI,2017,pp.2261-2269.)等网络架构。分类器模块通过引入全局平均池化层(global average pooling,GAP)、全连接层(fully connected layer,FC)和Soft-max激活函数来构造。类别一致掩码学习模块的结构包含七个连续的操作，包括3*3卷积层、双线性插值上采样、批归一化层、ReLU激活层、3*3卷积层、1*1卷积层和Sigmoid激活函数，这7个连续的参数中包含可学习的参数。通过这连续的7个操作的计算，类别一致掩码学习模块直接利用特征提取模块提取的最后一层的特征图作为输入，并生成预测的类别一致二值掩码。

在所述步骤S3中，分类结果Y_train＝{y_i∈R^1×C|i∈[1,N]}中每个样本测试结果y_i为向量，每个单元表示各个索引所对应的类别的概率，和训练集I_train＝{(a_i∈R^3×K×K,b_i∈R¹ ^×C)|i∈[1,N]}中的标签b_i的数据类型相同。预测的类别一致二值掩码

中每个样本的预测结果/>

的张量。

在所述步骤S4中，利用得出的交叉熵损失函数和类别一致损失函数的损失值进行反向传播。其中，类别一致损失函数L_mask损失如公式为：

由于类别一致二值掩码实际上是一个二进制掩码，所以本发明用二分交叉熵损失逐个对像素点进行计算。其中，N是训练样本总数，

类别一致二值掩码标签，/>

预测的类别一致二值掩码，通过端对端的训练，类别一致掩码学习模块促使骨干网络能够针对同一类别下的共同视觉特征进行学习。因此，预测的掩码/>

能够很好地捕捉类别一致性区域。促进了对关键特征的学习，帮助网络学习到更好的特征表示，并提高模型对图像识别的性能。

对基于类别一致性深度学习的图像识别方法的网络参数θ_q进行调整的具体步骤为：

根据交叉熵损失函数和类别一致损失函数，利用链式求导法则，对本发明的基于类别一致性深度学习的图像识别方法中的网络参数θ_q进行梯度的计算，并通过随机梯度下降法，将对应的网络参数θ_q进行更新；其中，

更新网络参数θ_q的公式如下：

其中，

分别表示第q次迭代的模型网络参数中，对应的第l层的卷积层的参数、偏置向量的参数、BN层的参数；η表示超参数中的学习率；/>

和

分别表示对应卷积层的参数、偏置向量的参数和BN层的参数的梯度，通过链式求导法则求得。

其中，在所述步骤S5中，利用测试集I_test对本发明的基于类别一致性深度学习的图像识别方法进行评估，将测试集I_test＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,H]}中的图像输入到特征提取模块中，并由分类器模块输出识别结果Y_test＝{y_i∈R^1×C|i∈[1,H]}。对每个样本，对比标签b_i和测试结果y_i，并记录准确率。定义当前基于类别一致性深度学习的图像识别方法的网络参数θ_q的测试准确率为ACC_q，并定义最优模型网络参数θ_best的准确率为ACC_best，若ACC_q>ACC_best,则令ACC_best＝ACC_q，且θ_best＝θ_q。

实施本发明实施例，具有如下有益效果：

1、与现有的图像识别方法相比，本发明方法能够帮助卷积神经网络关注同一类别下包含视觉共性特征的一致性区域，从而强化网络的特征提取能力，提高识别效果。并且该方法不需要人工标注的数据集。在本发明的基于类别一致性深度学习的图像识别方法中，训练的识别模型能够提高识别准确率，且不会影响到识别网络的推理速度。这使得基于卷积神经网络的识别模型能对光照、对比度、旋转、噪声等不利因素影响下的输入图像有较好的鲁棒性，在实际应用中有较好的价值和前景；

2、本发明属于一种基于卷积神经网络的自监督训练方法。是一种对图像识别任务的增益手段。结合特征提取模块、分类器模块和类别一致掩码学习模块来构成本发明的基于类别一致性深度学习的图像识别方法。通过强制深度神经网络从不相关的背景中区分出同一类别的图像对象的公共视觉特征区域，实现强化网络对关键特征的学习。本发明方法仅仅在训练阶段强化特征学习，且不会对推理阶段的推理速度产生影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的基于类别一致性深度学习的图像识别方法的流程图；

图2为本发明实施例提供的基于类别一致性深度学习的图像识别方法的架构图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种基于类别一致性深度学习的图像识别方法，所述方法包括以下步骤：

步骤S1、给定训练集I_train＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,N]}以及测试集I_test＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,H]}；如图2(左)所示，使用自动协同定位方法对训练集I_train进行标注，得到训练集的类别一致二值掩码标签Mask_train＝{m_i∈R^1×K×K|i∈[1,N]},这种掩码能够分割出每张图片所包含视觉共性特征的区域。其中，R表示实数域，a_i表示第i张输入图像，3表示颜色通道数量，对应的颜色通道d∈{红,绿,蓝}，K表示单张图片的宽或高的尺寸；b_i表示第i张输入图像中对应的类别标签，根据所给定类别，生成对应的独热编码(one-hot)向量；C为类别数量；m_i为对应的类别一致二值掩码标签。N表示训练集I_train的样本数量；H表示测试集I_test的样本数量；

其中，自动协同定位方法为基于图像的协同定位，对同一类别的图像中的对象进行协同定位。协同定位方法为基于深度描述子变换进行协同定位(请参考：X.Wei,C.Zhang,J.Wu,C.Shen,and Z.Zhou,Unsupervised object discovery and co-localization bydeep descriptor transformation[J],Pattern Recognition,2019,88:113–126.)。

整个方法的计算流程如图2所示。其中，特征提取网络可以是基于卷积神经网络的识别网络，如VGG-Net(请参考：Simonyan,K.,&Zisserman,A,Very deep convolutionalnetworks for large-scale image recognition[C],3rd International Conference onLearning Representations,ICLR 2015-Conference Track Proceedings,2015,pp.1–14.)、ResNet(请参考：K.He,X.Zhang,S.Ren,and J.Sun,Deep residual learning forimage recognition[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016,pp.770-778.)、DenseNet(请参考：G.Huang,Z.Liu,L.V.D.Maaten,and K.Q.Weinberger,Densely connected convolutionalnetworks[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Honolulu,HI,2017,pp.2261-2269.)等CNN网络模型。

分类器模块可以直接引入全局平均池化层(global average pooling,GAP)、全连接层(fully connected layer,FC)和Soft-max激活函数来构造。

表1类别一致掩码学习模块中的详细操作

类别一致掩码学习模块的详细结构如表1所示，其中“Layer”表示构建单元，“#FIlters”表示输出通道数量。“Filter size”表示卷积核和步长的大小。表1中，不包含的参数则不会显示在表中。表1中包含七个连续的操作，包括3*3卷积层、双线性插值上采样、批归一化层、ReLU激活层、3*3卷积层、1*1卷积层和Sigmoid激活函数，这7个连续的参数中包含可学习的参数。通过这连续的7个操作的计算，类别一致掩码学习模块直接利用特征提取模块提取的最后一层的特征图作为输入，并生成预测的类别一致二值掩码。

步骤S3、在第q次迭代训练过程中，将所述训练集I_train＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,N]}中的图像作为输入。特征提取模块进行特征提取，通过网络逐层计算，并将特征输入到分类器中，得到分类结果Y_train＝{y_i∈R^1×C|i∈[1,N]}；同时类别一致掩码学习模块利用提取的特征进行类别一致二值掩码的预测，得到预测的类别一致二值掩码

表示对训练集I_train的第i张输入图像预测的类别一致二值掩码，K'为预测的类别一致二值掩码的图像尺寸。

具体过程为，将训练集I_train载入到计算机内存中。将训练集I_train中第i张图像a_i输入到特征提取模块中，经过网络的逐层计算。将最后一层特征图分别输入到分类器模块和类别一致掩码学习模块。接着分类器模块输出一个类别向量y_i∈R^1×C,表示对所有类别的预测结果；向量中的每一个单元，是对应的标量，表示对应类别的概率，每个标量取值范围为[0,1]。输出预测的类别一致二值掩码

每个单元格的标量给出了是否为类别一致性区域的概率，每个单元格的取值范围为[0,1]。训练集I_train的每个训练样本都以此方式进行计算，就能得到整个训练集I_train的识别结果Y_train和预测的类别一致二值掩码Mask_out。

对训练集I_train中的第i个样本，可以得到第i个标签b_i∈R^1×C和识别结果y_i∈R^1×C。b_i向量是根据所给定类别的标签索引，生成对应的独热编码(one-hot)向量。在分类器模块中，交叉熵损失函数L_cls计算公式为：

这里以向量化的形式进行表示。通过对整个训练集的样本进行遍历，就能计算出交叉熵损失值。

同理，对第i个样本，有对应的类别一致二值掩码标签m_i∈R^1×K×K和预测的掩码

可知两者的尺寸不一致，因为m_i也是从预训练模型的特征图中上采样得来(参考协同定位方法：深度描述子变换)。为了能够将尺寸匹配，用于让网络学习对应的类别一致性区域，本发明将最邻近插值下采样方法作用在掩码标签m_i上，来得到经过下采样版本的掩码标签/>

并且这样不会损失原来掩码标签m_i上的信息。

在得到的下采样版本掩码标签

和对应预测的掩码/>

之后，为了让类别一致掩码学习模块学习并预测正确的掩码，本发明定义了类别一致损失函数L_mask。因为交叉熵损失在许多图像分割应用中得到了广泛的应用，并且类别一致二值掩码实际上是一个二进制掩码，所以本发明用二分交叉熵损失逐个对像素点进行计算。L_mask损失如公式为：

通过端对端的训练，类别一致掩码学习模块促使骨干网络能够针对同一类别下的共同视觉特征进行学习。因此，预测的掩码

能够很好地捕捉类别一致性区域。促进了对关键特征的学习，帮助网络学习到更好的特征表示，从而提高了模型对图像识别的性能。

通过将特征提取模块、分类器模块和类别一致掩码学习模块进行端到端的训练学习，就构成了本发明提出的基于类别一致性深度学习的图像识别方法。因此，将交叉熵损失和类别一致损失进行结合，就得到了本发明方法的最终目标函数，其公式为：

L＝L_cls+αL_mask，

其中，权重参数α用于调整分类损失L_cls和类别一致损失L_mask之间的重要性。这里本发明设定α＝0.01。在训练过程中，整个网络的参数是通过最小化目标函数L来不断优化迭代而得到。在推理过程中，只需要用到特征提取模块和分类器模块就可以实现图像识别。而类别一致掩码学习模块使聚焦于各个类别图像的类别一致性的区域，从而减少不相关背景的影响。并且不会在推断时引入额外的计算成本。

更新网络参数θ_q的公式如下：

其中，

和

步骤S5、利用测试集I_test对本发明的基于类别一致性深度学习的图像识别方法的模型进行评估。将测试集I_test输入到特征提取模块，并由分类器模块输出识别结果Y_test，若测试结果的准确率最高。则保存当前模型，并令θ_best＝θ_q；θ_best表示在当前保存的最优的基于类别一致性深度学习的图像识别方法模型的参数。利用测试集I_test对本发明的基于类别一致性深度学习的图像识别方法进行评估，将测试集I_test＝{(a_i∈R^3×K×K,b_i∈R^1×C)|i∈[1,H]}中的图像输入到特征提取模块中，并由分类器模块输出识别结果Y_test＝{y_i∈R^1×C|i∈[1,H]}。对每个样本，对比标签b_i∈R^1×C和测试结果y_i∈R^1×C，并记录准确率。准确率的计算公式为：

其中，

表示求向量中的最大值的下标，1{·}表示真值函数，若条件成立，则返回1，反之为0。定义当前基于类别一致性深度学习的图像识别方法的网络参数θ_q的测试准确率为ACC_q，并定义最优模型网络参数θ_best的准确率为ACC_best，若ACC_q>ACC_best,则令ACC_best＝ACC_q，且θ_best＝θ_q。

同时在参数更新结束阶段，判断训练迭代次数q是否已达到最大迭代次数n，若已经达到最大迭代次数n，则训练阶段结束，进入下一步骤S6；反之，将跳转至步骤S3进行循环迭代训练，并令q＝q+1；

步骤S6、得到本发明的基于类别一致性深度学习的图像识别方法的最优模型网络参数θ_best，并根据所得到的最终的最优网络参数θ_best，更新当前基于类别一致性深度学习的图像识别方法的参数；最终，特征提取模块和分类器模块被用于图像识别；而类别一致掩码学习模块不再被需要，仅用于训练阶段优化特征学习。

实施本发明实施例，具有如下有益效果：

1、与现有的图像识别方法相比，本发明方法能够帮助卷积神经网络关注同一类别下包含视觉共性特征的一致性区域，从而强化网络的特征提取能力，提高识别效果。并且该方法不需要人工标注的数据集。在本发明的基于类别一致性深度学习的图像识别方法中，训练的识别模型能够提高识别准确率，且不会影响到识别网络的推理速度。这使得基于卷积神经网络的识别模型能对光照、对比度、旋转、噪声等不利因素影响下的输入图像有较好的识别鲁棒性，在实际应用中有较好的价值和前景；

2、本发明属于一种基于卷积神经网络的自监督训练方法。是一种对图像识别任务的增益手段。结合特征提取模块、分类器模块和类别一致掩码学习模块来构成本发明的基于类别一致性深度学习的图像识别方法。通过强制深度神经网络从不相关的背景中区分出同一类别的图像的公共视觉特征区域，实现强化网络对关键特征的学习。本发明方法仅仅在训练阶段强化特征学习，且不会对推理阶段的推理速度产生影响。

对于本领域的技术人员，本发明不限于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其它具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于类别一致性深度学习的图像识别方法，其特征在于，所述方法包括以下步骤：

步骤S1、给定训练集和测试集；使用自动协同定位方法对训练集进行标注，得到训练集的类别一致二值掩码标签,这种掩码能够分割出每张图片所包含视觉共性特征的区域；

步骤S2、构建基于类别一致性深度学习的图像识别方法，首先用卷积神经网络构建特征提取模块用于图像特征的提取；然后构建分类器模块，将提取的特征进行输入，并进行预测给出识别结果；接着构建类别一致掩码学习模块，利用提取的特征进行类别一致二值掩码的预测；

步骤S3、在某一次迭代训练过程中，将所述训练集中的图像作为输入，特征提取模块进行特征提取，并由分类器模块输出识别结果；同时类别一致掩码学习模块利用提取的特征进行类别一致二值掩码的预测，得到预测的类别一致二值掩码；

步骤S4、根据交叉熵损失函数L_cls计算识别结果和训练集中的类别标签之间的误差；利用类别一致损失函数L_mask计算预测的类别一致二值掩码和训练集的类别一致二值掩码标签之间的误差；根据损失值进行反向传播，利用随机梯度下降法，对特征提取模块、分类器模块和类别一致掩码学习模块的参数进行更新；

步骤S5、利用测试集对所述方法的模型进行评估；若模型测试准确率为当前最高，则保存模型参数；判断训练是否结束，若结束则跳转至步骤S6，否则跳转至步骤S3；

步骤S6、得到最优模型参数，并将最优模型参数分别更新特征提取模块、分类器模块和类别一致掩码学习模块参数；将特征提取模块、分类器模块作为最终的识别模型；

其中，在所述步骤S4中，类别一致损失L_mask公式为：

其中，N是训练样本总数，

是类别一致二值掩码标签，/>

预测的类别一致二值掩码，通过端对端的训练，类别一致掩码学习模块促使骨干网络能够针对同一类别下的共同视觉特征进行学习。

2.根据权利要求1所述的基于类别一致性深度学习的图像识别方法，其特征在于，在所述步骤S4中，通过将特征提取模块、分类器模块和类别一致掩码学习模块进行端到端的训练学习，从而将交叉熵损失和类别一致损失进行结合，得到最终目标函数的公式为：

L＝L_cls+αL_mask，

其中，权重参数α用于调整分类损失L_cls和类别一致损失L_mask之间的重要性；在训练过程中，整个网络的参数是通过最小化目标函数L来不断优化迭代而得到；在推理过程中，只需要用到特征提取模块和分类器模块就可以实现图像识别；而类别一致掩码学习模块使聚焦于各个类别图像的类别一致性的区域，从而减少不相关背景的影响；并且不会在推断时引入额外的计算成本。

3.根据权利要求1所述的基于类别一致性深度学习的图像识别方法，其特征在于，在所述步骤S1中，训练集和测试集皆为图像集合，并且每张图像都包含对应的类别标签。

4.根据权利要求1所述的基于类别一致性深度学习的图像识别方法，其特征在于，在所述步骤S2中，特征提取模块、分类器模块和类别一致掩码学习模块都由卷积神经网络构造。

5.根据权利要求1所述的一种基于类别一致性深度学习的图像识别方法，其特征在于，在所述步骤S6中，类别一致掩码学习模块仅在训练阶段协助特征提取模块进行关键特征的学习。