CN116152612B

CN116152612B - 一种长尾图像识别方法及相关装置

Info

Publication number: CN116152612B
Application number: CN202310431918.0A
Authority: CN
Inventors: 杨海钦; 许正卓; 幺宝刚
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-08-15
Anticipated expiration: 2043-04-21
Also published as: CN116152612A

Abstract

本申请公开了一种长尾图像识别方法及相关装置，方法包括将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别。本申请中使用的长尾图像识别模型的训练过程中聚合了若干专家网络模型学习到的知识，并采用蒸馏损失来使得专家模型间迁移的知识更加平衡，使得长尾图像识别模块既可以避免单个专家网络的特征学习能力不足的问题，又可以避免头部类的知识淹没尾部类的知识的问题，提升了长尾图像识别模型的整体性能，从而提高了基于长尾图像识别模型确定的目标类别的准确性。

Description

一种长尾图像识别方法及相关装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种长尾图像识别方法及相关装置。

背景技术

长尾分布在实际应用中经常出现（例如，人脸识别等），其所存在的问题为类不平衡，其表现为少数的类别拥有大量样本，而大多数的类别仅具有少量样本。例如，用于训练人脸识别模型的人脸图像数据中，部分人脸照片占据人脸图像数据集中的大部分的人脸数据，而部分人脸照片仅占据人脸数据集中的极小部分的人脸数据。

在面对长尾分布问题时，目标普遍采用的方法是使用长尾分布数据集并行训练多个专家网络，以缓解尾部类由于训练数据不足而引起的不确定性。但是，在采用现有方法面对长尾问题时，还会存在因单个专家网络的特征学习能力不足，以及不同的专家网络对尾部类别的预测结果存在差异，而导致长尾图像识别确准确低的问题。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种长尾图像识别方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种长尾图像识别方法，所述方法包括：

将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别；

其中，所述长尾图像识别模型的训练过程具体包括：

通过若干专家网络模型确定训练图像对的若干特征向量组，其中，特征向量组包括基础特征向量和动量特征向量；

基于各专家网络模型各自对应的特征向量组确定所述训练图像对的对比学习损失项，并基于各专家网络模型各自对应的基础特征向量和所述训练图像对的标注类别确定所述训练图像对的分类损失项；

基于各专家网络模型各自对应的基础特征向量，确定蒸馏损失项；

基于所述对比学习损失项、所述分类损失项以及所述蒸馏损失项对专家网络模型进行训练，以得到经过训练的专家网络模型；

基于经过训练的专家网络模型确定长尾图像识别模型。

所述长尾图像识别方法，其中，所述专家网络模型包括动量编码器、基础编码器、第一动量分类器、第二动量分类器、基础分类器和参考分类器，所述动量编码器与所述第一动量分类器相连接，所述基础编码器分别与所述第二动量分类器、基础分类器和参考分类器相连接；其中，所述长尾图像识别模型包括所述基础编码器和所述基础分类器。

所述长尾图像识别方法，其中，所述训练图像对为通过对一目标图像进行两次数据增强得到的，其中，训练图像对中的两个训练图像各自对应的图像视角不同。

所述长尾图像识别方法，其中，所述训练图像对的目标图像包含于预设训练图像集内，其中，所述预设图像集按照类别划分为若干图像组，若干图像组中的部分图像组所包括的目标图像的图像数量与所述预设图像集的总图像数量的比值小于预设比例阈值。

所述长尾图像识别方法，其中，所述基于各专家网络模型各自对应的特征向量组确定所述训练图像对的对比学习损失项具体包括：

对于每个专家网络模型，通过所述专家网络模型中的第一动量分类器动量特征向量映射为第一参考向量，并通过所述专家网络模型中的第二动量分类器基础特征向量映射为第二参考向量；

基于所述第一参考向量、所述第二参考向量以及所述专家网络模型对应的负样本参考特征序列，确定所述专家网络模型的参考对比学习损失项，其中，所述负样本参考特征序列至少包括同一训练批中的其他目标图像对应的训练样本对的第一参考向量；

基于各专家网络模型各自对应的参考对比学习损失项，计算所述训练图像对的对比学习损失项。

所述长尾图像识别方法，其中，所述基于各专家网络模型各自对应的基础特征向量和所述训练图像对的标注类别确定所述训练图像对的分类损失项具体包括：

对于每个专家网络模型，将所述基础特征向量分别输入所述专家网络模型中的基础分类器和参考分类器，以得到第一logit和第二logit；

基于所述第一logit、所述第二logit和所述训练图像对的标注类别，确定所述训练图像对的参考分类损失；

基于各专家网络模型各自对应的参考分类损失，计算所述训练图像对的分类损失项。

所述长尾图像识别方法，其中，所述基于各专家网络模型各自对应的基础特征向量，确定所述训练图像对的蒸馏损失项具体包括：

基于第一logit和所述训练图像对应的标注类别的交叉熵以及第二logit和所述训练图像对应的标注类别的交叉熵，确定所述训练图像对的蒸馏权重系数；

基于各专家网络模型各自对应的第一logit，计算若干专家网络模型中的两两专家网络模型间的第一散度；

基于所述蒸馏权重系数以及计算得到的所有第一散度，确定所述训练图像对的蒸馏损失项。

所述长尾图像识别方法，其中，所述基于所述蒸馏权重系数以及各专家网络模型各自对应的第一logit，确定所述训练图像对的蒸馏损失项之后，所述方法还包括：

基于各专家网络模型各自对应的基础特征向量，计算若干家网络模型中的两两专家网络模型间的第二散度；

基于计算得到的所有第二散度，确定所述训练图像对的特征蒸馏损失项，并基于所述特征蒸馏损失项和所述蒸馏损失项更新所述蒸馏损失项。

本申请实施例第二方面提供了一种长尾图像识别装置，所述装置包括：

识别模块，用于将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别；

其中，所述长尾图像识别模型的训练过程具体包括：

基于经过训练的专家网络模型确定长尾图像识别模型。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的长尾图像识别方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的长尾图像识别方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种长尾图像识别方法及相关装置，方法包括将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别。本申请中使用的长尾图像识别模型的训练过程中聚合了若干专家网络模型学习到的知识，并采用蒸馏损失来使得专家模型间迁移的知识更加平衡，使得长尾图像识别模块既可以避免单个专家网络的特征学习能力不足的问题，又可以避免头部类的知识淹没尾部类的知识的问题，提升了长尾图像识别模型的整体性能，从而提高了基于长尾图像识别模型确定的目标类别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的长尾图像识别方法的流程图。

图2为专家网络模型的模型结构原理图。

图3为专家网络模型的训练过程的流程示意图。

图4为目标图像的一个示例图。

图5为对图4所示的目标图像进行数据增强得到的第一训练图像。

图6为对图4所示的目标图像进行数据增强得到的第一训练图像。

图7为知识聚类框架图。

图8为未添加特征蒸馏损失项的模型参数的损失和准确性的变化图。

图9为添加特征蒸馏损失项的模型参数的损失和准确性的变化图。

图10为本申请提供的长尾图像识别装置的结构原理图。

图11为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种长尾图像识别方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

经过研究发现，长尾分布在实际应用中经常出现（例如，人脸识别等），其所存在的问题为类不平衡，其表现为少数的类别拥有大量样本，而大多数的类别仅具有少量样本。例如，用于训练人脸识别模型的人脸图像数据中，部分人脸照片占据人脸图像数据集中的大部分的人脸数据，而部分人脸照片仅占据人脸数据集中的极小部分的人脸数据。

在面对长尾分布问题时，现有基于深度学习的长方图像识别方法主要包括基于基于重采样的方法、基于度量的方法和基于元学习的方法等。这些方法旨在通过合理地调整样本权重、引入度量学习和元学习等技术，使得深度学习算法能够更好地适应长尾数据分布，从而提高模型的性能和泛化能力。其中，目标普遍采用的方法是使用长尾分布数据集并行训练多个专家网络，以缓解尾部类由于训练数据不足而引起的不确定性。但是，在采用现有方法面对长尾问题时，还会存在因单个专家网络的特征学习能力不足，以及不同的专家网络对尾部类别的预测结果存在差异，而导致长尾图像识别确准确低的问题。

为了解决上述问题，在本申请实施例中，将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别。本申请中使用的长尾图像识别模型的训练过程中聚合了若干专家网络模型学习到的知识，并采用蒸馏损失来使得专家模型间迁移的知识更加平衡，使得长尾图像识别模块既可以避免单个专家网络的特征学习能力不足的问题，又可以避免头部类的知识淹没尾部类的知识的问题，提升了长尾图像识别模型的整体性能，从而提高了基于长尾图像识别模型确定的目标类别的准确性。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种长尾图像识别方法，如图1所示，所述方法包括：

S10、将待识别图像输入经过训练的长尾图像识别模型；

S20、通过所述长尾图像识别模型确定所述待识别图像对应的目标类别。

具体地，目标类别可以为待识别图像中的目标物品的类别，例如，待识别图像为携带有小猫的图像，目标类别为待识别图像中的小猫对应的类别，即为猫等。长尾图像识别模型为经过训练的深度学习模型，其中，长尾图像识别模型为基于长尾数据集训练得到的。也就是说，长尾图像识别模型对应的预设训练图像集包括若干目标图像，当若干目标图像按照各自对应的类别划分为若干图像组时，若干图像组中的部分图像组所包括的目标图像的图像数量与所述预设图像集的总图像数量的比值小于预设比例阈值。换句话说，预设训练图像集中头部类对应预设训练图像集中的大部分目标图像，而尾部类对应预设训练图像集中的小部分目标图像。

在一个实现方式中，所述长尾图像识别模型的训练过程具体包括：

H10、通过若干专家网络模型确定训练图像对的若干特征向量组；

H20、基于各专家网络模型各自对应的特征向量组确定所述训练图像对的对比学习损失项，并基于各专家网络模型各自对应的基础特征向量和所述训练图像对的标注类别确定所述训练图像对的分类损失项；

H30、基于各专家网络模型各自对应的基础特征向量，确定蒸馏损失项；

H40、基于所述对比学习损失项、所述分类损失项以及所述蒸馏损失项对专家网络模型进行训练，以得到经过训练的专家网络模型；

H50、基于经过训练的专家网络模型确定长尾图像识别模型。

具体地，在步骤H10中，若干专家网络模型的模型结构相同，其中，如图2和图3所示，专家网络模型包括动量编码器（MoCo编码器）、基础编码器、第一动量分类器（MoCo分类器）、第二动量分类器（MoCo分类器）、基础分类器和参考分类器，所述动量编码器与所述第一动量分类器相连接，所述基础编码器分别与第二动量分类器、基础分类器和参考分类器相连接；其中，基础编码器和基础分类器用于确定长尾图像识别模型。也就是说，长尾图像识别模型包括基础编码器和基础分类器，其中，基础编码器和基础分类器所携带的模型参数为经过训练的专家网络模型中的基础编码器和基础分类器所携带的模型参数。

如图2和3所示，训练图像对包括两张训练图像，分别记为第一训练图像和第二训练图像，第一训练图像和第二训练图像为通过对预设训练图像集中的一目标图像进行两次数据增强得到的，其中，两次数据增强操作不相同，以使得第一训练图像对应的图像视角和第二训练图像对应的图像视角不同。例如，如图4所示的目标图像经过两次数据增强后，得到如图5所示的第一训练图像和如图6所示的第二训练图像。基于此，在实际应用中，在获取到预设训练图像集后，需要对预设训练图像中的各目标图像进行两次数据增强，以得到各目标图像各自对应的训练图像对，然后将各训练图像对作为长尾图像识别模型的训练数据。

进一步，所述数据增强可以包含AutoAugment，随机水平翻转，随机改变图像亮度、对比度、饱和度、灰度以及随机高斯模糊；AutoAugment每次从直方图均衡、反相、倾斜、旋转、锐化、亮度调节、色彩调节中随机选取一个对图像进行增强等。

若干特征向量组与若干专家网络模型一一对应，每个特征向量组是通过其对应的专家网络模型确定的，即通过专家网络模型对训练图像对中的各训练图像进行特征提取得到的。其中，特征向量组包括两个特征向量，分别为基础特征向量和动量特征向量，基础特征向量为对训练图像对应的第一训练图像进行特征提取得到的，动量特征向量为对训练图像对中的第二训练图像进行特征提取得到的。也就是说，特征向量组中的向量数量与训练图像对中的训练图像的图像数量相同，并且特征向量组中的特征向量与训练图像对应中的训练图像一一对应，特征向量是通过对其对应的训练图像进行特征提取得到的。基于此，特征向量组的确定过程可以包括：将第一训练图像输入基础编码器，将第二训练图像输入动量编码器；通过第一编码器提取第一训练图像对应的基础特征向量，通过动量编码器提取第二训练图像对应的动量特征向量，以得到特性向量组。

进一步，在步骤H20中，对比学习损失项（infoNEC loss）用于拉近同一训练样本对的特征向量间的距离，推远不同训练样本对的特征向量间的距离。对比学习损失项为基于余弦相似度确定的，其中，对于一个训练图像对而言，通过专家网络模型提取的基础特征向量和动量特征向量的相似度比较高，从而对比学习损失与特征向量组内的两个特征向量的余弦相似度呈负相关，即余弦相似相似度越高，对比学习损失越小；同一训练批中的两个训练图像对而言，两个训练图像对应的类别不同，提取到的特征向量的相似度也比较低，从而对比学习损失与特征向量组间的两个特征向量的余弦相似度呈负正关，即余弦相似相似度越高，对比学习损失越大。

基于此，对比学习损失项可以基于特征向量组内的余弦相似度以及特征向量组间的余弦相似度确定。相应的，所述基于各专家网络模型各自对应的特征向量组确定所述训练图像对的对比学习损失项具体包括：

H211、对于每个专家网络模型，通过所述专家网络模型中的第一动量分类器动量特征向量映射为第一参考向量，并通过所述专家网络模型中的第二动量分类器基础特征向量映射为第二参考向量；

H212、基于第一参考向量、第二参考向量以及专家网络模型对应的负样本参考特征序列，确定所述专家网络模型的参考对比学习损失项；

H213、基于各专家网络模型各自对应的参考对比学习损失项，计算所述训练图像对的对比学习损失项。

具体地，第一参考向量和第二参考向量为通过专家网络模型中设置的第一动量分类器和第二动量分类器确定的，第一动量分类器用于将动量特征向量映射为第一参考向量，第二动量分类器用于将基础特征向量映射为第二参考向量，其中，第一参考向量和第二参考向量的向量维度相同（例如，向量维度为512*1等），第一参量向量的向量维度与动量特征向量的向量维度不同，第二参考向量的向量维度与基础特征向量的向量维度不同。

所述负样本参考特征序列包括若干第一参考向量，若第一干参考向量中的每个第一参考向量均为负样本特征。其中，负样本参考特征序列可以包括同一训练批中的其他目标图像对应的训练样本对的第一参考向量，和/或基于其他训练批中的目标图像的训练样本对确定的第一参考向量。基于此，各专家网络模型各自对应的参考对比学习损失项可以表示为：

；

其中，表示第/>个专家网络模型对应的参考对比学习损失项，/>表示第一参考向量，/>表示第二参考向量，/>表示一训练批中的第/>个训练图像对，/>表示温度因子，/>表示/>个专家网络模型对应的负样本参考特征序列。

进一步，在获取到各专家网络模型各自对应的参考对比学习损失项后，可以将各参考对比学习损失项的均值作为对比学习损失项，可以将各参考对比学习损失项的和作为对比学习损失项，还可以将各对比学习损失项进行加权以得到对比学习损失项。在一个实现方式中，对比学习损失项等于各参考对比学习损失项的和，相应的，对比学习损失项的计算公式可以表示为：

。

此外，在获取到第一参考向量后，可以将第一参考向量添加到负样本参考特征序列中，以动态更新负样本参考特征序列。当然，为了避免负样本参考特征序列中的特征数量过多而导致计算过大的问题，在动态更新负样本参考特征序列时，可以检测负样本参考特征序列的样本数量，当样本数量达到预设样本数量阈值时，在向负样本参考特征序列添加新的第一参考向量时，按照时间顺序去除时间上最远的第一参考向量。这样一方面可以避免负样本参考特征序列的样本数量过多，另一方又可以保留基于最新模型参数确定的第一参考向量，提高负样本参考特征序列中第一参考向量所携带的图像特征与图像识别任务的匹配性。

在一个实现方式中，所述基于各专家网络模型各自对应的基础特征向量和所述训练图像对的标注类别确定所述训练图像对的分类损失项具体包括：

H221、对于每个专家网络模型，将所述基础特征向量分别输入所述专家网络模型中的基础分类器和参考分类器，以得到第一logit和第二logit；

H222、基于所述第一logit、所述第二logit和所述训练图像对的标注类别，确定所述训练图像对的参考分类损失；

H223、基于各专家网络模型各自对应的参考分类损失，计算所述训练图像对的分类损失项。

具体地，参考分类器与基础分类器并行，参考分类器和基础分类器的输入项均为基础特征向量，基础分类器的输出项为第一logit，参考分类器的输出项为第二logit。标注类别为预先为用于确定训练样本对的目标图像所对应的标注类别，其中，标注类别可以在形式预设训练样本集时人工为目标图像标注的，也可以采用现有图像标注方法进行标注的等。

在一个实现方式中，所述分类损失项包括第一logit和标注类别确定的第一分类损失项和第二logit和标注类别确定的第二分类损失项，其中，第一分类损失项和第二分类损失项均可以采用交叉熵损失、指数损失或者负对数似然损失等。此外，由于每个专家网络模型均会确定得到第一分类损失项和第二分类损失项，从而分类损失项可以表示为：

；

其中，表示分类损失项，/>表示专家网络模型的数量，/>表示第/>个专家网络模型，/>表示第一分类损失项，/>表示第二分类损失项。

进一步，在步骤H30中，蒸馏损失项用于引导专家网络模型关注欠表示样本，欠表示样本为基于训练图像对的基础特征向量对应的第一logit与标注类别的交叉熵和基础特征向量对应的第二logit与标注类别的交叉熵，以及各专家网络模型各自对应的基础特征向量间的散度确定的，通过蒸馏损失项可以带来其他专家网络模型的“软”的监督信号，使得基础分类器对欠表示样本更自信，从而避免头部类的知识掩膜尾部类的知识的问题。

在一个实现方式中，如图7所示，所述基于各专家网络模型各自对应的基础特征向量，确定所述训练图像对的蒸馏损失项具体包括：

H31、对于每个专家网络模型，将所述基础特征向量分别输入所述专家网络模型中的基础分类器和参考分类器，以得到第一logit和第二logit；

H32、基于第一logit和所述训练图像对应的标注类别的交叉熵以及第二logit和所述训练图像对应的标注类别的交叉熵，确定所述训练图像对的蒸馏权重系数；

H33、基于各专家网络模型各自对应的第一logit，计算若干专家网络模型中的两两专家网络模型间的第一散度；

H34、基于所述蒸馏权重系数以及计算得到的所有第一散度，确定所述训练图像对的蒸馏损失项。

具体地，第一logit和第二logit的确定过程与步骤H20中的确定过程相同，并且这里仅是以分步的方式进行说明，而在实际应用中，第一logit和第二logit仅需确定一次，在确定分类损失项和蒸馏损失项时可以直接调用。蒸馏权重系数为基于训练图像对的基础特征向量对应的第一logit与标注类别的交叉熵和基础特征向量对应的第二logit与标注类别的交叉熵确定的训练图像对的样本表示，其中，欠表示样本对应的蒸馏权重系数大于过表示样本对应的蒸馏权重系数（例如，当训练图像对为欠表示样本时，蒸馏权重系数大于1；当训练图像对为过表示样本时，蒸馏权重系数小于或等于1等）。本实施例通过将样本表示作为蒸馏权重系数，并使得欠表示样本的蒸馏权重系数会大于过表示样本的蒸馏权重系数，这样可以迫使各专家网络模型更加关注欠表示样本，从而可以提高专家网络模型对尾部类的识别能力。此外，在确定蒸馏权重系数时，每个专家网络模型可以基于自身对应的第一logit和第二logit确定各自对应的蒸馏权重系数；也可以是基于若干专家网络模型中的一专家网络模型对应的第一logit和第二logit确定蒸馏权重系数，并将该蒸馏权重系数作为各专家网络模型的蒸馏权重系数等。

在一个实现方式中，所述蒸馏权重系数的计算公式可以为：

；

其中，表示第/>个训练图像对相对应的目标图像，/>表示蒸馏权重系数，/>表示目标图像对应的标注类别，/>表示第一logit，/>表示第二logit，/>和/>均表示标准差，/>表示预设训练样本集对应的标注标签集合。

进一步，在获取到蒸馏权重系数后，可以计算若干专家网络模型中的两两专家网络模型间的第一散度，然后基于蒸馏权重系数和第一散度确定蒸馏损失项。其中，蒸馏损失项的计算公式可以为：

；

其中，表示训练批的训练样本数量，/>表示专家网络模型的数量，/>表示温度因子，/>表示蒸馏权重系数，/>表示第/>个专家网络对应的第一logit，/>表示第个专家网络对应的第一logit，/>表示散度函数，/>表示softmax操作。

在一个实现方式中，在logit层级上获取到蒸馏损失项后，还可以在feature层级上获取特征蒸馏损失项，然后将特征蒸馏损失项添加到蒸馏损失项内，以在多层级（至少包括logit层级和feature层级）聚合专家网络模型的知识，提升训练得到的专家网络模型的鲁棒性，进而提高基于专家网络模型确定的长尾图像识别模型的鲁棒性。

基于此，所述基于所述蒸馏权重系数以及各专家网络模型各自对应的第一logit，确定所述训练图像对的蒸馏损失项之后，所述方法还包括：

具体地，第二散度为基于两个专家网络模型各自确定的基础特征向量确定，在获取到两两专家网络模型间的第二散度后，可以通过求均值的方式确定特征蒸馏损失项。相应的，特征蒸馏损失项的计算公式可以为：

；

其中，表示训练批的训练样本数量，/>表示专家网络模型的数量，/>表示温度因子，/>表示第/>个专家网络对应的第一logit，/>表示第/>个专家网络对应的第一logit，/>表示散度函数，/>表示softmax操作。

进一步，在获取到特征蒸馏损失项后，基于特征蒸馏损失项和蒸馏损失项更新蒸馏损失项，其中，更新后的蒸馏损失项可以等于特征蒸馏损失项和更新前的蒸馏损失项的和，也可以是等于特征蒸馏损失项和更新前的蒸馏损失项的均值，还可以是通过将特征蒸馏损失项和更新前的蒸馏损失项进行加权得到的。在本实施例中，更新后的蒸馏损失项可以等于特征蒸馏损失项和更新前的蒸馏损失项的和，更新后的蒸馏损失项=+。

本实施例通过将feature层级的特征蒸馏损失项添加到蒸馏损失项中，可以提高专家网络模型的抗噪声能力，提高了专家网络模型的鲁棒性。例如，如图8和9所示，选择5个随机的扰动方向，对仅采用logit层级的蒸馏损失和同时采用logit层级的蒸馏损失和feature层级的蒸馏损失的损失和准确率进行对比，可以图9所示的同时采用logit层级的蒸馏损失和feature层级的蒸馏损失的抗噪声的幅度明显高于图8所示的仅采用logit层级的蒸馏损失的抗噪声的幅度。

进一步，在步骤H40中，在获取到对比学习损失项、所述分类损失项以及所述蒸馏损失项后，可以直接将对比学习损失项、所述分类损失项以及所述蒸馏损失项的和作为最终损失项，还可以是分别对比学习损失项、所述分类损失项以及所述蒸馏损失项设置权重系数，然后通过加权确定最终损失项。在本实施例中，最终损失项的计算公式可以为：

；

其中，，/>均表示权重系数。

在确定最终损失函数后，基于最终损失函数对专家网络模型进行训练，并重复步骤H10-H40的步骤直至专家网络模型达到预设要求，或者训练次数达到预设次数阈值，以得到经过训练的专家网络模型。

进一步，在步骤H50中，在获取到专家网络模型后，可以直接将专家网络模型作为长尾图像识别模型，也可以选取专家网络模型中的部分模块来构成长尾图像识别模型。在本实施例中，由于基础编码器和基础分类模型构成的网络模型可以执行图像识别任务，从而可以直接将基础编码器和基础分类模型构成的网络模型作为长尾图像识别模型，这样仅在训练过程中添加动量编码器、第一动量分类器、第二动量分类器以及参考分类器，在模型实际使用过程中仅采用基础编码器和基础分类器，一方面可以通过对具有添加动量编码器、第一动量分类器、第二动量分类器以及参考分类器的专家网络模型进行训练，提高基础编码器和基础分类器构成的长尾图像识别模型对尾部类的识别能力，另一方面在使用过程中可以简化长尾图像识别模型的模型结构，从而降低长尾图像识别模型所需的计算量，提高长尾图像识别的识别速度。

此外，为了进一步说明书本实施例提供的长尾图像识别方法，本实施例将本实施例提供的长尾图像识别方法（记为ECL）和现有计算中的识别方法（NCL）在两个数据集上的性能进行对比，如表1所示，可以看出本实施例提供的ECL在Top1准确率（Acc）和期望矫正误差（ECE）上都明显优于NCL。

表1

综上所述，本实施例提供了一种长尾图像识别方法，方法包括将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别。本申请中使用的长尾图像识别模型的训练过程中聚合了若干专家网络模型学习到的知识，并采用蒸馏损失来使得专家模型间迁移的知识更加平衡，使得长尾图像识别模块既可以避免单个专家网络的特征学习能力不足的问题，又可以避免头部类的知识淹没尾部类的知识的问题，提升了长尾图像识别模型的整体性能，从而提高了基于长尾图像识别模型确定的目标类别的准确性。

基于上述长尾图像识别方法，本实施例提供了一种长尾图像识别装置，如图10所示，所述装置包括：

识别模块100，用于将待识别图像输入经过训练的长尾图像识别模型，通过所述长尾图像识别模型确定所述待识别图像对应的目标类别；

其中，所述长尾图像识别模型的训练过程具体包括：

基于经过训练的专家网络模型确定长尾图像识别模型。

基于上述长尾图像识别方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的长尾图像识别方法中的步骤。

基于上述长尾图像识别方法，本申请还提供了一种终端设备，如图11所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种长尾图像识别方法，其特征在于，所述方法包括：

其中，所述长尾图像识别模型的训练过程具体包括：

通过若干专家网络模型确定训练图像对的若干特征向量组，其中，所述特征向量组包括基础特征向量和动量特征向量；

基于经过训练的专家网络模型确定长尾图像识别模型；

其中，所述基于各专家网络模型各自对应的特征向量组确定所述训练图像对的对比学习损失项具体包括：

对于每个专家网络模型，通过所述专家网络模型中的第一动量分类器将动量特征向量映射为第一参考向量，并通过所述专家网络模型中的第二动量分类器将基础特征向量映射为第二参考向量；

基于各专家网络模型各自对应的参考对比学习损失项，计算所述训练图像对的对比学习损失项；

所述基于各专家网络模型各自对应的基础特征向量和所述训练图像对的标注类别确定所述训练图像对的分类损失项具体包括：

基于各专家网络模型各自对应的参考分类损失，计算所述训练图像对的分类损失项；

所述基于各专家网络模型各自对应的基础特征向量，确定蒸馏损失项具体包括：

基于所述蒸馏权重系数以及计算得到的所有第一散度，确定所述训练图像对的蒸馏损失项；

所述基于所述蒸馏权重系数以及计算得到的所有第一散度，确定所述训练图像对的蒸馏损失项之后，所述方法还包括：

基于计算得到的所有第二散度，确定所述训练图像对的特征蒸馏损失项，并基于特征蒸馏损失项和蒸馏损失项更新蒸馏损失项。

2.根据权利要求1所述长尾图像识别方法，其特征在于，所述专家网络模型包括动量编码器、基础编码器、第一动量分类器、第二动量分类器、基础分类器和参考分类器，所述动量编码器与所述第一动量分类器相连接，所述基础编码器分别与所述第二动量分类器、基础分类器和参考分类器相连接；其中，所述长尾图像识别模型包括所述基础编码器和所述基础分类器。

3.根据权利要求1所述长尾图像识别方法，其特征在于，所述训练图像对为通过对一目标图像进行两次数据增强得到的，其中，训练图像对中的两个训练图像各自对应的图像视角不同。

4.根据权利要求1或3所述长尾图像识别方法，其特征在于，所述训练图像对的目标图像包含于预设训练图像集内，其中，所述预设训练图像集按照类别划分为若干图像组，若干图像组中的部分图像组所包括的目标图像的图像数量与所述预设训练图像集的总图像数量的比值小于预设比例阈值。

5.一种长尾图像识别装置，其特征在于，所述装置包括：

其中，所述长尾图像识别模型的训练过程具体包括：

基于经过训练的专家网络模型确定长尾图像识别模型；

所述基于各专家网络模型各自对应的特征向量组确定所述训练图像对的对比学习损失项具体包括：

对于每个专家网络模型，通过所述专家网络模型中的第一动量分类器动量将特征向量映射为第一参考向量，并通过所述专家网络模型中的第二动量分类器将基础特征向量映射为第二参考向量；

所述基于所述蒸馏权重系数以及计算得到的所有第一散度，确定所述训练图像对的蒸馏损失项之后，还包括：

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-4任意一项所述的长尾图像识别方法中的步骤。

7.一种终端设备，其特征在于，包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-4任意一项所述的长尾图像识别方法中的步骤。