CN114283310A

CN114283310A - 图像识别模型的获取方法、图像识别方法、装置及介质

Info

Publication number: CN114283310A
Application number: CN202110984013.7A
Authority: CN
Inventors: 杨善明; 苑鹏程; 顾晓光; 刘泽宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2022-04-05

Abstract

本申请公开了图像识别模型的获取方法、图像识别方法、装置及介质，属于人工智能技术领域。方法包括：获取第一样本图像和第二样本图像，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像。基于第一样本图像训练得到第一模型，通过第一模型提取第二样本图像的特征向量，对特征向量进行聚类，得到聚类结果。基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类别。本申请通过聚类结果训练得到第二模型，不仅充分利用了不具有类别标签的样本图像，而且使得第二模型能够学习到属于相同类别的各个第二样本图像的共有特性，提高了第二模型的识别准确率。聚类过程还节约了训练所需的处理资源，提高了训练效率。

Description

图像识别模型的获取方法、图像识别方法、装置及介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像识别模型的获取方法、图像识别方法、装置及介质。

背景技术

随着人工智能技术的发展，数据集中的样本图像数量也越来越多。在数据集中，相比于具有类别标签的样本图像而言，不具有类别标签的样本图像数量较多。其中，类别标签用于指示样本图像记录的内容所属的类别。如何充分利用不具有类别标签的样本图像来获取图像识别模型，成为亟待解决的问题。

发明内容

本申请实施例提供了一种图像识别模型的获取方法、图像识别方法、装置及介质，以充分利用不具有类别标签的样本图像获取图像识别模型，并使得图像识别模型具有较高的识别准确率。所述技术方案如下：

一方面，提供了一种图像识别模型的获取方法，所述方法包括：

获取第一样本图像和第二样本图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；

基于所述第一样本图像训练得到第一模型，通过所述第一模型提取所述第二样本图像的特征向量，对所述特征向量进行聚类，得到聚类结果；

基于所述聚类结果训练得到第二模型，所述第二模型用于识别输入的图像所属的类别。

一方面，提供了一种图像识别方法，所述方法包括：

获取需要识别的图像，将所述图像分别输入至少两个图像识别模型，得到所述至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，所述任一子结果用于指示所述图像属于所对应的类别的概率，所述任一图像识别模型基于聚类结果训练得到，所述聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，所述初始模型基于第一样本图像训练得到，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；

对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值；

将所指示的概率最大的加权求和值对应的类别识别为所述图像所属的类别。

一方面，提供了一种图像识别模型的获取装置，所述装置包括：

获取模块，用于获取第一样本图像和第二样本图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；

训练模块，用于基于所述第一样本图像训练得到第一模型；

聚类模块，用于通过所述第一模型提取所述第二样本图像的特征向量，对所述特征向量进行聚类，得到聚类结果；

所述训练模块，还用于基于所述聚类结果训练得到第二模型，所述第二模型用于识别输入的图像所属的类别。

在示例性实施例中，所述训练模块，用于获取已训练的第三模型，基于所述第一样本图像对所述第三模型进行微调，得到所述第一模型；基于所述聚类结果对所述第三模型进行微调，得到微调后的第三模型，基于所述微调后的第三模型得到所述第二模型。

在示例性实施例中，所述训练模块，用于将所述第二样本图像输入所述第一模型，得到所述第一模型针对所述第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，所述目标子结果用于指示所述任一第二样本图像属于所述类别标签对应的类别的概率；基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型。

在示例性实施例中，所述训练模块，用于在所述目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。

在示例性实施例中，所述训练模块，用于对于任一类别标签对应的类别，从所述任一类别标签对应的类别的样本图像序列中获取所述任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于所述任一类别标签对应的类别的各个样本图像子集训练所述微调后的第三模型，得到所述第二模型。

在示例性实施例中，所述训练模块，用于获取所述第一样本图像和所述第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像；对于任一样本图像，将所述任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定所述第一输出结果与所述第二输出结果之间的交叉熵损失；基于所述交叉熵损失更新所述第五模型，得到更新后的第五模型，基于所述更新后的第五模型获取所述第三模型。

在示例性实施例中，所述训练模块，用于响应于处理资源满足条件，基于所述更新后的第五模型更新所述第四模型，得到所述第三模型。

在示例性实施例中，所述训练模块，用于响应于处理资源不满足条件，将所述更新后的第五模型作为所述第三模型。

一方面，提供了一种图像识别装置，所述装置包括：

获取模块，用于获取需要识别的图像，将所述图像分别输入至少两个图像识别模型，得到所述至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，所述任一子结果用于指示所述图像属于所对应的类别的概率，所述任一图像识别模型基于聚类结果训练得到，所述聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，所述初始模型基于第一样本图像训练得到，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；

加权求和模块，用于对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值；

识别模块，用于将所指示的概率最大的加权求和值对应的类别识别为所述图像所属的类别。

在示例性实施例中，所述加权求和模块，还用于确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示所述任一图像识别模型的识别准确程度；计算所述各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算所述任一图像识别模型的准确度数值与所述各个图像识别模型的准确度数值之和的比值，将所述比值确定为所述任一图像识别模型输出的至少两个子结果的权重。

在示例性地实施例中，所述装置还包括：更新模块，用于对于任一图像识别模型输出的至少两个子结果，确定所述至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，所述任一子结果所指示的概率越大，所述任一子结果对应的扩大倍数越大；按照所述扩大倍数对所述各个子结果进行更新，得到更新后的子结果；

所述加权求和模块，用于对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到所述至少两个加权求和值。

一方面，提供了一种电子设备，所述电子设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使电子设备实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。

另一方面，提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括：计算机指令，所述计算机指令被计算机执行时，使得所述计算机实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。

本申请实施例所提供的技术方案带来的有益效果至少包括：

本实施例使用具有类别标签的第一样本图像训练得到第一模型，通过第一模型对不具有类别标签的第二样本图像进行特征提取，基于所提取到的特征向量进行聚类，从而得到聚类结果。之后，基于聚类结果训练得到第二模型。因此，不仅充分利用了不具有类别标签的第二样本图像，使得第二模型具备较强的泛化能力，而且该第二模型能够学习到属于相同类别的各个第二样本图像的共有特性，从而使得第二模型具有较强的表征能力，进而提高了第二模型的识别准确率。并且，聚类过程还有利于缩短训练时长，节约训练所需的处理资源，提高了训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的实施环境的示意图；

图2是本申请实施例提供的图像识别模型的获取方法的流程图；

图3是本申请实施例提供的聚类自监督训练过程的示意图；

图4是本申请实施例提供的自监督训练过程的示意图；

图5是本申请实施例提供的伪标签训练过程的示意图；

图6是本申请实施例提供的图像识别方法的流程图；

图7是本申请实施例提供的模型融合的示意图；

图8是本申请实施例提供的图像识别的流程示意图；

图9是本申请实施例提供的图像识别模型的获取装置的结构示意图；

图10是本申请实施例提供的图像识别装置的结构示意图；

图11是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种图像识别模型的获取方法和一种图像识别方法，上述方法可应用于如图1所示的实施环境中。图1中，包括至少一个电子设备11和服务器12，电子设备11可与服务器12进行通信连接，以从服务器12上下载需要使用的图像。

其中，电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(PersonalComputer，个人计算机)、手机、智能手机、PDA(Personal DigitalAssistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。

服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

本领域技术人员应能理解上述电子设备11和服务器12仅为举例，其他现有的或今后可能出现的电子设备或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，参见图2，本申请实施例提供了一种图像识别模型的获取方法，该方法可应用于图1所示的电子设备中。如图2所示，该方法包括如下的步骤。

201，获取第一样本图像和第二样本图像，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像。

其中，一个图像的类别标签用于指示该图像所属的类别，图像所属的类别也即是图像记录的内容的类别，类别标签与类别一一对应。示例性地，本实施例从数据集中获取第一样本图像和第二样本图像，本实施例不对数据集加以限定，数据集包括但不限于FGVC(Fine-Grained Visual Categorization，细粒度的视觉分类)8中的public(公开)数据集和private(私有)数据集。或者，本实施例进行图像的采集。之后，在采集得到的图像中，针对一部分图像生成类别标签，用于作为第一样本图像。另一部分图像则不生成类别标签，用于作为第二样本图像。示例性地，生成类别标签的方式包括：通过人工标注的方式生成类别标签，或者，通过已训练的图像分类模型输出类别标签，本实施例不对类别标签的生成方式加以限定。

在本实施例中，第一样本图像和第二样本图像用于模型训练过程。示例性地，第一样本图像和第二样本图像的数量均为多个，以便于保证训练得到的模型的准确率。

202，基于第一样本图像训练得到第一模型，通过第一模型提取第二样本图像的特征向量，对特征向量进行聚类，得到聚类结果。

其中，基于第一样本图像训练得到的第一模型具有特征提取的能力，因而通过第一模型能够提取到第二样本图像的特征向量。之后，对特征向量进行聚类，得到聚类结果。示例性地，聚类方式包括但不限于K-means(K-means Clustering Algorithm，K均值聚类算法)，本实施例不对聚类方式加以限定。该聚类结果包括至少一个向量组，一个向量组中包括至少一个第二样本图像的特征向量。基于至少一个向量组能够得到至少一个样本图像组，一个样本图像组中包括一个向量组中的各个特征向量对应的第二样本图像。一个样本图像组中包括的各个第二样本图像属于相同的类别。

参见公式(1)，公式(1)表示特征提取过程：

z＝M(x),x∈X_u(1)

在公式(1)中，X_u表示第二样本图像的集合，由于x∈X_u，因而公式(1)中的x表示第二样本图像，z表示通过第一模型M(·)提取的第二样本图像的特征向量。

公式(2)表示对特征向量进行聚类的过程：

y_x＝K means(z)(2)

在公式(2)中，y_x表示聚类结果。

示例性地，基于第一样本图像训练得到第一模型，包括：获取第一初始模型，基于第一样本图像对第一初始模型进行训练，得到第一模型。在训练过程中，将第一样本图像输入第一初始模型，得到第一初始模型的输出结果，该输出结果基于第一初始模型包括的初始模型参数计算得到。基于输出结果计算损失函数，最小化该损失函数并进行反向梯度传播，从而对第一初始模型包括的初始模型参数进行更新。之后，循环上述将第一样本图像输入第一初始模型的过程和后续的计算过程，直至满足终止条件之后停止训练过程，从而得到第一模型。示例性地，满足终止条件包括：基于输出结果计算出的损失函数小于第一阈值，或者，相邻两次计算出的损失函数之间的差值小于第二阈值。本实施例不对第一阈值和第二阈值加以限定，第一阈值和第二阈值基于经验设置即可。

本实施例不对第一初始模型的种类加以限定，第一初始模型包括但不限于：Resnet(Residual Network，残差网络)模型、ViT(Vision Transformer，视觉转换器)和Swin(Shifted Windows，移动窗口)-Transformer(转换器)等等。Resnet模型例如为Resnet101、Resnet 154。ViT例如为ViT-base(基础)、ViT-small(小型)。Swin-Transformer例如为Swin-Transformer base、Swin-Transformer large(大型)。

或者，在示例性实施例中，参见图3，基于第一样本图像训练得到第一模型，包括：获取已训练的第三模型，基于第一样本图像对第三模型进行微调(Fine Tune)，得到第一模型。其中，基于第一样本图像对第三模型进行微调得到第一模型的过程，与上文说明中基于第一初始模型训练得到第一模型的过程相同，此处不再进行赘述。需要说明的是，相比于基于第一初始模型训练得到第一模型的过程，基于第一样本图像对第三模型进行微调得到第一模型的过程所需的循环次数较少，不仅节约了处理资源，还缩短了得到第一模型所需的时间，提高了得到第一模型的效率。在本实施例中，已训练的第三模型例如为上述举例中的Resnet模型、ViT和Swin-Transformer，本实施例不对第三模型的种类加以限定。

示例性地，本实施例通过自监督的方式训练得到第三模型。自监督的方式包括但不限于：dino(knowledge distillation with no labels，无标签的知识蒸馏)、simCLR(asimple frame work for contrastive learning of visiual representations，用于视觉表示对比学习的简单框架)、MoCo(momentum contrast for unsupervised visiualrepresentation learning，基于动量比对的非监督式视觉表征学习)等等。在示例性实施例中，获取已训练的第三模型，包括如下的步骤2021-2023。

2021，获取第一样本图像和第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于任一样本图像获取的全局图像和局部图像。

其中，将第一样本图像的集合表示为X_l，将第二样本图像的集合表示为X_u，则第一样本图像和第二样本图像中的任一样本图像x表示为x∈X_u∪X_l。示例性地，本实施例在获取第一样本图像和第二样本图像之后，获取各个样本图像对应的图像集，并将样本图像和图像集对应存储。在需要获取已训练的第三模型时，获取存储的样本图像对应的图像集。或者，本实施例在需要获取已训练的第三模型时再获取样本图像对应的图像集。本实施例不对样本图像对应的图像集的获取时机加以限定。

接下来，对基于样本图像获取全局图像和局部图像的方式分别进行说明。

基于样本图像获取全局图像的方式：示例性地，响应于一个样本图像不满足要求，则从该样本图像中截取得到全局图像。或者，响应于一个样本图像满足要求，则不进行截取，而是基于该样本图像直接得到全局图像。其中，需要满足的要求根据经验或者实际需要进行设置，本实施例不对需要满足的要求加以限定。例如，需要满足的要求包括形状和分辨率中的至少一种，形状例如为正方形。以需要满足的要求包括形状为例，响应于该样本图像不为正方形，则从该样本图像中截取得到正方形的全局图像。响应于一个样本图像为正方形，则基于该样本图像直接得到全局图像。

对于一个样本图像而言，基于该样本图像获取的全局图像的数量为至少一个，本实施例不对全局图像的数量加以限定。在需要基于一个样本图像获取两个以上的全局图像的情况下，响应于该样本图像不满足要求，则可在该样本图像中的不同位置进行截取，从而得到两个以上的全局图像。或者，响应于该样本图像满足要求，则采用不同方式对该图像进行处理，从而得到两个以上的全局图像。本实施例不对处理方式加以限定，处理方式例如为旋转、倾斜等。

基于样本图像获取局部图像的方式：从样本图像中截取得到局部图像，局部图像的数量为至少一个，且局部图像的分辨率小于全局图像的分辨率。能够理解的是，全局图像记录的内容可能包括局部图像记录的全部内容，也可能包括局部图像记录的全部内容中的一部分，还可能不包括局部图像记录的内容，本实施例对此不加以限定。

2022，参见图4，对于任一样本图像，将任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果。将任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定第一输出结果与第二输出结果之间的交叉熵损失。

示例性地，第四模型和第五模型例如为上述举例中的Resnet模型、ViT和Swin-Transformer，本实施例不对第四模型和第五模型的种类加以限定。在一些实施方式中，第四模型和第五模型的种类相同。例如，第四模型和第五模型均为Resnet 101。

在本实施例中，第一输出结果和第二输出结果中的任一输出结果包括所输入的图像对应的子结果，一个图像对应至少两个子结果，一个图像对应的子结果数量与模型所能识别的类别数量相同。一个子结果与一个类别相对应，一个子结果用于指示该图像属于所对应的类别的概率。例如，第四模型能够识别N个类别。则将一个全局图像输入第四模型之后，第四模型输出该全局图像对应的N个子结果，第1个子结果用于指示全局图像属于类别1的概率，第2个子结果用于指示全局图像属于类别2的概率，以此类推，第N个子结果用于指示全局图像属于类别N的概率。其中，N为不小于2的正整数。

示例性地，子结果为置信度数值(logit)，置信度数值的取值范围为负无穷至正无穷。或者，子结果为对置信度数值进行归一化得到的概率值，概率值的取值范围为0至1。在一些实施方式中，通过softmax函数对置信度数值进行归一化，本实施例不对归一化的方式加以限定。无论子结果为置信度数值还是概率值，子结果均能指示图像属于所对应的类别的概率。在一些实施方式中，子结果的取值越大，则子结果所指示的概率越大。

在得到第一输出结果和第二输出结果之后，确定第一输出结果和第二输出结果之间的交叉熵损失。由于本实施例将全局图像输入第四模型，因而第四模型输出的第一输出结果中包括各个全局图像对应的子结果。由于本实施例将局部图像和全局图像均输入第五模型，因而第五模型输出的第二输出结果中既包括各个全局图像对应的子结果，又包括各个局部图像对应的子结果。示例性地，本实施例基于第一输出结果中各个全局图像对应的子结果和第二输出结果中各个局部图像对应的子结果确定交叉熵损失。

需要说明的是，对于一个样本图像而言，该样本图像包括的图像集中包括至少一个全局图像和至少一个局部图像。基于一个全局图像对应的子结果和一个局部图像对应的子结果能够计算出一个交叉熵损失。相应地，在一个样本图像对应的图像集中，响应于全局图像和局部图像中的任一种图像的数量为至少两个，则能够计算得到至少两个交叉熵损失。

2023，基于交叉熵损失更新第五模型，得到更新后的第五模型，基于更新后的第五模型获取第三模型。

根据2022中的说明可知，交叉熵损失的数量可能是一个，也可能是至少两个。示例性地，基于交叉熵损失更新第五模型，包括：计算各个交叉熵损失之和，最小化交叉熵损失之和并进行梯度下降，从而实现对第五模型的更新，得到更新后的第五模型。示例性地，进行梯度下降的方式包括但不限于SGD(Stochastic Gradient Descent，随机梯度下降)，本实施例不对进行梯度下降的方式加以限定。

其中，交叉熵损失之和表示为如下的公式(3)：

在公式(3)中，I为交叉熵损失之和。x_g为全局图像组成的集合，由于x∈x_g，因而x即为全局图像。V为样本图像对应的图像集，由于x′∈V且x′≠x，因而x′即为局部图像。P₁(x)为第一输出结果中一个全局图像对应的子结果，P₂(x′)为第二输出结果中一个局部图像对应的子结果，H(·,·)为基于一个全局图像对应的子结果和一个局部图像对应的子结果计算出的一个交叉熵损失。

在得到更新后的第五模型之后，本实施例进一步基于更新后的第五模型获取第三模型。在示例性实施例中，基于更新后的第五模型获取第三模型，包括如下的两种方式。

方式一：响应于处理资源满足条件，基于更新后的第五模型更新第四模型，得到第三模型。

其中，由于第四模型的模型参数量大于第五模型的模型参数量，因而使用第四模型所需的处理资源也多于使用第五模型所需的处理资源。因此，本实施例在处理资源满足条件的情况下，也就是处理资源足够多的情况下，再使用第四模型。其中，使用第四模型也即是基于更新后的第五模型更新第四模型，从而得到第三模型。

示例性地，基于更新后的第五模型更新第四模型，得到第三模型，包括：基于更新后的第五模型，按照如下的公式(4)更新第四模型，得到第三模型：

θ_t2＝l*θ_t1+(1-l)*θ_s(4)

在公式(4)中，l为根据经验设置的超参数，θ_s为更新后的第五模型中的模型参数，θ_t1为第四模型中的模型参数，θ_t2为第三模型中的模型参数。

方式二：响应于处理资源不满足条件，将更新后的第五模型作为第三模型。

响应于处理资源不满足条件，则说明处理资源不够多，因而不适用于使用第四模型。因此，在方式二中，不再使用第四模型，而是直接将更新后的第五模型作为第三模型。

203，基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类别。

根据202中的说明可知，聚类结果包括至少一个向量组，基于至少一个向量组能够得到至少一个样本图像组，一个样本图像组中包括的各个第二样本图像所记录的内容属于相同的类别。示例性地，基于聚类结果训练得到第二模型，包括：基于聚类结果获得至少一个样本图像组，基于各个样本图像组分别对第二初始模型进行训练，得到第二模型。对第二初始模型进行训练的过程参见202中对第一初始模型进行训练的过程，此处不再进行赘述。通过此种训练方式，能够使得第二模型学习到属于相同类别的各个第二样本图像的共有特性，提高了识别图像所属的类别的准确率。其中，第二初始模型包括但不限于上述举例中的Resnet模型、ViT和Swin-Transformer等。

根据202中的说明可知，在一些实施方式中，通过对第三模型的微调得到第一模型。相应地，在示例性实施例中，基于聚类结果训练得到第二模型，包括：基于聚类结果对第三模型进行微调，得到微调后的第三模型，基于微调后的第三模型得到第二模型。其中，获取第三模型的方式参见上文2021-2023中的说明，基于聚类结果对第三模型进行微调的过程，与上文说明中基于第二初始模型训练得到第二模型的过程相同，此处不再进行赘述。

示例性地，基于微调后的第三模型得到第二模型，包括：将微调后的第三模型作为第二模型。或者，参见图3，本实施例使用第一样本图像对微调后的第三模型再次进行微调，得到二次微调后的第三模型。响应于二次微调后的第三模型满足条件，则将该二次微调后的第三模型作为第二模型，需要满足的条件例如为识别准确率满足参考阈值，本实施例不对参考阈值加以限定。或者，响应于二次微调后的第三模型不满足条件，则进行循环，循环过程包括：使用该二次微调后的第三模型对第二样本图像进行特征提取及聚类，得到新的聚类结果，再使用新的聚类结果和第一样本图像对二次微调后的第三模型进行微调，得到三次微调后的第三模型，根据该三次微调后的第三模型是否满足条件来确定是否需要再次进行循环。以此类推，直至得到满足条件的模型后结束循环过程，将该满足条件的模型作为第二模型。或者，本实施例进一步通过伪标签方式对微调后的第三模型进行训练，得到第二模型。在示例性实施例中，基于微调后的第三模型得到第二模型，包括如下的步骤2031-2033。

2031，参见图5，将第二样本图像输入第一模型，得到第一模型针对第二样本图像生成的类别标签。

其中，将第二样本图像输入第一模型之后，第一模型能够输出第二样本图像对应的至少两个子结果。根据2022中的说明可知，一个子结果对应一个类别，一个子结果用于指示第二样本图像属于该子结果对应的类别的概率。本实施例在至少两个子结果中，将所指示的概率最大的子结果作为目标子结果，则一个第二样本图像对应一个目标子结果。相应地，目标子结果对应的类别即为第二样本图像所属的类别，类别标签即为目标子结果对应的类别。能够看出，一个第二样本图像的目标子结果用于指示该第二样本图像属于类别标签对应的类别的概率。

例如，将一个第二样本图像输入第一模型之后，第一模型输出子结果1、子结果2和子结果3。子结果1指示该第二样本图像属于类别1的概率为0.9，子结果2指示该第二样本图像属于类别2的概率为0.5，子结果3指示该第二样本图像属于类别3的概率为0.1。因此，则将子结果1作为该第二样本图像对应的目标子结果，且将目标子结果(子结果1)对应的类别1作为该第二样本图像所属的类别，则第二样本图像的类别标签即为类别1。

2032，基于目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。

一个类别中包括至少一个第二样本图像，一个类别中包括的各个第二样本图像均具有相同的类别标签。由于一个第二样本图像对应一个目标子结果，因而对于一个类别而言，能够基于目标子结果对该类别包括的第二样本图像进行排序，得到该类别对应的样本图像序列。示例性地，在一个类别中，按照目标子结果所指示的概率从大到小的顺序，对该类别包括的第二样本图像进行排序，得到该类别对应的样本图像序列。例如，第二样本图像1、第二样本图像2和第二样本图像3的类别标签均为类别1，且第二样本图像1对应的目标子结果指示的概率为0.8，第二样本图像2对应的目标子结果指示的概率为0.7，第二样本图像3对应的目标子结果指示的概率为0.6，则按照第一样本图像1、第二样本图像2和第二样本图像3的顺序对3个第二样本图像进行排序，得到类别1对应的样本图像序列。能够理解的是，本实施例不对一个样本图像序列中包括的第二样本图像的数量加以限定。

在示例性实施例中，基于目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列，包括：在目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果。基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。

其中，响应于一个目标子结果指示的概率小于概率阈值，则说明该目标子结果对应的第二样本图像属于该类别的概率较小。示例性地，本实施例不对概率阈值加以限定，概率阈值例如为0.2。因此，对于该类别来说，该目标子结果对应的第二样本图像属于噪声图像。如果后续使用此种噪声图像对微调后的第三模型进行训练，则可能会影响训练得到的第二模型的识别准确率。因此，本实施例对所指示的概率小于概率阈值的目标子结果进行删除。之后，基于筛选出的目标子结果对第二样本图像进行排序。基于筛选出的目标子结果对样本图像进行排序的方式可参见上文2032中的说明，此处不再进行赘述。另外，本实施例不对概率阈值加以限定。

当然，上述删除所指示的概率小于概率阈值的目标子结果的过程仅为举例，不用于对本实施例造成限定。示例性地，本实施例也可以不删除所指示的概率小于概率阈值的目标子结果。相应地，后续用于对微调后的第三模型进行训练的第二样本图像中也包括噪声图像，微调后的第三模型执行带噪学习过程，从而得到第二模型。

2033，基于各个类别标签对应的类别的样本图像序列训练微调后的第三模型，得到第二模型。

示例性地，基于各个类别对应的样本图像序列训练微调后的第三模型，包括：对于一个类别，将该类别对应的样本图像序列中包括的第二样本图像依次输入微调后的第三模型，从而实现对微调后的第三模型的训练，得到第二模型。

或者，在示例性实施例中，参见图5，对于任一类别标签对应的类别，从任一类别标签对应的类别的样本图像序列中获取任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同。对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于任一类别标签对应的类别的各个样本图像子集训练微调后的第三模型，得到第二模型。

示例性地，响应于一个类别对应的样本图像序列中，各个第二样本图像对应的目标子结果所指示的概率依次减小，则一个样本图像子集中包括样本图像序列中前q个(top-q)第二样本图像，在不同的样本图像子集中，q的取值不同。以一个类别对应4个样本图像子集为例，则4个样本图像子集中q的取值分别为(40，60，80，100)，代表4个样本图像子集中分别包括40、60、80和100个第二样本图像。能够理解的是，本实施例不对样本图像子集的数量和一个样本图像子集中包括的第二样本图像的数量加以限定。

在一些实施方式中，按照第二样本图像的数量渐变的顺序，依次基于任一类别对应的各个样本图像子集训练微调后的第三模型，得到第二模型，包括：按照所包括的第二样本图像的数量由小到大的顺序，依次通过各个样本图像子集训练微调后的第三模型，得到第二模型。也就是说，在各个样本图像子集中，首先通过包括最少第二样本图像的样本图像子集对微调后的第三模型进行训练，最后通过包括最多第二样本图像的样本图像子集对微调后的第三模型进行训练。以上述举例中的4个样本图像子集为例，则依次通过包括40、60、80和100个第二样本图像的样本图像子集对微调后的第三模型进行训练，从而得到第二模型。

需要说明的是，在一个类别包括的第二样本图像的数量大于数量阈值的情况下，该一个类别对应至少两个样本图像子集。而在一个类别包括的第二样本图像的数量小于数量阈值的情况下，示例性地，该类别仅包括一个样本图像子集，该样本图像子集中包括该类别中的所有第二样本图像。

综上所述，本实施例使用具有类别标签的第一样本图像训练得到第一模型，通过第一模型对不具有类别标签的第二样本图像进行特征提取，基于所提取到的特征向量进行聚类，从而得到聚类结果。之后，基于聚类结果训练得到第二模型。因此，不仅充分利用了不具有类别标签的第二样本图像，使得第二模型具备较强的泛化能力，而且该第二模型能够学习到属于相同类别的各个第二样本图像的共有特性，从而使得第二模型具有较强的表征能力，进而提高了第二模型的识别准确率。并且，聚类过程还有利于缩短训练时长，节约训练所需的处理资源，提高了训练效率。

本实施例训练得到的第二模型能够用于识别图像所属的类别，因而可用于完成涉及图像识别过程的任务，涉及图像识别过程的任务例如为优质视频的提取、低质视频的过滤等等。另外，本实施例训练得到的第二模型还能够与其他算法相结合，应用于各种算法的底层。例如，将本实施例训练得到的第二模型作为初始模型，使用其他算法对该初始模型进行微调，从而训练得到新的模型。能够看出，本实施例训练得到的第二模型适用于多种场景，实用性较强。

基于上述图1所示的实施环境，参见图6，本申请实施例提供了还一种图像识别方法，该方法可应用于图1所示的电子设备中。如图6所示，该方法包括如下的步骤。

601，获取需要识别的图像，将图像分别输入至少两个图像识别模型，得到至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，任一子结果用于指示图像属于所对应的类别的概率。

其中，一个图像识别模型输出该图像对应的至少两个子结果，一个子结果对应一个类别，任一子结果用于指示图像属于所对应的类别的概率。对子结果的说明可参见上文2022，此处不再进行赘述。

需要说明的是，一个图像识别模型基于聚类结果训练得到，聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，初始模型基于第一样本图像训练得到，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像。示例性地，初始模型为上述201-203中的第一模型，图像识别模型为上述201-203中的第二模型。示例性地，本实施例按照上述201-203说明中的方式训练得到至少两个图像识别模型，不同图像识别模型的种类不同。例如，本实施例共训练得到6个图像识别模型，6个图像识别模型的种类分别为：Resnet101、Resnet154、ViT-base、Vit-small、Swin-transformer-base和Swin-transformer-large。

在示例性实施例中，参见图7，得到至少两个图像识别模型输出的子结果之后，方法还包括：对于任一图像识别模型输出的至少两个子结果，确定至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，任一子结果所指示的概率越大，任一子结果对应的扩大倍数越大。按照扩大倍数对至少两个图像识别模型输出的子结果进行更新，得到更新后的子结果。通过对子结果进行更新，能够增大不同的子结果之间的差距，有利于增加后续的识别准确率。

示例性地，对于一个图像识别模型输出的至少两个子结果，按照所指示的概率从大到小的顺序对各个子结果进行排序，选择序列中前参考数量个子结果，确定前参考数量个子结果中各个子结果对应的扩大倍数。示例性地，将参考数量记为K，对于前K个子结果中的第k个子结果(k∈K)，该子结果对应的扩大倍数为(K+1-k)。相应地，本实施例按照如下的公式(5)对子结果进行更新，得到更新后的子结果：

logit′_i,k＝(K+1-k)*logit_i,k(5)

在公式(5)中，logit_i,k为第i个模型中的第k个子结果，(K+1-k)为第i个模型中的第k个子结果对应的扩大倍数，logit′_i,k为第i个模型中的第k个更新后的子结果。

例如，K的取值为5，一个图像识别模型针对输入的图像输出了10个子结果，本实施例选择10个子结果中top-5的子结果，5个子结果所指示的概率依次为0.9、0.8、0.7、0.6和0.5。其中，第1个子结果对应的扩大倍数为5，则更新后的第1个子结果为5*0.9＝4.5。第2个子结果对应的扩大倍数为4，则更新后的第2个子结果为4*0.8＝3.2。第3个子结果对应的扩大倍数为3，则更新后的第3个子结果为3*0.7＝2.1。第4个子结果对应的扩大倍数为2，则更新后的第4个子结果为2*0.6＝1.2。第5个子结果对应的扩大倍数为1，则更新后的第5个子结果为1*0.5＝0.5。因此，5个更新后的子结果依次为4.5、3.2、2.1、1.2和0.5。相比于子结果0.9、0.8、0.7、0.6和0.5，更新后的子结果之间的差距更大，有利于增加后续对于图像所属类别的识别准确率。

602，参见图7，对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值。

能够理解的是，在对子结果进行加权求和之前，需要确定各个子结果的权重。因此，在示例性实施例中，对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和之前，方法还包括：确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示任一图像识别模型的识别准确程度；计算各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算任一图像识别模型的准确度数值与各个图像识别模型的准确度数值之和的比值，将比值确定为任一图像识别模型输出的至少两个子结果的权重。

其中，一个图像识别模型的权重基于如下的公式(6)计算得到：

在公式(6)中，a_i为第i个图像识别模型的权重，acc_i为第i个图像识别模型的准确度数值，ACC为各个图像识别模型的准确度数值之和。

在本实施例中，一个图像识别模型输出的各个子结果的权重与该图像识别模型的权重相同。在确定各个子结果的权重后，对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值。示例性地，本实施例在各个图像识别模型输出的各个子结果中，均选择前参考数量个子结果。在选择出的子结果中，对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值。前参考数量个子结果的定义参见上文说明，此处不再进行赘述。

其中，计算加权求和值的过程表示为如下的公式(7)：

其中，logit_mean为加权求和值，sum(model)为图像识别模型的总数量，logit′_i,k为由不同图像识别模型输出且对应同一个类别的子结果。

参见如下的表1，以图像识别模型的数量为6、参考数量为5(也即是选择各个图像识别模型针对图像输出的top-5的子结果，5个子结果分别对应类别1-5)为例，对计算得到加权求和值的过程进行说明：

表1

其中，类别1对应的加权求和值按照如下的公式计算。对于其他类别对应的加权求和值，此处不再一一进行赘述。

(a₁logit_1,1+a₂logit_2,1+a₃logit_3,1+a₄logit_4,1+a₅logit_5,1+a₆logit_6,1)/6当然，对于601中对子结果进行更新的情况，示例性地，对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，包括：对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和。即：将上述公式(7)中的logit_i,j替换为基于公式(6)计算得到的logit′_i,k。其中，确定更新后的子结果的权重的方式参见上文说明，此处不再进行赘述。

603，参见图7，将所指示的概率最大的加权求和值对应的类别识别为图像所属的类别。

在得到至少两个加权求和值后，将所指示的概率最大的加权求和值对应的类别识别为图像所述的类别。其中，由于加权求和值是基于对应同一个类别的子结果计算得到的，因而用于计算得到该加权求和值的各个子结果对应的类别即为该加权求和值对应的类别。例如，基于上述表1，响应于类别1、类别2、类别3、类别4和类别5对应的加权求和值所指示的概率依次减小，则将类别1作为601中需要识别的图像的类别。

综上所述，本实施例通过不同的图像识别模型分别输出需要识别的图像的子结果。之后，对不同图像识别模型输出且对应同一类别的子结果进行加权求和，基于加权求和值所指示的概率来确定需要识别的图像所属的类别。本实施例相当于对至少两个图像识别模型进行了融合，提高了识别准确率。

参见图8，图8示出了本申请实施例提供的一种示例性的图像识别的流程示意图。其中，本实施例在获取具有类别标签的第一样本图像和不具有类别标签的第二样本图像后，首先通过dino自监督过程(2021-2023)获取第三模型。之后，执行聚类自监督过程(201、202和203)。在聚类自监督过程中，基于第一样本图像对第三模型进行微调得到第一模型，通过第一模型提取第二样本图像的特征向量，对特征向量进行聚类得到聚类结果，基于聚类结果对第三模型进行微调，得到微调后的第三模型。接着，执行伪标签训练过程(2031-2033)，其中，通过第一模型生成第二样本图像的类别标签，从而生成各个类别标签对应的类别的样本图像子集，基于样本图像子集对微调后的第三模型进行训练，得到第二模型。在一些实施方式中，通过上述dino自监督过程、聚类自监督过程和伪标签过程训练得到至少两个不同种类的第二模型，再执行模型融合过程(601-603)，以便于对图像所属的类别进行识别。

示例性地，本实施例获取识别准确率为55.4％的Vit-small模型，通过dino自监督过程获取第三模型，第三模型的识别准确率为66.3％。之后，通过聚类自监督过程获取微调后的第三模型，该微调后的第三模型的识别准确率为67.8％。接着，通过伪标签过程获取第二模型，该第二模型的识别准确率提高至70.1％。最后，通过模型融合过程，进一步将识别准确率提高2％。

以上对本申请实施例提供的方法实施例进行了说明。本实施例提供的方法实施例训练得到的图像识别模型在FGVC8的public数据集上对图像所属类别的识别准确率排名第二，在private数据集上对图像所属类别的识别准确率排名第三。示例性地，通过top-1error(错误率)来指示图形识别模型的识别准确率，top-1error越小则识别准确率越高，各个模型的top-1error排名如下的表2所示：

表2

本申请实施例提供了一种图像识别模型的获取装置，参见图9，该装置包括：

获取模块901，用于获取第一样本图像和第二样本图像，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像；

训练模块902，用于基于第一样本图像训练得到第一模型；

聚类模块903，用于通过第一模型提取第二样本图像的特征向量，对特征向量进行聚类，得到聚类结果；

训练模块902，还用于基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类别。

在示例性实施例中，训练模块902，用于获取已训练的第三模型，基于第一样本图像对第三模型进行微调，得到第一模型；基于聚类结果对第三模型进行微调，得到微调后的第三模型，基于微调后的第三模型得到第二模型。

在示例性实施例中，训练模块902，用于将第二样本图像输入第一模型，得到第一模型针对第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，目标子结果用于指示任一第二样本图像属于类别标签对应的类别的概率；基于目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；基于各个类别标签对应的类别的样本图像序列训练微调后的第三模型，得到第二模型。

在示例性实施例中，训练模块902，用于在目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。

在示例性实施例中，训练模块902，用于对于任一类别标签对应的类别，从任一类别标签对应的类别的样本图像序列中获取任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于任一类别标签对应的类别的各个样本图像子集训练微调后的第三模型，得到第二模型。

在示例性实施例中，训练模块902，用于获取第一样本图像和第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于任一样本图像获取的全局图像和局部图像；对于任一样本图像，将任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定第一输出结果与第二输出结果之间的交叉熵损失；基于交叉熵损失更新第五模型，得到更新后的第五模型，基于更新后的第五模型获取第三模型。

在示例性实施例中，训练模块902，用于响应于处理资源满足条件，基于更新后的第五模型更新第四模型，得到第三模型。

在示例性实施例中，训练模块902，用于响应于处理资源不满足条件，将更新后的第五模型作为第三模型。

本申请实施例还提供了一种图像识别装置，参见图10，所述装置包括：

获取模块1001，用于获取需要识别的图像，将图像分别输入至少两个图像识别模型，得到至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，任一子结果用于指示图像属于所对应的类别的概率，任一图像识别模型基于聚类结果训练得到，聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，初始模型基于第一样本图像训练得到，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像；

加权求和模块1002，用于对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值；

识别模块1003，用于将所指示的概率最大的加权求和值对应的类别识别为图像所属的类别。

在示例性实施例中，加权求和模块1002，还用于确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示任一图像识别模型的识别准确程度；计算各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算任一图像识别模型的准确度数值与各个图像识别模型的准确度数值之和的比值，将比值确定为任一图像识别模型输出的至少两个子结果的权重。

在示例性地实施例中，装置还包括：更新模块，用于对于任一图像识别模型输出的至少两个子结果，确定至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，任一子结果所指示的概率越大，任一子结果对应的扩大倍数越大；按照扩大倍数对各个子结果进行更新，得到更新后的子结果；

加权求和模块1002，用于对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到至少两个加权求和值。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

参见图11，其示出了本申请实施例提供的一种电子设备1100的结构示意图。该电子设备1100可以是便携式移动电子设备，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1100还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)所组成的群组中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏1105所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的图像识别模型的获取方法或者图像识别方法。

在一些实施例中，电子设备1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109所组成的群组中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或Wi-Fi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置在电子设备1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在电子设备1100的不同表面或呈折叠设计；在另一些实施例中，显示屏1105可以是柔性显示屏，设置在电子设备1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位电子设备1100的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为电子设备1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以电子设备1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测电子设备1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对电子设备1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在电子设备1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在电子设备1100的侧边框时，可以检测用户对电子设备1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件所组成的群组中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置在电子设备1100的正面、背面或侧面。当电子设备1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏11011的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在电子设备1100的前面板。接近传感器1116用于采集用户与电子设备1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与电子设备1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与电子设备1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对电子设备1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供了一种电子设备，电子设备包括存储器及处理器；存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以使电子设备实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令，指令由处理器加载并执行，以使计算机实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。

本申请实施例提供了一种计算机程序或计算机程序产品，计算机程序或计算机程序产品包括：计算机指令，计算机指令被计算机执行时，使得计算机实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别模型的获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本图像训练得到第一模型，包括：

获取已训练的第三模型，基于所述第一样本图像对所述第三模型进行微调，得到所述第一模型；

所述基于所述聚类结果训练得到第二模型，包括：

基于所述聚类结果对所述第三模型进行微调，得到微调后的第三模型，基于所述微调后的第三模型得到所述第二模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述微调后的第三模型得到所述第二模型，包括：

将所述第二样本图像输入所述第一模型，得到所述第一模型针对所述第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，所述目标子结果用于指示所述任一第二样本图像属于所述类别标签对应的类别的概率；

基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；

基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列，包括：

在所述目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；

基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型，包括：

对于任一类别标签对应的类别，从所述任一类别标签对应的类别的样本图像序列中获取所述任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；

对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于所述任一类别标签对应的类别的各个样本图像子集训练所述微调后的第三模型，得到所述第二模型。

6.根据权利要求2所述的方法，其特征在于，所述获取已训练的第三模型，包括：

获取所述第一样本图像和所述第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像；

对于任一样本图像，将所述任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定所述第一输出结果与所述第二输出结果之间的交叉熵损失；

基于所述交叉熵损失更新所述第五模型，得到更新后的第五模型，基于所述更新后的第五模型获取所述第三模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述更新后的第五模型获取所述第三模型，包括：

响应于处理资源满足条件，基于所述更新后的第五模型更新所述第四模型，得到所述第三模型。

8.根据权利要求6所述的方法，其特征在于，所述基于所述更新后的第五模型获取所述第三模型，包括：

响应于处理资源不满足条件，将所述更新后的第五模型作为所述第三模型。

9.一种图像识别方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和之前，所述方法还包括：

确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示所述任一图像识别模型的识别准确程度；

计算所述各个图像识别模型的准确度数值之和；

对于任一图像识别模型，计算所述任一图像识别模型的准确度数值与所述各个图像识别模型的准确度数值之和的比值，将所述比值确定为所述任一图像识别模型输出的至少两个子结果的权重。

11.根据权利要求9所述的方法，其特征在于，所述得到所述至少两个图像识别模型输出的子结果之后，所述方法还包括：

对于任一图像识别模型输出的至少两个子结果，确定所述至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，所述任一子结果所指示的概率越大，所述任一子结果对应的扩大倍数越大；

按照所述扩大倍数对所述各个子结果进行更新，得到更新后的子结果；

所述对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值，包括：

对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到所述至少两个加权求和值。

12.一种图像识别模型的获取装置，其特征在于，所述装置包括：

训练模块，用于基于所述第一样本图像训练得到第一模型；

13.一种图像识别装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使所述电子设备实现权利要求1-8任一所述的图像识别模型的获取方法或权利要求9-11任一所述的图像识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现权利要求1-8任一所述的图像识别模型的获取方法或权利要求9-11任一所述的图像识别方法。