CN111382781A

CN111382781A - 获取图像标签的方法、训练图像识别模型的方法和装置

Info

Publication number: CN111382781A
Application number: CN202010109046.2A
Authority: CN
Inventors: 李�昊; 张晓鹏; 田奇; 王子辰; 唐福辉; 韩建华; 钮敏哲
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-07-07
Anticipated expiration: 2040-02-21
Also published as: CN111382781B

Abstract

本申请提供利用人工智能技术的图像处理领域中的获取图像标签的方法、训练图像识别模型的方法、图像识别方法和相关装置。本申请提供的方法中，获取到一般类别图像属于多种精细粒度类别中每种精细粒度类别的概率之后，计算这些类别基于对应的概率的熵信息，并在熵小于或等于预设的阈值时，根据这些精细粒度类别对应的概率确定该一般类别图像的精细粒度类别，以便于使用该一般类别图像和其精细粒度类别对精细图像识别模型进行训练。本申请的技术方案可以提高精细图像识别模型的性能。

Description

获取图像标签的方法、训练图像识别模型的方法和装置

技术领域

本申请涉及图像处理领域，并且更具体地，涉及获取图像标签的方法，训练图像识别模型的方法、图像识别方法和相关装置。

背景技术

精细图像识别(fine-grained visual categorization，FGVC)，又被称作子类别的图像识别(sub-category recognition)，是近年来计算机视觉、模式识别等领域一个非常热门的研究课题，其目的是对粗粒度的大类别进行更加细致的子类划分。

精细图像识别相对通用图像(general/generic images)识别，或者说相对于粗粒度的图像识别的区别和难点在于图像所属类别的粒度更为精细。例如，通用的图像识别的目标是将“袋鼠”和“狗”这两个物体大类分开；而精细图像识别则要求对“狗”这个类别下细粒度的子类进行辨识，即识别图像中的狗为“哈士奇”或“爱斯基摩犬”。

与通用图像识别类似，可以使用精细图像识别模型来实现精细图像识别。用于实现精细图像识别的精细图像识别模型是使用标注了精细粒度类别的训练图像对图像识别模型进行训练得到的。例如，使用类别标签为“信天翁”和类别标签为“丽彩鹀”的图像对图像识别模型进行训练，可以得到能够对图像中的鸟的精细粒度类别进行像识别的模型。又如，使用类别标签为“风信子”和类别标签为“紫罗兰”的图像对图像识别模型进行训练，可以得到能够对图像中的狗的精细粒度类别进行识别的模型。

一般来说，训练图像规模越大，即训练数据越多，训练得到的精细图像识别模型越不会出现过拟合问题。过拟合是指精细图像识别模型对训练图像进行识别时有较高的识别率，对测试图像进行识别时识别率却比较低。

目前，图像的精细粒度类别一般是由专业领域的人员人工标注的，这需要耗费较多的时间以及人力成本等。这种高成本的方法导致现存的精细粒度图像数据集较少，且规模也不大，从而导致训练得到的精细图像识别模型容易出现过拟合的问题，进而导致训练得到的精细图像识别模型的性能较低。

发明内容

本申请提供的获取图像标签的方法、训练图像识别模型的方法和相关装置，有助于提高精细图像识别模型的性能，从而提高图像识别的准确率。

第一方面，本申请提供一种获取图像标签的方法，该方法包括：获取第一类别推测信息，所述第一类别推测信息用于表示第一图像的类别为M种精细粒度类别中每种精细粒度类别的概率，M为正整数；根据所述第一类别推测信息，确定所述M种精细粒度类别基于所述M种精细粒度类别对应的M个概率的熵；所述熵小于或等于预设的阈值时，根据所述第一类别推测信息确定所述第一图像的目标类别标签信息，所述目标类别标签信息用于表示第一图像的目标精细粒度类别。

现有技术中，精细图像识别模型的训练图像是通过人工标注精细粒度类别得到的，费时费力，成本太高，导致训练数据较小，从而导致训练得到的精细图像识别模型容易出现过拟合的问题。本申请的方法中，因为可以使用较少的成本就能获取到大量的一般类别图像，所以使用本申请的方法可以自动识别一般类别图像的精细粒度类别，从而可以得到大量的精细粒度图像，进而可以使用大量的精细粒度图像对精细图像识别模型进行训练，以减小精细图像识别模型出现过拟合问题。

此外，本申请中，因为获取第一图像为各个精细粒度类别的概率后，不是直接利用该概率确定第一图像的精细粒度类别，而是根据该概率的信息熵进行筛选，以降低将错误的精细粒度类别确定为第一图像的精细粒度类别，从而可以提高根据一般类别图像得到的精细粒度类别图像的准确率，进而可以提高训练得到的精细图像识别模型的性能。

也就是说，本申请的方法对图像进行精细粒度类别标注后，使用该图像对精细图像识别模型训练时，在避免精细图像识别模型过拟合的同时，还可以保证精细图像识别模型的识别准确率，最终提高精细图像识别模型的性能。

结合第一方面，在第一种可能的实现方式中，所述获取第一类别推测信息，包括：获取所述第一图像的K个部位特征，K为大于1的整数，所述K个部位特征中，任意两个部位特征中包括不同的特征；根据所述K个部位特征确定第一评分信息，所述第一评分信息用于表示所述K个部位特征中每个部位特征的类别为所述每种精细粒度类别的评分；根据所述第一评分信息确定所述第一类别推测信息。

若确定第一图像的类别为M种精细粒度类别中每个类别的概率时，仅根据第一图像的一个特征来推测该图像的精细粒度类别，则当第一图像中的该特征与第一图像实际属于的类别的图像中的特征有少量差别时，会出现不能正确推测第一图像属于各个类别的概率的问题，从而导致计算的熵不准确，进而导致为第一图像确定的目标类别标签信息不准确，最终导致使用第一图像和其目标类别标签信息训练精细图像识别模型时，该精细图像识别模型准确率不高。

而本申请的方法中，获取第一图像的多个部位特征，并推测每个部位特征属于每个精细粒度类别的评分。这样，在推测第一图像的类别时，可以根据多个部位特征分别属于各个精细粒度类别的评分来确定该第一图像属于各个类别的概率。这使得即使第一图像中的某个部位特征与第一图像实际所属的类别的图像中的对应部位特征有差别，仍然可以根据其他部位特征识别出第一图像的精细粒度类别，从而可以提高训练后的精细图像识别模型的识别率。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述获取第一类别推测信息，包括：使用精细图像识别模型对所述第一图像进行识别，得到所述第一类别推测信息，其中，所述精细图像识别模型中的参数是根据第二评分信息进行调整得到的，所述第二评分信息用于表示第一特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第二评分信息是所述精细图像识别模型的分类器根据第一特征集确定的，所述第一特征集是所述精细图像识别模型的特征提取层从第二图像中提取的，所述第一特征集中包括所述第二图像的K个部位特征，所述第二图像的类别为所述M种精细粒度类别中的第一类别。

结合第二种可能的实现方式，在第三种可能的实现方式中，所述精细图像识别模型中的参数是根据第二评分信息进行调整得到的，包括：所述精细图像识别模型中的参数是根据所述第二评分信息和第三评分信息进行调整得到的，所述第三评分信息用于表示第二特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第三评分信息是所述精细图像识别模型中的分类器根据第二特征集确定的，所述第二特征集是去掉所述第一特征集中的每个部位特征中的第一特征得到的，所述第一特征为所述第一特征集中的第一部位特征所包含的特征

精细图像识别模型获取的多个部位特征中，部分部位特征很可能因为包含了高评分的部位特征中的特征而得到高评分，这会使得一些有区别性但区别性较弱的部位特征的评分较低，从而使得第一精细图像识别模型学习不到第二图像中这些区别性相对较弱的部位特征。

但精细图像识别中，不同类别之间通常更需要通过微小的差别来区分，因此，使用该实现方式的方法来训练第一精细图像识别模型，由于去除了评分较高的部位特征的影响，即去除了最显著特征的影响，因此使得第一精细图像识别模型可以更好地学习到第一类别的第二图像中的其他具有区别性的部位特征，从而使得第一精细图像识别模型可以学习到更多的不同的区别特征，进而可以提高第一精细图像识别模型的识别率，相应地，可以提高第一图像的类别识别结果的准确性，最终可以提高第二精细图像识别模型的性能。

结合第三种可能的实现方式，在第四种可能的实现方式中，所述第一部位特征为所述第一特征集中评分最高的部位特征。

第二方面，本申请提供一种训练图像识别模型的方法，所述方法包括：获取第二图像；使用所述图像识别模型的特征提取层获取所述第二图像的第一特征集，所述第一特征集中包括所述第二图像的K个部位特征，K为大于1的整数；使用所述图像识别模型的分类器，根据所述第一特征集确定第二评分信息，所述第二评分信息用于指示所述第一特征集中每个部位特征的类别为M种类别中每种类别的评分；根据所述第二评分信息，调整所述图像识别模型的参数。

图像识别模型中的分类器执行分类任务时，仅根据第二图像的一个特征来推测该图像的类别，即仅推测第二图像的一个特征的类别为各个类别的评分，并将该评分作为该第二图像的类别为各个类别的评分，则当待识别图像中的特征与图像识别模型从第二图像中学习到的图像特征有少量差别时，会出现图像识别模型不能正确识别待识别图像的类别的问题，从而导致图像识别模型识别率不高。

针对上述问题，本申请提出如下技术方案：通过图像识别模型提取第二图像的多个部位特征，并推测每个部位特征属于每个精细粒度类别的评分。这样，在推测待识别图像的类别时，可以根据多个部位特征分别属于各个类别的评分来确定该图像的目标类别。这使得即使待识别图像中的某个部位特征与第二图像中的对应部位特征有差别，图像识别模型仍然可以根据其他部位特征识别出该待识别图像的类别，从而可以提高图像识别模型的识别率。

结合第二方面，在第一种可能的实现方式中，所述方法还包括：去掉所述第一特征集中的每个部位特征中的第一特征，得到第二特征集，所述第一特征为所述第一特征集中第一部位特征所包含的特征；使用所述图像识别模型的分类器，根据所述第二特征集确定第三评分信息，所述第三评分信息用于指示所述第二特征集中每个部位特征的类别为所述M种类别中每种类别的评分；其中，所述根据所述第二评分信息，调整所述第一精细图像识别模型的参数，包括：根据所述第二评分信息和所述第三评分信息，调整所述第一精细图像识别模型的参数。

图像识别模型获取的多个部位特征中，部分部位特征很可能因为包含了其他部位特征中的特征而得到高评分，这会使得一些有区别性但区别性较弱的部位特征的评分较低，从而使得图像识别模型学习不到第二图像中这些区别性相对较弱的部位特征。

因此，使用该实现方式的方法来训练图像识别模型，由于去除了第一部位特征的影响，因此使得图像识别模型可以更好地学习到第一类别的第二图像中的其他具有区别性的部位特征，从而使得图像识别模型可以学习到更多的不同的区别特征，进而可以提高图像识别模型的识别率。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述第一部位特征为所述第一特征集中评分最高的部位特征。

图像识别模型获取的多个部位特征中，部分部位特征很可能因为包含了评分最高的部位特征中的特征而得到高评分，这会使得一些有区别性但区别性较弱的部位特征的评分较低，从而使得图像识别模型学习不到第二图像中这些区别性相对较弱的部位特征。

因此，使用该实现方式的方法来训练图像识别模型，由于去除了评分较高的部位特征的影响，即去除了最显著特征的影响，因此使得图像识别模型可以更好地学习到第一类别的第二图像中的其他具有区别性的部位特征，从而使得图像识别模型可以学习到更多的不同的区别特征，进而可以提高图像识别模型的识别率。

第三方面，本申请提供一种图像识别方法，该方法包括：获取第一图像；使用图像识别模型对所述第一图像进行识别，以得到所述第一图像的类别，其中，所述图像识别模型中的参数是根据第二评分信息和第三评分信息进行调整得到的，所述第二评分信息用于表示第一特征集中每个部位特征的类别为M种精细粒度类别中每种精细粒度类别的评分，且所述第二评分信息是所述图像识别模型的分类器根据第一特征集确定的，所述第一特征集是所述图像识别模型的特征提取层从所述第一图像中提取的，所述第三评分信息用于表示第二特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第三评分信息是所述图像识别模型中的分类器根据所述第二特征集确定的，所述第二特征集是去掉所述第一特征集中的每个部位特征中的第一特征得到的，所述第一特征为所述第一特征集中的第一部位特征所包含的特征，K为大于1的整数，M为正整数。

因为图像识别模型是使用第二方面中的方法训练得到的，因此对图像进行识别时，可以得到更准确的识别结果。

结合第三方面，在第一种可能的实现方式中，所述第一部位特征为所述第一特征集中评分最高的部位特征。

第四方面，本申请提供了一种获取图像标签的装置，该装置包括用于执行第一方面或其中任意一种实现方式中的各个步骤的模块。

第五方面，本申请提供了一种训练图像识别模型的装置，该装置包括用于执行第二方面或其中任意一种实现方式中的各个步骤的模块。

第六方面，本申请提供了一种图像识别装置，该装置包括用于执行第三方面或其中任意一种实现方式中的各个步骤的模块。

第七方面，本申请提供了一种获取图像标签的装置，该装置包括：存储器，用于存储指令；处理器，用于执行所述存储器存储的指令，当所述存储器存储的指令被执行时，所述处理器用于执行第一方面或其中任意一种实现方式中的方法。

第八方面，本申请提供了一种训练图像识别模型的装置，该装置包括：存储器，用于存储指令；处理器，用于执行所述存储器存储的指令，当所述存储器存储的指令被执行时，所述处理器用于执行第二方面或其中任意一种实现方式中的方法。

第九方面，本申请提供了一种图像识别模装置，该装置包括：存储器，用于存储指令；处理器，用于执行所述存储器存储的指令，当所述存储器存储的指令被执行时，所述处理器用于执行第三方面或其中任意一种实现方式中的方法。

第十方面，本申请提供一种计算机可读介质，该计算机可读介质存储用于设备执行的指令，该指令用于实现第一方面或其中任意一种实现方式中的方法。

第十一方面，本申请提供一种计算机可读介质，该计算机可读介质存储用于设备执行的指令，该指令用于实现第二方面或其中任意一种实现方式中的方法。

第十二方面，本申请提供一种计算机可读介质，该计算机可读介质存储用于设备执行的指令，该指令用于实现第三方面或其中任意一种实现方式中的方法。

第十三方面，本申请提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第一方面或其中任意一种实现方式中的方法。

第十四方面，本申请提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第二方面或其中任意一种实现方式中的方法。

第十五方面，本申请提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第三方面或其中任意一种实现方式中的方法。

第十六方面，本申请提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第一方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第二方面或其中任意一种实现方式中的方法。

第十七方面，本申请提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第二方面或其中任意一种实现方式中的方法。

第十八方面，本申请提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第三方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第三方面或其中任意一种实现方式中的方法。

第十九方面，本申请提供了一种计算设备，计算设备包括处理器和存储器，其中：存储器中存储有计算机指令，处理器执行计算机指令，以实现第一方面或第二方面或其中任意一种实现方式中的方法。

第二十方面，本申请提供了一种计算设备，计算设备包括处理器和存储器，其中：存储器中存储有计算机指令，处理器执行计算机指令，以实现第二方面或其中任意一种实现方式中的方法。

第二十一方面，本申请提供了一种计算设备，计算设备包括处理器和存储器，其中：存储器中存储有计算机指令，处理器执行计算机指令，以实现第三方面或其中任意一种实现方式中的方法。

附图说明

图1是本申请的训练图像识别模型的方法的一个示例性流程图；

图2是本申请的训练图像识别模型的方法的另一个示例性流程图；

图3是本申请的训练图像识别模型的方法的另一个示例性流程图；

图4是本申请的训练图像识别模型的方法的另一个示例性流程图；

图5是本申请的训练图像识别模型的方法的另一个示例性流程图；

图6是本申请的图像识别方法的一种示例性流程图；

图7为本申请的图像识别模型的识别率与图像识别模型推测的类别的熵之间的关系示例图；

图8是本申请的训练图像识别模块的装置的一个示例性结构图；

图9是本申请的训练图像识别模块的装置的另一个示例性结构图；

图10是本申请的图像识别装置的一个示例性结构图；

图11是本申请的执行装置的一个示例性结构图。

具体实施方式

下面先对本申请实施例中的一些用语进行解释。

精细粒度类别是与粗粒度类别相对而言的。具体的，将一种类别作为粗粒度类别时，这种类别的子类就可以称为精细粒度类别。

例如，将一般类别作为粗粒度类别时，精细粒度类别是指一般类别的子类。以一般类别为鸟类为例，精细粒度类别可以是黑背信天翁、白腹蓝彩鹀或丽彩鹀。

使用精细粒度类别标注的图像称为精细粒度图像，使用粗粒度类别标注的图像称为粗粒度图像。

一般类别识别，也可以称为通用类别识别，指对物体进行识别，得到物体的一般类别，即得到物体的粗粒度类别。例如，识别出某物体属于狗、猫、鸟、车或花等哪个类别的操作可以称为一般类别识别。

精细粒度识别，简称为细粒度识别，指对物体进行识别，得到物体的精细粒度类别。对图像进行精细粒度识别称为精细图像识别。

可以理解的是，本申请中的图像的类别包括图像中的物体的类别。例如，识别出一个图像的类别为黑背信天翁类别、白腹蓝彩鹀类别和丽彩鹀类别中哪个类别的操作可以称为精细图像识别。

同一个一般类别下的不同精细粒度类别的图像(物体)拥有相同的属性，但每个属性的信息不同。例如，鸟作为一般类别时，所有子类别的鸟都拥有头部、翅膀和鸟爪等属性，只不过不同子类别的鸟的头部、翅膀或鸟爪属性的信息不同。通常来说，物体的一个属性对应物体的一个部件，或者说对应物体的一个部位。

下面对本申请提出的方法和装置的应用场景进行示例性介绍。

应用场景1：动植物识别

使用本申请的方法获取图像标签之后，根据该图像标签对图像识别模型进行训练，以得到动植物的精细图像识别模型。这样，在利用智能终端摄像头采集包含动植物的图像之后，可以使用该精细图像识别模型对该图像进行识别，从而得到动植物的精细粒度类别。

例如，使用本申请的方法获取图像的乌黑信天翁、黑背信天翁或丽彩鹀等标签之后，使用该图像和该标签训练图像识别模型，以得到鸟的精细图像识别模型。这样，智能手机的摄像功能采集包含鸟的图像之后，可以使用该精细图像识别模型对该图像进行识别，以获知该图像中的鸟是乌黑信天翁、黑背信天翁还是丽彩鹀。

例如，使用本申请的方法获取图像的风信子、梅花或紫罗兰等标签之后，使用该图像和该标签训练图像识别模型，从而可以得到花的精细图像识别模型。这样，智能手机的摄像功能采集包含花的图像之后，可以使用该精细图像识别模型对该图像进行识别，以获知该图像中的花是风信子、梅花还是紫罗兰。

例如，使用本申请的方法获取图像的贵宾犬、吉娃娃或哈士奇标签之后，使用该图像和该标签训练图像识别模型，以得到狗的精细图像识别模型。这样，智能手机的摄像功能采集包含狗的图像之后，可以使用该精细图像识别模型对该图像进行细粒度识别，以获知该图像中的狗是贵宾犬、吉娃娃还是哈士奇。

应用场景2：交通标志识别

交通标志识别是现在的辅助驾驶、无人驾驶中重要的一环。例如，交通标志识别能够为驾驶员提供警示、指示等辅助信息，在驾驶过程中辅助驾驶员，对行车安全有极大的帮助。又如，在无人驾驶中，交通标志识别能够给系统提供信息，辅助系统进行驾驶决策。

一般来说，可以通过车身上的图像采集装置采集到交通标志图像，然后使用精细图像识别模型识别该图像中的交通标志，并以此警示驾驶员或辅助无人系统进行下一步的行驶决策。

在使用精细图像识别模型识别图像中的交通标志的精细粒度类别之前，可以使用本申请的方法获取图像的精细粒度类别标签，并使用该图像和该标签对图像识别模型进行训练，从而得到该精细图像识别模型。

例如，可以使用本申请的方法对图像识别模型进行训练，从而得到交通标志的精细图像识别模型。该精细图像识别模型对包含交通标志的图像进行精细粒度识别之后，可以推测该交通标志的精细粒度类别为禁止向右行驶、禁止前行、禁止通行、禁止向左拐弯、减速让行、停车让行、禁止超车、限制速度、禁止行人穿行或限制高度等等。

应用场景3：车辆识别

在无人驾驶中，准确的车辆分类信息有助于无人车系统做出下一步的行驶决策，是无人驾驶技术中的重要一环。

因此，可以使用本申请的方法获取车辆的精细粒度类别标签，使用该图像和该标签对图像识别模型进行训练，从而可以得到能够车的精细图像识别模型。该精细图像识别模型对包含汽车的图像进行识别之后，可以推测该汽车的精细粒度类别为进行奥迪A6、劳斯莱斯幻影、宾利慕尚或讴歌等。

下面将结合附图，对本申请中的技术方案进行描述。

图1是本申请训练图像识别模型的方法的一种示例性流程图。如图1所示，该方法可以包括S110至S150。

S110，使用图像识别模型的特征提取层获取第二图像的第一特征集，所述第一特征集中包括所述第二图像的K个部位特征，K为大于1的整数。

该图像识别模型中可以包括多个子模型，其中一个子模型包括特征提取层，该子模型可以称为特征提取子模型。例如，该图像识别模型中可以包括ResNet-101或VGG-Net等特征提取子模型，以对第二图像进行特征提取，得到第二图像的特征图，该特征图中包含第二图像的K个部位特征，第二图像为待识别图像，第二图像的K个部位特征为第二图像上的K个部位的特征。

第二图像的类别可以是任意一个一般类别，相应地，该图像识别模型可以是一般类别的识别模型；或者，第二图像的类别也可以是一般类别下的任意一个精细粒度类别，相应地，该图像识别模型可以是精细粒度类别的识别模型。

S120，使用所述图像识别模型的分类器，根据所述第一特征集确定第二评分信息，所述第二评分信息用于指示所述第一特征集中每个部位特征的类别为M种类别中每种类别的评分，M为正整数。

换句话说，使用分类器根据第二图像的多个部位特征执行分类任务。该分类任务包括计算第二图像的多个部位特征的评分。

这M种类别分别可以是一般类别，也可以分别是同一个一般类别下的精细粒度类别。其中，第二图像的真实类别为这M种类别中的一种。

本实施例中，第一特征集中每个部位特征的类别为M种类别中每种类别的评分，也可以理解为第一特征集中每个部位特征包含M种类别中每种类别的部位特征的评分。

S130，去掉第一特征集中的每个部位特征中的第一特征，得到第二特征集，所述第一特征为所述第一特征集中第一部位特征所包含的特征。

也就是说，确定第一特征集中的第一部位特征，然后将第一特征集中除第一特征以外的其他部位特征中所包含的属于第一特征内的特征擦除掉。

可以理解的是，在擦除第一特征的同时，可以同步修改第一类别标签信息，使得修改后得到的第一类比标签信息中的第一评分最低，第一评分为第二图像包括第一特征的评分。

S140，使用所述图像识别模型的分类器，根据所述第二特征集确定第三评分信息，所述第三评分信息用于指示所述第二特征集中每个部位特征的类别为所述M种类别中每种类别的评分。

S150，根据所述第二评分信息和所述第三评分信息，调整所述图像识别模型的参数。

也就是说，根据当前从第二图像中获取的每个部位特征的评分，来调整图像识别模型的参数，以使得图像识别模型下一次从第二图像中获取的每个部位特征的评分更高，从而达到学习第二图像中的多个部位特征的目的，即实现训练图像识别模型的目的。

该方法中，由于图像识别模型学习到的是第二图像的多个部位特征，这使得即使待识别图像中的某个部位特征与第二图像中的对应部位特征有差别，图像识别模型仍然可以根据其他部位特征识别出该待识别图像的类别，从而可以提高图像识别模型的识别率。

例如，可以计算第二评分信息中的评分相比较于第二图像的第一类别标签信息中相应评分的损失值，然后根据该损失值调整图像识别模型的参数。若损失值过大，则调整图像识别模型的参数，以使得下一次的损失值更小。

本申请的训练方法中，可以获取更多相同类别和不同类别的第二图像来执行图1中所示的方法来训练图像识别模型。

在一些实现方式中，可以从第一特征集中选出评分最高一个部位特征，将该部位特征称为第一部位特征，并将第一特征集中的每个部位特征中所包含的属于第一部位特征的特征；计算进行擦除处理得到的每个部位特征的评分，即计算新的每个部位特征包含每个类别的部位特征的评分；根据这些评分调整图像识别模型的参数。然后，将擦除处理后得到的所有部位特征当作第一特征集，重复执行擦除特征、计算评分和调整参数的操作，直到所有特征被擦除掉。

本实施例中，评分最高的部位特征也可以理解为图像识别模型当前聚焦的部位特征。

图像识别模型获取的多个部位特征中，部分部位特征很可能因为包含了高评分的部位特征中的特征而得到高评分，这会使得一些有区别性但区别性较弱的部位特征的评分较低，从而使得图像识别模型学习不到第二图像中这些区别性相对较弱的部位特征。

图1所示的方法中，可以重复执行S130和S140，得到多个第三评分信息，并在S150中根据这些第三评分信息调整图像识别模型的参数。

本申请训练图像识别模型的方法的一种示例性实现方式的流程图如图2所示。由图2可知，图像识别模型对第二图像进行特征提取之后，可以获取M*K个特征图，这M*K个特征图与这是因为此时并不知道第二图像是何种类别的图像，也就不确定第二图像中包括拿哪K个部位特征，因此，要想判断第二图像中包含的K个部位特征中每个部位特征所以，针对依次将M种类别中每种类别的的图像，然后按照每个类别的部位特征提取方式来对第二图像进行特征提取。

将第二图像作为一种类别的图像，可以提取到K个特征图，因此，将第二图像作为M种类别的图像，总共可以提取得到M*K个特征图。

获取到第二图像的M*K个特征图之后，将这M*K个特征图与M*K个部位特征作比较，这M*K个特征图与这M*K个部位特征一一对应，这M*K个部位特征中，每K个部位特征为M种类别中每种类别的K个部位特征，每个类别的K个部位特征与该类别的图像上的K个部位相对应，每个部位特征表示对应的部位的特征。通常情况下，不同类别的K个部分特征对应K个部位相同。例如，乌黑信天翁这个类别包括三个部位特征，分别为头部、背部和爪部的特征；黑腹信天翁这个类别也包括三个部位特征，也分别为头部、背部和爪部的特征。

将这M*K个特征图与这M*K个部位特征作比较之后，可以得到每个特征图中包含其对应的部位特征内特征的评分，评分越高，说明包含的对应特征越多。根据M*K个特征图可以计算得到M*K个评分，这M*K个评分与这M*K个特征图一一对应。

计算得到M*K个评分之后，可以根据该评分与第二图像的第一类别标签信息中的M*K个评分，调整图像识别模型的参数。其中，第二图像的第一类别标签信息中的M*K个评分也与M种类别的M*K个部位特征一一对应，且第二图像为第一类别时，这M*K个评分中，与第一类别的K个部位特征对应的K个评分较高，与其他类别的部位特征对应的评分较低。

根据该评分与第二图像的第一类别标签信息中的M*K个评分调整图像识别模型的参数后，重新使用该图像识别模型对第二图像进行评分计算所得到的评分中，与第一类别的K个部位特征对应的K个评分应增大，而其他评分应减少。

这M*K个部位特征的初始值可以随机设置，随着图像识别模型的训练，每次计算评分之后，可以更新这M*K个部位特征，并将评分最高的K个特征图中的特征作为第一类别的K个部位特征。

图2所示的实现方式中，图像识别模型还可以根据M*K个评分计算第二图像中的K个部位特征中的每个特征图所包含的特征的类别为M种类别中每种类别的概率。例如，可以根据所有类别中相同部位对应的部位特征来计算第二图像中该部位对应的部位特征的类别为各个类别的概率，针对K个部位，则可以计算得到第二图像的K个部位特征中每个部位特征的类别为各个类别的概率。

计算第二图像的一个部位特征的类别为各个类别的概率时，可以通过公式(1)来实现：

其中，q_i表示该部位特征属于第i个类别的概率，z_i表示该部位特征属于第i个类别的评分，T为预设的超参数，通常可以设为1。

本申请中，图1或图2所示的训练方法可以称为部位特征(部件特征或属性特征)的学习操作，可以简称为属性学习。

本申请中，图1或图2所示的方法可以应用在精细图像识别场景中。在精细图像识别场景中，第二图像的类别为精细粒度类别，第二图像可以是精细粒度数据集中的图像。例

精细粒度数据集可以包括CUB-200-2011数据集、斯坦福汽车(Standford Cars)数据集或飞行器(FGVC-aircraft)数据集。

CUB-200-2011数据集是由加州理工学院在2010年提出的精细粒度数据集，也是目前精细粒度分类识别研究的基准图像数据集。该数据集共有11788张鸟类图像，包含200个鸟类子类，其中，训练数据集有5994张图像，测试集有5794张图像，每张图像均提供了图像类标记信息，图像中鸟的边框信息，鸟的关键部件信息，以及鸟类的属性信息。

Stanford Cars数据集由斯坦福(Stanford)大学发布，包含196类，共16185张汽车图片，其中，8144张为训练数据，8041张为测试数据，每个类别按照年份、制造商、型号进行区分，例如：2012年-特斯拉-Model-S。

FGVC-Aircraft数据集包含100类飞行器图像，共10000张图像。

图3为本申请获取图像标签的方法的另一个示例性流程图。如图3所示，该方法可以包括S310至S330。

S310，获取第一类别推测信息，所述第一类别推测信息用于表示第一图像的类别为M种精细粒度类别中每种精细粒度类别的概率，M为正整数。

例如，第一图像可以是粗粒度类别的图像，例如可以是一般类别的图像。一般类别可以为鸟、狗、花、车、路标等等。一般类别为鸟时，这M种精细粒度类别可以包括乌黑信天翁、黑背信天翁和丽彩鹀等。一般类别为花时，这M种精细粒度类别可以包括风信子、梅花和紫罗兰等。一般类别为狗时，这M种精细粒度类别可以包括贵宾犬、吉娃娃和哈士奇等。

该步骤可以称为部位特征(部件特征或属性特征)的挖掘操作，可以简称为属性挖掘。

S320，根据所述第一类别推测信息，确定所述M种精细粒度类别基于所述M种精细粒度类别对应的M个概率的熵。

在信息论中，熵代表着信源的不确定性，或者说代表某种事件发生的不确定性，熵越大，说明越不确定，反之，熵越小，说明越确定。

针对本实施例的方法，M种精细粒度类别基于对应的概率的熵可以理解为：这M种精细粒度类别基于这些概率的不确定性。熵越大，说明这M种精细粒度类别对应的M个概率的分布越均匀，第一图像的类别为这M种精细粒度类别中的某一种的类别的不确定性越大；反之，熵越小，说明这M种精细粒度类别对应的M个概率的分布越不均匀，第一图像的类别为这M种精细粒度类别中的一种类别的不确定性越小。

S330，所述熵小于或等于预设的阈值时，根据所述第一类别推测信息确定所述第一图像的目标类别标签信息，所述目标类别标签信息用于表示第一图像的目标精细粒度类别。

图4为本实施例的熵的一个示例图。图4上部的图中的6个条形中每个条形图表示第一图像的类别为6种精细粒度类别中的一种精细粒度类别的概率，每个条件图的高度表示第一图像属于对应的精细粒度类别的概率大小。图4上部的图中，根据这6个概率计算得到的第一图像的类别为这6种精细粒度类别的熵值为0.411。

图4下部的图中的6个条形中每个条形图表示第一图像的类别为6种精细粒度类别中的一种精细粒度类别的另一概率，每个条件图的高度表示第一图像属于对应的精细粒度类别的概率大小。图4下部的图中，根据这6个概率计算得到的第一图像的类别为这6种精细粒度类别的熵值为3.118。

如图4所示，第一图像的属于M个精细粒度类别的概率分布越平均，则第一图像属于各个精细粒度类别的不确定性越大，熵越大，则将该第一类别推测信息作为第一图像的精细粒度类别标签越有可能伤害第二精细图像识别模型。反之，说明第一图像属于M种精细粒度类别中各个类别的概率分布不均匀，即第一图像属于其中某个类别的可能性更大，熵越小，此时，可以根据第一类别推测信息确定第一图像的目标精细粒度类别。

本申请中，S320和S330可以合称为熵值筛选。

本实施例中，根据所述第一类别推测信息确定所述第一图像的目标类别标签信息时，在一些实现方式中，可以将最大概率对应的精细粒度类别作为第一图像的目标精细粒度类别；在另一些实现方式中，可以将第一类别推测信息作为第一图像的目标类别标签信息。

本实施例的一种可能的实现方式中，如图5所示，S310可以包括：S311，获取所述第一图像的K个部位特征，K为大于1的整数，所述K个部位特征中，任意两个部位特征中包括不同的特征；S312，根据所述K个部位特征确定第一评分信息，所述第一评分信息用于表示所述K个部位特征中每个部位特征的类别为所述每种精细粒度类别的评分；S313，根据所述第一评分信息确定所述第一类别推测信息。其中，可以根据公式(1)实现S313。

图5所示的方法中，获取第一图像的多个部位特征，并推测每个部位特征属于每个精细粒度类别的评分。这样，在推测第一图像的类别时，可以根据多个部位特征分别属于各个精细粒度类别的评分来确定该第一图像属于各个类别的概率。这使得即使第一图像中的某个部位特征与第一图像实际所属的类别的图像中的对应部位特征有差别，仍然可以根据其他部位特征识别出第一图像的精细粒度类别，从而可以提高训练后的精细图像识别模型的识别率。

本实施例的一种可能的实现方式中，该图像识别模型可以通过图1或图3所示的方法训练得到。可以理解，该图像识别模型也可以通过其他方法训练得到，本实施例对此不做限制，例如可以通过现有技术中的方法训练得到。

若该图像识别模型通过图1或图3所示的方法训练得到，则可以提高第一图像的精细粒度类别的准确率，最终可以提高被第一图像和其精细粒度类别训练的精细图像识别模型的识别率，即提高该精细图像识别模型的性能。

本申请的另一个实施例中，还提出了一种训练精细图像识别模型的方法，该方法包括使用第一图像和第一图像的目标类别标签信息来训练精细图像识别模型。根据第一图像和其目标类别标签信息对精细图像识别模型进行训练，可以理解为将第一图像中的部位特征(部件特征或属性特征)迁移到该精细图像识别模型，该操作可以称为属性迁移。

该实施例中，获取第一图像的目标类别标签信息的精细图像识别模型与使用第一图像的目标类别标签信息进行训练的精细图像识别模型可以是同一个模型。这种情况下，第一图像的目标类别标签信息可以是第一图像的第一类别推测信息。

本申请另一个实施例的训练图像识别模型的方法中，在使用第一图像和第一图像的目标类别标签信息来训练精细图像识别模型之后，还可以使用第二图像对该精细图像识别模型进行训练。这样可以对该精细图像识别模型的参数进行微调，从而提高该精细图像识别模型的性能。该步骤可以理解为图像识别模型的微调。

图6为本申请的图像识别方法的一种示例性流程图。该方法包括S610至S630。

S610，获取第一图像的K个部位特征，K为大于1的整数，所述K个部位特征中，任意两个部位特征中包括不同的特征。第一图像为待识别图像。

S620，使用所述图像识别模型确定所述第一图像的第一类别推测信息，所述第一类别推测信息用于指示所述K个部位特征中的每个部位特征的类别为M种类别中每种类别的概率，M为正整数。

S630，根据所述第一类别推测信息确定所述第一图像的类别。

该方法中，由于图像识别模型可以获取第一图像的多个部位特征，并确定这多个部位特征中每个部位特征为各个类别的评分，从而使得在推测第一图像的类别时，可以根据这多个部位特征分别属于各个类别的评分来确定该图像的目标类别。这样，即使待识别图像中的某个部位特征与第一图像中的对应部位特征有差别，图像识别模型仍然可以根据其他部位特征识别出该待识别图像的类别，从而可以提高图像识别模型的识别率。

执行该方法的图像识别模型可以是图1至图3中任一图所示的方法训练得到的图像识别模型。

本申请的又一个实施例中，训练精细图识别模型时，可以包括属性学习、属性挖掘、熵值筛选和属性迁移几个步骤。其中，对一般类别图像的属性学习、属性挖掘和属性迁移是基于ResNet-101网络模型进行的。

例如，使用ResNet-101网络模型学习精细粒度图像中的属性级特征。具体地，可以通过迭代地从ResNet-101网络模型提取的特征图上擦除当前卷机神经网络聚焦的属性特征，从而可以引导ResNet-101网络模型学习到图像上的多个属性特征。

然后使用ResNet-101网络模型对一般类别图像进行属性挖掘，得到一般类别图像的属性级特征，并根据学习到的属性特征和挖掘到的属性特征，通过公式(1)为一般类别图像产生基于属性特征级别的软标签。

进行熵值筛选时，首先计算上一步生成的软标签的熵值，并过滤掉那些熵值大的一般类别图像，这样可以挑选出对精细图像识别模型有帮助的样本，同时提高模型对噪声的鲁棒性。通常来说，可以将熵的阈值设置为2.5。

熵值筛选之后，使用过滤得到的一般类别图像对ResNet-101网络模型进行预训练，然后再用包含精细粒度类别图像的数据集去微调预训练好的模型，从而得到最后的精细图像识别模型。

该实施例中，一般类别图像可以是鸟、狗或飞行器相关的图像。本申请的训练方法可以在互联网上爬取大量的带有“鸟”、“狗”或“飞行器”的图像数据，其中“鸟”、“狗”或“飞行器”即为这些数据的一般类别标签。

本实施例学习不同精细粒度种类间属性级别的差异性并进行属性级别的特征迁移，且利用了一般类别标签的数据，此外，熵值筛选保证了推测得到的精细粒度图像的有益性，提高了模型的鲁棒性。

表1为使用本实施例的方法和其他方法基于目前精细粒度识别常用的三个数据集对精细图像识别模型进行训练以及测试得到的结果。

表1多种训练方法在三个数据集上的测试识别率

表1中，“-”表示未公布在此数据集上的测试结果，“Using NA-birds”表示在ResNet-101上使用标注好的精细粒度数据集“NA-birds”。A3M、MAMC、RA-CNN或MA-CNN方法在使用卷积神经网络提取特征的同时，使用了注意力机制去引导网络学习图像中重要的前景区域。PC-DenseNet方法在训练模型的同时引入混淆来减少过拟合。Kernel Pooling以核函数的形式捕捉特征之间的高阶信息。Improved B-CNN是用双线性的方法捕捉高阶特征之间信息。

如表1所示，本申请实施例的训练方法在这三个数据集上已经达到领先水平，即在没有增加人工标注成本以及模型复杂度的情况下，本实施例在这三个数据集上的识别率都达到了领先的水准，甚至超过了使用“NA-birds”作为外部数据集进行训练的识别率。

本申请另一个训练精细图像识别模型的实施例中，包括属性学习、挖掘、熵值筛选和属性迁移几个步骤。与上一个实施例的一个不同之处在于，在自监督属性学习、挖掘的过程中，我们使用了更强大的网络模型，即Efficient-Net B5网络模型。Efficient-Net网络是卷积神经网络，是由谷歌利用网络结构搜索技术搜索出的一系列高性能网络结构。Efficient-Net B5是该系列的其中一种。

例如，使用Efficient-Net B5网络模型学习精细粒度图像中的属性级特征。具体地，可以通过迭代地从Efficient-Net B5网络模型中的卷积神经网络模型提取的特征图上擦除当前卷机神经网络聚焦的属性特征，从而可以引导Efficient-Net B5网络模型学习到图像上的多个属性特征。

然后使用Efficient-Net B5网络模型对一般类别图像进行属性挖掘，得到一般类别图像的属性级特征，并根据学习到的属性特征和挖掘到的属性特征，通过公式(1)为一般类别图像产生基于属性特征级别的软标签。

表2为使用本实施例的方法和其他方法基于CUB-200-2011数据集对精细图像识别模型进行训练以及测试得到的结果。

表2多种训练方法的测试识别率

本申请实施例的训练方法在这个数据集上已经达到领先水平，即在没有增加人工标注成本以及模型复杂度的情况下，本实施例在这个数据集上的识别率都达到了领先的水准，甚至超过了使用“NA-birds”作为外部数据集进行训练的识别率。

然后使用ResNet-101网络模型对一般类别图像进行属性挖掘，得到一般类别图像的属性级特征，并根据学习到的属性特征和挖掘到的属性特征，通过公式(1)为一般类别图像产生基于属性特征级别的软标签。本实施例的一般类别图像数据集中不仅包括与精细粒度图像类别相关的图像，还包括不相关的一般类别图像。

使用本实施例的方法对加入噪声数据的数据集进行训练时，熵的取值与最终训练得到的模型的准确率之间的关系如图7中上面一条曲线所示。该加入噪声数据的数据集中包含CUB-200-2011数据集和PASCAL VOC 07数据集中与鸟类无关的9351张图像。PASCALVOC 07数据集是指2007年PASCAL可视化物体分类挑战赛(visual object classeschallenge)挑战赛中使用的数据集。

图7中下面一条直线表示使用本实施例的方法但不进行熵值筛选对上述加入噪声的数据集进行训练时，训练得到的模型的准确率。

如图7中上面一条曲线所示，在熵阈值设为2.5的时候，ResNet-101网络模型在大量噪声的影响下，相比于图1中不加入噪声进行训练得到的模型的准确率89.6％，只有0.2％的下降。由此可见，本申请包含熵值筛选的训练方法与其他没有包含熵值筛选的训练方法比较，在待识别图像包含噪声的时候更有鲁棒性。

图8是本申请获取图像标签的装置的一种示例性结构图。该装置800包括获取模块810和确定模块820。该装置800可以实现前述图3或图5所示的方法。

例如，获取模块810用于执行S110，确定模块820用于执行S120和S130。

在一些实现方式中，装置800可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。装置800可以是云数据中心中用于获取图像标签的服务器。装置800也可以是创建在云数据中心中的用于获取图像标签的虚拟机。装置800还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于获取图像标签，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，装置800中的识别模块810和确定模块820可以分布式地部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。

装置800可以由云服务提供商在云服务平台抽象成一种获取图像标签的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供获取图像标签的云服务，用户可以通过应用程序接口(application program interface，API)或者通过云服务平台提供的网页界面上传待标注的图像至云环境，由装置800接收图像，获取该图像的精细粒度类别标签，最终得到的图像标签由装置800返回至用户所在的边缘设备。

当装置800为软件装置时，装置800也可以单独部署在任意环境的一个计算设备上。

图9是本申请训练图像识别模型的装置的一种示例性结构图。该装置900包括获取模块910，确定模块920，擦除模块930和调整模块940。该装置900可以实现前述图1所示的方法。

例如，获取模块910用于执行S110，确定模块920用于执行S120或S140，擦除模块910用于执行S130，调整模块9,40用于执行S150。

在一些实现方式中，装置900可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。装置900可以是云数据中心中用于训练图像识别模型的服务器。装置900也可以是创建在云数据中心中的用于训练图像识别模型的虚拟机。装置900还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于训练图像识别模型，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，装置900中的获取模块910、确定模块920、擦除模块930和调整模块940可以分布式地部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。

装置900可以由云服务提供商在云服务平台抽象成一种训练图像识别模型的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供训练图像识别模型的云服务，用户可以通过应用程序接口(application program interface，API)或者通过云服务平台提供的网页界面上传待训练的图像识别模型至云环境，由装置900接收图像识别模型，对该图像识别模型进行训练，最终训练得到的图像识别模型由装置900返回至用户所在的边缘设备。

当装置900为软件装置时，装置900也可以单独部署在任意环境的一个计算设备上。

图10是本申请图像识别装置的一种示例性结构图。该装置1000包括获取模块1010，识别模块1020。该装置1000可以实现前述图6所示的方法。

例如，获取模块1010用于获取第一图像，识别模块1020用于执行S610至S630。

在一些实现方式中，装置1000可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。装置1000可以是云数据中心中用于图像识别的服务器。装置1000也可以是创建在云数据中心中的用于图像识别的虚拟机。装置1000还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于图像识别，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，装置1000中的获取模块1010、识别模块1020可以分布式地部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。

装置1000可以由云服务提供商在云服务平台抽象成一种图像识别的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供图像识别的云服务，用户可以通过应用程序接口(application program interface，API)或者通过云服务平台提供的网页界面上传待识别图像至云环境，由装置1000接收待识别图像，对该图像进行识别，最终的图像识别结果由装置1000返回至用户所在的边缘设备。

当装置1000为软件装置时，装置1000也可以单独部署在任意环境的一个计算设备上。

本申请还提供一种如图11所示的装置1100，装置1100包括处理器1102、通信接口1103和存储器1104。装置1100的一种示例为芯片。装置1100的另一种示例为计算设备。

处理器1102、存储器1104和通信接口1103之间可以通过总线通信。存储器1104中存储有可执行代码，处理器1102读取存储器1104中的可执行代码以执行对应的方法。存储器1104中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM，UNIX^TM，WINDOWS^TM等。

例如，存储器1104中的可执行代码用于实现图1、图2、图3、图5或图6所示的方法，处理器1102读取存储器1104中的该可执行代码以执行图1、图2、图3、图5或图6所示的方法。

其中，处理器1102可以为中央处理器(central processing unit，CPU)。存储器1104可以包括易失性存储器(volatile memory)，例如随机存取存储器(random accessmemory，RAM)。存储器1104还可以包括非易失性存储器(2non-volatile memory，2NVM)，例如只读存储器(2read-only memory，2ROM)，快闪存储器，硬盘驱动器(hard disk drive，HDD)或固态启动器(solid state disk，SSD)。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种获取图像标签的方法，其特征在于，包括：

获取第一类别推测信息，所述第一类别推测信息用于表示第一图像的类别为M种精细粒度类别中每种精细粒度类别的概率，M为正整数；

根据所述第一类别推测信息，确定所述M种精细粒度类别基于所述M种精细粒度类别对应的M个概率的熵；

所述熵小于或等于预设的阈值时，根据所述第一类别推测信息确定所述第一图像的目标类别标签信息，所述目标类别标签信息用于表示所述第一图像的目标精细粒度类别。

2.根据权利要求1所述的方法，其特征在于，所述获取第一类别推测信息，包括：

获取所述第一图像的K个部位特征，K为大于1的整数，所述K个部位特征中，任意两个部位特征中包括不同的特征；

根据所述K个部位特征确定第一评分信息，所述第一评分信息用于表示所述K个部位特征中每个部位特征的类别为所述每种精细粒度类别的评分；

根据所述第一评分信息确定所述第一类别推测信息。

3.根据权利要求2所述的方法，其特征在于，所述获取第一类别推测信息，包括：

使用精细图像识别模型对所述第一图像进行识别，得到所述第一类别推测信息，其中，所述精细图像识别模型中的参数是根据第二评分信息进行调整得到的，所述第二评分信息用于表示第一特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第二评分信息是所述精细图像识别模型的分类器根据第一特征集确定的，所述第一特征集是所述精细图像识别模型的特征提取层从第二图像中提取的，所述第一特征集中包括所述第二图像的K个部位特征，所述第二图像的类别为所述M种精细粒度类别中的第一类别。

4.根据权利要求3所述的方法，其特征在于，所述精细图像识别模型中的参数是根据第二评分信息进行调整得到的，包括：

所述精细图像识别模型中的参数是根据所述第二评分信息和第三评分信息进行调整得到的，所述第三评分信息用于表示第二特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第三评分信息是所述精细图像识别模型中的分类器根据第二特征集确定的，所述第二特征集是去掉所述第一特征集中的每个部位特征中的第一特征得到的，所述第一特征为所述第一特征集中的第一部位特征所包含的特征。

5.根据权利要求4所述的方法，其特征在于，所述第一部位特征为所述第一特征集中评分最高的部位特征。

6.一种训练图像识别模型的方法，其特征在于，包括：

使用图像识别模型的特征提取层获取第二图像的第一特征集，所述第一特征集中包括所述第二图像的K个部位特征，K为大于1的整数；

使用所述图像识别模型的分类器，根据所述第一特征集确定第二评分信息，所述第二评分信息用于表示所述第一特征集中每个部位特征的类别为M种类别中每种类别的评分，M为正整数；

去掉所述第一特征集中的每个部位特征中的第一特征，得到第二特征集，所述第一特征为所述第一特征集中的第一部位特征所包含的特征；

使用所述图像识别模型的分类器，根据所述第二特征集确定第三评分信息，所述第三评分信息用于表示所述第二特征集中每个部位特征的类别为所述M种类别中每种类别的评分；

根据所述第二评分信息和所述第三评分信息，调整所述图像识别模型的参数。

7.根据权利要求6所述的方法，其特征在于，所述第一部位特征为所述第一特征集中评分最高的部位特征。

8.一种图像识别方法，其特征在于，包括：

获取第一图像；

使用图像识别模型对所述第一图像进行识别，以得到所述第一图像的类别，其中，所述图像识别模型中的参数是根据第二评分信息和第三评分信息进行调整得到的，所述第二评分信息用于表示第一特征集中每个部位特征的类别为M种精细粒度类别中每种精细粒度类别的评分，且所述第二评分信息是所述图像识别模型的分类器根据第一特征集确定的，所述第一特征集是所述图像识别模型的特征提取层从所述第一图像中提取的，所述第三评分信息用于表示第二特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第三评分信息是所述图像识别模型中的分类器根据所述第二特征集确定的，所述第二特征集是去掉所述第一特征集中的每个部位特征中的第一特征得到的，所述第一特征为所述第一特征集中的第一部位特征所包含的特征，K为大于1的整数，M为正整数。

9.根据权利要求8所述的方法，其特征在于，所述第一部位特征为所述第一特征集中评分最高的部位特征。

10.一种获取图像标签的装置，其特征在于，包括：

获取模块，用于获取第一类别推测信息，所述第一类别推测信息用于表示第一图像的类别为M种精细粒度类别中每种精细粒度类别的概率，M为正整数；

确定模块，用于根据所述第一类别推测信息，确定所述M种精细粒度类别基于所述M种精细粒度类别对应的M个评分的熵；

所述确定模块还用于在所述熵小于或等于预设的阈值时，根据所述第一类别推测信息确定所述第一图像的目标类别标签信息，所述目标类别标签信息用于表示所述第一图像的目标精细粒度类别。

11.根据权利要求10所述的装置，其特征在于，所述获取模块具体用于：

根据所述第一评分信息确定所述第一类别推测信息。

12.根据权利要求11所述的装置，其特征在于，所述获取模块具体用于：

13.根据权利要求12所述的装置，其特征在于，所述精细图像识别模型中的参数是根据所述第二评分信息和第三评分信息进行调整得到的，所述第三评分信息用于表示第二特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第三评分信息是所述精细图像识别模型中的分类器根据第二特征集确定的，所述第二特征集是去掉所述第一特征集中的每个部位特征中的第一特征得到的，所述第一特征为所述第一特征集中的第一部位特征所包含的特征。

14.根据权利要求13所述的装置，其特征在于，所述第一部位特征为所述第一特征集中评分最高的部位特征。

15.一种训练图像识别模型的装置，其特征在于，包括：

获取模块，用于使用所述图像识别模型的特征提取层获取第二图像的第一特征集，所述第一特征集中包括所述第二图像的K个部位特征，K为大于1的整数；

确定模块，用于使用所述图像识别模型的分类器，根据所述第一特征集确定第二类别推测信息，所述第二类别推测信息用于指示所述第一特征集中每个部位特征的类别为M种类别中每种类别的评分，M为正整数；

擦除模块，用于去掉所述第一特征集中的每个部位特征中的第一特征，得到第二特征集，所述第一特征为所述第一特征集中的第一部位特征所包含的特征；

所述确定模块还用于：使用所述图像识别模型的分类器，根据所述第二特征集确定第三评分信息，所述第三评分信息用于表示所述第二特征集中每个部位特征的类别为所述M种类别中每种类别的评分；

调整模块，用于根据所述第二评分信息和所述第三评分信息，调整所述图像识别模型的参数。

16.根据权利要求15所述的装置，其特征在于，所述第一部位特征为所述第一特征集中评分最高的部位特征。

17.一种图像识别装置，其特征在于，包括：

获取模块，用于获取第一图像；

识别模块，用于使用图像识别模型对所述第一图像进行识别，以得到所述第一图像的类别，其中，所述图像识别模型中的参数是根据第二评分信息和第三评分信息进行调整得到的，所述第二评分信息用于表示第一特征集中每个部位特征的类别为M种精细粒度类别中每种精细粒度类别的评分，且所述第二评分信息是所述图像识别模型的分类器根据第一特征集确定的，所述第一特征集是所述图像识别模型的特征提取层从所述第一图像中提取的，所述第三评分信息用于表示第二特征集中每个部位特征的类别为所述M种精细粒度类别中每种精细粒度类别的评分，且所述第三评分信息是所述图像识别模型中的分类器根据所述第二特征集确定的，所述第二特征集是去掉所述第一特征集中的每个部位特征中的第一特征得到的，所述第一特征为所述第一特征集中的第一部位特征所包含的特征，K为大于1的整数，M为正整数。

18.根据权利要求17所述的装置，其特征在于，所述确定模块具体用于：

根据所述第一类别推测信息确定所述每个部位特征的类别为所述M种类别中每种类别的概率；所述第一部位特征为所述第一特征集中评分最高的部位特征。

19.一种获取图像标签的装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置执行如权利要求1至5中任一项所述的方法。

20.一种训练图像识别模型的装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置执行如权利要求6或7所述的方法。

21.一种图像识别装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置执行如权利要求8或9所述的方法。

22.一种计算设备，其特征在于，所述计算设备包括处理器和存储器，其中：

所述存储器中存储有计算机指令；

所述处理器执行所述计算机指令，以实现所述权利要求1至9中任一项权利要求所述的方法。

23.一种计算机可读介质，其特征在于，包括指令，当所述指令在处理器上运行时，使得所述处理器执行如权利要求1至9中任一项所述的方法。