CN113569895A

CN113569895A - 图像处理模型训练方法、处理方法、装置、设备及介质

Info

Publication number: CN113569895A
Application number: CN202110194324.3A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-10-29
Anticipated expiration: 2041-02-20
Also published as: CN113569895B

Abstract

本申请提供一种图像处理模型训练方法、处理方法、装置、设备及介质，涉及人工智能技术领域，尤其涉及机器学习技术领域，用于提高图像处理模型输出类别的准确性。该图像处理模型训练方法在训练图像处理模型时，训练该图像处理模型中的特征提取模块学习用于输出至少三种不同粒度级别下对应类别所需的特征，使得特征提取模块具有学习至少三种不同粒度级别下的类别所需的特征的能力，这样使得该图像处理模型后续在输出图像在任一粒度级别下的类别时，输出结果均是基于至少三种不同粒度级别下的类别输出所需的特征获得的，且输出结果受限于至少三种不同粒度级别之间的粒度层级关系，提高了图像处理模型对应的输出结果的准确性。

Description

图像处理模型训练方法、处理方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及机器学习技术领域，提供一种图像处理模型训练方法、处理方法、装置、设备及介质。

背景技术

人工智能依赖于大量图像得以发展，而如何从大量图像中检索所需的图像，是亟需解决的技术问题。为了提高检索图像的效率，通常是对大量图像进行聚类。

目前，一般是采用K-means聚类方法对图像进行聚类，其涉及的具体过程为：从多个图像中各局部特征选择多个聚类中心；根据这多个聚类中心对所有图像进行聚类；将属于同一个聚类的局部特征的均值作为新的聚类中心，直到新的聚类中心与上一次聚类中心之间的欧式距离小于指定值，获得多个聚类中心，将图像聚类至与其局部特征之间的欧式距离最近的聚类中心，以完成对多个图像的聚类过程。

但这种聚类方式在对图像进行聚类时，聚类结果高度依赖于确定出的聚类中心，一旦确定出的聚类中心不合理，那么根据图像的局部特征与聚类中心之间的欧式距离确定出的聚类结果的准确性较低。

发明内容

本申请实施例提供一种图像处理模型训练方法、处理方法、装置、设备及介质，用于提高图像处理模型输出的图像的类别的准确性。

一方面，提供了一种图像处理模型训练方法，包括：

基于样本图像集合，对待训练的图像处理模型进行迭代训练，直到满足第一收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

将所述样本图像集合中第一样本图像输入所述图像处理模型中的特征提取模块，获得所述第一样本图像对应的第一样本特征；

将所述第一样本特征输入所述图像处理模型中的类别识别模块，获得所述第一样本图像分别在至少三个聚类粒度下各自对应的预测类别，其中，所述至少三个聚类粒度包括至少三个不同粒度级别的聚类粒度；

基于获得的各个预测类别和所述第一样本图像分别在所述至少三个聚类粒度下各自对应的真实类别，确定训练损失值，并基于所述训练损失值调整所述特征提取模块和所述类别识别模块的参数，其中，所述训练损失值用于表示所述获得的各个预测类别与对应的真实类别之间的误差。

一方面，本申请实施例提供一种图像处理方法，包括：

获得已训练的图像处理模型，其中，所述已训练的图像处理模型是通过前文论述的任一的图像处理模型训练方法获得的，所述已训练的图像处理模型包括特征提取模块和类别识别模块；

将待处理图像输入所述特征提取模块，获得所述待处理图像对应的目标特征；

将所述目标特征输入所述类别识别模块，获得所述待处理图像的目标类别，其中，所述目标类别属于所述类别识别模块输出的所述待处理图像分别在至少三个聚类粒度下各自对应的预测类别，所述至少三个聚类粒度包括至少三个不同粒度级别的聚类粒度。

一方面，本申请实施例提供一种图像处理模型训练装置，该装置包括：

图像获取模块，用于获取样本图像集合；

模型训练模块，用于基于所述样本图像集合，对待训练的图像处理模型进行迭代训练，直到满足第一收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

在一种可能的实施例中，所述类别识别模块包括多个类别识别分支模块；所述模型训练模块具体用于：

将所述第一样本特征分别输入所述类别识别模块中的各个类别识别分支模块中，分别获得所述各个类别识别分支模块输出的预测类别，其中，所述各个类别识别分支模块输出的各个预测类别至少包括至少三个不同粒度级别的聚类粒度下对应的类别。

在一种可能的实施例中，所述多个类别识别分支模块至少包括第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块；所述模型训练模块具体用于：

将所述第一样本特征分别输入所述第一类别识别分支模块，获得所述第一样本图像在第一聚类粒度下对应的预测类别；以及，

将所述第一样本特征分别输入所述第二类别识别分支模块，获得所述第一样本图像在第二聚类粒度下对应的预测类别，其中，所述第二聚类粒度的粒度级别小于所述第一聚类粒度的粒度级别；以及，

将所述第一样本特征分别输入所述第三类别识别分支模块，获得所述第一样本图像在第三聚类粒度下对应的预测类别，其中，所述第三聚类粒度的粒度级别小于所述第二聚类粒度的粒度级别。

在一种可能的实施例中，所述模型训练模块具体用于：

所述基于所述训练损失值调整所述特征提取模块和所述类别识别模块的参数之前，基于所述样本图像集合，对所述特征提取模块和第一类别识别分支模块进行迭代训练，直到所述特征提取模块和所述第一类别识别分支模块满足第二收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

基于所述样本图像集合中第二样本图像在第一聚类粒度下对应的预测类别，以及所述第二样本图像在所述第一聚类粒度下对应的真实类别，确定第一聚类粒度对应的损失值；

基于所述第一聚类粒度对应的损失值，调整所述特征提取模块和所述第一类别识别分支模块的参数。

在一种可能的实施例中，所述特征提取模块包括预训练后的第一特征提取子模块和第二特征提取子模块；所述模型训练模块具体用于：

将所述第一样本图像输入所述第一特征提取子模块，获得所述第一样本图像的底层特征，其中，所述底层特征用于描述所述第一样本图像在视觉层上呈现的特征；

将所述底层特征输入所述第二特征提取子模块，获得所述第一样本图像的高层抽象特征，其中，所述高层抽象特征用于描述所述第一样本图像在概念层上呈现的特征；

基于所述训练损失值，调整所述第二特征提取子模块的参数。

在一种可能的实施例中，所述模型训练模块具体用于：

在基于获得的各个预测类别和所述第一样本图像分别在所述至少三个聚类粒度下各自对应的真实类别，确定训练损失值之前，采用如下方式获得所述第一样本图像分别在所述至少三个聚类粒度下各自对应的真实类别：

从各个样本特征中，确定出K个样本特征作为K个候选聚类中心，其中，所述各个样本特征是所述样本图像集合中各个样本图像经过所述特征提取模块输出的，K为正整数；

针对所述K个候选聚类中心，采用以下方式进行迭代更新，直到两次迭代更新输出的同一候选聚类中心之间的距离不大于第一预设值为止：分别将所述各个样本特征，聚类到所述K个候选聚类中心中与相应样本特征距离最近的候选聚类中心，以及基于所述K个候选聚类中心对应的样本特征均值，分别对所述K个候选聚类中心进行更新；

将最后一次迭代更新输出的K个候选聚类中心作为K个目标候选聚类中心，将所述第一样本特征聚类到所述K个目标聚类中心中与所述第一样本特征距离最近的目标聚类中心，以获得所述第一样本特征对应的真实类别。

本申请实施例提供一种图像处理装置，包括：

模型获得模块，用于获得已训练的图像处理模型；

特征获得模块，用于将待处理图像输入所述已训练的图像处理模型中的特征提取模块，获得所述待处理图像对应的目标特征；

类别获得模块，用于将所述目标特征输入所述已训练的图像处理模型中的类别识别模块，获得所述待处理图像的目标类别，其中，所述目标类别属于所述类别识别模块输出的所述待处理图像分别在至少三个聚类粒度下各自对应的预测类别，所述至少三个聚类粒度包括至少三个不同粒度级别的聚类粒度。

在一种可能的实施例中，所述装置还包括图像聚类模块，其中所述图像聚类模块用于：

基于所述目标类别，确定所述待处理图像所属的候选数据集；

确定所述待处理图像的局部特征与所述候选数据集中参考图像的局部特征之间的相似度；

若确定出的相似度大于或等于第二预设值，则将所述待处理图像聚类至所述候选数据集。

本申请实施例提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如前文论述的任一的图像处理模型训练方法或图像处理方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如前文论述的任一的图像处理模型训练方法或图像处理方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

在本申请实施例中，以输出至少三种不同粒度级别下的类别为目的，对图像处理模型进行训练，这样使得图像处理模型中特征提取模块可以学习到如何提取至少三种不同粒度级别下的类别输出所需的特征，相当于通过结合粗中细粒度级别下的分类任务，保证图像处理模型可以学习到图像的在不同层次上的特征分布，例如，图像的全局特征分布和局部特征分布等，这样图像处理模型在后续输出类别时，实际是依赖于至少三种不同粒度级别下的类别输出所需的特征进行输出，相当于将粗、中、细粒度的特征整合到当前类别输出任务中，以实现当前类别输出与图像在不同层次上的特征分布相关，从而提升了该图像处理模型输出的准确性。

附图说明

图1为本申请实施例提供的图像在不同聚类粒度下的类别的示例图；

图2A为本申请实施例提供的图像处理模型训练方法的应用场景图一；

图2B为本申请实施例提供的图像处理模型训练方法的应用场景图二；

图3为本申请实施例提供的图像处理模型训练方法的流程示意图；

图4为本申请实施例提供的识别第一样本图像在三个聚类粒度下的预测类别的过程示例图；

图5为本申请实施例提供的图像处理模型的结构示意图一；

图6为本申请实施例提供的图像处理模型的结构示意图二；

图7为本申请实施例提供的基于K-means方法确定聚类中心的过程示例图；

图8为本申请实施例提供的图像处理方法的流程示意图；

图9为本申请实施例提供的确定待处理图像的目标类别的过程示例图；

图10为本申请实施例提供的图像处理模型训练装置的结构示意图；

图11为本申请实施例提供的图像处理装置的结构示意图；

图12为本申请实施例提供的一种计算机设备的结构示意图一；

图13为本申请实施例提供的一种计算机设备的结构示意图二。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

1、人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2、计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3、机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

4、图像识别：对图像进行不同类别级别下的类别识别，例如：粗聚类粒度类别识别可以不考虑对象的特定实例，仅考虑对象的大类(例如人物或动物)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集imagenet中的识别任务，识别出某个物体是1000个类别中的哪一个。

5、Imagenet：大型通用物体识别开源数据集，包括多个图像。Imagenet预训练模型是指基于imagenet中的图像训练模型，得到该模型的参数。

6、图像多类别识别：通过计算机识别出图像是否具有各个属性对应的类别。一个图像可能具有多个属性，多类别识别任务可以判断该图像具有哪些属性对应的类别。

7、聚类粒度和粒度级别：聚类粒度是指对图像进行分类的粗细程度。粒度级别用于表征聚类粒度对应的粗细程度，可以进一步理解为分类任务对应的类别级别。聚类粒度对应的粒度级别越大，表示对图像进行分类的程度越粗，聚类粒度对应的粒度级别越小，表示对图像进行分类的程度越细。不同聚类粒度可以对应一个粒度级别，不同聚类粒度也可以对应不同粒度级别，例如：动物可以划分为猫、犬、狼和羊四个类别，动物也可以划分为熊、老虎、狮子三个类别，其中老虎和猫在这种划分方式中实际属于不同聚类粒度，但属于同一个粒度级别。每个聚类粒度下包括的类别数量可以为一个或多个，因此在分类任务中，可以确定一个图像可以在每个聚类粒度下对应的类别。每个聚类粒度下包括的类别数量可以根据实际需求设定。

为了便于描述不同的聚类粒度，本申请实施例中可以以第一聚类粒度、第二聚类粒度和第三聚类粒度……第N聚类粒度等描述不同聚类粒度。本申请实施例中的第一聚类粒度的粒度级别大于第二聚类粒度的粒度级别，第二聚类粒度的粒度级别大于第三聚类粒度的粒度级别，对应地，第一聚类粒度又可以称为粗聚类粒度，第二聚类粒度又可以称为中聚类粒度，第三聚类粒度又可以称为细聚类粒度。

为了更清楚地说明聚类粒度的概念，下面结合图1所示的图像在不同聚类粒度下的类别的示例图为例进行介绍：

图1中的图像a在第一聚类粒度下的“人物”和“动物”两个类别中属于动物；图像a在第二聚类粒度下的“犬”、“猫”和“狼”三个类别中属于“犬”，图像a在第三聚类粒度下的“金毛”、“牧羊”和“西施”三个类别中属于“西施”。图1中是以虚线矩形框示意图像a在各个聚类粒度下对应的类别。

8、预测类别和真实类别：类别可以理解为图像在对应聚类粒度下所属的分类。在本申请中的预测类别是指训练图像处理模型过程中，图像处理模型输出的图像对应的类别，真实类别是指在训练图像处理模型过程中，作为该图像的真实类别的参照。需要说明的是，真实类别是在训练图像处理模型时作为图像的真实类别使用，而实际上并不一定为图像正确的归类结果。

9、样本图像集合：是指用于训练模型时使用的样本图像的集合，样本图像集合包括一个或多个样本图像。本申请实施例中的第一样本图像和第二样本图像均是从样本图像集合中选择的样本图像，第一样本图像和第二样本图像可以相同或不同。对应地，第一样本图像对应的特征称为第一样本特征，第二样本图像对应的特征称为第二样本特征。

10、底层特征和高层抽象特征：底层特征是指图像在视觉层上呈现的特征，可以通过对图像进行第一操作等获得，第一操作例如滤波操作，底层特征具体例如图像呈现的颜色特征、纹理特征或形状特征等。高层抽象特征是指图像在概念层上呈现的特征，高层抽象特征能够表达出最接近人类理解的东西，可以用于对图像进行分类。例如，以底层特征描述图像是：该图像为蓝色，以高层抽象特征描述图像是：该图像是大海。高层抽象特征可以对底层特征进行第二操作获得的，第二操作例如一次或多次卷积操作和池化操作中的一种或多种。

11、全局特征和局部特征：全局特征用于描述图像的整体特征，与全局特征相对应，局部特征用于描述图像的局部区域的特征。全局特征具体例如：图像的形状、结构或深层特征等，深层特征又可以称为复杂特征。形状特征用于描述图像的整体形状，形状特征例如可以为图像轮廓信息的量化结果，结构特征例如可以为图像中几何结构的量化结果，例如可以通过图卷积神经网络提取图像的结构特征。深层特征可以是待标注图像多个特征的组合结果，或者可以对待标注图像中一个或多个特征进行进一步处理获得的，进一步处理例如卷积处理或其它深度学习处理等。其中，在本申请实施例中局部特征又可以称为细节特征。

12、训练损失值：用于表示图像处理模型获得样本图像的各个预测类别与对应的真实类别之间的误差，训练损失值可以是样本图像中每个预测类别与真实类别的误差之和的结果，也可以样本图像多个聚类类别下的预测类别和真实类别之间的误差的整体表现。

应当说明的是，本申请实施例中的“多个”是指两个或两个以上，“至少一个”是指一个或一个以上，“至少三个”是指三个或三个以上。

在视频检索或图像检索的场景下，涉及到从大量数据中检索需要的数据，即涉及到大规模图像检索过程。大规模图像检索可以采用分桶检索，分桶检索的主要思想为：将大量图像划分成多个不重叠的数据集，一般一个数据集对应一个分桶。在进行图像检索时，可以从与特定图像对应的分桶中寻找与该特定图像匹配的图像即可，从而提高图像检索效率。

分桶检索中涉及的各个数据集是对图像进行聚类后产生的，通常一个分桶具有一个聚类中心，例如，存在100万样本图像，所有图像对应1万个分桶，那么对应的聚类中心为1万个，因此准确地对样本图像进行分桶对图像检索最终的结果影响极大。较佳的分桶结果是将具有相似特征的图像划分到同一个分桶中，使得每个分桶的召回率较高，以及各分桶中包括的图像的数量分布均衡，图像的数量分布均衡的好处是可以避免某些分桶中的图像过多导致后续图像检索耗时较长，一种极端的不均衡状态例如：所有图像均分布到同一个分桶中，会影响后期检索图像的效率。因此如何对各图像进行准确地聚类，以及如何提高各个分桶中的图像数量分布均衡属于图像聚类过程中需要解决的两个重要问题。

结合前文背景技术中论述的内容，目前一种解决方案为：采用K-means聚类方法对图像进行聚类，而K-means聚类方法中一般是采用随机初始化聚类中心，随机产生初始化聚类中心，容易造成聚类中心分布不合理且存在极大不确定性。另外，在初始化确定聚类中心时，没有考虑图像的特征等，进而不能保证将语义相似的图像聚为一类，导致聚类结果不准确。且，由于聚类过程仅依靠设定的多个聚类中心进行聚类，也容易导致后续聚类结果分布不均衡。

有鉴于此，本申请实施例提供一种图像处理模型训练方法，该图像处理模型训练方法在训练图像处理模型时，训练图像处理模型中类别识别模块输出至少三个粒度级别的聚类粒度下对应的类别，这就要求图像处理模型中的特征提取模块学习至少三个粒度级别分类任务所需的特征，提高了特征提取模块对各个粒度级别下分类任务所需的特征的学习能力。在使用该图像处理模型确定图像的类别时，可以保证特征提取模块能够提高该图像在不同粒度级别下的分类所需的特征，进而使得分类识别模块可以结合图像在各个粒度级别下的特征，输出图像的分类，正因分类识别模块可以结合图像进行不同粒度级别下的分类所需的特征进行分类，相当于分类识别模块结合了图像在多方面的特征进行分类，从而保证了图像分类的准确性。且，由于各个粒度级别下对应的分类本身是满足上下粒度级别分布关系的，因此结合至少三个粒度级别下对应的分类任务对图像处理模型进行训练，本身就约束了图像处理模型输出的每个聚类粒度下的类别，可以进一步提高图像分类的准确性。

基于上述设计思想，下面对本申请实施例的图像处理模型训练方法的应用场景进行介绍。

请参照图2A，为本申请实施例提供的图像处理模型训练方法的应用场景图一，该应用场景图包括第一服务器210、数据库220、终端230和运行在终端230中的应用程序231。

数据库220可以部署在第一服务器210中，或者可以部署在与第一服务器210相对独立的设备中。数据库220存储有大量的样本图像，这些样本图像可以是第一服务器210从网络资源获得后写入数据库中的，也可以是第一服务器210从应用程序231获得后写入数据库中的，例如，第一服务器210为终端230中运行的应用程序231所对应的后台服务器，该应用程序231在运行过程中会产生大量的图像，终端230和第一服务器210可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制，第一服务器210可以从终端230获得相应图像，并将这些图像写入数据库220中。应用程序231例如为内容服务应用程序或游戏应用程序等，本申请不对此进行限制。

第一服务器210在训练图像处理模型时，第一服务器210可以从数据库220中获得样本图像，第一服务器210基于这些样本图像，对图像处理模型进行训练，其中涉及的图像处理模型的训练过程将在下文中论述。

在第一服务器210在获得已训练的图像处理模型之后，可以从终端230获得该待处理图像，第一服务器210可以使用该已训练的图像处理模型，对待处理图像进行分类，以获得待处理图像的目标类别，基于该待处理图像的目标类别，对待处理图像进行聚类等。其中确定待处理图像的目标类别的过程将在下文中论述。在对待处理图像进行聚类后，便于进行图像检索等。

其中，已训练的图像处理模型可以广泛应用于各类具体应用场景，例如，应用到视频检索分类中、具体例如，在获得视频中的待处理图像的分类之后，可以基于视频对应的类别，将视频存储至对应的分桶中，以便于后期检索各类视频。还可以应用到虚拟现实(virtual reality，VR)中、应用到增强现实(augmented reality，AR)、无人驾驶(self-driving)中、智能家具、智能办公、智能穿戴、智能交通，智慧城市(smart city)、无人机、远程医疗(remote medical)中、机器人中等各类涉及图像处理的应用场景中，本申请不对此进行限制。

在另一种可能的应用场景下，请参照图2B，为本申请实施例提供的图像处理模型训练方法的应用场景图二，该应用场景图包括第一服务器210、数据库220、终端230、运行在终端230中的应用程序231和第二服务器240。

图2B所示的场景图中第一服务器210、数据库220的内容可以参照图2A介绍的内容，此处不再赘述。与图2A不同的是，图2B中训练图像处理模型和使用图像处理模型的设备并不是同一个，具体而言：第一服务器210获得已训练的图像处理模型之后，可以将已训练的图像处理模型发送给第二服务器240，第二服务器240基于已训练的图像处理模型，确定待处理图像的类别。

前文论述的终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、游戏设备、智能电视或智能穿戴设备等，本申请不对此进行限制。

前文论述的第一服务器210和第二服务器240均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

基于上述图2A或图2B所示的应用场景，下面以第一服务器执行本申请实施例中的图像处理模型训练方法为例，对本申请实施例涉及的图像处理模型训练方法进行介绍。请参照图3，为本申请实施例提供的图像处理模型训练方法的流程示意图，该流程示意图具体包括：

S31，基于样本图像集合，对待训练的图像处理模型进行迭代训练，直到满足第一收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

S311，将样本图像集合中第一样本图像输入图像处理模型中的特征提取模块，获得第一样本图像对应的第一样本特征；

S312，将第一样本特征输入图像处理模型中的类别识别模块，获得第一样本图像分别在至少三个聚类粒度下各自对应的预测类别；

S313，基于获得的各个预测类别和第一样本图像分别在至少三个聚类粒度下各自对应的真实类别，确定训练损失值；

S314，基于训练损失值调整特征提取模块和类别识别模块的参数。

第一服务器可以从数据库中获得样本图像集合，基于样本图像集合，对待训练的图像处理模型进行迭代训练。待训练的图像处理模型为基于目标图像处理任务搭建的网络模型，目标图像处理任务是指图像处理模型对应的具体应用任务。待训练的图像处理模型具有初始参数，初始参数包括随机化的参数和基于预训练获得的参数中的一种或两种，例如，图像处理模型中的部分参数是随机化获得的，图像处理模型中的另一部分参数是通过训练获得的。但图像处理模型的初始参数在实现特定的目标图像处理任务时效果并不一定好，因此需要对图像处理模型进行训练，以获得已训练的图像处理模型，经过训练的图像处理模型由于学习了大量样本图像，因此能够更好地处理目标图像处理任务。

本申请实施例中的图像处理模型包括特征提取模块和类别识别模块，对图像处理模型进行多次迭代训练，实际可以理解为对图像处理模型中的特征提取模块和类别识别模块进行多次迭代训练。

在对图像处理模型进行多次迭代训练时，每一次迭代训练时可以使用样本图像集合中的一个或多个第一样本图像进行训练，第一样本图像的含义可以参照前文论述的内容，此处不再赘述。下面以一次迭代训练过程为例进行介绍：

第一服务器将第一样本图像输入特征提取模块，获得第一样本图像的第一样本特征；第一服务器将第一样本特征输入类别识别模块，通过类别识别模块输出该第一样本图像在至少三个聚类粒度下各自对应的预测类别。

特征提取模块用于提取图像的特征，特征提取模块对第一样本图像处理后，可以获得该第一样本图像对应的第一样本特征。第一样本特征是指第一样本图像的图像特征，第一样本特征包括第一样本图像的底层特征和高层抽象特征中的一种或两种，底层特征和高层抽象特征的含义可以参照前文论述的内容，此处不再赘述。具体提取第一样本图像的哪种特征与特征提取模块的具体网络结构相关。

类别识别模块基于特征提取模块输出的特征输出分类，具体可以基于第一样本特征，进而输出第一样本图像在至少三个聚类粒度下各自对应的预测类别，其中，聚类粒度和预测类别的含义可以参照前文论述的内容，此处不再赘述。

第一服务器可以根据获得的各个预测类别和第一样本图像在至少三个聚类粒度下各自对应的真实类别，确定训练损失值。真实类别的含义可以参照前文论述的内容，此处不再赘述。该训练损失值用于表示各聚类粒度下的预测类别与真实类别之间的差异。第一服务器根据该训练损失值，调整图像处理模型的参数，以完成一次迭代训练过程。

以此类推，第一服务器可以对图像处理模型进行多次迭代训练，当图像处理模型满足第一收敛条件时，获得已训练的图像处理模型。第一收敛条件例如为对图像处理模型的迭代训练次数达到第一预设次数、或图像处理模型的训练损失值达到第一预设损失值等，本申请不对此进行限制。

例如，请参照图4，为识别第一样本图像在三个聚类粒度下的预测类别的过程示例图，第一服务器将图4中的第一样本图像b输入特征提取模块，获得第一样本特征400，基于第一样本特征400，从而获得第一样本图像在粗聚类粒度下的类别为人物，在中聚类粒度下的类别为人脸，在细聚类粒度下的类别为瓜子脸。

在图3所示的实施例中，在训练图像处理模型时，图像处理模型可以对至少三个不同粒度级别的聚类粒度下的类别进行学习，使得同一个图像处理模型能够对三种及三种以上粒度级别下的类别识别，相较于图像处理模型基于单一聚类粒度下的类别的特征输出类别，本申请实施例中图像处理模型中的特征提取模块学习了识别各种粒度级别的聚类粒度下的类别所需的特征，保证图像处理模型输出的类别的准确性。且，本申请实施例中设置多个粒度级别下的类别，由于不同粒度级别之间本身存在一定的约束关系，间接地约束了图像处理模型输出的分类，可以进一步提高图像处理模型输出类别的准确性。且，由于可以灵活地设定每个聚类粒度下的类别数量，且可以确定图像在多个聚类粒度下的类别，因此可以便于后续灵活地对图像进行聚类，可以使得图像的分布更为均衡，便于后续快速检索出相关图像。

在第一服务器在执行在S31之前，可以获取样本图像集合，第一服务器可以从数据库中获得样本图像集合，数据库中的样本图像集合可以是第一服务器通过如下方式获得的：

方式一、第一服务器可以从网络资源中筛选自身需要的图像作为样本图像。

第一服务器可以基于筛选规则，从网络资源中筛选自身所需的样本图像，筛选规则可以有多种，例如，筛选规则可以为筛选出图像质量满足预设质量条件的图像，图像质量满足预设质量条件具体例如图像清晰度和色彩饱和度满足各自对应阈值中的一种或两种。例如，筛选规则可以为筛选与目标图像处理任务关联程度满足预设关联阈值，例如目标图像处理任务为筛选短视频，那么第一服务器可以从短视频中筛选出部分视频帧作为样本图像。

方式二、第一服务器可以从其它设备中获取样本图像。

具体地，第一服务器可以根据图像处理模型对应的目标图像处理任务，从与该目标图像处理任务的相关设备获取样本图像，例如确定图像处理模型对应的目标图像处理任务为对游戏视频进行分类，第一服务器可以从游戏相关的后台服务器设备获取样本图像。

方式三、第一服务器结合上述方式一和方式二，获取样本图像。

无论第一服务器采用哪种方式获取样本图像，第一服务器直接获取的可能是样本视频，因此在本申请实施例中，第一服务器可以从样本视频中筛选出样本图像。

具体而言，第一服务器可以对样本视频进行随机采样，获得样本图像。第一服务器也可以按照预设采样间隔，对样本视频进行采样，以获得多个候选图像，第一服务器可以直接将多个候选图像作为样本图像，可以简单快速获得样本图像。

进一步地，为了提高生成样本图像的有效性，第一服务器可以筛掉多个候选图像中相似度较高的候选图像，以获得样本图像。

具体来说，第一服务器从样本视频筛选出多个候选图像之后，可以确定每两个候选图像之间的相似度，例如分别提取两个候选图像各自的图像特征向量，计算两个图像特征向量之间的相似度，具体可以以两个图像特征向量之间的余弦相似度或者欧式距离来表征两个图像特征向量之间的相似度。在获得每两个候选图像之间的相似度之后，如果存在相似度大于预设相似度的任意两个候选图像，则剔除其中一个候选图像，剔除可以理解为删除该候选图像，不将此作为样本图像，以此类推，将剩余的候选图像作为样本图像。其中，预设相似度为预设的一个相似度阈值，具体取值可以根据需求设置，例如取值为0.95。在本申请实施例中，可以筛选掉相似度较高的候选图像，可以避免采用相似度较高的候选图像对模型进行训练所导致的图像处理模型过拟合的情况。

第一服务器在获得样本图像集合之后，可以执行S31。在本申请实施例中，图像处理模型需要一次性输出至少三个不同粒度级别的聚类粒度下对应的类别，可以理解为图像处理模型需要一次性完成多个分类任务，每个分类任务实际涉及两部分，即提取特征和输出类别，在本申请实施例中为了使得输出每个粒度级别下的类别输出能够共享其他粒度级别下的类别输出所需的特征，因此在本申请实施例中的图像处理模型包括特征提取模块和与特征提取模块分别连接的多个类别识别分支模块，其中每个类别识别分支模块用于输出一聚类粒度下的类别，多个类别分支模块能够输出至少三种粒度级别的聚类粒度下对应的类别。

在训练图像处理模型时，可以将第一样本图像输入特征提取模块，获得第一样本图像的第一样本特征，将第一样本特征分别输入各个类别识别分支模块中，从而获得各个类别识别分支模块输出的类别。

如此一来，每一个类别识别分支模块依赖于特征提取模块输出的特征实现分类任务，也就相当于多个类别识别分支模块共享特征提取模块的参数，也就是说，特征提取模块学习到了用于提取各个聚类粒度下的分类所需的参数，使得每个类别识别分支模块能够基于多个聚类粒度下的特征输出图像的类别，从而提高图像类别的识别准确率。

为了更清楚地说明本申请实施例中的图像处理模型的结构，请参照图5所示的图像处理模型的结构示意图一，该图像处理模型包括特征提取模块，与特征提取模块并列连接的多个类别识别分支模块，多个类别识别分支模块包括第一类别识别分支模块、第二类别识别分支模块……第N类别识别分支模块，N为大于或等于3的正整数。第一服务器可以将第一样本特征分别输入第一类别识别分支模块、第二类别识别分支模块和第N类别识别分支模块中，从而获得第一类别识别分支模块、第二类别识别分支模块和第N类别识别分支模块输出的类别1、类别2…….类别N。

在一种可能的实施例中，类别识别分支模块的数量越多，那么特征提取模块能够融合更多聚类粒度下分类任务所需的样本特征，但这也会增加训练过程中的训练量，因此合理设置类别识别分支模块的数量是相当重要的，因此在本申请实施例中，类别识别分支模块的数量设置为三个，多个类别识别分支模块具体包括第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块，这三个类别识别分支模块分别用于输出三个不同粒度级别的聚类粒度下对应的类别。

具体地，第一类别识别分支模块可以用于输出第一样本图像在第一聚类粒度下对应的预测类别，第二类别识别分支模块用于输出第二样本图像在第二聚类粒度下对应的预测类别，第三类别识别分支模块用于输出第三样本图像在第三聚类粒度下对应的预测类别。其中，第一聚类粒度的粒度级别大于第二聚类粒度的粒度级别，第二聚类粒度的粒度级别大于第三聚类粒度的粒度级别。

下面对本申请实施例中增设多个聚类粒度下的类别识别的作用进行分析：

一、增加粗粒度聚类的目的及效果：对于图像的全局数据，如果基于该全局数据进行目标聚类学习，那么聚类结果仍然与K-means一样具有一定的随机性，因此本申请实施例中增设了全局粗粒度聚类，可以使得图像处理模型先感知到图像的全局特征的分布，例如粗粒度聚类的3类别中的动物和人物会分别聚类到对应的粗粒度类别中，从而图像处理模型预先学习到整体数据里存在的粗粒度聚类数据，能够把区别较大的物体初步分到不同的粗粒度类别中。由于粗粒度学习时，会改变特征提取模块的参数，故粗粒度学习到的图像总体分布能回传到特征提取模块，使得图像处理模型中的特征提模块具有对数据整体分布的表征能力。

二、增加细粒度聚类的目的及效果：如果不加入细粒度聚类，直接进行目标聚类容易使得目标聚类中依然存在较大的语义不相似，进行细粒度聚类可以使得聚类内部相似的图像相互接近，从而使得细粒度聚类中心更具体的(分裂)表征事物，通过图像处理模型学习参数并回传至特征提取模块，使得特征提取模块可以使得目标聚类中心受细粒度分布作用下调整到以语义区分的效果，从而提升图像处理模型输出类别的准确性。

进一步地，第一聚类粒度的粒度级别与第二聚类粒度的粒度级别相邻，第二聚类粒度的粒度级别与第三聚类粒度的粒度级别相邻，相邻可以理解为两个聚类粒度的粒度级别在上下粒度级别分布关系中相邻。由于粒度级别相邻，表示两个粒度级别之间的跨度较小，也就表示对应输出该相邻两个粒度级别下的类别所需的特征之间的关联性越强，因此在本申请实施例中将三个粒度级别设置为两两相邻，可以利于特征提取模块学习到关联性更强的特征，进一步提升类别识别模块输出的类别的准确性。

如果类别识别模块包括多个类别识别分支模块，其中任意两个类别识别分支模块实际上可以视为相对独立的，那么在训练这些类别识别分支模块时，可以灵活地对这些类别识别分支模块进行训练，下面对训练各个类别识别分支模块的方式进行示例：

方式一：基于训练损失值，对每个类别识别分支模块和特征提取模块进行调参，直到图像处理模型满足第一收敛条件。

在本申请实施例中，在图像处理模型输出第一样本图像的各个预测类别时，可以基于第一样本图像的各个预测类别和第一样本图像对应的真实类别，确定训练损失值，直接基于训练损失值，调整至图像处理模型收敛即可。

本申请实施例中训练方式简单直接，且训练后的图像处理模型中的特征提取模块的输出能够满足每个类别识别分支模块的输出需求，能够保证后续输出类别的准确性。

方式二：对多个类别识别分支模块中的目标类别分支模块进行训练，再基于训练损失值，对每个类别识别分支模块和特征提取模块进行训练。

目标类别分支模块可以是多个类别识别分支模块中任意的部分类别识别分支模块，或者可以是多个类别识别分支模块中粒度级别大于预设粒度级别的类别识别分支模块，预设粒度级别可以根据多个类别识别分支模块能够输出的粒度级别的数量确定的。

如果多个类别识别分支模块包括第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块，第一服务器可以先对第一类别识别分支模块进行训练，直到第一类别识别分支模块满足第二收敛条件，第二收敛条件例如为对第一类别识别分支模块进行迭代训练的次数达到第二预设次数，或者第一聚类粒度对应的损失值小于或等于第二预设损失值。第一服务器基于训练损失值，对已训练的第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块和特征提取模块进行训练，直到特征提取模块和类别识别模块满足第一收敛条件为止。

具体来说，在训练第一类别识别分支模块时，也可以采用迭代训练方式，下面以一次迭代训练为例，对训练第一类别识别分支模块的过程进行示例：

第一服务器从样本图像集合中确定出第二样本图像，第二样本图像的含义可以参照前文论述的内容，此处不再赘述。第一服务器可以将第二样本图像输入特征提取模块，以获得第二样本特征，第二样本特征的含义可以参照前文论述的第一样本特征，此处不再赘述。第一服务器将第二样本特征输入第一类别识别分支模块，从而获得第二样本图像对应的预测类别。第一服务器基于该第二样本图像的预测类别与第二样本图像的真实类别，从而确定第一聚类粒度对应的损失值，基于第一聚类粒度对应的损失值，调整特征提取模块和第一类别识别分支模块的参数，以完成一次迭代训练过程。

以此类推，第一服务器对第一类别识别分支模块进行迭代训练，直到特征提取模块和第一类别识别分支模块满足第二收敛条件，第二收敛条件可以参照前文论述的内容，此处不再赘述。

在获得已训练的特征提取模块和第一类别识别分支模块之后，再基于训练损失值，对已训练的特征提取模块、第一类别识别分支模块、以及多个类别识别分支模块中除了第一类别识别分支模块之外的类别识别分支模块进行训练，从而获得已训练的图像处理模型。

作为一种实施例，第一类别识别分支模块可以通过全连接层实现，该第一类别识别分支模块的具体结构可以参照下表1所示：

表1

层结构名称(Layer name)	输出尺寸(Output size)	层(Layer)
			Fc_cluster	1xN	全连接层(full connection)

请参照表1，该第一类别分支模块包括一层全连接层，该全连接层可以输出(1xN)的向量，其中向量中的每个值表示第一样本图像属于第一粒度级别下某个类别的概率。

作为一种实施例，第二类别识别分支模块可以通过全连接层实现，该第二类别识别分支模块的具体结构可以参照下表2所示：

表2

层结构名称(Layer name)	输出尺寸(Output size)	层(Layer)
			Fc_cluster1	1x(N/10)	全连接层(full connection)

请参照表2，该第二类别识别分支模块具体包括一层全连接层，该全连接层可以输出(1x(N/10)的向量，其中向量中的每个值表示第一样本图像属于第二粒度级别下某个类别的概率。

作为一种实施例，第三类别识别分支模块可以通过全连接层实现，该第二类别识别分支模块的具体结构可以参照下表3所示：

表3

层结构名称(Layer name)	输出尺寸(Output size)	层(Layer)
			Fc_cluster2	1x(N*10)	全连接层(full connection)

请参照表3，该第二类别识别分支模块具体包括一层全连接层，该全连接层可以输出(1x(N*10)的向量，其中向量中的每个值表示第一样本图像属于第三粒度级别下某个类别的概率。

在本申请实施例中，可以对粒度级别较大的类别识别分支模块进行训练，由于粒度级别较大的分类任务中，可以使得特征提取模块可以先学习到全局分类特性，这样使得图像处理模型输出的粒度级别较大的分类更为合理，有利于提高后续训练图像处理模型的准确性。

作为一种实施例，采样任一训练顺序，其中均涉及到计算训练损失值，在本申请实施例中第一服务器可以对每个聚类粒度下的损失值进行加权求和，从而获得训练损失值，下面以计算一个聚类粒度下的损失值为例进行说明：

第一服务器将第一样本特征输入该聚类粒度下的类别识别分支模块之后，可以获得该聚类粒度下的预测类别，第一服务器基于该聚类粒度下对应的真实类别，以及该聚类粒度下的预测类别，从而获得该第一样本图像在该聚类粒度下的损失值。该聚类粒度的损失值是指分类过程中该聚类粒度下真实类别与预测类别之间误差，图像处理模型在输出第一样本图像的预测类别时，可以直接输出该第一样本图像在该聚类粒度下所属的类别，或者输出第一样本图像在该聚类粒度下属于各个类别的预测概率，在确定该聚类粒度的损失值时，可以以图像处理模型输出的预测概率和真实类别之间的误差表征该聚类粒度对应的损失值。

其中，聚类粒度的损失值例如可以以交叉熵损失函数、L2范数计算公式等计算，例如该聚类粒度下的损失值参照如下公式所示的交叉熵损失函数的具体表达式如下：

其中，C表示该聚类粒度下包括的类别数量，i表示该聚类粒度下的第i个类别，p(x_i)表示第一样本图像在该聚类粒度下对应的第i个类别的真实概率，如果第一样本图像属于第i个类别，则p(x_i)取值为1，反之，取值为0；q(x_i)表示图像处理模型输出的第一样本图像在该聚类粒度下属于第i个类别的预测概率，H(p，q)表示计算出的交叉熵损失函数的取值。

例如：第一聚类粒度下包括人物和动物，第一样本图像的真实类别为第一聚类粒度下的人物，那么在人物类别下对应p(x_i)取值为1，在动物类别下对应p(x_i)取值可以为0。例如，图像处理模型对应输出为(0.3，0.7)，其中0.3表示第一样本图像属于动物的预测概率，0.7表示第一样本图像属于人物的预测概率。

以此类推，在第一服务器计算出每个聚类粒度下对应的损失值之后，对各个损失值进行加权求和，从而获得了该图像处理模型的训练损失值。在对各个损失值进行加权求和时，各个损失值的加权权重可以是相同的，也可以是不同的，例如根据各个粒度级别的重要程度设置各个损失值的加权权重，粒度级别对应的重要程度越高，该粒度级别下对应的损失值的加权权重越大，粒度级别的重要程度可以根据目标图像处理任务确定，例如，目标图像处理任务着重图像处理模型输出第一粒度级别的类别，那么第一粒度级别对应的损失值的加权权重更大。

下面继续以类别识别模块包括第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块为例，对计算训练损失值进行示例说明。第一服务器计算第一类别识别分支模块输出的预测类别与该第一类别识别分支模块对应的真实类别之间的损失值为L1，L1可以理解为粗聚类粒度分类下的损失值，第一服务器计算第二类别识别分支模块输出的预测类别与该第二类别识别分支模块对应的真实类别之间的损失值为L2，L2可以理解为中聚类粒度分类下的损失值，第一服务器计算第三类别识别分支模块输出的预测类别与该第三类别识别分支模块对应的真实类别之间的损失值为L3，L3可以理解为细聚类粒度分类下的损失值，第一服务器可以计算“L1+L2+L3”，从而获得训练损失值。

在上述实施例中，训练损失值是基于每个聚类粒度下的损失值进行加权求和获得的，这样可以保证训练后的图像处理模型中每个类别识别分支模块能够满足各自的分类损失，提高各个类别识别分支模块的输出类别的准确性。且，可以灵活地设置各个聚类粒度对应的损失值的加权权重，满足不同训练需求。

作为一种实施例，训练损失值除了需要考虑各个聚类粒度下的损失值之外，还可以增加一致性损失，一致性损失用于表示各个样本图像经过图像处理模型的输出结果分布可以与各个样本图像经过图像增强处理后再输入图像处理模型的输出结果分布保持一致。其中，图像增强是指对图像进行一种或多种图像处理，例如高斯噪声、椒盐噪声、裁剪、旋转、加水印、色调变换等。在增加一致性损失的情况下，训练损失值的计算公式示例如下：

L＝a1*L1+a2*L2+a3*L3+a4*Lcon (2)

其中，L1、L2和L3可以采用上述公式(1)计算得到，本申请实施例不对L1、L2和L3的具体计算方式进行限制。

其中，a1、a2和a3分别为三种不同聚类粒度下的损失值对应的加权权重，L1、L2和L3分别表示三种不同聚类粒度下的损失值，a4表示一致性损失对应的加权权重，Lcon表示一致性损失，L表示训练损失值。

本申请实施例中，在计算训练损失值时，不仅考虑各聚类粒度下的损失值，还考虑了一致性损失，使得图像处理模型对于样本图像的处理结果与对增强后的样本图像的处理结果保持一致，使得图像处理模型在图像经过增强的情况下依旧能够稳定输出，以增加图像处理模型的稳定性。

下面举例上述中的一致性损失进行示例介绍：

对于样本图像为A0，在经过图像增强产生多个增强样本图像，例如5个增强样本A1～A5，将A0和A1～A5输入到图像处理模型之后，获得某个聚类粒度下对应的6个预测分类P0～P5，引入一致性损失的目的是使得图像处理模型对增强样本图像在预测分类P1～P5均与原始样本图像对应的预测分类P0分布保持一致，以保证图像处理模型输出结果的鲁棒性，也就是说一个样本图像即使经过图像增强也能聚类到与原样本图像相同的类别中。一种一致性损失的计算方式如下：

其中，Dkln表示第n个增强样本图像对应的一致性损失。

其中P(X_i)为样本图像X_i输入图像处理模型后某个聚类粒度下的输出结果，Q(X_i)为样本图像经过图像增强后，再输入图像处理模型在对应聚类粒度下的输出结果。

作为一种实施例，各个聚类粒度下的损失值的加权权重可以相同，例如，参照前文公式(2)，a1、a2和a3的取值可以相同。a4的取值可以为固定值，例如为1。

进一步地，a1的取值根据图像处理模型的具体训练情况进行调整。例如，在本轮迭代训练时的各聚类粒度下的损失值之和与上一轮迭代训练时的各聚类粒度下的损失值之和差值越大，则a1对应取值越小。

具体来说，在聚类和一致性学习两个任务中，由于一致性学习的目标是让聚类模型在多种图像增强手段下均能聚到样本图像未处理前所对应的预测类别上，故一致性学习需要贯穿图像处理模型学习的所有轮迭代。而由于每隔一定的迭代次数后会更新聚类类别，在刚开始更新聚类类别时，由聚类类别变化造成的聚类效果变差，会使得a1所调节的L1、L2、L3聚类loss瞬间变大，此时a1的值需要变小，使得聚类loss在a1加权后相对稳定，从而避免一致性loss有过大的波动，记Lc＝L1+L2+L3。因此a1的取值具体可以参照如下公式：

其中，t可以表示本轮迭代训练，(t-1)表示上一轮迭代训练。

在本申请实施例中，灵活设定聚类粒度下的损失值对应的加权权重，可以避免加权权重设置得过大或过小而引起的图像处理模型效果不佳的情况。

在另一种可能的实施例中，训练损失值可以是采用多分类下的训练损失函数进行计算得到，具体例如直接对每个聚类粒度下的预测分类与对应的真实分类之间误差求和，这样无需分别单独计算每个聚类粒度下的损失值，相对简化计算。

在计算出训练损失值之后，可以基于训练损失值，调整图像处理模型的参数，例如，第一服务器可以利用Adam算法调整图像处理模型的参数，具体为第一服务器根据上一次与本次迭代的训练损失值，计算时间步长，基于计算的时间步长与上一次迭代训练后的图像处理模型的参数，从而获得本次迭代训练后的图像处理模型的参数，涉及的计算公式示例如下：

v_t＝γv_t-1+ηΔθJ(θ) (6)

θ＝θ-v_t (7)

其中，θ为图像处理模型的参数，η是学习率，J(θ)为训练损失值，γ是常数项，也称为动量。v_t-1为上一次迭代训练对应的训练损失值的梯度变化方差，v_t为本次迭代训练对应的训练损失值的梯度变化方差。

在一种可能的实施例中，在对图像处理模型进行训练过程，还涉及到如何确定各个第一样本图像在每个聚类粒度下的真实类别，下面以确定第一样本图像在一个聚类粒度下的真实类别为例，对计算第一样本图像在该聚类粒度下的真实类别过程进行介绍：

计算方式一：

基于标注操作，获得该聚类粒度下的第一样本图像在该聚类粒度下的真实类别。

用户可以直接在第一服务器上对第一样本图像进行标注操作，标注操作例如用户在第一样本图像上输入该第一样本图像在该聚类粒度下的类别信息，或者例如用户在已有的多个类别标签中，选择该第一样本图像的类别标签，第一服务器响应于该标注操作，获得该第一样本图像在该聚类粒度下的真实类别。

第一服务器也可以从终端获得已标注的第一样本图像，也就相当于获得了第一样本图像的真实类别，终端可以基于用户进行的标注操作，获得已标注的第一样本图像。

本申请实施例中，可以直接对样本图像进行标注操作，从而获得样本图像的真实类别，这样可以获得准确性高的真实类别，使得后续基于具有标注的样本图像，可以对图像处理模型进行有监督训练，提高图像处理模型的输出类别的准确性。

计算方式二：

基于预设的聚类方法，确定第一样本图像的真实类别。

例如，第一服务器可以根据K-means聚类方法确定第一样本图像的真实类别，下面对根据K-means聚类方法确定真实类别的过程进行示例说明。

S1.1，从各个样本特征中，确定出K个样本特征作为K个候选聚类中心。

第一服务器可以通过特征提取模块获得样本图像集合中各个样本图像的样本特征，这些样本特征中包括前文论述的第一样本特征和第二样本特征。第一服务器可以从这些样本特征中确定K个样本特征，K为正整数，其中K的取值与该聚类粒度下设置的类别数量相同，例如，该聚类粒度下设置的类别数量为10个，那么K的取值为10。

第一服务器可以从这些样本特征中随机选择K个样本特征作为K个候选聚类中心，可以相对简单地确定出多个聚类中心。第一服务器也可以将这些样本特征分别映射为预设坐标系中的坐标点，从而将坐标点分布区域依次划分为多个单元，依次间隔预设数量单元中的坐标点作为K个候选聚类中心，这样可以获得相对分散的K个候选聚类中心，有利于后续确定出更为准确的K个候选聚类中心。

S1.2，针对K个候选聚类中心，采用以下方式进行迭代更新，直到两次迭代更新输出的同一候选聚类中心之间的距离不大于第一预设值为止：分别将各个样本特征，聚类到K个候选聚类中心中与相应样本特征距离最近的候选聚类中心，以及基于K个候选聚类中心对应的样本特征均值，分别对K个候选聚类中心进行更新。

第一服务器在确定K个候选聚类中心之后，可以对K个候选聚类中心进行迭代更新，直到两次迭代更新输出的同一候选聚类中心之间的距离小于或等于第一预设值为止，下面对一次迭代更新过程进行说明：

S1.2.1，基于K个候选聚类中心，对各个样本特征进行聚类。

第一服务器可以确定各个样本特征中每个样本特征与K个候选聚类中心中每个候选聚类中心之间的距离，距离例如为欧式距离或余弦距离等。针对每个样本特征，对应可以获得K个距离，将该样本特征归类为K个距离中最小距离对应的候选聚类中心，这相当于初步确定了该样本特征对应的候选聚类中心。

S1.2.2，基于属于同个候选聚类中心的样本特征的均值，对候选聚类中心进行更新。

第一服务器在对各个样本特征进行聚类之后，可以获得分别属于K个候选聚类中心中每个候选聚类中心的样本特征，相当于第一服务器获得了属于各个候选聚类中心下的各个样本特征。第一服务器确定每个聚类下的样本特征之间的均值，这里的均值例如为该聚类下的样本特征之间的平均值，第一服务器将该聚类下的均值更新为该聚类下的候选聚类中心。

以此类推，第一服务器采用S1.2.1～S1.2.2的步骤可以对K个候选聚类中心中每个候选聚类中心进行迭代更新。

第一服务器在获得本次迭代更新输出的一个聚类中心之后，可以确定本次迭代更新输出的聚类中心与上一次迭代更新输出的对应聚类中心之间的距离是否小于或等于第一预设值，距离例如计算欧式距离或余弦距离等，如果本次迭代更新输出的聚类中心与上一次迭代更新输出的对应聚类中心之间的距离小于或等于第一预设值，相当于确定了两次迭代更新输出的同一候选聚类中心之间的距离不大于第一预设值，所谓的“两次迭代更新输出的同一候选聚类中心”是指两次迭代更新所针对的候选聚类中心，表示该本次迭代更新输出的聚类中心与上一次迭代更新输出的聚类中心之间的误差较小，将该本次迭代更新输出的聚类中心确定为目标聚类中心。其中，上一次迭代更新输出的对应聚类中心是指与该本次迭代更新的前一次迭代更新输出的聚类中心，例如本次迭代更新输出的聚类中心为第S次更新后的聚类中心，那么上一次迭代更新输出的对应聚类中心为第(S-1)次更新后的聚类中心，S为大于或等于2的正整数。

如果本次迭代更新输出的聚类中心与上一次迭代更新输出的对应聚类中心之间的距离大于第一预设值，则表示该本次迭代更新输出的聚类中心与上一次迭代更新输出的聚类中心之间误差较大，因此可以根据该本次迭代更新输出的聚类中心下关联的样本特征的均值，对该本次迭代更新输出的聚类中心进行更新，从而获得再次迭代更新输出的聚类中心，直到再次迭代更新输出的聚类中心与上一次迭代更新输出的对应聚类中心之间的距离小于或等于第一预设值，获得最终的目标聚类中心。以此类推，将最后一次迭代更新输出的聚类中心作为目标聚类中心，从而获得最终的K个目标聚类中心。

在获得最终的K个目标聚类中心之后，可以确定第一样本特征与K个目标聚类中心中每个目标聚类中心的距离，从而获得距离该第一样本特征距离最近的目标聚类中心，将该目标聚类中心确定该第一样本特征对应的目标聚类中心，将该目标聚类中心的类别确定为第一样本特征对应的真实类别。

例如，请参照图7，为本申请实施例提供的一种基于K-means方法确定聚类中心的过程示例图，在图7中(1)中分布有各个样本特征映射后的坐标点，具体如图7中(1)中各个圆圈所示的A、B、C、D、E、F、G、H、J、M和N共11个点。第一服务器从这11个点中确定4个聚类中心，具体如B、D、H和N四个候选聚类中心。

第一服务器分别确定A、C、E、F、H、J和M与B、D、G和N四个候选聚类中心之间的距离，第一服务器确定A、C、E距离B点最近，G和F距离H最近，J和M距离N最近，从而将这11个点分别进行聚类，距离结果参照如图7中(2)所示，属于一个聚类中的点位于一个椭圆圈内。

第一服务器确定属于同个聚类的各个点的均值，确定A、C、H和B之间的均值具体如图7中(3)所示的K1，确定D的均值依旧为D点，确定G、F和H之间的均值具体如图7中(3)所示的K2，确定J、N和M之间的均值具体如图7中(3)所示的K3，从而将B对应的候选聚类中心更新为K1，H对应的候选聚类中心更新为K2，N对应的候选聚类中心更新为K3，从而获得更新后的每个候选聚类中心。

第一服务器确定K1与B之间的距离小于第一预设值，确定K1为最终的一个目标聚类中心，确定D为一个目标聚类中心，确定K2和H之间的距离小于第一预设值，确定K2为最终的一个目标聚类中心，确定K3和N之间的距离小于第一预设值，从而可以获得目标聚类中心。

在本申请实施例中，利用K-means聚类方法确定样本图像的真实类别，无需手动对样本图像进行标注，相对可以提高图像标注的效率，且可以基于该真实类别对图像处理模型进行无监督训练。且，由于在确定样本图像的真实类别时，是利用特征提取模块输出的样本特征进行聚类，而特征提取模块可以提取样本图像在不同聚类粒度下分类所需的特征，也就相当于是基于样本图像各种特征确定出的真实类别，因此提高了对样本图像进行聚类的准确性，进而提高了确定样本图像的真实类别的准确性。

如前文论述的内容，候选聚类中心的数量K的取值实际与该聚类粒度下对应的类别数量相同。在本申请实施例中，对于任意两个不同粒度级别下的类别数量可以是相同的，也可以是不同的。为了能够使得图像处理模型能够更有层次地学习各个粒度级别下的特征，在本申请实施例中，第一服务器可以根据粒度级别的大小，设置每个粒度级别下的类别数量，例如：粒度级别越大，对应该粒度级别下的类别数量越少。

具体地，粒度级别越大，表示分类程度越粗，那么图像处理模型可以基于图像的整体特征便能输出该粒度级别下的类别，而如果粒度级别越小，表示分类程度越细，那么要求图像处理模型学习更为细节的特征才能输出该粒度级别下的类别，因此如果粒度级别越小的，对应设置的类别数量越多，那么图像处理模型能够学习各种类别所对应的特征，也就是说，图像处理模型能够学习更多更为全面和丰富的特征，便于对图像进行更准确的分类。

进一步地，为了使得图像处理模型学习到不同层次的特征分布更为广泛，在本申请实施例中，两个不同粒度级别下对应的类别数量存在量级上的差别，这样能使得图像处理模型能够不同粒度级别下更为丰富的特征，以便于图像处理模型后续对图像进行更为准确的分类。例如，图像处理模型可以输出第一粒度级别、第二粒度级别和第三粒度级别上的类别数量，第一粒度级别上对应的类别数量可以设置为(N/10)个，N为正整数，第二粒度级别上对应的类别数量可以设置为N个，第三粒度级别上对应的类别数量可以设置为(N*10)个。

作为一种实施例，在对第一样本特征进行分类时，可以基于第一样本特征点的高层抽象特征进行分类，而高层抽象特征可以由底层特征进行各种操作获得，而对于一个图像分类而言，无论对图像进行哪一种聚类粒度下的分类，图像的底层特征都是相对固定的，因此在本申请实施例中，请参照图6，为本申请实施提供的一种图像处理模型的结构示意图二，该图像处理模型中的特征提取模块包括用于提取底层特征的第一特征提取子模块和提取高层抽象特征的第二特征提取子模块，在调整图像处理模型的参数时，只需调整第二特征提取子模块的参数。

具体来说，第一服务器将第一样本图像输入第一特征提取子模块，获得第一样本图像的底层特征，底层特征输入至第二特征提取子模块，从而获得第一样本图像的高层抽象特征，高层抽象特征为前文论述的第一样本特征的一种示例。其中第一特征提取子模块可以是经过预训练得的，例如基于ImageNet进行预训练得到的。在后续基于训练损失值调整图像处理模型的参数时，只需调整图像处理模型中的第二特征提取子模块和类别识别模块的参数，无需调整第一特征提取子模块的参数。

在具体实施时，第一特征提取子模块可以采用ResNet-101，其中第一特征提取子模块的具体结构如下表4所示：

表4

参照表4所示的第一特征提取模块分别包括五个卷积组，依次为表4中的Conv1、Conv2_x、Conv3_x、Conv4_x和Conv5_x，第一卷积组包括一个卷积层；第二卷积组包括一个最大池化层，该最大池化层的步长为2，以及3个子模块，每个子模块包括三个卷积层；第三卷积组包括4个子模块，每个子模块包括三个卷积层；第四卷积组包括23个子模块，每个子模块包括三个卷积层；第五个卷积组包括3个子模块，每个子模块包括三个卷积层。

需要说明的是，上述表1是对第一特征提取子模块的结构的一种示例，实际不限制第一特征提取子模块的结构。

作为一种实施例，第二特征提取子模块可以采用embeding结构。其中第一特征提取子模块的具体结构如下表5所示：

表5

层结构名称(Layer name)	输出尺寸(Output size)	层(Layer)
			Pool_cr	1x2048	最大池化层(Max pool)
map	1x1024	全连接层(full connetction)
			Fc_map	1x128	全连接层(full connetction)

该embeding结构依次包括最大池化层、第一全连接层和第二全连接层。为了能够便于调整第二特征提取子模块的参数，第二特征提取子模块的参数可以是采用方差为0.01，均值为0的高斯分布进行初始化得到的。

需要说明的是，上述表1是对第二特征提取子模块的结构的一种示例，实际不限制第二特征提取子模块的结构，例如该第二特征提取子模块可以增加深神经网络层或残差网络结构等，本申请不对第二特征提取子模块的具体结构进行限定。

在本申请实施例中，特征提取模块划分为用于提取底层特征的第一特征提取子模块和用于提取高层抽象特征的第二特征提取子模块，由于图像的底层特征相对固定，因此在后续调参时，即使不调整第一特征提取子模块的参数，也不会特征提取模块提取结果造成影响，这样在减少调参量的同时，还能保证特征提取模块的输出的准确性。

在另一种可能的实施例中，在基于训练损失值，调整图像处理模型的参数时，也可以调整第一特征提取子模块的参数，本申请不对此进行限制。

为了更清楚地说明本申请实施例中的图像处理模型训练参数，下面以上述表1～表5所示的图像处理模型，对训练图像处理模型的过程进行举例介绍：

1、确定第一样本图像的真实类别，具体包括如下过程：

①、通过K-means聚类方法对样本图像集合进行(N/10)类别聚类，得到(N/10)个聚类中心，分别编号为1，2…(N/10)，即相当于获得该级别粒度下包括的真实类别；

②、针对样本图像集合中每一个第一样本图像，执行如下过程：

③、计算第一样本图像与所有聚类中心的距离；

④、选择最近距离的聚类中心所对应的聚类中心编号i(1，2…N/10编号中的一个值)作为该样本聚类的真实类别。

⑤、记录每个第一样本图像的真实类别。

2、训练第二特征提取子模块和第一类别识别分支模块，具体包括如下过程：

将第一样本图像依次输入第一特征提取子模块、第二特征提取子模块和第一类别识别分支模块，获得该第一样本图像的预测类别，基于预测类别与真实类别计算第二特征提取子模块和第一类别识别分支模块对应的损失值(classification loss)，基于该损失值，计算得到第二特征提取子模块和第一类别识别分支模块的参数的更新值，基于该更新值，调整第二特征提取子模块和第一类别识别分支模块的参数，具体调整表1、表2和表5中所示结构的参数。

3、训练第二特征提取子模块、第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块，具体包括如下过程：

在获得已训练的第二特征提取子模块、第一类别识别分支模块的基础上，对第二特征提取子模块、第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块的参数进行调整。学习过程与粗粒度预训练类似，但在聚类任务生成和loss计算时增加了2个聚类任务(具体为第二粒度级别上的聚类任务和第三粒度级别上的聚类任务)：

①、通过K-means聚类方法对样本图像集合进行N个类别聚类，确定每个样本图像在中粒度级别上对应的类别；

②、通过K-means聚类方法对样本图像集合进行(N*10)个类别聚类，确定每个样本图像在细粒度级别上对应的类别；

③、分别计算第一粒度级别对应的损失值、第二粒度级别对应的损失值、第三粒度级别对应的损失值，确定第一粒度级别对应的损失值、第二粒度级别对应的损失值和第三粒度级别对应的损失值之间的加权求和，从而获得对应训练损失值。

基于该训练损失值，计算第二特征提取子模块、第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块对应的参数的更新值，基于该更新值，调整第二特征提取子模块、第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块的参数，直到第二特征提取子模块、第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块满足第一收敛条件，获得已训练的图像处理模型。

基于同一发明构思，本申请实施例提供一种图像处理方法，下面以第二服务器执行该图像处理方法为例，对本申请实施例涉及的图像处理方法介绍，请参照图8所示的图像处理方法的流程图，该图像处理方法包括：

S81，获得已训练的图像处理模型。

第二服务器可以通过前文论述的任一的图像处理模型训练方法获得已训练的图像处理模型，或者第二服务器可以从第一服务器获得已训练的图像处理模型。获得已训练的图像处理模型的内容可以参照前文论述的训练图像处理模型的方法，此处不再赘述。

S82，将待处理图像输入特征提取模块，获得待处理图像对应的目标特征。

第二服务器可以从终端获得待处理图像，或者可以基于用户的输入操作，获得待处理图像，在第二服务器获得待处理图像之后，第二服务器可以将待处理图像输入至特征提取模块，特征提取模块的具体实现方式可以参照前文论述的内容，此处不再赘述。待处理图像经过特征提取模块之后，可以获得待处理图像对应的目标特征。待处理图像的目标特征的实现形式可以参照前文论述的第一样本特征的实现形式，此处不再赘述。

S83，将目标特征输入类别识别模块，获得待处理图像的目标类别。

第二服务器可以将目标特征输入图像处理模块中的类别识别模块，从而获得待处理图像的目标类别，如前文论述的内容，该类别识别模块可以输出至少三个聚类粒度下各自对应的预测类别，因此待处理图像的目标类别可以是至少三个聚类粒度下各自对应的预测类别中的至少一个。

在基于目标特征输出任意一个类别时，类别识别模块可以直接输出该聚类粒度下所属的类别，或者可以输出该待处理图像属于该聚类粒度下各个类别的概率，第二服务器将概率满足预设条件的概率所对应的类别确定该待处理图像在该聚类粒度下的类别，预设条件例如为概率最大或概率大于预设概率。

在图8所示的实施例中，由于图像处理模型中的特征提取模块能够学习至少三种粒度级别下类别识别任务所需的特征，因此类别识别模块基于该特征提取模块提取的特征对待处理图像进行分类，可以提高输出的待处理图像的类别的准确性。

作为一种实施例，当类别识别模块包括第一类别识别分支模块、第二类别分支识别模块和第三类别识别分支模块时，其中第一类别识别分支模块、第二类别分支识别模块和第三类别识别分支模块的结构和作用可以参照前文论述的内容，此处不再赘述，目标类别为第二类别识别分支模块输出的中聚类粒度下对应的类别。

在本申请实施例中，以类别识别模块中的第二类别分支识别模块作为输出，由于特征提取模块在训练过程中学习到了相对于该中聚类粒度更粗的聚类粒度上的特征，以及相对于该中聚类粒度更细的聚类粒度上的特征，使得第二类别识别分支模块可以结合粗、中和细聚类粒度上的特征确定该待处理图像在中聚类粒度上对应的类别，提高输出的目标类别的准确性。

例如，请参照图9所示的确定待处理图像的目标类别的过程示例图，第二服务器通过特征提取模块获得待处理图像的目标特征，并基于该目标特征输出该待处理图像在粗聚类粒度、中聚类粒度和细聚类粒度下各自对应的分类，具体如图9所示的事物、车辆和货车。

进一步地，在确定待处理图像的目标类别之后，可以对该待处理图像进行聚类。

具体来说，第二服务器可以将类别识别模块中类别识别模块的参数划分为多个聚类中心，确定待处理图像经过特征提取模块后的目标特征与每个聚类中心之间距离，选择距离该目标特征最近的聚类中心作为其对应的聚类中心，也就相当于将目标特征输入类别识别分支模块，获得该待处理图像对应的目标类别，从而实现对图像进行分类。

继续以表2对应的第二类别识别分支模块为例，表2中的Fc_cluster学习到的参数具体为(128*N)矩阵，这(128*N)矩阵对应可以作为N个向量，N为正整数。第二服务器可以将这N个向量分别作为聚类中心，以获得N个聚类中心，对各个图像进行分桶搜索召回，具体包括：

1)数据库建立分桶：对数据库中的所有图像，选择最近的聚类中心作为其所在分桶；

2)分桶召回：确定待处理图像的目标特征，与N个聚类中心之间的距离，以获得N个距离，将与待处理图像距离最近的前M个聚类中心确定为该待处理图像的候选聚类中心，对应将这些候选聚类中心对应的数据集确定该待处理图像对应的候选数据集，M为小于N的正整数。

但这样确定出的候选数据集并不一定准确，因此在本申请实施例中，第二服务器可以基于待处理图像的局部特征，进一步确定该待处理图像对应的数据集。

具体来说，第二服务器可以确定该待处理图像的局部特征，例如，尺度不变特征变换(Scale-invariant feature transform，SIFT)，确定候选数据集中参考图像的局部特征，候选数据集中的参考图像可以是该候选数据集中满足预设条件的图像，或者候选数据集中随机选择的一个图像，预设条件例如为图像清晰度大于预设清晰或图像颜色饱和度大于预设饱和度等，进而确定该待处理图像与该参考图像的局部特征之间的相似度，如果确定出的相似度大于或等于第二预设值，那么表示该待处理图像与候选数据集中的参考图像的相似度较高，因此将该待处理图像聚类至该候选数据集中，也就确定出了待处理图像所属的目标数据集。

在本申请实施例中，由于在确定待处理图像的初始聚类时，考虑待处理图像的全局特征以及细节特征等，使得分桶召回结果更为准确。

进一步地，如果上述图像处理方法是应用于视频检索场景中，那么待处理图像为视频中的视频帧，具体例如，可以是按照预设采样时间，从视频中采集的多个视频帧。通过上述任一的图像处理方法确定待处理图像所属的目标数据集，也就对应确定了待处理图像所属的分桶，待处理图像所属的分桶作为该视频所属的分桶，后续可以直接从各个分桶中检索出相应的视频，以实现快速准确地检索出视频。

基于同一发明构思，本申请实施例提供一种图像处理模型训练装置，该装置可以实现前文论述的第一服务器的功能，请参照图10所示的图像处理模型训练装置的结构示意图，该装置包括：

图像获取模块1001，用于获取样本图像集合；

模型训练模块1002，用于基于样本图像集合，对待训练的图像处理模型进行迭代训练，直到满足第一收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

将样本图像集合中第一样本图像输入图像处理模型中的特征提取模块，获得第一样本图像对应的第一样本特征；

将第一样本特征输入图像处理模型中的类别识别模块，获得第一样本图像分别在至少三个聚类粒度下各自对应的预测类别，其中，至少三个聚类粒度包括至少三个不同粒度级别的聚类粒度；

基于获得的各个预测类别和第一样本图像分别在至少三个聚类粒度下各自对应的真实类别，确定训练损失值，并基于训练损失值调整特征提取模块和类别识别模块的参数，其中，训练损失值用于表示获得的各个预测类别与对应的真实类别之间的误差。

在一种可能的实施例中，类别识别模块包括多个类别识别分支模块；模型训练模块1002具体用于：

将第一样本特征分别输入类别识别模块中的各个类别识别分支模块中，分别获得各个类别识别分支模块输出的预测类别，其中，各个类别识别分支模块输出的各个预测类别至少包括至少三个不同粒度级别的聚类粒度下对应的类别。

在一种可能的实施例中，多个类别识别分支模块至少包括第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块；模型训练模块1002具体用于：

将第一样本特征分别输入第一类别识别分支模块，获得第一样本图像在第一聚类粒度下对应的预测类别；以及，

将第一样本特征分别输入第二类别识别分支模块，获得第一样本图像在第二聚类粒度下对应的预测类别，其中，第二聚类粒度的粒度级别小于第一聚类粒度的粒度级别；以及，

将第一样本特征分别输入第三类别识别分支模块，获得第一样本图像在第三聚类粒度下对应的预测类别，其中，第三聚类粒度的粒度级别小于第二聚类粒度的粒度级别。

在一种可能的实施例中，模型训练模块1002具体用于：

基于训练损失值调整特征提取模块和类别识别模块的参数之前，基于样本图像集合，对特征提取模块和第一类别识别分支模块进行迭代训练，直到特征提取模块和第一类别识别分支模块满足第二收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

基于样本图像集合中第二样本图像在第一聚类粒度下对应的预测类别，以及第二样本图像在第一聚类粒度下对应的真实类别，确定第一聚类粒度对应的损失值；

基于第一聚类粒度对应的损失值，调整特征提取模块和第一类别识别分支模块的参数。

在一种可能的实施例中，特征提取模块包括预训练后的第一特征提取子模块和第二特征提取子模块；模型训练模块1002具体用于：

将第一样本图像输入第一特征提取子模块，获得第一样本图像的底层特征，其中，底层特征用于描述第一样本图像在视觉层上呈现的特征；

将底层特征输入第二特征提取子模块，获得第一样本图像的高层抽象特征，其中，高层抽象特征用于描述第一样本图像在概念层上呈现的特征；

基于训练损失值，调整第二特征提取子模块的参数。

在一种可能的实施例中，模型训练模块1002具体用于：

在一种可能的实施例中，模型训练模块具体用于：

在基于获得的各个预测类别和第一样本图像分别在至少三个聚类粒度下各自对应的真实类别，确定训练损失值之前，采用如下方式获得第一样本图像分别在至少三个聚类粒度下各自对应的真实类别：

从各个样本特征中，确定出K个样本特征作为K个候选聚类中心，其中，各个样本特征是样本图像集合中各个样本图像经过特征提取模块输出的，K为正整数；

针对K个候选聚类中心，采用以下方式进行迭代更新，直到两次迭代更新输出的同一候选聚类中心之间的距离不大于第一预设值为止：分别将各个样本特征，聚类到K个候选聚类中心中与相应样本特征距离最近的候选聚类中心，以及基于K个候选聚类中心对应的样本特征均值，分别对K个候选聚类中心进行更新；

将最后一次迭代更新输出的K个候选聚类中心作为K个目标候选聚类中心，将第一样本特征聚类到K个目标聚类中心中与第一样本特征距离最近的目标聚类中心，以获得第一样本特征对应的真实类别。

应当说明的是，图10所示的装置还可以实现前文论述的任一的图像处理方法，此处不再赘述。

图10所示的图像处理模型训练装置可以设置在前文论述的第一服务器中，或者设置在其它具有图像处理能力的设备，本申请不对此进行限制，该图像处理模型训练装置可以结合至少三种粒度级别下的类别识别任务对图像处理模型进行训练，使得图像处理模型能够基于更多粒度级别下的类别识别分类任务进行分类，以提高图像处理模型输出的准确性。

基于同一发明构思，本申请实施例提供一种图像处理装置，该装置可以实现前文论述的第二服务器的功能，请参照图11所示的图像处理装置的结构示意图，该装置包括：

模型获得模块1101，用于获得已训练的图像处理模型；

特征获得模块1102，用于将待处理图像输入已训练的图像处理模型中的特征提取模块，获得待处理图像对应的目标特征；

类别获得模块1103，用于将目标特征输入已训练的图像处理模型中的类别识别模块，获得待处理图像的目标类别，其中，目标类别属于类别识别模块输出的待处理图像分别在至少三个聚类粒度下各自对应的预测类别，至少三个聚类粒度包括至少三个不同粒度级别的聚类粒度。

在一种可能的实施例中，装置还包括图像聚类模块1104，其中图像聚类模块1104用于：

基于目标类别，确定待处理图像所属的候选数据集；

确定待处理图像的局部特征与候选数据集中参考图像的局部特征之间的相似度；

若确定出的相似度大于或等于第二预设值，则将待处理图像聚类至候选数据集。

作为一种实施例，图11中的图像聚类模块1104为可选的部分。

应当说明的是，图11所示的装置还可以实现前文论述的任一的图像处理方法，此处不再赘述。

图11所示的图像处理装置可以设置在前文论述的第二服务器中，或者设置在其它具有图像处理能力的设备，本申请不对此进行限制，该图像处理装置可以结合至少三种粒度级别下的类别识别任务对应所需的特征，以输出待处理图像的目标类别，由于基于更多粒度级别下的类别识别分类任务所需的特征进行分类，因此提高了输出的目标类别的准确性。且，由于图像处理模型可以一次性输出多种粒度级别下的类别，提高输出待处理图像的目标类别的准确性。且，图像处理装置如需要输出多个粒度级别下的类别，也只需部署一个图像处理模型即可，相对减少了部署模型所需的资源开销。

基于同一发明构思，本申请实施例提供一种计算机设备，该计算机设备可以实现前文第一服务器的功能，请参照图12，为本申请实施例提供的计算机设备的结构示意图，该计算机设备包括处理器1201和存储器1202。

处理器1201可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1202和处理器1201之间的具体连接介质。本申请实施例在图12中以存储器1202和处理器1201之间通过总线1203连接，总线1203在图12中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1203可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1202可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1202也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1202可以是上述存储器的组合。

处理器1201，用于调用存储器1202中存储的计算机程序时执行如前文论述的任一的图像处理模型训练方法。

图12所示的计算机设备例如可以是前文论述的第一服务器，或者其它具有图像处理能力的设备，本申请不对此进行限制。

基于同一发明构思，本申请实施例提供一种计算机设备，该计算机设备可以实现前文论述的第二服务器的功能，请参照图13，为本申请实施例提供的计算机设备的结构示意图，该计算机设备包括处理器1301和存储器1302。

处理器1301、存储器1302和总线1303的实现形式可以参照前文论述的内容，此处不再赘述。其中，处理器1301可以用于调用存储器1302中存储的计算机程序时执行如前文论述的任一的图像处理方法。

图13所示的计算机设备例如可以是前文论述的第一服务器，或者其它具有图像处理能力的设备，本申请不对此进行限制。

基于同一发明构思，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述的任一的图像处理模型训练方法或图像处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

基于同一发明构思，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的任一的图像处理模型训练方法或图像处理方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像处理模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述类别识别模块包括多个类别识别分支模块；

所述将所述第一样本特征输入所述图像处理模型中的类别识别模块，获得所述第一样本图像分别在至少三个聚类粒度下各自对应的预测类别，包括：

3.如权利要求2所述的方法，其特征在于，所述多个类别识别分支模块至少包括第一类别识别分支模块、第二类别识别分支模块和第三类别识别分支模块；

将所述第一样本特征分别输入所述类别识别模块中的各个类别识别分支模块中，分别获得所述各个类别识别分支模块输出的预测类别，包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述训练损失值调整所述特征提取模块和所述类别识别模块的参数之前，所述方法还包括：

基于所述样本图像集合，对所述特征提取模块和第一类别识别分支模块进行迭代训练，直到所述特征提取模块和所述第一类别识别分支模块满足第二收敛条件为止，其中，在一次迭代训练过程中，执行以下操作：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述特征提取模块包括预训练后的第一特征提取子模块和第二特征提取子模块；

所述将所述第一样本图像输入所述图像处理模型中的特征提取模块，获得所述第一样本图像对应的第一样本特征，包括：

基于所述训练损失值调整所述特征提取模块的参数，包括：

6.如权利要求1-4中任一项所述的方法，其特征在于，所述基于获得的各个预测类别和所述第一样本图像分别在所述至少三个聚类粒度下各自对应的真实类别，确定训练损失值，包括：

针对所述至少三个聚类粒度中的各个聚类粒度分别执行以下操作：基于所述第一样本图像在一个聚类粒度下对应的预测类别，以及所述第一样本图像在所述一个聚类粒度下对应的真实类别，确定所述一个聚类粒度对应的损失值；

对获得的各个损失值进行加权求和，获得所述训练损失值。

7.如权利要求1-4中任一项所述的方法，其特征在于，所述基于获得的各个预测类别和所述第一样本图像分别在所述至少三个聚类粒度下各自对应的真实类别，确定训练损失值之前，所述方法还包括：采用如下方式获得所述第一样本图像分别在所述至少三个聚类粒度下各自对应的真实类别：

8.一种图像处理方法，其特征在于，包括：

获得已训练的图像处理模型，其中，所述已训练的图像处理模型是通过权利要求1～7中任一所述的方法获得的，所述已训练的图像处理模型包括特征提取模块和类别识别模块；

9.如权利要求8所述的方法，其特征在于，所述将所述目标特征输入所述类别识别模块，获得所述待处理图像的目标类别之后，所述方法还包括：

10.一种图像处理模块训练装置，其特征在于，包括：

图像获取模块，用于获取样本图像集合；

11.一种图像处理装置，其特征在于，包括：

模型获得模块，用于获得已训练的图像处理模型；

类别获得模块，用于将所述目标特征输入所述已训练的图像处理模型中的类别识别模块，获得所述待处理图像的目标类别，其中，所述目标类别属于所述类别识别模块输出的所述待处理图像分别在至少三个聚类粒度下各自对应的预测类别，所述至少三个聚类粒度包括至少三个不同粒度级别的聚类粒度；

图像聚类模块，用于基于所述目标类别，对所述待处理图像进行聚类。

12.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-7或8-9中任一项所述的方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-7或8-9中任一项所述的方法。