CN113435545A

CN113435545A - 图像处理模型的训练方法及装置

Info

Publication number: CN113435545A
Application number: CN202110933625.3A
Authority: CN
Inventors: 磯部駿; 陶鑫; 章佳杰; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-14
Filing date: 2021-08-14
Publication date: 2021-09-24

Abstract

本公开关于一种图像处理模型的训练方法及装置，所述图像处理模型的训练方法包括：获取训练数据集，该训练数据集包括多个图像数据；对训练数据集中的每个图像数据执行特征提取，得到多个图像特征；对多个图像特征进行聚类，从聚类后的多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本；将聚类后的多个图像特征中与第二样本类别相异的图像特征确定为负样本；通过正样本对与负样本构造目标损失函数；基于目标损失函数更新图像处理模型的参数，来训练图像处理模型。

Description

图像处理模型的训练方法及装置

技术领域

本公开涉及计算机技术领域，更具体地说，涉及一种图像处理模型的训练方法及装置。

背景技术

对比学习在当前的图像处理模型的训练方法中极具代表性，其通过目标损失函数来学习给定样本的特性，因此目标损失函数的好坏直接影响训练出的图像处理模型的性能。

在当前主流的对比学习方法中，由于目标损失函数自身的特性原因，导致对比学习的效果不够理想，例如，采用contrastive loss(对比损失函数)会使网络陷入局部优化点，很难对整体数据进行拟合；而采用triple loss(三元组损失函数)则每次只能看到很少的样本，导致图像处理模型对特征的识别力不足。可见，当前的图像处理模型的训练方法仍需改进。

发明内容

本公开提供一种图像处理模型的训练方法及装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种图像处理模型的训练方法，包括：获取训练数据集，所述训练数据集包括多个图像数据；对所述训练数据集中的每个图像数据执行特征提取，得到多个图像特征；对所述多个图像特征进行聚类；从聚类后的所述多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本；将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本；通过所述正样本对与所述负样本构造目标损失函数；基于所述目标损失函数更新所述图像处理模型的参数，来训练所述图像处理模型。

可选地，所述从聚类后的所述多个图像特征中抽取第一样本并基于第一样本确定第二样本，包括：从聚类后的所述多个图像特征中随机抽取第一样本；确定与第一样本对应的聚类中心；将距离所述聚类中心最近的图像特征确定为第二样本。

可选地，所述将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本，包括：将从预先建立的记忆库中存储的聚类后的图像特征中与第二样本类别相异的图像特征确定为负样本，其中，所述记忆库用于存储从聚类后的所述多个图像特征中除所述正样本对之外的其余图像特征中选择的预定数量个图像特征。

可选地，所述通过所述正样本对与所述负样本构造目标损失函数，基于所述目标损失函数更新所述图像处理模型的参数，来训练所述图像处理模型，包括：通过所述正样本对与所述记忆库中的所有负样本计算所述目标损失函数的值；基于所述目标损失函数的值更新所述图像处理模型的参数，来训练所述图像处理模型。

可选地，在所述图像处理模型的参数被更新后，从所述记忆库中移除存储的聚类后的图像特征，再从聚类后的所述多个图像特征中除所述正样本对和使用过的图像特征之外的其余图像特征中选择新的预定数量个图像特征存入所述记忆库以用于下一次对所述图像处理模型的参数进行更新。

根据本公开实施例的第二方面，提供一种图像处理模型的训练装置，包括：训练数据获取单元，被配置为：获取训练数据集，所述训练数据集包括多个图像数据；特征提取单元，被配置为：对所述训练数据集中的每个训练数据执行特征提取，得到多个图像特征；特征聚类单元，被配置为：对所述多个图像特征进行聚类；正样本对确定单元，被配置为：从聚类后的所述多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本；负样本确定单元，被配置为：将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本；目标损失函数构造单元，被配置为：通过所述正样本对与所述负样本构造目标损失函数；模型参数更新单元，被配置为：基于所述目标损失函数更新所述图像处理模型的参数，来训练所述图像处理模型。

可选地，正样本对确定单元可被配置为：从聚类后的所述多个图像特征中随机抽取第一样本；确定与第一样本对应的聚类中心；将距离所述聚类中心最近的图像特征确定为第二样本。

可选地，负样本确定单元可被配置为：将从预先建立的记忆库中存储的聚类后的图像特征中与第二样本类别相异的图像特征确定为负样本，其中，所述记忆库用于存储从聚类后的所述多个图像特征中除所述正样本对之外的其余图像特征中选择的预定数量个图像特征。

可选地，目标损失函数构造单元可被配置为：通过所述正样本对与所述记忆库中的所有负样本计算所述目标损失函数的值；模型参数更新单元可被配置为：基于所述目标损失函数的值更新所述图像处理模型的参数，来训练所述图像处理模型。

可选地，所述图像处理模型的训练装置还包括记忆库更新单元，所述记忆更新单元可被配置为：在对所述图像处理模型的参数进行一次更新后，从所述记忆库中移除存储的聚类后的图像特征，再从聚类后的所述多个图像特征中除所述正样本对和使用过的图像特征之外的其余图像特征中选择新的预定数量个图像特征存入所述记忆库以用于下一次对所述图像处理模型的参数进行更新。

根据本公开实施例的第三方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的图像处理模型的训练方法。

根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的图像处理模型的训练方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的图像处理模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的图像处理模型的训练方法及装置，在提取训练数据集中的图像数据的多个图像特征以后，先会对这些图像特征做一些预处理，即，首先对获取到的图像特征进行聚类，因此特征空间中的每一个图像特征都具有可识别性，在确定出正样本对以后，可以将与正样本对的类别不同的图像特征作为负样本，而不必把其他所有的图像特征都作为负样本，从而减轻将除正样本对以外的所有图像特征作为负样本进行训练导致的特征滞后现象；另一方面，本公开虽然减少了训练中使用的负样本数量，但相对于contrastive loss和triplet loss这两种损失函数来说，其负样本数量仍然是显著偏多的，因此可以改善图像处理的训练陷入局部解的问题，进而提高图像处理模型的性能。

此外，本公开设置从聚类后的多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本，可以避免通过表征变换构造正样本导致的特征丢失的问题，从而提高训练过程中的特征识别度，进而拓宽了图像处理模型的应用场景。

另外，本公开还设置有记忆库，用于存储从聚类后的多个图像特征中除确定出的正样本对之外的其余图像特征中选择的预定数量个图像特征，可以在一个记忆库中的所有图像特征被训练完以后，才对图像处理模型的参数进行一次更新，因此本公开可以减少对图像处理模型的参数进行更新的次数，从而改善图像处理模型的训练过程中出现的特征偏差(特征滞后)，进而进一步提高图像处理模型的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的图像处理模型的训练方法的流程图。

图2是示出根据本公开的示例性实施例的图像处理模型的训练过程的示意图。

图3是示出根据本公开的示例性实施例的图像处理模型的训练装置的框图。

图4是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

随着深度学习的发展，对比学习已经应用于图像处理模型的训练中，对比学习过程中使用的对比损失函数的好坏对训练出的图像处理模型的性能有着重要的影响。

现有技术中有两种主要的对比损失函数，Contrastive loss(对比损失函数)和Triplet loss(三元组损失函数)。其中，对比损失函数最早将对比思想引入损失函数中，其主要思想是，对比两个特征的距离，从而拉近或者推远它们的关系，实现“让两个相似的样本继续相似，而不相似的样本变得更疏远”。该损失函数的表达式如下：

其中N为样本特征的个数，d＝||a_n-b_n||₂，代表两个样本特征的欧氏距离，y为两个样本是否匹配的标签，y＝1代表两个样本相似或者匹配，y＝0则代表不匹配，margin为设定的阈值。

而三元组损失函数是对比损失函数的进阶版本，它在对比过程中引入了三个变量。它会从样本集中选取一个中心数据(anchor)，然后选取一个正样本和一个负样本。函数的优化目标是将正样本向中心拉近，而将负样本从中心推远。形成一个三元组关系。其表达式如下：

其中，

代表中心数据与正样本之间的欧氏距离，

代表中心数据与负样本之间的欧氏距离，m为设定的阈值。

三元组损失函数的目的是，同时让一个样本与正样本相似，而让它和负样本变远。在后来的实践中人们发现，样本集中往往存在简单和复杂的正负样本，在计算三元组损失时，应该采用复杂的样本。所以现在的三元组损失默认都是包含复杂样本的挑选步骤。

这两种对比损失函数都是局部优化函数，即一个样本的特征只与1个或2个样本进行比对，来改变对比特征之间的距离。这种局部的优化会让网络陷入局部点，很难对整体数据进行拟合。因此，在训练时通常要加入交叉熵函数作为一种全局的引导，来帮助对比损失函数的学习。

在无监督的模型学习场景中，对比学习的做法是将每一个样本当作一个类，然后将这个类的表征变化后的结果当作正样本，把其他所有样本当作负样本。其对比损失函数的表达式如下：

其中，f_θ(x^t)代表一个样本，

代表正样本，

代表负样本，τ为温度系数。该函数在计算时，会将一个样本与其他所有样本进行内积，从而学习这个样本的特性。举例来说，有3张图片，内容分别是美短猫，波斯猫，狗。以波斯猫为例，首先做图像的增强(例如旋转，颜色变化，随机擦除)，然后将结果作为正样本，而把其余的美短猫和狗作为负样本进行对比学习。在特征空间上，这三个样本会分开。

但该技术方案至少存在以下缺点：其一，这种对比学习方法通过表征变换来构造正样本，但这种表征变换对于细粒度识别问题不适用，这是因为有些场景的图片会对表征十分敏感，例如业务上的鸟类别的推荐，古玩物的推荐等，在变换表征以后可能会丢失一些关键的特征，从而导致学习效果不理想，限制了对比学习的应用场景；其二，这种对比学习每次会将除正样本以外的所有其他样本都作为负样本，这会导致出现特征滞后的现象。因为在学习时，都是按小批量来取batch的大小，而在每个batch后都会进行神经网络模型的更新。因此用神经网络模型提取全部样本后，所提取的负样本已经不是一个模型提取出来的，从而会存在特征的偏差，当样本类别很多时，会出现模型的性能下降的情况。

为了获得具有更优质性能的图像处理模型，本公开提出了一种基于对比学习的图像处理模型的训练方法及装置，具体地说，本公开在提取训练数据集的多个图像特征以后，首先会对这些图像特征做一些预处理，即，首先对获取到的图像特征进行聚类，因此特征空间中的每一个图像特征都具有可识别性，在确定出正样本对以后，可以将与正样本对的类别不同的图像特征作为训练中的负样本，而不必把其他所有的图像特征都作为负样本，从而减轻将除正样本对以外的所有图像特征作为负样本进行训练导致的特征滞后现象，以提高训练出的图像处理模型的性能；另一方面，本公开虽然减少了训练过程中使用的负样本数量，但相对于contrastive loss和triplet loss这两种损失函数来说，其负样本数量仍然是显著偏多的，因此可以改善图像模型的训练陷入局部解的问题，从而提高训练出的图像处理模型的性能。

此外，本公开设置从聚类后的多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本，可以避免通过表征变换构造正样本导致的图像特征丢失的问题，从而提高图像处理模型在应用过程中的特征识别度，进而拓宽了图像处理模型的应用场景。下面，将参照图1至图4具体描述根据本公开的示例性实施例的图像处理的训练方法及图像处理的训练装置。

图1是示出根据本公开的示例性实施例的图像处理模型的训练方法的流程图。这里，图像处理模型可应用于，但不限于，图像识别任务、图像分类任务、图像分割任务等。此外，根据本公开的训练方法也可应用于文本处理模型，例如，文本识别任务等。

参照图1，在步骤101中，获取训练数据集，所述训练数据集包括多个图像数据。这里，图像数据可以是单个图像数据，也可以是视频数据中的视频帧数据。另外，当本公开的训练方法应用于文本处理模型时，训练数据集可包括多个文本数据。

这里，训练数据集可以是公有的数据库，如ImageNet、PASCALVOC等，也可以是基于特定的目标建立的数据库，本公开对此不做限制。在步骤102中，对训练数据集中的每个训练数据执行图像特征提取，得到多个图像特征。

根据本公开的示例性实施例，可以采用神经网络来提取训练数据集中的每个训练数据的图像特征。在一些实施例中，该神经网络可以是卷积神经网络，通过对训练数据进行多次卷积，以不断对训练数据的图像特征进行提取和压缩，从而可以得到训练数据的可靠特征。当然该神经网络也可以是当前任何一种常用的神经网络，只要能提取训练数据的图像特征即可，本公开对此不做限制。提取出的图像特征可以是表征原始图像显著区别于其他类别图像的特征。例如，对训练数据集中的动物图像进行特征提取以后，图像特征可以是表征动物的毛色、花纹、四肢形状以及五官形状等的特征向量。

在步骤103中，对获取到的多个图像特征进行聚类。

根据本公开的示例性实施例，可以采用当前常见的聚类方法对获取到的多个图像特征进行聚类，例如，可以采用基于密度的DBSCAN(Density-Based Spatial Clusteringof Applications with Noise)算法，该算法将簇定义为密度相连的点的最大集合，能够把具有足够密度的区域划分为簇，并可以在有噪音的空间数据集中发现任意形状的簇，具有两个重要参数：Eps和MmPtS，其中，Eps是定义密度时的邻域半径，MmPts是定义核心点时的阈值。该算法在处理数据时，首先从数据集中任意选取一个数据对象点p，如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；如果选取的数据对象点p是边缘点，则选取另一个数据对象点，重复这个过程，直到所有点被处理。在步骤103中，多个图像特征经过DBSCAN算法聚类以后，可以形成多个簇。在一些实施例中，还可以采用基于划分的K-means算法、基于层次的BIRCH算法以及基于密度的OPTIC算法等，本公开对此不做限制。

根据本公开的示例性实施例，可以对聚类后的多个图像特征赋予伪标签。其中，伪标签是指该标签具有一定的不确定性，其区别于人工标注出的具有确定含义的标签，这是因为聚类的本质是按照某个特定标准(例如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也就是说，聚类的对象是因为相似性而聚集在一起，其本身在一定程度上具有不确定性。在一些实施例中，赋予的伪标签可以是数字，例如对图像特征进行聚类以后，形成了四个簇，分别为类A、类B、类C和噪声，赋予的伪标签可以是“类A”→“0”、“类B”→“1”、“类C”→“2”以及“噪声”→“-1”，当然伪标签还可以是其他的表现形式，本公开对此不做限制。图像特征在被赋予了伪标签以后，就具有了可识别性，因此在图像处理模型的训练过程中，可以根据图像特征具有的伪标签来确定负样本，而不必将除正样本以外的所有其他样本作为负样本，从而可以改善训练过程中的特征滞后现象，从而提高训练出的图像处理模型的性能。

在步骤104中，从聚类后的多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本。

根据本公开的示例性实施例，可以从聚类后的多个图像特征中随机抽取第一样本，并根据该第一样本所在的簇来确定该第一样本对应的聚类中心，将距离该聚类中心最近的图像特征确定为第二样本。具体来讲，图像特征在进行聚类以后即被分成了多个簇，在每个簇中都对应有一个聚类中心，用以表征簇中的多个图像特征的平均表现。在一些实施例中，可以采用马氏距离来确定距离聚类中心最近的特征，马氏距离用以表示数据间的协方差距离，可以不受量纲的影响，并且能够排除图像特征之间的相关性的干扰，从而有效地计算两个图像特征之间的距离。在一些实施例中，也可以使用欧氏距离、曼哈顿距离或者汉明距离等其他常用的距离指标来确定第二样本，本公开对此不做限制。

确定了第二样本以后，可以将第一样本和第二样本构造为正样本对，其中，该第二样本即为第一样本的正样本。在本公开中，由于对特征进行了聚类，并且采用马氏距离来确定随机抽取的第一样本的正样本(第二样本)，因此与采用特征变换的方法来确定正样本相比，可以避免丢失样本的图像特征，从而可以应用于解决细粒度识别等问题，拓宽了训练出的图像处理模型的使用场景。

在步骤105中，将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本。

根据本公开的示例性实施例，可以从预先建立的记忆库中存储的聚类后的图像特征中确定与第二样本的类别相异的图像特征，并将该与第二样本的类别相异的图像特征作为负样本，其中，记忆库用于存储从聚类后的多个图像特征中除确定出的正样本对之外的其余图像特征中选择的预定数量个图像特征。

具体来讲，由于本公开对图像特征进行了聚类，并对聚类后的图像特征赋予伪标签，因此每个图像特征都具有可识别性，当在步骤104中确定出正样本对以后，可以将与正样本对的类别不同的图像特征作为负样本，减少了负样本的数量，从而可以避免将除正样本以外的所有图像特征作为负样本，进而缓解图像特征滞后的现象；另一方面，与传统的对比损失函数和三元组损失函数相比，本公开中的负样本数量仍然显著偏多，可以避免陷入局部解。更进一步，由于在使用广义的对比学习的图像处理模型的训练方法中，都是按照小批量来取batch的大小，在每个batch后都会对图像处理模型的参数进行一次更新，因此用图像处理模型提取全部样本以后，所提取的负样本已经不是同一个图像处理模型提取出来的，导致出现图像特征的偏差。有鉴于此，本公开预先设置了记忆库用于存储从聚类后的多个图像特征中除确定出的正样本对之外的其余图像特征中选择的预定数量个图像特征，(例如，可选择预定数量(例如，10)个batch的特征，每个batch中包括5个特征)。从而可以在一个记忆库中的所有图像特征被对比学习完以后，对图像处理模型的参数进行一次更新，也就是说，可在预定数量个batch之后更新一次，因此与使用广义的对比学习的图像处理模型的训练方法相比，本公开可以减少图像处理模型的参数更新的次数，从而改善训练过程中出现的图像特征偏差(特征滞后)。在一些实施例中，还可以根据实际的情况在记忆库中存入更多或者更少的图像特征，本公开对存入记忆库中的特征的数量不作限制。

在步骤106中，通过所述正样本对与所述负样本构造目标损失函数。

具体来讲，经过步骤101至步骤105的操作，可以确定出未经过特征变换的正样本对以及具有一定数量规模但数量又少于使用广义对比学习方法来进行图像处理模型训练的负样本，将构造出的正样本对与多个负样本应用于目标损失函数中，可以使目标损失函数的计算值更优异。例如，目标损失函数可表示为，但不限于，如下的目标损失函数：

其中，f_θ(x^t)代表一个样本，

代表正样本，

代表负样本，τ为温度系数。

在步骤107中，基于目标损失函数更新图像处理模型的参数，来训练图像处理模型。

根据本公开的示例性实施例，可以通过正样本对与记忆库中的所有负样本来计算目标损失函数的值，并基于该目标损失函数的值更新图像处理模型的参数。

根据本公开的示例性实施例，在更新以后，从记忆库中移除存储的聚类后的图像特征，再从聚类后的多个图像特征中除正样本对和使用过的图像特征之外的其余图像特征中选择新的预定数量个图像特征存入记忆库中，以用于下一次对图像处理模型的参数进行更新。

在图2中，301表示聚类后的多个图像特征，302表示记忆库，303表示在记忆库中存入的预定数量的图像特征，304表示确定出的正样本对。记忆库302中存有预定数目的聚类后的图像特征，例如，可以存入10个batch的经过聚类后的图像特征，在每个batch中包括5个图像特征，当然还可以根据实际的情况存入更多或者更少的图像特征，本公开对存入记忆库中的图像特征的数量不作限制。在采用步骤104的方法从聚类后的图像特征中确定出正样本对304后，可以将正样本对304与记忆库302中存入的图像特征进行对比学习，其中，当遇到与正样本对中的第二样本类别相同的图像特征时，可以将该类别相同的图像特征记为0，而同与第二样本类别相异的图像特征(负样本)进行对比学习。在正样本对304与记忆库302中存储的所有负样本进行对比学习之后，可以对图像处理模型的参数进行一次更新，并在更新以后，从记忆库302中移除存储的聚类后的图像特征，再从聚类后的多个图像特征301中选择除正样本对和使用过的图像特征之外的新的相同数量的特征存入记忆库302中，用于下一次对图像处理模型的参数进行更新。

根据本公开的示例性实施例，将本公开的图像处理模型的训练方法中使用的对比损失函数与当前主要的对比损失函数在两个应用场景中(例如分类和检测)进行了对比测试，测试结果如下表1所示，在表1中，Trip是三元组损失函数，N-pair是对比损失函数，Cross-Entropy是交叉熵函数，MC是本公开的对比学习方法中使用的损失函数，Market-to-Duke和Duke-to-Market是大数据集，mAP和rank-1是两种评价指标。表1中的测试结果表明，本公开提供的对比损失函数MC(Memory-based Contrastive Loss)超过了三元组对比函数，并且也超过了全局优化的交叉熵函数，验证了本公开的有效性。

表1

根据本公开的示例性实施例，将本公开提供的图像处理模型的训练方法与目前主要的图像处理模型的训练方法在两个应用场景(例如分类和检测)中进行了比较测试，测试结果如表2所示。在表2中，InstDisc以及MoCo是目前主要的图像处理模型的训练方法，MB是本公开提供的图像处理模型的训练方法，测试结果表明本公开的图像处理模型的训练方法具有更好的分类效果。

表2

本公开提供的图像处理模型的训练方法，可以训练出性能更好的图像处理模型，在同等的应用条件下，对图像的特征具有更好的鉴别力，可以应用于诸如分类、分割以及检测等场景中。

图3是示出根据本公开的示例性实施例的图像处理模型的训练装置的示意图。

参照图3，根据本公开的示例性实施例的图像处理模型的训练装置300可包括训练数据获取单元301、特征提取单元302、特征聚类单元303、正样本对确定单元304、负样本对确定单元305、目标损失函数构造单元306以及模型参数更新单元307。

训练数据获取单元301可获取训练数据集，该训练数据集包括多个图像数据。这里，训练数据集可以是公有的数据库，如ImageNet、PASCALVOC等，也可以是基于特定的目标建立的数据库，本公开对此不做限制。

特征提取单元302可以对训练数据集中的每个训练数据执行图像特征提取，得到多个图像特征。具体地说，特征提取单元302可以是神经网络，在一些实施例中，该神经网络可以是卷积神经网络，通过对训练数据进行多次卷积，以不断对训练数据的特征进行提取和压缩，从而可以得到训练数据的可靠特征。当然该神经网络也可以是当前任何一种常用的神经网络，只要能提取训练数据的特征即可，本公开对此不做限制。

根据本公开的示例性实施例，特征提取单元302可以是神经网络，在一些实施例中，该神经网络可以是卷积神经网络，通过对训练数据进行多次卷积，以不断对训练数据的图像特征进行提取和压缩，从而可以得到训练数据的可靠特征。当然该神经网络也可以是当前任何一种常用的神经网络，只要能提取训练数据的图像特征即可，本公开对此不做限制。提取出的图像特征可以是表征原始图像显著区别于其他类别图像的特征。例如，对训练数据集中的动物图像进行特征提取以后，图像特征可以是表征动物的毛色、花纹、四肢形状以及五官形状等的特征向量。

特征聚类单元303可以对提取到的多个图像特征进行聚类。

根据本公开的示例性实施例，特征聚类单元303可以采用当前常见的聚类方法对获取到的多个特征进行聚类，例如，可以采用基于密度的DBSCAN(Density-Based SpatialClustering of Applications with Noise)算法，该算法将簇定义为密度相连的点的最大集合，能够把具有足够密度的区域划分为簇，并可以在有噪音的空间数据集中发现任意形状的簇，具有两个重要参数：Eps和MmPtS，其中，Eps是定义密度时的邻域半径，MmPts是定义核心点时的阈值。该算法在处理数据时，首先从数据集中任意选取一个数据对象点p，如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；如果选取的数据对象点p是边缘点，则选取另一个数据对象点。重复这个过程，直到所有点被处理。在该步骤中，多个特征经过DBSCAN算法聚类以后，可以形成多个簇。在一些实施例中，还可以采用基于划分的K-means算法、基于层次的BIRCH算法以及基于密度的OPTIC算法等，本公开对此不做限制。

正样本对确定单元304可以从聚类后的多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本。

根据本公开的示例性实施例，正样本对确定单元304可以从聚类后的多个图像特征中随机抽取第一样本，并根据该第一样本所在的簇来确定该第一样本对应的聚类中心，将距离该聚类中心最近的图像特征确定为第二样本。具体来讲，图像特征在进行聚类以后即被分成了多个簇，在每个簇中都对应有一个聚类中心，用以表征簇中的多个图像特征的平均表现。在一些实施例中，可以采用马氏距离来确定距离聚类中心最近的图像特征，马氏距离用以表示数据间的协方差距离，可以不受量纲的影响，并且能够排除图像特征之间的相关性的干扰，从而有效地计算两个图像特征之间的距离。在一些实施例中，也可以使用欧氏距离、曼哈顿距离或者汉明距离等其他常用的距离指标来确定第二样本，本公开对此不做限制。

负样本确定单元305可以将聚类后的多个图像特征中与第二样本类别相异的图像特征确定为负样本。根据本公开的示例性实施例，负样本确定单元305可以基于第二样本从预先建立的记忆库中存储的聚类后的特征中确定与第二样本的类别相异的特征，将该与第二样本的类别相异的特征作为负样本。其中，记忆库用于存储从聚类后的多个特征中除正样本对之外的其余特征中选择的预定数量个特征。

目标损失函数构造单元306可以通过所述正样本对与所述负样本构造目标损失函数。

模型参数更新单元307可以基于目标损失函数更新图像处理模型的参数，来训练图像处理模型。

根据本公开的示例性实施例，对比学习装置300还包括记忆库更新单元308，记忆库更新单元308可以在图像处理模型的参数被更新后，从记忆库中移除存储的聚类后的图像特征，再从聚类后的多个图像特征中除正样本对和使用过的图像特征之外的其余图像特征中选择新的预定数量个图像特征存入记忆库，以用于下一次对图像处理模型的参数进行更新。

图4是根据本公开的示例性实施例的电子设备400的框图。

参照图4，电子设备400包括至少一个存储器401和至少一个处理器402，所述至少一个存储器401中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器402执行时，执行根据本公开的示例性实施例的对比学习方法。

作为示例，电子设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备400中，处理器402可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器402可运行存储在存储器401中的指令或代码，其中，存储器401还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器401可与处理器402集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器401可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器402能够读取存储在存储器中的文件。

此外，电子设备400还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的对比学习方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的对比学习方法。

根据本公开的图像处理模型的训练方法及装置，在提取训练数据集中的图像数据的多个图像特征以后，先会对这些图像特征做一些预处理，即，首先对获取到的图像特征进行聚类，因此特征空间中的每一个图像特征都具有可识别性，在确定出正样本对以后，可以将与正样本对的类别不同的图像特征作为负样本，而不必把其他所有的图像特征都作为负样本，从而减轻将除正样本对以外的所有图像特征作为负样本进行对比训练导致的特征滞后现象；另一方面，本公开虽然减少了训练中使用的负样本数量，但相对于contrastiveloss和triplet loss这两种损失函数来说，其负样本数量仍然是显著偏多的，因此可以改善图像处理的训练陷入局部解的问题，进而提高图像处理模型的性能。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理模型的训练方法，其特征在于，包括：

获取训练数据集，所述训练数据集包括多个图像数据；

对所述训练数据集中的每个图像数据执行特征提取，得到多个图像特征；

对所述多个图像特征进行聚类；

从聚类后的所述多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本；

将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本；

通过所述正样本对与所述负样本构造目标损失函数；

基于所述目标损失函数更新所述图像处理模型的参数，来训练所述图像处理模型。

2.如权利要求1所述的图像处理模型的训练方法，其特征在于，所述从聚类后的所述多个图像特征中抽取第一样本并基于第一样本确定第二样本，包括：

从聚类后的所述多个图像特征中随机抽取第一样本；

确定与第一样本对应的聚类中心；

将距离所述聚类中心最近的图像特征确定为第二样本。

3.如权利要求1所述的图像处理模型的训练方法，其特征在于，所述将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本，包括：

将从预先建立的记忆库中存储的聚类后的图像特征中与第二样本类别相异的图像特征确定为负样本，其中，所述记忆库用于存储从聚类后的所述多个图像特征中除所述正样本对之外的其余图像特征中选择的预定数量个图像特征。

4.如权利要求3所述的图像处理模型的训练方法，其特征在于，所述通过所述正样本对与所述负样本构造目标损失函数，基于所述目标损失函数更新所述图像处理模型的参数，来训练所述图像处理模型，包括：

通过所述正样本对与所述记忆库中的所有负样本计算所述目标损失函数的值；

基于所述目标损失函数的值更新所述图像处理模型的参数，来训练所述图像处理模型。

5.如权利要求4所述的图像处理模型的训练方法，其特征在于，还包括：

在所述图像处理模型的参数被更新后，从所述记忆库中移除存储的聚类后的图像特征，再从聚类后的所述多个图像特征中除所述正样本对和使用过的图像特征之外的其余图像特征中选择新的预定数量个图像特征存入所述记忆库以用于下一次对所述图像处理模型的参数进行更新。

6.一种图像处理模型的训练装置，其特征在于，包括：

训练数据获取单元，被配置为：获取训练数据集，所述训练数据集包括多个图像数据；

特征提取单元，被配置为：对所述训练数据集中的每个训练数据执行特征提取，得到多个图像特征；

特征聚类单元，被配置为：对所述多个图像特征进行聚类；

正样本对确定单元，被配置为：从聚类后的所述多个图像特征中抽取第一样本并基于第一样本确定第二样本，将第一样本和第二样本构造为正样本对，其中，第二样本为第一样本的正样本；

负样本确定单元，被配置为：将聚类后的所述多个图像特征中与第二样本类别相异的图像特征确定为负样本；

目标损失函数构造单元，被配置为：通过所述正样本对与所述负样本构造目标损失函数；

模型参数更新单元，被配置为：基于所述目标损失函数更新所述图像处理模型的参数，来训练所述图像处理模型。

7.如权利要求6所述的图像处理模型的训练装置，其特征在于，还包括：记忆库更新单元，被配置为：

在对所述图像处理模型的参数进行一次更新后，从所述记忆库中移除存储的聚类后的图像特征，再从聚类后的所述多个图像特征中除所述正样本对和使用过的图像特征之外的其余图像特征中选择新的预定数量个图像特征存入所述记忆库以用于下一次对所述图像处理模型的参数进行更新。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的图像处理模型的训练方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的图像处理模型的训练方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1到5中的任一权利要求所述的图像处理模型的训练方法。