CN117456312A

CN117456312A - 一种面向无监督图像检索的模拟抗污伪标签增强方法

Info

Publication number: CN117456312A
Application number: CN202311779473.1A
Authority: CN
Inventors: 张晓翔; 朱建清; 赵倩倩; 曾焕强; 陈巍; 蔡灿辉
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-26
Anticipated expiration: 2043-12-22
Also published as: CN117456312B

Abstract

本发明提出一种面向无监督图像检索的模拟抗污伪标签增强方法，涉及计算机视觉领域，包括：利用无监督图像检索模型提取图像数据集中所有图像特征，并通过聚类算法为每张图像分配伪标签；采用伯努利随机分布对图像特征向量随机置零以模拟特征污染，获得随机污染特征向量；基于随机污染特征向量计算随机污染后验类别概率，并进行后验类别概率最大池化以获得抗污染后验类别信息；归一化抗污染后验类别信息获得抗污染后验类别概率，将抗污染后验类别概率与聚类产生的伪标签线性组合，以实现伪标签增强，从而改善无监督图像检索准确性，可广泛应用于图像搜索引擎。

Description

一种面向无监督图像检索的模拟抗污伪标签增强方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种面向无监督图像检索的模拟抗污伪标签增强方法。

背景技术

无监督图像检索通过聚类算法产生图像类别伪标签进行模型训练，不依赖浩繁的人工图像类别标签标记工作，具有广泛的应用场景。但是，受限于聚类算法本身的资质、图像噪声、图像数量等因素的影响，聚类算法产生图像类别伪标签容易包含噪声，质量不如人工标记类别标签质量，导致无监督图像检索模型训练效果不佳。

发明内容

为改善伪标签质量以提升无监督图像检索效果，本发明提出一种用于无监督图像检索模拟污染的标签增强方法，本发明采用如下技术方案：

一种面向无监督图像检索的模拟抗污伪标签增强方法，具体包括如下步骤：

S1、伪标签获取步骤，利用基于深度学习的图像检索模型对无标签图像数据集进行图像特征提取，基于所提取图像特征利用聚类算法获得每张图像的伪标签，具体如下：

S1.1、利用基于深度学习的图像检索模型对无标签图像数据集进行图像特征提取，如公式所示：

；

其中，表示基于深度学习的图像检索模型；/>表示一张无标签图像；表示无标签图像X的无污染特征向量，/>表示无污染特征向量的特征维度为d维。

S1.2、基于无监督图像检索模型所提取的图像特征，采用聚类算法为每张图像分配伪标签，如下公式所示：

；

其中，表示无标签图像X的无污染特征向量，/>表示无污染特征向量的特征维度为d维；/>表示无标签图像X由聚类产生的伪标签，C等于类别数量；/>表示聚类算法。

S2、特征随机污染步骤，采用伯努利随机分布对图像特征向量随机置零以模拟特征污染，获得随机污染特征向量，具体如下：

通过二项分布得到仅由0和1组成的随机的伯努利污染向量；把图像特征向量与伯努利污染向量进行点乘实现伯努利污染，得到一个随机污染特征；多次进行伯努利污染，得到同一图像的多个随机污染特征向量，如下：

；

其中，表示无污染特征向量，/>表示无污染特征向量的特征维度为d维；表示一个d维的伯努利随机向量，每个元素的取值为0或1；/>表示伯努利随机向量中0元素的比例，/>；/>表示对F进行第i次伯努利污染获得的随机污染特征向量，/>表示点乘操作，k表示特征随机污染次数。

S3、抗污染后验类别信息计算步骤，基于随机污染特征向量计算随机污染后验类别概率，并进行后验类别概率最大池化以获得抗污染后验类别信息，具体如下：

S3.1、基于随机污染特征计算随机污染后验类别概率，如下：

；

其中，表示表示对无污染特征向量F进行第i次伯努利污染获得的随机污染特征向量，k表示特征随机污染次数；FC表示全连接层，它把/>投影为C维数据，C等于类别数量，随后利用Softmax函数对C维数据进行归一化获得后验类别概率/>，/>表示后验类别概率/>的维度为C维；

S3.2、基于随机污染后验类别概率计算抗污染后验类别信息，如下：

；

其中，表示拼接操作，它把k个随机污染后验类别概率拼接为随机污染后验类别概率矩阵/>，/>表示随机污染后验类别概率矩阵/>的维度为/>维，C等于类别数量；MaxPool表示最大池化操作，它对随机污染后验类别概率矩阵/>沿k方向进行最大池化，获得抗污染后验类别信息/>，/>表示抗污染后验类别信息/>的维度为C维。

S4、伪标签增强步骤，归一化抗污染后验类别信息获得抗污染后验类别概率，将抗污染后验类别概率与聚类产生的伪标签线性组合，获得增强伪标签，具体如下：

S4.1、归一化抗污染后验类别信息获得抗污染后验类别概率，如下：

；

其中，表示抗污染后验类别概率信息/>的第z维取值，/>表示抗污染后验类别概率信息m的第j维取值；/>表示抗污染后验类别概率的第z维取值；C等于类别数量。

S4.2、线性组合抗污染后验类别概率与聚类产生的伪标签，获得增强伪标签，如下：

；

其中，表示聚类产生的伪标签y的第z维取值；/>表示增强伪标签的第z维取值；表示加权参数，用于组合抗污染后验类别概率与聚类产生的伪标签。

S5、图像检索模型更新步骤，基于所述增强伪标签构建损失函数，如下：

；

其中，表示图像数量，/>表示第n个图像对应的增强伪标签的第z维取值，/>表示第n个图像基于其无污染特征向量获得预测后验概率/>的第z维取值，，FC表示全连接层，它把第n个图像的无污染特征向量投影为C维取值，C等于类别数量，并利用Softmax函数对C维数据进行归一化获得后验概率。采用批量梯度下降法对所述基于深度学习的图像检索模型进行训练，更新图像检索模型。

S6、重复处理步骤，重复步骤1到5，直到最大重复次数，获得最终的无监督图像检索模型。

与现有技术相比，本发明的有益效果如下：

由于在图像伪标签质量对无监督图像检索模型性能起到决定性的影响，本发明通过随机污染图像特征获得随机污染的后验类别信息，模拟伪标签中的噪声因素，随后从随机污染的后验类别信息中利用最大池化寻找对噪声污染最稳定的抗污染后验类别概率，并将之与聚类产生的伪标签线性组合，实现伪标签增强，从而改善无监督图像检索模型性能。

附图说明

图1为本发明实施例的一种面向无监督图像检索的模拟抗污伪标签增强方法的流程图；

图2为本发明实施例的一种面向无监督图像检索的模拟抗污伪标签增强方法的框架图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本实施案例一种面向无监督图像检索的模拟抗污伪标签增强方法，总体流程与总体框架图分别如图1和图2所示。具体包括如下步骤：

S1：伪标签获取步骤，利用基于深度学习的图像检索模型对无标签图像数据集进行图像特征提取，基于所提取图像特征利用聚类算法获得每张图像的伪标签，具体实现如下。

S1.1：图像特征提取步骤，用基于深度学习的图像检索模型对无标签图像数据集进行图像特征提取，如下公式所示：

；

其中，是常见的深度学习网络结构，作为图像检索模型；/>表示一张无标签图像；/>表示无标签图像X的无污染特征向量，/>表示无污染特征向量的特征维度为d维。如图2所示，ResNet50包括：茎（Stem）层，4个残差组（Layer1, Layer2, Layer3和Layer4），全局平均池化（Global Average Pooling, GAP）层。进一步地，可以看见，ResNet50对图像进行特征提取，将ResNet50的全局平均池化GAP输出数据作为相应图像特征向量。

S1.2：聚类步骤，基于无监督图像检索模型所提取的图像特征，采用聚类算法为每张图像分配伪标签，如下所示：

；

其中，表示无标签图像X的无污染特征向量，/>表示无污染特征向量的特征维度为d维；/>表示无标签图像X由聚类产生的伪标签，C等于类别数量；DBSCAN表示常见的聚类算法，具有能发现任意形状的聚类簇的优点。

；

S3.1、基于随机污染特征计算随机污染后验类别概率，如下：

；

本发明的关键在于，通过随机污染图像特征获得随机污染的后验类别信息，模拟伪标签中的噪声因素，随后从随机污染的后验类别信息中利用最大池化寻找对噪声污染最稳定的抗污染后验类别概率，并将之与聚类产生的伪标签线性组合，实现伪标签增强，从而改善无监督图像检索模型性能。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种面向无监督图像检索的模拟抗污伪标签增强方法，其特征在于，包括：

S1伪标签获取步骤，利用基于深度学习的图像检索模型对无标签图像数据集进行图像特征提取，基于所提取图像特征利用聚类算法获得每张图像的伪标签；

S2特征随机污染步骤，采用伯努利随机分布对图像特征向量随机置零以模拟特征污染，获得随机污染特征向量；

S3抗污染后验类别信息计算步骤，基于随机污染特征向量计算随机污染后验类别概率，并进行后验类别概率最大池化以获得抗污染后验类别信息；

S4伪标签增强步骤，归一化抗污染后验类别信息获得抗污染后验类别概率，将抗污染后验类别概率与聚类产生的伪标签线性组合，获得增强伪标签；

S5图像检索模型更新步骤，基于所述增强伪标签构建损失函数，并采用批量梯度下降法对所述基于深度学习的图像检索模型进行训练，更新图像检索模型；

S6重复处理步骤，重复步骤S1到S5，直到最大重复次数，获得最终的无监督图像检索模型；

特征随机污染步骤的具体过程如下所示：

；

其中，表示无污染特征向量，/>表示无污染特征向量的特征维度为d维；表示一个d维的伯努利随机向量，每个元素b_i的取值为0或1；/>表示伯努利随机向量中0元素的比例，/>；/>表示对F进行第i次伯努利污染获得的随机污染特征向量，/>表示点乘操作，k表示特征随机污染次数；

抗污染后验类别信息计算步骤的计算过程如下：

S31基于随机污染特征计算随机污染后验类别概率，如下：

；

S32基于随机污染后验类别概率计算抗污染后验类别信息，如下：

；

其中，表示拼接操作，它把k个随机污染后验类别概率拼接为随机污染后验类别概率矩阵/>，/>表示随机污染后验类别概率矩阵Q的维度为/>维，C等于类别数量；MaxPool表示最大池化操作，它对随机污染后验类别概率矩阵/>沿k方向进行最大池化，获得抗污染后验类别信息/>，/>表示抗污染后验类别信息/>的维度为C维。

2.根据权利要求1所述的面向无监督图像检索的模拟抗污伪标签增强方法，其特征在于，伪标签获取步骤的具体过程如下所示：

S11利用基于深度学习的图像检索模型对无标签图像数据集进行图像特征提取，如下公式所示：

；

其中，表示基于深度学习的图像检索模型；/>表示一张无标签图像；/>表示无标签图像X的无污染特征向量，/>表示无污染特征向量的特征维度为d维；

S12基于无监督图像检索模型所提取的图像特征，采用聚类算法为每张图像分配伪标签，如下公式所示：

；

3.根据权利要求1所述的面向无监督图像检索的模拟抗污伪标签增强方法，其特征在于，伪标签增强步骤的计算过程如下：

S41归一化抗污染后验类别信息获得抗污染后验类别概率，如下：

；

其中，表示抗污染后验类别概率信息m的第z维取值，/>表示抗污染后验类别概率信息m的第j维取值；/>表示抗污染后验类别概率的第z维取值；C等于类别数量；

S42线性组合抗污染后验类别概率与聚类产生的伪标签，获得增强伪标签，如下：

；

4.根据权利要求1所述的面向无监督图像检索的模拟抗污伪标签增强方法，其特征在于，图像检索模型更新步骤中基于所述增强伪标签构建损失函数的公式如下：

；

其中，表示图像数量，/>表示第n个图像对应的增强伪标签的第z维取值，/>表示第n个图像基于其无污染特征向量获得预测后验概率/>的第z维取值，，FC表示全连接层，它把第n个图像的无污染特征向量投影为C维取值，C等于类别数量，并利用Softmax函数对C维数据进行归一化获得后验概率。