CN114168773A

CN114168773A - 一种基于伪标签和重排序的半监督草图图像检索方法

Info

Publication number: CN114168773A
Application number: CN202111496869.6A
Authority: CN
Inventors: 于凌志; 李岳楠
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-11

Abstract

本发明公开了一种基于伪标签和重排序的半监督草图图像检索方法，该方法的实现步骤包括：获取并预处理草图和不完全标注的自然图像数据；构建检索网络并在标注数据上预训练；预训练分类网络获取无标注图像的伪标签；结合分类预测概率和近邻相似性筛选高置信度伪标签数据；交替地使用标注数据和高置信度伪标签数据更新检索网络的参数；网络训练完成后，计算查询草图和图库中图像编码距离得到初始检索结果，之后利用类别信息重排序得到最终检索结果。

Description

一种基于伪标签和重排序的半监督草图图像检索方法

技术领域

本发明涉及图像处理技术与深度学习技术领域，尤其涉及一种基于伪标签和重排序的半监督草图图像检索方法。

背景技术

当下互联网中的图片存量大，增速快，对图像检索技术提出了挑战。现有的基于文本的图像检索技术易受同义和歧义影响，而且依赖大量的人工标注，而基于内容的图像检索技术要求用户提供准确的相关图像，这一要求使得其应用场景受限。手绘草图由于既直观又容易获取，成为理想的图像检索输入形式的补充。

为了克服草图和自然图像之间的域差异带来的检索难题，现有的草图图像检索算法主要通过生成对抗方法、度量学习方法以及注意力机制设计检索算法，如Zhang等人^[1]使用循环一致监督^[2]结合生成对抗网络训练可以将草图转换为自然图像的生成模型，并使用域迁移到自然图像域的草图完成基于草图的图像检索。Pang等人^[3]以高斯采样初始化矩阵作为视觉特征描述符(Visual Trait Descriptor,VTD)的备选字典，该备选字典的每一项对应一种用于修正图像特征的掩模，将草图投影至其中一项并按照该项对应的掩模修正图像特征，以修正后的图像特征作为网络输入在三元组损失下训练网络模型。Zhu等人^[4]针对单层注意力机制可能产生错误掩模进而导致主体图像特征的权重被降低的问题，设计了双层注意力机制，提高了网络中注意力机制的可靠性，针对三元组随机采样数据训练的欠采样和过采样问题提出全局优化方法，在将特征图转化为向量表示时使用Bilinear-CNN^[5]代替全局平均池化从通道层融合参数，使最终得到的图像向量表示可以更好地融合各个位置的特征。

现有草图图像检索方法实现了较高的跨域检索性能，但是这些方法都基于大量有标注数据进行网络模型的训练。要充分地检索互联网中的图片，没有精确标注的图片是难以回避的，部分图片的标注可能是与训练所需类别标签不相符的文字描述，而要将所有无标注数据打上训练所需的标签要耗费大量人力和时间，难以实现。上述问题导致现有的草图图像检索方法在缺少标注数据时的性能不佳。

发明内容

为解决上述方法的不足，本发明提出了一种基于伪标签和重排序的半监督草图图像检索方法。通过预训练分类网络和监督检索网络，得到无标签数据的伪标签，并按照分类预测概率和有标签近邻相似性筛选高置信度的伪标签数据，之后交替地利用有标签数据和高置信度伪标签数据更新检索网络的参数，实现半监督草图图像检索，减少网络模型对标注数据的依赖。在检索阶段通过重排序提高相关图像在检索结果中的排名，进一步提高所提出网络的检索能力。

本发明采用如下技术方案实施：

一种基于伪标签和重排序的半监督草图图像检索方法，所述方法包括以下步骤实现检索网络的训练和草图图像检索：

步骤(1)获取草图和自然图像数据，并进行预处理；

步骤(2)构建检索网络并利用有标签数据训练；

步骤(3)预训练分类网络；

步骤(4)为无标签图像打伪标签，并筛选高置信度伪标签图像；

步骤(5)采用有标签数据和高置信度伪标签数据更新检索网络参数，完成网络训练；

步骤(6)采用检索网络计算查询草图和自然图像的编码，计算查询和自然图像编码间的汉明距离，倒排序得到初始检索结果；

步骤(7)根据查询结果的语义信息将检索结果重排序，返回最终的检索结果。

进一步，所述步骤(3)预训练分类网络以取得无标签数据的伪标签，采用交叉熵损失和一致性正则项作为损失函数更新网络参数，其具体过程：

(3-1)构建包含一致性正则的分类网络，分类网络以ResNet152为作为骨干网络，在其第一个卷积层后加入空间注意模块；

(3-2)将输入图像进行不同的数据增强作为扰动输入，并在损失函数中加入分类结果和中间特征的一致性正则，分别约束分类网络对扰动前后图像产生的中间特征和分类结果一致，使网络可以在使用无标签数据训练时学习到数据的不变性，一致性正则损失函数如下:

其中C_I和

分别为原图及增强后图像经分类网络的输出，

与

分别为原始图像和增强后图像输入网络后ResNet网络第3组残差块的输出特征；

(3-3)定义训练中利用有标签图像监督信息的分类损失，预训练分类网络的损失函数如下所示，其中l表示输入数据的标签是否可用，当输入为有标签数据时l＝1，输入为无标签数据时l＝0，C_I和Y_I分别表示网络对图像的分类预测以及有标签图像的真实标签:

L_pretrain＝l×CrossEntropy(C_I,Y_I)+ρL_Consistency

进一步，所述步骤(4)通过预训练的分类网络获取无标签数据的伪标签，并通过预测概率和近邻关系筛选其中高置信度的伪标签数据，用于后续网络训练；其中：

采用预训练的分类网络得出无标签数据的伪标签，进一步选择其中高预测概率的图像作为备选的伪标签图像；

采用检索网络编码图像，计算备选伪标签图像和有标签图像的编码，并为其中每一张伪标签图像筛选与其编码最接近的k₁张有标签自然图像，当k₁近邻中类别与伪标签预测一致的占比超过一定数值时，将该伪标签图像视为高置信度图像，用于后续训练。

进一步，所述步骤(7)根据查询结果的语义信息将检索结果重排序过程：

统计前k个初始检索结果中数量最多的C_L个类，计算这些类别中各个类的占比，定义与该占比负相关的重排序距离加权系数，将检索图库的所有图像与查询草图的距离加权，依据加权后的距离倒排序得到最终的检索结果；其中：

对于查询草图Q和包含N张自然图像的检索图库G，按照查询草图与图库中自然图像编码汉明距离倒排序得到初始的检索结果，统计Topk初始检索结果中出现频率最高的C_L个类，记这些类的类别标签为

计算各个类在其中的占比

如果类别

则其占比p为0。重排序的距离加权系数定义如下：

利用上述加权系数将原始的编码间距离加权，加权后的距离如下：

上式中

其中

为原始的汉明距离。按照加权后的距离倒排序得到重排序后的检索结果。

有益效果

1、本发明通过预训练分类网络给无标签数据打上伪标签，并进一步通过检索网络计算图像编码，依据分类预测概率和近邻关系筛选高置信度伪标签图像，将这些伪标签图像与有标注图像结合训练半监督的草图图像检索网络，减少了草图图像检索网络对大量标注数据的依赖。

2、本发明通过语义信息对初始的检索结果重新排序，提高了与前列结果类别一致的图像在检索结果中的排名，进一步提高了半监督场景下网络的检索能力。

附图说明

图1为本发明提供的一种基于伪标签和重排序的半监督草图图像检索方法的流程图；

图2为实施例中一种可行的检索网络的网络结构示意图；

图3为分类网络的结构示意图；

图4为高置信度伪标签图像选择示意图；

图5为采用伪标签图像更新检索网络参数的示意图。

图6为实施例中得到的检索模型的检索结果图示。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图与实例对本发明做详细的论述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

为了减少检索网络对标注数据的依赖，提高网络对无标注数据的利用能力，从中学习到可增强网络泛化能力的图像特征，本发明实施例提出了一种基于伪标签和重排序的半监督草图图像检索方法，实现流程参见图1，包括以下步骤：

步骤(1)获取草图和自然图像数据，从自然图像中提取边缘图，并进行预处理；

步骤(2)构建检索网络并利用有标签数据训练，检索网络的具体结构无特定要求，但应在处理草图和自然图像时同时输出图像编码和分类结果；

步骤(3)预训练分类网络以取得无标签数据的伪标签，采用交叉熵损失和一致性正则项作为损失函数更新网络参数；

步骤(4)通过预训练的分类网络获取无标签数据的伪标签，并筛选其中高置信度的伪标签数据用于后续网络训练；

步骤(5)交替地采用小批次有标签数据和高置信度伪标签数据更新检索网络参数，并在训练代际之间更新用于训练的伪标签数据，完成半监督的网络训练；

步骤(6)训练完成后，分别计算查询草图和图库中自然图像的图像编码，按照汉明距离倒排序得到初始检索结果；

步骤(7)统计前k个初始检索结果中数量最多的C_L个类，计算这些类别中各个类的占比，定义与该占比负相关的重排序距离加权系数，将检索图库的所有图像与查询草图的距离加权，依据加权后的距离倒排序得到最终的检索结果

所述的步骤(1)具体过程如下：

(1-1)从现有有标注数据中收集带标签的草图和自然图像，从不带有准确标注的互联网图像中收集无标签自然图像。

(1-2)从有标签的草图和自然图像中随机采样三元组，对于任意一张草图S_i，将其作为锚点，从与其同类的自然图像中随机选取一张作为正样本

不同类自然图像中随机选取一张作为负样本

构成三元组

(1-3)采用canny算子从自然图像中提取其相应的边缘图。将所有草图，自然图像和边缘图进行预处理。首先放缩至224×224，之后所有图像的三个通道按照0.5均值和0.5方差进行归一化。

所述的步骤(2)对具体的网络结构不作要求，仅要求网络可以同时输出图像的编码和分类结果。本实施例以图2所示的网络结构为例，其网络设计如下：

(2-1)举例的检索网络包括草图分支网络和自然图像及其边缘图分支网络，以ResNet34作为骨干网络并分别采用空间注意和联合空间注意模块使网络关注图像的重要区域，均采用两层全连接层实现特征的编码和分类，得到的连续编码和分类结果分别记为B′_S、B′_I和C_S、C_I。以如下所示量化函数将连续的编码结果B′_S和B′_I转换为离散编码B_S和B_I：

(2-2)以混合的损失函数训练检索网络，举例的混合损失函数包括三元组损失，类内距离损失，交叉熵分类损失和量化损失。

所述的步骤(3)具体过程如下：

(3-1)构建包含一致性正则的分类网络。如图3所示，分类网络以ResNet152为作为骨干网络，在其第一个卷积层后加入空间注意模块，空间注意的实现与(2-1)中一致。

其中C_I和

分别为原图及增强后图像经分类网络的输出，

与

分别为原始图像和增强后图像输入网络后ResNet网络第3组残差块的输出特征。

具体地，上述过程中数据增强包括：旋转、缩放、水平及竖直移位、水平与竖直翻转。在执行变换后将三个通道分别按照0.5均值和0.5方差进行归一化。

(3-3)定义训练中利用有标签图像监督信息的分类损失。预训练分类网络的损失函数如下所示，其中l表示输入数据的标签是否可用，当输入为有标签数据时l＝1，输入为无标签数据时l＝0，C_I和Y_I分别表示网络对图像的分类预测以及有标签图像的真实标签:

L_pretrain＝l×CrossEntropy(C_I,Y_I)+ρL_Consistency

所述的步骤(4)具体过程如下：

(4-1)采用步骤(3)中预训练的分类网络得出无标签数据的伪标签，保留其中分类预测概率超过0.9的图像，作为进一步筛选的备选伪标签图像。

(4-2)采用步骤(2)中训练得到的检索网络编码图像，计算有标签图像和(4-1)中备选伪标签图像的编码，并为其中每一张伪标签图像筛选与其编码最接近的k₁张有标签自然图像，当k₁近邻中类别标签与伪标签预测一致的占比超过60％时，将该伪标签图像作为高置信度图像用于半监督训练。图4为以k₁＝5，两类图像为例的高置信度伪标签图像选择示意图，图4中部圆形背景内的无标签图像符合近邻筛选的要求可以用于训练，而左下角圆形背景内的无标签样本其5近邻图像的类别分布与该样本的分类预测不相符因而不会被用于训练。

所述的步骤(5)中，交替地采用小批次有标签数据和高置信度伪标签数据更新步骤(2)所述的检索网络参数，完成网络训练，并在训练代际之间更新用于训练的伪标签数据。具体方法如下：

(5-1)采用小批次的有标签数据如步骤(2)所述更新检索网络参数。

(5-2)采用小批次的高置信度伪标签数据更新检索网络的自然图像及其边缘图分支参数，如图5所示，成对的自然图像及其增强图像输入检索网络的自然图像及其边缘图分支，采用对比损失、一致性正则项、交叉熵损失和量化损失训练。

具体地，所述对比损失如下：

其中

表示成对输入的自然图像经自然图像及其边缘图分支网络得到的图像编码，m_C为控制不同类间间隔的参数，当两输入图像伪标签一致时上式中的y＝1，不一致时y＝0。

具体地，所述一致性正则项如下：

其中

为两输入图像增强后的图像经自然图像及其边缘图分支网络得到的图像编码，数据增强方式包括：旋转、缩放、水平及竖直移位、水平与竖直翻转。

具体地，所述交叉熵损失如下，以高置信度的伪标签作为类别监督：

其中C_I为检索网络分类器的分类结果，

为分类模型对无标签数据给出的伪标签。

具体地，所述量化损失如下：

综上所述，采用高置信度伪标签图像更新自然图像及其边缘图分支网络的参数时，使用的损失函数如下：

(5-3)交替地如(5-1)和(5-2)所述更新检索网络的参数，在每一代训练结束后，重复步骤(4)更新高置信度伪标签图像，逐步提高用于半监督检索训练的伪标签图像的数量和可信度，其中用于编码图像的网络由最新参数的检索网络替代。

所述的步骤(6)具体过程如下：

(6-1)将包含N张自然图像的检索图库G中的自然图像按照步骤(1-3)所述进行预处理，预处理后的自然图像采用检索网络处理得到自然图像的离散编码。

(6-2)将查询草图Q如(1-3)所述预处理，之后采用检索网络处理，得到草图的离散编码。

(6-3)计算自然图库的图像编码与草图编码间的汉明距离，按距离大小倒排序返回初始的检索结果

并记录检索网络的分类器对这些图像的分类伪标签

所述的步骤(7)具体过程如下：

(7-1)选择Top k初始检索结果中出现频率最高的C_L个类，记这些类的类别标签为

计算各个类在其中的占比

如果类别

则其占比p为0。重排序的距离加权系数定义如下：

上式中

其中

为原始的汉明距离。按照加权后的距离倒排序得到重排序后的检索结果。在遇到初始结果前k个属于同一类的情况时，为了保证本发明的重排序算法可以按照图片的相似度给出正确排序，取Δ＝0.01。

(7-2)利用上述加权系数将原始的编码间距离加权，加权后的距离如下：

上式中

其中

为原始的汉明距离，加权后的距离倒排序即可得到重排序后的检索结果。通过距离加权的重排序提高了与查询意图一致的图像在检索结果中的排名，进一步提高了检索的准确性。

本实施例在Sketchy数据集上测试时，使用10％自然图像的标签时的mAP指标为0.697，使用50％自然图像的标签时mAP指标为0.848。

图6为本实施例得到的检索模型的检索结果图示。其中第1行、2行中带有黑色边框的图像是与查询意图不相符的结果，无额外边框标注的图像是符合查询意图的检索结果。

参考文献

[1]Zhang J,Shen F,Liu L,et al.Generative domain-migration hashing forsketch-to-image retrieval[C].Proceedings of the 15th European Conference onComputer Vision,Munich:Springer,2018:297-314.

[2]Zhu J,Park T,Isola P,et al.Unpaired image-to-image translationusing cycle-consistent adversarial networks[C].2017IEEE InternationalConference on Computer Vision,Venice:IEEE,2017:2242-2251.

[3]Pang K,Li K,Yang Y,et al.Generalising fine-grained sketch-basedimage retrieval[C].2019IEEE Conference on Computer Vision and PatternRecognition,Long Beach:IEEE,2019:677-686.[4]Zhu M,Chen C,Wang N,etal.Gradually focused fine-grained sketch-based image retrieval[J].PLoS One,2019,14(5):e0217168.

[5]Lin T,Roychowdhury A,Maji S.Bilinear CNN models for fine-grainedvisual recognition[C].2015IEEE International Conference on Computer Vision,Santiago:IEEE,2015:1449-1457.

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。