CN112883216A

CN112883216A - 基于扰动一致性自集成的半监督图像检索方法及装置

Info

Publication number: CN112883216A
Application number: CN202110226266.8A
Authority: CN
Inventors: 周玉灿; 程帅; 吴大衍; 李波; 王伟平
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-01
Anticipated expiration: 2041-03-01
Also published as: CN112883216B

Abstract

本发明公开了一种基于扰动一致性自集成的半监督图像检索方法及装置，包括将图像输入训练后的半监督图像特征提取模型，得到该图像的特征，其中所述半监督图像特征提取模型包括：一卷积神经网络、一哈希层和一扰动一致性自集成模块；将图像的特征转换为图像离散的二值哈希码；依据二值哈希码进行检索，得到图像检索结果。本发明通过集成同一个样本在不同数据增强条件下的特征，能够发现每个类别的判别特征；通过设计的扰动一致性损失函数最大化无标记数据的哈希层输出与对应的集成特征的相似性，充分的利用了无标记数据提升网络的泛化能力；能够取得更好的检索效果。

Description

基于扰动一致性自集成的半监督图像检索方法及装置

技术领域

本发明属于软件技术领域，尤其涉及一种基于扰动一致性自集成的半监督图像检索方法及装置。

背景技术

随着互联网上图像数据的爆炸式增长，海量的图像数据和高维的图像特征使得图像检索面临巨大挑战。深度哈希方法由于存储成本低和检索速度快的特点，成为近年来的研究热点。

一般地，深度哈希方法通过把高维实值图像特征映射成紧凑的二值哈希码来实现快速检索，并在映射过程中利用图像的语义相似关系对哈希码进行约束保证检索精度。在大数据环境下，有监督的哈希方法往往依赖大量的标注图像数据获得较高的检索准确率，而只有少量的标注数据时，有监督的哈希方法性能会大幅度降低。中国专利申请CN109800314A公开了一种利用深度卷积网络生成用于图像检索的哈希码的方法，其在分类层前添加一个哈希层，哈希层的输出经过二值化后获得图像的哈希码，但该申请是使用大量的标记数据训练哈希模型来获得较好的检索性能，但是在实际场景中，标记大量的数据需要耗费巨大的人力、物力资源。因此，深度半监督哈希方法被提出，该方法利用少量的标记数据和大量的无标记数据来学习更好的哈希函数。

已有的半监督哈希方法主要利用无标记数据和标记数据的视觉相似性来指导无标记数据哈希码的学习，通过在哈希空间中保持无标记样本与标记样本之间在视觉上近邻关系实现哈希函数学习。因此，很多研究人员都在努力尝试构建可靠的样本近邻关系。这些研究工作大致可以分为基于图的方法和基于关系一致性的方法。基于图的方法利用样本间的视觉相似性构造一个近似图，其中图上的节点表示标记数据和无标记数据，图上的边反映样本间的视觉相似度。基于关系一致性的方法采用自集成模型生成每一个样本的集成特征，并利用成对样本间的集成特征的视觉相似性表示样本间的语义相似关系。

目前上述半监督哈希方法使用样本间的视觉相似性表示样本间的语义相似关系，但是视觉相似性并不能反映样本间真实的语义相似关系，具有相似的视觉信息的两个样本可能来自两个不同的类别。因此，使用错误的视觉相似性指导哈希码的学习，会导致两个样本学习到的哈希码的相似性与真实的语义相似关系不一致。

发明内容

针对现有方法存在的问题，本发明的目的在于设计一种基于扰动一致性自集成的半监督图像检索方法及装置，通过集成一个无标记样本在不同数据增强条件下的网络输出获得一个具有判别性的全局特征，然后通过约束无标记样本的网络输出与其全局特征保持一致，提高网络的泛化能力。

本发明的技术内容包括：

一种基于扰动一致性自集成的半监督图像检索方法，其步骤包括：

1)将图像输入训练后的半监督图像特征提取模型，得到该图像的特征，其中所述半监督图像特征提取模型包括：一卷积神经网络、一哈希层和一扰动一致性自集成模块，使用少量有标记数据与大量无标记数据对所述半监督图像特征提取模型进行如下训练：

1.1)利用少量有标记数据对预训练卷积神经网络及哈希层进行训练，得到初步训练的卷积神经网络及哈希层；

1.2)通过扰动一致性自集成模块，最大化无标记数据x_k的哈希层输出h_k与集成特征

的相似性，训练初步训练的卷积神经网络及哈希层，得到训练后的卷积神经网络及哈希层，并生成集成特征

其中t为迭代次数，k为无标记数据的编号，集成特征

通过h_k和

加权求和得到；

2)将该图像的特征转换为图像离散的二值哈希码；

3)依据二值哈希码进行检索，得到图像检索结果。

进一步地，将有标记数据与无标记数据输入训练后的卷积神经网络之前，分别获取有标记数据及无标记数据的增强数据，并通过有标记数据及无标记数据的增强数据训练得到所述半监督图像特征提取模型。

进一步地，所述半监督图像特征提取模型还包括一分类层；在通过无标记数据训练初步训练的卷积神经网络及哈希层之前，利用有标记数据相应的fc7特征对分类层进行训练，得到训练后的分类层，其中fc7特征为卷积神经网络的全连接层输出。

进一步地，进行分类训练的分类损失函数L_c＝∑_j∈L-y_jlogf_j，其中y_j为有标记数据x_j的真实标记，f_j为有标记数据x_j的分类层预测结果，j为有标记数据的编号，L为有标记数据集。

进一步地，通过成对相似性保持损失函数

有标记数据对哈希层进行训练，其中S为语义相似性矩阵，

h_i与h_j分别为有标记数据x_i与x_j的哈希层输出。

进一步地，扰动一致性自集成模块还包括一存储空间(memory bank)；将集成特征

保存在所述memory bank中。

进一步地，集成特征

其中α为动量系数。

进一步地，通过扰动一致性损失函数

最大化无标记数据x_k的哈希层输出h_k与集成特征

的相似性，其中U为无标记数据集，μ为缩放因子，

α为动量系数。

进一步地，将图像的哈希层输出特征转换为图像离散的二值哈希码的方法包括：将图像的特征输入到符号函数

中。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的积极效果为：

1)通过集成同一个样本在不同数据增强条件下的哈希层特征，能够发现每个类别的判别特征；

2)通过设计的扰动一致性损失函数最大化无标记数据的哈希层输出与对应的集成特征的相似性，充分地利用了无标记数据提升网络的泛化能力；

3)能够取得更好的检索效果。

附图说明

图1为本发明的半监督哈希框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提出了最大化无标记数据的哈希层输出与对应的集成特征之间的相似性能够提升网络的泛化能力，并设计了基于扰动一致性自集成的半监督哈希框架(Disturbance Consistent Self-Ensembling，DCSE)，如图1所示。该框架包括三个部分：(1)一个骨干网络，该网络包括一个卷积神经网络、一个哈希层和一个分类层。(2)一个成对相似性保持损失函数和一个分类损失函数，用于在标记数据集上学习哈希码和执行图像分类。(3)一个扰动一致性自集成模块，该模块首先对在不同数据增强条件下的同一个无标记样本的网络输出进行集成形成一个全局特征，然后使用设计的扰动一致性损失函数最大化样本的网络输出和其对应的集成特征的相似性。

具体做法是首先把在不同数据增强条件下的有标记的数据和无标记的数据输入到神经网络中得到fc7层特征。

在标记数据流中，把标记数据的全连接层的输出fc7特征传递到分类层进行分类，分类损失函数如下：

L_c＝∑_j∈L-y_jlogf_j (1)

其中y_j和f_j是标记数据x_j真实标记和分类层预测结果，L表示标记数据集。同时标记数据的fc7特征传递到哈希层进行哈希码学习，成对相似性保持损失函数如下：

其中

h_i是标记数据x_i的哈希层输出，S是语义相似性矩阵，如果样本x_i和x_j有相同的类别，那么S_ij＝1，否则S_ij＝0。

在无标记数据流中，我们建立一个存储空间(memory bank)用来存储每个样本集成的全局特征，具体做法是，我们设计一个新颖的扰动一致性损失函数L_u用来最大化当前的无标记样本x_k的输出h_k和其对应的集成特征

的相似性。

其中

μ是缩放因子。然后利用指数滑动平均(EMA)，即通过公式(4)更新memory bank。

其中

是x_k在t次迭代训练的集成特征，α是动量系数。

在实际进行图像检索时，将半监督哈希框架哈希层输出的图像特征输入到符号函数

中，得到图像离散的二值哈希码，并依据图像离散的二值哈希码进行检索，得到图像检索结果。

为验证本发明，我们进行了大量实验，以评估DCSE的检索效果。我们的模型在图像数据集CIFAR-10与NUS-WIDE上进行训练和测试。其中CIFAR-10有60000张图像，我们随机地每类选择100张图片作为查询集，剩余的图片作为检索集，其中在检索集中每类选择500张图像作为标记数据集，剩余的图片作为无标记的数据集。NUS-WIDE数据集包含大约270000张图片，我们选择出现最多的21个类别，其中每个类别至少5000张图片。之后每类随机选择100张作为查询集，剩余的图片作为检索集。在训练阶段，在检索集中随机每类选择500张作为有标记数据集，剩余的作为无标记数据集。我们的基础网络使用预训练的VGG16。

表1展示了DCSE和其它图像检索方法在CIFAR-10和NUS-WIDE上的mAP结果，包括：局部敏感哈希(LSH),迭代量化(ITQ)，监督离散哈希(SDH),卷积神经网络哈希(CNNH)，网络在网络中哈希(NINH)，半监督深度哈希(SSDH),二部图深度哈希(BGDH),半监督生成对抗哈希(SSGAH),半监督深度成对哈希(SSDPH),广义乘积量化(GPQ)。实验结果表明本发明优于其它的对比方法。

表2展示了DCSE的消融实验的结果，DCSE-1是DCSE移除扰动一致性自集成模块的变种。实验结果表明，本发明提出的扰动一致性自集成模块显著地提升了半监督检索性能。

表3展示了未见类别的实验结果，在这个实验中，我们使用数据集中的75％的类别用于训练，剩余的25％的类别用于测试。具体来说，我们把数据集划分成4个部分：train75，test75，train25和test25，其中train75和test75属于数据集中75％的类别，train25和test25属于数据集的25％的类别。我们使train75做为有标记的训练集，train25和test75做为检索集，test25做为查询集。实验结果表明，本发明优于其他对比方法。

表1不同方法在两个数据集上不同bit长度的mAP结果

表2消融实验结果

表3未见类别实验结果

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明专利范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应当以所附权利要求为准。