CN115587207A

CN115587207A - 一种基于分类标签的深度哈希检索方法

Info

Publication number: CN115587207A
Application number: CN202211093673.7A
Authority: CN
Inventors: 刘萍萍; 刘泽同; 单雪; 周求湛; 王一帆
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-01-10

Abstract

本发明公开了一种基于分类标签的深度哈希检索方法。首先，利用深度卷积神经网络对训练图像数据库中的图像进行特征提取，在主网络后构建深度哈希网络学习类哈希码，在深度哈希网络后构建分类器学习分类特征。其次，使用类哈希码和分类特征分别计算度量学习损失和分类损失，并使用类哈希码和哈希码计算量化损失。最后，在测试阶段将分类标签二值化与哈希码拼接，得到的基于分类标签的哈希码用于检索。本发明提出的方法同时利用了分类信息和相似度信息，能达到良好的检索精度。

Description

一种基于分类标签的深度哈希检索方法

技术领域

本发明属于图像检索技术领域，涉及一种基于分类标签的深度哈希检索方法。

背景技术

深度哈希检索的一般流程是使用深度哈希网络对高维特征进行处理得到低维度实值特征，随后通过量化操作得到二值哈希码，其中可以通过度量学习、量化损失等方法来增强网络学习能力，进而提升哈希检索效果。

然而，这样基于图像对相似性度量的图像检索方法得到的哈希码只能保存图像在原始空间中的分布信息、图像本身的视觉内容信息以及从数据库中返回给定的查询图像的检索结果，它不能进一步满足图像分析和处理的需要，对于当前的图像检索方法，对于给定的查询图像在返回相似的图像集的同时是不能得到它们的语义标签信息的。

通过融合图像对之间的相似性信息和每个图像的语义信息可以产生更有鉴别性的特征表示，能够获得更好的检索和分类结果。此外还可以通过分析相似图像集的语义标签信息来粗略地预测一个未知数据库的类别分布。可见，基于分类标签的深度哈希检索方法具有广泛的应用前景。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于分类标签的深度哈希检索方法。该方法的核心思想是融合图像对之间的相似性信息和每个图像的语义信息，综合使用分类损失和度量学习损失函数来训练网络参数，使得生成的特征的相似度损失和分类标签损失都更小，使用能够同时保持语义标签信息和图像视觉内容信息的哈希码结构完成测试图像集在汉明空间的快速检索。

本发明通过如下技术方案实现：

一种基于分类标签的深度哈希检索方法，包括如下步骤：

步骤1：使用预训练的卷积神经网络提取训练图像数据库中图像的高维特征；

步骤2：将步骤1提取的图像的高维特征输入深度哈希网络计算得到低维类哈希码；

步骤3：将步骤2得到的低维类哈希码输入分类器得到分类特征；

步骤4：使用步骤2得到的低维特征和步骤3得到的语义特征计算损失函数值；

步骤5：通过反向传播和共享权重对卷积神经网络和深度哈希网络的参数进行调整，得到网络的最终参数；

步骤6：对于测试阶段，将查询图像和测试图像集输入最终得到的网络，将得到的标签编码后与计算得到的哈希码进行拼接，计算汉明距离进行排序，得到与查询图像相关的图像列表。相较于现有技术，本发明具有以下优点：

1.提出了一种新的深度哈希网络结构，可以在一个统一的框架下实现对大规模遥感图像的快速检索和精确的分类。与现有的基于深度哈希网络的方法不同，本发明通过融合图像对之间的相似性信息和每个图像的语义信息可以产生更有鉴别性的特征表示，从而获得更好的检索和分类结果。

2.综合使用分类损失和度量学习损失函数来训练网络参数，使得生成的特征的相似度损失和分类标签损失都更小，同时生成的用于保持视觉信息内容的哈希码和保持语义标签信息的哈希码都能更具有代表性。

3.同时利用能够保持语义标签信息和能够保持图像视觉内容信息的哈希码结构完成测试图像集在汉明空间的快速检索。

附图说明

图1是本发明训练阶段的网络结构及流程

图2是本发明测试阶段的网络结构及流程

图3是本发明分类方法的嵌入空间示意图

图4是本发明度量学习方法的嵌入空间示意图

图5是本发明基于类别标签的哈希码的生成过程

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明。图1和图2展示了网络的总体结构和流程。

本发明提出的基于分类标签的深度哈希检索方法包括以下步骤：

步骤1：使用预训练的卷积神经网络提取训练图像数据库中图像的高维特征。

本发明使用在ImageNet数据集上预训练的Inception网络提取图像的高维特征，对于网络的N张输入图像集{x₁,…,x_N}，通过非线性变换r_i＝f(x_i；ω)计算得到高维深度特征{r₁,…,r_N}，其中ω代表Inception网络的参数值，它随着网络的训练逐渐优化到最适应当前数据集的值。

步骤2：将步骤1提取的图像的高维特征输入深度哈希网络计算得到低维类哈希码。

使用一个全连接层构造的深度哈希网络进行特征降维操作得到低维类哈希码特征

其中

代表深度哈希网络的参数，它随着整个网络的训练逐渐优化。

步骤3：将步骤2得到的低维类哈希码输入分类器得到分类特征。

该分类器由一个带有softmax函数的全连接层构成，用于计算图像的类别概率，它的计算公式为p_i＝softmax(u_i；ε)，其中ε是全连接分类层的参数，它随网络参数的优化而优化。

步骤4：使用步骤2得到的低维特征和步骤3得到的语义特征计算损失函数值。

综合使用了利用了图像之间的相似性信息的度量损失和利用了图像语义标签信息的分类损失，两种方法在特征空间的区别如图3和图4。

在分类层后计算了分类交叉熵损失以降低预测类别标签与实际标签之间的损失。计算公式如下：

其中p_i是当前图片x_i经过分类器后得到的属于每个类别的概率，p_i∈T^C，<·>代表内积操作,N为输入图像的数量。通过优化损失L₁，网络可以为每张图片学习到更准确得分类概率向量，从而得到更具代表性的语义标签信息。

但分类损失仅能监控单张图片的分类准确性，它不能控制图像对之间的相似度分布，即不能很好的区分开不同类别哈希码，因此引入了度量损失。

为了分散开不同类别样本同时拉近相同类别样本，相似性度量损失函数计算训练批中所有样本的损失，计算公式为：

P⁺代表当前数据对应的正代理集，

代表与代理同类的样本集，

代表与代理异类的样本集，α_p和α_n分别用于调节正负样本的优化方向，使正负样本朝着最优的方向优化，δ_p是正样本对之间的阈值，规定正样本之间的相似度应高于该阈值，δ_n是负样本对之间的阈值，规定负样本之间的相似度应低于该阈值，δ_p和δ_n控制着样本间的离散程度，

代表样本特征u_i与正代理特征u_p之间的余弦相似性，

代表样本特征u_i与负代理特征u_n之间的余弦相似性。

损失函数主要用于学习代表性特征，而类哈希码在量化成哈希码的过程中会丢失一些信息此外，离散值的存在使得导数计算很困难。因此，在量化之前使用类哈希特征来计算相似度，其计算公式为：

其中，K表示哈希码的长度。

和

分别代表哈希码量化之前的浮点特征

和代理p₂。同时为了降低类哈希码与二值化哈希码之间的损失，引入了量化损失，其计算公式为：

是第i个类哈希码，

是第i个哈希码，是由公式h_K＝sgn(d_K)来量化类哈希码得到的，其中sgn(·)是符号函数，它返回一个变量的正负符号，对于正数值为1，对于负数值为-1。N为训练批大小。

表示l₂范数向量，以减少类哈希码与哈希码之间的距离。

L₂＝L_p-loss+L_b-loss

损失函数的最终形式为：

L₃＝ηL₁+(1-η)L₂

其中η∈[0,1]是用于均衡标签信息和相似度信息的参数。具体来说，当η＝1时，损失函数仅利用每张图片的标签信息；当η＝0时，损失函数仅利用每张图片的相似度信息。

步骤5：通过反向传播和共享权重对卷积神经网络和深度哈希网络的参数进行调整，得到网络的最终参数。

本步骤中使用著名的反向传播算法对深度哈希网络的全局参数进行调整，使用AdamW优化器，初始学习率设置为0.0001，训练批样本随机选择，并将大小设置为90，参数η的值如表1所示，最终设为0.2。

表1：不同超参数η在UCMD数据集上的对比结果

步骤6：对于测试阶段，将查询图像和测试图像集输入最终得到的网络，将得到的标签编码后与计算得到的哈希码进行拼接，计算汉明距离进行排序，得到与查询图像相关的图像列表。哈希码的生成方式如图5所示，测试阶段在生成长度为C的预测概率分布向量p_i后，利用c_i＝argmax(p_i)的方式获得当前图片的预测标签c_i，对预测标签c_i进行二进制表示得到标签二值码，其长度为

保存图像本身视觉内容的哈希码是哈希网络后通过b_i＝sgn(u_i)的方式获得的，假设K为最终获得的哈希码的长度，b_i的长度为

最终的基于分类的哈希码由

生成，其中

代表向量拼接操作。该哈希码的一部分用于保存标签信息，另一部分用于保存图像本身内容信息。

测试图像集生成的哈希码与查询图像生成的哈希码计算汉明距离并进行排序，即可得到与查询图像相关的图像列表。

本方法的实验结果如表2和表3所示。

表2：本发明在UCMD数据集上的检索精度

表3：本发明在AID数据集上的检索精度

在UCMD数据集上哈希码长度为16、32、48、64比特时，检索精度分别为98.97、99.34、99.54、99.60。

在AID数据集上哈希码长度为16、32、48、64比特时，检索精度分别为94.75、98.08、98.93、99.02。

检索精度较其它方法均有不同程度的提高。

且本方法可以得到输入图像的语义标签结果，在实现检索任务的同时可以完成分类任务。

以上所述具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，本领域技术人员应该理解的是，以上所述仅为本发明的具体实施方式，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。