CN115357747B

CN115357747B - 一种基于序数哈希的图像检索方法及系统

Info

Publication number: CN115357747B
Application number: CN202211269708.8A
Authority: CN
Inventors: 王少华; 史洋; 刘兴波; 聂秀山; 尹义龙
Original assignee: Shandong University; Shandong Jianzhu University
Current assignee: Shandong University; Shandong Jianzhu University
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2024-03-26
Anticipated expiration: 2042-10-18
Also published as: CN115357747A

Abstract

本发明属于图像检索相关领域，本发明提出了一种基于序数哈希的图像检索方法及系统，利用视觉Transformer和卷积神经网络，即保留卷积神经网络归纳偏置的优势；同时使用视觉Transformer弥补大跨度信息缺失的问题，同时增强图像的局部空间信息的利用。

Description

一种基于序数哈希的图像检索方法及系统

技术领域

本发明属于图像检索相关技术领域，尤其涉及一种基于序数哈希的图像检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着近年来互联网、云计算、社交媒体以及其他信息技术的迅速发展，人们能够更加便捷地使用传感器，这使得通过传感器上传的数据包括大量的图像和视频。中国移动研究院的一份简报中称，人类在2011年创造的数据达到180亿吉字节（GB），且每年还在以高于60%的速度增长，预计到2025年，全球每年产生的数据将达到350万亿吉字节（GB）。这些数据如何处理已成为亟待解决的问题，而其中如何比较这些数据的相似性就是一个重要难点，最近搜索方法应运而生。

传统的最近邻搜索根据数据的相似性，从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离，可以认为数据在空间中的距离越近，则数据之间的相似性越高。但是随着图像采集设备的不断升级，最近邻搜索在处理维度较高的数据时速度慢的特点难以满足人们的需求，即传统的检索方法无法获得理想的检索效果，无法在可接受的时间内检索到结果。

一般的检索方法采用图像和图像之间直接比较，通常比较的都是图像之间的欧氏距离，最终返回与输入图像距离差异最小的几张图像作为检索的结果，但这种方法计算量大且耗时较长。

近似最近邻检索方法在检索速度上的突出表现引起了研究人员的注意。近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性，通过对数据分析聚类的方法对数据库中的数据进行分类或编码，对于目标数据根据其数据特征预测其所属的数据类别，返回类别中的部分或全部作为检索结果。而近似最近邻检索的核心思想就是搜索可能是近邻的数据项而不再只局限于返回最可能的项目，在牺牲可接受范围内的精度的情况下提高检索效率，这使得在可接受的时间范围内也能获得令人满意的效果。哈希作为近似最近邻检索技术的一种方法，将可视空间的高维数据映射到海明空间的紧凑型二进制代码中。由于哈希具有出色的存储容量和高效的计算能力，引起了研究人员的广泛关注。

基于哈希学习的检索方法，一般来说可以分为基于深度神经网络的哈希学习方法和非深度哈希学习方法。基于深度神经网络的哈希学习方法一般只使用卷积神经网络（CNN）作为网络的核心结构，具体方法是将图像作为输入，送入神经网络后得到二值（0和1）的哈希码作为输出。检索时，对比不同图像的哈希码差异，返回差异最小的多张图像作为查询结果。一般的基于哈希学习方法的检索方法都使用0和1作为哈希码，这会一定程度上限制检索性能。常见的基于深度神经网络的哈希学习方法一般只采用卷积神经网络（CNN）作为网络的核心结构，对于CNN来说要通过不断堆积卷积层来获取更大的感受野（CNN为固定且有限的感受野），使之不能建立超出感受野的区域之间的联系，这会限制检索的性能。

非深度哈希学习方法只是不采用深度神经网络，而是使用矩阵运算得到图像的哈希码。剩余查询过程与基于深度神经网络的哈希学习方法一致，都是对比不同图像的哈希码差异，返回差异最小的多张图像作为查询结果。非哈希的检索方法计算量大且耗时较长；非深度的哈希学习方法由于使用矩阵运算得到哈希码，其拟合能力不强，或者说其拟合非线性关系的能力不强，导致这种方法性能不高。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于序数哈希的图像检索方法及系统，同时使用视觉Transformer和卷积神经网络，即保留卷积神经网络归纳偏置的优势，同时使用视觉Transformer弥补大跨度信息缺失的问题，同时增强图像的局部空间信息的利用；此外，使用序数哈希码，充分利用每一位哈希码，增加了每一位哈希码的信息量。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：一种基于序数哈希的图像检索方法，包括以下步骤：

获取图像并进行标签标注，作为训练数据集；

将训练数据集中的图像输入至检索模型进行训练，得到训练好的检索模型；

其中，所述检索模型包括卷积神经网络模块、视觉Transformer模块；将训练数据集中的图像、图像经过处理后得到的分割图像分别输入至卷积神经网络模块、视觉Transformer模块得到第一特征、第二特征；将第一特征和第二特征基于维度进行按位相乘，得到哈希码；

将待检索的图像输出至训练好的检索模型，输出检索结果。

本发明的第二个方面提供一种基于序数哈希的图像检索系统，包括：

获取模块，其被配置为：获取图像并进行标签标注，作为训练数据集；

模型建立及训练模块，其被配置为：将训练数据集中的图像输入至检索模型进行训练，得到训练好的检索模型；

检索输出模块，其被配置为：将待检索的图像输出至训练好的检索模型，输出检索结果。

以上一个或多个技术方案存在以下有益效果：

本发明在深度网络构建时使用视觉Transformer和卷积神经网络，即保留卷积神经网络归纳偏置的优势，包括平移不变性和局部性；同时使用视觉Transformer弥补大跨度信息缺失的问题，同时增强图像的局部空间信息的利用。

本发明的哈希码为序数哈希码，每一个哈希位的取值范围取决于维度的个数，充分利用每一位哈希码，增加了每一位哈希码的信息量，使得哈希码长度不局限于2的次方。

本发明使用哈希方法，检索速度快，数据存储量低；使用深度哈希学习方法，拟合能力更强，准确率更高。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一基于检索模型的框架示意图；

图2是本发明实施例一种序数哈希模块的举例示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

卷积神经网络：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

视觉Transformer：受自然语言处理中Transformer成功放缩的启发，尝试将标准Transformer 直接应用于图像。

实施例一

如图1－图2所示，本实施例公开了一种基于序数哈希的图像检索方法，包括以下步骤：

步骤1：获取图像并进行标签标注，作为训练数据集；

步骤2：将训练数据集中的图像输入至检索模型进行训练，得到训练好的检索模型；

其中，所述检索模型包括卷积神经网络模块、视觉Transformer模块；将训练集中的图像、图像经过处理后得到的分割图像分别输入至卷积神经网络模块、视觉Transformer模块得到第一特征、第二特征；将第一特征和第二特征基于维度进行融合相乘，得到序数哈希码；

步骤3：将待检索的图像输出至训练好的检索模型，输出检索结果。

在本实施例步骤1中，建立训练的数据集，包括图像获取、标签获取，图像的获取为：实际拍摄或从网络下载的图像，比如一些数码设备、海底鱼类、陆地野生动物、地标建筑等各种各样的图片。标签获取：将获取的图像进行类别标注，如动物图像标注为猫、狗或其他动物类型。

整理图像格式，本实施例使用的图像格式为jpg格式，也可以为其他的图像格式。标签采用单热点类型即one-hot标签，属于该类别该类对应位置为1，否则为0。

还包括对获取的图形进行预处理，预处理包括弱监督去背景、随机擦除、标准化、随机旋转等。

在本实施例步骤2中，包括检索模型的建立，其中检索模型包括卷积神经网络模块、视觉Transformer模块和序数哈希模块。

具体的，设步骤1得到图像数据集中经过预处理后的图像I为包含n张图像，则第i 张图像为，其中，R为实数，H和W分别是图像的高和宽，C为图像的通道数，对于RGB图像来说通道数C=3。第i张图像对应的标签为，c为图像数据集的类别数量。

对于视觉Transformer模块，需要将2维的经过预处理后的图像转换为1维向量。

在本实施例中首先将图像分割成9份（3×3），也就是将图像转换为分割图像，，其中，（P，P）是每个图像块的分辨率。

将分割图像通过可训练线性投影层映射为D维的分割图像向量，，此步骤将维的图像降维至D维的向量。

分割图像向量是一个整体，E可以理解为一次投影操作，此步骤将维的图像降维至D维的向量。

视觉Transformer模块由Transformer 编码器组成，Transformer编码器采用的网络结构是Vision Transformer，Transformer编码器由交替的多层自注意力层和多层感知层构成，每个层前应用层归一化，在每个层后应用残差连接，得到图像特征。使用视觉Transformer（ViT）是因为可以弥补大跨度信息缺失的问题，同时增强图像的局部空间信息的利用。

预设可学习嵌入用于Transformer 编码器输出。将可学习嵌入与分割图像向量结合得到嵌入向量，。

然后将嵌入向量输入至Transformer编码器，得到Transformer编码器的输出特征。

对于卷积神经网络模块，本实施例采用的卷积神经网络的骨干网络为Resnet50，Resnet50包括卷积、池化等操作。

将步骤1得到的原始图像进行标准化，将标准化的图像送入卷积神经网络，得到卷积神经网络的输出特征。其中，卷积神经网络的输出特征维度与视觉 Transformer模块的输出特征维度一致。

对于序数哈希模块，将视觉Transformer模块输出的特征与卷积神经网络模块输出的特征进行比较排序来设计一个基于排名的哈希函数。

视觉Transformer模块输出特征和卷积神经网络模块的输出特征，维度都是，即D个哈希位，每一个哈希位的取值范围取决于维度的个数，每个哈希位为4维的。

在本实施例中，将视觉Transformer模块输出特征和卷积神经网络模块的输出特征按位相乘，得到序数哈希的感知表示。

之后对序数哈希的感知表示进行排序，得到序数哈希的排序表示，因为每个哈希位为4维，所以序数哈希的排序为1到4。本实施例取最大值对应的维度作为该哈希位表示，也是所输出的哈希码。

如图2所示，图2的H包含4维的数据，分别是0.2、0.03、0.01、0.06，按从大到小的顺序排序后得到1、3、4、2。其中最大的是第一维的数据，所以输出的哈希码是1。

在步骤2中，对于检索模型的训练，将数据集中的图像和标签送入所建立的检索模型，并根据损失函数计算损失值，之后通过随机梯度下降算法更新模型的参数，直至损失值收敛。

本实施例采用有监督哈希学习算法，使用图像和类别标签，所使用的损失函数为样本相似性损失，具体为：

（1）

其中，为检索模型所预测的第i个样本和第j个样本的相似性概率，为相似性矩阵，表示第i个样本和第j个样本的相似性，若同类则为1，不同类则为0，可以通过类别标签获得。

的计算公式为：

（2）

（3）

其中，和表示第i个样本和第j个样本的所有第r维哈希位表示，r表示第r维哈希位。

在本实施例步骤3中，将训练好的模型参数传入检索模型后，输入待查询的图像，得到待查询图像的哈希码，将待查询图像的哈希码与数据集中图像的哈希码进行比较，返回与待查询图像的哈希码最相似的哈希码对应的图像。

实施例二

本实施例的目的是提供一种基于序数哈希的图像检索系统，包括：

在模型建立及训练模块中，将分割图像通过线性投影层映射为D维分割图像向量，将D维分割图像向量与预设可学习嵌入进行结合得到嵌入向量，将嵌入向量输入至视觉Transformer模块，输出第二特征。

所述视觉Transformer模块由Transformer编码器组成，所述Transformer编码器由交替的多层子注意力层和多层感知器组成，在每一个层前使用层归一化，在每一个层后使用残差连接。

在模型建立及训练模块中，将第一特征和第二特征按位相乘，得到序数哈希的感知表示；将序数哈希的感知表示进行排序，得到序数哈希的排序表示；将序数哈希的排序表示基于最大维度，输出哈希码。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于序数哈希的图像检索方法，其特征在于，包括以下步骤：

获取图像并进行标签标注，作为训练数据集；

其中，所述检索模型包括卷积神经网络模块、视觉Transformer模块；将训练数据集中的图像、图像经过处理后得到的分割图像分别输入至卷积神经网络模块、视觉Transformer模块得到第一特征、第二特征；将分割图像通过线性投影层映射为D维分割图像向量，将D维分割图像向量与预设可学习嵌入进行结合得到嵌入向量，将嵌入向量输入至视觉Transformer模块，输出第二特征；

将待检索的图像输出至训练好的检索模型，输出检索结果；

所述检索模型，还包括序数哈希模块，是将视觉Transformer模块输出的特征与卷积神经网络模块输出的特征进行比较排序来设计一个基于排名的哈希函数，具体为：

视觉Transformer模块输出特征和卷积神经网络模块的输出特征，维度都是/>， D表示哈希位的个数，每一个哈希位的取值范围取决于维度的个数，每个哈希位为4维的；

将视觉Transformer模块输出特征和卷积神经网络模块的输出特征/>按位相乘，得到序数哈希的感知表示/>；

之后对序数哈希的感知表示的每个维度的值进行排序，得到序数哈希的排序表示，因为每个哈希位为4维，所以序数哈希的排序序号为1到4，所述序数哈希的排序表示中，每个维度的值为/>对应维度的值的排序序号，取排序序号最大值对应的维度序号作为该哈希位表示/>，也是所输出的哈希码。

2.如权利要求1所述的一种基于序数哈希的图像检索方法，其特征在于，所述视觉Transformer模块由Transformer编码器组成，所述Transformer编码器由交替的多层子注意力层和多层感知器组成，在每一个层前使用层归一化，在每一个层后使用残差连接。

3.如权利要求1所述的一种基于序数哈希的图像检索方法，其特征在于，所述卷积神经网络模块采用Resnet50，将图像输入至卷积神经网络模块，输出与第二特征维度一致的第一特征。

4.如权利要求1所述的一种基于序数哈希的图像检索方法，其特征在于，利用损失函数和随机梯度下降算法对检索模型的参数进行调整，所述损失函数采用样本相似性损失。

5.一种基于序数哈希的图像检索系统，其特征在于，包括：

将视觉Transformer模块输出特征和卷积神经网络模块的输出特征按位相乘，得到序数哈希的感知表示/>；

6.如权利要求5所述的一种基于序数哈希的图像检索系统，其特征在于，所述视觉Transformer模块由Transformer编码器组成，所述Transformer编码器由交替的多层子注意力层和多层感知器组成，在每一个层前使用层归一化，在每一个层后使用残差连接。