CN111428073A

CN111428073A - 一种深度监督量化哈希的图像检索方法

Info

Publication number: CN111428073A
Application number: CN202010243021.1A
Authority: CN
Inventors: 程述立; 汪烈军; 杜安钰
Original assignee: Xinjiang University; CERNET Corp
Current assignee: Xinjiang University; CERNET Corp
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-17
Anticipated expiration: 2040-03-31
Also published as: CN111428073B

Abstract

本发明提供一种深度监督量化哈希的图像检索方法，所述方法包括：对输入的图像检索数据进行特征提取，将特征提取部分提取的特征输入哈希层生成哈希码，通过构造不同的损失函数训练哈希层的网络参数；其中，在特征提取部分，采用ResNet101作为主干网络集合双通道注意力机制实现网络模型的构建以进行图像特征提取，所述双通道注意力机制包括通道注意力机制以及空间注意力机制。本发明主要从网络模型选取、损失函数构建中去弥补现有算法中的不足，提升算法检索性能，从而可应用于大规模检索引擎、医学计算机辅助诊断及人脸数据库中。

Description

一种深度监督量化哈希的图像检索方法

技术领域

本发明主要涉及计算机视觉、图像检索相关技术领域，具体是医学计算机辅助、各大搜索引擎等使用的一种深度监督量化哈希的图像检索方法。

背景技术

随着多媒体技术的不断发展，哈希算法已成为大数据时代多媒体数据搜索的关键技术。同时，海量数据的存储和查询消耗大量的存储空间和计算复杂度。为了解决传统方法对存储空间和检索时间的不现实要求，近年来，哈希技术广泛被关注。由于哈希算法能减少了其空间和时间需求，并且哈希算法具有更好的检索结果，因此哈希算法成为一种用于多媒体数据快速搜索的实用解决方案。

随着互联网及医学成像设备的不断完善，图像数据成为当前主流数据类型，然而医学计算机辅助设计和搜索引擎均关注检索时效性。此时，深度哈希算法成为计算机辅助诊断及搜索引擎的主流算法，成为当前研究热点。当前相关技术存在的缺陷如下：(1)基于多特征融合算法图像检索，算法以人工特征为出发点，算法特征表达能力有待提升并且适应性不强。(2)基于深度学习的图像检索，传统的做法是基于深度学习模型提取图像特征，通常选取全连接层的输出作为图像特征，但浮点型数据类型及特征维度较高需要消耗较多的存储量和计算量，因此该算法不适合医学计算机辅助诊断及大规模图像检索。

发明内容

为解决目前技术的不足，本发明结合现有技术，从实际应用出发，提供一种深度监督量化哈希的图像检索方法，本发明主要从网络模型选取、损失函数构建中去弥补现有算法中的不足，提升算法检索性能，从而可应用于大规模检索引擎、医学计算机辅助诊断及人脸数据库中。

为实现上述目的，本发明的技术方案如下：

一种深度监督量化哈希的图像检索方法，其特征在于，所述方法包括：对输入的图像检索数据进行特征提取，将特征提取部分提取的特征输入哈希层生成哈希码，通过构造不同的损失函数训练哈希层的网络参数；

其中，在特征提取部分，采用ResNet101作为主干网络集合双通道注意力机制实现网络模型的构建以进行图像特征提取，所述双通道注意力机制包括通道注意力机制以及空间注意力机制。

进一步，在通道注意力机制结构中，用最大池化和均值池化去压缩特征图，然后引入多层感知器，基于求和操作去得到输出特征图；

在空间注意力机制结构中，输出层的每个位置都与其他位置信息进行融合，输入特征图和输出特征图具有相同的大小。

进一步，所述哈希层的激活函数是双曲正弦函数。

进一步，所述损失函数采用如下所示公式：

J_ours＝J₁+J₂+J₃+J₄ (1)

其中，J₁是成对的语义相似度损失，其具体公式如下所示：

J₂是算法的量化损失，主要测量实际输出与预期输出之间的差异，其具体公式如下所示：

J₃是算法的量化损失，一方面，损失函数可以限制错误率，另一方面，它可以最小化实际输出和预期输出的量化误差总和，其具体公式如下所示：

J₄是交叉熵损失，其主要目标是更合理地利用标签信息，其具体公式如下所示：

上述公式中，S是监督矩阵，s_ij为图像i和图像j的相似性，

T表示转置，b_i和b_j为成对的哈希码，α为超参数，n为图像数目，u_i为期望的哈希码，y_i为真实标签，y_i′为网络预测的标签。

本发明的有益效果：

1)首先在网络模型中提出了一种新的双重关注机制，可以进一步获得更有效的语义信息。2)构造了一个新的目标函数(主要是：成对损失，量化损失，softmax损失，正则项)来训练网络参数。3)医学计算机辅助设计方面，本发明所提出算法可应用在组织病理学(KIMIA Path960和KIMIA Path24)、公用图像检索数据库(CIFAR-10和NUW-WIDE)、少数民族人脸数据库(FD-XJ)中；因此本发明所提出的深度监督量化哈希检索方法在医学计算机辅助诊断和进一步构造智能检索系统中具有较好的应用价值。

附图说明

附图1为本发明的深度监督量化哈希的图像检索架构；

附图2为本发明的通道注意力机制的结构；

附图3为本发明的空间注意力机制的结构。

具体实施方式

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

如图1～3所示，为本发明所提供的一种深度监督量化哈希的图像检索方法相关系统的架构图。

在深度哈希算法中，其主要目标是学习哈希函数以提取质量更好的哈希码。当前技术中，有两个关键的科学问题需要进一步解决：如何更好地表征图像并从图像中获得更有效的语义特征(特征提取部分)；如何测量语义空间和汉明空间之间的相似性(损失函数部分)。因此本发明的目标是提出一种新颖的深度哈希算法，该算法将框架中的特征学习部分和度量学习部分结合在一起。该算法的主要目标是学习更有效的哈希码。该算法使用的主要数据集是用于深度哈希算法研究的主流数据集(CIFAR10和NUSWIDE)。在特征学习模块中，针对残差网络和注意力机制的最新研究已被广泛提出来处理与图像处理相关的任务。然而，对基于残差的哈希算法和基于注意力的哈希算法的研究很少。因此，本发明主要探讨基于残差块和双通道关注机制的特征学习部分，目的是获得图像更鲁棒的特征表示。

本发明其目标是获取更为有效的哈希码，提高图像检索性能，其过程如图1所示。

检索数据输入：在图1中，该架构使用的主要数据集是用于深度哈希算法研究的主流数据集(CIFAR10和NUSWIDE)，因此检索架构的数据输入来源于当前主流数据集CIFAR10和NUSWIDE数据库以及采集的部分少数民族数据库。具体细节如下：数据集是用于深度哈希算法的公共数据集，具体实施方式如下：CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类6000个图像。有50000张训练图像和10000张测试图像。本发明通过DPSH，DSDH，DDSH等算法测试，随机选择1000张图像作为查询点，其余图像作为检索点。在检索集中，本发明随机选择5000张图像作为训练数据集。NUW-WIDE是一个真实的网络图像数据库。该数据集包含269,648张图像和Flickr的相关标签，总共有5,018个唯一标签。在检索集中，本发明仅选择21个最频繁分类的2100张图像作为测试数据集。本发明选择每个班级500张图像作为训练数据集，其余图像作为检索点。KIMIA Path24是组织病理学搜索的主要数据集之一。它包含24类组织病理学图像。该数据集包含27,055个组织病理学图像。在实际测试中，本发明随机选择1325个组织病理学图像来测试算法性能，并使用其他组织病理学图像来训练网络参数。KIMIA Path960是组织病理学搜索的主要数据集之一。它包含20个类别组织病理学图像。该数据集包含960个组织病理学图像。在实际测试中，本发明随机选择了192个组织病理学图像来测试算法表现和其他组织病理学图像训练网络参数。除此之外，本发明的算法还可在一些少数民族人脸数据库中进行应用。

在本发明的特征提取部分：特征提取部分主要基于本发明的关键问题一提出，其主要目标是更好地表征图像并从图像中获得更有效的语义特征。特征提取部分的重点是网络模型构建，在所提出的深度监督量化哈希架构中，本发明采用ResNet101作为主干网络，结合双通道注意力机制(通道注意力机制和空间注意力机制)去获取更好的图像描述。本发明所提出的双通道注意力机制启发来源于两部分：(1)DANet中的位置注意力机制；(2)CBAM中的通道注意力机制。结合这两部分我们提出了新的双通道注意力机制(通道注意力机制如图2所示和空间注意力机制如图3所示)，该注意力机制也是首次被提出在图像检索架构中。除此之外，本发明采用ResNet101结合通道注意力机制和空间注意力机制去获取图像特征的方式也是首次展现在深度哈希算法中。图像检索架构中，这种新的特征提取方式也是首次被提出。如图2所示，在通道注意力机制结构中，输入特征图经过最大池化、均值池化进入共享多层感知器，然后多层感知器最大值池化输出、多层感知器均值池化输出进行求和，经过激活函数后输出特征图。在通道注意力机制中，本发明关注特征图中每个通道的重要性相关性。在技术层面上，本发明使用最大池化和均值池化去压缩特征图，然后引入多层感知器，基于求和操作去得到输出特征图。如图3所示，在空间注意力机制结构中，输出层的每个位置都与其他位置信息融合在一起，输入特征图和输出特征图具有相同的大小。

本发明的哈希层：为了进一步减少计算存储量及计算量，哈希层被引入去训练哈希函数并且生成哈希码，哈希层的输入为特征提取部分提取的特征，哈希层的激活函数是双曲正切函数。

本发明的损失函数部分：度量学习模块主要通过构造不同的损失函数来训练网络参数。在深度哈希算法的研究中，如何保持语义空间和汉明空间之间的相似性一直是研究人员关注的焦点。这个问题仍然是研究人员的热门话题。一些经典的工作被研究者们提出，例如深度成对监督哈希，深度离散监督哈希和深度监督离散哈希。

公式1给出了深度成对监督哈希的损失函数：

其中B是二进制代码，U是网络输出，S是监督矩阵，b_i和bj是成对的哈希码，η是超参数，第一项代表成对语义相似度损失，第二项代表量化损失；s_ij为图像i和图像j的相似性，

n为图像数目，u_i为期望的哈希码。

公式2给出了深度量化哈希的损失函数：

其中S是相似度矩阵，

和o_j是网络输出，λ是超参数，第一项代表成对语义相似度损失，第二项代表量化损失，T表示转置，C表示旋转矩阵，h_i表示期望哈希码。

本发明提出的度量学习模块损失函数如公式3所示：

J_ours＝J₁+J₂+J₃+J₄ (3)

J₁是成对的语义相似度损失，其具体描述如公式4所示：

J₂是算法的量化损失，主要测量实际输出与预期输出之间的差异，其具体描述如公式5所示：

J₃也是算法的量化损失。一方面，损失函数可以限制错误率，另一方面，它可以最小化实际输出和预期输出的量化误差总和。其具体描述如公式6所示：

J₄是交叉熵损失，其主要目标是更合理地利用标签信息。其具体描述如公式7所示：

α为超参数，u_i为期望的哈希码，y_i为真实标签，y_i′为网络预测的标签。

本发明提出的度量学习策略如公式3所示。与当前深度哈希算法相比，本发明的算法具有以下主要优点：(1)在J₁中，本发明将残差网络用作骨干网络，并使用新的双通道注意力机制，提取更有效的语义特征，可以在一定程度上减少语义相似度的损失；(2)在量化损失上，当语义空间和汉明空间相似性一致时，J₂和J₃可以进一步减少错误比特的数量，同时能够减少量化造成的语义损失。(3)J₄是引入标签信息下的分类损失，引入分类损失可以充分利用标签信息。改损失函数也是首次被提出用来训练图像检索系统去生成更为有效的哈希码。

综上可知，本发明的主要贡献如下：1)本发明首先提出了一种新的深度哈希检索架构，即深度监督量化哈希(DSQH)，该图像检索架构可以用于医学计算机辅助诊断以及高效图像检索系统。2)在深度监督量化哈希中，网络模型部分提出了一种新的双重关注机制，结合ResNet101主干网可以进一步获得更有效的语义信息。2)构造了一个新的目标函数(包括：成对损失，量化损失，分类损失)来训练网络参数。3)医学计算机辅助设计方面，本发明所提出算法可应用在组织病理学(KIMIA Path960和KIMIA Path24)、公用图像检索数据库(CIFAR-10和NUW-WIDE)、部分少数民族人脸数据库(FD-XJ)中。因此本发明所提出的深度监督量化哈希检索方法在医学计算机辅助诊断和进一步构造智能检索系统中具有较好的应用价值。

Claims

1.一种深度监督量化哈希的图像检索方法，其特征在于，所述方法包括：对输入的图像检索数据进行特征提取，将特征提取部分提取的特征输入哈希层生成哈希码，通过构造不同的损失函数训练哈希层的网络参数；

2.根据权利要求1所述的一种深度监督量化哈希的图像检索方法，其特征在于，在通道注意力机制结构中，用最大池化和均值池化去压缩特征图，然后引入多层感知器，基于求和操作去得到输出特征图；

3.根据权利要求1所述的一种深度监督量化哈希的图像检索方法，其特征在于，所述哈希层的激活函数是双曲正弦函数。

4.根据权利要求1所述的，一种深度监督量化哈希的图像检索方法，其特征在于，所述损失函数采用如下所示公式：

J_ours＝J₁+J₂+J₃+J₄ (1)

其中，J₁是成对的语义相似度损失，其具体公式如下所示：

上述公式中，S是监督矩阵，s_ij为图像i和图像j的相似性，