CN109063113B

CN109063113B - 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法

Info

Publication number: CN109063113B
Application number: CN201810851999.9A
Authority: CN
Inventors: 李宏亮; 马雷
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2021-11-02
Anticipated expiration: 2038-07-30
Also published as: CN109063113A

Abstract

本发明提供了一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法，本发明方案考虑查询图像与数据库图像哈希码之间类内的紧致性以及类间的分离性，构建测度学习模型，通过深度学习及离散优化，以同时学习查询图像近似二值码以及数据库图像离散的哈希码；通过构建不对称哈希码学习框架，结合测度学习、深度学习及离散优化，针对数据库图像学习离散判别性的哈希码和针对查询图像训练一个深度卷积神经网络；从而使得哈希码类间最小汉明距离大于类内最大汉明距离。

Description

一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法

技术领域

本发明涉及一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法，涉及图像检索领域。

背景技术

社交网络及数字设备的普及导致了多媒体数据的爆炸式增长。为实现从大尺度多媒体数据的快速和精确的检索，设计有效的索引及检索方法是非常有必要的。对于大尺度图像检索，近似近邻(ANN)搜索技术受到了越来越多的关注。因为存储和计算的有效性，哈希已经成为现有ANN搜索技术中的一种非常受欢迎和有效的技术。哈希方法的目的是将图片映射到紧致的二值码使得原空间中的数据结构或者语义相似性可以在汉明空间中被近似保留。

在过去几年，哈希技术得到了广泛的研究。按照是否需要利用训练数据学习哈希函数，可以将现有的哈希方法分成两类包括数据独立和数据依赖的哈希方法。数据独立的哈希方法利用随机投影或者置换学习哈希函数，而不要使用任何训练数据。代表性的数据独立的哈希方法是局部敏感性哈希(LSH)。与数据依赖的哈希方法相比，他一般需要长的二值码以实现好的检索精度。最近数据独立的哈希方法又名哈希学习(L2H)已经吸引了研究者们极大的关注，因为它们可以从可用的训练数据中产生更加紧致的二值码。L2H方法可以进一步分成两类包括无监督的方法及有监督的方法。第一种方法不用任何监督信息，尝试融入数据结构如数据分布及流形结构，以实现紧致的哈希码。其中最具代表性的方法有谱哈希(SH),迭代量化哈希(ITQ)，锚点图哈希(AGH)及诱导流形哈希(IMH)。许多其他的哈希方法，例如深度比特(DeepBit)、二值对抗(BGAN)及基于伪标签的深度哈希(PLDH)也属于这一类方法。第二种方法可以结合监督信息，例如语义标签和相关度以减少语义鸿沟，并且性能一般比第一种方法好，即使使用更少的比特。典型的代表性方法包括基于核的监督哈希(KSH)，零样本哈希(ZSH)，潜在因子哈希(LFH)，快速监督哈希(FastH),监督离散哈希(SDH)，基于列采样的离散监督哈希(COSDISH)。许多其它的方法例如网络中的网络哈希(NINH)、深度成对监督哈希(DPSH)、深度哈希网络(DHN)深度监督哈希(DSH)，哈希网络(HashNet)及深度渐进哈希(DPH)也属于这一类。

监督哈希方法最受欢迎的特性在于弥合了语义空间中给定的相似性和二值空间中给定的语义相似性之间的语义鸿沟。他们中最广泛采用的技术范例(DPSH、KSH、LFH)是成对的相似性保留，以使原空间的相似性对的距离与汉明空间尽可能保持一致。现有大部分成对监督的哈希方法(COSDISH、FastH、KSH、LFH)由三个关键的步骤构成包括特征提取、投影和量化。具体地来说，首先从每一张输入图片提取手工视觉特征，紧接着投影和量化步骤将特征向量量化为二值码。然而，现有的手工视觉特征不能与编码过程最优的兼容。为了克服这养的局限性，一些深度的哈希方法(DPH、NINH、HashNet、DHN、DSH、DPSH)以及利用深度卷积神经网络(CNN)同时学习有效的图像表示及哈希码。然而，它们中的大部分采用对称的哈希方案，即为查询图片及数据库图像学习一个深度哈希函数使得图片之间的相似性可以被哈希函数的输出的汉明距离近似。训练这些对称的深度哈希方法的时间代价一般非常高。为了使训练切实可行，大部分深度哈希方法从整个数据库中选择一个子集作为训练集学习哈希函数。因此，整个数据库的监督信息没有充分利用，导致不能令人满意的检索性能。

最近，深度不对称的哈希方法例如深度不对称成对哈希(DAPH)及不对称深度监督哈希(ADSH)针对数据库集查询图像利用不同的哈希函数实现更好的检索精度。例如，DAPH利用两个CNN构造了不对称哈希函数，以从图像中学习哈希码。然而，学习到的哈希码不是最优的，因为监督信息没有直接用于引导离散编码过程。不同于DAPH方法，ADSH只需要为查询图片构建一个CNN并可以直接学习数据库图片的二值哈希码。按照这种方式，离散编码过程可以充分利用监督信息。尽管简单及非常优异的性能，ADSH没有显示地鼓励哈希码类内的紧致性及类间的分离性。此外，ADSH采用的均方损失对异常的事例对不鲁棒。

发明内容

本发明要解决的技术问题是提供一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法，具有能够使哈希码类间最小汉明距离大于类内最大汉明距离的特点。

根据本发明提供的一种基于不对称深度离散哈希的快速图像检索模型构建方法，具体方法包括，

S1，收集大量的训练图片，并进行图片类别标注；调整所有图片的大小到一个固定尺寸；将整个数据库随机划分成三个集合：查询集、数据库集和训练集；

S2，构建一个不对称哈希学习模型，对所构建的不对称哈希学习网络进行参数初始化；在不对称哈希学习网络的最后添加损失层；网络的损失函数L定义如下：

其中

表示如果第i张查询图像与第j张数据库图像如果语义相似S_ij＝1，那么其汉明距离d_H(u_i,v_j)需要小于μ-τ，如果第i张查询图像与第j张数据库图像如果语义不相似S_ij＝0，那么其汉明距离d_H(u_i,v_j)需要小于μ+τ。u_i及v_j分别对应于第i张查询图像与第j张数据库图像的哈希码；m与n分别表示查询图像与数据库图像的数目；采用一种广义的逻辑损失函数

以平滑近似铰链损失函数z＝max(x,0)；目标函数重写如下：

s.t.u_i＝sign(F(x_i；Θ)),U∈{-1,+1}^m×c,V∈{-1,+1}^n×c

利用tanh(·)近似符号函数sign(·)，总的目标函数写为：

s.t.V∈{-1,+1}^n×c

其中c表示哈希码的码长；从Y中随机采样一个子集X＝{Y^Ω:Ω＝[i₁,i₂,…,i_m]}作为查询集图像用于训练，这里的Ω表示m张采样的查询图像的索引；用Γ表示所有数据库图像的索引，则有

因此，对于Y^Ω有两种表示，包括数据库中的二值哈希码表示V^Ω和查询图像的表示tanh(F(Y^Ω；Θ))；tanh(F(Y^Ω；Θ))采用一种额外的正则项用于减少近似误差；此外，数据库中图像成对的监督信息可以表示成S∈{0,1}^n×n；采用S^Ω∈{0,1}^|Ω|×n表示S中的一个子矩阵其行由Ω索引；最终的目标函数表示如下：

s.t.V∈{-1,+1}^n×c

S3，将训练图片的RGB三个通道分别减去一个恒定的值作归一化处理；将归一化后的图片输入网络；经过前项传播过程，得到其特征表示z_i＝F(y_i；Θ)及其近似的二值码表示

在反向传播过程，首先计算损失函数关于z_i的偏导数

结果如下：

其中A_ij＝σ(β(-φ_ij-μ′+τ))，B_ij＝σ(β(φ_ij+μ′+τ)),

σ(·)表示

对于离散变量V的更新，采用逐列更新的方法；构建L(V_*k)的上界并优化这个上界以更新第k列V_*k；我定义变量

其中

定义如下：

则关于离散变量V的优化目标函数为：

s.t.V∈{-1,+1}^n×c

计算目标函数关于V_*k的偏导数及海森矩阵

其中

diag(·)表示对角矩阵，其第j个对角元素

由于不等式0＜A_ij＜1及0＜B_ij＜1成立，则有

和

定义

的上界为

L(V_*k)的上界构建如下:

V_*k(t+1)按照如下方式进行更新：

S4，网络模型训练完成后，将从数据库Y中采样得到的训练图片X＝{Y^Ω:Ω＝[i₁,i₂,…,i_m]}按照S3归一化后输入训练好的哈希网络；将哈希网络最后的损失层替换成逐元素(element-wise)的sign(·)函数层，输出最终数据库图像的哈希码：

b_d＝sign(F(x_d；Θ))＝sign(u_d)

计算查询的平均精度；按照交叉验证的原则，调整学习率、超参数的数值μ′，τ及γ；按照调整后的参数，重复S2和S3对哈希网络进行重新训练。

所述方法还包括，将查询集图片按照S3归一化后，输入经过参数调优后的哈希网络，得到查询集图像的哈希码；计算查询的平均精度。

一种基于不对称深度离散哈希的快速图像检索模型，在上述模型构建方法上构建实现，包括，

图像检索输入接口，接收要进行检索的图片；

检索图像归一化处理模块，将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理；

不对称哈希处理模块，对归一化处理后的图像进行不对称哈希处理，得到图像的哈希码。

一种基于不对称深度离散哈希的快速图像检索方法，在基于上述图像检索模型的基础上实现，包括，

输入要检索的图片，将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理；对归一化处理后的图像进行不对称哈希处理，得到图像的哈希码。

与现有技术相比，本发明方案考虑查询图像与数据库图像哈希码之间类内的紧致性以及类间的分离性，构建测度学习模型，通过深度学习及离散优化，以同时学习查询图像近似二值码以及数据库图像离散的哈希码；通过构建不对称哈希码学习框架，结合测度学习、深度学习及离散优化，针对数据库图像学习离散判别性的哈希码和针对查询图像训练一个深度卷积神经网络；从而使得哈希码类间最小汉明距离大于类内最大汉明距离。

附图说明

图1为本发明其中一实施例的图像检索流程示意图。

图2到图4为本发明一实施例的三个数据库上检索到的前5000个样本的检索精度示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

一种基于不对称深度离散哈希的快速图像检索模型构建方法，具体方法包括，

S1，收集大量的训练图片，并进行图片类别标注；调整所有图片的大小到一个固定尺寸；将整个数据库随机划分成三个集合：查询集、数据库集(检索集)和训练集；

S2，构建一个不对称哈希学习模型，采用在ImageNet数据库上预训练模型的参数对所构建的不对称哈希学习网络进行参数初始化；在不对称哈希学习网络的最后添加损失层；网络的损失函数L定义如下：

其中

表示如果第i张查询图像与第j张数据库图像如果语义相似S_ij＝1(即查询图像与数据库图像至少共享一个相同的标签)，那么其汉明距离d_H(u_i,v_j)需要小于μ-τ，如果第i张查询图像与第j张数据库图像如果语义不相似S_ij＝0(即查询图像与数据库图像不共享任何标签)，那么其汉明距离d_H(u_i,v_j)需要小于μ+τ。u_i及v_j分别对应于第i张查询图像与第j张数据库图像的哈希码；m与n分别表示查询图像与数据库图像的数目；max(·)函数在某些点不可导；为了使得优化函数处处可导，我们采用一种广义的逻辑损失函数

以平滑近似铰链损失函数z＝max(x,0)；目标函数重写如下：

s.t.u_i＝sign(F(x_i；Θ)),U∈{-1,+1}^m×c,V∈{-1,+1}^n×c

这里嵌入的sign(·)函数是非平滑及非凸，而且对于非零输入其梯度为0；因此，它不可以通过方向传播用于训练深度网络；为了解决这一问题，我们利用tanh(·)近似符号函数sign(·)，因此总的目标函数写为：

s.t.V∈{-1,+1}^n×c

其中c表示哈希码的码长；在许多实际情况下，只有数据库图像

及其成对的监督信息可以使用。在这种情况下，我们从Y中随机采样一个子集X＝{Y^Ω:Ω＝[i₁,i₂,…,i_m]}作为查询集图像用于训练，这里的Ω表示m张采样的查询图像的索引；用Γ表示所有数据库图像的索引，则有

因此，对于Y^Ω有两种表示，包括数据库中的二值哈希码表示V^Ω和查询图像的表示tanh(F(Y^Ω；Θ))；正如之前提到的，tanh(F(Y^Ω；Θ))是用于近似V^Ω的，因此我们采用一种额外的正则项用于减少近似误差；此外，数据库中图像成对的监督信息可以表示成S∈{0,1}^n×n；对应的，我们采用S^Ω∈{0,1}^|Ω|×n表示S中的一个子矩阵其行由Ω索引；最终的目标函数表示如下：

s.t.V∈{-1,+1}^n×c

S3，将训练图片(查询图像)的RGB三个通道分别减去一个恒定的值作归一化处理；将归一化后的图片输入网络；经过前项传播(FP)过程，得到其特征表示z_i＝F(y_i；Θ)及其近似的二值码表示

在反向传播(BP)过程，首先计算损失函数关于z_i的偏导数

结果如下：

其中A_ij＝σ(β(-φ_ij-μ′+τ))，B_ij＝σ(β(φ_ij+μ′+τ)),

σ(·)表示

其中

定义如下：

则关于离散变量V的优化目标函数为：

s.t.V∈{-1,+1}^n×c

计算目标函数关于V_*k的偏导数及海森矩阵(Hessian matrix)

其中

diag(·)表示对角矩阵，其第j个对角元素

由于不等式0＜A_ij＜1及0＜B_ij＜1成立，则有

和

定义

的上界为

L(V_*k)的上界构建如下:

V_*k(t+1)按照如下方式进行更新：

S4，网络模型训练完成后，将从数据库Y中采样得到的训练图片(查询图片)X＝{Y^Ω:Ω＝[i₁,i₂,…,i_m]}按照S3归一化后输入训练好的哈希网络；将哈希网络最后的损失层替换成逐元素(element-wise)的sign(·)函数层，输出最终数据库图像的哈希码：

b_d＝sign(F(x_d；Θ))＝sign(u_d)

计算查询的平均精度(MAP)；按照交叉验证的原则，调整学习率(learning rate)、超参数的数值μ′，τ及γ；按照调整后的参数，重复S2和S3对哈希网络进行重新训练。

所述方法还包括，将查询集图片按照S3归一化后，输入经过参数调优后的哈希网络，得到查询集图像的哈希码；计算查询的平均精度(MAP)。

根据本发明提供的一种基于不对称深度离散哈希的快速图像检索模型，在上述模型构建方法上构建实现，包括，

图像检索输入接口，接收要进行检索的图片；

根据本发明提供的一种基于不对称深度离散哈希的快速图像检索方法，在基于上述图像检索模型的基础上实现，包括，

下面以一个具体实施例为例进行具体说明。

步骤1：从网上分别下载单标签数据库CIFAR-10及多标签数据库MS-COCO，NUS-WIDE。对于CIFAR-10数据库，我从60000张图像中随机挑选1000张图片作为测试集，其余59000张图片作为数据库集。然后从数据库集中随机采样2,000张图片作为训练集。对于MS-COCO数据库，我们去掉没有标签的图像。然后从验证集随机采样5000张图片作为查询集图片，将修剪后的训练集图片共82080张图片作为数据库图片。对于NUS-WIDE数据库，我们选择21个最高频率的标签对应的195834张图片。从这些图片中，我们选择2100张图片作为查询集，剩余的图片作为数据库集。将这MS-COCO及NUS-WIDE这两个个数据库中的图片尺寸归一化为224*224*3。

步骤2：构建的哈希学习网络如图1所示，整个网络参数配置如表1所示。利用在ImageNet数据库上预训练的VGG-19模型中Conv1-Conv5及Full6-Full7的权重及偏置对所构建的哈希学习网络的前7层进行参数初始化。哈希网络的Full8层的权重与偏置按照均值为0方差为0.01的高斯分布进行随机初始化。从数据中随机采样m＝2,000张图片作为训练图片(训练过程中的查询图片)。

表1

Layer	配置
		Conv1	Filter 64x11x11,stride 4x4,pad 0,LRN,pool 2x2
Conv2	Filter 256x3x3,stride 1x1,pad 2,LRN,pool 2x2
		Conv3	Filter 256x3x3,stride 1x1,pad 1
Conv4	Filter 256x3x3,stride 1x1,pad 1
		Conv5	Filter 256x3x3,stride 1x1,pad 1,pool 2x2
Full6	4096
		Full7	4096
Full8	哈希码长K
		激活函数	tanh()

在表1中，哈希网络的参数配置，其中“Filter numxsizexsize”表示卷积滤波器数量及它们的接受域尺寸；“stride”表示卷积步长；“pad”表示给输入的每一维度添加的像素数目；“LRN”表示局部响应归一化；“pool”表示下采样因子；全连接层的数目如“4096”表示该层节点数目。

步骤3：将步骤2中采样得到的训练图片输入哈希学习网络，计算梯度应用随机梯度下降算法对网络参数进行更新，并对数据库的哈希码进行更新。

步骤4：学习率从10^-1到10^-6通过交叉验证的方法进行调节，权重退化参数设置为5×10^-4。γ从[0.001,0.01,0.1,1,10,100,1000]，μ′从

τ从[0,1,2,…]通过交叉验证的方式进行调节。按照设定的参数，利用交替优化策略，结合反向传播及梯度下降算法训练哈希网络。

步骤5：测试过程：将查询集及数据库集图像按照步骤3进行归一化处理，输入经过步骤4训练好的网络得到查询集哈希码。按照步骤3经过离散优化得到的哈希码作为最终数据库图片的哈希码。通过对汉明排序的检索结果与真实的语义排序结果进行比较计算检索的MAP性能。

我们将本发明具体实施例的快速检索方案与当前最好的哈希检索算法包括无监督的传统哈希方法ITQ；有监督的传统哈希方法Lin:Lin，LFH,FastH，SDH，COSDISH，KADGH；对称深度的哈希方法DPSH，DHN,DSH,HashNet；不对称的深度哈希方法DAPH、ADSH，在单标签CIFAR-10及多标签MS-COCO，NUS-WIDE数据库上进行检索性能的比较。其中对于训练样本外的扩展(out-of-sample extension)，我们按照FastH的设置使用增加决策树的方法作为哈希映射函数得到数据库图片及查询图片的哈希码。从表2(在三个数据库上，不同哈希比特检索MAP性能的比较)中的结果可以看出，在单标签及多标签图像哈希检索任务中，本发明具体实施例在绝大多数情况下取得了优异的检索性能。如果利用Lin,LFH,FastH，SDH，COSDISH，KADGH在整个数据库中训练得到的离散哈希码作为最终的哈希码，我们将该检索结果分别表示为Lin；V,LFH-D,FastH-D，SDH-D，COSDISH-D，KADGH-D。从表3在三个数据库上，不同哈希比特检索MAP性能的比较)的比较结果可以看出，本发明方案依然在绝大多数情况下的检索性能更优。其检索返回的前5,000个样本的检索精度随哈希码长的变化曲线如图2到图4所示。从图2到图4的结果可以看出，本发明提出的基于测度学习的离散反对称哈希方法在多数情况下性能更优。

表2

表3

Claims

1.一种基于不对称深度离散哈希的快速图像检索模型构建方法，具体方法包括，

其中

表示如果第i张查询图像与第j张数据库图像语义相似S_ij＝1，那么其汉明距离d_H(u_i,v_j)需要小于μ-τ，如果第i张查询图像与第j张数据库图像语义不相似S_ij＝0，那么其汉明距离d_H(u_i,v_j)需要小于μ+τ，u_i及v_j分别对应于第i张查询图像与第j张数据库图像的哈希码；m与n分别表示查询图像与数据库图像的数目；采用一种广义的逻辑损失函数