CN110188219B

CN110188219B - 面向图像检索的深度强化去冗余哈希方法

Info

Publication number: CN110188219B
Application number: CN201910407916.1A
Authority: CN
Inventors: 张玥杰; 杨觉旭; 张涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2023-01-06
Anticipated expiration: 2039-05-16
Also published as: CN110188219A

Abstract

本发明属于图像检索技术领域，具体为面向图像检索的深度强化去冗余哈希算法。本发明算法包括：分块哈希码推理，利用图像的标签信息构筑相似性矩阵，然后依照该相似性矩阵推理每幅图像的最优哈希码，其中相似性矩阵较为巨大，采用分块方式进行求解；图像‑哈希码映射，将图像的原始像素信息映射到已推理出的最优哈希码上，这一映射过程利用多分类来实现；哈希码冗余位去除，去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位，这一过程通过深度强化学习训练一个代理，由该代理来寻找一个最优掩码，从而利用此掩码便可去除冗余的哈希位。本发明训练速度更快，计算开销和存储开销省，检索精度高。

Description

面向图像检索的深度强化去冗余哈希方法

技术领域

本发明属于图像检索技术领域，具体涉及面向图像检索的深度强化去冗余哈希算法。

背景技术

随着社交媒体的迅速发展，每天都有大量的多媒体数据产生，包括文本、图像、视频等。为了能够高效地对这些非结构化的数据进行检索，有许多方法曾被提出。最近，近似最近邻检索由于其较高的检索精度、以及较低的计算开销得到越来越多的关注。在各种近似最近邻检索方法中，哈希算法是目前最具潜力的一种方法，其可为高维数据生成紧凑的二进制哈希码，并利用这些哈希码在海明空间中进行检索。本发明所关注的是基于学习的哈希算法，其是一种数据相关的算法。与数据无关的算法相比，其能利用监督信息生成更高质量的哈希码，从而在加速检索速度的同时得到更高的检索精度。

十几年来，有许多哈希算法被提出过。最近，由于深度学习的巨大成功，深度哈希算法正得到越来越多研究者的关注。深度神经网络极强的拟合能力使得其能拟合任何非线性的哈希函数，另外深度哈希算法也能够以一种端到端的方式来同时完成特征学习和哈希码学习两项任务。在许多公开大规模数据集上，深度哈希算法都能以更简短的哈希码达到更好的检索水平。比如，Robust Discrete Code Modeling for Supervised Hashing一文提出一种新颖的哈希算法，其能利用离散优化来学习到一组最优的哈希码，从而回避量化误差问题，同时还能处理带有噪声的哈希码和语义标签。

虽然许多哈希算法都能提供较好的检索精度和较高的检索性能。然而目前主流的哈希算法都存在两个主要缺陷。首先，由于计算资源的限制，大多数哈希算法只能以小批量(mini-batch)方式进行训练，这使得它们在数据采样方面非常低效。假设训练数据集中一共有n幅图像，则对于逐对式(pair-wise)哈希算法而言，一共有

个图像对，其数量级是

同理，对于三元组式(triplet-wise)哈希算法而言，一共有

个三元组，其数量级是

对于这两类哈希算法而言，采样到足够的样本需要花费大量时间。而若没有足够的样本，则哈希算法只能保持局部相似性而无法保持全局相似性，从而会降低检索精度。其次，对于绝大多数的哈希算法而言，其所生成的哈希码往往包含某种程度的冗余。在所生成的哈希码中，一些位(bit)可被完全丢弃而不会影响到检索精度；甚至这些位的存在有可能会降低检索精度。造成这种冗余的原因有两个，其一是训练数据集中的噪声，其二便是上述常用的基于小批量的训练方法。

发明内容

本发明为解决现有哈希算法的低采样效率、无法保持全局相似性、哈希码包含冗余这三个问题，而提出一种提供面向图像检索的深度强化去冗余哈希算法。

本发明提供的面向图像检索的深度强化去冗余哈希算法，包含分块哈希码推理、图像-哈希码映射、哈希码冗余位去除三个步骤；其中：

步骤1、分块哈希码推理，先利用图像的标签信息构筑相似性矩阵S，然后依照该相似性矩阵来推理每幅图像的最优哈希码；其中相似性矩阵可能较为巨大，因而采用分块方式进行求解；

步骤2、图像-哈希码映射，用于将图像的原始像素信息映射至已推理出的最优哈希码上，这一映射过程利用多分类来实现；

步骤3、哈希码冗余位去除，用于去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位；这一过程是通过深度强化学习训练一个代理，由该代理来寻找一个最优掩码，利用此掩码便可去除冗余哈希位。

进一步，步骤1所述分块哈希码推理的具体流程为，直接利用图像的标签信息而不涉及图像的原始像素信息，因而有着较高的训练速度。其先利用标签构建相似性矩阵：

S＝min(YY^T,1)×2-1 (1)

其中，

是每一幅图像的标签，每个标签包含m个语义类别。然后，尝试用哈希码来重建这一相似性矩阵，并尽可能使重建的相似性矩阵靠近原始的相似性矩阵：

其中，

是每一幅图像的哈希码，k是哈希码的长度(共计k位)，S是上述相似性矩阵。这里，相似性矩阵S可能非常巨大，需要分块进行计算。假设每次选择计算一个高为h、宽为w的一个分块，则整体的损失函数为：

其中，r与c是分块左上角元素的坐标，

是连续化之后的哈希码，

是

矩阵中的第r行至第r+h-1行，其他同理。

进一步，步骤2所述图像-哈希码映射的流程为：利用深度卷积神经网络(Convolutional Neural Network,CNN)对图像提取特征，并将图像映射至前一阶段推理所得的哈希码上。这里，使用两种不同的CNN来进行映射，一种是8层的AlexNet，另一种是18层的ResNet。图像经过神经网络后，输出一个k维向量F(x_i；θ)，其中k是哈希码的长度(k位)，x_i是第i幅图像，θ是神经网络的参数。该向量经过一个sigmoid层将每一个维度转化为一个0～1之间的概率，此概率表示哈希码中该位为1的概率。然后，将这一概率值与前述推理所得的哈希码进行对比，逐位计算交叉熵(Cross Entropy)损失并反向传播(back-propagation)，从而对神经网络的参数进行更新；交叉熵的损失函数为：

其中，x_i为第i幅图像的特征，θ为神经网络的参数，F(x_i；θ)为神经网络最后一层全连接层的输出，σ(·)为sigmoid函数，z_i为前一阶段推理所得的哈希码。

进一步，步骤3所述哈希码冗余位去除的流程为：利用深度神经网络来训练一个代理(Agent)，通过该代理学习到一个掩码(Mask)，利用此掩码可遮掩掉哈希码中多余的位。这里，使用深度Q网络(Deep Q Network)来训练该代理。深度Q网络包含三个要素：状态、动作和奖励。具体地，把当前掩码作为状态(State)，把交换两个不同数值的位作为动作(Action)，把用当前掩码遮掩之后的哈希码检索所得的平均检索精度(mAP)作为奖励(Reward)。然后，Q网络对当前状态s下采取某个动作a所获得的价值Q进行估计，根据这个估计与真实Q值的差异构造损失函数并反向传播，从而对深度Q网络进行训练：

其中，s是当前状态，a是当前状态下采取的动作，Q_pred是对Q值的估计，Q_gt是真实的Q值，β_pred是用于估计Q值的网络的参数，β_gt是充当真实Q值的网络的参数。最后，代理依据深度Q网络对当前状态s和某个动作a的价值估计，每次都选择价值最高的那个动作最终达到一个较优状态(掩码)，用那个掩码遮掩掉哈希码中的冗余位即可。

本发明提供面向图像检索的深度强化去冗余哈希算法，包括：

步骤一、所述分块哈希码推理，利用图像标签构建相似性矩阵，并利用分块计算的方式来逐块计算相似性损失，并将各块相似性损失累加起来然后进行反向传播，从而推理到一组能较好保持语义相似性的哈希码；

步骤二、所述图像-哈希码映射，将图像映射至分块哈希码推理所得到的哈希码上；

步骤三、所述哈希码冗余位去除，利用深度Q网络训练一个代理，并利用该代理学习到到的一个最优掩码，从而遮掩掉步骤二中映射所获得的哈希码中冗余位。

本发明的优点包括：首先，本发明采用分块计算的方式进行哈希码推理，从而可处理任意大小的相似性矩阵，并能保持全局相似性信息，同时由于推理过程不涉及图像信息，因此训练速度更快。其次，本发明利用深度强化学习来对哈希码去冗余，在保持检索精度的情况下，去除哈希码中的冗余位，从而节省计算开销和存储开销。最后，本发明基于公开数据集CIFAR-10、NUS-WIDE、MS-COCO以及OpenImageV4取得当前主流的检索精度。

附图说明

图1是本发明的框架图。

图2是本发明所生成哈希码的t-SNE可视化图。

图3是本发明的检索效果图。

具体实施方式

由背景技术可知，现有的用于相似性图像检索的哈希算法存在两大主要缺陷。其一，多数哈希算法以小批量的方式进行训练，其采样效率低下，且无法保持全局相似性信息。其二，多数哈希算法所生成的哈希码包含一些冗余位甚至是有害位，去除这些位不仅可以提升检索精度，同时还能减少计算开销和存储开销。因此，本实施例针对以上两个问题，分别使用基于分块计算的哈希码推理和基于深度强化学习的哈希码去冗余来加以解决。

本实施例中，首先利用标签信息来构建相似性矩阵：

S＝min(YY^T,1)×2-1 (6)

其中，S∈{-1,+1}^n×n，S_ij＝+1表示第i幅图像与第j幅图像相似；S_ij＝-1表示第i幅图像与第j幅图像不相似。从上式可知，当两幅图像至少有一个共同的语义属性时，则认为它们相似，否则认为不相似。

之后，利用哈希码来重建这一相似性矩阵：

其中，

为所有图像的哈希码堆叠而成的矩阵，k为哈希码的长度，此处k仅仅为了将数值放缩至合适大小。上式本质上是一个混合整数规划问题(Mixed Integer Programming,MIP)，在最坏情况下其拥有指数级的时间复杂度，因而直接优化上式十分困难。按照通常惯例做法，将B连续化，记为

然而，连续化会带来量化误差(Quantization Error)，为此需要添加一个正则项，而使得连续化后的哈希码每一个元素都尽可能靠近{-1,+1}这两个值其中之一。此时，目标函数变为：

其中，

是连续化之后的哈希码，k是哈希码的长度(共计k位)，S是相似性矩阵。

由于式中的S可能十分巨大(其大小为图像数的平方)，其甚至可能无法存储于内存之中。为此，采用一种分块计算方式来处理。设定一个高度为h，宽度为w的滑动块，然后将该滑动块滑过整个相似性矩阵，在每个滑动块内都计算上述目标函数，并将每个滑动块里的梯度累计起来，再整体反向传播从而更新哈希码：

其中，r与c是分块左上角元素的坐标，

是连续化之后的哈希码，

是

矩阵中的第r行至第r+h-1行，其他同理。

这样，即完成哈希码的推理，接来下需要考虑如何将图像映射至已推理好的哈希码。

本实施例中，图像-哈希码映射通过深度卷积神经网络来完成，分别尝试使用AlexNet和ResNet18这两种网络来进行这一过程。首先，将图像输入至网络中，网络的最后一层为每一幅图像都输出一个k维的向量

其中x_i为第i幅图像，θ为神经网络的参数。接下来，将该k维向量输入至一个sigmoid层中，将每一个维度都转化为一个[0,1]之间的概率，表示哈希码在该位为1的概率。然后，利用该概率值与前一阶段推理所得到的哈希码进行对比，计算交叉熵损失，并反向传播从而对网络的参数进行更新：

最后，当需要为一幅新的图像生成哈希码时，只需依据上面提到的概率值即可求得其哈希码：

h(x_i；θ)＝c_i＝I(σ(F(x_i；θ))≥0.5) (11)

其中，h(x_i；θ)为第i幅图像映射所得的哈希码，θ为神经网络的参数。I(bool)为指示函数，当bool为真时返回1，否则返回0。

本实施例中，哈希码冗余位去除通过深度强化学习来实现。具体地，使用一个深度Q网络来训练一个代理，并通过该代理学习到一个掩码，然后利用此掩码来将哈希码中的冗余位给遮掩掉：

d_i＝c_i⊙m (13)

其中，m是上述掩码，c_i是原始哈希码，d_i是去除冗余后的哈希码，⊙代表逐元素乘法。深度Q网络包含如下几个要素：状态(State)、动作(Action)、奖励(Reward)。这里，把当前的掩码作为状态，定义第i个动作为交换掩码中从左往右的第u个1和掩码中从左往右的第v个0，其中u和v定义为：

其中，p为掩码中1的个数，相应的掩码中0的个数即为k-p，k为哈希码长度。通过设置p，可灵活决定希望保留哈希码中的多少位，并将其他冗余位去除。接下来，将当前状态的奖励设置为，利用当前掩码遮掩掉哈希码中冗余位之后进行检索所能获得的平均检索精度(mAP)：、

r(s)＝mAP(s)-1 (15)

这里，会将mAP额外减去1，使得奖励为一个负数，从而迫使网络尽快收敛。

在某个状态s采取某个动作a所获得的Q值为，该状态s所能获得的奖励加上其后续状态中所能获得的最大Q值之和：

Q_gt(s,a；β_gt)＝r(s)+max_a′Q_gt(s′,a′；β_gt) (16)

其中，Q_gt是真实的Q值，s是参数，a是动作，参数是β_gt；同理，Q_pred是估计的Q值；r(s)是当前状态下获得的奖励，s′是在s状态下采取a动作之后到达的新状态，a′是新状态s′下所能采取的动作。这样，便把当前的短期利益和潜在的长远利益结合到Q值之中。为加速训练过程，会使用两个一模一样的Q网络Q_gt和Q_pred交替训练。具体地，把Q_gt的输出作为真实的Q值，把Q_pred的输出值作为估计的Q值，然后计算这两个值之间的差异，并反向传播，从而更新Q_pred的参数，使其估计的Q值更加准确：

其中，s是当前状态，a是当前状态下采取的动作，Q_pred是对Q值的估计，Q_gt是真实的Q值，β_pred是用于估计Q值的网络的参数，β_gt是充当真实Q值的网络的参数。每当训练特定轮次以后，就把Q_pred的参数同步到Q_gt上。

本实施例中，选取四个公共数据集对算法进行验证，包括CIFAR-10、NUS-WIDE、MS-COCO、OpenImageV4。

CIFAR-10包含60,000幅32×32像素的图像，共计10个语义类别。从每个类别中选取100幅作为查询数据集，再从每个类别中选取500幅作为训练数据集，然后把剩下的所有图像作为本地数据库。

NUS-WIDE是一个从Flickr.com上收集，共计269,648幅图像，分别属于81个语义类别。从出现频率最高的21个类别当中随机选择5,000幅图像作为查询数据集，再随机选择10,000幅图像作为训练数据集，然后把剩下的图像作为本地数据库。

MS-COCO是一个常用于图像理解任务的数据集，包含122,218幅图像，分别属于80个语义类别。随机选择5,000幅图像作为查询数据集，再随机选择10,000幅图像作为训练数据集，然后把剩余的所有图像作为本地数据库。

OpenImageV4是一个前所未有的大规模数据集，其用于目标检测任务的子集总共包含1,903,392幅图像，分别属于601个语义类别。从出现频率最高的27个类别中随机选择90,000幅图像作为查询数据集，再随机选择180,000幅图像作为训练数据集，然后把剩余的所有图像作为本地数据库。

本实施例中选择平均检索精度(mAP)作为评价指标。对于CIFAR-10，考察前54,000幅检索结果图像的mAP；对于NUS-WIDE，考察前5,000幅检索结果图像的mAP；对于MS-COCO，考察前5,000幅检索结果图像的mAP；对于OpenImageV4，考察前50,000幅检索结果图像的mAP。

表1：使用AlexNet在CIFAR-10、NUS-WIDE和MS-COCO上进行实验的mAP结果

表2：使用ResNet18在CIFAR-10、NUS-Wide、MS-COCO和OpenImageV4上进行实验的mAP结果。

通过上述实验结果可看到，本实施例在各个数据集上的检索精度都优于其他方法。这表明本实施例确实能够保持数据之间的全局相似性信息，同时本实施例所采用的去冗余机制能够有效去除哈希码中的冗余位，从而达到在提升检索精度的同时减少计算开销和存储开销的效果。

综上所述，本发明尝试挖掘图像之间的全局相似性关系，并利用一种分块计算方式来保持这种相似性。同时本发明为消除广泛存在于现有哈希算法中的冗余问题，提出一种新颖的基于深度强化学习的去冗余机制，能够有效去除哈希码中的冗余位，同时保持或提高检索精度。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种面向图像检索的深度强化去冗余哈希方法，其特征在于，具体步骤为：

步骤1、分块哈希码推理，先利用图像的标签信息构筑相似性矩阵S，然后依照该相似性矩阵来推理每幅图像的最优哈希码；采用分块方式进行求解；

步骤2、图像-哈希码映射，将图像的原始像素信息映射至已推理出的最优哈希码上，这一映射过程利用多分类来实现；

步骤3、哈希码冗余位去除，去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位；这一过程是通过深度强化学习训练一个代理，由该代理来寻找一个最优掩码，利用此掩码去除冗余哈希位；

步骤1所述分块哈希码推理，具体过程为：

首先，利用图像标签信息构建相似性矩阵：

S＝min(YY^T,1)×2-1 (1)

其中，

是每一幅图像的标签，每个标签包含m个语义类别；

然后，试用哈希码来重建这一相似性矩阵，并尽可能使重建的相似性矩阵靠近原始的相似性矩阵：

其中，

是每一幅图像的哈希码，k是哈希码的长度，共计k位，S是上述相似性矩阵；相似性矩阵S非常巨大，需要分块进行计算：假设每次选择计算一个高为h、宽为w的一个分块，则整体的损失函数为：

其中，r与c是分块左上角元素的坐标，

是连续化之后的哈希码，

是

矩阵中的第r行至第r+h-1行；

步骤3所述哈希码冗余位去除的具体流程为：

利用深度神经网络训练一个代理，通过该代理学习到一个掩码，利用此掩码遮掩掉哈希码中多余的位；这里，使用深度Q网络来训练该代理；深度Q网络包含三个要素：状态、动作和奖励；这里，把当前掩码作为状态，把交换两个不同数值的位作为动作，把用当前掩码遮掩之后的哈希码检索所得的平均检索精度作为奖励；

然后，深度Q网络对当前状态s下采取某个动作a所获得的价值Q进行估计，根据这个估计与真实Q值的差异构造损失函数并反向传播，从而对深度Q网络进行训练：

其中，s是当前状态，a是当前状态下采取的动作，Q_pred是对Q值的估计，Q_gt是真实的Q值，β_pred是用于估计Q值的网络的参数，β_gt是充当真实Q值的网络的参数；

最后，代理依据深度Q网络对当前状态s和某个动作a的价值估计，每次都选择价值最高的那个动作最终达到一个较优状态，用那个掩码遮掩掉哈希码中的冗余位。

2.根据权利要求1所述的面向图像检索的深度强化去冗余哈希方法，其特征在于，步骤2所述图像-哈希码映射的具体流程为：利用深度卷积神经网络对图像提取特征，并将图像映射至前一阶段推理所得的哈希码上；这里，使用两种不同的CNN来进行映射，一种是8层的AlexNet，另一种是18层的ResNet；图像经过神经网络后，输出一个k维向量F(x_i；θ)，其中k是哈希码的长度，即k位，x_i是第i幅图像，θ是神经网络的参数；该向量经过一个sigmoid层将每一个维度转化为一个0～1之间的概率，此概率表示哈希码中该位为1的概率；然后，将这一概率值与前述推理所得的哈希码进行对比，逐位计算交叉熵损失并反向传播，从而对神经网络的参数进行更新；交叉熵的损失函数为：