CN109063112B

CN109063112B - 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法

Info

Publication number: CN109063112B
Application number: CN201810851990.8A
Authority: CN
Inventors: 李宏亮; 马雷
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2022-04-01
Anticipated expiration: 2038-07-30
Also published as: CN109063112A

Abstract

本发明提供了一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法，基于分类任务可以提高哈希码的判别性及聚合性和检索任务可以保留哈希码的语义相似性，将分类任务与检索任务融入只有一个输出的单流(one‑stream)框架里，充分利用语义监督信息，以提高哈希码的紧致性、判别性及保留哈希码的语义相似性；本发明方案构建了单流(one‑stream)网络框架，结合多任务学习的方法，提高了哈希检索性能。

Description

一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法

技术领域

本发明涉及一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法，涉及图像检索领域。

背景技术

互联网及移动终端设备的普及带来了多媒体数据(图像、文本、语音及视频等)的快速增长。面对如此大规模的数据，如何有效地存储、分析和管理这些数据成为了极具挑战的问题。如何设计一种可以用于大尺度图像语义检索任务的高效检索算法成为了一个热门的研究问题。在检索任务中，传统的实值描述符如词袋(BoW)、颜色直方图、空间描述符(GIST)等等需要消耗大量的内存及计算资源。为了解决基于实值的大规模图像检索问题，提出了一些基于树的方法，例如kd-tree和R-tree。然而，因为维度灾难的存在，相似性检索效率随着数据维度的增加而减少。

为了减少维度灾难的影响，一些早期的数据独立哈希方法如局部敏感性哈希(LSH)采用随机线性投影的方法将高维空间的实值描述符投影到低维的哈明空间。这类哈希方法的主要缺陷是在短的码长检索性能不能令人满意。为了学习更加有效和紧致的哈希码，一些研究者通过机器学习的方法设计了一些数据独立的哈希方法学习哈希函数。现有的数据独立的哈希方法可以大致分成两种：无监督的哈希方法和有监督的哈希方法。无监督的哈希方法利用样本的内在数据特性而没有利用任何标签信息学习二值码。其中代表性的哈希方法包括谱哈希(SH)、迭代量化(ITQ)、各项异性哈希(IsoH)、锚点图哈希(AGH)等等。这类方法的缺点是在实际应用中很难取得满意的检索性能。为了提升哈希的性能，监督的哈希方法将标签信息引入学习模型。代表性的监督哈希方法包括核监督哈希(KSH)、监督离散哈希(SDH)，深度成对监督哈希(DPSH)、深度语义排序哈希(DSRH)、深度三元监督哈希(DTSH)、深度监督离散哈希(DSDH)等等。

最近，基于深度学习的哈希方法：DPSH、DSRH、DTSH和DSDH展示了比传统的哈希方法SH、ITQ、IsoH、AGH、KSH和SDH更好的性能。主要是因为深度的哈希方法可以以一种端对端的框架同时执行特征学习和哈希码的学习。而传统的哈希方法分离了这两个过程，导致学习到的哈希码不能与提取的特征最优的兼容。尽管这些深度的哈希方法取得了较好的性能，但是这些方法要么设法在只有一个输出单流(one-stream)框架里解决单个检索任务(DPSH和DTSH)，要么在有两个输出的双流(two-stream)框架里联合解决检索任务和分类任务(DSRH)。前者利用成对的约束或者三元的约束生成相似性保留的哈希码。然而，数据以类别标签形式(特别是当数据具有多个语义标签)的基本语义结构被忽略了。后者构建了一个哈希流用于相似性保留以及一个分类流用于语义保留。然后，分类流不是直接引导哈希函数的学习而是引导图像表示的学习。结果是现有的深度学习方法中的语义信息并没有充分用于生成紧致及判别性的哈希码。

发明内容

本发明提供一种哈希检索性能更高的，基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法，提高了哈希码的紧致性、判别性及保留哈希码的语义相似性。

根据本发明提供的一种基于多任务学习深度语义哈希的快速图像检索模型构建方法，具体方法包括，

S1，收集大量的训练图片，并进行图片类别标注；调整所有图片的大小到一个固定尺寸；将整个数据库随机划分成三个集合：查询集、数据库集和训练集。

S2：构建一个哈希学习网络，对所构建的哈希学习网络进行参数初始化；在哈希学习网络的最后添加损失层。网络的损失函数J定义如下：

J＝NJ_cl+λJ_re

其中N代表训练集图像的总数，λ表示超参数以平衡用于分类任务的COCO损失J_cl及检索任务的成对损失J_re；对于单标签情形，采用下面的损失函数形式用于分类任务哈希码的学习：

其中

u_i表示网络最后一层经过tanh(·)激活函数的输出Y表示训练样本的标签矩阵，L表示类别数目，c_k表示第k类的中心；对于多标签情形，采用下面的损失函数形式用于分类任务哈希码的学习：

其中C＝[c₁,c₂,…,c_L]表示在单标签情形下的原类别中心，

表示给定的第i张图片的新的语义中心；针对检索任务，采用下面的成对损失形式：

其中S∈{-1,1}^N×N表示相似性矩阵，

表示两张图片的汉明相似性；

S3，将训练图片的RGB三个通道分别减去一个恒定的值作归一化处理；将归一化后的图片输入网络，经过最后tanh(·)激活函数的输出得到近似二值码的特征表示

其中K表示哈希码的码长；对于单标签情形，计算损失函数对u_i的偏导数

其中

对于多标签情形，计算损失函数对u_i的偏导数

其中

利用反向传播算法，求得损失函数对网络参数Θ的偏导数；网络参数的更新使用梯度下降算法；对于语义中心的更新，分成单标签情形与多标签情形两种情况进行讨论；对于单标签情形，语义中心C＝[c₁,c₂,…,c_L]的更新，写成如下闭式解形式：

对于多标签情形，语义中心C＝[c₁,c₂,…,c_L]，可以采用如下加权平均的方式：

S4，网络模型训练完成后，将数据库集图片按照S3归一化后输入训练好的哈希网络；将哈希网络最后的损失层替换成逐元素的sign(·)函数层，输出最终数据库图像的哈希码：

b_d＝sign(F(x_d；Θ))＝sign(u_d)

利用训练集作为查询图片，计算查询的平均精度；按照交叉验证的原则，调整学习率、超参数λ的数值；按照调整后的参数，重复S2和S3对哈希网络进行重新训练。

所述方法还包括，将查询集图片按照S3归一化后，输入经过参数调优后的哈希网络，得到查询集图像的哈希码；计算查询的平均精度。

一种基于多任务学习深度语义哈希的快速图像检索模型，在上述图像检索模型构建方法上构建实现，包括，

图像检索输入接口，接收要进行检索的图片；

检索图像归一化处理模块，将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理；

深度语义称哈希处理，对归一化处理后的图像进行深度语义称哈希处理，得到图像的哈希码。

一种基于多任务学习深度语义哈希的快速图像检索方法，在上述图像检索模型的基础上实现，包括，

输入要检索的图片，将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理；对归一化处理后的图像进行深度语义哈希处理，得到图像的哈希码。

与现有技术相比，考虑到分类任务可以提高哈希码的判别性及聚合性和检索任务可以保留哈希码的语义相似性，将分类任务与检索任务融入只有一个输出的单流(one-stream)框架里，充分利用语义监督信息，以提高哈希码的紧致性、判别性及保留哈希码的语义相似性；本发明方案构建了单流(one-stream)网络框架，结合多任务学习的方法，提高了哈希检索性能。

附图说明

图1为本发明其中一实施例的图像检索流程示意图。

图2到图4为本发明一实施例的利用t-SNE可视化方法将CIFAR-10测试集图片经过MLDH-R,MLDH-C和本发明方案模型输出的实值特征投影到二维空间的结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

S1，收集大量的训练图片，并进行图片类别标注；调整所有图片的大小到一个固定尺寸；将整个数据库随机划分成三个集合：查询集、数据库集(检索集)和训练集。

S2：构建一个哈希学习网络，采用在ImageNet数据库上预训练模型的参数对所构建的哈希学习网络进行参数初始化；在哈希学习网络的最后添加损失层。网络的损失函数J定义如下：

J＝NJ_cl+λJ_re

其中

u_i表示网络最后一层经过tanh(·)激活函数的输出(用于近似输出的哈希码)，Y表示训练样本的标签矩阵，L表示类别数目，c_k表示第k类的中心；对于多标签情形，采用下面的损失函数形式用于分类任务哈希码的学习：

其中C＝[c₁,c₂,…,c_L]表示在单标签情形下的原类别中心，

其中S∈{-1,1}^N×N表示相似性矩阵(即第i张图片与第j张图片至少有一个标签相同则S_ij＝1否则S_ij＝-1)，

表示两张图片的汉明相似性；

其中K表示哈希码的码长；对于单标签情形，计算损失函数对ui的偏导数

其中

对于多标签情形，计算损失函数对ui的偏导数

其中

利用反向传播算法(BP)，求得损失函数对网络参数Θ的偏导数；网络参数的更新使用梯度下降(SGD)算法；对于语义中心的更新，分成单标签情形与多标签情形两种情况进行讨论；对于单标签情形，语义中心C＝[c₁,c₂,…,c_L]的更新，写成如下闭式解形式：

S4，网络模型训练完成后，将数据库集图片按照S3归一化后输入训练好的哈希网络；将哈希网络最后的损失层替换成逐元素(element-wise)的sign(·)函数层，输出最终数据库图像的哈希码：

b_d＝sign(F(x_d；Θ))＝sign(u_d)

利用训练集作为查询图片，计算查询的平均精度(MAP)；按照交叉验证的原则，调整学习率(learning rate)、超参数λ的数值；按照调整后的参数，重复S2和S3对哈希网络进行重新训练。

作为本发明的一种实施方式，所述方法还包括，将查询集图片按照S3归一化后，输入经过参数调优后的哈希网络，得到查询集图像的哈希码；计算查询的平均精度(MAP)。

作为本发明的一种实施方式，一种基于多任务学习深度语义哈希的快速图像检索模型，在上述图像检索模型构建方法上构建实现，包括，

图像检索输入接口，接收要进行检索的图片；

根据本发明提供的一种基于多任务学习深度语义哈希的快速图像检索方法，在上述图像检索模型的基础上实现，包括，

下面以一个具体实施例为例进行具体说明。

步骤1：从网上分别下载单标签数据库CIFAR-10及多标签数据库NUS-WIDE。对于CIFAR-10数据库，从60000张图像中随机挑选1000张图片作为测试集，其余59000张图片作为数据库集。然后从数据库集中随机采样5000张图片作为训练集。对于NUS-WIDE数据库，我们选择21个最高频率的标签对应的195834张图片。从这些图片中，我们选择2100张图片作为查询集，剩余的图片作为数据库集。然后，从数据库集中随机选择10500张图片作为训练集。并将这两个数据库中的图片尺寸归一化为224*224*3。

步骤2：构建的哈希学习网络如图1所示，整个网络参数配置如表1所示。

表1

Layer	配置
		Conv1	Filter 64x11x11,stride 4x4,pad 0,LRN,pool 2x2
Conv2	Filter 256x3x3,stride 1x1,pad 2,LRN,pool 2x2
		Conv3	Filter 256x3x3,stride 1x1,pad 1
Conv4	Filter 256x3x3,stride 1x1,pad 1
		Conv5	Filter 256x3x3,stride 1x1,pad 1,pool 2x2
Full6	4096
		Full7	4096
Full8	哈希码长K
		激活函数	tanh()

表1为哈希网络的参数配置，其中“Filter numxsizexsize”表示卷积滤波器数量及它们的接受域尺寸；“stride”表示卷积步长；“pad”表示给输入的每一维度添加的像素数目；“LRN”表示局部响应归一化；“pool”表示下采样因子；全连接层的数目如“4096”表示该层节点数目。

利用在ImageNet数据库上预训练的VGG-19模型中Conv1-Conv5及Full6-Full7的权重及偏置对所构建的哈希学习网络的前7层进行参数初始化。哈希网络的Full8层的权重与偏置按照均值为0方差为0.01的高斯分布进行随机初始化。

步骤3：将所有图片减去图片的均值进行归一化处理。

步骤4：学习率从10^-1到10^-6通过交叉验证的方法进行调节，权重退化参数设置为5×10^-4。λ从[10,1,0.1,0.01,0.001]通过交叉验证的方式进行调节。按照设定的参数，利用交替优化策略，结合反向传播及梯度下降算法训练哈希网络。

步骤5：测试过程：将查询集及数据库集图像按照步骤3进行归一化处理，输入经过步骤4训练好的网络得到查询集及数据库集的哈希码。通过对汉明排序的检索结果与真实的语义排序结果进行比较计算检索的MAP性能。

我们将本发明方案与当前最好的哈希检索算法DSDH，DTSH和DPSH在单标签CIFAR-10及多标签NUS-WIDE数据库上进行检索性能的比较。从表2中的结果可以看出，本发明方案在单标签及多标签图像哈希检索任务中取得了优异的检索性能。将本发明方案拆成两个单任务，即检索任务(只有成对的损失)MLDH-C和分类任务(只有分类损失)MLDH-R。将两单个任务学习方法与本发明方案多任务学习的方法在CIFAR-10及NUS-WIDE上比较检索的MAP性能。从表3的结果可以看出，本发明提出的多任务联合学习的方法性能更优。同时，我们将CIFAR-10上的测试集图片经过MLDH-R,MLDH-C和本发明方案模型输出的实值特征投影到二维空间进行可视化。从图2到图4的结果，我们可以看出本发明方案可以产生根据紧致性及判别性的哈希码。

表2

表3

其中，表2为本发明方案与当前最好的哈希检索算法在单标签数据库CIFAR-10及多标签数据库NUS-WIDE上MAP性能的比较。表3为本发明方案与只有检索任务MLDH-C及只有分类任务MLDH-R在CIFAR-10和NUS-WIDE上MAP性能的比较。