CN110347853A

CN110347853A - 一种基于循环神经网络的图像哈希码生成方法

Info

Publication number: CN110347853A
Application number: CN201910614618.XA
Authority: CN
Inventors: 杨阳; 汪政; 傅熙尧
Original assignee: Chengdu Macao Haichuan Technology Co Ltd
Current assignee: Chengdu Macao Haichuan Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-18
Anticipated expiration: 2039-07-09
Also published as: CN110347853B

Abstract

本发明公开了一种基于循环神经网络的图像哈希码生成方法，通过多实例学习提取图像的属性，并使用注意机制在该LSTM中利用和计算训练中的属性，以便在每个时间步骤关注图像/图像批次的不同属性。在提取之后，基于LSTM来近似每个时间步长之间的维数减少并且去相关，以便逐位地生成有意义的缩放矢量，然后，通过LSTM输出经过全连接层生成一个向量和图像特征图像特征通过另一个全连接层输出另个向量，二者点乘后，用三元组损失函数优化，得到图像哈希码。与仅从图像特征生成的哈希码相比，生成的哈希码的性能从深度特征和语义属性中获益更多。此外，特征和属性的融合使图像哈希码获得检索能力和可区分的语义含义。

Description

一种基于循环神经网络的图像哈希码生成方法

技术领域

本发明属于图像检索技术领域，更为具体地讲，涉及一种基于循环神经网络的图像哈希码生成方法。

背景技术

由于近年来互联网上的数据在存储和类别方面都有快速增长的速度，人们自然会被鼓励寻求新的方法来快速有效地生成数据模式。

基于内容的信息检索(CBIR)是一种专注于基于视觉内容查询和索引大型数据集的技术，是许多多媒体应用的关键，包括人脸识别，动作检测等。

哈希学习尤其是大数据哈希学习是根据基于内容的信息检索思路形成的一种重要方法。哈希学习的原理是基于近似最近邻(ANN)搜索，生成尽可能保留数据空间结构的由1/-1组成的哈希码。从局部敏感哈希(LSH)到现在的一系列新方法，证明了哈希学习是一种前景良好的检索技术。

仅将生成的图像特征用于深度学习并不是唯一的解决方案。通常，对目标哈希函数生成的二进制代码施加的离散约束将导致在网络中的梯度下降出现困难，这些问题通常是NP难的。为了简化二进制代码学习过程中涉及的优化，大多数上述方法选择首先通过丢弃离散约束来解决松弛问题，然后求解出一个连续解以实现近似二元解。这种放松方案极大地简化了原始的离散优化。遗憾的是，这种近似解决方案通常具有低质量并且经常使得所得到的散列函数可能由于累积的量化误差而不太有效，这在学习较长长度的哈希码时尤其如此。

另一方面，当尝试将深度学习调整为哈希学习任务时，其与深度学习的集成是一个至关重要的问题。最近的进展证明了卷积神经网络(CNN)在图像分类，物体检测，人脸识别和许多其他视觉任务中的不同变化的令人印象深刻的学习能力。CNN在各种任务中的成功应用表明，CNN学到的特征可以很好地捕捉图像的基本语义结构，尽管存在显着的外观变化。一些深度哈希方法，如，试图通过卷积神经网络计算学习哈希码之间的汉明距离，方法是使用神经网络对代价函数优化，计算两个数据点之间的相似性。在一些利用循环神经网络对视频进行哈希码生成的工作中，LSTM的循环性质被用作时间视频帧的编码器，并通过最后一步输出计算哈希码，这是通过单个完全连接的激活层计算的隐藏状态。实验结果表明，调整得到了提升。然而，仍然部分地发现了用于训练哈希码的深度神经网络的强度的性质。例如，对于循环神经网络，我们可以延长哈希码学习的学习周期，并使神经网络调整已经学习的哈希码。

传统的以图像检索深度哈希学习即图像检索哈希码生成方法只使用图像特征进行哈希学习，如2017年08月04日公布的、公布号为CN107016708A、名称为“一种基于深度学习的图像哈希码编码方法”发明专利申请，其基本流程如图1所示。图1中，图像数据集的图像在由卷积神经网络(CNN)提取图像特征，通过最后一层网络进行微调(finetune)训练，优化损失函数，生成可用的哈希码。然而，现有的图像检索哈希码生成方法，生成的图像检索哈希码不能很好地与图像匹配，误差较大，并且不同属性之间的图像，差异(偏差)不是很强烈，性能不高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于循环神经网络的图像哈希码生成方法，以减少与图像匹配的误差(提高检索能力)，加强不同属性图像哈希码的差异(可区分性)，提高生成的图像哈希码的性能。

为实现上述发明目的，本发明基于循环神经网络的图像哈希码生成方法，其特征在于，包括以下步骤：

(1)、利用卷积神经网络(CNN)提取图像的特征(图像特征)，采用多实例学习(MIL)提取图像的属性(图像属性)：在VGG-16网络上应用MIL机制，用一个改变VGG-16的fc8层的原始计算sigmoid激活层通过预测边界来计算边界框中(bounding box)的损失函数，边界框通过词袋(bag of words)模型训练语料库，使用MIL的组合OR版本，可以表示为：

其中，p(b_i|w)是包含在词袋w中的单词b_i出现(在该张图片中)的总概率，由一个属性向量表示，表示给定的图像i中的图像区域j中出现词袋w的概率；

(2)、将图像特征经过初始化即全连接层降为n维后，与属性向量作为注意机制(attention mechanism)中的上下文向量(context vector)继续处理后的向量进行融合，得到融合特征向量x_t,t＝0,1,...,n-1，n为融合特征向量的数量；

(3)、将融合特征向量x_t依次输入到长短期记忆网络(LSTM，Long Short-TermMemory)中，计算出隐藏量h_t,t＝0,1,...,n-1；

(4)、将长短期记忆网络每一次计算出的隐藏量h_t,t＝0,1,...,n-1收集并经过全连接层运算(即为生成起到缩放作用的向量)生成向量fc_a，同时，CNN提取出的图像特征过另一个全连接层运算生成向量fc_b，两个生成的向量fc_a、fc_b点乘后，三元组损失函数进行优化，最终得到图像哈希码。

本发明的目的是这样实现的。

本发明基于循环神经网络的图像哈希码生成方法，在现有图像检索哈希码生成方法的基础上，通过多实例学习提取图像的属性，并使用注意机制(attention mechanism)在该LSTM中利用和计算训练中的属性，以便在每个时间步骤关注图像/图像批次的不同属性。在提取之后，基于LSTM设计了一种新的循环神经网络来近似每个时间步长之间的维数减少并且去相关，以便逐位地生成有意义的缩放矢量，然后，通过LSTM输出经过全连接层生成一个向量和图像特征图像特征通过另一个全连接层输出另个向量，二者点乘后，用三元组损失函数优化，得到图像哈希码。与仅从图像特征生成的哈希码相比，生成的哈希码的性能从深度特征和语义属性中获益更多。此外，特征和属性的融合使图像哈希码获得检索能力和可区分的语义含义。

附图说明

图1是现有技术中图像检索哈希码生成方法的示意图；

图2是本发明基于循环神经网络的图像哈希码生成方法一种具体实施方式的流程图；

图3是本发明基于循环神经网络的图像哈希码生成方法一种具体实施方式的架构图；

图4是图像哈希码在高层语义空间的分布示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

本发明提出了一种新的基于循环神经网络的图像哈希码生成方法来调整深度学习过程中的逐位学习阶段，名为深度循环缩放哈希学习Deep Recurrent Scaling Hashing(DRSH)。本发明在哈希学习过程中产生缩放矢量，以提高从图像特征生成的图像哈希码的性能。

本发明包括以下步骤：首先，通过深度神经网络(CNN、MIL)提取图像的特征和属性。使用注意机制(attention mechanism)在长短期记忆网络(LSTM)中利用和计算训练中的属性，以便在每个时间步骤关注图像/图像批次的不同属性。在提取之后，基于LSTM设计了一种新的循环神经网络来近似每个时间步长之间的维数减少并且去相关，以便逐位地生成有意义的缩放矢量，然后，通过LSTM的输出和图像特征的组合生成图像的哈希码。与仅从图像特征生成的图像哈希码相比，生成的图像哈希码的性能从深度特征和语义属性中获益更多。此外，特征和属性的融合使图像哈希码获得检索能力和可区分的语义含义，具体而言，如图2、3所示，本发明基于循环神经网络的图像哈希码生成方法，其特征在于，包括以下步骤：

步骤S1：提取图像的特征和属性

利用卷积神经网络(CNN)提取图像的特征，采用多实例学习(MIL)提取图像的属性：为了获得在单个图像的某些区域的属性，在VGG-16网络上应用MIL机制，用一个改变VGG-16的fc8层的原始计算sigmoid激活层通过预测边界来计算边界框中(bounding box)的损失函数，边界框通过词袋(bag of words)模型训练语料库，使用MIL的组合OR版本，可以表示为：

其中，p(b_i|w)是包含在词袋w中的单词b_i出现(在该张图片中)的总概率，由一个属性向量表示，表示给定的图像i中的图像区域j中出现词袋w的概率。

图像属性属于数据标注和数据特征之间的中间层级，引入图像属性可以为生成的图像哈希码插入语音含义，而不仅是单纯表示数据点在数据空间的位置。在本发明中，采用多实例学习提取图像的属性，并将属性插入循环神经网络中，在本发明中，循环神经网络为长短期记忆网络(LSTM，Long Short-Term Memory)。

多实例学习(MIL)是一种自动生成图像描述的方法：直观地从图像标题数据集中学习的视觉检测器、语言模型和多模态相似性模型。MI的核心思想是属性的定义和利用。与图像特征相比，图像属性可被视为图像和视频的更普遍和基本的描述。例如，猫可能具有“有尾巴”和“双耳”等特征，并且具有“毛茸茸”等属性，通过图像属性学习对于训练深度神经网络更有效。

步骤S2：融合

将图像特征经过初始化即全连接层降为n维后，与属性向量作为注意机制(attention mechanism)中的上下文向量(context vector)继续处理后的向量进行融合，得到融合特征向量x_t,t＝0,1,...,n-1，n为融合特征向量的数量。

步骤S3：融合特征向量送入LSTM，得到隐藏量

将融合特征向量x_t依次输入到长短期记忆网络(LSTM，Long Short-Term Memory)中，计算出隐藏量h_t,t＝0,1,...,n-1。

本发明中，使用的循环神经网络基于LSTM设计而成，LSTM的原理可以由以下计算过程表示：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_n⊙tanh(c_t)

以上计算过程等号左侧由上到下分别为LSTM在时刻t时的输入门i_t、遗忘门f_t、输出门o_t、状态门g_t、状态量c_t和隐藏量h_t，W_xi、W_hi、b_i、W_xf、W_hf、b_f、W_xo、W_ho、b_o、W_xg、W_hg、b_g为每个门内待优化的权重和偏差。

本发明利用了LSTM的基本结构并加以改进，在状态量计算过程结束后对状态量进行批正则化(batchnomaliation)后才带入隐藏量进行计算。

步骤S4：将长短期记忆网络每一次计算出的隐藏量h_t,t＝0,1,...,n-1收集并经过全连接层运算(即为生成起到缩放作用的向量)生成向量fc_a，同时，CNN提取出的图像特征过另一个全连接层运算生成向量fc_b，两个生成的向量fc_a、fc_b点乘后，三元组损失函数进行优化，最终得到图像哈希码。

在本实施例中，三元组损失函数为混合三元组损失函数的计算过程如下：

L_tri＝max(0,m-d(I^-,I)+d(I⁺,I))

L＝L_tri+α×L_disc

L为混合三元组损失函数，L_disc为本实施例新提出的损失函数分量，L_tri为传统的三元组损失函数，m是一个超参数，一般0.5～1，d表示求距离，I为待优化的图像哈希码，I^-为数据集中和I不属于同一类别的图像哈希码，I⁺为数据集中和I属于同一类别的图像哈希码，下标k表示图像哈希码在第k位的分量(为一个数)，K为图像哈希码的位数，α为一个比例值，根据具体情况确定。

传统的三元组损失函数的计算优点在于在每一次训练中都同时考虑了与训练样本本身同一个类别和不同类别的样本空间(正例和反例)。然而该思路在本方法中尚且不够。在加入按位优化的分量后，实验结果表明检索能力较使用传统的三元组函数有了提升。

实验验证

通过数据集提供的网址检索原始图像,用于训练和测试的NUS-WIDE数据集的属性是从caffemodel中提取的，该caffemodel基于caffe框架训练，在VGG-16框架的修改版本基础上生成。该框架类似于VGG-16网络的大部分结构，并且使用全连接层和sigmoid激活层来替换VGG-16的最后一层，以从数据集中已经标记的图像边界框获得属性。我们选择训练由caffe训练的模型与COCO数据集的前10个最可能的属性，并继续从我们的训练数据集中提取权重最高的前10个属性，这意味着在LSTM训练步骤期间注意力量的维度α是b×10，其中b表示每个数据批的大小。结果显示，在500,000到600,000个迭代之后进行训练时，生成的属性具有最高的mAP，和准确度。在我们的实验中，我们将LSTM的输入和隐藏大小设置为512.如上所述，上下文向量的维度设置为10。我们在训练期间将批量大小设置为10，将混合三联体损失中的超参数α设置为0.1。我们使用Adam优化器来训练框架。利用GloVe向量来记录每个图像的属性，以便在注意模型中进行计算。在实验中，我们提供了一种不同类型的预处理器来启动LSTM和哈希码生成训练阶段。由于数据属性决定了生成的每个散列位的“聚焦”属性的偏好，因此图像的特征被加入初始化步骤。因此，将特征设置为RNN的初始单元状态和隐藏状态，其在初始化之前经过单层全连接层。

实验结果

以下为我们的方法与现在几个代表性哈希学习方法在两个用于目标检测的主流数据集COCO和NUS-WIDE上的比较。

NUS-WIDE数据集：

表1

COCO数据集

表2

为了证明哈希码中可解释的可用性，我们从属性语料库中随机选择一些属性，并从NUS-WIDE数据集中找到测试集中的相关图像。这些属性在测试集图像中很常见，但并不过多，在这种情况下，我们选择那些出现超过300次但少于500次的属性。过滤后有14属性满足条件，我们从中选择10个属性。之后，我们排除在整个测试集中具有10个以上属性的那些。之后有548张图片。然后我们使用每个属性作为这些图像的单个标签，并通过t-SNE算法可视化其哈希码的距离。结果显示在图4中。

从图4中可以看出，可视化之后某些属性之间存在强烈偏差，并且每个属性的数据点聚集在一个或多个位置。例如，属性0和4大多不同于其他属性。应该注意的是，每个属性通常不会在一个地方“聚集”，这是由属性的抽象级别引起的。例如，尽管4(特征‘图片’)是一种属性(用作可视化中的标签)，但由‘图片’组成的图像不同于相同的描述。高度抽象的属性旨在聚集在一起，但不是在一个位置。此外，某些属性可能出现在一个聚集中，这是因为数据集的内部连接。例如，属性7(建筑物)和8(黑色)经常出现在相似位置，这是由NUS-WIDE数据集中出现的黑色建筑物引起的。这种集中也反映在图像上。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于循环神经网络的图像哈希码生成方法，其特征在于，包括以下步骤：

(1)、利用卷积神经网络(CNN)提取图像的特征(图像特征)，采用多实例学习(MIL)提取图像的属性(图像属性)：在VGG-16网络上应用MIL机制，用一个改变VGG-16的fc8层的原始计算sigmoid激活层通过预测边界来计算边界框中(bounding box)的误差函数，边界框通过词袋(bag of words)模型训练语料库，使用MIL的组合OR版本，可以表示为：

(3)、将融合特征向量x_t依次输入到长短期记忆网络(LSTM，Long Short-Term Memory)中，计算出隐藏量h_t,t＝0,1,...,n-1；

2.根据权利要求1所述的图像哈希码生成方法，其特征在于，步骤(4)中，所述的三元组损失函数为混合三元组损失函数的计算过程如下：

L_tri＝max(0,m-d(I^-,I)+d(I⁺,I))

L＝L_tri+α×L_disc