CN110321957A

CN110321957A - 融合三元组损失和生成对抗网络的多标签图像检索方法

Info

Publication number: CN110321957A
Application number: CN201910605728.XA
Authority: CN
Inventors: 冯永; 黄嘉琪; 强保华; 尚家兴; 刘大江
Original assignee: Chongqing University; Guilin University of Electronic Technology
Current assignee: Chongqing Medical Data & Info Tech Co ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-11
Anticipated expiration: 2039-07-05
Also published as: CN110321957B

Abstract

本发明提供了一种融合三元组损失和生成对抗网络的多标签图像检索方法，其包括步骤：搭建深度学习框架，部署生成对抗网络模型；输入图像数据集至生成对抗网络模型中以获取多标签图像和三元组数据；基于多标签图像构建三元组损失函数；从图像数据集中选取第一图像对深度哈希编码网络进行训练以获取完成训练的深度哈希编码网络；从图像数据集中选取预设数量的第二图像，将第二图像输入完成训练的深度哈希编码网络以获取哈希向量数据库；将需要检索的第一图像输入完成训练的深度哈希编码网络以检索出与第一图像相似的第二图像。本发明通过使用生成对抗网络生成与数据集样本相似的多标签生成图片，扩充了训练数据量，提高了图像的检索速度和精度。

Description

融合三元组损失和生成对抗网络的多标签图像检索方法

技术领域

本发明涉及图像检索领域，尤其涉及一种融合三元组损失和生成对抗网络的多标签图像检索方法。

背景技术

随着互联网上图像和视频数据的爆炸式增长，大规模的图像检索任务近年来受到越来越多的关注。图像检索系统的主要任务是既要保证检索结果中的图像质量，也要保证检索的效率，同时还需要解决如何将海量信息进行高效储存，从而让用户拥有更好的体验。

有效地表示图像是大规模图像检索的一项重要任务。由于二进制哈希码的计算效率和存储效率，二进制哈希得到了广泛的关注。它的目标是将高维图像数据映射到同一个汉明空间中同时保持一定的相似性概念。使用二进制哈希码来对图像进行表示不仅便于计算机使用位运算来快速比较图像特征，从而高效的得出检索结果，同时也减少了计算机存储空间占用。近年来随着深度学习模型的兴起，利用深度哈希网络的哈希方法在图像检索中具有更好的效果。

由于图像数据具有较高复杂性，在进行检索任务时往往会遇上大量的多标签图像数据，如一张人抱着狗的图像，其标签信息不仅有“人”，还有“狗”这一标签。这无疑增加检索难度。传统的多标签图像检索方法一般基于有监督信息的哈希方法，使用数据集中的训练图像对模型进行训练，在训练过程中引入三元组损失来训练模型，每一组三元组包含一个基准图像、一个正例图像和一个反例图像，其中正例图像比反例图像更类似于基准图像，通过不断训练使得基准图像与正例图像在汉明空间中距离更近，与反例图像距离更远，以此来学习到图像之间的相似度关系。但是这一方法依赖于对数据集中能构成三元组数据的数量。首先，以数据集中所有数据构成三元组来进行训练是不可行的，过于特殊化的三元组数据反而会影响模型训练结果；其次，如何选择有益与模型训练的三元组数据也是这一方法的难点；最后，对于有监督学习方法而言，由于缺乏相似度信息，带有足够相似度标记信息的图像数据收集成本往往很高，所以传统方法使用大小有限的多标签图像数据集进行训练，这可能会与训练数据过度匹配，导致检索质量的大幅下降。

现有的使用生成对抗网络网络方法可以生成近似与真实图片的生成图片来达到扩充训练样本的目的，但仅限于生成只有一个标签的简单图片，而没有生成近似于真实的多标签图片，所以在基于三元组损失的多标签图像检索中缺乏足够的训练数据。

发明内容

本发明针对现有方式的缺点，提出一种融合三元组损失和生成对抗网络的多标签图像检索方法，用以解决现有技术存在的上述问题。

根据本发明的一个方面，提供了一种融合三元组损失和生成对抗网络的多标签图像检索方法，包括如下步骤：

搭建深度学习框架，部署生成对抗网络模型，所述生成对抗网络模型包括深度哈希编码网络；

输入图像数据集至所述生成对抗网络模型中以获取与所述图像数据集相似的多标签图像，及获取由所述多标签图像与图像数据集结合组成的三元组数据；

基于所述多标签图像构建三元组损失函数；

从图像数据集中选取预设数量的第一图像对所述深度哈希编码网络进行训练以获取完成训练的深度哈希编码网络；

从图像数据集中选取预设数量的第二图像，将所述第二图像输入完成训练的深度哈希编码网络以获取哈希向量数据库；

将需要检索的第一图像输入完成训练的深度哈希编码网络以检索出与所述第一图像相似的第二图像。

进一步地，所述搭建深度学习框架，部署生成对抗网络模型，是指：

搭建Caffe深度学习开源框架；

在所述Caffe深度学习开源框架中部署DCGAN模型；

采用预设的数据集对所述DCGAN模型进行预训练以获取训练好的DCGAN模型。

进一步地，所述生成对抗网络模型包括深度哈希编码网络，是指：

根据所述DCGAN模型的参数设计出深度哈希编码网络，所述深度哈希编码网络包括5个卷积层、3个全连接层；

将所述深度哈希编码网络添加至训练好的DCGAN模型中。

进一步地，所述输入图像数据集至所述生成对抗网络模型中以获取与所述图像数据集相似的多标签图像，及获取由所述多标签图像与图像数据集结合组成的三元组数据，是指：

将所述图像数据集中的图像输入至所述生成对抗网络模型中，并通过图像数据中的bounding box监督图像并确定其在bounding box中被激活的特征；

依次移除每个图像在bounding box中激活的特征，并生成相应的多标签图片：

k表示图像数据集中的标签个数，j表示被移除的特征映射个数；

将所述多标签图片与图像数据集中的图像组合成三元组样本数据，每一所述三元组样本数据包括为三张不同的图片，三张图片分别命名为固定图片(Anchor)a、正样本图片(Positive)p和负样本图片(Negative)n；

组成的三元组样本数据表示为：

x^a表示输入生成对抗网络模型中的图像数据集中的图像，表示根据所述图像生成的多标签图片，xⁿ表示在图像数据集中与该图像没有相同标签的图片。

进一步地，所述基于所述多标签图片构建三元组损失函数，是指：

L＝max{0,d_a,p-d_a,n+m}；

上述公式中，L表示三元组损失函数(Triplet Loss)，d_a,p表示的是Positive和Anchor之间的欧式距离度量，d_a,n表示Negative和Anchor之间的欧式距离度量；m表示的是在d_a,p与d_a,n之间的一个间隔值；

其中d_a,p与m分别为：

上述公式中，n表示哈希向量的位数，表示Anchor的哈希向量第i维度的值，表示Positive的哈希向量第i维度的值；

上述公式中，m是指相似度数值，其表示与Anchor有着不同相似度的图片，其在三元信息中的距离间隔也有所不同。

进一步地，所述从图像数据集中选取预设数量的第一图像对所述深度哈希编码网络进行训练以获取完成训练的深度哈希编码网络，是指：

根据三元组损失函数构建优化目标：min_θL，其中，θ为深度哈希编码网络中的参数集合，L为三元组损失函数；

使用随机梯度下降的方法对优化目标进行求解。

进一步地，所述使用随机梯度下降的方法对优化目标进行求解，是指对三元组损失函数L求其关于参数θ的梯度，再将参数向梯度的反方向更新，计算公式如下：

θ表示深度哈希编码网络中的任意一个参数，θ′表示更新后的参数，λ表示θ更新幅度，也称学习率，表示L关于θ的梯度。

进一步地，所述从图像数据集中选取预设数量的第二图像，将所述第二图像输入完成训练的深度哈希编码网络以获取哈希向量数据库，是指：

将图像数据库中的图像输入已训练完成的深度哈希编码网络，获得近似哈希向量集合Z＝{z₁,z₂,…z_n}，其中N为图像数据库中图像的个数，z_n为第N个图像的近似哈希向量；

将近似哈希向量集合Z经过sign函数，得到对应的二进制哈希向量数据库集合H＝{h₁,h₂，...h_N}，其中N为图像数据库中图像的个数，h_N表示第N个图像的二进制哈希向量。

进一步地，所述将需要检索的第一图像输入完成训练的深度哈希编码网络以检索出与所述第一图像相似的第二图像，是指：

将需检索的图像i输入训练完成的深度哈希编码网络中，从而得到相对应的近似哈希向量Z_i；

经过sign函数，得到与图像i相对应的哈希向量h_i；

将向量h_i和所述二进制哈希向量数据库集合中的所有哈希向量进行与运算，分别得到相对应的结果值；

将结果值按从大到小进行排列，结果值越大，表明参与与运算的哈希向量与h_i越相似，即表明该哈希向量对应的图像与图像i越相似。

与现有技术相比，本发明的有益效果是：

本发明通过使用生成对抗网络生成与数据集样本相似的多标签生成图片，扩充了训练数据量，提高了图像的检索速度和精度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例中的一种融合三元组损失和生成对抗网络的多标签图像检索方法的流程示意图；

图2为本发明实施例中的GAN模型结构示意图；

图3为本发明实施例中的DCGAN模型中的生成网络(Generator)结构示意图；

图4为本发明实施例中的DCGAN模型的判别网络(Discriminator)结构示意图；

图5为本发明实施例中的多标签图像检索模型的训练过程的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分例，实施而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

Caffe是一个清晰而高效的深度学习框架，是纯粹的C++/CUDA架构，支持命令行、Python和MATLAB接口；Caffe可以在CPU和GPU直接无缝切换，具有如下优势：

上手快：模型与相应优化都是以文本形式而非代码形式给出。Caffe给出了模型的定义、最优化设置以及预训练的权重，方便立即上手。

速度快：能够运行最棒的模型与海量的数据。Caffe与cuDNN结合使用，测试AlexNet模型，在K40上处理每张图片只需要1.17ms。

模块化：方便扩展到新的任务和设置上。可以使用Caffe提供的各层类型来定义自己的模型。

开放性：公开的代码和参考模型用于再现。

社区好：可以通过BSD-2参与开发与讨论。

DCGAN，全称Deep Convolutional Generative Adversarial Networks是生成对抗网络(Generative Adversarial Networks)的一种延伸，将卷积网络引入到生成式模型当中来做无监督的训练，利用卷积网络强大的特征提取能力来提高生成网络的学习效果。

DCGAN有以下特点：

1.在判别器模型中使用strided convolutions来替代空间池化(pooling)，而在生成器模型中使用fractional strided convolutions，即deconv，反卷积层。

2.除了生成器模型的输出层和判别器模型的输入层，在网络其它层上都使用了Batch Normalization，使用BN可以稳定学习，有助于处理初始化不良导致的训练问题。

3.去除了全连接层，而直接使用卷积层连接生成器和判别器的输入层以及输出层。

4.在生成器的输出层使用Tanh激活函数，而在其它层使用ReLU；在判别器上使用leaky ReLU。

实施例

如图1所示，提供了本发明一个实施例的一种融合三元组损失和生成对抗网络的多标签图像检索方法，包括步骤S1-S6。

步骤S1：搭建深度学习框架，部署生成对抗网络模型，生成对抗网络模型包括深度哈希编码网络。

S1-1、搭建Caffe深度学习开源框架，在Caffe深度学习开源框架中部署DCGAN模型。

具体的，步骤S1中，本发明搭建的是Caffe(Convolutional ArchitectureforFast Feature Embedding，快速特征嵌入的卷积体系结构)深度学习框架。本实施例采用DCGAN(Deep convolutional generativeadversarial networks)网络结构(例如可采用VGG16)作为图片生成模型。以该GAN模型原始损失函数作为其损失函数与优化目标：

公式(1)中X～P_data表示来自于原始数据集样本分布P_data的数据X，Z～P_z表示来自于输入噪声样本分布P_z的随机噪声数据Z，D(x；θ_d)表示对抗生成网络中判别器对真实图片x的判别结果θ_d表示判别器网络参数，(z；θ_g)表示生成网络通过随机噪声z生成的生成图片θ_g表示生成器中网络参数。

DCGAN网络结构设计要点：

1、在D网络中用strided卷积(stride>1)代替pooling层，在G网络中用fractional-strided卷积代替上采样层。

2、在G和D网络中使用BN层。

3、不要使用全连接层作为输出(LAPGAN中有)。

4、G网络中除了输出层(tanh)都使用ReLu激活函数。

5、D网络中都使用LeakyReLu激活函数。

S1-2、采用预设的数据集对DCGAN模型进行预训练以获取训练好的DCGAN模型。

GAN模型基本结构包括两个网络结构——生成模型Generator和判别模型Discriminator。G网络尽可能生成满足正样本分布的假样本，而D网络则尽可能辨别出真假样本，在这个博弈过程中2种网络的性能都越来越好。图2是GAN模型结构示意图。

本实施例中，本发明采用微软公开的COCO数据集和新加坡国立大学公开的NUS-WIDE数据集，数据集中的每一张图像对应若干个标签种类(例如标签种类为椅子、汽车、人)。本发明选取在数据集中出现次数(由多到少排列)排列前C位的标签种类以及拥有该标签种类的图像，用于构建图像数据库。

例如，本发明在COCO数据集和NUS-WIDE数据集中分别选取出现次数排列前20的标签种类及对应的图像和前30的标签种类及对应的图像，用于构建本发明的图像数据库。在图像数据库中随机在每一个类别下抽取500张图片作为训练集对DCGAN模型进行预训练。

图3是DCGAN模型中的生成网络(Generator)结构示意图。选用的DCGAN模型的生成网络包括4层转置卷积层，最后输出结果为一张三通道彩色生成图片。例如，DCGAN先利用全连接层将100维的z向量，变成4*4*1024的向量，然后reshape成4*4*1024的张量；然后使用ractionally-strided convolutions一步步采样到64*64的图片。

COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标，328,000影像和2,500,000个label。COCO数据集专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计。COCO数据集有91类，虽然比ImageNet和SUN类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力，对比PASCAL VOC，其有更多类和图像。

NUS-WIDE数据集是一个带有网络标签标注的图像数据集，包含来自网站的269648张图像，5018类不同的标签。

使用数据集数据对DCGAN网络模型进行预训练的具体训练细节包括：

1、预处理环节，将图像scale到tanh的[-1,1]。

2、mini-batch训练，batch size是128。

3、所有的参数初始化由(0,0.02)的正态分布中随即得到。

4、LeakyReLU的斜率是0.2。

5、虽然之前的GAN使用momentum来加速训练，DCGAN使用调好超参的Adamoptimizer。

6、learning rate＝0.0002。

7、将momentum参数beta从0.9降为0.5来防止震荡和不稳定。

生成对抗网络模型包括深度哈希编码网络，是指：根据DCGAN模型的参数设计出深度哈希编码网络，深度哈希编码网络包括5个卷积层、3个全连接层；将深度哈希编码网络添加至训练好的DCGAN模型中。

本实施例中，本发明在经典的AlexNet模型上进行优化，用于构建深度哈希编码网络，以提高图像的检索精度。本发明在AlexNet模型的基础上构建一个新的全连接层f_hash代替最后一个全连接层fc8，并将新的全连接层的神经元个数设置为64，以构建深度度哈希编码网络。

AlexNet主要使用到的新技术点如下：

(1)成功使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题。

(2)训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。

(3)在CNN中使用重叠的最大池化，提升了特征的丰富性。

(4)提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。

(5)使用CUDA加速深度卷积网络的训练，利用GPU强大的并行计算能力，处理神经网络训练时大量的矩阵运算，控制了通信的性能损耗。

(6)数据增强，随机地从256*256的原始图像中截取224*224大小的区域(以及水平翻转的镜像)，相当于增加了2*(256-224)^2＝2048倍的数据量，降低了泛化能力。

本实施例中，深度哈希编码网络以包含生成图片的三元组数据作为输入，使用tanh函数作为全连接层f_hash的激活函数，用于使全连接层f_hash中各个神经元输出的值在的值在[-1,1]之间。本发明将图像输入到深度哈希编码网络中，经过卷积层和全连接层的转换后，将得到近似哈希向量，近似哈希向量中每一个参数的取值为[-1,1]之间的任意小数。例如，本发明在构建的深度哈希编码网络中输入大小为227×227×3的图像，经过5个卷积层和3个全连接层处理，将输出一个64维的近似哈希向量。本发明可同时输入多个图像，从而得到多个近似哈希向量集合Z＝{z₁,z₂,…z_n}，Z_n表示第n张图像的近似哈希向量。

步骤S2：输入图像数据集至生成对抗网络模型中以获取与图像数据集相似的多标签图像，及获取由多标签图像与图像数据集结合组成的三元组数据。

S2-1、将图像数据集中的图像输入至生成对抗网络模型中，并通过图像数据中的bounding box监督图像并确定其在bounding box中被激活的特征。

本实施例中，在生成网络倒数第二层卷积层的输出中使用logistic回归进行判断区分输出图像是否含有特定的特征目标：

公式(2)为S2-1中使用的sigmoid函数，用于预测一个特征激活是否在boundingbox上，即在bounding box中被激活的特征值为正数，图片其他位置为负数。

S2-2、依次移除每个图像在bounding box中激活的特征，并生成相应的多标签图片。

本实施例中，通过S2-1中得到的结果，将所有权重大于0的特征映射对应的卷积核输出依次置为0，以此得到去除图片标签中目标物体的生成图片。表示为：

公式(3)中，k表示原始输入样本中的标签个数，j表示被移除的特征映射个数。例如，在包含人、狗、车三个标签的图片(k＝3)作为训练样本输入到生成对抗模型中，根据S2-1结果得到若干个权重大于0的特征映射。此时，当取bounding box为1时，将权重大于0的特征映射对应的卷积核输出依次置为0，得到与训练样本相似度为的生成图片。

S2-3、将多标签图片与图像数据集中的图像组合成三元组样本数据，每一三元组样本数据包括为三张不同的图片，三张图片分别命名为固定图片(Anchor)a、正样本图片(Positive)p和负样本图片(Negative)n。

组成的三元组表示为：

公式(4)中，x^a表示输入到生成对抗网络模型的样本图片，表示根据样本图片使用生成对抗网络模型生成的相似生成图片，xⁿ表示在数据集中与样本图片没有相同标签的图片。

图4为本发明公开的一种优选实施方式中使用的生成对抗网络DCGAN模型的判别网络(Discriminator)结构示意图，选用的判别器网络包含3层卷积层，1层全连接层以及最后一层通过softmax分类输出0或1来判断输入图片是真实图片或者是生成图片。

步骤S3：基于多标签图像构建三元组损失函数。

本实施例中，本发明从图片数据库与生成对抗网络模型中获得三元组图像数据，并将n数据输入构建的深度哈希编码网络，从而深度哈希编码网络将输出近似哈希向量Z_i；对近似哈希向量Z_i的每一个参数使用sign函数，得到由-1和1表示的图像的二进制哈希向量h_i，即可以表示为h_i＝sign(z_i)，h_i表示图像i的哈希向量Z_i表示图像i的近似哈希向量。本发明通过二进制哈希向量h_i之间的位运算快速对比，加快图像的检索速度，节约了时间成本。

其中，sign函数为：

损失函数为：

L＝max{0,d_a,p-d_a,n+m}#(6)

公式(6)中，L表示三元组损失函数(Triplet Loss)，d_a,p表示的是Positive和Anchor之间的欧式距离度量，d_a,n表示Negative和Anchor之间的欧式距离度量，m表示的是在d_a,p与d_a,n之间的一个间隔值。

其中d_a,p与m分别为：

在公式(7)中，n表示哈希向量的位数，表示Anchor图像哈希向量第i维度的值，表示图像Positive的哈希向量第i维度的值。

在公式(8)中，m直接取公式(3)中相似度数值，表示与Anchor样本有着不同相似度的图片，其在三元信息中的距离间隔也应该有所不同。

步骤S4：从图像数据集中选取预设数量的第一图像对深度哈希编码网络进行训练以获取完成训练的深度哈希编码网络。

S4-1：通过三元组损失函数构建优化目标。

本实施例中，本发明将利用构建的损失函数模型来构建优化目标：min_θL，表示求使得L的值最小时的θ中所有参数的取值，其中，θ为深度哈希编码网络中的参数集合，L为构建的损失函数模型。

S4-2：使用随机梯度下降的方法对优化目标进行求解。

本实施例中，采用随机梯度下降法对深度哈希编码网络优化目标求解，即对损失函数L求其关于参数θ的梯度，再将参数向梯度的反方向更新，计算公式如下：

公式(9)中，θ表示深度哈希编码网络中的任意一个参数，θ′表示更新后的参数，λ表示θ更新幅度，称为学习率，可设置为0.0001，L表示损失函数，表示L关于θ的梯度。

总体优化目标为：

本实施例中，首先根据公式(1)对DCGAN网络进行训练，然后通过公式(10)对整体网络模型进行训练。

步骤S5：从图像数据集中选取预设数量的第二图像，将第二图像输入完成训练的深度哈希编码网络以获取哈希向量数据库。

本实施例中，本发明将图像数据库中的图像输入已训练完成的深度哈希编码网络，将会得到近似哈希向量集合Z＝{z₁,z₂,…z_n}，其中N为图像数据库中图像的个数，z_n为第N个图像的近似哈希向量；将近似哈希向量集合Z经过sign函数，得到对应的二进制哈希向量数据库集合H＝{h₁,h₂，...h_N}，其中N为图像数据库中图像的个数，h_N表示第N个图像的二进制哈希向量。

步骤S6：将需检索图像的哈希向量与构建的哈希向量数据库进行比对，用于找出相似的图像。

本实施例中，本发明将需检索的图像i输入训练完成的深度哈希编码网络中，从而得到相对应的近似哈希向量Z_i；再经过sign函数，得到与图像i相对应的哈希向量h_i；将向量h_i和二进制哈希向量数据库中的所有哈希向量进行与运算，分别得到相对应的结果值；将结果值按从大到小进行排列，结果值越大，表明参与与运算的哈希向量与h_i越相似，即表明该哈希向量对应的图像与图像i越相似，从而保障了图像的检索精度。

例如，哈希向量h_i与图像哈希向量数据库中的第一哈希向量进行与运算，得到第一结果值；哈希向量h_i与图像哈希向量数据库中的第二哈希向量进行与运算，得到第二结果值；当第一结果值大于第二结果值，即表明第一哈希向量对应的图像与哈希向量h_i对应的图像更加相似，该过程有利于提高图像的检索精度。

图5为本发明公开的一种优选实施方式中本发明所提出的多标签图像检索模型的网络结构示意图。下面结合图5，说明本发明所提出的多标签图像检索模型的训练过程，具体包括如下步骤：

Sa、生成器以随机噪声数据作为输入，生成图片；判别器以生成器生成图片与数据集中真实图片作为输入，判别两者是否为真实图片，生成器通过判别器反馈结果不断训练生成尽可能与真实图片相同的生成图片。

Sb、在训练过程共逐步将生成器学习到的真实图片中标签物体特征值抹除，生成与真实图片有着不同相似度的生成图。

Sc、将不同相似度生成图片与数据集训练图片组合成拥有不同间隔值的三元组数据。

Sd、将三元组数据输入至深度哈希编码网络得到近似哈希向量集合。

在本申请所提供的实施例中，应该理解到，所揭露的方法、系统、装置、模块和/或单元，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种融合三元组损失和生成对抗网络的多标签图像检索方法，其特征在于，包括如下步骤：

基于所述多标签图像构建三元组损失函数；

2.根据权利要求1所述的多标签图像检索方法，其特征在于，所述搭建深度学习框架，部署生成对抗网络模型，是指：

搭建Caffe深度学习开源框架；

在所述Caffe深度学习开源框架中部署DCGAN模型；

3.根据权利要求1所述的多标签图像检索方法，其特征在于，所述生成对抗网络模型包括深度哈希编码网络，是指：

将所述深度哈希编码网络添加至训练好的DCGAN模型中。

4.根据权利要求1所述的多标签图像检索方法，其特征在于，所述输入图像数据集至所述生成对抗网络模型中以获取与所述图像数据集相似的多标签图像，及获取由所述多标签图像与图像数据集结合组成的三元组数据，是指：

组成的三元组样本数据表示为：

x^a表示输入到生成对抗网络模型中的图像数据集中的图像，表示根据所述图像生成的多标签图片，xⁿ表示在图像数据集中与该图像没有相同标签的图片。

5.根据权利要求1所述的多标签图像检索方法，其特征在于，所述基于所述多标签图片构建三元组损失函数，是指：

L＝max{0，d_a，p-d_a，n+m}；

上述公式中，L表示三元组损失函数(Triplet Loss)，d_a，p表示的是Positive和Anchor之间的欧式距离度量，d_a，n表示Negative和Anchor之间的欧式距离度量；m表示的是在d_a，p与d_a，n之间的一个间隔值；

其中d_a，p与m分别为：

6.根据权利要求1所述的多标签图像检索方法，其特征在于，所述从图像数据集中选取预设数量的第一图像对所述深度哈希编码网络进行训练以获取完成训练的深度哈希编码网络，是指：

使用随机梯度下降的方法对优化目标进行求解。

7.根据权利要求6所述的多标签图像检索方法，其特征在于，所述使用随机梯度下降的方法对优化目标进行求解，是指对三元组损失函数L求其关于参数θ的梯度，再将参数向梯度的反方向更新，计算公式如下：

8.根据权利要求1所述的多标签图像检索方法，其特征在于，所述从图像数据集中选取预设数量的第二图像，将所述第二图像输入完成训练的深度哈希编码网络以获取哈希向量数据库，是指：

将图像数据库中的图像输入已训练完成的深度哈希编码网络，获得近似哈希向量集合Z＝{z₁，z₂，...z_n}，其中N为图像数据库中图像的个数，z_n为第N个图像的近似哈希向量；

将近似哈希向量集合Z经过sign函数，得到对应的二进制哈希向量数据库集合H＝{h₁，h₂，...h_N}，其中N为图像数据库中图像的个数，h_N表示第N个图像的二进制哈希向量。

9.根据权利要求8所述的多标签图像检索方法，其特征在于，所述将需要检索的第一图像输入完成训练的深度哈希编码网络以检索出与所述第一图像相似的第二图像，是指：

经过sign函数，得到与图像i相对应的哈希向量h_i；