CN111209415A

CN111209415A - 基于大批量训练的图文跨模态哈希检索方法

Info

Publication number: CN111209415A
Application number: CN202010027063.1A
Authority: CN
Inventors: 张学旺; 周印; 林金朝; 叶财金; 黄胜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-05-29
Anticipated expiration: 2040-01-10
Also published as: CN111209415B

Abstract

本发明涉及一种基于大批量训练的图文跨模态哈希检索方法，属于跨模态检索领域，用于解决现有基于深度学习的跨模态哈希检索方法，特别是基于三元组的深度跨模态哈希方法的小批量训练时间长，获取样本数量有限，梯度不够好而影响检索性能的问题。包括以下步骤：对图像和文本数据进行预处理；哈希码映射；建立目标损失函数L；通过大批量方式输入三元组数据训练模型；使用训练好的模型进行跨模态哈希检索。本发明提供的方案采用大批量方式输入三元组数据进行训练，加快了每轮训练的时间；由于每次更新参数时具有更多的训练样本，所以能够获得更好的梯度，对权重使用了正交正则化，在梯度传递时能保持梯度，使得模型训练更加稳定，提高检索准确率。

Description

基于大批量训练的图文跨模态哈希检索方法

技术领域

本发明属于跨模态检索领域，涉及一种基于大批量训练的图文跨模态哈希检索方法。

背景技术

随着互联网和多媒体技术的快速发展，产生了大量不同模态的多媒体数据，比如图像、文本、视频等。不同模态的数据可以用于描述同一个事物，多视角地展现信息，可以帮助用户获得该事物的综合理解。随着不同模态的多媒体数据的快速增长，跨模态检索成为了研究热点。跨模态检索的关键在于对不同模态的多媒体数据的关系进行建模，难点主要是不同模态的多媒体数据存在异构性鸿沟，无法进行直接比较。

跨模态哈希方法可以有效的为不同模态的数据建立比较关系:跨模态哈希方法将不同模态的数据映射到共同的汉明空间中，每个数据都被转换成一个固定长度的二进制哈希码，通过将哈希码按位异或运算，可以得到数据间的汉明距离，进而得到数据间的相似性。

跨模态哈希是跨模态检索最常见的方法之一，由于哈希码按位异或运算计算快速，相比直接计算各数据的高维特征之间的距离，大大节约了计算时间，可以达到快速检索的目的；而且哈希码占用空间较少。因此，哈希码的这种快速计算和低存储性使得跨模态哈希方法成为了跨模态检索领域的研究热点，研究跨模态哈希对于跨模态检索具有非常重要的意义。

跨模态哈希分为无监督跨模态哈希，有监督跨模态哈希和半监督跨模态哈希。无监督跨模态哈希主要利用不同模态数据本身的特征和数据结构进行学习；有监督跨模态哈希利用人工标注的信息进行有监督学习，能获得比无监督学习更好的效果；而半监督跨模态哈希是先利用部分标记数据进行有监督训练，然后再利用无标记数据进行无监督训练。深度学习的快速发展，越来越多的研究者开始利用深度学习构建跨模态哈希方法。

但是这些基于深度学习的跨模态哈希大部分都采用小批量训练方式(比如：Batchsize为20，64，128)，每轮训练时间较长。特别是基于三元组的深度跨模态哈希训练时采用三元组(查询样本，正样本，负样本)方式输入数据，虽然三元组方式在获取数据间的相似性更具有灵活性，但是三元组方式会扩大训练数据的数量，导致训练时长增加。此外，小批量训练因获取样本数量有限，每次更新参数时不能够获得更好梯度，使得性能有所影响。

发明内容

有鉴于此，本发明的目的在于提供一种基于大批量训练的图文跨模态哈希检索方法，用于解决现有基于深度学习的跨模态哈希检索方法，特别是基于三元组的深度跨模态哈希方法的小批量训练时间长，获取样本数量有限，梯度不够好而影响检索性能的问题。

为达到上述目的，本发明提供如下技术方案：

一种基于大批量训练的图文跨模态哈希检索方法，包括以下步骤：

S1：对图像和文本数据进行预处理：

将图像数据和文本数据分别分为训练数据和查询数据，然后利用VGG-19深度学习模型提取图像的4096维的特征，将文本用词袋(Bag-of-Words，BoW)模型表示成向量；

S2：哈希码映射：

图像特征和文本向量分别经过两层全连接层，得到图像和文本的低维特征，再经过阈值函数生成哈希码；

S3：建立目标损失函数L：

由于图像检索文本任务和文本检索图像任务是对称的，所以以文本检索图像任务为例介绍目标损失函数L。目标损失函数L包括三部分：1)图像特征F^I和文本特征F^T之间的距离，用基于边界的合页损失函数(a margin-based hinge loss function)和sigmoid交叉熵来度量，得到损失函数L₁和L₂；2)度量低维特征F和哈希码H之间的距离，得到损失函数L₃；3)权重W和偏置项B的正则化项，得到损失函数L₄；将四个损失函数相加，得到目标损失函数L：

minL＝L₁+λL₂+γL₃+L₄

其中λ和γ表示可调节的超参数；

S4：通过大批量方式输入三元组数据训练模型：

批量大小设为8192，采用三元组(查询样本，正样本，负样本)方式输入训练数据，通过优化目标损失函数L训练模型；

S5：使用训练好的模型进行跨模态哈希检索：

将图像数据和文本数据输入训练好的模型，得到对应的哈希码，之后将哈希码通过二进制异或运算得到汉明距离，然后根据汉明距离大小对图像数据或者文本数据排序，取排在前面的数据作为检索结果。

进一步，步骤S2具体包括：

图像特征和文本向量分别经过两层全连接层，得到图像和文本的低维特征，第一层全连接层的激活函数是tanh函数，第二层全连接层的激活函数是sigmoid函数，整个过程表示如下：

其中，W为权重，B为偏置项，c₁表示第一层全连接层，c₂表示第二层全连接层，f表示图像的VGG-19特征或者文本的BoW向量，F为得到的数据的低维特征；将得到的低维特征F经过阈值函数生成哈希码H，阈值函数如下：

进一步，步骤S3中，所述图像特征F^I和文本特征F^T之间的距离：

其中D表示距离，I⁺和I^-分别表示与查询文本q_T同语义和不同语义的图像，

表示I⁺与q_T之间的距离，

表示I^-与q_T之间的距离，||·||_Frobenius表示矩阵的Frobenius范数；使用一个基于边界的合页损失函数(a margin-based hinge loss function)来度量，如下式所示：

其中β是

和

的边界值，是一个可调节的超参数；在训练优化过程中，目的是降低

的值，同时增加

的值，即

越小，

越大越好；因此将该过程转化为二分类问题，使用sigmoid交叉熵函数来作为损失函数，得到如下损失：

进一步，步骤S3中，所述低维特征F和哈希码H之间的距离：

哈希码是离散的，当数据的实值特征F在被转换为哈希码H时，会发生信息损失：

其中

表示查询文本q_T的低维特征F_T与其对应的哈希码H_T之间的距离；

表示图像I的低维特征F_I与其对应的哈希码H_I之间的距离。

进一步，步骤S3中，所述权重W和偏置项B的正则化项：

大批量训练在训练模型时不稳定，为了降低其负面影响，引入正交正则化来作为权重W的惩罚项；对于偏置项B，使用L2正则化项作为惩罚项，得到损失项如下：

其中W^transpose是权重矩阵W的转置，I_indentity表示单位矩阵，B表示偏置项，θ和ω是超参数。

进一步，步骤S4具体包括：

由于有图像检索文本和文本检索图像两种检索任务，因此将分别对模型进行训练，具体如下过程：

S41：首先初始化权重W和偏置项B，设定批量大小为8192和训练轮次为n；

S42：为每个查询文本q_T随机取出m个同语义的图像I⁺和不同语义的图像I^-组成三元组(q_T,I⁺,I^-)，作为训练数据，对网络进行训练，并通过目标函数L更新权重W和偏置项B；

为每个查询图像q_I随机取出m个同语义的文本T⁺和不同语义的文本T^-组成三元组(q_I,T⁺,T^-)，作为训练数据，对网络进行训练，并通过目标函数L更新权重W和偏置项B。

本发明的有益效果在于：

本发明提出了一种基于大批量训练的图文跨模态哈希检索方法，批量大小设为8192，加快了训练速度，采用大批量训练方式，每次更新参数时能获得更多的样本，能获得更好的梯度；对权重使用正交正则化项，在梯度传递时能保证梯度，避免梯度消失或者爆炸，使得大批量训练的模型更加稳定，训练的模型明显提高了跨模态哈希检索的精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于大批量训练的图文跨模态哈希检索方法的模型框架结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

步骤1)对图像和文本数据进行预处理：

将图像数据和文本数据分别分为训练数据和查询数据，更具体的：本发明在两个数据集上进行了实验：Wikipedia和MIRFlickr数据集，其分割方式如下表1所示：

表1两个基准数据集的统计信息

然后利用Keras程序预训练好的VGG-19深度学习模型提取图像的4096维的特征，将文本用词袋(Bag-of-Words，BoW)模型表示成向量：对于Wikipedia数据集，文本被表示成1000维向量，对于MIRFlickr数据集，文本被表示成1386维向量。

步骤2)哈希码映射：

如图1所示，图像特征和文本向量分别经过两层全连接层，得到图像和文本的低维特征，第一层全连接层的激活函数是tanh函数，而第二层全连接层的激活函数是sigmoid函数。整个过程可以表示如下：

其中，W为权重，B为偏置项,c₁表示第一层全连接层，c₂表示第二层全连接层。f表示图像的VGG-19特征或者文本的BoW向量，F为得到的数据的低维特征。将得到的低维特征F经过阈值函数生成哈希码H，阈值函数如下：

步骤3)建立目标损失函数L：

由于图像检索文本任务和文本检索图像任务是对称的，所以以文本检索图像任务为例介绍目标损失函数L，目标损失函数主要分成三部分：(1)图像特征F^I和文本特征F^T之间的距离；(2)低维特征F和哈希码H之间的距离；(3)权重W和偏置项B的正则化项。

(1)图像特征F^I和文本特征F^T之间的距离：

表示I⁺与q_T之间的距离，

表示I^-与q_T之间的距离，||·||_Frobenius表示矩阵的Frobenius范数。我们使用一个基于边界的合页损失函数(a margin-based hinge loss function)来度量，如下式所示：

其中β是

和

的边界值，是一个可调节的超参数。在训练优化过程中，目的是降低

的值，同时增加

的值，即

越小，

越大越好。因此，可以将该过程转化为二分类问题，可以使用sigmoid交叉熵函数来作为损失函数，得到如下损失：

(2)低维特征F和哈希码H之间的距离：

其中

表示查询文本q_T的低维特征F_T与其对应的哈希码H_T之间的距离。

表示图像I的低维特征F_I与其对应的哈希码H_I之间的距离。

(3)权重W和偏置项B的正则化项：

大批量训练在训练模型时不稳定，为了降低其负面影响，我们引入了正交正则化来作为权重W的惩罚项。对于偏置项B，我们仍然使用L2正则化项作为惩罚项，可以得到损失项如下：

其中W^transpose是权重矩阵W的转置，I_indentity表示单位矩阵，B表示偏置项。而θ和ω是超参数。将L₁,L₂,L₃和L₄结合在一起，就可以得到总的目标函数L：

minL＝L₁+λL₂+γL₃+L₄

其中λ和γ表示可以调节的超参数。

步骤4)通过大批量方式输入三元组数据训练模型：

步骤41)首先初始化权重W和偏置项B，设定批量大小为8192和训练轮次为n；

步骤42)为每个查询文本q_T随机取出m个同语义的图像I⁺和不同语义的图像I^-组成三元组(q_T,I⁺,I^-)，作为训练数据，对网络进行训练，并通过目标函数L更新权重W和偏置项B。

步骤43)为每个查询图像q_I随机取出m个同语义的文本T⁺和不同语义的文本T^-组成三元组(q_I,T⁺,T^-)，作为训练数据，对网络进行训练，并通过目标函数L更新权重W和偏置项B。

步骤5)使用训练好的模型进行跨模态哈希检索：

将图像数据和文本数据输入训练好的模型，得到对应的哈希码。将查询集中的数据的哈希码与检索集中的数据的哈希码通过二进制异或运算得到汉明距离，然后根据汉明距离大小对检索集中的图像数据(对于文本检索图像的任务)或者文本数据(对于图像检索文本的任务)排序，取排在前面的数据作为检索结果。

为了验证本发明提出的一种基于大批量训练的图文跨模态哈希检索方法的有效性，进行了对比实验。我们与现有的三个比较先进的基于深度学习的跨模态哈希方法进行了对比：半监督跨模态哈希(Semi-supervised Cross-Modal Hashing by GenerativeAdversarial Network，SCH-GAN)，无监督生成对抗跨模态哈希(Unsupervised GenerativeAdversarial Cross-modal Hashing，UGACH)和深度跨模态哈希(Deep Cross-modalHashing,DCMH)。另外还与两个非深度学习方法进行了对比：语义保留哈希(Semantics-preserving Hashing，SePH)和广义语义保留哈希(Generalized Semantic PreservingHashing，GSPH)。

对于本发明，将各个超参数设置为：β＝10，λ＝0.01，γ＝0.01，θ＝0.0001和ω＝0.01。批量大小设为8192，在Wikipedia数据集上的学习率为0.1，在MIRFlickr数据集的学习率为0.016。

所有实验都在NVIDIA GTX 1080Ti图形卡,Intel(R)Xeon(R)E5-2620 v4 2.10GHzCPU,128GB内存的服务器上运行得到。

该实验所使用的评价指标为平均精度均值(Mean Average Precision，MAP)。

在实验中，哈希码长度分别取16位，32位和64位。在MIRFlickr数据集上的实验结果如表2：

表2在MIRFlickr数据集上的MAP

在Wikipedia数据集上的实验结果如表3所示：

表3在Wikipedia数据集上的MAP

从上述结果可以看出，本发明除16位哈希码没有获得最好结果外，在32位和64位哈希码获得了最好结果。这主要是因为本发明采用大批量方式进行训练，能够获得更好的梯度，同时采用了正交正则化，使得模型训练更加稳定，获得了更好的性能。而16位哈希码可能对于本发明不是足够长，不能充分表达数据特征，因此只能获得较好的MAP。

本发明还与SCH-GAN和UGACH方法进行了每轮训练时间的对比实验。SCH-GAN和UGACH都是采用三元组方式输入数据进行训练，分为判别模型(用dis表示)和生成模型(用gen表示)两个部分，需要对这两个部分分别训练，对比结果如表4所示：

表4在Wikipedia和MIRFlicker数据集每轮训练时间对比

从表4可以看出，本发明每轮所需时间最少，这是因为本发明采用大批量方式输入三元组数据进行训练，可以加快训练速度，降低了每轮训练时间。从以上实验可以看出，本发明提出的跨模态哈希方法优于其他跨模态哈希方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。