CN113064959B

CN113064959B - 一种基于深度自监督排序哈希的跨模态检索方法

Info

Publication number: CN113064959B
Application number: CN202010001846.2A
Authority: CN
Inventors: 荆晓远; 钱金星; 吴飞; 董西伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2022-09-23
Anticipated expiration: 2040-01-02
Also published as: CN113064959A

Abstract

本发明提出了一种基于深度自监督排序哈希的跨模态检索方法。包括以下步骤：首先学习一个标签网络用来保留语义特征与其对应的哈希码之间的相似关系。该标签网络可以有效地利用多标签信息来桥接不同模态之间的语义相关性。然后分别对图像和文本设计一个端到端的特征学习网络，进行特征学习。一方面，可以保持标签网络和图像文本网络之间的语义相关性。另一方面，可以使学习到的特征与特定的跨模态检索任务完美兼容。为了解决使用二进制分区函数编码对分区阈值十分敏感的问题，采用基于排序的编码函数。每个维度的相对排序不变，哈希编码的值就不变，这使得哈希函数不会对某些阈值非常敏感，进而获取的哈希编码鲁棒性更好。

Description

一种基于深度自监督排序哈希的跨模态检索方法

技术领域

本发明涉及模式识别，具体涉及一种基于深度自监督排序哈希的跨模态检索方法。

背景技术

由于各种搜索引擎和社交媒体上的多媒体数据爆炸式增长，近年来跨模态检索已成为一个引人注目的话题。跨模态检索旨在用来自一个模态(例如文本)的数据来搜索另一种模态(例如图像)中的语义上相似的实例。由于来自不同模态的数据通常具有不可比较的特征表示和分布，因此有必要将它们映射到一个公共的特征空间。为了满足实际应用中低存储成本和高查询速度的要求，哈希在跨模态检索领域备受关注。它将高维多模态数据映射到公共的汉明空间，得到哈希码后仅通过异或运算就可以计算多模态数据之间的相似度来检索，相比于非哈希检索方法，哈希方法的检索速度要快得多。

目前跨模态检索已经有了很大的发展，很多浅层跨模态哈希检索方法被提出，这些浅层方法都是基于手工制作的特征进行哈希学习，它们的一个共同缺点是手工特征制作过程和哈希学习过程是完全独立的，进而手工制作的特征可能与哈希学习的过程无法完全兼容。导致检索性能不理想的另一个原因是大多数现有的深度哈希跨模态检索方法丢弃数据的完整标签，只使用跨模态相似性矩阵进行有监督学习，这样学习到的哈希编码缺少语义信息，不够准确。另外，大多数跨模态检索方法使用二进制空间分区函数进行编码，这种编码函数会产生较大的编码误差，也会导致检索性能变差。

发明内容

发明目的：针对现有技术存在的问题，提出一种基于深度自监督排序哈希的跨模态检索方法，是一种端到端的深度跨模态哈希方法，使用实例的标签信息学习实例的语义特征，并用学习到的语义特征监督图像和文本的特征学习。编码函数使用基于排序的编码函数来的得到鲁棒性更好的哈希码。。

技术方案：一种基于深度自监督排序哈希的跨模态检索方法，包括以下步骤：

(1)获取训练数据集，其中每个样本都包括文本、图像和标签，使用的基准多模态数据集分别是Wiki,MIRFlickr和NUS-WIDE；

(2)利用标签信息训练标签网络；

(3)通过标签网络的语义特征指导图像网络进行特征学习；

(4)通过标签网络的语义特征指导文本网络进行特征学习；

(5)根据设定的损失函数训练标签网络、图像网络和文本网络；

(6)使用基于排序的哈希函数进行编码。

进一步地，步骤(2)所述的利用标签信息训练标签网络的具体流程是：

(2.1)利用一个4层的全连接网络，该神经网络的输入层是实例的标签，第二层具有4096个节点，使用Relu激活函数并进行局部归一化；第三层具有512个节点，然后用Relu激活函数；第四层具有K*L+c个节点，K与编码函数有关，L为哈希码的长度，c为标签的维度；

(2.2)第i个实例，使用三元组(v_i,t_i,l_i)来表示，l_i作为v_i和t_i的自监督语义信息。在标签网络中，语义特征通过非线性变化投影为对应的哈希码。标签网络的损失函数为：

其中，θ^l是标签网络的参数，

是标签网络学习到的语义特征，H^l是标签网络预测出的哈希码特征，

是标签网络预测出的标签。α，β和γ是超参。

进一步地，步骤(3)中通过标签网络的语义特征指导图像网络进行特征学习的具体流程是：

(3.1)利用一个9层的神经网络，其中前5层是卷积神经网络，分别是第一层用64个大小为11*11的卷积核，步长是4，0边距，然后用Relu激活函数，之后进行局部归一化，最后使用传统的2*2大小的模板做max pooling。第二层以第一层的输出作为输入，用256个5*5大小的卷积核，步长是1，padding是2，同样用Relu激活函数，之后局部归一化，最后2*2大小的max pooling；第三层、第四层和第五层相互连接，没有中间的池化层或归一化层；第三和四层，用256个3*3的卷积核，步长是1，padding是1，使用Relu激活函数；第五层用256个3*3的卷积核，步长是1，padding是1。使用2*2大小的max pooling，得到了尺寸为6×6×256的输出特征。

(3.2)第6层和第7层都是全连接层，有4096个神经元，激活函数用Relu；第8层和第9层也是全连接层，分别具有512、K*L+c个节点。图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系，图像网络的损失函数为：

其中，θ^v是标签网络的参数，

F^v是图像网络学习到的特征，H^v是图像网络预测出的哈希码特征，

是图像网络预测出的标签。α，β和γ是超参。

进一步地，步骤(4)中通过标签网络的语义特征指导文本网络进行特征学习的具体流程是：

(4.1)采用一种多尺度融合模型，该模型由多个平均池化层和一个1×1的卷积层组成。多个平均池化层用于提取文本数据的多个比例特征；

(4.2)使用1×1卷积层融合多个特征。在多尺度融合模型后连接一个卷积层，该卷积层将多尺度融合模型的输出投影为4096×1的文本特征；

(4.3)最后连接两层全连接网络，分别具有512、K*L+c个节点；文本网络的损失函数为：

其中，θ^t是标签网络的参数，

F^t是文本网络学习到的特征，H^t是文本网络预测出的哈希码特征，

是文本网络预测出的标签。α，β和γ是超参。

进一步地，步骤(5)中所述损失函数训练还包括：

(5.1)初始化三个网络的参数θ^l，θ^v和θ^t，通过前向传播计算标签、图像和文本的特征以及三个网络预测的标签；

(5.2)固定图像和文本网络的参数θ^v和θ^t使用反向传播算法更新标签网络的参数θ^l；同样固定标签和文本网络的参数θ^l和θ^t使用反向传播算法更新图像网络的参数θ^v；

(5.3)固定标签和图像网络的参数θ^l和θ^v使用反向传播算法更新文本网络的参数θ^t；反复训练三个网络，直到三个网络的误差收敛。

进一步地，步骤(6)中所述的基于排序的编码函数用特征之间的相对排序进行编码，即利用从网络中学习到的K维特征之间的排序顺序进行编码；编码函数定义为：

其中，

图像和网络的输出经过该该编码函数后变为长度为L的哈希码。该编码函数用图像网络和文本网络学习到的K维特征的最大值的索引作为码字。这种编码方式基于特征向量的相对排序。

有益效果：本发明与现有技术相比，其显著优点是：(1)用学习到的语义特征监督图像和文本的特征学下；(2)使用基于排序的编码函数来得到鲁棒性更好的哈希码。

附图说明

图1本发明方法的流程框图。

具体实施方式：

下面结合附图和具体实施对本发明的技术方案做进一步的详细说明：本发明提供一种基于深度自监督排序哈希的跨模态检索算法，具体流程如图1所示。

步骤(1)：获取训练数据集，其中每个样本都包括文本、图像和标签，这里我们用的是三个广泛使用的基准多模态数据集，分别是Wiki,MIRFlickr和NUS-WIDE。

步骤(2)：利用标签信息训练标签网络。具体方法是：

标签网络的目的在于学习实例的语义特征用以指导图像和文本网络的特征学习。语义特征学习：利用一个4层的全连接网络，该神经网络的输入层是实例的标签，第二层具有4096个节点，使用Relu激活函数并进行局部归一化。第三层具有512个节点，然后用Relu激活函数。第四层具有K*L+c个节点，K与编码函数有关，L为哈希码的长度，c为标签的维度。对第i个实例，使用三元组(v_i,t_i,l_i)来表示，l_i作为v_i和t_i的自监督语义信息。在标签网络中，语义特征通过非线性变化投影为对应的哈希码。标签网络的目的是要保留语义特征及其对应哈希码之间的相似关系，因此，标签网络的损失函数为：

其中，θ^l是标签网络的参数，

F^l是标签网络学习到的语义特征，H^l是标签网络预测出的哈希码特征，

是标签网络预测出的标签。α，β和γ是超参。

步骤(3)：通过标签网络的语义特征指导图像网络进行特征学习。具体方法是：

利用一个9层的神经网络，其中前5层是卷积神经网络(CNN)，分别是第一层用64个大小为11*11的卷积核，步长是4，0边距(padding size)，然后用Relu激活函数，之后进行局部归一化，最后使用传统的2*2大小的模板做max pooling。第二层以第一层的输出作为输入，用256个5*5大小的卷积核，步长是1，padding是2，同样用Relu激活函数，之后局部归一化，最后2*2大小的max pooling。第三层、第四层和第五层相互连接，没有中间的池化层或归一化层。第三和四层，用256个3*3的卷积核，步长是1，padding是1，使用Relu激活函数。第五层用256个3*3的卷积核，步长是1，padding是1。最大池化层跟随第五层卷积的输出，得到了尺寸为6×6×256的输出特征。第6层和第7层都是全连接层，有4096个神经元，激活函数用Relu。

第8层和第9层也是全连接层，分别具有512、K*L+c个节点。图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系，因此，图像网络的损失函数为：

其中，θ^v是标签网络的参数，

是图像网络预测出的标签。α，β和γ是超参。

步骤(4)：通过标签网络的语义特征指导文本网络进行特征学习。具体方法是：

由于一个实例的文本模态通常由词袋向量(BoW)表示，而词袋向量容易导致特征稀疏，所以我们采用了一种多尺度融合模型，该模型由多个平均池化层和一个1×1的卷积层组成。多个平均池化层用于提取文本数据的多个比例特征，然后使用1×1卷积层融合多个特征。在多尺度融合模型后连接一个卷积层，该卷积层将多尺度融合模型的输出投影为4096×1的文本特征。最后连接两层全连接网络，分别具有512、K*L+c个节点。文本网络的目的是在语义特征的指导下学习文本特征及保持对应哈希码之间的相似关系，因此，文本网络的损失函数为：

其中，θ^t是标签网络的参数，

是文本网络预测出的标签。α，β和γ是超参。

步骤(5)：根据设定的损失函数训练标签网络、图像网络和文本网络。

具体方法是：

损失函数训练标签网络、图像网络和文本网络，这里我们采用交替学习策略来学习三个网络的参数。具体来说，首先初始化三个网络的参数θ^l，θ^v

和θ^t，通过前向传播计算标签、图像和文本的特征以及三个网络预测的标签。

然后固定图像和文本网络的参数θ^v和θ^t使用反向传播算法更新标签网络的参数θ^l。同理，固定标签和文本网络的参数θ^l和θ^t使用反向传播算法更新图像网络的参数θ^v。最后，固定标签和图像网络的参数θ^l和θ^v使用反向传播算法更新文本网络的参数θ^t。按照这样的策略反复训练三个网络，直到三个网络的误差收敛。

步骤(6)：使用基于排序的哈希函数进行编码。具体方法是：

大多数哈希跨模态检索方法都选择二进制空间分区函数进行编码，但是二进制空间分区函数都对分区的阈值十分敏感。我们注意到特征之间的排序顺序是十分稳定的，我们可以借助这一特点，用特征之间的相对排序进行编码，而不使用精确的数值，即利用从网络中学习到的K维特征之间的排序顺序进行编码。编码函数定义为：

其中，

图像和网络的输出经过该该编码函数后变为长度为L的哈希码。该编码函数用图像网络和文本网络学习到的K维特征的最大值的索引作为码字。这种编码方式基于特征向量的相对排序而不是精确的数值，只要特征的相对排序不变，哈希编码的值就不变，这使得哈希函数不会对某些阈值非常敏感，鲁棒性更好。

为验证本算法是否有很好的优越性，我们将提出的SSDRH方法与最近出版的几种最先进的跨模态哈希方法进行了比较，包括2个浅层无监督的哈希跨模态检索方法(CMFH，LSSH)、2个浅层有监督的哈希跨模态检索方法(CMSSH，SePH)和2个深度哈希跨模态方法(CMNNH，DCMH)。分别在Wiki,MIRFlickr-25k和NUS-WIDE三个数据集上针对跨模态检索中的两种典型任务进行了实验，其中I->T表示图像检索文本，T->I表示文本检索图像。

实验结果：

表1统计了在Wiki数据集上各跨模态检索方法的mAP值；

表2统计了在MIRFlickr-25K数据集上各跨模态检索方法的mAP值；

表3统计了NUS-WIDE数据集上各跨模态检索方法的mAP值。

表1 在Wiki数据集上各方法的mAP

表2 在MIRFlikr-25K数据集上各方法的mAP

表3 在NUS-WIDE数据集上各方法的mAP

从表1、表2和表3的实验结果可以看出本方法的检索性能明显优于其他六种基线方法，尤其是与CMFH、LSSH、CMSSH、SePH和CMNNH这五种使用手工制作特征的方法相比，SSDRH检索效果更为显著。我们注意到浅层跨模态哈希方法中有监督方法的检索性能远远优于无监督方法，除了CMNNH，深度跨模态哈希方法的检索性能都优于浅层跨模态哈希方法。CMNNH虽然使用深度学习的方法，但它的检索效果与SePH基本持平甚至有所下降，这是由于CMNNH使用的也是手工制作的特征进行哈希学习。DCMH和本方法都使用原始图像进行哈希学习，它们的检索性能比使用手工制作特征的方法都有明显提升，使用原始图像和使用手工制作特征的对比实验在DCMH中已经进行过，结果也验证使用原始图像进行哈希学习检索性能更好。

Claims

1.一种基于深度自监督排序哈希的跨模态检索方法，其特点在于，包括以下步骤：

(2)利用标签信息训练标签网络；

(2.1)利用一个4层的全连接网络，该全连接网络的输入层是实例的标签，第二层具有4096个节点，使用Relu激活函数并进行局部归一化；第三层具有512个节点，然后用Relu激活函数；第四层具有K*L+c个节点，K与编码函数有关，L为哈希码的长度，c为标签的维度；

(2.2)第i个实例，使用三元组(v_i,t_i,l_i)来表示，l_i作为v_i和t_i的自监督语义信息，在标签网络中，语义特征通过非线性变化投影为对应的哈希码，标签网络的损失函数为：

其中，θ^l是标签网络的参数，

是标签网络预测出的标签，α，β和γ是超参；

(3)通过标签网络的语义特征指导图像网络进行特征学习；

(3.1)利用一个9层的神经网络，其中前5层是卷积神经网络，分别是第一层用64个大小为11*11的卷积核，步长是4，0边距，然后用Relu激活函数，之后进行局部归一化，最后使用传统的2*2大小的模板做max pooling，第二层以第一层的输出作为输入，用256个5*5大小的卷积核，步长是1，padding是2，同样用Relu激活函数，之后局部归一化，最后2*2大小的max pooling；第三层、第四层和第五层相互连接，没有中间的池化层或归一化层；第三和四层，用256个3*3的卷积核，步长是1，padding是1，使用Relu激活函数；第五层用256个3*3的卷积核，步长是1，padding是1；使用2*2大小的max pooling，得到了尺寸为6×6×256的输出特征；

(3.2)第6层和第7层都是全连接层，有4096个神经元，激活函数用Relu；第8层和第9层也是全连接层，分别具有512、K*L+c个节点，图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系，图像网络的损失函数为：