CN112214570A

CN112214570A - 一种基于对抗投影学习哈希的跨模态检索方法及装置

Info

Publication number: CN112214570A
Application number: CN202011007517.5A
Authority: CN
Inventors: 白琮; 曾超; 马青; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-12

Abstract

本发明公开了一种基于对抗投影学习哈希的跨模态检索方法及装置，采用训练好的神经网络进行检索，所述神经网络包括图像网络和文本网络，所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层，将待检索的图像数据或文本数据输入到各自对应的特征函数层，获取到图像特征或文本特征，将提取的图像特征或文本特征输入到各自对应的哈希函数层；将哈希函数层的输出输入到对应的符号函数层，获取最终的哈希码；将获得的哈希码与数据库中文本或图像的哈希码进行比较，得到查询结果。本申请检索方法精度较高、检索效率较高。

Description

一种基于对抗投影学习哈希的跨模态检索方法及装置

技术领域

本发明涉及计算机视觉领域的图像大数据处理与分析以及自然语言的处理与分析技术领域，特别涉及一种基于对抗投影学习哈希的跨模态检索方法及装置。

背景技术

随着现代网络技术的发展，大量的多模态数据每天在人们的日常生活中生成，包括文本，音频，视频和图像。同时，从如此大量的多模态数据中进行有效检索已成为一个巨大的挑战，其中图像到文本和文本到图像的检索是最广泛研究的。基于哈希学习的检索由于其高效性及存储的便捷性被广泛应用于各种检索任务中。哈希学习通过学习到最优的哈希函数，在尽可能保证原始空间内数据之间的相似度的前提下，将高维数据映射为二值码。

但由于二值化离散优化是NP问题，而很多方法采用宽松的条件使用连续值进行优化，优化后再把连续值取整为二值码。在这种宽松的条件下会导致巨大的量化误差、优化不稳定等问题。

发明内容

本申请的目的是提供一种基于对抗投影学习哈希的跨模态检索方法及装置，在图像模态和文本模态中利用多层神经网络构造特征重构网络以及非线性哈希函数，并且在两个模态间设计了分布式的判别器进行对抗训练。在保证哈希码离散型前提下设计了目标函数，通过优化该目标函数得到哈希函数。哈希函数将目标数据特征(图像和文本)转换为二值码，检索时利用二值码进行跨模态检索。

为了实现上述目的，本申请技术方案如下：

一种基于对抗投影学习哈希的跨模态检索方法，预先训练有用于哈希学习的神经网络，所述神经网络包括图像网络和文本网络，所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层，所述基于对抗投影学习哈希的跨模态检索方法，包括：

将待检索的图像数据或文本数据输入到各自对应的特征函数层，获取到图像特征或文本特征，所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数及Dropout层；

将提取的图像特征或文本特征输入到各自对应哈希函数层；

将哈希函数层的输出输入到对应的符号函数层，获取最终的哈希码；

将获得的哈希码与数据库中文本或图像的哈希码进行比较，得到查询结果。

进一步的，所述图像网络的特征函数层包括三层全连接层，每个全连接层后加ReLU激活函数及Dropout层；所述文本网络的特征函数层包括三层全连接层，每个全连接层后加ReLU激活函数及Dropout层。所述图像网络和文本网络的哈希函数层分别都包括一层全连接层，该全连接层后加tanh激活函数及Dropout层。

进一步的，所述神经网络的目标函数为：

其中，α、η、γ、β为超参数，

为目标函数，

表示特征函数层对应的对抗损失函数，

表示哈希函数层对应的对抗损失函数；

代表了图像特征投影到文本特征时的跨模态投影匹配损失函数，

代表了文本特征投影到图像特征时的跨模态投影匹配损失函数；

代表了当查询目标是图像时的加权余弦三元组损失函数，

代表了当查询目标是文本时的加权余弦三元组损失函数；

为分类损失函数，

为量化损失函数。

进一步的，所述加权余弦三元组损失函数为：

其中m为边界常数，ω(r_j,r_k)是权重因子，r_j代表第j个查询结果与查询之间的相似度，r_k代表第k个查询结果与查询之间的相似度，cos(.)是余弦函数，

代表了图像网络哈希函数层的第i个输出，

代表与查询图像不相关的文本网络哈希函数层第k个输出，

代表与查询图像相关的文本网络哈希函数层第j个输出，

代表了文本网络哈希函数层的第i个输出，

代表与查询文本不相关的图像网络哈希函数层第k个输出，

代表与查询文本相关的图像网络哈希函数层第j个输出，

代表了当查询目标是图像时的加权余弦三元组损失函数，

代表了当查询目标是文本时的加权余弦三元组损失函数。

进一步的，所述对抗损失函数为：

其中n代表了训练样本的总数，D_F代表了特征函数输出的判别器，D_H代表了哈希函数输出的判别器，

表示特征函数层对应的对抗损失函数，

表示哈希函数层对应的对抗损失函数，f_i ^I代表图像网络特征函数层的第i个输出，f_i ^T代表文本网络特征函数层的第i个输出，

为图像网络哈希函数层的第i个输出，

表示文本网络哈希函数层的第i个输出。

进一步的，所述跨模态投影匹配损失函数为：

其中n代表了训练样本的总数，

代表了图像网络特征函数层的第i个输出在文本网络特征函数层的在归一化的第j个输出上的投影标量的概率分布，

代表了文本网络特征函数层的第i个输出在图像网络特征函数层的在归一化的第j个输出上的投影标量的概率分布，p_i,j代表第i个样本的标签在第j个样本的标签上的投影标量的概率分布，δ代表了防止p_i，j＝0的情况导致训练发生错误的微扰项，

代表了图像特征投影到文本特征时的投影匹配损失函数，

代表了文本特征投影到图像特征时的投影匹配损失函数。

本申请还提出了一种基于对抗投影学习哈希的跨模态检索装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现上述基于对抗投影学习哈希的跨模态检索方法的步骤。

本申请提出的一种基于对抗投影学习哈希的跨模态检索方法及装置，是一种精度较高、检索效率较高的基于对抗投影学习哈希的跨模态检索方法。本申请的有益效果包括：由四层全连接层构成图像网络，由四层全连接层构成文本网络，最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致，由一个待权重的余弦三元组损失函数保证语义相似性，同时也保证了相似样本的相关度排序性，由跨模态投影匹配损失函数最小化了特征投影匹配分布和标签投影匹配分布之间的Kullback-Leibler散度，利用标签信息使数据低维特征之间的相似度结构与语义空间中的相似度结构趋于一致。在优化的过程中维持哈希值的离散性，减小了量化误差，最终得到两个个鲁棒的保持语义相似性、减小异构鸿沟和累计误差较小的哈希函数，通过优化后的哈希函数将图像深度特征和文本特征转化为二值的哈希码，再将得到的二值码作为原图像或原文本的替代来进行查询。本申请利用对抗训练、跨模态投影匹配约束、保持语义相似性及相关度排序性来学习哈希函数，不仅提高了检索的精度，而且使得到的哈希学习方法具有了更强的语义学习能力；引入哈希值的离散性的强约束条件，直接通过求导得到最优解，使得对损失函数的优化更为鲁棒。

附图说明

图1为本申请基于对抗投影学习哈希的跨模态检索方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

哈希学习通过机器学习机制将数据映射成二进制串的形式，能显著减少数据的存储和通信开销，从而有效提高学习系统的效率。哈希学习的目的是学到数据的二进制哈希码表示，使得哈希码尽可能地保留原空间中的近邻关系，即保相似性。具体来说，每个数据点会被表示为一个紧凑的二进制串编码(哈希码)，在原空间中相似的两个点应当被映射到哈希码空间中相似的两个点。以图像数据为例，原始图像表示是某种经过特征抽取后的高维实数向量，通过从数据中学习到的哈希函数变换后，每幅图像被映射为一个二进制哈希码，原空间中相似的两幅图像将被映射到相似(即海明距离较小)的两个哈希码，而原空间中不相似的两幅图像将被映射到不相似(即海明距离较大)的两个哈希码。在图像检索中，可以根据输入图像所得出的哈希码，与数据库中图像的哈希码进行比较，检索到相似的图像。

如图1所示，一种基于对抗投影学习哈希的跨模态检索方法，预先训练有用于哈希学习的神经网络，所述神经网络包括图像网络和文本网络，所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层，所述基于对抗投影学习哈希的跨模态检索方法，包括：

将提取的图像特征或文本特征输入到各自对应的哈希函数层，所述哈希函数层包括一层全连接层，该全连接层后加tanh激活函数及Dropout层；

本申请采用预先训练好的神经网络进行检索，神经网络图像网络和文本网络，所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层。

在一个实施例中，所述图像网络的特征函数层包括三层全连接层，每个全连接层后加ReLU激活函数及Dropout层。所述文本网络的特征函数层包括三层全连接层，每个全连接层后加ReLU激活函数及Dropout层。加入的Dropout层将以概率p(人为定义，一般为0.5)随机将神经网络参数置零，即在某次训练迭代中被置零的神经元无响应。通过加入Dropout层能够防止模型对训练数据过拟合，提升了模型的泛化能力；

则图像网络和文本网络的特征函数层的输出表示为：

其中，F_I(I)表示图像网络的特征函数，F_T(T)表示文本网络的特征函数，(W_I,b_I)和(W_T,b_T)分别表示图像网络和文本网络的全连接层的权值和偏置，权值和偏置的上标表示对应的全连接层序号。

需要说明的是，本申请并不限于特征函数层的全连接层数，本领域技术人员可以根据实际的情况进行设置。

本实施例特征函数层后是哈希函数层，图像网络和文本网络的哈希函数层都包括一层全连接层，该全连接层后加tanh激活函数及Dropout层。

则图像网络和文本网络的哈希函数层的输出表示为：

其中，H_I(I)表示图像网络的哈希函数，H_T(T)表示文本网络的哈希函数，f^I代表图像网络特征函数层的输出，f^T代表文本网络特征函数层的输出，

代表经过特征函数输出的图像的低维特征，

代表经过特征函数输出的文本的低维特征。h代表特征的维数，n代表训练样本的总数。

在本实施例中，图像网络四个全连接层的神经元数量为4096，8192，4096，2048，文本网络四个全连接层的神经元数量为1000，8192，4096，2048。

容易理解的是，无论是训练网络，还是进行图像检索，都需要对图像进行预处理，一般来说图像数据包括图像及对应的文本，会先将图像统一缩放到固定的大小，例如256*256大小，然后提取图像的图像特征，将其对应的文本利用词袋模型提取词频作为文本特征。在本申请的实施例中，利用python代码将缩放后的图像输入到在Imagenet上预训练好的CNN-F上提取4096维的图像特征，将文本利用词袋模型提取词频构建1000维的向量作为文本特征。

在本实施例中，将图像的初始图像特征表示为I，初始文本特征表示为T(在本申请中，i与图像特征对应，t与文本特征对应)，将图像的初始图像特征I输入到图像网络，将初始文本特征T输入到文本网络，最后对所述图像网络和文本网络的输出做符号函数运算来得到哈希码。

令初始输入的图像特征矩阵为

文本特征矩阵为

标签矩阵

这里n表示训练样本的总数，d代表了初始图像特征的维数，l代表了初始文本特征的维数，c代表标签个数，i_k表示第k个图像的特征，t_k表示第k个图像对应的文本特征，l_k是一个c维的向量，如果第k个文本或图像属于该标签，对应位置的值为1。由于本方法中每个图像或文本有多个标签，所以l_k中可以有多个值为1。

本实施例符号函数层最终输出的哈希码表示如下：

其中公式(5)表示图像网络最后的输出哈希码，公式(6)表示文本网络最后输出的哈希码，(W_I,b_I)代表图像网络的全连接层的权值和偏置，(W_T,b_T)代表文本网络的全连接层的权值和偏置，权值和偏置的上标表示对应的全连接层序号，tanh表示tanh激活函数，sign(.)是符号函数。

为图像网络哈希函数层的输出，

表示文本网络哈希函数层的输出。

本申请在构建用于哈希学习的神经网络模型之后，采用加权余弦三元组损失函数、对抗损失函数、跨模态投影匹配损失函数、分类损失函数、量化损失函数构建所述神经网络的整体目标函数，其过程如下：

F1、构建加权余弦三元组损失函数，在多模态的情况下，保证拥有越多相同标签的文本和图像的哈希码的距离尽可能近，而越少相同标签的哈希码的距离尽可能远，同时没有相同标签的样本之间的哈希码最远。本申请采用的加权余弦三元组损失函数基于相似标签的个数考虑，表示如下：

代表了图像网络哈希函数层的第i个输出，

代表与查询图像不相关(没有相同标签)的文本网络哈希函数层第k个输出，

代表与查询图像相关(至少有一个相同标签)的文本网络哈希函数层第j个输出，

代表了文本网络哈希函数层的第i个输出，

代表与查询文本不相关(没有相同标签)的图像网络哈希函数层第k个输出，

代表与查询文本相关(至少有一个相同标签)的图像网络哈希函数层第j个输出，

代表了当查询目标是图像时的加权余弦三元组损失函数，

代表了当查询目标是文本时的加权余弦三元组损失函数。

公式(7)代表了当查询目标是图像时的加权余弦三元组损失函数，公式(8)代表了当查询目标是文本时的加权余弦三元组损失函数。

F2、构建对抗损失函数，本申请与现有哈希学习方法不同的是，提出了两步式对抗训练，使不同模态的特征表达趋于一致，有效解决异构鸿沟的问题，对抗损失函数如下：

表示特征函数层对应的对抗损失函数，

表示哈希函数层对应的对抗损失函数。

需要注意的是，上述对抗损失函数同时对应了图像网络和文本网络的特征函数层、哈希函数层，以下不在赘述。

F3、构建分类损失函数，为了保持语义相似性，得到的哈希码可以对真实标签分类：

其中B为独立的哈希码变量(非网络输出)，在训练过程中不断更新，L为标签矩阵，P为分类权重矩阵，

是矩阵的Frobenius范数或者向量的l²范数。

F4、构建量化损失函数：

其中B为独立的哈希码变量，H_I(.)为图像网络哈希函数的输出，H_T(.)为文本网络哈希函数的输出，μ和ν为超参数，是固定的常数。

F5、构建跨模态投影匹配损失函数，最小化了特征投影匹配分布和标签投影匹配分布之间的差异，充分利用了两种模态的语义信息，保证了模态间特征表示的分布一致性：

其中n代表了训练样本的总数，

代表了文本网络特征函数层的第i个输出在图像网络特征函数层的在归一化的第j个输出上的投影标量的概率分布，p_i,j代表第i个样本的标签在第j个样本的标签上的投影标量的概率分布，δ代表了防止p_i,j＝0的情况导致训练发生错误的微扰项，

代表了图像特征投影到文本特征时的投影匹配损失函数，

代表了文本特征投影到图像特征时的投影匹配损失函数。

F6、最后，构建整体目标函数

其中α、η、β、γ为超参数，是固定的常数。

需要说明的是，分类损失函数和量化损失函数，在哈希学习技术领域是比较成熟的技术，这里不再赘述。

本申请在获取训练数据后，对所述神经网络模型进行训练，直到整体目标函数收敛，得到训练好的神经网络模型。

本申请获取训练数据，对所述神经网络进行训练，直到整体目标函数收敛，过程如下：

将训练数据集的图像深度特征和对应文本的词频向量分别作为图像和文本网络的初始特征，以及标签信息分批输入；

随机初始化神经网络权值W_I和W_T以及b_I和b_T，将权值在负的神经元数量分之一至正的神经元数量分之一之间取均匀分布进行，将偏置初始化为零；初始化B为元素随机选取-1和1的矩阵；

对哈希函数进行迭代训练，过程如下：

利用标签信息按照NDCG(Normalized Discounted cumulative gain)即归一化折损累计增益的计算方法计算每个批次余弦三元组损失函数的权重。NDCG是一种搜索评价指标，其计算方法如下：

r_i代表通过网络最终输出的哈希码计算得出的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比)，Z为归一化常数，由以下公式解出：

r_i代表真实情况下的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比)。

由以上计算，可以定义权重

通过前向传播和反向传播这两个步骤反复训练直到所有训练样本都被训练，使整体的损失函数值最小；

在所有训练样本被性训练后，通过对使用哈希码计算的分类损失函数求导，在保证哈希码离散性的前提下，更新统一的哈希码B。

对P矩阵进行如下更新：

P＝(L^TL+λI)^-1LB (16)

其中，λI中的I代表单位矩阵。

同时对B进行如下更新：

B＝sign(LP+μH_I(f^I)+vH_T(f^T)) (17)

通过哈希函数进行迭代训练，直到目标函数收敛，完成模型的训练。

当训练结束后，就可以获取待检索的图像或文本，采用训练好的所述神经网络进行学习，获取对应的哈希码。与数据库中图像的哈希码进行比较，检索到相似的文本或图像，这里不再赘述。

在一个实施例中，本申请还提供了一种基于对抗投影学习哈希的跨模态检索装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现上述基于对抗投影学习哈希的跨模态检索方法的步骤。

关于基于对抗投影学习哈希的跨模态检索装置的具体限定可以参见上文中对于基于对抗投影学习哈希的跨模态检索方法的限定，在此不再赘述。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的网络拓扑布局方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。