CN111460201B

CN111460201B - 一种基于生成性对抗网络的模态一致性跨模态检索方法

Info

Publication number: CN111460201B
Application number: CN202010143786.8A
Authority: CN
Inventors: 吴智勇; 吴飞; 王彩玲; 董西伟; 罗晓开; 荆晓远; 季一木
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2022-09-23
Anticipated expiration: 2040-03-04
Also published as: CN111460201A

Abstract

本发明公开了一种基于生成性对抗网络的模态一致性跨模态检索方法，包括以下步骤：首先利用生成性对抗网络强大的数据分布建模能力，将文本特征映射到图像特征空间，用这种方法将跨模态检索问题转换为单模态检索问题，尽可能多地保留图像语义信息的同时减小模态的异质性。其次，设计了一个模态一致性哈希网络，将真实的图像特征和通过生成性对抗网络生成的特征投影到汉明空间中，并且利用标签信息对模态间和模态内的相似性进行建模，使得输出的哈希码在模态间和模态内具有更好的语义区分性，获得更具判别性的哈希码。最后在两个常用的基准数据集上的实验结果表明本方法与现有的流行方法相比具有更好的跨模态检索性能。

Description

一种基于生成性对抗网络的模态一致性跨模态检索方法

技术领域

本发明涉及一种模态检索方法，尤其涉及一种基于生成性对抗网络的模态一致性跨模态检索方法。

背景技术

在当今互联网科技浪潮的冲击下，网络在信息传播中扮演着越来越重要的角色，成为人们获取信息的重要方式。总体上看，当前网络上的多模态数据的特点可以概括为数据量大、数据蕴含模态多样，不同模态间存在较强语义相关性。这些不同模态的数据既包含大量的公共信息又含有各自独有的信息，同时不同模态信息间在某个语义层次上存在较强的关联。传统的数据挖掘研究经过长期的发展已经取得了丰硕的成果，但是在多模态数据不断增长的大数据时代，伴随着用户对于面向多模态数据的挖掘工具的需求与日俱增，传统的、面向单模态任务的数据挖掘模型已经不能充分满足这种需求。传统的数据挖掘任务一般假定全部数据均属于同一个模态，例如在图片检索或分类任务中，传统的分类器一般只利用图片本身的信息，而用于文本检索和分类任务的模型一般只利用来自文本的信息，这些模型都没有考虑到利用不同模态信息间的关联关系来辅助模型的训练。如果使用这些建立在单模态数据基础上的数据挖掘模型来处理多模态数据，将不利于充分利用不同模态数据所具有关联关系，容易造成信息浪费。

发明内容

发明目的：针对以上问题，本发明提出一种用于语义区分的模态一致性哈希网络，并利用该网络进行跨模态检索。

技术方案：为实现本发明的目的，本发明所述的基于生成性对抗网络的模态一致性跨模态检索方法，该方法包括步骤：

(1)获取训练数据集，其中每个样本包括文本和图像；

(2)对训练数据集里图像和文本分别进行特征提取；

(3)基于生成性对抗网络，将文本特征映射到图像特征空间；

(4)通过模态一致性哈希网络生成对应模态样本的哈希码；

(5)根据生成性对抗网络的损失函数及哈希码的分类损失函数训练网络；

(6)根据步骤(5)中训练完成的网络对模态样本进行检索。

进一步地，所述训练数据集包括Wikipedia数据集、NUS-WIDE数据集。

进一步地，所述步骤(2)包括：

(21)利用VGG-19网络提取第七部分FC-7层的图像特征；

(22)采用词袋模型提取文本特征。

进一步地，所述VGG-19网络最后3层全连接层，前两层设置dropout层，比例为0.5，激活函数为ReLU，第3层的激活函数为Softmax。

优选地，所述步骤(3)包括：

(31)基于生成性对抗网络将文本特征映射到图像特征空间，得到N对图像和文本特征实例的集合

分别得到图像特征数据集V＝[v₁,...,v_N]和文本特征训练集T＝[t₁,...,t_N]；其中，每个实例o_n＝(v_n,t_n)包含了一个图像特征向量

和一个文本特征向量

d_v和d_t分别表示两个模态的特征的维度；

(32)设置生成性对抗网络的生成器，所述生成器获取图像特征的分布，将文本特征作为输入获得生成的图像特征，包含3层全连接层，每一层的神经元数量分别为2000、3000、4096，激活函数为Tanh；

(33)设置生成性对抗网络的判别器，所述判别器用于区分真实图像特征和生成的图像特征，包含2层全连接层，每一层的神经元数量分别为1000、2，激活函数为ReLU；

(34)生成器通过对抗性的训练策略生成逼近真实图像特征的生成特征

生成器的损失函数定义为：

其中，G()为生成器，T为文本，θ和ω分别表示为生成器和判别器的参数，p_T为文本特征的分布，

为数学期望；

(35)定义判别器的损失函数：

其中，

是真实图像特征V和生成图像特征

的线性插值；λ是执行Lipschitz约束的梯度惩罚的惩罚系数；

(36)通过最小化判别器输出概率D(V；ω)和D(V；ω)的分类误差区分输入特征是否为真实图像特征。

进一步地，所述步骤(4)包括：

(41)设置模态一致性哈希网络，包括两层的全连接层，神经元个数分别为1000，K，其中K为哈希码位数，第一层的激活函数为Tanh，第二层的激活函数为Tanh，后接一个sign函数生成哈希码；

(42)模态一致性哈希网络将成对的特征映射到汉明空间中，同时在模态间和模态内加入相似性保持策略，运用标签信息对相似性进行建模。

优选地，所述步骤(42)包括步骤：

(421)定义模态一致性哈希网络的输出为

和

φ为网络的参数，

(422)定义哈希码分类损失函数定义为：

其中，L_Cv为图像模态的哈希码分类损失，

为文本模态的哈希码分类损失，y_n是每一个特征的真实标签，表现形式为0-1向量。

优选地，所述步骤(42)还包括步骤：

(423)定义用于计算相同类别哈希码的相似性的语义相关性损失函数：

其中，

为和图像哈希码同类别的生成哈希码，

为和图像哈希码异类的生成哈希码；

(424)获取模态一致性哈希网络的优化损失：

L_emb＝L_C+ζL_m

其中，ζ为平衡参数。

进一步地，所述步骤(5)包括：

(51)对于判别器、生成器和模态一致性哈希网络的参数ω，θ和φ的优化问题分别如下：

其中，α和β为权衡参数；

(52)通过Pytorch的自动求导反向传播对步骤(51)中更新后的三个参数ω、θ和φ进行优化。

有益效果：本发明具有如下有益效果：

(1)设计了一种新型生成性对抗网络，以文本特征作为输入，生成接近图像特征分布的图像特征，将跨模态检索问题近似为单模态检索问题，在有效减小模态差异的同时保留图像模态的语义信息；

(2)设计了一个模态一致性哈希网络将生成的图像特征和真实的图像特征投影到一个公共汉明空间中，并利用标签信息对模态间和模态内哈希码的相似性进行建模，以此得到更具语义判别性的哈希码；在两个被广泛使用的数据集Wikipedia和NUS-WIDE上进行的实验表明本方法在能够有效提高检索性能。

附图说明

图1是本发明所述基于生成对抗性网络的模态一致性跨模态检索方法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，本发明所述的基于生成性对抗网络的模态一致性跨模态检索方法，包括：

步骤(1)：获取训练数据集，其中每个样本包括文本和图像。

在一个实施例中，采用两个广泛使用的基准多模态数据集Wikipedia和NUS-WIDE，其中每个样本包含成对的文本和图像。

步骤(2)：对训练数据集里图像和文本分别进行特征提取。

在一个实施例中，对图像特征进行学习：

用VGG-19网络提取图像特征，包含了16个卷积层和3个全连接层，网络结构为：第一部分由两层的卷积层组成，结构为：64个大小为3*3的卷积核，步长是1，0边距(paddingsize)，然后用ReLU激活函数。池化用传统的2*2大小的模板做max pooling。第二部分以第一部分的输出作为输入，由两层卷积层组成，每一层的结构为：用128个3*3大小的卷积核，步长是1，padding是0，同样用ReLU激活函数，2*2大小的max pooling。第三部分由四层卷积层组成，每一层的结构为256个3*3的卷积核，步长是1，padding是0，激活函数为ReLU，用2*2大小的maxpooling。第四部分和第五部分都由四层卷积层组成，每一层的结构为512个3*3的卷积核，步长是1，padding是0，激活函数为ReLU，maxpooling为2*2。第六部分和第七部分为全连接层，有4096个神经元，为了防止过拟合，我们设置dropout为0.5，激活函数用ReLU。然后得到与输入图像对应的尺寸为4096*1的特征。第八部分全连接层的神经元个数为1000，后接Softmax作为激活函数，我们用经过Imagenet数据集训练好的VGG-19网络模型，再用自己的数据集作微调，提取第七部分FC-7层的图像特征。

在一个实施例中，对文本特征进行学习：

由于文本特征通常比图像特征更有判断力，所以文本特征与语义之间的关系能够更容易地建立。我们采用Bag of Word词袋模型提取文本特征，根据给定的文本中，提取出关键词，统计每个关键词出现的次数，然后根据每个关键词在每个文档中出现的次数，将关键词表示成向量的形式。

步骤(3)：基于生成性对抗网络，将文本特征映射到图像特征空间。

在一个实施例中，基于生成性对抗网络将文本特征映射到图像特征空间，得到N对图像和文本特征实例的集合

和一个文本特征向量

d_v和d_t分别表示两个模态的特征的维度；于是分别得到图像特征数据集V＝[v₁,...,v_N]和文本特征训练集T＝[t₁,...,t_N]。y_n＝[y_n1,...,y_nC]^T表示第n个实例o_n对应的类别标签向量，当o_n＝(v_n,t_n)属于第c类时y_nc＝1，不属于第c类则y_nc＝0。生成性对抗网络由两个部分组成：生成器和判别器。

设置生成性对抗网络的生成器，所述生成器获取图像特征的分布，将文本特征作为输入获得生成的图像特征，包含3层全连接层。

除了最后一层的4096是固定的，因为要生成图像特征，所以要和图像特征维度一致，前面两层神经元的数量一般小于最后一层，并且大于文本特征维度。

在一个实施例中，文本特征维度为1000，而根据多次实验得出的结果比较，前两层的神经元分别设置成2000和3000效果较好，激活函数为Tanh。

设置生成性对抗网络的判别器，所述判别器用于区分真实图像特征和生成的图像特征，包含2层全连接层。

在一个实施例中，第一层的神经元数量为1000，用于对数据进行降维，以便输入后面的哈希网络，生成哈希码；第二层的神经元数量为2，可看作为一个二分类器，判断输入的特征是图像的真实特征还是生成器的生成特征。激活函数为ReLU。

生成器通过对抗性的训练策略生成逼近真实图像特征的生成特征

生成器的损失函数定义为：

为数学期望。

在生成性对抗网络中，判别器扮演着生成器的对抗者，通过最小化判别器输出概率D(V；ω)和D(V；ω)的分类误差区分输入特征是否为真实图像特征。判别器的输入可以是真实图像特征或生成的图像特征，为了解决训练不稳定和模式崩溃的问题，在计算损失的时候，采用真实图像特征和生成图像特征分布的Wasserstein距离作为判别器的损失。为了防止梯度在训练过程中消失，还增加了带梯度惩罚的可微Lipschitz约束。所以判别器的损失函数如下：

其中，

是真实图像特征V和生成图像特征

的线性插值；λ是执行Lipschitz约束的梯度惩罚的惩罚系数；上式中前两个项近似于真实图像特征V和生成图像特征

的分布的Wasserstein距离。

通过最小化判别器输出概率D(V；ω)和D(V；ω)的分类误差区分输入特征是否为真实图像特征。

步骤(4)：通过模态一致性哈希网络生成对应模态样本的哈希码。

通过模态一致性哈希网络获得更具有语义判别性的哈希码，模态一致性哈希网络为两层的全连接层，神经元个数分别为1000，K，其中K为哈希码位数，第一层的激活函数为Tanh，第二层的激活函数为Tanh，后接一个sign函数生成哈希码；

模态一致性哈希网络将成对的特征映射到汉明空间中，同时在模态间和模态内加入相似性保持策略，运用标签信息对相似性进行建模，并且提升网络的泛化能力。

针对模态内的相似性建模，本方法定义了一个哈希码分类损失，保证同一模态具有相同语义的样本相互靠近，生成相似的哈希码，不同类别的样本相互远离，生成不相似的哈希码。定义模态一致性哈希网络的输出为

和

φ为网络的参数，

可以将哈希码分类损失函数定义为：

其中，L_Cv为图像模态的哈希码分类损失，

再者，为了使得不同模态的哈希码能够根据其真实标签在汉明空间中有更好的聚类效果，模态一致性哈希网络还应该在模态间语义相似性上体现良好的建模能力。为了保证模态间同类样本具有相似的哈希码，异类样本具有不相同的哈希码，本文设计了语义相关性损失函数计算相同类别哈希码的相似性，损失函数如下：

其中，

为和图像哈希码同类别的生成哈希码，

为和图像哈希码异类的生成哈希码；

可以得到模态一致性哈希网络的优化损失，用于学习更具判别性的哈希码，如下所示：

L_emb＝L_C+ζL_m

其中，ζ为平衡参数。

步骤(5)：根据生成性对抗网络的损失函数及哈希码的分类损失函数训练网络。

对于判别器、生成器和模态一致性哈希网络的参数ω，θ和φ的优化问题分别如下：

其中，α和β为权衡参数；

整体网络的每一部分分别通过上述的优化目标进行参数更新，通过Pytorch的自动求导反向传播对三个参数ω、θ和φ进行有效地优化。

在一个实施例中，最小训练批次大小为128，四个权重参数λ，ζ，α和β通过实验分别设置为10，1，0.1，0.1。

步骤(6)：根据步骤(5)中训练完成的网络对模态样本进行检索。

为验证本方法具有较好的优越性，下面将本发明提出的MCGAN方法与最近的几种最先进的跨模态检索方法进行了比较，包括三个传统方法：CVH，CMFH和SCM；一个深度学习方法：DCMH；一个生成性对抗网络方法：SCH-GAN。分别在Wikipedia和NUS-WIDE两个数据集上进行了实验，哈希码的位数依次设置为16，32，64。

实验结果：

表1统计了Wikipedia数据集上跨模态检索的mAP值。

表2统计了NUS-WIDE数据集上跨模态检索的mAP值。

表3统计了哈希码位数为16的情况下，完整的MCGAN，去掉L_C的MCGAN和去掉L_m的MCGAN在两个数据集上的mAP值。

表1 Wikipedia数据集上的mAP值

表2 NUS-WIDE数据集上mAP值

表3完整的MCGAN，去掉L_C的MCGAN和去掉L_m的MCGAN在两个数据集上的mAP值(K＝16)

通过观察表1和表2可以发现，本发明所提出的一种基于生成性对抗网络的模态一致性跨模态检索方法与对比方法相比有较好的mAP值，证明本发明的方法优于所有的对比方法。结果还表明，通过生成对抗性网络将文本特征转化为图像特征，可以有效地保留语义信息，同时减小了不同模式之间的差距，从模态间和模态内鉴别中学到的更具判别性的哈希码有助于提高检索性能。通过观察表3可以发现本发明提出的哈希码分类损失函数和语义相关性损失函数有助于促进语义鉴别哈希学习，提高检索性能。