CN112800292A

CN112800292A - 一种基于模态特定和共享特征学习的跨模态检索方法

Info

Publication number: CN112800292A
Application number: CN202110053038.5A
Authority: CN
Inventors: 吴飞; 罗晓开; 季一木; 黄庆花; 高广谓; 蒋国平
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-14
Anticipated expiration: 2041-01-15
Also published as: CN112800292B

Abstract

本发明公开了一种基于模态特定和共享特征学习的跨模态检索方法，包括：步骤S1、获取跨模态检索数据集，划分为训练集和测试集；步骤S2、对文本和图像分别进行特征提取；步骤S3、提取模态特定特征和模态共享特征；步骤S4、通过哈希网络生成对应模态样本的哈希码；步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络；步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。本发明设计了一个哈希网络，将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中，并且利用标签信息、模态特定和共享特征进行建模，使得输出的哈希码在模态间和模态内具有更好的语义区分性。

Description

一种基于模态特定和共享特征学习的跨模态检索方法

技术领域

本发明涉及一种跨模态的检索方法，特别是涉及一种基于模态特定和共享特征学习的跨模态检索方法。

背景技术

近些年来，海量的多模态数据充斥着我们的生活。就以互联网上的新闻为例，通常包括文字介绍，有时还会在页面上排版一些记者拍下的照片，甚至会有一些独家的视频和音频的报道。像文本、图像、视频、音频等多模态数据是我们从多个角度去高效地获取同一个信息的重要手段。用户不仅仅需要单一模态数据之间地检索，更加需要一种更灵活地检索方式：从一个模态数据去精准地检索到另外一种模态的相关数据。近些年来，跨模态检索这项工作已经成为学术界广泛讨论地热点。但是，多模态数据因为有不同的分布和表示通常具有比较强的异质性，难以直接计算并缩小它们之间的差异。因此，跨模态检索任务存在一定的挑战性。在自编码的学习过程中如何更好地保留原始特征以及消除多模态数据分布的差异是一个重要的研究课题。此外，现有的跨模态检索工作在做特征提取时少有将模态特定信息和模态共享信息结合考虑，造成有效信息的丢失。

发明内容

有鉴于此，本发明的目的在于提供一种基于模态特定和共享特征学习的跨模态检索方法，通过重新设计的自编码器的框架，有效地减小多模态数据的分布差异，并且通过重新设计哈希网络，使得输出的哈希码在模态间和模态内具有更好的语义区分性。

为实现本发明的目的，本发明所述的一种基于模态特定和共享特征学习的跨模态检索方法，包括如下步骤：

步骤S1、获取跨模态检索数据集，并且将所述跨模态检索数据集划分为训练集和测试集；

步骤S2、对训练集中的文本和图像分别进行特征提取；

步骤S3、设置对抗自编码器网络，通过所述对抗自编码器网络提取模态特定特征和模态共享特征；

步骤S4、通过哈希网络生成对应模态样本的哈希码；

步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络；

步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。

进一步的，所述跨模态检索数据集包括多个样本对，每个样本对包括：文本、图像和相应的语义标签。

进一步的，在所述步骤S2中，通过VGG-19模型提取第七部分全连接层的图像特征；通过词袋模型提取文本特征。

进一步的，所述步骤S3具体包括：

步骤S301、设置对抗自编码器网络的生成器，所述生成器包括隐含层生成器和全局生成器；

所述隐含层生成器用以获取图像特征和文本特征在子空间的分布，所述隐含层生成器包括3层全连接层，每一层的神经元数量分别为3000、1000、100，激活函数为Tanh；

所述全局生成器用以获取图像和文本的重构特征，所述全局生成器包括5层全连接层，每一层的神经元数量分别为3000、1000、100、1000、3000，激活函数为Tanh；

步骤S302、设置对抗自编码器网络的判别器，所述判别器包括隐含层判别器和全局判别器；

所述隐含层判别器用以区分子空间的图像特征和文本特征，所述隐含层判别器包括3层全连接层，神经元个数分别是50、25、1，激活函数为LeakyReLU；

所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征，所述全局判别器包括2层全连接层，每一层的神经元数量分别为20、1，激活函数为LeakyReLU；

步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征，所述全局生成器的损失函数定义为：

公式(1)中，v表示为图像模态，t表示为文本模态，E表示为数学期望，

表示图像模态通道自编码器重构损失，

表示文本模态通道自编码器重构损失，p_Gg表示为全局生成器生成的特征集，

和

表示p_Gg中图像和文本模态的实例，

表示为图像通道的全局判别器，用以区分真实的图片特征和解码生成的图片特征，

表示为文本通道的全局判别器，用以区分真实的文本特征和解码生成的文本特征，θ_En和θ_De分别表示为自编码器网络编码层和解码层的网络参数，α表示为平衡参数；

步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征，所述隐含层生成器的损失函数定义为：

公式(2)中，v表示为图像模态，t表示为文本模态，E表示为数学期望，

表示为图像模态的共享特征集，

表示为文本模态的共享特征集，

和

分别表示

和

中的实例，

和

表示为模态分类器，用以区分隐含层的共享特征来自于哪个模态，θ_En表示为对抗自编码器网络编码层的网络参数；

步骤S305、所述全局判别器的损失函数定义为：

公式(3)中，v表示为图像模态，t表示为文本模态，E表示为数学期望，

以及

分别表示图像和文本模态自编码结构的全局判别器，p_data表示为在步骤S2中，通过VGG-19模型以及词袋模型提取到的特征集，p_Gg表示为全局生成器生成的特征集，θ_Ag表示为全局判别器网络参数，x^v和x^t分别表示p_data中的图像和文本模态的实例，

和

表示p_Gg中图像和文本模态的实例；

步骤S306、所述隐含层判别器的损失函数定义为：

公式(4)中，v表示为图像模态，t表示为文本模态，E表示为数学期望，

表示为图像模态的共享特征，

表示为文本模态的共享特征，

和

表示为模态分类器，用以区分隐含层的共享特征来自于哪个模态，θ_As表示为隐含层判别器的网络参数，x^v和x^t表示VGG-19模型以及词袋模型提取到特征向量，

和

分别表示

和

中的实例。

进一步的，所述步骤S4包括:

步骤S401、设置模态特定和共享的哈希网络，包括两层的全连接层，输出为k维特征，其中k为哈希码的位数，输出特征经过sign函数生成哈希码；

步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中，同时增加模态特定和模态共享特征的融合约束，运用标签信息对相似性进行建模。

进一步的，所述步骤S402，具体包括：

步骤S4021、定义模态特定和共享的哈希网络的输出为：

θ_h为网络参数，其中

v_s′和t_s′分别表示图像和文本模态的特定特征，

和

分别表示图像和文本内模态的共享特征；

步骤S4022、定义哈希码分类损失函数：

公式(5)中，L_C表示为哈希码分类损失，l_s表示为每一个特征的真实标签，具体表现形式为0-1向量；

表示为每个的语义类别的概率分布，

表示为模态特定和模态共享的拼接；

步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数：

公式(6)中，h(x)＝max(0,x)，ξ表示阈值，

表示图片模态特定特征和共享特征的范数，

示文本模态特定特征和共享特征的范数；

步骤S4024、获取模态特定和模态共享哈希网络的优化损失：

L_h＝L_C+β·L_lm (7)

公式(7)中，β表示为平衡参数。

进一步的，所述步骤S5包括：联合对抗自编码器网络的损失函数以及哈希网络的损失函数采用采用极小极大博弈策略进行优化，所述极小极大博弈策略具体通过随机梯度下降的优化算法实现。

进一步的，在所述步骤S5中，采用均方根传播优化器实现对抗自编码器网络的损失函数以及哈希网络的损失函数的优化。

本发明的有益效果是：

1、本发明基于自编码器的框架，用全局对抗网络改进了自编码器模态内重构过程，极小极大博弈的策略使得模态内的原始特征和重构特征难以判别，更好地保留原始特征。隐含层对抗网络生成模态不变表示的同时使得模态间数据难以被区分，有效地减小多模态数据的分布差异。

2、本发明设计了一个新的哈希网络，将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中，并且利用标签信息、模态特定和共享特征进行建模，使得输出的哈希码在模态间和模态内具有更好的语义区分性。

附图说明

图1为本发明的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，本实施例提供一种基于模态特定和共享特征学习的跨模态检索方法，包括如下步骤：

步骤S1、获取跨模态检索数据集，并且将跨模态检索数据集划分为训练集和测试集；

具体的说，在本实施例中，通过互联网等常规渠道，获取到的数据集，具体包括：Wikipedia和NUS-WIDE，这些数据集都是由有标签的图像文本对构成。

步骤S2、对训练集中的文本和图像分别进行特征提取；

具体的说，在本实施例中，通过VGG-19模型提取第七部分全连接层的图像特征；通过词袋模型提取文本特征。

在本实施例中，采用的VGG-19模型包含了16个卷积层和3个全连接层，网络结构为：第一部分由两层的卷积层组成，包含：64个大小为3*3的卷积核，步长是1，0边距，采用ReLU激活函数。池化用传统的2*2大小的模板。第二部分以第一部分的输出作为输入，由两层卷积层组成，每一层的结构为：用128个3*3大小的卷积核，步长是1，0边距，采用ReLU激活函数，池化采用2*2大小的模板。第三部分由四个卷积层组成，每一层的结构为256个3*3的卷积核，步长是1，0边距，激活函数为ReLU，池化用传统的2*2大小的模板。第四部分和第五部分都由四层卷积层组成，每一层的结构为512个3*3的卷积核，步长是1，0边距，激活函数为ReLU，池化用传统的2*2大小的模板。第六部分和第七部分为全连接层，有4096个神经元，为了减少过拟合，本发明设置dropout参数为0.5，激活函数用ReLU。然后得到与输入图像对应的尺寸为4096维的特征。第八部分全连接层的神经元个数为1000，后接Softmax作为激活函数。

更具体的说，本实施例中采用的VGG-19模型为事先使用Imagenet数据集预训练好的模型，并且采用S1划分好的数据集作微调，提取第七部分全连接层的图像特征。

本实施例中，对文本特征进行学习：

数据集不考虑其词法和语序的问题，即每个词语都是独立的，把每一个单词都进行统计，同时计算每个单词出现的次数。词袋模型不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重，而权重与词在文本中出现的频率有关，将关键词表示成向量的形式。

步骤S3、设置对抗自编码器网络，通过对抗自编码器网络提取模态特定特征和模态共享特征；给定一个跨模态检索的样本集

o_s＝(v_s,t_s,l_s)代表第s个样本的图像、文本以及语义标签的组合，得到N对图像和文本特征实例的集合。其中，

vd和td分别是图像和文本特征的维度，l_s是独热(one-hot)编码，它是语义标签的二进制向量表示；

具体的说，在本实施例中，步骤S3包括：

步骤S301、设置对抗自编码器网络的生成器，生成器包括隐含层生成器和全局生成器；

隐含层生成器经过自编码器的编码过程得到图像和文本特征在子空间的分布，隐含层生成器包括3层全连接层，每一层的神经元数量分别为3000、1000、100，激活函数为Tanh；ω_s＝(v_s′,t_s′,l_s)代表第s个样本的图像和文本的特定特征以及语义标签的组合，

代表第s个样本的图像和文本的共享特征以及语义标签的组合；

全局生成器经过自编码器的编码和解码过程得到图像和文本的重构特征，全局生成器包括5层全连接层，每一层的神经元数量分别为3000、1000、100、1000、3000，激活函数为Tanh；

在本实施例中，图片采用VGG-19提取4096维特征，文本采用BOW提取1000维特征。编码过程是降维过程，得到图片和文本100维的特定特征。解码过程是编码的逆过程，目的是重构原始特征。

步骤S302、设置对抗自编码器网络的判别器，判别器包括隐含层判别器和全局判别器；

隐含层判别器用以区分子空间的图像特征和文本特征，隐含层判别器包括3层全连接层，神经元个数分别是50、25、1，激活函数为LeakyReLU；

全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征，全局判别器包括2层全连接层，每一层的神经元数量分别为20、1，激活函数为LeakyReLU；

步骤S303、全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征，全局生成器的损失函数定义为：

表示图像模态通道自编码器重构损失，

和

表示p_Gg中图像和文本模态的实例，

步骤S304、隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征，隐含层生成器的损失函数定义为：

表示为图像模态的共享特征集，

表示为文本模态的共享特征集，

和

分别表示

和

中的实例，

和

步骤S305、全局判别器的损失函数定义为：

以及

和

表示p_Gg中图像和文本模态的实例；

步骤S306、隐含层判别器的损失函数定义为：

表示为图像模态的共享特征，

表示为文本模态的共享特征，

和

和

分别表示

和

中的实例。

步骤S4、通过哈希网络生成对应模态样本的哈希码；

具体的说，在本实施例中，步骤S4包括:

步骤S401、设置模态特定和共享的哈希网络，包括两层的全连接层，神经元个数分别设置为100，k，输出为k维特征，其中k为哈希码的位数，第一层与第二层的激活函数为Tanh，输出特征经过sign函数生成哈希码；

更具体的说，在本实施例中，步骤S402包括：

步骤S4021、定义模态特定和共享的哈希网络的输出为：

θ_h为网络参数，其中

v_s′和t_s′分别表示图像和文本模态的特定特征，

和

分别表示图像和文本内模态的共享特征；

步骤S4022、定义哈希码分类损失函数：

表示为每个的语义类别的概率分布，

表示为模态特定和模态共享的拼接；

步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数，保证模态独立特征和模态分享特征之间的差别度：

公式(6)中，h(x)＝max(0,x)，ξ表示阈值，

表示图片模态特定特征和共享特征的范数，

示文本模态特定特征和共享特征的范数；

步骤S4024、获取模态特定和模态共享哈希网络的优化损失：

L_h＝L_C+β·L_lm (7)

公式(7)中，β表示为平衡参数。

具体的说，联合两个网络的生成模型、判别模型以及哈希网络的损失函数，考虑到这生成模型和判别模型的优化目标是相反的，采用极小极大博弈策略进行优化。该博弈策略可以使用随机梯度下降的优化算法来实现，采用均方根传播(RMSprop)优化器。

更具体的说，对于判别器、生成器和哈希网络的参数θ_En，θ_De，θ_Ag，θ_As，θ_C，θ_h的优化过程如下：

步骤S501、固定生成器和哈希网络参数，更新判别器参数：

步骤S502、固定判别器参数，更新生成器和哈希网络参数：

其中，r是学习率。

在本实施例中，最小训练批次大小为256，学习率为0.01，两个权重参数α和β通过实验分别设置为2，5。

具体的说，待网络收敛后，对测试集的样本进行跨模态检索。计算测试集中每个图像(文本)哈希码与训练集中所有文本(图像)哈希码之间的汉明距离d1(d2)；

升序排列d1和d2，并根据排列结果查询到文本和图像在模态中对应的索引，并按照相关度排名后取topk个作为检索结果，并基于双模态数据的标签信息对topk个检索结果进行精度计算，完成图像文本对的跨模态检索。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，包括如下步骤：

步骤S2、对训练集中的文本和图像分别进行特征提取；

步骤S4、通过哈希网络生成对应模态样本的哈希码；

2.根据权利要求1所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，所述跨模态检索数据集包括多个样本对，每个样本对包括：文本、图像和相应的语义标签。

3.根据权利要求2所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，在所述步骤S2中，通过VGG-19模型提取第七部分全连接层的图像特征；通过词袋模型提取文本特征。

4.根据权利要求3所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，所述步骤S3具体包括：

表示图像模态通道自编码器重构损失，

和

表示p_Gg中图像和文本模态的实例，

表示为图像模态的共享特征集，

表示为文本模态的共享特征集，

和

分别表示

和

中的实例，

和

步骤S305、所述全局判别器的损失函数定义为：

以及

和

表示p_Gg中图像和文本模态的实例；

步骤S306、所述隐含层判别器的损失函数定义为：

表示为图像模态的共享特征，

表示为文本模态的共享特征，

和

和

分别表示

和

中的实例。

5.根据权利要求4所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，所述步骤S4包括:

6.根据权利要求5所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，所述步骤S402，具体包括：

步骤S4021、定义模态特定和共享的哈希网络的输出为：

θ_h为网络参数，其中

v′_s和t′_s分别表示图像和文本模态的特定特征，

和

分别表示图像和文本内模态的共享特征；

步骤S4022、定义哈希码分类损失函数：

表示为每个的语义类别的概率分布，

表示为模态特定和模态共享的拼接；

公式(6)中，h(x)＝max(0,x)，ξ表示阈值，

表示图片模态特定特征和共享特征的范数，

示文本模态特定特征和共享特征的范数；

步骤S4024、获取模态特定和模态共享哈希网络的优化损失：

L_h＝L_C+β·L_lm (7)

公式(7)中，β表示为平衡参数。

7.根据权利要求6所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，所述步骤S5包括：联合对抗自编码器网络的损失函数以及哈希网络的损失函数采用采用极小极大博弈策略进行优化，所述极小极大博弈策略具体通过随机梯度下降的优化算法实现。

8.根据权利要求7所述的一种基于模态特定和共享特征学习的跨模态检索方法，其特征在于，在所述步骤S5中，采用均方根传播优化器实现对抗自编码器网络的损失函数以及哈希网络的损失函数的优化。