CN109299341A

CN109299341A - 一种基于字典学习的对抗跨模态检索方法和系统

Info

Publication number: CN109299341A
Application number: CN201811268595.3A
Authority: CN
Inventors: 张化祥; 尚菲; 李静; 刘丽; 孟丽丽; 谭艳艳; 王强
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-01
Anticipated expiration: 2038-10-29
Also published as: CN109299341B

Abstract

本发明公开了一种基于字典学习的对抗跨模态检索方法和系统，该方法包括：获取图像数据和文本数据的底层特征，并基于底层特征分别构造图像和文本的训练集以及测试集；构建字典学习模型，基于图像和文本的训练集进行训练，根据得到的图像字典、文本字典，构造新的训练集和测试集；将所述新的图像和文本的训练集投影至共同表示空间；根据共同表示空间中的图像和文本特征数据，学习特征保持器，即进行特征判别和三重排序，以及学习模态分类器；对特征保持器和模态分类器进行对抗学习，优化共同表示空间，采用测试集进行跨模态检索。用字典学习来进行特征提取，用对抗学习更好的学习图像模态和文本模态的公共空间，能极大提高跨模态检索的准确率。

Description

一种基于字典学习的对抗跨模态检索方法和系统

技术领域

本发明涉及跨模态检索领域和深度学习领域，更具体地说，涉及一种基于字典学习的对抗跨模态检索方法和系统。

背景技术

随着互联网技术的飞速发展，多模态数据(如文本、图像、音频和视频)层出不穷，传统的单模态检索已经无法满足用户的需求。跨模态检索因其可以实现多种模态信息的融合和补充，正逐步成为信息检索的主流。

因为多模态数据底层特征不同，具有复杂的组织结构，并且大多数是非结构化或半结构化的，因此多模态数据很难结构化的存储或检索。为了解决多模态数据之间的异构鸿沟，国内外的学者从浅层学习和深度学习两个方面进行了大量研究。联合特征选择和子空间学习方法(JFSSL)通过学习投影矩阵把不同模态的数据映射到共同空间，实现了异构数据的相似性度量。通过对投影矩阵施加l₂范数的约束，同时从不同特征空间中选择出相关的且具有判别性的特征。并通过图正则化的方法保持了数据模态间和模态内的相关性。通用的半监督结构化子空间学习(GSS-SL)将标签损失函数和标签的图约束融合到最终的目标函数中，前者可以在一定程度上保证相同类别数据之间的距离最小，不同类别数据之间的距离最大，后者可以预测未标记数据的标签。此外，浅层学习的方法还包括模态独立的跨媒体检索(MDCR)、三视图典型相关分析(CCA-3V)、联合潜在子空间学习和回归(JLSLR)等。

因其对数据具有强大的非线性相关建模能力，深度学习方法近几年在跨模态检索领域发展迅猛。生成对抗网络(GANs)因为不需要马尔科夫链并能生成高质量的样本，尤其受到研究者的喜爱。GANs可以胜任真实数据生成任务，如图像生成和自然语句生成。无监督生成对抗跨模态哈希(UGACH)通过构造相关性图来合成流形对，当做判别器中的相关数据，通过概率模型合成生成对，当做判别器中的不相关数据。两者相互对抗，相互学习，更好的学习哈希表示。深度对抗跨模态检索(DAML)也是一种新颖的基于对抗学习的跨模态检索方法。

然而，上述方法有一些缺点：一方面，它们大多数是为不同模态数据学习一个共同表示空间，忽略了多模态数据复杂的统计特性。另一方面，投影到公共空间的特征不能保持每个模态原始特征的固有统计特性，投影之后的特征不具有最大相关性。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于字典学习的对抗跨模态检索方法和系统，该方法考虑了多模态数据复杂的统计特性，并且通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟，得到一个有效的同构空间。用字典学习来进行特征提取，用对抗学习更好的学习图像模态和文本模态的公共空间，能极大提高跨模态检索的准确率。并通过多种跨模态检索任务验证了本发明的有效性。

为实现上述目的，本发明采用如下技术方案：

一种基于字典学习的对抗跨模态检索方法，包括以下步骤：

获取图像数据和文本数据的底层特征，并基于所述底层特征分别构造图像和文本的训练集以及测试集；

构建字典学习模型，基于图像和文本的训练集进行训练，根据得到的图像字典、文本字典，构造新的训练集和测试集；

将所述新的图像和文本的训练集投影至共同表示空间；

根据共同表示空间中的图像和文本特征数据，学习特征保持器，即进行特征判别和三重排序，以及学习模态分类器；

对特征保持器和模态分类器进行对抗学习，优化共同表示空间，采用测试集进行跨模态检索。

进一步地，所述构造新的训练集和测试集包括：

训练字典学习模型得到图像字典、文本字典、图像重构系数和文本重构系数；

根据所述图像字典和文本字典，计算测试集的图像重构系数和文本重构系数；

将训练集的图像重构系数和文本重构系数，以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集。

进一步地，所述训练字典学习模型包括：

利用训练集中的样本构建如下的目标函数：

其中，和分别表示图像模态和文本模态的字典，k₁和k₂分别代表图像字典和文本字典的大小，取值分别为4096、5000；和分别表示图像和文本的重构系数；c表示常量，和分别表示图像字典和文本字典第i行第j列的原子；

其中，P₁和P₂是投影矩阵，λ₁，λ₂，λ₃是权重参数。

进一步地，所述计算测试集的图像重构系数和文本重构系数的方法为：

和分别为测试集的图像和文本重构系数。

进一步地，所述投影至共同表示空间包括：

图像的训练集采用四层前馈全连接网络投影到共同表示空间；文本的训练集采用三层前馈全连接网络投影到共同表示空间；

其中，四层和三层前馈全连接网络，每一层均采用tanh激活函数。

进一步地，所述特征判别包括：

将共同表示空间中的图像和文本特征数据，经过一层的全连接层，得到概率函数；

将真实标签和概率函数输入softmax交叉熵损失层，输出语义类别的概率分布；

计算模内判别损失：

表示概率函数，v_i代表第i个图像样例，t_i代表第i个文本样例，N代表样例数。

进一步地，所述三重判别包括：

构建两个三元组，分别是检索图像、文本正例、文本负例，检索文本、图像正例、图像负例；

对于两个三元组，分别计算检索图像/文本和另一模态的正例、负例的距离，得到模间不变损失；

通过对DNNs每一层的参数进行约束，得到正则化项；

由模内判别损失、模间不变性损失和正则化项，得到如下特征保持损失：

L_fr(θ_V,θ_T,θ_D)＝α(L_triV(θ_V)+L_triT(θ_T))+βL_dis(θ_D)+L_reg,

α和β是平衡参数。

进一步地，所述优化共同表示空间包括：

根据特征保持损失和模间对抗损失得到最终的目标函数；

利用随机梯度下降法对最终的目标函数进行优化，直到从共同空间中随机抽取一个样本，模态分类器不能预测出其原始模态，得到最终的共同空间。

一个或多个实施例提供了一种基于字典学习的对抗跨模态检索系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行所述的方法。

本发明的有益效果

本发明提出了一种基于字典学习的对抗跨模态检索方法和系统，该方法用字典学习来进行特征提取，用重构系数代替原始特征，增大了重要特征的权重，缩小了次要特征的权重，也使得重构之后的图像和文本模态维度近似；用对抗学习更好的学习图像模态和文本模态的公共空间，考虑了多模态数据复杂的统计特性，通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟，得到一个有效的同构空间，能极大提高跨模态检索的准确率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例一中基于字典学习的对抗跨模态检索方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

方法考虑了多模态数据复杂的统计特性，并且通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟，得到一个有效的同构空间。首先，通过字典学习，用所有的训练(测试)样本来重构每一个训练(测试)样本，在一定程度上保持了每个样例的特异性。用重构系数代替原始特征，增大了重要特征的权重，缩小了次要特征的权重，也使得重构之后的图像和文本模态维度近似；然后把重构之后的训练(测试)样本的转置当做新的训练(测试)样本；通过对抗学习，一方面，保证了投影到公共空间的特征保持每个模态原始特征的固有统计特性，并且在统计上是不可区分的，另一方面，投影之后的特征具有最大相关性，可以消除异构鸿沟；最后在学习到的公共空间中进行跨模态检索，检索出与查询样例最相似的样本。常规的跨模态检索方法专注于为不同模态学习一个公共子空间，或者用经典的神经网络来进行异构模态的相似性度量。本发明异于传统方法，用字典学习来进行特征提取，用对抗学习更好的学习图像模态和文本模态的公共空间，能极大提高跨模态检索的准确率。

实施例一

本实施例提供了一种基于字典学习的对抗跨模态检索方法，具体步骤如下：

步骤S1：获取图像和文本的底层特征，构造包含图像模态和文本模态及它们的语义标签的数据集，划分为图像训练集、文本训练集、图像测试集和文本测试集。

图像训练集记为d_v为图像特征维度，m为样本个数。文本训练集记为d_t为文本特征维度，m为样本个数。X,Y都是特征矩阵。训练集中的图像文本对记为P＝{X,Y}。同理，我们可以划分出图像和文本的测试集X_te，Y_te。

以Wikipedia-CNN数据集为例，Wikipedia-CNN数据集包含2866个图像文本对及其对应的语义标签。随机抽取2173个图像文本对作为训练集，693个图像文本对作为测试集。语义标签为1-10中的一个。图像是由CNN提取得到的4096维的特征，文本由LDA提取得到的100维特征。图像训练集记为图像特征维度为4096维，样本个数为2173个。文本训练集记为文本特征维度为100维，样本个数为2173个。X,Y都是特征矩阵。训练集中的图像文本对记为P＝{X,Y}。同理，我们可以划分出图像和文本的测试集X_te，Y_te。

步骤S2：训练图像和文本的字典学习模型。由训练集和测试集的重构系数得到新的训练集和测试集。

用和分别代表图像模态和文本模态的字典，k₁和k₂分别代表图像字典和文本字典的大小，取值分别为4096、5000，图像特征维度为4096维，文本特征维度为100维，。用和分别代表图像和文本的重构系数。f(·)是图像和文本的关系函数。我们设置字典学习中的参数λ₁,λ₂,λ₃的值分别为1.5、0.001、0.01。通过字典学习模型得到新的训练集图像V，文本T，测试集图像V_te，文本T_te。根据上述变量，我们利用训练集中的样本可以构建如下的目标函数：

其中第一项和第二项是数据保真项用来表示数据描述的误差，第三项是正则化项，防止过拟合，c表示常量，和分别表示图像字典的第i行第j列的原子，文本字典的第i行第j列的原子，f(·)表示如下：

其中，P₁和P₂是投影矩阵，第一项是投影保真项，用来表示图像重构系数和文本重构系数的投影损失。λ₁，λ₂，λ₃是权重参数，不同的数据集取值略有差别。通过上面两个公式，我们得到了图像的字典D_V，文本的字典D_T，图像的重构系数A_V，文本的重构系数A_T。

利用图像和文本的字典，通过下式，我们可以得到测试集的重构系数和

我们把训练集的图像重构系数A_V，文本重构系数A_T，测试集的图像重构系数文本重构系数的转置形式当做新的训练集图像V，文本T，测试集图像V_te，文本T_te。

步骤S3：学习图像和文本的共同表示空间。把训练集和测试集中的图像和文本分别经过四层和三层的前馈全连接的网络，每一层的激活函数都是tanh函数，最后得到图像和文本投影之后的表示以及图像和文本的共同表示空间，该空间的维度为语义的整数倍。

把V和T分别经过四层和三层的前馈全连接的网络，每一层用tanh函数激活，将实数映射到[-1,1]范围。图像和文本的维度变化分别为：4096→1024→512→256→40和5000→512→256→40，最后学习到一个40维的共同表示空间S，f_V(V；θ_V)、f_T(T；θ_T)分别为图像和文本投影之后的表示，维度都是2173×40。

步骤S4：把公共空间里的文本和图像输入到特征保持器，可以对图像和文本进行特征判别和三重排序。

步骤S41:进行特征判别。把f_V(V；θ_V)、f_T(T；θ_T)经过一个全连接层，输出结点的个数等于数据集的语义类别数，得到把真实标签l_i和概率函数输入到Softmax交叉熵损失层，通过下式得到模内判别损失。

步骤S42：进行三重排序。

首先，构建两个三元组，分别是检索图像、文本正例、文本负例检索文本、图像正例、图像负例用l₂范数定义每对投影后的图像和文本的距离：

l₂(v,t)＝||f_V(v；θ_V)-f_T(t；θ_T)||₂。我们可以得到模间不变性损失L_triV(θ_V)+L_triT(θ_T)。通过对DNNs每一层的参数进行约束，我们得到正则化项由模内判别损失、模间不变性损失和正则化项，我们可以得到特征保持损失如下：

L_fr(θ_V,θ_T,θ_D)＝α(L_triV(θ_V)+L_triT(θ_T))+βL_dis(θ_D)+L_reg,

α和β是平衡参数，我们一般在Wikipedia-CNN数据集上取值200、0.002，其余数据集上取100、0.02。

步骤S5：学习模态分类器。输入任意一个未知的投影特征，经过三层全连接层和softmax交叉熵损失层，输出为每个模态的概率。

从共同空间中随机抽取一个样本o_i，记每个样例的真实标签为m_i，计算o_i关于m_i的梯度值，把该梯度值通过三层全连接网络，得到一个两维的输出。再经过Softmax交叉熵损失层，最小化以下模间对抗损失函数：

如果输出01，代表样本o_j的原始模态为图像，输出10，代表原始模态为文本。

步骤S6：特征保持器和模态分类器进行对抗学习，得到最终的图像和文本的共同表示空间S，进行跨模态检索。

通过上述公式，我们可以定义特征保持损失和模间对抗损失，从而得到如下目标函数：

从最终的目标函数可以看出，特征保持器和模态分类器的目的是相反的，特征保持器的目的是让相同语义的图像和文本在公共空间中保持一致，而模态分类器则是区分投影特征的原始模态。利用随机梯度下降法对最终的目标函数进行优化，直到从共同空间中随机抽取一个样本，模态分类器不能预测出其原始模态，说明本发明中提到的字典模型和对抗模型可以很好地消除图像和文本的异构鸿沟，得到最终的共同空间。

经过多次实验，最终确定在第200代训练结束时，步骤S3，步骤S4，步骤S5中定义的损失收敛于各自的最小值，得到最终的对抗网络模型。

通过对训练样例训练多次，我们得到该方法的模型，把图像的测试样本和文本的测试样本输入到该模型，依次得到网络输出可以求得查询样本和待检索的样本两两之间的欧式距离(693×693维)，并将该距离从小到大排序，距离越小的代表与查询样本越匹配。

对比查询样本的标签和检索到的样本标签，计算图像检索文本(I2T)、文本检索图像(T2I)及其平均(Avg)的MAP值。表1和表2是本发明提出的方法与5种浅层学习方法和2种深度学习方法在四个常用的跨模态数据集上的MAP值。我们可以得出结论：本发明提出的方法有效提高了跨模态检索的精度。

表1 Wikipedia数据集和Wikipedia-CNN数据集上所有方法的MAP值，

后缀加D的方法是深度学习的方法

表2 Pascal Sentence数据集和INRIA-Websearch数据集上所有方法的MAP值，

后缀加D的方法是深度学习的方法

实施例二

本实施例的目的是提供一种计算系统。

一种基于字典学习的对抗跨模态检索系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

构建字典学习模型，基于图像和文本的训练集进行训练，得到图像字典、文本字典、图像重构系数和文本重构系数；

将训练集的图像重构系数和文本重构系数，以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集；

将所述新的图像和文本的训练集投影至共同表示空间；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

将所述新的图像和文本的训练集投影至共同表示空间；

以上实施例二和三涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于字典学习的对抗跨模态检索方法，其特征在于，包括以下步骤：

将所述新的图像和文本的训练集投影至共同表示空间；

2.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述构造新的训练集和测试集包括：

3.如权利要求2所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述训练字典学习模型包括：

利用训练集中的样本构建如下的目标函数：

其中，P₁和P₂是投影矩阵，λ₁，λ₂，λ₃是权重参数。

4.如权利要求3所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述计算测试集的图像重构系数和文本重构系数的方法为：

和分别为测试集的图像和文本重构系数。

5.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述投影至共同表示空间包括：

6.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述特征判别包括：

计算模内判别损失：

7.如权利要求6所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，

所述三重判别包括：

通过对DNNs每一层的参数进行约束，得到正则化项；

L_fr(θ_V,θ_T,θ_D)＝α(L_triV(θ_V)+L_triT(θ_T))+βL_dis(θ_D)+L_reg,

α和β是平衡参数。

8.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述优化共同表示空间包括：

根据特征保持损失和模间对抗损失得到最终的目标函数；

9.一种基于字典学习的对抗跨模态检索系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行如权利要求1-8任一项所述的方法。