CN112100410A

CN112100410A - 一种基于语义条件关联学习的跨模态检索方法及系统

Info

Publication number: CN112100410A
Application number: CN202010810819.XA
Authority: CN
Inventors: 王树徽; 宋国利; 黄庆明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-18

Abstract

本发明提出一种基于语义条件关联学习的跨模态检索方法及系统，本发明将多标签信息作为一种新的观测模态，并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面，通过标签语义信息指导各模态的特征学习过程，获得保持语义关系且具有判别力的深度特征表示，提高了跨模态检索的性能。另一方面，利用深度网络挖掘多标签数据中的高层语义，利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性，可以从各模态数据中消除共享语义信息，建立不同模态间的直接关联关系，从而有效降低噪声标签对跨模态隐含表示的影响。

Description

一种基于语义条件关联学习的跨模态检索方法及系统

技术领域

本发明涉及多媒体领域的跨模态检索技术，特别涉及针对跨模态数据的高层语义条件关联学习技术。

背景技术

跨模态检索技术是多媒体领域的重要研究课题之一，为了方便用户获取需要的多种模态信息。跨模态检索可以从海量多媒体信息中为给定模态数据匹配到另一种模态的语义相关数据。因此，跨模态检索技术需解决如何建立异构模态内容间的关联关系问题。

目前，大多数跨模态检索算法通过学习不同模态样本的共同隐含空间，实现异构模态间的关系度量。为了保持跨模态隐含空间的语义一致性，现有方法通常将样本带有的标签作为监督信息，用于指导隐含空间的学习。Gong等人将语义类别信息作为一种模态，基于典型相关性分析方法(CCA,canonical correlation analysis)使属于同一语义类别的图像和文本在隐含空间距离相近。Ranjan等人利用多标签信息学习不同模态的共同语义空间，使跨模态语义关联不再局限于一一对应的共生关系或简单的类别关系。这些方法通过利用标签语义改善跨模态检索的结果，但是对标签的使用方式较为简单直接。事实上，不同用户对模态内容的理解存在差异性，导致用户标注的标签可能存在歧义、模糊、冗余等噪声问题(例如对于一篇关于故宫的文章，有人可能标注“建筑”、有人可能标注“历史”、有人可能标注“文化”)，而现有方法往往忽略了这些问题。按照现有方法，当不同样本具有语义相似的噪声标签时，即使样本内容差异性较大，它们仍有极大可能被作为相似结果检索到，而这样的结果并不符合用户需求。因此，语义监督的跨模态检索算法需考虑如何降低噪声标签对跨模态语义关联关系的影响，并获得更有判别力的跨模态隐含空间表示。

发明内容

本发明的目的是针对用户标注标签存在噪声以及跨模态隐含空间表示缺乏判别力的问题，提出了一种基于语义条件关联学习的跨模态检索方法。

针对现有技术的不足，本发明提出一种基于语义条件关联学习的跨模态检索方法，其中包括：

步骤1、获取由多个样本构成的样本集，该样本为已标记标签的图像文本对，通过图像神经网络将图像文本对中图像嵌入隐含空间，得到图像嵌入特征，通过文本神经网络将图像文本对中文本嵌入隐含空间，得到文本嵌入特征，并通过标签神经网络将图像文本对的标签嵌入隐含空间，得到标签嵌入特征；

步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数；

步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端，得到图像分类模型和文本分类模型，通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布，基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数；

步骤4、通过第一线性变换矩阵对标签嵌入特征进行线性变换，得到高层语义信息，根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系，构建条件关联约束损失函数；

步骤5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练，得到最终图像模型和最终文本模型，利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中；

步骤6、获取包含文本或图像的待检索样本，通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示，将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。

所述的基于语义条件关联学习的跨模态检索方法，其中图像模态和文本模态的成对约束损失函数分别为：

其中

分别表示图像嵌入特征间和文本嵌入特征间的相似度，

和

分别为图像嵌入特征的第i列和第j列，

和

分别为文本嵌入特征的第i列和第j列，N为图像-文本对总数量，式中L_pair ¹为图像模态的成对约束损失，式中L_pair ²为文本模态的成对约束损失。

所述的基于语义条件关联学习的跨模态检索方法，其中图像模态和文本模态的判别约束损失函数分别为：

式中L_dis ¹为图像模态的判别约束损失，式中L_dis ²为文本模态的判别约束损失，

为第i个样本关于语义类别的概率分布，x_i为图像文本对具有标签，样本集中第i个图像样本表示为

第i个文本表示为

所述的基于语义条件关联学习的跨模态检索方法，其中该条件关联约束损失函数为：

L_pcca为条件关联约束损失。U_F ¹为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合，U_F ²为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合，W_G为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合，G为标签嵌入特征经线性变换后的高层语义表示，Y¹为图像样本集的矩阵表示，Y²为文本样本集的矩阵表示，F¹(Y¹|G)为从图像嵌入特征消除语义信息影响后的最终表示，F²(Y²|G)为从文本嵌入特征消除语义信息影响后的最终表示，

为F¹(Y¹|G)的自协方差矩阵，

为F²(Y²|G)的自协方差矩阵，I为单位矩阵，||·||_F为Frobenius范数。

所述的基于语义条件关联学习的跨模态检索方法，其中该步骤5包括：

综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数，可得本发明的优化目标为：

其中α和β为权衡参数。

本发明还提出了一种基于语义条件关联学习的跨模态检索系统，其中包括：

模块1、获取由多个样本构成的样本集，该样本为已标记标签的图像文本对，通过图像神经网络将图像文本对中图像嵌入隐含空间，得到图像嵌入特征，通过文本神经网络将图像文本对中文本嵌入隐含空间，得到文本嵌入特征，并通过标签神经网络将图像文本对的标签嵌入隐含空间，得到标签嵌入特征；

模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数；

模块3、分别添加分类器至图像神经网络和文本神经网络的输出端，得到图像分类模型和文本分类模型，通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布，基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数；

模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换，得到高层语义信息，根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系，构建条件关联约束损失函数；

模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练，得到最终图像模型和最终文本模型，利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中；

模块6、获取包含文本或图像的待检索样本，通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示，将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。

所述的基于语义条件关联学习的跨模态检索系统，其中图像模态和文本模态的成对约束损失函数分别为：

其中

分别表示图像嵌入特征间和文本嵌入特征间的相似度，

和

分别为图像嵌入特征的第i列和第j列，

和

所述的基于语义条件关联学习的跨模态检索系统，其中图像模态和文本模态的判别约束损失函数分别为：

第i个文本表示为

所述的基于语义条件关联学习的跨模态检索系统，其中该条件关联约束损失函数为：

为F¹(Y¹|G)的自协方差矩阵，

所述的基于语义条件关联学习的跨模态检索系统，其中该模块5包括：

其中α和β为权衡参数。

由以上方案可知，本发明的优点在于：

传统的跨模态检索算法忽略了用户标注标签存在噪声的问题，欠缺对标签中不可靠信息的处理。该发明将多标签信息作为一种新的观测模态，并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面，通过标签语义信息指导各模态的特征学习过程，获得保持语义关系且具有判别力的深度特征表示，提高了跨模态检索的性能。另一方面，利用深度网络挖掘多标签数据中的高层语义，利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性，可以从各模态数据中消除共享语义信息，建立不同模态间的直接关联关系，从而有效降低噪声标签对跨模态隐含表示的影响。

附图说明

图1为本发明方法流程图；

图2为本发明跨模态检索系统总体框架图。

具体实施方式

本发明包括以下两点关键点：

关键点1：利用标签信息指导各模态数据的深度特征学习；在技术效果上，使各模态特征表示保持多标签语义相似关系，确保特征表示的语义判别力，提升跨媒体检索效果。

关键点2：针对模态特征表示及高层语义信息建立条件关联关系；在技术效果上，有效挖掘不同模态间的高层语义关联，降低噪声标签对跨模态隐含表示的影响，提升跨模态检索的准确性。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提出了一种基于语义条件关联学习的跨模态检索方法。以文本和图像两个模态为例，将多标签信息作为第三种模态用于指导图像模态和文本模态的隐含表示学习过程。附图1为本发明的方法流程图。

首先，利用深度神经网络(DNN，deep neural network)学习各模态样本的嵌入特征表示，利用DNN将各模态样本嵌入(映射)到隐含空间。将第i个图像样本表示为

第i个文本表示为

第i对图像-文本对具有标签表示x_i。例如，图1中给出的一对图像和文本具有共同的标签{“person”，“car”，“motorcycle”}。相应地，各模态数据集可分别表示为矩阵形式

和X＝[x₁,...,x_N]，N为图像-文本对总数量。对图像输入Y¹、文本输入Y²、标签输入X分别利用DNN模型进行多层非线性映射变换，并输出图像嵌入特征f¹＝f¹(Y¹)，文本嵌入特征f²＝f²(Y²)，标签嵌入特征g＝g(X)，其中公式右边表示映射函数，左边表示特征，左边也可以看作等式右边的简写形式。

其次，对于图像网络和文本网络，为了保持其输出特征的语义相关关系，我们对每一网络引入多标签标注信息来指导各模态数据的特征学习过程。本发明利用样本标签间的相似度作为成对样本间的语义相似度，即S_ij＝(X_*i)^TX_*j，其中X_*i和X_*j分别表示X的第i列和第j列，即星号表示矩阵的所有行下标值。通过最小化语义相似度的负对数似然来保持成对样本间的语义相似关系，得到成对约束损失函数：

其中

分别表示图像特征间和文本特征间的相似度，N为图像-文本对总数量，式中L_pair ¹为图像模态的成对约束损失，式中L_pair ²为文本模态的成对约束损失。

另外，为了满足本发明的跨模态检索应用需求，需要图像和文本的网络嵌入表示具有充分的语义判别性，使不同类别的样本可以有效区分。为此，本发明在DNN结构的基础上引入softmax分类器，通过将DNN的输出连到分类器的输入，对图像网络和文本网络的输出表示进一步训练，并得到每一样本关于语义类别的概率分布

然后通过计算交叉熵分别得到图像模态和文本模态的判别约束损失函数，成对约束损失函数用于保持样本间的语义相似关系，使得具有相似语义的样本在嵌入空间的表示仍然相似。判别约束损失函数用于保持样本间的语义判别性，使得语义不相同的样本在嵌入空间的表示具有较大的差异性：

为第i个样本关于语义类别的概率分布，具体来说上述公式1中的

针对图片样本，公式2中的

针对文本样本。两者的计算方式是类似的，都是通过softmax分类器得到。

本发明利用图像和文本的共享标签语义构造成对约束和判别约束，保证了各模态样本特征经多层变换后仍保持样本间的原始语义关系，使得具有相似语义的样本在嵌入空间的表示仍然相似，具有不同语义的样本在嵌入空间的表示具有较大的差异性。

最后，本发明基于高层语义信息学习图像嵌入特征f¹和文本嵌入特征f²之间的条件关联关系，构建条件关联分析方法降低噪声标签对跨模态隐含表示的影响，从而实现准确有效的跨模态检索。

本发明按照条件关联分析方法(PCCA，partial canonical correlationanalysis)，最大化图像嵌入特征f¹和文本嵌入特征f²关于共同语义信息的典型相关性。为此，需构建回归模型：

其中B¹和B²是回归系数矩阵，G＝G(X)＝W^Tg(X)是高层语义表示。

和

是随机误差矩阵，表示从图像嵌入特征f¹和文本嵌入特征f²中消除语义信息后的影响。通过最小化回归模型的均方误差，可以得到最优的系数矩阵

和

其中Σ为协方差矩阵，即

Σ_GG＝cov(G,G)。

条件关联分析方法需要最大化随机误差矩阵

和

间的典型相关性，通过计算可得目标损失函数：

其中

从损失函数可见，图像嵌入特征和文本嵌入特征通过线性变换矩阵U¹和U²被映射到跨模态共同隐含空间中，并且在共同隐含空间的表示为：F¹＝F¹(Y¹)＝(U¹)^Tf¹，F²＝F²(Y²)＝(U²)^Tf²。各模态网络参数和线性变换矩阵组成了需优化学习的参数：

W_G＝{W_g,W}。

综合上述三种损失函数，可得本发明的优化目标为：

综合上述三种损失函数得到的最终损失函数是为了指导上述由DNN和分类器组成的神经网络的训练，以及指导线性变换U¹、U²和W的训练。

其中α和β为权衡参数，本发明假设图像模态和文本模态在模型训练中具有同等重要性。下标1和2分别代表图像模态和文本模态。同等重要性指

和

的系数相等，都是α；类似地，

和

的系数相等，都是β。

我们采用非线性正交迭代(NOI，nonlinear orthogonal iterations)算法对目标函数进行求解，通过随机优化实现高效训练。在学到的共同隐含空间上，我们可以比较不同模态的隐含表示间的相似度，通过对相似度排序实现跨模态检索。

跨模态检索系统总体框架如图2所示。利用本发明提出的语义条件关联学习模型对图像、文本、标签数据进行训练，获得不同模态的共同隐含空间。然后，通过度量各模态数据在隐含空间的嵌入表示间的相似度，进行跨模态检索。图2中以文本检索图像的任务为例，首先利用训练好的模型学习查询文本在隐含空间的表示；然后利用距离度量函数(如欧氏距离、余弦距离等)比较其他样本与该查询样本在隐含空间中的语义距离；最后通过对所有距离进行排序，即可找到离查询文本最近的图像结果，实现跨模态检索。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

其中

分别表示图像嵌入特征间和文本嵌入特征间的相似度，

和

分别为图像嵌入特征的第i列和第j列，

和

第i个文本表示为

为F¹(Y¹|G)的自协方差矩阵，

其中α和β为权衡参数。

Claims

1.一种基于语义条件关联学习的跨模态检索方法，其特征在于，包括：

2.如权利要求1所述的基于语义条件关联学习的跨模态检索方法，其特征在于，图像模态和文本模态的成对约束损失函数分别为：

其中

分别表示图像嵌入特征间和文本嵌入特征间的相似度，

和

分别为图像嵌入特征的第i列和第j列，

和

3.如权利要求1或2所述的基于语义条件关联学习的跨模态检索方法，其特征在于，图像模态和文本模态的判别约束损失函数分别为：

第i个文本表示为

4.如权利要求3所述的基于语义条件关联学习的跨模态检索方法，其特征在于，该条件关联约束损失函数为：

L_pcca为条件关联约束损失。

为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合，

为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合，W_G为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合，G为标签嵌入特征经线性变换后的高层语义表示，Y¹为图像样本集的矩阵表示，Y²为文本样本集的矩阵表示，F¹(Y¹|G)为从图像嵌入特征消除语义信息影响后的最终表示，F²(Y²|G)为从文本嵌入特征消除语义信息影响后的最终表示，