CN112100410A - 一种基于语义条件关联学习的跨模态检索方法及系统 - Google Patents
一种基于语义条件关联学习的跨模态检索方法及系统 Download PDFInfo
- Publication number
- CN112100410A CN112100410A CN202010810819.XA CN202010810819A CN112100410A CN 112100410 A CN112100410 A CN 112100410A CN 202010810819 A CN202010810819 A CN 202010810819A CN 112100410 A CN112100410 A CN 112100410A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- cross
- modal
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于语义条件关联学习的跨模态检索方法及系统,本发明将多标签信息作为一种新的观测模态,并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面,通过标签语义信息指导各模态的特征学习过程,获得保持语义关系且具有判别力的深度特征表示,提高了跨模态检索的性能。另一方面,利用深度网络挖掘多标签数据中的高层语义,利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性,可以从各模态数据中消除共享语义信息,建立不同模态间的直接关联关系,从而有效降低噪声标签对跨模态隐含表示的影响。
Description
技术领域
本发明涉及多媒体领域的跨模态检索技术,特别涉及针对跨模态数据的高层语义条件关联学习技术。
背景技术
跨模态检索技术是多媒体领域的重要研究课题之一,为了方便用户获取需要的多种模态信息。跨模态检索可以从海量多媒体信息中为给定模态数据匹配到另一种模态的语义相关数据。因此,跨模态检索技术需解决如何建立异构模态内容间的关联关系问题。
目前,大多数跨模态检索算法通过学习不同模态样本的共同隐含空间,实现异构模态间的关系度量。为了保持跨模态隐含空间的语义一致性,现有方法通常将样本带有的标签作为监督信息,用于指导隐含空间的学习。Gong等人将语义类别信息作为一种模态,基于典型相关性分析方法(CCA,canonical correlation analysis)使属于同一语义类别的图像和文本在隐含空间距离相近。Ranjan等人利用多标签信息学习不同模态的共同语义空间,使跨模态语义关联不再局限于一一对应的共生关系或简单的类别关系。这些方法通过利用标签语义改善跨模态检索的结果,但是对标签的使用方式较为简单直接。事实上,不同用户对模态内容的理解存在差异性,导致用户标注的标签可能存在歧义、模糊、冗余等噪声问题(例如对于一篇关于故宫的文章,有人可能标注“建筑”、有人可能标注“历史”、有人可能标注“文化”),而现有方法往往忽略了这些问题。按照现有方法,当不同样本具有语义相似的噪声标签时,即使样本内容差异性较大,它们仍有极大可能被作为相似结果检索到,而这样的结果并不符合用户需求。因此,语义监督的跨模态检索算法需考虑如何降低噪声标签对跨模态语义关联关系的影响,并获得更有判别力的跨模态隐含空间表示。
发明内容
本发明的目的是针对用户标注标签存在噪声以及跨模态隐含空间表示缺乏判别力的问题,提出了一种基于语义条件关联学习的跨模态检索方法。
针对现有技术的不足,本发明提出一种基于语义条件关联学习的跨模态检索方法,其中包括:
步骤1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
步骤4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
步骤5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
步骤6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
所述的基于语义条件关联学习的跨模态检索方法,其中图像模态和文本模态的成对约束损失函数分别为:
其中分别表示图像嵌入特征间和文本嵌入特征间的相似度,和分别为图像嵌入特征的第i列和第j列,和分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
所述的基于语义条件关联学习的跨模态检索方法,其中图像模态和文本模态的判别约束损失函数分别为:
所述的基于语义条件关联学习的跨模态检索方法,其中该条件关联约束损失函数为:
Lpcca为条件关联约束损失。UF 1为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,UF 2为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,为F1(Y1|G)的自协方差矩阵,为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
所述的基于语义条件关联学习的跨模态检索方法,其中该步骤5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
其中α和β为权衡参数。
本发明还提出了一种基于语义条件关联学习的跨模态检索系统,其中包括:
模块1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
模块3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
模块6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的成对约束损失函数分别为:
其中分别表示图像嵌入特征间和文本嵌入特征间的相似度,和分别为图像嵌入特征的第i列和第j列,和分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的判别约束损失函数分别为:
所述的基于语义条件关联学习的跨模态检索系统,其中该条件关联约束损失函数为:
Lpcca为条件关联约束损失。UF 1为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,UF 2为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,为F1(Y1|G)的自协方差矩阵,为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
所述的基于语义条件关联学习的跨模态检索系统,其中该模块5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
其中α和β为权衡参数。
由以上方案可知,本发明的优点在于:
传统的跨模态检索算法忽略了用户标注标签存在噪声的问题,欠缺对标签中不可靠信息的处理。该发明将多标签信息作为一种新的观测模态,并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面,通过标签语义信息指导各模态的特征学习过程,获得保持语义关系且具有判别力的深度特征表示,提高了跨模态检索的性能。另一方面,利用深度网络挖掘多标签数据中的高层语义,利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性,可以从各模态数据中消除共享语义信息,建立不同模态间的直接关联关系,从而有效降低噪声标签对跨模态隐含表示的影响。
附图说明
图1为本发明方法流程图;
图2为本发明跨模态检索系统总体框架图。
具体实施方式
本发明包括以下两点关键点:
关键点1:利用标签信息指导各模态数据的深度特征学习;在技术效果上,使各模态特征表示保持多标签语义相似关系,确保特征表示的语义判别力,提升跨媒体检索效果。
关键点2:针对模态特征表示及高层语义信息建立条件关联关系;在技术效果上,有效挖掘不同模态间的高层语义关联,降低噪声标签对跨模态隐含表示的影响,提升跨模态检索的准确性。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种基于语义条件关联学习的跨模态检索方法。以文本和图像两个模态为例,将多标签信息作为第三种模态用于指导图像模态和文本模态的隐含表示学习过程。附图1为本发明的方法流程图。
首先,利用深度神经网络(DNN,deep neural network)学习各模态样本的嵌入特征表示,利用DNN将各模态样本嵌入(映射)到隐含空间。将第i个图像样本表示为第i个文本表示为第i对图像-文本对具有标签表示xi。例如,图1中给出的一对图像和文本具有共同的标签{“person”,“car”,“motorcycle”}。相应地,各模态数据集可分别表示为矩阵形式 和X=[x1,...,xN],N为图像-文本对总数量。对图像输入Y1、文本输入Y2、标签输入X分别利用DNN模型进行多层非线性映射变换,并输出图像嵌入特征f1=f1(Y1),文本嵌入特征f2=f2(Y2),标签嵌入特征g=g(X),其中公式右边表示映射函数,左边表示特征,左边也可以看作等式右边的简写形式。
其次,对于图像网络和文本网络,为了保持其输出特征的语义相关关系,我们对每一网络引入多标签标注信息来指导各模态数据的特征学习过程。本发明利用样本标签间的相似度作为成对样本间的语义相似度,即Sij=(X*i)TX*j,其中X*i和X*j分别表示X的第i列和第j列,即星号表示矩阵的所有行下标值。通过最小化语义相似度的负对数似然来保持成对样本间的语义相似关系,得到成对约束损失函数:
另外,为了满足本发明的跨模态检索应用需求,需要图像和文本的网络嵌入表示具有充分的语义判别性,使不同类别的样本可以有效区分。为此,本发明在DNN结构的基础上引入softmax分类器,通过将DNN的输出连到分类器的输入,对图像网络和文本网络的输出表示进一步训练,并得到每一样本关于语义类别的概率分布然后通过计算交叉熵分别得到图像模态和文本模态的判别约束损失函数,成对约束损失函数用于保持样本间的语义相似关系,使得具有相似语义的样本在嵌入空间的表示仍然相似。判别约束损失函数用于保持样本间的语义判别性,使得语义不相同的样本在嵌入空间的表示具有较大的差异性:
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,为第i个样本关于语义类别的概率分布,具体来说上述公式1中的针对图片样本,公式2中的针对文本样本。两者的计算方式是类似的,都是通过softmax分类器得到。
本发明利用图像和文本的共享标签语义构造成对约束和判别约束,保证了各模态样本特征经多层变换后仍保持样本间的原始语义关系,使得具有相似语义的样本在嵌入空间的表示仍然相似,具有不同语义的样本在嵌入空间的表示具有较大的差异性。
最后,本发明基于高层语义信息学习图像嵌入特征f1和文本嵌入特征f2之间的条件关联关系,构建条件关联分析方法降低噪声标签对跨模态隐含表示的影响,从而实现准确有效的跨模态检索。
本发明按照条件关联分析方法(PCCA,partial canonical correlationanalysis),最大化图像嵌入特征f1和文本嵌入特征f2关于共同语义信息的典型相关性。为此,需构建回归模型:
其中B1和B2是回归系数矩阵,G=G(X)=WTg(X)是高层语义表示。和是随机误差矩阵,表示从图像嵌入特征f1和文本嵌入特征f2中消除语义信息后的影响。通过最小化回归模型的均方误差,可以得到最优的系数矩阵和其中Σ为协方差矩阵,即 ΣGG=cov(G,G)。
其中
从损失函数可见,图像嵌入特征和文本嵌入特征通过线性变换矩阵U1和U2被映射到跨模态共同隐含空间中,并且在共同隐含空间的表示为:F1=F1(Y1)=(U1)Tf1,F2=F2(Y2)=(U2)Tf2。各模态网络参数和线性变换矩阵组成了需优化学习的参数:WG={Wg,W}。
综合上述三种损失函数,可得本发明的优化目标为:
综合上述三种损失函数得到的最终损失函数是为了指导上述由DNN和分类器组成的神经网络的训练,以及指导线性变换U1、U2和W的训练。
我们采用非线性正交迭代(NOI,nonlinear orthogonal iterations)算法对目标函数进行求解,通过随机优化实现高效训练。在学到的共同隐含空间上,我们可以比较不同模态的隐含表示间的相似度,通过对相似度排序实现跨模态检索。
跨模态检索系统总体框架如图2所示。利用本发明提出的语义条件关联学习模型对图像、文本、标签数据进行训练,获得不同模态的共同隐含空间。然后,通过度量各模态数据在隐含空间的嵌入表示间的相似度,进行跨模态检索。图2中以文本检索图像的任务为例,首先利用训练好的模型学习查询文本在隐含空间的表示;然后利用距离度量函数(如欧氏距离、余弦距离等)比较其他样本与该查询样本在隐含空间中的语义距离;最后通过对所有距离进行排序,即可找到离查询文本最近的图像结果,实现跨模态检索。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于语义条件关联学习的跨模态检索系统,其中包括:
模块1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
模块3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
模块6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的成对约束损失函数分别为:
其中分别表示图像嵌入特征间和文本嵌入特征间的相似度,和分别为图像嵌入特征的第i列和第j列,和分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的判别约束损失函数分别为:
所述的基于语义条件关联学习的跨模态检索系统,其中该条件关联约束损失函数为:
Lpcca为条件关联约束损失。UF 1为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,UF 2为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,为F1(Y1|G)的自协方差矩阵,为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
所述的基于语义条件关联学习的跨模态检索系统,其中该模块5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
其中α和β为权衡参数。
Claims (10)
1.一种基于语义条件关联学习的跨模态检索方法,其特征在于,包括:
步骤1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
步骤4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
步骤5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
步骤6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
4.如权利要求3所述的基于语义条件关联学习的跨模态检索方法,其特征在于,该条件关联约束损失函数为:
Lpcca为条件关联约束损失。为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,为F1(Y1|G)的自协方差矩阵,为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
6.一种基于语义条件关联学习的跨模态检索系统,其特征在于,包括:
模块1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
模块3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
模块6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
9.如权利要求8所述的基于语义条件关联学习的跨模态检索系统,其特征在于,该条件关联约束损失函数为:
Lpcca为条件关联约束损失。为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,为F1(Y1|G)的自协方差矩阵,为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810819.XA CN112100410A (zh) | 2020-08-13 | 2020-08-13 | 一种基于语义条件关联学习的跨模态检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810819.XA CN112100410A (zh) | 2020-08-13 | 2020-08-13 | 一种基于语义条件关联学习的跨模态检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100410A true CN112100410A (zh) | 2020-12-18 |
Family
ID=73753413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010810819.XA Pending CN112100410A (zh) | 2020-08-13 | 2020-08-13 | 一种基于语义条件关联学习的跨模态检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100410A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836068A (zh) * | 2021-03-24 | 2021-05-25 | 南京大学 | 一种基于带噪标签学习的无监督跨模态哈希检索方法 |
CN112836746A (zh) * | 2021-02-02 | 2021-05-25 | 中国科学技术大学 | 基于一致性图建模的语义对应方法 |
CN112905540A (zh) * | 2021-02-05 | 2021-06-04 | 智慧芽信息科技(苏州)有限公司 | 检索文件的方法和装置 |
CN112989218A (zh) * | 2021-03-12 | 2021-06-18 | 西华大学 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
CN113010697A (zh) * | 2021-03-23 | 2021-06-22 | 华南理工大学 | 用于无监督跨模态检索的充分场景表达生成方法 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113111161A (zh) * | 2021-04-09 | 2021-07-13 | 北京语言大学 | 一种跨媒体关联分析方法 |
CN113157678A (zh) * | 2021-04-19 | 2021-07-23 | 中国人民解放军91977部队 | 一种多源异构数据关联方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284414A (zh) * | 2018-09-30 | 2019-01-29 | 中国科学院计算技术研究所 | 基于语义保持的跨模态内容检索方法和系统 |
CN111428071A (zh) * | 2020-03-26 | 2020-07-17 | 电子科技大学 | 一种基于多模态特征合成的零样本跨模态检索方法 |
-
2020
- 2020-08-13 CN CN202010810819.XA patent/CN112100410A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284414A (zh) * | 2018-09-30 | 2019-01-29 | 中国科学院计算技术研究所 | 基于语义保持的跨模态内容检索方法和系统 |
CN111428071A (zh) * | 2020-03-26 | 2020-07-17 | 电子科技大学 | 一种基于多模态特征合成的零样本跨模态检索方法 |
Non-Patent Citations (1)
Title |
---|
GUOLI SONG ET.AL: "Learning Feature Representation and Partial Correlation for Multimodal Multi-Label Data", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836746B (zh) * | 2021-02-02 | 2022-09-09 | 中国科学技术大学 | 基于一致性图建模的语义对应方法 |
CN112836746A (zh) * | 2021-02-02 | 2021-05-25 | 中国科学技术大学 | 基于一致性图建模的语义对应方法 |
CN112905540A (zh) * | 2021-02-05 | 2021-06-04 | 智慧芽信息科技(苏州)有限公司 | 检索文件的方法和装置 |
CN112989218B (zh) * | 2021-03-12 | 2022-06-28 | 西华大学 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
CN112989218A (zh) * | 2021-03-12 | 2021-06-18 | 西华大学 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
CN113010697A (zh) * | 2021-03-23 | 2021-06-22 | 华南理工大学 | 用于无监督跨模态检索的充分场景表达生成方法 |
CN113010697B (zh) * | 2021-03-23 | 2022-09-20 | 华南理工大学 | 用于无监督跨模态检索的充分场景表达生成方法 |
CN112836068A (zh) * | 2021-03-24 | 2021-05-25 | 南京大学 | 一种基于带噪标签学习的无监督跨模态哈希检索方法 |
CN112836068B (zh) * | 2021-03-24 | 2023-09-26 | 南京大学 | 一种基于带噪标签学习的无监督跨模态哈希检索方法 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113111161A (zh) * | 2021-04-09 | 2021-07-13 | 北京语言大学 | 一种跨媒体关联分析方法 |
CN113111161B (zh) * | 2021-04-09 | 2023-09-08 | 北京语言大学 | 一种跨媒体关联分析方法 |
CN113157678A (zh) * | 2021-04-19 | 2021-07-23 | 中国人民解放军91977部队 | 一种多源异构数据关联方法 |
CN113157678B (zh) * | 2021-04-19 | 2022-03-15 | 中国人民解放军91977部队 | 一种多源异构数据关联方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100410A (zh) | 一种基于语义条件关联学习的跨模态检索方法及系统 | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN112905822B (zh) | 一种基于注意力机制的深度监督跨模态对抗学习方法 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN112434628B (zh) | 基于主动学习和协同表示的小样本图像分类方法 | |
Sun et al. | Global-local label correlation for partial multi-label learning | |
CN111460077A (zh) | 一种基于类语义引导的跨模态哈希检索方法 | |
CN111461157A (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN112164067A (zh) | 一种基于多模态子空间聚类的医学图像分割方法及装置 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN113626589A (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN115879473B (zh) | 基于改进图注意力网络的中文医疗命名实体识别方法 | |
Huang et al. | Zero-shot Chinese text recognition via matching class embedding | |
CN116611024A (zh) | 一种基于事实和情感对立性的多模态反讽检测方法 | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
CN110705384B (zh) | 一种基于跨域迁移增强表示的车辆再识别方法 | |
CN113010700A (zh) | 一种基于类别信息对齐的图像文本跨模态检索方法 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN115309927A (zh) | 多标签引导和多视图度量的海洋遥感图像检索方法及系统 | |
CN116108215A (zh) | 基于深度融合的跨模态大数据检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201218 |
|
WD01 | Invention patent application deemed withdrawn after publication |