CN112100410A - 一种基于语义条件关联学习的跨模态检索方法及系统 - Google Patents

一种基于语义条件关联学习的跨模态检索方法及系统 Download PDF

Info

Publication number
CN112100410A
CN112100410A CN202010810819.XA CN202010810819A CN112100410A CN 112100410 A CN112100410 A CN 112100410A CN 202010810819 A CN202010810819 A CN 202010810819A CN 112100410 A CN112100410 A CN 112100410A
Authority
CN
China
Prior art keywords
text
image
cross
modal
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010810819.XA
Other languages
English (en)
Inventor
王树徽
宋国利
黄庆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010810819.XA priority Critical patent/CN112100410A/zh
Publication of CN112100410A publication Critical patent/CN112100410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于语义条件关联学习的跨模态检索方法及系统,本发明将多标签信息作为一种新的观测模态,并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面,通过标签语义信息指导各模态的特征学习过程,获得保持语义关系且具有判别力的深度特征表示,提高了跨模态检索的性能。另一方面,利用深度网络挖掘多标签数据中的高层语义,利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性,可以从各模态数据中消除共享语义信息,建立不同模态间的直接关联关系,从而有效降低噪声标签对跨模态隐含表示的影响。

Description

一种基于语义条件关联学习的跨模态检索方法及系统
技术领域
本发明涉及多媒体领域的跨模态检索技术,特别涉及针对跨模态数据的高层语义条件关联学习技术。
背景技术
跨模态检索技术是多媒体领域的重要研究课题之一,为了方便用户获取需要的多种模态信息。跨模态检索可以从海量多媒体信息中为给定模态数据匹配到另一种模态的语义相关数据。因此,跨模态检索技术需解决如何建立异构模态内容间的关联关系问题。
目前,大多数跨模态检索算法通过学习不同模态样本的共同隐含空间,实现异构模态间的关系度量。为了保持跨模态隐含空间的语义一致性,现有方法通常将样本带有的标签作为监督信息,用于指导隐含空间的学习。Gong等人将语义类别信息作为一种模态,基于典型相关性分析方法(CCA,canonical correlation analysis)使属于同一语义类别的图像和文本在隐含空间距离相近。Ranjan等人利用多标签信息学习不同模态的共同语义空间,使跨模态语义关联不再局限于一一对应的共生关系或简单的类别关系。这些方法通过利用标签语义改善跨模态检索的结果,但是对标签的使用方式较为简单直接。事实上,不同用户对模态内容的理解存在差异性,导致用户标注的标签可能存在歧义、模糊、冗余等噪声问题(例如对于一篇关于故宫的文章,有人可能标注“建筑”、有人可能标注“历史”、有人可能标注“文化”),而现有方法往往忽略了这些问题。按照现有方法,当不同样本具有语义相似的噪声标签时,即使样本内容差异性较大,它们仍有极大可能被作为相似结果检索到,而这样的结果并不符合用户需求。因此,语义监督的跨模态检索算法需考虑如何降低噪声标签对跨模态语义关联关系的影响,并获得更有判别力的跨模态隐含空间表示。
发明内容
本发明的目的是针对用户标注标签存在噪声以及跨模态隐含空间表示缺乏判别力的问题,提出了一种基于语义条件关联学习的跨模态检索方法。
针对现有技术的不足,本发明提出一种基于语义条件关联学习的跨模态检索方法,其中包括:
步骤1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
步骤4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
步骤5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
步骤6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
所述的基于语义条件关联学习的跨模态检索方法,其中图像模态和文本模态的成对约束损失函数分别为:
Figure BDA0002630905240000021
Figure BDA0002630905240000022
其中
Figure BDA0002630905240000023
分别表示图像嵌入特征间和文本嵌入特征间的相似度,
Figure BDA0002630905240000031
Figure BDA0002630905240000032
分别为图像嵌入特征的第i列和第j列,
Figure BDA0002630905240000033
Figure BDA0002630905240000034
分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
所述的基于语义条件关联学习的跨模态检索方法,其中图像模态和文本模态的判别约束损失函数分别为:
Figure BDA0002630905240000035
Figure BDA0002630905240000036
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,
Figure BDA0002630905240000037
为第i个样本关于语义类别的概率分布,xi为图像文本对具有标签,样本集中第i个图像样本表示为
Figure BDA0002630905240000038
第i个文本表示为
Figure BDA0002630905240000039
所述的基于语义条件关联学习的跨模态检索方法,其中该条件关联约束损失函数为:
Figure BDA00026309052400000310
Figure BDA00026309052400000311
Lpcca为条件关联约束损失。UF 1为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,UF 2为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,
Figure BDA00026309052400000312
为F1(Y1|G)的自协方差矩阵,
Figure BDA00026309052400000313
为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
所述的基于语义条件关联学习的跨模态检索方法,其中该步骤5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
Figure BDA00026309052400000314
Figure BDA00026309052400000315
其中α和β为权衡参数。
本发明还提出了一种基于语义条件关联学习的跨模态检索系统,其中包括:
模块1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
模块3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
模块6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的成对约束损失函数分别为:
Figure BDA0002630905240000041
Figure BDA0002630905240000042
其中
Figure BDA0002630905240000043
分别表示图像嵌入特征间和文本嵌入特征间的相似度,
Figure BDA0002630905240000044
Figure BDA0002630905240000045
分别为图像嵌入特征的第i列和第j列,
Figure BDA0002630905240000046
Figure BDA0002630905240000051
分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的判别约束损失函数分别为:
Figure BDA0002630905240000052
Figure BDA0002630905240000053
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,
Figure BDA0002630905240000054
为第i个样本关于语义类别的概率分布,xi为图像文本对具有标签,样本集中第i个图像样本表示为
Figure BDA0002630905240000055
第i个文本表示为
Figure BDA0002630905240000056
所述的基于语义条件关联学习的跨模态检索系统,其中该条件关联约束损失函数为:
Figure BDA0002630905240000057
Figure BDA0002630905240000058
Lpcca为条件关联约束损失。UF 1为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,UF 2为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,
Figure BDA0002630905240000059
为F1(Y1|G)的自协方差矩阵,
Figure BDA00026309052400000510
为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
所述的基于语义条件关联学习的跨模态检索系统,其中该模块5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
Figure BDA00026309052400000511
Figure BDA00026309052400000512
其中α和β为权衡参数。
由以上方案可知,本发明的优点在于:
传统的跨模态检索算法忽略了用户标注标签存在噪声的问题,欠缺对标签中不可靠信息的处理。该发明将多标签信息作为一种新的观测模态,并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面,通过标签语义信息指导各模态的特征学习过程,获得保持语义关系且具有判别力的深度特征表示,提高了跨模态检索的性能。另一方面,利用深度网络挖掘多标签数据中的高层语义,利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性,可以从各模态数据中消除共享语义信息,建立不同模态间的直接关联关系,从而有效降低噪声标签对跨模态隐含表示的影响。
附图说明
图1为本发明方法流程图;
图2为本发明跨模态检索系统总体框架图。
具体实施方式
本发明包括以下两点关键点:
关键点1:利用标签信息指导各模态数据的深度特征学习;在技术效果上,使各模态特征表示保持多标签语义相似关系,确保特征表示的语义判别力,提升跨媒体检索效果。
关键点2:针对模态特征表示及高层语义信息建立条件关联关系;在技术效果上,有效挖掘不同模态间的高层语义关联,降低噪声标签对跨模态隐含表示的影响,提升跨模态检索的准确性。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种基于语义条件关联学习的跨模态检索方法。以文本和图像两个模态为例,将多标签信息作为第三种模态用于指导图像模态和文本模态的隐含表示学习过程。附图1为本发明的方法流程图。
首先,利用深度神经网络(DNN,deep neural network)学习各模态样本的嵌入特征表示,利用DNN将各模态样本嵌入(映射)到隐含空间。将第i个图像样本表示为
Figure BDA0002630905240000061
第i个文本表示为
Figure BDA0002630905240000062
第i对图像-文本对具有标签表示xi。例如,图1中给出的一对图像和文本具有共同的标签{“person”,“car”,“motorcycle”}。相应地,各模态数据集可分别表示为矩阵形式
Figure BDA0002630905240000071
Figure BDA0002630905240000072
和X=[x1,...,xN],N为图像-文本对总数量。对图像输入Y1、文本输入Y2、标签输入X分别利用DNN模型进行多层非线性映射变换,并输出图像嵌入特征f1=f1(Y1),文本嵌入特征f2=f2(Y2),标签嵌入特征g=g(X),其中公式右边表示映射函数,左边表示特征,左边也可以看作等式右边的简写形式。
其次,对于图像网络和文本网络,为了保持其输出特征的语义相关关系,我们对每一网络引入多标签标注信息来指导各模态数据的特征学习过程。本发明利用样本标签间的相似度作为成对样本间的语义相似度,即Sij=(X*i)TX*j,其中X*i和X*j分别表示X的第i列和第j列,即星号表示矩阵的所有行下标值。通过最小化语义相似度的负对数似然来保持成对样本间的语义相似关系,得到成对约束损失函数:
Figure BDA0002630905240000073
Figure BDA0002630905240000074
其中
Figure BDA0002630905240000075
分别表示图像特征间和文本特征间的相似度,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
另外,为了满足本发明的跨模态检索应用需求,需要图像和文本的网络嵌入表示具有充分的语义判别性,使不同类别的样本可以有效区分。为此,本发明在DNN结构的基础上引入softmax分类器,通过将DNN的输出连到分类器的输入,对图像网络和文本网络的输出表示进一步训练,并得到每一样本关于语义类别的概率分布
Figure BDA0002630905240000076
然后通过计算交叉熵分别得到图像模态和文本模态的判别约束损失函数,成对约束损失函数用于保持样本间的语义相似关系,使得具有相似语义的样本在嵌入空间的表示仍然相似。判别约束损失函数用于保持样本间的语义判别性,使得语义不相同的样本在嵌入空间的表示具有较大的差异性:
Figure BDA0002630905240000077
Figure BDA0002630905240000078
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,
Figure BDA0002630905240000081
为第i个样本关于语义类别的概率分布,具体来说上述公式1中的
Figure BDA0002630905240000082
针对图片样本,公式2中的
Figure BDA0002630905240000083
针对文本样本。两者的计算方式是类似的,都是通过softmax分类器得到。
本发明利用图像和文本的共享标签语义构造成对约束和判别约束,保证了各模态样本特征经多层变换后仍保持样本间的原始语义关系,使得具有相似语义的样本在嵌入空间的表示仍然相似,具有不同语义的样本在嵌入空间的表示具有较大的差异性。
最后,本发明基于高层语义信息学习图像嵌入特征f1和文本嵌入特征f2之间的条件关联关系,构建条件关联分析方法降低噪声标签对跨模态隐含表示的影响,从而实现准确有效的跨模态检索。
本发明按照条件关联分析方法(PCCA,partial canonical correlationanalysis),最大化图像嵌入特征f1和文本嵌入特征f2关于共同语义信息的典型相关性。为此,需构建回归模型:
Figure BDA0002630905240000084
其中B1和B2是回归系数矩阵,G=G(X)=WTg(X)是高层语义表示。
Figure BDA0002630905240000085
Figure BDA0002630905240000086
是随机误差矩阵,表示从图像嵌入特征f1和文本嵌入特征f2中消除语义信息后的影响。通过最小化回归模型的均方误差,可以得到最优的系数矩阵
Figure BDA0002630905240000087
Figure BDA0002630905240000088
其中Σ为协方差矩阵,即
Figure BDA0002630905240000089
Figure BDA00026309052400000810
ΣGG=cov(G,G)。
条件关联分析方法需要最大化随机误差矩阵
Figure BDA00026309052400000811
Figure BDA00026309052400000812
间的典型相关性,通过计算可得目标损失函数:
Figure BDA00026309052400000813
Figure BDA00026309052400000814
其中
Figure BDA00026309052400000815
Figure BDA00026309052400000816
从损失函数可见,图像嵌入特征和文本嵌入特征通过线性变换矩阵U1和U2被映射到跨模态共同隐含空间中,并且在共同隐含空间的表示为:F1=F1(Y1)=(U1)Tf1,F2=F2(Y2)=(U2)Tf2。各模态网络参数和线性变换矩阵组成了需优化学习的参数:
Figure BDA0002630905240000091
WG={Wg,W}。
综合上述三种损失函数,可得本发明的优化目标为:
Figure BDA0002630905240000092
Figure BDA0002630905240000093
综合上述三种损失函数得到的最终损失函数是为了指导上述由DNN和分类器组成的神经网络的训练,以及指导线性变换U1、U2和W的训练。
其中α和β为权衡参数,本发明假设图像模态和文本模态在模型训练中具有同等重要性。下标1和2分别代表图像模态和文本模态。同等重要性指
Figure BDA0002630905240000094
Figure BDA0002630905240000095
的系数相等,都是α;类似地,
Figure BDA0002630905240000096
Figure BDA0002630905240000097
的系数相等,都是β。
我们采用非线性正交迭代(NOI,nonlinear orthogonal iterations)算法对目标函数进行求解,通过随机优化实现高效训练。在学到的共同隐含空间上,我们可以比较不同模态的隐含表示间的相似度,通过对相似度排序实现跨模态检索。
跨模态检索系统总体框架如图2所示。利用本发明提出的语义条件关联学习模型对图像、文本、标签数据进行训练,获得不同模态的共同隐含空间。然后,通过度量各模态数据在隐含空间的嵌入表示间的相似度,进行跨模态检索。图2中以文本检索图像的任务为例,首先利用训练好的模型学习查询文本在隐含空间的表示;然后利用距离度量函数(如欧氏距离、余弦距离等)比较其他样本与该查询样本在隐含空间中的语义距离;最后通过对所有距离进行排序,即可找到离查询文本最近的图像结果,实现跨模态检索。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于语义条件关联学习的跨模态检索系统,其中包括:
模块1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
模块3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
模块6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的成对约束损失函数分别为:
Figure BDA0002630905240000101
Figure BDA0002630905240000102
其中
Figure BDA0002630905240000103
分别表示图像嵌入特征间和文本嵌入特征间的相似度,
Figure BDA0002630905240000104
Figure BDA0002630905240000105
分别为图像嵌入特征的第i列和第j列,
Figure BDA0002630905240000106
Figure BDA0002630905240000107
分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
所述的基于语义条件关联学习的跨模态检索系统,其中图像模态和文本模态的判别约束损失函数分别为:
Figure BDA0002630905240000111
Figure BDA0002630905240000112
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,
Figure BDA0002630905240000113
为第i个样本关于语义类别的概率分布,xi为图像文本对具有标签,样本集中第i个图像样本表示为
Figure BDA0002630905240000114
第i个文本表示为
Figure BDA0002630905240000115
所述的基于语义条件关联学习的跨模态检索系统,其中该条件关联约束损失函数为:
Figure BDA0002630905240000116
Figure BDA0002630905240000117
Lpcca为条件关联约束损失。UF 1为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,UF 2为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,
Figure BDA0002630905240000118
为F1(Y1|G)的自协方差矩阵,
Figure BDA0002630905240000119
为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
所述的基于语义条件关联学习的跨模态检索系统,其中该模块5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
Figure BDA00026309052400001110
Figure BDA00026309052400001111
其中α和β为权衡参数。

Claims (10)

1.一种基于语义条件关联学习的跨模态检索方法,其特征在于,包括:
步骤1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
步骤2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
步骤3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
步骤4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
步骤5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
步骤6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
2.如权利要求1所述的基于语义条件关联学习的跨模态检索方法,其特征在于,图像模态和文本模态的成对约束损失函数分别为:
Figure FDA0002630905230000011
Figure FDA0002630905230000012
其中
Figure FDA0002630905230000013
分别表示图像嵌入特征间和文本嵌入特征间的相似度,
Figure FDA0002630905230000021
Figure FDA0002630905230000022
分别为图像嵌入特征的第i列和第j列,
Figure FDA0002630905230000023
Figure FDA0002630905230000024
分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
3.如权利要求1或2所述的基于语义条件关联学习的跨模态检索方法,其特征在于,图像模态和文本模态的判别约束损失函数分别为:
Figure FDA0002630905230000025
Figure FDA0002630905230000026
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,
Figure FDA0002630905230000027
为第i个样本关于语义类别的概率分布,xi为图像文本对具有标签,样本集中第i个图像样本表示为
Figure FDA0002630905230000028
第i个文本表示为
Figure FDA0002630905230000029
4.如权利要求3所述的基于语义条件关联学习的跨模态检索方法,其特征在于,该条件关联约束损失函数为:
Figure FDA00026309052300000210
Figure FDA00026309052300000211
Lpcca为条件关联约束损失。
Figure FDA00026309052300000215
为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,
Figure FDA00026309052300000214
为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,
Figure FDA00026309052300000212
为F1(Y1|G)的自协方差矩阵,
Figure FDA00026309052300000213
为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
5.如权利要求4所述的基于语义条件关联学习的跨模态检索方法,其特征在于,该步骤5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
Figure FDA0002630905230000031
Figure FDA0002630905230000032
其中α和β为权衡参数。
6.一种基于语义条件关联学习的跨模态检索系统,其特征在于,包括:
模块1、获取由多个样本构成的样本集,该样本为已标记标签的图像文本对,通过图像神经网络将图像文本对中图像嵌入隐含空间,得到图像嵌入特征,通过文本神经网络将图像文本对中文本嵌入隐含空间,得到文本嵌入特征,并通过标签神经网络将图像文本对的标签嵌入隐含空间,得到标签嵌入特征;
模块2、根据该标签嵌入特征间的相似度分别构建图像模态和文本模态的成对约束损失函数;
模块3、分别添加分类器至图像神经网络和文本神经网络的输出端,得到图像分类模型和文本分类模型,通过该图像分类模型和该文本分类模型得到每一样本关于语义类别的概率分布,基于该概率分布的交叉熵分别构建图像模态和文本模态的判别约束损失函数;
模块4、通过第一线性变换矩阵对标签嵌入特征进行线性变换,得到高层语义信息,根据该高层语义信息学习图像嵌入特征和文本嵌入特征间的条件关联关系,构建条件关联约束损失函数;
模块5、根据该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数指导图像分类模型、文本分类模型和第一线性变换矩阵的训练,得到最终图像模型和最终文本模型,利用该最终图像模型和该最终文本模型将该样本集中图像和文本映射到跨模态共同隐含空间中;
模块6、获取包含文本或图像的待检索样本,通过该最终图像模型或该最终文本模型得到该待检索样本在该跨模态共同隐含空间中的向量表示,将该跨模态共同隐含空间与该向量表示距离最近的图片和/或文本作为该待检索样本的检索结果。
7.如权利要求6所述的基于语义条件关联学习的跨模态检索系统,其特征在于,图像模态和文本模态的成对约束损失函数分别为:
Figure FDA0002630905230000033
Figure FDA0002630905230000034
其中
Figure FDA0002630905230000041
分别表示图像嵌入特征间和文本嵌入特征间的相似度,
Figure FDA0002630905230000042
Figure FDA0002630905230000043
分别为图像嵌入特征的第i列和第j列,
Figure FDA0002630905230000044
Figure FDA0002630905230000045
分别为文本嵌入特征的第i列和第j列,N为图像-文本对总数量,式中Lpair 1为图像模态的成对约束损失,式中Lpair 2为文本模态的成对约束损失。
8.如权利要求6或7所述的基于语义条件关联学习的跨模态检索系统,其特征在于,图像模态和文本模态的判别约束损失函数分别为:
Figure FDA0002630905230000046
Figure FDA0002630905230000047
式中Ldis 1为图像模态的判别约束损失,式中Ldis 2为文本模态的判别约束损失,
Figure FDA0002630905230000048
为第i个样本关于语义类别的概率分布,xi为图像文本对具有标签,样本集中第i个图像样本表示为
Figure FDA0002630905230000049
第i个文本表示为
Figure FDA00026309052300000410
9.如权利要求8所述的基于语义条件关联学习的跨模态检索系统,其特征在于,该条件关联约束损失函数为:
Figure FDA00026309052300000411
Figure FDA00026309052300000412
Lpcca为条件关联约束损失。
Figure FDA00026309052300000415
为图像神经网络的参数和将图像嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,
Figure FDA00026309052300000416
为文本神经网络的参数和将文本嵌入特征映射到该跨模态共同隐含空间的线性变换矩阵的集合,WG为标签神经网络的参数和将标签嵌入特征映射到高层语义的线性变换矩阵的集合,G为标签嵌入特征经线性变换后的高层语义表示,Y1为图像样本集的矩阵表示,Y2为文本样本集的矩阵表示,F1(Y1|G)为从图像嵌入特征消除语义信息影响后的最终表示,F2(Y2|G)为从文本嵌入特征消除语义信息影响后的最终表示,
Figure FDA00026309052300000413
为F1(Y1|G)的自协方差矩阵,
Figure FDA00026309052300000414
为F2(Y2|G)的自协方差矩阵,I为单位矩阵,||·||F为Frobenius范数。
10.如权利要求9所述的基于语义条件关联学习的跨模态检索系统,其特征在于,该模块5包括:
综合该成对约束损失函数、该判别约束损失函数和该条件关联约束损失函数,可得本发明的优化目标为:
Figure FDA0002630905230000051
Figure FDA0002630905230000052
其中α和β为权衡参数。
CN202010810819.XA 2020-08-13 2020-08-13 一种基于语义条件关联学习的跨模态检索方法及系统 Pending CN112100410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010810819.XA CN112100410A (zh) 2020-08-13 2020-08-13 一种基于语义条件关联学习的跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010810819.XA CN112100410A (zh) 2020-08-13 2020-08-13 一种基于语义条件关联学习的跨模态检索方法及系统

Publications (1)

Publication Number Publication Date
CN112100410A true CN112100410A (zh) 2020-12-18

Family

ID=73753413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010810819.XA Pending CN112100410A (zh) 2020-08-13 2020-08-13 一种基于语义条件关联学习的跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN112100410A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN112836746A (zh) * 2021-02-02 2021-05-25 中国科学技术大学 基于一致性图建模的语义对应方法
CN112905540A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 检索文件的方法和装置
CN112989218A (zh) * 2021-03-12 2021-06-18 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113010697A (zh) * 2021-03-23 2021-06-22 华南理工大学 用于无监督跨模态检索的充分场景表达生成方法
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113111161A (zh) * 2021-04-09 2021-07-13 北京语言大学 一种跨媒体关联分析方法
CN113157678A (zh) * 2021-04-19 2021-07-23 中国人民解放军91977部队 一种多源异构数据关联方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284414A (zh) * 2018-09-30 2019-01-29 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统
CN111428071A (zh) * 2020-03-26 2020-07-17 电子科技大学 一种基于多模态特征合成的零样本跨模态检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284414A (zh) * 2018-09-30 2019-01-29 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统
CN111428071A (zh) * 2020-03-26 2020-07-17 电子科技大学 一种基于多模态特征合成的零样本跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUOLI SONG ET.AL: "Learning Feature Representation and Partial Correlation for Multimodal Multi-Label Data", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836746B (zh) * 2021-02-02 2022-09-09 中国科学技术大学 基于一致性图建模的语义对应方法
CN112836746A (zh) * 2021-02-02 2021-05-25 中国科学技术大学 基于一致性图建模的语义对应方法
CN112905540A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 检索文件的方法和装置
CN112989218B (zh) * 2021-03-12 2022-06-28 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN112989218A (zh) * 2021-03-12 2021-06-18 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113010697A (zh) * 2021-03-23 2021-06-22 华南理工大学 用于无监督跨模态检索的充分场景表达生成方法
CN113010697B (zh) * 2021-03-23 2022-09-20 华南理工大学 用于无监督跨模态检索的充分场景表达生成方法
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN112836068B (zh) * 2021-03-24 2023-09-26 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113111161A (zh) * 2021-04-09 2021-07-13 北京语言大学 一种跨媒体关联分析方法
CN113111161B (zh) * 2021-04-09 2023-09-08 北京语言大学 一种跨媒体关联分析方法
CN113157678A (zh) * 2021-04-19 2021-07-23 中国人民解放军91977部队 一种多源异构数据关联方法
CN113157678B (zh) * 2021-04-19 2022-03-15 中国人民解放军91977部队 一种多源异构数据关联方法

Similar Documents

Publication Publication Date Title
CN112100410A (zh) 一种基于语义条件关联学习的跨模态检索方法及系统
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN112434628B (zh) 基于主动学习和协同表示的小样本图像分类方法
Sun et al. Global-local label correlation for partial multi-label learning
CN111460077A (zh) 一种基于类语义引导的跨模态哈希检索方法
CN111461157A (zh) 一种基于自学习的跨模态哈希检索方法
CN112164067A (zh) 一种基于多模态子空间聚类的医学图像分割方法及装置
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN113626589A (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN115879473B (zh) 基于改进图注意力网络的中文医疗命名实体识别方法
Huang et al. Zero-shot Chinese text recognition via matching class embedding
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN112182275A (zh) 一种基于多维度特征融合的商标近似检索系统和方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN113010700A (zh) 一种基于类别信息对齐的图像文本跨模态检索方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN115309927A (zh) 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN116108215A (zh) 基于深度融合的跨模态大数据检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201218

WD01 Invention patent application deemed withdrawn after publication