CN109299341A - 一种基于字典学习的对抗跨模态检索方法和系统 - Google Patents

一种基于字典学习的对抗跨模态检索方法和系统 Download PDF

Info

Publication number
CN109299341A
CN109299341A CN201811268595.3A CN201811268595A CN109299341A CN 109299341 A CN109299341 A CN 109299341A CN 201811268595 A CN201811268595 A CN 201811268595A CN 109299341 A CN109299341 A CN 109299341A
Authority
CN
China
Prior art keywords
text
image
dictionary
confrontation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811268595.3A
Other languages
English (en)
Other versions
CN109299341B (zh
Inventor
张化祥
尚菲
李静
刘丽
孟丽丽
谭艳艳
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201811268595.3A priority Critical patent/CN109299341B/zh
Publication of CN109299341A publication Critical patent/CN109299341A/zh
Application granted granted Critical
Publication of CN109299341B publication Critical patent/CN109299341B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于字典学习的对抗跨模态检索方法和系统,该方法包括:获取图像数据和文本数据的底层特征,并基于底层特征分别构造图像和文本的训练集以及测试集;构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;将所述新的图像和文本的训练集投影至共同表示空间;根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。用字典学习来进行特征提取,用对抗学习更好的学习图像模态和文本模态的公共空间,能极大提高跨模态检索的准确率。

Description

一种基于字典学习的对抗跨模态检索方法和系统
技术领域
本发明涉及跨模态检索领域和深度学习领域,更具体地说,涉及一种基于字典学习的对抗跨模态检索方法和系统。
背景技术
随着互联网技术的飞速发展,多模态数据(如文本、图像、音频和视频)层出不穷,传统的单模态检索已经无法满足用户的需求。跨模态检索因其可以实现多种模态信息的融合和补充,正逐步成为信息检索的主流。
因为多模态数据底层特征不同,具有复杂的组织结构,并且大多数是非结构化或半结构化的,因此多模态数据很难结构化的存储或检索。为了解决多模态数据之间的异构鸿沟,国内外的学者从浅层学习和深度学习两个方面进行了大量研究。联合特征选择和子空间学习方法(JFSSL)通过学习投影矩阵把不同模态的数据映射到共同空间,实现了异构数据的相似性度量。通过对投影矩阵施加l2范数的约束,同时从不同特征空间中选择出相关的且具有判别性的特征。并通过图正则化的方法保持了数据模态间和模态内的相关性。通用的半监督结构化子空间学习(GSS-SL)将标签损失函数和标签的图约束融合到最终的目标函数中,前者可以在一定程度上保证相同类别数据之间的距离最小,不同类别数据之间的距离最大,后者可以预测未标记数据的标签。此外,浅层学习的方法还包括模态独立的跨媒体检索(MDCR)、三视图典型相关分析(CCA-3V)、联合潜在子空间学习和回归(JLSLR)等。
因其对数据具有强大的非线性相关建模能力,深度学习方法近几年在跨模态检索领域发展迅猛。生成对抗网络(GANs)因为不需要马尔科夫链并能生成高质量的样本,尤其受到研究者的喜爱。GANs可以胜任真实数据生成任务,如图像生成和自然语句生成。无监督生成对抗跨模态哈希(UGACH)通过构造相关性图来合成流形对,当做判别器中的相关数据,通过概率模型合成生成对,当做判别器中的不相关数据。两者相互对抗,相互学习,更好的学习哈希表示。深度对抗跨模态检索(DAML)也是一种新颖的基于对抗学习的跨模态检索方法。
然而,上述方法有一些缺点:一方面,它们大多数是为不同模态数据学习一个共同表示空间,忽略了多模态数据复杂的统计特性。另一方面,投影到公共空间的特征不能保持每个模态原始特征的固有统计特性,投影之后的特征不具有最大相关性。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于字典学习的对抗跨模态检索方法和系统,该方法考虑了多模态数据复杂的统计特性,并且通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟,得到一个有效的同构空间。用字典学习来进行特征提取,用对抗学习更好的学习图像模态和文本模态的公共空间,能极大提高跨模态检索的准确率。并通过多种跨模态检索任务验证了本发明的有效性。
为实现上述目的,本发明采用如下技术方案:
一种基于字典学习的对抗跨模态检索方法,包括以下步骤:
获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;
构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;
将所述新的图像和文本的训练集投影至共同表示空间;
根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;
对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。
进一步地,所述构造新的训练集和测试集包括:
训练字典学习模型得到图像字典、文本字典、图像重构系数和文本重构系数;
根据所述图像字典和文本字典,计算测试集的图像重构系数和文本重构系数;
将训练集的图像重构系数和文本重构系数,以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集。
进一步地,所述训练字典学习模型包括:
利用训练集中的样本构建如下的目标函数:
其中,分别表示图像模态和文本模态的字典,k1和k2分别代表图像字典和文本字典的大小,取值分别为4096、5000;分别表示图像和文本的重构系数;c表示常量,分别表示图像字典和文本字典第i行第j列的原子;
其中,P1和P2是投影矩阵,λ1,λ2,λ3是权重参数。
进一步地,所述计算测试集的图像重构系数和文本重构系数的方法为:
分别为测试集的图像和文本重构系数。
进一步地,所述投影至共同表示空间包括:
图像的训练集采用四层前馈全连接网络投影到共同表示空间;文本的训练集采用三层前馈全连接网络投影到共同表示空间;
其中,四层和三层前馈全连接网络,每一层均采用tanh激活函数。
进一步地,所述特征判别包括:
将共同表示空间中的图像和文本特征数据,经过一层的全连接层,得到概率函数;
将真实标签和概率函数输入softmax交叉熵损失层,输出语义类别的概率分布;
计算模内判别损失:
表示概率函数,vi代表第i个图像样例,ti代表第i个文本样例,N代表样例数。
进一步地,所述三重判别包括:
构建两个三元组,分别是检索图像、文本正例、文本负例,检索文本、图像正例、图像负例;
对于两个三元组,分别计算检索图像/文本和另一模态的正例、负例的距离,得到模间不变损失;
通过对DNNs每一层的参数进行约束,得到正则化项;
由模内判别损失、模间不变性损失和正则化项,得到如下特征保持损失:
LfrVTD)=α(LtriV(θV)+LtriT(θT))+βLdisD)+Lreg,
α和β是平衡参数。
进一步地,所述优化共同表示空间包括:
根据特征保持损失和模间对抗损失得到最终的目标函数;
利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,得到最终的共同空间。
一个或多个实施例提供了一种基于字典学习的对抗跨模态检索系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行所述的方法。
本发明的有益效果
本发明提出了一种基于字典学习的对抗跨模态检索方法和系统,该方法用字典学习来进行特征提取,用重构系数代替原始特征,增大了重要特征的权重,缩小了次要特征的权重,也使得重构之后的图像和文本模态维度近似;用对抗学习更好的学习图像模态和文本模态的公共空间,考虑了多模态数据复杂的统计特性,通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟,得到一个有效的同构空间,能极大提高跨模态检索的准确率。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为实施例一中基于字典学习的对抗跨模态检索方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
方法考虑了多模态数据复杂的统计特性,并且通过对抗学习跨越了图像模态和文本模态底层特征和高层语义之间的语义鸿沟,得到一个有效的同构空间。首先,通过字典学习,用所有的训练(测试)样本来重构每一个训练(测试)样本,在一定程度上保持了每个样例的特异性。用重构系数代替原始特征,增大了重要特征的权重,缩小了次要特征的权重,也使得重构之后的图像和文本模态维度近似;然后把重构之后的训练(测试)样本的转置当做新的训练(测试)样本;通过对抗学习,一方面,保证了投影到公共空间的特征保持每个模态原始特征的固有统计特性,并且在统计上是不可区分的,另一方面,投影之后的特征具有最大相关性,可以消除异构鸿沟;最后在学习到的公共空间中进行跨模态检索,检索出与查询样例最相似的样本。常规的跨模态检索方法专注于为不同模态学习一个公共子空间,或者用经典的神经网络来进行异构模态的相似性度量。本发明异于传统方法,用字典学习来进行特征提取,用对抗学习更好的学习图像模态和文本模态的公共空间,能极大提高跨模态检索的准确率。
实施例一
本实施例提供了一种基于字典学习的对抗跨模态检索方法,具体步骤如下:
步骤S1:获取图像和文本的底层特征,构造包含图像模态和文本模态及它们的语义标签的数据集,划分为图像训练集、文本训练集、图像测试集和文本测试集。
图像训练集记为dv为图像特征维度,m为样本个数。文本训练集记为dt为文本特征维度,m为样本个数。X,Y都是特征矩阵。训练集中的图像文本对记为P={X,Y}。同理,我们可以划分出图像和文本的测试集Xte,Yte
以Wikipedia-CNN数据集为例,Wikipedia-CNN数据集包含2866个图像文本对及其对应的语义标签。随机抽取2173个图像文本对作为训练集,693个图像文本对作为测试集。语义标签为1-10中的一个。图像是由CNN提取得到的4096维的特征,文本由LDA提取得到的100维特征。图像训练集记为图像特征维度为4096维,样本个数为2173个。文本训练集记为文本特征维度为100维,样本个数为2173个。X,Y都是特征矩阵。训练集中的图像文本对记为P={X,Y}。同理,我们可以划分出图像和文本的测试集Xte,Yte
步骤S2:训练图像和文本的字典学习模型。由训练集和测试集的重构系数得到新的训练集和测试集。
分别代表图像模态和文本模态的字典,k1和k2分别代表图像字典和文本字典的大小,取值分别为4096、5000,图像特征维度为4096维,文本特征维度为100维,。用分别代表图像和文本的重构系数。f(·)是图像和文本的关系函数。我们设置字典学习中的参数λ123的值分别为1.5、0.001、0.01。通过字典学习模型得到新的训练集图像V,文本T,测试集图像Vte,文本Tte。根据上述变量,我们利用训练集中的样本可以构建如下的目标函数:
其中第一项和第二项是数据保真项用来表示数据描述的误差,第三项是正则化项,防止过拟合,c表示常量,分别表示图像字典的第i行第j列的原子,文本字典的第i行第j列的原子,f(·)表示如下:
其中,P1和P2是投影矩阵,第一项是投影保真项,用来表示图像重构系数和文本重构系数的投影损失。λ1,λ2,λ3是权重参数,不同的数据集取值略有差别。通过上面两个公式,我们得到了图像的字典DV,文本的字典DT,图像的重构系数AV,文本的重构系数AT
利用图像和文本的字典,通过下式,我们可以得到测试集的重构系数
我们把训练集的图像重构系数AV,文本重构系数AT,测试集的图像重构系数文本重构系数的转置形式当做新的训练集图像V,文本T,测试集图像Vte,文本Tte
步骤S3:学习图像和文本的共同表示空间。把训练集和测试集中的图像和文本分别经过四层和三层的前馈全连接的网络,每一层的激活函数都是tanh函数,最后得到图像和文本投影之后的表示以及图像和文本的共同表示空间,该空间的维度为语义的整数倍。
把V和T分别经过四层和三层的前馈全连接的网络,每一层用tanh函数激活,将实数映射到[-1,1]范围。图像和文本的维度变化分别为:4096→1024→512→256→40和5000→512→256→40,最后学习到一个40维的共同表示空间S,fV(V;θV)、fT(T;θT)分别为图像和文本投影之后的表示,维度都是2173×40。
步骤S4:把公共空间里的文本和图像输入到特征保持器,可以对图像和文本进行特征判别和三重排序。
步骤S41:进行特征判别。把fV(V;θV)、fT(T;θT)经过一个全连接层,输出结点的个数等于数据集的语义类别数,得到把真实标签li和概率函数输入到Softmax交叉熵损失层,通过下式得到模内判别损失。
步骤S42:进行三重排序。
首先,构建两个三元组,分别是检索图像、文本正例、文本负例检索文本、图像正例、图像负例用l2范数定义每对投影后的图像和文本的距离:
l2(v,t)=||fV(v;θV)-fT(t;θT)||2。我们可以得到模间不变性损失LtriV(θV)+LtriT(θT)。通过对DNNs每一层的参数进行约束,我们得到正则化项由模内判别损失、模间不变性损失和正则化项,我们可以得到特征保持损失如下:
LfrVTD)=α(LtriV(θV)+LtriT(θT))+βLdisD)+Lreg,
α和β是平衡参数,我们一般在Wikipedia-CNN数据集上取值200、0.002,其余数据集上取100、0.02。
步骤S5:学习模态分类器。输入任意一个未知的投影特征,经过三层全连接层和softmax交叉熵损失层,输出为每个模态的概率。
从共同空间中随机抽取一个样本oi,记每个样例的真实标签为mi,计算oi关于mi的梯度值,把该梯度值通过三层全连接网络,得到一个两维的输出。再经过Softmax交叉熵损失层,最小化以下模间对抗损失函数:
如果输出01,代表样本oj的原始模态为图像,输出10,代表原始模态为文本。
步骤S6:特征保持器和模态分类器进行对抗学习,得到最终的图像和文本的共同表示空间S,进行跨模态检索。
通过上述公式,我们可以定义特征保持损失和模间对抗损失,从而得到如下目标函数:
从最终的目标函数可以看出,特征保持器和模态分类器的目的是相反的,特征保持器的目的是让相同语义的图像和文本在公共空间中保持一致,而模态分类器则是区分投影特征的原始模态。利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,说明本发明中提到的字典模型和对抗模型可以很好地消除图像和文本的异构鸿沟,得到最终的共同空间。
经过多次实验,最终确定在第200代训练结束时,步骤S3,步骤S4,步骤S5中定义的损失收敛于各自的最小值,得到最终的对抗网络模型。
通过对训练样例训练多次,我们得到该方法的模型,把图像的测试样本和文本的测试样本输入到该模型,依次得到网络输出可以求得查询样本和待检索的样本两两之间的欧式距离(693×693维),并将该距离从小到大排序,距离越小的代表与查询样本越匹配。
对比查询样本的标签和检索到的样本标签,计算图像检索文本(I2T)、文本检索图像(T2I)及其平均(Avg)的MAP值。表1和表2是本发明提出的方法与5种浅层学习方法和2种深度学习方法在四个常用的跨模态数据集上的MAP值。我们可以得出结论:本发明提出的方法有效提高了跨模态检索的精度。
表1 Wikipedia数据集和Wikipedia-CNN数据集上所有方法的MAP值,
后缀加D的方法是深度学习的方法
表2 Pascal Sentence数据集和INRIA-Websearch数据集上所有方法的MAP值,
后缀加D的方法是深度学习的方法
实施例二
本实施例的目的是提供一种计算系统。
一种基于字典学习的对抗跨模态检索系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;
构建字典学习模型,基于图像和文本的训练集进行训练,得到图像字典、文本字典、图像重构系数和文本重构系数;
根据所述图像字典和文本字典,计算测试集的图像重构系数和文本重构系数;
将训练集的图像重构系数和文本重构系数,以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集;
将所述新的图像和文本的训练集投影至共同表示空间;
根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;
对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;
构建字典学习模型,基于图像和文本的训练集进行训练,得到图像字典、文本字典、图像重构系数和文本重构系数;
根据所述图像字典和文本字典,计算测试集的图像重构系数和文本重构系数;
将训练集的图像重构系数和文本重构系数,以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集;
将所述新的图像和文本的训练集投影至共同表示空间;
根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;
对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。
以上实施例二和三涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于字典学习的对抗跨模态检索方法,其特征在于,包括以下步骤:
获取图像数据和文本数据的底层特征,并基于所述底层特征分别构造图像和文本的训练集以及测试集;
构建字典学习模型,基于图像和文本的训练集进行训练,根据得到的图像字典、文本字典,构造新的训练集和测试集;
将所述新的图像和文本的训练集投影至共同表示空间;
根据共同表示空间中的图像和文本特征数据,学习特征保持器,即进行特征判别和三重排序,以及学习模态分类器;
对特征保持器和模态分类器进行对抗学习,优化共同表示空间,采用测试集进行跨模态检索。
2.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述构造新的训练集和测试集包括:
训练字典学习模型得到图像字典、文本字典、图像重构系数和文本重构系数;
根据所述图像字典和文本字典,计算测试集的图像重构系数和文本重构系数;
将训练集的图像重构系数和文本重构系数,以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集。
3.如权利要求2所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述训练字典学习模型包括:
利用训练集中的样本构建如下的目标函数:
其中,分别表示图像模态和文本模态的字典,k1和k2分别代表图像字典和文本字典的大小,取值分别为4096、5000;分别表示图像和文本的重构系数;c表示常量,分别表示图像字典和文本字典第i行第j列的原子;
其中,P1和P2是投影矩阵,λ1,λ2,λ3是权重参数。
4.如权利要求3所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述计算测试集的图像重构系数和文本重构系数的方法为:
分别为测试集的图像和文本重构系数。
5.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述投影至共同表示空间包括:
图像的训练集采用四层前馈全连接网络投影到共同表示空间;文本的训练集采用三层前馈全连接网络投影到共同表示空间;
其中,四层和三层前馈全连接网络,每一层均采用tanh激活函数。
6.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述特征判别包括:
将共同表示空间中的图像和文本特征数据,经过一层的全连接层,得到概率函数;
将真实标签和概率函数输入softmax交叉熵损失层,输出语义类别的概率分布;
计算模内判别损失:
表示概率函数,vi代表第i个图像样例,ti代表第i个文本样例,N代表样例数。
7.如权利要求6所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,
所述三重判别包括:
构建两个三元组,分别是检索图像、文本正例、文本负例,检索文本、图像正例、图像负例;
对于两个三元组,分别计算检索图像/文本和另一模态的正例、负例的距离,得到模间不变损失;
通过对DNNs每一层的参数进行约束,得到正则化项;
由模内判别损失、模间不变性损失和正则化项,得到如下特征保持损失:
LfrVTD)=α(LtriV(θV)+LtriT(θT))+βLdisD)+Lreg,
α和β是平衡参数。
8.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法,其特征在于,所述优化共同表示空间包括:
根据特征保持损失和模间对抗损失得到最终的目标函数;
利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,得到最终的共同空间。
9.一种基于字典学习的对抗跨模态检索系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行如权利要求1-8任一项所述的方法。
CN201811268595.3A 2018-10-29 2018-10-29 一种基于字典学习的对抗跨模态检索方法和系统 Expired - Fee Related CN109299341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811268595.3A CN109299341B (zh) 2018-10-29 2018-10-29 一种基于字典学习的对抗跨模态检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811268595.3A CN109299341B (zh) 2018-10-29 2018-10-29 一种基于字典学习的对抗跨模态检索方法和系统

Publications (2)

Publication Number Publication Date
CN109299341A true CN109299341A (zh) 2019-02-01
CN109299341B CN109299341B (zh) 2020-05-05

Family

ID=65158132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811268595.3A Expired - Fee Related CN109299341B (zh) 2018-10-29 2018-10-29 一种基于字典学习的对抗跨模态检索方法和系统

Country Status (1)

Country Link
CN (1) CN109299341B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046264A (zh) * 2019-04-02 2019-07-23 云南大学 一种面向手机文档的自动分类方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110059217A (zh) * 2019-04-29 2019-07-26 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110298395A (zh) * 2019-06-18 2019-10-01 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110309425A (zh) * 2019-07-05 2019-10-08 北京字节跳动网络技术有限公司 用于存储数据的方法和装置
CN110321957A (zh) * 2019-07-05 2019-10-11 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110443293A (zh) * 2019-07-25 2019-11-12 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110807122A (zh) * 2019-10-18 2020-02-18 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN110852171A (zh) * 2019-10-14 2020-02-28 清华大学深圳国际研究生院 在线训练的场景描述机器人系统及方法
CN111209415A (zh) * 2020-01-10 2020-05-29 重庆邮电大学 基于大批量训练的图文跨模态哈希检索方法
CN111325115A (zh) * 2020-02-05 2020-06-23 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN111598712A (zh) * 2020-05-18 2020-08-28 北京邮电大学 社交媒体跨模态搜索中数据特征生成器训练及搜索方法
CN111652102A (zh) * 2020-05-27 2020-09-11 国网山东省电力公司东营供电公司 一种输电通道目标物辨识方法及系统
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法
CN112132230A (zh) * 2020-10-09 2020-12-25 腾讯科技(深圳)有限公司 图像分类方法及装置
CN112214570A (zh) * 2020-09-23 2021-01-12 浙江工业大学 一种基于对抗投影学习哈希的跨模态检索方法及装置
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质
CN112860935A (zh) * 2021-02-01 2021-05-28 西安电子科技大学 一种跨源图像检索方法、系统、介质及设备
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备
CN115080769A (zh) * 2022-08-22 2022-09-20 南京大数据集团有限公司 基于双分支制衡互学习的图文检索方法、系统及存储介质
CN115658954A (zh) * 2022-10-28 2023-01-31 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN116304135A (zh) * 2023-05-25 2023-06-23 国网智能电网研究院有限公司 基于判别性隐空间学习的跨模态检索方法、装置及介质
CN117112829A (zh) * 2023-10-24 2023-11-24 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN117408893A (zh) * 2023-12-15 2024-01-16 青岛科技大学 一种基于浅层神经网络的水下图像增强方法

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110046264A (zh) * 2019-04-02 2019-07-23 云南大学 一种面向手机文档的自动分类方法
CN110059217A (zh) * 2019-04-29 2019-07-26 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110059217B (zh) * 2019-04-29 2022-11-04 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110298395A (zh) * 2019-06-18 2019-10-01 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110321957A (zh) * 2019-07-05 2019-10-11 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110321957B (zh) * 2019-07-05 2023-03-24 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110309425B (zh) * 2019-07-05 2021-08-24 北京字节跳动网络技术有限公司 用于存储数据的方法和装置
CN110309425A (zh) * 2019-07-05 2019-10-08 北京字节跳动网络技术有限公司 用于存储数据的方法和装置
CN110443293A (zh) * 2019-07-25 2019-11-12 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110443293B (zh) * 2019-07-25 2023-04-07 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110597878B (zh) * 2019-09-16 2023-09-15 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110852171A (zh) * 2019-10-14 2020-02-28 清华大学深圳国际研究生院 在线训练的场景描述机器人系统及方法
CN110807122B (zh) * 2019-10-18 2022-07-08 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN110807122A (zh) * 2019-10-18 2020-02-18 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN111209415A (zh) * 2020-01-10 2020-05-29 重庆邮电大学 基于大批量训练的图文跨模态哈希检索方法
CN111209415B (zh) * 2020-01-10 2022-09-23 重庆邮电大学 基于大批量训练的图文跨模态哈希检索方法
CN111325115B (zh) * 2020-02-05 2022-06-21 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN111325115A (zh) * 2020-02-05 2020-06-23 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN111598712A (zh) * 2020-05-18 2020-08-28 北京邮电大学 社交媒体跨模态搜索中数据特征生成器训练及搜索方法
CN111598712B (zh) * 2020-05-18 2023-04-18 北京邮电大学 社交媒体跨模态搜索中数据特征生成器训练及搜索方法
CN111652102A (zh) * 2020-05-27 2020-09-11 国网山东省电力公司东营供电公司 一种输电通道目标物辨识方法及系统
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法
CN112214570A (zh) * 2020-09-23 2021-01-12 浙江工业大学 一种基于对抗投影学习哈希的跨模态检索方法及装置
CN112132230A (zh) * 2020-10-09 2020-12-25 腾讯科技(深圳)有限公司 图像分类方法及装置
CN112132230B (zh) * 2020-10-09 2024-02-20 腾讯科技(深圳)有限公司 图像分类方法及装置
CN112860935A (zh) * 2021-02-01 2021-05-28 西安电子科技大学 一种跨源图像检索方法、系统、介质及设备
CN112860935B (zh) * 2021-02-01 2023-02-21 西安电子科技大学 一种跨源图像检索方法、系统、介质及设备
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN112990297B (zh) * 2021-03-10 2024-02-02 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备
CN115080769A (zh) * 2022-08-22 2022-09-20 南京大数据集团有限公司 基于双分支制衡互学习的图文检索方法、系统及存储介质
CN115080769B (zh) * 2022-08-22 2022-12-02 南京大数据集团有限公司 基于双分支制衡互学习的图文检索方法、系统及存储介质
CN115658954A (zh) * 2022-10-28 2023-01-31 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN115658954B (zh) * 2022-10-28 2023-12-26 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN116304135B (zh) * 2023-05-25 2023-08-08 国网智能电网研究院有限公司 基于判别性隐空间学习的跨模态检索方法、装置及介质
CN116304135A (zh) * 2023-05-25 2023-06-23 国网智能电网研究院有限公司 基于判别性隐空间学习的跨模态检索方法、装置及介质
CN117112829A (zh) * 2023-10-24 2023-11-24 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN117112829B (zh) * 2023-10-24 2024-02-02 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN117408893A (zh) * 2023-12-15 2024-01-16 青岛科技大学 一种基于浅层神经网络的水下图像增强方法
CN117408893B (zh) * 2023-12-15 2024-04-05 青岛科技大学 一种基于浅层神经网络的水下图像增强方法

Also Published As

Publication number Publication date
CN109299341B (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和系统
Yu et al. Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Er et al. Attention pooling-based convolutional neural network for sentence modelling
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
JP2023502827A (ja) 地理知識取得方法
CN110059198A (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111160564B (zh) 一种基于特征张量的中文知识图谱表示学习方法
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN109271516B (zh) 一种知识图谱中实体类型分类方法及系统
Zhang et al. Aspect-based sentiment analysis for user reviews
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
Li et al. Multi-modal gated recurrent units for image description
Qi et al. Patent analytic citation-based vsm: Challenges and applications
He et al. On the role of conceptualization in commonsense knowledge graph construction
Bai et al. Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering
Li et al. Multimodal fusion with co-attention mechanism
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN111581365B (zh) 一种谓词抽取方法
CN117131933A (zh) 一种多模态知识图谱建立方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200505

Termination date: 20211029

CF01 Termination of patent right due to non-payment of annual fee