CN112800292A - 一种基于模态特定和共享特征学习的跨模态检索方法 - Google Patents
一种基于模态特定和共享特征学习的跨模态检索方法 Download PDFInfo
- Publication number
- CN112800292A CN112800292A CN202110053038.5A CN202110053038A CN112800292A CN 112800292 A CN112800292 A CN 112800292A CN 202110053038 A CN202110053038 A CN 202110053038A CN 112800292 A CN112800292 A CN 112800292A
- Authority
- CN
- China
- Prior art keywords
- modality
- features
- text
- network
- expressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于模态特定和共享特征学习的跨模态检索方法,包括:步骤S1、获取跨模态检索数据集,划分为训练集和测试集;步骤S2、对文本和图像分别进行特征提取;步骤S3、提取模态特定特征和模态共享特征;步骤S4、通过哈希网络生成对应模态样本的哈希码;步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。本发明设计了一个哈希网络,将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中,并且利用标签信息、模态特定和共享特征进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性。
Description
技术领域
本发明涉及一种跨模态的检索方法,特别是涉及一种基于模态特定和共享特征学习的跨模态检索方法。
背景技术
近些年来,海量的多模态数据充斥着我们的生活。就以互联网上的新闻为例,通常包括文字介绍,有时还会在页面上排版一些记者拍下的照片,甚至会有一些独家的视频和音频的报道。像文本、图像、视频、音频等多模态数据是我们从多个角度去高效地获取同一个信息的重要手段。用户不仅仅需要单一模态数据之间地检索,更加需要一种更灵活地检索方式:从一个模态数据去精准地检索到另外一种模态的相关数据。近些年来,跨模态检索这项工作已经成为学术界广泛讨论地热点。但是,多模态数据因为有不同的分布和表示通常具有比较强的异质性,难以直接计算并缩小它们之间的差异。因此,跨模态检索任务存在一定的挑战性。在自编码的学习过程中如何更好地保留原始特征以及消除多模态数据分布的差异是一个重要的研究课题。此外,现有的跨模态检索工作在做特征提取时少有将模态特定信息和模态共享信息结合考虑,造成有效信息的丢失。
发明内容
有鉴于此,本发明的目的在于提供一种基于模态特定和共享特征学习的跨模态检索方法,通过重新设计的自编码器的框架,有效地减小多模态数据的分布差异,并且通过重新设计哈希网络,使得输出的哈希码在模态间和模态内具有更好的语义区分性。
为实现本发明的目的,本发明所述的一种基于模态特定和共享特征学习的跨模态检索方法,包括如下步骤:
步骤S1、获取跨模态检索数据集,并且将所述跨模态检索数据集划分为训练集和测试集;
步骤S2、对训练集中的文本和图像分别进行特征提取;
步骤S3、设置对抗自编码器网络,通过所述对抗自编码器网络提取模态特定特征和模态共享特征;
步骤S4、通过哈希网络生成对应模态样本的哈希码;
步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
进一步的,所述跨模态检索数据集包括多个样本对,每个样本对包括:文本、图像和相应的语义标签。
进一步的,在所述步骤S2中,通过VGG-19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
进一步的,所述步骤S3具体包括:
步骤S301、设置对抗自编码器网络的生成器,所述生成器包括隐含层生成器和全局生成器;
所述隐含层生成器用以获取图像特征和文本特征在子空间的分布,所述隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;
所述全局生成器用以获取图像和文本的重构特征,所述全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
步骤S302、设置对抗自编码器网络的判别器,所述判别器包括隐含层判别器和全局判别器;
所述隐含层判别器用以区分子空间的图像特征和文本特征,所述隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,所述全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,所述全局生成器的损失函数定义为:
公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示图像模态通道自编码器重构损失,表示文本模态通道自编码器重构损失,pGg表示为全局生成器生成的特征集,和表示pGg中图像和文本模态的实例,表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θEn和θDe分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,所述隐含层生成器的损失函数定义为:
公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征集,表示为文本模态的共享特征集,和分别表示和中的实例,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θEn表示为对抗自编码器网络编码层的网络参数;
步骤S305、所述全局判别器的损失函数定义为:
公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,以及分别表示图像和文本模态自编码结构的全局判别器,pdata表示为在步骤S2中,通过VGG-19模型以及词袋模型提取到的特征集,pGg表示为全局生成器生成的特征集,θAg表示为全局判别器网络参数,xv和xt分别表示pdata中的图像和文本模态的实例,和表示pGg中图像和文本模态的实例;
步骤S306、所述隐含层判别器的损失函数定义为:
公式(4)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征,表示为文本模态的共享特征,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θAs表示为隐含层判别器的网络参数,xv和xt表示VGG-19模型以及词袋模型提取到特征向量,和分别表示和中的实例。
进一步的,所述步骤S4包括:
步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,输出为k维特征,其中k为哈希码的位数,输出特征经过sign函数生成哈希码;
步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
进一步的,所述步骤S402,具体包括:
步骤S4022、定义哈希码分类损失函数:
步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数:
步骤S4024、获取模态特定和模态共享哈希网络的优化损失:
Lh=LC+β·Llm (7)
公式(7)中,β表示为平衡参数。
进一步的,所述步骤S5包括:联合对抗自编码器网络的损失函数以及哈希网络的损失函数采用采用极小极大博弈策略进行优化,所述极小极大博弈策略具体通过随机梯度下降的优化算法实现。
进一步的,在所述步骤S5中,采用均方根传播优化器实现对抗自编码器网络的损失函数以及哈希网络的损失函数的优化。
本发明的有益效果是:
1、本发明基于自编码器的框架,用全局对抗网络改进了自编码器模态内重构过程,极小极大博弈的策略使得模态内的原始特征和重构特征难以判别,更好地保留原始特征。隐含层对抗网络生成模态不变表示的同时使得模态间数据难以被区分,有效地减小多模态数据的分布差异。
2、本发明设计了一个新的哈希网络,将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中,并且利用标签信息、模态特定和共享特征进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性。
附图说明
图1为本发明的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1,本实施例提供一种基于模态特定和共享特征学习的跨模态检索方法,包括如下步骤:
步骤S1、获取跨模态检索数据集,并且将跨模态检索数据集划分为训练集和测试集;
具体的说,在本实施例中,通过互联网等常规渠道,获取到的数据集,具体包括:Wikipedia和NUS-WIDE,这些数据集都是由有标签的图像文本对构成。
步骤S2、对训练集中的文本和图像分别进行特征提取;
具体的说,在本实施例中,通过VGG-19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
在本实施例中,采用的VGG-19模型包含了16个卷积层和3个全连接层,网络结构为:第一部分由两层的卷积层组成,包含:64个大小为3*3的卷积核,步长是1,0边距,采用ReLU激活函数。池化用传统的2*2大小的模板。第二部分以第一部分的输出作为输入,由两层卷积层组成,每一层的结构为:用128个3*3大小的卷积核,步长是1,0边距,采用ReLU激活函数,池化采用2*2大小的模板。第三部分由四个卷积层组成,每一层的结构为256个3*3的卷积核,步长是1,0边距,激活函数为ReLU,池化用传统的2*2大小的模板。第四部分和第五部分都由四层卷积层组成,每一层的结构为512个3*3的卷积核,步长是1,0边距,激活函数为ReLU,池化用传统的2*2大小的模板。第六部分和第七部分为全连接层,有4096个神经元,为了减少过拟合,本发明设置dropout参数为0.5,激活函数用ReLU。然后得到与输入图像对应的尺寸为4096维的特征。第八部分全连接层的神经元个数为1000,后接Softmax作为激活函数。
更具体的说,本实施例中采用的VGG-19模型为事先使用Imagenet数据集预训练好的模型,并且采用S1划分好的数据集作微调,提取第七部分全连接层的图像特征。
本实施例中,对文本特征进行学习:
数据集不考虑其词法和语序的问题,即每个词语都是独立的,把每一个单词都进行统计,同时计算每个单词出现的次数。词袋模型不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重,而权重与词在文本中出现的频率有关,将关键词表示成向量的形式。
步骤S3、设置对抗自编码器网络,通过对抗自编码器网络提取模态特定特征和模态共享特征;给定一个跨模态检索的样本集os=(vs,ts,ls)代表第s个样本的图像、文本以及语义标签的组合,得到N对图像和文本特征实例的集合。其中,vd和td分别是图像和文本特征的维度,ls是独热(one-hot)编码,它是语义标签的二进制向量表示;
具体的说,在本实施例中,步骤S3包括:
步骤S301、设置对抗自编码器网络的生成器,生成器包括隐含层生成器和全局生成器;
隐含层生成器经过自编码器的编码过程得到图像和文本特征在子空间的分布,隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;ωs=(vs′,ts′,ls)代表第s个样本的图像和文本的特定特征以及语义标签的组合,代表第s个样本的图像和文本的共享特征以及语义标签的组合;
全局生成器经过自编码器的编码和解码过程得到图像和文本的重构特征,全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
在本实施例中,图片采用VGG-19提取4096维特征,文本采用BOW提取1000维特征。编码过程是降维过程,得到图片和文本100维的特定特征。解码过程是编码的逆过程,目的是重构原始特征。
步骤S302、设置对抗自编码器网络的判别器,判别器包括隐含层判别器和全局判别器;
隐含层判别器用以区分子空间的图像特征和文本特征,隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
步骤S303、全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,全局生成器的损失函数定义为:
公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示图像模态通道自编码器重构损失,表示文本模态通道自编码器重构损失,pGg表示为全局生成器生成的特征集,和表示pGg中图像和文本模态的实例,表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θEn和θDe分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
步骤S304、隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,隐含层生成器的损失函数定义为:
公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征集,表示为文本模态的共享特征集,和分别表示和中的实例,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θEn表示为对抗自编码器网络编码层的网络参数;
步骤S305、全局判别器的损失函数定义为:
公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,以及分别表示图像和文本模态自编码结构的全局判别器,pdata表示为在步骤S2中,通过VGG-19模型以及词袋模型提取到的特征集,pGg表示为全局生成器生成的特征集,θAg表示为全局判别器网络参数,xv和xt分别表示pdata中的图像和文本模态的实例,和表示pGg中图像和文本模态的实例;
步骤S306、隐含层判别器的损失函数定义为:
公式(4)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征,表示为文本模态的共享特征,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θAs表示为隐含层判别器的网络参数,xv和xt表示VGG-19模型以及词袋模型提取到特征向量,和分别表示和中的实例。
步骤S4、通过哈希网络生成对应模态样本的哈希码;
具体的说,在本实施例中,步骤S4包括:
步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,神经元个数分别设置为100,k,输出为k维特征,其中k为哈希码的位数,第一层与第二层的激活函数为Tanh,输出特征经过sign函数生成哈希码;
步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
更具体的说,在本实施例中,步骤S402包括:
步骤S4022、定义哈希码分类损失函数:
步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数,保证模态独立特征和模态分享特征之间的差别度:
步骤S4024、获取模态特定和模态共享哈希网络的优化损失:
Lh=LC+β·Llm (7)
公式(7)中,β表示为平衡参数。
步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
具体的说,联合两个网络的生成模型、判别模型以及哈希网络的损失函数,考虑到这生成模型和判别模型的优化目标是相反的,采用极小极大博弈策略进行优化。该博弈策略可以使用随机梯度下降的优化算法来实现,采用均方根传播(RMSprop)优化器。
更具体的说,对于判别器、生成器和哈希网络的参数θEn,θDe,θAg,θAs,θC,θh的优化过程如下:
步骤S501、固定生成器和哈希网络参数,更新判别器参数:
步骤S502、固定判别器参数,更新生成器和哈希网络参数:
其中,r是学习率。
在本实施例中,最小训练批次大小为256,学习率为0.01,两个权重参数α和β通过实验分别设置为2,5。
步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
具体的说,待网络收敛后,对测试集的样本进行跨模态检索。计算测试集中每个图像(文本)哈希码与训练集中所有文本(图像)哈希码之间的汉明距离d1(d2);
升序排列d1和d2,并根据排列结果查询到文本和图像在模态中对应的索引,并按照相关度排名后取topk个作为检索结果,并基于双模态数据的标签信息对topk个检索结果进行精度计算,完成图像文本对的跨模态检索。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (8)
1.一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,包括如下步骤:
步骤S1、获取跨模态检索数据集,并且将所述跨模态检索数据集划分为训练集和测试集;
步骤S2、对训练集中的文本和图像分别进行特征提取;
步骤S3、设置对抗自编码器网络,通过所述对抗自编码器网络提取模态特定特征和模态共享特征;
步骤S4、通过哈希网络生成对应模态样本的哈希码;
步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
2.根据权利要求1所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述跨模态检索数据集包括多个样本对,每个样本对包括:文本、图像和相应的语义标签。
3.根据权利要求2所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,在所述步骤S2中,通过VGG-19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
4.根据权利要求3所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S3具体包括:
步骤S301、设置对抗自编码器网络的生成器,所述生成器包括隐含层生成器和全局生成器;
所述隐含层生成器用以获取图像特征和文本特征在子空间的分布,所述隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;
所述全局生成器用以获取图像和文本的重构特征,所述全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
步骤S302、设置对抗自编码器网络的判别器,所述判别器包括隐含层判别器和全局判别器;
所述隐含层判别器用以区分子空间的图像特征和文本特征,所述隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,所述全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,所述全局生成器的损失函数定义为:
公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示图像模态通道自编码器重构损失,表示文本模态通道自编码器重构损失,pGg表示为全局生成器生成的特征集,和表示pGg中图像和文本模态的实例,表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θEn和θDe分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,所述隐含层生成器的损失函数定义为:
公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征集,表示为文本模态的共享特征集,和分别表示和中的实例,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θEn表示为对抗自编码器网络编码层的网络参数;
步骤S305、所述全局判别器的损失函数定义为:
公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,以及分别表示图像和文本模态自编码结构的全局判别器,pdata表示为在步骤S2中,通过VGG-19模型以及词袋模型提取到的特征集,pGg表示为全局生成器生成的特征集,θAg表示为全局判别器网络参数,xv和xt分别表示pdata中的图像和文本模态的实例,和表示pGg中图像和文本模态的实例;
步骤S306、所述隐含层判别器的损失函数定义为:
5.根据权利要求4所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S4包括:
步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,输出为k维特征,其中k为哈希码的位数,输出特征经过sign函数生成哈希码;
步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
6.根据权利要求5所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S402,具体包括:
步骤S4022、定义哈希码分类损失函数:
步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数:
步骤S4024、获取模态特定和模态共享哈希网络的优化损失:
Lh=LC+β·Llm (7)
公式(7)中,β表示为平衡参数。
7.根据权利要求6所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S5包括:联合对抗自编码器网络的损失函数以及哈希网络的损失函数采用采用极小极大博弈策略进行优化,所述极小极大博弈策略具体通过随机梯度下降的优化算法实现。
8.根据权利要求7所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,在所述步骤S5中,采用均方根传播优化器实现对抗自编码器网络的损失函数以及哈希网络的损失函数的优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053038.5A CN112800292B (zh) | 2021-01-15 | 2021-01-15 | 一种基于模态特定和共享特征学习的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053038.5A CN112800292B (zh) | 2021-01-15 | 2021-01-15 | 一种基于模态特定和共享特征学习的跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800292A true CN112800292A (zh) | 2021-05-14 |
CN112800292B CN112800292B (zh) | 2022-10-11 |
Family
ID=75809519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110053038.5A Active CN112800292B (zh) | 2021-01-15 | 2021-01-15 | 一种基于模态特定和共享特征学习的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800292B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656539A (zh) * | 2021-07-28 | 2021-11-16 | 哈尔滨工业大学 | 基于特征分离和重建的跨模态检索方法 |
CN114067385A (zh) * | 2021-10-09 | 2022-02-18 | 华南理工大学 | 基于度量学习的跨模态人脸检索哈希方法 |
CN115410717A (zh) * | 2022-09-15 | 2022-11-29 | 北京京东拓先科技有限公司 | 模型训练方法、数据检索方法、影像数据检索方法和装置 |
CN117079048A (zh) * | 2023-08-29 | 2023-11-17 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
CN117194605A (zh) * | 2023-11-08 | 2023-12-08 | 中南大学 | 用于多模态医学数据缺失的哈希编码方法、终端及介质 |
WO2024032119A1 (zh) * | 2022-08-12 | 2024-02-15 | 西安电子科技大学 | 一种多模态信源联合编码方法 |
CN114067385B (zh) * | 2021-10-09 | 2024-05-31 | 华南理工大学 | 基于度量学习的跨模态人脸检索哈希方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
CN111460201A (zh) * | 2020-03-04 | 2020-07-28 | 南京邮电大学 | 一种基于生成性对抗网络的模态一致性跨模态检索方法 |
-
2021
- 2021-01-15 CN CN202110053038.5A patent/CN112800292B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
CN111460201A (zh) * | 2020-03-04 | 2020-07-28 | 南京邮电大学 | 一种基于生成性对抗网络的模态一致性跨模态检索方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656539A (zh) * | 2021-07-28 | 2021-11-16 | 哈尔滨工业大学 | 基于特征分离和重建的跨模态检索方法 |
CN113656539B (zh) * | 2021-07-28 | 2023-08-18 | 哈尔滨工业大学 | 基于特征分离和重建的跨模态检索方法 |
CN114067385A (zh) * | 2021-10-09 | 2022-02-18 | 华南理工大学 | 基于度量学习的跨模态人脸检索哈希方法 |
CN114067385B (zh) * | 2021-10-09 | 2024-05-31 | 华南理工大学 | 基于度量学习的跨模态人脸检索哈希方法 |
WO2024032119A1 (zh) * | 2022-08-12 | 2024-02-15 | 西安电子科技大学 | 一种多模态信源联合编码方法 |
CN115410717A (zh) * | 2022-09-15 | 2022-11-29 | 北京京东拓先科技有限公司 | 模型训练方法、数据检索方法、影像数据检索方法和装置 |
CN115410717B (zh) * | 2022-09-15 | 2024-05-21 | 北京京东拓先科技有限公司 | 模型训练方法、数据检索方法、影像数据检索方法和装置 |
CN117079048A (zh) * | 2023-08-29 | 2023-11-17 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
CN117079048B (zh) * | 2023-08-29 | 2024-05-14 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
CN117194605A (zh) * | 2023-11-08 | 2023-12-08 | 中南大学 | 用于多模态医学数据缺失的哈希编码方法、终端及介质 |
CN117194605B (zh) * | 2023-11-08 | 2024-01-19 | 中南大学 | 用于多模态医学数据缺失的哈希编码方法、终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112800292B (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN108319686B (zh) | 基于受限文本空间的对抗性跨媒体检索方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN112487822A (zh) | 一种基于深度学习的跨模态检索方法 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
CN112396091B (zh) | 社交媒体图像流行度预测方法、系统、存储介质及应用 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
CN116775798A (zh) | 一种基于图网络与模态间特征融合的跨模态哈希方法 | |
CN116189047A (zh) | 一种基于多模态信息聚合的短视频分类方法 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |