CN112800292A - 一种基于模态特定和共享特征学习的跨模态检索方法 - Google Patents

一种基于模态特定和共享特征学习的跨模态检索方法 Download PDF

Info

Publication number
CN112800292A
CN112800292A CN202110053038.5A CN202110053038A CN112800292A CN 112800292 A CN112800292 A CN 112800292A CN 202110053038 A CN202110053038 A CN 202110053038A CN 112800292 A CN112800292 A CN 112800292A
Authority
CN
China
Prior art keywords
modality
features
text
network
expressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110053038.5A
Other languages
English (en)
Other versions
CN112800292B (zh
Inventor
吴飞
罗晓开
季一木
黄庆花
高广谓
蒋国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110053038.5A priority Critical patent/CN112800292B/zh
Publication of CN112800292A publication Critical patent/CN112800292A/zh
Application granted granted Critical
Publication of CN112800292B publication Critical patent/CN112800292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态特定和共享特征学习的跨模态检索方法,包括:步骤S1、获取跨模态检索数据集,划分为训练集和测试集;步骤S2、对文本和图像分别进行特征提取;步骤S3、提取模态特定特征和模态共享特征;步骤S4、通过哈希网络生成对应模态样本的哈希码;步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。本发明设计了一个哈希网络,将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中,并且利用标签信息、模态特定和共享特征进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性。

Description

一种基于模态特定和共享特征学习的跨模态检索方法
技术领域
本发明涉及一种跨模态的检索方法,特别是涉及一种基于模态特定和共享特征学习的跨模态检索方法。
背景技术
近些年来,海量的多模态数据充斥着我们的生活。就以互联网上的新闻为例,通常包括文字介绍,有时还会在页面上排版一些记者拍下的照片,甚至会有一些独家的视频和音频的报道。像文本、图像、视频、音频等多模态数据是我们从多个角度去高效地获取同一个信息的重要手段。用户不仅仅需要单一模态数据之间地检索,更加需要一种更灵活地检索方式:从一个模态数据去精准地检索到另外一种模态的相关数据。近些年来,跨模态检索这项工作已经成为学术界广泛讨论地热点。但是,多模态数据因为有不同的分布和表示通常具有比较强的异质性,难以直接计算并缩小它们之间的差异。因此,跨模态检索任务存在一定的挑战性。在自编码的学习过程中如何更好地保留原始特征以及消除多模态数据分布的差异是一个重要的研究课题。此外,现有的跨模态检索工作在做特征提取时少有将模态特定信息和模态共享信息结合考虑,造成有效信息的丢失。
发明内容
有鉴于此,本发明的目的在于提供一种基于模态特定和共享特征学习的跨模态检索方法,通过重新设计的自编码器的框架,有效地减小多模态数据的分布差异,并且通过重新设计哈希网络,使得输出的哈希码在模态间和模态内具有更好的语义区分性。
为实现本发明的目的,本发明所述的一种基于模态特定和共享特征学习的跨模态检索方法,包括如下步骤:
步骤S1、获取跨模态检索数据集,并且将所述跨模态检索数据集划分为训练集和测试集;
步骤S2、对训练集中的文本和图像分别进行特征提取;
步骤S3、设置对抗自编码器网络,通过所述对抗自编码器网络提取模态特定特征和模态共享特征;
步骤S4、通过哈希网络生成对应模态样本的哈希码;
步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
进一步的,所述跨模态检索数据集包括多个样本对,每个样本对包括:文本、图像和相应的语义标签。
进一步的,在所述步骤S2中,通过VGG-19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
进一步的,所述步骤S3具体包括:
步骤S301、设置对抗自编码器网络的生成器,所述生成器包括隐含层生成器和全局生成器;
所述隐含层生成器用以获取图像特征和文本特征在子空间的分布,所述隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;
所述全局生成器用以获取图像和文本的重构特征,所述全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
步骤S302、设置对抗自编码器网络的判别器,所述判别器包括隐含层判别器和全局判别器;
所述隐含层判别器用以区分子空间的图像特征和文本特征,所述隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,所述全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,所述全局生成器的损失函数定义为:
Figure BDA0002899849860000021
公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA0002899849860000022
表示图像模态通道自编码器重构损失,
Figure BDA0002899849860000023
表示文本模态通道自编码器重构损失,pGg表示为全局生成器生成的特征集,
Figure BDA0002899849860000024
Figure BDA0002899849860000025
表示pGg中图像和文本模态的实例,
Figure BDA0002899849860000026
表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,
Figure BDA0002899849860000027
表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θEn和θDe分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,所述隐含层生成器的损失函数定义为:
Figure BDA0002899849860000031
公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA0002899849860000032
表示为图像模态的共享特征集,
Figure BDA0002899849860000033
表示为文本模态的共享特征集,
Figure BDA0002899849860000034
Figure BDA0002899849860000035
分别表示
Figure BDA0002899849860000036
Figure BDA0002899849860000037
中的实例,
Figure BDA0002899849860000038
Figure BDA0002899849860000039
表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θEn表示为对抗自编码器网络编码层的网络参数;
步骤S305、所述全局判别器的损失函数定义为:
Figure BDA00028998498600000310
公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA00028998498600000311
以及
Figure BDA00028998498600000312
分别表示图像和文本模态自编码结构的全局判别器,pdata表示为在步骤S2中,通过VGG-19模型以及词袋模型提取到的特征集,pGg表示为全局生成器生成的特征集,θAg表示为全局判别器网络参数,xv和xt分别表示pdata中的图像和文本模态的实例,
Figure BDA00028998498600000313
Figure BDA00028998498600000314
表示pGg中图像和文本模态的实例;
步骤S306、所述隐含层判别器的损失函数定义为:
Figure BDA00028998498600000315
公式(4)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA00028998498600000316
表示为图像模态的共享特征,
Figure BDA00028998498600000328
表示为文本模态的共享特征,
Figure BDA00028998498600000317
Figure BDA00028998498600000318
表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θAs表示为隐含层判别器的网络参数,xv和xt表示VGG-19模型以及词袋模型提取到特征向量,
Figure BDA00028998498600000319
Figure BDA00028998498600000320
分别表示
Figure BDA00028998498600000321
Figure BDA00028998498600000322
中的实例。
进一步的,所述步骤S4包括:
步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,输出为k维特征,其中k为哈希码的位数,输出特征经过sign函数生成哈希码;
步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
进一步的,所述步骤S402,具体包括:
步骤S4021、定义模态特定和共享的哈希网络的输出为:
Figure BDA00028998498600000323
Figure BDA00028998498600000324
θh为网络参数,其中
Figure BDA00028998498600000325
vs′和ts′分别表示图像和文本模态的特定特征,
Figure BDA00028998498600000326
Figure BDA00028998498600000327
分别表示图像和文本内模态的共享特征;
步骤S4022、定义哈希码分类损失函数:
Figure BDA0002899849860000041
公式(5)中,LC表示为哈希码分类损失,ls表示为每一个特征的真实标签,具体表现形式为0-1向量;
Figure BDA0002899849860000042
表示为每个的语义类别的概率分布,
Figure BDA0002899849860000043
表示为模态特定和模态共享的拼接;
步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数:
Figure BDA0002899849860000044
公式(6)中,h(x)=max(0,x),ξ表示阈值,
Figure BDA0002899849860000045
表示图片模态特定特征和共享特征的范数,
Figure BDA0002899849860000046
示文本模态特定特征和共享特征的范数;
步骤S4024、获取模态特定和模态共享哈希网络的优化损失:
Lh=LC+β·Llm (7)
公式(7)中,β表示为平衡参数。
进一步的,所述步骤S5包括:联合对抗自编码器网络的损失函数以及哈希网络的损失函数采用采用极小极大博弈策略进行优化,所述极小极大博弈策略具体通过随机梯度下降的优化算法实现。
进一步的,在所述步骤S5中,采用均方根传播优化器实现对抗自编码器网络的损失函数以及哈希网络的损失函数的优化。
本发明的有益效果是:
1、本发明基于自编码器的框架,用全局对抗网络改进了自编码器模态内重构过程,极小极大博弈的策略使得模态内的原始特征和重构特征难以判别,更好地保留原始特征。隐含层对抗网络生成模态不变表示的同时使得模态间数据难以被区分,有效地减小多模态数据的分布差异。
2、本发明设计了一个新的哈希网络,将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中,并且利用标签信息、模态特定和共享特征进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性。
附图说明
图1为本发明的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1,本实施例提供一种基于模态特定和共享特征学习的跨模态检索方法,包括如下步骤:
步骤S1、获取跨模态检索数据集,并且将跨模态检索数据集划分为训练集和测试集;
具体的说,在本实施例中,通过互联网等常规渠道,获取到的数据集,具体包括:Wikipedia和NUS-WIDE,这些数据集都是由有标签的图像文本对构成。
步骤S2、对训练集中的文本和图像分别进行特征提取;
具体的说,在本实施例中,通过VGG-19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
在本实施例中,采用的VGG-19模型包含了16个卷积层和3个全连接层,网络结构为:第一部分由两层的卷积层组成,包含:64个大小为3*3的卷积核,步长是1,0边距,采用ReLU激活函数。池化用传统的2*2大小的模板。第二部分以第一部分的输出作为输入,由两层卷积层组成,每一层的结构为:用128个3*3大小的卷积核,步长是1,0边距,采用ReLU激活函数,池化采用2*2大小的模板。第三部分由四个卷积层组成,每一层的结构为256个3*3的卷积核,步长是1,0边距,激活函数为ReLU,池化用传统的2*2大小的模板。第四部分和第五部分都由四层卷积层组成,每一层的结构为512个3*3的卷积核,步长是1,0边距,激活函数为ReLU,池化用传统的2*2大小的模板。第六部分和第七部分为全连接层,有4096个神经元,为了减少过拟合,本发明设置dropout参数为0.5,激活函数用ReLU。然后得到与输入图像对应的尺寸为4096维的特征。第八部分全连接层的神经元个数为1000,后接Softmax作为激活函数。
更具体的说,本实施例中采用的VGG-19模型为事先使用Imagenet数据集预训练好的模型,并且采用S1划分好的数据集作微调,提取第七部分全连接层的图像特征。
本实施例中,对文本特征进行学习:
数据集不考虑其词法和语序的问题,即每个词语都是独立的,把每一个单词都进行统计,同时计算每个单词出现的次数。词袋模型不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重,而权重与词在文本中出现的频率有关,将关键词表示成向量的形式。
步骤S3、设置对抗自编码器网络,通过对抗自编码器网络提取模态特定特征和模态共享特征;给定一个跨模态检索的样本集
Figure BDA0002899849860000051
os=(vs,ts,ls)代表第s个样本的图像、文本以及语义标签的组合,得到N对图像和文本特征实例的集合。其中,
Figure BDA0002899849860000061
vd和td分别是图像和文本特征的维度,ls是独热(one-hot)编码,它是语义标签的二进制向量表示;
具体的说,在本实施例中,步骤S3包括:
步骤S301、设置对抗自编码器网络的生成器,生成器包括隐含层生成器和全局生成器;
隐含层生成器经过自编码器的编码过程得到图像和文本特征在子空间的分布,隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;ωs=(vs′,ts′,ls)代表第s个样本的图像和文本的特定特征以及语义标签的组合,
Figure BDA0002899849860000062
代表第s个样本的图像和文本的共享特征以及语义标签的组合;
全局生成器经过自编码器的编码和解码过程得到图像和文本的重构特征,全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
在本实施例中,图片采用VGG-19提取4096维特征,文本采用BOW提取1000维特征。编码过程是降维过程,得到图片和文本100维的特定特征。解码过程是编码的逆过程,目的是重构原始特征。
步骤S302、设置对抗自编码器网络的判别器,判别器包括隐含层判别器和全局判别器;
隐含层判别器用以区分子空间的图像特征和文本特征,隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
步骤S303、全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,全局生成器的损失函数定义为:
Figure BDA0002899849860000063
公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA0002899849860000064
表示图像模态通道自编码器重构损失,
Figure BDA0002899849860000069
表示文本模态通道自编码器重构损失,pGg表示为全局生成器生成的特征集,
Figure BDA0002899849860000065
Figure BDA0002899849860000066
表示pGg中图像和文本模态的实例,
Figure BDA0002899849860000067
表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,
Figure BDA0002899849860000068
表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θEn和θDe分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
步骤S304、隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,隐含层生成器的损失函数定义为:
Figure BDA0002899849860000071
公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA0002899849860000072
表示为图像模态的共享特征集,
Figure BDA0002899849860000073
表示为文本模态的共享特征集,
Figure BDA0002899849860000074
Figure BDA0002899849860000075
分别表示
Figure BDA0002899849860000076
Figure BDA0002899849860000077
中的实例,
Figure BDA0002899849860000078
Figure BDA0002899849860000079
表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θEn表示为对抗自编码器网络编码层的网络参数;
步骤S305、全局判别器的损失函数定义为:
Figure BDA00028998498600000710
公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA00028998498600000711
以及
Figure BDA00028998498600000712
分别表示图像和文本模态自编码结构的全局判别器,pdata表示为在步骤S2中,通过VGG-19模型以及词袋模型提取到的特征集,pGg表示为全局生成器生成的特征集,θAg表示为全局判别器网络参数,xv和xt分别表示pdata中的图像和文本模态的实例,
Figure BDA00028998498600000713
Figure BDA00028998498600000714
表示pGg中图像和文本模态的实例;
步骤S306、隐含层判别器的损失函数定义为:
Figure BDA00028998498600000715
公式(4)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure BDA00028998498600000724
表示为图像模态的共享特征,
Figure BDA00028998498600000723
表示为文本模态的共享特征,
Figure BDA00028998498600000716
Figure BDA00028998498600000717
表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θAs表示为隐含层判别器的网络参数,xv和xt表示VGG-19模型以及词袋模型提取到特征向量,
Figure BDA00028998498600000718
Figure BDA00028998498600000719
分别表示
Figure BDA00028998498600000720
Figure BDA00028998498600000721
中的实例。
步骤S4、通过哈希网络生成对应模态样本的哈希码;
具体的说,在本实施例中,步骤S4包括:
步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,神经元个数分别设置为100,k,输出为k维特征,其中k为哈希码的位数,第一层与第二层的激活函数为Tanh,输出特征经过sign函数生成哈希码;
步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
更具体的说,在本实施例中,步骤S402包括:
步骤S4021、定义模态特定和共享的哈希网络的输出为:
Figure BDA00028998498600000722
Figure BDA0002899849860000081
θh为网络参数,其中
Figure BDA0002899849860000082
vs′和ts′分别表示图像和文本模态的特定特征,
Figure BDA0002899849860000083
Figure BDA0002899849860000084
分别表示图像和文本内模态的共享特征;
步骤S4022、定义哈希码分类损失函数:
Figure BDA0002899849860000085
公式(5)中,LC表示为哈希码分类损失,ls表示为每一个特征的真实标签,具体表现形式为0-1向量;
Figure BDA0002899849860000086
表示为每个的语义类别的概率分布,
Figure BDA0002899849860000087
表示为模态特定和模态共享的拼接;
步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数,保证模态独立特征和模态分享特征之间的差别度:
Figure BDA0002899849860000088
公式(6)中,h(x)=max(0,x),ξ表示阈值,
Figure BDA0002899849860000089
表示图片模态特定特征和共享特征的范数,
Figure BDA00028998498600000810
示文本模态特定特征和共享特征的范数;
步骤S4024、获取模态特定和模态共享哈希网络的优化损失:
Lh=LC+β·Llm (7)
公式(7)中,β表示为平衡参数。
步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
具体的说,联合两个网络的生成模型、判别模型以及哈希网络的损失函数,考虑到这生成模型和判别模型的优化目标是相反的,采用极小极大博弈策略进行优化。该博弈策略可以使用随机梯度下降的优化算法来实现,采用均方根传播(RMSprop)优化器。
更具体的说,对于判别器、生成器和哈希网络的参数θEn,θDe,θAg,θAs,θC,θh的优化过程如下:
步骤S501、固定生成器和哈希网络参数,更新判别器参数:
Figure BDA00028998498600000811
Figure BDA00028998498600000812
步骤S502、固定判别器参数,更新生成器和哈希网络参数:
Figure BDA00028998498600000813
Figure BDA00028998498600000814
Figure BDA0002899849860000091
Figure BDA0002899849860000092
其中,r是学习率。
在本实施例中,最小训练批次大小为256,学习率为0.01,两个权重参数α和β通过实验分别设置为2,5。
步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
具体的说,待网络收敛后,对测试集的样本进行跨模态检索。计算测试集中每个图像(文本)哈希码与训练集中所有文本(图像)哈希码之间的汉明距离d1(d2);
升序排列d1和d2,并根据排列结果查询到文本和图像在模态中对应的索引,并按照相关度排名后取topk个作为检索结果,并基于双模态数据的标签信息对topk个检索结果进行精度计算,完成图像文本对的跨模态检索。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,包括如下步骤:
步骤S1、获取跨模态检索数据集,并且将所述跨模态检索数据集划分为训练集和测试集;
步骤S2、对训练集中的文本和图像分别进行特征提取;
步骤S3、设置对抗自编码器网络,通过所述对抗自编码器网络提取模态特定特征和模态共享特征;
步骤S4、通过哈希网络生成对应模态样本的哈希码;
步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
2.根据权利要求1所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述跨模态检索数据集包括多个样本对,每个样本对包括:文本、图像和相应的语义标签。
3.根据权利要求2所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,在所述步骤S2中,通过VGG-19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
4.根据权利要求3所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S3具体包括:
步骤S301、设置对抗自编码器网络的生成器,所述生成器包括隐含层生成器和全局生成器;
所述隐含层生成器用以获取图像特征和文本特征在子空间的分布,所述隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;
所述全局生成器用以获取图像和文本的重构特征,所述全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
步骤S302、设置对抗自编码器网络的判别器,所述判别器包括隐含层判别器和全局判别器;
所述隐含层判别器用以区分子空间的图像特征和文本特征,所述隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,所述全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,所述全局生成器的损失函数定义为:
Figure FDA0002899849850000021
公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure FDA0002899849850000022
表示图像模态通道自编码器重构损失,
Figure FDA0002899849850000023
表示文本模态通道自编码器重构损失,pGg表示为全局生成器生成的特征集,
Figure FDA0002899849850000024
Figure FDA0002899849850000025
表示pGg中图像和文本模态的实例,
Figure FDA0002899849850000026
表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,
Figure FDA0002899849850000027
表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θEn和θDe分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,所述隐含层生成器的损失函数定义为:
Figure FDA0002899849850000028
公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure FDA0002899849850000029
表示为图像模态的共享特征集,
Figure FDA00028998498500000210
表示为文本模态的共享特征集,
Figure FDA00028998498500000211
Figure FDA00028998498500000212
分别表示
Figure FDA00028998498500000213
Figure FDA00028998498500000214
中的实例,
Figure FDA00028998498500000215
Figure FDA00028998498500000216
表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θEn表示为对抗自编码器网络编码层的网络参数;
步骤S305、所述全局判别器的损失函数定义为:
Figure FDA00028998498500000217
公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure FDA00028998498500000218
以及
Figure FDA00028998498500000219
分别表示图像和文本模态自编码结构的全局判别器,pdata表示为在步骤S2中,通过VGG-19模型以及词袋模型提取到的特征集,pGg表示为全局生成器生成的特征集,θAg表示为全局判别器网络参数,xv和xt分别表示pdata中的图像和文本模态的实例,
Figure FDA00028998498500000220
Figure FDA00028998498500000221
表示pGg中图像和文本模态的实例;
步骤S306、所述隐含层判别器的损失函数定义为:
Figure FDA00028998498500000222
公式(4)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,
Figure FDA00028998498500000223
表示为图像模态的共享特征,
Figure FDA00028998498500000224
表示为文本模态的共享特征,
Figure FDA00028998498500000225
Figure FDA00028998498500000226
表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θAs表示为隐含层判别器的网络参数,xv和xt表示VGG-19模型以及词袋模型提取到特征向量,
Figure FDA0002899849850000031
Figure FDA0002899849850000032
分别表示
Figure FDA0002899849850000033
Figure FDA0002899849850000034
中的实例。
5.根据权利要求4所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S4包括:
步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,输出为k维特征,其中k为哈希码的位数,输出特征经过sign函数生成哈希码;
步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
6.根据权利要求5所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S402,具体包括:
步骤S4021、定义模态特定和共享的哈希网络的输出为:
Figure FDA0002899849850000035
Figure FDA0002899849850000036
θh为网络参数,其中
Figure FDA0002899849850000037
v′s和t′s分别表示图像和文本模态的特定特征,
Figure FDA0002899849850000038
Figure FDA0002899849850000039
分别表示图像和文本内模态的共享特征;
步骤S4022、定义哈希码分类损失函数:
Figure FDA00028998498500000310
公式(5)中,LC表示为哈希码分类损失,ls表示为每一个特征的真实标签,具体表现形式为0-1向量;
Figure FDA00028998498500000311
表示为每个的语义类别的概率分布,
Figure FDA00028998498500000312
表示为模态特定和模态共享的拼接;
步骤S4023、定义模态特定和模态共享特征的阈值度量损失函数:
Figure FDA00028998498500000313
公式(6)中,h(x)=max(0,x),ξ表示阈值,
Figure FDA00028998498500000314
Figure FDA00028998498500000315
表示图片模态特定特征和共享特征的范数,
Figure FDA00028998498500000316
示文本模态特定特征和共享特征的范数;
步骤S4024、获取模态特定和模态共享哈希网络的优化损失:
Lh=LC+β·Llm (7)
公式(7)中,β表示为平衡参数。
7.根据权利要求6所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S5包括:联合对抗自编码器网络的损失函数以及哈希网络的损失函数采用采用极小极大博弈策略进行优化,所述极小极大博弈策略具体通过随机梯度下降的优化算法实现。
8.根据权利要求7所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,在所述步骤S5中,采用均方根传播优化器实现对抗自编码器网络的损失函数以及哈希网络的损失函数的优化。
CN202110053038.5A 2021-01-15 2021-01-15 一种基于模态特定和共享特征学习的跨模态检索方法 Active CN112800292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110053038.5A CN112800292B (zh) 2021-01-15 2021-01-15 一种基于模态特定和共享特征学习的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110053038.5A CN112800292B (zh) 2021-01-15 2021-01-15 一种基于模态特定和共享特征学习的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN112800292A true CN112800292A (zh) 2021-05-14
CN112800292B CN112800292B (zh) 2022-10-11

Family

ID=75809519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110053038.5A Active CN112800292B (zh) 2021-01-15 2021-01-15 一种基于模态特定和共享特征学习的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN112800292B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656539A (zh) * 2021-07-28 2021-11-16 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN114067385A (zh) * 2021-10-09 2022-02-18 华南理工大学 基于度量学习的跨模态人脸检索哈希方法
CN115410717A (zh) * 2022-09-15 2022-11-29 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置
CN117079048A (zh) * 2023-08-29 2023-11-17 贵州电网有限责任公司 基于clip模型的地质灾害图像识别方法及系统
CN117194605A (zh) * 2023-11-08 2023-12-08 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质
WO2024032119A1 (zh) * 2022-08-12 2024-02-15 西安电子科技大学 一种多模态信源联合编码方法
CN114067385B (zh) * 2021-10-09 2024-05-31 华南理工大学 基于度量学习的跨模态人脸检索哈希方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111460201A (zh) * 2020-03-04 2020-07-28 南京邮电大学 一种基于生成性对抗网络的模态一致性跨模态检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111460201A (zh) * 2020-03-04 2020-07-28 南京邮电大学 一种基于生成性对抗网络的模态一致性跨模态检索方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656539A (zh) * 2021-07-28 2021-11-16 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN113656539B (zh) * 2021-07-28 2023-08-18 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN114067385A (zh) * 2021-10-09 2022-02-18 华南理工大学 基于度量学习的跨模态人脸检索哈希方法
CN114067385B (zh) * 2021-10-09 2024-05-31 华南理工大学 基于度量学习的跨模态人脸检索哈希方法
WO2024032119A1 (zh) * 2022-08-12 2024-02-15 西安电子科技大学 一种多模态信源联合编码方法
CN115410717A (zh) * 2022-09-15 2022-11-29 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置
CN115410717B (zh) * 2022-09-15 2024-05-21 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置
CN117079048A (zh) * 2023-08-29 2023-11-17 贵州电网有限责任公司 基于clip模型的地质灾害图像识别方法及系统
CN117079048B (zh) * 2023-08-29 2024-05-14 贵州电网有限责任公司 基于clip模型的地质灾害图像识别方法及系统
CN117194605A (zh) * 2023-11-08 2023-12-08 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质
CN117194605B (zh) * 2023-11-08 2024-01-19 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质

Also Published As

Publication number Publication date
CN112800292B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112487822A (zh) 一种基于深度学习的跨模态检索方法
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN110659392B (zh) 检索方法及装置、存储介质
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN112396091B (zh) 社交媒体图像流行度预测方法、系统、存储介质及应用
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
CN116775798A (zh) 一种基于图网络与模态间特征融合的跨模态哈希方法
CN116189047A (zh) 一种基于多模态信息聚合的短视频分类方法
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN113297385B (zh) 基于改进GraphRNN的多标签文本分类系统及分类方法
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant