CN114168784A - 一种分层监督跨模态图文检索方法 - Google Patents

一种分层监督跨模态图文检索方法 Download PDF

Info

Publication number
CN114168784A
CN114168784A CN202111511008.0A CN202111511008A CN114168784A CN 114168784 A CN114168784 A CN 114168784A CN 202111511008 A CN202111511008 A CN 202111511008A CN 114168784 A CN114168784 A CN 114168784A
Authority
CN
China
Prior art keywords
layer
modal
network
label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111511008.0A
Other languages
English (en)
Inventor
陈锐东
强保华
陶林
郑虹
孙苹苹
张世豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202111511008.0A priority Critical patent/CN114168784A/zh
Publication of CN114168784A publication Critical patent/CN114168784A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分层监督跨模态图文检索方法,所述的方法包括步骤如下:S1:构建用于提取图像特征和文本特征的特征提取网络;S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;S3:构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;S4:构建哈希码生成网络,并利用哈希码生成网络约束特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。本发明能实现对具有分层监督跨模态数据的检索,提升跨模态检索效率。

Description

一种分层监督跨模态图文检索方法
技术领域
本发明涉及跨模态图文检索技术领域,更具体的,涉及一种分层监督跨模态图文检索方法。
背景技术
随着互联网和物联网的迅速发展,产生了海量有价值的多模态数据。如何在海量数据中快速高效地找到与之相关的多模态信息极其重要,这就使得跨模态检索具有了应用场景和研究意义。
现有跨模态检索方法大多针对非层次结构监督信息,无法充分挖掘到标签丰富的语义信息。然而,在许多现实应用场景中,跨模态数据的标签监督信息往往具有某种层次结构,内含丰富的语义信息。因此,构造充分挖掘分层监督信息的跨模态检索方法对信息检索领域是极其重要的。
现有技术一种基于多层语义深度哈希算法的图像-文本跨模态检索方法,通过多标签数据之间的共现关系定义数据之间的相似度,并以此作为网络训练的监督信息。设计综合考虑多层语义相似度与二值相似度的损失函数,对网络进行训练,使得特征提取和哈希码学习过程统一在一个框架内,实现端到端学习。该算法充分利用数据之间的语义相关性信息,提高了检索准确率,如图1所示。整体框架包含三个模块:深度特征提取模块、相似度矩阵生成模块、哈希码学习模块;分别采用两个深度神经网络提取图像和文字特征,将特征学习和哈希码学习过程统一在一个框架内,并通过引入基于标签共现的多层次语义监督信息指导整个训练过程,使得到的二值码不仅保留了原样本空间基本的相似/不相似关系,并且能够区分样本间的相似程度,更大程度的保留样本间的高层语义,提高检索准确率;在结构上,通过对网络施加“在语义空间相似的图像和文字在汉明空间具有相似的哈希码”这一约束进行训练,直接将哈希码作为网络的输出,实现端到端学习,从而保证学习到的特征适应特定的检索任务。
然而以上现有技术依然存在以下不足之处:
1.使用定长哈希编码表示跨模态数据,占用内存较大。
2.针对非层次监督信息设计的跨模态检索,无法充分挖掘到标签丰富的语义信息。
3.仅在哈希码学习阶段施加约束,在特征学习阶段未施加约束,没有充分最小化含有相同语义信息的多种模态数据在公共空间中的距离。
4.没有考虑不同语义类别数据对跨模态检索的干扰。
发明内容
本发明为了解决以上现有技术存在的不足的问题,提供了一种分层监督跨模态图文检索方法,其能实现对具有分层监督跨模态数据的检索,提升跨模态检索效率。
为实现上述本发明目的,采用的技术方案如下:
一种分层监督跨模态图文检索方法,所述的方法包括步骤如下:
S1:构建用于提取图像特征和文本特征的特征提取网络;
S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;
S3:在特征提取阶段,构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;
S4:构建哈希码生成网络,并利用所述的哈希码生成网络约束所述的特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。
优选地,所述的特征提取网络包括用于提取图像特征的第一深度神经网络、用于提取文本特征的文本提取网络;
将第一深度神经网络的最后一层修改为哈希码输出层,其神经元数为哈希码长度,使用激活函数,将输出映射到-1到1之间;
所述的文本提取网络包括:
用于向量化数据集中所有文本词袋模型,
由五级并联的均值池化层构造的多尺度特征堆叠模型,所述的多尺度特征堆叠模型用于提取不同感受野下的高阶和低阶特征,其窗口大小分别为1×1、 2×2、3×3、5×5、10×10,
由三层全连接层构成的第二深度神经网络。
进一步地,所述的第二深度神经网络,具体如下:第一层全连接层的网络节点数为多尺度特征堆叠模型输出维数;第二层是网络节点数为4096维的全连接层,由第二层全连接层输出初步高维特征值;第三层是节点数为哈希码长度ht,激活函数为Sigmoid的全连接层,即将第三层全连接层作为哈希码输出层。
再进一步地,所述的模态对抗网络使用E个具有三层全连接层的网络,第一个隐藏层的结点数与输入的特征维度一样;第二个隐藏层的结点数与第e层标签层的标签总数Φe一致;第三层结点数为2,其激活函数是Sigmoid函数,输出为二值码,0表示图像模态,1表示文本模态;
其中,E代表图像文本对的标签层数,标签层的索引自上而下为{1,2,...,E}。
再进一步地,所述的模态对抗网络的对抗损失使用交叉熵损失函数,定义如下所示:
Figure BDA0003405351540000031
Figure BDA0003405351540000032
其中,LAdv表示模态对抗网络总的目标函数,LAdv_e表示第e层标签对应的对抗损失,vi表示每个数据的真实标签监督信息,G(*;ε)是数据集β(i)在模态对抗网络中生成的模态概率分布,ε是模态对抗网络的参数。
再进一步地,所述的哈希码生成网络包括
不同标签层关联子模块,通过引入标签层内相似性损失和标签层间相关性损失,来充分挖掘每一层标签存在的内在相似度和标签层间存在的相关性;
不同语义类别区分子模块,通过设计一个不同语义类别区分的总目标函数,使不同语义的模态数据在公共空间中彼此保持一定的距离,从而避免不同语义数据对检索的干扰;
跨模态哈希损失子模块,将初步高维特征值转换为最优编码长度哈希码,以压缩数据维度并降低数据存储空间,实现对跨模态数据精准快速的检索。
再进一步地,所述的不同标签层关联子模块包括2个分支,分别是标签层内相似性损失、标签层间相关性损失;
在标签的层次结构中,为了保持每一层标签的相似性,为每一层的每个标签生成标签哈希码Ce∈{-1,1}h×Φe,e∈{1,2,...,E},定义标签层内相似性损失函数:
Figure BDA0003405351540000041
其中,Ce是第e层的类别哈希码;
Figure BDA0003405351540000042
代表每一组图像文本对数据集β(i)的标签向量,其中
Figure BDA0003405351540000043
Figure BDA0003405351540000044
表示第i个图像文本对数据被第e层的第j个标签标记,否则,
Figure BDA0003405351540000045
f(xi,Wf)表示原图像经过特征提取网络中的第二层全连接层的输出,其中Wf表示提取图像特征网络的网络参数; g(ti,Wg)表示文本经过特征提取网络中的第二层全连接层的输出,其中Wg表示提取文本特征网络的网络参数;ζe是第e层标签的置信度,所有标签层的置信度之和为1;
为了充分获取跨层相关性,定义跨层标签相似度矩阵,即:
Figure BDA0003405351540000046
其中,e∈{1,2,...,E-1},ei代表第e层的第i个标签,E代表最后一层标签;
Figure BDA0003405351540000047
表示第E层的第j个标签是第e层的第i个标签的子孙结点,否则为0;
则标签层间相关性损失函数表示为:
Figure BDA0003405351540000048
其中,CE是第E层标签的哈希矩阵,ηe代表超参数,且
Figure BDA0003405351540000049
再进一步地,在不同语义类别区分子模块,设计一个不同语义类别区分的总目标函数具体如下:
在公共空间中,根据不同语义类别、不同模态数据之间的距离应当尽可能远,从而定义第一目标函数表示为:
Figure BDA00034053515400000410
其中,dis(W,V)表示两个点W=(w1,w2,...,wn)和V=(v1,v2,...,vn)的余弦距离,F(xi)和F(xj)代表图像特征,G(ti)和G(tj)代表文本特征;
在公共子空间,根据不同语义类别、相同模态的数据应当分离,从而定义第二目标函数表示为:
Figure BDA0003405351540000051
不同语义类别区分模块总损失函数表示为:
Figure BDA0003405351540000052
其中,N表示数据集中图像文本对数。
再进一步地,将特征提取网络中第二层全连接层的输出结果引入到跨模态哈希模块中,定义跨模态哈希损失函数如下所示:
Figure BDA0003405351540000053
其中,
Figure BDA0003405351540000054
分别是图像和文本模态数据学习到的哈希码;
Figure BDA0003405351540000055
代表斐波那契范数。
再进一步地,利用特征提取网络、模态对抗网络、哈希码生成网络构成跨模态图文检索模型,将跨模态图文检索模型的最终损失函数表示为:
Loss=αLAdv+βLintra_layer+χLinter_layer+δLdis+φLhash (10)
其中,α、β、χ、δ和φ是超参数;LAdv、Lintra_layer、Linter_layer、Ldis、Lhash分别表示交叉熵损失函数、标签层内相似性损失函数、标签跨层相关性损失函数、不同语义类别区分模块总损失函数、跨模态哈希损失函数;
根据最终损失函数训练优化跨模态图文检索模型,使得跨模态图文检索模型达到最优。
本发明的有益效果如下:
针对当前跨模态检索算法中没有充分最小化含有相同语义信息的多种模态数据在公共空间中距离的问题,本发明借鉴对抗思想,通过在深度特征提取阶段施加约束来解决。将特征提取网络作为生成器,模态对抗网络作为对抗器,两者进行对抗学习后,直到对抗器很难区分特征提取网络提取的模态特征的模态类型,这就使得含有相同语义的不同模态在公共空间中的距离最近。
针对分层监督信息没有被充分挖掘的问题,本发明同时引入标签层内相似性损失和标签层间相关性损失来充分挖掘每一层标签存在的内在相似度和标签层间存在的相关性,从而提高了跨模态检索的准确性。
针对不相似数据对跨模态检索干扰的问题,本发明重新设计了一个不同语义类别数据之间距离的总损失函数来解决,该方式使得不同语义类别的模态数据在公共空间中彼此保持一定的距离。
针对当前跨模态检索算法存储成本高、检索速度慢的问题,本发明利用跨模态哈希损失子模块,将多模态数据特征用最优编码长度的低维二进制哈希码表示,使得在原始空间中相似数据的哈希码的汉明距离最短;反之,原始空间中不相似的数据,其哈希码也是不相似的,而且汉明距离尽可能远。
附图说明
图1是现有技术基于多层语义深度哈希算法的图像-文本跨模态检索方法框架图。
图2是所述的分层监督跨模态图文检索方法的流程图。
图3是分层监督跨模态图文检索方法的整体结构图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1、图2所示,一种分层监督跨模态图文检索方法,所述的方法包括步骤如下:
S1:构建用于提取图像特征和文本特征的特征提取网络;
S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;
S3:在特征提取阶段,利用特征提取网络作为生成器,模态对抗网络作为对抗器,将特征提取网络生成的图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;
S4:构建哈希码生成网络,并利用所述的哈希码生成网络约束所述的特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据精准快速的检索。
在一个具体的实施例中,所述的特征提取网络包括用于提取图像特征的第一深度神经网络、用于提取文本特征的文本提取网络;
将第一深度神经网络的最后一层修改为哈希码输出层,其神经元数为哈希码长度,
使用激活函数,将输出映射到-1到1之间;
将数据集中每张图像调整为224×224的大小,输入到预训练好的第一深度神经网络,以提取初步图像高维特征值;本实施例中所述的第一深度神经网络为深度神经网络VGG-16,所述的深度神经网络VGG-16的最后三层是全连接层,原本第一深度神经网络的最后一层是用来做分类任务的,本实施例将其最后一层用来生成哈希码。具体地,所述的深度神经网络VGG-16的第一层和第二层全连接层的网络节点数为4096维,第三层全连接层的神经元数为哈希码长度值hi,使用Tanh激活函数,将输出映射到-1到1之间。
所述的文本提取网络包括:
用于向量化数据集中所有文本词袋模型,
由五级并联的均值池化层构造的多尺度特征堆叠模型,
由三层全连接层构成的第二深度神经网络。
在文本特征提取中,首先,用词袋模型表示每个文本,将文本模态的词袋模型作为文本提取网络的输入。
然后,经过由五级并联的均值池化层构造的多尺度特征堆叠模型提取不同感受野下的高阶和低阶特征,其窗口大小分别为1×1、2×2、3×3、5×5、10×10;
最后,由三层全连接层构成的第二深度神经网络提取特征后,输出文本特征的哈希码,第二深度神经网络配置如表1所示。
表1文本模态的全连接层特征提取网络的详细配置
Figure BDA0003405351540000071
具体如下:第一层全连接层fc1的网络节点数为多尺度特征堆叠模型输出维数;第二层全连接层是网络节点数为4096维的全连接层,由第二层全连接层fc2 输出初步高维特征值;第三层全连接层fc3是节点数为哈希码长度ht,激活函数为Sigmoid的全连接层,即将第三层全连接层作为哈希码输出层。
本实施例将图像-文本对组成的数据集β(i)={(xi,ti)|i∈1,2,...,N}输入到特征提取网络中,其中xi表示第i个图像数据的原始特征向量,ti表示第i个文本数据。
本实施例将第一深度神经网络的第二层全连接层输出的图像初步高维特征值,和文本提取网络中的第二层连接层输出的文本初步高维特征值输入模态对抗网络进行对抗学习,更新图像和文本的特征,使得图像和文本对的特征在公共空间中拉到最近;同时也将图像和文本的第二层连接层分别输入到第一深度神经网络的第三层全连接层,文本提取网络中的第三层连接层,在哈希码生成模块的约束下生成哈希码特征。
在一个具体的实施例中,模态对抗网络是基于对抗思想的,学习图像模态和文本模态的公共空间。特征提取网络的任务是图像和文本模态的表征学习,将图像和文本模态映射到公共子空间中,其目的是作为模态对抗模块的对手来混淆模态对抗模块的判别,进而提升模态对抗模块的判别能力。模态对抗模块的任务是判别特征提取网络中数据的模态类型,来提升特征提取网络的表征能力,进一步最小化具有相同语义信息的不同模态数据在公共空间中的距离。
其中,所述的模态对抗网络使用E个具有三层全连接层的网络,第一个隐藏层的结点数与输入的特征维度一样;第二个隐藏层的结点数与第e层标签层的标签总数Φe一致;第三层结点数为2,其激活函数是Sigmoid函数,输出为二值码, 0表示图像模态,1表示文本模态;
其中,E代表图像文本对的标签层数,标签层的索引自上而下为{1,2,...,E},Φe表示第e层标签层的标签总数。
所述的模态对抗网络的网络配置如表2所示。
表2模态对抗模块详细的网络配置
Figure BDA0003405351540000091
在一个具体的实施例中,所述的模态对抗网络的对抗损失使用交叉熵损失函数,定义如下所示:
Figure BDA0003405351540000092
Figure BDA0003405351540000093
其中,LAdv表示模态对抗网络总的目标函数,LAdv_e表示第e层标签对应的对抗损失,vi表示每个数据的真实标签监督信息,G(*;ε)是数据集β(i)在模态对抗网络中生成的模态概率分布,ε是模态对抗网络的参数。
在一个具体的实施例中,所述的哈希码生成网络包括
不同标签层关联子模块,通过引入标签层内相似性损失和标签层间相关性损失,来充分挖掘每一层标签存在的内在相似度和标签层间存在的相关性;
不同语义类别区分子模块,通过设计一个不同语义类别区分的总目标函数,使不同语义的模态数据在公共空间中彼此保持一定的距离,从而避免不同语义数据对检索的干扰。
跨模态哈希损失子模块,将初步高维特征值转换为最优编码长度哈希码,以压缩数据维度并降低数据存储空间,实现对跨模态数据精准快速的检索。
在一个具体的实施例中,所述的不同标签层关联子模块包括2个分支,分别是标签层内相似性损失、标签层间相关性损失。
在标签的层次结构中,为了保持每一层标签的相似性,为每一层的每个标签生成标签哈希码
Figure BDA0003405351540000094
e∈{1,2,...,E},定义标签层内相似性损失函数:
Figure BDA0003405351540000095
其中,Ce是第e层的类别哈希码;
Figure BDA0003405351540000101
代表每一组图像文本对数据集β(i)的标签向量,其中
Figure BDA0003405351540000102
Figure BDA0003405351540000103
表示第i个图像文本对数据被第e层的第j个标签标记,否则,
Figure BDA0003405351540000104
f(xi,Wf)表示原图像经过特征提取网络中的第二层全连接层的输出,其中Wf表示提取图像特征网络的网络参数; g(ti,Wg)表示文本经过特征提取网络中的第二层全连接层的输出,其中Wg表示提取文本特征网络的网络参数;ζe是第e层标签的置信度,所有标签层的置信度之和为1。
为了充分获取跨层相关性,定义跨层标签相似度矩阵,即:
Figure BDA0003405351540000109
其中,e∈{1,2,...,E-1},ei代表第e层的第i个标签,E代表最后一层标签;
Figure BDA0003405351540000105
表示第E层的第j个标签是第e层的第i个标签的子孙结点,否则为0。
则标签层间相关性损失函数表示为:
Figure BDA0003405351540000106
其中,CE是第E层标签的哈希矩阵,ηe代表超参数,且
Figure BDA0003405351540000107
在一个具体的实施例中,在不同语义类别区分子模块,设计一个不同语义类别区分的总目标函数具体如下:
在公共空间中,根据不同语义类别、不同模态数据之间的距离应当尽可能远,从而定义第一目标函数表示为:
Figure BDA0003405351540000108
其中,dis(W,V)表示两个点W=(w1,w2,...,wn)和V=(v1,v2,...,vn)的余弦距离,F(xi)和F(xj)代表图像特征,G(ti)和G(tj)代表文本特征;
在公共子空间,根据不同语义类别、相同模态的数据在公共子空间中应当分离,从而定义第二目标函数表示为:
Figure BDA0003405351540000111
不同语义类别区分模块总损失函数表示为:
Figure BDA0003405351540000112
其中,N表示数据集中图像文本对数。
在一个具体的实施例中,将特征提取网络中第二层全连接层的输出结果引入到跨模态哈希模块中,定义跨模态哈希损失函数如下所示:
Figure BDA0003405351540000113
其中,
Figure BDA0003405351540000114
分别是图像和文本模态数据学习到的哈希码;
Figure BDA0003405351540000115
代表斐波那契范数。
本实施例利用跨模态哈希损失子模块提出最优编码长度哈希学习算法,将多模态数据特征用最优编码长度的低维二进制哈希码表示,使得在原始空间中相似数据的哈希码的汉明距离最短;反之,原始空间中不相似的数据,其哈希码也是不相似的,而且汉明距离尽可能远。
在一个具体的实施例中,利用特征提取网络、模态对抗网络、哈希码生成网络构成跨模态图文检索模型,将跨模态图文检索模型的最终损失函数表示为:
Loss=αLAdv+βLintra_layer+χLinter_layer+δLdis+φLhash (10)
其中,α、β、χ、δ和φ是超参数;LAdv、Lintra_layer、Linter_layer、Ldis、Lhash分别表示交叉熵损失函数、标签层内相似性损失函数、标签跨层相关性损失函数、不同语义类别区分模块总损失函数、跨模态哈希损失函数。
根据最终损失函数训练优化跨模态图文检索模型,使得跨模态图文检索模型达到最优。
本实施例中有四个参数需要训练优化,分别是提取图像特征的网络参数Wf、提取文本特征的网络参数Wg和哈希码Dx、Dt。在跨模态图文检索模型优化中,使用前向传播网络计算f(xi,Wf)和g(ti,Wg),在反向传播中采用Adam梯度下降算法更新参数Wf和Wg。经过哈希码生成模块后,根据公式(9)更新哈希码Dx、 Dt。通过网格搜索方法给超参数α、β、χ、δ、φ、hi和ht赋值,使得跨模态图文检索模型达到最优。
本实施例的优化过程见算法1,其中sgn(·)是二值判断函数,表达式为:
Figure BDA0003405351540000121
Figure BDA0003405351540000122
实施例2
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述的处理器执行所述的计算机程序时,实现的方法步骤如下:
S1:构建用于提取图像特征和文本特征的特征提取网络;
S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;
S3:在特征提取阶段,构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;
S4:构建哈希码生成网络,并利用哈希码生成网络约束特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。
实施例3
一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时,实现的方法步骤如下:
S1:构建用于提取图像特征和文本特征的特征提取网络;
S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;
S3:在特征提取阶段,构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;
S4:构建哈希码生成网络,并利用哈希码生成网络约束特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。
本发明的各实施方式可以任意进行组合,以实现不同的技术效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种分层监督跨模态图文检索方法,其特征在于:所述的方法包括步骤如下:
S1:构建用于提取图像特征和文本特征的特征提取网络;
S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;
S3:构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;
S4:构建哈希码生成网络,并利用所述的哈希码生成网络约束所述的特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。
2.根据权利要求1所述的分层监督跨模态图文检索方法,其特征在于:所述的特征提取网络包括用于提取图像特征的第一深度神经网络、用于提取文本特征的文本提取网络;
将第一深度神经网络的最后一层修改为哈希码输出层,其神经元数为哈希码长度,使用激活函数,将输出映射到-1到1之间;
所述的文本提取网络包括
用于向量化数据集中所有文本词袋模型,
由五级并联的均值池化层构造的多尺度特征堆叠模型,所述的多尺度特征堆叠模型用于提取不同感受野下的高阶和低阶特征,其窗口大小分别为1×1、2×2、3×3、5×5、10×10,
由三层全连接层构成的第二深度神经网络。
3.根据权利要求2所述的分层监督跨模态图文检索方法,其特征在于:所述的第二深度神经网络,具体如下:第一层全连接层的网络节点数为多尺度特征堆叠模型输出维数;第二层是网络节点数为4096维的全连接层,由第二层全连接层输出初步高维特征值;第三层是节点数为哈希码长度ht,激活函数为Sigmoid的全连接层,即将第三层全连接层作为哈希码输出层。
4.根据权利要求1所述的分层监督跨模态图文检索方法,其特征在于:所述的模态对抗网络使用E个具有三层全连接层的网络,第一个隐藏层的结点数与输入的特征维度一样;第二个隐藏层的结点数与第e层标签层的标签总数Φe一致;第三层结点数为2,其激活函数是Sigmoid函数,输出为二值码,0表示图像模态,1表示文本模态;
其中,E代表图像文本对的标签层数,标签层的索引自上而下为{1,2,...,E}。
5.根据权利要求4所述的分层监督跨模态图文检索方法,其特征在于:所述的模态对抗网络的对抗损失使用交叉熵损失函数,定义如下所示:
Figure FDA0003405351530000021
Figure FDA0003405351530000022
其中,LAdv表示模态对抗网络总的目标函数,LAdv_e表示第e层标签对应的对抗损失,vi表示每个数据的真实标签监督信息,G(*;ε)是数据集β(i)在模态对抗网络中生成的模态概率分布,ε是模态对抗网络的参数。
6.根据权利要求5所述的分层监督跨模态图文检索方法,其特征在于:所述的哈希码生成网络包括
不同标签层关联子模块,通过引入标签层内相似性损失和标签层间相关性损失,来充分挖掘每一层标签存在的内在相似度和标签层间存在的相关性;
不同语义类别区分子模块,通过设计一个不同语义类别区分的总目标函数,使不同语义的模态数据在公共空间中彼此保持一定的距离,从而避免不同语义数据对检索的干扰;
跨模态哈希损失子模块,将初步高维特征值转换为最优编码长度哈希码,以压缩数据维度并降低数据存储空间,实现对跨模态数据精准快速的检索。
7.根据权利要求6所述的分层监督跨模态图文检索方法,其特征在于:所述的不同标签层关联子模块包括2个分支,分别是标签层内相似性损失、标签层间相关性损失;
在标签的层次结构中,为了保持每一层标签的相似性,为每一层的每个标签生成标签哈希码
Figure FDA0003405351530000023
e∈{1,2,...,E},定义标签层内相似性损失函数:
Figure FDA0003405351530000024
其中,Ce是第e层的类别哈希码;
Figure FDA0003405351530000031
代表每一组图像文本对数据集β(i)的标签向量,其中
Figure FDA0003405351530000032
Figure FDA0003405351530000033
表示第i个图像文本对数据被第e层的第j个标签标记,否则,
Figure FDA0003405351530000034
f(xi,Wf)表示原图像经过特征提取网络中的第二层全连接层的输出,其中Wf表示提取图像特征网络的网络参数;g(ti,Wg)表示文本经过特征提取网络中的第二层全连接层的输出,其中Wg表示提取文本特征网络的网络参数;ζe是第e层标签的置信度,所有标签层的置信度之和为1;
为了充分获取跨层相关性,定义跨层标签相似度矩阵,即:
Figure FDA0003405351530000035
其中,e∈{1,2,...,E-1},ei代表第e层的第i个标签,E代表最后一层标签;
Figure FDA0003405351530000036
表示第E层的第j个标签是第e层的第i个标签的子孙结点,否则为0;
则标签层间相关性损失函数表示为:
Figure FDA0003405351530000037
其中,CE是第E层标签的哈希矩阵,ηe代表超参数,且
Figure FDA0003405351530000038
8.根据权利要求7所述的分层监督跨模态图文检索方法,其特征在于:在不同语义类别区分子模块,设计一个不同语义类别区分的总目标函数具体如下:
在公共空间中,根据不同语义类别、不同模态数据之间的距离应当尽可能远,从而定义第一目标函数表示为:
Figure FDA0003405351530000039
其中,dis(W,V)表示两个点W=(w1,w2,...,wn)和V=(v1,v2,...,vn)的余弦距离,F(xi)和F(xj)代表图像特征,G(ti)和G(tj)代表文本特征;
在公共子空间,根据不同语义类别、相同模态的数据应当分离,从而定义第二目标函数表示为:
Figure FDA0003405351530000041
不同语义类别区分模块总损失函数表示为:
Figure FDA0003405351530000042
其中,N表示数据集中图像文本对数。
9.根据权利要求8所述的分层监督跨模态图文检索方法,其特征在于:将特征提取网络中第二层全连接层的输出结果引入到跨模态哈希模块中,定义跨模态哈希损失函数如下所示:
Figure FDA0003405351530000043
其中,
Figure FDA0003405351530000044
分别是图像和文本模态数据学习到的哈希码;
Figure FDA0003405351530000045
代表斐波那契范数。
10.根据权利要求9所述的分层监督跨模态图文检索方法,其特征在于:利用特征提取网络、模态对抗网络、哈希码生成网络构成跨模态图文检索模型,将跨模态图文检索模型的最终损失函数表示为:
Loss=αLAdv+βLintra_layer+χLinter_layer+δLdis+φLhash (10)
其中,α、β、χ、δ和φ是超参数;LAdv、Lintra_layer、Linter_layer、Ldis、Lhash分别表示交叉熵损失函数、标签层内相似性损失函数、标签跨层相关性损失函数、不同语义类别区分模块总损失函数、跨模态哈希损失函数;
根据最终损失函数训练优化跨模态图文检索模型,使得跨模态图文检索模型达到最优。
CN202111511008.0A 2021-12-10 2021-12-10 一种分层监督跨模态图文检索方法 Pending CN114168784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111511008.0A CN114168784A (zh) 2021-12-10 2021-12-10 一种分层监督跨模态图文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111511008.0A CN114168784A (zh) 2021-12-10 2021-12-10 一种分层监督跨模态图文检索方法

Publications (1)

Publication Number Publication Date
CN114168784A true CN114168784A (zh) 2022-03-11

Family

ID=80485648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111511008.0A Pending CN114168784A (zh) 2021-12-10 2021-12-10 一种分层监督跨模态图文检索方法

Country Status (1)

Country Link
CN (1) CN114168784A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969405A (zh) * 2022-04-30 2022-08-30 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN117611924A (zh) * 2024-01-17 2024-02-27 贵州大学 一种基于图文子空间联合学习的植物叶片表型病害分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969405A (zh) * 2022-04-30 2022-08-30 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN114969405B (zh) * 2022-04-30 2024-01-26 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN117611924A (zh) * 2024-01-17 2024-02-27 贵州大学 一种基于图文子空间联合学习的植物叶片表型病害分类方法
CN117611924B (zh) * 2024-01-17 2024-04-09 贵州大学 一种基于图文子空间联合学习的植物叶片表型病害分类方法

Similar Documents

Publication Publication Date Title
Manoharan Capsule network algorithm for performance optimization of text classification
Wu et al. A comprehensive survey on graph neural networks
Najafabadi et al. Deep learning applications and challenges in big data analytics
Zhang et al. Multi-pathway generative adversarial hashing for unsupervised cross-modal retrieval
Wadawadagi et al. Sentiment analysis with deep neural networks: comparative study and performance assessment
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
Sharma et al. Visual question answering model based on graph neural network and contextual attention
Zhang et al. High-order nonlocal Hashing for unsupervised cross-modal retrieval
Jo NTSO (neural text self organizer): a new neural network for text clustering
Ma et al. Hybrid embedding-based text representation for hierarchical multi-label text classification
CN114168784A (zh) 一种分层监督跨模态图文检索方法
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
Jin et al. Cold-start active learning for image classification
Furht et al. Deep learning techniques in big data analytics
Bansal et al. An Evolving Hybrid Deep Learning Framework for Legal Document Classification.
Han et al. Generalizing long short-term memory network for deep learning from generic data
Zhang et al. Cosine: compressive network embedding on large-scale information networks
Wang et al. A text classification method based on LSTM and graph attention network
Baghaei et al. Deep representation learning: Fundamentals, perspectives, applications, and open challenges
Vatani et al. An effective automatic image annotation model via attention model and data equilibrium
Chen et al. Multi-label classification of legal text based on label embedding and capsule network
Inkeaw et al. Density based semi-automatic labeling on multi-feature representations for ground truth generation: Application to handwritten character recognition
CN116821340A (zh) 基于深度学习的多标签文本分类方法
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination