CN114090801A - 深度对抗注意力跨模态哈希检索方法及系统 - Google Patents

深度对抗注意力跨模态哈希检索方法及系统 Download PDF

Info

Publication number
CN114090801A
CN114090801A CN202111214287.4A CN202111214287A CN114090801A CN 114090801 A CN114090801 A CN 114090801A CN 202111214287 A CN202111214287 A CN 202111214287A CN 114090801 A CN114090801 A CN 114090801A
Authority
CN
China
Prior art keywords
modality
modal
learning
text
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111214287.4A
Other languages
English (en)
Inventor
张化祥
王本惠
刘丽
朱磊
孙建德
聂礼强
金圣开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202111214287.4A priority Critical patent/CN114090801A/zh
Publication of CN114090801A publication Critical patent/CN114090801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了深度对抗注意力跨模态哈希检索方法及系统,包括:注意力学习步骤:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;模内对抗学习步骤:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息;模间对抗学习学习步骤:将图像模态的相关的模态特征设为真,将文本模态的相关的模态特征设为假,通过模间对抗学习使得两种模态各自的相关特征表示分布均匀;哈希学习步骤:将图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。将生成对抗网络、注意力机制、哈希学习结合在一起,相比较之前跨模态检索方法,进一步提高了跨模态检索的准确度。

Description

深度对抗注意力跨模态哈希检索方法及系统
技术领域
本发明属于跨模态检索技术领域,尤其涉及深度对抗注意力跨模态哈希检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着互联网和大数据的迅速发展,多媒体数据以多种模态的形式出现,比如:图像、文本、视频等。近年来,因为不同模态之间的检索需求日益增加,跨模态检索越来越受到大众的关注。跨模态检索就是通过使用一种模态(例如:图像)的查询,来检索另一种模态(例如:文本)中的相似的实例。然而,不同模态的分布和表示是不一样的,这就导致了多模态数据之间的异质性鸿沟,这使得跨模态检索的难度大大增加。
为了弥补异质性鸿沟,现有的跨模态方法大致分为两类:实值表示表示学习和二值表示学习。实值表示学习是指学习一个实值的公共表示空间,在这个空间中进行不同模态实例的相似度测量。但是这种检索方法要耗费非常久的时间。减少搜索时间的一个方法就是二值表示学习,即哈希学习。这个方法将高维的多模态数据投射到一个低维的公共的汉明空间中,其中语义相似的不同模态实例之间的距离很小。这个方法大大降低了时间复杂度和空间复杂度,提高检索效率。
非常多的哈希方法被提出来解决问题。根据在训练阶段有无使用标签信息,跨模态哈希分为有监督哈希和无监督哈希。
有监督哈希利用标签信息学习很多具有判别性的哈希码,以此来提高检索性能。
无监督哈希利用共现信息来学习跨模态数据的哈希函数,发现模内和模间的相似度。无监督交叉模态哈希方法通常将来自不同模态的数据投影到一个共同的汉明空间,以最大化它们的相关性。
这些传统的方法几乎都是浅层的,依赖于手工制作的特性,不能充分探索不同模态之间的语义关系。这大大降低了模态实例表示的区分性,降低了检索性能。
近年来,由于深度学习的成功应用,深度跨模态哈希在跨模态检索中发挥着越来越重要的作用,它能够学习更多的判别表示,因此能够发现不同模态之间的异质性关联。具有代表性的深度跨模态哈希方法有:DCMH、SSAH、AADAH等方法。然而,这些方法侧重于模态之间的关系,忽略了每个模态特有的信息。
发明内容
为克服上述现有技术的不足,本发明提供了深度对抗注意力跨模态哈希检索方法,将生成对抗网络、注意力机制、哈希学习有效结合在一起,并且在注意力学习的基础上,用生成对抗网络来补充每个模态的信息,这使得跨模态检索的精度更加精确。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了深度对抗注意力跨模态哈希检索方法,包括:
注意力学习步骤:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;
模内对抗学习步骤:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息;
模间对抗学习学习步骤:将图像模态的相关的模态特征设为真,将文本模态的相关的模态特征设为假,通过模间对抗学习使得两种模态各自的相关特征表示分布均匀;
哈希学习步骤:将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。
进一步的技术方案,所述通道注意力学习机制采用平均池化的方法收集每个模态的空间信息,最大池化的方法收集每个模态的对象特征。
进一步的技术方案,对于图像模态,获得代表图像模态的平均池化和最大池化的表示特征,将表示特征输入至共享图像网络中,生成一维通道注意力映射;
对于文本模态,获得代表文本特征的平均池化和最大池化的表示特征,将表示特征输入到共享的文本网络中,生成一维通道注意力映射。
进一步的技术方案,在模内对抗学习中,将模态的相关信息设置为“真”,将模态的无关信息设置为“假”,对图像模态及文本模态,分别定义判别器和生成器的目标函数,将每个模态无关信息补充注意力学习机制突出的相关信息。
进一步的技术方案,在模间对抗学习中,在判别步骤中,将图像模态的相关信息设为“真”,将文本模态的相关信息设为“假”,定义判别器的目标函数;
在生成步骤中,本发明将文本模态的相关信息设置为“真”,将图像模态的相关信息设置为“假”,定义生成器的目标函数;
通过模间对抗学习使得两种模态各自的相关特征表示分布均匀。
进一步的技术方案,哈希学习过程中,利用两个哈希层将图像的相关表示及文本的相关表示分别映射成哈希码;
使用两两配对损失函数来衡量哈希码之间的相似性。
进一步的技术方案,哈希学习过程中,基于量化误差定义损失函数,以减少在哈希学习过程中会出现的量化错误。
第二方面,公开了深度对抗注意力跨模态哈希检索系统,包括:
注意力学习模块,被配置为:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;
模内对抗学习模块,被配置为:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息;
模间对抗学习模块,被配置为:将图像模态的相关的模态特征设为真,将文本模态的相关的模态特征设为假,通过模间对抗学习使得两种模态各自的相关特征表示分布均匀;
哈希学习模块,被配置为:将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。
以上一个或多个技术方案存在以下有益效果:
本发明将生成对抗网络、注意力机制、哈希学习有效结合在一起,相比较之前跨模态检索方法,进一步提高了跨模态检索的准确度,并且本发明在注意力学习的基础上,用生成对抗网络来补充每个模态的信息,这使得跨模态检索的精度更加精确,注意力机制中使用了通道注意力机制,能够聚焦有意义的图像或者文本,而在生成对抗学习中,分为了模内对抗和模间对抗,模内对抗能够补充每个模态的相关信息表示,模间对抗能够使得图像和文本两种模态分布的更加均匀,这大大提高了跨模态检索的准确度。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例中通道注意力机制的示意图;
图2为实施例中深度对抗注意力跨模态哈希检索方法的流程示意图;
图3为实施例中深度对抗注意力跨模态哈希检索方法结果的PR-曲线图;
图4为实施例中深度对抗注意力跨模态哈希检索方法中的超参数α的取值;
图5为实施例中深度对抗注意力跨模态哈希检索方法中的超参数β的取值。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
参见附图2所示,本实施例公开了一种深度对抗注意力跨模态哈希检索方法,包括:
在图像网络中,首先利用广泛使用的卷积神经网络CNN-F来提取图像特征,之后,为了进一步处理提取之后的图像特征,将特征输入到三个全连接层中。注意力学习时,将经过三个全连接层的特征表示划分了模态的相关和不相关的表征。具体来说,模态的相关表征是指两种模态中意思相近的特征,通过两种模态的相关特征,可以使得检索的精度大大提升。因此,我们的工作主要是为了增加每个模态相关表征的准确性,从而提高检索精度。模态的不相关表征则是每个模态独有的特征。
在注意力学习阶段之后,本发明在图像网络对抗学习中,只有模内对抗学习。模内对抗的目的是利用图像模态不相关的信息补充图像模态相关的信息。在每个模态中,不相关的信息是每个模态特有的信息,将不相关信息补充到每个模态的相关信息中,会大大增加每个模态的相关信息的准确度,所以在每个模态中,不相关信息设为假,相关信息设为真,通过生成对抗的方式,使得每个模态不相关的信息补充到相关信息中,从而提高跨模态检索的准确度。
最后,为了将图像模态的相关表示映射到汉明空间,本发明设计了完全连接的哈希层
Figure BDA0003310042020000061
来生成紧凑的哈希。
在文本网络中,本发明使用单词袋(bow)将文本实例转换为一个one-hot向量。之后,本发明将bow表示输入到三个完全连接的层中,以提取文本表示。
然后,注意力学习时将经过三个全连接层的文本特征表示分为了文本相关表示和文本不相关表示。
在注意力学习阶段之后,本发明在文本网络对抗学习中,只有模内对抗学习。模内对抗的目的是利用文本模态不相关的信息补充文本模态相关的信息。
最后,为了将文本模态的相关表示映射到汉明空间,本发明设计了完全连接的哈希层
Figure BDA0003310042020000062
来生成紧凑的哈希码。生成哈希码之后,在进行跨模态检索时,通过测量两个模态哈希码之间的距离,进行跨模态检索。
在图像文本模态之间,有模间对抗学习。模间对抗学习将图像模态和文本模态的相关表示进行对抗学习,这两个模态的相关表示分布的更加均匀,从而更加提高了跨模态检索的准确性。
需要说明的是,本发明为了补充每个模态的相关表示信息,利用注意力机制,将每个模态的特征分为相关的表示和不相关的表示,这更利于之后在对抗学习中补充每个模态的相关信息。
本发明利用生成对抗学习补充了每个模态的相关表示,在生成对抗学习中,每个模态的不相关表示可以用来补充每个模态的相关表示,这使得每个模态的相关表示更能确切的表示每个模态的特征,从而提高跨模态检索的精度。
为了说明本发明的上述技术构思,下面详细说明注意力对抗网络的构建过程:
注意力对抗网络主要包括三个网络:注意力学习网络,对抗学习网络和哈希学习网络。
参见附图1所示,在注意力学习网络中,使用通道注意力网络进行注意力学习。通道注意力学习机制采用平均池化的方法收集空间信息,最大池化的方法收集对象特征。这种机制大大提高了注意力学习机制的表达能力,更好的突出了想要的模态的相关信息。设定FI和FT分别为图像和文本表示。
对于图像模态,本发明假定
Figure BDA0003310042020000071
Figure BDA0003310042020000072
分别表示图像模态的平均池化和最大池化。在此之后,将这些特征输入到共享图像网络中,生成一维通道注意力映射MCI∈RC×1×1。这个共享图像网络由包含一层隐藏层的多层感知器(MLP)组成。隐藏层的激活大小设置为
Figure BDA0003310042020000073
其中r是减少率。在模态中,通道注意力机制会注意到每个模态的相关的信息特征,而没被注意到的为不相关的信息表征。图像模态的通道注意力机制计算为:
Figure BDA0003310042020000074
其中,σ代表sigmoid函数,MLP权重由
Figure BDA0003310042020000075
和W0I∈RC×C/r两个输入共享,其中c为神经元个数。
对于文本模态,
Figure BDA0003310042020000076
Figure BDA0003310042020000077
分别代表文本特征的平均池化和最大池化。然后本发明将这些特征输入到共享的文本网络中,生成一维通道注意力映射MCT∈RC×1×1。文本模态的通道注意力机制计算为:
Figure BDA0003310042020000078
其中σ代表sigmoid函数,MLP权重由
Figure BDA0003310042020000081
和W0T∈RC×C/r两个输入共享。
对抗学习网络包括两种对抗学习:模内对抗学习和模间对抗学习。对于模态内学习,本发明在注意力学习模块中得到显著的相关信息,但每个模态都有相关和不相关的信息。这些不相关的信息还包括了一些模态的语义信息,丰富了模态的相关信息。
因此,本发明提出了模内对抗学习,其目的是每个模态无关信息补充注意力学习机制突出的相关信息。对抗性学习包括判别步骤和生成步骤。在模内对抗学习中,本发明将模态的相关信息设置为“真”,将模态的无关信息设置为“假”。图像和文本模态内对抗学习模块是对称的,因此,对图像模态来说,模内对抗的目标函数可以定义为:
Figure BDA0003310042020000082
其中θD是判别器D的参数,
Figure BDA0003310042020000083
Figure BDA0003310042020000084
是第i个图像实例的模内相关信息和不相关信息。在生成阶段,本发明训练
Figure BDA0003310042020000085
Figure BDA0003310042020000086
去将相关信息分类为“假”,将无关信息分类为“真”。生成器的目标函数定义为:
Figure BDA0003310042020000087
其中,
Figure BDA0003310042020000088
Figure BDA0003310042020000089
Figure BDA00033100420200000810
的参数。生成器
Figure BDA00033100420200000811
和判别器D以一种对抗的方式进行学习,所以,不相关的信息可以补充模态内的相关信息。
对称的,文本模态判别器和生成器的目标函数可定义为:
判别器:
Figure BDA00033100420200000812
其中,θD是判别器D的参数,
Figure BDA00033100420200000813
Figure BDA00033100420200000814
是第i个实例的模内的相关信息和不相关信息。
生成器:
Figure BDA0003310042020000091
其中,
Figure BDA0003310042020000092
Figure BDA0003310042020000093
Figure BDA0003310042020000094
的参数。
对于模间对抗,在判别步骤中,本发明将图像模态的相关信息设为“真”,将文本模态的相关信息设为“假”,判别器的目标函数可以定义为:
Figure BDA0003310042020000095
其中,θD是判别器D的参数,
Figure BDA0003310042020000096
Figure BDA0003310042020000097
分别是第i个实例的图像模态的相关信息和文本模态的相关信息。在生成步骤中,本发明将文本模态的相关信息设置为“真”,将图像模态的相关信息设置为“假”。生成器的目标函数可以定义为:
Figure BDA0003310042020000098
其中
Figure BDA0003310042020000099
Figure BDA00033100420200000910
Figure BDA00033100420200000911
的参数。在对抗学习过程中,生成器
Figure BDA00033100420200000912
和判别器D可以使图像和文本的相关信息均匀分布,提高跨模态检索的准确性。结合Eq.(3),Eq.(4),Eq.(5),Eq.(6),Eq.(7),Eq.(8)得到对抗学习网络的目标函数为:
Figure BDA00033100420200000913
其中,α是超参数。
哈希学习网络:
为了将图像的相关表示
Figure BDA00033100420200000914
和文本的相关表示
Figure BDA00033100420200000915
映射到汉明空间中,本发明设计了两个哈希层
Figure BDA00033100420200000916
Figure BDA00033100420200000917
去让
Figure BDA00033100420200000918
Figure BDA00033100420200000919
映射成哈希码。本发明使用两两配对损失函数来衡量它们哈希码之间的相似性,可以设计为:
Figure BDA00033100420200000920
假设
Figure BDA0003310042020000101
其中
Figure BDA0003310042020000102
分别是哈希层
Figure BDA0003310042020000103
Figure BDA0003310042020000104
的参数。可以发现,当这个损失函数最小化,它等于最大似然,所以当Sij=1时,h*i和h*j之间的相似性(内积)增加,当Sij=0时,h*i和h*j之间的相似性(内积)减少。因此,优化Lp可以保持图像哈希层的hI输出和文本哈希层hT输出在S中的跨模态相似性。此外,由于哈希码是离散的,在哈希学习过程中会出现量化错误。为了减少量化误差的发生,量化误差设计为:
Figure BDA0003310042020000105
其中,bI=sign(hI)以及bT=sign(hT)。本发明认为,这两个模态在训练过程中可以共享哈希码b,以及将hI和hT考虑分别为b连续的替代,所以bI和bT可以在S中保存跨模态的相似性。结合Eq.(10)and Eq.(11)
Lhash=Lp+βLq (12)
其中,β是超参数。
结合Eq.(9)和Eq.(12),总的损失函数可以定义如下:
Figure BDA0003310042020000106
验证实验例子:
分别在MIRFlickr-25k和NUS-WIDE两个数据集上进行实验。
MIRFlickr-25k数据集包含了25,000个从Flickr图片收集。每个图像都有一个相应的文本标签。在DCMH实验中,本发明选取了20015对相同设置的图像文本对。每个文本实例的特性由一个1,386维的词袋向量(BOWs)表示。而且,每个实例都使用24个唯一标记中的一个或多个标记进行注释。
NUS-WIDE数据集包含269,648个web图像。每个实例都用81个唯一标记中的一个或多个进行注释。与DCMH实验设置一样,本发明选择了属于21个最常见概念的195,834对图像-文本对。本发明使用1000维词袋向量(BOWs)来表示每个实例的文本特征。
对于MIRFlickr-25k数据集,随机选择2,000个数据对作为测试(查询)集,其余数据对作为检索集。另外,从检索集中选择10000个数据对作为数据集的训练集。
对于NUS-WIDE数据集,随机选取2100个实例作为测试(查询)集,其余实例作为检索集,并在检索集中选取10500个实例作为训练集。本实施例在Pytorch框架下进行实施。批大小为64,总epoch为100,初始学习率为0.0006。本发明将每个模态的相关表示作为哈希层的输入。对于图像的模态,本发明使用CNN-F架构作为提取器来提取图像的表示,该表示由5个卷积块和3个全连接层组成。对于文本模态,为了提取文本特性,每个文本的实例都由单词袋(BOW)向量表示。为了验证超参数的作用,本发明在MIRFlickr-25K数据集上进行了实验,其中哈希码的长度固定为64位。图4显示了不同α值下的MAP结果,图5为不同β值下的MAP结果。当一个超参数发生变化时,另一个超参数保持不变。由图4和图5可知,当α=0.1,β=0.1时,得到的结果最好。因此,超参数α的最优值和β的最优值设置为0.1在哈希层中,本发明使用tanh函数作为激活函数来生成图像和文本的哈希码。算法实现过程如下。
输入:训练集zi={vi,ti,li};
输出:优化的代码矩阵B
初始化:初始化网络参数,
Figure BDA0003310042020000111
mini-batch大小:m;学习率:r;
一个epoch的迭代数:t=M/m;
循环执行下列语句
1.迭代次数1,2,…[t];
2.将Eq.(4),Eq.(6),Eq.(8)用反向传播更新参数θD
3.将Eq.(5),Eq.(7),Eq.(9)用反向传播法更新参数
Figure BDA0003310042020000121
4.利用反向传播将Eq.(11),Eq.(12)更新参数
Figure BDA0003310042020000122
5.利用反向传播将Eq.(11),Eq.(12)更新参数
Figure BDA0003310042020000123
直至收敛
在两个数据集上进行实验,并对比了当前比较流行的其他9种方法(FSH,FDCH,DBRC,CRE,UCMH,CPAH,SRCH,SPHMF and DMFH)。本发明通过直接引用原文的结果或参考作者的实现来得到比较结果源代码的。从表1-4以及图3可以看出:本实施例提供的方法在不同数据集上都表现出优于其他方法的检索性能。其中图3中(a)和(c)是在MIRFlickr-25k数据集,(b)和(d)是在NUS-WIDE数据集,代码的长度为32比特,从表5-8可以看出每个学习部分的作用
表1
Figure BDA0003310042020000124
Figure BDA0003310042020000131
表2
Figure BDA0003310042020000132
表3
Figure BDA0003310042020000133
Figure BDA0003310042020000141
表4
Figure BDA0003310042020000142
Figure BDA0003310042020000151
表5
Figure BDA0003310042020000152
表6
Figure BDA0003310042020000153
表7
Figure BDA0003310042020000154
表8
Figure BDA0003310042020000155
Figure BDA0003310042020000161
基于同样的发明构思,一个或多个实施例提供了一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例子中深度对抗注意力跨模态哈希检索方法。
基于同样的发明构思,一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例子中深度对抗注意力跨模态哈希检索方法。
基于同样的发明构思,一个或多个实施例提供了一种深度对抗注意力跨模态哈希检索系统,包括:
注意力学习模块,针对每个模态的特征,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征,通道注意力机制采用平均池化方法收集空间信息,最大池化方法收集对象特征。该机制极大地提高了网络的表达能力,更好地突出了模态的相关性;
模内对抗学习模块:对于每个图像文本模态,通过注意力机制得到了显著的相关信息,但每个模态都有相关和不相关信息,所以本发明将模态特征分为了相关和不相关的特征,将模态的相关信息设为真,将模态的无关信息设为假,每个模态内的不相关表示通过生成对抗网络将补充每个模态的相关表示信息;
模间对抗学习模块:对于图像和文本两种模态,在对抗过程中,本发明将图像模态的相关信息设为真,将文本模态的相关信息设为假。通过模间对抗学习使得两种模态各自的相关表示分布的更加均匀,从而使得跨模态检索的准确性大大提高;
哈希学习模块:在这个阶段中,将图像和文本的相关表示映射在汉明空间中,从而提高跨模态检索的精度和速度。
以上实施例的装置中涉及的各步骤与方法实施例相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.深度对抗注意力跨模态哈希检索方法,其特征是,包括:
注意力学习步骤:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;
模内对抗学习步骤:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息;
模间对抗学习学习步骤:将图像模态的相关的模态特征设为真,将文本模态的相关的模态特征设为假,通过模间对抗学习使得两种模态各自的相关特征表示分布均匀;
哈希学习步骤:将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。
2.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,所述通道注意力学习机制采用平均池化的方法收集每个模态的空间信息,最大池化的方法收集每个模态的对象特征。
3.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,对于图像模态,获得代表图像模态的平均池化和最大池化的表示特征,将表示特征输入至共享图像网络中,生成一维通道注意力映射;
对于文本模态,获得代表文本特征的平均池化和最大池化的表示特征,将表示特征输入到共享的文本网络中,生成一维通道注意力映射。
4.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,在模内对抗学习中,将模态的相关信息设置为“真”,将模态的无关信息设置为“假”,对图像模态及文本模态,分别定义判别器和生成器的目标函数,将每个模态无关信息补充注意力学习机制突出的相关信息。
5.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,在模间对抗学习中,在判别步骤中,将图像模态的相关信息设为“真”,将文本模态的相关信息设为“假”,定义判别器的目标函数;
在生成步骤中,本发明将文本模态的相关信息设置为“真”,将图像模态的相关信息设置为“假”,定义生成器的目标函数;
通过模间对抗学习使得两种模态各自的相关特征表示分布均匀。
6.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,哈希学习过程中,利用两个哈希层将图像的相关表示及文本的相关表示分别映射成哈希码;
使用两两配对损失函数来衡量哈希码之间的相似性。
7.如权利要求6所述的深度对抗注意力跨模态哈希检索方法,其特征是,哈希学习过程中,基于量化误差定义损失函数,以减少在哈希学习过程中会出现的量化错误。
8.深度对抗注意力跨模态哈希检索系统,其特征是,包括:
注意力学习模块,被配置为:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;
模内对抗学习模块,被配置为:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息;
模间对抗学习模块,被配置为:将图像模态的相关的模态特征设为真,将文本模态的相关的模态特征设为假,通过模间对抗学习使得两种模态各自的相关特征表示分布均匀;
哈希学习模块,被配置为:将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。
9.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202111214287.4A 2021-10-19 2021-10-19 深度对抗注意力跨模态哈希检索方法及系统 Pending CN114090801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111214287.4A CN114090801A (zh) 2021-10-19 2021-10-19 深度对抗注意力跨模态哈希检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111214287.4A CN114090801A (zh) 2021-10-19 2021-10-19 深度对抗注意力跨模态哈希检索方法及系统

Publications (1)

Publication Number Publication Date
CN114090801A true CN114090801A (zh) 2022-02-25

Family

ID=80297155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111214287.4A Pending CN114090801A (zh) 2021-10-19 2021-10-19 深度对抗注意力跨模态哈希检索方法及系统

Country Status (1)

Country Link
CN (1) CN114090801A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112800292A (zh) * 2021-01-15 2021-05-14 南京邮电大学 一种基于模态特定和共享特征学习的跨模态检索方法
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112800292A (zh) * 2021-01-15 2021-05-14 南京邮电大学 一种基于模态特定和共享特征学习的跨模态检索方法
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张博麟;陈征;: "跨模态哈希学习研究进展", 无线通信技术, no. 04, 15 December 2019 (2019-12-15) *
戚玉丹;张化祥;刘一鹤;: "基于字典学习的跨媒体检索技术", 计算机应用研究, no. 04, 9 February 2018 (2018-02-09) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN114612791B (zh) * 2022-05-11 2022-07-29 西南民族大学 一种基于改进注意力机制的目标检测方法及装置

Similar Documents

Publication Publication Date Title
Zhang et al. Multi-pathway generative adversarial hashing for unsupervised cross-modal retrieval
Yang et al. Shared predictive cross-modal deep quantization
Cao et al. Collective deep quantization for efficient cross-modal retrieval
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
Zheng et al. Adaptive partial multi-view hashing for efficient social image retrieval
Wang et al. A deep semantic framework for multimodal representation learning
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Tu et al. Unsupervised cross-modal hashing with modality-interaction
Zhang et al. MII: A novel text classification model combining deep active learning with BERT
Tu et al. Deep cross-modal proxy hashing
Ye et al. Sequential cross-modal hashing learning via multi-scale correlation mining
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Chen et al. Fast self-guided multi-view subspace clustering
Wang et al. Sudowoodo: Contrastive self-supervised learning for multi-purpose data integration and preparation
Bai et al. Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering
Li et al. Self-supervised deep partial adversarial network for micro-video multimodal classification
CN114090801A (zh) 深度对抗注意力跨模态哈希检索方法及系统
Li et al. Stacking-BERT model for Chinese medical procedure entity normalization
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
Hu et al. Heterogeneous community question answering via social-aware multi-modal co-attention convolutional matching
Du et al. A topic recognition method of news text based on word embedding enhancement
Tu et al. Data-aware proxy hashing for cross-modal retrieval
Li et al. RICH: A rapid method for image-text cross-modal hash retrieval
Ni et al. Sampled image tagging and retrieval methods on user generated content
Barezi et al. A study on the autoregressive and non-autoregressive multi-label learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination