CN113971209B - 一种基于注意力机制增强的无监督跨模态检索方法 - Google Patents

一种基于注意力机制增强的无监督跨模态检索方法 Download PDF

Info

Publication number
CN113971209B
CN113971209B CN202111578275.XA CN202111578275A CN113971209B CN 113971209 B CN113971209 B CN 113971209B CN 202111578275 A CN202111578275 A CN 202111578275A CN 113971209 B CN113971209 B CN 113971209B
Authority
CN
China
Prior art keywords
image
text
features
modal
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111578275.XA
Other languages
English (en)
Other versions
CN113971209A (zh
Inventor
刘寒松
王永
王国强
刘瑞
翟贵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202111578275.XA priority Critical patent/CN113971209B/zh
Publication of CN113971209A publication Critical patent/CN113971209A/zh
Application granted granted Critical
Publication of CN113971209B publication Critical patent/CN113971209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于人工智能智慧社区应用技术领域,涉及一种基于注意力机制增强的无监督跨模态检索方法,先增强图像的视觉语义特征,再聚合不同模态的特征信息,并将融合后的多模态特征映射到同一语义特征空间,然后基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习,对齐不同模态的语义特征,最后将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量,减少了不同模态之间的异质语义鸿沟问题,增强了不同模态特征间的依赖关系,从而缩小不同模态数据之间的语义差距,能够更鲁棒地表征不同模态之间的语义共性特征。

Description

一种基于注意力机制增强的无监督跨模态检索方法
技术领域
本发明属于人工智能智慧社区应用技术领域,涉及一种基于注意力机制增强的无监督跨模态检索方法,能够有效的处理智慧社区中大规模图像和文本间的跨模态检索。
背景技术
跨模态检索是将一个模态的数据去寻找查询另一个模态中与之相关的数据,例如,用一段文本描述去检索图像数据库中与文本描述相关的图像。在日常生活中这种技术经常被使用,例如百度搜图,淘宝购物等。传统的跨模态检索分为基于监督的跨模态检索以及基于无监督的跨模态检索。由于深度神经网络在计算机视觉领域取得的显著效果,深度跨模态检索已经成为当下研究的主流。随着互联网以及多媒体的高速发展,多媒体数据呈现爆炸性的增长,跨模态哈希因为其特有的检索效率快以及存储花费少的特点,受到研究者们越来越多的关注。跨模态哈希检索是将不同模态的数据,映射到同一个二进制空间中,然后进行汉明距离的计算,从而进行多模态数据的检索。
然而,由于不同模态的数据之间必定存在不同模态数据介质的语义差异,即异质语义鸿沟问题。为实现不同模态数据间的异质检索,基于监督的跨模态哈希方法已经取得的很大进展,但是这些方法都需要大量人工标注的标签,很难泛化于现实世界的海量跨模态数据检索中。因此,为避免费时和昂贵的数据标注,越来越多的研究集中在基于无监督学习的跨模态哈希方法,这是因为其能够减少训练过程中对于标签的依赖,并且能够取得相当的性能。目前,无监督跨模态哈希方法有深度联合语义重建哈希、深度语义对齐哈希、联合分布相似性哈希等,其中,深度联合语义重建哈希通过将不同模态生成的哈希码分别重建对应的单模态相似性矩阵以及利用动态加权融合的方式形成多模态的相似性矩阵与原始特征生成的相同矩阵做损失计算,从而减少不同模态之间的异质语义鸿沟问题;深度语义对齐哈希,利用图像和文本的之间的共现信息引入一种对称损失,保持模态内和模态间哈希码的一致性;联合分布相似性哈希利用图像和文本单模态的相似性矩阵之间的数据分布关系,形成多模态相似性矩阵监督哈希码的生成。但是这些方法有一个不可忽略的问题就是从图像和文本得到的语义信息不对等,使得不同模态之间的异质语义鸿沟问题间接性增大,从而导致检索不同模态数据的失败。因此,亟需设计一种新的基于无监督学习的跨模态图像-文本检索方法。
发明内容
本发明的目的在于克服现有无监督跨模态检索技术中的不足,提出一种基于注意力机制增强的无监督跨模态检索方法。
为实现上述目的,本发明所述基于注意力机制增强的无监督跨模态检索方法,具体包括以下步骤:
(1)对图像数据和文本数据做预处理,把图像数据尺寸大小变为224
Figure 866088DEST_PATH_IMAGE001
224,将图片切割成九个大小一样的图像块;对于文本数据,将其变成对应维度的词向量;
(2)分别对步骤(1)处理好的图像和文本数据进行特征提取,将处理好的图像输入注意力机制网络中,利用自注意力模块进行特征提取,获取图像特征,并形成图像特征向量集合;文本数据利用线性层进一步特征提取,形成文本特征向量集合;
(3)将步骤(2)提取到的图像和文本特征向量集合输入到多模态的特征融合模块,即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征,再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,然后将融合之后的特征重新分配到图像和文本特征向量集合,得到同一语义空间的图像和文本特征向量集合;
(4)以步骤(3)得到的同一语义空间的图像和文本特征为基础生成对抗网络,使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐,提高跨模态数据检索的性能;
(5)将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码,进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习,训练生成跨模态检索模型;
(6)将不同模态的数据都输入到步骤(5)得到的跨模态检索模型中并生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算之间的汉明距离,若汉明距离小于所设定的阈值,则得到检索数据,否则则跳过,直至检索完成,得到所需要的目标图像或文本数据。
本发明所述步骤(1)的具体过程为:
(11)将图像数据预处理为224
Figure 936812DEST_PATH_IMAGE001
224大小、三通道的数据,然后分为九个大小一样的图像块输入进网络,提取全局特征,将文本数据处理成统一维度的词向量袋;
(12)将图像利用注意力机制增强图像特征的表达能力,文本数据利用全连接层以及哈希层进行下一步学习。
本发明所述步骤(2)中得到的图像特征向量集合为
Figure 990219DEST_PATH_IMAGE002
,其中
Figure 439786DEST_PATH_IMAGE003
代表图像提取得到特征的维度,
Figure 920446DEST_PATH_IMAGE004
代表图像数据的数量,
Figure 212887DEST_PATH_IMAGE005
代表图像中第
Figure 69984DEST_PATH_IMAGE006
个图像提取得到的特征;文本特征向量集合为
Figure 764271DEST_PATH_IMAGE007
Figure 291198DEST_PATH_IMAGE008
代表提取得到文本特征的维度,
Figure 336515DEST_PATH_IMAGE009
代表文本数据的数量,
Figure 731724DEST_PATH_IMAGE010
代表第
Figure 280517DEST_PATH_IMAGE011
个文本数据提取得到的特征,其中,为实现跨模态数据之间的对应关系,采用
Figure 368559DEST_PATH_IMAGE012
本发明所述步骤(3)具体过程为:
(31)对步骤(2)中获得的图像特征向量集合
Figure 510958DEST_PATH_IMAGE002
和文本特征向量集合为
Figure 444279DEST_PATH_IMAGE013
,在特征提取过程中,将图像特征和文本特征分别得到512维度的特征,其中图像特征集合为
Figure 113158DEST_PATH_IMAGE014
,其中
Figure 372101DEST_PATH_IMAGE015
代表变换之后的维度,即512维,
Figure 205059DEST_PATH_IMAGE016
代表图像数据的数量;文本特征集合为
Figure 207650DEST_PATH_IMAGE017
,其中
Figure 731035DEST_PATH_IMAGE015
代表变换之后的维度,即512维,N代表文本数据的数量,然后
Figure 895300DEST_PATH_IMAGE018
Figure 136926DEST_PATH_IMAGE019
进行融合,得到融合之后的特征向量
Figure 552995DEST_PATH_IMAGE020
(32)将步骤(31)融合得到的特征向量经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间
Figure 930886DEST_PATH_IMAGE021
,增强不同模态数据间的依赖关系,其中
Figure 531632DEST_PATH_IMAGE015
代表向量的维度,
Figure 994974DEST_PATH_IMAGE022
代表不同模态中的第
Figure 339368DEST_PATH_IMAGE006
个特征,N代表图像数据的数量或者文本数据的数量,在该步骤中,在空间和通道上采用并联注意力的方式;
(33)将
Figure 181553DEST_PATH_IMAGE022
Figure 156463DEST_PATH_IMAGE018
融合成1024维度的特征向量集合后通过一个全连接层将其变成512维度的特征向量集合
Figure 841522DEST_PATH_IMAGE023
,其中
Figure 192869DEST_PATH_IMAGE015
代表图像特征的维度,
Figure 14194DEST_PATH_IMAGE016
代表图像的数量,
Figure 691163DEST_PATH_IMAGE024
代表第
Figure 129098DEST_PATH_IMAGE006
个图像数据;同样的,将
Figure 815294DEST_PATH_IMAGE022
Figure 22284DEST_PATH_IMAGE019
融合成1024维度的特征向量集合后利用一个全连接层得到512维度的特征向量集合
Figure 135734DEST_PATH_IMAGE025
,其中
Figure 670752DEST_PATH_IMAGE015
代表文本特征的维度,N代表文本的数量,
Figure 895060DEST_PATH_IMAGE026
代表第
Figure 222136DEST_PATH_IMAGE011
个文本数据。
本发明所述步骤(4)的具体过程为:
(41)将
Figure 506487DEST_PATH_IMAGE021
Figure 653434DEST_PATH_IMAGE023
同时输入到判别器进行对抗学习,将融合得到的同一特征向量集合作为真值去判断辨别图像特征向量集合,使得生成的图像特征向量集合与融合之后的同一特征向量集合更加相似,;
(42)将
Figure 681433DEST_PATH_IMAGE021
Figure 472803DEST_PATH_IMAGE025
同时输入到判别器进行对抗学习,使得生成的文本特征更好的和同一语义特征相接近。
本发明所述步骤(5)的具体过程为:将步骤(41)和步骤(42)中经过对抗学习获得的图像特征和文本特征,通过哈希层分别生成对应的哈希码,其中图像的哈希编码集合为
Figure 928055DEST_PATH_IMAGE027
,文本的哈希编码集合为
Figure 827878DEST_PATH_IMAGE028
,其中N代表图像或者文本的数量,K代表哈希码的长度,然后进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量学习,将图像单独计算每一张图像与其他图像的余弦距离,计算单模态的相似性矩阵;同时,单独计算每个文本和其它文本的余弦距离,计算文本模态的相似性矩阵,然后将其融合达到一个跨模态的相似性矩阵,通过利用哈希码来重构对应的图像和文本模态的相似性矩阵、跨模态的相似矩阵以及矩阵之间的误差,来达到相似性度量学习的目的。
本发明为利用图像的全局信息有效表征图像语义信息,先采用注意力机制模块增强图像的视觉语义特征,生成更具判别力的视觉特征,再通过跨模态融合模块聚合不同模态的特征信息,并经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,减少不同模态之间的异质语义鸿沟问题,然后基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习,对齐不同模态的语义特征,最后将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量。
本发明与现有技术相比,具有以下优点:
1、现有技术中的基于监督的跨模态检索,都是基于人工标签的,为了避免费时和昂贵的数据标注,而且现有的无监督的跨模态检索中图像特征都是基于深度卷积神经网络进行提取,忽略了图像结构中的全局相关性信息,以至其视觉语义信息不鲁棒,从而影响了跨模态检索的性能,本发明利用注意力机制增强图像特征的表达能力,尤其使用自注意力模型对图像的全局特征进行表征,丰富了图像的视觉语义信息。
2、现有技术的无监督跨模态检索方法,基本上都是利用图像和文本等模态内自身所具有的语义特征信息,然而不同模态数据间的异质语义鸿沟问题严重制约了跨模态数据检索的性能,本发明利用跨模态融合模块将不同模态的数据特征映射到同一语义特征空间,并将其与原始图像特征和文本特征进行生成对抗学习,从而缩小不同模态数据之间的语义差距,能够更鲁棒地表征不同模态之间的语义共性特征。
附图说明
图1为本发明的工作流程示意框架图。
图2为本发明用于图像特征增强的自注意力模块图。
图3为本发明所述多模态融合模块跨模态特征融合示意图。
图4为本发明所述跨模态检索模型结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
实施例:
本发明实施例的工作流程如图1所示,主要包括以下七个部分:
(1)对图像数据和文本数据做预处理,把图像数据尺寸大小变为224
Figure 393988DEST_PATH_IMAGE001
224,将图片切割成九块;对于文本数据,将其变成对应维度的词向量;
(2)分别对步骤(1)处理好的图像和文本数据进行特征提取,将处理好的图像输入注意力机制网络中,利用自注意力模块进行特征提取,获取图像特征,并形成图像特征向量集合;文本数据利用线性层进一步特征提取,形成文本特征向量集合;
(3)将步骤(2)提取到的图像和文本特征向量集合输入到多模态的特征融合模块,即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征,再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,然后将融合之后的特征重新分配到图像和文本特征向量集合,得到同一语义空间的图像和文本特征向量集合;
(4)以步骤(3)得到的同一语义空间的图像和文本特征为基础生成对抗网络,使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐,提高跨模态数据检索的性能;
(5)将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码,进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习,训练生成跨模态检索模型;
(6)将不同模态的数据都输入到步骤(5)得到的跨模态检索模型中并生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算之间的汉明距离,若汉明距离小于所设定的阈值,则得到检索数据,否则则跳过,直至检索完成,得到所需要的目标图像或文本数据。
本实施例所述方法可有效提高无监督跨模态检索中的准确率和召回率,性能较为优越,尤其使用于大型跨模态数据场景,例如百度搜图,淘宝、京东的搜索购物等,下面展开具体说明:
对于步骤(1),首对图像数据和文本数据做预处理,把图像数据尺寸大小变为224
Figure 430077DEST_PATH_IMAGE001
224,将图片切割成九个大小一样的小块输送到网络中;对于文本数据,将其变成统一维度的词向量,例如在常用数据集MIRflickr中,把对应的文本变成1386维的词向量。
对于步骤(2),候选目标的提取分为对处理好的图像数据进行提取以及对于处理好的文本数据进行提取两部分来完成:
(21)对于图像特征的提取,利用注意力机制增强图像特征的表达能力,即利用如图2所示的自注意力模块增强图像特征的表达能力,注意力机制通过将图像分为九个大小一样的小块后输送进网络,通过注意力机制建立每个小块之间的联系,从而更好的提取图像全局特征,得到的图像特征向量集合为
Figure 56231DEST_PATH_IMAGE002
,其中
Figure 53137DEST_PATH_IMAGE003
代表图像提取得到特征的维度,
Figure 157359DEST_PATH_IMAGE016
代表图像数据的数量,
Figure 313534DEST_PATH_IMAGE005
代表图像中第
Figure 110588DEST_PATH_IMAGE006
个图像提取得到的特征;
(22)对于文本特征的提取,利用一个线性层和一个哈希层进行特征的提取,文本特征向量集合为
Figure 87070DEST_PATH_IMAGE029
Figure 994983DEST_PATH_IMAGE008
代表提取得到文本特征的维度,
Figure 5664DEST_PATH_IMAGE016
代表文本数据的数量,
Figure 848986DEST_PATH_IMAGE010
代表第
Figure 945118DEST_PATH_IMAGE011
个文本数据提取得到的特征。
对于步骤(3),如图3中所示,跨模态融合的具体过程如下:
(31)先对图像提取来的特征集合
Figure 656722DEST_PATH_IMAGE002
通过一个线性层变成512维度的特征特征向量集合
Figure 787489DEST_PATH_IMAGE014
,其中d代表原先图像特征的维度,
Figure 926347DEST_PATH_IMAGE030
代表变换之后的维度,即512维,N代表图像数据的数量;同时,将对文本提取来的特征集合
Figure 119562DEST_PATH_IMAGE029
通过一个线性层变成512维度的特征向量集合
Figure 369277DEST_PATH_IMAGE031
,这样,图像和文本模态的特征集合都处于相同的维度,从而有利于不同模态特征的融合;
(32)如图3中多模态特征融合模块所示,在特征训练阶段,将图像特征变化之后的特征集合
Figure 354551DEST_PATH_IMAGE014
和文本特征变化之后的特征集合
Figure 664310DEST_PATH_IMAGE031
,聚合成一个1024维度的特征集合后通过一个全连接层变成512维度的特征集合
Figure 469455DEST_PATH_IMAGE020
,其中
Figure 522861DEST_PATH_IMAGE030
代表变换之后的维度,即512维,N代表多模态数据的数量,此时,在通过上采样操作将融合之后的特征变成512通道、7
Figure 362641DEST_PATH_IMAGE001
7大小的图片,然后经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间
Figure 718667DEST_PATH_IMAGE021
,增强不同模态特征间的依赖关系,其中
Figure 276688DEST_PATH_IMAGE015
代表向量的维度,
Figure 868206DEST_PATH_IMAGE022
代表不同模态中的第
Figure 828072DEST_PATH_IMAGE006
个特征,N代表数据的数量,本实施例所加的注意力机制,是通过并联通道和空间上独自使用注意力机制然后再融合的策略,同样也可以通过串联通道和空间上独自使用自主一然后再融合的策略,两种方式都能取得不错的融合效果;
步骤(33)将融合之后的特征
Figure 479633DEST_PATH_IMAGE022
分别与原先的图像特征和文本特征相融合,使不同模态的特征可以在保留自己特性的同时,还能更好的利用不同模态之间的共性,增加了互补性,减少了冗余性,步骤(32)操作之后,融合之后的特征是512通道、7
Figure 134736DEST_PATH_IMAGE001
7大小的类似图像特征,同样的,通过一个全连接层将其变成512维度的特征向量集合,然后再与图像特征融合成1024维度的特征向量集合,继而通过一个全连接层将其变成512维度的特征向量集合
Figure 264366DEST_PATH_IMAGE023
,其中
Figure 78739DEST_PATH_IMAGE015
代表图像特征的维度,
Figure 901201DEST_PATH_IMAGE016
代表图像的数量,
Figure 168234DEST_PATH_IMAGE024
代表第
Figure 367135DEST_PATH_IMAGE006
个图像数据,然后在网络中进行下一步操作;对于文本,同样也是,将512维度的融合特征与文本特征融合,得到一个1024维度的特征向量集合,同样利用一个全连接层得到一个512维度的特征向量集合
Figure 36013DEST_PATH_IMAGE025
,其中
Figure 904743DEST_PATH_IMAGE015
代表文本特征的维度,N代表文本的数量,
Figure 659073DEST_PATH_IMAGE026
代表第
Figure 661664DEST_PATH_IMAGE011
个文本数据,然后进行下一步操作。
对于步骤(4),如图4中基于对抗学习的语义对齐模块所示,为了进一步减少不同模态之间的异质语义鸿沟问题,利用上述步骤(3)融合之后得到的同一语义特征与原先的图像特征以及文本特征,做对抗学习,以此来得到更加相似的不同模态的特征,使得不同模态的特征有自己的特性,同时也尽可能的相似,具体为:
(41)将
Figure 185049DEST_PATH_IMAGE021
Figure 349314DEST_PATH_IMAGE023
同时输入到判别器进行对抗学习,融合得到的同一特征向量集合作为真值去判断辨别图像特征向量集合,使得生成的图像特征向量集合与融合之后的同一特征向量集合更加相似,从而提高检索的性能,其损失计算公式为:
Figure 466306DEST_PATH_IMAGE032
其中,
Figure 7009DEST_PATH_IMAGE016
代表图像的数量,
Figure 384900DEST_PATH_IMAGE033
代表用于判别图像的判别器,
Figure 985646DEST_PATH_IMAGE034
为平衡判别器的参数;
(42)将
Figure 448988DEST_PATH_IMAGE021
Figure 668748DEST_PATH_IMAGE025
同时输入到判别器中,融合得到的同一特征向量集合作为真值去判断辨别文本特征向量集合,使得生成的文本特征向量集合与融合之后的同一特征向量集合更加相似,从而提高检索的性能,其损失计算公式为:
Figure 369988DEST_PATH_IMAGE035
其中,
Figure 876056DEST_PATH_IMAGE016
代表图像的数量,
Figure 561115DEST_PATH_IMAGE036
代表用于判别文本的判别器,
Figure 912462DEST_PATH_IMAGE037
为平衡判别器的参数;
步骤(43)基于无监督的跨模态检索都是利用不同模态自身内在的特征学习生成哈希码,对于步骤(41)和步骤(42)的对抗训练将不同模态的特征映射到同一语义特征空间,利用不同模态生成的哈希码,通过计算他们之间的相似距离,重构单独模态的相似性矩阵来促进高质量哈希码的生成。
对于步骤(5),如图4中哈希码学习及相似性度量模块所示, 具体为:
(51),将步骤(41)对抗学习后的图像特征通过哈希层进行哈希编码,从而得到图像的哈希码
Figure 999366DEST_PATH_IMAGE027
,其中
Figure 676335DEST_PATH_IMAGE038
代表图像哈希码的长度,
Figure 848691DEST_PATH_IMAGE016
代表图像的数量,通过计算图像中每个图像的哈希码与其它图像的哈希码之间的余弦距离,得到由哈希码得到的单模态的相似性矩阵
Figure 3729DEST_PATH_IMAGE039
,同时与加权融合得到的跨模态相似性矩阵S做损失计算,监督图像哈希码的生成,其中,对于图像生成的哈希码重构而成的相似性矩阵与原先加权融合得到的跨模态相似性矩阵S的语义损失计算为:
Figure 945140DEST_PATH_IMAGE040
其中
Figure 58589DEST_PATH_IMAGE041
为平衡范围参数,使模型训练更加灵活;
(52)将步骤(42)对抗学习后的文本特征通过哈希层进行哈希编码,从而得到文本的哈希码
Figure 983820DEST_PATH_IMAGE028
,其中
Figure 208128DEST_PATH_IMAGE038
代表图像哈希码的长度,
Figure 535204DEST_PATH_IMAGE016
代表文本的数量,通过计算文本中每个文本的哈希码与其它文本的哈希码之间的余弦距离,得到由哈希码得到的单模态的相似性矩阵
Figure 553976DEST_PATH_IMAGE042
,同时与加权融合特征得到的跨模态相似性矩阵做损失计算,监督文本哈希码的生成,其中,对于文本生成的哈希码重构而成的相似性矩阵与原先加权融合得到的跨模态相似性矩阵S的语义损失计算为:
Figure 966502DEST_PATH_IMAGE043
其中
Figure 604288DEST_PATH_IMAGE044
为范围平衡参数,使模型训练更加灵活。
对于步骤(51)、步骤(52)进行哈希码学习中,模态间语义对齐的总损失计算公式为:
Figure 785871DEST_PATH_IMAGE045
,即:
Figure 241123DEST_PATH_IMAGE046
其中,
Figure 875367DEST_PATH_IMAGE047
代表由图像、文本或者他们混合之后重建的相似性矩阵,与原先通过特征生成的矩阵做损失计算,称为模态间损失,同时,
Figure 441477DEST_PATH_IMAGE041
是一个范围平衡参数,更加有利于模型的训练,同样的还有图像和文本哈希码重建之后,分别和自身相对应的特征构造的相似性矩阵进行损失计算,称为模态内损失,本实施例共计分为两部分,一部分为图像哈希码与自身特征的损失:
Figure 743146DEST_PATH_IMAGE048
其中,
Figure 979086DEST_PATH_IMAGE049
代表是由图像特征向量构建而成的单模态相似性矩阵,
Figure 100626DEST_PATH_IMAGE050
代表是由图像哈希码构建而成的单模态相似性矩阵,其中
Figure 470427DEST_PATH_IMAGE041
为范围平衡参数,使模型训练更加灵活,另一部分为文本哈希码与自身特征的损失:
Figure 626602DEST_PATH_IMAGE051
总的模态内损失为
Figure 423657DEST_PATH_IMAGE052
,即:
Figure 32493DEST_PATH_IMAGE053
其中,
Figure 815772DEST_PATH_IMAGE047
代表图像或者文本模态,F代表是由特征向量构建而成的单模态相似性矩阵,
Figure 560874DEST_PATH_IMAGE050
代表是由哈希码构建而成的单模态相似性矩阵,
Figure 528830DEST_PATH_IMAGE041
为范围平衡参数,使模型的训练更加灵活。
步骤(6)网络训练好模型之后,将查询数据库的每一个数据都生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算他们之间的汉明距离,如果他们的汉明距离小于所设定的阈值,就把它检索出来,如果不符合就跳过,直至检索完成,检索到的就是所需要的目标图像或文本数据。
本实施例提出的基于注意力机制增强的无监督跨模检索方法中,为有效利用图像的全局信息丰富图像语义特征,采用注意力机制模块增强图像的视觉语义信息,生成更具判别力的视觉特征;其次,为了减少不同模态之间的异质语义鸿沟问题,通过跨模态融合模块聚合不同模态的特征信息,并经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系;再次,基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习,对齐不同模态的语义特征;最后,将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量。
本实施例所提出的基于注意力机制增强的无监督跨模态检索方法优于现有同类相关方法,尤其在不同模态存在较大语义鸿沟问题时的性能表现更为显著。
以上公开的仅为本发明的具体实施例,根据本发明提供的技术思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。

Claims (6)

1.一种基于注意力机制增强的无监督跨模态检索方法,其特征在于,具体包括以下步骤:
(1)对图像数据和文本数据做预处理,把图像数据尺寸大小变为224
Figure DEST_PATH_IMAGE001
224,将图片切割成九个图像块;对于文本数据,将其变成对应维度的词向量;
(2)分别对步骤(1)处理好的图像和文本数据进行特征提取,将处理好的图像输入注意力机制网络中,利用自注意力模块进行特征提取,获取图像特征,并形成图像特征向量集合;文本数据利用线性层进行特征提取,形成文本特征向量集合;
(3)将步骤(2)提取到的图像和文本特征向量集合输入到多模态的特征融合模块,即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征,再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,然后将融合之后的特征重新分配到图像和文本特征向量集合,得到同一语义空间的图像和文本特征向量集合;
(4)以步骤(3)得到的同一语义空间的图像和文本特征为基础生成对抗网络,使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐,提高跨模态数据检索的性能;
(5)将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码,进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习,训练生成跨模态检索模型;
(6)将不同模态的数据都输入到步骤(5)得到的跨模态检索模型中并生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素之间的汉明距离,若汉明距离小于所设定的阈值,则得到检索数据,否则则跳过,直至检索完成,得到所需要的目标图像或文本数据。
2.根据权利要求1所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(1)的具体过程为:将图像数据预处理为大小为224
Figure 117193DEST_PATH_IMAGE001
224的三通道数据,然后分为九个大小一样的图像块输入进网络,提取全局特征,将文本数据处理成统一维度的词向量袋。
3.根据权利要求2所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(2)中得到的图像特征向量集合为
Figure 84011DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
代表图像提取得到特征的维度,
Figure 934287DEST_PATH_IMAGE004
代表图像数据的数量,
Figure DEST_PATH_IMAGE005
代表图像中第
Figure 947242DEST_PATH_IMAGE006
个图像提取得到的特征;文本特征向量集合为
Figure DEST_PATH_IMAGE007
Figure 236272DEST_PATH_IMAGE008
代表提取得到文本特征的维度,
Figure DEST_PATH_IMAGE009
代表文本数据的数量,
Figure 401806DEST_PATH_IMAGE010
代表第
Figure DEST_PATH_IMAGE011
个文本数据提取得到的特征,其中,为实现跨模态数据之间的对应关系,采用
Figure 547616DEST_PATH_IMAGE012
4.根据权利要求3所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(3)具体过程为:
(31)对步骤(2)中获得的图像特征向量集合
Figure 844605DEST_PATH_IMAGE002
和文本特征向量集合为
Figure DEST_PATH_IMAGE013
,在特征提取过程中,将图像特征和文本特征分别得到512维度的特征,其中图像特征集合为
Figure 78272DEST_PATH_IMAGE014
,其中
Figure DEST_PATH_IMAGE015
代表变换之后的维度,即512维,
Figure 19683DEST_PATH_IMAGE004
代表图像数据的数量;文本特征集合为
Figure 726608DEST_PATH_IMAGE016
,其中
Figure 855101DEST_PATH_IMAGE015
代表变换之后的维度,即512维,N代表文本数据的数量,然后
Figure DEST_PATH_IMAGE017
Figure 134600DEST_PATH_IMAGE018
进行融合,得到融合之后的特征向量
Figure DEST_PATH_IMAGE019
(32)将步骤(31)融合得到的特征向量经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间
Figure 992834DEST_PATH_IMAGE020
,增强不同模态数据间的依赖关系,其中
Figure 621393DEST_PATH_IMAGE015
代表向量的维度,
Figure DEST_PATH_IMAGE021
代表不同模态中的第
Figure 361816DEST_PATH_IMAGE006
个特征,N代表图像数据的数量或者文本数据的数量,在该步骤中,在空间和通道上采用并联注意力的方式;
(33)将
Figure 858656DEST_PATH_IMAGE021
Figure 774660DEST_PATH_IMAGE017
融合成1024维度的特征向量集合后通过一个全连接层将其变成512维度的特征向量集合
Figure 308540DEST_PATH_IMAGE022
,其中
Figure 942784DEST_PATH_IMAGE015
代表图像特征的维度,
Figure 102370DEST_PATH_IMAGE004
代表图像的数量,
Figure DEST_PATH_IMAGE023
代表第
Figure 607300DEST_PATH_IMAGE006
个图像数据;同样的,将
Figure 46503DEST_PATH_IMAGE021
Figure 27098DEST_PATH_IMAGE018
融合成1024维度的特征向量集合后利用一个全连接层得到512维度的特征向量集合
Figure 131320DEST_PATH_IMAGE024
,其中
Figure 490757DEST_PATH_IMAGE015
代表文本特征的维度,N代表文本的数量,
Figure DEST_PATH_IMAGE025
代表第
Figure 366440DEST_PATH_IMAGE011
个文本数据。
5.根据权利要求4所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(4)的具体过程为:
(41)将
Figure 568751DEST_PATH_IMAGE020
Figure 476665DEST_PATH_IMAGE022
同时输入到判别器进行对抗学习,将融合得到的同一特征向量集合作为真值去判断辨别图像特征向量集合,使得生成的图像特征向量集合与融合之后的同一特征向量集合更加相似;
(42)将
Figure 956187DEST_PATH_IMAGE020
Figure 268351DEST_PATH_IMAGE024
同时输入到判别器进行对抗学习,使得生成的文本特征更好的和同一语义特征相接近。
6.根据权利要求5所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(5)的具体过程为:将步骤(41)和步骤(42)中经过对抗学习获得的图像特征和文本特征,通过哈希层分别生成对应的哈希码,其中图像的哈希编码集合为
Figure 98904DEST_PATH_IMAGE026
,文本的哈希编码集合为
Figure DEST_PATH_IMAGE027
,其中N代表图像或者文本的数量,K代表哈希码的长度,然后进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量学习,将图像单独计算每一张图像与其他图像的余弦距离,计算单模态的相似性矩阵;同时,单独计算每个文本和其它文本的余弦距离,计算文本模态的相似性矩阵,然后将其融合达到一个跨模态的相似性矩阵,通过利用哈希码来重构对应的图像和文本模态的相似性矩阵、跨模态的相似矩阵以及矩阵之间的误差,来达到相似性度量学习的目的。
CN202111578275.XA 2021-12-22 2021-12-22 一种基于注意力机制增强的无监督跨模态检索方法 Active CN113971209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111578275.XA CN113971209B (zh) 2021-12-22 2021-12-22 一种基于注意力机制增强的无监督跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111578275.XA CN113971209B (zh) 2021-12-22 2021-12-22 一种基于注意力机制增强的无监督跨模态检索方法

Publications (2)

Publication Number Publication Date
CN113971209A CN113971209A (zh) 2022-01-25
CN113971209B true CN113971209B (zh) 2022-04-19

Family

ID=79590755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111578275.XA Active CN113971209B (zh) 2021-12-22 2021-12-22 一种基于注意力机制增强的无监督跨模态检索方法

Country Status (1)

Country Link
CN (1) CN113971209B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098620B (zh) * 2022-07-26 2024-03-29 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN115661594B (zh) * 2022-10-19 2023-08-18 海南港航控股有限公司 一种基于对齐和融合的图文多模态特征表示方法和系统
CN115840827B (zh) * 2022-11-07 2023-09-19 重庆师范大学 一种深度无监督跨模态哈希检索方法
CN115599942B (zh) * 2022-11-08 2023-12-12 重庆师范大学 一种基于gcn的深度无监督跨模态检索方法
CN116431847B (zh) * 2023-06-14 2023-11-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN116825210B (zh) * 2023-08-28 2023-11-17 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN117218453B (zh) * 2023-11-06 2024-01-16 中国科学院大学 一种不完备多模态医学影像学习方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113076465A (zh) * 2021-05-14 2021-07-06 中国石油大学(华东) 一种基于深度哈希的通用跨模态检索模型
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN113657400A (zh) * 2021-08-19 2021-11-16 大连理工大学 基于跨模态文本检索注意力机制的文本指导图像分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886326B (zh) * 2019-01-31 2022-01-04 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统
CN113076465A (zh) * 2021-05-14 2021-07-06 中国石油大学(华东) 一种基于深度哈希的通用跨模态检索模型
CN113657400A (zh) * 2021-08-19 2021-11-16 大连理工大学 基于跨模态文本检索注意力机制的文本指导图像分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Unsupervised Cross-Modal Hashing with Soft Constraint";Yuxuan Zhou et al.;《Pacific Rim Conference on Multimedia》;20180510;全文 *
"跨模态视频分类研究";马泽宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;全文 *

Also Published As

Publication number Publication date
CN113971209A (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
CN113971209B (zh) 一种基于注意力机制增强的无监督跨模态检索方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
Xu et al. Learning discriminative binary codes for large-scale cross-modal retrieval
CN107346328B (zh) 一种基于多粒度层级网络的跨模态关联学习方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
Lin et al. Mask cross-modal hashing networks
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
Zhou et al. Sampling-attention deep learning network with transfer learning for large-scale urban point cloud semantic segmentation
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
Su et al. Semi-supervised knowledge distillation for cross-modal hashing
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN115410199A (zh) 图像内容检索方法、装置、设备及存储介质
Yu et al. Text-image matching for cross-modal remote sensing image retrieval via graph neural network
CN114596456A (zh) 一种基于聚集哈希学习的图像集分类方法
Shen et al. Semi-supervised cross-modal hashing with multi-view graph representation
Li et al. Low-rank image tag completion with dual reconstruction structure preserved
Ma et al. Capsule-based object tracking with natural language specification
Wang et al. Three-stage bidirectional interaction network for efficient RGB-D salient object detection
CN115840827B (zh) 一种深度无监督跨模态哈希检索方法
CN116049450A (zh) 一种基于距离聚类的支持多模态的图文检索方法及装置
Shen et al. Graph Convolutional Incomplete Multi-modal Hashing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant