CN113971209B - 一种基于注意力机制增强的无监督跨模态检索方法 - Google Patents
一种基于注意力机制增强的无监督跨模态检索方法 Download PDFInfo
- Publication number
- CN113971209B CN113971209B CN202111578275.XA CN202111578275A CN113971209B CN 113971209 B CN113971209 B CN 113971209B CN 202111578275 A CN202111578275 A CN 202111578275A CN 113971209 B CN113971209 B CN 113971209B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- features
- modal
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能智慧社区应用技术领域,涉及一种基于注意力机制增强的无监督跨模态检索方法,先增强图像的视觉语义特征,再聚合不同模态的特征信息,并将融合后的多模态特征映射到同一语义特征空间,然后基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习,对齐不同模态的语义特征,最后将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量,减少了不同模态之间的异质语义鸿沟问题,增强了不同模态特征间的依赖关系,从而缩小不同模态数据之间的语义差距,能够更鲁棒地表征不同模态之间的语义共性特征。
Description
技术领域
本发明属于人工智能智慧社区应用技术领域,涉及一种基于注意力机制增强的无监督跨模态检索方法,能够有效的处理智慧社区中大规模图像和文本间的跨模态检索。
背景技术
跨模态检索是将一个模态的数据去寻找查询另一个模态中与之相关的数据,例如,用一段文本描述去检索图像数据库中与文本描述相关的图像。在日常生活中这种技术经常被使用,例如百度搜图,淘宝购物等。传统的跨模态检索分为基于监督的跨模态检索以及基于无监督的跨模态检索。由于深度神经网络在计算机视觉领域取得的显著效果,深度跨模态检索已经成为当下研究的主流。随着互联网以及多媒体的高速发展,多媒体数据呈现爆炸性的增长,跨模态哈希因为其特有的检索效率快以及存储花费少的特点,受到研究者们越来越多的关注。跨模态哈希检索是将不同模态的数据,映射到同一个二进制空间中,然后进行汉明距离的计算,从而进行多模态数据的检索。
然而,由于不同模态的数据之间必定存在不同模态数据介质的语义差异,即异质语义鸿沟问题。为实现不同模态数据间的异质检索,基于监督的跨模态哈希方法已经取得的很大进展,但是这些方法都需要大量人工标注的标签,很难泛化于现实世界的海量跨模态数据检索中。因此,为避免费时和昂贵的数据标注,越来越多的研究集中在基于无监督学习的跨模态哈希方法,这是因为其能够减少训练过程中对于标签的依赖,并且能够取得相当的性能。目前,无监督跨模态哈希方法有深度联合语义重建哈希、深度语义对齐哈希、联合分布相似性哈希等,其中,深度联合语义重建哈希通过将不同模态生成的哈希码分别重建对应的单模态相似性矩阵以及利用动态加权融合的方式形成多模态的相似性矩阵与原始特征生成的相同矩阵做损失计算,从而减少不同模态之间的异质语义鸿沟问题;深度语义对齐哈希,利用图像和文本的之间的共现信息引入一种对称损失,保持模态内和模态间哈希码的一致性;联合分布相似性哈希利用图像和文本单模态的相似性矩阵之间的数据分布关系,形成多模态相似性矩阵监督哈希码的生成。但是这些方法有一个不可忽略的问题就是从图像和文本得到的语义信息不对等,使得不同模态之间的异质语义鸿沟问题间接性增大,从而导致检索不同模态数据的失败。因此,亟需设计一种新的基于无监督学习的跨模态图像-文本检索方法。
发明内容
本发明的目的在于克服现有无监督跨模态检索技术中的不足,提出一种基于注意力机制增强的无监督跨模态检索方法。
为实现上述目的,本发明所述基于注意力机制增强的无监督跨模态检索方法,具体包括以下步骤:
(2)分别对步骤(1)处理好的图像和文本数据进行特征提取,将处理好的图像输入注意力机制网络中,利用自注意力模块进行特征提取,获取图像特征,并形成图像特征向量集合;文本数据利用线性层进一步特征提取,形成文本特征向量集合;
(3)将步骤(2)提取到的图像和文本特征向量集合输入到多模态的特征融合模块,即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征,再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,然后将融合之后的特征重新分配到图像和文本特征向量集合,得到同一语义空间的图像和文本特征向量集合;
(4)以步骤(3)得到的同一语义空间的图像和文本特征为基础生成对抗网络,使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐,提高跨模态数据检索的性能;
(5)将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码,进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习,训练生成跨模态检索模型;
(6)将不同模态的数据都输入到步骤(5)得到的跨模态检索模型中并生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算之间的汉明距离,若汉明距离小于所设定的阈值,则得到检索数据,否则则跳过,直至检索完成,得到所需要的目标图像或文本数据。
本发明所述步骤(1)的具体过程为:
(12)将图像利用注意力机制增强图像特征的表达能力,文本数据利用全连接层以及哈希层进行下一步学习。
本发明所述步骤(2)中得到的图像特征向量集合为 ,其中代表图像提取得到特征的维度,代表图像数据的数量,代表图像中第个图像提取得到的特征;文本特征向量集合为,代表提取得到文本特征的维度,代表文本数据的数量,代表第个文本数据提取得到的特征,其中,为实现跨模态数据之间的对应关系,采用。
本发明所述步骤(3)具体过程为:
(31)对步骤(2)中获得的图像特征向量集合和文本特征向量集合为,在特征提取过程中,将图像特征和文本特征分别得到512维度的特征,其中图像特征集合为,其中代表变换之后的维度,即512维,代表图像数据的数量;文本特征集合为,其中代表变换之后的维度,即512维,N代表文本数据的数量,然后和进行融合,得到融合之后的特征向量;
(32)将步骤(31)融合得到的特征向量经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态数据间的依赖关系,其中代表向量的维度,代表不同模态中的第个特征,N代表图像数据的数量或者文本数据的数量,在该步骤中,在空间和通道上采用并联注意力的方式;
(33)将和融合成1024维度的特征向量集合后通过一个全连接层将其变成512维度的特征向量集合,其中代表图像特征的维度,代表图像的数量,代表第个图像数据;同样的,将和融合成1024维度的特征向量集合后利用一个全连接层得到512维度的特征向量集合,其中代表文本特征的维度,N代表文本的数量,代表第个文本数据。
本发明所述步骤(4)的具体过程为:
本发明所述步骤(5)的具体过程为:将步骤(41)和步骤(42)中经过对抗学习获得的图像特征和文本特征,通过哈希层分别生成对应的哈希码,其中图像的哈希编码集合为,文本的哈希编码集合为,其中N代表图像或者文本的数量,K代表哈希码的长度,然后进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量学习,将图像单独计算每一张图像与其他图像的余弦距离,计算单模态的相似性矩阵;同时,单独计算每个文本和其它文本的余弦距离,计算文本模态的相似性矩阵,然后将其融合达到一个跨模态的相似性矩阵,通过利用哈希码来重构对应的图像和文本模态的相似性矩阵、跨模态的相似矩阵以及矩阵之间的误差,来达到相似性度量学习的目的。
本发明为利用图像的全局信息有效表征图像语义信息,先采用注意力机制模块增强图像的视觉语义特征,生成更具判别力的视觉特征,再通过跨模态融合模块聚合不同模态的特征信息,并经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,减少不同模态之间的异质语义鸿沟问题,然后基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习,对齐不同模态的语义特征,最后将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量。
本发明与现有技术相比,具有以下优点:
1、现有技术中的基于监督的跨模态检索,都是基于人工标签的,为了避免费时和昂贵的数据标注,而且现有的无监督的跨模态检索中图像特征都是基于深度卷积神经网络进行提取,忽略了图像结构中的全局相关性信息,以至其视觉语义信息不鲁棒,从而影响了跨模态检索的性能,本发明利用注意力机制增强图像特征的表达能力,尤其使用自注意力模型对图像的全局特征进行表征,丰富了图像的视觉语义信息。
2、现有技术的无监督跨模态检索方法,基本上都是利用图像和文本等模态内自身所具有的语义特征信息,然而不同模态数据间的异质语义鸿沟问题严重制约了跨模态数据检索的性能,本发明利用跨模态融合模块将不同模态的数据特征映射到同一语义特征空间,并将其与原始图像特征和文本特征进行生成对抗学习,从而缩小不同模态数据之间的语义差距,能够更鲁棒地表征不同模态之间的语义共性特征。
附图说明
图1为本发明的工作流程示意框架图。
图2为本发明用于图像特征增强的自注意力模块图。
图3为本发明所述多模态融合模块跨模态特征融合示意图。
图4为本发明所述跨模态检索模型结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
实施例:
本发明实施例的工作流程如图1所示,主要包括以下七个部分:
(2)分别对步骤(1)处理好的图像和文本数据进行特征提取,将处理好的图像输入注意力机制网络中,利用自注意力模块进行特征提取,获取图像特征,并形成图像特征向量集合;文本数据利用线性层进一步特征提取,形成文本特征向量集合;
(3)将步骤(2)提取到的图像和文本特征向量集合输入到多模态的特征融合模块,即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征,再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,然后将融合之后的特征重新分配到图像和文本特征向量集合,得到同一语义空间的图像和文本特征向量集合;
(4)以步骤(3)得到的同一语义空间的图像和文本特征为基础生成对抗网络,使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐,提高跨模态数据检索的性能;
(5)将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码,进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习,训练生成跨模态检索模型;
(6)将不同模态的数据都输入到步骤(5)得到的跨模态检索模型中并生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算之间的汉明距离,若汉明距离小于所设定的阈值,则得到检索数据,否则则跳过,直至检索完成,得到所需要的目标图像或文本数据。
本实施例所述方法可有效提高无监督跨模态检索中的准确率和召回率,性能较为优越,尤其使用于大型跨模态数据场景,例如百度搜图,淘宝、京东的搜索购物等,下面展开具体说明:
对于步骤(1),首对图像数据和文本数据做预处理,把图像数据尺寸大小变为224224,将图片切割成九个大小一样的小块输送到网络中;对于文本数据,将其变成统一维度的词向量,例如在常用数据集MIRflickr中,把对应的文本变成1386维的词向量。
对于步骤(2),候选目标的提取分为对处理好的图像数据进行提取以及对于处理好的文本数据进行提取两部分来完成:
(21)对于图像特征的提取,利用注意力机制增强图像特征的表达能力,即利用如图2所示的自注意力模块增强图像特征的表达能力,注意力机制通过将图像分为九个大小一样的小块后输送进网络,通过注意力机制建立每个小块之间的联系,从而更好的提取图像全局特征,得到的图像特征向量集合为,其中代表图像提取得到特征的维度,代表图像数据的数量,代表图像中第个图像提取得到的特征;
对于步骤(3),如图3中所示,跨模态融合的具体过程如下:
(31)先对图像提取来的特征集合通过一个线性层变成512维度的特征特征向量集合,其中d代表原先图像特征的维度,代表变换之后的维度,即512维,N代表图像数据的数量;同时,将对文本提取来的特征集合通过一个线性层变成512维度的特征向量集合,这样,图像和文本模态的特征集合都处于相同的维度,从而有利于不同模态特征的融合;
(32)如图3中多模态特征融合模块所示,在特征训练阶段,将图像特征变化之后的特征集合和文本特征变化之后的特征集合,聚合成一个1024维度的特征集合后通过一个全连接层变成512维度的特征集合,其中代表变换之后的维度,即512维,N代表多模态数据的数量,此时,在通过上采样操作将融合之后的特征变成512通道、77大小的图片,然后经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,其中代表向量的维度,代表不同模态中的第个特征,N代表数据的数量,本实施例所加的注意力机制,是通过并联通道和空间上独自使用注意力机制然后再融合的策略,同样也可以通过串联通道和空间上独自使用自主一然后再融合的策略,两种方式都能取得不错的融合效果;
步骤(33)将融合之后的特征分别与原先的图像特征和文本特征相融合,使不同模态的特征可以在保留自己特性的同时,还能更好的利用不同模态之间的共性,增加了互补性,减少了冗余性,步骤(32)操作之后,融合之后的特征是512通道、77大小的类似图像特征,同样的,通过一个全连接层将其变成512维度的特征向量集合,然后再与图像特征融合成1024维度的特征向量集合,继而通过一个全连接层将其变成512维度的特征向量集合,其中代表图像特征的维度,代表图像的数量,代表第个图像数据,然后在网络中进行下一步操作;对于文本,同样也是,将512维度的融合特征与文本特征融合,得到一个1024维度的特征向量集合,同样利用一个全连接层得到一个512维度的特征向量集合,其中代表文本特征的维度,N代表文本的数量,代表第个文本数据,然后进行下一步操作。
对于步骤(4),如图4中基于对抗学习的语义对齐模块所示,为了进一步减少不同模态之间的异质语义鸿沟问题,利用上述步骤(3)融合之后得到的同一语义特征与原先的图像特征以及文本特征,做对抗学习,以此来得到更加相似的不同模态的特征,使得不同模态的特征有自己的特性,同时也尽可能的相似,具体为:
(41)将与同时输入到判别器进行对抗学习,融合得到的同一特征向量集合作为真值去判断辨别图像特征向量集合,使得生成的图像特征向量集合与融合之后的同一特征向量集合更加相似,从而提高检索的性能,其损失计算公式为:
步骤(43)基于无监督的跨模态检索都是利用不同模态自身内在的特征学习生成哈希码,对于步骤(41)和步骤(42)的对抗训练将不同模态的特征映射到同一语义特征空间,利用不同模态生成的哈希码,通过计算他们之间的相似距离,重构单独模态的相似性矩阵来促进高质量哈希码的生成。
对于步骤(5),如图4中哈希码学习及相似性度量模块所示, 具体为:
(51),将步骤(41)对抗学习后的图像特征通过哈希层进行哈希编码,从而得到图像的哈希码,其中代表图像哈希码的长度,代表图像的数量,通过计算图像中每个图像的哈希码与其它图像的哈希码之间的余弦距离,得到由哈希码得到的单模态的相似性矩阵,同时与加权融合得到的跨模态相似性矩阵S做损失计算,监督图像哈希码的生成,其中,对于图像生成的哈希码重构而成的相似性矩阵与原先加权融合得到的跨模态相似性矩阵S的语义损失计算为:
(52)将步骤(42)对抗学习后的文本特征通过哈希层进行哈希编码,从而得到文本的哈希码,其中代表图像哈希码的长度,代表文本的数量,通过计算文本中每个文本的哈希码与其它文本的哈希码之间的余弦距离,得到由哈希码得到的单模态的相似性矩阵,同时与加权融合特征得到的跨模态相似性矩阵做损失计算,监督文本哈希码的生成,其中,对于文本生成的哈希码重构而成的相似性矩阵与原先加权融合得到的跨模态相似性矩阵S的语义损失计算为:
其中,代表由图像、文本或者他们混合之后重建的相似性矩阵,与原先通过特征生成的矩阵做损失计算,称为模态间损失,同时,是一个范围平衡参数,更加有利于模型的训练,同样的还有图像和文本哈希码重建之后,分别和自身相对应的特征构造的相似性矩阵进行损失计算,称为模态内损失,本实施例共计分为两部分,一部分为图像哈希码与自身特征的损失:
步骤(6)网络训练好模型之后,将查询数据库的每一个数据都生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算他们之间的汉明距离,如果他们的汉明距离小于所设定的阈值,就把它检索出来,如果不符合就跳过,直至检索完成,检索到的就是所需要的目标图像或文本数据。
本实施例提出的基于注意力机制增强的无监督跨模检索方法中,为有效利用图像的全局信息丰富图像语义特征,采用注意力机制模块增强图像的视觉语义信息,生成更具判别力的视觉特征;其次,为了减少不同模态之间的异质语义鸿沟问题,通过跨模态融合模块聚合不同模态的特征信息,并经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系;再次,基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习,对齐不同模态的语义特征;最后,将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量。
本实施例所提出的基于注意力机制增强的无监督跨模态检索方法优于现有同类相关方法,尤其在不同模态存在较大语义鸿沟问题时的性能表现更为显著。
以上公开的仅为本发明的具体实施例,根据本发明提供的技术思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。
Claims (6)
1.一种基于注意力机制增强的无监督跨模态检索方法,其特征在于,具体包括以下步骤:
(2)分别对步骤(1)处理好的图像和文本数据进行特征提取,将处理好的图像输入注意力机制网络中,利用自注意力模块进行特征提取,获取图像特征,并形成图像特征向量集合;文本数据利用线性层进行特征提取,形成文本特征向量集合;
(3)将步骤(2)提取到的图像和文本特征向量集合输入到多模态的特征融合模块,即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征,再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系,然后将融合之后的特征重新分配到图像和文本特征向量集合,得到同一语义空间的图像和文本特征向量集合;
(4)以步骤(3)得到的同一语义空间的图像和文本特征为基础生成对抗网络,使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐,提高跨模态数据检索的性能;
(5)将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码,进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习,训练生成跨模态检索模型;
(6)将不同模态的数据都输入到步骤(5)得到的跨模态检索模型中并生成其对应的哈希码,然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素之间的汉明距离,若汉明距离小于所设定的阈值,则得到检索数据,否则则跳过,直至检索完成,得到所需要的目标图像或文本数据。
4.根据权利要求3所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(3)具体过程为:
(31)对步骤(2)中获得的图像特征向量集合和文本特征向量集合为,在特征提取过程中,将图像特征和文本特征分别得到512维度的特征,其中图像特征集合为,其中代表变换之后的维度,即512维,代表图像数据的数量;文本特征集合为,其中代表变换之后的维度,即512维,N代表文本数据的数量,然后和进行融合,得到融合之后的特征向量;
(32)将步骤(31)融合得到的特征向量经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态数据间的依赖关系,其中代表向量的维度,代表不同模态中的第个特征,N代表图像数据的数量或者文本数据的数量,在该步骤中,在空间和通道上采用并联注意力的方式;
6.根据权利要求5所述基于注意力机制增强的无监督跨模态检索方法,其特征在于,所述步骤(5)的具体过程为:将步骤(41)和步骤(42)中经过对抗学习获得的图像特征和文本特征,通过哈希层分别生成对应的哈希码,其中图像的哈希编码集合为,文本的哈希编码集合为,其中N代表图像或者文本的数量,K代表哈希码的长度,然后进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量学习,将图像单独计算每一张图像与其他图像的余弦距离,计算单模态的相似性矩阵;同时,单独计算每个文本和其它文本的余弦距离,计算文本模态的相似性矩阵,然后将其融合达到一个跨模态的相似性矩阵,通过利用哈希码来重构对应的图像和文本模态的相似性矩阵、跨模态的相似矩阵以及矩阵之间的误差,来达到相似性度量学习的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111578275.XA CN113971209B (zh) | 2021-12-22 | 2021-12-22 | 一种基于注意力机制增强的无监督跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111578275.XA CN113971209B (zh) | 2021-12-22 | 2021-12-22 | 一种基于注意力机制增强的无监督跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113971209A CN113971209A (zh) | 2022-01-25 |
CN113971209B true CN113971209B (zh) | 2022-04-19 |
Family
ID=79590755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111578275.XA Active CN113971209B (zh) | 2021-12-22 | 2021-12-22 | 一种基于注意力机制增强的无监督跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971209B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098620B (zh) * | 2022-07-26 | 2024-03-29 | 北方民族大学 | 一种注意力相似度迁移的跨模态哈希检索方法 |
CN115661594B (zh) * | 2022-10-19 | 2023-08-18 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115840827B (zh) * | 2022-11-07 | 2023-09-19 | 重庆师范大学 | 一种深度无监督跨模态哈希检索方法 |
CN115599942B (zh) * | 2022-11-08 | 2023-12-12 | 重庆师范大学 | 一种基于gcn的深度无监督跨模态检索方法 |
CN116431847B (zh) * | 2023-06-14 | 2023-11-14 | 北京邮电大学 | 基于多重对比和双路对抗的跨模态哈希检索方法及设备 |
CN116825210B (zh) * | 2023-08-28 | 2023-11-17 | 山东大学 | 基于多源生物数据的哈希检索方法、系统、设备和介质 |
CN117218453B (zh) * | 2023-11-06 | 2024-01-16 | 中国科学院大学 | 一种不完备多模态医学影像学习方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256271A (zh) * | 2017-06-27 | 2017-10-17 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN110765281A (zh) * | 2019-11-04 | 2020-02-07 | 山东浪潮人工智能研究院有限公司 | 一种多语义深度监督跨模态哈希检索方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113076465A (zh) * | 2021-05-14 | 2021-07-06 | 中国石油大学(华东) | 一种基于深度哈希的通用跨模态检索模型 |
CN113095415A (zh) * | 2021-04-15 | 2021-07-09 | 齐鲁工业大学 | 一种基于多模态注意力机制的跨模态哈希方法及系统 |
CN113392254A (zh) * | 2021-03-29 | 2021-09-14 | 西安理工大学 | 一种基于上下文感知注意的图像文本检索方法 |
CN113657400A (zh) * | 2021-08-19 | 2021-11-16 | 大连理工大学 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886326B (zh) * | 2019-01-31 | 2022-01-04 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
-
2021
- 2021-12-22 CN CN202111578275.XA patent/CN113971209B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256271A (zh) * | 2017-06-27 | 2017-10-17 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN110765281A (zh) * | 2019-11-04 | 2020-02-07 | 山东浪潮人工智能研究院有限公司 | 一种多语义深度监督跨模态哈希检索方法 |
CN113392254A (zh) * | 2021-03-29 | 2021-09-14 | 西安理工大学 | 一种基于上下文感知注意的图像文本检索方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113095415A (zh) * | 2021-04-15 | 2021-07-09 | 齐鲁工业大学 | 一种基于多模态注意力机制的跨模态哈希方法及系统 |
CN113076465A (zh) * | 2021-05-14 | 2021-07-06 | 中国石油大学(华东) | 一种基于深度哈希的通用跨模态检索模型 |
CN113657400A (zh) * | 2021-08-19 | 2021-11-16 | 大连理工大学 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Non-Patent Citations (2)
Title |
---|
"Unsupervised Cross-Modal Hashing with Soft Constraint";Yuxuan Zhou et al.;《Pacific Rim Conference on Multimedia》;20180510;全文 * |
"跨模态视频分类研究";马泽宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113971209A (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113971209B (zh) | 一种基于注意力机制增强的无监督跨模态检索方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
Xu et al. | Learning discriminative binary codes for large-scale cross-modal retrieval | |
CN107346328B (zh) | 一种基于多粒度层级网络的跨模态关联学习方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
Lin et al. | Mask cross-modal hashing networks | |
CN116204706A (zh) | 一种文本内容结合图像分析的多模态内容检索方法与系统 | |
CN112199532A (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
Abdul-Rashid et al. | Shrec’18 track: 2d image-based 3d scene retrieval | |
CN110647907A (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
Zhou et al. | Sampling-attention deep learning network with transfer learning for large-scale urban point cloud semantic segmentation | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
Su et al. | Semi-supervised knowledge distillation for cross-modal hashing | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN115410199A (zh) | 图像内容检索方法、装置、设备及存储介质 | |
Yu et al. | Text-image matching for cross-modal remote sensing image retrieval via graph neural network | |
CN114596456A (zh) | 一种基于聚集哈希学习的图像集分类方法 | |
Shen et al. | Semi-supervised cross-modal hashing with multi-view graph representation | |
Li et al. | Low-rank image tag completion with dual reconstruction structure preserved | |
Ma et al. | Capsule-based object tracking with natural language specification | |
Wang et al. | Three-stage bidirectional interaction network for efficient RGB-D salient object detection | |
CN115840827B (zh) | 一种深度无监督跨模态哈希检索方法 | |
CN116049450A (zh) | 一种基于距离聚类的支持多模态的图文检索方法及装置 | |
Shen et al. | Graph Convolutional Incomplete Multi-modal Hashing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |