CN111914950B - 基于深度对偶变分哈希的无监督跨模态检索模型训练方法 - Google Patents
基于深度对偶变分哈希的无监督跨模态检索模型训练方法 Download PDFInfo
- Publication number
- CN111914950B CN111914950B CN202010846633.XA CN202010846633A CN111914950B CN 111914950 B CN111914950 B CN 111914950B CN 202010846633 A CN202010846633 A CN 202010846633A CN 111914950 B CN111914950 B CN 111914950B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- variation
- initial
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像检索文本的跨模态检索模型训练方法、基于文本检索图像的跨模态检索模型训练方法、及基于深度对偶变分哈希的无监督跨模态检索模型训练方法。解决了跨模态检索精确度低的技术问题,提高了跨模态检索的精确性。
Description
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于图像检索文本的跨模态检索模型训练方法、基于文本检索图像的跨模态检索模型训练方法、及基于深度对偶变分哈希的无监督跨模态检索模型训练方法。
背景技术
随着信息技术的飞速发展,检索引擎和社交网络中图像、文本等多媒体数据呈爆炸式增长。多媒体数据数量的增长,相应的也增加了多媒体数据检索的难度。如何从海量的多媒体数据中精确地检索到所需的结果,是当前检索领域的重点研究课题。
跨模态检索是指通过一个模态的数据检索另一个模态的数据的检索技术。常见的跨模态检索有以图搜文本、以文本搜图等。目前,最常使用的跨模态检索方法是哈希方法,它可以将高维数据压缩成二进制码,并在汉明空间内检索最近邻的对象作为检索结果。
在跨模态检索中,同一目标的不同模态数据扮演着互补的角色,但是目前哈希方法不能有效地利用不同模态数据之间的关联性,导致不能得到高精度的检索结果。
发明内容
本申请实施例通过提供一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法,旨在提高跨模态检索的精确性。
为实现上述目的,本申请实施例提供了一种基于图像检索文本的跨模态检索模型训练方法,包括:
获取图像文本对的训练集;
对每一图像文本对,提取初始图像特征与初始文本特征;
将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征,得到具有语义保留的图像二进制码;
将所述具有语义保留的图像二进制码进行解码重构为中间文本特征;
将所述初始图像特征通过文本变分映射嵌入所述中间文本特征,得到具有视觉引导的文本二进制码;
将所述具有视觉引导的文本二进制码解码重构为最终图像特征;
根据所述初始图像特征和最终图像特征的一致性定义一致性损失函数,并根据所述一致性损失函数优化模型。
在一实施例中,所述将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征,得到具有语义保留的图像二进制码,包括:
通过所述视觉变分映射获取所述初始文本特征的高斯文本潜变量;
将所述高斯文本潜变量与所述初始图像特征级连,并送入所述视觉变分映射的哈希层,以得到所述具有语义保留的图像二进制码,获取所述具有的语义保留的图像二进制码的函数为:
在一实施例中,所述基于图像检索文本的跨模态检索模型训练方法还包括:
根据所述初始文本特征和所述中间文本特征的一致性、及所述高斯文本潜变量的后验分布与先验分布的一致性,定义基于视觉变分映射的变分损失函数,并根据所述基于视觉变分映射的变分损失函数优化所述视觉变分映射,所述基于视觉变分映射的变分损失函数为:
其中,为基于视觉变分映射的变分损失函数;是文本变分映射的编码器ET的参数;是文本解码器DT的参数;是数学期望;Pdata(FI,FT)是数据分布特征;是在FT下zT的后验概率分布;是在zT,FI下FT的后验概率分布;P(zT)是zT的分布;DKL用于计算KL散度。
为实现上述目的,本申请实施例还提出一种基于文本检索图像的跨模态检索模型训练方法,包括:
获取图像文本对的训练集;
对每一图像文本对,提取初始图像特征与初始文本特征;
将所述初始图像特征通过文本变分映射嵌入所述初始文本特征,得到具有视觉引导的文本二进制码;
将所述具有视觉引导的文本二进制码进行解码重构为中间图像特征;
将所述初始文本特征通过视觉变分映射嵌入所述中间图像特征,得到具有语义保留的图像二进制码;
将所述具有语义保留的图像二进制码解码重构为最终文本特征;
根据所述初始文本特征和最终文本特征的一致性,优化模型。
在一实施例中,所述将所述初始图像特征通过文本变分映射嵌入所述初始文本特征,得到具有视觉引导的文本二进制码,包括:
通过所述文本变分映射获取所述初始图像特征的高斯图像潜变量;
将所述高斯图像潜变量与初始文本特征级连,并送入所述文本变分映射的哈希层,以得到所述具有视觉引导的文本二进制码,获取所述具有视觉引导的文本二进制码的函数为:
在一实施例中,所述基于文本检索图像的跨模态检索模型训练方法还包括:
根据所述初始图像特征和所述中间图像特征的一致性、及所述高斯图像潜变量的后验分布与先验分布的一致性,定义基于文本变分映射的变分损失函数,并根据所述基于文本变分映射的变分损失函数优化所述文本变分映射,所述基于文本变分映射的变分损失函数为:
其中,为基于文本变分映射的变分损失函数;是视觉变分映射的编码器EI的参数;是图像解码器DI的参数;是数学期望;Pdata(FT,FI)是数据分布特征;是在FI下zI的后验概率分布;是在zI,FT下FI的后验概率分布;P(zI)是zI的分布;DKL用于计算KL散度。
为实现上述目的,本申请实施例还提出一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法,其特征在于,包括如上述任一项所述的基于图像检索文本的跨模态检索模型训练方法训练,及如上述任一项所述的基于文本检索图像的跨模态检索模型训练方法训练,其中,
所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括:
根据基于视觉变分映射的变分损失函数及基于文本变分映射的变分损失函数,定义变分目标函数,并根据所述变分目标函数同时优化视觉变分映射和文本变分映射,所述变分目标函数为:
其中,为变分目标函数;为基于视觉变分映射的变分损失函数;是文本变分映射的编码器ET的参数;是文本解码器DT的参数;为基于文本变分映射的变分损失函数;是视觉变分映射的编码器EI的参数;是图像解码器DI的参数。
在一实施例中,所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法,还包括:
将所述视觉变分映射和所述文本变分映射组成对偶学习框架,基于初始图像特征和最终图像特征的一致性、及初始文本特征和最终文本特征的一致性,定义循环一致性损失函数,并根据所述循环一致性损失函数优化模型,所述循环一致性损失函数为:
其中,为循环一致性损失函数;是数学期望;Pdata(FT,FI)是数据分布特征;是在FI下zI的后验概率分布;DI是图像解码器;FT1是中间文本特征;是在FT下zT的后验概率分布;DT是文本解码器;FI1是中间图特征。
在一实施例中,所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法,还包括:
获取所述训练集中同一类型的图像文本对;
获取所述同一类型的图像文本对中所有初始图像特征和所有文本特征之间的第一相似性关系;
获取所述同一类型的图像文本对所对应的所有文本二进制码与所有图像二进制码之间的第二相似性关系;
根据所述第一相似性关系和所述第二相似性关系的一致性,定义跨模态语义损失函数,并根据所述跨模态语义损失函数优化模型。
在一实施例中,所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法,所述跨模态语义损失函数为:
S=λSI+(1-λ)ST,
其中,为跨模态语义损失函数;S是图像相似度矩阵SI和文本相似度矩阵ST的线性叠加;λ是超参数;ΨIT=cos(BI,BT);用于学习模态间的语义相似性关系;ΨII=cos(BI,BI);用于学习图像模态内的语义相似性关系;ΨTT=cos(BT,BT);用于学习文本模态内的语义相似性关系;
所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括:
根据所述变分目标函数、所述循环一致性损失函数及所述跨模态语义损失函数获得最终目标函数,并根据所述最终目标函数优化模型,所述最终目标函数为:
本申请的基于图像检索文本的跨模态检索模型训练方法,通过视觉变分映射将初始文本特征嵌入初始图像特征,以得到具有语义保留的图像二进制码,再通过文本变分映射将初始图像特征嵌入解码图像二进制码得到的中间文本特征,得到具有视觉引导的文本二进制码,再解码该文本二进制码而得到了最终图像特征,最后根据初始图像特征和最终图像特征的一致性优化模型,如此,可使训练后得到的模型能够充分融合多模态数据信息,进而在进行跨模态检索时,能够生成高精度的图像二进制码,从而能够提高基于图像检索文本的跨模态检索的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明基于图像检索文本的跨模态检索模型训练方法一实施例的流程示意图;
图2为本发明基于文本检索图像的跨模态检索模型训练方法一实施例的流程示意图;
图3为本发明基于深度对偶变分哈希的无监督跨模态检索模型训练方法一实施例的流程示意图。
图4为本发明基于深度对偶变分哈希的无监督跨模态检索模型训练方法的整体框架图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明提出一种基于图像检索文本的跨模态检索模型训练方法,旨在提高以图像检索文本的跨模态检索的精确性。
如图1所示,在一实施例中,本发明的基于图像检索文本的跨模态检索模型训练方法,包括:
S110、获取图像文本对的训练集。
具体而言,该图像文本对的训练集是指该训练集的中图像文本指向同一对象,而呈一一对应的关系,即一对图像文本对中的图像与文本在跨模态检索中,能够相互检索出彼此。
S120、对每一图像文本对,提取初始图像特征与初始文本特征。
具体而言,图像文本对是对应的图像和文本组成,因此,可分别提取图像文本中图像的初始图像特征FI、及文本的初始文本特征FT,该初始图像特征和初始文本特征是指图像文本对中的图像和文本未经编译前的特征。具体地,可通过卷积神经网络(如Alexnet网络)提取初始图像特征FI,通过词嵌入方法(例如词袋模型)提取初始文本特征FT。
S130、将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征,得到具有语义保留的图像二进制码。
具体而言,在得到一个图像文本对中的初始图像特征FI和初始文本特征FT后,可通过视觉变分映射将初始文本特征FT嵌入到初始图像特征FI中,进而得到具有语义保留的图像二进制码BI。如此,可使图像模态数据的特征和文本模态数据的特征相互融合,以使生成的具有语义保留的图像二进制码BI更具鉴别力。
S140、将所述具有语义保留的图像二进制码进行解码重构为中间文本特征。
具体而言,在得到上述具有语义保留的图像二进制码BI后,可通过设置于视觉变分映射后的文本解码器DT,将该具有语义保留的图像二进制码BI解码重构为中间文本特征FT1。由于具有语义保留的图像二进制码BI通过将初始文本特征FT嵌入到初始图像特征FI得到,因此,解码得到的中间文本特征FT1与初始文本特征FT具有一致性。
S150、将所述初始图像特征通过文本变分映射嵌入所述中间文本特征,得到具有视觉引导的文本二进制码。
具体而言,在得到重构后的中间文本特征FT1后,基于该中间文本特征FT1和初始文本特征FT具有一致性的特点,可通过文本变分映射将初始图像特征FI嵌入到中间文特征FT1中,以得到具有视觉引导的文本二进制码BT。该具有视觉引导的文本二进制码BT,进一步地融合了图像模态和文本模态的数据特征。
S160、将所述具有视觉引导的文本二进制码解码重构为最终图像特征。
具体而言,在得到具有视觉引导的文本二进制码BT后,可通过设置于文本变分映射后的图像解码器DI,将该具有视觉引导的文本二进制码BT解码重构为最终图像特征FI2。由于该具有视觉引导的文本二进制码BT通过将初始图像特征FI嵌入中间文本特征FT1中得到,因此,理论上解码所得到最终图像特征FI2与初始图像特征FI之间应该具有一致性。
S170、根据所述初始图像特征和最终图像特征的一致性定义一致性损失函数,并根据所述一致性损失函数优化模型。
具体而言,基于最终图像特征FI2与初始图像特征FI之间一致性,可定义一致性损失函数。由于该一致性损失函数基于最终图像特征FI2与初始图像特征FI之间的一致性得到,因此可用于优化模型中的视觉变分映射,进而优化模型(基于图像检索文本的跨模态检索模型)。可以理解,通过该一致性损失函数反向优化视觉变分映射,能够提高视觉变分映射所生成的图像二进制码的精度。如此,在使用基于图像检索文本的跨模态检索模型进行图像到文本的跨模态检索时,能够生成高精度的图像二进制码以用于检索,从而能够检索到更符合期望的结果,而提高基于图像检索文本的跨模态检索的精确性。
具体地,所述一致性损失函数为:
其中,为一致性损失函数;是数学期望;Pdata(FI,FT)是数据分布特征;是在FI下zI的后验概率分布;FT为初始文本特征;FI为初始图像特征;zI为初始图像特征FI在文本变分映射中的高斯图像潜变量;FT1为中间文本特征。
可以理解,本申请的基于图像检索文本的跨模态检索模型训练方法,通过视觉变分映射将初始文本特征嵌入初始图像特征,以得到具有语义保留的图像二进制码,再通过文本变分映射将初始图像特征嵌入解码图像二进制码得到的中间文本特征,得到具有视觉引导的文本二进制码,再解码该文本二进制码而得到了最终图像特征,最后根据初始图像特征和最终图像特征的一致性优化模型,如此,可使训练后得到的模型能够充分融合多模态数据信息,进而在进行跨模态检索时,生成高精度的图像二进制码,从而能够提高基于图像检索文本的跨模态检索的精确性。
在一实施例中,所述将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征,得到具有语义保留的图像二进制码,包括:
S131、通过所述视觉变分映射获取所述初始文本特征的高斯文本潜变量。
具体而言,视觉变分映射中的编码器将初始文本特征FT通过全连接层嵌入到高维空间,以得到高斯文本潜变量zT。
S132、将所述高斯文本潜变量与所述初始图像特征级连,并送入所述视觉变分映射的哈希层,以得到所述具有语义保留的图像二进制码,获取所述具有的语义保留的图像二进制码的函数为:
具体而言,通过将高斯文本潜变量zT与初始图像特征FI级连,能够充分融合多模态信息,最后通过视觉变分映射的哈希层对多模态特征进行编码,而得到具有语义保留的图像二进制码BI。
值得说明的是,基于与得到图像二进制码BI基本相同方式,可以通过文本变分映射得到初始图像特征FI的高斯图像潜变量zI,并将该高斯图像潜变量zI与中间文本特征FT1级连,再经过文本变分映射的哈希层编码而得到具有视觉引导的文本二进制码。
在一实施例中,所述基于图像检索文本的跨模态检索模型训练方法还包括:
根据所述初始文本特征和所述中间文本特征的一致性、及所述高斯文本潜变量的后验分布与先验分布的一致性,定义基于视觉变分映射的变分损失函数,并根据所述基于视觉变分映射的变分损失函数优化所述视觉变分映射,所述基于视觉变分映射的变分损失函数为:
其中,为基于视觉变分映射的变分损失函数;是文本变分映射的编码器ET的参数;是文本解码器DT的参数;是数学期望;Pdata(FI,FT)是数据分布特征;是在FT下zT的后验概率分布;是在zT,FI下FT的后验概率分布;P(zT)是zT的分布;DKL用于计算KL散度。
具体而言,在基于视觉变分映射的变分损失函数中,前者为重构损失,可保证文本特征编码前解码后的一致性,后者为KL散度损失,能够保证生成的高斯文本潜变量zT的后验分布和先验分布的一致性。通过基于视觉变分映射的变分损失函数,能够进一步捕获文本模态的流形结构,提升图像二进制码对重要互补信息的敏感程度,进而提高多模态数据信息的融合程度,以获得精度更高的图像二进制码,进而提高跨模态检索的精度。
值得说明的是,变分映射模型及其后的解码器(如视觉变分映射和文本解码器DT,文本变分映射和图像解码器DI)构成了条件自编码器结构(CVAE)。由于CVAE等其他方法生成的图像很容易模糊和缺乏多样性。因此,我们只在特征空间执行编码和解码操作,以避免模型难以收敛。此外,上述基于视觉变分映射的变分损失函数与CVAE的目标函数之间的主要区别是基于视觉变分映射的变分损失函数的潜在嵌入只与单模态文本特征有关,这样能够减少模型训练的难度。
此外,本发明还提出一种基于文本检索图像的跨模态检索模型训练方法,旨在提高以文本检索图像的跨模态检索的精确性。
如图2所示,在一实施例中,本发明的基于文本检索图像的跨模态检索模型训练方法,包括如下步骤:
S210、获取图像文本对的训练集。
具体而言,该图像文本对的训练集是指该训练集的中图像文本对呈一一对应的关系,即一对图像文本对中的图像与文本在跨模态检索中,能够相互检索出彼此。
S220、对每一图像文本对,提取初始图像特征与初始文本特征。
具体而言,图像文本对是对应的图像和文本组成,因此,可分别提取图像文本中图像的初始图像特征FI、及文本的初始文本特征FT,该初始图像特征和初始文本特征是指图像文本对中的图像和文本未经编译前的特征。具体地,可通过卷积神经网络(如Alexnet网络)提取初始图像特征FI,通过词嵌入方法(例如词袋模型)提取初始文本特征FT。
S230、将所述初始图像特征通过文本变分映射嵌入所述初始文本特征,得到具有视觉引导的文本二进制码。
具体而言,在得到一个图像文本对中的初始图像特征FI和初始文本特征FT后,可通过文本变分映射将初始图像特征FI嵌入到初始文本特征FT中,进而得到具有视觉引导的文本二进制码BT。如此,可使图像模态数据的特征和文本模态数据的特征相互融合,以使生成的具有视觉引导的文本二进制码BT更具鉴别力。
S240、将所述具有视觉引导的文本二进制码进行解码重构为中间图像特征。
具体而言,在得到上述具有视觉引导的文本二进制码BT后,可通过设置于文本变分映射的图像解码器DI,将该具有视觉引导的文本二进制码BT解码重构为中间图像特征FI1。由于具有视觉引导的文本二进制码BT通过将初始图像特征FI嵌入初始文本特征FT得到,因此,解码得到的中间图像特征FI1与初始图像特征FI具有一致性。
S250、将所述初始文本特征通过视觉变分映射嵌入所述中间图像特征,得到具有语义保留的图像二进制码。
具体而言,在得到重构后的中间图像特征FI1后,基于该中间图像特征FI1和初始图像特征FI具有一致性的特点,可通过视觉变分映射将初始文本特征FT嵌入到中间图像特征FI1中,以得到具有语义保留的图像二进制码BI。该具有语义保留的图像二进制码BI,进一步地融合了图像模态和文本模态的数据特征。
S260、将所述具有语义保留的图像二进制码解码重构为最终文本特征。
具体而言,在得到具有语义保留的图像二进制码BI后,可通过设置于视觉变分映射后的文本解码器DT,将该具有语义保留的图像二进制码BI解码重构为最终文本特征FT2。由于该最终文本特征FT2通过将初始文本特征FT嵌入中间图像特征FI1中得到,因此,理论上解码所得到最终文本特征FT2与初始文本特征FT之间应该具有一致性。
S270、根据所述初始文本特征和最终文本特征的一致性定义一致性损失函数,并根据所述一致性损失函数优化模型。
具体而言,基于最终文本特征FT2与初始文本特征FT之间一致性,可定义一致性损失函数。由于该一致性损失函数基于最终文本特征FT2与初始文本特征FT之间的一致性得到,因此可用于优化模型中的文本变分映射,进而优化模型(基于文本检索图像的跨模态检索模型)。可以理解,通过该一致性损失函数反向优化文本变分映射,能够提高文本变分映射所生成的文本二进制码的精度。如此,在使用基于文本检索图像的跨模态检索模型进行文本到图像的跨模态检索时,能够生成高精度的文本二进制码以用于检索,从而能够检索到更符合期望的结果,而提高了基于文本检索图像的跨模态检索的精确性。
具体地,所述一致性损失函数为:
其中,为一致性损失函数;是数学期望;Pdata(FT,FI)是数据分布特征;是在FT下zT的后验概率分布;FT为初始文本特征;FI为初始图像特征;zT为初始文本特征FT在视觉变分映射中的高斯文本潜变量;FI1为中间图像特征。
可以理解,本申请的基于文本检索图像的跨模态检索模型训练方法,通过文本变分映射将初始图像特征嵌入初始文本特征,以得到具有视觉引导的文本二进制码,再通过视觉变分映射将初始文本特征嵌入解码文本二进制码得到的中间图像特征,得到具有语义保留的图像二进制码,再解码该图像二进制码而得到了最终文本特征,最后根据初始文本特征和最终文本特征的一致性优化模型,如此,可使训练后得到的模型能够充分融合多模态数据信息,进而在进行跨模态检索时,生成高精度的文本二进制码,从而能够提高基于文本检索图像的跨模态检索的精确性。
在一实施例中,所述将所述初始图像特征通过文本变分映射嵌入所述初始文本特征,得到具有视觉引导的文本二进制码,包括:
S231、通过所述文本变分映射获取所述初始图像特征的高斯图像潜变量。
具体而言,文本变分映射中的编码器将初始图像特征FI通过全连接层嵌入到高维空间,以得到高斯图像潜变量zI。
S232、将所述高斯图像潜变量与初始文本特征级连,并送入所述文本变分映射的哈希层,以得到所述具有视觉引导的文本二进制码,获取所述具有视觉引导的文本二进制码的函数为:
具体而言,通过将高斯图像潜变量zI与初始文本特征FT级连,能够充分融合多模态信息,最后通过文本变分映射的哈希层对多模态特征进行编码,而得到具有视觉引导的文本二进制码BT。
值得说明的是,基于与得到文本二进制码BT基本相同方式,可以通过视觉变分映射得到初始文本特征FT的高斯文本潜变量zT,并将该高斯文本潜变量zT与中间图像特征FI1级连,再经过视觉变分映射的哈希层编码而得到具有语义保留的文本二进制码。
在一实施例中,所述基于文本检索图像的跨模态检索模型训练方法还包括:
根据所述初始图像特征和所述中间图像特征的一致性、及所述高斯图像潜变量的后验分布与先验分布的一致性,定义基于文本变分映射的变分损失函数,并根据所述基于文本变分映射的变分损失函数优化所述文本变分映射,所述基于文本变分映射的变分损失函数为:
其中,为基于文本变分映射的变分损失函数;是视觉变分映射的编码器EI的参数;是图像解码器DI的参数;是数学期望;Pdata(FT,FI)是数据分布特征;是在FI下zI的后验概率分布;是在zI,FT下FI的后验概率分布;P(ZI)是zI的分布;DKL用于计算KL散度。
具体而言,在基于文本变分映射的变分损失函数中,前者为重构损失,可保证图像特征编码前解码后的一致性,后者为KL散度损失,能够保证生成的高斯图像潜变量zI的后验分布和先验分布的一致性。通过基于文本变分映射的变分损失函数,能够进一步捕获图像模态的流形结构,提升文本二进制码对重要互补信息的敏感程度,进而提高多模态数据信息的融合程度,以获得精度更高的文本二进制码,进而提高跨模态检索的精度。
值得说明的是,变分映射模型及其后的解码器(如视觉变分映射和文本解码器DT,文本变分映射和图像解码器DI)构成了条件自编码器结构(CVAE)。由于CVAE等其他方法生成的文本很容易模糊和缺乏多样性。因此,我们只在特征空间执行编码和解码操作,以避免模型难以收敛。此外,上述基于文本变分映射的变分损失函数与CVAE的目标函数之间的主要区别是基于文本变分映射的变分损失函数的潜在嵌入只与单模态图像特征有关,这样能够减少模型训练的难度。
此外,本发明还提出一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法,以提高跨模态检索的精度。
如图3所示,在一实施例中,本发明的基于深度对偶变分哈希的无监督跨模态检索模型训练方法包括上述任一实施例所述的基于图像检索文本的跨模态检索模型训练方法训练,及如上述任一实施例所述的基于文本检索图像的跨模态检索模型训练方法训练,其中,
所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括:
根据基于视觉变分映射的变分损失函数及基于文本变分映射的变分损失函数,定义变分目标函数,并根据所述变分目标函数以同时优化视觉变分映射和文本变分映射,所述变分目标函数为:
其中,为变分目标函数;为基于视觉变分映射的变分损失函数;是文本变分映射的编码器ET的参数;是文本解码器DT的参数;为基于文本变分映射的变分损失函数;是视觉变分映射的编码器EI的参数;是图像解码器DI的参数。
可以理解,本申请的基于深度对偶变分哈希的无监督跨模态检索模型训练方法通过结合基于图像检索文本的跨模态检索模型训练方法和基于文本检索图像的跨模态检索模型训练方法,能够同时提高模型(该模型为基于深度对偶变分哈希的无监督跨模态检索模型,该模型通过结合基于图像检索文本的跨模态检索模型和基于文本检索图像的跨模态检索模型得到)在跨模态检索中,基于图片检索文本和基于文本检索图本的精确性。并且,通过上述变分目标函数,模型能够进一步捕获其他模态数据的流形结构,进而提高二进制码对其他模态互补信息的敏感性,以进一步提高跨模态检索的精度。
在一实施例中,上述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括:将所述视觉变分映射和所述文本变分映射组成对偶学习框架,基于初始图像特征和最终图像特征的一致性、及初始文本特征和最终文本特征的一致性,定义循环一致性损失函数,并根据所述循环一致性损失函数优化模型,所述循环一致性损失函数为:
其中,为循环一致性损失函数;是数学期望;Pdata(FT,FI)是数据分布特征;是在FI下zI的后验概率分布;DI是图像解码器;FT1是中间文本特征;是在FT下zT的后验概率分布;DT是文本解码器;FI1是中间图特征。
具体而言,由于视觉变分映射和文本解码器DT组成的CVAE能够将初始图像特征FI重建为中间文本特征FT1,而文本变分映射和图像解码器DI组成的CVAE能够将初始文本特征FT重建为中间图像特征FI1,基于对偶学习,我们可将重建后的中间文本(图像)特征,再次输入文本变分映射和图像解码器DI(视觉变分映射和文本解码器DT)组成的CVAE,得到二次重建的最终图像(文本)特征。也就是说,文本变分映射和视觉变分映射能够组成对偶学习框架,从而使模型(基于深度对偶变分哈希的无监督跨模态检索模型)能够在多模态上实现闭环训练,进而能够进一步帮助两个变分映射互相学习,达到更好的检索效果。
如图3所示,在一实施例中,上述基于深度对偶变分哈希的无监督跨模态检索模型训练方法,还包括:
S310、获取所述训练集中同一类型的图像文本对。
具体而言,训练集中同一类型的图像文本对是指属于同一类别的图像文本对,如,当多个图像文本对的描述均与音乐相关时,则可认为这多个图像文本对均属于音乐类。其他类别还包括但不限于战争、生物、运动等。
S320、获取所述同一类型的图像文本对中所有初始图像特征和所有文本特征之间的第一相似性关系。
具体而言,在确定同一类型的图像文本对后,获取同一类别的图像文本对中所有图像文本对的初始图像特征FI和初始文本特征FT的第一相似性关系。具体地,对于同一批次n个初始图像特征FI,我们首先对特征进行L2归一化,然后计算特征之间的内积得到大小为n*n的图像相似性矩阵SI。再以同样的方式得到n个文本相似性矩阵ST。矩阵中数值越大,我们认为该批次两个数据越相似。通过两个相似度矩阵,我们可以得到同一类型的n个初始图像特征FI和n个初始文本特征FT的模态间的第一相似性关系。
S330、获取所述同一类型的图像文本对所对应的所有的文本二进制码与所有具有图像二进制码之间的第二相似性关系。
具体而言,通过文本变分映射和视觉变分映射,我们可以得到同一类型的n个图像文本对所对应的n个文本二进制码BT和n个图像二进制码BI。进而建立n个文本二进制码BT的文本相似性矩阵,及n个图像二进制码BI的图像相似性矩阵,再通过上述文本二进制码BT的文本相似性矩阵和图像二进制码BI的图像相似性矩阵,得到文本二进制码BT与图像二进制码BI的模态间的第二相似性关系。
S340、根据所述第一相似性关系和所述第二相似性关系的一致性,定义跨模态语义损失函数,并根据所述跨模态语义损失函数优化模型。
具体而言,由于初始图像特征FI和图像二进制码BI,初始文本特征FT和文本二进制码BT之间存在对应关系,因此图像二进制码BI与文本二进制码BT之间的第二相似性关系,应与初始文本特征FT和初始图像特征FI的第一相似性关系保持一致,因此可以基于该一致性,定义跨模态语义损失函数,并根据该跨模态语义损失函数优化模型。这样,模型通过学习相似性关系,使得多媒体数据越相似,数据生成的二进制码在汉明空间中距离越小,越容易检索到符合期望的结果,即可以进一步提高跨模态检索的精度。
具体地,所述跨模态语义损失函数为:
S=λSI+(1-λ)ST,
其中,是模态间语义函数;S是图像相似度矩阵SI和文本相似度矩阵ST的线性叠加;λ是超参数;ΨIT=cos(BI,BT);用于学习模态间的语义相似性关系;ΨII=cos(BI,BI);用于学习图像模态内的语义相似性关系;ΨTT=cos(BT,BT);用于学习文本模态内的语义相似性关系。
在一实施例中,上述基于深度对偶变分哈希的无监督跨模态检索模型训练方法,还包括:
根据所述变分目标函数、所述循环一致性损失函数及所述跨模态语义损失函数获得最终目标函数,并根据所述最终目标函数优化模型,所述最终目标函数为:
可以理解,通过上述最终目标函数,能够系统性的训练模型,以提升模型的跨模态检索精度。
结合图4所示,本发明的基于深度对偶变分哈希的无监督跨模态检索模型训练方法的对模型的训练流程如下:
1.获取训练集D;
2.从所述训练集中在一个批次内采样n个图像-文本对;
3.根据n个图像特征计算相似度矩阵SI,n个文本特征计算相似度矩阵ST,然后将两个相似度矩阵叠加起来得到总的相似度矩阵S;
4.模型计算二进制码BI和BT、中间图像特征FI1、最终图像特征FI2,中间文本特征FT1、及最终文本特征FT2;
5.计算变分损失,循环一致性损失,和跨模态语义损失;
6.通过反向传播更新模型的全部参数。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于图像检索文本的跨模态检索模型训练方法,其特征在于,包括:
获取图像文本对的训练集;
对每一图像文本对,提取初始图像特征与初始文本特征;
将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征,得到具有语义保留的图像二进制码;
将所述具有语义保留的图像二进制码进行解码重构为中间文本特征;
将所述初始图像特征通过文本变分映射嵌入所述中间文本特征,得到具有视觉引导的文本二进制码;
将所述具有视觉引导的文本二进制码解码重构为最终图像特征;
根据所述初始图像特征和最终图像特征的一致性定义一致性损失函数,并根据所述一致性损失函数优化模型。
3.如权利要求2所述的基于图像检索文本的跨模态检索模型训练方法,其特征在于,所述基于图像检索文本的跨模态检索模型训练方法还包括:
根据所述初始文本特征和所述中间文本特征的一致性、及所述高斯文本潜变量的后验分布与先验分布的一致性,定义基于视觉变分映射的变分损失函数,并根据所述基于视觉变分映射的变分损失函数优化所述视觉变分映射,所述基于视觉变分映射的变分损失函数为:
4.一种基于文本检索图像的跨模态检索模型训练方法,其特征在于,包括:
获取图像文本对的训练集;
对每一图像文本对,提取初始图像特征与初始文本特征;
将所述初始图像特征通过文本变分映射嵌入所述初始文本特征,得到具有视觉引导的文本二进制码;
将所述具有视觉引导的文本二进制码进行解码重构为中间图像特征;
将所述初始文本特征通过视觉变分映射嵌入所述中间图像特征,得到具有语义保留的图像二进制码;
将所述具有语义保留的图像二进制码解码重构为最终文本特征;
根据所述初始文本特征和最终文本特征的一致性,优化模型。
6.如权利要求5所述的基于文本检索图像的跨模态检索模型训练方法,其特征在于,所述基于文本检索图像的跨模态检索模型训练方法还包括:
根据所述初始图像特征和所述中间图像特征的一致性、及所述高斯图像潜变量的后验分布与先验分布的一致性,定义基于文本变分映射的变分损失函数,并根据所述基于文本变分映射的变分损失函数优化所述文本变分映射,所述基于文本变分映射的变分损失函数为:
7.一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法,其特征在于,包括如权利要求1至3中任一项所述的基于图像检索文本的跨模态检索模型训练方法训练,及如权利要求4至6中任一项所述的基于文本检索图像的跨模态检索模型训练方法训练,其中,
所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括:
根据基于视觉变分映射的变分损失函数及基于文本变分映射的变分损失函数,定义变分目标函数,并根据所述变分目标函数同时优化视觉变分映射和文本变分映射,所述变分目标函数为:
8.如权利要求7所述的基于深度对偶变分哈希的无监督跨模态检索模型训练方法,其特征在于,还包括:
将所述视觉变分映射和所述文本变分映射组成对偶学习框架,基于初始图像特征和最终图像特征的一致性、及初始文本特征和最终文本特征的一致性,定义循环一致性损失函数,并根据所述循环一致性损失函数优化模型,所述循环一致性损失函数为:
9.如权利要求8所述的基于深度对偶变分哈希的无监督跨模态检索模型训练方法,其特征在于,还包括:
获取所述训练集中同一类型的图像文本对;
获取所述同一类型的图像文本对中所有初始图像特征和所有文本特征之间的第一相似性关系;
获取所述同一类型的图像文本对所对应的所有文本二进制码与所有图像二进制码之间的第二相似性关系;
根据所述第一相似性关系和所述第二相似性关系的一致性,定义跨模态语义损失函数,并根据所述跨模态语义损失函数优化模型。
10.如权利要求9所述的基于深度对偶变分哈希的无监督跨模态检索模型训练方法,其特征在于,所述跨模态语义损失函数为:
S=λSI+(1-λ)ST,
其中,为跨模态语义损失函数;S是图像相似度矩阵SI和文本相似度矩阵ST的线性叠加;λ是超参数;ΨIT=cos(BI,BT),其中,BI为具有语义保留的图像二进制码,BT为具有视觉引导的文本二进制码;用于学习模态间的语义相似性关系;ΨII=cos(BI,BI);用于学习图像模态内的语义相似性关系;ΨTT=cos(BT,BT);用于学习文本模态内的语义相似性关系;
所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括:
根据所述变分目标函数、所述循环一致性损失函数及所述跨模态语义损失函数获得最终目标函数,并根据所述最终目标函数优化模型,所述最终目标函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010846633.XA CN111914950B (zh) | 2020-08-20 | 2020-08-20 | 基于深度对偶变分哈希的无监督跨模态检索模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010846633.XA CN111914950B (zh) | 2020-08-20 | 2020-08-20 | 基于深度对偶变分哈希的无监督跨模态检索模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914950A CN111914950A (zh) | 2020-11-10 |
CN111914950B true CN111914950B (zh) | 2021-04-16 |
Family
ID=73278541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010846633.XA Active CN111914950B (zh) | 2020-08-20 | 2020-08-20 | 基于深度对偶变分哈希的无监督跨模态检索模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914950B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010697B (zh) * | 2021-03-23 | 2022-09-20 | 华南理工大学 | 用于无监督跨模态检索的充分场景表达生成方法 |
CN112836068B (zh) * | 2021-03-24 | 2023-09-26 | 南京大学 | 一种基于带噪标签学习的无监督跨模态哈希检索方法 |
CN113449849B (zh) * | 2021-06-29 | 2022-05-27 | 桂林电子科技大学 | 基于自编码器的学习型文本哈希方法 |
CN116595343B (zh) * | 2023-07-17 | 2023-10-03 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885111B2 (en) * | 2018-04-16 | 2021-01-05 | International Business Machines Corporation | Generating cross-domain data using variational mapping between embedding spaces |
CN109271486B (zh) * | 2018-09-19 | 2021-11-26 | 九江学院 | 一种相似性保留跨模态哈希检索方法 |
CN109299216B (zh) * | 2018-10-29 | 2019-07-23 | 山东师范大学 | 一种融合监督信息的跨模态哈希检索方法和系统 |
CN109784405B (zh) * | 2019-01-16 | 2020-09-08 | 山东建筑大学 | 基于伪标签学习和语义一致性的跨模态检索方法及系统 |
CN111461157B (zh) * | 2019-01-22 | 2022-11-18 | 大连理工大学 | 一种基于自学习的跨模态哈希检索方法 |
CN111460077B (zh) * | 2019-01-22 | 2021-03-26 | 大连理工大学 | 一种基于类语义引导的跨模态哈希检索方法 |
CN109886326B (zh) * | 2019-01-31 | 2022-01-04 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN110597878B (zh) * | 2019-09-16 | 2023-09-15 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110909181A (zh) * | 2019-09-30 | 2020-03-24 | 中国海洋大学 | 一种面向多类型海洋数据的跨模态检索方法及系统 |
CN111324765A (zh) * | 2020-02-07 | 2020-06-23 | 复旦大学 | 基于深度级联跨模态相关性的细粒度草图图像检索方法 |
CN111310648B (zh) * | 2020-02-13 | 2023-04-11 | 中国科学院西安光学精密机械研究所 | 基于解纠缠表达学习的跨模态生物特征匹配方法及系统 |
CN111368176B (zh) * | 2020-03-02 | 2023-08-18 | 南京财经大学 | 基于监督语义耦合一致的跨模态哈希检索方法及系统 |
CN111460201B (zh) * | 2020-03-04 | 2022-09-23 | 南京邮电大学 | 一种基于生成性对抗网络的模态一致性跨模态检索方法 |
-
2020
- 2020-08-20 CN CN202010846633.XA patent/CN111914950B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111914950A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914950B (zh) | 基于深度对偶变分哈希的无监督跨模态检索模型训练方法 | |
US11657230B2 (en) | Referring image segmentation | |
WO2021223567A1 (zh) | 内容处理方法、装置、计算机设备和存储介质 | |
Santa Cruz et al. | Visual permutation learning | |
JP7457125B2 (ja) | 翻訳方法、装置、電子機器及びコンピュータプログラム | |
CN111563192B (zh) | 实体对齐方法、装置、电子设备及存储介质 | |
CN104050247A (zh) | 实现海量视频快速检索的方法 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN115080766B (zh) | 基于预训练模型的多模态知识图谱表征系统及方法 | |
CN113127632A (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN109598586A (zh) | 一种基于注意力模型的推荐方法 | |
CN113779219A (zh) | 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法 | |
CN111241310A (zh) | 一种深度跨模态哈希检索方法、设备及介质 | |
CN113870286A (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
CN113157886A (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN115438169A (zh) | 一种文本与视频的互检方法、装置、设备及存储介质 | |
CN114706987A (zh) | 文本类目预测方法、装置、设备、存储介质和程序产品 | |
CN117251622A (zh) | 对象推荐的方法、装置、计算机设备和存储介质 | |
CN116186312A (zh) | 用于数据敏感信息发现模型的多模态数据增强方法 | |
CN115147931A (zh) | 基于detr的人物成对解码交互的人与物交互检测方法 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |