CN109189968B - 一种跨模态检索方法及系统 - Google Patents

一种跨模态检索方法及系统 Download PDF

Info

Publication number
CN109189968B
CN109189968B CN201811008853.4A CN201811008853A CN109189968B CN 109189968 B CN109189968 B CN 109189968B CN 201811008853 A CN201811008853 A CN 201811008853A CN 109189968 B CN109189968 B CN 109189968B
Authority
CN
China
Prior art keywords
features
text
image
modal
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811008853.4A
Other languages
English (en)
Other versions
CN109189968A (zh
Inventor
曹文明
林秋斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201811008853.4A priority Critical patent/CN109189968B/zh
Publication of CN109189968A publication Critical patent/CN109189968A/zh
Priority to PCT/CN2019/078657 priority patent/WO2020042597A1/zh
Application granted granted Critical
Publication of CN109189968B publication Critical patent/CN109189968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于检索技术领域,提供了跨模态检索方法,包括采用堆叠式受限玻尔兹曼机和多模态深度置信网络提取图像和文本各自的模态友好型特征和模态相互型特征,模态友好型特征能够使所获得的特征之间的统计特性方面与输入的更相似,模态相互型特征能够得到在原始输入实例中丢失的相互信息,将两种特征进行融合得到混合特征,通过多个双模态自动编码获得最后的共享特征。本发明实施例利用堆叠式的受限玻尔兹曼机提取各个模态的内部特征,采用深度置信网络挖掘模态之间丢失的相互信息,将两种特征进行融合,构造出适合进行跨模态检索的混合特征,利用多层双模态的自动编码网络挖掘跨模态的复杂信息,有效提高了跨模态检索任务的准确性和检索的速度。

Description

一种跨模态检索方法及系统
技术领域
本发明属于检索技术领域,尤其涉及一种跨模态检索方法及系统。
背景技术
跨模态检索是一种新型的检索方法,其能够检索多模态数据。例如,输入图像,在文本数据库中检索对应的文本;给定文本,在图像数据库中找到相应的图像。
当前,基于深度神经网络的跨模态检索方法主要包含两个步骤:(1)提取各个模态的内部特征以及模态之间的特征;(2)在两个模态之间建立各自的共享特征。但是,在第一步骤中,往往丢失了模态之间的相互信息;在第二步骤中,目前的方法使用的都是比较浅层的网络,难以挖掘跨模态的复杂信息。
发明内容
本发明所要解决的技术问题在于提供一种跨模态检索方法及系统,旨在解决现有技术在进行跨模态检索时丢失模态之间的相互关系,难以挖掘跨模态的复杂信息的问题。
本发明是这样实现的,一种跨模态检索方法,包括:
分别对图像和文本进行预处理,得到图像特征和文本特征;
根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征,及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征;
利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
根据所述共享特征进行跨模态检索。
进一步地,对图像进行预处理,得到图像特征的步骤包括:
采用VGGNet模型提取所述图像FC7层的卷积特征。
进一步地,对文本进行预处理,得到文本特征的步骤包括:
采用bag of words模型提取所述文本1000维的文本特征。
进一步地,所述堆叠式的受限玻尔兹曼机包括三层受限玻尔兹曼机,根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征包括:
利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取所述图像特征和所述文本特征;
利用简单的受限玻尔兹曼机移除所述图像特征和所述文本特征各自模态的特性,以获得高层次的语义特征;
完成堆叠式的受限玻尔兹曼机的训练,得到所述图像的模态友好型特征
Figure BDA0001784591080000021
和所述文本的模态友好型特征
Figure BDA0001784591080000022
进一步地,根据所述图像特征和所述文本特征,利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征包括:
分别采用所述图像和所述文本的深度置信网络提取各自模态的特征;
在顶层采用联合的受限玻尔兹曼机进行模态相互型特征的学习,得到所述图像的模态相互型特征
Figure BDA0001784591080000023
和所述文本的模态相互型特征
Figure BDA0001784591080000024
进一步地,所述利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征包括:
利用联合的自动编码器将所述图像或所述文本各自的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征和所述文本的混合特征;
利用带有softmax层的三层前向神经网络通过有监督学习,挖掘出所述图像和所述文本更有用的混合特征。
进一步地,所述采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征包括:
采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系;
根据所述相互关系进行所述图像和所述文本的跨模态的共享特征的学习,得到所述图像和所述文本的共享特征。
进一步地,在提取共享特征时,双模态自动编码网络的输入维度和输出维度一致,共享特征层的维度是输入维度的一半,从共享特征层中,学习得到最后的跨模态的共享特征。
进一步地,将softmax层与最后的输出层连接,优化所述共享特征。
本发明实施例还提供了一种跨模态检索系统,包括:
预处理单元,用于分别对图像和文本进行预处理,得到图像特征和文本特征;
特征提取单元,用于根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征,及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征;
特征结合单元,用于利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
特征挖掘单元,用于采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
特征检索单元,用于根据所述共享特征进行跨模态检索。
本发明与现有技术相比,有益效果在于:本发明实施例采用堆叠式的受限玻尔兹曼机和多模态的深度置信网络提取图像和文本各自的模态友好型特征和模态相互型特征,其中模态友好型特征能够使所获得的特征之间的统计特性方面比输入实例之间的更相似,而模态相互型特征能够得到在原始输入实例中丢失的相互信息,将所得到的这两种特征进行融合,得到混合特征,进一步通过多个双模态自动编码获得最后的共享特征。本发明实施例利用堆叠式的受限玻尔兹曼机提取各个模态的内部特征,采用多模态的深度置信网络挖掘模态之间丢失的相互信息,将两种特征进行融合,并构造出适合进行跨模态检索的混合特征,利用多层双模态的自动编码网络挖掘跨模态之间的相互关系,从而获得适合跨模态检索的共享特征,有效提高了跨模态检索任务的准确性,提高了检索的速度。
附图说明
图1是本发明实施例提供的一种跨模态检索方法的流程图;
图2是本发明实施例提供的堆叠式的受限玻尔兹曼机的示意图;
图3是本发明实施例提供的多模态的深度置信网络的示意图;
图4是本发明实施例提供的双模态自动编码网络的示意图;
图5是本发明实施例提供的一种跨模态检索系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的一种跨模态检索方法,包括:
S101,分别对图像和文本进行预处理,得到图像特征和文本特征;
S102,根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征,及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征;
S103,利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
S104,采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
S105,根据所述共享特征进行跨模态检索。
下面结合图2到图4对本发明实施例进行进一步地阐述:
一、预处理阶段:
(1)对于图像,采用VGGNet模型对原始图像提取“fc7”层的卷积特征;
(2)对于文本,采用bag of words模型提取1000维的文本特征。
当输入的图片或者文本不同时,其大小、维度是不一致的,因此预处理阶段,对图像和文本进行预处理后分别得到的卷积特征和文本特征是为了获得统一大小的维度特征,如图像是4096,文本是1000。同时,预处理也能够获得图像和文本比较浅层次的特征。
二、模态友好型特征和模态相互型特征的学习:
(1)模态友好型特征学习:
如图2所示,利用堆叠式的受限玻尔兹曼机提取该卷积特征和文本特征的模态友好型特征,以通过堆叠式的受限玻尔兹曼机的提取操作,获得较高层次的特征。在前两层,堆叠式的受限玻尔兹曼机利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取该卷积特征和该文本特征。然后,在第三层,利用简单的受限玻尔兹曼机移除模态各自的特性,从而获得高层次的语义特征,该语义特征即为模态友好型特征,其相对于原始的图像和文本输入具有更好的统计特性。在这包括三层受限玻尔兹曼机进行模态友好型学习的过程中,每一个模态的堆叠式受限玻尔兹曼机的输出概率如下:
Figure BDA0001784591080000061
Figure BDA0001784591080000062
其中,vi、vt分别表示图像特征和文本特征的输入,
Figure BDA0001784591080000063
表示图像通道的第j层隐含层的输出特征,
Figure BDA0001784591080000064
表示文本通道的第j层隐含层的输出特征。
在训练完堆叠式受限玻尔兹曼机之后,能够得到图像的模态友好型特征
Figure BDA0001784591080000065
文本的模态友好型特征
Figure BDA0001784591080000066
其模态友好型特征的统计特性比输入的图像和文本的原始模态的统计特性更相似。具体地,图像和文本的模态友好型特征在统计特性方面这两者之间更相似,统计特性的相似性指的是两种模态之间的,并不是特指某一模态,如输入图像和图像的模态友好型特征之间的统计特性。
在本步骤中,第三层受限玻尔兹曼机的输入是第二层的输出,前两层的输入是预处理步骤中得到的卷积特征或者文本特征,经过本步骤的操作,可以认为第三层移除的是原始图像和原始文本的特性,使得最后的输出特征在统计特性方面的距离更近,更具有一般性。
(2)模态相互型特征学习:
如图3所示,利用多模态的深度置信网络提取该卷积特征和文本特征的模态相互型特征。该多模态的深度置信网络分别采用图像和文本利用自身的深度置信网络提取各自模态的特征,然后在顶层采用联合的受限玻尔兹曼机学习模态相互型特征。例如,在给定文本特征vt的情况下,生成的图像,其条件概率分布如下:
Figure BDA0001784591080000067
Figure BDA0001784591080000071
其中,W表示权重,a表示偏置,σ(x)=1/(1+e-x),将
Figure BDA0001784591080000072
作为图像的模态相互型特征
Figure BDA0001784591080000073
同理,可以得到文本的模态相互型特征
Figure BDA0001784591080000074
三、混合特征学习:
首先,利用联合的自动编码器将模态友好型特征和模态相互型特征结合起来,得到混合特征。例如,对于文本通道,其联合分布如下:
Figure BDA0001784591080000075
其中,v1表示文本的模态友好型特征
Figure BDA0001784591080000076
v2表示文本的模态相互型特征
Figure BDA0001784591080000077
图像通道同理可得其联合分布。
其次,利用一个带有softmax层的三层前向神经网络通过有监督学习,挖掘出更有用的混合特征。具体地,上述其他步骤所有的操作都没有用到标签信息,即都是无标签的学习,又叫无监督学习,而在本步骤中,第一次使用标签信息,也叫有监督学习,将两种特征进行融合的时候,可以得到比较初级的混合特征,其效果相对差一些,然后再通过前向神经网络的处理能够得到更高级、有用的混合特征,其效果有助于提升整个系统的检索结果。
四、跨模态的共享特征学习:
图4为单个双模态自动编码网络,通过采用多个双模态自动编码网络挖掘模态之间的相互关系,从而学习到跨模态的共享特征,其概率分布如下式所示:
Figure BDA0001784591080000078
其中,s表示共享特征,vi表示图像的输入特征,vt表示文本的输入特征。
接着重建图像、文本特征,获得共享特征层,最后生成各自模态的适合跨模态检索的共享特征。其中,在重建图像、文本特征时,双模态自动编码网络的输入维度和输出维度一致,共享特征层的维度是输入维度的一半,从共享特征层中,可以学习到各自模态的共享特征。另外,使用softmax层与最后的输出层连接,从而能够进一步优化学习到的共享特征。通过多个双模态自动编码网络的叠加,可以不断对学习到的共享特征进行降维,这样操作可以使得最终学习到的共享特征维度比较小,从而提高检索的速度。
在图2至图4中,图像通道和文本通道分别指的是预处理过程中得到的图像的卷积特征和文本的文本特征。
本发明实施例还提供了如图5所示的一种跨模态检索系统,包括:
预处理单元501,用于分别对图像和文本进行预处理,得到图像特征和文本特征;
特征提取单元502,用于根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征,及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征;
特征结合单元503,用于利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
特征挖掘单元504,用于采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
特征检索单元505,用于根据所述共享特征进行跨模态检索。
具体地,预处理单元501具体用于:
采用VGGNet模型提取所述图像FC7层的卷积特征;
采用bag of words模型提取所述文本1000维的文本特征。
进一步地,所述堆叠式的受限玻尔兹曼机包括三层受限玻尔兹曼机,特征提取单元502具体用于:
利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取所述图像特征和所述文本特征;
利用简单的受限玻尔兹曼机移除所述图像特征和所述文本特征各自模态的特性,以获得高层次的语义特征;
完成堆叠式的受限玻尔兹曼机的训练,得到所述图像的模态友好型特征
Figure BDA0001784591080000091
和所述文本的模态友好型特征
Figure BDA0001784591080000092
特征提取单元502还用于:
分别采用所述图像和所述文本的深度置信网络提取各自模态的特征;
在顶层采用联合的受限玻尔兹曼机进行模态相互型特征的学习,得到所述图像的模态相互型特征
Figure BDA0001784591080000093
和所述文本的模态相互型特征
Figure BDA0001784591080000094
特征结合单元503具体用于:
利用联合的自动编码器将所述图像或所述文本各自的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征和所述文本的混合特征;
利用带有softmax层的三层前向神经网络通过有监督学习,挖掘出所述图像和所述文本更有用的混合特征。
特征挖掘单元504具体用于:
采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系;
根据所述相互关系进行所述图像和所述文本的跨模态的共享特征的学习,得到所述图像和所述文本的共享特征。
进一步地,特征挖掘单元504在提取共享特征时,双模态自动编码网络的输入维度和输出维度一致,共享特征层的维度是输入维度的一半,从共享特征层中,学习得到最后的跨模态的共享特征。
进一步地,特征挖掘单元504还用于将softmax层与最后的输出层连接,优化所述共享特征。
本发明提供的上述实施例可以应用在以图搜文、以文搜图、视频检索、图片标注的等领域,本发明实施例采用堆叠式受限玻尔兹曼机和多模态深度置信网络各自提取模态友好型和模态相互型特征,其中模态友好型特征能够使所获得的特征在统计特性方面比输入实例之间的更相似,而模态相互型特征能够得到在原始输入实例中丢失的相互信息。接着,将所得到的这两种特征进行融合,得到混合特征,进一步通过多个双模态自动编码获得最后的共享特征。本发明实施例能有效提高跨模态检索任务的准确性,如以图搜文、以文搜图等,以及提高检索的速度。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种跨模态检索方法及系统的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种跨模态检索方法,其特征在于,包括:
分别对图像和文本进行预处理,得到图像特征和文本特征;
根据所述图像特征和所述文本特征,利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取所述图像特征和所述文本特征;利用受限玻尔兹曼机移除所述图像特征和所述文本特征各自模态的特性,以获得高层次的语义特征;完成堆叠式的受限玻尔兹曼机的训练,得到所述图像的模态友好型特征和所述文本的模态友好型特征;
根据所述图像特征和所述文本特征,分别采用所述图像和所述文本的深度置信网络提取各自模态的特征;在顶层采用联合的受限玻尔兹曼机进行模态相互型特征的学习,得到所述的图像的模态相互型特征和所述文本的模态相互型特征;
利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
根据所述共享特征进行跨模态检索。
2.如权利要求1所述的跨模态检索方法,其特征在于,对图像进行预处理,得到图像特征的步骤包括:
采用VGGNet模型提取所述图像FC7层的卷积特征。
3.如权利要求1所述的跨模态检索方法,其特征在于,对文本进行预处理,得到文本特征的步骤包括:
采用bag of words模型提取所述文本1000维的文本特征。
4.如权利要求1所述的跨模态检索方法,其特征在于,所述利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征包括:
利用联合的自动编码器将所述图像或所述文本各自的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征和所述文本的混合特征;
利用带有softmax层的三层前向神经网络通过有监督学习,挖掘出所述图像和所述文本更有用的混合特征。
5.如权利要求1所述的跨模态检索方法,其特征在于,所述采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征包括:
采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系;
根据所述相互关系进行所述图像和所述文本的跨模态的共享特征的学习,得到所述图像和所述文本的共享特征。
6.如权利要求5所述的跨模态检索方法,其特征在于,在提取共享特征时,双模态自动编码网络的输入维度和输出维度一致,共享特征层的维度是输入维度的一半,从共享特征层中,学习得到最后的跨模态的共享特征。
7.如权利要求6所述的跨模态检索方法,其特征在于,将softmax层与最后的输出层连接,优化所述共享特征。
8.一种跨模态检索系统,其特征在于,包括:
预处理单元,用于分别对图像和文本进行预处理,得到图像特征和文本特征;
特征提取单元,用于根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征,及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征;
特征结合单元,用于利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
特征挖掘单元,用于采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
特征检索单元,用于根据所述共享特征进行跨模态检索。
CN201811008853.4A 2018-08-31 2018-08-31 一种跨模态检索方法及系统 Active CN109189968B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811008853.4A CN109189968B (zh) 2018-08-31 2018-08-31 一种跨模态检索方法及系统
PCT/CN2019/078657 WO2020042597A1 (zh) 2018-08-31 2019-03-19 一种跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811008853.4A CN109189968B (zh) 2018-08-31 2018-08-31 一种跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN109189968A CN109189968A (zh) 2019-01-11
CN109189968B true CN109189968B (zh) 2020-07-03

Family

ID=64917577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811008853.4A Active CN109189968B (zh) 2018-08-31 2018-08-31 一种跨模态检索方法及系统

Country Status (2)

Country Link
CN (1) CN109189968B (zh)
WO (1) WO2020042597A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统
CN109886326B (zh) * 2019-01-31 2022-01-04 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN112925935B (zh) * 2021-04-13 2022-05-06 电子科技大学 基于模态内及模态间混合融合的图像菜谱检索方法
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN113656539B (zh) * 2021-07-28 2023-08-18 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN113658683A (zh) * 2021-08-05 2021-11-16 重庆金山医疗技术研究院有限公司 一种疾病诊断系统及数据推荐方法
CN114218380B (zh) * 2021-12-03 2022-07-29 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114202038B (zh) * 2022-02-16 2022-05-31 广州番禺职业技术学院 一种基于dbm深度学习的众包缺陷分类方法
CN116127123B (zh) * 2023-04-17 2023-07-07 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793507A (zh) * 2014-01-26 2014-05-14 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
CN104462485A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于对应的深层信念网络的跨模态检索方法
CN104462489A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于深层模型的跨模态检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108399421A (zh) * 2018-01-31 2018-08-14 南京邮电大学 一种基于词嵌入的深度零样本分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718532B (zh) * 2016-01-15 2019-05-07 北京大学 一种基于多深度网络结构的跨媒体排序方法
CN106095893B (zh) * 2016-06-06 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
CN107346328B (zh) * 2017-05-25 2020-09-08 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793507A (zh) * 2014-01-26 2014-05-14 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
CN104462485A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于对应的深层信念网络的跨模态检索方法
CN104462489A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于深层模型的跨模态检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108399421A (zh) * 2018-01-31 2018-08-14 南京邮电大学 一种基于词嵌入的深度零样本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深层网络的多模态特征融合问题的研究与应用;臧虎;《中国硕士学位论文全文数据库 信息科技辑》;20150716;第I138-1575页 *
基于深度学习的跨模态检索研究;冯方向;《中国博士学位论文全文数据库 信息科技辑》;20160315;第I140-36页 *

Also Published As

Publication number Publication date
WO2020042597A1 (zh) 2020-03-05
CN109189968A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109189968B (zh) 一种跨模态检索方法及系统
Fu et al. Siamese network for RGB-D salient object detection and beyond
Arevalo et al. Gated multimodal networks
CN110765281A (zh) 一种多语义深度监督跨模态哈希检索方法
Wang et al. A deep semantic framework for multimodal representation learning
Peng et al. Cross domain knowledge learning with dual-branch adversarial network for vehicle re-identification
Shu et al. Specific class center guided deep hashing for cross-modal retrieval
CN106844518B (zh) 一种基于子空间学习的不完整跨模态检索方法
Abdulnabi et al. Multimodal recurrent neural networks with information transfer layers for indoor scene labeling
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
Maheshwari et al. Scene graph embeddings using relative similarity supervision
CN116975349A (zh) 图像检索方法、装置、电子设备及存储介质
He et al. Deep learning in natural language generation from images
CN111444335A (zh) 中心词的提取方法及装置
CN108717436A (zh) 一种基于显著性检测的商品目标快速检索方法
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
Cui et al. Structure-aware contrastive hashing for unsupervised cross-modal retrieval
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法
Shah et al. Inferring context from pixels for multimodal image classification
Jia et al. Irrelevance reduction with locality-sensitive hash learning for efficient cross-media retrieval
Bijoy et al. Image Tagging by Fine-tuning Class Semantics Using Text Data from Web Scraping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant