CN112199462A - 跨模态的数据处理方法、装置、存储介质以及电子装置 - Google Patents

跨模态的数据处理方法、装置、存储介质以及电子装置 Download PDF

Info

Publication number
CN112199462A
CN112199462A CN202011063068.6A CN202011063068A CN112199462A CN 112199462 A CN112199462 A CN 112199462A CN 202011063068 A CN202011063068 A CN 202011063068A CN 112199462 A CN112199462 A CN 112199462A
Authority
CN
China
Prior art keywords
data
training
modality
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011063068.6A
Other languages
English (en)
Inventor
董西伟
严军荣
张小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunwave Communications Co Ltd
Original Assignee
Sunwave Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunwave Communications Co Ltd filed Critical Sunwave Communications Co Ltd
Priority to CN202011063068.6A priority Critical patent/CN112199462A/zh
Publication of CN112199462A publication Critical patent/CN112199462A/zh
Priority to PCT/CN2021/091214 priority patent/WO2022068195A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置,该方法包括:采用获取第一模态的查询数据,分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据,利用类别标记数据作为桥梁,将第一模态和第二模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。

Description

跨模态的数据处理方法、装置、存储介质以及电子装置
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种跨模态的数据处理方法、装置、存储介质以及电子装置。
背景技术
在实际应用中,对象可以用来自不同模态的特征进行描述,例如,在微信之类的社交平台,人们经常使用图片和相应的文字记录所发生的某个事件。跨模态检索旨在使用一个模态中的实例去检索另一个模态中与其语义相似的实例,例如,用图像检索与之相关的文档。随着多媒体技术的发展,多模态数据的数量也迅速增长。在大规模多模态数据集上,如何在不同模态之间完成信息检索是非常具有挑战性的问题。对于这个问题,哈希方法的低存储代价和高检索速度特点使其在跨模态检索领域受到广泛关注。
不同模态的数据分布和数据表示的不一致性,使得在不同模态之间直接进行相似性度量是非常困难的。这种困难亦可称为“模态鸿沟”,它是影响跨模态哈希检索性能的主要障碍。由于“模态鸿沟”的原因,现有跨模态哈希方法的检索性能还远不能满足人们的需求。并且,对于现有的基于浅层结构的跨模态哈希检索方法来说,因为它们大部分都使用手工特征,并且这些特征对不同的跨模态检索任务不具有通用性,因此,它们学习得到的哈希编码的鉴别能力是有限的,进而,这些浅层跨模态哈希检索方法的检索性能不能达到最优。
因此,目前的相关技术中,在进行跨模态的数据处理的过程中,数据处理的效率较低,性能远不能满足用户需求。
针对相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置,以至少解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题。
根据本发明的一个实施例,提供了一种跨模态的数据处理方法,包括:获取第一模态的查询数据;分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括编码器和鉴别器,所述编码器包括样本编码器和类别标记编码器,每个所述样本对包括样本数据以及类别标记数据,使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开;根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
可选地,在获取第一模态的查询数据之前,所述方法还包括:重复执行以下步骤,直到为所述鉴别器所配置的目标函数的取值最小:获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据;将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果;基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型。
可选地,将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果,包括:将所述第一训练数据输入第一编码器,得到第一目标数据,将所述第二训练数据输入第二编码器,得到第二目标数据;将所述类别标记数据输入标记编码器,得到标签数据;将所述第一目标数据和所述标签数据输入第一鉴别器,得到第一鉴别结果,将所述第二目标数据和所述标签数据输入第二鉴别器,得到第二鉴别结果;将所述第一鉴别结果确定为所述第一训练结果,并将所述第二鉴别结果确定为所述第二训练结果。
可选地,基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型,包括以下至少之一:基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数;基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。
可选地,所述方法还包括:基于所述第一训练数据以及第二训练数据生成三元组集,其中,所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据;通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离;通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离;得到约束后的所述第一训练数据和约束后的所述第二训练数据。
可选地,在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,所述方法还包括:使用符号函数处理所述第一训练数据,得到第一组哈希编码;将所述第一组哈希编码输入第三鉴别器,得到第三鉴别结果;将所述第三鉴别结果确定为第三训练结果;基于所述第三训练结果训练所述第三鉴别器和第一编码器,其中,所述第一初始神经网络模型包括所述第一编码器;使用所述符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和所述第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
可选地,在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,所述方法还包括:使用符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
根据本发明的另一个实施例,提供了一种跨模态的数据处理装置,包括:获取模块,用于获取第一模态的查询数据;处理模块,用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括编码器和鉴别器,所述编码器包括样本编码器和类别标记编码器,每个所述样本对包括样本数据以及类别标记数据,使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开;确定模块,用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
可选地,所述装置还用于:在获取第一模态的查询数据之前,重复执行以下步骤,直到为所述鉴别器所配置的目标函数的取值最小:获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据;将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果;基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型。
可选地,所述装置还用于通过如下方式将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果:将所述第一训练数据输入第一编码器,得到第一目标数据,将所述第二训练数据输入第二编码器,得到第二目标数据;将所述类别标记数据输入标记编码器,得到标签数据;将所述第一目标数据和所述标签数据输入第一鉴别器,得到第一鉴别结果,将所述第二目标数据和所述标签数据输入第二鉴别器,得到第二鉴别结果;将所述第一鉴别结果确定为所述第一训练结果,并将所述第二鉴别结果确定为所述第二训练结果。
可选地,所述装置还用于通过如下至少之一的方式基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型:基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数;基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。
可选地,所述装置还用于:基于所述第一训练数据以及第二训练数据生成三元组集,其中,所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据;通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离;通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离;得到约束后的所述第一训练数据和约束后的所述第二训练数据。
可选地,所述装置还用于:在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,使用符号函数处理所述第一训练数据,得到第一组哈希编码;将所述第一组哈希编码输入第三鉴别器,得到第三鉴别结果;将所述第三鉴别结果确定为第三训练结果;基于所述第三训练结果训练所述第三鉴别器和第一编码器,其中,所述第一初始神经网络模型包括所述第一编码器;使用所述符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和所述第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
可选地,所述装置还用于:在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,使用符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法实施例中的步骤。
通过本发明,采用获取第一模态的查询数据,分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据,利用类别标记数据作为桥梁,将第一模态和第二模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的跨模态的数据处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图;
图3是根据本发明实施例的一种可选的跨模态的数据处理方法的示意图;
图4是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种跨模态的数据处理方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的跨模态的数据处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的跨模态的数据处理方法,图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图,如图2所示,该流程包括如下步骤:
根据本发明的一个实施例,提供了一种跨模态的数据处理方法,包括:
S202,获取第一模态的查询数据;
S204,分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括编码器和鉴别器,所述编码器包括样本编码器和类别标记编码器,每个所述样本对包括样本数据以及类别标记数据,使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开;
S206,根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
可选地,在本实施例中,上述第一模态可以包括但不限于图像、文字、语音、视频、动作捕捉等。上述第二模态可以包括但不限于图像、文字、语音、视频、动作捕捉等,上述第一模态和第二模态为不同的模态,例如,上述第一模态为图像,上述第二模态为文字,或者,上述第一模态为拍摄的图像,上述第二模态为动作捕捉后,模拟生成的图像等。
可选地,在本实施例中,上述第一模态的查询数据可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量,还可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量所生成的哈希编码。
可选地,在本实施例中,上述第二模态的检索数据可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量,还可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量所生成的哈希编码,上述第二模态的检索数据集合是由多个预先确定的第二模态的检索数据所组成的集合。
可选地,在本实施例中,上述目标参数可以包括但不限于上述第一模态的查询数据所对应的哈希编码与上述第二模态的检索数据所对应的哈希编码之间的汉明距离,上述相似性可以包括但不限于通过比较汉明距离的大小来进行表示,上述汉明距离与上述相似性呈负相关,也即,在汉明距离越小的情况下,上述第一模态的查询数据和第二模态的检索数据越相似。
可选地,在本实施例中,上述目标神经网络模型可以包括但不限于一个或多个生成式对抗网络模型、一个或多个卷积神经网络模型、一个或多个多尺度融合模型,可以包括但不限于上述的一种或者多种的组合。
可选地,在本实施例中,上述类别标记编码器可以包括但不限于对已标注的数据进行特征提取,将对应的标记信息作为特征向量进行编解码,上述类别标记可以包括但不限于进行分类过程中对应的类别标记。
可选地,在本实施例中,以第一模态为图像模态、第二模态为文本模态为例,上述一组样本对可以包括如下内容:
假设(V,T)表示n个对象在图像模态和文本模态的图像-文本数据对(对应于前述的一组样本对),其中,
Figure BDA0002712972090000101
为n个对象的像素特征向量集,vi表示第i个对象在图像模态的像素特征向量,
Figure BDA0002712972090000102
为这n个对象的词袋向量集,其中,ti表示第i个对象的词袋向量。假设n个对象的类别标记向量为
Figure BDA0002712972090000103
li=[li1,li2,…,lic]T(i=1,2,…,n)表示第i个对象的标签,其中,c表示对象类别的数量,(·)T表示转置运算。对于向量li来说,如果第i个对象属于第k类,则lik=1,否则,lik=0。使用语义相似矩阵S={sij|i=1,2,…,n,j=1,2,…,n}来表示两个对象之间的相似程度,如果第i个对象与第j个对象在语义上相似,则sij=1,否则,sij=0,以实现训练得到目标神经网络模型,以及获得上述第二模态的检索数据集合。
通过本实施例,采用获取第一模态的查询数据,分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据,利用类别标记数据作为桥梁,将第一模态和第二模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。
在一个可选的实施例中,在获取第一模态的查询数据之前,所述方法还包括:重复执行以下步骤,直到为所述鉴别器所配置的目标函数的取值最小:获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据;将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果;基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型。
可选地,在本实施例中,上述目标函数可以包括但不限于第一初始神经网络模型的第一目标函数,第一目标函数中包含有一个或多个第一预设参数,第二初始神经网络模型的第二目标函数,第二目标函数中包含有一个或多个第二预设参数,换言之,对于第一神经网络模型的训练,在第一预设参数的情况下,第一目标函数取值最小时表示训练完成,对于第二神经网络模型的训练,在第二预设参数的情况下,第二目标函数取值最小时表示训练完成。
可选地,在本实施例中,以第一模态为图像模态、第二模态为文本模态为例,上述第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据输入第一初始神经网络模型以及第二初始神经网络模型可以包括如下内容:
例如,神经网络LabNet,它是输入数据为类别标记数据的深度神经网络。LabNet由一个自编码器构成,为了方便起见,这里将该自编码器记为LabNetAuto,并将LabNetAuto的编码层的输出特征记为F(l)=f(l)(L;θ(l)),其中,θ(l)为深度神经网络LabNet的参数。F(l)可以看作由LabNetAuto学习得到的语义特征。利用LabNetAuto的编码层的输出特征F(l)作为监督信息,引导ImgNet和TxtNet更好地进行训练,从而实现缩小图像模态和文本模态之间的语义鸿沟,并使图像模态和文本模态更好地从语义上关联起来。为了达到上述目的,LabNetAuto需要经过良好的训练,为此,可以包括但不限于采用如下所示的目标函数训练LabNetAuto
Figure BDA0002712972090000121
其中,
Figure BDA0002712972090000122
为与标记向量li相对应的LabNetAuto的编码层的输出向量,α(l)为超参数,B(l)为哈希编码。公式(1)中的
Figure BDA0002712972090000123
为负对数似然函数,且似然函数的定义如下:
Figure BDA0002712972090000124
其中,
Figure BDA0002712972090000125
用于保持F(l)中不同特征向量间的相似性。
Figure BDA0002712972090000126
为用于控制哈希编码B(l)的量化误差的目标函数项。
为了将LabNetAuto学习得到的语义特征F(l)用于监督图像模态和文本模态的特征学习过程,通过如下目标函数实现:
Figure BDA0002712972090000127
Figure BDA0002712972090000128
其中,
Figure BDA0002712972090000129
α(v)和α(t)为超参数,B(v)和B(t)分别为图像模态和文本模态的哈希编码。最小化公式(3)和公式(4)中的两个负对数似然函数
Figure BDA0002712972090000131
Figure BDA0002712972090000132
等价于最大化它们相应的似然函数。当sij=1时,最小化
Figure BDA0002712972090000133
可以使得
Figure BDA0002712972090000134
Figure BDA0002712972090000135
之间的相似度变大,与此相反,当sij=0时,最小化
Figure BDA0002712972090000136
可以使得
Figure BDA0002712972090000137
Figure BDA0002712972090000138
之间的相似度变小。对
Figure BDA0002712972090000139
进行最小化优化也可以实现类似的目标。
因此,对
Figure BDA00027129720900001310
Figure BDA00027129720900001311
进行最小化,可以实现以语义特征F(l)为桥梁将图像模态和文本模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟。本发明将衡量成对数据之间关系的损失函数
Figure BDA00027129720900001312
Figure BDA00027129720900001313
分别称为成对损失。
在一个可选的实施例中,将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果,包括:将所述第一训练数据输入第一编码器,得到第一目标数据,将所述第二训练数据输入第二编码器,得到第二目标数据;将所述类别标记数据输入标记编码器,得到标签数据;将所述第一目标数据和所述标签数据输入第一鉴别器,得到第一鉴别结果,将所述第二目标数据和所述标签数据输入第二鉴别器,得到第二鉴别结果;将所述第一鉴别结果确定为所述第一训练结果,并将所述第二鉴别结果确定为所述第二训练结果。
可选地,在本实施例中,以第一模态为图像模态为例,上述第一编码器可以包括但不限于在图像模态首先使用卷积神经网络进行高层语义特征学习,为了方便起见,这里将所使用的卷积神经网络记为ImgNetCNN并将ImgNetCNN的输出特征记为G(v)=g(v)(V;θ(v))。进一步,用
Figure BDA00027129720900001314
表示G(v)中的第i个向量,且该向量对应于vi。本发明中的图像模态的深度神经网络还包含一个图像自编码器(Image Autoencoder),用于进一步挖掘图像模态数据中所蕴含的高层语义信息。为了描述方便,这里将这个图像自编码器表示为ImgNetAuto,并将ImgNetAuto的编码层的输出特征和ImgNetAuto的输出特征分别记为F(v)=f(v)(V;θ(v))和Q(v)=q(v)(V;θ(v)),其中,θ(v)表示图像模态的深度神经网络ImgNe的参数。进一步,将F(v)和Q(v)中的第i个向量分别表示为
Figure BDA0002712972090000141
Figure BDA0002712972090000142
可选地,在本实施例中,以第二模态为文本模态为例,对于文本模态,为了缓解词袋向量的稀疏性对高层语义信息的挖掘带来的不利影响,在本发明中,首先使用由多个均值池化层和1×1的卷积层构成的多尺度融合模型对词袋向量进行处理。为了方便起见,将这个多尺度融合模型记为TxtNetMSF。这个多尺度融合模型TxtNetMSF有利于发现不同词之间的关系,进而有利于挖掘文本模态数据中所蕴含的高层语义信息。为了更好地挖掘文本模态数据中的高层语义信息,在文本模态的深度神经网络TxtNet中还包含一个文本自编码器(Text Autoencoder),这里将这个文本自编码器记为TxtNetAuto,并将TxtNetAuto的编码层的输出特征和TxtNetAuto的输出特征分别记为F(t)=f(t)(T;θ(t))和Q(t)=q(t)(T;θ(t)),其中,θ(t)表示文本模态的深度神经网络TxtNet的参数。进一步,分别将F(t)和Q(t)中的第i个向量表示为
Figure BDA0002712972090000143
Figure BDA0002712972090000144
可选地,在本实施例中,以第一模态为图像模态、第二模态为文本模态为例,为了进一步缩小图像模态与文本模态之间的语义鸿沟,本发明将对抗学习策略应用于特征F(l)、F(v)和F(t)的学习过程。为此,本发明设计两个“模态间鉴别器”来完成对抗学习策略在不同模态之间的鉴别任务,这两个鉴别器分别是:标记-图像鉴别器DL-I(对应于前述的第一鉴别器)和标记-文本鉴别器DL-T(对应于前述的第二鉴别器)。
对于标记-图像鉴别器DL-I来说,它的输入数据为LabNetAuto的输出特征F(l)和ImgNetAuto的输出特征F(v)。假设
Figure BDA0002712972090000145
表示指定给特征向量
Figure BDA0002712972090000146
的标签,
Figure BDA0002712972090000147
表示指定给特征向量
Figure BDA0002712972090000148
的标签,其中,i=1,2,…,n。鉴别器DL-I旨在尽可能地将“真实数据”
Figure BDA0002712972090000149
与“虚假数据”
Figure BDA00027129720900001410
区分开来。
因此,可以用“0”和“1”分别表示鉴别器DL-I的两种可能的输出,具体来说,用“1”表示鉴别器DL-I进行了正确的区分,用“0”表示鉴别器DL-I进行了错误的区分。
综合以上分析,针对鉴别器DL-I可以设计如下的目标函数:
Figure BDA0002712972090000151
其中,
Figure BDA0002712972090000152
表示鉴别器DL-I的参数,DL-I(·)表示鉴别器DL-I的输出。
鉴别器DL-T的作用是尽可能地将“真实数据”
Figure BDA0002712972090000153
与“虚假数据”
Figure BDA0002712972090000154
区分开来,其中,i=1,2,…,n。类似于鉴别器DL-I
因此,设计如下的目标函数实现鉴别器DL-T所要达到的目标:
Figure BDA0002712972090000155
其中,
Figure BDA0002712972090000156
表示鉴别器DL-T的参数,DL-T(·)鉴别器DL-T的输出,
Figure BDA0002712972090000157
表示指定给特征向量
Figure BDA0002712972090000158
的标签。
通过本实施例,对
Figure BDA0002712972090000159
Figure BDA00027129720900001510
进行最小化,可以实现以语义特征F(l)为桥梁将图像模态和文本模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。
在一个可选的实施例中,所述方法还包括:基于所述第一训练数据以及第二训练数据生成三元组集,其中,所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据;通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离;通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离;得到约束后的所述第一训练数据和约束后的所述第二训练教据。
可选地,在本实施例中,以上述第一模态为图像模态,第二模态为文本模态为例,可以包括如下内容:
例如,在缩小不同模态中语义上相同的对象的差异时,增大每个模态中语义上不同的对象的距离,有利于保持模态内对象之间的语义关系并增强模态间的语义关联。为此,本发明将三元组约束应用到图像模态和文本模态的特征学习过程。具体做法为:首先构建形式为
Figure BDA0002712972090000161
的三元组集,其中,vi是被选为锚点的图像特征向量,
Figure BDA0002712972090000162
为来自于文本模态且与vi具有相同标记的文本向量,
Figure BDA0002712972090000163
为来自于文本模态且与vi具有不同标记的文本向量。将由vi
Figure BDA0002712972090000164
联合起来构成的图像-文本对
Figure BDA0002712972090000165
称为正图像-文本对,类似地,将由vi
Figure BDA0002712972090000166
联合起来构成的图像-文本对
Figure BDA0002712972090000167
称为负图像-文本对。当将ti作为锚点时,可以构造形如
Figure BDA0002712972090000168
的三元组集。进一步,可以构造正文本-图像对
Figure BDA0002712972090000169
和负文本-图像对
Figure BDA00027129720900001610
对于以图像模态的样本为锚点一个三元组来说,三元组约束旨在通过三元组损失函数最小化锚点和正文本样本之间距离并同时最大化锚点与负文本样本之间的距离。也就是说,对于三元组
Figure BDA00027129720900001611
三元组损失函数定义为:
Figure BDA00027129720900001612
μ>0,其中,
Figure BDA00027129720900001613
Figure BDA00027129720900001614
Figure BDA00027129720900001615
之间的欧氏距离,
Figure BDA00027129720900001616
Figure BDA00027129720900001617
Figure BDA00027129720900001618
之间的欧氏距离。因此,图像模态所有三元组的三元组损失函数为:
Figure BDA00027129720900001619
类似地,文本模态所有三元组的三元组损失函数为:
Figure BDA00027129720900001620
因此,基于三元组损失函数的目标函数设计为:
Figure BDA00027129720900001621
根据上述内容可以看出,通过使用三元组约束可以使图像模态数据和文本模态数据的语义分布相互适应,进而不同模态之间的语义鸿沟可以得到消减。此外,通过使用三元组约束还可以使图像模态特有的信息和文本模态特有的信息得以保持。
在一个可选的实施例中,在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,所述方法还包括:使用符号函数处理所述第一训练数据,得到第一组哈希编码;将所述第一组哈希编码输入第三鉴别器,得到第三鉴别结果;将所述第三鉴别结果确定为第三训练结果;基于所述第三训练结果训练所述第三鉴别器和第一编码器,其中,所述第一初始神经网络模型包括所述第一编码器;使用所述符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和所述第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
可选地,在本实施例中,通过公式(3)和公式(4)可知,在图像模态和文本模态生成哈希编码,需要将ImgNetAuto和TxtNetAuto的编码层特征F(v)和F(t)分别使用符号函数进行处理,进而得到哈希编码。为了使生成的哈希编码中保留尽可能多的鉴别信息,亦即使学习得到的编码层特征F(v)和F(t)中保留尽可能多的鉴别信息,可以通过设法保证ImgNetAuto和TxtNetAuto得到有效训练来实现。为此,本发明将对抗学习策略引入到图像模态和文本模态的深度神经网络训练过程中。本发明设计两个“模态内鉴别器”分别完成对抗学习策略在每个模态内部的鉴别任务,这两个鉴别器分别是:图像模态鉴别器DI(对应于前述的第三鉴别器)和文本模态鉴别器DT(对应于前述的第四鉴别器)。
对于鉴别器DI来说,它的输入数据为ImgNetCNN的输出特征G(v)和ImgNetAuto的输出特征Q(v)。假设
Figure BDA0002712972090000171
表示指定给特征向量
Figure BDA0002712972090000172
的标签,
Figure BDA0002712972090000173
表示指定给特征向量
Figure BDA0002712972090000174
的标签,其中,i=1,2,…,n。鉴别器DI的作用是尽可能地将“真实数据”
Figure BDA0002712972090000181
与它相应的重构数据
Figure BDA0002712972090000182
区分开来。因此,可以用“0”和“1”分别表示鉴别器DI的两种可能的输出,具体来说,用“1”表示鉴别器DI进行了正确的区分,用“0”表示鉴别器DI进行了错误的区分。综合以上分析,针对鉴别器DI可以设计如下的目标函数:
Figure BDA0002712972090000183
其中,
Figure BDA0002712972090000184
表示鉴别器DI的参数,DI(·)表示鉴别器DI的输出。
鉴别器DT的作用是尽可能地将“真实数据”
Figure BDA0002712972090000185
与它相应的重构数据
Figure BDA0002712972090000186
区分开来,其中,i=1,2,…,n。类似于鉴别器DI,设计如下的目标函数实现鉴别器DT所要达到的目标:
Figure BDA0002712972090000187
其中,
Figure BDA0002712972090000188
表示鉴别器DT的参数,DT(·)鉴别器DT的输出,
Figure BDA0002712972090000189
表示指定给特征向量
Figure BDA00027129720900001810
的标签,
Figure BDA00027129720900001811
表示指定给特征向量
Figure BDA00027129720900001812
的标签。
在一个可选的实施例中,在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,所述方法还包括:使用符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
可选地,在本实施例中,假设图像模态的一个查询样本的特征向量为
Figure BDA00027129720900001813
文本模态的一个查询样本的特征向量为
Figure BDA00027129720900001814
图像模态检索样本集中样本的特征向量集为
Figure BDA00027129720900001815
文本模态检索样本集中样本的特征向量集为
Figure BDA00027129720900001816
其中,
Figure BDA00027129720900001817
表示检索样本集中样本的数量。图像模态和文本模态查询样本和检索样本集中样本的哈希编码分别为:
Figure BDA00027129720900001818
Figure BDA00027129720900001819
其中,θ(v)和θ(t)分别为求解得到的图像模态和文本模态的深度神经网络参数,
Figure BDA0002712972090000191
sign(·)为符号函数。
在一个可选的实施例中,基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型,包括以下至少之一:基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数;基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。
可选地,在本实施例中,在为图像模态和文本模态学习深度特征表示时,目标函数公式中包含的未知变量有
Figure BDA0002712972090000192
θ=(θ(l),θ(v),θ(t))和B=(B(l),B(v),B(t))。这些未知变量可以通过联合优化公式(12)和公式(13)所示的生成损失函数和对抗损失函数来得到解。
Figure BDA0002712972090000195
Figure BDA0002712972090000193
因为公式(12)和公式(13)的优化目标是相反的,本发明采用“极大极小博弈(Minimax Game)”方案对公式(14)进行优化来求解未知变量。
Figure BDA0002712972090000194
因为B(l),B(v)和B(t)都是离散变量,并且“极大极小”损失函数容易引起梯度消失问题,因此,公式(14)的优化问题是非常棘手的优化问题。为了解决这个问题,本发明采用迭代优化方案来优化公式(14)。首先通过优化
Figure BDA0002712972090000196
来求解θ(l)和B(l),然后固定θ(l)和B(l)通过优化
Figure BDA0002712972090000198
来求解θ(v)和B(v),类似地,固定θ(l)和B(l)通过优化
Figure BDA0002712972090000197
来求解θ(t)和B(t)。不难看出,在上述求解θ=(θ(l),θ(v),θ(t))和B=(B(l),B(v),B(t))的过程中,图像模态和文本模态的特征表示可以在标签信息的监督下学习得到。将求解得到的θ=(θ(l),θ(v),θ(t))和B=(B(l),B(v),B(t))固定,通过分别优化
Figure BDA0002712972090000201
Figure BDA0002712972090000202
可以求解得到
Figure BDA0002712972090000203
Figure BDA0002712972090000204
Figure BDA0002712972090000205
本发明采用后向传播算法以及随机梯度下降完成网络参数的学习。
下面结合具体的示例,对本申请进行进一步地说明:
图3是根据本发明实施例的一种可选的跨模态的数据处理方法的示意图,如图3所示,具体实施过程主要包括以下步骤:假设(V,T)表示n个对象在图像模态和文本模态的图像-文本数据对,其中,
Figure BDA0002712972090000206
为n个对象的像素特征向量集,vi表示第i个对象在图像模态的像素特征向量,
Figure BDA0002712972090000207
为这n个对象的词袋向量集,其中,ti表示第i个对象的词袋向量。假设n个对象的类别标记向量为
Figure BDA0002712972090000208
li=[li1,li2,…,lic]T(i=1,2,…,n)表示第i个对象的标签,其中,c表示对象类别的数量,(·)T表示转置运算。对于向量li来说,如果第i个对象属于第k类,则lik=1,否则,lik=0。使用语义相似矩阵S={sij|i=1,2,…,n,j=1,2,…,n}来表示两个对象之间的相似程度,如果第i个对象与第j个对象在语义上相似,则sij=1,否则,sij=0。
(1)基于卷积神经网络和自编码器构建多模态混合深度神经网络
利用图像模态和文本模态的特征数据,以及对象的类别标记信息学习图像模态和文本模态的哈希函数,并利用学习得到的哈希函数生成用于完成跨模态哈希检索的哈希编码。对于本发明的跨模态检索方案,在图像模态首先使用卷积神经网络进行高层语义特征学习,为了方便起见,这里将所使用的卷积神经网络记为ImgNetCNN 302并将ImgNetCNN的输出特征记为G(v)=g(v)(V;θ(v))。进一步,用
Figure BDA0002712972090000209
表示G(v)中的第i个向量,且该向量对应于vi。本发明中的图像模态的深度神经网络还包含一个图像自编码器(ImageAutoencoder)304,用于进一步挖掘图像模态数据中所蕴含的高层语义信息。为了描述方便,这里将这个图像自编码器表示为ImgNetAuto,并将
Figure BDA00027129720900002010
的编码层的输出特征和ImgNetAuto的输出特征分别记为F(v)=f(v)(V;θ(v))和Q(v)=q(v)(V;θ(v)),其中,θ(v)表示图像模态的深度神经网络ImgNet 306的参数。进一步,将F(v)和Q(v)中的第i个向量分别表示为
Figure BDA0002712972090000211
Figure BDA0002712972090000212
对于文本模态,为了缓解词袋向量的稀疏性对高层语义信息的挖掘带来的不利影响,在本发明中,首先使用由多个均值池化层和1×1的卷积层构成的多尺度融合模型308对词袋向量进行处理。为了方便起见,将这个多尺度融合模型记为TxtNetMSF。这个多尺度融合模型TxtNetMSF有利于发现不同词之间的关系,进而有利于挖掘文本模态数据中所蕴含的高层语义信息。为了更好地挖掘文本模态数据中的高层语义信息,在文本模态的深度神经网络TxtNet310中还包含一个文本自编码器(Text Autoencoder)312,这里将这个文本自编码器记为TxtNetAuto,并将TxtNetAuto的编码层的输出特征和TxtNetAuto的输出特征分别记为F(t)=f(t)(T;θ(t))和Q(t)=q(t)(T;θ(t)),其中,θ(t)表示文本模态的深度神经网络TxtNet的参数。进一步,分别将F(t)和Q(t)中的第i个向量表示为
Figure BDA0002712972090000213
Figure BDA0002712972090000214
(2)基于模态间对抗学习和三元组约束构建提升深度学习特征鉴别性能的模型
本发明方法还包含一个神经网络LabNet 314,它是输入数据为类别标记数据的深度神经网络。LabNet由一个自编码器构成,为了方便起见,这里将该自编码器记为LabNetAuto316,并将LabNetAuto的编码层的输出特征记为F(l)=f(l)(L;θ(l)),其中,θ(l)为深度神经网络LabNet的参数。F(l)可以看作由LabNetAuto学习得到的语义特征。本发明利用LabNetAuto的编码层的输出特征F(l)作为监督信息,引导ImgNet和TxtNet更好地进行训练,从而实现缩小图像模态和文本模态之间的语义鸿沟,并使图像模态和文本模态更好地从语义上关联起来。为了达到上述目的,LabNetAuto需要经过良好的训练,为此,本发明采用如下所示的目标函数训练LabNetAuto
Figure BDA0002712972090000215
其中,
Figure BDA0002712972090000221
为与标记向量li相对应的LabNetAuto的编码层的输出向量,α(l)为超参数,B(l)为哈希编码。公式(1)中的
Figure BDA0002712972090000222
为负对数似然函数,且似然函数的定义如下:
Figure BDA0002712972090000223
其中,
Figure BDA0002712972090000224
用于保持F(l)中不同特征向量间的相似性。
Figure BDA0002712972090000225
为用于控制哈希编码B(l)的量化误差的目标函数项。
为了将LabNetAuto学习得到的语义特征F(l)用于监督图像模态和文本模态的特征学习过程,本发明设计如下的目标:
Figure BDA0002712972090000226
Figure BDA0002712972090000227
其中,
Figure BDA0002712972090000228
α(v)和α(t)为超参数,B(v)和B(t)分别为图像模态和文本模态的哈希编码。最小化公式(3)和公式(4)中的两个负对数似然函数
Figure BDA0002712972090000229
Figure BDA00027129720900002210
等价于最大化它们相应的似然函数。当sij=1时,最小化
Figure BDA00027129720900002211
可以使得
Figure BDA00027129720900002212
Figure BDA00027129720900002213
之间的相似度变大,与此相反,当sij=0时,最小化
Figure BDA00027129720900002214
可以使得
Figure BDA00027129720900002215
Figure BDA00027129720900002216
之间的相似度变小。对
Figure BDA00027129720900002217
进行最小化优化也可以实现类似的目标。因此,对
Figure BDA00027129720900002218
Figure BDA00027129720900002219
进行最小化,可以实现以语义特征F(l)为桥梁将图像模态和文本模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟。本发明将衡量成对数据之间关系的损失函数
Figure BDA00027129720900002220
Figure BDA00027129720900002221
分别称为成对损失。
为了进一步缩小图像模态与文本模态之间的语义鸿沟,本发明将对抗学习策略应用于特征F(l)、F(v)和F(t)的学习过程。为此,本发明设计两个“模态间鉴别器”来完成对抗学习策略在不同模态之间的鉴别任务,这两个鉴别器分别是:标记-图像鉴别器DL-I318和标记-文本鉴别器DL-T320。
对于标记-图像鉴别器DL-I来说,它的输入数据为LabNetAuto的输出特征F(l)和ImgNetAuto的输出特征F(v)。假设
Figure BDA0002712972090000231
表示指定给特征向量
Figure BDA0002712972090000232
的标签,
Figure BDA0002712972090000233
表示指定给特征向量
Figure BDA0002712972090000234
的标签,其中,i=1,2,…,n。鉴别器DL-I旨在尽可能地将“真实数据”
Figure BDA0002712972090000235
与“虚假数据”
Figure BDA0002712972090000236
区分开来。因此,可以用“0”和“1”分别表示鉴别器DL-I的两种可能的输出,具体来说,用“1”表示鉴别器DL-I进行了正确的区分,用“0”表示鉴别器DL-I进行了错误的区分。综合以上分析,针对鉴别器DL-I可以设计如下的目标函数:
Figure BDA0002712972090000237
其中,
Figure BDA0002712972090000238
表示鉴别器DL-I的参数,DL-I(·)表示鉴别器DL-I的输出。
鉴别器DL-T的作用是尽可能地将“真实数据”
Figure BDA0002712972090000239
与“虚假数据”
Figure BDA00027129720900002310
区分开来,其中,i=1,2,…,n。类似于鉴别器DL-I,设计如下的目标函数实现鉴别器DL-T所要达到的目标:
Figure BDA00027129720900002311
其中,
Figure BDA00027129720900002312
表示鉴别器DL-T的参数,DL-T(·)鉴别器DL-T的输出,
Figure BDA00027129720900002313
表示指定给特征向量
Figure BDA00027129720900002314
的标签。
在缩小不同模态中语义上相同的对象的差异时,增大每个模态中语义上不同的对象的距离,有利于保持模态内对象之间的语义关系并增强模态间的语义关联。为此,本发明将三元组约束应用到图像模态和文本模态的特征学习过程。具体做法为:首先构建形式为
Figure BDA00027129720900002315
的三元组集,其中,vi是被选为锚点的图像特征向量,
Figure BDA00027129720900002316
为来自于文本模态且与vi具有相同标记的文本向量,
Figure BDA00027129720900002317
为来自于文本模态且与vi具有不同标记的文本向量。将由vi
Figure BDA00027129720900002318
联合起来构成的图像-文本对
Figure BDA00027129720900002319
称为正图像-文本对,类似地,将由vi
Figure BDA00027129720900002320
联合起来构成的图像-文本对
Figure BDA00027129720900002321
称为负图像-文本对。当将ti作为锚点时,可以构造形如
Figure BDA00027129720900002322
的三元组集。进一步,可以构造正文本-图像对
Figure BDA00027129720900002323
和负文本-图像对
Figure BDA00027129720900002324
对于以图像模态的样本为锚点一个三元组来说,三元组约束322旨在通过三元组损失函数最小化锚点和正文本样本之间距离并同时最大化锚点与负文本样本之间的距离。也就是说,对于三元组
Figure BDA0002712972090000241
三元组损失函数定义为:
Figure BDA0002712972090000242
μ>0,其中,
Figure BDA0002712972090000243
Figure BDA0002712972090000244
Figure BDA0002712972090000245
之间的欧氏距离,
Figure BDA0002712972090000246
Figure BDA0002712972090000247
Figure BDA0002712972090000248
之间的欧氏距离。因此,图像模态所有三元组的三元组损失函数为:
Figure BDA0002712972090000249
类似地,文本模态所有三元组的三元组损失函数为:
Figure BDA00027129720900002410
因此,基于三元组损失函数的目标函数设计为:
Figure BDA00027129720900002411
根据上述内容可以看出,通过使用三元组约束可以使图像模态数据和文本模态数据的语义分布相互适应,进而不同模态之间的语义鸿沟可以得到消减。此外,通过使用三元组约束还可以使图像模态特有的信息和文本模态特有的信息得以保持。
(3)基于模态内对抗学习构建提升哈希编码鉴别性能的模型
观察公式(3)和公式(4)可以发现,为了在图像模态和文本模态生成哈希编码,需要将ImgNetAuto和TxtNetAuto的编码层特征F(v)和F(t)分别使用符号函数进行处理,进而得到哈希编码。为了使生成的哈希编码中保留尽可能多的鉴别信息,亦即使学习得到的编码层特征F(v)和F(t)中保留尽可能多的鉴别信息,可以通过设法保证ImgNetAuto和TxtNetAuto得到有效训练来实现。为此,本发明将对抗学习策略引入到图像模态和文本模态的深度神经网络训练过程中。本发明设计两个“模态内鉴别器”分别完成对抗学习策略在每个模态内部的鉴别任务,这两个鉴别器分别是:图像模态鉴别器DI324和文本模态鉴别器DT326。
对于鉴别器DI来说,它的输入数据为ImgNetCNN的输出特征G(v)和ImgNetAuto的输出特征Q(v)。假设
Figure BDA0002712972090000251
表示指定给特征向量
Figure BDA0002712972090000252
的标签,
Figure BDA0002712972090000253
表示指定给特征向量
Figure BDA0002712972090000254
的标签,其中,i=1,2,…,n。鉴别器DI的作用是尽可能地将“真实数据”
Figure BDA0002712972090000255
与它相应的重构数据
Figure BDA0002712972090000256
区分开来。因此,可以用“0”和“1”分别表示鉴别器DI的两种可能的输出,具体来说,用“1”表示鉴别器DI进行了正确的区分,用“0”表示鉴别器DI进行了错误的区分。综合以上分析,针对鉴别器DI可以设计如下的目标函数:
Figure BDA0002712972090000257
其中,
Figure BDA0002712972090000258
表示鉴别器DI的参数,DI(·)表示鉴别器DI的输出。
鉴别器DT的作用是尽可能地将“真实数据”
Figure BDA0002712972090000259
与它相应的重构数据
Figure BDA00027129720900002510
区分开来,其中,i=1,2,…,n。类似于鉴别器DI,设计如下的目标函数实现鉴别器DT所要达到的目标:
Figure BDA00027129720900002511
其中,
Figure BDA00027129720900002512
表示鉴别器DT的参数,DT(·)鉴别器DT的输出,
Figure BDA00027129720900002513
表示指定给特征向量
Figure BDA00027129720900002514
的标签,
Figure BDA00027129720900002515
表示指定给特征向量
Figure BDA00027129720900002516
的标签。
(4)所构建模型中未知变量的求解
在为图像模态和文本模态学习深度特征表示时,目标函数公式中包含的未知变量有
Figure BDA00027129720900002517
θ=(θ(l),θ(v),θ(t))和B=(B(l),B(v),B(t))。这些未知变量可以通过联合优化公式(12)和公式(13)所示的生成损失函数和对抗损失函数来得到解。
Figure BDA00027129720900002519
Figure BDA00027129720900002518
因为公式(12)和公式(13)的优化目标是相反的,本发明采用“极大极小博弈(Minimax Game)”方案对公式(14)进行优化来求解未知变量。
Figure BDA0002712972090000261
因为B(l),B(v)和B(t)都是离散变量,并且“极大极小”损失函数容易引起梯度消失问题,因此,公式(14)的优化问题是非常棘手的优化问题。为了解决这个问题,本发明采用迭代优化方案来优化公式(14)。首先通过优化
Figure BDA00027129720900002620
来求解θ(l)和B(l),然后固定θ(l)和B(l)通过优化
Figure BDA00027129720900002621
来求解θ(v)和B(v),类似地,固定θ(l)和B(l)通过优化
Figure BDA00027129720900002622
来求解θ(t)和B(t)。不难看出,在上述求解θ=(θ(l),θ(v),θ(t))和B=(B(l),B(v),B(t))的过程中,图像模态和文本模态的特征表示可以在标签信息的监督下学习得到。将求解得到的θ=(θ(l),θ(v),θ(t))和B=(B(l),B(v),B(t))固定,通过分别优化
Figure BDA0002712972090000262
Figure BDA0002712972090000263
可以求解得到
Figure BDA0002712972090000264
Figure BDA0002712972090000265
Figure BDA0002712972090000266
本发明采用后向传播算法以及随机梯度下降完成网络参数的学习。
(5)查询样本和检索样本集中样本的哈希编码的生成
假设图像模态的一个查询样本的特征向量为
Figure BDA0002712972090000267
文本模态的一个查询样本的特征向量为
Figure BDA0002712972090000268
图像模态检索样本集中样本的特征向量集为
Figure BDA0002712972090000269
文本模态检索样本集中样本的特征向量集为
Figure BDA00027129720900002610
其中,
Figure BDA00027129720900002611
表示检索样本集中样本的数量。图像模态和文本模态查询样本和检索样本集中样本的哈希编码分别为:
Figure BDA00027129720900002612
Figure BDA00027129720900002613
Figure BDA00027129720900002614
其中,θ(v)和θ(t)分别为求解得到的图像模态和文本模态的深度神经网络参数,
Figure BDA00027129720900002615
sign(·)为符号函数。
(6)计算汉明距离与完成跨模态检索
在计算查询样本到检索样本集中各个样本的汉明距离时,对于图像模态的查询样本
Figure BDA00027129720900002616
使用距离计算公式
Figure BDA00027129720900002617
计算图像模态的查询样本
Figure BDA00027129720900002618
到文本模态检索样本集中样本
Figure BDA00027129720900002619
的汉明距离。对于文本模态的查询样本
Figure BDA0002712972090000271
使用距离计算公式
Figure BDA0002712972090000272
计算文本模态的查询样本
Figure BDA0002712972090000273
到图像模态检索样本集中样本
Figure BDA0002712972090000274
的汉明距离。对于用图像去检索文本的跨模态检索任务,首先对计算得到的
Figure BDA0002712972090000275
个汉明距离
Figure BDA0002712972090000276
按照从小到大的顺序进行排序,然后,在文本检索样本集中取前K个最小距离对应的样本作为检索结果。类似地,对于用文本去检索图像的跨模态检索任务,首先对计算得到的
Figure BDA0002712972090000277
个汉明距离
Figure BDA0002712972090000278
按照从小到大的顺序进行排序,然后,在图像检索样本集中取前K个最小距离对应的样本作为检索结果。
以下结合具体实验对本发明的有益效果进行说明。
本发明在Pascal VOC 2007数据集上进行实验说明其有益效果。Pascal VOC 2007数据集包含来自于20个类别的9963张图像,每幅图像均被标注了标签。数据集被划分成包含5011个图像-标签对的训练集和包含4952个图像-标签对的测试集。图像模态使用原始像素特征作为输入特征。文本模态使用399维的词频特征作为输入特征。实验主要完成用图像检索文本和用文本检索图像这两种跨模态检索任务,为了方便起见,这里将这两种跨模态检索任务分别用Img2Txt和Txt2Img表示。实验在评价跨模态哈希检索方法的性能时使用MAP(Mean Average Precision)这一评价指标。MAP值越大说明跨模态检索的性能越好。实验采用5折交叉验证来确定本发明方法中超参数的值。对比方法中的参数按照各个方法推荐的参数设置原则进行参数设置。报告的结果为进行10次随机实验所得结果的平均值。
与本发明方法进行对比的方法分别为:(1)文献“Pairwise Relationship GuidedDeep Hashing for Cross-Modal Retrieval”(作者E.Yang,C.Deng,W.Liu,X.Liu,D.Tao,and X.Gao)中的PRDH方法;(2)文献“MHTN:Modal-adversarial Hybrid Transfer Networkfor Cross-modal Retrieval”(作者X.Huang,Y.Peng,and M.Yuan)中的MHTN方法;(3)文献“Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval”(作者C.Li,C.Deng,N.Li,W.Liu,X.Gao,and D.Tao)中的SSAH方法。表1列出了本发明方法和对比方法在Pascal VOC 2007数据集上进行跨模态哈希检索时的MAP。从表1可以看出,对于两种检索任务Img2Txt和Txt2Img,本发明方法的跨模态检索性能均优于PRDH、MHTN和SSAH方法。这说明本发明方法是有效的深度跨模态哈希检索方法。这同时也说明本发明基于对抗学习、三元组约束等技术设计的提升特征鉴别力的方案是有效的。
表1各方法在Pascal VOC 2007数据集上的MAP
方法 Img2Txt Txt2Img 平均
PRDH 0.5371 0.5434 0.5425
MHTN 0.5557 0.5582 0.5570
SSAH 0.5790 0.5885 0.5838
本发明 0.6034 0.6168 0.6101
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种跨模态的数据处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图,如图4所示,该装置包括:
获取模块402,用于获取第一模态的查询数据;
处理模块404,用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的预设参数,以得到多个预设参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述预设参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括编码器和鉴别器,所述编码器包括样本编码器和类别标记编码器,每个所述样本对包括样本数据以及类别标记数据,使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开;
确定模块406,用于根据所述多个预设参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
在一个可选的实施例中,所述装置还用于:在获取第一模态的查询数据之前,重复执行以下步骤,直到为所述鉴别器所配置的目标函数的取值最小:获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据;将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果;基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型。
在一个可选的实施例中,所述装置还用于通过如下方式将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果:将所述第一训练数据输入第一编码器,得到第一目标数据,将所述第二训练数据输入第二编码器,得到第二目标数据;将所述类别标记数据输入标记编码器,得到标签数据;将所述第一目标数据和所述标签数据输入第一鉴别器,得到第一鉴别结果,将所述第二目标数据和所述标签数据输入第二鉴别器,得到第二鉴别结果;将所述第一鉴别结果确定为所述第一训练结果,并将所述第二鉴别结果确定为所述第二训练结果。
在一个可选的实施例中,所述装置还用于通过如下至少之一的方式:基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型:基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数;基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。
在一个可选的实施例中,所述装置还用于:基于所述第一训练数据以及第二训练数据生成三元组集,其中,所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据;通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离;通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离;得到约束后的所述第一训练数据和约束后的所述第二训练数据。
在一个可选的实施例中,所述装置还用于:在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,使用符号函数处理所述第一训练数据,得到第一组哈希编码;将所述第一组哈希编码输入第三鉴别器,得到第三鉴别结果;将所述第三鉴别结果确定为第三训练结果;基于所述第三训练结果训练所述第三鉴别器和第一编码器,其中,所述第一初始神经网络模型包括所述第一编码器。
在一个可选的实施例中,所述装置还用于:在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,使用符号函数处理所述第二训练数据,得到第二组哈希编码;将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;将所述第四鉴别结果确定为第四训练结果;基于所述第四训练结果训练所述第四鉴别器和第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一模态的查询数据;
S2,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括编码器和鉴别器,编码器包括样本编码器和类别标记编码器,每个样本对包括样本数据以及类别标记数据,使得样本数据输入样本编码器所得到的数据和类别标记数据输入类别标记编码器所得到的数据无法被鉴别器区分开;
S3,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一模态的查询数据;
S2,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括编码器和鉴别器,编码器包括样本编码器和类别标记编码器,每个样本对包括样本数据以及类别标记数据,使得样本数据输入样本编码器所得到的数据和类别标记数据输入类别标记编码器所得到的数据无法被鉴别器区分开;
S3,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一模态的查询数据;
S2,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括编码器和鉴别器,编码器包括样本编码器和类别标记编码器,每个样本对包括样本数据以及类别标记数据,使得样本数据输入样本编码器所得到的数据和类别标记数据输入类别标记编码器所得到的数据无法被鉴别器区分开;
S3,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种跨模态的数据处理方法,其特征在于,包括:
获取第一模态的查询数据;
分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括编码器和鉴别器,所述编码器包括样本编码器和类别标记编码器,每个所述样本对包括样本数据以及类别标记数据,使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开;
根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
2.根据权利要求1所述的方法,其特征在于,在获取第一模态的查询数据之前,所述方法还包括:
重复执行以下步骤,直到为所述鉴别器所配置的目标函数的取值最小:
获取第一模态的第一训练数据和第二模态的第二训练数据以及类别标记数据;
将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果;
基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型。
3.根据权利要求2所述的方法,其特征在于,将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果,包括:
将所述第一训练数据输入第一编码器,得到第一目标数据,将所述第二训练数据输入第二编码器,得到第二目标数据;
将所述类别标记数据输入标记编码器,得到标签数据;
将所述第一目标数据和所述标签数据输入第一鉴别器,得到第一鉴别结果,将所述第二目标数据和所述标签数据输入第二鉴别器,得到第二鉴别结果;
将所述第一鉴别结果确定为所述第一训练结果,并将所述第二鉴别结果确定为所述第二训练结果。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述第一训练数据以及第二训练数据生成三元组集,其中,所述三元组集中的每个三元组包括被选为锚点的第一训练数据、与所述第一训练数据具有相同标记的第二训练数据以及与所述第一训练数据具有不同标记的第二训练数据;
通过目标函数最小化所述被选为锚点的第一训练数据与所述第一训练数据具有相同标记的第二训练数据之间的欧氏距离;
通过目标函数最大化所述被选为锚点的第一训练数据与所述第一训练数据具有不同标记的第二训练数据之间的欧氏距离;
得到约束后的所述第一训练数据和约束后的所述第二训练数据。
5.根据权利要求2所述的方法,其特征在于,在将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,所述方法还包括:
使用符号函数处理所述第二训练数据,得到第二组哈希编码;
将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;
将所述第四鉴别结果确定为第四训练结果;
基于所述第四训练结果训练所述第四鉴别器和第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
6.根据权利要求2所述的方法,其特征在于,在将所述第一训练数据以及所述类别标记数据输入待训练的第一初始神经网络模型,得到第一训练结果,并将所述第二训练数据以及所述类别标记数据输入待训练的第二初始神经网络模型,得到第二训练结果之前,所述方法还包括:
使用符号函数处理所述第一训练数据,得到第一组哈希编码;
将所述第一组哈希编码输入第三鉴别器,得到第三鉴别结果;
将所述第三鉴别结果确定为第三训练结果;
基于所述第三训练结果训练所述第三鉴别器和所述第一编码器,其中,所述第一初始神经网络模型包括所述第一编码器;
使用所述符号函数处理所述第二训练数据,得到第二组哈希编码;
将所述第二组哈希编码输入第四鉴别器,得到第四鉴别结果;
将所述第四鉴别结果确定为第四训练结果;
基于所述第四训练结果训练所述第四鉴别器和所述第二编码器,其中,所述第二初始神经网络模型包括所述第二编码器。
7.根据权利要求2所述的方法,其特征在于,基于所述第一训练结果以及所述第二训练结果,调整所述目标神经网络模型的预设参数,以得到所述目标神经网络模型,包括以下至少之一:
基于所述第一训练结果和所述第二训练结果使用后向传播算法确定所述目标神经网络模型的参数;
基于所述第一训练结果和所述第二训练结果使用随机梯度下降算法确定所述目标神经网络模型的参数。
8.一种跨模态的数据处理装置,其特征在于,包括:
获取模块,用于获取第一模态的查询数据;
处理模块,用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括编码器和鉴别器,所述编码器包括样本编码器和类别标记编码器,每个所述样本对包括样本数据以及类别标记数据,使得所述样本数据输入所述样本编码器所得到的数据和所述类别标记数据输入类别标记编码器所得到的数据无法被所述鉴别器区分开;
确定模块,用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。
CN202011063068.6A 2020-09-30 2020-09-30 跨模态的数据处理方法、装置、存储介质以及电子装置 Pending CN112199462A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011063068.6A CN112199462A (zh) 2020-09-30 2020-09-30 跨模态的数据处理方法、装置、存储介质以及电子装置
PCT/CN2021/091214 WO2022068195A1 (zh) 2020-09-30 2021-04-29 跨模态的数据处理方法、装置、存储介质以及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011063068.6A CN112199462A (zh) 2020-09-30 2020-09-30 跨模态的数据处理方法、装置、存储介质以及电子装置

Publications (1)

Publication Number Publication Date
CN112199462A true CN112199462A (zh) 2021-01-08

Family

ID=74013547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011063068.6A Pending CN112199462A (zh) 2020-09-30 2020-09-30 跨模态的数据处理方法、装置、存储介质以及电子装置

Country Status (2)

Country Link
CN (1) CN112199462A (zh)
WO (1) WO2022068195A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515657A (zh) * 2021-07-06 2021-10-19 天津大学 一种跨模态多视角目标检索方法及装置
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942984B (zh) * 2022-05-26 2023-11-21 北京百度网讯科技有限公司 视觉场景文本融合模型的预训练和图文检索方法及装置
CN115984302B (zh) * 2022-12-19 2023-06-06 中国科学院空天信息创新研究院 基于稀疏混合专家网络预训练的多模态遥感图像处理方法
CN116051830B (zh) * 2022-12-20 2023-06-20 中国科学院空天信息创新研究院 一种面向跨模态数据融合的对比语义分割方法
CN116049459B (zh) * 2023-03-30 2023-07-14 浪潮电子信息产业股份有限公司 跨模态互检索的方法、装置、服务器及存储介质
CN116431788B (zh) * 2023-04-14 2024-03-29 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
CN116825210B (zh) * 2023-08-28 2023-11-17 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN117171934B (zh) * 2023-11-03 2024-01-26 成都大学 一种基于pod-anns的架空输电线路舞动响应预测方法
CN117194605B (zh) * 2023-11-08 2024-01-19 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN110990595A (zh) * 2019-12-04 2020-04-10 成都考拉悠然科技有限公司 一种跨域对齐嵌入空间的零样本跨模态检索方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250314B2 (en) * 2017-10-27 2022-02-15 Cognizant Technology Solutions U.S. Corporation Beyond shared hierarchies: deep multitask learning through soft layer ordering
CN108256627A (zh) * 2017-12-29 2018-07-06 中国科学院自动化研究所 视听信息互生装置及其基于循环对抗生成网络的训练系统
CN112199462A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN110990595A (zh) * 2019-12-04 2020-04-10 成都考拉悠然科技有限公司 一种跨域对齐嵌入空间的零样本跨模态检索方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI CHAO 等: ""Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval"", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
陈莹 等: ""基于多模态生成对抗网络和三元组损失的说话人识别"", 《电子与信息学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN113515657A (zh) * 2021-07-06 2021-10-19 天津大学 一种跨模态多视角目标检索方法及装置
CN113515657B (zh) * 2021-07-06 2022-06-14 天津大学 一种跨模态多视角目标检索方法及装置

Also Published As

Publication number Publication date
WO2022068195A1 (zh) 2022-04-07

Similar Documents

Publication Publication Date Title
CN112199462A (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
TWI677852B (zh) 一種圖像特徵獲取方法及裝置、電子設備、電腦可讀存儲介質
Wu et al. Deep convolutional neural network with independent softmax for large scale face recognition
Liu et al. Scene classification using hierarchical Wasserstein CNN
US20170372169A1 (en) Method and apparatus for recognizing image content
CN101373519B (zh) 字符识别装置和方法
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
Bui et al. Scalable sketch-based image retrieval using color gradient features
CN109376796A (zh) 基于主动半监督学习的图像分类方法
CN106844518B (zh) 一种基于子空间学习的不完整跨模态检索方法
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN113127632B (zh) 基于异质图的文本摘要方法及装置、存储介质和终端
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN112800292A (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN105989001A (zh) 图像搜索方法及装置、图像搜索系统
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
CN110399547A (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN108345942B (zh) 一种基于嵌入编码学习的机器学习识别方法
CN112287140A (zh) 一种基于大数据的图像检索方法及系统
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN114238622A (zh) 关键信息的提取方法和装置、存储介质及电子装置
CN110378342B (zh) 基于卷积神经网络识别单词的方法和装置
CN115577688B (zh) 表格结构化处理方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210108