CN110188209B - 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 - Google Patents

基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 Download PDF

Info

Publication number
CN110188209B
CN110188209B CN201910393905.2A CN201910393905A CN110188209B CN 110188209 B CN110188209 B CN 110188209B CN 201910393905 A CN201910393905 A CN 201910393905A CN 110188209 B CN110188209 B CN 110188209B
Authority
CN
China
Prior art keywords
hash
hierarchical
modal
cross
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910393905.2A
Other languages
English (en)
Other versions
CN110188209A (zh
Inventor
王润琦
宋雪萌
孙畅畅
崔超然
关惟俐
宓生润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910393905.2A priority Critical patent/CN110188209B/zh
Publication of CN110188209A publication Critical patent/CN110188209A/zh
Application granted granted Critical
Publication of CN110188209B publication Critical patent/CN110188209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种基于层次标签的跨模态哈希模型构建方法、搜索方法及装置,接收多模态数据集,进行预处理;将预处理后的样本根据模态的不同将相对的数据输入预训练的多路径神经网络;根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;根据层次标签构建预处理后样本在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;根据每层哈希表示得到哈希码;训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型,用于跨模态搜索。

Description

基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
技术领域
本公开属于多媒体数据搜索的技术领域,涉及一种基于层次标签的跨模态哈希模型构建方法、搜索方法及装置。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着多媒体设备的蓬勃发展,互联网上多媒体数据量空前增长。数据往往以多种模态存在,如图片、文本和视频等形式。数据的这些模态之间往往存在着语义相关,从不同的角度对同一对象进行表达,使得人们对数据拥有更加清晰完整的认识。在实际生活应用中,如各大电商平台,人们越来越倾向于在不同模态数据之间进行相互检索,根据已知的某种模态的数据,检索出符合要求的目标模态的相似数据。因此有关跨模态检索的研究受到越来越多的关注,许多与此相关的检索方法也应运而生。其中,由于多媒体数据量巨大且不同模态数据源异构,实现这一检索目标面临着各种各样的困难。如检索效率低、数据存储困难等。这也因此催生出一种新的数据存储与检索方式--跨模态哈希。旨在将原始异构的高维多模态数据通过某种方法从原始空间映射到汉明空间,生成一个低维的哈希序列,同时保留原数据之间的语义相关关系,降低存储耗费,提高检索速度。
由于“低存储”和“速度快”,跨模态哈希方法已经受到许多研究者的关注。无论是从准确率上,还是从方法的可扩展性上,一些经典的跨模态哈希算法已经取得了很好的性能,也广泛应用于实际的生活应用中。从无监督哈希算法到有监督哈希算法,研究者试图最大化地利用已有的标签信息去提高跨模态哈希方法的检索性能,尽可能保持跨模态数据在原始空间中的语义相关关系。
然而,发明人在研发过程中发现,现有的技术在标签信息的使用上仍然存在一些不足,未能充分挖掘标签信息内部存在的潜在关联,如标签之间存在层次关系,只是简单地将已有的标签信息独立看待,在标签信息的处理与利用上不够精准,从而未能达到最好的性能。如何挖掘并利用标签信息内部存在的层次关系,并将其应用到算法中,实现有监督数据映射过程,从而提高跨模态哈希算法检索性能是非常具有挑战性的。
发明内容
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种基于层次标签的跨模态哈希模型构建方法、搜索方法及装置,将深度学习与跨模态哈希相结合,构建端到端的多路径神经网络,挖掘已有标签信息内部的层次关系,用层次标签对神经网络进行监督学习,得到将源数据从原始空间映射到汉明空间的映射函数;本公开克服现有方法忽略标签之间的层次关系,对所有标签信息同等独立对待的弊端,在提高跨模态检索的准确率的同时,最大限度的保持数据原有的语义关系。
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态哈希模型构建方法。
一种基于层次标签的跨模态哈希模型构建方法,该方法包括:
接收多模态数据集,对其中的样本进行预处理过滤干扰数据;
将预处理后的样本根据模态的不同将相对的数据输入预训练的多路径神经网络;
根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;
根据层次标签构建预处理后样本在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;
采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;
根据每层哈希表示得到哈希码,正则化哈希表示和哈希码,并平衡学习哈希码将其中的信息最大化;
训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型。
进一步地,在该方法中,所述干扰数据为最细粒度的类别中数据少于预设预制的数据。
进一步地,在该方法中,所述多模态数据包括图片数据和文本数据,将所述图片数据的原始RGB像素值输入预训练的多路径神经网络,将所述文本数据通过构建词典,采用词袋模型将其映射为向量输入预训练的多路径神经网络。
进一步地,在该方法中,所述不同模态的层次哈希表示分别将各层进行拼接,得到不同模态的完整哈希表示。
进一步地,在该方法中,所述根据层次标签构建预处理后样本在不同层次上的相似矩阵的步骤为:根据预处理后样本在该层是否具有相同的类别来定义相似矩阵的值,得到该层的相似矩阵;
所述根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性的步骤为:采用最大似然函数,根据每层相似矩阵中值训练哈希表示的内积,保持数据在原始空间与汉明空间中语义的一致性。
进一步地,在该方法中,所述采用不同粒度的层次标签在神经网络训练过程中为每一层分配不同的权重,并在神经网络训练过程中进行参数调节。
进一步地,在该方法中,将所述不同模态的层次哈希表示继续进行相应层的多分类工作,增加所得哈希码的判别性。
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于层次标签的跨模态哈希模型构建方法。
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于层次标签的跨模态哈希模型构建方法。
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态哈希模型构建装置。
一种基于层次标签的跨模态哈希模型构建装置,基于所述的一种基于层次标签的跨模态哈希模型构建方法,包括:
预处理模块,被配置为接收多模态数据集,对其中的样本进行预处理过滤干扰数据;
输入模块,被配置为将预处理后的多模态数据根据模态的不同将相对的数据输入预训练的多路径神经网络;
特征提取模块,被配置为根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;
特征提取模块,被配置为根据层次标签构建多模态对在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;
特征提取模块,被配置为采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;
特征提取模块,被配置为根据每层哈希表示得到哈希码,正则化哈希表示和哈希码,并平衡学习哈希码将其中的信息最大化;
模型建立模块,被配置为训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型。
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态搜索方法。
一种基于层次标签的跨模态搜索方法,该方法包括:
接收待搜索多媒体数据;
将待搜索多媒体数据输入所述的一种基于层次标签的跨模态哈希模型构建方法建立的基于层次标签的深度跨模态哈希模型,得到搜索结果。
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于层次标签的跨模态搜索方法。
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于层次标签的跨模态搜索方法。
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态搜索装置。
一种基于层次标签的跨模态搜索装置,基于所述的一种基于层次标签的跨模态搜索方法,包括:
数据接收模块,被配置为接收待搜索多媒体数据;
数据搜索模块,被配置为将待搜索多媒体数据输入所述的一种基于层次标签的跨模态哈希模型构建方法建立的基于层次标签的深度跨模态哈希模型,得到搜索结果。
本公开的有益效果:
本公开提供的一种基于层次标签的跨模态哈希模型构建方法、搜索方法及装置,研究数据类别之间的层次关系,用于监督跨模态哈希的过程。在构建的基于层次标签的跨模态哈希模型中,利用类别之间存在的层次结构,用每一层类别信息分别监督每一层哈希码的产生,并且使用各层次的类别,通过分类器继续改善哈希码的判别性,不仅是在检索的准确率(MAP)上,还是在返回的检索结果的整体排序上,与已有的经典的有监督哈希算法CCA、SCM、DCH、CDQ、DCMH相比,本发明取得了较好的结果。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型构建方法流程图;
图2是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型构建方法具体流程图;
图3是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型构建方法具体网络框架图;
图4是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型所使用数据集的一种标签层次结构;
图5是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型所使用数据集的另一种标签层次结构;
图6是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型在具体检索过程中的结果示例;
图7是根据一个或多个实施例的一种基于层次标签的跨模态哈希模型在具体检索过程中的结果示例。
具体实施方式:
下面将结合本公开的一个或多个实施例中的附图,对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合,下面结合附图与实施例对本公开作进一步说明。
实施例一
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态哈希模型构建方法。
如图1所示,一种基于层次标签的跨模态哈希模型构建方法,该方法包括:
S1接收多模态数据集,对其中的样本进行预处理过滤干扰数据;
S2将预处理后的样本根据模态的不同将相对的数据输入预训练的多路径神经网络;
S3根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;
S4根据层次标签构建预处理后样本在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;
S5采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;
S6根据每层哈希表示得到哈希码,正则化哈希表示和哈希码,并平衡学习哈希码将其中的信息最大化;
S7训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型。
在本实施例中,旨在通过将深度学习与跨模态哈希相结合,设计一个端到端的双路径神经网络,挖掘已有标签信息内部的层次关系,用层次标签对神经网络进行监督学习,得到将源数据从原始空间映射到汉明空间的映射函数。克服现有方法忽略标签之间的层次关系,对所有标签信息同等独立对待的弊端,在提高跨模态检索的准确率的同时,最大限度的保持数据原有的语义关系。同时,利用层次分类器,提高所获哈希码的判别性。本实施例主要在时尚领域的数据集上进行验证,在具体实施过程中,能够对电子商务等平台的商品检索带来积极有利的影响。
然而,与现有的有监督跨模态哈希方法相比,如何挖掘并利用标签信息内部存在的层次关系,并将其应用到算法中,实现有监督数据映射过程,从而提高跨模态哈希算法检索性能是非常具有挑战性的。
现存的大多数跨模态哈希方法还未与深度学习相结合,未能充分发挥深度学习的优势。为了更好的提高算法性能,本实施例采用深度学习的技术,用已经获取的标签信息,设计符合要求的目标函数,通过训练的方式得到本实施例最终的映射函数。如何实现这个监督过程,设计合理目标函数,是完成此项任务的一大挑战。
为了保持数据在原始空间与汉明空间语义关系的一致性,本实施例要设计一定的方法保持这种一致性。并且为了使获得哈希码更加的具有判别性,即尽可能使原本语义相近的数据在汉明空间中拥有较近的距离,反之原来语义不同的数据在汉明空间中的距离尽可能大。本实施例要继续利用一定的技术手段来满足这种要求。
由于本实施例利用了标签信息的层次性,不同层次的标签代表了不同的粒度信息。显然,不同层的标签信息在发挥作用时,对结果的影响程度会有不同。因此,寻找最佳的层次比是一项必须完成的任务。
通过构造一个端到端的基于层次标签的深度跨模态哈希模型(HiCHNet)来解决上述的技术问题。本实施例发掘已有的层次标签内部存在的层次关系,利用这些具有层次结构的种类信息去监督神经网络的训练过程,得到层次哈希表示,并设计层次分类器,对得到的每一层哈希表示在对应层上进行多分类操作,进而提高所获哈希码的判别性。另外,考虑到不同粒度的标签信息在发挥作用时,重要性不同,本实施例进行了具体的比例分析,从而得到能达到最佳性能的层次比。
如图2-图3所示,本实施例以图片和文本这两种模态为例进行说明。基于层次标签的深度跨模态哈希模型来实现跨模态搜索的方法,包括以下步骤:
S1:对多模态数据集进行预处理,过滤掉干扰数据。本实施例将最细粒度的类别中数据少于一定值的数据过滤掉,避免由于每个类别数据数量不均衡而对结果产生不良影响。
S2:对于图片数据,将其原始RGB像素值作为卷积神经网络的输入。对于文本数据,通过构建词典,采用“词袋模型”,将每一个文本映射成向量的形式。
S3:利用现有的VGG预训练神经网络并设计多层感知机分别提取图片和文本特征,得到图片和文本的层次哈希表示。
当然,本实施例还可以尝试使用其他的神经网络完成特征提取的工作。在最后,本实施例将各层哈希表示进行拼接,得到本实施例完整的哈希表示。
S4:根据层次标签,构建“图片-文本对”在不同层上的相似矩阵,用于之后监督跨模态哈希的训练过程。如图4-图5所示。
S5:对每一层单独处理,利用哈希表示的内积评测样本之间的语义相似性。采用最大似然函数,根据每层相似矩阵中值,对“哈希表示”内积进行训练,达到保持数据在原始空间与汉明空间中语义的一致性的目的。
S6:使用不同粒度的标签,注意到不同粒度标签在神经网络训练过程中可能发挥不同的作用,本实施例要对层次比进行分析,观察不同层次比对最终性能的影响,获得最佳层次比。
S7:为了获取哈希码,利用符号函数,对获得的每一层哈希表示进行操作,得到用“1”与“-1”表示的层次哈希码。为了正则化“哈希码”与“哈希表示”之间的差距,本实施例使用L2-Norm,缩小哈希码与哈希表示在数值上的差距。此外,本实施例通过一定的方法平衡学习得到的哈希码,使每一位哈希码传达的信息最大化。
S8:基于有监督的跨模态哈希学习方法的目标是为了使最终得到的哈希码包含更多的原始语义信息,使数据在映射前后空间相对位置保持一致性。为了更好的将哈希码与层次标签信息相关联,本实施例对得到的分层哈希表示继续进行相应层的多分类工作,增加所得哈希码的判别性,更好地监督哈希码的学习过程。
S9:综合前面步骤的描述,本实施例就可以得到最终的损失函数,使用SGD梯度下降法对设计的“双路径”神经网络进行优化训练,得到最终的映射函数。
所述步骤S1的过程还包括:
S11:采用一个公开并且标签信息具有层次结构的数据集FashionVC,这个数据集起初是用于服装搭配的研究,分为男装和女装。考虑到男装与女装的很多类别(如牛仔裤)在视觉上差异不大,本实施例对数据集标签原有的层次标签进行重新处理,删除层次结构中的一些不必要的节点。另外,为了使结果更加具有说服力,本实施例爬取了Ssense网站中商品图片及文本描述,同样对网站中已经存在的层次标签信息进行整理,构建一个适合本实施例研究的新数据集。
S12:数据预处理之后,假设每个数据集本实施例得到N个图片-文本对,
Figure GDA0003003247090000131
其中
Figure GDA0003003247090000132
每个图片-文本对都附带具有层次结构的种类信息Yi,从不同粒度对类别进行说明,用k表示层次,K表示层次标签的总层数(不包括根节点),k=1,2,…,K,则
Figure GDA0003003247090000133
所述步骤S3的过程还包括:
S31:本实施例使用
Figure GDA0003003247090000134
表示图片vi在各层上的哈希表示。将各层哈希表示进行拼接,得到
Figure GDA0003003247090000135
作为图片vi最终的哈希表示。
S32:本实施例使用
Figure GDA0003003247090000136
表示文本ti在各层上的哈希表示。将各层哈希表示进行拼接,得到
Figure GDA0003003247090000137
作为文本ti最终的哈希表示。
所述步骤S4的过程还包括:
S41:在构建各层相似矩阵时,本实施例根据样本在该层是否具有相同的类别来定义相似矩阵的值。当标签层数为K时,则得到相似矩阵集合
Figure GDA0003003247090000138
其中Sk∈{0,1}N×N
所述步骤S5的过程还包括:
S51:为了保持不同模态之间以及单一模态内部之间在映射前后的语义相似性,本实施例设计一定的方法,使用上一步得到的相似矩阵去监督哈希表示的学习过程。理论上,两个对象的类别在各层次上重合的越多,其相似性越高,那么其在汉明空间中的距离应该更近。对于第k层的哈希表示,本实施例使用
Figure GDA0003003247090000139
表示图片vi与文本tj之间的相似度。
S52:为了保持数据在映射前后的语义相似,本实施例希望在第k层,当相似性
Figure GDA00030032470900001310
为1时,
Figure GDA00030032470900001311
尽可能的大,反之当
Figure GDA00030032470900001312
为0时,
Figure GDA00030032470900001313
尽可能的小。因此本实施例定义下面的似然函数来实现这个目标:
Figure GDA00030032470900001314
其中σ表示sigmoid函数。本质上来讲,本实施例希望当数据之间分享越多的标签,其相似度越高,在汉明空间中的距离越小。
S53:经过简单的数学运算,本实施例S52中的式子取对数处理,得到如下形式:
Figure GDA0003003247090000141
所述步骤S6的过程还包括:
S61:本实施例为每一层分配不同的权重,代表其在神经网络训练过程中的重要性,从而得到下面的目标函数Γ1
Figure GDA0003003247090000142
其中τk表示每一层的权重,且τ12+…+τK=1。本实施例需要在神经网络训练过程中进行参数调节,以达到最优性能。
所述步骤S7的过程还包括:
S71:对于在步骤S31和S32中得到的图片和文本在各层上的哈希表示
Figure GDA0003003247090000143
Figure GDA0003003247090000144
通过符号函数,得到对应的哈希码
Figure GDA0003003247090000145
Figure GDA0003003247090000146
为了表示的方便,本实施例使用一系列的矩阵分别表示所有图片与文本的哈希表示以及哈希码,即
Figure GDA0003003247090000147
Figure GDA0003003247090000148
其中
Figure GDA0003003247090000149
S72:为了得到最优的哈希表示,从而得到最优的哈希码,本实施例设计以下的函数:
Figure GDA00030032470900001410
S73:为了平衡得到的哈希码,每一位哈希码传达更多的信息,本实施例采用下式:
Figure GDA00030032470900001411
其中a=[1,1,…,1]T∈RN
S74:综上所述,本实施例得到了如下的目标函数:
Figure GDA00030032470900001412
Figure GDA0003003247090000151
其中α和β是后面两项的权衡函数。
所述步骤S8的过程还包括:
S81:本实施例对哈希表示层得到的各层哈希表示,利用一个全连接层网络作为分类器,以数据在各层上的原始类别作为基准,在各层上进行多分类的工作。
S82:在第k层进行分类时,假设图片输出分类结果为
Figure GDA0003003247090000152
文本输出结果为
Figure GDA0003003247090000153
则可以下面式子得到:
Figure GDA0003003247090000154
Figure GDA0003003247090000155
其中
Figure GDA0003003247090000156
分别表示全连接网络的参数。
S83:同样,本实施例考虑不同粒度的类别对于判别正则化的贡献不同,因此本实施例对不同层的多分类工作分配不同的权重,使用交叉熵作为损失函数,得到如下式子:
Figure GDA0003003247090000157
其中log是对向量中的每一个元素取对数,ρk为层次比。
所述步骤S9的过程还包括:
S91:综合前面所有步骤,本实施例得到最终的目标函数为:
γΨh+(1-γ)Ψr
其中γ为非负平衡参数,用来平衡哈希过程与多分类过程之间的比重。
与已有的经典的有监督哈希算法CCA、SCM、DCH、CDQ、DCMH相比,本发明在检索的平均准确率(MAP)上取得了较好的结果。目前存在的这些有监督的哈希方法在利用类别信息时,都存在一个共同的弊端,即将数据所属的类别信息看做是相互独立的,仅仅根据两个样本是否分享至少一个种类标签来判断样本相似性,未能发掘这些类别之间存在的层次关系。因而,在将数据由原始空间映射到汉明空间时,在语义相似性的保持上会造成一些偏差。比如,现有三个样本分别属于短裙、长裙和牛仔裤。已有的方法会将这三个类别的数据当做独立的三个类,它们两两之间的相似关系是一样的,但是他们忽略了一个重要的问题,即短裙和长裙都属于裙子这个类别,它们之间的相似关系应该要比与牛仔裤的相似程度要大。因此,在本发明中,本实施例从这个角度出发,研究数据类别之间的层次关系,用于监督跨模态哈希的过程。在本实施例的模型中,本实施例利用类别之间存在的层次结构,用每一层类别信息分别监督每一层哈希码的产生,并且使用各层次的类别,通过分类器继续改善哈希码的判别性。这样,不仅是在检索的准确率上,还是在返回的检索结果的整体排序上(如输入短裙,所有的返回结果整体排序应为短裙在长裙前面,牛仔裤排在最后),本实施例都能取得很好的性能,图6-图7所示。
实施例二
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于层次标签的跨模态哈希模型构建方法。
实施例三
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于层次标签的跨模态哈希模型构建方法。
实施例四
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态哈希模型构建装置。
一种基于层次标签的跨模态哈希模型构建装置,基于所述的一种基于层次标签的跨模态哈希模型构建方法,包括:
预处理模块,被配置为接收多模态数据集,对其中的样本进行预处理过滤干扰数据;
输入模块,被配置为将预处理后的多模态数据根据模态的不同将相对的数据输入预训练的多路径神经网络;
特征提取模块,被配置为根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;
特征提取模块,被配置为根据层次标签构建多模态对在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;
特征提取模块,被配置为采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;
特征提取模块,被配置为根据每层哈希表示得到哈希码,正则化哈希表示和哈希码,并平衡学习哈希码将其中的信息最大化;
模型建立模块,被配置为训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型。
实施例五
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态搜索方法。
一种基于层次标签的跨模态搜索方法,该方法包括:
接收待搜索多媒体数据;
将待搜索多媒体数据输入实施例一所述的一种基于层次标签的跨模态哈希模型构建方法建立的基于层次标签的深度跨模态哈希模型,得到搜索结果。
实施例六
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于层次标签的跨模态搜索方法。
实施例七
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于层次标签的跨模态搜索方法。
这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。
在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。
实施例八
根据本公开的一个或多个实施例的一个方面,提供一种基于层次标签的跨模态搜索装置。
一种基于层次标签的跨模态搜索装置,基于所述的一种基于层次标签的跨模态搜索方法,包括:
数据接收模块,被配置为接收待搜索多媒体数据;
数据搜索模块,被配置为将待搜索多媒体数据输入所述的一种基于层次标签的跨模态哈希模型构建方法建立的基于层次标签的深度跨模态哈希模型,得到搜索结果。
应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于层次标签的跨模态哈希模型构建方法,其特征在于,该方法包括:
接收多模态数据集,对其中的样本进行预处理过滤干扰数据;
将预处理后的样本根据模态的不同将相对的数据输入预训练的多路径神经网络;
根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;
根据层次标签构建预处理后样本在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;
采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;
根据每层哈希表示得到哈希码,正则化哈希表示和哈希码,并平衡学习哈希码将其中的信息最大化;
训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型;
所述根据层次标签构建预处理后样本在不同层次上的相似矩阵的步骤为:根据预处理后样本在该层是否具有相同的类别来定义相似矩阵的值,得到该层的相似矩阵;
所述根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性的步骤为:采用最大似然函数,根据每层相似矩阵中值训练哈希表示的内积,保持数据在原始空间与汉明空间中语义的一致性;
在该方法中,所述采用不同粒度的层次标签在神经网络训练过程中为每一层分配不同的权重,并在神经网络训练过程中进行参数调节。
2.如权利要求1所述的一种基于层次标签的跨模态哈希模型构建方法,其特征在于,在该方法中,所述干扰数据为最细粒度的类别中数据少于预设预制的数据;
和/或,在该方法中,所述多模态数据包括图片数据和文本数据,将所述图片数据的原始RGB像素值输入预训练的多路径神经网络,将所述文本数据通过构建词典,采用词袋模型将其映射为向量输入预训练的多路径神经网络;
和/或,在该方法中,所述不同模态的层次哈希表示分别将各层进行拼接,得到不同模态的完整哈希表示。
3.如权利要求1所述的一种基于层次标签的跨模态哈希模型构建方法,其特征在于,在该方法中,将所述不同模态的层次哈希表示继续进行相应层的多分类工作,增加所得哈希码的判别性。
4.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1-3任一项所述的一种基于层次标签的跨模态哈希模型构建方法。
5.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求1-3任一项所述的一种基于层次标签的跨模态哈希模型构建方法。
6.一种基于层次标签的跨模态哈希模型构建装置,其特征在于,基于如权利要求1-3所述的一种基于层次标签的跨模态哈希模型构建方法,包括:
预处理模块,被配置为接收多模态数据集,对其中的样本进行预处理过滤干扰数据;
输入模块,被配置为将预处理后的多模态数据根据模态的不同将相对的数据输入预训练的多路径神经网络;
特征提取模块,被配置为根据预训练的神经网络和多层感知机分别提取不同模态的特征数据,得到不同模态的层次哈希表示;
特征提取模块,被配置为根据层次标签构建多模态对在不同层次上的相似矩阵,根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性;
特征提取模块,被配置为采用不同粒度的层次标签,并分析层次比对神经网络性能影响,确定最佳层次比;
特征提取模块,被配置为根据每层哈希表示得到哈希码,正则化哈希表示和哈希码,并平衡学习哈希码将其中的信息最大化;
模型建立模块,被配置为训练双路径神经网络,并使用SGD梯度下降法优化训练双路径神经网络,建立基于层次标签的深度跨模态哈希模型;
所述根据层次标签构建预处理后样本在不同层次上的相似矩阵的步骤为:根据预处理后样本在该层是否具有相同的类别来定义相似矩阵的值,得到该层的相似矩阵;
所述根据每层相似矩阵中值训练哈希表示的内积,评测样本之间的语义相似性的步骤为:采用最大似然函数,根据每层相似矩阵中值训练哈希表示的内积,保持数据在原始空间与汉明空间中语义的一致性;
在该方法中,所述采用不同粒度的层次标签在神经网络训练过程中为每一层分配不同的权重,并在神经网络训练过程中进行参数调节。
7.一种基于层次标签的跨模态搜索方法,其特征在于,该方法包括:
接收待搜索多媒体数据;
将待搜索多媒体数据输入如权利要求1-3任一项所述的一种基于层次标签的跨模态哈希模型构建方法建立的基于层次标签的深度跨模态哈希模型,得到搜索结果。
8.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求7所述的一种基于层次标签的跨模态搜索方法。
9.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求7所述的一种基于层次标签的跨模态搜索方法。
10.一种基于层次标签的跨模态搜索装置,其特征在于,基于如权利要求7所述的一种基于层次标签的跨模态搜索方法,包括:
数据接收模块,被配置为接收待搜索多媒体数据;
数据搜索模块,被配置为将待搜索多媒体数据输入所述的一种基于层次标签的跨模态哈希模型构建方法建立的基于层次标签的深度跨模态哈希模型,得到搜索结果。
CN201910393905.2A 2019-05-13 2019-05-13 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 Active CN110188209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393905.2A CN110188209B (zh) 2019-05-13 2019-05-13 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393905.2A CN110188209B (zh) 2019-05-13 2019-05-13 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置

Publications (2)

Publication Number Publication Date
CN110188209A CN110188209A (zh) 2019-08-30
CN110188209B true CN110188209B (zh) 2021-06-04

Family

ID=67716066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393905.2A Active CN110188209B (zh) 2019-05-13 2019-05-13 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置

Country Status (1)

Country Link
CN (1) CN110188209B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7342544B2 (ja) * 2019-09-09 2023-09-12 富士通株式会社 学習プログラムおよび学習方法
CN111090763B (zh) * 2019-11-22 2024-04-05 北京视觉大象科技有限公司 一种图片自动标签方法及装置
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN111353076B (zh) * 2020-02-21 2023-10-10 华为云计算技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111639197B (zh) * 2020-05-28 2021-03-12 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
CN111930972B (zh) * 2020-08-04 2021-04-27 山东大学 利用标签层次信息的多媒体数据跨模态检索方法及系统
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN113010720B (zh) * 2021-02-24 2022-06-07 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法
CN113326289B (zh) * 2021-08-02 2021-11-02 山东大学 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN113961727B (zh) * 2021-09-13 2022-10-21 哈尔滨工业大学(深圳) 一种跨媒体哈希检索方法、装置、终端及存储介质
CN114821247B (zh) * 2022-06-30 2022-11-01 杭州闪马智擎科技有限公司 一种模型的训练方法、装置、存储介质及电子装置
CN116662490B (zh) * 2023-08-01 2023-10-13 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置
CN116956991B (zh) * 2023-09-21 2024-01-09 牛津大学(苏州)科技有限公司 多层感知机模型参数调整方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109522821A (zh) * 2018-10-30 2019-03-26 武汉大学 一种基于跨模态深度哈希网络的大规模跨源遥感影像检索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346440B (zh) * 2014-10-10 2017-06-23 浙江大学 一种基于神经网络的跨媒体哈希索引方法
US10650311B2 (en) * 2016-12-19 2020-05-12 Asaap, Inc. Suggesting resources using context hashing
US20190108448A1 (en) * 2017-10-09 2019-04-11 VAIX Limited Artificial intelligence framework
CN108510066B (zh) * 2018-04-08 2020-05-12 湃方科技(天津)有限责任公司 一种应用于卷积神经网络的处理器
CN109492101B (zh) * 2018-11-01 2020-11-17 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109522821A (zh) * 2018-10-30 2019-03-26 武汉大学 一种基于跨模态深度哈希网络的大规模跨源遥感影像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cross-Media Hashing with Neural Networks;Zhuang, Yueting 等;《PROCEEDINGS OF THE 2014 ACM CONFERENCE ON MULTIMEDIA》;20141130;901-904 *
基于表示学习的跨模态检索模型与特征抽取研究综述;李志义 等;《情报学报》;20180430;第37卷(第04期);422-435 *

Also Published As

Publication number Publication date
CN110188209A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188209B (zh) 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
US10438091B2 (en) Method and apparatus for recognizing image content
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
Ke et al. End-to-end automatic image annotation based on deep CNN and multi-label data augmentation
US20220343626A1 (en) Text Based Image Search
Byeon et al. Scene labeling with lstm recurrent neural networks
WO2022104540A1 (zh) 一种跨模态哈希检索方法、终端设备及存储介质
Zhao et al. Hi-Fi: Hierarchical feature integration for skeleton detection
US10055673B2 (en) Method and device for processing an image of pixels, corresponding computer program product and computer-readable medium
CN110188210B (zh) 一种基于图正则化与模态独立的跨模态数据检索方法及系统
Gomez et al. A fast hierarchical method for multi-script and arbitrary oriented scene text extraction
US9639598B2 (en) Large-scale data clustering with dynamic social context
Alsanad et al. YOLO-V3 based real-time drone detection algorithm
Zhang et al. Large-scale aerial image categorization using a multitask topological codebook
CN113657087B (zh) 信息的匹配方法及装置
Zhang et al. Hashgan: Attention-aware deep adversarial hashing for cross modal retrieval
CN107315984B (zh) 一种行人检索的方法及装置
US8150212B2 (en) System and method for automatic digital image orientation detection
Alamuru et al. Video event detection, classification and retrieval using ensemble feature selection
Dutta et al. Generalized zero-shot cross-modal retrieval
El‐Masry et al. Action recognition by discriminative EdgeBoxes
Visentini et al. Cascaded online boosting
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
Cheng et al. Sparse representations based distributed attribute learning for person re-identification
Xue et al. Mutual information guided 3D ResNet for self‐supervised video representation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant