CN113961727B - 一种跨媒体哈希检索方法、装置、终端及存储介质 - Google Patents

一种跨媒体哈希检索方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN113961727B
CN113961727B CN202111067916.5A CN202111067916A CN113961727B CN 113961727 B CN113961727 B CN 113961727B CN 202111067916 A CN202111067916 A CN 202111067916A CN 113961727 B CN113961727 B CN 113961727B
Authority
CN
China
Prior art keywords
sample data
hash
data set
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111067916.5A
Other languages
English (en)
Other versions
CN113961727A (zh
Inventor
张正
罗浩洋
卢光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202111067916.5A priority Critical patent/CN113961727B/zh
Publication of CN113961727A publication Critical patent/CN113961727A/zh
Application granted granted Critical
Publication of CN113961727B publication Critical patent/CN113961727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨媒体哈希检索方法、装置、终端及存储介质,方法包括:在样本数据集中选取至少一个样本数据组,得到目标训练批次;确定目标样本数据组对应的样本哈希特征;确定目标样本数据组对应的预测标签向量;根据目标样本数据组对应的样本标签向量获取目标样本数据组对应的标签哈希特征;根据样本哈希特征、标签哈希特征、样本标签向量、以及预测标签向量确定训练损失,根据训练损失对第一特征哈希学习网络和第二特征哈希学习网络的参数进行更新;采用参数收敛后的第一特征哈希学习网络确定第一媒体类型的数据的哈希码,采用参数收敛后的第二特征哈希学习网络确定第二媒体类型的数据的哈希码。本发明能够提升跨媒体哈希检索的准确性。

Description

一种跨媒体哈希检索方法、装置、终端及存储介质
技术领域
本发明涉及哈希检索技术领域,特别涉及一种跨媒体哈希检索方法、装置、终端及存储介质。
背景技术
相似性搜索作为机器学习、计算机视觉和多媒体的基础。近年来,多媒体数据的巨大的、爆炸性的增长极大地增加了开发多媒体数据的复杂相似性搜索系统的迫切需求。这种需求中特别值得注意的是,数据总是从不同的来源收集得到,并形成不同的形式,以不同的媒体数据表示,从而产生大规模的、异构的多媒体数据。因此,如何实现跨媒体的快速相似度度量和精确检索成为了当前多媒体领域研究的热点问题。
但是,目前被提出的支持跨不同媒体的相似性检索的基于哈希学习的跨媒体检索方法的准确性不高。
因此,现有技术还有待改进和提高。
发明内容
针对现有技术的上述缺陷,本发明提供一种跨媒体哈希检索方法、装置、终端及存储介质,旨在解决现有技术中跨媒体哈希检索准确度不高的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
本发明的第一方面,提供一种跨媒体哈希检索方法,所述方法包括:
在样本数据集中选取至少一个样本数据组,得到目标训练批次,其中,所述样本数据集中包括多个样本数据组,每个样本数据组中包括样本数据组对应的样本标签向量、第一样本数据和第二样本数据,所述第一样本数据的数据类型为第一媒体类型,所述第二样本数据的类型为第二媒体类型;
确定所述目标训练批次中的目标样本数据组对应的样本哈希特征,所述目标样本数据组对应的所述样本哈希特征包括将所述目标样本数据组中的所述第一样本数据的初始特征输入至第一特征哈希学习网络得到的第一样本哈希特征和将所述目标样本数据组中的所述第二样本数据的所述初始特征输入至第二特征哈希学习网络得到的第二样本哈希特征;
确定所述目标样本数据组对应的预测标签向量,所述目标样本数据组对应的所述预测标签向量包括将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至第一分类网络得到的第一预测标签向量和将所述目标样本数据组中的所述第二样本数据组的所述初始特征输入至第二分类网络得到的第二预测标签向量;
将所述目标样本数据组对应的样本标签向量输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征;
根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新;
当所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数达到收敛后,采用参数收敛后的所述第一特征哈希学习网络确定所述第一媒体类型的数据的哈希码,采用参数收敛后的所述第二特征哈希学习网络确定所述第二媒体类型的数据的哈希码。
所述的跨媒体哈希检索方法,其中,所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失确定所述目标训练批次对应的训练损失,包括:
据所述目标训练批次中的每个样本数据组的样本标签向量与所述样本数据集中每一个样本数据组的样本标签向量确定所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组之间的语义相关系数;
根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失;
根据所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述目标训练批次中每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本数据集中每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第二损失;
根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失。
所述的跨媒体哈希检索方法,其中,所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数和所述第二特征哈希学习网络的参数进行更新。
所述的跨媒体哈希检索方法,其中,所述根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失,包括:
根据所述目标训练批次中的每个样本数据组的所述初始特征、所述样本哈希特征、所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一分损失;
根据根据所述目标训练批次中的每个样本数据组对应的所述第一样本哈希特征和所述第一哈希参数矩阵的差异、所述目标训练批次中的每个样本数据组对应的所述第二样本哈希特征和所述第二哈希参数矩阵的差异确定第二分损失;
根据所述目标训练批次中的每个样本数据组对应的所述预测标签向量和所述样本标签向量的差异确定第三分损失;
根据所述第一分损失、所述第二分损失和所述第三分损失确定所述第一损失。
所述的跨媒体哈希检索方法,其中,所述根据所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述目标训练批次中每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本数据集中每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第二损失,包括:
根据所述目标训练批次中的每个样本数据组的初始特征、所述样本哈希特征、所述样本数据集中每一个样本数据组对应的所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第四分损失;
根据所述目标训练批次中每个样本数据组对应的所述标签哈希特征和所述第一哈希参数矩阵的差异、以及所述目标训练批次中每个样本数据组对应的所述标签哈希特征和所述第二哈希参数矩阵的差异确定第五分损失;
根据所述第四分损失和所述第五分损失确定所述第二损失。
所述的跨媒体哈希检索方法,其中,所述第一媒体类型为非文本类型,所述第二媒体类型为文本类型;所述确定所述目标训练批次中的目标样本数据组对应的样本哈希特征之前,包括:
对所述目标样本数据组中的所述第一样本数据的所述初始特征进行更新;
所述对所述目标样本数据组中的所述第一样本数据的所述初始特征进行更新,包括:
将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至对齐网络,剔除所述目标样本数据组中的所述第一样本数据的所述初始特征中的冗余信息。
所述的跨媒体哈希检索方法,其中,所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、标签哈希特征、以及所述预测标签向量确定所述目标训练批次对应的训练损失,还包括:
根据所述目标样本数据组中的所述第一样本数据更新后的所述初始特征分别与更新前的所述初始特征、所述目标样本数据组中的所述第二样本数据的所述初始特征之间的互信息计算第三损失;
所述根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失,包括:
根据所述第一损失、所述第二损失和所述第三损失确定所述目标训练批次对应的所述训练损失;
所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络和所述对齐网络的参数进行更新。
本发明的第二方面,提供一种跨媒体哈希检索装置,包括:
训练批次确定模块,所述训练批次确定模块用于在样本数据集中选取至少一个样本数据组,得到目标训练批次,其中,所述样本数据集中包括多个样本数据组,每个样本数据组中包括样本数据组对应的样本标签向量、第一样本数据和第二样本数据,所述第一样本数据的数据类型为第一媒体类型,所述第二样本数据的类型为第二媒体类型;
特征哈希模块,所述哈希模块用于确定所述目标训练批次中的目标样本数据组对应的样本哈希特征,所述目标样本数据组对应的所述样本哈希特征包括将所述目标样本数据组中的所述第一样本数据的初始特征输入至第一特征哈希学习网络得到的第一样本哈希特征和将所述目标样本数据组中的所述第二样本数据的所述初始特征输入至第二特征哈希学习网络得到的第二样本哈希特征;
标签预测模块,所述标签预测模块用于确定所述目标样本数据组对应的预测标签向量,所述目标样本数据组对应的所述预测标签向量包括将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至第一分类网络得到的第一预测标签向量和将所述目标样本数据组中的所述第二样本数据组的所述初始特征输入至第二分类网络得到的第二预测标签向量;
标签哈希模块,所述标签哈希模块用于将所述目标样本数据组对应的样本标签向量输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征;
参数优化模块,所述参数优化模块用于根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、标签哈希特征、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新;
检索模块,所述检索模块用于当所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数达到收敛后,采用参数收敛后的所述第一特征哈希学习网络确定所述第一媒体类型的数据的哈希码,采用参数收敛后的所述第二特征哈希学习网络确定所述第二媒体类型的数据的哈希码。
本发明的第三方面,提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的跨媒体哈希检索方法的步骤。
本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的跨媒体哈希检索方法的步骤。
与现有技术相比,本发明提供了一种跨媒体哈希检索方法、装置、终端及存储介质,所述的跨媒体哈希检索方法,在哈希学习的过程中,将具有相同标签的不同媒体类型的数据组成一个样本数据组,并分别获取样本数据组内不同媒体类型数据的哈希特征和预测标签,基于样本数据组内不同媒体类型数据的哈希特征和预测标签对哈希学习网络的参数进行更新,考虑了同媒体类型内和不同媒体类型间的语义学习,保持了不同媒体类型数据之间的成对相似性,可以增强哈希码在每个媒体上的表示能力,同时引入了样本数据组的真实标签信息来对哈希函数的参数进行更新,将标签信息、成对相似性和转换后的标签语义集成在同一框架中,发现多层次语义,进一步使得学习到的哈希码具有足够的语义判别能力,提升跨媒体哈希检索的准确性。
附图说明
图1为本发明提供的跨媒体哈希检索方法的实施例的流程图;
图2为本发明提供的跨媒体哈希检索方法的实施例中跨媒体哈希检索网络的架构示意图;
图3为本发明提供的跨媒体哈希检索方法的实施例中对齐网络的架构示意图;
图4为本发明提供的跨媒体哈希检索装置的实施例的结构原理图;
图5为本发明提供的终端的实施例的原理示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供的跨媒体哈希检索方法,可以应用于具有计算能力的终端中,终端可以执行本发明提供的跨媒体哈希检索方法进行哈希检索,终端可以但不限于是各种计算机、移动终端、智能家电、可穿戴式设备等。
实施例一
如图1所示,所述跨媒体哈希检索方法的一个实施例中,包括步骤:
S100、在样本数据集中选取至少一个样本数据组,得到目标训练批次。
所述样本数据集中包括多个样本数据组,每个样本数据组中包括样本数据组对应的样本标签向量、第一样本数据和第二样本数据。所述第一样本数据的数据类型为第一媒体类型,所述第二样本数据的类型为第二媒体类型。对于具有不同媒体格式的媒体数据,称为具有不同的媒体类型的数据,媒体类型可以为文本、图像、视频、音频等。对于跨媒体检索来说,需要使得对于不同媒体类型的具有相似语义的数据对象,应转换为相似的哈希码,从而实现相似性检索。在本实施例中,对于不同媒体类型的数据,建立不同的哈希学习网络,在学习过程中对网络的参数进行更新优化,使得对于不同媒体类型的数据,在通过其属于的媒体类型对应的哈希学习网络获取到的哈希码能够满足对于具有相似语义的数据,具有相似的哈希码的效果。
具体地,所述样本数据集中的每一个样本数据组中包括的所述第一样本数据和所述第二样本数据具有相同的标签向量,所述样本数据集可以表示为:O={oi}in=1,n为所述样本数据集中样本数据组的数量,所述样本数据集中的第i个样本数据组可以用oi=(vi,ti,li)表示,其中,vi是第i个样本数据组的第一样本数据,ti是第i个样本数据组的第二样本数据。li∈{0,1}c×1表示oi对应的样本标签向量,其中c表示类别的数量,li中包括c个值,每个值可以表示为lik,每个值对应一个类别,如果oi属于第k类,那么lik=1,否则lik=0。
S200、确定所述目标训练批次中的目标样本数据组对应的样本哈希特征。
S300、确定所述目标样本数据组对应的预测标签向量。
其中,所述目标样本数据组对应的所述样本哈希特征包括第一样本哈希特征和第二样本哈希特征,所述目标样本数据组对应的所述第一样本哈希特征是将所述目标样本数据组中的所述第一样本数据的初始特征输入至第一特征哈希学习网络得到,所述目标样本数据组对应的所述第二样本哈希特征是将所述目标样本数据组中的所述第二样本数据的所述初始特征输入至第二特征哈希学习网络得到,所述目标样本数据组对应的所述预测标签向量包括第一预测标签向量和第二预测标签向量,所述目标样本数据组对应的所述第一预测标签向量是将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至第一分类网络得到,所述目标样本数据组对应的所述第二预测标签向量是将所述目标样本数据组中的所述第二样本数据组的所述初始特征输入至第二分类网络得到。
具体地,所述初始特征是将样本数据输入至特征提取网络中提取得到,在将样本数据输入至特征图提取网络中之前,对样本数据转化为数值特征,即提取样本数据的原始特征,对于图像数据来说,其原始特征可以是像素值矩阵,对于文本数据来说,其原始特征是非深度的特征,如词袋向量,对于不同的媒体类型数据,设置对应的特征提取网络,即,所述第一样本数据对应的所述初始特征是通过第一特征提取网络得到,所述第二样本数据对应的所述初始特征是通过第二特征提取网络得到,对于不同的媒体类型数据,对应的特征提取网络的结果可以不同,例如,对于图像数据来说,对应的特征提取网络的结构可以是包括多个卷积层和多个全连接层,对于文本数据来说,对应的特征提取网络的结构可以只包括全连接层,本领域技术人员可以理解,特征提取网络的结构并不限定于以上的描述,本领域技术人员对特征提取网络中包括的网络层类型和数量可以进行适应性改变,可以采用现有的特征提取网络来提取所述初始特征。
语义保留的跨媒体哈希的目标是将高维数据空间的数据投影到r个比特的共同的离散韩明空间,从而得到两种媒体的统一哈希码,在本实施例提供的跨媒体哈希检索方法中,通过学习对所述的第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行优化更新,在确定了所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数后,如图2所示,对于需要转化为哈希码的数据,首先提取对应的初始特征F,再通过特征哈希学习网络处理(根据不同的媒体类型确定是采用所述第一特征哈希学习网络还是所述第二特征哈希学习网络)后,再通过一个sgn函数得到哈希码。具体地,在本实施例中,哈希学习网络的结构可以是包括一层全连接层和一个tanh函数,当然,本领域技术人员可以理解,哈希学习网络的结构并不限定于此,本领域技术人员可以对哈希学习网络中包括的网络层的数量和类型进行适应性改变。在本实施例中,设置分类网络,分类网络根据输入的特征输出一个预测标签向量,根据分类网络输出的预测标签向量和样本数据组的样本标签向量、以及第一特征哈希学习网络和第二特征哈希学习网络的输出来对第一特征哈希学习网络和第二特征哈希学习网络的参数进行优化更新。所述分类网络的结构可以是包括一个全连接层和一个softmax函数,当然,本领域有技术人员可以理解,分类网络的结构并不限定于此,本领域技术人员可以对哈希学习网络中包括的网络层的数量和类型进行适应性改变。
请再次参阅图1,本实施例提供的跨媒体哈希检索方法,还包括步骤:
S400、将所述目标样本数据组对应的样本标签向量输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征。
而为了所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数能够被优化使得根据生成的哈希码进行的相似性检索更准确,在本实施例中,设置有标签哈希学习网络,获取样本数据组的标签语义。具体地,是将所述目标样本数据组对应的样本标签输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征,所述标签哈希特征也参与所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数优化过程。
S500、根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新。
具体地,所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
S510、据所述目标训练批次中的每个样本数据组的样本标签向量与所述样本数据集中每一个样本数据组的样本标签向量确定所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组之间的语义相关系数。
在本实施例中,当两个样本数据组对应的标签类别中有相同的标签类别时,即存在k,使得两个样本数据组对应的标签向量中的第k个值相等时,则确定这两个样本数据组之间的语义相关系数为第一值,当两个样本数据组对应的标签类别均不同时,则确定这两个样本数据组之间的语义相关系数为第二值,第一值和第二值可以为数值相等,符号相反的两个值,第一值为正值,第二值为负值,例如第一值为1,第二值为-1。
S520、根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失。
为了提升相似性检索的准确性,对于媒体内的数据,优化后的特征哈希学习网络输出的样本哈希特征应该能够为语义相似的数据组生成相似的特征表示,为了达到这一目的,在本实施例中,根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失,以使得第一损失最小化的方式来优化所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数。
具体地,确定所述第一损失的步骤包括:
S521、根据所述目标训练批次中的每个样本数据组的所述初始特征、所述样本哈希特征、所述样本数据集中每一个样本数据组对应的所述初始特征、所述哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一分损失;
S522、根据根据所述目标训练批次中的每个样本数据组对应的所述第一样本哈希特征和所述第一哈希参数矩阵的差异、所述目标训练批次中的每个样本数据组对应的所述第二样本哈希特征和所述第二哈希参数矩阵的差异确定第二分损失;
S523、根据所述目标训练批次中的每个样本数据组对应的所述预测标签向量和所述样本标签向量的差异确定第三分损失;
S524、根据所述第一分损失、所述第二分损失和所述第三分损失确定所述第一损失。
所述样本数据集中每一个样本数据组对应的所述初始特征和所述样本哈希特征可以是采用与获取所述目标样本数据组对应的所述初始特征和所述样本哈希特征的方式同样的方式得到,即,将所述样本数据集中每一个样本数据组输入至特征提取网络,得到所述初始特征,将所述初始特征输入至第一特征哈希学习网络和第二特征哈希学习网络,得到所述样本哈希特征。值得说明的是,在学习的过程中,是采用多轮学习的方式,每轮中是将所述样本数据集分为多个训练批次,每次将一个训练批次投入至网络来更新网络参数,也就是说,每个训练批次会对应更新一次网络参数,对于当前投入学习的所述目标训练批次,采用前一个训练批次更新后的网络参数得到对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征,而每一个训练批次学习时会使用到所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征,可以是采用前一个训练批次更新后的网络参数得到,但是,这样会造成巨大的计算量,因此,在本实施例中,根据当前投入学习的所述目标训练批次更新网络参数时使用的所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征,是采用前一轮中每个训练批次对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征组合得到。在每一轮中,对于所述样本数据集分为多个训练批次依次投入学习,那么,每一轮中的每个训练批次投入学习时会根据最新的网络参数计算该训练批次中的每个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征,一轮结束后,就会把所述样本数据集中的每个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征计算一遍,用于下一轮计算时使用的所述样本数据集中每一个样本数据组对应的所述初始特征、所述样本哈希特征、所述预测标签向量、所述标签哈希特征。
值得说明的是,对于本说明书中记载的公式,存在上标为v,t的项时,该公式的值等于对于该公式中存在上标v,t的项上标均取v表示的含义时该公式的值和该公式中存在上标v,t的项上标均取t表示的含义时该公式的值之和。
所述第一分损失可以用公式表示为:
Figure BDA0003259097620000141
其中,
Figure BDA0003259097620000142
m为所述目标训练批次中样本数据组的数量,n为所述样本数据集中样本数据组的数量,fi v、fi t分别表示所述样本数据集中第i个样本数据组中的所述第一样本数据和所述第二样本数据对应的所述初始特征,
Figure BDA0003259097620000143
分别表示所述目标训练批次中第j个样本数据组中的所述第一样本数据和所述第二样本数据对应的所述初始特征,
Figure BDA0003259097620000144
分别表示所述样本数据集中第i个样本数据组对应的所述第一样本哈希特征和所述第二样本哈希特征,
Figure BDA0003259097620000145
分别表示所述目标训练批次中第j个样本数据组对应的所述第一样本哈希特征和所述第二样本哈希特征,Sij表示所述样本数据集中第i个样本数据组和所述目标训练批次中第j个样本数据组之间的语义相关系数。
LF和LH分别是在初始特征和样本哈希特征上的负对数似然非对称成对损失。
所述第二分损失可以用公式表示为:
Figure BDA0003259097620000146
其中,Hv、Ht分别表示所述目标训练批次中每个样本数据组对应的所述第一样本哈希特征组成的矩阵和所述目标训练批次中每个样本数据组UI应的所述第二样本哈希特征组成的矩阵,Bv、Bt分别表示所述第一哈希参数矩阵和所述第二哈希参数矩阵,所述第一哈希参数矩阵和所述第二哈希参数矩阵在学习开始时初始化,在学习过程中被更新。
所述第三分损失可以用公式表示为:
Figure BDA0003259097620000151
其中,
Figure BDA0003259097620000152
分别表示所述目标训练批次中每个样本数据组对应的所述第一预测标签向量组成的矩阵和所述目标训练批次中每个样本数据组对应的所述第二预测标签向量组成的矩阵,L表示所述目标训练批次中每个样本数据组对应的样本标签向量组成的矩阵。
LF和LH分别是在所述初始特征和所述样本哈希特征上的负对数似然非对称成对损失,LQ1是量化损失,它度量Hv,t与其二值离散量化值Bv,t之间的距离。LC是比较预测的类别标签和原始标签之间的差异而形成的分类预测损失。值得注意的是,Hv,t
Figure BDA0003259097620000153
在第一媒体类型和第二媒体类型上都能保持所选的部分样本和完整数据集之间的非对称相似性。使LQ尽可能小可以保证预测的哈希码和目标哈希码之间的最小量化误差。是LC尽可能小保证了学习到的特征的类别可判别性。这样,可以实现通过利用成对语义和单个标签语义,同时达到了最大化语义特征的紧致性和可分离性,产生有判别性的哈希码。
所述第一损失由所述第一分损失、所述第二分损失和所述第三分损失采用对应的权重融合后得到,所述第一损失可以表示为:
Figure BDA0003259097620000154
其中,λ、αv、αt、γ为超参数,αvt=1。
S530、根据所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述目标训练批次中每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本数据集中每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第二损失。
为了使得优化后的网络参数能够保持媒体类型间的语义相似性,最大化非对称内机和语义相似性之间的跨媒体相关性,在本实施例中,引入回归语义标签作为中间语义码,作为跨媒体相似度保持的枢纽。具体地,确定所述第二损失的步骤包括:
S531、根据所述目标训练批次中的每个样本数据组的初始特征、所述样本哈希特征、所述样本数据集中每一个样本数据组对应的所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第四分损失;
S532、根据所述目标训练批次中每个样本数据组对应的所述标签哈希特征和所述第一哈希参数矩阵的差异、以及所述目标训练批次中每个样本数据组对应的所述标签哈希特征和所述第二哈希参数矩阵的差异确定第五分损失;
S533、根据所述第四分损失和所述第五分损失确定所述第二损失。
所述第四分损失可以用公式表示为:
Figure BDA0003259097620000161
其中,
Figure BDA0003259097620000162
m为所述目标训练批次中样本数据组的数量,n为所述样本数据集中样本数据组的数量,
Figure BDA0003259097620000163
表示所述样本数据集中第i个样本数据组对应的所述标签哈希特征,
Figure BDA0003259097620000164
表示所述目标训练批次中第j个样本数据组对应的所述标签哈希特征,
Figure BDA0003259097620000171
分别表示所述目标训练批次中第j个样本数据组对应的所述第一样本哈希特征和所述第二样本哈希特征,Sij表示所述样本数据集中第i个样本数据组和所述目标训练批次中第j个样本数据组之间的语义相关系数。
可以看出,所述第四分损失是根据用于提取样本数据的哈希特征的特征哈希学习网络和用于提取标签的哈希特征的标签哈希学习网络的输出得到的,优化参数使得LV和LT尽可能小可以在负对数似然的框架下以非对称学习方式逼近成对语义相似度。
所述第五分损失可以用公式表示为:
Figure BDA0003259097620000172
其中,Bv、Bt分别表示所述第一哈希参数矩阵和所述第二哈希参数矩阵,Ψ为所述训练批次中每个样本数据组对应的标签哈希特征组成的矩阵。LQ2的目的是约束生成的语义特征和目标二值哈希码之间的量化误差。
所述第二损失由所述第四分损失和所述第五分损失采用对应的权重融合后得到,所述第二损失可以表示为:
Figure BDA0003259097620000173
其中,λ、η是超参数。
通过计算所述第二损失,以所述第二损失尽可能小的方式优化网络参数,这样,不同媒体类型的数据的成对语义和转换后的标签语义被共同考虑到统一的学习框架中,从而可以在哈希码的学习过程中准确而充分地保持语义,重要的是,不同媒体类型的数据的特征都与整体的、不变的转换标签语义在一个不对称的成对损失函数中做了比较,因此,利用中间标签语义特征可以灵活地连接媒体之间的语义信息,使得优化后的网络参数能够生产更准确的哈希码。
S540、根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失。
根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失可以是对所述第一损失和所述第二损失求和得到所述训练损失。
然后以使得所述训练损失最小化为约束优化所述第一哈希参数矩阵、所述的第二哈希参数矩阵、所述第一特征哈希学习网络的参数和所述第二特征哈希学习网络的参数,即所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数和所述第二特征哈希学习网络的参数进行更新。
用于提取所述初始特征的所述特征提取网络的参数在根据所述训练损失更新其他参数时可以是固定的,也可以是同时被优化,即在一种可能的实现方式中,所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一特征提取网络,所述第二特征提取网络、所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数和所述第二特征哈希学习网络的参数进行更新。
但是,由于不同媒体类型遵循不同的物理性质、数据特征和统计分部二,导致了严重的领域迁移问题,很多媒体类型数据实际上包含很多低层次的冗余信息,而文本数据具有间接的描述表示,在本实施例中,对于非文本类数据,采用对齐网络进行冗余信息的剔除,抑制非文本数据中的噪声,尽可能地减少不同媒体类型支之间的信息差异,学习最优的媒体类型无关表示。所述对齐网络的结构可以如图3所示。
以所述第一媒体类型为非文本类型,所述第二媒体类型为文本类型为例,所述确定所述目标训练批次中的目标样本数据组对应的样本哈希特征之前,包括:
对所述目标样本数据组中的所述第一样本数据的所述初始特征进行更新。
具体地,所述对所述目标样本数据组中的所述第一样本数据的所述初始特征进行更新,包括:
将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至对齐网络,剔除所述目标样本数据组中的所述第一样本数据的所述初始特征中的冗余信息。
所述目标样本数据组中的所述第一样本数据对应的无冗余的所述初始特征,应该能够最大限度地捕获有关所述目标样本数据组中的所述第二样本数据的所述初始特征的相关特性。因此,所述对齐网络的参数优化应在使得所述目标样本数据组中的所述第一样本数据更新后的所述初始特征与更新前的所述初始特征之间的互信息尽可能小,而与所述目标样本数据组中的所述第二样本数据对应的所述初始特征之间的互信息尽可能大的约束下进行。即,所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、标签哈希特征、以及所述预测标签向量确定所述目标训练批次对应的训练损失,还包括:
根据所述目标样本数据组中的所述第一样本数据更新后的所述初始特征分别与更新前的所述初始特征、所述目标样本数据组中的所述第二样本数据的所述初始特征之间的互信息计算第三损失。
所述根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失,包括:
根据所述第一损失、所述第二损失和所述第三损失确定所述目标训练批次对应的所述训练损失。
所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络和所述对齐网络的参数进行更新。
具体地,使得所述目标样本数据组中的所述第一样本数据更新后的所述初始特征与更新前的所述初始特征之间的互信息尽可能小,而与所述目标样本数据组中的所述第二样本数据对应的所述初始特征之间的互信息尽可能大可以表示为使得下式最大化:
JIB(θ)=I(z,ft;θ)-βI(z,fv;θ) (3)
其中,I(·,·)表示两随机变量的互信息;β表示控制信息约束的超参数,z表示所述目标样本数据组中的所述第一样本数据更新后的所述初始特征,θ表示网络参数。在一种可能的实现方式中,利用公式(3)中第一项的下界和第二项的变分上界,可以充分捕获两种媒体类型数据的统计特征,从而得到以下变化最小化损失函数:
Figure BDA0003259097620000201
其中,LMAN为所述第三损失,
Figure BDA0003259097620000202
分别表示所述目标训练批次中第j个样本数据组中的所述第一样本数据对应的初始特征(更新前)和所述目标训练批次中第j个样本数据组中的所述第一样本数据对应的初始特征,E为均值符号,
Figure BDA0003259097620000203
是一个重参数化过程,g是fv的确定性函数,其中的高斯随机变量是ε,p(ε)表示ε的概率分布,p(fi v)表示fi t的概率分布,p(z|fi v)是以fi t为条件生成的z的条件分布,q(fi t|z)是p(z|fi v)的变分近似,DKL(p(z|fi t),r(z))表示p(z|fi t)到r(z)的KL散度,r(z)是边缘概率p(z)的变分近似,r(z)可选择标准正态分布。
在另一种可能的实现方式中,基于条件变分信息瓶颈策略,为了增加无冗余特征标识学习和分类器预测标签之间的交互,进一步提高学习到的特征的可判别性和不同媒体间共享的关键信息的可迁移性,将所述目标样本数据组中的所述第一样本数据更新后的所述初始特征(即无冗余特征)和所述目标样本数据组对应的所述第一预测标签向量进行融合,这样,所述第三损失的公式可以为:
Figure BDA0003259097620000211
其中,
Figure BDA0003259097620000212
表示所述目标训练批次中第j个样本数据组对应的所述标签预测向量,M(,)为一个特征映射函数,用于将z和
Figure BDA0003259097620000213
进行融合。
根据所述第一损失、所述第二损失和所述第三损失确定所述目标训练批次对应的所述训练损失是根据各自的权重将所述第一损失、所述第二损失和所述第三损失进行融合。所述目标训练批次对应的所述训练损失可以表示为:
L=Lintra+Linter+δLMAN
其中,δ为超参数。
在根据所述目标训练批次进行学习时,基于使得所述目标训练批次对应的所述训练损失最小的约束更新网络的参数,并将下一个训练批次作为所述目标训练批次投入学习,当网络的参数(包括所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数、所述对齐网络的参数、所述标签哈希学习网络的参数、所述第一分类网络的参数、所述第二分类网络的参数、所述第一哈希参数矩阵、所述第二哈希参数矩阵,在一种可能的实现方式中,还可以包括所述第一特征提取网络的参数和所述第二特征提取网络的参数)达到收敛后,学习结束。
请再次参阅图1,本实施例提供的跨媒体哈希检索方法,还包括步骤:
S600、当所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数达到收敛后,采用参数收敛后的所述第一特征哈希学习网络确定所述第一媒体类型的数据的哈希码,采用参数收敛后的所述第二特征哈希学习网络确定所述第二媒体类型的数据的哈希码。
具体地,在学习结束后,执行检索任务时,对于不同的媒体类型的数据,采用对应的特征提取网络提取所述初始特征,并根据是否为文本数据确定是否采用对应的所述对齐网络对所述初始特征进行更新后,输入至对应的特征哈希学习网络。对于所述第一媒体类型的数据,先采用所述第一特征提取网络(对所述第一特征提取网络的参数参与优化的情况下,采用参数收敛后的所述第一特征提取网络)提取所述初始特征,再输入至参数收敛后的所述对齐网络去除冗余,得到更新后的所述初始特征,再输入至参数收敛后的所述第一特征哈希学习网络,最后采用一个sgn函数得到用于相似性检索的哈希码。对于所述第二媒体类型的数据,先采用所述第二特征提取网络(对所述第二特征提取网络的参数参与优化的情况下,采用参数收敛后的所述第二特征提取网络)提取所述初始特征,再输入至参数收敛后的所述第二特征哈希学习网络,最后采用一个sgn函数得到用于相似性检索的哈希码。
综上所述,本实施例提供一种跨媒体哈希检索方法,在哈希学习的过程中,将具有相同标签的不同媒体类型的数据组成一个样本数据组,并分别获取样本数据组内不同媒体类型数据的哈希特征和预测标签,基于样本数据组内不同媒体类型数据的哈希特征和预测标签对哈希函数的参数进行更新,考虑了同媒体类型内和不同媒体类型间的语义学习,保持了不同媒体类型数据之间的成对相似性,可以增强哈希码在每个媒体上的表示能力,同时引入了样本数据组的真实标签信息来对哈希函数的参数进行更新,将标签信息、成对相似性和转换后的标签语义集成在同一框架中,发现多层次语义,进一步使得学习到的哈希码具有足够的语义判别能力,提升跨媒体哈希检索的准确性。
应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取计算机可读存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例二
基于上述实施例,本发明还相应提供了一种跨媒体哈希检索装置,如图4所示,所述跨媒体哈希检索装置包括:
训练批次确定模块,所述训练批次确定模块用于在样本数据集中选取至少一个样本数据组,得到目标训练批次,其中,所述样本数据集中包括多个样本数据组,每个样本数据组中包括样本数据组对应的样本标签向量、第一样本数据和第二样本数据,所述第一样本数据的数据类型为第一媒体类型,所述第二样本数据的类型为第二媒体类型,具体如实施例一中所述;
特征哈希模块,所述哈希模块用于确定所述目标训练批次中的目标样本数据组对应的样本哈希特征,所述目标样本数据组对应的所述样本哈希特征包括将所述目标样本数据组中的所述第一样本数据的初始特征输入至第一特征哈希学习网络得到的第一样本哈希特征和将所述目标样本数据组中的所述第二样本数据的所述初始特征输入至第二特征哈希学习网络得到的第二样本哈希特征,具体如实施例一中所述;
标签预测模块,所述标签预测模块用于确定所述目标样本数据组对应的预测标签向量,所述目标样本数据组对应的所述预测标签向量包括将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至第一分类网络得到的第一预测标签向量和将所述目标样本数据组中的所述第二样本数据组的所述初始特征输入至第二分类网络得到的第二预测标签向量,具体如实施例一中所述;
标签哈希模块,所述标签哈希模块用于将所述目标样本数据组对应的样本标签向量输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征,具体如实施例一中所述;
参数优化模块,所述参数优化模块用于根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、标签哈希特征、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,具体如实施例一中所述;
检索模块,所述检索模块用于当所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数达到收敛后,采用参数收敛后的所述第一特征哈希学习网络确定所述第一媒体类型的数据的哈希码,采用参数收敛后的所述第二特征哈希学习网络确定所述第二媒体类型的数据的哈希码,具体如实施例一中所述。
实施例三
基于上述实施例,本发明还相应提供了一种终端,如图5所示,所述终端包括处理器10以及存储器20。图5仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有跨媒体哈希检索程序30,该跨媒体哈希检索程序30可被处理器10所执行,从而实现本申请中跨媒体哈希检索方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述跨媒体哈希检索方法等。
实施例四
本发明还提供一种计算机可读存储介质,其中,存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的跨媒体哈希检索方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种跨媒体哈希检索方法,其特征在于,所述方法包括:
在样本数据集中选取至少一个样本数据组,得到目标训练批次,其中,所述样本数据集中包括多个样本数据组,每个样本数据组中包括样本数据组对应的样本标签向量、第一样本数据和第二样本数据,所述第一样本数据的数据类型为第一媒体类型,所述第二样本数据的类型为第二媒体类型;
确定所述目标训练批次中的目标样本数据组对应的样本哈希特征,所述目标样本数据组对应的所述样本哈希特征包括将所述目标样本数据组中的所述第一样本数据的初始特征输入至第一特征哈希学习网络得到的第一样本哈希特征和将所述目标样本数据组中的所述第二样本数据的初始特征输入至第二特征哈希学习网络得到的第二样本哈希特征;
确定所述目标样本数据组对应的预测标签向量,所述目标样本数据组对应的所述预测标签向量包括将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至第一分类网络得到的第一预测标签向量和将所述目标样本数据组中的所述第二样本数据的所述初始特征输入至第二分类网络得到的第二预测标签向量;
将所述目标样本数据组对应的样本标签向量输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征;
根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新;
当所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数达到收敛后,采用参数收敛后的所述第一特征哈希学习网络确定所述第一媒体类型的数据的哈希码,采用参数收敛后的所述第二特征哈希学习网络确定所述第二媒体类型的数据的哈希码;
所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失,包括:
根据所述目标训练批次中的每个样本数据组的样本标签向量与所述样本数据集中每一个样本数据组的样本标签向量确定所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组之间的语义相关系数;
根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征和所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征和所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失;
根据所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述目标训练批次中每个样本数据组对应的所述样本哈希特征和所述标签哈希特征、所述样本数据集中每个样本数据组对应的所述样本哈希特征和所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第二损失;
根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失。
2.根据权利要求1所述的跨媒体哈希检索方法,其特征在于,所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数和所述第二特征哈希学习网络的参数进行更新。
3.根据权利要求1所述的跨媒体哈希检索方法,其特征在于,所述根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征和所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征和所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失,包括:
根据所述目标训练批次中的每个样本数据组的所述初始特征和所述样本哈希特征、所述样本数据集中每一个样本数据组对应的所述初始特征和所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一分损失;
根据所述目标训练批次中的每个样本数据组对应的所述第一样本哈希特征和所述第一哈希参数矩阵的差异、所述目标训练批次中的每个样本数据组对应的所述第二样本哈希特征和所述第二哈希参数矩阵的差异确定第二分损失;
根据所述目标训练批次中的每个样本数据组对应的所述预测标签向量和所述样本标签向量的差异确定第三分损失;
根据所述第一分损失、所述第二分损失和所述第三分损失确定所述第一损失。
4.根据权利要求1所述的跨媒体哈希检索方法,其特征在于,所述根据所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述目标训练批次中每个样本数据组对应的所述样本哈希特征和所述标签哈希特征、所述样本数据集中每个样本数据组对应的所述样本哈希特征和所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第二损失,包括:
根据所述目标训练批次中的每个样本数据组的初始特征和所述样本哈希特征、所述样本数据集中每一个样本数据组对应的所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第四分损失;
根据所述目标训练批次中每个样本数据组对应的所述标签哈希特征和所述第一哈希参数矩阵的差异、以及所述目标训练批次中每个样本数据组对应的所述标签哈希特征和所述第二哈希参数矩阵的差异确定第五分损失;
根据所述第四分损失和所述第五分损失确定所述第二损失。
5.根据权利要求1所述的跨媒体哈希检索方法,其特征在于,所述第一媒体类型为非文本类型,所述第二媒体类型为文本类型;所述确定所述目标训练批次中的目标样本数据组对应的样本哈希特征之前,包括:
对所述目标样本数据组中的所述第一样本数据的所述初始特征进行更新;
所述对所述目标样本数据组中的所述第一样本数据的所述初始特征进行更新,包括:
将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至对齐网络,剔除所述目标样本数据组中的所述第一样本数据的所述初始特征中的冗余信息。
6.根据权利要求5所述的跨媒体哈希检索方法,其特征在于,所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、标签哈希特征、以及所述预测标签向量确定所述目标训练批次对应的训练损失,还包括:
根据所述目标样本数据组中的所述第一样本数据更新后的所述初始特征分别与更新前的所述初始特征、所述目标样本数据组中的所述第二样本数据的所述初始特征之间的互信息计算第三损失;
所述根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失,包括:
根据所述第一损失、所述第二损失和所述第三损失确定所述目标训练批次对应的所述训练损失;
所述根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新,包括:
根据所述训练损失对所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络和所述对齐网络的参数进行更新。
7.一种跨媒体哈希检索装置,其特征在于,包括:
训练批次确定模块,所述训练批次确定模块用于在样本数据集中选取至少一个样本数据组,得到目标训练批次,其中,所述样本数据集中包括多个样本数据组,每个样本数据组中包括样本数据组对应的样本标签向量、第一样本数据和第二样本数据,所述第一样本数据的数据类型为第一媒体类型,所述第二样本数据的类型为第二媒体类型;
特征哈希模块,所述哈希模块用于确定所述目标训练批次中的目标样本数据组对应的样本哈希特征,所述目标样本数据组对应的所述样本哈希特征包括将所述目标样本数据组中的所述第一样本数据的初始特征输入至第一特征哈希学习网络得到的第一样本哈希特征和将所述目标样本数据组中的所述第二样本数据的初始特征输入至第二特征哈希学习网络得到的第二样本哈希特征;
标签预测模块,所述标签预测模块用于确定所述目标样本数据组对应的预测标签向量,所述目标样本数据组对应的所述预测标签向量包括将所述目标样本数据组中的所述第一样本数据的所述初始特征输入至第一分类网络得到的第一预测标签向量和将所述目标样本数据组中的所述第二样本数据的所述初始特征输入至第二分类网络得到的第二预测标签向量;
标签哈希模块,所述标签哈希模块用于将所述目标样本数据组对应的样本标签向量输入至标签哈希学习网络,获取所述目标样本数据组对应的标签哈希特征;
参数优化模块,所述参数优化模块用于根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、标签哈希特征、以及所述预测标签向量确定所述目标训练批次对应的训练损失,根据所述训练损失对所述第一特征哈希学习网络和所述第二特征哈希学习网络的参数进行更新;
检索模块,所述检索模块用于当所述第一特征哈希学习网络的参数、所述第二特征哈希学习网络的参数达到收敛后,采用参数收敛后的所述第一特征哈希学习网络确定所述第一媒体类型的数据的哈希码,采用参数收敛后的所述第二特征哈希学习网络确定所述第二媒体类型的数据的哈希码;
所述根据所述目标训练批次中的每个样本数据组对应的所述样本哈希特征、所述标签哈希特征、所述样本标签向量、以及所述预测标签向量确定所述目标训练批次对应的训练损失,包括:
根据所述目标训练批次中的每个样本数据组的样本标签向量与所述样本数据集中每一个样本数据组的样本标签向量确定所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组之间的语义相关系数;
根据第一哈希参数矩阵、第二哈希参数矩阵、所述目标训练批次中的每个样本数据组对应的所述初始特征和所述样本哈希特征、所述预测标签向量、所述样本标签向量、所述样本数据集中每一个样本数据组对应的所述初始特征和所述样本哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第一损失;
根据所述第一哈希参数矩阵、所述第二哈希参数矩阵、所述目标训练批次中每个样本数据组对应的所述样本哈希特征和所述标签哈希特征、所述样本数据集中每个样本数据组对应的所述样本哈希特征和所述标签哈希特征、以及所述目标训练批次中的每个样本数据组与所述样本数据集中每一个样本数据组的语义相关系数确定第二损失;
根据所述第一损失和所述第二损失确定所述目标训练批次对应的所述训练损失。
8.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述权利要求1-6任一项所述的跨媒体哈希检索方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任一项所述的跨媒体哈希检索方法的步骤。
CN202111067916.5A 2021-09-13 2021-09-13 一种跨媒体哈希检索方法、装置、终端及存储介质 Active CN113961727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111067916.5A CN113961727B (zh) 2021-09-13 2021-09-13 一种跨媒体哈希检索方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111067916.5A CN113961727B (zh) 2021-09-13 2021-09-13 一种跨媒体哈希检索方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113961727A CN113961727A (zh) 2022-01-21
CN113961727B true CN113961727B (zh) 2022-10-21

Family

ID=79461304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111067916.5A Active CN113961727B (zh) 2021-09-13 2021-09-13 一种跨媒体哈希检索方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113961727B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016066012A (ja) * 2014-09-25 2016-04-28 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
CN110298228A (zh) * 2019-04-25 2019-10-01 西北大学 一种多目标图像检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN110188209B (zh) * 2019-05-13 2021-06-04 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110309331B (zh) * 2019-07-04 2021-07-27 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
US11651037B2 (en) * 2019-12-20 2023-05-16 Rakuten Group, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN113064959B (zh) * 2020-01-02 2022-09-23 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法

Also Published As

Publication number Publication date
CN113961727A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN111368874B (zh) 一种基于单分类技术的图像类别增量学习方法
Zhou et al. Deep semantic dictionary learning for multi-label image classification
CN108846413B (zh) 一种基于全局语义一致网络的零样本学习方法
Shen et al. {\cal U} Boost: Boosting with the Universum
KR20190138238A (ko) 딥 블라인드 전의 학습
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN110210468B (zh) 一种基于卷积神经网络特征融合迁移的文字识别方法
CN111639197A (zh) 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
US20200143209A1 (en) Task dependent adaptive metric for classifying pieces of data
CN113011529B (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN110968692B (zh) 一种文本分类方法及系统
WO2020052183A1 (zh) 商标侵权的识别方法、装置、计算机设备和存储介质
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114691986A (zh) 基于子空间适应性间距的跨模态检索方法及存储介质
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN110991247B (zh) 一种基于深度学习与nca融合的电子元器件识别方法
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN113961727B (zh) 一种跨媒体哈希检索方法、装置、终端及存储介质
CN112270334B (zh) 一种基于异常点暴露的少样本图像分类方法及系统
Zhu et al. An alternative to face image representation and classification
CN116361719B (zh) 一种以太坊网络钓鱼用户的检测方法和系统
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
CN113886607B (zh) 基于图神经网络的哈希检索方法、装置、终端及存储介质
Ma et al. A Novel Fuzzy Neural Network Architecture Search Framework for Defect Recognition With Uncertainties

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant