CN110990596A - 一种基于自适应量化多模态哈希检索方法及系统 - Google Patents

一种基于自适应量化多模态哈希检索方法及系统 Download PDF

Info

Publication number
CN110990596A
CN110990596A CN201911229793.3A CN201911229793A CN110990596A CN 110990596 A CN110990596 A CN 110990596A CN 201911229793 A CN201911229793 A CN 201911229793A CN 110990596 A CN110990596 A CN 110990596A
Authority
CN
China
Prior art keywords
hash
modal
samples
adaptive quantization
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911229793.3A
Other languages
English (en)
Other versions
CN110990596B (zh
Inventor
朱磊
郑超群
石丹
崔慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Center Information Technology Ltd By Share Ltd
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201911229793.3A priority Critical patent/CN110990596B/zh
Publication of CN110990596A publication Critical patent/CN110990596A/zh
Application granted granted Critical
Publication of CN110990596B publication Critical patent/CN110990596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于自适应量化多模态哈希检索方法及系统,通过将异构模态转换为具有投影一致性的多模态因子,来探索不同模态之间的关系;通过利用具有代表性的原型近似多模态因子,将同构潜在特征转换为紧凑的哈希码,提出了一种新的多模态自适应权重方案;根据不同的查询内容自动计算适当的模态组合权值,可以建立不同模态之间的相关性,但不需要额外的超参数。在无监督自适应量化多模态哈希方法的基础上,将其扩展到监督学习模式,利用样本间语义标签来指导投影学习过程,提高了哈希码的识别能力,速度快,操作简单,保证了学习效率。

Description

一种基于自适应量化多模态哈希检索方法及系统
技术领域
本公开涉及多模态检索技术领域,特别涉及一种基于自适应量化多模态哈希的社交图像检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
随着信息技术的快速发展,多媒体数据的表现形式越来越多样化,包括图像、文本、视频、音频等。多模态数据爆炸式增长的同时,多模态检索问题也越来越受到人们的关注。多模态哈希能够将来自不同模态的多模态特征编码成紧凑的二进制码,有着检索速度快,存储开销小,能够有效的支持大规模图像检索的优点。根据哈希码的产生方式不同,多模态哈希方法可以分为两大类:基于投影的多模态哈希和基于量化的多模态哈希。基于投影的哈希首先通过模态间相关性的最大化将高维数据投影到一个连续的同构潜在空间中,然后通过样本阈值化将同构嵌入量化为二进制哈希码。基于量化的哈希主要关注如何生成一个由训练数据中的代表性原型构成的码本(Codebook),其中每个代表性原型对应一个二进制代码。
本公开发明人在研究中发现,尽管基于投影的哈希虽然取得了显著的效果,但是采用投影和量化两个步骤来学习统一的哈希码过于简化。一方面,通过线性哈希函数不能有效地保持数据的内部结构,另一方面,通过简单的符号阈值化也不能保证最小的量化误差,这导致大量的量化损失,因此无法很好地捕捉到具有复杂内在结构的数据特征。近年来,基于量化的哈希算法多侧重于单模态哈希和跨模态哈希来建立具有鉴别能力的复杂数据关系模型,而对多模态哈希的关注较少。
目前现存的多模态哈希方法存在具有如下挑战:
(1)与单模态和多模态哈希方法不同,利用多模态特征的互补性是学习多模态哈希码的重要手段。然而,现有的多模态哈希方法都是采用固定权值来组合多个特征。它们采用权值参数来利用哈希学习中各视图之间的互补性和一个额外的超参来平衡正则化项。在实现过程中,超参的调整过程是不现实和低效的,特别是在在线查询阶段,查询的语义标签是未知的。此外,固定的权重无法对变化非常快,而且非常动态的查询样本进行查询。
(2)哈希学习本质上是一个离散优化问题。然而,现有的多模态哈希方法大多采用两步松弛+舍入的哈希优化策略,该方法首先对离散约束条件进行松弛,求解近似连续值,然后通过阈值化计算二进制码。这种松弛哈希优化策略会带来显著的量化误差,并导致次优解出现。而且,现有的离散多模态哈希方法主要采用离散循环坐标下降法(DCC),该方法必须对哈希码进行逐位学习,这在处理大规模多模态数据时仍然非常耗时。
发明内容
为了解决现有技术的不足,本公开提供了一种基于自适应量化多模态哈希检索方法及系统,通过利用有代表性的原型来学习判别哈希码,能更好地逼近相邻关系,并且训练时间和存储成本低,解决了现有技术中进行图像检索时存在的参数问题和放松优化的问题。
为了实现上述目的,本公开采用如下技术方案:
第一方面,本公开提供一种基于无监督自适应量化多模态哈希检索方法,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希检索的目标函数;
采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
作为可能的一些实现方式,对于图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用词袋模型提取1386维的文本特征。
作为可能的一些实现方式,所述基于无监督自适应量化多模态哈希检索方法的目标函数,具体为:
Figure BDA0002303225150000031
s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
其中,
Figure BDA0002303225150000032
是第l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵,C=[C1,...,CM]为由M个独立的码本组成的码本矩阵;其中每一个码本
Figure BDA0002303225150000041
包含K个码字,分别对应于训练集中K个原型;||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
作为可能的一些实现方式,将异构模态的Xl转换为具有投影一致性的多模态因子Hl
利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码;
利用显式的样本间语义标签增强哈希码的识别能力。
作为可能的一些实现方式,所述计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
第二方面,本公开提供一种基于监督自适应量化多模态哈希检索方法,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
根据训练集的多模态特征,利用样本间语义标签矩阵指导投影学习过程,构造基于监督自适应量化多模态哈希检索的目标函数;
采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
作为可能的一些实现方式,基于监督自适应量化多模态哈希检索方法的目标函数,具体为:
Figure BDA0002303225150000051
s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
其中,超参θ用于支持语义嵌入;
Figure BDA0002303225150000052
是语义标签矩阵,其中c是语义类别数;
Figure BDA0002303225150000053
是转换矩阵,它可以捕获数据的内在和潜在结构;
Figure BDA0002303225150000054
是第l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵;C=[C1,...,CM]为由M个独立的码本组成的码本矩阵;其中每一个码本
Figure BDA0002303225150000055
包含K个码字,分别对应于训练集中K个原型;||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
作为可能的一些实现方式,对于社交图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用词袋模型提取1386维的文本特征;
作为可能的一些实现方式,所述计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
第三方面,本公开提供一种基于自适应量化多模态哈希检索系统,包括:
数据预处理模块,被配置为获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
特征提取模块,被配置为将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
目标函数构造模块,被配置为根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希的目标函数;
目标优化模块,被配置为采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
在线权重自适应量化哈希检索模块,被配置为构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
第四方面,本公开提供一种基于自适应量化多模态哈希检索系统,包括:
数据预处理模块,被配置为获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
特征提取模块,被配置为将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
目标函数构造模块,被配置为根据训练集的多模态特征,构造训练集的基于监督自适应量化多模态哈希的目标函数;
目标优化模块,被配置为采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
在线权重自适应量化哈希检索模块,被配置为构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
第五方面,本公开提供一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希检索方法中的步骤。
第六方面,本公开提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开使用有代表性的原型来学习判别哈希码,它能更好地逼近相邻关系,并且可以减少计算量和存储空间,这是第一次尝试探索量化的多模态检索。
2、本公开提出了一种新的多模态自适应权重方案,根据不同的查询内容自动计算适当的模态组合权值,与为所有查询采用一组固定权值的现有方法相比,我们的方法可以为每个查询自动定制一组特定的适当的权值。
3、本公开直接学习二进制哈希码,有效地降低了现有方法中松弛策略的量化误差。此外,哈希码可以快速学习,操作简单,具有较高的计算和存储效率。这些优点是大规模多媒体检索所需要的。
附图说明
图1为本公开实施例1提供的基于无监督和监督的自适应量化多模态哈希检索方法整体框架。
图2为本公开实施例2提供的基于监督自适应量化多模态哈希检索方法的流程图。
图3为本公开实施例3所述的基于监督自适应量化多模态哈希检索方法的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种基于无监督自适应量化多模态哈希检索方法,包括:
S1:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
训练集有n个样本,每个样本都包括成对的图像和文本两个模态数据。样本的图像特征矩阵表示为
Figure BDA0002303225150000091
d1表示图像特征的维度,样本的文本特征矩阵表示为
Figure BDA0002303225150000092
d2表示文本特征的维度,目标是学习共享的哈希码B∈[-1,1]n×r,r表示哈希码的长度。
S2:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征表示;
对于图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,利用Bag-of-words模型(词袋模型)提取1386维的文本特征。
S3:对于训练集的多模态特征,构造基于无监督自适应量化多模态哈希检索方法的目标函数;
S31:量化哈希学习,具体方法为:为了利用多模态数据的一致性信息,本文首先采用矩阵分解的方法来寻找低维潜在语义空间,而不是直接在原始的特征X进行量化。然后,通过使用学习过的码本对哈希码进行量化来学习哈希码。该过程通过考虑数据的几何结构和模态相关,可以有效地对数据的结构信息进行建模。
这一过程的目标函数如下:
Figure BDA0002303225150000093
其中,
Figure BDA0002303225150000094
是第l模态的特征矩阵,dl是对应的特征维度。Rl是转换矩阵,Hl是第l模态的基矩阵。C=[C1,...,CM]为由M个独立的码本组成的码本矩阵。其中每一个码本
Figure BDA0002303225150000095
包含K个码字,分别对应于训练集中K个原型。特别地,||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
第一项将异构模态的Xl转换为具有投影一致性的多模态因子Hl。特别地,Hl可以映射组合多个模态,弥补异构模态之间的差距,避免模态间的冗余。第二项控制量化项,利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码。
S32:自适应参数学习,对于多模态哈希,关键问题是如何有效地利用多模态特征的相关性和互补性。多模式哈希码应该在多种模式下保持样本相关性。现有的方法大多采用固定的权值来组合多个特征。他们采用权参数来探索哈希学习的各种模态之间的互补性,并增加一个超参数来平衡正则化项。在实现过程中,这种超参的调整过程是不现实和低效的,特别是在在线查询阶段,查询的语义标签是未知的。此外,固定的权重无法捕获查询的变化,这些变化非常快,而且非常动态。
为了建立不同模态之间的相关性,现存方法通常采用如下方式构造目标函数:
Figure BDA0002303225150000101
其中,μl是第l模态的权重参数,它能够度量不同模态特征的重要性。通过适当的权值设置,可以很好地利用多模态特征的互补性。另外第二项用来平滑权重分布,特别地,额外的参数λ它在正则化项之间起到平衡的作用。
具体来说,如果没有这个正则化项(或λ→0),则将重构损失最小的最佳模态的权重赋值为1,其他模态的权重为0。因此,超参数λ是必要的。另一方面,当λ→∞时,将为每种模式分配一个相等的权重。在这种情况下,权值对多模态特征互补关系的影响逐渐消失。因此,建议这个参数加权哈希学习包含一个额外的超参数λ,其最佳值被确认为与数据相关。但是在实际应用中,这意味着在离线哈希码和函数学习中需要花费更多的时间进行超参数调整。此外,参数调整要求也与我们在实际检索过程中无法手动为每个查询设置合适的超参数这一事实相矛盾。
为了解决这一问题,在本开发中,我们引入了一个虚拟权值,并提出了一种新的一致多模态特征映射,该映射与公式(2)可以达到相同的目的,但不需要额外的超参数。具体地,我们计划将这部分表述为:
Figure BDA0002303225150000111
特别地,公式(3)可以进行如下转化:
Figure BDA0002303225150000112
其中,
Figure BDA0002303225150000113
证明过程如下:
Figure BDA0002303225150000114
其中,由于
Figure BDA0002303225150000115
所以等式(a)成立。根据Cauchy-Schwarz不等式,所以等式(b)成立。因此,
Figure BDA0002303225150000116
因此,可以得到:
Figure BDA0002303225150000121
S33:综合步骤S31和S32,得到基于无监督自适应量化多模态哈希检索方法的目标函数f1如下:
Figure BDA0002303225150000122
其中,
Figure BDA0002303225150000123
是第l模态的特征矩阵,dl是对应的特征维度。Rl是转换矩阵,Hl是第l模态的基矩阵。C=[C1,...,CM]为由M个独立的码本组成的码本矩阵。其中每一个码本
Figure BDA0002303225150000124
包含K个码字,分别对应于训练集中K个原型。特别地,||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
第一项将异构模态的Xl转换为具有投影一致性的多模态因子Hl。特别地,Hl可以映射组合多个模态,弥补异构模态之间的差距,避免模态间的冗余。第二项控制量化项,利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码。
S4:采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
由于目标函数中含有多个未知变量,无法直接求解,因此本实施例采用迭代求解算法,固定其他变量,求解一个变量,从而获得最终的最优解。
具体优化步骤如下:
S41:固定其他变量更新基矩阵
Figure BDA0002303225150000131
目标函数变为:
Figure BDA0002303225150000132
在约束(Rl)TRl的条件下,我们将上述方程转换为以下等价形式:
Figure BDA0002303225150000133
其中,G=Xl(Hl)T。因此,
Figure BDA0002303225150000134
可以通过如下公式求解得到:
Rl=PQT (11)
其中,P和Q分别由G的左奇异向量和右奇异向量组成。
S42:固定其他变量更新
Figure BDA0002303225150000135
目标函数变为:
Figure BDA0002303225150000136
Figure BDA0002303225150000137
求偏导,并将其设为零,可以得到:
Figure BDA0002303225150000138
S43:固定其他变量更新C,目标函数变为:
Figure BDA0002303225150000139
对C求偏导,并将其设为零,可以得到:
Figure BDA00023032251500001310
S44:固定其他变量更新自适应参数p,目标函数变为:
Figure BDA00023032251500001311
根据公式(5)的推导,
Figure BDA0002303225150000141
结合Cauchy-Schwarz不等式,得到最优解:
Figure BDA0002303225150000142
S45:固定其他变量,求哈希码B。
由于二进制码的离散约束,哈希码的求解是一个np难问题。注意,哈希码Bn(n=1,...,N)是相互独立的,因此将B的优化问题被分成N个子问题。具体来说,优化问题可以归结为一个高阶马尔可夫随机场问题。我们采用一种广泛使用的迭代条件模态(ICM)算法来求解。
更新Bn的目标函数可以表示为:
Figure BDA0002303225150000143
给定{bm,n}m,≠m固定,我们更新bmn的方法是检查码本中的所有码字,从而使公式(19)中的目标值最小,并将该bmn对应项设置为1,其余项设置为0。如前所述,约束保证每个码本只能激活一个码字来近似输入数据。重复上述步骤直到收敛,即可得到训练样本的二进制哈希码和特定于模态的投影矩阵。该策略代替了DCC方法,有效地减少了训练阶段的收敛时间,提高了大规模检索任务的效率。
S5:构造并利用在线权重自适应量化哈希的目标函数,根据计算得到的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
在线权重自适应量化哈希的目标函数为:
Figure BDA0002303225150000151
其中nq是查询样本的数量。另外,变换矩阵
Figure BDA0002303225150000152
和码本
Figure BDA0002303225150000153
是来自离线学习过程。Bq是查询样本的哈希码矩阵。
Figure BDA0002303225150000154
是每个模态的自适应权重,用来测量每个模态的贡献。在本实例中,虚拟权重用于捕获查询的变化,因此可以提高检索性能。
采用以下迭代步骤将新的查询样本映射到哈希码中。
S51:固定其他变量,求自适应权重p,优化公式为:
Figure BDA0002303225150000155
S52:固定其他变量更新
Figure BDA0002303225150000156
可以得到:
Figure BDA0002303225150000157
S53:固定其他变量更新Bq,目标函数可以表示为:
Figure BDA0002303225150000158
与公式(19)相似,Bq的优化问题可以通过ICM算法来解决。给定{bqm,n}m,≠m固定,我们更新bqmn。当找到目标值最小化的元素后,我们将相应的{bqm,n}设置为1,其他的都设置为0。
本实施例采用TopK-精度(TopK-precision)和平均精度(Mean AveragePrecision,MAP)作为评价指标,它们的值越大表示检索性能越好。具体定义分别为:
1)TopK-precision
该标准反映了检索精度随着检索到的样本数量的变化而变化的情况。获取检索到前K个样本,TopK-precision表示K个样本中相关样本所占的比例。
2)MAP
给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:
Figure BDA0002303225150000161
其中,R是返回的检索样本总数,N是返回的与查询相关的样本总数,P(r)表示前r个检索结果的精度,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0,所有样本的AP值的平均值即MAP。
实施例2:
如图2所示,本公开实施例2提供了一种基于监督自适应量化多模态哈希检索方法,包括:
S1:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
S2:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征表示;
S3:对于训练集的多模态特征,利用样本间语义标签矩阵来指导投影学习过程,构造基于监督自适应量化多模态哈希检索方法目标函数;
S31:量化哈希学习,具体方法为:为了利用多模态数据的一致性信息,本文首先采用矩阵分解的方法来寻找低维潜在语义空间,而不是直接在原始的特征X进行量化。然后,通过使用学习过的码本对哈希码进行量化来学习哈希码。该过程通过考虑数据的几何结构和模态相关,可以有效地对数据的结构信息进行建模。
S32:自适应参数学习,为了建立不同模态之间的相关性,现存方法通常采用如下方式构造目标函数:
Figure BDA0002303225150000171
其中,μl是第l模态的权重参数,它能够度量不同模态特征的重要性。通过适当的权值设置,可以很好地利用多模态特征的互补性。另外第二项用来平滑权重分布,特别地,额外的参数λ它在正则化项之间起到平衡的作用。
S33:监督学习,大多数现有的多模态哈希方法都侧重于无监督方法。然而,它们不能有效地利用非监督学习中不同模态特征的互补性。因此我们进一步在有监督语义标签的指导下进行哈希学习。
S34:综合步骤S31、S32和S33,得到基于监督自适应量化多模态哈希检索方法的目标函数f2如下:
Figure BDA0002303225150000172
其中,
Figure BDA0002303225150000173
是第l模态的特征矩阵,dl是对应的特征维度。Rl是转换矩阵,Hl是第l模态的基矩阵。C=[C1,...,CM]为由M个独立的码本组成的码本矩阵。其中每一个码本
Figure BDA0002303225150000181
包含K个码字,分别对应于训练集中K个原型。特别地,||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。超参θ用于支持语义嵌入。
Figure BDA0002303225150000182
是样本间语义标签矩阵。
Figure BDA0002303225150000183
是转换矩阵,它可以捕获数据的内在和潜在结构,其中c是语义类别的数量。
第一项将异构模态特征转化为具有投影一致性的一致多模态因子,第二项控制量子化项,将同构潜在特征转化为紧凑的二进制码,第三项利用显式的样本间语义标签来增强哈希码的识别能力。
S4:采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
由于目标函数中含有多个未知变量,无法直接求解,因此本实施例采用迭代求解算法,固定其他变量,求解一个变量,从而获得最终的最优解。
具体优化步骤如下:
S41:固定其他变量更新基矩阵
Figure BDA0002303225150000184
可以通过如下公式求解得到:
Rl=PQT (27)
其中,P和Q分别为Xl(Hl)T的左奇异向量和右奇异向量。
S42:固定其他变量更新
Figure BDA0002303225150000185
可以得到:
Figure BDA0002303225150000186
S43:固定其他变量更新C,可以得到:
Figure BDA0002303225150000187
S44:固定其他变量更新自适应参数p,结合Cauchy-Schwarz不等式,得到最优解:
Figure BDA0002303225150000191
S45:固定其他变量更新Wl,可以通过如下公式求解得到:
Wl=PQT (31)
其中,P和Q分别为HlLT的左奇异向量和右奇异向量。
S46:固定其他变量,求哈希码B。
我们采用一种广泛使用的迭代条件模态(ICM)算法来求解。
更新Bn的目标函数可以表示为:
Figure BDA0002303225150000192
给定{bm,n}m,≠m固定,我们更新bmn的方法是检查码本中的所有码字,从而使公式(19)中的目标值最小,并将该bmn对应项设置为1,其余项设置为0。如前所述,约束保证每个码本只能激活一个码字来近似输入数据。重复上述步骤直到收敛,即可得到训练样本的二进制哈希码和特定于模态的投影矩阵。
S5:构造并利用在线权重自适应量化哈希的目标函数,根据计算得到的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
实施例3:
如图3所示,本公开实施例3提供了一种基于自适应量化多模态哈希检索系统,包括:
数据预处理模块,被配置为:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
特征提取模块,被配置为:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征表示;
目标函数构造模块,被配置为:对于训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希的目标函数f1和/或基于监督自适应量化多模态哈希的目标函数f2
目标优化模块,被配置为:采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
在线权重自适应量化哈希检索模块,被配置为:构造并利用在线权重自适应量化哈希的目标函数,根据计算得到的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
实施例4:
本公开提供一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希检索方法中的步骤。
实施例5:
本公开提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希方法中的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于无监督自适应量化多模态哈希检索方法,其特征在于,包括:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希检索的目标函数;
采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
2.如权利要求1所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,
对于图像模态,将其输入到VGG-16网络模型中,提取多维的图像特征;对于文本模态,将标签利用词袋模型提取多维的文本特征。
3.如权利要求1所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,所述无监督自适应量化多模态哈希的目标函数,具体为:
Figure FDA0002303225140000011
s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
其中,
Figure FDA0002303225140000012
是第l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵;C=[C1,...,CM]为由M个独立的码本组成的码本矩阵;其中每一个码本
Figure FDA0002303225140000021
包含K个码字,分别对应于训练集中K个原型;||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
4.如权利要求3所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,将异构模态的Xl转换为具有投影一致性的多模态因子Hl
利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码;
利用显式的样本间语义标签增强哈希码的识别能力。
5.如权利要求1所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
6.一种基于监督自适应量化多模态哈希检索方法,其特征在于,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
根据训练集的多模态特征,利用样本间语义标签矩阵指导投影学习过程,构造基于监督自适应量化多模态哈希检索的目标函数;
采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
7.如权利要求6所述的基于监督自适应量化多模态哈希检索方法,其特征在于,基于监督自适应量化多模态哈希的目标函数,具体为:
Figure FDA0002303225140000031
s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
其中,超参θ用于支持语义嵌入;
Figure FDA0002303225140000032
是语义标签矩阵,其中c是语义类别数;
Figure FDA0002303225140000033
是转换矩阵,它可以捕获数据的内在和潜在结构;
Figure FDA0002303225140000034
是第l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵;C=[C1,...,CM]为由M个独立的码本组成的码本矩阵;其中每一个码本
Figure FDA0002303225140000035
包含K个码字,分别对应于训练集中K个原型;||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目;
或者,
对于图像模态,将其输入到VGG-16网络模型中,提取多维的图像特征;对于文本模态,将标签利用词袋模型提取多维的文本特征;
或者,
计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
8.一种基于自适应量化多模态哈希检索系统,其特征在于,包括:
数据预处理模块,被配置为获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
特征提取模块,被配置为将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
目标函数构造模块,被配置为根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希的目标函数和/或基于监督自适应量化多模态哈希的目标函数;
目标优化模块,被配置为采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
在线权重自适应量化哈希检索模块,被配置为构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的基于无监督自适应量化多模态哈希检索方法的步骤;
和/或,
该程序被处理器执行时实现如权利要求6-7任一项所述的基于监督自适应量化多模态哈希检索方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于自适应量化多模态哈希方法中的步骤;
和/或,
包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求6-7任一项所述的基于监督自适应量化多模态哈希中的步骤。
CN201911229793.3A 2019-12-04 2019-12-04 一种基于自适应量化多模态哈希检索方法及系统 Active CN110990596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911229793.3A CN110990596B (zh) 2019-12-04 2019-12-04 一种基于自适应量化多模态哈希检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911229793.3A CN110990596B (zh) 2019-12-04 2019-12-04 一种基于自适应量化多模态哈希检索方法及系统

Publications (2)

Publication Number Publication Date
CN110990596A true CN110990596A (zh) 2020-04-10
CN110990596B CN110990596B (zh) 2020-09-25

Family

ID=70090145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911229793.3A Active CN110990596B (zh) 2019-12-04 2019-12-04 一种基于自适应量化多模态哈希检索方法及系统

Country Status (1)

Country Link
CN (1) CN110990596B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612159A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性测量方法、设备及可读存储介质
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112579841A (zh) * 2020-12-23 2021-03-30 深圳大学 一种多模态数据库建立方法、检索方法及系统
CN113407574A (zh) * 2021-07-20 2021-09-17 广州博冠信息科技有限公司 多表分页查询方法、装置、设备及存储介质
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN114281950A (zh) * 2022-03-07 2022-04-05 山东建筑大学 基于多图加权融合的数据检索方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130343352A1 (en) * 2012-04-06 2013-12-26 Suitable Technologies, Inc. System for wireless connectivity continuity and quality
US9307568B2 (en) * 2012-04-06 2016-04-05 Suitable Technologies, Inc. System for wireless connectivity continuity and quality
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法
CN109446347A (zh) * 2018-10-29 2019-03-08 山东师范大学 一种有监督的快速离散多模态哈希检索方法和系统
CN109558498A (zh) * 2018-11-07 2019-04-02 南京邮电大学 基于深度学习的多模态哈希方法
CN109902714A (zh) * 2019-01-18 2019-06-18 重庆邮电大学 一种基于多图正则化深度哈希的多模态医学图像检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130343352A1 (en) * 2012-04-06 2013-12-26 Suitable Technologies, Inc. System for wireless connectivity continuity and quality
US9307568B2 (en) * 2012-04-06 2016-04-05 Suitable Technologies, Inc. System for wireless connectivity continuity and quality
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN109446347A (zh) * 2018-10-29 2019-03-08 山东师范大学 一种有监督的快速离散多模态哈希检索方法和系统
CN109558498A (zh) * 2018-11-07 2019-04-02 南京邮电大学 基于深度学习的多模态哈希方法
CN109902714A (zh) * 2019-01-18 2019-06-18 重庆邮电大学 一种基于多图正则化深度哈希的多模态医学图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAOQUN ZHENG ETC: "Fast Discrete Collaborative Multi-modal Hashing for Large-scale Multimedia Retrieval", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
熊昊哲等: "面向Web图像检索的语义关联多模态哈希方法", 《武汉理工大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612159A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性测量方法、设备及可读存储介质
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112579841A (zh) * 2020-12-23 2021-03-30 深圳大学 一种多模态数据库建立方法、检索方法及系统
CN112579841B (zh) * 2020-12-23 2024-01-05 深圳大学 一种多模态数据库建立方法、检索方法及系统
CN113407574A (zh) * 2021-07-20 2021-09-17 广州博冠信息科技有限公司 多表分页查询方法、装置、设备及存储介质
CN113407574B (zh) * 2021-07-20 2024-04-26 广州博冠信息科技有限公司 多表分页查询方法、装置、设备及存储介质
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN114281950A (zh) * 2022-03-07 2022-04-05 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN114281950B (zh) * 2022-03-07 2022-05-06 山东建筑大学 基于多图加权融合的数据检索方法与系统

Also Published As

Publication number Publication date
CN110990596B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
Cai et al. Memory matching networks for one-shot image recognition
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
Cao et al. A novel neural topic model and its supervised extension
CN112925962B (zh) 基于哈希编码的跨模态数据检索方法、系统、设备及介质
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN112015868A (zh) 基于知识图谱补全的问答方法
CN111026887B (zh) 一种跨媒体检索的方法及系统
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN118113815B (zh) 内容搜索方法、相关装置和介质
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN117171393A (zh) 一种面向多模态检索的自适应半配对询问哈希方法
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN117453861A (zh) 基于对比学习与预训练技术的代码搜索推荐方法和系统
CN116720519B (zh) 一种苗医药命名实体识别方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN117009599A (zh) 数据检索方法、装置、处理器及电子设备
CN114969343B (zh) 结合相对位置信息的弱监督文本分类方法
CN116341515A (zh) 一种面向对比学习的动态课程的句子表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210623

Address after: 250000 7th floor, building 7, Shuntai Plaza, high tech Zone, Jinan City, Shandong Province

Patentee after: Shandong center information technology Limited by Share Ltd.

Address before: 250014 No. 88, Wenhua East Road, Lixia District, Shandong, Ji'nan

Patentee before: SHANDONG NORMAL University

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Multimodal Hash Retrieval Method and System Based on Adaptive Quantization

Effective date of registration: 20231221

Granted publication date: 20200925

Pledgee: China Everbright Bank Ji'nan branch

Pledgor: Shandong center information technology Limited by Share Ltd.

Registration number: Y2023980073318