CN115577144A - 一种基于在线多哈希码联合学习的跨模态检索方法 - Google Patents

一种基于在线多哈希码联合学习的跨模态检索方法 Download PDF

Info

Publication number
CN115577144A
CN115577144A CN202211193958.8A CN202211193958A CN115577144A CN 115577144 A CN115577144 A CN 115577144A CN 202211193958 A CN202211193958 A CN 202211193958A CN 115577144 A CN115577144 A CN 115577144A
Authority
CN
China
Prior art keywords
hash
data
learning
hash code
round
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211193958.8A
Other languages
English (en)
Inventor
舒振球
李莉
余正涛
毛存礼
高盛祥
永凯玲
白益冰
李彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211193958.8A priority Critical patent/CN115577144A/zh
Publication of CN115577144A publication Critical patent/CN115577144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于在线多哈希码联合学习的跨模态检索方法。包括以下步骤:获取跨模态数据集,并将数据集中的训练集分为t轮数据块来模拟流数据;构建目标函数,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练,当第t轮数据块到达时,保存前t‑1轮数据块训练得到的不同长度的哈希码不变,学习第t轮数据块不同长度的哈希码并保存,并根据第t轮数据块的实时新数据来在线更新哈希函数;进行待检索样本的跨模态检索;本发明在模型训练的过程中,只需要存储前一轮的优化结果,从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码,增加了哈希码学习的灵活性,降低了系统的内存消耗,提高了检索效率。

Description

一种基于在线多哈希码联合学习的跨模态检索方法
技术领域
本发明涉及一种在线场景下的跨模态检索方法,尤其涉及一种基于在线多哈希码联合学习的跨模态检索方法。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
在大数据领域,多媒体数据呈爆炸式增长。因此,如何有效地检索所需的数据信息成为一个备受关注的问题。由于二进制哈希码是一个较短的位数,它可以直接执行XOR操作来计算数据之间的相似性。因此,跨模态哈希方法通过将不同的模态数据编码成紧凑的二进制哈希码,然后利用它们在汉明空间中的距离,来衡量模态之间的相似性。该方法大大降低了存储需求。然而,大多数跨模态哈希方法都基于批处理的,对于不断增长的流式多模态数据,基于批处理的哈希方法需要对所有数据点进行重新训练,以学习新数据点的哈希码。当新的流数据频繁到达时,它会带来不可接受的计算成本和内存成本。因此,基于批处理的哈希方法不适合处理流式数据。在线哈希方法在对新出现的流数据更新哈希函数和哈希码的同时,也保持旧流数据的二进制码的有效性。因此,在线哈希方法可以对流数据进行快速和有效地检索。现有的在线跨模态哈希方法仍存在一些局限性:(1)为了获得不同长度的哈希码,都需要重新训练模型。显然,这在很大程度上降低实际应用中哈希方法的灵活性。(2)对于不同长度的哈希码的学习,未充分利用较长长度哈希码所包含的语义信息。(3)未同时对多模态数据的一致性和特定于模态的属性进行考虑,可能影响检索精度。(4)通过构建大小为一个训练数据平方的相似矩阵来保存监督信息,对于大型数据,尤其是流数据来说,造成很大的时间和空间的消耗。
发明内容
鉴于以上存在的挑战,本发明提供了一种基于在线多哈希码联合学习的跨模态检索方法。本发明通过在统一框架中同时学习不同长度的哈希码,而不需要再训练,在增加哈希码灵活性的同时,能够获得更好的性能。
为了实现本发明的目的,本发明所述的一种基于在线多哈希码联合学习的跨模态检索方法的技术方案是:
Step1、获取跨模态数据集,将数据集中的训练集分为t轮数据块来模拟流数据;其中每轮数据块包含不同模态的样本特征及其对应的语义标签;
Step2、构建目标函数学习,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练;当第t轮数据块到达时,保存前t-1轮数据块训练得到的不同长度的哈希码,学习第t轮数据块不同长度的哈希码并存入检索库,并根据第t轮数据块的实时新数据来在线更新哈希函数;
Step3、进行待检索样本的跨模态检索:首先得到检索集对应的哈希码,输入查询样本,根据上一步得到的哈希函数,得到查询样本的哈希码,将查询样本的哈希码代入检索集中进行查询,通过计算查询集与检索集中各样本间的汉明距离来返回与待查样本距离近的所需的另一个模态的检索样本。
本发明在模型训练的过程中,只需要存储前一轮的优化结果,从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码,增加了哈希码学习的灵活性,降低了系统的内存消耗,提高了检索效率。
进一步的,在线跨模态检索数据集的所述不同模态的样本特征至少包括:图像文本模态的样本特征和文本模态的样本特征。
进一步的,所述Step1中,对于数据进入模型训练前,都应该是使用随机分块的方法来处理以及划分训练集来模拟流数据,以保证模型的泛化能力。
进一步的,所述Step2中所获得的目标函数具体过程包括:将原始样本映射到高维特征空间,并通过一致与特定于模态的投影矩阵将多模态数据特征投影到离散的公共表示作为训练实例的统一哈希码。对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束,同时将标签矩阵作为监督信息嵌入到目标函数中。此外,将不同长度的哈希码与最长长度哈希码建立语义联系,以充分对学习到的哈希码进行进一步的探索。
进一步的,所述Step2中目标函数包括哈希码学习和哈希函数学习两个部分,哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习;哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数,将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中,通过将哈希码学习和哈希函数学习放到同一个模型中进行学习,以此来增强哈希码与哈希函数之间的语义联系,实现高精度的在线跨模态检索。
进一步的,所述Step2中的目标函数包括两个数据部分,第t轮新到达的数据和前t-1轮累积的旧数据块。
进一步的,所述Step2中目标函数并非是最优的,需要对该函数进行优化,由于该目标函数是一个非凸问题,但是当固定其他的变量,更新一个矩阵变量时,这时的函数是一个凸问题,方便进行目标函数的更新;采用此交替迭代算法来更新矩阵变量,直到目标函数收敛或达到最大迭代次数,最终得到最优的哈希码和哈希函数。
进一步地,所述Step2中,每轮数据块包括图像和文本两个模态,以及与之一一对应的标签;在第t轮训练时,带有类标签
Figure BDA0003870413310000031
的成对的数据块
Figure BDA0003870413310000032
被添加到训练集中;其中
Figure BDA0003870413310000033
Figure BDA0003870413310000034
分别表示维度为d1的图像特征矩阵和维度为d2的文本特征矩阵,nt和c分别是新的图像-文本数据块大小和类别数量;在第t轮,样本分为前t-1次累积的旧的训练样本
Figure BDA0003870413310000035
和第t次的训练新样本X(t)
Figure BDA0003870413310000036
包含
Figure BDA0003870413310000037
个样本对,其对应的标签矩阵为
Figure BDA0003870413310000038
因此,在t轮的总训练数据集记为
Figure BDA0003870413310000039
包含
Figure BDA00038704133100000310
个数据点,它对应的总标签矩阵记为
Figure BDA00038704133100000311
进一步地,所述Step2中的具体步骤包括:
Step2.1、多哈希码联合学习
在统一训练模型中同时学习多个不同长度的哈希码,增加哈希长度的可伸缩性;此外,为了探索和学习哈希码,最长哈希码被用于其它不同长度的哈希码学习:
Figure BDA00038704133100000312
其中,
Figure BDA00038704133100000313
表示矩阵的Frobenius的平方,
Figure BDA00038704133100000314
Figure BDA00038704133100000315
Figure BDA00038704133100000316
分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K),K为哈希码个数,
Figure BDA00038704133100000317
Figure BDA00038704133100000318
分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码,
Figure BDA00038704133100000319
为投影矩阵,rk和rK分别表示Bk和BK的长度,α和γ为平衡参数;
2.2、标签嵌入
为了充分利用语义标签信息,将监督标签信息回归到哈希码,使学习到的哈希码保持语义标签的一致性;通过以下公式表示:
Figure BDA0003870413310000041
其中,
Figure BDA0003870413310000042
为投影矩阵,β为平衡参数;
2.3、哈希函数学习
通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码;为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性,将投影矩阵分解为一致的和特定于模态的矩阵;图像和文本模态的不一致被认为是一种特殊的噪声,因此对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束;本发明中的哈希函数是通过线性回归问题来学习的:
Figure BDA0003870413310000043
其中
Figure BDA0003870413310000044
Figure BDA0003870413310000045
分别为一致的和特定于模态的投影矩阵;μ、λ和γ表示控制相应贡献项的权衡参数;
Figure BDA0003870413310000046
是图像或文本的核特征矩阵,它旨在将原始样本映射到高维特征空间,适用于处理线性不可分问题;在这里,φ(.)表示RBF核函数,m表示锚点数;因此内核特征φ(xi)被定义如下:
Figure BDA0003870413310000047
其中
Figure BDA0003870413310000048
表示m个锚点;
Figure BDA0003870413310000049
是高斯核参数。
2.4、目标函数
综合以上几步,其目标函数为:
Figure BDA0003870413310000051
2.5、进行目标函数的迭代更新:通过迭代更新上一步得到的目标函数,直到目标函数收敛或达到最大迭代次数,得到哈希函数以及训练集的哈希码。
进一步地,所述Step2中对目标函数的优化步骤如下:
2.5.1、更新Ck(t):固定其它变量,对于Ck(t),目标函数简化为:
Figure BDA0003870413310000052
设置
Figure BDA0003870413310000053
推导出Ck(t)的封闭解,如下:
Figure BDA0003870413310000054
其中
Figure BDA0003870413310000055
Figure BDA0003870413310000056
表示为:
Figure BDA0003870413310000057
Figure BDA0003870413310000058
Figure BDA0003870413310000059
Figure BDA00038704133100000510
其中
Figure BDA00038704133100000511
Figure BDA00038704133100000512
都是在第t-1轮得到的,从
Figure BDA00038704133100000513
Figure BDA00038704133100000514
的表示观察到:
Figure BDA00038704133100000515
Figure BDA00038704133100000516
前一部分与第t轮中新到达的数据有关,后一部分与前t-1轮积累的旧数据有关;因此
Figure BDA0003870413310000061
Figure BDA0003870413310000062
通过增量的方式计算,Ck(t)通过在线学习进行更新,同样地,
Figure BDA0003870413310000063
Wk(t)、和Rk(t)通过在线学习进行更新;
2.5.2、更新
Figure BDA0003870413310000064
固定其它变量,对于Ck(t),目标函数简化为:
Figure BDA0003870413310000065
为了求解基于l2,1范数的优化问题,引入了以下权重矩阵:
Figure BDA0003870413310000066
其中
Figure BDA0003870413310000067
是D(i)的第j行对角线元素,
Figure BDA0003870413310000068
是矩阵
Figure BDA0003870413310000069
的第j行,因此,上述的目标函数重写为:
Figure BDA00038704133100000610
设置
Figure BDA00038704133100000611
的更新表示为:
Figure BDA00038704133100000612
2.5.3、更新Wk(t):与Ck(t)的更新步骤相似,得到Wk(t)的封闭解,如下:
Figure BDA00038704133100000613
Figure BDA00038704133100000614
Figure BDA00038704133100000615
2.5.4、更新Rk(t)(1≤k≤K-1):与Ck(t)的更新步骤相似,得到Rk(t)的封闭解,如下:
Figure BDA00038704133100000616
Figure BDA00038704133100000617
Figure BDA0003870413310000071
2.5.5、更新Bk(t),固定其它变量,对于Bk(t),目标函数简化为:
Figure BDA0003870413310000072
从上述表达式观察到:当k=K时,即只学习一个长度的哈希码时,约束项
Figure BDA0003870413310000073
无意义,因此Bk(t)的更新分情况讨论;当k=K时,Bk(t)通过以下更新获得:
Figure BDA0003870413310000074
当1≤k<K时,即学习多个长度的哈希码时,Bk(t)的解很容易获得:
Figure BDA0003870413310000075
其中sgn(·)为符号函数;
通过以上步骤对目标函数进行优化,直到目标函数收敛或达到最大迭代次数,停止迭代。
本发明的有益效果是:
本发明提出了一种基于在线多哈希码联合学习的跨模态检索方法,简称OMCJL。它通过一种有效的多模态映射学习策略,通过将投影矩阵分解为一致的和特定于模态的投影矩阵,使得到的哈希码保持了多模态数据的一致和特定属性。同时,对特定于模态的投影矩阵施加稀疏约束。此外,提出了一种哈希码的在线学习策略,可以在一次在线模型训练中同时学习多个不同长度的哈希码,并且最长哈希码被用于其它不同长度的哈希码学习,这样可以进一步探索和学习哈希码。同时,为了提高检索性能,利用语义标签来指导哈希码的学习。本发明在模型训练的过程中,只需要存储前一轮的优化结果,从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码,增加了哈希码学习的灵活性,降低了系统的内存消耗,提高了检索效率。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解。
图1为本发明实施例方法的流程图。
具体实施方式
下面的说明都是实例性的,旨在结合附图进一步说明本发明的技术方案。
实施例1,图1是本发明一种基于在线多哈希码联合学习的跨模态检索方法的流程图。
在本实例中,参见图1,本发明方法具体包括如下过程:
1、获取跨模态数据集,并将数据集中的训练集分为t轮数据块来模拟流数据。在本实例中,每轮数据块包括图像和文本两个模态,以及与之一一对应的标签。
在本发明中,在第t轮训练时,带有类标签
Figure BDA0003870413310000081
的成对的数据块
Figure BDA0003870413310000082
被添加到训练集中。其中
Figure BDA0003870413310000083
Figure BDA0003870413310000084
分别表示维度为d1的图像特征矩阵和维度为d2的文本特征矩阵,nt和c分别是新的图像-文本数据块大小和类别数量。在第t轮,样本可分为前t-1次累积的旧的训练样本
Figure BDA0003870413310000085
和第t次的训练新样本X(t)
Figure BDA0003870413310000086
包含
Figure BDA0003870413310000087
个样本对,其对应的标签矩阵为
Figure BDA0003870413310000088
因此,在t轮的总训练数据集记为
Figure BDA0003870413310000089
包含
Figure BDA00038704133100000810
个数据点,它对应的总标签矩阵记为
Figure BDA00038704133100000811
2、构建目标函数学习,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练;当第t轮数据块到达时,保存前t-1轮数据块训练得到的不同长度的哈希码不变,学习第t轮数据块不同长度的哈希码并保存,并根据第t轮数据块的实时新数据来在线更新哈希函数;
目标函数包括哈希码学习和哈希函数学习两个部分,哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习;哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数,将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中,通过将哈希码学习和哈希函数学习放到同一个模型中进行学习,以此来增强哈希码与哈希函数之间的语义联系。此外,目标函数还包括第t轮新到达的数据和前t-1轮累积的旧数据块这两部分,接下来将详细描述各个模块的学习模型:
2.1、多哈希码联合学习
一般在学习二进制码之前,我们预先定义了一个固定的哈希长度(例如,16位或32位)。当哈希码长度发生变化时,这些模型需要重新训练。因此,在统一训练模型中同时学习多个不同长度的哈希码,这增加了哈希长度的可伸缩性。此外,较长的哈希码包含更丰富的语义,为了进一步探索和学习哈希码,本发明中最长哈希码被用于其它不同长度的哈希码学习:
Figure BDA0003870413310000091
其中,
Figure BDA0003870413310000092
表示矩阵的Frobenius的平方,
Figure BDA0003870413310000093
Figure BDA0003870413310000094
Figure BDA0003870413310000095
分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K),K为哈希码个数,
Figure BDA0003870413310000096
Figure BDA0003870413310000097
分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码,
Figure BDA0003870413310000098
为投影矩阵,rk和rK分别表示Bk和BK的长度,α和γ为平衡参数。
2.2、标签嵌入
为了充分利用语义标签信息,我们进一步将监督标签信息回归到哈希码,使学习到的哈希码可以保持语义标签的一致性。可通过以下公式表示:
Figure BDA0003870413310000099
其中,
Figure BDA00038704133100000910
为投影矩阵,β为平衡参数。
2.3、哈希函数学习
为了避免较大的量化误差,本发明通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码。为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性,将投影矩阵分解为一致的和特定于模态的矩阵。图像和文本模态的不一致可以被认为是一种特殊的噪声,因此本实例中对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束。本发明中的哈希函数是通过线性回归问题来学习的:
Figure BDA00038704133100000911
其中
Figure BDA00038704133100000912
Figure BDA00038704133100000913
分别为一致的和特定于模态的投影矩阵。μ、λ和γ表示控制相应贡献项的权衡参数。
Figure BDA0003870413310000101
是图像或文本的核特征矩阵,它旨在将原始样本映射到高维特征空间,适用于处理线性不可分问题。在这里,φ(.)表示RBF核函数,m表示锚点数。因此内核特征φ(xi)被定义如下:
Figure BDA0003870413310000102
其中
Figure BDA0003870413310000103
表示m个锚点。
Figure BDA0003870413310000104
是高斯核参数。
2.4、目标函数
综合以上几步,其目标函数为:
Figure BDA0003870413310000105
Step3、进行目标函数的迭代更新:通过迭代更新上一步得到的目标函数,直到目标函数收敛或达到最大迭代次数,得到哈希函数以及训练集的哈希码。
目标函数并不是最优的,接下来需要对其进行迭代更新。显然,整体目标函数是一个非凸优化问题。因此,我们提出了一种有效的交替迭代算法来解决这一问题。
对目标函数的的优化步骤如下:
3.1、更新Ck(t):固定其它变量,对于Ck(t),目标函数可以简化为:
Figure BDA0003870413310000106
设置
Figure BDA0003870413310000107
可以推导出Ck(t)的封闭解。如下:
Figure BDA0003870413310000111
其中
Figure BDA0003870413310000112
Figure BDA0003870413310000113
可表示为:
Figure BDA0003870413310000114
Figure BDA0003870413310000115
Figure BDA0003870413310000116
Figure BDA0003870413310000117
其中
Figure BDA0003870413310000118
Figure BDA0003870413310000119
都是在第t-1轮得到的,从
Figure BDA00038704133100001110
Figure BDA00038704133100001111
的表示可以观察到:
Figure BDA00038704133100001112
Figure BDA00038704133100001113
前一部分与第t轮中新到达的数据有关,后一部分与前t-1轮积累的旧数据有关。因此
Figure BDA00038704133100001114
Figure BDA00038704133100001115
可以通过增量的方式计算,Ck(t)可以通过在线学习进行更新。同样地,
Figure BDA00038704133100001116
Wk(t)、和Rk(t)也可以通过在线学习进行更新。
3.2、更新
Figure BDA00038704133100001117
固定其它变量,对于Ck(t),目标函数可以简化为:
Figure BDA00038704133100001118
为了求解基于l2,1范数的优化问题,引入了以下权重矩阵:
Figure BDA00038704133100001119
其中
Figure BDA00038704133100001120
是D(i)的第j行对角线元素,
Figure BDA00038704133100001121
是矩阵
Figure BDA00038704133100001122
的第j行。因此,上述的目标函数可重写为:
Figure BDA00038704133100001123
设置
Figure BDA00038704133100001124
的更新可表示为:
Figure BDA0003870413310000121
3.3、更新Wk(t):与Ck(t)的更新步骤相似,得到Wk(t)的封闭解。如下:
Figure BDA0003870413310000122
Figure BDA0003870413310000123
Figure BDA0003870413310000124
3.4、更新Rk(t)(1≤k≤K-1):与Ck(t)的更新步骤相似,得到Rk(t)的封闭解。如下:
Figure BDA0003870413310000125
Figure BDA0003870413310000126
Figure BDA0003870413310000127
3.5、更新Bk(t):固定其它变量,对于Bk(t),目标函数可以简化为:
Figure BDA0003870413310000128
从上述表达式我们可以观察到:当k=K时,即只学习一个长度的哈希码时,约束项
Figure BDA0003870413310000129
无意义。因此Bk(t)的更新可以分情况讨论。当k=K时,Bk(t)可以通过以下更新获得:
Figure BDA00038704133100001210
当1≤k<K时,即学习多个长度的哈希码时,Bk(t)的解可以很容易获得:
Figure BDA00038704133100001211
其中sgn(·)为符号函数。
通过以上步骤对目标函数进行优化,直到目标函数收敛或达到最大迭代次数,停止迭代。
4、查询,进行待检索样本的跨模态检索:首先得到检索集对应的哈希码,输入查询样本,根据上一步得到的哈希函数,得到查询样本的哈希码。将查询样本的哈希码代入检索集中进行查询。具体的实施步骤如下所示:
给定图像和文本的查询样本对应的特征矩阵为x1query和x2que,结合上一步得到的投影矩阵W1和W2。通过公式
Figure BDA0003870413310000131
Figure BDA0003870413310000132
得到查询样本对应的哈希码。在本实施例中,我们进行的是两个主要的检索任务:图像查询文本和文本查询图像。
由于本发明的查询任务是在一个二值空间进行的,因此通过计算查询样本与检索集中各样本之间的汉明距离,并按照从大到小进行排序,将排序后的前100个样本作为查询的结果。
为了说明本发明的效果,下面通过具体实施例对本发明的技术方案做进一步阐述:
1、仿真条件
本发明运用Matlab 2020a软件进行的实验仿真。在MIRFlickr数据集(包含图像和文本两个模态)上进行实验,所进行的实验包括两个查询任务:图像查询文本(Img2Text)和文本查询图像(Text2Img)。实验中将参数将μ、λ、α、β和γ分别设置为1e2、1e-6、1e-1、1e3和1e-6,将MIRFlickr数据集分成8轮数据块,前7轮数据块大小为2000个样本,第8轮数据块大小为1902个样本。
2、仿真内容
本发明的方法与现有的在线跨模态哈希检索方法进行了对比,对比方法包括在线跨模态哈希(OCMH)、在线协同矩阵分解哈希(OCMFH)、在线潜在语义哈希(OLSH)、灵活的在线多模态哈希(FOMH)和离散在线跨模态哈希(DOCH)。其中OCMH和OCMFH为在线无监督跨模态哈希方法,其余的对比方法为在线监督跨模态哈希方法。
3、仿真结果
在该仿真实验中,使用一个广泛使用的指标来衡量本发明所提出的OMCJL方法和其他对比方法的性能。即平均精度的平均值(mAP)。给定一个查询和一个检索结果列表,其mAP定义为:
Figure BDA0003870413310000133
其中Q为查询实例,N为检索集中相关实例的数量,R为检索到的数据点的总数。在本发明的仿真实验中,R设置为100。Pq(r)表示top-r的检索精度。如果第q个查询实例与第r个实例相关,则δq(r)=1,否则δq(r)=0。一般来说,mAP值越大,检索性能越好。从仿真实验中取的哈希码长度为16位、32位、64位和128位,在表1中展示了本发明所提出的OMCJL方法和其他对比方法的所对应的mAP值。
表1在MIRFlickr数据集上所有方法在图像查询文本(Img2Text)和文本查询图像(Text2Img)任务上的mAP值
Figure BDA0003870413310000141
从表1的结果中可以看出,本发明所提出的OMCJL方法在MIRFlickr数据集下的两个查询任务中的mAP值都高于其他的对比方法。进一步的证明了本发明提出的OMCJL方法在在线跨模态检索中的优越性。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (9)

1.一种基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述方法的具体步骤如下:
Step1、获取跨模态数据集,将数据集中的训练集分为t轮数据块来模拟流数据;其中每轮数据块包含不同模态的样本特征及其对应的语义标签;
Step2、构建目标函数学习,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练;当第t轮数据块到达时,保存前t-1轮数据块训练得到的不同长度的哈希码不变,学习第t轮数据块不同长度的哈希码并保存,并根据第t轮数据块的实时新数据来在线更新哈希函数;
Step3、进行待检索样本的跨模态检索:首先得到检索集对应的哈希码,输入查询样本,根据上一步得到的哈希函数,得到查询样本的哈希码,将查询样本的哈希码代入检索集中进行查询,通过计算查询集与检索集中各样本间的汉明距离来获取查询结果。
2.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step1中,为了保证模型的泛化能力,对于数据进入模型训练前,都是使用随机分块的方法来处理以及划分训练集来模拟流数据。
3.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于,所述不同模态的样本特征至少包括:图像文本模态的样本特征和文本模态的样本特征。
4.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中所获得的目标函数具体过程包括:将原始样本映射到高维特征空间,并通过一致与特定于模态的投影矩阵将多模态数据特征投影到离散的公共表示作为训练实例的统一哈希码,对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束,同时将标签矩阵作为监督信息嵌入到目标函数中;此外,将不同长度的哈希码与最长长度哈希码建立语义联系,以充分对学习到的哈希码进行进一步的探索。
5.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中目标函数包括哈希码学习和哈希函数学习两个部分,哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习;哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数,将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中,通过将哈希码学习和哈希函数学习放到同一个模型中进行学习,以此来增强哈希码与哈希函数之间的语义联系,实现高精度的在线跨模态检索。
6.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中的目标函数包括两个数据部分,第t轮新到达的数据和前t-1轮累积的旧数据块。
7.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中,每轮数据块包括图像和文本两个模态,以及与之一一对应的标签;在第t轮训练时,带有类标签
Figure FDA0003870413300000021
的成对的数据块
Figure FDA0003870413300000022
被添加到训练集中;其中
Figure FDA0003870413300000023
Figure FDA0003870413300000024
分别表示维度为d1的图像特征矩阵和维度为d2的文本特征矩阵,nt和c分别是新的图像-文本数据块大小和类别数量;在第t轮,样本分为前t-1次累积的旧的训练样本
Figure FDA0003870413300000025
和第t次的训练新样本X(t)
Figure FDA0003870413300000026
包含
Figure FDA0003870413300000027
个样本对,其对应的标签矩阵为
Figure FDA0003870413300000028
因此,在t轮的总训练数据集记为
Figure FDA0003870413300000029
包含
Figure FDA00038704133000000210
个数据点,它对应的总标签矩阵记为
Figure FDA00038704133000000211
8.根据权利要求7所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中的具体步骤包括:
Step2.1、多哈希码联合学习
在统一训练模型中同时学习多个不同长度的哈希码,增加哈希长度的可伸缩性;此外,为了探索和学习哈希码,最长哈希码被用于其它不同长度的哈希码学习:
Figure FDA00038704133000000212
其中,
Figure FDA00038704133000000213
表示矩阵的Frobenius的平方,
Figure FDA00038704133000000214
Figure FDA00038704133000000215
Figure FDA00038704133000000216
分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K),K为哈希码个数,
Figure FDA00038704133000000217
Figure FDA00038704133000000218
分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码,
Figure FDA00038704133000000219
为投影矩阵,rk和rK分别表示Bk和BK的长度,α和γ为平衡参数;
2.2、标签嵌入
为了充分利用语义标签信息,将监督标签信息回归到哈希码,使学习到的哈希码保持语义标签的一致性;通过以下公式表示:
Figure FDA0003870413300000031
其中,
Figure FDA0003870413300000032
为投影矩阵,β为平衡参数;
2.3、哈希函数学习
通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码;为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性,将投影矩阵分解为一致的和特定于模态的矩阵;图像和文本模态的不一致被认为是一种特殊的噪声,因此对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束;本发明中的哈希函数是通过线性回归问题来学习的:
Figure FDA0003870413300000033
其中
Figure FDA0003870413300000034
Figure FDA0003870413300000035
分别为一致的和特定于模态的投影矩阵;μ、λ和γ表示控制相应贡献项的权衡参数;
Figure FDA0003870413300000036
是图像或文本的核特征矩阵,它旨在将原始样本映射到高维特征空间,适用于处理线性不可分问题;在这里,φ(.)表示RBF核函数,m表示锚点数;因此内核特征φ(xi)被定义如下:
Figure FDA0003870413300000037
其中
Figure FDA0003870413300000038
表示m个锚点;
Figure FDA0003870413300000039
是高斯核参数。
2.4、目标函数
综合以上几步,其目标函数为:
Figure FDA0003870413300000041
2.5、进行目标函数的迭代更新:通过迭代更新上一步得到的目标函数,直到目标函数收敛或达到最大迭代次数,得到哈希函数以及训练集的哈希码。
9.根据权利要求8所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中对目标函数的优化步骤如下:
2.5.1、更新Ck(t):固定其它变量,对于Ck(t),目标函数简化为:
Figure FDA0003870413300000042
设置
Figure FDA0003870413300000043
推导出Ck(t)的封闭解,如下:
Figure FDA0003870413300000044
其中
Figure FDA0003870413300000045
Figure FDA0003870413300000046
表示为:
Figure FDA0003870413300000047
Figure FDA0003870413300000048
Figure FDA0003870413300000049
Figure FDA00038704133000000410
其中
Figure FDA00038704133000000411
Figure FDA00038704133000000412
都是在第t-1轮得到的,从
Figure FDA00038704133000000413
Figure FDA00038704133000000414
的表示观察到:
Figure FDA00038704133000000415
Figure FDA00038704133000000416
前一部分与第t轮中新到达的数据有关,后一部分与前t-1轮积累的旧数据有关;因此
Figure FDA0003870413300000051
Figure FDA0003870413300000052
通过增量的方式计算,Ck(t)通过在线学习进行更新,同样地,
Figure FDA0003870413300000053
Wk(t)、和Rk(t)通过在线学习进行更新;
2.5.2、更新
Figure FDA0003870413300000054
固定其它变量,对于Ck(t),目标函数简化为:
Figure FDA0003870413300000055
为了求解基于l2,1范数的优化问题,引入了以下权重矩阵:
Figure FDA0003870413300000056
其中
Figure FDA0003870413300000057
是D(i)的第j行对角线元素,
Figure FDA0003870413300000058
是矩阵
Figure FDA0003870413300000059
的第j行,因此,上述的目标函数重写为:
Figure FDA00038704133000000510
设置
Figure FDA00038704133000000511
的更新表示为:
Figure FDA00038704133000000512
2.5.3、更新Wk(t):与Ck(t)的更新步骤相似,得到Wk(t)的封闭解,如下:
Figure FDA00038704133000000513
Figure FDA00038704133000000514
Figure FDA00038704133000000515
2.5.4、更新Rk(t)(1≤k≤K-1):与Ck(t)的更新步骤相似,得到Rk(t)的封闭解,如下:
Figure FDA00038704133000000516
Figure FDA00038704133000000517
Figure FDA0003870413300000061
2.5.5、更新Bk(t),固定其它变量,对于Bk(t),目标函数简化为:
Figure FDA0003870413300000062
从上述表达式观察到:当k=K时,即只学习一个长度的哈希码时,约束项
Figure FDA0003870413300000063
无意义,因此Bk(t)的更新分情况讨论;当k=K时,Bk(t)通过以下更新获得:
Figure FDA0003870413300000064
当1≤k<K时,即学习多个长度的哈希码时,Bk(t)的解很容易获得:
Figure FDA0003870413300000065
其中sgn(·)为符号函数;
通过以上步骤对目标函数进行优化,直到目标函数收敛或达到最大迭代次数,停止迭代。
CN202211193958.8A 2022-09-28 2022-09-28 一种基于在线多哈希码联合学习的跨模态检索方法 Pending CN115577144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211193958.8A CN115577144A (zh) 2022-09-28 2022-09-28 一种基于在线多哈希码联合学习的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211193958.8A CN115577144A (zh) 2022-09-28 2022-09-28 一种基于在线多哈希码联合学习的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN115577144A true CN115577144A (zh) 2023-01-06

Family

ID=84582760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211193958.8A Pending CN115577144A (zh) 2022-09-28 2022-09-28 一种基于在线多哈希码联合学习的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN115577144A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089731A (zh) * 2023-04-10 2023-05-09 山东大学 一种缓解灾难性遗忘的在线哈希检索方法及系统
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089731A (zh) * 2023-04-10 2023-05-09 山东大学 一种缓解灾难性遗忘的在线哈希检索方法及系统
CN116089731B (zh) * 2023-04-10 2023-07-14 山东大学 一种缓解灾难性遗忘的在线哈希检索方法及系统
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN116595343B (zh) * 2023-07-17 2023-10-03 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统

Similar Documents

Publication Publication Date Title
Kaiser et al. Learning to remember rare events
US10664744B2 (en) End-to-end memory networks
CN115577144A (zh) 一种基于在线多哈希码联合学习的跨模态检索方法
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN112925962B (zh) 基于哈希编码的跨模态数据检索方法、系统、设备及介质
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN113326287B (zh) 一种使用三步策略的在线跨模态检索方法及系统
CN113837370B (zh) 用于训练基于对比学习的模型的方法和装置
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN109166615A (zh) 一种随机森林哈希的医学ct图像存储与检索方法
CN114117153A (zh) 一种基于相似度重学习的在线跨模态检索方法及系统
Yang et al. Deep reinforcement hashing with redundancy elimination for effective image retrieval
Weng et al. Online hashing with bit selection for image retrieval
CN116150411A (zh) 一种基于自适应类相关离散哈希的零样本跨模态检索方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN110059154B (zh) 一种基于继承映射的跨模态迁移哈希检索方法
Xie et al. Deep online cross-modal hashing by a co-training mechanism
CN111930972B (zh) 利用标签层次信息的多媒体数据跨模态检索方法及系统
CN115309929A (zh) 一种非线性语义保持跨模态哈希检索方法及系统
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统
CN115544306A (zh) 一种基于特征融合哈希算法的多模态检索方法
Lee et al. Language Model Using Differentiable Neural Computer Based on Forget Gate-Based Memory Deallocation.
CN113626574A (zh) 一种信息查询方法及系统及装置及介质
CN114120447A (zh) 一种基于原型对比学习的行为识别方法及系统、存储介质
CN113609313A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination