CN115577144A - 一种基于在线多哈希码联合学习的跨模态检索方法 - Google Patents
一种基于在线多哈希码联合学习的跨模态检索方法 Download PDFInfo
- Publication number
- CN115577144A CN115577144A CN202211193958.8A CN202211193958A CN115577144A CN 115577144 A CN115577144 A CN 115577144A CN 202211193958 A CN202211193958 A CN 202211193958A CN 115577144 A CN115577144 A CN 115577144A
- Authority
- CN
- China
- Prior art keywords
- hash
- data
- learning
- hash code
- round
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 59
- 238000012417 linear regression Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000004088 simulation Methods 0.000 description 6
- 238000012733 comparative method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Library & Information Science (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于在线多哈希码联合学习的跨模态检索方法。包括以下步骤:获取跨模态数据集,并将数据集中的训练集分为t轮数据块来模拟流数据;构建目标函数,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练,当第t轮数据块到达时,保存前t‑1轮数据块训练得到的不同长度的哈希码不变,学习第t轮数据块不同长度的哈希码并保存,并根据第t轮数据块的实时新数据来在线更新哈希函数;进行待检索样本的跨模态检索;本发明在模型训练的过程中,只需要存储前一轮的优化结果,从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码,增加了哈希码学习的灵活性,降低了系统的内存消耗,提高了检索效率。
Description
技术领域
本发明涉及一种在线场景下的跨模态检索方法,尤其涉及一种基于在线多哈希码联合学习的跨模态检索方法。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
在大数据领域,多媒体数据呈爆炸式增长。因此,如何有效地检索所需的数据信息成为一个备受关注的问题。由于二进制哈希码是一个较短的位数,它可以直接执行XOR操作来计算数据之间的相似性。因此,跨模态哈希方法通过将不同的模态数据编码成紧凑的二进制哈希码,然后利用它们在汉明空间中的距离,来衡量模态之间的相似性。该方法大大降低了存储需求。然而,大多数跨模态哈希方法都基于批处理的,对于不断增长的流式多模态数据,基于批处理的哈希方法需要对所有数据点进行重新训练,以学习新数据点的哈希码。当新的流数据频繁到达时,它会带来不可接受的计算成本和内存成本。因此,基于批处理的哈希方法不适合处理流式数据。在线哈希方法在对新出现的流数据更新哈希函数和哈希码的同时,也保持旧流数据的二进制码的有效性。因此,在线哈希方法可以对流数据进行快速和有效地检索。现有的在线跨模态哈希方法仍存在一些局限性:(1)为了获得不同长度的哈希码,都需要重新训练模型。显然,这在很大程度上降低实际应用中哈希方法的灵活性。(2)对于不同长度的哈希码的学习,未充分利用较长长度哈希码所包含的语义信息。(3)未同时对多模态数据的一致性和特定于模态的属性进行考虑,可能影响检索精度。(4)通过构建大小为一个训练数据平方的相似矩阵来保存监督信息,对于大型数据,尤其是流数据来说,造成很大的时间和空间的消耗。
发明内容
鉴于以上存在的挑战,本发明提供了一种基于在线多哈希码联合学习的跨模态检索方法。本发明通过在统一框架中同时学习不同长度的哈希码,而不需要再训练,在增加哈希码灵活性的同时,能够获得更好的性能。
为了实现本发明的目的,本发明所述的一种基于在线多哈希码联合学习的跨模态检索方法的技术方案是:
Step1、获取跨模态数据集,将数据集中的训练集分为t轮数据块来模拟流数据;其中每轮数据块包含不同模态的样本特征及其对应的语义标签;
Step2、构建目标函数学习,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练;当第t轮数据块到达时,保存前t-1轮数据块训练得到的不同长度的哈希码,学习第t轮数据块不同长度的哈希码并存入检索库,并根据第t轮数据块的实时新数据来在线更新哈希函数;
Step3、进行待检索样本的跨模态检索:首先得到检索集对应的哈希码,输入查询样本,根据上一步得到的哈希函数,得到查询样本的哈希码,将查询样本的哈希码代入检索集中进行查询,通过计算查询集与检索集中各样本间的汉明距离来返回与待查样本距离近的所需的另一个模态的检索样本。
本发明在模型训练的过程中,只需要存储前一轮的优化结果,从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码,增加了哈希码学习的灵活性,降低了系统的内存消耗,提高了检索效率。
进一步的,在线跨模态检索数据集的所述不同模态的样本特征至少包括:图像文本模态的样本特征和文本模态的样本特征。
进一步的,所述Step1中,对于数据进入模型训练前,都应该是使用随机分块的方法来处理以及划分训练集来模拟流数据,以保证模型的泛化能力。
进一步的,所述Step2中所获得的目标函数具体过程包括:将原始样本映射到高维特征空间,并通过一致与特定于模态的投影矩阵将多模态数据特征投影到离散的公共表示作为训练实例的统一哈希码。对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束,同时将标签矩阵作为监督信息嵌入到目标函数中。此外,将不同长度的哈希码与最长长度哈希码建立语义联系,以充分对学习到的哈希码进行进一步的探索。
进一步的,所述Step2中目标函数包括哈希码学习和哈希函数学习两个部分,哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习;哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数,将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中,通过将哈希码学习和哈希函数学习放到同一个模型中进行学习,以此来增强哈希码与哈希函数之间的语义联系,实现高精度的在线跨模态检索。
进一步的,所述Step2中的目标函数包括两个数据部分,第t轮新到达的数据和前t-1轮累积的旧数据块。
进一步的,所述Step2中目标函数并非是最优的,需要对该函数进行优化,由于该目标函数是一个非凸问题,但是当固定其他的变量,更新一个矩阵变量时,这时的函数是一个凸问题,方便进行目标函数的更新;采用此交替迭代算法来更新矩阵变量,直到目标函数收敛或达到最大迭代次数,最终得到最优的哈希码和哈希函数。
进一步地,所述Step2中,每轮数据块包括图像和文本两个模态,以及与之一一对应的标签;在第t轮训练时,带有类标签的成对的数据块被添加到训练集中;其中和分别表示维度为d1的图像特征矩阵和维度为d2的文本特征矩阵,nt和c分别是新的图像-文本数据块大小和类别数量;在第t轮,样本分为前t-1次累积的旧的训练样本和第t次的训练新样本X(t);包含个样本对,其对应的标签矩阵为因此,在t轮的总训练数据集记为包含个数据点,它对应的总标签矩阵记为
进一步地,所述Step2中的具体步骤包括:
Step2.1、多哈希码联合学习
在统一训练模型中同时学习多个不同长度的哈希码,增加哈希长度的可伸缩性;此外,为了探索和学习哈希码,最长哈希码被用于其它不同长度的哈希码学习:
其中,表示矩阵的Frobenius的平方,和 分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K),K为哈希码个数,和分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码,为投影矩阵,rk和rK分别表示Bk和BK的长度,α和γ为平衡参数;
2.2、标签嵌入
为了充分利用语义标签信息,将监督标签信息回归到哈希码,使学习到的哈希码保持语义标签的一致性;通过以下公式表示:
2.3、哈希函数学习
通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码;为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性,将投影矩阵分解为一致的和特定于模态的矩阵;图像和文本模态的不一致被认为是一种特殊的噪声,因此对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束;本发明中的哈希函数是通过线性回归问题来学习的:
其中和分别为一致的和特定于模态的投影矩阵;μ、λ和γ表示控制相应贡献项的权衡参数;是图像或文本的核特征矩阵,它旨在将原始样本映射到高维特征空间,适用于处理线性不可分问题;在这里,φ(.)表示RBF核函数,m表示锚点数;因此内核特征φ(xi)被定义如下:
2.4、目标函数
综合以上几步,其目标函数为:
2.5、进行目标函数的迭代更新:通过迭代更新上一步得到的目标函数,直到目标函数收敛或达到最大迭代次数,得到哈希函数以及训练集的哈希码。
进一步地,所述Step2中对目标函数的优化步骤如下:
2.5.1、更新Ck(t):固定其它变量,对于Ck(t),目标函数简化为:
其中和都是在第t-1轮得到的,从和的表示观察到:和前一部分与第t轮中新到达的数据有关,后一部分与前t-1轮积累的旧数据有关;因此和通过增量的方式计算,Ck(t)通过在线学习进行更新,同样地,Wk(t)、和Rk(t)通过在线学习进行更新;
为了求解基于l2,1范数的优化问题,引入了以下权重矩阵:
2.5.3、更新Wk(t):与Ck(t)的更新步骤相似,得到Wk(t)的封闭解,如下:
2.5.4、更新Rk(t)(1≤k≤K-1):与Ck(t)的更新步骤相似,得到Rk(t)的封闭解,如下:
2.5.5、更新Bk(t),固定其它变量,对于Bk(t),目标函数简化为:
当1≤k<K时,即学习多个长度的哈希码时,Bk(t)的解很容易获得:
其中sgn(·)为符号函数;
通过以上步骤对目标函数进行优化,直到目标函数收敛或达到最大迭代次数,停止迭代。
本发明的有益效果是:
本发明提出了一种基于在线多哈希码联合学习的跨模态检索方法,简称OMCJL。它通过一种有效的多模态映射学习策略,通过将投影矩阵分解为一致的和特定于模态的投影矩阵,使得到的哈希码保持了多模态数据的一致和特定属性。同时,对特定于模态的投影矩阵施加稀疏约束。此外,提出了一种哈希码的在线学习策略,可以在一次在线模型训练中同时学习多个不同长度的哈希码,并且最长哈希码被用于其它不同长度的哈希码学习,这样可以进一步探索和学习哈希码。同时,为了提高检索性能,利用语义标签来指导哈希码的学习。本发明在模型训练的过程中,只需要存储前一轮的优化结果,从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码,增加了哈希码学习的灵活性,降低了系统的内存消耗,提高了检索效率。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解。
图1为本发明实施例方法的流程图。
具体实施方式
下面的说明都是实例性的,旨在结合附图进一步说明本发明的技术方案。
实施例1,图1是本发明一种基于在线多哈希码联合学习的跨模态检索方法的流程图。
在本实例中,参见图1,本发明方法具体包括如下过程:
1、获取跨模态数据集,并将数据集中的训练集分为t轮数据块来模拟流数据。在本实例中,每轮数据块包括图像和文本两个模态,以及与之一一对应的标签。
在本发明中,在第t轮训练时,带有类标签的成对的数据块被添加到训练集中。其中和分别表示维度为d1的图像特征矩阵和维度为d2的文本特征矩阵,nt和c分别是新的图像-文本数据块大小和类别数量。在第t轮,样本可分为前t-1次累积的旧的训练样本和第t次的训练新样本X(t)。包含个样本对,其对应的标签矩阵为因此,在t轮的总训练数据集记为包含个数据点,它对应的总标签矩阵记为
2、构建目标函数学习,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练;当第t轮数据块到达时,保存前t-1轮数据块训练得到的不同长度的哈希码不变,学习第t轮数据块不同长度的哈希码并保存,并根据第t轮数据块的实时新数据来在线更新哈希函数;
目标函数包括哈希码学习和哈希函数学习两个部分,哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习;哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数,将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中,通过将哈希码学习和哈希函数学习放到同一个模型中进行学习,以此来增强哈希码与哈希函数之间的语义联系。此外,目标函数还包括第t轮新到达的数据和前t-1轮累积的旧数据块这两部分,接下来将详细描述各个模块的学习模型:
2.1、多哈希码联合学习
一般在学习二进制码之前,我们预先定义了一个固定的哈希长度(例如,16位或32位)。当哈希码长度发生变化时,这些模型需要重新训练。因此,在统一训练模型中同时学习多个不同长度的哈希码,这增加了哈希长度的可伸缩性。此外,较长的哈希码包含更丰富的语义,为了进一步探索和学习哈希码,本发明中最长哈希码被用于其它不同长度的哈希码学习:
其中,表示矩阵的Frobenius的平方,和 分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K),K为哈希码个数,和分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码,为投影矩阵,rk和rK分别表示Bk和BK的长度,α和γ为平衡参数。
2.2、标签嵌入
为了充分利用语义标签信息,我们进一步将监督标签信息回归到哈希码,使学习到的哈希码可以保持语义标签的一致性。可通过以下公式表示:
2.3、哈希函数学习
为了避免较大的量化误差,本发明通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码。为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性,将投影矩阵分解为一致的和特定于模态的矩阵。图像和文本模态的不一致可以被认为是一种特殊的噪声,因此本实例中对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束。本发明中的哈希函数是通过线性回归问题来学习的:
其中和分别为一致的和特定于模态的投影矩阵。μ、λ和γ表示控制相应贡献项的权衡参数。是图像或文本的核特征矩阵,它旨在将原始样本映射到高维特征空间,适用于处理线性不可分问题。在这里,φ(.)表示RBF核函数,m表示锚点数。因此内核特征φ(xi)被定义如下:
2.4、目标函数
综合以上几步,其目标函数为:
Step3、进行目标函数的迭代更新:通过迭代更新上一步得到的目标函数,直到目标函数收敛或达到最大迭代次数,得到哈希函数以及训练集的哈希码。
目标函数并不是最优的,接下来需要对其进行迭代更新。显然,整体目标函数是一个非凸优化问题。因此,我们提出了一种有效的交替迭代算法来解决这一问题。
对目标函数的的优化步骤如下:
3.1、更新Ck(t):固定其它变量,对于Ck(t),目标函数可以简化为:
其中和都是在第t-1轮得到的,从和的表示可以观察到:和前一部分与第t轮中新到达的数据有关,后一部分与前t-1轮积累的旧数据有关。因此和可以通过增量的方式计算,Ck(t)可以通过在线学习进行更新。同样地,Wk(t)、和Rk(t)也可以通过在线学习进行更新。
为了求解基于l2,1范数的优化问题,引入了以下权重矩阵:
3.3、更新Wk(t):与Ck(t)的更新步骤相似,得到Wk(t)的封闭解。如下:
3.4、更新Rk(t)(1≤k≤K-1):与Ck(t)的更新步骤相似,得到Rk(t)的封闭解。如下:
3.5、更新Bk(t):固定其它变量,对于Bk(t),目标函数可以简化为:
当1≤k<K时,即学习多个长度的哈希码时,Bk(t)的解可以很容易获得:
其中sgn(·)为符号函数。
通过以上步骤对目标函数进行优化,直到目标函数收敛或达到最大迭代次数,停止迭代。
4、查询,进行待检索样本的跨模态检索:首先得到检索集对应的哈希码,输入查询样本,根据上一步得到的哈希函数,得到查询样本的哈希码。将查询样本的哈希码代入检索集中进行查询。具体的实施步骤如下所示:
给定图像和文本的查询样本对应的特征矩阵为x1query和x2que,结合上一步得到的投影矩阵W1和W2。通过公式和得到查询样本对应的哈希码。在本实施例中,我们进行的是两个主要的检索任务:图像查询文本和文本查询图像。
由于本发明的查询任务是在一个二值空间进行的,因此通过计算查询样本与检索集中各样本之间的汉明距离,并按照从大到小进行排序,将排序后的前100个样本作为查询的结果。
为了说明本发明的效果,下面通过具体实施例对本发明的技术方案做进一步阐述:
1、仿真条件
本发明运用Matlab 2020a软件进行的实验仿真。在MIRFlickr数据集(包含图像和文本两个模态)上进行实验,所进行的实验包括两个查询任务:图像查询文本(Img2Text)和文本查询图像(Text2Img)。实验中将参数将μ、λ、α、β和γ分别设置为1e2、1e-6、1e-1、1e3和1e-6,将MIRFlickr数据集分成8轮数据块,前7轮数据块大小为2000个样本,第8轮数据块大小为1902个样本。
2、仿真内容
本发明的方法与现有的在线跨模态哈希检索方法进行了对比,对比方法包括在线跨模态哈希(OCMH)、在线协同矩阵分解哈希(OCMFH)、在线潜在语义哈希(OLSH)、灵活的在线多模态哈希(FOMH)和离散在线跨模态哈希(DOCH)。其中OCMH和OCMFH为在线无监督跨模态哈希方法,其余的对比方法为在线监督跨模态哈希方法。
3、仿真结果
在该仿真实验中,使用一个广泛使用的指标来衡量本发明所提出的OMCJL方法和其他对比方法的性能。即平均精度的平均值(mAP)。给定一个查询和一个检索结果列表,其mAP定义为:
其中Q为查询实例,N为检索集中相关实例的数量,R为检索到的数据点的总数。在本发明的仿真实验中,R设置为100。Pq(r)表示top-r的检索精度。如果第q个查询实例与第r个实例相关,则δq(r)=1,否则δq(r)=0。一般来说,mAP值越大,检索性能越好。从仿真实验中取的哈希码长度为16位、32位、64位和128位,在表1中展示了本发明所提出的OMCJL方法和其他对比方法的所对应的mAP值。
表1在MIRFlickr数据集上所有方法在图像查询文本(Img2Text)和文本查询图像(Text2Img)任务上的mAP值
从表1的结果中可以看出,本发明所提出的OMCJL方法在MIRFlickr数据集下的两个查询任务中的mAP值都高于其他的对比方法。进一步的证明了本发明提出的OMCJL方法在在线跨模态检索中的优越性。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (9)
1.一种基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述方法的具体步骤如下:
Step1、获取跨模态数据集,将数据集中的训练集分为t轮数据块来模拟流数据;其中每轮数据块包含不同模态的样本特征及其对应的语义标签;
Step2、构建目标函数学习,利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练;当第t轮数据块到达时,保存前t-1轮数据块训练得到的不同长度的哈希码不变,学习第t轮数据块不同长度的哈希码并保存,并根据第t轮数据块的实时新数据来在线更新哈希函数;
Step3、进行待检索样本的跨模态检索:首先得到检索集对应的哈希码,输入查询样本,根据上一步得到的哈希函数,得到查询样本的哈希码,将查询样本的哈希码代入检索集中进行查询,通过计算查询集与检索集中各样本间的汉明距离来获取查询结果。
2.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step1中,为了保证模型的泛化能力,对于数据进入模型训练前,都是使用随机分块的方法来处理以及划分训练集来模拟流数据。
3.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于,所述不同模态的样本特征至少包括:图像文本模态的样本特征和文本模态的样本特征。
4.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中所获得的目标函数具体过程包括:将原始样本映射到高维特征空间,并通过一致与特定于模态的投影矩阵将多模态数据特征投影到离散的公共表示作为训练实例的统一哈希码,对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束,同时将标签矩阵作为监督信息嵌入到目标函数中;此外,将不同长度的哈希码与最长长度哈希码建立语义联系,以充分对学习到的哈希码进行进一步的探索。
5.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中目标函数包括哈希码学习和哈希函数学习两个部分,哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习;哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数,将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中,通过将哈希码学习和哈希函数学习放到同一个模型中进行学习,以此来增强哈希码与哈希函数之间的语义联系,实现高精度的在线跨模态检索。
6.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中的目标函数包括两个数据部分,第t轮新到达的数据和前t-1轮累积的旧数据块。
8.根据权利要求7所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中的具体步骤包括:
Step2.1、多哈希码联合学习
在统一训练模型中同时学习多个不同长度的哈希码,增加哈希长度的可伸缩性;此外,为了探索和学习哈希码,最长哈希码被用于其它不同长度的哈希码学习:
其中,表示矩阵的Frobenius的平方,和 分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K),K为哈希码个数,和分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码,为投影矩阵,rk和rK分别表示Bk和BK的长度,α和γ为平衡参数;
2.2、标签嵌入
为了充分利用语义标签信息,将监督标签信息回归到哈希码,使学习到的哈希码保持语义标签的一致性;通过以下公式表示:
2.3、哈希函数学习
通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码;为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性,将投影矩阵分解为一致的和特定于模态的矩阵;图像和文本模态的不一致被认为是一种特殊的噪声,因此对特定于模态的投影矩阵施加基于l2,1范数的稀疏约束;本发明中的哈希函数是通过线性回归问题来学习的:
其中和分别为一致的和特定于模态的投影矩阵;μ、λ和γ表示控制相应贡献项的权衡参数;是图像或文本的核特征矩阵,它旨在将原始样本映射到高维特征空间,适用于处理线性不可分问题;在这里,φ(.)表示RBF核函数,m表示锚点数;因此内核特征φ(xi)被定义如下:
2.4、目标函数
综合以上几步,其目标函数为:
2.5、进行目标函数的迭代更新:通过迭代更新上一步得到的目标函数,直到目标函数收敛或达到最大迭代次数,得到哈希函数以及训练集的哈希码。
9.根据权利要求8所述的基于在线多哈希码联合学习的跨模态检索方法,其特征在于:所述Step2中对目标函数的优化步骤如下:
2.5.1、更新Ck(t):固定其它变量,对于Ck(t),目标函数简化为:
其中和都是在第t-1轮得到的,从和的表示观察到:和前一部分与第t轮中新到达的数据有关,后一部分与前t-1轮积累的旧数据有关;因此和通过增量的方式计算,Ck(t)通过在线学习进行更新,同样地,Wk(t)、和Rk(t)通过在线学习进行更新;
为了求解基于l2,1范数的优化问题,引入了以下权重矩阵:
2.5.3、更新Wk(t):与Ck(t)的更新步骤相似,得到Wk(t)的封闭解,如下:
2.5.4、更新Rk(t)(1≤k≤K-1):与Ck(t)的更新步骤相似,得到Rk(t)的封闭解,如下:
2.5.5、更新Bk(t),固定其它变量,对于Bk(t),目标函数简化为:
当1≤k<K时,即学习多个长度的哈希码时,Bk(t)的解很容易获得:
其中sgn(·)为符号函数;
通过以上步骤对目标函数进行优化,直到目标函数收敛或达到最大迭代次数,停止迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211193958.8A CN115577144A (zh) | 2022-09-28 | 2022-09-28 | 一种基于在线多哈希码联合学习的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211193958.8A CN115577144A (zh) | 2022-09-28 | 2022-09-28 | 一种基于在线多哈希码联合学习的跨模态检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115577144A true CN115577144A (zh) | 2023-01-06 |
Family
ID=84582760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211193958.8A Pending CN115577144A (zh) | 2022-09-28 | 2022-09-28 | 一种基于在线多哈希码联合学习的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577144A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089731A (zh) * | 2023-04-10 | 2023-05-09 | 山东大学 | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
CN116595343A (zh) * | 2023-07-17 | 2023-08-15 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
-
2022
- 2022-09-28 CN CN202211193958.8A patent/CN115577144A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089731A (zh) * | 2023-04-10 | 2023-05-09 | 山东大学 | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
CN116089731B (zh) * | 2023-04-10 | 2023-07-14 | 山东大学 | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
CN116595343A (zh) * | 2023-07-17 | 2023-08-15 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
CN116595343B (zh) * | 2023-07-17 | 2023-10-03 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaiser et al. | Learning to remember rare events | |
US10664744B2 (en) | End-to-end memory networks | |
CN115577144A (zh) | 一种基于在线多哈希码联合学习的跨模态检索方法 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN112925962B (zh) | 基于哈希编码的跨模态数据检索方法、系统、设备及介质 | |
CN113312505B (zh) | 一种基于离散在线哈希学习的跨模态检索方法及系统 | |
CN113326287B (zh) | 一种使用三步策略的在线跨模态检索方法及系统 | |
CN113837370B (zh) | 用于训练基于对比学习的模型的方法和装置 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN109166615A (zh) | 一种随机森林哈希的医学ct图像存储与检索方法 | |
CN114117153A (zh) | 一种基于相似度重学习的在线跨模态检索方法及系统 | |
Yang et al. | Deep reinforcement hashing with redundancy elimination for effective image retrieval | |
Weng et al. | Online hashing with bit selection for image retrieval | |
CN116150411A (zh) | 一种基于自适应类相关离散哈希的零样本跨模态检索方法 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN110059154B (zh) | 一种基于继承映射的跨模态迁移哈希检索方法 | |
Xie et al. | Deep online cross-modal hashing by a co-training mechanism | |
CN111930972B (zh) | 利用标签层次信息的多媒体数据跨模态检索方法及系统 | |
CN115309929A (zh) | 一种非线性语义保持跨模态哈希检索方法及系统 | |
CN115098707A (zh) | 基于零样本学习的跨模态哈希检索方法及系统 | |
CN115544306A (zh) | 一种基于特征融合哈希算法的多模态检索方法 | |
Lee et al. | Language Model Using Differentiable Neural Computer Based on Forget Gate-Based Memory Deallocation. | |
CN113626574A (zh) | 一种信息查询方法及系统及装置及介质 | |
CN114120447A (zh) | 一种基于原型对比学习的行为识别方法及系统、存储介质 | |
CN113609313A (zh) | 数据处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |