CN111461157B - 一种基于自学习的跨模态哈希检索方法 - Google Patents

一种基于自学习的跨模态哈希检索方法 Download PDF

Info

Publication number
CN111461157B
CN111461157B CN201910180371.5A CN201910180371A CN111461157B CN 111461157 B CN111461157 B CN 111461157B CN 201910180371 A CN201910180371 A CN 201910180371A CN 111461157 B CN111461157 B CN 111461157B
Authority
CN
China
Prior art keywords
matrix
modality
hash
representing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910180371.5A
Other languages
English (en)
Other versions
CN111461157A (zh
Inventor
陈志奎
钟芳明
杜佳宁
仇希如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Publication of CN111461157A publication Critical patent/CN111461157A/zh
Application granted granted Critical
Publication of CN111461157B publication Critical patent/CN111461157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于自学习的跨模态哈希检索方法,属于计算机技术领域,步骤为:1)通过共矩阵分解技术学习不同模态的潜在公共语义特征;2)通过正交变换和量化过程学习到统一的、具有辨别性的二进制码;3)将模态内和模态间的相似度保持整合为图正则化项,并嵌入到二进制码的生成过程中;4)计算和优化目标函数,迭代更新多个矩阵变量直至满足收敛条件;5)采用自学框架完成特定模态哈希函数的学习。本发明针对阈值策略造成大量化误差的问题,将不同模态公共表示的二进制编码损失最小化,同时嵌入模态内部和模态间的相似性,并引入自学习哈希方案学习到更具有辨别性的哈希函数。能够有效减小二值量化阶段的编码误差,提高哈希码的质量和跨模态检索的性能。

Description

一种基于自学习的跨模态哈希检索方法
技术领域
本发明属于计算机技术领域,涉及一种基于自学习的跨模态哈希检索方法。
背景技术
随着信息检索技术的快速发展和多种数字设备的普及,互联网中出现大量多媒体数据,如文本、图像、视频等。这些多媒体数据不仅具有相当大的数量,还包含多种不同维度的模态。由于不同模态的数据通常描述了同一个物体或事件,如何利用其中一种模态数据来检索与之相关的其他模态结果,已经成为需要迫切解决的问题。近年来,许多研究者已经投入到跨模态检索领域,并取得了很大的成功。然而,当数据维度较高、规模较大时,大多数跨模态检索方法的检索成本会非常大。为了加快检索速度,基于哈希的跨模态检索(即跨模态哈希)在多媒体领域引起了越来越多的关注,它将不同模态的高维数据转换成紧凑的二进制码,并保持原始数据的流形结构,有效地解决了大规模多媒体数据的检索问题。由于不同模态之间不一致的特征维度和语义差异,跨模态哈希仍然是一项非常具有挑战性的任务。
近年来,大量的研究工作主要关注于消除不同模态之间的语义鸿沟。根据是否使用标签信息,跨模态哈希被分为无监督方法和监督方法。无监督的方法,例如跨媒体哈希(IMH)、潜在语义稀疏哈希(LSSH)、共矩阵分解哈希(CMFH),仅利用训练数据的共现信息来挖掘不同模态的潜在特征。不同于无监督的方法,监督方法充分利用标签信息来保持语义相似性,通常可以有效减小语义差距,并得到更好的检索结果。代表性的监督跨模态哈希方法包括跨模态相似性敏感哈希(CMSSH)、语义相关最大化(SCM)、监督矩阵分解哈希(SMFH)。
然而,无论是无监督哈希方法还是监督的哈希方法,都具有一个共同的限制:在量化阶段,它们大多数都忽略了二值约束,而采用简单的阈值策略来生成最终的二进制哈希码,这将导致大量化误差,同时会降低二进制码的辨别能力。一些工作也采用了sigmoid或者tanh松弛来代替sign函数,从而避免了大量化误差。它们的结果也表明降低量化误差对提高哈希码的质量至关重要。
因此,本发明采用自学习哈希方案,主要考虑最小化公共表示的编码损失,发明了一种基于自学习的跨模态哈希检索方法。
发明内容
本发明针对两个模态(图像和文本)之间的交叉检索,探究一种基于自学习的跨模态哈希检索方法。该方法将语义特征学习和二值量化过程相结合,不仅捕获到各模态数据的潜在语义信息,而且使得二进制码的量化误差最小。此外,本发明引入自学习哈希方案来学习哈希函数,同时借助支持向量机二分类的优势,学习到更具有辨别力的哈希函数和哈希码,最终提高跨模态检索的准确率和召回率。
为了达到上述目的,本发明采用的技术方案为:
一种基于自学习的跨模态哈希检索方法,包括以下步骤:
步骤1、通过共矩阵分解技术学习不同模态的潜在公共语义特征
步骤2、通过正交变换和量化过程学习统一的、具有辨别性的二进制码;
步骤3、将模态内和模态间的相似度保持整合为图正则化项,并嵌入到二进制码的生成过程中;
步骤4、计算和优化目标函数,迭代更新多个矩阵变量直至满足收敛条件;
步骤5、采用自学框架完成特定模态哈希函数的学习。
本发明的有益效果为:本发明主要针对阈值策略造成大量化误差的问题,考虑结合语义特征学习和二值编码过程,将不同模态公共表示的二进制编码损失最小化,同时嵌入模态内部和模态间的相似性,并引入自学习哈希方案学习到更具有辨别性的哈希函数。实验表明,本发明有效减小了二值量化阶段的编码误差,提高了哈希码的质量和跨模态检索的性能。
附图说明
图1基于自学习的跨模态哈希检索方法(STCMH)框架图;
图2所有方法在Wiki数据集64位哈希码长度的准确率-召回率曲线和topN-准确率曲线。其中,图(a)为图像检索文本任务下的准确率-召回率曲线,图(b)为文本检索图像任务下的准确率-召回率曲线,图(c)为图像检索文本任务下的topN-准确率曲线,图(d)为文本检索图像任务下的topN-准确率曲线;
图3所有方法在Pascal数据集64位哈希码长度的准确率-召回率曲线和topN-准确率曲线。图(a)为图像检索文本任务下的准确率-召回率曲线,图(b)为文本检索图像任务下的准确率-召回率曲线,图(c)为图像检索文本任务下的topN-准确率曲线,图(d)为文本检索图像任务下的topN-准确率曲线;
图4为本发明提出方法的流程图。
具体实施方式
下面结合附图对本发明的实施方式做进一步说明。
图1为基于自学习的跨模态哈希检索方法的框架图。为了描述简单,本发明使用最常见的两种模态(文本和图像)作为跨模态检索的样本。首先采用共矩阵分解技术将不同模态的特征数据投影到公共潜在语义空间。其次,通过正交变换技术将公共语义空间旋转至不同维度数据的方差最小,使得二值量化损失达到最小化,从而可以将相同类别但空间不相关的样本进一步转换为相似的二进制码。此外,考虑保持模态内和模态间的相似度。对于模态内相似度,利用局部几何结构进行学习;对于模态间相似度,利用标签信息来定义学习。之后,在自学习哈希方案的引导下,将哈希函数的学习视为一个二进制分类问题。因此,基于训练数据和学习到的二进制码,可以训练得到一组分类器,将其整合学习后生成哈希函数。最后,查询样本可以通过哈希函数直接生成其对应的二进制码,之后计算它与数据库之间的汉明距离来获得最终的跨模态检索结果。
具体步骤如下:
步骤1、学习潜在语义特征;
具有语义信息的公共子空间学习被证明可以在跨模态检索中产生更好的结果,其中包括两个原因。首先,它提取到高级语义特征,消除了冗余信息并突出共同特征。其次,分享共同主题或概念的相关数据彼此接近,从而减少了语义鸿沟。矩阵分解是挖掘语义概念和维度约简的卓越技术之一,已经广泛应用于模式识别领域。类似地,共矩阵分解提供了一种简单而有效的方法来提取多模态数据的公共语义。遵循这个想法,本发明采用共矩阵分解技术学习异构数据的公共语义特征。假定训练集
Figure BDA0001991001400000031
是具有两种模态的n个实例,其中si表示第i个实例,n表示所有实例的数量。对于第i(i=1,...,n)个实例si={xi,yi},xi表示d1维的图像特征向量,yi表示d2维的文本特征向量,d1和d2分别表示图像特征向量和文本特征向量的维度,通常d1≠d2。这里将图像模态的训练特征表示为
Figure BDA0001991001400000032
文本模态的训练特征为
Figure BDA0001991001400000033
其中
Figure BDA0001991001400000034
表示实数集。针对训练特征X和Y,将它们联合分解如公式(1)所示,并将该公式定义为O1
Figure BDA0001991001400000035
其中,矩阵
Figure BDA0001991001400000036
Figure BDA0001991001400000037
分别代表图像模态和文本模态的分解因子,其中k是潜在因子的数量,同时也表示哈希码长度。
Figure BDA0001991001400000038
代表两个模态的公共潜在语义表示,而VT表示矩阵V的转置,其中上标T指矩阵的转置。权衡参数α用于衡量图像模态和文本模态的重要性。||·||F表示矩阵的Frobenius-范数(简称F-范数),
Figure BDA0001991001400000039
表示F-范数的平方。
步骤2、二值编码过程;
在之前的跨模态哈希工作中,通常使用简单、直接的阈值策略(如sign函数)来生成二进制码,这会导致大量化误差,并可能改变公共语义空间的局部结构。因此,为了减轻这个问题,本发明对学习到的公共语义空间执行正交变换,来获得具有最小语义损失的二进制码。给定潜在公共潜在语义表示V,二值编码过程通过优化如下公式(2):
Figure BDA0001991001400000041
其中,
Figure BDA0001991001400000042
表示原始数据的哈希码矩阵。
Figure BDA0001991001400000043
代表正交变换矩阵,它建立公共语义特征和二进制哈希码间的关系,平衡了公共语义潜在表示V中不同维度数据的方差,使得相同类别但具有不相关空间特征的数据被编码成相似的二进制码,并且相应地最小化语义量化损失,QT表示矩阵Q的转置。Ik代表k阶单位矩阵。为了表示方便,将公式
Figure BDA0001991001400000044
定义为O2,用来表示二值编码过程。min(·)表示最小化公式,符号s.t.表示公式的约束条件。
步骤3、图正则化嵌入;
为了使学习到的二进制码更有辨别性,本发明引入原始数据的局部结构和标签信息,考虑在二进制码的生成和哈希函数的学习过程中同时保持模态内和模态间的相似性。
1)模态内相似性
模态内相似性通过局部几何结构来度量,首先捕捉每个模态的近邻关系,然后构建p近邻模型,选取前p项作为最相近的样本,其中p表示选取最近邻样本的数量。
图像模态的相似性矩阵
Figure BDA0001991001400000045
被构建,且该相似性矩阵的元素
Figure BDA0001991001400000046
定义如下:
Figure BDA0001991001400000047
其中,xi为图像模态的第i个训练特征,xj为图像模态的第j个训练特征。Np(·)代表p近邻集合,p的取值可以按照需求设定,一般将p设置为[5,10],优选为5。
与此类似,构建文本模态的相似性矩阵
Figure BDA0001991001400000048
并定义该相似性矩阵的元素
Figure BDA0001991001400000049
为:
Figure BDA00019910014000000410
其中,yi为文本模态的第i个训练特征,yj为文本模态的第j个训练特征。Np(·)代表p近邻集合,一般将p设置为[5,10],优选为5。
2)模态间相似性
由于同一个对象不同模态的特征共享相同的语义信息,而标签信息代表着不同模态是否处于同一个类别,因此模态间的相似性可以通过标签信息来度量。给定训练数据的标签矩阵
Figure BDA0001991001400000051
c表示类别总数。文本模态与图像模态之间的相似性度量
Figure BDA0001991001400000052
如公式(5)所示。
Figure BDA0001991001400000053
其中,xi为图像模态的第i个训练特征,yj为文本模态的第j个训练特征。
为了在公共潜在语义空间中保持两种模态间的标签一致性,同时又保持每个模态内的相似性,构建了图正则化嵌入项,并将该项用符号O3表示,定义如公式(6)所示。
Figure BDA0001991001400000054
其中,矩阵
Figure BDA0001991001400000055
由第i行第j列的元素wij组成,元素
Figure BDA0001991001400000056
Figure BDA0001991001400000057
表示模态t(t=1表示图像模态,t=2表示文本模态)的模态内相似性矩阵的元素;
Figure BDA0001991001400000058
是对角矩阵,其对角元素值dii是矩阵W的列和(或行和),即dii=∑jwij;L=D-W被称为图拉普拉斯矩阵。
Figure BDA0001991001400000059
表示原始数据的哈希码矩阵,
Figure BDA00019910014000000510
代表矩阵B的转置;向量
Figure BDA00019910014000000511
指矩阵BT的第i列,表示第i个训练实例的哈希码,而
Figure BDA00019910014000000512
指矩阵BT的第j列,表示第j个训练实例的哈希码,其中i,j∈[1,n]。此外,Tr(·)代表矩阵的迹,∑表示求和符号,||·||表示向量的2-范数,||·||2表示2-范数的平方。
因此,通过描述局部结构和标签信息,获得了图正则化嵌入项O3,进一步增强了二进制码的表示辨别能力。
步骤4、计算和优化目标函数;
通过整合公式(1)中的语义子空间项O1,公式(2)的二值编码O2和公式(6)中的图正则化嵌入项O3,以及为了避免过拟合问题增加的一个正则化项R(·),共同组成了总目标函数,我们将其表示为O(U1,U2,V,B,Q),如公式(7)所示。
Figure BDA0001991001400000061
其中,α,μ,γ,λ表示相应项的权衡参数。具体地,参数α用于衡量图像模态和文本模态的重要性,参数μ用来均衡二值量化项对目标函数的影响程度,参数γ表示图正则化项对目标函数的贡献程度,参数λ表示正则化项R(U1,U2,V,B)对本目标函数的贡献程度。此外,R(U1,U2,V,B)是一个正则化项,用来避免过拟合问题,其中R(·)被定义为
Figure BDA0001991001400000062
因此公式(7)中的正则化项被表示为
Figure BDA0001991001400000063
矩阵的上标T都表示矩阵的转置。
为了优化和求解目标函数,需要对它的五个矩阵变量U1,U2,V,B,Q求导,优化采用固定其他四个矩阵变量,求解剩余一个矩阵变量的方式。即该优化问题通过迭代地遵循以下列出的四个步骤来解决,直到满足收敛条件,进一步得到最终的哈希码矩阵B,并将其作为检索数据库,用于下一步骤的计算。优化目标函数的具体步骤如下:
1)更新两个模态的分解因子Ut(t=1,2),其中t表示模态t(t=1为图像模态,t=2为文本模态)。固定V,B,Q,令
Figure BDA0001991001400000064
其中
Figure BDA0001991001400000065
表示求偏导,
Figure BDA0001991001400000066
表示求目标函数O(U1,U2,V,B,Q)对矩阵Ut的偏导数,O是目标函数O(U1,U2,V,B,Q)的简写表述。通过计算可以得到:
Figure BDA0001991001400000067
Figure BDA0001991001400000068
其中,Ik代表k阶单位矩阵,上标-1表示矩阵的逆。
2)更新B。固定Ut(t=1,2),V,Q,令
Figure BDA0001991001400000069
其中
Figure BDA00019910014000000610
表示求目标函数O(U1,U2,V,B,Q)对矩阵B的偏导数。通过计算可以得到:
B=2β(2(β+λ)In+γ(L+LT))-1VQ (9)
其中,In代表n阶单位矩阵,
Figure BDA00019910014000000611
代表图拉普拉斯矩阵,LT代表矩阵L的转置,上标-1表示矩阵的逆。
3)更新V。固定Ut(t=1,2),B,Q,令
Figure BDA0001991001400000071
其中
Figure BDA0001991001400000072
表示求目标函数O(U1,U2,V,B,Q)对矩阵V的偏导数。通过计算可以得到:
V=(αXTU1+(1-α)YTU2+βBQT)(αU1 TU1+(1-α)U2 TU2+(β+λ)Ik)-1 (10)
其中,上标T表示矩阵的转置,上标-1表示矩阵的逆。
4)更新Q。固定Ut(t=1,2),V,B,令
Figure BDA0001991001400000073
其中
Figure BDA0001991001400000074
表示求目标函数O(U1,U2,V,B,Q)对矩阵Q的偏导数。这里的优化是经典的正交普鲁克斯特问题,一般采取奇异值分解(SVD)的方法解决。首先计算矩阵BT和V的乘积,并通过奇异值分解方法将乘积结果BTV分解为M1AM2 T,之后通过公式(11)获得矩阵Q:
Q=M2M1 T (11)
其中,
Figure BDA0001991001400000075
Figure BDA0001991001400000076
表示正交矩阵,矩阵A为对角矩阵,被定义为A=diag(σ12,...,σq),diag(σ12,...,σq)表示矩阵的对角线元素为σ12,...,σq,σr(i=1,2,..,q)为矩阵BTV的非零奇异值。
5)收敛性判断。通过比较连续两次目标函数O的值是否满足如下公式(12)的收敛条件,O是目标函数O(U1,U2,V,B,Q)的简称。
err=|Ocur-Opre|≤ξ (12)
其中,err表示连续两次目标函数O的误差值,Ocur表示本次的目标函数值,Opre表示上一次的目标函数值,ξ表示给定的阈值,这里将阈值ξ设为0.01。符号|·|表示绝对值。
如果满足收敛条件,则通过如下公式(13)输出最终的哈希码矩阵B。
B=sign(2β(2(β+λ)In+γ(L+LT))-1VQ) (13)
其中,sign函数是一种符号函数,用来取某个数的符号(正或负)。
否则,如果不满足收敛条件,更新目标函数值为当前计算得到的目标函数值,并重新执行1)至5)迭代更新矩阵。
步骤5、学习哈希函数;
大多数跨模态哈希方法通常学习一个线性或非线性投影矩阵,然后采用阈值函数投影到二值范围,从而生成哈希函数。与这类传统方法不同,本发明以一种自学框架完成哈希函数的学习,采用直接的方法得到训练集之外样本相应的二进制哈希码。其主要思想是将哈希函数学习视为二分类问题,采用支持向量机方法为每个模态训练k个二分类模型,其中k为哈希码长度。
具体地,首先将训练特征X和Y分别作为输入,将上一步骤学习到的哈希码bl作为标签,通过线性支持向量机训练k个二分类模型
Figure BDA0001991001400000081
Figure BDA0001991001400000082
其中bl代表矩阵B的第l列,
Figure BDA0001991001400000083
表示图像模态的第l个二分类模型,
Figure BDA0001991001400000084
表示文本模态的第l个二分类模型,且l=1,...,k。
其次,对于每个模态(图像和文本),将其对应的k个二分类模型
Figure BDA0001991001400000085
Figure BDA0001991001400000086
整合,则生成最终的哈希函数。因此,图像模态的哈希函数fx表示为
Figure BDA0001991001400000087
类似地,文本模态的哈希函数fy表示为
Figure BDA0001991001400000088
因此,对于一个新查询的图像特征xz或文本特征yz,采用上述对应模态的哈希函数fx或fy,可以预测得到其k位哈希码hz,即hz=fx(xz)或hz=fy(yz),其中hz代表新查询为图像模态或文本模态的哈希码,fx(xz)表示计算图像特征xz的哈希函数,fy(yz)表示计算文本特征yz的哈希函数。最后,通过与数据库的哈希码码执行异或操作,则能够获取与查询最相关的另一个模态的结果。
验证结果:
在本发明的实验中,选择应用广泛的两个公开数据集Wiki和Pascal来验证本发明的有效性。评价的标准包括平均准确率均值(mean Average Precision,mAP),准确率-召回率曲线(Precision-Recall Curve)和topN-准确率曲线(topN-precision Curve)。此外,采用6个优秀的跨模态哈希方法作为基线,与本文方法进行对比,具体包括跨视图哈希(CVH),共矩阵分解哈希(CMFH),语义相关最大化哈希(SCM_Orth和SCM_Seq),潜在语义稀疏哈希(LSSH),监督矩阵分解哈希(SMFH)。
本发明提出的方法(STCMH)在Wiki和Pascal数据集上的mAP性能比较结果如表1和表2所示,共包含图像检索文本和文本检索图像两个任务。
表1 Wiki数据集上的mAP结果比较
Figure BDA0001991001400000091
表2 Pascal数据集上的mAP结果比较
Figure BDA0001991001400000092
从表1和表2中,可以观察到本发明提出的方法在Wiki和Pascal数据集的两个任务上都优于所有基线方法,这证明了本发明的有效性和优势。此外,随着哈希码长度的增加,某些方法如CVH和SCM_Orth的性能在一定程度上有所降低,而本发明提出的方法仍然会获得更好的mAP值。
此外,为了清晰地显示本发明提出的方法和基线方法的整体变化,实验在Wiki和Pascal数据集上对所有方法绘制了64位哈希码长度时准确率-召回率曲线和topN-准确率曲线,参见附图2和附图3。从图2和图3中,可以发现本发明提出的方法要明显优于其他方法,清楚地表示出本方法的优势。可以注意到,Pascal数据集中无监督方法LSSH的性能与监督方法SMFH相当甚至更好,而本发明提出的方法仍然达到了所有方法中的最佳性能,进一步说明了本发明提出方法的有效性。

Claims (2)

1.一种基于自学习的跨模态哈希检索方法,其特征在于,所述的跨模态哈希检索方法包括以下步骤:
步骤1、学习潜在语义特征;
采用共矩阵分解技术学习异构数据的公共语义特征;假定训练集
Figure FDA0001991001390000011
是具有两种模态的n个实例,其中si表示第i个实例,n表示所有实例的数量;对于第i(i=1,...,n)个实例si={xi,yi},xi表示d1维的图像特征向量,yi表示d2维的文本特征向量,d1和d2分别表示图像特征向量和文本特征向量的维度,通常d1≠d2;这里将图像模态的训练特征表示为
Figure FDA0001991001390000012
文本模态的训练特征为
Figure FDA0001991001390000013
其中
Figure FDA0001991001390000014
表示实数集;针对训练特征X和Y,将它们联合分解如公式(1)所示,并将该公式定义为O1
Figure FDA0001991001390000015
其中,矩阵
Figure FDA0001991001390000016
Figure FDA0001991001390000017
分别代表图像模态和文本模态的分解因子,其中k是潜在因子的数量,同时也表示哈希码长度;
Figure FDA0001991001390000018
代表两个模态的公共潜在语义表示;权衡参数α用于衡量图像模态和文本模态的重要性;
步骤2、二值编码过程;
对学习到的公共语义空间执行正交变换,获得具有最小语义损失的二进制码;给定潜在公共潜在语义表示V,二值编码过程通过优化如下公式(2):
Figure FDA0001991001390000019
其中,
Figure FDA00019910013900000110
表示原始数据的哈希码矩阵;
Figure FDA00019910013900000111
代表正交变换矩阵,它建立公共语义特征和二进制哈希码间的关系,平衡公共语义潜在表示V中不同维度数据的方差,使得相同类别但具有不相关空间特征的数据被编码成相似的二进制码,并且相应地最小化语义量化损失;Ik代表k阶单位矩阵;将公式
Figure FDA00019910013900000112
定义为O2,用来表示二值编码过程;
步骤3、图正则化嵌入;
为了使学习到的二进制码更有辨别性,引入原始数据的局部结构和标签信息,考虑在二进制码的生成和哈希函数的学习过程中同时保持模态内和模态间的相似性;
1)模态内相似性
模态内相似性通过局部几何结构来度量,首先捕捉每个模态的近邻关系,然后构建p近邻模型,选取前p项作为最相近的样本,其中p表示选取最近邻样本的数量;
图像模态的相似性矩阵
Figure FDA00019910013900000113
被构建,且该相似性矩阵的元素
Figure FDA00019910013900000114
定义如下:
Figure FDA0001991001390000021
其中,xi为图像模态的第i个训练特征,xj为图像模态的第j个训练特征;Np(·)代表p近邻集合,p的取值设置为[5,10];
与此类似,构建文本模态的相似性矩阵
Figure FDA0001991001390000022
并定义该相似性矩阵的元素
Figure FDA0001991001390000023
为:
Figure FDA0001991001390000024
其中,yi为文本模态的第i个训练特征,yj为文本模态的第j个训练特征;Np(·)代表p近邻集合,p的取值设置为[5,10];
2)模态间相似性
模态间的相似性通过标签信息度量;给定训练数据的标签矩阵
Figure FDA0001991001390000025
c表示类别总数;文本模态与图像模态之间的相似性度量
Figure FDA0001991001390000026
如公式(5)所示;
Figure FDA0001991001390000027
其中,xi为图像模态的第i个训练特征,yj为文本模态的第j个训练特征;
为了在公共潜在语义空间中保持两种模态间的标签一致性,同时又保持每个模态内的相似性,构建图正则化嵌入项,并将该项用符号O3表示,定义如公式(6)所示;
Figure FDA0001991001390000028
其中,矩阵
Figure FDA0001991001390000029
由第i行第j列的元素wij组成,元素
Figure FDA00019910013900000210
Figure FDA00019910013900000211
表示模态t(t=1表示图像模态,t=2表示文本模态)的模态内相似性矩阵的元素;
Figure FDA00019910013900000212
是对角矩阵,其对角元素值dii是矩阵W的列和(或行和),即dii=∑jwij;L=D-W被称为图拉普拉斯矩阵;
Figure FDA00019910013900000213
表示原始数据的哈希码矩阵;向量
Figure FDA00019910013900000214
指矩阵BT的第i列,表示第i个训练实例的哈希码,而
Figure FDA00019910013900000215
指矩阵BT的第j列,表示第j个训练实例的哈希码,其中i,j∈[1,n];
步骤4、计算和优化目标函数;
通过整合公式(1)中的语义子空间项O1,公式(2)的二值编码项O2和公式(6)中的图正则化嵌入项O3,以及一个正则化项,共同组成总目标函数,将其表示为O(U1,U2,V,B,Q),如公式(7)所示;
Figure FDA0001991001390000031
其中,α,μ,γ,λ表示相应项的权衡参数;具体地,参数α用于衡量图像模态和文本模态的重要性,参数μ用来均衡二值量化项对目标函数的影响程度,参数γ表示图正则化项对目标函数的贡献程度,参数λ表示正则化项R(U1,U2,V,B)对本目标函数的贡献程度;此外,R(U1,U2,V,B)是一个正则化项,用来避免过拟合问题,其中R(·)被定义为
Figure FDA0001991001390000032
因此公式(7)中的正则化项被表示为
Figure FDA0001991001390000033
该目标函数的优化求解问题通过迭代地遵循以下列出的四个步骤来解决,直到满足收敛条件,进一步得到最终的哈希码矩阵B,并将其作为检索数据库,用于下一步骤的计算;优化目标函数的步骤如下:
1)更新两个模态的分解因子Ut(t=1,2),其中t表示模态t(t=1为图像模态,t=2为文本模态);固定V,B,Q,令
Figure FDA0001991001390000034
O是目标函数O(U1,U2,V,B,Q)的简写表述;通过计算得到:
Figure FDA0001991001390000035
其中,Ik代表k阶单位矩阵;
2)更新B;固定Ut(t=1,2),V,Q,令
Figure FDA0001991001390000036
通过计算得到:
B=2β(2(β+λ)In+γ(L+LT))-1VQ (9)
其中,In代表n阶单位矩阵,
Figure FDA0001991001390000037
代表图拉普拉斯矩阵;
3)更新V;固定Ut(t=1,2),B,Q,令
Figure FDA0001991001390000038
通过计算得到:
V=(αXTU1+(1-α)YTU2+βBQT)(αU1 TU1+(1-α)U2 TU2+(β+λ)Ik)-1 (10)
4)更新Q;固定Ut(t=1,2),V,B,令
Figure FDA0001991001390000041
这里的优化是经典的正交普鲁克斯特问题,采取奇异值分解SVD的方法解决;首先计算矩阵BT和V的乘积,并通过奇异值分解方法将乘积结果BTV分解为M1AM2 T,之后通过公式(11)获得矩阵Q:
Q=M2M1 T (11)
其中,
Figure FDA0001991001390000042
Figure FDA0001991001390000043
表示正交矩阵,矩阵A为对角矩阵,被定义为A=diag(σ12,...,σq),diag(σ12,...,σq)表示矩阵的对角线元素为σ12,...,σq,σr(i=1,2,..,q)为矩阵BTV的非零奇异值;
5)收敛性判断;通过比较连续两次目标函数O的值是否满足如下公式(12)的收敛条件,O是目标函数O(U1,U2,V,B,Q)的简称;
err=|Ocur-Opre|≤ξ (12)
其中,err表示连续两次目标函数O的误差值,Ocur表示本次的目标函数值,Opre表示上一次的目标函数值,ξ表示给定的阈值;
如果满足收敛条件,则通过如下公式(13)输出最终的哈希码矩阵B;
B=sign(2β(2(β+λ)In+γ(L+LT))-1VQ) (13)
否则,如果不满足收敛条件,更新目标函数值为当前计算得到的目标函数值,并重新执行1)至5)迭代更新矩阵;
步骤5、学习哈希函数;
以一种自学框架完成哈希函数的学习,将哈希函数学习视为二分类问题,采用支持向量机方法为每个模态训练k个二分类模型,其中k为哈希码长度;具体地:
首先,将训练特征X和Y分别作为输入,将上一步骤学习到的哈希码bl作为标签,通过线性支持向量机训练k个二分类模型
Figure FDA0001991001390000044
Figure FDA0001991001390000045
其中bl代表矩阵B的第l列,
Figure FDA0001991001390000046
表示图像模态的第l个二分类模型,
Figure FDA0001991001390000047
表示文本模态的第l个二分类模型,且l=1,...,k;
其次,对于每个模态(图像和文本),将其对应的k个二分类模型
Figure FDA0001991001390000048
Figure FDA0001991001390000049
整合,则生成最终的哈希函数;因此,图像模态的哈希函数fx表示为
Figure FDA00019910013900000410
类似地,文本模态的哈希函数fy表示为
Figure FDA00019910013900000411
因此,对于一个新查询的图像特征xz或文本特征yz,采用上述对应模态的哈希函数fx或fy,可以预测得到其k位哈希码hz,即hz=fx(xz)或hz=fy(yz),其中hz代表新查询为图像模态或文本模态的哈希码,fx(xz)表示计算图像特征xz的哈希函数,fy(yz)表示计算文本特征yz的哈希函数;最后,通过与数据库的哈希码码执行异或操作,能够获取与查询最相关的另一个模态的结果。
2.根据权利要求1所述的一种基于自学习的跨模态哈希检索方法,其特征在于,所述的公式(12)中的阈值ξ设为0.01。
CN201910180371.5A 2019-01-22 2019-03-11 一种基于自学习的跨模态哈希检索方法 Active CN111461157B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100587935 2019-01-22
CN201910058793 2019-01-22

Publications (2)

Publication Number Publication Date
CN111461157A CN111461157A (zh) 2020-07-28
CN111461157B true CN111461157B (zh) 2022-11-18

Family

ID=71683142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180371.5A Active CN111461157B (zh) 2019-01-22 2019-03-11 一种基于自学习的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN111461157B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112199531B (zh) * 2020-11-05 2024-05-17 广州杰赛科技股份有限公司 一种基于哈希算法和邻域图的跨模态检索方法及装置
CN112488133B (zh) * 2020-12-18 2022-06-14 贵州大学 一种视频/图片-文本跨模态检索方法
CN113221658A (zh) * 2021-04-13 2021-08-06 卓尔智联(武汉)研究院有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113780003B (zh) * 2021-08-31 2023-04-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 时空数据变分编解码跨模态增强方法
CN114840734B (zh) * 2022-04-29 2023-04-25 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN115544024B (zh) * 2022-11-09 2023-03-24 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN116595343B (zh) * 2023-07-17 2023-10-03 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于协同矩阵分解的单标签跨模态检索;李新卫等;《计算机技术与发展》;20180528(第11期);全文 *
基于映射字典学习的跨模态哈希检索;姚涛等;《自动化学报》;20171211(第08期);全文 *

Also Published As

Publication number Publication date
CN111461157A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
Rodríguez et al. Beyond one-hot encoding: Lower dimensional target embedding
Zhou et al. Deep semantic dictionary learning for multi-label image classification
Wang et al. Unsupervised deep clustering via adaptive GMM modeling and optimization
CN111460077B (zh) 一种基于类语义引导的跨模态哈希检索方法
Song et al. Multi-layer discriminative dictionary learning with locality constraint for image classification
Zhu et al. Transfer learning with deep manifold regularized auto-encoders
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Zhang et al. Scalable discrete matrix factorization and semantic autoencoder for cross-media retrieval
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Li et al. Robust and structural sparsity auto-encoder with L21-norm minimization
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN111581466A (zh) 特征信息存在噪声的偏多标记学习方法
Zhu et al. Low-rank hypergraph feature selection for multi-output regression
CN114048314A (zh) 一种自然语言隐写分析方法
CN114138971A (zh) 一种基于遗传算法的极大多标签分类方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
Peng et al. Swin transformer-based supervised hashing
Gao et al. REPRESENTATION LEARNING OF KNOWLEDGE GRAPHS USING CONVOLUTIONAL NEURAL NETWORKS.
Huang et al. Explore instance similarity: An instance correlation based hashing method for multi-label cross-model retrieval
Hao et al. Multi-label learning with missing features and labels and its application to text categorization
Luo et al. Discriminative label consistent domain adaptation
Ma et al. Partial hash update via hamming subspace learning
Ye et al. TS2V: A transformer-based Siamese network for representation learning of univariate time-series data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant