CN111460077A - 一种基于类语义引导的跨模态哈希检索方法 - Google Patents

一种基于类语义引导的跨模态哈希检索方法 Download PDF

Info

Publication number
CN111460077A
CN111460077A CN201910180788.1A CN201910180788A CN111460077A CN 111460077 A CN111460077 A CN 111460077A CN 201910180788 A CN201910180788 A CN 201910180788A CN 111460077 A CN111460077 A CN 111460077A
Authority
CN
China
Prior art keywords
matrix
semantic
class
modality
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910180788.1A
Other languages
English (en)
Other versions
CN111460077B (zh
Inventor
陈志奎
杜佳宁
钟芳明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Publication of CN111460077A publication Critical patent/CN111460077A/zh
Application granted granted Critical
Publication of CN111460077B publication Critical patent/CN111460077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于类语义引导的跨模态哈希检索方法,属于计算机技术领域,包括:1)类语义引导的投影学习;2)哈希码学习;3)模态内和模态间的相似性保持;4)总目标函数的构建和优化。本发明主要针对监督方法中完全忽略类语义的问题,考虑通过语义丰富的词嵌入空间有效捕捉类别间的语义关联,并以类语义作为中间层,采用编码器‑解码器范式进行投影学习,进一步地生成具有辨别性的哈希码和特定模态的哈希函数。此外,由于类语义建立了可见类和不可见类的关系,因此也同时解决了不可见域的检索问题。实验表明,本发明有效捕捉类别间的语义关联,提高了哈希码的质量和跨模态检索的性能,并同时具有处理跨模态检索任务和零样本跨模态检索任务的能力。

Description

一种基于类语义引导的跨模态哈希检索方法
技术领域
本发明属于计算机技术领域,涉及一种基于类语义引导的跨模态哈希检索方法。
背景技术
随着大数据时代的到来,互联网上的多媒体数据如图像、文本、音频等呈指数型增长。这些多媒体数据多元化和多维度的特点,使得人们的检索需求从传统单模态数据的检索如图像检索、文本检索等,转变为多模态数据间相互检索,尤其是跨模态数据间的检索。跨模态检索是使用一种模态的样本来获得另一种模态的相关结果,如使用一幅图像检索与其相关的文本或视频。近年来,许多研究者对此做出不懈努力,并产生了大量的研究成果。然而,在大规模检索任务中,跨模态检索方法会遭受维度灾难的问题,计算成本显著增长。受哈希技术快速搜索效率和低存储成本的启发,基于哈希的跨模态检索(跨模态哈希)吸引了相当大的关注,它将高维数据编码成紧凑的二进制码,并通过快速的逐位异或运算来计算相似性,有效地解决了上述大规模检索中的问题。由于不同模态数据间具有巨大的特征差异,如何消除它们之间的语义鸿沟,构建不同模态间的关联关系,成为跨模态哈希的核心和难点。
大多数现有跨模态哈希的研究工作主要将不同模态的数据投影到公共语义空间,然后映射到汉明空间,生成相应的哈希码,可大致将跨模态哈希方法分为两个分支,即无监督方法和监督方法。无监督方法仅从原始特征中学习哈希函数,以保持数据的内在结构。代表性的工作包括共矩阵分解哈希(CMFH)、潜在语义稀疏哈希(LSSH)等方法。这些方法能够提取不同模态间的关系,但在无监督方式下学习到的哈希码辨别能力不强。监督方法提供了异构数据的标签信息以提高检索能力,如监督矩阵分解哈希(SMFH)、模态内和模态间相似性保持哈希(IISPH)等。由于它有效地保留了可用的标签信息,因此监督方法的结果通常比无监督方法更好。
然而,大多数现有的监督方法主要关注如何利用监督信息捕获从原始空间到公共语义空间的语义关系,而监督信息通常以0/1标签或成对关系的形式使用,这造成每个类别相互独立。更重要的是,标签之间有价值的语义关联被完全忽略。
为了捕捉类别之间的语义关联,通过已有的一些工作,可以发现词嵌入空间可以有效地捕捉类别间的语义关联,因此本发明提出一种基于类语义引导的跨模态哈希检索方法,通过从语义丰富的词嵌入空间中提取类语义特征,并利用类语义引导哈希码的生成和特定模态哈希函数的学习过程。
发明内容
本发明针对最常见的两个模态(图像和文本),探究一种基于类语义引导的跨模态哈希检索方法。该方法根据word2vec模型生成类名的语义表示,并构建类级语义空间,捕捉不同类别间的语义关联。此外,以类级语义空间作为中间层,采用编码器-解码器范式学习从原始特征空间到公共潜在空间的投影,使得原始特征中包含的所有信息都保留到投影中。这样的模型不仅增强了学习到哈希码的辨别性,而且使得本发明可以解决不可见域的检索问题。
为了达到上述目的,本发明采用的技术方案为:
一种基于类语义引导的跨模态哈希检索方法,包括以下步骤:
步骤1,通过从语义丰富的词嵌入空间中提取类语义特征,并利用类语义引导学习具有辨别性的投影矩阵;
步骤2,基于投影矩阵学习到不同模态的潜在表示,并通过对其映射和量化过程,在汉明空间生成具有辨别性的二进制码;
步骤3,将模态内和模态间的相似性保持嵌入到哈希码和哈希函数的学习过程中;
步骤4,构建和优化总目标函数,迭代更新矩阵变量直至满足收敛条件。
本发明解决的是闭集的跨模态检索问题,即训练集和查询集都来自相同的类别,其中训练集为训练数据构成的集合,查询集为查询数据构成的集合。
本发明还可以用于解决不可见域的检索问题。而在不可见域的检索问题上,其目标函数与前面所有公式一致。唯一不同的是,解决不可见域的检索问题时,查询集包含的类别与训练集完全不同,即查询数据是训练时从未出现过的类别。
本发明的有益效果为:本发明主要针对监督方法中完全忽略类语义的问题,考虑通过语义丰富的词嵌入空间有效捕捉类别间的语义关联,并以类语义作为中间层,采用编码器-解码器范式进行投影学习,进一步地生成具有辨别性的哈希码和特定模态的哈希函数。此外,由于类语义建立了可见类和不可见类的关系,因此本发明也同时解决了不可见域的检索问题。实验表明,本发明有效捕捉类别间的语义关联,提高了哈希码的质量和跨模态检索的性能,并同时具有处理跨模态检索任务和零样本跨模态检索任务的能力。
附图说明
图1为基于类语义引导的跨模态哈希检索方法(SeGH)框架图;
图2为所有方法在LabelMe数据集上64位和128位哈希码长度的准确率-召回率曲线;其中,图(a)为图像检索文本任务下64位哈希码的准确率-召回率曲线,图(b)为图像检索文本任务下128位哈希码的准确率-召回率曲线,图(c)为文本检索图像任务下64位哈希码的准确率-召回率曲线,图(d)为文本检索图像任务下128位哈希码的准确率-召回率曲线;
图3为所有方法在Pascal数据集上64位和128位哈希码长度的准确率-召回率曲线;其中,图(a)为图像检索文本任务下64位哈希码的准确率-召回率曲线,图(b)为图像检索文本任务下128位哈希码的准确率-召回率曲线,图(c)为文本检索图像任务下64位哈希码的准确率-召回率曲线,图(d)为文本检索图像任务下128位哈希码的准确率-召回率曲线;
图4为所有方法在LabelMe和Pascal数据集上执行零样本跨模态哈希检索的mAP结果;图(a)为LabelMe数据集上图像检索文本任务的mAP结果,图(b)为LabelMe数据集上文本检索图像任务的mAP结果,图(c)为Pascal数据集上图像检索文本任务的mAP结果,图(d)为Pascal数据集上文本检索图像任务的mAP结果;
图5为本发明提出方法的整体流程图。
具体实施方式
下面结合附图对本发明的实施方式做进一步说明。
图1为基于类语义引导的跨模态哈希检索方法的框架图。为了便于解释,本发明设计的方法仅考虑最常见的两种模态(即文本和图像)的检索场景。
一种基于类语义引导的跨模态哈希检索方法,该方法主要由两步组成,分别为类语义引导的投影学习和哈希码学习。在第一步中,首先根据现成的word2vec模型,将类名转换成词向量,并构建类语义空间。然后,基于类标签语义引导的编码器-解码器范例学习得到具有辨别性的投影。在第二步中,首先利用上一步中学习到的投影,将原始数据投影到公共潜在语义空间。然后将不用模态的语义特征投影到汉明空间,同时保持模态内和模态间的相似性,并生成异构数据的二进制码。最终通过矩阵的运算可以学习到特定模态的哈希函数。
具体步骤如下:
步骤1、类语义引导的投影学习;
首先,设
Figure BDA0001991148970000031
Figure BDA0001991148970000032
表示描述同一对象的两个模态的训练特征,其中
Figure BDA0001991148970000033
表示实数集,d1,d2分别是图像和文本特征的维度,n是所有对象的数量。此外,将Y∈{0,1}c×n定义为二进制标签矩阵,其中c是类别数。受word2vec模型挖掘语义关系的优越性能的启发,本发明考虑将每个类别嵌入到300维的词向量中,并构建类级语义空间,捕捉不同类别间的语义关联。因此,代替由0/1二进制形式描述标签的传统方法如矩阵Y,这里的标签矩阵由类语义矩阵
Figure BDA0001991148970000034
表示。为了描述方便,定义
Figure BDA0001991148970000035
为类语义矩阵,用来表示类级语义空间下的特征矩阵。
然后,提出基于类语义的编码器-解码器模型来学习不同模态的投影矩阵。具体为:通过将训练特征X1和X2映射到类级语义空间分别获得投影矩阵
Figure BDA0001991148970000036
Figure BDA0001991148970000037
同时,利用两个投影矩阵
Figure BDA0001991148970000038
Figure BDA0001991148970000039
将语义空间映射到原始特征空间。基于已有的工作,通过绑定权重来简化模型得到等式
Figure BDA0001991148970000041
Figure BDA0001991148970000042
其中上标T表示矩阵的转置。因此给定类语义矩阵S,该模型可以被实现,如公式(1)所示:
Figure BDA0001991148970000043
其中min(·)表示将公式最小化,||·||F表示矩阵的Frobenius-范数(简称F-范数),
Figure BDA0001991148970000044
表示F-范数的平方。此外,符号s.t.表示公式的约束条件。
考虑到上式中的硬约束W1X1=S和W2X2=S难以优化,因此通过松弛这两个约束,我们将重写的公式定义为J1,用来表示类语义引导的投影学习的目标函数,公式(1)被重写如下所示:
Figure BDA0001991148970000045
其中,α1和α2表示相应项的权衡参数,分别用来均衡图像和文本模态的特征对学习投影矩阵的贡献程度。
步骤2、哈希码学习;
通过解决上一步公式(2)中的问题,可以获得从原始特征空间到公共潜在空间分别用于图像和文本的投影矩阵W1和W2。首先,基于矩阵W1和W2学习不同模态的潜在语义表示。然后,给定二进制码长度k,通过投影矩阵
Figure BDA0001991148970000046
将不同模态的潜在语义特征投影到k维公共空间
Figure BDA0001991148970000047
并量化到汉明空间生成哈希码。此外,引入一个正则化项R(·)来避免过拟合问题。因此,学习哈希码的目标函数可以陈述如下。
Figure BDA0001991148970000048
其中,矩阵
Figure BDA0001991148970000049
表示两个模态的k维公共特征,正则化项R(·)被定义为
Figure BDA00019911489700000410
在公式(3)中表示
Figure BDA00019911489700000411
此外,β1和β2表示相应项的权衡参数,分别用来平衡图像模态和文本模态的潜在语义特征对k维公共空间的影响程度。λ表示正则化项R(P)对本目标函数贡献程度的权衡参数。为了避免过拟合,上述公式(3)引入了正则化项R(·),其中R(·)=||||F。最后,通过sign函数生成哈希码,可以将哈希码矩阵表示为B=sign(H)。
最后,通过sign函数生成哈希码,可以得到哈希码矩阵Β∈{-1,1}k×n,其计算公式为B=sign(H)。其中,sign函数是一种符号函数,它的功能是取某个数的符号(正或负)。
步骤3、模态内和模态间的相似性保持;
为了学习更细粒度和具有辨别力的哈希码,本发明将模态内和模态间相似性保持嵌入到哈希码和哈希函数学习过程中。
首先,考虑保持模态内相似性。对于每个模态,利用它们的局部几何结构,构建最近邻矩阵A(m)(m=1,2),其中m=1表示图像模态,m=2表示文本模态。最近邻矩阵的元素定义如下:
Figure BDA0001991148970000051
其中,Np(·)被定义为p近邻集合,本发明将p定义为5。
Figure BDA0001991148970000052
表示模态m的第i个训练特征,
Figure BDA0001991148970000053
表示模态m的第j个训练特征。
然后,整合标签信息来保持模态间的相似性。因此,图像模态和文本模态之间的相似性矩阵Ainter的元素
Figure BDA0001991148970000054
被定义如下:
Figure BDA0001991148970000055
其中,
Figure BDA0001991148970000056
代表图像模态的第i个训练特征,
Figure BDA0001991148970000057
代表文本模态的第i个训练特征。
结合以上模态内和模态间的相似性矩阵,用于两个模态的公共特征矩阵H的总相似性保持被表示为以下公式(6),并将该公式定义为Jse:
Figure BDA0001991148970000058
其中,tr(·)表示矩阵的逆,矩阵Atotal=A(1)+A(2)+Ainter。D是对角矩阵,其元素值Dii可以通过公式
Figure BDA0001991148970000059
计算得到,其中
Figure BDA00019911489700000510
表示矩阵Atotal第i行第j列的元素值。矩阵L=D-Atotal表示图拉普拉斯矩阵。此外,hi是矩阵H的第i(i∈[1,n])列,表示第i个训练对象的公共特征,hj是矩阵H的第j(j∈[1,n])列,表示第j个训练对象的公共特征,n为所有训练对象的数量。∑表示求和符号,||·||表示向量的2-范数,||·||2表示2-范数的平方。
在哈希码的学习过程中,通过保持模态内和模态间的相似性,进一步增强了二进制码的辨别能力。
步骤4、总目标函数的构建和优化;
由于本发明提出的方法由两步的框架组成,因此也包括两个目标函数来分别对应这两步。
第一步是学习判别语义引导的投影,它的总目标函数表示为J1,如公式(1)所示。为了优化J1,分别对矩阵W1和W2求导,令导数为0,然后可以得到:
Figure BDA0001991148970000061
可以看出,公式(7)中的两个等式都是众所周知的Sylvester等式,其形式为AW+WC+D=0,在MATLAB中可以通过lyap函数求解。
在第二步中,结合公式(3)中的哈希码学习和公式(6)中的相似性嵌入,构成其目标函数如下:
Figure BDA0001991148970000062
其中,β12,γ,λ表示相应项的权衡参数。具体地,β1和β2分别用来均衡图像模态和文本模态的潜在语义特征对k维公共特征的影响程度,γ表示模态内和模态间的相似度保持的贡献程度,λ表示正则化项R(P)对本目标函数的贡献程度。
由于很难直接对多个未知变量进行求导,因此这里采用迭代方法优化该目标函数J2,具体步骤如下:
1)更新P。固定W1,W2和H,令
Figure BDA0001991148970000063
其中
Figure BDA0001991148970000064
表示求偏导,
Figure BDA0001991148970000065
表示求目标函数J2对矩阵P的偏导数。通过计算可以得到:
Figure BDA0001991148970000066
其中,
Figure BDA0001991148970000067
代表n1阶单位矩阵,这里n1=300,而上标-1表示矩阵的逆,上标T表示矩阵的转置。
2)更新H。固定W1,W2和P,令
Figure BDA0001991148970000068
其中
Figure BDA0001991148970000069
表示求目标函数J2对矩阵H的偏导数。通过计算可以得到:
H=(2β1PW1X1+2β2PW2X2)[2(β12)In+γ(LT+L)]-1 (10)
其中,In表示n阶单位矩阵,n表示所有对象的数量。
3)收敛性判断。通过比较连续两次目标函数J2的值是否满足如下公式(11)的收敛条件:
Figure BDA0001991148970000071
其中,err表示连续两次目标函数J2的误差值,
Figure BDA0001991148970000072
表示本次的目标函数值,
Figure BDA0001991148970000073
表示上一次的目标函数值,ξ表示给定的阈值,这里将阈值ξ设为0.01。符号|·|表示绝对值。
如果满足收敛条件,当前所有矩阵值为最终值,即得到原始数据的哈希码矩阵B,以及投影矩阵W1,W2和P;否则,如果不满足收敛条件,更新目标函数值为当前计算得到的目标函数值,并重新执行1)至3)迭代更新矩阵。
当满足收敛条件后,可以进一步生成特定模态的哈希函数。具体地,给定图像模态的特征x1,其哈希函数h1(x1)表示为h1(x1)=sign(PW1x1),h1(·)代表图像模态的哈希函数;类似地,给定文本模态的特征x2,其哈希函数表示为h2(x2)=sign(PW2x2),h2(·)代表图像模态的哈希函数。
此外,如前所述,本发明提供的基于类语义引导的跨模态哈希检索方法还可以解决不可见域的检索问题。而在不可见域的检索问题上,本方法的目标函数与前面所有公式一致。与传统跨模态哈希方法的唯一区别是:查询集包含的类别与训练集完全不同,即查询数据是训练时从未出现过的类别。
验证结果
为了验证本发明提出方法的性能,首先在两个公共基准数据集LabelMe和Pascal上执行大量实验,并与几种先进的跨模态哈希方法进行比较。此外,进行了扩展实验,来验证提出的方法在零样本跨模态检索任务(即不可见域的检索问题)中的实用性和有效性。
跨模态哈希方法的性能在两个不同的检索任务上被测量,包括‘图像检索文本’和‘文本检索图像’。在这两个任务中,采用两种类型的评估指标,即平均准确率均值(meanAverage Precision,mAP),准确率-召回率曲线(Precision-Recall Curve)。此外,将提出的方法与六种先进的跨模态哈希方法进行了比较,包括共矩阵分解哈希(CMFH),语义相关最大化哈希(SCM_Orth和SCM_Seq),模态内和模态间相似性保持哈希(IISPH),监督矩阵分解哈希(SMFH)。对于不可见域的扩展实验,还额外添加了两个零样本哈希方法,即零样本哈希(ZSH)和属性哈希(AH),以全面评估检索性能。
本发明提出的方法(SeGH)在LabelMe和Pascal数据集上的mAP性能比较结果如表1和表2所示,其中包括哈希码长度为8比特、16比特、32比特、64比特和128比特。
表1 LabelMe数据集上的mAP结果比较
Figure BDA0001991148970000081
表2 Pascal数据集上的mAP结果比较
Figure BDA0001991148970000091
从表1和表2中,可以很容易观察到本发明提出的方法在LabelMe和Pascal数据集的两个检索任务上都获得了最佳的mAP分数,这证明了本发明的有效性和优势。特别地,在Pascal数据集的实验中,与第二种最佳方法相比,SeGH在‘文本检索图像’的任务中获得了20.5%至27%的显着增量。此外,可以注意到,大多数方法的‘文本检索图像’任务的mAP分数高于‘图像检索文本’任务,这意味着捕获图像中的潜在语义信息比文本更难。
此外,实验在两个数据集上对所有方法绘制了64比特和128比特的哈希码长度时的准确率-召回率曲线,LabelMe数据集参见附图2,Pascal数据集参见附图3。从图2中可以看出,本发明提出的方法明显在两个任务上优于所有的基线方法,清晰地表现出本方法的优势。此外,可以发现随着哈希码长度的增加,提出方法的性能表现更好,这是因为更多的判别信息被编码到二进制码中。从图3中可以观察到,除LSSH之外,提出的方法与其他基线相比,都表现出优异的性能,这与LabelMe数据集上的结果一致。值得注意的是,无监督方法LSSH几乎可以在Pascal数据集上与所有监督方法相比较甚至优于它们,而本发明提出的SeGH仍然可以在‘文本检索图像’任务中获得最佳结果。然而,在‘图像检索文本’任务的最开始阶段,LSSH略优于SeGH。根据分析和结果可推测,对于Pascal数据集来说,限制哈希码的大量标签信息对Pascal数据集可能过于严格。
最后,为了验证本发明提出的方法对零样本跨模态检索任务的有效性,采用mAP指标执行了扩展实验来评估不可见域的检索性能。所有比较方法在LabelMe和Pascal数据集上的mAP结果如附图4所示。可以看出,本发明提出的方法(SeGH)在所有数据集的所有哈希码长度下都实现了最高的mAP值,而其他方法由于无法捕捉可见类和不可见类的共同特征,表现不佳。此外,单模态零样本哈希方法(包括AH和ZSH)在LabelMe数据集的所有任务上都显著优于一些监督的跨模式哈希方法,如SCM_Orth和SCM_Seq,这证实了传统的闭集检索方法在处理不可见类的任务时可能遭受到严重的性能下降,也表明所提出的方法具有应用于零样本问题的能力。
综上所示,考虑到本发明提出的方法在所有实验中的优势,可以得出,所提出的方法具有处理跨模态检索任务和零样本跨模态检索任务的能力,并且可以与几种最先进的方法竞争,证明本方法的有效性和优越性。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (3)

1.一种基于类语义引导的跨模态哈希检索方法,其特征在于,所述的跨模态哈希检索方法包括以下步骤:
步骤1、类语义引导的投影学习;
首先,设
Figure FDA0001991148960000011
Figure FDA0001991148960000012
表示描述同一对象的两个模态的训练特征,其中
Figure FDA0001991148960000013
表示实数集,d1,d2分别是图像和文本特征的维度,n是所有对象的数量;此外,将Y∈{0,1}c×n定义为二进制标签矩阵,其中c是类别数;根据word2vec模型生成类名的语义表示,将每个类别嵌入到300维的词向量中,并构建类级语义空间,捕捉不同类别间的语义关联;定义
Figure FDA0001991148960000014
为类语义矩阵,用来表示类级语义空间下的特征矩阵;
然后,提出基于类语义的编码器-解码器模型来学习不同模态的投影矩阵;具体为:通过将训练特征X1和X2映射到类级语义空间分别获得投影矩阵
Figure FDA0001991148960000015
Figure FDA0001991148960000016
同时,利用两个投影矩阵
Figure FDA0001991148960000017
Figure FDA0001991148960000018
将语义空间映射到原始特征空间;通过绑定权重来简化模型得到等式
Figure FDA0001991148960000019
Figure FDA00019911489600000110
因此给定类语义矩阵S,该模型可以被实现,如公式(1)所示:
Figure FDA00019911489600000111
通过松弛两个约束W1X1=S和W2X2=S,公式(1)被重写为以下公式,将重写的公式定义为J1,用来表示类语义引导的投影学习的目标函数;
Figure FDA00019911489600000112
其中,α1和α2表示相应项的权衡参数,分别用来均衡图像和文本模态的特征对学习投影矩阵的贡献程度;
步骤2、哈希码学习;
通过解决上一步公式(2)中的问题,获得从原始特征空间到公共潜在空间分别用于图像和文本的投影矩阵W1和W2;首先,基于矩阵W1和W2学习不同模态的潜在语义表示;然后,给定二进制码长度k,通过投影矩阵
Figure FDA00019911489600000113
将不同模态的潜在语义特征投影到k维公共空间,并量化至汉明空间生成哈希码;此外,引入一个正则化项R(·)来避免过拟合问题;因此,学习哈希码的目标函数为:
Figure FDA0001991148960000021
其中,矩阵
Figure FDA0001991148960000022
表示两个模态的k维公共特征,正则化项R(·)被定义为
Figure FDA0001991148960000023
在公式(3)中表示
Figure FDA0001991148960000024
此外,β1和β2表示相应项的权衡参数,分别用来平衡图像模态和文本模态的潜在语义特征对k维公共空间的影响程度;λ表示正则化项R(P)对本目标函数贡献程度的权衡参数;
最后,通过sign函数生成哈希码,可以得到哈希码矩阵Β∈{-1,1}k×n,其计算公式为B=sign(H);
步骤3、模态内和模态间的相似性保持;
为了学习更细粒度和具有辨别力的哈希码,将模态内和模态间相似性保持嵌入到哈希码和哈希函数学习过程中;
首先,考虑保持模态内相似性;对于每个模态,利用它们的局部几何结构,构建最近邻矩阵A(m)(m=1,2),其中m=1表示图像模态,m=2表示文本模态;最近邻矩阵的元素
Figure FDA0001991148960000025
定义如下:
Figure FDA0001991148960000026
其中,Np(·)被定义为p近邻集合,将p定义为5;
Figure FDA0001991148960000027
表示模态m的第i个训练特征,
Figure FDA0001991148960000028
表示模态m的第j个训练特征;
然后,整合标签信息来保持模态间的相似性;因此,图像模态和文本模态之间的相似性矩阵Ainter的元素
Figure FDA0001991148960000029
被定义如下:
Figure FDA00019911489600000210
其中,
Figure FDA00019911489600000211
代表图像模态的第i个训练特征,
Figure FDA00019911489600000212
代表文本模态的第i个训练特征;
结合以上模态内和模态间的相似性矩阵,用于两个模态的公共特征矩阵H的总相似性保持被表示为以下公式(6),并将该公式定义为Jse:
Figure FDA00019911489600000213
其中,矩阵Atotal=A(1)+A(2)+Ainter;D是对角矩阵,其元素值Dii可以通过公式
Figure FDA0001991148960000031
计算得到,其中
Figure FDA0001991148960000032
表示矩阵Atotal第i行第j列的元素值;矩阵L=D-Atotal表示图拉普拉斯矩阵;此外,hi是矩阵H的第i(i∈[1,n])列,表示第i个训练对象的公共特征,hj是矩阵H的第j(j∈[1,n])列,表示第j个训练对象的公共特征,n为所有训练对象的数量;
在哈希码的学习过程中,通过保持模态内和模态间的相似性,进一步增强二进制码的辨别能力;
步骤4、总目标函数的构建和优化;
由于提出的方法由两步的框架组成,因此也包括两个目标函数来分别对应这两步;
第一步是学习判别语义引导的投影,它的总目标函数表示为J1,如公式(2)所示;为了优化J1,分别对矩阵W1和W2求导后,通过lyap函数求解;
在第二步中,结合公式(3)中的哈希码学习和公式(6)中的相似性嵌入,其构成的目标函数被定义为J2,如下所示:
Figure FDA0001991148960000033
其中,β12,γ,λ表示相应项的权衡参数;具体地,β1和β2分别用来均衡图像模态和文本模态的潜在语义特征对k维公共特征的影响程度,γ表示模态内和模态间的相似度保持的贡献程度,λ表示正则化项R(P)对本目标函数的贡献程度;
为了优化目标函数J2,采用迭代方式更新矩阵,具体步骤如下:
1)更新P;固定W1,W2和H,令
Figure FDA0001991148960000034
通过计算得到:
Figure FDA0001991148960000035
其中,
Figure FDA0001991148960000036
代表n1阶单位矩阵,这里n1=300;
2)更新H;固定W1,W2和P,令
Figure FDA0001991148960000037
通过计算得到:
H=(2β1PW1X1+2β2PW2X2)[2(β12)In+γ(LT+L)]-1 (10)
其中,In表示n阶单位矩阵,n表示所有对象的数量;
3)收敛性判断;通过比较连续两次目标函数J2的值是否满足如下公式(11)的收敛条件:
Figure FDA0001991148960000041
其中,err表示连续两次目标函数J2的误差值,
Figure FDA0001991148960000042
表示本次的目标函数值,
Figure FDA0001991148960000043
表示上一次的目标函数值,ξ表示给定的阈值;
如果满足收敛条件,当前所有矩阵值为最终值,即得到原始数据的哈希码矩阵B,以及投影矩阵W1,W2和P;否则,如果不满足收敛条件,更新目标函数值为当前计算得到的目标函数值,并重新执行1)至3)迭代更新矩阵;
当满足收敛条件后,进一步生成特定模态的哈希函数:给定图像模态的特征x1,其哈希函数h1(x1)表示为h1(x1)=sign(PW1x1),h1(·)代表图像模态的哈希函数;类似地,给定文本模态的特征x2,其哈希函数表示为h2(x2)=sign(PW2x2),h2(·)代表图像模态的哈希函数。
2.根据权利要求1所述的一种基于类语义引导的跨模态哈希检索方法,其特征在于,所述的公式(11)中的阈值ξ设为0.01。
3.根据权利要求1或2所述的一种基于类语义引导的跨模态哈希检索方法,其特征在于,所述的跨模态哈希检索方法还可以用于解决不可见域的检索问题。
CN201910180788.1A 2019-01-22 2019-03-11 一种基于类语义引导的跨模态哈希检索方法 Active CN111460077B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100600094 2019-01-22
CN201910060009 2019-01-22

Publications (2)

Publication Number Publication Date
CN111460077A true CN111460077A (zh) 2020-07-28
CN111460077B CN111460077B (zh) 2021-03-26

Family

ID=71685033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180788.1A Active CN111460077B (zh) 2019-01-22 2019-03-11 一种基于类语义引导的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN111460077B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112199531A (zh) * 2020-11-05 2021-01-08 广州杰赛科技股份有限公司 一种基于哈希算法和邻域图的跨模态检索方法及装置
CN112233012A (zh) * 2020-08-10 2021-01-15 上海交通大学 一种人脸生成系统及方法
CN112287134A (zh) * 2020-09-18 2021-01-29 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN116414867A (zh) * 2023-06-12 2023-07-11 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116662490A (zh) * 2023-08-01 2023-08-29 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VENICE ERIN LIONG等: "Cross-Modal Discrete Hashing", 《PATTERN RECOGNITION》 *
熊昊哲等: "面向Web图像检索的语义关联多模态哈希方法", 《武汉理工大学学报》 *
钟芳明: "跨模态检索的哈希方法", 《万方数据》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN112233012B (zh) * 2020-08-10 2023-10-31 上海交通大学 一种人脸生成系统及方法
CN112233012A (zh) * 2020-08-10 2021-01-15 上海交通大学 一种人脸生成系统及方法
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112287134A (zh) * 2020-09-18 2021-01-29 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112199531A (zh) * 2020-11-05 2021-01-08 广州杰赛科技股份有限公司 一种基于哈希算法和邻域图的跨模态检索方法及装置
CN112199531B (zh) * 2020-11-05 2024-05-17 广州杰赛科技股份有限公司 一种基于哈希算法和邻域图的跨模态检索方法及装置
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN116414867B (zh) * 2023-06-12 2023-08-22 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116414867A (zh) * 2023-06-12 2023-07-11 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116662490A (zh) * 2023-08-01 2023-08-29 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置
CN116662490B (zh) * 2023-08-01 2023-10-13 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置

Also Published As

Publication number Publication date
CN111460077B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN111460077B (zh) 一种基于类语义引导的跨模态哈希检索方法
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
Li et al. Dynamic Adaboost learning with feature selection based on parallel genetic algorithm for image annotation
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
CN113312452B (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
Huang et al. Cost-effective vehicle type recognition in surveillance images with deep active learning and web data
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN111274424B (zh) 一种零样本图像检索的语义增强哈希方法
CN112818676A (zh) 一种医学实体关系联合抽取方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
Seng et al. Big feature data analytics: Split and combine linear discriminant analysis (SC-LDA) for integration towards decision making analytics
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
Fang et al. Supervised discrete cross-modal hashing based on kernel discriminant analysis
CN110059154B (zh) 一种基于继承映射的跨模态迁移哈希检索方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Qian et al. A survey on multi-label feature selection from perspectives of label fusion
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
Gu et al. Semantic-consistent cross-modal hashing for large-scale image retrieval
CN114048314A (zh) 一种自然语言隐写分析方法
Huang et al. Explore instance similarity: An instance correlation based hashing method for multi-label cross-model retrieval
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant