CN111274424B - 一种零样本图像检索的语义增强哈希方法 - Google Patents

一种零样本图像检索的语义增强哈希方法 Download PDF

Info

Publication number
CN111274424B
CN111274424B CN202010018502.2A CN202010018502A CN111274424B CN 111274424 B CN111274424 B CN 111274424B CN 202010018502 A CN202010018502 A CN 202010018502A CN 111274424 B CN111274424 B CN 111274424B
Authority
CN
China
Prior art keywords
data
semantic
formula
matrix
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010018502.2A
Other languages
English (en)
Other versions
CN111274424A (zh
Inventor
钟芳明
陈志奎
王光泽
张雯珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010018502.2A priority Critical patent/CN111274424B/zh
Publication of CN111274424A publication Critical patent/CN111274424A/zh
Application granted granted Critical
Publication of CN111274424B publication Critical patent/CN111274424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种零样本图像检索的语义增强哈希方法,属于计算机技术领域,包括:1)图像特征语义对齐;2)域结构保持;3)哈希编码学习;4)总目标函数的构建及优化;5)针对新数据的哈希函数学习。本发明主要针对大规模图像检索问题,由于大规模的图像数据从互联网中产生,对于一些新产生的事务和新的类别,现有算法很难收集到足够的新事物的训练图片来训练检索模型。因此,本发明利用类别语义空间作为图像视觉特征和二进制编码之间的中间过渡空间,实现视觉空间和类别语义空间的对齐,以达到知识从可见类数据到不可见类数据迁移的目标。实验验证表明,本发明能够有效地从可见类数据中学习知识,迁移到不可见类中,解决零样本图像检索的问题。

Description

一种零样本图像检索的语义增强哈希方法
技术领域
本发明属于计算机技术领域,涉及一种零样本图像检索的语义增强哈希方法。
背景技术
近年来,哈希技术由于其在降低存储开销和加快检索速度方面的优势,已经在大规模图像和视频检索中得到了广泛的研究和应用。哈希技术将高维的图像和视频数据编码成简洁的二进制编码形式,或者成为离散编码形式,通常用0、1表示,这也正符合数据在计算机内存中的存储形式。如此,检索便能够在由二进制编码构成的汉明空间中执行,通过编码之间的异或位操作,能够大大提高检索速度。而哈希技术中的关键就是学习哈希函数以及二进制编码。
许多现有工作致力于设计新颖的哈希方法,其中早期的数据独立哈希方法,如局部敏感哈希,已被证明难以获得满意的检索效果。越来越多的方法集中在数据依赖哈希方面,这些方法大致可以分成有监督和无监督两大类。无监督方法大多采用数据本身的结构信息来保持二进制编码的结构,而有监督方法则利用标签信息,能够更好的保持语义信息。
然而,伴随着互联网的快速发展,数据呈现爆炸性增长,新事物也不断涌现,一些新出现的类别,称之为新事物,例如当时新出现的平衡车。现有方法由于是在一个封闭的环境中训练的模型,所以对于新事物的到来,难以应付。举例说明就是一个模型能够检索马、老虎、狮子等动物,但是突然出现了一只斑马,模型就无能为力了,因为模型从未见过斑马。模型的另一个缺点就是,难以对新事物收集足够的图片来重新训练模型,这样代价太高。
零样本学习正是解决此类问题的关键,已经越来越引起人们的注意。零样本学习就是在零个训练样本的情况下,仍然能够识别出新类别的数据。大部分方法都是引入一个额外的辅助数据空间,即类别语义空间。该空间可以是人为标记的属性空间,也可以是单词向量空间,能够表示新事物类别的语义。然而,现有的零样本学习工作很少关注图像检索问题,大部分集中在图像识别问题。
在现有的几个零样本检索工作中,它们更多地关注二进制编码和语义空间之间的链接,忽略了图像特征的语义对齐问题。此外,简单的线性投影不足以满足生成更具判别性的二进制编码。
为了解决以上问题,本发明设计了一种语义增强哈希方法,通过对齐图像视觉特征,来增强图像特征的语义信息,同时达到知识迁移的目的,使得学习的哈希函数既能够处理正常数据的检索,也能够应付新事物数据的检索。
发明内容
本发明针对零样本图像检索问题,探究一种基于语义增强哈希的方法,该方法采用类别语义空间作为图像视觉特征和二进制编码之间的过渡空间,将图像视觉特征对齐到与之对应的类别语义表示上,以增强图像视觉特征的语义信息。语义对齐能够使得模型具有泛化能力,能够从可见类数据中学习知识,并泛化到不可见类中,以解决零样本问题。在语义对齐过程中,不是简单的一个线性投影,而是带偏差的线性投影。此外,本发明还考虑了数据的域结构信息保持,提高二进制编码的判别性。
为了达到上述目的,本发明采用的技术方案为:
一种零样本图像检索的语义增强哈希方法,,所述的语义增强哈希方法采用带偏差的线性投影,提高判别性,包括以下步骤:
步骤1,通过一个带偏差的线性投影,将图像视觉特征映射到类别语义空间中,实现图像视觉特征的语义增强;
步骤2,采用拉普拉斯图正则化方式,对映射之后的数据进行域结构保持,域结构信息采用局部线性嵌入从原始图像视觉特征中计算得到;
步骤3,学习二进制编码,从投影之后的类别语义空间以及标签空间中,分别通过两个个线性投影,获得二进制编码;
步骤4,构建和优化总目标函数,迭代更新模型的参数,求解二进制编码。
步骤5,学习哈希函数,用于处理新到来的数据
本发明解决的是零样本图像检索的问题,模型利用可见类数据学习哈希函数,当出现新的类别的数据之后,仍然能够学习其二进制编码,并实现检索。
本发明的有益效果为:将图像转化为二进制编码,进行存储和检索,降低了存储开销,提高了检索速度;通过语义对齐,实现知识迁移,能够从可见类数据中学习知识,迁移到不可见类数据,即使训练过程中未曾出现的类别数据,在测试过程中依然能够顺利解决;考虑了语义结构保持,能够提高所学习图像二进制编码的判别性,提高检索的准确率。
附图说明
图1为基于语义增强哈希的零样本图像检索(SAH)框架图;
图2(a)-2(d) 为所有方法在AWA和CIFAR-10数据集上的平均精确率均值(MAP)和半径为哈希距离2以内的准确率(P@r2),其中横坐标为不同的哈希编码长度(CodeLength),本实验考虑8、16、32和48位的长度;图2(a)为所有方法在数据集AWA上的MAP结果图,图2(b)为所有方法在数据集CIFAR-10上的MAP结果图,图2(c)为所有方法在数据集 AWA上的P@r2结果图,图2(d)为所有方法在数据集CIFAR-10上的P@r2结果图。
图3为算法步骤图。
具体实施方式
下面结合附图对本发明的实施方式做进一步说明。
图1为本发明的总体框架图。从图中可以看出,本发明的主题流程为:首先图像的视觉特征被投影到类别语义空间,来提高判别性;其次学习一个从类别语义空间到二进制编码的映射;不仅如此,结合域结构信息保持以及有监督的标签信息,逆向回归标签信息到二进制编码,并离散的学习二进制编码;最后学习哈希函数以处理样本外的新数据。
具体步骤如下:
一种零样本图像检索的语义增强哈希方法,该语义增强哈希方法采用带偏差的线性投影,包括以下步骤:
步骤1、图像视觉特征的语义对齐;
将图像视觉特征投影到类别语义空间中,来对齐视觉特征到对应的类别语义,以增强视觉特征的语义信息。采用类别语义特征作为中间的过渡空间,以此学习的投影,能够迁移到不可见类数据中,处理零样本数据问题。并将语义对齐定义为一个带偏差的线性投影,如公式(1)所示:
Figure BDA0002359835010000031
其中,
Figure BDA0002359835010000032
是图像视觉特征数据,每一个图像表示为xi,i=1,2,...,n,并且属于可见类Cs中的一类,d表示图像视觉特征的维度,n表示图像的数量。另外,在测试阶段,某些图像视觉特征数据来自新的类别Cu,与可见类不存在交集
Figure BDA0002359835010000033
Figure BDA0002359835010000034
是类别语义空间,其中a表示属性的维度,S的每一列Si都对应图像数据中的xi
Figure BDA0002359835010000035
表示投影矩阵,
Figure BDA0002359835010000036
是偏差向量,en表示长度为n的全1向量。此外,
Figure BDA0002359835010000037
为正则化项,λ为正则化项的权重,
Figure BDA0002359835010000038
表示弗罗贝尼乌斯范数的平方。MT表示矩阵M的转置,min(·)表示将公式最小化。
所述的语义对齐采用类别语义空间作为对齐目标,既能够使得图像视觉特征语义被加强,同时实现知识从可见类到不可见类的迁移,解决零样本图像检索问题
步骤2、域结构保持;
将图像视觉特征投影到类别语义空间之后,数据依然要保持原始数据的域结构信息,原始数据的邻居在投影之后依然能够保持邻居关系。采用拉普拉斯图正则化的方式,将域结构信息定义为如公式(2)所示。
Figure BDA0002359835010000041
其中,Tr表示求矩阵的迹操作,L是拉普拉斯矩阵,计算方法如下:首先采用局部线性嵌入 (LLE)方法计算数据之间的权重表示,获得一个权重表示矩阵W,将权重矩阵进行转置求和W=W+WT。如此,权重矩阵也表示了各个图片之间的相似度,L根据上述相似度矩阵进行计算,L=D-W,其中D表示一个对角阵,对角元素为权重矩阵的行求和
Figure BDA0002359835010000042
步骤3、二进制编码学习;
投影之后,图像视觉特征被投影到类别语义空间,接下来需要学习一个从类别语义空间S 到二进制编码B的线性投影
Figure BDA0002359835010000043
为类别语义空间和二进制编码之间建立连接。此外,将标签矩阵Y∈{0,1}c×n逆向回归到二进制编码B上,考虑有监督的标签信息;由此构成如公式(3)所示的二进制编码学习公式。
Figure BDA0002359835010000044
其中,其中c表示可见类的类别数量,k表示二进制编码的长度,
Figure BDA0002359835010000045
表示逆向回归矩阵,将标签信息转化为二进制编码,γ是平衡参数。此外,符号s.t.表示公式的约束条件。本发明为了算法的计算方便,二进制编码采用-1,和1表示,这种方式能够很容易转化成0,1表示。
步骤4、构建总体目标函数以及函数优化求解;
4.1)根据步骤1-步骤3的公式(1)、(2)、(3)得到模型的总体目标函数,如公式 (4)所示。
Figure BDA0002359835010000046
其中,α,β,λ,γ表示平衡参数,
Figure BDA0002359835010000047
分别表示正则化项,防止过拟合。此外,为了能够使模型抓取数据之间的非线性关系,在数据进入模型的训练之前,采用高斯核对数据进行非线性映射,获得新的表示,然后再填入到模型中。
4.2)采用交替优化的方式对公式(4)的进行优化求解,并且每次优化一个参数,固定其他参数,采用迭代的方式进行参数更新。
优化具体步骤如下:
1)更新M,固定M以外的其他变量,得到如公式(5)所示简化的目标函数,
Figure BDA0002359835010000051
将公式(5)其对应于M的导数设置为0,获得最优解如公式(6),
Figure BDA0002359835010000052
2)更新R,固定R以外的其他变量,得到如公式(7)所示简化的目标函数,
Figure BDA0002359835010000053
同样将公式(7)对应R的导数设置为0,获得封闭解为公式(8)所示。
R=β(βSST+λI)-1SBT (8)
3)更新G,固定G以外的其他变量,可以得到如公式(9)所示简化的目标函数,
Figure BDA0002359835010000054
类似的,获得封闭解为公式(10)所示。
G=γ(γYYT+λI)-1YBT (10)
4)更新t,固定t以外的其他变量,得到如公式(11)所示简化的目标函数,
Figure BDA0002359835010000055
类似的,获得封闭解为公式(12)所示。
Figure BDA0002359835010000056
5)更新B,固定B以外的其他变量,得到如公式(13)所示简化的目标函数,
Figure BDA0002359835010000057
公式(13)转化为公式(14),
Figure BDA0002359835010000058
能够求解的如公式(15)所示,
B=sgn(βRTS+γGTY) (15)
其中sgn(·)表示求符号函数。
通过以上更新步骤进行交替迭代,直至满足收敛条件,即两次迭代后的函数值误差小于 10的6次方,便能够求出图像数据X对应的二进制编码B。
步骤5、学习哈希函数,处理新数据;
通过步骤4优化求解之后能够得到X图像视觉特征数据对应的二进制编码B作为图像检索的数据库,当有新的测试数据时,需要学习哈希函数来获得二进制编码。结合步骤4中公式(6)和(8)学习的M和R,构成哈希函数。例如,当有一个新的图片x来临时,其对应的二进制编码求解方式如公式(16)所示。
b=sgn(RT(MTx+ten)) (16)
验证结果
为了验证本发明提出的方法在处理零样本图像检索上的有效性,采用两个常见的数据集 AWA和CIFAR-10进行实验验证。实验中,类别属性空间采用300维的类名词向量表示。首先需要构造零样本测试环境,针对AWA数据集,随机划分成5份,每一组包含10个类,选择其中一组作为不可见类,其他4组作为可见类用于训练,于是可以得到5个不同的划分。同样的,针对CIFAR-10数据集,每次选择1个类作为不可见类,剩下的作为可见类,由此可以得到10个不同的划分。总体实验结果是通过求不同划分下获得的结果的平均值。实验中采用4096维的卷积神经网络的VGG19特征进行。
在训练过程中,随机选择10000张可见类的图片作为训练集,学习哈希函数。在测试阶段,从不可见类中随机选择1000张图片作为测试集,剩下的不可见类图片以及所有的可见类图片作为检索集。参数设置情况如下,α=β=γ=1,λ=10。迭代次数上限设置为10。
为了综合评价模型的性能,将提出的方法与其他方法进行对比,选择的对比方法如下:有监督离散哈希(SDH)、迭代量化(ITQ)、直推域哈希(IMH)、核有监督哈希(KSH)、有监督知识迁移(TSK)、正交投影零样本哈希(HOP-L)、离散相似度迁移网络(SitNet)。评价指标采用平均准确率均值(Mean Average Precision,MAP)和汉明距离2半径以内的平均准确率(P@r2)
零样本图像检索的结果如图2(a)-2(d) 所示。从图中可以看出本发明的方法SAH表现要优于其他的浅层模型方法,与深度方法SitNet不相上下。
针对MAP结果,在AWA和CIFAR-10两个数据集上,不同的算法结果结果呈现出上升的趋势,随着二进制编码的长度增加,MAP越高。从图2(a)-2(d) 中可以看出,大部分情况下,本发明的方法SAH都要好过其他的方法,除了SitNet之外。本发明的SAH方法在32位和64位时,MAP结果要好于SitNet。这说明了本方法在零样本图像检索方面的有效性。此外,相比于传统的哈希方法SDH、KSH,零样本哈希方法TSK、HOP-L、SitNet以及本发明的SAH 总是能够获得更好的检索效果。这是因为传统方法不能够处理零样本的情况,所以限制了它们的性能。而零样本哈希方法包括本发明的方法,利用类别语义空间作为过渡空间,所学习的模型具有知识迁移能力,能够从可见类数据中学习知识,泛化到不可见类中,因此可以处理零样本问题。而本发明的方法在16、32、48位时,表现比TSK和HOP-L要好,说明了本发明在零样本图像检索方面的优越性。
对于在两个数据集上的P@r2,HOP-L和本发明随着二进制编码长度的增加,呈现出了一个上升的趋势,而其他方法则首先上升,然后在48位的时候开始下降。更重要的是,本发明的SAH在两个数据集上的性能都要好过深度方法SitNet,进一步证明了本发明方法的优越性。相比于本发明的SAH方法,在数据集CIFAR-10上,HOP-L在32位和48位的时候略微高于SAH。但,不影响本发明的方法在总体上要好过其他方法,也说明了本方法在零样本图像检索的有效性。
综上所述,由于对图像视觉特征的语义对齐,以及域结构信息保持,本发明的SAH方法能够生成判别性高的二进制编码,用于解决零样本图像检索问题。
以上所述实例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (4)

1.一种零样本图像检索的语义增强哈希方法,其特征在于,所述的语义增强哈希方法采用带偏差的线性投影,包括以下步骤:
步骤1、图像视觉特征的语义对齐;
将图像视觉特征数据投影到类别语义空间中,对齐视觉特征到对应的类别语义,以增强视觉特征的语义信息;采用类别语义特征作为中间的过渡空间,并将语义对齐定义为一个带偏差的线性投影,如公式(1)所示:
Figure FDA0002773722510000011
其中,
Figure FDA0002773722510000012
是图像视觉特征数据,每一个图像表示为xi,i=1,2,...,n,并且属于可见类Cs中的一类,d表示图像视觉特征的维度,n表示图像的数量;另外,在测试阶段,某些图像视觉特征数据来自新的类别Cu,与可见类不存在交集
Figure FDA0002773722510000013
Figure FDA0002773722510000014
是类别语义空间,其中a表示属性的维度,S的每一列Si都对应图像数据中的xi
Figure FDA0002773722510000015
表示投影矩阵,
Figure FDA0002773722510000016
是偏差向量,en表示长度为n的全1向量;此外,
Figure FDA0002773722510000017
为正则化项,λ为正则化项的权重,
Figure FDA0002773722510000018
表示弗罗贝尼乌斯范数的平方;MT表示矩阵M的转置,min(·)表示将公式最小化;
步骤2、域结构保持;
将图像视觉特征投影到类别语义空间之后,数据依然保持原始数据的域结构信息,原始数据的邻居在投影之后依然能够保持邻居关系;采用拉普拉斯图正则化的方式,将域结构信息定义为如公式(2)所示;
Figure FDA0002773722510000019
其中,Tr表示求矩阵的迹操作,L是拉普拉斯矩阵;
步骤3、二进制编码学习;
投影之后,图像视觉特征被投影到类别语义空间,接下来需要学习一个从类别语义空间S到二进制编码B的线性投影
Figure FDA00027737225100000110
为类别语义空间和二进制编码之间建立连接;此外,将标签矩阵Y∈{0,1}c×n逆向回归到二进制编码B上,考虑有监督的标签信息;由此构成如公式(3)所示的二进制编码学习公式;
Figure FDA00027737225100000111
其中,其中c表示可见类的类别数量,k表示二进制编码的长度,
Figure FDA0002773722510000021
表示逆向回归矩阵,将标签信息转化为二进制编码,γ是平衡参数;此外,符号s.t.表示公式的约束条件;二进制编码采用-1和1表示;
步骤4、构建总体目标函数以及函数优化求解;
4.1)根据步骤1-步骤3的公式(1)、(2)、(3)得到模型的总体目标函数,如公式(4)所示;
Figure FDA0002773722510000022
其中,α,β,λ,γ表示平衡参数,
Figure FDA0002773722510000023
分别表示正则化项,防止过拟合;此外,为了能够使模型抓取数据之间的非线性关系,在数据进入模型的训练之前,采用高斯核对数据进行非线性映射,获得新的表示,然后再填入到模型中;
4.2)采用交替优化的方式对公式(4)的进行优化求解,并且每次优化一个参数,固定其他参数,采用迭代的方式进行参数更新;
优化具体步骤如下:
1)更新M,固定M以外的其他变量,得到如公式(5)所示简化的目标函数,
Figure FDA0002773722510000024
将公式(5)其对应于M的导数设置为0,获得最优解如公式(6),
Figure FDA0002773722510000025
2)更新R,固定R以外的其他变量,得到如公式(7)所示简化的目标函数,
Figure FDA0002773722510000026
同样将公式(7)对应R的导数设置为0,获得封闭解为公式(8)所示;
R=β(βSST+λI)-1SBT (8)
3)更新G,固定G以外的其他变量,可以得到如公式(9)所示简化的目标函数,
Figure FDA0002773722510000027
类似的,获得封闭解为公式(10)所示;
G=γ(γYYT+λI)-1YBT (10)
4)更新t,固定t以外的其他变量,得到如公式(11)所示简化的目标函数,
Figure FDA0002773722510000031
类似的,获得封闭解为公式(12)所示;
Figure FDA0002773722510000032
5)更新B,固定B以外的其他变量,得到如公式(13)所示简化的目标函数,
Figure FDA0002773722510000033
公式(13)转化为公式(14),
Figure FDA0002773722510000034
能够求解的如公式(15)所示,
B=sgn(βRTS+γGTY) (15)
其中sgn(·)表示求符号函数;
通过以上更新步骤进行交替迭代,直至满足收敛条件,便能够求出图像数据X对应的二进制编码B;
步骤5、学习哈希函数,处理新数据;
通过步骤4优化求解之后能够得到X图像视觉特征数据对应的二进制编码B,将其作为图像检索的数据库,当有新的测试数据时,需要学习哈希函数来获得二进制编码;结合步骤4中公式(6)和(8)学习的M和R,构成哈希函数;当有一个新的图片x来临时,其对应的二进制编码求解方式如公式(16)所示;
b=sgn(RT(MTx+ten)) (16)。
2.根据权利要求1所述的一种零样本图像检索的语义增强哈希方法,其特征在于,语义对齐采用类别语义空间作为对齐目标。
3.根据权利要求1所述的一种零样本图像检索的语义增强哈希方法,其特征在于,所述的步骤4.2)中的收敛条件为两次迭代后的函数值误差小于10的6次方。
4.根据权利要求1所述的一种零样本图像检索的语义增强哈希方法,其特征在于,所述的步骤2中拉普拉斯矩阵L的计算方法如下:首先采用局部线性嵌入法计算数据之间的权重表示,获得一个权重表示矩阵W,将权重矩阵进行转置求和W=W+WT;如此,权重矩阵也表示各个图片之间的相似度,L根据上述相似度矩阵进行计算,L=D-W,其中D表示一个对角阵,对角元素为权重矩阵的行求和
Figure FDA0002773722510000041
CN202010018502.2A 2020-01-08 2020-01-08 一种零样本图像检索的语义增强哈希方法 Active CN111274424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010018502.2A CN111274424B (zh) 2020-01-08 2020-01-08 一种零样本图像检索的语义增强哈希方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010018502.2A CN111274424B (zh) 2020-01-08 2020-01-08 一种零样本图像检索的语义增强哈希方法

Publications (2)

Publication Number Publication Date
CN111274424A CN111274424A (zh) 2020-06-12
CN111274424B true CN111274424B (zh) 2021-01-19

Family

ID=70998853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010018502.2A Active CN111274424B (zh) 2020-01-08 2020-01-08 一种零样本图像检索的语义增强哈希方法

Country Status (1)

Country Link
CN (1) CN111274424B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199532B (zh) * 2020-09-01 2022-10-14 中国科学院信息工程研究所 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112329884B (zh) * 2020-11-25 2022-06-07 成都信息工程大学 基于判别性视觉属性的零样本识别方法及系统
CN113111917B (zh) * 2021-03-16 2022-07-01 重庆邮电大学 一种基于双重自编码器的零样本图像分类方法及装置
CN114925802A (zh) * 2021-12-27 2022-08-19 天翼数字生活科技有限公司 一种基于深度特征映射的集成迁移学习方法和系统
CN116244483B (zh) * 2023-05-12 2023-07-28 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN110175251A (zh) * 2019-05-25 2019-08-27 西安电子科技大学 基于语义对抗网络的零样本草图检索方法
CN110516095A (zh) * 2019-08-12 2019-11-29 山东师范大学 基于语义迁移的弱监督深度哈希社交图像检索方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755149B2 (en) * 2017-05-05 2020-08-25 Hrl Laboratories, Llc Zero shot machine vision system via joint sparse representations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN110175251A (zh) * 2019-05-25 2019-08-27 西安电子科技大学 基于语义对抗网络的零样本草图检索方法
CN110516095A (zh) * 2019-08-12 2019-11-29 山东师范大学 基于语义迁移的弱监督深度哈希社交图像检索方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Zero-Shot Framework for Sketch based Image Retrieval;Sasi Kiran Yelamarthi等;《https://arxiv.org/pdf/1807.11724.pdf》;20181231;第1-17页 *
Zero-shot Hashing with orthogonal projection for image retrieval;HaofengZhang等;《Pattern Recognition Letters》;20190131;第201-209页 *
基于哈希学习和零样本学习的图像检索算法;徐亚辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180915;第I138-318页 *

Also Published As

Publication number Publication date
CN111274424A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274424B (zh) 一种零样本图像检索的语义增强哈希方法
CN110826336B (zh) 一种情感分类方法、系统、存储介质及设备
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Shen et al. Deep asymmetric pairwise hashing
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN111460077B (zh) 一种基于类语义引导的跨模态哈希检索方法
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN109858015B (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN111460201B (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN110059154B (zh) 一种基于继承映射的跨模态迁移哈希检索方法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN116883723A (zh) 一种基于并联语义嵌入的组成式零样本图像分类方法
CN113010690B (zh) 一种基于文本信息增强实体嵌入的方法
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
Huang et al. Deep multimodal embedding model for fine-grained sketch-based image retrieval
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN114048314A (zh) 一种自然语言隐写分析方法
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant