CN113064959B - 一种基于深度自监督排序哈希的跨模态检索方法 - Google Patents

一种基于深度自监督排序哈希的跨模态检索方法 Download PDF

Info

Publication number
CN113064959B
CN113064959B CN202010001846.2A CN202010001846A CN113064959B CN 113064959 B CN113064959 B CN 113064959B CN 202010001846 A CN202010001846 A CN 202010001846A CN 113064959 B CN113064959 B CN 113064959B
Authority
CN
China
Prior art keywords
network
layer
text
image
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010001846.2A
Other languages
English (en)
Other versions
CN113064959A (zh
Inventor
荆晓远
钱金星
吴飞
董西伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010001846.2A priority Critical patent/CN113064959B/zh
Publication of CN113064959A publication Critical patent/CN113064959A/zh
Application granted granted Critical
Publication of CN113064959B publication Critical patent/CN113064959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于深度自监督排序哈希的跨模态检索方法。包括以下步骤:首先学习一个标签网络用来保留语义特征与其对应的哈希码之间的相似关系。该标签网络可以有效地利用多标签信息来桥接不同模态之间的语义相关性。然后分别对图像和文本设计一个端到端的特征学习网络,进行特征学习。一方面,可以保持标签网络和图像文本网络之间的语义相关性。另一方面,可以使学习到的特征与特定的跨模态检索任务完美兼容。为了解决使用二进制分区函数编码对分区阈值十分敏感的问题,采用基于排序的编码函数。每个维度的相对排序不变,哈希编码的值就不变,这使得哈希函数不会对某些阈值非常敏感,进而获取的哈希编码鲁棒性更好。

Description

一种基于深度自监督排序哈希的跨模态检索方法
技术领域
本发明涉及模式识别,具体涉及一种基于深度自监督排序哈希的跨模态检索方法。
背景技术
由于各种搜索引擎和社交媒体上的多媒体数据爆炸式增长,近年来跨模态检索已成为一个引人注目的话题。跨模态检索旨在用来自一个模态(例如文本)的数据来搜索另一种模态(例如图像)中的语义上相似的实例。由于来自不同模态的数据通常具有不可比较的特征表示和分布,因此有必要将它们映射到一个公共的特征空间。为了满足实际应用中低存储成本和高查询速度的要求,哈希在跨模态检索领域备受关注。它将高维多模态数据映射到公共的汉明空间,得到哈希码后仅通过异或运算就可以计算多模态数据之间的相似度来检索,相比于非哈希检索方法,哈希方法的检索速度要快得多。
目前跨模态检索已经有了很大的发展,很多浅层跨模态哈希检索方法被提出,这些浅层方法都是基于手工制作的特征进行哈希学习,它们的一个共同缺点是手工特征制作过程和哈希学习过程是完全独立的,进而手工制作的特征可能与哈希学习的过程无法完全兼容。导致检索性能不理想的另一个原因是大多数现有的深度哈希跨模态检索方法丢弃数据的完整标签,只使用跨模态相似性矩阵进行有监督学习,这样学习到的哈希编码缺少语义信息,不够准确。另外,大多数跨模态检索方法使用二进制空间分区函数进行编码,这种编码函数会产生较大的编码误差,也会导致检索性能变差。
发明内容
发明目的:针对现有技术存在的问题,提出一种基于深度自监督排序哈希的跨模态检索方法,是一种端到端的深度跨模态哈希方法,使用实例的标签信息学习实例的语义特征,并用学习到的语义特征监督图像和文本的特征学习。编码函数使用基于排序的编码函数来的得到鲁棒性更好的哈希码。。
技术方案:一种基于深度自监督排序哈希的跨模态检索方法,包括以下步骤:
(1)获取训练数据集,其中每个样本都包括文本、图像和标签,使用的基准多模态数据集分别是Wiki,MIRFlickr和NUS-WIDE;
(2)利用标签信息训练标签网络;
(3)通过标签网络的语义特征指导图像网络进行特征学习;
(4)通过标签网络的语义特征指导文本网络进行特征学习;
(5)根据设定的损失函数训练标签网络、图像网络和文本网络;
(6)使用基于排序的哈希函数进行编码。
进一步地,步骤(2)所述的利用标签信息训练标签网络的具体流程是:
(2.1)利用一个4层的全连接网络,该神经网络的输入层是实例的标签,第二层具有4096个节点,使用Relu激活函数并进行局部归一化;第三层具有512个节点,然后用Relu激活函数;第四层具有K*L+c个节点,K与编码函数有关,L为哈希码的长度,c为标签的维度;
(2.2)第i个实例,使用三元组(vi,ti,li)来表示,li作为vi和ti的自监督语义信息。在标签网络中,语义特征通过非线性变化投影为对应的哈希码。标签网络的损失函数为:
Figure BDA0002353780360000021
其中,θl是标签网络的参数,
Figure BDA0002353780360000022
是标签网络学习到的语义特征,Hl是标签网络预测出的哈希码特征,
Figure BDA0002353780360000023
是标签网络预测出的标签。α,β和γ是超参。
进一步地,步骤(3)中通过标签网络的语义特征指导图像网络进行特征学习的具体流程是:
(3.1)利用一个9层的神经网络,其中前5层是卷积神经网络,分别是第一层用64个大小为11*11的卷积核,步长是4,0边距,然后用Relu激活函数,之后进行局部归一化,最后使用传统的2*2大小的模板做max pooling。第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,之后局部归一化,最后2*2大小的max pooling;第三层、第四层和第五层相互连接,没有中间的池化层或归一化层;第三和四层,用256个3*3的卷积核,步长是1,padding是1,使用Relu激活函数;第五层用256个3*3的卷积核,步长是1,padding是1。使用2*2大小的max pooling,得到了尺寸为6×6×256的输出特征。
(3.2)第6层和第7层都是全连接层,有4096个神经元,激活函数用Relu;第8层和第9层也是全连接层,分别具有512、K*L+c个节点。图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系,图像网络的损失函数为:
Figure BDA0002353780360000031
其中,θv是标签网络的参数,
Figure BDA0002353780360000032
Fv是图像网络学习到的特征,Hv是图像网络预测出的哈希码特征,
Figure BDA0002353780360000033
是图像网络预测出的标签。α,β和γ是超参。
进一步地,步骤(4)中通过标签网络的语义特征指导文本网络进行特征学习的具体流程是:
(4.1)采用一种多尺度融合模型,该模型由多个平均池化层和一个1×1的卷积层组成。多个平均池化层用于提取文本数据的多个比例特征;
(4.2)使用1×1卷积层融合多个特征。在多尺度融合模型后连接一个卷积层,该卷积层将多尺度融合模型的输出投影为4096×1的文本特征;
(4.3)最后连接两层全连接网络,分别具有512、K*L+c个节点;文本网络的损失函数为:
Figure BDA0002353780360000034
其中,θt是标签网络的参数,
Figure BDA0002353780360000035
Ft是文本网络学习到的特征,Ht是文本网络预测出的哈希码特征,
Figure BDA0002353780360000036
是文本网络预测出的标签。α,β和γ是超参。
进一步地,步骤(5)中所述损失函数训练还包括:
(5.1)初始化三个网络的参数θl,θv和θt,通过前向传播计算标签、图像和文本的特征以及三个网络预测的标签;
(5.2)固定图像和文本网络的参数θv和θt使用反向传播算法更新标签网络的参数θl;同样固定标签和文本网络的参数θl和θt使用反向传播算法更新图像网络的参数θv
(5.3)固定标签和图像网络的参数θl和θv使用反向传播算法更新文本网络的参数θt;反复训练三个网络,直到三个网络的误差收敛。
进一步地,步骤(6)中所述的基于排序的编码函数用特征之间的相对排序进行编码,即利用从网络中学习到的K维特征之间的排序顺序进行编码;编码函数定义为:
Figure BDA0002353780360000041
其中,
Figure BDA0002353780360000042
图像和网络的输出经过该该编码函数后变为长度为L的哈希码。该编码函数用图像网络和文本网络学习到的K维特征的最大值的索引作为码字。这种编码方式基于特征向量的相对排序。
有益效果:本发明与现有技术相比,其显著优点是:(1)用学习到的语义特征监督图像和文本的特征学下;(2)使用基于排序的编码函数来得到鲁棒性更好的哈希码。
附图说明
图1本发明方法的流程框图。
具体实施方式:
下面结合附图和具体实施对本发明的技术方案做进一步的详细说明:本发明提供一种基于深度自监督排序哈希的跨模态检索算法,具体流程如图1所示。
步骤(1):获取训练数据集,其中每个样本都包括文本、图像和标签,这里我们用的是三个广泛使用的基准多模态数据集,分别是Wiki,MIRFlickr和NUS-WIDE。
步骤(2):利用标签信息训练标签网络。具体方法是:
标签网络的目的在于学习实例的语义特征用以指导图像和文本网络的特征学习。语义特征学习:利用一个4层的全连接网络,该神经网络的输入层是实例的标签,第二层具有4096个节点,使用Relu激活函数并进行局部归一化。第三层具有512个节点,然后用Relu激活函数。第四层具有K*L+c个节点,K与编码函数有关,L为哈希码的长度,c为标签的维度。对第i个实例,使用三元组(vi,ti,li)来表示,li作为vi和ti的自监督语义信息。在标签网络中,语义特征通过非线性变化投影为对应的哈希码。标签网络的目的是要保留语义特征及其对应哈希码之间的相似关系,因此,标签网络的损失函数为:
Figure BDA0002353780360000051
其中,θl是标签网络的参数,
Figure BDA0002353780360000052
Fl是标签网络学习到的语义特征,Hl是标签网络预测出的哈希码特征,
Figure BDA0002353780360000053
是标签网络预测出的标签。α,β和γ是超参。
步骤(3):通过标签网络的语义特征指导图像网络进行特征学习。具体方法是:
利用一个9层的神经网络,其中前5层是卷积神经网络(CNN),分别是第一层用64个大小为11*11的卷积核,步长是4,0边距(padding size),然后用Relu激活函数,之后进行局部归一化,最后使用传统的2*2大小的模板做max pooling。第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,之后局部归一化,最后2*2大小的max pooling。第三层、第四层和第五层相互连接,没有中间的池化层或归一化层。第三和四层,用256个3*3的卷积核,步长是1,padding是1,使用Relu激活函数。第五层用256个3*3的卷积核,步长是1,padding是1。最大池化层跟随第五层卷积的输出,得到了尺寸为6×6×256的输出特征。第6层和第7层都是全连接层,有4096个神经元,激活函数用Relu。
第8层和第9层也是全连接层,分别具有512、K*L+c个节点。图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系,因此,图像网络的损失函数为:
Figure BDA0002353780360000061
其中,θv是标签网络的参数,
Figure BDA0002353780360000062
Fv是图像网络学习到的特征,Hv是图像网络预测出的哈希码特征,
Figure BDA0002353780360000063
是图像网络预测出的标签。α,β和γ是超参。
步骤(4):通过标签网络的语义特征指导文本网络进行特征学习。具体方法是:
由于一个实例的文本模态通常由词袋向量(BoW)表示,而词袋向量容易导致特征稀疏,所以我们采用了一种多尺度融合模型,该模型由多个平均池化层和一个1×1的卷积层组成。多个平均池化层用于提取文本数据的多个比例特征,然后使用1×1卷积层融合多个特征。在多尺度融合模型后连接一个卷积层,该卷积层将多尺度融合模型的输出投影为4096×1的文本特征。最后连接两层全连接网络,分别具有512、K*L+c个节点。文本网络的目的是在语义特征的指导下学习文本特征及保持对应哈希码之间的相似关系,因此,文本网络的损失函数为:
Figure BDA0002353780360000064
其中,θt是标签网络的参数,
Figure BDA0002353780360000065
Ft是文本网络学习到的特征,Ht是文本网络预测出的哈希码特征,
Figure BDA0002353780360000066
是文本网络预测出的标签。α,β和γ是超参。
步骤(5):根据设定的损失函数训练标签网络、图像网络和文本网络。
具体方法是:
损失函数训练标签网络、图像网络和文本网络,这里我们采用交替学习策略来学习三个网络的参数。具体来说,首先初始化三个网络的参数θl,θv
和θt,通过前向传播计算标签、图像和文本的特征以及三个网络预测的标签。
然后固定图像和文本网络的参数θv和θt使用反向传播算法更新标签网络的参数θl。同理,固定标签和文本网络的参数θl和θt使用反向传播算法更新图像网络的参数θv。最后,固定标签和图像网络的参数θl和θv使用反向传播算法更新文本网络的参数θt。按照这样的策略反复训练三个网络,直到三个网络的误差收敛。
步骤(6):使用基于排序的哈希函数进行编码。具体方法是:
大多数哈希跨模态检索方法都选择二进制空间分区函数进行编码,但是二进制空间分区函数都对分区的阈值十分敏感。我们注意到特征之间的排序顺序是十分稳定的,我们可以借助这一特点,用特征之间的相对排序进行编码,而不使用精确的数值,即利用从网络中学习到的K维特征之间的排序顺序进行编码。编码函数定义为:
Figure BDA0002353780360000071
其中,
Figure BDA0002353780360000072
图像和网络的输出经过该该编码函数后变为长度为L的哈希码。该编码函数用图像网络和文本网络学习到的K维特征的最大值的索引作为码字。这种编码方式基于特征向量的相对排序而不是精确的数值,只要特征的相对排序不变,哈希编码的值就不变,这使得哈希函数不会对某些阈值非常敏感,鲁棒性更好。
为验证本算法是否有很好的优越性,我们将提出的SSDRH方法与最近出版的几种最先进的跨模态哈希方法进行了比较,包括2个浅层无监督的哈希跨模态检索方法(CMFH,LSSH)、2个浅层有监督的哈希跨模态检索方法(CMSSH,SePH)和2个深度哈希跨模态方法(CMNNH,DCMH)。分别在Wiki,MIRFlickr-25k和NUS-WIDE三个数据集上针对跨模态检索中的两种典型任务进行了实验,其中I->T表示图像检索文本,T->I表示文本检索图像。
实验结果:
表1统计了在Wiki数据集上各跨模态检索方法的mAP值;
表2统计了在MIRFlickr-25K数据集上各跨模态检索方法的mAP值;
表3统计了NUS-WIDE数据集上各跨模态检索方法的mAP值。
表1 在Wiki数据集上各方法的mAP
Figure BDA0002353780360000081
表2 在MIRFlikr-25K数据集上各方法的mAP
Figure BDA0002353780360000082
表3 在NUS-WIDE数据集上各方法的mAP
Figure BDA0002353780360000083
Figure BDA0002353780360000091
从表1、表2和表3的实验结果可以看出本方法的检索性能明显优于其他六种基线方法,尤其是与CMFH、LSSH、CMSSH、SePH和CMNNH这五种使用手工制作特征的方法相比,SSDRH检索效果更为显著。我们注意到浅层跨模态哈希方法中有监督方法的检索性能远远优于无监督方法,除了CMNNH,深度跨模态哈希方法的检索性能都优于浅层跨模态哈希方法。CMNNH虽然使用深度学习的方法,但它的检索效果与SePH基本持平甚至有所下降,这是由于CMNNH使用的也是手工制作的特征进行哈希学习。DCMH和本方法都使用原始图像进行哈希学习,它们的检索性能比使用手工制作特征的方法都有明显提升,使用原始图像和使用手工制作特征的对比实验在DCMH中已经进行过,结果也验证使用原始图像进行哈希学习检索性能更好。

Claims (3)

1.一种基于深度自监督排序哈希的跨模态检索方法,其特点在于,包括以下步骤:
(1)获取训练数据集,其中每个样本都包括文本、图像和标签,使用的基准多模态数据集分别是Wiki,MIRFlickr和NUS-WIDE;
(2)利用标签信息训练标签网络;
(2.1)利用一个4层的全连接网络,该全连接网络的输入层是实例的标签,第二层具有4096个节点,使用Relu激活函数并进行局部归一化;第三层具有512个节点,然后用Relu激活函数;第四层具有K*L+c个节点,K与编码函数有关,L为哈希码的长度,c为标签的维度;
(2.2)第i个实例,使用三元组(vi,ti,li)来表示,li作为vi和ti的自监督语义信息,在标签网络中,语义特征通过非线性变化投影为对应的哈希码,标签网络的损失函数为:
Figure FDA0003752909470000011
其中,θl是标签网络的参数,
Figure FDA0003752909470000012
Fl是标签网络学习到的语义特征,Hl是标签网络预测出的哈希码特征,
Figure FDA0003752909470000013
是标签网络预测出的标签,α,β和γ是超参;
(3)通过标签网络的语义特征指导图像网络进行特征学习;
(3.1)利用一个9层的神经网络,其中前5层是卷积神经网络,分别是第一层用64个大小为11*11的卷积核,步长是4,0边距,然后用Relu激活函数,之后进行局部归一化,最后使用传统的2*2大小的模板做max pooling,第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,之后局部归一化,最后2*2大小的max pooling;第三层、第四层和第五层相互连接,没有中间的池化层或归一化层;第三和四层,用256个3*3的卷积核,步长是1,padding是1,使用Relu激活函数;第五层用256个3*3的卷积核,步长是1,padding是1;使用2*2大小的max pooling,得到了尺寸为6×6×256的输出特征;
(3.2)第6层和第7层都是全连接层,有4096个神经元,激活函数用Relu;第8层和第9层也是全连接层,分别具有512、K*L+c个节点,图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系,图像网络的损失函数为:
Figure FDA0003752909470000021
其中,θv是标签网络的参数,
Figure FDA0003752909470000022
Fv是图像网络学习到的特征,Hv是图像网络预测出的哈希码特征,
Figure FDA0003752909470000023
是图像网络预测出的标签,α,β和γ是超参;
(4)通过标签网络的语义特征指导文本网络进行特征学习;
(4.1)采用一种多尺度融合模型,该模型由多个平均池化层和一个1×1的卷积层组成,多个平均池化层用于提取文本数据的多个比例特征;
(4.2)使用1×1卷积层融合多个特征,在多尺度融合模型后连接一个卷积层,该卷积层将多尺度融合模型的输出投影为4096×1的文本特征;
(4.3)最后连接两层全连接网络,分别具有512、K*L+c个节点;文本网络的损失函数为:
Figure FDA0003752909470000024
其中,θt是标签网络的参数,
Figure FDA0003752909470000025
Ft是文本网络学习到的特征,Ht是文本网络预测出的哈希码特征,
Figure FDA0003752909470000026
是文本网络预测出的标签,α,β和γ是超参;
(5)根据设定的损失函数训练标签网络、图像网络和文本网络;
(6)使用基于排序的哈希函数进行编码。
2.根据权利要求1所述的基于深度自监督排序哈希的跨模态检索方法,其特征在于,步骤(5)中所述损失函数训练还包括:
(5.1)初始化三个网络的参数θl,θv和θt,通过前向传播计算标签、图像和文本的特征以及三个网络预测的标签;
(5.2)固定图像和文本网络的参数θv和θt使用反向传播算法更新标签网络的参数θl;同样固定标签和文本网络的参数θl和θt使用反向传播算法更新图像网络的参数θv
(5.3)固定标签和图像网络的参数θl和θv使用反向传播算法更新文本网络的参数θt;反复训练三个网络,直到三个网络的误差收敛。
3.根据权利要求1所述的基于深度自监督排序哈希的跨模态检索方法,其特征在于,步骤(6)中所述的基于排序的编码函数用特征之间的相对排序进行编码,即利用从网络中学习到的K维特征之间的排序顺序进行编码;编码函数定义为:
Figure FDA0003752909470000031
其中,
Figure FDA0003752909470000032
图像和网络的输出经过该编码函数后变为长度为L的哈希码,该编码函数用图像网络和文本网络学习到的K维特征的最大值的索引作为码字,这种编码方式基于特征向量的相对排序。
CN202010001846.2A 2020-01-02 2020-01-02 一种基于深度自监督排序哈希的跨模态检索方法 Active CN113064959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001846.2A CN113064959B (zh) 2020-01-02 2020-01-02 一种基于深度自监督排序哈希的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001846.2A CN113064959B (zh) 2020-01-02 2020-01-02 一种基于深度自监督排序哈希的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN113064959A CN113064959A (zh) 2021-07-02
CN113064959B true CN113064959B (zh) 2022-09-23

Family

ID=76558488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001846.2A Active CN113064959B (zh) 2020-01-02 2020-01-02 一种基于深度自监督排序哈希的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN113064959B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657450B (zh) * 2021-07-16 2022-11-29 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN113961727B (zh) * 2021-09-13 2022-10-21 哈尔滨工业大学(深圳) 一种跨媒体哈希检索方法、装置、终端及存储介质
CN113946710B (zh) * 2021-10-12 2024-06-11 浙江大学 一种基于多模态与自监督表征学习的视频检索方法
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN113704537B (zh) * 2021-10-28 2022-02-15 南京码极客科技有限公司 一种基于多尺度特征联合的细粒度跨媒体检索方法
CN113868366B (zh) * 2021-12-06 2022-04-01 山东大学 一种面向流数据的在线跨模态检索方法与系统
CN114239730B (zh) * 2021-12-20 2024-08-20 华侨大学 一种基于近邻排序关系的跨模态检索方法
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质
CN115599942B (zh) * 2022-11-08 2023-12-12 重庆师范大学 一种基于gcn的深度无监督跨模态检索方法
CN115982403B (zh) * 2023-01-12 2024-02-02 之江实验室 一种多模态哈希检索方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Also Published As

Publication number Publication date
CN113064959A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN113064959B (zh) 一种基于深度自监督排序哈希的跨模态检索方法
Cao et al. Collective deep quantization for efficient cross-modal retrieval
Liu et al. Joint-modal distribution-based similarity hashing for large-scale unsupervised deep cross-modal retrieval
Nie et al. Deep multiscale fusion hashing for cross-modal retrieval
CN111914054B (zh) 用于大规模语义索引的系统和方法
Cao et al. Cross-modal hamming hashing
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN111027595B (zh) 双阶段语义词向量生成方法
CN110263325B (zh) 中文分词系统
Ma et al. Global and local semantics-preserving based deep hashing for cross-modal retrieval
CN109614614A (zh) 一种基于自注意力的bilstm-crf产品名称识别方法
CN112818676A (zh) 一种医学实体关系联合抽取方法
Dai et al. Binary optimized hashing
CN109960732B (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
Tu et al. Unsupervised cross-modal hashing with modality-interaction
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN110955745B (zh) 一种基于深度学习的文本哈希检索方法
Yi et al. Efficient online label consistent hashing for large-scale cross-modal retrieval
Zhang et al. Sentiment classification for Chinese text based on interactive multitask learning
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN114036303B (zh) 一种基于双粒度注意力和对抗训练的远程监督关系抽取方法
CN109886389B (zh) 一种基于Highway和DC的新型双向LSTM神经网络构建方法
Tu et al. Unsupervised cross-modal hashing via semantic text mining
Li et al. DAHP: Deep attention-guided hashing with pairwise labels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant