CN113342922A - 一种基于标签细粒度自监督的跨模态检索方法 - Google Patents

一种基于标签细粒度自监督的跨模态检索方法 Download PDF

Info

Publication number
CN113342922A
CN113342922A CN202110673926.7A CN202110673926A CN113342922A CN 113342922 A CN113342922 A CN 113342922A CN 202110673926 A CN202110673926 A CN 202110673926A CN 113342922 A CN113342922 A CN 113342922A
Authority
CN
China
Prior art keywords
text
image
semantic
features
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110673926.7A
Other languages
English (en)
Inventor
赵海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INTERNATIONAL STUDIES UNIVERSITY
Beijing University of Posts and Telecommunications
Original Assignee
BEIJING INTERNATIONAL STUDIES UNIVERSITY
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INTERNATIONAL STUDIES UNIVERSITY, Beijing University of Posts and Telecommunications filed Critical BEIJING INTERNATIONAL STUDIES UNIVERSITY
Priority to CN202110673926.7A priority Critical patent/CN113342922A/zh
Publication of CN113342922A publication Critical patent/CN113342922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明设计了一种基于标签细粒度自监督的跨模态检索方法,该方法在两个模态单独提取特征并直接转化为哈希码(DCMH方法)的基础上新增了一个结合多标签信息的自监督语义网络,将标签自带的细粒度信息用于自监督两个模态哈希学习过程,并通过建立图像和文本形态的两个判别器来发现它们的分布差异,通过该方法训练得到的模型能够较好地对图文模态进行能够度量相似度的哈希码表征,从而实现使用一种模态的数据对于另外一种模态数据进行检索的功能。

Description

一种基于标签细粒度自监督的跨模态检索方法
技术领域
本发明涉及跨模态检索,一种基于标签细粒度自监督的跨模态检索方法。
背景技术
跨模型检索是利用一种模态(比如图像)在另一种模态(比如文本)中检索语义相关的数据查询,近年来受到广泛关注。随着大数据的发展,图像检索等单模态检索在生活中已经得到了广泛的应用,但异构数据的模态差异使得跨模态检索仍然是一个具有挑战性的任务。单模态检索对于查询数据给出与查询模态一致的检索结果,其主要局限性是检索结果必须与用户查询具有相同的模态组合,例如,以文搜文、以图搜图等。单模态检索不能直接测量不同模式之间的相似度,限制了检索的灵活性。跨模态检索是一种较新的检索方式,它可以跨模态数据进行检索。例如,如果有人对某个物品感兴趣,他可以提交一个图像查询,然后获得相关的多媒体信息,包括文本描述、图像样本、视频介绍、音频剪辑等。与单模态检索相比,跨模态检索可以显示更有用、灵活、丰富的多媒体检索结果。跨模态检索的关键问题是不同模态的分布和表示不一致,这种异构性差距使得跨模态相似性难以度量。
传统的跨模态检索方法通常基于典型相关分析(CCA)。其主要思想是使用线性组合来获得不同模式数据的典型表示,并最大化它们的相关性。而基于排序的方法通常将任务视为排序任务。通过优化跨模态检索的排序结果,相似度最高的实例排序得分最高。相比之下,基于哈希的方法通常更适用于跨模态检索任务,因为它具有更快的检索速度和更低的存储空间。哈希方法的目的不仅是将数据压缩成不同的哈希码,而且利用有限的二进制位来表达数据的内在属性,特别是语义相似关系和邻居结构。这也就意味着,如果元素在原始空间中具有语义相关性或拟合某些相邻关系,则它们在二值哈希空间中会相互封闭,在二值哈希空间中,相似性通过汉明距离来度量。
近年来,随着深度学习的发展,深度神经网络(DNN)在许多任务中都取得了很好的表现。大量研究人员也尝试将深度神经网络与哈希方法一起用于跨模态检索。这些方法的主要特点是可以自动学习不同模式数据的特征,而不是使用手工制作的特征。而这对于算法的泛化性尤为重要,因而也是当前跨模态检索的主流研究方向。现有的基于深度神经网络(DNN)的学习方法普遍采用两阶段学习框架:第一个学习阶段是为每个模态生成单独的表示,第二个学习阶段是得到跨模态的共同表示。
发明内容
本发明的目的在于解决提供一种基于标签细粒度自监督的跨模态检索方法,将标签自带的细粒度信息用于自监督两个模态哈希学习过程,确定两模态间用例的相似性和分布,通过该方法训练得到的模型能够较好地对图文模态进行能够度量相似度的哈希码表征,从而实现使用一种模态的数据对于另外一种模态数据进行检索的功能。
本发明提供的一种基于标签细粒度自监督的跨模态检索方法,该方法包括以下步骤:
步骤1:构建特征提取网络并提取训练数据的图像特征、文本特征,构建自监督语义网络提取语义特征
训练数据包含若干图像数据、与该图像数据对应的文本数据和标签数据,使用特征提取网络ImgNet提取中图像数据的图像特征Fv并经符号函数计算得到图像二进制码Bv;用词袋将每个文本数据表示为词袋向量,然后利用特征提取网络TxtNet提取词袋向量的文本特征Ft并经符号函数计算得到文本二进制码Bt;利用自监督语义网络LabNet从标签数据中提取语义特征Fl并经符号函数计算得到语义二进制码Bl
步骤2:构建判别网络
分别用三层前馈神经网络建立图像判别器和文本判别器,将图像特征Fv和语义特征Fl输入到图像判别器,将文本特征Ft和语义特征Fl输入到文本判别器;
步骤3:使用语义信息监督步骤1中三个特征提取网络的哈希学习
进行自监督语义网络LabNet的学习训练时,其损失由自监督语义学习的目标损失函数计算,进行特征提取网络ImgNet、TxtNet的训练时,其损失由特征学习的目标损失函数计算,进行判别网络训练时,步骤2构建的图像判别器和文本判别器分别处于两个对抗部分,通过计算并最小化对抗部分的目标损失函数,使得图像特征的哈希码和文本特征的哈希码分布趋于一致;训练过程对特征提取网络ImgNet、TxtNet、LabNet、图像判别器、文本判别器的参数进行更新迭代,最终得到训练完成的特征提取网络ImgNet、TxtNet、LabNet;
步骤4:跨模态检索
使用特征提取网络ImgNet、TxtNet分别提取图文数据中的图像特征和文本特征,将其转化为哈希码并存储于数据库中,当进行跨模态检索时,输入数据为图像数据/文本数据,利用对应特征提取网络提取特征并转为哈希码,将从输入数据获得的哈希码与库的文本哈希码/图形哈希码进行汉明距离计算,从而得到汉明距离最小的文本数据/图像数据作为检索结果。
本发明提出的基于标签细粒度自监督跨模态哈希在两个模态单独提取特征并直接转化为哈希码(DCMH方法)的基础上新增了一个结合多标签信息的自监督语义网络,用于捕捉细粒度的语义信息;在公共语义空间中对图像和文本模态之间的语义相关性进行建模,同时学习语义特征的哈希函数;并通过构建图像模态和文本模态的两个判别器来发现它们的分布差异,以取得更好的检索结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于标签细粒度自监督的跨模态检索的一种具体实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例基于标签细粒度自监督的跨模态检索方法的流程图,该方法包括以下步骤:
S101:构建特征提取网络
对于数据库中的两种模态分别构建特征提取网络,对于标签构建标签语义提取网络。提取训练数据的图像特征、文本特征,构建自监督语义网络提取语义特征。训练数据包含若干图像数据、与该图像数据对应的文本数据和标签数据。
对于图像数据,使用特征提取网络ImgNet提取中图像数据的图像特征Fv并经符号函数计算得到图像二进制码Bv。本实施例中,使用CNN-F提取图像特征,使用的CNN-F网络预先在ImageNet上做了预训练。在具体使用时,因为后续还会涉及哈希学习过程,因而图像特征提取部分只保留CNN-F的前7层,即用的是fc7输出的结果,最后一层为节点为哈希码长度的全连接层。
对于文本数据,首先用词袋模型表示将每个文本表示为向量,然后利用特征提取网络TxtNet提取词袋向量的文本特征Ft并经符号函数计算得到文本二进制码Bt
对于标签数据,利用自监督语义网络LabNet从标签数据中提取语义特征Fl并经符号函数计算得到语义二进制码Bl
本步骤中,所述特征提取网络ImgNet中使用CNN-F提取图像特征,特征提取网络TxtNet使用词袋模型和三层全连接层提取文本特征,语义网络LabNet使用四层前馈神经网络提取文本特征。
S102:构建判别网络
分别用三层前馈神经网络构建图像判别器和文本判别器,将图像特征Fv和语义特征Fl输入到图像判别器,将文本特征Ft和语义特征Fl输入到文本判别器。
当训练本发明的模型时,这两个判别器分别处于两个对抗部分。两个判别器的判别部分的目标损失函数为:
Figure BDA0003119935270000051
其中,Dv,l为图像判别器的判别函数,Dt,l为文本判别器的判别函数,
Figure BDA0003119935270000052
表示实例oi的图像特征或语义特征,
Figure BDA0003119935270000053
表示实例oi的文本特征或语义特征;
Figure BDA0003119935270000054
Figure BDA0003119935270000061
的属性值,
Figure BDA0003119935270000062
Figure BDA0003119935270000063
的属性值,语义特征所对应的属性值为1,图像特征和文本特征所对应的的属性值为0,||*||2为计算*的2范数。
S103:使用语义信息监督步骤1中三个特征提取网络的哈希学习
本发明利用标签建立一个基于细粒度自监督的语义特征提取网络,提取的标签特征用于捕获语义相关性,以便在学习语义特征的哈希函数的同时,将图像和文本形态之间的语义相关性建模到共同的语义空间中。对于一个图像或一段文字,其标签往往具有关联或层次关系,且标签可以在语义上描述对象,是细粒度信息。通过计算并最小化语义损失函数,在标签语义特征的指导下,使得图像和文本特征的分布趋于一致。所用的标签作为一种隐含层次结构的方式,能更好地在细粒度的层次上弥合模态之间的语义相关性。
具体来说,进行自监督语义网络LabNet的学习训练时,其损失由自监督语义学习的目标损失函数计算,进行特征提取网络ImgNet、TxtNet的训练时,其损失由特征学习的目标损失函数计算,进行判别网络训练时,步骤2构建的图像判别器和文本判别器分别处于两个对抗部分,通过计算并最小化对抗部分的目标损失函数,使得图像特征的哈希码和文本特征的哈希码分布趋于一致;训练过程对特征提取网络ImgNet、TxtNet、LabNet、图像判别器、文本判别器的参数进行更新迭代,最终得到训练完成的特征提取网络ImgNet、TxtNet、LabNet。
LabNet的训练目标是使得最终生成的哈希码尽可能地保留原标签语义上的信息和图文两个模态间的相关性,并能通过哈希码还原出最开始的标签。
自监督语义学习的目标损失函数如下:
Figure BDA0003119935270000064
Figure BDA0003119935270000071
s.t.Bl∈{-1,1}K
其中,n为跨模态数据集
Figure BDA0003119935270000072
的实例数,对于每个实例oi=(vi,ti,li),vi表示图像,ti表示文本,li表示标签,Sij为两个实例oi与实例oj之间的语义相似性描述即,如果实例oi与实例oj在语义上相似,则Sij=1,否则Sij=0;
Figure BDA0003119935270000073
是标签实例li的语义特征
Figure BDA0003119935270000074
与标签实例lj的语义特征
Figure BDA0003119935270000075
的余弦相似度,
Figure BDA0003119935270000076
是标签实例li的哈希码
Figure BDA0003119935270000077
与标签实例lj的哈希码
Figure BDA0003119935270000078
的余弦相似度,Hl为预测哈希码,
Figure BDA0003119935270000079
为预测标签,L为原标签,α,β,γ,μ是超参数,||*||F为计算*的F范数,K为哈希码和二进制码的长度。
为了保持一个多模态实例的不同模态在语义上的语义相关性,本发明将用LabNet的语义信息对两种模态的特征学习过程进行监督,包括对生成特征的监督和哈希学习的监督。对于图像模态的问题,本框架中设计了一个端到端的特征学习网络,名为ImgNet,它可以将原始图像映射到哈希码中。通过使用LabNet监督图像特征学习,ImgNet与LabNet能保持一致的语义相关性,这是在ImgNet训练过程中将LabNet用于自监督。同样,对于文本模态,也使用LabNet来监督TxtNet的特征学习过程。因此,图像v和文本t中不同模态的自监督特征学习的目标损失函数为:
Figure BDA00031199352700000710
s.t.B*∈{-1,1}K
*=v,t
其中,
Figure BDA0003119935270000081
是标签实例li的语义特征
Figure BDA0003119935270000082
与模态实例*j的语义特征
Figure BDA0003119935270000083
的余弦相似度,
Figure BDA0003119935270000084
是标签实例li的哈希码
Figure BDA0003119935270000085
与模态实例*j的哈希码
Figure BDA0003119935270000086
的余弦相似度,H*为预测哈希码,
Figure BDA0003119935270000087
为预测标签,L为原标签,α,β,γ,μ是超参数,||*||F为计算*的F范数,K为哈希码和二进制码的长度。
为了进一步使得图文分布一致,以取得更好的检索结果,本发明建立了图像和文本形态的两个判别器来发现它们的分布差异。
对于图像/文本判别器,输入为通过LabNet生成的图像/文本模态特征和语义特征,输出为单个值0或1。具体做法就是将标签生成的语义特征的属性值定义为1,将ImgNet/TxtNet生成的图像/文本语义模态特征的属性值定义为0。将图像特征Fv和语义特征Fl输入到为图像设计的判别器,并将文本特征Ft和语义特征Fl输入到为文本设计的另一个判别器。当训练本发明的模型时,这两个判别器分别处于两个对抗部分。该部分已经在步骤2中进行了说明,本处不再重复。
S104:跨模态检索
使用特征提取网络ImgNet、TxtNet分别提取图文数据中的图像特征和文本特征,将其转化为哈希码并存储于数据库中,当进行跨模态检索时,输入数据为图像数据/文本数据,利用对应特征提取网络提取特征并转为哈希码,将从输入数据获得的哈希码与库的文本哈希码/图形哈希码进行汉明距离计算,从而得到汉明距离最小的文本数据/图像数据作为检索结果。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (5)

1.一种基于标签细粒度自监督的跨模态检索方法,该方法包括以下步骤:
步骤1:构建特征提取网络并提取训练数据的图像特征、文本特征,构建自监督语义网络提取语义特征
训练数据包含若干图像数据、与该图像数据对应的文本数据和标签数据,使用特征提取网络ImgNet提取中图像数据的图像特征Fv并经符号函数计算得到图像二进制码Bv;用词袋将每个文本数据表示为词袋向量,然后利用特征提取网络TxtNet提取词袋向量的文本特征Ft并经符号函数计算得到文本二进制码Bt;利用自监督语义网络LabNet从标签数据中提取语义特征Fl并经符号函数计算得到语义二进制码Bl
步骤2:构建判别网络
分别用三层前馈神经网络建立图像判别器和文本判别器,将图像特征Fv和语义特征Fl输入到图像判别器,将文本特征Ft和语义特征Fl输入文本判别器;
步骤3:使用语义信息监督步骤1中三个特征提取网络的哈希学习
进行自监督语义网络LabNet的学习训练时,其损失由自监督语义学习的目标损失函数计算,进行特征提取网络ImgNet、TxtNet的训练时,其损失由特征学习的目标损失函数计算,进行判别网络训练时,步骤2构建的图像判别器和文本判别器分别处于两个对抗部分,通过计算并最小化对抗部分的目标损失函数,使得图像特征的哈希码和文本特征的哈希码分布趋于一致;训练过程对特征提取网络ImgNet、TxtNet、LabNet、图像判别器、文本判别器的参数进行更新迭代,最终得到训练完成的特征提取网络ImgNet、TxtNet、LabNet;
步骤4:跨模态检索
使用特征提取网络ImgNet、TxtNet分别提取图文数据中的图像特征和文本特征,将其转化为哈希码并存储于数据库中,当进行跨模态检索时,输入数据为图像数据/文本数据,利用对应特征提取网络提取特征并转为哈希码,将从输入数据获得的哈希码与库的文本哈希码/图形哈希码进行汉明距离计算,从而得到汉明距离最小的文本数据/图像数据作为检索结果。
2.根据权利要求1所述的基于标签细粒度自监督的跨模态检索方法,其特征在于:所述特征提取网络ImgNet中使用CNN-F提取图像特征,特征提取网络TxtNet使用词袋模型和三层全连接层提取文本特征,特征提取网络LabNet使用四层前馈神经网络提取文本特征。
3.根据权利要求1所述的基于标签细粒度自监督的跨模态检索方法,其特征在于:步骤3中,自监督语义学习的目标损失函数如下:
Figure FDA0003119935260000021
s.t.Bl∈{-1,1}K
其中,n为跨模态数据集
Figure FDA0003119935260000022
的实例数,对于每个实例oi=(vi,ti,li),vi表示图像,ti表示文本,li表示标签,Sij为两个实例oi与实例oj之间的语义相似性描述即,如果实例oi与实例oj在语义上相似,则Sij=1,否则Sij=0;
Figure FDA0003119935260000023
是标签实例li的语义特征
Figure FDA0003119935260000024
与标签实例lj的语义特征
Figure FDA0003119935260000025
的余弦相似度,
Figure FDA0003119935260000026
是标签实例li的哈希码
Figure FDA0003119935260000027
与标签实例lj的哈希码
Figure FDA0003119935260000028
的余弦相似度,Hl为预测哈希码,
Figure FDA0003119935260000029
为预测标签,L为原标签,α,β,γ,μ是超参数,||*||F为计算*的F范数,K为哈希码和二进制码的长度。
4.根据权利要求1所述的基于标签细粒度自监督的跨模态检索方法,其特征在于:步骤3中,图像v和文本t中不同模态的自监督特征学习的目标损失函数为:
Figure FDA0003119935260000031
s.t.B*∈{-1,1}K
*=v,t
其中,
Figure FDA0003119935260000032
是标签实例li的语义特征
Figure FDA0003119935260000033
与模态实例*j的语义特征
Figure FDA0003119935260000034
的余弦相似度,
Figure FDA0003119935260000035
是标签实例li的哈希码
Figure FDA0003119935260000036
与模态实例*j的哈希码
Figure FDA0003119935260000037
的余弦相似度,H*为预测哈希码,
Figure FDA0003119935260000038
为预测标签,L为原标签,α,β,γ,μ是超参数,||*||F为计算*的F范数,K为哈希码和二进制码的长度。
5.根据权利要求4所述的基于标签细粒度自监督的跨模态检索方法,其特征在于:步骤3中,分别使用三层前馈神经网络建立两个判别器网络,将图像特征Fv,文本特征Ft,语义特征Fl作为输入,判别部分的目标损失函数为:
Figure FDA0003119935260000039
其中,Dv,l为图像判别器的判别函数,Dt,l为文本判别器的判别函数,
Figure FDA00031199352600000310
表示实例oi的图像特征或语义特征,
Figure FDA00031199352600000311
表示实例oi的文本特征或语义特征;
Figure FDA00031199352600000312
Figure FDA00031199352600000313
的属性值,
Figure FDA00031199352600000314
Figure FDA00031199352600000315
的属性值,语义特征所对应的属性值为1,图像特征和文本特征所对应的的属性值为0,||*||2为计算*的2范数。
CN202110673926.7A 2021-06-17 2021-06-17 一种基于标签细粒度自监督的跨模态检索方法 Pending CN113342922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110673926.7A CN113342922A (zh) 2021-06-17 2021-06-17 一种基于标签细粒度自监督的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110673926.7A CN113342922A (zh) 2021-06-17 2021-06-17 一种基于标签细粒度自监督的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN113342922A true CN113342922A (zh) 2021-09-03

Family

ID=77476006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110673926.7A Pending CN113342922A (zh) 2021-06-17 2021-06-17 一种基于标签细粒度自监督的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN113342922A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946710A (zh) * 2021-10-12 2022-01-18 浙江大学 一种基于多模态与自监督表征学习的视频检索方法
CN114943017A (zh) * 2022-06-20 2022-08-26 昆明理工大学 一种基于相似性零样本哈希的跨模态检索方法
CN115495546A (zh) * 2022-11-21 2022-12-20 中国科学技术大学 相似文本检索方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO LI等: "《Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieva》", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946710A (zh) * 2021-10-12 2022-01-18 浙江大学 一种基于多模态与自监督表征学习的视频检索方法
CN113946710B (zh) * 2021-10-12 2024-06-11 浙江大学 一种基于多模态与自监督表征学习的视频检索方法
CN114943017A (zh) * 2022-06-20 2022-08-26 昆明理工大学 一种基于相似性零样本哈希的跨模态检索方法
CN115495546A (zh) * 2022-11-21 2022-12-20 中国科学技术大学 相似文本检索方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
US11244207B2 (en) Deep learning tag-based font recognition utilizing font classification
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN113342922A (zh) 一种基于标签细粒度自监督的跨模态检索方法
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112836120A (zh) 一种基于多模态知识图谱的电影推荐方法、系统及终端
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN105393265A (zh) 人机交互学习中的主动特征化
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN115878904A (zh) 基于深度学习的知识产权个性化推荐方法、系统及介质
CN113360646A (zh) 基于动态权重的文本生成方法、设备及存储介质
CN111434118A (zh) 用户感兴趣信息生成的装置和方法
CN114386421A (zh) 相似新闻检测方法、装置、计算机设备和存储介质
CN114661902A (zh) 基于多特征融合的文献库冷启动作者同名消歧方法及设备
Karlos et al. Classification of acoustical signals by combining active learning strategies with semi-supervised learning schemes
Najafabadi et al. Tag recommendation model using feature learning via word embedding
Chowdhury et al. A survey on event and subevent detection from microblog data towards crisis management
CN109582958B (zh) 一种灾难故事线构建方法及装置
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
CN116187317A (zh) 文本生成方法、装置、设备及计算机可读介质
Lu Design of a music recommendation model on the basis of multilayer attention representation
Wang et al. Inductive zero-shot image annotation via embedding graph
Lu et al. Content-oriented multimedia document understanding through cross-media correlation
Sitkrongwong et al. Unsupervised context extraction via region embedding for context-aware recommendations
US11934794B1 (en) Systems and methods for algorithmically orchestrating conversational dialogue transitions within an automated conversational system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903