CN113010720B - 一种基于关键对象特征的深度监督跨模态检索方法 - Google Patents

一种基于关键对象特征的深度监督跨模态检索方法 Download PDF

Info

Publication number
CN113010720B
CN113010720B CN202110208356.4A CN202110208356A CN113010720B CN 113010720 B CN113010720 B CN 113010720B CN 202110208356 A CN202110208356 A CN 202110208356A CN 113010720 B CN113010720 B CN 113010720B
Authority
CN
China
Prior art keywords
text
image
layer
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110208356.4A
Other languages
English (en)
Other versions
CN113010720A (zh
Inventor
曾焕强
阮海涛
陈婧
张联昌
刘青松
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Huaqiao University
Xiamen Yunzhixin Intelligent Technology Co Ltd
Xiamen Hualian Electronics Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Huaqiao University
Xiamen Yunzhixin Intelligent Technology Co Ltd
Xiamen Hualian Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd, Huaqiao University, Xiamen Yunzhixin Intelligent Technology Co Ltd, Xiamen Hualian Electronics Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN202110208356.4A priority Critical patent/CN113010720B/zh
Publication of CN113010720A publication Critical patent/CN113010720A/zh
Application granted granted Critical
Publication of CN113010720B publication Critical patent/CN113010720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于关键对象特征的深度监督跨模态检索方法,具体包括:首先构建特征学习模块抽取每个模态的深度特征,建立每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后建立三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习。本发明提供的方法不仅能提高检索速度而且能够有效解决跨模态检索中精确度不高的问题。

Description

一种基于关键对象特征的深度监督跨模态检索方法
技术领域
本发明涉及计算机视觉和模式识别领域,特别是指一种基于关键对象特征的深度监督跨模态检索方法。
背景技术
跨模态检索旨在于在不同模态的数据间(图像、文本、语音、视频等)进行检索,如图像检索文本、文本检索音频、音频检索视频等等,具有非常重要的应用价值。跨模态检索的应用场景非常广泛,例如视频网站的精彩片段检索、个性化语义短视频检索等。随着多模态、多媒体数据的爆炸式增长,跨模态检索已经成为学术界和工业界的研究热点之一。
然而不同模态的数据间往往呈现底层特征异构而高层语义相关的特性。例如老虎这一语义,在图像特征的表示上有SIFT、LBP等,但是文本特征的表示是字典向量等。由此可见,从特征的描述上同一语义在不同模态数据的表达类型完全不同。因此,跨模态检索的研究十分具有挑战性。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出基于关键对象特征的深度监督跨模态检索方法,首先构建特征学习模块抽取每个模态的深度特征,建立每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后建立三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习。本发明提供的方法不仅能提高检索速度而且能够有效解决跨模态检索中精确度不高的问题。
本发明采用如下技术方案:
一种基于关键对象特征的深度监督跨模态检索方法,包括如下步骤:
建立图像特征提取网络和文本特征提取网络,接收图像文本对
Figure RE-GDA0003069657910000021
其中
Figure RE-GDA0003069657910000022
是输入图像数据,
Figure RE-GDA0003069657910000023
是输入的文本数据,n表示图像文本对的数量,每个图像文本对对应一个标签向量
Figure RE-GDA0003069657910000024
c是数据集中的类别数,且定义若第i个实例属于第j类,则yji=1,否则yji=0;
分别用图像特征提取网络提取图像的深度特征表征向量FI=[fi 1,fi 2,...,fi n],文本特征提取网络提取文本的深度特征表征向量FT=[ft 1,ft 2,...,ft n];
再分别将FI=[fi 1,fi 2,...,fi n]和FT=[ft 1,ft 2,...,ft n]送入注意力网络中,提取图像的关键特征U=[u1,u2,...,un],图像的辅助特征
Figure RE-GDA0003069657910000025
以及文本的关键特征V=[v1,v2,...,vn]和文本的辅助特征
Figure RE-GDA0003069657910000026
融合后的图像表征为
Figure RE-GDA0003069657910000027
融合后的文本表征为
Figure RE-GDA0003069657910000028
其中α=τ=0.8,β=γ=0.2为超参数;
将FI final和FT final在公共空间损失、标签空间损失和模态间不变性损失监督下进行训练学习,得到最后的网络模型算法。
具体地,所述的图像特征提取网络为19层的VggNet网络,初始参数在 Imagenet上进行预训练得到,VggNet19网络最后一层全连接层中的隐藏神经元数目设置为d,其中d为公共空间的维数。
具体地,所述的文本特征提取网络为Sentence-CNN网络,Sentence-CNN网络加上两层全连接层网络,所述两层全连接层网络的隐含层单元数分别为2048 和1024。
具体地,所述的注意力网络包括图像注意力网络,图像注意力网络由三层网络构成,其中包括卷积层、tanh函数层和阈值筛选层,其中卷积层由1×1的卷积核构成。
具体地,所述图像注意力网络中每个层的作用以及最终实现图像关键特征和辅助特征的分离用数学公式表达如下:
卷积层:Mi=Conv(U);
tanh函数层:
Figure RE-GDA0003069657910000031
阈值筛选层:
Figure RE-GDA0003069657910000032
最终实现图像关键特征和辅助特征的分离:
Figure RE-GDA0003069657910000033
其中δ是超参数由实验测试所得。
具体地,所述的注意力网络还包括文本注意力网络,所述文本注意力网络包含三层网络:全连接层、tanh函数层和阈值筛选层。
具体地,所述文本注意力网络中每个层的作用以及最终实现文本的关键特征和辅助特征的分离可用数学公式表达如下:
全连接层:Mi=fc(V);
tanh函数层:
Figure RE-GDA0003069657910000034
阈值筛选层:
Figure RE-GDA0003069657910000035
其中ε=0.1。
具体地,所述的标签空间损失具体计算为:
将FI final和FT final通过一个线性映射层得到
Figure RE-GDA0003069657910000036
Figure RE-GDA0003069657910000037
进而计算得到标签空间损失:
Figure RE-GDA0003069657910000041
其中Y=[y1,y2,...,yn],|| ||F表示Frobenius范数。
具体地,所述的公共空间损失具体计算为:
Figure RE-GDA0003069657910000042
其中公式第一项为模态间损失,第二项为图像模态内损失,第三项为文本模态内损失,
Figure RE-GDA0003069657910000043
Figure RE-GDA0003069657910000044
1{.}表示如果两个输入向量属于同一类则为1,不是同一类则为0。
具体地,其所述的模态不变性损失为:
Figure RE-GDA0003069657910000045
|| ||F表示Frobenius范数。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提出一种基于关键对象特征的深度监督跨模态检索方法,首先构建特征学习模块抽取每个模态的深度特征,设计每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后设计了三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习。本发明提供的方法着重于充分考虑关键特征对相似性度量得有效性,充分利用关键特征和辅助特征进行图像和文本模态的语义表征,不仅提高了跨模态检索的精度还加快了检索速度。
附图说明
图1为本发明实施例提供的一种基于关键对象特征的深度监督跨模态检索方法流程图;
图2为本发明实施例提供的基于关键对象特征的深度监督跨模态检索方法的框架示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明提出一种基于关键对象特征的深度监督跨模态检索方法,首先构建特征学习模块抽取每个模态的深度特征,设计每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后设计了三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习;本发明提供的方法不仅能提高检索速度而且能够有效解决跨模态检索中精确度不高的问题。
如图1,为本发明实施例提供的一种基于关键对象特征的深度监督跨模态检索方法流程图;如图2为本发明实施例提供的基于关键对象特征的深度监督跨模态检索方法的框架示意图,具体步骤如下:
S101:建立图像特征提取网络和文本特征提取网络,接收图像文本对
Figure RE-GDA0003069657910000051
其中
Figure RE-GDA0003069657910000052
是输入图像数据,
Figure RE-GDA0003069657910000053
是输入的文本数据,n表示图像文本对的数量,每个图像文本对对应一个标签向量
Figure RE-GDA0003069657910000054
c是数据集中的类别数,且定义若第i个实例属于第j类,则yji=1,否则yji=0;
所述的
Figure RE-GDA0003069657910000055
是图像的原始像素特征,
Figure RE-GDA0003069657910000056
是通过Word2Vec自然语言模型抽取的特征矢量,且Word2Vec模型在Google News上进行预训练。
S102:分别用图像特征提取网络提取图像的深度特征表征向量 FI=[fi 1,fi 2,...,fi n],文本特征提取网络提取文本的深度特征表征向量FT=[ft 1,ft 2,...,ft n];
所述的图像特征提取网络为19层的VggNet网络构成,其初始参数在 Imagenet上进行预训练得到,为了适应本算法将VggNet19网络最后一层全连接层中的隐藏神经元数目设置为d,其中d为公共空间的维数;所述的文本特征提取网络为Sentence-CNN网络,为了适应本算法在Sentence-CNN网络最后加上两层全连接层网络,其隐含层单元数分别为2048和1024,且图像网络和文本网络的最后两层共享参数。
S103:再分别将FI=[fi 1,fi 2,...,fi n]和FT=[ft 1,ft 2,...,ft n]送入注意力网络中,提取图像的关键特征U=[u1,u2,...,un],图像的辅助特征
Figure RE-GDA0003069657910000061
以及文本的关键特征V=[v1,v2,...,vn]和文本的辅助特征
Figure RE-GDA0003069657910000062
融合后的图像表征为
Figure RE-GDA0003069657910000063
融合后的文本表征为
Figure RE-GDA0003069657910000064
其中α=τ=0.8,β=γ=0.2为超参数;
注意力网络包括图像注意力网络和文本注意力网络;所述的图像注意力网络由三层网络构成,其中包括卷积层、tanh函数层和阈值筛选层,其中卷积层由1×1的卷积核构成,每个层的作用以及最终实现图像关键特征和辅助特征的分离用数学公式表达如下:
Figure RE-GDA0003069657910000065
其中δ=0.05是超参数由实验测试所得;
所述的文本注意力网络也有三层网络构成,全连接层、tanh函数层和阈值筛选层每个层的作用以及最终实现文本的关键特征和辅助特征的分离可用数学公式表达如下:
Figure RE-GDA0003069657910000071
其中ε=0.1是超参数由实验测试所得,最终的图像表征为
Figure RE-GDA0003069657910000072
文本表征为
Figure RE-GDA0003069657910000073
其中α=τ=0.8,β=γ=0.2为超参数。
S104:将FI final和FT final在公共空间损失、标签空间损失和模态间不变性损失监督下进行训练学习,得到最后的网络模型算法。
所述的标签空间的损失首先将FI final和FT final通过一个线性映射层得到
Figure RE-GDA0003069657910000074
Figure RE-GDA0003069657910000075
其最后的目标函数定义为:
Figure RE-GDA0003069657910000076
其中Y=[y1,y2,...,yn],|| ||F表示Frobenius范数。
进一步的,步骤4)中,其所述的公共空间的损失为:
Figure RE-GDA0003069657910000077
其中公式第一项为模态间损失,第二项为图像模态内损失,第三项为文本模态内损失,
Figure RE-GDA0003069657910000078
Figure RE-GDA0003069657910000079
1{.}表示如果两个输入向量属于同一类则为1,不是同一类则为0.
进一步的,步骤4)中,所述的模态不变性损失为:
Figure RE-GDA00030696579100000710
最终得目标函数为:l=l1+λl2+ηl3
其中λ=0.1,η=0.001。
本发明提出一种基于关键对象特征的深度监督跨模态检索方法,首先构建特征学习模块抽取每个模态的深度特征,设计每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后设计了三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习。本发明提供的方法着重于充分考虑关键特征对相似性度量得有效性,充分利用关键特征和辅助特征进行图像和文本模态的语义表征,不仅提高了跨模态检索的精度还加快了检索速度。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (6)

1.一种基于关键对象特征的深度监督跨模态检索方法,其特征在于,包括如下步骤:
建立图像特征提取网络和文本特征提取网络,接收图像文本对
Figure FDA0003601633720000011
其中
Figure FDA0003601633720000012
是输入图像数据,
Figure FDA0003601633720000013
是输入的文本数据,n表示图像文本对的数量,每个图像文本对对应一个标签向量
Figure FDA0003601633720000014
c是数据集中的类别数,且定义若第i个实例属于第j类,则yji=1,否则yji=0;
分别用图像特征提取网络提取图像的深度特征表征向量FI=[fi 1,fi 2,...,fi n],文本特征提取网络提取文本的深度特征表征向量FT=[ft 1,ft 2,...,ft n];再分别将FI=[fi 1,fi 2,...,fi n]和FT=[ft 1,ft 2,...,ft n]送入注意力网络中,提取图像的关键特征U=[u1,u2,...,un],图像的辅助特征
Figure FDA0003601633720000015
以及文本的关键特征V=[v1,v2,...,vn]和文本的辅助特征
Figure FDA0003601633720000016
融合后的图像表征为
Figure FDA0003601633720000017
文本表征为
Figure FDA0003601633720000018
其中α=τ,β=γ为超参数;
将FI final和FT final在公共空间损失、标签空间损失和模态间不变性损失监督下进行训练学习,得到最后的网络模型算法;
所述的注意力网络包括图像注意力网络,图像注意力网络由三层网络构成,其中包括图像卷积层、图像tanh函数层和图像阈值筛选层,其中卷积层由1×1的卷积核构成;
所述图像注意力网络中每个层的作用以及最终实现图像关键特征和辅助特征的分离用数学公式表达如下:
图像卷积层:Mi=Conv(U);
图像tanh函数层:
Figure FDA0003601633720000019
图像阈值筛选层:
Figure FDA0003601633720000021
最终实现图像关键特征和辅助特征的分离:
Figure FDA0003601633720000022
其中δ是超参数由实验测试所得;
所述的注意力网络还包括文本注意力网络,所述文本注意力网络包含三层网络:文本全连接层、文本tanh函数层和文本阈值筛选层;
所述文本注意力网络中每个层的作用以及最终实现文本的关键特征和辅助特征的分离可用数学公式表达如下:
文本全连接层:Mi=fc(V);
文本tanh函数层:
Figure FDA0003601633720000023
文本阈值筛选层:
Figure FDA0003601633720000024
最终实现文本的关键特征和辅助特征的分离:
Figure FDA0003601633720000025
其中ε是超参数由实验测试所得。
2.根据权利要求1所述的一种基于关键对象特征的深度监督跨模态检索方法,其特征在于,所述的图像特征提取网络为19层的VggNet网络,初始参数在Imagenet上进行预训练得到,VggNet19网络最后一层全连接层中的隐藏神经元数目设置为d,其中d为公共空间的维数。
3.根据权利要求2所述的一种基于关键对象特征的深度监督跨模态检索方法,其特征在于,所述的文本特征提取网络为Sentence-CNN网络,Sentence-CNN网络加上两层全连接层网络,所述两层全连接层网络的隐含层单元数分别为2048和1024。
4.根据权利要求1所述的一种基于关键对象特征的深度监督跨模态检索方法,其特征在于,所述的标签空间损失具体计算为:
将FI final和FT final通过一个线性映射层得到
Figure FDA0003601633720000036
Figure FDA0003601633720000037
进而计算得到标签空间损失:
Figure FDA0003601633720000031
其中Y=[y1,y2,...,yn],|| ||F表示Frobenius范数。
5.根据权利要求1所述的一种基于关键对象特征的深度监督跨模态检索方法,其特征在于,所述的公共空间损失具体计算为:
Figure FDA0003601633720000032
其中公式第一项为模态间损失,第二项为图像模态内损失,第三项为文本模态内损失,
Figure FDA0003601633720000033
Figure FDA0003601633720000034
1{.}表示如果两个输入向量属于同一类则为1,不是同一类则为0。
6.根据权利要求1所述的一种基于关键对象特征的深度监督跨模态检索方法,其特征在于,其所述的模态不变性损失为:
Figure FDA0003601633720000035
|| ||F表示Frobenius范数。
CN202110208356.4A 2021-02-24 2021-02-24 一种基于关键对象特征的深度监督跨模态检索方法 Active CN113010720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110208356.4A CN113010720B (zh) 2021-02-24 2021-02-24 一种基于关键对象特征的深度监督跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110208356.4A CN113010720B (zh) 2021-02-24 2021-02-24 一种基于关键对象特征的深度监督跨模态检索方法

Publications (2)

Publication Number Publication Date
CN113010720A CN113010720A (zh) 2021-06-22
CN113010720B true CN113010720B (zh) 2022-06-07

Family

ID=76385927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110208356.4A Active CN113010720B (zh) 2021-02-24 2021-02-24 一种基于关键对象特征的深度监督跨模态检索方法

Country Status (1)

Country Link
CN (1) CN113010720B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661933A (zh) * 2022-03-08 2022-06-24 重庆邮电大学 基于胎儿先心病超声图像—诊断报告的跨模态检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN110188209A (zh) * 2019-05-13 2019-08-30 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110298395A (zh) * 2019-06-18 2019-10-01 天津大学 一种基于三模态对抗网络的图文匹配方法
CN111460201A (zh) * 2020-03-04 2020-07-28 南京邮电大学 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN110188209A (zh) * 2019-05-13 2019-08-30 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110298395A (zh) * 2019-06-18 2019-10-01 天津大学 一种基于三模态对抗网络的图文匹配方法
CN111460201A (zh) * 2020-03-04 2020-07-28 南京邮电大学 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval;Fang Zhao 等;《Computer Vision & Pattern Recognition》;20150419;第1556-1564页 *

Also Published As

Publication number Publication date
CN113010720A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110019812B (zh) 一种用户自生产内容检测方法和系统
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN112200197A (zh) 一种基于深度学习和多模态的谣言检测方法
US20230252786A1 (en) Video processing
CN117251791B (zh) 基于图的全局语义感知的多模态反讽检测方法
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
CN108268883B (zh) 基于开放数据的移动端信息模板自构建系统
Dutta et al. CNN-based segmentation of speech balloons and narrative text boxes from comic book page images
CN113010720B (zh) 一种基于关键对象特征的深度监督跨模态检索方法
Wang et al. Rare-aware attention network for image–text matching
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
Nie et al. Cross-domain semantic transfer from large-scale social media
Mohammedali et al. Real-time sign language recognition system
CN118051630A (zh) 一种基于多模态共识感知和动量对比的图文检索系统及其方法
CN114463552A (zh) 迁移学习、行人重识别方法及相关设备
CN113159071A (zh) 一种跨模态图像-文本关联异常检测方法
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法
Chu et al. Text detection in manga by deep region proposal, classification, and regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant