CN111651661A - 一种图文跨媒体检索方法 - Google Patents

一种图文跨媒体检索方法 Download PDF

Info

Publication number
CN111651661A
CN111651661A CN202010495235.8A CN202010495235A CN111651661A CN 111651661 A CN111651661 A CN 111651661A CN 202010495235 A CN202010495235 A CN 202010495235A CN 111651661 A CN111651661 A CN 111651661A
Authority
CN
China
Prior art keywords
image
word
similarity
text
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010495235.8A
Other languages
English (en)
Other versions
CN111651661B (zh
Inventor
王春辉
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polar Intelligence Technology Co ltd
Original Assignee
Polar Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polar Intelligence Technology Co ltd filed Critical Polar Intelligence Technology Co ltd
Priority to CN202010495235.8A priority Critical patent/CN111651661B/zh
Publication of CN111651661A publication Critical patent/CN111651661A/zh
Application granted granted Critical
Publication of CN111651661B publication Critical patent/CN111651661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种图文跨媒体检索方法。本发明通过提取输入图像的图像特征V,对输入句子进行编码得到词级别表示Sw,将Sw输入卷积神经网络CNN得到短语级别表示Sp,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,实现了图文跨媒体检索。本发明采用文本对图像的注意力引导,通过计算文本在词级别和短语级别上与图像的相似度,并对两个相似度进行融合得到文本与图像的相似度,提高了检索的准确度。

Description

一种图文跨媒体检索方法
技术领域
本发明属于自然语言理解技术领域,具体涉及一种图文跨媒体检索方法。
背景技术
跨媒体检索是指用户给定一个媒体的查询信息,可以检索出语义相关的其他媒体的信息。目前,跨媒体检索的方法分为两大类:一类是基于共同语义空间学习的方法;另一类是基于跨模态特征融合的方法。
基于共同语义空间学习的方法,其本质在于对齐不同模态数据的分布和特征表示。其中,传统经典的相关分析是此类方法的基础。典型相关分析CCA(CanonicalCorrelation Analysis)是最为经典的方法。正因为在跨媒体检索中,数据常常是成对出现的,CCA将这些成对出现的数据投影到相同的子空间中,使其距离最小化、相似性最大化。CCA是一种无监督类方法,因为其没有用到数据的类别标签。有学者尝试将标签信息加入到CCA中,使用分析方法得到各个模态在公共空间的线性投影,再对不同模态数据做逻辑回归。由于不同媒体数据所含信息量不对等,基于共同语义空间学习的方法可能损失部分信息或者引入噪声。
基于跨模态特征融合的方法,其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法主要是构造一个多路径的模型,每个不同的路径用于提取各自模态的语义特征,利用深度神经网络对这些特征进行融合分析,挖掘各个模态间的潜在关系得到相似度。可使用多模态长短记忆网络挖掘句子和图像的潜在语义关系,通过调节注意力机制来选择语义更相关的多模态数据作为训练对象,将多个时间步长内的局部相似性与隐层状态融合,以获得最终匹配分数作为所需的全局相似度。有学者提出将多模态双线性映射模型(MCB)用于融合图像视觉和文本信息,模型中的注意力机制和多个MCB使得模型在视觉问答领域有很大的提升。基于跨模态特征融合的方法,对复杂关联关系挖掘不充分。虽然基于注意力机制的跨模态特征融合方法可以获取更复杂的关系,但缺乏层次化特征间多对多的关联关系。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于图文层次化信息交互的跨媒体检索方法。
为实现上述目的,本发明采用如下技术方案:
一种图文跨媒体检索方法,包括以下步骤:
步骤1,按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;
步骤2,利用双向GRU对输入句子S进行编码,得到S的词级别表示
Figure BDA0002522586870000021
Figure BDA0002522586870000022
为第t个词的词向量表示,t=1,2,…,T,T为词的数量;
步骤3,将Sw输入卷积神经网络CNN得到S的短语级别表示
Figure BDA0002522586870000023
Figure BDA0002522586870000024
为第t个词的短语向量表示,t=1,2,…,T,T为词的数量;
步骤4,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。
与现有技术相比,本发明具有以下有益效果:
本发明通过提取输入图像的图像特征V,对输入句子进行编码得到词级别表示Sw,将Sw输入卷积神经网络CNN得到短语级别表示Sp,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,实现了图文跨媒体检索。本发明采用文本对图像的注意力引导,通过计算文本在词级别和短语级别上与图像的相似度,并对两个相似度进行融合得到文本与图像的相似度,提高了检索的准确度。
附图说明
图1为本发明实施例一种图文跨媒体检索方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种图文跨媒体检索方法,流程图如图1所示,所述方法包括以下步骤:
S101、按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;
S102、利用双向GRU(Gated Recurrent Unit,门控循环单元)对输入句子S进行编码,得到S的词级别表示
Figure BDA0002522586870000031
Figure BDA0002522586870000032
为第t个词的词向量表示,t=1,2,…,T,T为词的数量;
S103、将Sw输入卷积神经网络CNN得到S的短语级别表示
Figure BDA0002522586870000033
Figure BDA0002522586870000034
为第t个词的短语向量表示,t=1,2,…,T,T为词的数量;
S104、分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。
本实施例是一种基于图文层次化信息交互的跨媒体检索方法。观察到文本与图像的局部细粒度语义匹配并不是简单的一个词与图像中的一个区域的对应,更多的是文本中的短语与图像中的区域之间的对应关系。本实施例首先进行图像上的区域特征表示;然后提取文本的层次语义信息,包括词级别和短语级别;最后基于局部注意力机制的细粒度特征融合技术,进行图像和文本特征之间的相似性计算。
在本实施例中,步骤S101主要用于按区域提取图像特征。每个特征对应于图像中的一个区域。可采用Anderson等人在Visual Genomes数据集上预训练好的Faster-RCNN模型进行图像特征提取。
在本实施例中,步骤S102主要用于词级别表示输入文本。输入句子为one-hot表示的词语组成的句子,利用双向GRU对输入句子S进行编码,可表示为Bi_GRU(S),得到文本词级别的向量表示
Figure BDA0002522586870000041
上标“w”表示词级别。GRU是循环神经网络(Recurrent Neural Network,RNN)的一种,是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU输入输出的结构与普通的RNN相似,其中的内部结构与LSTM(Long-ShortTerm Memory,长短时记忆网络)相似,与LSTM相比,GRU内部少了一个门控函数,参数比LSTM少,却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候会选择使用GRU。
在本实施例中,步骤S103主要用于短语级别表示输入文本。将上一步得到的词级别的向量表示Sw输入卷积神经网络CNN,得到S的短语级别表示
Figure BDA0002522586870000042
上标“p”表示短语级别。CNN是一类包含卷积计算且具有深度结构的前馈神经网络,其隐含层包含卷积层、池化层和全连接层三类常见构筑。卷积层和池化层为卷积神经网络特有。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元。
在本实施例中,步骤S104主要用于进行图文匹配检索。本实施例基于不同级别的文本表示与图像特征V进行匹配。具体地,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,最后根据相似度大小进行匹配检索。由于基于不同级别的文本表示与图像进行匹配,因此可以提高匹配准确度。
作为一种可选实施例,所述S103具体包括:
通过CNN对Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征,第t个词的卷积公式如下:
Figure BDA0002522586870000043
Figure BDA0002522586870000051
Figure BDA0002522586870000052
式中,
Figure BDA0002522586870000053
Figure BDA0002522586870000054
分别为对第t个词、第t个词及后面1个词和第t个词及后面连续2个词卷积结果,
Figure BDA0002522586870000055
Figure BDA0002522586870000056
为权重参数;
Figure BDA0002522586870000057
Figure BDA0002522586870000058
进行最大池化操作,得到第t个词的短语级别的向量表示:
Figure BDA0002522586870000059
本实施例给出了由输入文本的词级别表示得到短语级别表示的一种技术方案。首先通过CNN对词级别表示Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征;然后再对每个卷积结果进行最大池化操作,得到每个词的短语级别的向量表示。
作为一种可选实施例,所述S104具体包括:
计算词引导的组合图像表示:
Figure BDA00025225868700000510
其中,
Figure BDA00025225868700000511
为第t个词引导的组合图像,
Figure BDA00025225868700000512
Figure BDA00025225868700000513
与vn的余弦相似度,softmax()为激励函数;
计算Sw与V的相似度Rw
Figure BDA00025225868700000514
计算短语引导的组合图像表示:
Figure BDA00025225868700000515
其中,
Figure BDA00025225868700000516
为第t个短语引导的组合图像,
Figure BDA00025225868700000517
Figure BDA00025225868700000518
与vn的余弦相似度;
计算Sp与V的相似度Rp
Figure BDA00025225868700000519
对Rw、Rp进行加权求和得到输入文本与图像的相似度R:
R=gRp+(1-g)Rw (5)
g=σ(W[Sw,Sp]+b) (6)
其中,g为加权系数,σ()为门控函数,W、b分别为权重和偏置。
本实施例给出了基于局部注意力机制进行文本与图像匹配的一种技术方案。局部注意力机制是指两个媒体的数据分别用各自其中的一部分去匹配对方,通过彼此关注相关联的局部信息来计算相似性,如(1)式和(3)式。采用这种机制可以更好地匹配两个媒体数据之间相关联的部分,进而提高两个媒体匹配的准确度。
为了验证本发明的有效性,下面给出一组实验数据。实验采用MSCOCO图文匹配数据集,MSCOCO数据集主要是短文本英文数据。评价指标为Recall@k(R@k),对所有检索到的结果根据其相似性分数排序,如果正确答案排在前k个,则判为检索正确;否则,判为检索错误。实验结果如表1所示,表中数据为准确度。表1中,Hie t-i Gate是本发明的模型,采用的是文本对图像的注意力引导方式,对于词级别和短语级别的相似性基于门机制的方式来进行融合。Hie i-t AVG和Hie t-i AVG与Hie t-i Gate很相似,只是引导方式和/或融合方式不同:Hie i-t AVG采用的是文本对图像的注意力引导方式,对于词级别和短语级别的相似性,基于取平均值的方式来进行融合;Hie t-i AVG采用的是图像对文本的注意力引导方式,对于词级别和短语级别的相似性,基于取平均值的方式来进行融合。DPC(2017-arXiv)、SCO(2018-CVPR)为现有技术模型,DPC(2017-arXiv)基于双路径的CNN来解决传统的图像标题生成模型中对图像特征的丢失问题,即增强了图像和文本本身的特征;SCO(2018-CVPR)将全局和局部特征组合在一起使用,且设计了一个门融合单元(gated fusion unit),可以有选择地平衡语义概念和上下文的相对重要性。
由表1可知,本发明模型的匹配准确度均高于现有模型的匹配准确度。
表1 实验结果
Figure BDA0002522586870000061
Figure BDA0002522586870000071
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。

Claims (3)

1.一种图文跨媒体检索方法,其特征在于,包括以下步骤:
步骤1,按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;
步骤2,利用双向GRU对输入句子S进行编码,得到S的词级别表示
Figure FDA0002522586860000011
Figure FDA0002522586860000012
为第t个词的词向量表示,t=1,2,…,T;T为词的数量;
步骤3,将Sw输入卷积神经网络CNN得到S的短语级别表示
Figure FDA0002522586860000013
Figure FDA0002522586860000014
为第t个词的短语向量表示,t=1,2,…,T,T为词的数量;
步骤4,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。
2.根据权利要求1所述的图文跨媒体检索方法,其特征在于,所述步骤3具体包括:
通过CNN对Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征,第t个词的卷积公式如下:
Figure FDA0002522586860000015
Figure FDA0002522586860000016
Figure FDA0002522586860000017
式中,
Figure FDA0002522586860000018
Figure FDA0002522586860000019
分别为对第t个词、第t个词及后面1个词和第t个词及后面连续2个词卷积结果,
Figure FDA00025225868600000110
Figure FDA00025225868600000111
为权重参数;
Figure FDA00025225868600000112
Figure FDA00025225868600000113
进行最大池化操作,得到第t个词的短语级别的向量表示:
Figure FDA00025225868600000114
3.根据权利要求2所述的图文跨媒体检索方法,其特征在于,所述步骤4具体包括:
计算词引导的组合图像表示:
Figure FDA0002522586860000021
其中,
Figure FDA0002522586860000022
为第t个词引导的组合图像,
Figure FDA0002522586860000023
Figure FDA0002522586860000024
与vn的余弦相似度,softmax()为激励函数;
计算Sw与V的相似度Rw
Figure FDA0002522586860000025
计算短语引导的组合图像表示:
Figure FDA0002522586860000026
其中,
Figure FDA0002522586860000027
为第t个短语引导的组合图像,
Figure FDA0002522586860000028
Figure FDA0002522586860000029
与vn的余弦相似度;
计算Sp与V的相似度Rp
Figure FDA00025225868600000210
对Rw、Rp进行加权求和得到输入文本与图像的相似度R:
R=gRp+(1-g)Rw
g=σ(W[Sw,Sp]+b)
其中,g为加权系数,σ()为门控函数,W、b分别为权重和偏置。
CN202010495235.8A 2020-06-03 2020-06-03 一种图文跨媒体检索方法 Active CN111651661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010495235.8A CN111651661B (zh) 2020-06-03 2020-06-03 一种图文跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010495235.8A CN111651661B (zh) 2020-06-03 2020-06-03 一种图文跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN111651661A true CN111651661A (zh) 2020-09-11
CN111651661B CN111651661B (zh) 2023-02-14

Family

ID=72348917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010495235.8A Active CN111651661B (zh) 2020-06-03 2020-06-03 一种图文跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN111651661B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287134A (zh) * 2020-09-18 2021-01-29 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
CN112966135A (zh) * 2021-02-05 2021-06-15 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083855A1 (en) * 2005-10-06 2007-04-12 Patel Sushma B Method and apparatus to enhance context for specific instances of output text in source files
JP2008181296A (ja) * 2007-01-24 2008-08-07 Osaka Prefecture Univ 画像検索方法および画像検索プログラム
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110851641A (zh) * 2018-08-01 2020-02-28 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083855A1 (en) * 2005-10-06 2007-04-12 Patel Sushma B Method and apparatus to enhance context for specific instances of output text in source files
JP2008181296A (ja) * 2007-01-24 2008-08-07 Osaka Prefecture Univ 画像検索方法および画像検索プログラム
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110851641A (zh) * 2018-08-01 2020-02-28 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LU RAN等: "Learning multi-view embedding in joint space for bidirectional image-text retrieval", 《 2017 IEEE VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》 *
蔡国永等: "基于卷积神经网络的图文融合媒体情感预测", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287134A (zh) * 2020-09-18 2021-01-29 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112966135A (zh) * 2021-02-05 2021-06-15 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统
CN112966135B (zh) * 2021-02-05 2022-03-29 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
CN112905827B (zh) * 2021-02-08 2024-02-27 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111651661B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
Li et al. Context-aware emotion cause analysis with multi-attention-based neural network
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Wiseman et al. Learning neural templates for text generation
Mathews et al. Semstyle: Learning to generate stylised image captions using unaligned text
Yao et al. An improved LSTM structure for natural language processing
CN114297473A (zh) 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN111651661B (zh) 一种图文跨媒体检索方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
US11645479B1 (en) Method for AI language self-improvement agent using language modeling and tree search techniques
CN111079409A (zh) 一种利用上下文和方面记忆信息的情感分类方法
Liu et al. Attribute-guided attention for referring expression generation and comprehension
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
Guan et al. Repeated review based image captioning for image evidence review
Perez-Martin et al. A comprehensive review of the video-to-text problem
Yu et al. Question classification based on MAC-LSTM
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Al-Qatf et al. Image captioning with novel topics guidance and retrieval-based topics re-weighting
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
Zhang et al. Reinforcement learning for logic recipe generation: Bridging gaps from images to plans
Bahuleyan Natural language generation with neural variational models
He et al. Hierarchical attention and knowledge matching networks with information enhancement for end-to-end task-oriented dialog systems
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant