CN111651661A - 一种图文跨媒体检索方法 - Google Patents
一种图文跨媒体检索方法 Download PDFInfo
- Publication number
- CN111651661A CN111651661A CN202010495235.8A CN202010495235A CN111651661A CN 111651661 A CN111651661 A CN 111651661A CN 202010495235 A CN202010495235 A CN 202010495235A CN 111651661 A CN111651661 A CN 111651661A
- Authority
- CN
- China
- Prior art keywords
- image
- word
- similarity
- text
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种图文跨媒体检索方法。本发明通过提取输入图像的图像特征V,对输入句子进行编码得到词级别表示Sw,将Sw输入卷积神经网络CNN得到短语级别表示Sp,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,实现了图文跨媒体检索。本发明采用文本对图像的注意力引导,通过计算文本在词级别和短语级别上与图像的相似度,并对两个相似度进行融合得到文本与图像的相似度,提高了检索的准确度。
Description
技术领域
本发明属于自然语言理解技术领域,具体涉及一种图文跨媒体检索方法。
背景技术
跨媒体检索是指用户给定一个媒体的查询信息,可以检索出语义相关的其他媒体的信息。目前,跨媒体检索的方法分为两大类:一类是基于共同语义空间学习的方法;另一类是基于跨模态特征融合的方法。
基于共同语义空间学习的方法,其本质在于对齐不同模态数据的分布和特征表示。其中,传统经典的相关分析是此类方法的基础。典型相关分析CCA(CanonicalCorrelation Analysis)是最为经典的方法。正因为在跨媒体检索中,数据常常是成对出现的,CCA将这些成对出现的数据投影到相同的子空间中,使其距离最小化、相似性最大化。CCA是一种无监督类方法,因为其没有用到数据的类别标签。有学者尝试将标签信息加入到CCA中,使用分析方法得到各个模态在公共空间的线性投影,再对不同模态数据做逻辑回归。由于不同媒体数据所含信息量不对等,基于共同语义空间学习的方法可能损失部分信息或者引入噪声。
基于跨模态特征融合的方法,其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法主要是构造一个多路径的模型,每个不同的路径用于提取各自模态的语义特征,利用深度神经网络对这些特征进行融合分析,挖掘各个模态间的潜在关系得到相似度。可使用多模态长短记忆网络挖掘句子和图像的潜在语义关系,通过调节注意力机制来选择语义更相关的多模态数据作为训练对象,将多个时间步长内的局部相似性与隐层状态融合,以获得最终匹配分数作为所需的全局相似度。有学者提出将多模态双线性映射模型(MCB)用于融合图像视觉和文本信息,模型中的注意力机制和多个MCB使得模型在视觉问答领域有很大的提升。基于跨模态特征融合的方法,对复杂关联关系挖掘不充分。虽然基于注意力机制的跨模态特征融合方法可以获取更复杂的关系,但缺乏层次化特征间多对多的关联关系。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于图文层次化信息交互的跨媒体检索方法。
为实现上述目的,本发明采用如下技术方案:
一种图文跨媒体检索方法,包括以下步骤:
步骤1,按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;
步骤4,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。
与现有技术相比,本发明具有以下有益效果:
本发明通过提取输入图像的图像特征V,对输入句子进行编码得到词级别表示Sw,将Sw输入卷积神经网络CNN得到短语级别表示Sp,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,实现了图文跨媒体检索。本发明采用文本对图像的注意力引导,通过计算文本在词级别和短语级别上与图像的相似度,并对两个相似度进行融合得到文本与图像的相似度,提高了检索的准确度。
附图说明
图1为本发明实施例一种图文跨媒体检索方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种图文跨媒体检索方法,流程图如图1所示,所述方法包括以下步骤:
S101、按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;
S104、分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。
本实施例是一种基于图文层次化信息交互的跨媒体检索方法。观察到文本与图像的局部细粒度语义匹配并不是简单的一个词与图像中的一个区域的对应,更多的是文本中的短语与图像中的区域之间的对应关系。本实施例首先进行图像上的区域特征表示;然后提取文本的层次语义信息,包括词级别和短语级别;最后基于局部注意力机制的细粒度特征融合技术,进行图像和文本特征之间的相似性计算。
在本实施例中,步骤S101主要用于按区域提取图像特征。每个特征对应于图像中的一个区域。可采用Anderson等人在Visual Genomes数据集上预训练好的Faster-RCNN模型进行图像特征提取。
在本实施例中,步骤S102主要用于词级别表示输入文本。输入句子为one-hot表示的词语组成的句子,利用双向GRU对输入句子S进行编码,可表示为Bi_GRU(S),得到文本词级别的向量表示上标“w”表示词级别。GRU是循环神经网络(Recurrent Neural Network,RNN)的一种,是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU输入输出的结构与普通的RNN相似,其中的内部结构与LSTM(Long-ShortTerm Memory,长短时记忆网络)相似,与LSTM相比,GRU内部少了一个门控函数,参数比LSTM少,却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候会选择使用GRU。
在本实施例中,步骤S103主要用于短语级别表示输入文本。将上一步得到的词级别的向量表示Sw输入卷积神经网络CNN,得到S的短语级别表示上标“p”表示短语级别。CNN是一类包含卷积计算且具有深度结构的前馈神经网络,其隐含层包含卷积层、池化层和全连接层三类常见构筑。卷积层和池化层为卷积神经网络特有。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元。
在本实施例中,步骤S104主要用于进行图文匹配检索。本实施例基于不同级别的文本表示与图像特征V进行匹配。具体地,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,最后根据相似度大小进行匹配检索。由于基于不同级别的文本表示与图像进行匹配,因此可以提高匹配准确度。
作为一种可选实施例,所述S103具体包括:
通过CNN对Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征,第t个词的卷积公式如下:
本实施例给出了由输入文本的词级别表示得到短语级别表示的一种技术方案。首先通过CNN对词级别表示Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征;然后再对每个卷积结果进行最大池化操作,得到每个词的短语级别的向量表示。
作为一种可选实施例,所述S104具体包括:
计算词引导的组合图像表示:
计算Sw与V的相似度Rw:
计算短语引导的组合图像表示:
计算Sp与V的相似度Rp:
对Rw、Rp进行加权求和得到输入文本与图像的相似度R:
R=gRp+(1-g)Rw (5)
g=σ(W[Sw,Sp]+b) (6)
其中,g为加权系数,σ()为门控函数,W、b分别为权重和偏置。
本实施例给出了基于局部注意力机制进行文本与图像匹配的一种技术方案。局部注意力机制是指两个媒体的数据分别用各自其中的一部分去匹配对方,通过彼此关注相关联的局部信息来计算相似性,如(1)式和(3)式。采用这种机制可以更好地匹配两个媒体数据之间相关联的部分,进而提高两个媒体匹配的准确度。
为了验证本发明的有效性,下面给出一组实验数据。实验采用MSCOCO图文匹配数据集,MSCOCO数据集主要是短文本英文数据。评价指标为Recall@k(R@k),对所有检索到的结果根据其相似性分数排序,如果正确答案排在前k个,则判为检索正确;否则,判为检索错误。实验结果如表1所示,表中数据为准确度。表1中,Hie t-i Gate是本发明的模型,采用的是文本对图像的注意力引导方式,对于词级别和短语级别的相似性基于门机制的方式来进行融合。Hie i-t AVG和Hie t-i AVG与Hie t-i Gate很相似,只是引导方式和/或融合方式不同:Hie i-t AVG采用的是文本对图像的注意力引导方式,对于词级别和短语级别的相似性,基于取平均值的方式来进行融合;Hie t-i AVG采用的是图像对文本的注意力引导方式,对于词级别和短语级别的相似性,基于取平均值的方式来进行融合。DPC(2017-arXiv)、SCO(2018-CVPR)为现有技术模型,DPC(2017-arXiv)基于双路径的CNN来解决传统的图像标题生成模型中对图像特征的丢失问题,即增强了图像和文本本身的特征;SCO(2018-CVPR)将全局和局部特征组合在一起使用,且设计了一个门融合单元(gated fusion unit),可以有选择地平衡语义概念和上下文的相对重要性。
由表1可知,本发明模型的匹配准确度均高于现有模型的匹配准确度。
表1 实验结果
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495235.8A CN111651661B (zh) | 2020-06-03 | 2020-06-03 | 一种图文跨媒体检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495235.8A CN111651661B (zh) | 2020-06-03 | 2020-06-03 | 一种图文跨媒体检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651661A true CN111651661A (zh) | 2020-09-11 |
CN111651661B CN111651661B (zh) | 2023-02-14 |
Family
ID=72348917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010495235.8A Active CN111651661B (zh) | 2020-06-03 | 2020-06-03 | 一种图文跨媒体检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651661B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287134A (zh) * | 2020-09-18 | 2021-01-29 | 中国科学院深圳先进技术研究院 | 检索模型的训练和识别方法、电子设备及存储介质 |
CN112905827A (zh) * | 2021-02-08 | 2021-06-04 | 中国科学技术大学 | 跨模态图文匹配的方法、装置及计算机可读存储介质 |
CN112966135A (zh) * | 2021-02-05 | 2021-06-15 | 华中科技大学 | 一种基于注意力机制和门控机制的图文检索方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070083855A1 (en) * | 2005-10-06 | 2007-04-12 | Patel Sushma B | Method and apparatus to enhance context for specific instances of output text in source files |
JP2008181296A (ja) * | 2007-01-24 | 2008-08-07 | Osaka Prefecture Univ | 画像検索方法および画像検索プログラム |
CN107330100A (zh) * | 2017-07-06 | 2017-11-07 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像‑文本双向检索方法 |
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN110851641A (zh) * | 2018-08-01 | 2020-02-28 | 杭州海康威视数字技术股份有限公司 | 跨模态检索方法、装置和可读存储介质 |
-
2020
- 2020-06-03 CN CN202010495235.8A patent/CN111651661B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070083855A1 (en) * | 2005-10-06 | 2007-04-12 | Patel Sushma B | Method and apparatus to enhance context for specific instances of output text in source files |
JP2008181296A (ja) * | 2007-01-24 | 2008-08-07 | Osaka Prefecture Univ | 画像検索方法および画像検索プログラム |
CN107330100A (zh) * | 2017-07-06 | 2017-11-07 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像‑文本双向检索方法 |
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN110851641A (zh) * | 2018-08-01 | 2020-02-28 | 杭州海康威视数字技术股份有限公司 | 跨模态检索方法、装置和可读存储介质 |
Non-Patent Citations (2)
Title |
---|
LU RAN等: "Learning multi-view embedding in joint space for bidirectional image-text retrieval", 《 2017 IEEE VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》 * |
蔡国永等: "基于卷积神经网络的图文融合媒体情感预测", 《计算机应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287134A (zh) * | 2020-09-18 | 2021-01-29 | 中国科学院深圳先进技术研究院 | 检索模型的训练和识别方法、电子设备及存储介质 |
CN112287134B (zh) * | 2020-09-18 | 2021-10-15 | 中国科学院深圳先进技术研究院 | 检索模型的训练和识别方法、电子设备及存储介质 |
CN112966135A (zh) * | 2021-02-05 | 2021-06-15 | 华中科技大学 | 一种基于注意力机制和门控机制的图文检索方法和系统 |
CN112966135B (zh) * | 2021-02-05 | 2022-03-29 | 华中科技大学 | 一种基于注意力机制和门控机制的图文检索方法和系统 |
CN112905827A (zh) * | 2021-02-08 | 2021-06-04 | 中国科学技术大学 | 跨模态图文匹配的方法、装置及计算机可读存储介质 |
CN112905827B (zh) * | 2021-02-08 | 2024-02-27 | 中国科学技术大学 | 跨模态图文匹配的方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651661B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783657B (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
Li et al. | Context-aware emotion cause analysis with multi-attention-based neural network | |
WO2021223323A1 (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
Wiseman et al. | Learning neural templates for text generation | |
Mathews et al. | Semstyle: Learning to generate stylised image captions using unaligned text | |
Yao et al. | An improved LSTM structure for natural language processing | |
CN114297473A (zh) | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 | |
CN111651661B (zh) | 一种图文跨媒体检索方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
US11645479B1 (en) | Method for AI language self-improvement agent using language modeling and tree search techniques | |
CN111079409A (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
Liu et al. | Attribute-guided attention for referring expression generation and comprehension | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Cheng et al. | A semi-supervised deep learning image caption model based on Pseudo Label and N-gram | |
Guan et al. | Repeated review based image captioning for image evidence review | |
Perez-Martin et al. | A comprehensive review of the video-to-text problem | |
Yu et al. | Question classification based on MAC-LSTM | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Al-Qatf et al. | Image captioning with novel topics guidance and retrieval-based topics re-weighting | |
Guo et al. | Matching visual features to hierarchical semantic topics for image paragraph captioning | |
Zhang et al. | Reinforcement learning for logic recipe generation: Bridging gaps from images to plans | |
Bahuleyan | Natural language generation with neural variational models | |
He et al. | Hierarchical attention and knowledge matching networks with information enhancement for end-to-end task-oriented dialog systems | |
CN112579739A (zh) | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |