CN110059217A - 一种两级网络的图像文本跨媒体检索方法 - Google Patents

一种两级网络的图像文本跨媒体检索方法 Download PDF

Info

Publication number
CN110059217A
CN110059217A CN201910355345.1A CN201910355345A CN110059217A CN 110059217 A CN110059217 A CN 110059217A CN 201910355345 A CN201910355345 A CN 201910355345A CN 110059217 A CN110059217 A CN 110059217A
Authority
CN
China
Prior art keywords
text
image
media
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910355345.1A
Other languages
English (en)
Other versions
CN110059217B (zh
Inventor
李志欣
凌锋
张灿龙
周韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201910355345.1A priority Critical patent/CN110059217B/zh
Publication of CN110059217A publication Critical patent/CN110059217A/zh
Application granted granted Critical
Publication of CN110059217B publication Critical patent/CN110059217B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种两级网络的图像文本跨媒体检索方法,首先通过构建了跨媒体两级网络来探索两级对齐,它分别包含两个用于全局,局部的子网。接着利用训练数据集来对跨媒体两级模型进行训练,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型。最后,利用该训练好的跨媒体两级模型对待检索图像和待检索文本进行相似度检索。实验表明,本发明在跨媒体检索的应用上达到了不错的效果。

Description

一种两级网络的图像文本跨媒体检索方法
技术领域
本发明涉及计算机跨媒体检索领域,具体涉及一种两级网络的图像文本跨媒体检索方法。
背景技术
跨媒体既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息,能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合,只有对这些多模态媒体进行融合分析,才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。本文研究了经典的图像-文本匹配问题,它是图像-句子跨模态检索(即对给定的具有视觉描述的句子进行图像搜索,从图像查询中检索句子)的核心。由于不同模态的特征通常具有不一致的分布和表示,因此需要弥合模态差距,即需要找到方法来评估跨模态的项的语义相似性。
一种简单的学习方法是:建立一个公共子空间,然后将所有数据投影到该空间。比如早期的典型相关分析(Canonical Correlation Analysis,CCA)方法,通过线性函数尽可能的将成对出现的图像和文本数据投影到公共子空间的同一位置。通过改进投影方式以及变换投影空间,CCA方法可以轻易扩展到多种媒体形式的联合分析。主题模型是另外一种常用的表示方法,比如经典的潜在狄里克雷分布(Latent Dirichlet Allocation,LDA)模型。LDA假设不同形式的媒体信息由相同的多个主题生成,于是目标的相似度可以通过指定主题下的生成概率来计算。还有基于图形的方法,通过最大化交叉模态成对项目相关性或项目分类准确性来学习线性投影以生成共同表示。深度神经网络的兴起也很快蔓延到跨媒体信息表达领域。如利用深度学习改进特征提取和度量方式,拉近同类目标距离时拉远不同类间距离,特别是在学习公共子空间时利用非线性相关等等。然而,对于一种模态中的一个项目,可能存在多个具有相同模态的语义上不同的项目,仅简单的通过公共子空间的来匹配表示是远远不够的,还需要更好的网络模型来匹配表示。
发明内容
本发明提供一种两级网络的图像文本跨媒体检索方法,通过交叉模式检索研究的核心是学习到图像和文本较好的语义表示,其中不同形态的项目可以直接相互检索,以实现跨不同模态的灵活检索体验。
为解决上述问题,本发明是通过以下技术方案实现的:
一种两级网络的图像文本跨媒体检索方法,包括如下步骤:
步骤1、构建跨媒体两级模型阶段:
所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络;
步骤2、训练数据集的获取阶段:
步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对;
步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集;
步骤3、跨媒体两级模型进行训练阶段:
步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练;
步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示;
步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示;
步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度;
步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练;
步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示;
步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示;
步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度;
步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,去训练跨媒体两级模型的综合相似度;
步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1-3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型;
步骤4、检索阶段:
将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。
上述步骤2.1所述的图像文本跨媒体的数据集为Flickr30K和MS-COCO。
上述步骤2.2中,对于每个图像文本对,将其原始图像的模态标签记做01,并将其原始文本的模态标签记做10。
上述步骤3.1.3中,全局生成对抗网络的全局特征相似度等于图像全局表示与文本全局表示之间的点积。
上述步骤3.2.3中,局部跨媒体注意网络的局部特征相似度等于图像局部表示与文本局部表示之间的点积。
上述步骤3.4中,综合相似度等于全局特征相似度和局部特征相似度之和。
与现有技术相比,本发明具有如下特点:
(1)全局和局部统筹兼顾,对全局特征采用基于生成对抗网络的思想,对局部特征采用注意力机制加权融合,与传统的跨媒体检索的CCA方法相比,融合了全局和局部不同的特征;两级网络的图像文本跨媒体检索方法具有很好的可解释性,结构并不复杂,结合两种方法在提升跨媒体检索的准确性的同时也让结果具有很好的可解释性。
(2)综合相似度采用相似度点积后累加进行计算,与传统的跨媒体检索的CCA方法和余弦相似度方法比较,混合的相似度考虑了多元的相似度信息,在实验结果上具有更高的召回率,在两种相似度融合的阶段采用相似度累加,与现有的跨媒体检索相似度融合策略相比,本方法通过实验学习得到更高的召回率,使结果更具说服力。
附图说明
图1为一种两级网络的图像文本跨媒体检索方法的原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面以跨媒体检索为例,对本发明进一步详细说明。
本发明提出一种两级网络的图像文本跨媒体检索方法,其包括如下步骤:
步骤1、构建跨媒体两级模型阶段:
所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络。本发明构建了全局生成对抗网络和局部跨媒体注意网络来探索多层对齐,它分别包含两个用于全局和局部的子网。利用多级对齐用于相互提升,可以学习跨媒体相关学习的补充提示,可以学习跨媒体检索的不同表示。
步骤2、训练数据集的获取阶段:
步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对。
从图像文本跨媒体的数据集Flickr30K和MS-COCO中获取原始文本和原始图像,对于Flickr30K数据集的31,784个图像文本对,我们使用1000个测试图像文本对用于测试,其余用于训练我们的模型。对于MS-COCO数据集的123,287个图像文本对,我们使用1000个测试图像文本对用于测试,其余用于训练我们的模型。我们使用成对的原始图片与原始文本,一张原始图片对应一个原始文本,用于训练阶段。
将跨媒体数据集的形式定义引入为其中且文本在每种媒体类型中总共有N个实例,也就是N个图像文本对。im和tk分别是图像和文本的第m和第k个实例。
步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集。
步骤(2)数据预处理阶段:
我们给Flickr30K和MS-COCO图像文本对中的每一个实例附上一个单热向量(one-hot)编码的标签来表示它属于哪一种模态。本发明预先设定原始图像的标签记做“01”,来自文本的标签记做“10”。
步骤3、跨媒体两级模型进行训练阶段:
步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练。
对于全局表示,我们的目标是学习不同媒体类型的全局原始实例之间的成对跨媒体关联,如全局图像特征gi和全局文本特征gt
步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示。
在本实施中,对于图像的全局表示,首先调整每个输入图像im为256×256。接着使用包含了16个卷积层和全连接层的卷积神经网络(VGG16)对图像进行处理,从VGG16的最后一个全连接层(fc7)中提取4,096维特征向量,以获得图像的全局特征向量。最后将所提取的图像的全局特征向量送入到全连接网络中,对其进行降维,即将图像的特征向量维度变换为1024维向量作为跨媒体语义对齐的公共子空间,以便计算图像全局表示和文本全局表示之间的跨媒体相似性。经过上述步骤后得到图像全局表示,表示为gi
步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示。
在本实施例中,首先将每个输入文本tk被组成一个字符序列,其中每个字符由一个单热编码表示。接着使用字符型卷积神经网络(Character-Convolutional NeuralNetworks,Char-CNN)对文本进行处理,从最后一个激活层生成一个表示序列,以获得文本的全局特征向量。为了提高训练效果,本发明还需要将Char-CNN输出的文本的全局特征向量输入到长期短期记忆网络(Long Short Term Memory,LSTM)来学习全局代表性,以便得到文本更好的语义表示。
LSTM是递归神经网络(Recurrent Neural Network,RNN)的一种特例,使用以下等式递归更新:
ct=ct-1⊙ft+tanh(Wuxt+Uuht-1+bu)⊙it (2)
ht=ot⊙tan h(ct) (3)
其中输入,遗忘,存储单元和输出的激活矢量分别表示为i,f,c和o。x是输入文本序列。tanh是激活函数,隐藏单位的输出为⊙表示逐元素乘法。σ是用于激活门的S形非线性。我们可以得到LSTM的输出结果最后将所提取的文本的全局特征向量送入到全连接网络中,对其进行降维,即将文本特征向量维度变换为1024维向量作为跨媒体语义对齐的公共子空间,以便计算图像全局表示和文本全局表示之间的跨媒体相似性。经过上述步骤后,得到文本的全局表示,表示为gt
步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度。
在步骤3.2.1和步骤3.1.2所得到的公共子空间中,对全局表示的损失函数基于三元组损失(Triplet Loss),Triplet Loss的核心是锚示例、正示例、负示例共享模型,通过模型,将锚示例与正示例聚类,远离负示例。Triplet loss学到的是一个好的嵌入表示,相似的图像文本对在公共子空间里是相近的,表示为Losstriplet=max(d(a,p)-d(a,n)+margin,0),其中a是锚点,p是正示例,n是负示例。Triplet Loss能使匹配的图像文本对的相似性与不匹配对的相似性之间的差异应该尽可能大。
因此,基于Triplet Loss,本发明设计的全局目标函数定义如下:
该公式中的两个项目定义为:
其中d(,)表示图像文本对特征向量之间的点积。它表明它们的相似性(这里越大越好)。表示匹配的图像文本对,而是不匹配的对。α表示边际参数。N是从训练集中采样的三元组元组的数量。因此,可以从匹配和不匹配的图像文本对中充分利用跨媒体全局对齐。
根据全局目标函数,得到全局特征相似度为:
simglobal=d(gi,gt) (7)
其中d(,)表示全局图像特征向量和全局文本特征向量之间的点积。
步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练。
步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示。
在本实施例中,对于图像局部表示,首先利用快速候选区域卷积神经网络(FasterRCNN)来生成图像候选区域(Region of Interest,ROI),其包含视觉对象的较大概率,例如“人”或“飞机”。具体而言,每个图像im被馈送到用Faster RCNN这种卷积神经网络后得到几个图像候选区域。然后对所获得的ROI,使用VGG16从fc7层中提取每个图像边界框内区域的视觉特征。它们为一个图像内的n个不同区域形成图像局部的输出其中i代表第i个图像。接着添加两层的全连接网络将图像局部的输出的特征向量维度变换为1024维向量作为跨媒体语义对齐的公共子空间,命名为局部图像全连接网络,以便计算图像局部表示和文本局部表示之间的跨媒体相似性。
经过上述步骤后,得到图像局部表示,表示为li
步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示。
在本实施例中,为了学习文本局部表示,首先对于某一个句子中的第i个单词,用一个单热向量表示它,显示词汇表中对单词的检索,并通过词嵌入矩阵We,将单词嵌入到300维向量中:
We·xi=Weωi,i∈[1,n] (8)
经过嵌入矩阵后,使用双向LSTM通过总结句子中两个方向的信息,双向LSTM包含前向LSTM,其从ω1到ωn读取句子T:
以及从ωn到ω1读取的后向LSTM:
最后一个词的特征ei是通过平均前向隐藏状态和后退隐藏状态来定义的,它总结了以ωi为中心的句子的信息。
具体而言,文本通过词嵌入矩阵的方式提取单词后的输出由双向LSTM网络处理。它们的输出维数是2048。这样可以从双向LSTM的隐藏单元获得一系列输出,表示为E={e1,...,em}为某一个句子中m个不同的文字片段,作为解释句子的上下文最终的特征。对局部文本采用双向LSTM结合注意力机制进行处理,得到了更好的语义表示。
为了使模型专注于必要的细粒度补丁,还需应用注意机制来捕获有用的文本片段。每个集合中的元素代表输入信息中某个空间位置上的输入信息,输出就是当前空间位置t下,某个上下文分别表示对应的注意力,第m个文字片段在经过softmax得到最后的得分。
其中Zt-1是第(t-1)个空间位置下双向LSTM的隐状态的输入。通过归一化指数函数(softmax)进行归一化,最后每一个输入的上下文表示上对应的权重(即得分)和为1:
解码器对文字片段E中不同的上下文信息表示注意的程度可以通过这个得分来反应。其中表示文本片段的生成的注意权重。
对文本局部表示使用注意力机制可以从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,它包含了丰富的细粒度本地信息,并且可以强调文本序列中的所有关键词。
具有较大注意力的文字片段更可能包含一些关键词,其描述相应的视觉对象。因此,通过双向LSTM和注意力机制处理后,我们可以获得某一个文本局部特征的输出为
假设有n个文本,那么可以从双向LSTM的隐藏单元获得一系列输出,表示为为n个句子中m个不同的文字片段。经过双向LSTM和注意力机制处理后,我们可以获得n个句子中的局部特征的输出为作为文本局部的最终表示。
接着在添加两层的全连接网络将文本局部的特征向量的输出的维度变换为1024维向量,作为跨媒体语义对齐的公共子空间,命名为“局部文本全连接网络”以便计算图像局部表示和文本局部表示之间的跨媒体相似性。
经过上述步骤后,得到文本的局部表示,表示为lt
步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度。
在步骤3.2.1和步骤3.2.2的公共子空间中,对局部表示的损失函数基于TripletLoss,对于局部对齐,我们的目标是在一对图像和文本中找到文本的局部表示lt与多个图像局部表示li之间的最佳匹配。因此对于每个文本局部表示,我们从多个图像局部表示中选择K最近邻分类算法来实现这个过程。具体地,给定一个带有n个图像局部表示的一张图片,我们假定存在一个特定视觉特性比如“people”,提取出其特征向量后,我们可以通过K最近邻分类算法计算特征向量之间给定的距离,即L1或L2距离,就得到从n个图像局部表示中找到k个最近邻。使得能够更好的进行图像局部表示和文本局部表示的匹配,并给出以下局部目标函数:
在先前的工作中,Karpathy和Li FeiFei等人将区域-单词相似性定义为li和ej的点积d(,),即:
sij=li·ej (15)
其中j代表第j个单词,i代表第i个图像候选区域。
根据局部目标函数,得到局部特征的相似度为:
其中d(.)表示图像局部特征向量和文本局部特征向量之间的点积。K代表n个图像局部表示中找到k个最近邻。
步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,能够得到跨媒体两级模型的综合相似度,其中综合相似度等于全局特征相似度和局部特征相似度之和。
步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1-3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型。
本发明设计了图像im和文本tk之间的跨媒体综合相似性,它在公共子空间中计算得出,结合了两级对齐:
其中K代表n个图像局部表示中找到k个最近邻。d(,)表示点积计算公式。有了点积,我们就可以来检索相似性最大的图片或文本了,表明最相关。
在本发明中,所有全连接网络可以为一层全连接网络、两层全连接网络或多层全连接网络。在本实施例中,全局选用两层全连接网络。对于两个全连接网络的公共子空间,引入一个简单的只有全连接层的识别器,使其无法区分输入的特征是属于哪一种模态的,从而进一步减少模态间的差异。在训练时,给每一个实例附上一个one-hot编码的标签来表示它所述模态。本发明预先设定来自图像全连接网络的图像特征的标签记做01,来自文本全连接网络的文本特征的标签记做10,对抗损失为:
其中No表示N个图像文本对,LcrossD)表示每次迭代用于训练的所有实例No的模态分类的交叉熵损失函数。此外,mi是每个实例的正确的模态标签,表示为单热向量,而D(.;θD)是实例No中的每个项目(图像或文本)生成的模态概率。生成对抗网络鉴别器用于调整图像和文本的全连接网络的网络参数,通过最大化该对抗损失即可进一步促使两种模态之间的语义特征无法区分,并增强共同表征的一致性,趋向于同一子空间。
为了检测模型的性能,本发明还可以对训练好的模型进行测试。模型测试阶段使用1000个测试图像文本对,并采用测试集的一种媒体的数据作为查询集合来检索另一种媒体的数据,有两种方法:
1)输入一张未知图片,通过模型的相似度检索测试集中的N个文本,得到测试集中相似度最高的K个文本,最终计算后输出得到图像检索文本的召回率。
2)输入一张未知文本,通过模型的相似度检索测试集中的N张图片,得到测试集中相似度最高的K张图片,最终计算后输出得到文本检索图像的召回率。
召回率名为“Recall@K”是指检索出来的文档与文档库中所有的相关文档的比率。我们用Recall@K(K=1,5,10)表示在相似度最高的K个结果中检索到至少一个正确的的查询的百分比。Recall@K的得分越高,模型性能越好。
步骤4、检索阶段:
将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。
对给定任何媒体类型的查询,跨媒体检索的目标是得到测量跨媒体sim(im,tk)的模型,并检索另一媒体类型的相关实例,最后可以计算出召回率。本发明从提出的视觉语言两级对齐模型中提取全局,局部表示,这可以为跨媒体相关学习提供丰富的表示。
根据待检索图像和待检索文本之间的综合相似度确定两者是否相似采用阈值比较的方式。如设定一个综合相似度阈值,并将所得到的综合相似度与综合相似度阈值进行比较,当大于综合相似度阈值时,表示两者相似,否则两者不相似。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (6)

1.一种两级网络的图像文本跨媒体检索方法,其特征是,包括如下步骤:
步骤1、构建跨媒体两级模型阶段:
所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络;
步骤2、训练数据集的获取阶段:
步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对;
步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集;
步骤3、跨媒体两级模型进行训练阶段:
步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练;
步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示;
步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示;
步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度;
步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练;
步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示;
步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示;
步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度;
步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,去训练跨媒体两级模型的综合相似度;
步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1-3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型;
步骤4、检索阶段:
将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。
2.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤2.1所述的图像文本跨媒体的数据集为Flickr30K和MS-COCO。
3.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤2.2中,对于每个图像文本对,将其原始图像的模态标签记做01,并将其原始文本的模态标签记做10。
4.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤3.1.3中,全局生成对抗网络的全局特征相似度等于图像全局表示与文本全局表示之间的点积。
5.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤3.2.3中,局部跨媒体注意网络的局部特征相似度等于图像局部表示与文本局部表示之间的点积。
6.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤3.4中,综合相似度等于全局特征相似度和局部特征相似度之和。
CN201910355345.1A 2019-04-29 2019-04-29 一种两级网络的图像文本跨媒体检索方法 Expired - Fee Related CN110059217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910355345.1A CN110059217B (zh) 2019-04-29 2019-04-29 一种两级网络的图像文本跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910355345.1A CN110059217B (zh) 2019-04-29 2019-04-29 一种两级网络的图像文本跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN110059217A true CN110059217A (zh) 2019-07-26
CN110059217B CN110059217B (zh) 2022-11-04

Family

ID=67321630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910355345.1A Expired - Fee Related CN110059217B (zh) 2019-04-29 2019-04-29 一种两级网络的图像文本跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN110059217B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信系统集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110765286A (zh) * 2019-09-09 2020-02-07 卓尔智联(武汉)研究院有限公司 跨媒体检索方法、装置、计算机设备和存储介质
CN110781319A (zh) * 2019-09-17 2020-02-11 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110866140A (zh) * 2019-11-26 2020-03-06 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN111353069A (zh) * 2020-02-04 2020-06-30 清华珠三角研究院 一种人物场景视频生成方法、系统、装置及存储介质
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111949806A (zh) * 2020-08-03 2020-11-17 中电科大数据研究院有限公司 一种基于Resnet-Bert网络模型的跨媒体检索方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112541356A (zh) * 2020-12-21 2021-03-23 山东师范大学 一种生物医学命名实体识别的方法和系统
CN113239159A (zh) * 2021-04-26 2021-08-10 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113254678A (zh) * 2021-07-14 2021-08-13 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN113392196A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113516118A (zh) * 2021-07-29 2021-10-19 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法
CN113536013A (zh) * 2021-06-03 2021-10-22 国家电网有限公司大数据中心 一种跨媒体图像检索方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693316A (zh) * 2012-05-29 2012-09-26 中国科学院自动化研究所 基于线性泛化回归模型的跨媒体检索方法
CN103488713A (zh) * 2013-09-10 2014-01-01 浙江大学 一种可直接度量不同模态数据间相似性的跨模态检索方法
US20140279324A1 (en) * 2004-04-01 2014-09-18 Google Inc. Content access with handheld document data capture devices
US8892594B1 (en) * 2010-06-28 2014-11-18 Open Invention Network, Llc System and method for search with the aid of images associated with product categories
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
WO2017037103A1 (en) * 2015-09-01 2017-03-09 Dream It Get It Limited Pmedia unit retrieval and related processes
US20170371948A1 (en) * 2016-06-28 2017-12-28 Dassault Systemes Querying A Database With Morphology Criterion
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN108062421A (zh) * 2018-01-09 2018-05-22 焦点科技股份有限公司 一种大规模图片多尺度语义检索方法
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN108959522A (zh) * 2018-04-26 2018-12-07 浙江工业大学 基于半监督对抗生成网络的迁移检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279324A1 (en) * 2004-04-01 2014-09-18 Google Inc. Content access with handheld document data capture devices
US8892594B1 (en) * 2010-06-28 2014-11-18 Open Invention Network, Llc System and method for search with the aid of images associated with product categories
CN102693316A (zh) * 2012-05-29 2012-09-26 中国科学院自动化研究所 基于线性泛化回归模型的跨媒体检索方法
CN103488713A (zh) * 2013-09-10 2014-01-01 浙江大学 一种可直接度量不同模态数据间相似性的跨模态检索方法
WO2017037103A1 (en) * 2015-09-01 2017-03-09 Dream It Get It Limited Pmedia unit retrieval and related processes
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
US20170371948A1 (en) * 2016-06-28 2017-12-28 Dassault Systemes Querying A Database With Morphology Criterion
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
CN108062421A (zh) * 2018-01-09 2018-05-22 焦点科技股份有限公司 一种大规模图片多尺度语义检索方法
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN108959522A (zh) * 2018-04-26 2018-12-07 浙江工业大学 基于半监督对抗生成网络的迁移检索方法
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GE SONG: "Deep Memory Network for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
LIANG HAN: "Cross-modality matching based on Fisher Vector with neural word embeddings and deep image features", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
XIN LIU: "Adversarial Tri-Fusion Hashing Network for Imbalanced Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE》 *
李志欣: "融合两级相似度的跨媒体图像文本检索", 《电子学报》 *
董建锋: "跨模态检索中的相关度计算研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765286A (zh) * 2019-09-09 2020-02-07 卓尔智联(武汉)研究院有限公司 跨媒体检索方法、装置、计算机设备和存储介质
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信系统集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110569905B (zh) * 2019-09-10 2023-04-14 中电鸿信信息科技有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110781319B (zh) * 2019-09-17 2022-06-21 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110781319A (zh) * 2019-09-17 2020-02-11 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN110889505B (zh) * 2019-11-18 2023-05-02 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN110866140A (zh) * 2019-11-26 2020-03-06 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110866140B (zh) * 2019-11-26 2024-02-02 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN111353069A (zh) * 2020-02-04 2020-06-30 清华珠三角研究院 一种人物场景视频生成方法、系统、装置及存储介质
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111949806A (zh) * 2020-08-03 2020-11-17 中电科大数据研究院有限公司 一种基于Resnet-Bert网络模型的跨媒体检索方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN111966883B (zh) * 2020-08-13 2024-02-23 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112541356A (zh) * 2020-12-21 2021-03-23 山东师范大学 一种生物医学命名实体识别的方法和系统
CN112541356B (zh) * 2020-12-21 2022-12-06 山东师范大学 一种生物医学命名实体识别的方法和系统
CN113239159B (zh) * 2021-04-26 2023-06-20 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113239159A (zh) * 2021-04-26 2021-08-10 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113536013A (zh) * 2021-06-03 2021-10-22 国家电网有限公司大数据中心 一种跨媒体图像检索方法及系统
CN113536013B (zh) * 2021-06-03 2024-02-23 国家电网有限公司大数据中心 一种跨媒体图像检索方法及系统
CN113392196B (zh) * 2021-06-04 2023-04-21 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113392196A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113254678B (zh) * 2021-07-14 2021-10-01 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN113254678A (zh) * 2021-07-14 2021-08-13 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN113516118A (zh) * 2021-07-29 2021-10-19 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法

Also Published As

Publication number Publication date
CN110059217B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN110059217A (zh) 一种两级网络的图像文本跨媒体检索方法
Chen et al. Improving deep visual representation for person re-identification by global and local image-language association
Aneja et al. Convolutional image captioning
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
Wang et al. Show, recall, and tell: Image captioning with recall mechanism
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
Gupta et al. Vico: Word embeddings from visual co-occurrences
Chen et al. Scene classification in indoor environments for robots using context based word embeddings
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN110161480A (zh) 基于半监督深度概率模型的雷达目标识别方法
CN110309515B (zh) 实体识别方法及装置
Yang et al. Explaining deep convolutional neural networks via latent visual-semantic filter attention
Parvin et al. Transformer-based local-global guidance for image captioning
Jia et al. S 2-ver: Semi-supervised visual emotion recognition
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Su et al. Vdarn: Video disentangling attentive relation network for few-shot and zero-shot action recognition
Liu et al. Decontaminate feature for tracking: adaptive tracking via evolutionary feature subset
Zhao et al. TSVM-HMM: Transductive SVM based hidden Markov model for automatic image annotation
Yang et al. Visual Skeleton and Reparative Attention for Part-of-Speech image captioning system
CN116049349A (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN111581467A (zh) 基于子空间表示和全局消歧方法的偏标记学习方法
Raboh et al. Learning latent scene-graph representations for referring relationships
Zhou et al. Increasing naturalness of human–machine dialogue: The users’ choices inference of options in machine-raised questions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221104