CN111242197A - 基于双视域语义推理网络的图像文匹配方法 - Google Patents

基于双视域语义推理网络的图像文匹配方法 Download PDF

Info

Publication number
CN111242197A
CN111242197A CN202010012176.4A CN202010012176A CN111242197A CN 111242197 A CN111242197 A CN 111242197A CN 202010012176 A CN202010012176 A CN 202010012176A CN 111242197 A CN111242197 A CN 111242197A
Authority
CN
China
Prior art keywords
image
text
region
network
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010012176.4A
Other languages
English (en)
Other versions
CN111242197B (zh
Inventor
吴春雷
吴杰
王雷全
路静
段海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202010012176.4A priority Critical patent/CN111242197B/zh
Publication of CN111242197A publication Critical patent/CN111242197A/zh
Application granted granted Critical
Publication of CN111242197B publication Critical patent/CN111242197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于双视域语义推理网络的图像文本匹配任务,它是计算机视觉领域的一个重要研究课题。现有的方法大多集中于简单地聚合所有可能的区域和词对的相似性,更多地关注更重要的词或区域。但是,如果只关注区域和词对之间的相似性,就会扭曲图像本身所表达的中心意义,从而缺乏全局语义概念。为了解决这一问题,本发明首次提出了基于双视域语义推理的网络用于图像文本匹配,该网络将全局语义匹配和局部语义匹配结合在一个整体的深度框架中,以实现更有效的匹配。从局部视域出发,设计区域增强模块生成高亮显示图像区域的空间地图,为发现每个区域语义相似的词和每个词语义相似的词提供丰富的信息。从全局视域出发,使用Bi‑GRU来推断图像的全局语义信息,并将其与句子进行匹配。本发明在MSCOCO和Flicr30K数据集上进行的大量实验表明了该方法的有效性。

Description

基于双视域语义推理网络的图像文匹配方法
技术领域
本发明属于图像文本匹配方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
图像文本匹配是许多实际应用中一个重要的视觉语言交叉模态任务。准确的说,它是对于给定的文本查询出最相关的图片,对于给定的图像查询出最相关的句子。但是由于视觉语义的巨大差异,想要在一个公共空间中精确地表示来自不同模态的数据仍然是一个具有挑战性的问题。一系列丰富的研究探索了如何学习一个将图像特征向量和句子特征向量直接比较的联合空间。针对图像-文本匹配提出的许多方法,可分为基于全局语义匹配方法和局部语义匹配方法。
全局语义匹配方法是学习图像与文本之间的对应关系。一般的方法是通过将图像和文本映射到一个公共空间并优化它们的相关性来估计它们是否匹配。Kiros等人首先尝试使用CNN和LSTM分别对图像和文本进行编码,并采用双向的排名损失来学习嵌入空间。Zheng等人提供了一个双重CNN模型有区别地嵌入图像和文本。Karpathy等人提出一个三元组排名损失来使相关的图像文字对之间的距离尽可能的小而不相关的图像文字对之间的距离尽可能的大。Huang等人对排序损失函数增加了硬否定,进一步提高了匹配结果。Zhang等人设计了一种跨模态投影分类损失模型和跨模态投影匹配损失模型来学习图像和文本的嵌入。虽然这些工作都取得了良好的效果,但缺乏对图像和文本的局部细粒度分析。
局部语义匹配方法通过将视觉区域与文本词对齐进而推断图像和句子的相似度。Karpathy等人通过计算所有区域-词对的相似性来推断图像-文本匹配。Wu等人提出通过测量双向相对语义相似度来学习图文对齐。但是,简单地通过聚集所有可能的区域和单词对的相似性不能推断出全部潜在的视觉语义关系。近年来,随着注意力机制的兴起,许多研究者开始将注意力应用到图像文本匹配中。这种注意机制的优点是可以有选择地集中注意区域或单词,并获得关于它们的详细信息。Nam等人引入了一个双重注意网络来捕捉区域和单词之间的精细交互。Wang等人提供了一种根据上下文调整注意力的方法,可以有选择地强调图像和句子中的一对实例。Lee等人设计了叠加交叉注意,通过密切关注区域相关词或词相关区域来推断图像与文本的匹配,使得局部语义匹配有更好的解释。然而,仅通过计算区域与词语之间的相似度来推断图像与文本的匹配会扭曲图像所表达的主旨意思,从而导致语义错位。
不同于现有的方法,我们的模型(DVSI)通过测量图像中每个区域与其他区域之间的关系来增加相似区域的权重,从而生成一个突出显示图像区域的空间地图。然后,对所有的区域词对进行局部相似度计算。本文增加了全局匹配网络,通过对图像区域特征的推理过滤无关信息,得到具有中心意义的图像特征。然后计算文本与主题图像的全局相似度。最后,融合两部分的图文相似度进行图像文本匹配。
发明内容
本发明的目的是为了解决在基于堆叠注意力机制的图像文本匹配方法中,只通过关注更重要的单词或区域来聚合所有区域-单词对的相似性,而扭曲了图片真正表达的主要含义,从而缺乏全局语义概念的问题。
本发明为解决上述技术问题采取的技术方案是:
S1.从全局视域,构建全局语义推理匹配网络。
S2.构建区域增强模块,形成高亮显示图像区域的空间地图。
S3.结合S2中的增强特征,从局部视域构建局部语义推理匹配网络。
S4.结合S1中的网络和S3中的局部语义推理网络构建基于双视域语义推理网络架构。
S5.基于双视域语义推理网络的训练和图像文本匹配。
其中,基于图像区域特征X,我们先从全局视域捕捉重要的视觉中心意思。保留关键的信息,忘记不重要的信息,最终得到图片的关键表示。具体的说,我们使用双向GRU进行图像的全局推理,将区域特征的序列X={x1,…,xM},xm∈RD,一个接一个地进入Bi-GRUs。首先进行前向的推理,一个更新门Z控制上一时刻的状态信息被带入到当前状态中的程度。
Zt=sigmoid(Uzxt+VzCt-1) (1)
其中U和V为权值参数,Z值在[0,1]之间。特别是,较大的Z表示前一时刻的状态信息更多。
复位门类似于更新门,它控制将多少来自前一状态的信息写入当前候选集H,而较小的r表示前一时刻的状态信息更少。
rt=sigmoid(Uzxt+VzCt-1) (2)
然后利用复位门对内存信息进行复位,得到Eq16中的候选集合H。当r=0时,表示所有已记忆的信息被清除,当r=1时,表示所有已记忆的信息被保留。
Figure BDA0002357532000000021
最后,使用Z更新当前隐藏状态的输出,获得正向推理的特征。
Figure BDA0002357532000000031
同样,通过反向推理得到特征信息
Figure BDA0002357532000000032
最终的图像特征C表示如下:
Figure BDA0002357532000000033
然后用公式6计算图像和文本的相似度得分.
Figure BDA0002357532000000034
受自注意力的启发,本文通过计算图片中每个区域与其他区域之间的关系来增大相关区域的权重,从而产生突出显示图像区域的空间图。因为图像的显着区域包含比背景更多的重要信息。同样,句子的宾语或短语比形容词和副词更好地表达句子的含义。首先使用公式4来测量每个图像中所有区域间的相关性,将相关性作为一个权重表示其他位置与当前待计算位置的相似度,进而突出相关的区域。
首先使用公式7来测量每个图像中所有区域间的相关性,将相关性作为一个权重表示其他位置与当前待计算位置的相似度,进而突出相关的区域。
Figure BDA0002357532000000035
其中F(xm)TG(xn)代表两个图像区域间的相关性,xm为第m个区域的图像特征,xn为第n个区域的图像特征。F(xm)=Wfx,G(xn)=Wgx,H(xn)=Whx,参数W均可以通过反向传播学习。然后按照因子N进行归一化,其中N代表图片中的区域数。
为了得到具有更强的语义关系图像区域特征X*,我们添加了残差网络,得到下式。
X*=W(Vm)Res+xi (8)
其中参数W的维数为1024×1024,输出的特征X*={x1,...,xm},xm∈RD是使图像中主体区域显著的空间地图。
由于我们分别使用图像区域和单词作为上下文来推断图像文本的相似性(图像到文本匹配时,使用图像区域作为上下文来推理相似性;文本匹配图像时,使用单词作为上下文来推理相似性)。具体地,我们分为了2个模块:图像-文本和文本-图像。
对于图像-文本模块:
首先计算图像特征X*和文本Y中所有图像区域与单词对的相似矩阵,以此表示每个单词对第m个区域的权重。
Figure BDA0002357532000000041
然后,通过单词表示的加权组合提取第m个图像区域对应的文本级向量
Figure BDA0002357532000000042
产生
Figure BDA0002357532000000043
的过程可以通过以下方式给出:
Figure BDA0002357532000000044
Figure BDA0002357532000000045
其中λ1是softmax函数的倒数温度参数。
再将每个区域的文本级向量
Figure BDA0002357532000000046
作为上下文,计算第m个区域与对应的文本级向量
Figure BDA0002357532000000047
之间的相关性。
Figure BDA0002357532000000048
最后通过公式7计算图像X*与句子Y之间的相似性。
Figure BDA0002357532000000049
其中μ,λ是超参数。λ2是一个因素,决定放大多少图像区域特征与相应的文本级向量之间的相似性。
对于文本-图像模块:
首先和图像-文本模块一样使用公式(9)计算图像特征X*和文本Y中所有图像区域单词对的相似矩阵。
然后通过图像区域表示的加权组合计算第n个单词对应的图像级向量
Figure BDA00023575320000000410
,产生
Figure BDA00023575320000000411
的过程可以通过以下方式给出:
Figure BDA00023575320000000412
Figure BDA00023575320000000413
再将每个单词的图像级向量
Figure BDA0002357532000000051
作为上下文,计算第n个单词与对应的图像级向量
Figure BDA0002357532000000052
之间的相关性。
Figure BDA0002357532000000053
最后通过公式11计算图像X*与句子Y之间的相似性。
Figure BDA0002357532000000054
基于双视域语义推理网络包含一个区域增强模型、一个全局语义推理网络和一个局部语义推理网络。
最后,所述的基于双视域语义推理网络的训练方法如下:
该模型(DVSI)由Pytorch 1.0实现。对于每个图像,我们采用自底向上的注意力模型提取得分排名前36名的对象作为图像区域特征,把它们映射到维度1024的向量作为网络的输入。文本方面,每个词嵌入的大小是300维,我们把它投射到相同的1024维向量空间。对于DVSI的训练,分为图像匹配文本和文本匹配图像两部分。在图像到文字部分,我们使用Adam优化器来训练模型,在MSCOCO数据集上,训练20个批次,学习率设置为0.0005,λ1,λ2分别为4和5。在flickr30k数据集上,我们训练30个批次,学习率设置为0.0002,λ1,λ2分别为4和20。其他参数μ、γ、β和ε都设置为1,α为0.2,梯度裁剪阈值为2.0。在文本到图像的部分,α是0.15,,λ3,λ4分别为9和6,其他参数设置同上。
与现有的技术相比,本发明的有益效果是:
1.本发明提出了一种新的双视域语义推理网络(DVSI),该网络不仅可以挖掘图像中的中心意思来推断视觉语义关系,还可以探索局部的细粒度相似性,为推理图像与文本的对齐提供丰富的补充信息
2.本发明提出了一种区域增强模块,通过计算图像中每个区域与其他区域之间的相关性来增加相似区域的权重,从而生成一个强调图像区域的空间地图,为推断图像文本的相似性做铺垫。
附图说明
图1为基于双视域语义推理网络的结构示意图。
图2为全局语义推理匹配模型示意图。
图3为区域增强模块的模型示意图。
图4为基于局部语义推理网络的图像到文本匹配的结构示意图。
图5为基于局部语义推理网络的文本到图像匹配的结构示意图。
图6为基于双视域语义推理网络的图像文本匹配与堆叠注意力网络的图像文本匹配的结果对比图。
图7和图8为图像匹配文本和文本匹配图像的可视化结果图
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施例对本发明做进一步的阐述。
图1为基于双视域语义推理网络的结构示意图。如图1所示,整个图像-文本匹配的DVSI框架由局部语义匹配(下)和全局语义匹配(上)两部分组成。
图2为全局语义推理匹配模型示意图。如图2所示,输入的Featuremap表示1024为的图像区域特征,文本部分输入的是经过编码后的1024为的句子特征。基于图像区域特征X,我们使用双向GRU进行图像的全局推理,将区域特征的序列X={x1,…,xM},xm∈RD,一个接一个地进入Bi-GRUs。首先进行前向的推理,一个更新门Z控制上一时刻的状态信息被带入到当前状态中的程度。
Zt=sigmoid(Uzxt+VzCt-1) (1)
其中U和V为权值参数,Z值在[0,1]之间。特别是,较大的Z表示前一时刻的状态信息更多。
复位门类似于更新门,它控制将多少来自前一状态的信息写入当前候选集H,而较小的r表示前一时刻的状态信息更少。
rt=sigmoid(Uzxt+VzCt-1) (2)
然后利用复位门对内存信息进行复位,得到Eq16中的候选集合H。当r=0时,表示所有已记忆的信息被清除,当r=1时,表示所有已记忆的信息被保留。
Figure BDA0002357532000000061
最后,使用Z更新当前隐藏状态的输出,获得正向推理的特征。
Figure BDA0002357532000000062
同样,通过反向推理得到特征信息
Figure BDA0002357532000000063
最终的图像特征C表示如下:
Figure BDA0002357532000000071
然后用公式6计算图像和文本的相似度得分.
Figure BDA0002357532000000072
图3为区域增强模块的模型示意图。如图3所示,输入的Feature map表示1024为的图像区域特征,我们首先使用公式7来测量每个图像中所有区域间的相关性,将相关性作为一个权重表示其他位置与当前待计算位置的相似度,进而突出相关的区域。
Figure BDA0002357532000000073
其中F(xm)TG(xn)代表两个图像区域间的相关性,xm为第m个区域的图像特征,xn为第n个区域的图像特征。F(xm)=Wfx,G(xn)=Wgx,H(xn)=Whx,参数W均可以通过反向传播学习。然后按照因子N进行归一化,其中N代表图片中的区域数。
为了得到具有更强的语义关系图像区域特征X*,我们添加了残差网络,得到下式。
X*=W(Vm)Res+xi (8)
其中参数W的维数为1024×1024,输出的特征X*={x1,...,xm},xm∈RD是使图像中主体区域显著的空间地图,即Local-levelRepresentation。
图4为基于局部语义推理网络的图像到文本匹配的结构示意图。如图4所示,在图像匹配文本时,我们使用图像区域作为上下文来推断图像文本的相似性。首先计算图像特征X*和文本Y中所有图像区域与单词对的相似矩阵,以此表示每个单词对第m个区域的权重。
Figure BDA0002357532000000074
然后,通过单词表示的加权组合提取第m个图像区域对应的文本级向量
Figure BDA0002357532000000075
产生
Figure BDA0002357532000000076
的过程可以通过以下方式给出:
Figure BDA0002357532000000077
Figure BDA0002357532000000078
其中λ1是softmax函数的倒数温度参数。
再将每个区域的文本级向量
Figure BDA0002357532000000081
作为上下文,计算第m个区域与对应的文本级向量
Figure BDA0002357532000000082
之间的相关性。
Figure BDA0002357532000000083
最后通过公式7计算图像X*与句子Y之间的相似性。
Figure BDA0002357532000000084
其中μ,λ是超参数。λ2是一个因素,决定放大多少图像区域特征与相应的文本级向量之间的相似性。
图5为基于局部语义推理网络的文本到图像匹配的结构示意图。如图5所示,在文本匹配图像时,我们使用单词作为上下文来推断图像文本的相似性。首先和图像匹配文本模块一样使用公式(9)计算图像特征X*和文本Y中所有图像区域单词对的相似矩阵。然后通过图像区域表示的加权组合计算第n个单词对应的图像级向量
Figure BDA0002357532000000085
,产生
Figure BDA0002357532000000086
的过程可以通过以下方式给出:
Figure BDA0002357532000000087
Figure BDA0002357532000000088
再将每个单词的图像级向量
Figure BDA0002357532000000089
作为上下文,计算第n个单词与对应的图像级向量
Figure BDA00023575320000000810
之间的相关性。
Figure BDA00023575320000000811
最后通过公式11计算图像X*与句子Y之间的相似性。
Figure BDA00023575320000000812
图6为基于双视域语义推理网络的图像文本匹配与堆叠注意力网络的图像文本匹配的结果对比图。如图6所示,基于双视域语义推理网络的图像文本匹配结果比其他模型更加准确。
图7和图8为图像匹配文本和文本匹配图像的可视化结果图。如图7所示,给与一张图像,基于双视域语义推理网络模型可以匹配出相应的文本。如图8所示,给与文本,基于双视域语义推理网络模型可以匹配出相应的图片。
本发明提出了一种双视域语义推理的图像-文本匹配方法,该方法分为全局语义匹配和局部语义匹配两部分。全局语义匹配关注的是图像所表达的主题意义。局部语义匹配关注图像和文本的局部信息。最后,将两部分相似度融合到一起来进行图像文本匹配。通过训练提高了图像匹配文本和文本匹配图像的准确率,可以很好的找到相应的图像或文本。未来,我们将进一步研究双视图语义推理方法在多模态匹配(视频、声音、3D)和其他视觉语言任务中的有效性
最后,本发明的上述示例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.基于双视域语义推理网络的图像文匹配方法,其特征在于,所述方法包括以下步骤:
S1.从全局视域,构建全局语义推理匹配网络。
S2.构建区域增强模块,形成高亮显示图像区域的空间地图。
S3.结合S2中的增强特征,从局部视域构建局部语义推理匹配网络。
S4.结合S1中的网络和S3中的局部语义推理网络构建基于双视域语义推理网络架构。
S5.基于双视域语义推理网络的训练和图像文本匹配。
2.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S1的具体过程为:
基于图像区域特征X,我们使用双向GRU进行图像的全局推理,将区域特征的序列X={x1,…,xM},xm∈RD,一个接一个地进入Bi-GRUs。首先进行前向的推理,一个更新门Z控制上一时刻的状态信息被带入到当前状态中的程度。
Zt=sigmoid(Uzxt+VzCt-1) (1)
其中U和V为权值参数,Z值在[0,1]之间。特别是,较大的Z表示前一时刻的状态信息更多。
复位门类似于更新门,它控制将多少来自前一状态的信息写入当前候选集H,而较小的r表示前一时刻的状态信息更少。
rt=sigmoid(Uzxt+VzCt-1) (2)
然后利用复位门对内存信息进行复位,得到Eq16中的候选集合H。当r=0时,表示所有已记忆的信息被清除,当r=1时,表示所有已记忆的信息被保留。
Figure FDA0002357531990000011
最后,使用Z更新当前隐藏状态的输出,获得正向推理的特征。
Figure FDA0002357531990000012
同样,通过反向推理得到特征信息
Figure FDA0002357531990000013
最终的图像特征C表示如下:
Figure FDA0002357531990000014
然后用公式6计算图像和文本的相似度得分.
Figure FDA0002357531990000015
3.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S2的具体过程为:
首先使用公式7来测量每个图像中所有区域间的相关性,将相关性作为一个权重表示其他位置与当前待计算位置的相似度,进而突出相关的区域。
Figure FDA0002357531990000021
其中F(xm)TG(xn)代表两个图像区域间的相关性,xm为第m个区域的图像特征,xn为第n个区域的图像特征。F(xm)=Wfx,G(xn)=Wgx,H(xn)=Whx,参数W均可以通过反向传播学习。然后按照因子N进行归一化,其中N代表图片中的区域数。
为了得到具有更强的语义关系图像区域特征X*,我们添加了残差网络,得到下式。
X*=W(Vm)Res+xi (8)
其中参数W的维数为1024×1024,输出的特征X*={x1,...,xm},xm∈RD是使图像中主体区域显著的空间地图。
4.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S3的具体过程为:
由于我们分别使用图像区域和单词作为上下文来推断图像文本的相似性(图像到文本匹配时,使用图像区域作为上下文来推理相似性;文本匹配图像时,使用单词作为上下文来推理相似性)。具体地,我们分为了2个模块:图像-文本和文本-图像。
对于图像-文本模块:
首先计算图像特征X*和文本Y中所有图像区域与单词对的相似矩阵,以此表示每个单词对第m个区域的权重。
Figure FDA0002357531990000022
然后,通过单词表示的加权组合提取第m个图像区域对应的文本级向量
Figure FDA0002357531990000023
产生
Figure FDA0002357531990000024
的过程可以通过以下方式给出:
Figure FDA0002357531990000025
Figure FDA0002357531990000026
其中λ1是softmax函数的倒数温度参数。
再将每个区域的文本级向量
Figure FDA0002357531990000031
作为上下文,计算第m个区域与对应的文本级向量
Figure FDA0002357531990000032
之间的相关性。
Figure FDA0002357531990000033
最后通过公式7计算图像X*与句子Y之间的相似性。
Figure FDA0002357531990000034
其中μ,λ是超参数。λ2是一个因素,决定放大多少图像区域特征与相应的文本级向量之间的相似性。
对于文本-图像模块:
首先和图像-文本模块一样使用公式(9)计算图像特征X*和文本Y中所有图像区域单词对的相似矩阵。
然后通过图像区域表示的加权组合计算第n个单词对应的图像级向量
Figure FDA0002357531990000035
产生
Figure FDA0002357531990000036
的过程可以通过以下方式给出:
Figure FDA0002357531990000037
Figure FDA0002357531990000038
再将每个单词的图像级向量
Figure FDA0002357531990000039
作为上下文,计算第n个单词与对应的图像级向量
Figure FDA00023575319900000310
之间的相关性。
Figure FDA00023575319900000311
最后通过公式11计算图像X*与句子Y之间的相似性。
Figure FDA00023575319900000312
5.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S4的具体过程为:
所述的基于双视域语义推理网络包含一个区域增强模型、一个全局语义推理网络和一个局部语义推理网络。
6.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S5的具体过程为:
基于双视域语义推理网络的训练方法如下:
模型(DVSI)由Pytorch 1.0实现。对于每个图像,我们采用自底向上的注意力模型提取得分排名前36名的对象作为图像区域特征,把它们映射到维度1024的向量作为网络的输入。文本方面,每个词嵌入的大小是300维,我们把它投射到相同的1024维向量空间。对于DVSI的训练,分为图像匹配文本和文本匹配图像两部分。在图像到文字部分,我们使用Adam优化器来训练模型,在MSCOCO数据集上,训练20个批次,学习率设置为0.0005,λ1,λ2分别为4和5。在flickr30k数据集上,我们训练30个批次,学习率设置为0.0002,λ1,λ2分别为4和20。其他参数μ、γ、β和ε都设置为1,α为0.2,梯度裁剪阈值为2.0。在文本到图像的部分,α是0.15,,λ3,λ4分别为9和6,其他参数设置同上。
CN202010012176.4A 2020-01-07 2020-01-07 基于双视域语义推理网络的图像文匹配方法 Active CN111242197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010012176.4A CN111242197B (zh) 2020-01-07 2020-01-07 基于双视域语义推理网络的图像文匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010012176.4A CN111242197B (zh) 2020-01-07 2020-01-07 基于双视域语义推理网络的图像文匹配方法

Publications (2)

Publication Number Publication Date
CN111242197A true CN111242197A (zh) 2020-06-05
CN111242197B CN111242197B (zh) 2023-11-07

Family

ID=70874266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010012176.4A Active CN111242197B (zh) 2020-01-07 2020-01-07 基于双视域语义推理网络的图像文匹配方法

Country Status (1)

Country Link
CN (1) CN111242197B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860193A (zh) * 2020-06-24 2020-10-30 贵州大学 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN112084358A (zh) * 2020-09-04 2020-12-15 中国石油大学(华东) 基于带有主题约束的区域强化网络的图像-文本匹配方法
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112861882A (zh) * 2021-03-10 2021-05-28 齐鲁工业大学 一种基于频率自适应的图像-文本匹配方法及系统
CN113221882A (zh) * 2021-05-11 2021-08-06 西安交通大学 一种面向课程领域的图像文本聚合方法及系统
CN113705158A (zh) * 2021-09-26 2021-11-26 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法
CN114782722A (zh) * 2022-04-29 2022-07-22 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN113705158B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361336A (zh) * 2014-11-26 2015-02-18 河海大学 一种水下视频图像的文字识别方法
US20170061250A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361336A (zh) * 2014-11-26 2015-02-18 河海大学 一种水下视频图像的文字识别方法
US20170061250A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860193A (zh) * 2020-06-24 2020-10-30 贵州大学 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN111860193B (zh) * 2020-06-24 2022-08-05 贵州大学 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN112084358A (zh) * 2020-09-04 2020-12-15 中国石油大学(华东) 基于带有主题约束的区域强化网络的图像-文本匹配方法
CN112084358B (zh) * 2020-09-04 2023-10-27 中国石油大学(华东) 基于带有主题约束的区域强化网络的图像-文本匹配方法
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112861882A (zh) * 2021-03-10 2021-05-28 齐鲁工业大学 一种基于频率自适应的图像-文本匹配方法及系统
CN112861882B (zh) * 2021-03-10 2023-05-09 齐鲁工业大学 一种基于频率自适应的图像-文本匹配方法及系统
CN113221882A (zh) * 2021-05-11 2021-08-06 西安交通大学 一种面向课程领域的图像文本聚合方法及系统
CN113705158A (zh) * 2021-09-26 2021-11-26 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法
CN113705158B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法
CN114782722A (zh) * 2022-04-29 2022-07-22 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN111242197B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN111242197A (zh) 基于双视域语义推理网络的图像文匹配方法
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
Yang et al. Learning transferred weights from co-occurrence data for heterogeneous transfer learning
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
Li et al. Multimodal architecture for video captioning with memory networks and an attention mechanism
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112597302B (zh) 基于多维评论表示的虚假评论检测方法
CN115017358B (zh) 一种多模态交互的跨模态检索方法及系统
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN113221882B (zh) 一种面向课程领域的图像文本聚合方法及系统
CN112084358B (zh) 基于带有主题约束的区域强化网络的图像-文本匹配方法
Li et al. Multi-modal gated recurrent units for image description
CN114818691A (zh) 文章内容的评价方法、装置、设备及介质
Shen et al. Local self-attention in transformer for visual question answering
Liu et al. Fact-based visual question answering via dual-process system
CN112231491A (zh) 基于知识结构的相似试题识别方法
CN116484042A (zh) 一种结合自相关与交互引导式注意力机制的视觉问答方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN115599954B (zh) 一种基于场景图推理的视频问答方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant