CN111026894B - 基于可信度自适应匹配网络的跨模态图像文本检索方法 - Google Patents

基于可信度自适应匹配网络的跨模态图像文本检索方法 Download PDF

Info

Publication number
CN111026894B
CN111026894B CN201911272473.6A CN201911272473A CN111026894B CN 111026894 B CN111026894 B CN 111026894B CN 201911272473 A CN201911272473 A CN 201911272473A CN 111026894 B CN111026894 B CN 111026894B
Authority
CN
China
Prior art keywords
image
text
feature
matching network
adaptive matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911272473.6A
Other languages
English (en)
Other versions
CN111026894A (zh
Inventor
丁贵广
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911272473.6A priority Critical patent/CN111026894B/zh
Publication of CN111026894A publication Critical patent/CN111026894A/zh
Application granted granted Critical
Publication of CN111026894B publication Critical patent/CN111026894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于可信度自适应匹配网络的跨模态图像文本检索方法,属于计算机多媒体领域,包括以下步骤:S1:给定图像‑文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,S2:构建可信度自适应匹配网络模型,S3:模型在训练集上充分训练,S4:检索性能测试。该基于可信度自适应匹配网络的跨模态图像文本检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题,获得了性能上的提升,在Flickr30k上,图像检索文本任务上最大可以提升1.7%(Recall@5),文本检索图像任务上最大可以提升7.7%(Recall@5),在MSCOCO上,图像检索文本可以最大提升1.3%,而在文本检索图像上可以提升2.8%。

Description

基于可信度自适应匹配网络的跨模态图像文本检索方法
技术领域
本发明涉及计算机多媒体领域,具体为基于可信度自适应匹配网络的跨模态图像文本检索方法。
背景技术
随着互联网和多媒体技术的快速发展,跨媒体数据以前所未有的速度增长,给人类行为研究带来了巨大的挑战和要求。跨模态图像-文本检索旨在挖掘图像和文本之间的潜在语义关联关系,有助于大规模跨模态数据的关联分析。但是由于图像和文本数据之间天然存在的异构鸿沟,使得跨模态信息检索变得极具挑战。
为了解决模态差异带来的异构鸿沟,目前的跨模态图像-文本检索技术通常采用信息嵌入技术来解决。具体来说,图像和文本首先各自表示为隐藏空间的向量特征,然后通过嵌入技术在一个共享的潜在语义空间中进行语义信息对齐,使得相似的图像和文本互相靠近,而不相似的图像文本互相分离。
为了将图像特征和文本在共享空间实现对齐匹配,目前的工作可以分为两种方法:一对一粗粒度匹配和多对多细粒度匹配。一对一匹配的核心思想是图像和文本可以看成是语义空间中的点,距离相近的点表示关联的图像和文本语义相似,而距离较远的点表示不相似。所以这种方式通常学习两个独立的向量来表示图像信息和文本信息,然后通过线性变换或者非线性变换使得两者在共享空间中进行匹配。但是这种方式忽略了语义特征表达的复杂性,一维向量不足以充分表示图像和文本的语义信息量,属于粗粒度匹配方法。另外一种方式是多对多细粒度匹配,它的原理是图像和文本是一种高层语义表达的载体,可以看成是许多底层语义的复杂组会,比如一段文本是由不同的词汇构成,每个词有不同的意思,单独的一个词可能意思不清楚,但是组合起来就能形成语义清楚的一句话;又比如图像是由不同的对象区域组成(对象区域指出现了有语义表达意义的实体的像素块)。基于这一原理,跨模态检索技术从细粒度特征匹配出发,实现了通过词和图像区域之间的关联匹配来实现图像和文本的特征匹配。
尽管目前的细粒度匹配方法取得了令人兴奋的进展,但是目前基于注意力模型的细粒度匹配模型只能将匹配的语义线索关联在一起。也就说是,目前的细粒度匹配模型是基于图像和文本中能够匹配的信息进行匹配的,而没有考虑到那些不能或者部分匹配的信息,而这种忽视造成了相似度估计的一种偏差。比如说明书附图图4所展示的例子,文本1和文本2都包含了图像的全部信息,即一个男人抱着一个婴儿,但是文本2还包含了图像不具备的语义“吃”,而这个信息在目前的匹配模型中并没有考虑到。
综合来看,目前的匹配模型还是在尽力挖掘可匹配信息来估计两者的相似度,对于那些无法匹配的信息,模型并没有加以重视,而这种不匹配信息对于相似度的估计是必不可少的,仍然需要进一步的研究。
为此,提出基于可信度自适应匹配网络的跨模态图像文本检索方法。
发明内容
本发明的目的在于提供基于可信度自适应匹配网络的跨模态图像文本检索方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于可信度自适应匹配网络的跨模态图像文本检索方法,包括以下步骤:
S1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:
图像特征表示:采用基于深度学习的对象检测模型Faster R-CNN来抽取图像信息;具体来说,将给定图像I输入到Faster R-CNN中,Faster R-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V={vi∈Rd|i∈[1,36]}表示,其中每个vi都是一个1024维度的向量;为了便于下文描述,称V为图像的局部特征集,通过平均池化操作得到图像的全局特征,即
Figure GDA0003241312910000031
文本特征表示:采用双向门控循环单元(Bi-GRU)来抽取每个词的特征;给定含有m个词的文本,Bi-GRU可以从两个方向(前向和后向)得到每个词的特征,用
Figure GDA0003241312910000032
Figure GDA0003241312910000033
分别表示第j个词的前向特征和后向特征;然后将这两种特征平均得到最终的每个词的特征,用tj来表示,则有
Figure GDA0003241312910000034
用大写T={tj|j∈[1,m],tj∈Rd}表示词特征集合,其中每个tj特征维度是1024;进一步地,将第一个词的后向特征和最后一个词的前向特征平均得到文本特征,即
Figure GDA0003241312910000035
S2:构建可信度自适应匹配网络模型,具体为以下内容:
本发明提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系,然后使用一种模态的全局信息去监督另外一种模态的局部信息,使得在做相似度估计的时候不遗漏不匹配的关键语义信息;不同于别的方法只用注意力模型来捕捉局部的细粒度关系,本发明的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价,使得最终的相似度估计能够考虑不配对的语义信息;此外,本发明的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上;这里,具体阐述两种:基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络;
基于图像空间的可信度自适应匹配网络(如图2所示):首先使用注意力模型得到局部关系;具体来说,从S1的跨模态特征表示方法中,得到了图像的区域特征集合V={vi∈Rd|i∈[1,n]}以及文本的词特征集合{tj|j∈[1,m],tj∈Rd},利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为
Figure GDA0003241312910000041
可以给每个vi计算得到文本上下文信息,
Figure GDA0003241312910000042
其中
Figure GDA0003241312910000043
接着,为每个vi定义一个相关性得分,
Figure GDA0003241312910000044
使用文本的全局特征
Figure GDA0003241312910000045
来衡量每个vi的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;vi的可信度可以定义为
Figure GDA0003241312910000046
其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
Figure GDA0003241312910000047
基于文本空间的可信度自适应匹配网络(如图3所示);首先利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为
Figure GDA0003241312910000048
可以给每个tj计算得到图像上下文信息,
Figure GDA0003241312910000049
其中
Figure GDA00032413129100000410
接着,为每个tj定义一个相关性得分,
Figure GDA00032413129100000411
使用图像的全局特征
Figure GDA00032413129100000412
来衡量每个tj的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;tj的可信度可以定义为
Figure GDA0003241312910000051
其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
Figure GDA0003241312910000052
S3:模型在训练集上充分训练,具体为以下内容:
初始化可信度自适应匹配网络所有可学参数,每次从训练集中随机采样一个128个图像文本对(实际操作时拿到的数据是图像的特征和经过id化后的文本组成的一对数据),组成一个batch数据,输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵,矩阵的每个元素表示图像和文本的相似度得分;然后使用基于最难负例的三元组损失函数(triplet loss)训练模型,损失函数中Δ是一个可调参数,默认设置为0.2;网络使用Adam作为优化器进行训练,Flickr30k上学习率设置为2e-4,训练15轮后衰减为2e-5,总共训练30轮;COCO上学习率设置为5e-4,训练10轮后衰减为5e-5,总共训练20轮;
S4:检索性能测试,具体为以下内容:
对于图像检索文本任务,首先构建一个文本库,然后给定一张图片作为测试样例,利用训练好的可信度自适应匹配网络从文本库中检索出相似度最高的10个文本,计算对应的召回率指标;为了测试的便利,保证每张图片在文本库中都有对应的匹配的文本;对于文本检索图像任务,构建图像库,给定一个文本,利用训练好的可信度自适应匹配网络从图像库中检索出相似度最高的10个图像,计算对应的召回率指标;同样,保证每个文本在图像库中都有对应的匹配图像。
优选的,在S3中,训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数,使得在共享的潜在语义空间中,相似的图像和文本距离小,而不相似的图像和文本距离大;给定配对图像I和文本S,首先在采样得到的batch中找到其各自的最难负例Ih和Sh,满足:
Figure GDA0003241312910000061
Figure GDA0003241312910000062
其中I′表示在采样得到的batch中的图片,S′表示在采样得到的batch中的文本,然后计算损失函数为:L(I,S)=max(0,Δ-F(I,S)+F(I,Sh))+max(0,Δ-F(I,S)+F(Ih,S)),Δ控制正例的相似度比最难负例大的程度。
优选的,在S2中,基于不同的局部关系建模模型,对每一种局部关系进行可信度度量,并把度量结果加入到最终的相似度估计过程中,降低了估计偏差。
优选的,在S2中,基于图像空间的可信度自适应匹配网络首先通过计算机每个图像区域和每个词的关系,并通过注意力模型得到每个图像区域对应的文本上下文特征,接着计算每个图像区域特征和对应的文本上下文特征的相关性得分,此外,通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。
优选的,在S2中,基于文本空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系,并通过注意力模型得到每个词对应的图像上下文特征,接着计算每个词特征和对应的图像上下文特征的相关性得分,此外,通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。
优选的,基于图像空间的可信度自适应匹配网络与基于文本空间的可信度自适应匹配网络单独训练,测试时可以单独使用,也可以使用组合使用。
与现有技术相比,本发明的有益效果是:
本发明提出的基于可信度自适应匹配网络的跨模态检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题。在目前常用的两个跨模态图像-文本检索数据集,Flickr30k和MS COCO获得了性能上的提升。采用召回率Recall@K来衡量检索模型的性能,在Flickr30k上,图像检索文本任务上最大可以提升1.7%(Recall@5),文本检索图像任务上最大可以提升7.7%(Recall@5),在MSCOCO上。图像检索文本可以最大提升1.3%,而在文本检索图像上可以提升2.8%。
附图说明
图1为本发明的整体流程图;
图2为本发明的基于图像空间的可信度自适应匹配网络图;
图3为本发明的基于文本空间的可信度自适应匹配网络图
图4为本发明的不匹配信息对相似度计算所造成的的偏差图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:基于可信度自适应匹配网络的跨模态图像文本检索方法,包括以下步骤:
S1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:
图像特征表示:采用基于深度学习的对象检测模型Faster R-CNN来抽取图像信息;具体来说,将给定图像I输入到Faster R-CNN中,Faster R-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V={vi∈Rd|i∈[1,36]}表示,其中每个vi都是一个1024维度的向量;为了便于下文描述,称V为图像的局部特征集,通过平均池化操作得到图像的全局特征,即
Figure GDA0003241312910000081
文本特征表示:采用双向门控循环单元(Bi-GRU)来抽取每个词的特征;给定含有m个词的文本,Bi-GRU可以从两个方向(前向和后向)得到每个词的特征,用
Figure GDA0003241312910000082
Figure GDA0003241312910000083
分别表示第j个词的前向特征和后向特征;然后将这两种特征平均得到最终的每个词的特征,用tj来表示,则有
Figure GDA0003241312910000084
用大写T={tj|j∈[1,m],tj∈Rd}表示词特征集合,其中每个tj特征维度是1024;进一步地,将第一个词的后向特征和最后一个词的前向特征平均得到文本特征,即
Figure GDA0003241312910000085
S2:构建可信度自适应匹配网络模型,具体为以下内容:
本发明提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系,然后使用一种模态的全局信息去监督另外一种模态的局部信息,使得在做相似度估计的时候不遗漏不匹配的关键语义信息;不同于别的方法只用注意力模型来捕捉局部的细粒度关系,本发明的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价,使得最终的相似度估计能够考虑不配对的语义信息;此外,本发明的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上;这里,具体阐述两种:基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络,这两种网络单独训练,测试时可以单独使用,也可以使用组合使用;
基于图像空间的可信度自适应匹配网络(框架图见附图二):首先使用注意力模型得到局部关系;具体来说,从S1的跨模态特征表示方法中,得到了图像的区域特征集合V={vi∈Rd|i∈[1,n]}以及文本的词特征集合{tj|j∈[1,m],tj∈Rd},利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为
Figure GDA0003241312910000091
可以给每个vi计算得到文本上下文信息,
Figure GDA0003241312910000092
其中
Figure GDA0003241312910000093
接着,为每个vi定义一个相关性得分,
Figure GDA0003241312910000094
使用文本的全局特征
Figure GDA0003241312910000095
来衡量每个vi的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;vi的可信度可以定义为
Figure GDA0003241312910000096
其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
Figure GDA0003241312910000097
基于文本空间的可信度自适应匹配网络(框架图见附图三);首先利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为
Figure GDA0003241312910000098
可以给每个tj计算得到图像上下文信息,
Figure GDA0003241312910000099
其中
Figure GDA00032413129100000910
接着,为每个tj定义一个相关性得分,
Figure GDA00032413129100000911
使用图像的全局特征
Figure GDA00032413129100000912
来衡量每个tj的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;tj的可信度可以定义为
Figure GDA0003241312910000101
其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
Figure GDA0003241312910000102
基于不同的局部关系建模模型,对每一种局部关系进行可信度度量,并把度量结果加入到最终的相似度估计过程中,降低了估计偏差;
基于图像空间的可信度自适应匹配网络首先通过计算机每个图像区域和每个词的关系,并通过注意力模型得到每个图像区域对应的文本上下文特征,接着计算每个图像区域特征和对应的文本上下文特征的相关性得分,此外,通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计;基于文本空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系,并通过注意力模型得到每个词对应的图像上下文特征,接着计算每个词特征和对应的图像上下文特征的相关性得分,此外,通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计;
S3:模型在训练集上充分训练,具体为以下内容:
初始化可信度自适应匹配网络所有可学参数,每次从训练集中随机采样一个128个图像文本对(实际操作时拿到的数据是图像的特征和经过id化后的文本组成的一对数据),组成一个batch数据,输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵,矩阵的每个元素表示图像和文本的相似度得分;然后使用基于最难负例的三元组损失函数(triplet loss)训练模型,损失函数中Δ是一个可调参数,默认设置为0.2;网络使用Adam作为优化器进行训练,Flickr30k上学习率设置为2e-4,训练15轮后衰减为2e-5,总共训练30轮;COCO上学习率设置为5e-4,训练10轮后衰减为5e-5,总共训练20轮;
训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数,使得在共享的潜在语义空间中,相似的图像和文本距离小,而不相似的图像和文本距离大;给定配对图像I和文本S,首先在采样得到的batch中找到其各自的最难负例Ih和Sh,满足:
Figure GDA0003241312910000111
Figure GDA0003241312910000112
其中I′表示在采样得到的batch中的图片,S′表示在采样得到的batch中的文本,然后计算损失函数为:L(I,S)=max(0,Δ-F(I,S)+F(I,Sh))+max(0,Δ-F(I,S)+F(Ih,S)),Δ控制正例的相似度比最难负例大的程度;
S4:检索性能测试,具体为以下内容:
对于图像检索文本任务,首先构建一个文本库,然后给定一张图片作为测试样例,利用训练好的可信度自适应匹配网络从文本库中检索出相似度最高的10个文本,计算对应的召回率指标;为了测试的便利,保证每张图片在文本库中都有对应的匹配的文本;对于文本检索图像任务,构建图像库,给定一个文本,利用训练好的可信度自适应匹配网络从图像库中检索出相似度最高的10个图像,计算对应的召回率指标;同样,保证每个文本在图像库中都有对应的匹配图像。
本发明提出的基于可信度自适应匹配网络的跨模态检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题。在目前常用的两个跨模态图像-文本检索数据集,Flickr30k和MS COCO获得了性能上的提升。采用召回率Recall@K来衡量检索模型的性能,在Flickr30k上,图像检索文本任务上最大可以提升1.7%(Recall@5),文本检索图像任务上最大可以提升7.7%(Recall@5),在MSCOCO上。图像检索文本可以最大提升1.3%,而在文本检索图像上可以提升2.8%。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定,本发明不受上述实施例的限制,在不脱离本发明精神和范围的前提下会有各种改进和变化,因此,这意味着在所附权利要求中包括属于本发明范围内的所有变化和修改。

Claims (6)

1.基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于,包括以下步骤:
S1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:
图像特征表示:采用基于深度学习的对象检测模型Faster R-CNN来抽取图像信息;具体来说,将给定图像I输入到Faster R-CNN中,Faster R-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V={vi∈Rd|i∈[1,36]}表示,其中每个vi都是一个1024维度的向量;为了便于下文描述,称V为图像的局部特征集,通过平均池化操作得到图像的全局特征,即
Figure FDA0003241312900000011
文本特征表示:采用双向门控循环单元来抽取每个词的特征;给定含有m个词的文本,Bi-GRU可以从两个方向得到每个词的特征,用
Figure FDA0003241312900000012
Figure FDA0003241312900000013
分别表示第j个词的前向特征和后向特征;然后将这两种特征平均得到最终的每个词的特征,用tj来表示,则有
Figure FDA0003241312900000014
用大写T={tj|j∈[1,m],tj∈Rd}表示词特征集合,其中每个tj特征维度是1024;进一步地,将第一个词的后向特征和最后一个词的前向特征平均得到文本特征,即
Figure FDA0003241312900000015
S2:构建可信度自适应匹配网络模型,具体为以下内容:
提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系,然后使用一种模态的全局信息去监督另外一种模态的局部信息,使得在做相似度估计的时候不遗漏不匹配的关键语义信息;不同于别的方法只用注意力模型来捕捉局部的细粒度关系,该方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价,使得最终的相似度估计能够考虑不配对的语义信息;此外,基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上;这里,具体阐述两种:基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络;
基于图像空间的可信度自适应匹配网络:首先使用注意力模型得到局部关系;具体来说,从S1的跨模态特征表示方法中,得到了图像的区域特征集合V={vi∈Rd|i∈[1,n]}以及文本的词特征集合{tj|j∈[1,m],tj∈Rd},利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为
Figure FDA0003241312900000021
可以给每个vi计算得到文本上下文信息,
Figure FDA0003241312900000022
其中
Figure FDA0003241312900000023
接着,为每个vi定义一个相关性得分,
Figure FDA0003241312900000024
使用文本的全局特征
Figure FDA0003241312900000025
来衡量每个vi的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;vi的可信度可以定义为
Figure FDA0003241312900000026
其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
Figure FDA0003241312900000027
基于文本空间的可信度自适应匹配网络;首先利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为
Figure FDA0003241312900000028
可以给每个tj计算得到图像上下文信息,
Figure FDA0003241312900000029
其中
Figure FDA00032413129000000210
接着,为每个tj定义一个相关性得分,
Figure FDA0003241312900000031
使用图像的全局特征
Figure FDA0003241312900000032
来衡量每个tj的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;tj的可信度可以定义为
Figure FDA0003241312900000033
其中sigmoid是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
Figure FDA0003241312900000034
S3:模型在训练集上充分训练,具体为以下内容:
初始化可信度自适应匹配网络所有可学参数,每次从训练集中随机采样一个128个图像文本对,组成一个batch数据,输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵,矩阵的每个元素表示图像和文本的相似度得分;然后使用基于最难负例的三元组损失函数训练模型,损失函数中Δ是一个可调参数,默认设置为0.2;网络使用Adam作为优化器进行训练,Flickr30k上学习率设置为2e-4,训练15轮后衰减为2e-5,总共训练30轮;COCO上学习率设置为5e-4,训练10轮后衰减为5e-5,总共训练20轮;
S4:检索性能测试,具体为以下内容:
对于图像检索文本任务,首先构建一个文本库,然后给定一张图片作为测试样例,利用训练好的可信度自适应匹配网络从文本库中检索出相似度最高的10个文本,计算对应的召回率指标;为了测试的便利,保证每张图片在文本库中都有对应的匹配的文本;对于文本检索图像任务,构建图像库,给定一个文本,利用训练好的可信度自适应匹配网络从图像库中检索出相似度最高的10个图像,计算对应的召回率指标;同样,保证每个文本在图像库中都有对应的匹配图像。
2.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S3中,训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数,使得在共享的潜在语义空间中,相似的图像和文本距离小,而不相似的图像和文本距离大;给定配对图像I和文本S,首先在采样得到的batch中找到其各自的最难负例Ih和Sh,满足:
Figure FDA0003241312900000041
Figure FDA0003241312900000042
其中I’表示在采样得到的batch中的图片,S’表示在采样得到的batch中的文本,然后计算损失函数为:L(I,S)=max(0,Δ-F(I,S)+F(I,Sh))+max(0,Δ-F(I,S)+F(Ih,S)),Δ控制正例的相似度比最难负例大的程度。
3.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S2中,基于不同的局部关系建模模型,对每一种局部关系进行可信度度量,并把度量结果加入到最终的相似度估计过程中,降低了估计偏差。
4.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S2中,基于图像空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系,并通过注意力模型得到每个图像区域对应的文本上下文特征,接着计算每个图像区域特征和对应的文本上下文特征的相关性得分,此外,通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。
5.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S2中,基于文本空间的可信度自适应匹配网络首先通过计算每个图像区域和每个词的关系,并通过注意力模型得到每个词对应的图像上下文特征,接着计算每个词特征和对应的图像上下文特征的相关性得分,此外,通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。
6.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:基于图像空间的可信度自适应匹配网络与基于文本空间的可信度自适应匹配网络单独训练,测试时可以单独使用或组合使用。
CN201911272473.6A 2019-12-12 2019-12-12 基于可信度自适应匹配网络的跨模态图像文本检索方法 Active CN111026894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272473.6A CN111026894B (zh) 2019-12-12 2019-12-12 基于可信度自适应匹配网络的跨模态图像文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272473.6A CN111026894B (zh) 2019-12-12 2019-12-12 基于可信度自适应匹配网络的跨模态图像文本检索方法

Publications (2)

Publication Number Publication Date
CN111026894A CN111026894A (zh) 2020-04-17
CN111026894B true CN111026894B (zh) 2021-11-26

Family

ID=70206187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272473.6A Active CN111026894B (zh) 2019-12-12 2019-12-12 基于可信度自适应匹配网络的跨模态图像文本检索方法

Country Status (1)

Country Link
CN (1) CN111026894B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914113A (zh) * 2020-08-07 2020-11-10 大连理工大学 一种图像检索的方法以及相关装置
CN114117104B (zh) * 2020-08-28 2023-06-16 四川大学 一种基于多关系感知推理的图像文本匹配方法
CN112528062B (zh) * 2020-12-03 2024-03-22 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及系统
CN112966135B (zh) * 2021-02-05 2022-03-29 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统
CN112990296B (zh) * 2021-03-10 2022-10-11 中科人工智能创新技术研究院(青岛)有限公司 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN112861882B (zh) * 2021-03-10 2023-05-09 齐鲁工业大学 一种基于频率自适应的图像-文本匹配方法及系统
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN112925935B (zh) * 2021-04-13 2022-05-06 电子科技大学 基于模态内及模态间混合融合的图像菜谱检索方法
CN113157739B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113221882B (zh) * 2021-05-11 2022-12-09 西安交通大学 一种面向课程领域的图像文本聚合方法及系统
CN113220919B (zh) * 2021-05-17 2022-04-22 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113204666B (zh) * 2021-05-26 2022-04-05 杭州联汇科技股份有限公司 一种基于文字查找匹配图片的方法
CN113111154B (zh) * 2021-06-11 2021-10-29 北京世纪好未来教育科技有限公司 相似度评估方法、答案搜索方法、装置、设备及介质
CN113239237B (zh) * 2021-07-13 2021-11-30 北京邮电大学 跨媒体大数据搜索方法及装置
CN113792207B (zh) * 2021-09-29 2023-11-17 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN113742556B (zh) * 2021-11-03 2022-02-08 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法
CN115033727B (zh) * 2022-05-10 2023-06-20 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN116383342B (zh) * 2023-04-07 2023-11-14 四川大学 一种在噪声标签下鲁棒的跨域文本检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109816039A (zh) * 2019-01-31 2019-05-28 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881515B2 (en) * 2011-04-20 2018-01-30 Sylvain Jean-Pierre Daniel Moreno Cognitive training system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN109816039A (zh) * 2019-01-31 2019-05-28 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质

Also Published As

Publication number Publication date
CN111026894A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111026894B (zh) 基于可信度自适应匹配网络的跨模态图像文本检索方法
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
Liu et al. Image annotation via graph learning
Wu et al. Learning to tag
US7962500B2 (en) Digital image retrieval by aggregating search results based on visual annotations
CN104537252B (zh) 用户状态单分类模型训练方法和装置
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
CN110232127B (zh) 文本分类方法及装置
US20180285176A1 (en) Methods and systems for selecting potentially erroneously ranked documents by a machine learning algorithm
US20120158716A1 (en) Image object retrieval based on aggregation of visual annotations
CN112559684A (zh) 一种关键词提取及信息检索方法
Berendsen et al. Pseudo test collections for training and tuning microblog rankers
US20100121844A1 (en) Image relevance by identifying experts
CN107145519B (zh) 一种基于超图的图像检索与标注方法
CN115878841B (zh) 一种基于改进秃鹰搜索算法的短视频推荐方法及系统
CN113360646A (zh) 基于动态权重的文本生成方法、设备及存储介质
CN112307336B (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN110826315B (zh) 使用神经网络系统识别短文本时效性的方法
WO2023057988A1 (en) Generation and use of content briefs for network content authoring
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Xiong et al. TDCTFIC: a novel recommendation framework fusing temporal dynamics, CNN-based text features and item correlation
CN113657116B (zh) 基于视觉语义关系的社交媒体流行度预测方法及装置
Zhang et al. Personalized book recommender system based on Chinese library classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200417

Assignee: CSIC PRIDE(Nanjing)Intelligent Equipment System Co.,Ltd

Assignor: TSINGHUA University

Contract record no.: X2023320000119

Denomination of invention: Cross modal image text retrieval method based on credibility adaptive matching network

Granted publication date: 20211126

License type: Common License

Record date: 20230323