CN115712740B - 多模态蕴含增强图像文本检索的方法和系统 - Google Patents

多模态蕴含增强图像文本检索的方法和系统 Download PDF

Info

Publication number
CN115712740B
CN115712740B CN202310031393.1A CN202310031393A CN115712740B CN 115712740 B CN115712740 B CN 115712740B CN 202310031393 A CN202310031393 A CN 202310031393A CN 115712740 B CN115712740 B CN 115712740B
Authority
CN
China
Prior art keywords
text
image
model
implication
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310031393.1A
Other languages
English (en)
Other versions
CN115712740A (zh
Inventor
曹自强
闫旭
艾春辉
曹敏
付国宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202310031393.1A priority Critical patent/CN115712740B/zh
Publication of CN115712740A publication Critical patent/CN115712740A/zh
Application granted granted Critical
Publication of CN115712740B publication Critical patent/CN115712740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。

Description

多模态蕴含增强图像文本检索的方法和系统
技术领域
本发明涉及图像处理技术领域,尤其是指一种多模态蕴含增强图像文本检索的方法和系统。
背景技术
近年来,随着互联网的快速发展,每时每刻都有不计其数的图像和文本数据产生,跨模态的图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。图像文本检索是指给定一种模态下的查询样本来检索数据库中另一种模态下与之具有高语义相似度的样本。该任务主要分为“以文搜图”和“以图搜文”两种形式,具体来说,将一个文本作为查询样本来检索其相应图像称为文本到图像的检索,反之亦然。目前的主要方法致力于使用大规模的已标注图像文本检索数据集,利用对比学习等手段,将已标注的图像文本对视为正例,强化它们之间的语义相似度,反之削弱不存在标注的图像文本对之间的相似度。然而,受限于标注成本,现有的图像文本检索数据集通常假设一个图像或文本只与它已标注的样本存在关系,忽视了海量的未标注图像文本对之间的关系,而事实上它们中的大多数都存在相似甚至很强的语义关联。上述问题一方面会导致模型会将具有高语义相似度的图像文本对错误地视为负例,误导了图像文本的表征学习过程,损害最终的图像文本检索效果;另一方面,会导致数据集的开发程度低下,无法充分开发其价值。
目前常见的图像文本检索技术为:通过计算不同模态样本之间的语义相似度,得到相似度最高的前几个样本并返回。因此当前主流的做法是对图像文本表征进行融合,从而减少不同模态之间的表征差异,进一步在融合表征的基础上计算跨模态相似度,实现图像文本跨模态检索。按照特征融合的阶段主要可以归纳为早期融合策略和晚期融合策略:
早期融合策略使用简单的拼接操作将图像和文本的嵌入特征合并在一起,通过一个统一的网络学习框架对融合向量进行表征学习,从而使网络可以对跨模态融合表征进行自适应的学习,促进模型通过不同模态之间的信息进行检索的能力。
传统的晚期融合策略对图像和文本特征分别设计独立的图像编码器和文本编码器,原始的视觉和文本特征通过注意力机制、图卷积或递归模型等增强单一模态的特征表示和高层语义挖掘,最后通过晚期融合对编码后的视觉和文本特征进行结合,计算图像和文本的相似度。
针对图像文本检索数据集标注不全面的问题,除了已有的利用无标签数据进行半监督或自监督训练的深度学习方法,目前的研究还集中于通过穷举或筛选相似度较高的图像文本对进行全面标注,但是这些现有技术也存在一些缺陷:
1. 现有的解决图像文本检索数据集中关系缺失的手段依赖于通过人工构建带有全面的、细粒度关系的图像文本检索数据集,不仅会消耗大量的人力成本,还无法对海量的新增数据进行扩展,不具有可行性。
2. 图像文本检索模型通常利用对比损失进行表征学习,会不加甄别的将未标注的图像文本对作为负例,导致具有高语义相似度的图像文本对被错误地视为负例,误导了图像文本的表征学习过程,进而损害最终的图像文本检索效果。
3. 视觉蕴涵是指给定一幅图像和一篇文本,判断该图像在语义上是否包含输入文本。传统的视觉蕴含任务通常只利用图像信息作为前提,判断一句话的描述是否与前提相符。然而在图像文本检索数据集中,一张图像还包含若干已标注的文本,这些文本可以辅助蕴含关系的判断。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种多模态蕴含增强图像文本检索的方法和系统,可以降低人工标注成本、易于扩展、有效提高检索性能。
为解决上述技术问题,本发明提供了一种多模态蕴含增强图像文本检索的方法,包括:
获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,将所述存在蕴含关系的图像文本对作为弱正例;
将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;
将测试集输入训练完成的图像文本检索模型得到检索结果。
在本发明的一个实施例中,所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,具体为:
所述多模态蕴含模型包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机,
将图像文本检索数据集输入所述图像-文本蕴含模型得到特征向量
Figure 795666DEST_PATH_IMAGE001
,将图像 文本检索数据集输入所述文本-文本蕴含模型得到特征向量
Figure 183922DEST_PATH_IMAGE002
将所述
Figure 409367DEST_PATH_IMAGE001
Figure 592086DEST_PATH_IMAGE002
输入所述门控单元得到多模态表征向量
Figure 168561DEST_PATH_IMAGE003
将所述多模态表征向量
Figure 94929DEST_PATH_IMAGE003
输入所述二分类感知机得到是否蕴含的二分类判断p
p
Figure 174880DEST_PATH_IMAGE004
式中,softmax()表示softmax函数操作,MLP()表示二分类感知机操作,根据所述二分类判断的概率结果得到存在蕴含关系的图像文本对。
在本发明的一个实施例中,所述图像-文本蕴含模型为CLIP模型,所述文本-文本蕴含模型为BERT模型。
在本发明的一个实施例中,所述
Figure 794081DEST_PATH_IMAGE001
Figure 592272DEST_PATH_IMAGE002
为:
Figure 56752DEST_PATH_IMAGE005
Figure 256789DEST_PATH_IMAGE006
其中,Visual Entailment ( )表示图像-文本蕴含模型操作,Textual Entailment ( ) 表示文本-文本蕴含模型操作;
Figure 46890DEST_PATH_IMAGE007
代表作为前提的文本,
Figure 66799DEST_PATH_IMAGE008
代表作为 前提的图像,
Figure 600549DEST_PATH_IMAGE009
代表假设文本;
所述多模态表征向量
Figure 655092DEST_PATH_IMAGE010
为:
Figure 350516DEST_PATH_IMAGE011
式中,gt表示文本的权重值,
Figure 123300DEST_PATH_IMAGE012
,Wt与bt表示文本的 可学习参数,σ代表在门控单元中的激活函数;gv表示图像的权重值,
Figure 195161DEST_PATH_IMAGE013
,Wv与bv表示图像的可学习参数。
在本发明的一个实施例中,所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对前,
将包括图像和文本的数据集作为图像蕴含数据集,使用所述图像蕴含数据集训练所述多模态蕴含模型中的所述图像-文本蕴含模型得到训练完成的图像-文本蕴含模型;
将包括文本的数据集作为文本蕴含数据集,使用所述文本蕴含数据集训练所述多模态蕴含模型中的所述文本-文本蕴含模型得到训练完成的文本-文本蕴含模型;
在使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对时,使用训练完成的图像-文本蕴含模型、训练完成的文本-文本蕴含模型提取特征向量。
在本发明的一个实施例中,所述使用对比学习方法训练图像文本检索模型时,对 比学习损失函数
Figure 104211DEST_PATH_IMAGE014
为:
Figure 970536DEST_PATH_IMAGE015
式中,exp( )表示指数函数,sim( )表示计算给定两个向量之间的相似度函数,q 代表一个查询样本向量,
Figure 965037DEST_PATH_IMAGE016
Figure 858167DEST_PATH_IMAGE017
分别表示查询样本向量q对应的正例和负例表示,
Figure 887303DEST_PATH_IMAGE018
表示对比学习中的温度系数。
在本发明的一个实施例中,所述将测试集输入训练完成的图像文本检索模型得到检索结果,具体为:
计算测试集中图像和文本的相似度,挑选相似度最大的文本作为图像检索文本的结果,挑选相似度最大的图像作为文本检索图像的结果。
在本发明的一个实施例中,所述计算测试集中图像和文本的相似度,具体为:
对测试集中的图像和文本进行编码得到图像表征V、文本表征T,
根据所述图像表征V、文本表征T计算余弦相似度。
本发明还提供了一种多模态蕴含增强图像文本检索的系统,包括数据获取模块、蕴含关系判别模块、训练模块和测试模块,
所述数据获取模块获取图像文本检索数据集得到训练集和测试集,
所述蕴含关系判别模块筛选图像文本检索数据集中存在蕴含关系的图像文本对,将所述存在蕴含关系的图像文本对作为弱正例;
所述训练模块将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;
所述测试模块将测试集输入训练完成的图像文本检索模型得到检索结果。
在本发明的一个实施例中,所述蕴含关系判别模块包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机,
所述图像-文本蕴含模型和文本-文本蕴含模型分别提取所述图像文本检索数据集中的特征向量,所述门控单元融合所述图像-文本蕴含模型和文本-文本蕴含模型提取到的特征向量得到多模态表征向量,所述二分类感知机根据所述多模态表征向量得到存在蕴含关系的图像文本对。
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过多模态蕴含模型判断一张图片与一段文本描述是否具有蕴含关系,并据此判断图像文本检索数据集中未标注的图像文本对的关系,降低人工标注成本,且易于扩展到新的数据集上;同时,将存在蕴含关系的图像文本对作为弱正例,并通过降低学习率的方法对弱正例进行训练,避免存在蕴含关系的图像文本对被检索模型当作负例,有效提高检索性能。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明方法的流程图,
图2是本发明的结构图,
图3是本发明实施例中使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对的示意图,
图4是本发明实施例中使用ALBEF模型、CLIP 模型和UNITER模型进行实验的结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一:
参照图1和图2所示,本发明公开了一种多模态蕴含增强图像文本检索的方法,包括以下步骤:
S1:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,将所述存在蕴含关系的图像文本对作为弱正例。
S1-1:获取图像文本检索数据集得到训练集和测试集,本实施例中获取的图像文本检索数据集包括 SNLI-VE、XNLI、CxC、ECCV等多模态推理数据集。
S1-2:使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对前,
将包括图像和文本的数据集作为图像蕴含数据集,使用所述图像蕴含数据集训练所述多模态蕴含模型中的所述图像-文本蕴含模型得到训练完成的图像-文本蕴含模型,本实施例中图像蕴含数据集选用SNLI-VE、CxC、ECCV等数据集;
将包括文本的数据集作为文本蕴含数据集,使用所述文本蕴含数据集训练所述多模态蕴含模型中的所述文本-文本蕴含模型得到训练完成的文本-文本蕴含模型,本实施例中文本蕴含数据集选用XNLI数据集;
在使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对时,使用训练完成的图像-文本蕴含模型、训练完成的文本-文本蕴含模型提取特征向量。
S1-3:在对图像文本数据集进行检索之前,需要对图像文本检索数据集进行标注,传统的人工标注者需要根据给出的图片,用一段简短的文本进行描述,从而构成一个图像文本对。多模态蕴含模型通过判断一张图片与一句话是否存在蕴含关系,进而得出两者能否互相描述,自动地筛选未标注数据,达到“修复”数据集的效果。
如图3所示,所述多模态蕴含模型包括图像-文本蕴含模型(Visual Entailment)、文本-文本蕴含模型(Textual Entailment)、门控单元(Gate Unit)和二分类感知机(MLP),本发明中的多模态蕴含模型通过结合单一蕴含模型来达到利用图像及其已标注文本判断另一个文本是否蕴含于该图像的目的。图像-文本蕴含模型以图像作为前提,判断一个文本是否蕴含于该图像;文本-文本蕴含模型判断两个文本之间是否存在蕴含关系;单独的蕴含模型会通过编码器和多层神经网络将输入的图像和文本进行编码并融合,最终形成有利于蕴含关系分类的向量表征;门控单元通过加权的方式融合视觉蕴含模型和文本蕴含模型所得到的表征,并用于最终的蕴含判断。使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,具体为:
S1-3-1:将图像文本检索数据集输入所述图像-文本蕴含模型得到特征向量
Figure 924529DEST_PATH_IMAGE001
, 将图像文本检索数据集输入所述文本-文本蕴含模型得到特征向量
Figure 406326DEST_PATH_IMAGE002
Figure 819990DEST_PATH_IMAGE019
Figure 703632DEST_PATH_IMAGE020
其中,Visual Entailment ( )表示图像-文本蕴含模型操作,Textual Entailment ( ) 表示文本-文本蕴含模型操作;
Figure 911759DEST_PATH_IMAGE007
代表作为前提的文本,
Figure 880853DEST_PATH_IMAGE008
代表 作为前提的图像,
Figure 98207DEST_PATH_IMAGE009
代表假设文本;
S1-3-2:将所述
Figure 836356DEST_PATH_IMAGE001
Figure 480964DEST_PATH_IMAGE002
输入所述门控单元得到多模态表征向量
Figure 671774DEST_PATH_IMAGE003
为:
Figure 692820DEST_PATH_IMAGE021
式中,gt表示文本的权重值,
Figure 285475DEST_PATH_IMAGE022
,σ代表在门控单元中的 激活函数,Wt与bt表示文本的可学习参数;gv表示图像的权重值,
Figure 100984DEST_PATH_IMAGE023
,Wv与bv表示图像的可学习参数;本实施例中σ为sigmoid 函数,
Figure 779090DEST_PATH_IMAGE003
为通过加权平均最终形成的多模态表征向量。
S1-3-3:将所述多模态表征向量
Figure 338248DEST_PATH_IMAGE010
输入所述二分类感知机得到是否蕴含的二 分类判断:
Figure 50989DEST_PATH_IMAGE024
式中,
Figure 37399DEST_PATH_IMAGE025
代表真实类别是否有蕴含关系的标签,0代表不蕴含,1代表蕴含;p表示模 型基于图像及其已标注的文本共同作为前提进行蕴含判断的分类概率;softmax()表示 softmax函数操作,用于数值归一化计算;MLP()表示二分类感知机操作,根据所述二分类判 断的概率结果得到存在蕴含关系的图像文本对<
Figure 468381DEST_PATH_IMAGE026
>。
多模态蕴含模型结合了视觉蕴含和文本蕴含任务。在图像文本检索数据集中,一张图像还包含若干已标注的文本,这些文本可以辅助蕴含关系的判断。相较于传统的视觉蕴含模型,本发明提出的多模态蕴含模型能够以图像及其已标注文本作为前提,判别图像和任意文本之间的蕴含关系。
S2:将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率。
图像文本检索模型可以为CLIP 模型、ALBEF模型或者UNITER模型。本实施例中使用的图像文本检索模型为CLIP 模型,CLIP 模型由完全分离的图像编码器与文本编码器组成、利用对比学习在大量图像文本数据集上进行训练。经过多模态蕴含模型的修复数据可用于图像文本检索模型的训练和检索,但由于修复数据存在一定的噪声,因此本实施例中对于弱正例部分提出了低学习率的训练策略,在降低噪声和扩充训练数据之间寻求平衡,最终达到增强检索效果的目的。
使用对比学习方法训练图像文本检索模型时,对比学习损失函数
Figure 300070DEST_PATH_IMAGE014
为:
Figure 867318DEST_PATH_IMAGE027
式中,exp( )表示指数函数,sim( )表示计算给定两个向量之间的相似度函数,q 代表一个查询样本向量,
Figure 24630DEST_PATH_IMAGE016
Figure 942907DEST_PATH_IMAGE017
分别表示查询样本向量q对应的正例和负例表示;
Figure 578288DEST_PATH_IMAGE018
表 示对比学习中的温度系数,用于调节损失曲线的平滑程度、防止某些样本会导致损失激增 而引起反向传播时梯度的急剧变化,从而增强模型学习的鲁棒性,本实施例中
Figure 265621DEST_PATH_IMAGE018
取值为 0.07。使用弱正例时的对比学习损失函数相同,此时
Figure 593834DEST_PATH_IMAGE016
为查询样本向量q对应的弱正例表 示。
通过对比学习方法,图像文本检索模型倾向于为正样本(正例)计算较高的相似度,反之,负样本(负例)则减小相似度。
S3:将测试集输入训练完成的图像文本检索模型得到检索结果。
S3-1:计算测试集中图像和文本的相似度:
对测试集中的图像和文本进行编码得到图像表征V、文本表征T,
根据所述图像表征V、文本表征T计算余弦相似度
Figure 733829DEST_PATH_IMAGE028
S3-2:挑选相似度最大的文本作为图像检索文本的结果,挑选相似度最大的图像作为文本检索图像的结果。本实施例中根据每个图像与其他文本的余弦相似度大小进行倒排,将相似度较大的文本作为图像检索文本的结果,文本检索图像时方法相同。
实施例二:
本实施例中还公开了一种多模态蕴含增强图像文本检索的系统,包括数据获取模块、蕴含关系判别模块、训练模块和测试模块。所述数据获取模块获取图像文本检索数据集得到训练集和测试集。所述蕴含关系判别模块筛选图像文本检索数据集中存在蕴含关系的图像文本对,将所述存在蕴含关系的图像文本对作为弱正例。所述训练模块将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率。所述测试模块将测试集输入训练完成的图像文本检索模型得到检索结果。
本实施例中,所述蕴含关系判别模块包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机。所述图像-文本蕴含模型和文本-文本蕴含模型分别提取所述图像文本检索数据集中的特征向量,所述门控单元融合所述图像-文本蕴含模型和文本-文本蕴含模型提取到的特征向量得到多模态表征向量,所述二分类感知机根据所述多模态表征向量得到存在蕴含关系的图像文本对。
本发明的有益效果:
1、传统图像文本检索因受限于人工标注成本只能做到部分标注,且难以扩展。本发明通过多模态蕴含模型能有效地判断一张图片与一段文本描述是否具有蕴含关系,并据此判断图像文本检索数据集中未标注的图像文本对的关系,避免了高昂的人工标注成本。同时,多模态蕴含模型是在多种蕴含数据集上训练而来的,本身支持增量式训练,因此本发明方法具备良好的领域迁移能力、易于扩展到新的数据集上。在使用新的图像文本检索数据集时,可以直接将蕴含模型用在数据集的修正上,也可以对检索数据集进行部分标注,以让多模态蕴含模型适应新的数据分布。
2、相比于传统的视觉蕴含和文本蕴含只利用单一模态作为前提,本发明利用图像及其已标注的文本共同作为前提进行蕴含判断,大大提高的模型的蕴含判别能力。
3、本发明使用多模态蕴含模型筛选未标注的图像文本对,并将存在蕴含关系的图像文本对作为弱正例,避免存在蕴含关系的图像文本对被检索模型当作负例,并通过降低学习率的方法对弱正例进行训练,有效提高检索性能。
为了进一步说明本发明的有益效果,本实施例中构建一个多模态蕴含模型,它既能处理单模态蕴含问题也能处理多模态蕴含问题;搜集多种数据集,如视觉蕴含数据集,文本蕴含数据集和一些句子对分类的数据集,通过多种数据集共同输入多模态蕴含模型进行训练。
获取常用的数据集例如Flickr 30K 、MS-COCO数据集,划分成训练集、验证集和测试集,并将训练集、验证集和测试集处理成json文件方便于模型的导入。将训练集、验证集和测试集使用多模态蕴含模型进行判别,将其中存在的弱正例(实际存在蕴含关系,但是在数据集中并没有说明的数据)汇总并保存,用于图像文本检索模型的对比学习。
将训练集中的数据批次依次输入图像文本检索模型,同时使用弱正例当作正样本进行训练,避免存在蕴含关系的图像文本对被检索模型当作负例。使用弱正例的时候,采用学习率2×10-5进行训练;使用正例的时候,学习率为0.6×10-5
实验中分别将ALBEF模型、CLIP 模型和UNITER模型作为图像文本检索模型,每运行1000批次就验证一次,保存在验证集上最好的模型,将保存好的最优模型在MSCOCO和F30K两个图像文本检索数据集上进行测试,测试结果如图4所示。
图4中,第一列是模型,其中不带“#”表示原始模型,带“#”表示使用了本发明方法之后的对应模型;第二列TR@Sum表示图像检索文本的召回率在前Top5/10/30上的平均值,第三列IR@Sum表示文本检索图像任务的召回率在前Top5/10/30上的平均值。从第二列和第三列的数据可以看出,使用本发明方法后的检索的召回率得到了提高。
同时,为了全面衡量模型检索效果,通过蕴含率E@K的指标来衡量检索结果TopK个文本中查询图像存在蕴含关系的比率。图4中第四列E@10表示图像文本检索结果Top10中蕴含的图像文本对所占比例,第五列E@30表示图像文本检索结果Top30中蕴含的图像文本对所占比例,E@10和E@30的值由蕴含模型计算得出;第六列E@M代表人工评测,是对应用修正数据集前后的模型检索结果分别进行标注得到的蕴含比例。从第第四列、第五列和第六列数据可以看出,使用本发明方法后的蕴含比例也得到了提高,并且在E@M下CLIP模型修正前后的差值达到了8.1%的大幅度提升。
通过实验证明了本发明不仅能够提升检索模型的检索性能(通过Recall@K证明),并且还能显著提升检索结果中的蕴含比率(通过E@K证明)。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种多模态蕴含增强图像文本检索的方法,其特征在于,包括:
获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,将所述存在蕴含关系的图像文本对作为弱正例;
将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使弱正例部分的学习率低于使用正例部分的学习率;
将测试集输入训练完成的图像文本检索模型得到检索结果;
所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,具体为:
所述多模态蕴含模型包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机,所述图像-文本蕴含模型为CLIP模型,所述文本-文本蕴含模型为BERT模型;
将图像文本检索数据集输入所述图像-文本蕴含模型得到特征向量hv,将图像文本检索数据集输入所述文本-文本蕴含模型得到特征向量ht
将所述hv和ht输入所述门控单元得到多模态表征向量hm
将所述多模态表征向量hm输入所述二分类感知机得到是否蕴含的二分类判断p:
P=softmax(MLP(hm)),
式中,softmax()表示softmax函数操作,MLP()表示二分类感知机操作,根据所述二分类判断的概率结果得到存在蕴含关系的图像文本对。
2.根据权利要求1所述的多模态蕴含增强图像文本检索的方法,其特征在于:所述hv和ht为:
Figure FDA0004122308670000011
Figure FDA0004122308670000012
其中,Visual Entailment()表示图像-文本蕴含模型操作,Textual Entailment()表示文本-文本蕴含模型操作;
Figure FDA0004122308670000021
代表作为前提的文本,/>
Figure FDA0004122308670000022
代表作为前提的图像,xh代表假设文本;
所述多模态表征向量hm为:
hm=gt·ht+gv·hv
式中,gt表示文本的权重值,
gt=σ(Wtht+bt),Wt与bt表示文本的可学习参数,σ代表在门控单元中的激活函数;gv表示图像的权重值,
gv=σ(Wvhv+bv),Wv与bv表示图像的可学习参数。
3.根据权利要求1所述的多模态蕴含增强图像文本检索的方法,其特征在于:所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对前,
将包括图像和文本的数据集作为图像蕴含数据集,使用所述图像蕴含数据集训练所述多模态蕴含模型中的所述图像-文本蕴含模型得到训练完成的图像-文本蕴含模型;
将包括文本的数据集作为文本蕴含数据集,使用所述文本蕴含数据集训练所述多模态蕴含模型中的所述文本-文本蕴含模型得到训练完成的文本-文本蕴含模型;
在使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对时,使用训练完成的图像-文本蕴含模型、训练完成的文本-文本蕴含模型提取特征向量。
4.根据权利要求1所述的多模态蕴含增强图像文本检索的方法,其特征在于:所述使用对比学习方法训练图像文本检索模型时,对比学习损失函数LNCE为:
Figure FDA0004122308670000031
式中,exp()表示指数函数,sim()表示计算给定两个向量之间的相似度函数,q代表一个查询样本向量,k+和k-分别表示查询样本向量q对应的正例和负例表示,τ表示对比学习中的温度系数。
5.根据权利要求1-4任一项所述的多模态蕴含增强图像文本检索的方法,其特征在于:所述将测试集输入训练完成的图像文本检索模型得到检索结果,具体为:
计算测试集中图像和文本的相似度,挑选相似度最大的文本作为图像检索文本的结果,挑选相似度最大的图像作为文本检索图像的结果。
6.根据权利要求5所述的多模态蕴含增强图像文本检索的方法,其特征在于:所述计算测试集中图像和文本的相似度,具体为:
对测试集中的图像和文本进行编码得到图像表征v、文本表征T,
根据所述图像表征V、文本表征T计算余弦相似度。
7.一种多模态蕴含增强图像文本检索的系统,其特征在于:包括数据获取模块、蕴含关系判别模块、训练模块和测试模块,
所述数据获取模块获取图像文本检索数据集得到训练集和测试集,
所述蕴含关系判别模块筛选图像文本检索数据集中存在蕴含关系的图像文本对,将所述存在蕴含关系的图像文本对作为弱正例;
所述训练模块将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使弱正例部分的学习率低于使用正例部分的学习率;
所述测试模块将测试集输入训练完成的图像文本检索模型得到检索结果;
所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对,具体为:所述多模态蕴含模型包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机,所述图像-文本蕴含模型为CLIP模型,所述文本-文本蕴含模型为BERT模型;
将图像文本检索数据集输入所述图像-文本蕴含模型得到特征向量hv,将图像文本检索数据集输入所述文本-文本蕴含模型得到特征向量ht
将所述hv和ht输入所述门控单元得到多模态表征向量hm
将所述多模态表征向量hm输入所述二分类感知机得到是否蕴含的二分类判断p:
p=softmax(MLP(hm)),
式中,softmax()表示softmax函数操作,MLP()表示二分类感知机操作,根据所述二分类判断的概率结果得到存在蕴含关系的图像文本对。
8.根据权利要求7所述的多模态蕴含增强图像文本检索的系统,其特征在于:所述蕴含关系判别模块包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机,所述图像-文本蕴含模型和文本-文本蕴含模型分别提取所述图像文本检索数据集中的特征向量,所述门控单元融合所述图像-文本蕴含模型和文本-文本蕴含模型提取到的特征向量得到多模态表征向量,所述二分类感知机根据所述多模态表征向量得到存在蕴含关系的图像文本对。
CN202310031393.1A 2023-01-10 2023-01-10 多模态蕴含增强图像文本检索的方法和系统 Active CN115712740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310031393.1A CN115712740B (zh) 2023-01-10 2023-01-10 多模态蕴含增强图像文本检索的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310031393.1A CN115712740B (zh) 2023-01-10 2023-01-10 多模态蕴含增强图像文本检索的方法和系统

Publications (2)

Publication Number Publication Date
CN115712740A CN115712740A (zh) 2023-02-24
CN115712740B true CN115712740B (zh) 2023-06-06

Family

ID=85236239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310031393.1A Active CN115712740B (zh) 2023-01-10 2023-01-10 多模态蕴含增强图像文本检索的方法和系统

Country Status (1)

Country Link
CN (1) CN115712740B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385600B (zh) * 2023-04-10 2023-12-19 北京卫星信息工程研究所 遥感图像目标特性的分布式表征方法、系统及电子设备
CN117370679B (zh) * 2023-12-06 2024-03-26 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317834A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN109933682A (zh) * 2019-01-11 2019-06-25 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
GB2586858B (en) * 2019-09-06 2023-10-25 Smiths Heimann Sas Image retrieval system
US20220383048A1 (en) * 2021-05-19 2022-12-01 Baidu Usa Llc Systems and methods for cross-lingual cross-modal training for multimodal retrieval
CN113792207B (zh) * 2021-09-29 2023-11-17 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN114519120A (zh) * 2021-12-03 2022-05-20 苏州大创科技有限公司 基于多模态算法的图像搜索方法及装置
CN115512005A (zh) * 2022-08-22 2022-12-23 华为技术有限公司 一种数据处理方法及其装置
CN115080769B (zh) * 2022-08-22 2022-12-02 南京大数据集团有限公司 基于双分支制衡互学习的图文检索方法、系统及存储介质
CN115526259A (zh) * 2022-09-29 2022-12-27 清华大学 一种多模态预训练模型的训练方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317834A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN109933682A (zh) * 2019-01-11 2019-06-25 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统

Also Published As

Publication number Publication date
CN115712740A (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
Kuznetsova et al. The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale
CN115712740B (zh) 多模态蕴含增强图像文本检索的方法和系统
CN111488137B (zh) 一种基于共同注意力表征学习的代码搜索方法
CN110503161B (zh) 一种基于弱监督yolo模型的矿石泥团目标检测方法和系统
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
US11861925B2 (en) Methods and systems of field detection in a document
CN113806482B (zh) 视频文本跨模态检索方法、装置、存储介质和设备
Liu et al. Exploiting web images for fine-grained visual recognition by eliminating open-set noise and utilizing hard examples
CN111104555A (zh) 基于注意力机制的视频哈希检索方法
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN111428513A (zh) 一种基于卷积神经网络的虚假评论分析方法
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN110413997B (zh) 针对电力行业的新词发现方法及其系统、可读存储介质
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN113448843A (zh) 基于缺陷分析的图像识别软件测试数据增强方法及装置
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN117251791B (zh) 基于图的全局语义感知的多模态反讽检测方法
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
Saha et al. The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network
CN116069905A (zh) 图像文本模型处理方法及图像文本检索系统
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN116450781A (zh) 问答的处理方法及装置
Bahrami et al. Image concept detection in imbalanced datasets with ensemble of convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant