CN114357148A - 一种基于多级别网络的图像文本检索方法 - Google Patents

一种基于多级别网络的图像文本检索方法 Download PDF

Info

Publication number
CN114357148A
CN114357148A CN202111619401.1A CN202111619401A CN114357148A CN 114357148 A CN114357148 A CN 114357148A CN 202111619401 A CN202111619401 A CN 202111619401A CN 114357148 A CN114357148 A CN 114357148A
Authority
CN
China
Prior art keywords
image
text
similarity
level
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111619401.1A
Other languages
English (en)
Inventor
冯永
杨磊
王永恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Zhejiang Lab
Original Assignee
Chongqing University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, Zhejiang Lab filed Critical Chongqing University
Priority to CN202111619401.1A priority Critical patent/CN114357148A/zh
Publication of CN114357148A publication Critical patent/CN114357148A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及图像文本检索技术领域,具体涉及一种基于多级别网络的图像文本检索方法,包括:构建具有全局级别子网络、关系级别子网络和数字级别子网络的图文检索模型;构建用于训练图文检索模型的训练数据集,训练数据集中包括图像文本对;将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络,以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度并单独训练对应的子网络;基于训练完成的图文检索模型进行图像文本检索。本发明中的图像文本检索方法能够提升图像文本的检索效率和检索准确性,从而能够提升图像文本检索的效果。

Description

一种基于多级别网络的图像文本检索方法
技术领域
本发明涉及图像文本检索技术领域,具体涉及一种基于多级别网络的图像文本检索方法。
背景技术
图像文本检索是指在给定一张检索图像在文本库中检索出与之相关的文本描述语句,或者给定一句文本描述在图片库中检索出与之对应的图像。在很多领域有重大应用,例如在大型图像、视频类网站有巨大的应用需求,用户输入查询文本,通过文本图像检索技术,实现对查询文本相关的图像或视频的检索,从而达到多媒体数据的快速索引,提升多媒体数据管理效率,提升用户使用体验的效果。
现有方法通过将图像和文本映射到一个共同的空间中来衡量它们之间的相似性,但这类方法不能捕获图像和句子中的细粒度语义信息。为此,公开号为CN109255047A的中国专利公开了《一种基于互补语义对齐和对称检索的图像-文本互检索方法》,其包括:利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。
上述现有的图像文本互检索方法利用图像与文本交叉处理后的交互信息,更准确的挖掘图像语义信息与文本语义信息。但是,现有通过交叉注意力机制整合另一种形态的上下文信息来获取关系信息的方法,大多需要执行基于图像的注意力机制对齐和基于文本的注意力机制对齐。然而,这种基于注意力机制对齐的方式十分耗时,进而导致图像文本检索的效率很低。同时,现有方法忽略了图像文本的数字信息,例如,未对“four”和“Three”等数字级别信息进行对齐,使得通过文本“four people are jumping from the top ofstairs”和“Three people are jumping from the top of stairs”检索得到的图像相同,即图像文本检索的准确性不高。
因此,如何设计一种能够提升图像文本检索效率和准确性的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于多级别网络的图像文本检索方法,以能够提升图像文本的检索效率和检索准确性,从而提升图像文本检索的效果。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于多级别网络的图像文本检索方法,包括以下步骤:
S1:构建具有全局级别子网络、关系级别子网络和数字级别子网络的图文检索模型;
S2:构建用于训练图文检索模型的训练数据集,训练数据集中包括图像文本对;
S3:将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络,以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度,然后分别基于全局级别相似度、关系级别相似度和数字级别相似度单独训练对应的子网络;
S4:基于训练完成的图文检索模型进行图像文本检索。
优选的,步骤S2中,将训练数据集中的图像文本对进行预处理和特征提取,以获取对应图像的图像全局特征和图像局部特征以及对应文本的文本全局特征和文本局部特征。
优选的,步骤S3中,通过如下步骤训练全局级别子网络:
S301:将图像文本对的图像全局特征和文本全局特征输入全局级别子网络中;
S302:基于图像全局特征和文本全局特征计算对应的全局级别相似度;
S303:基于全局级别相似度计算对应的全局级别三元组损失,并通过全局级别三元组损失训练全局级别子网络。
优选的,通过公式Sg(v,t)=simg(gv,gt)计算全局级别相似度;
全局级别三元组损失的目标函数为
Figure BDA0003437388380000021
式中:Sg(v,t)表示图像文本对(v,t)的全局级别相似度;gv表示图像全局特征;gt表示文本全局特征;Lglobal表示全局级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数;N表示图像文本对的数量。
优选的,步骤S3中,通过如下步骤训练关系级别子网络:
S311:将图像文本对的图像局部特征和文本局部特征输入关系级别子网络中;
S312:将图像局部特征经过Transformer编码器以聚合每个图像区域之间的关系信息,生成对应的图像关系特征;
S313:将文本局部特征经过Bert模块以综合单词之间的关系信息,生成对应的文本关系特征;
S314:基于图像关系特征和文本关系特征计算对应的关系级别相似度;
S315:基于关系级别相似度计算对应的关系级别三元组损失,并通过关系级别三元组损失训练关系级别子网络。
优选的,Transformer编码器包括用于多次计算注意力的多头自注意力机制层,以及用于获得丰富语义特征表示的全连接前向反馈层;Transformer编码器能够聚合每个图像区域之间的关系信息生成对应的图像关系特征,并使得图像关系特征的每个特征包含了图像区域的语义信息以及与其他区域之间的关系信息。
优选的,通过公式
Figure BDA0003437388380000031
计算关系级别相似度;
关系级别三元组损失的目标函数为Lrelation=max(0,m-Sr(v+,t-)+Sr(v+,t-));
式中:Sr(v,t)表示图像文本对(v,t)的关系级别相似度;sij r表示图像关系特征中第i个特征与文本关系特征中第j个特征的相似度;Lrelation表示关系级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数。
优选的,步骤S3中,通过如下步骤训练数字级别子网络:
S321:将图像文本对的图像局部特征和文本局部特征输入数字级别子网络中;
S322:基于图像局部特征计算图像每个区域之间的相似度,得到对应的图像区域相似度矩阵;然后从图像区域相似度矩阵中选取相似度大于γ的相似区域构成相似区域集合;最后通过Bert模块将相似区域集合的数量信息转换为向量并按比例与图像局部特征进行融合,以生成对应的图像数字特征;
S323:基于文本局部特征计算文本每个单词之间的相似度,得到对应的文本单词相似度矩阵;然后从文本单词相似度矩阵中选取相似度大于γ的相似单词构成相似单词集合;最后通过Bert模块将相似单词集合的数量信息转换为向量并按比例与文本局部特征进行融合,以生成对应的文本数字特征;
S324:基于图像数字特征和文本数字特征计算对应的数字级别相似度;
S325:基于数字级别相似度计算对应的数字级别三元组损失,并通过数字级别三元组损失训练数字级别子网络。
优选的,通过公式Sij v=sim(li v,lj v)计算图像区域相似度矩阵;
相似区域集合表示为
Figure BDA0003437388380000032
图像数字特征表示为
Figure BDA0003437388380000033
其中,
Figure BDA0003437388380000034
通过公式Sij t=sim(li t,lj t)计算文本单词相似度矩阵;
相似单词集合表示为
Figure BDA0003437388380000041
文本数字特征表示为
Figure BDA0003437388380000042
其中,
Figure BDA0003437388380000043
通过公式
Figure BDA0003437388380000044
计算数字级别相似度;
数字级别三元组损失的目标函数为Ldigit=max(0,m-Sr(v+,t-)+Sr(v+,t-));
式中:Sij v表示图像区域相似度矩阵;li v表示图像局部特征Lv中的第i个特征;Dv表示图像数字特征;numv表示相似区域集合V中的特征数量;Sij t表示文本单词相似度矩阵;li t表示文本局部特征Lt中的第i个特征;Dt表示文本数字特征;numt表示相似单词集合T中的特征数量;Sd(v,t)表示图像文本对(v,t)的数字级别相似度;sij d表示图像数字特征中第i个特征与文本数字特征中第j个特征的相似度;Ldigit表示数字级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数。
优选的,步骤S4中,进行图像文本检索时,将图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络输出的全局级别相似度、关系级别相似度和数字级别相似度进行融合,生成对应的多级别总体相似度,并基于多级别总体相似度对检索结果进行评分和排序;
其中,通过公式Soverall=Sr+αSd+βSg计算多级别总体相似度;
式中:Soverall表示多级别总体相似度,Sr表示关系级别相似度;Sd表示数字级别相似度;Sg表示全局级别相似度;α、β表示权衡超参数,用于调节各级网络语义信息的比例。
本发明中的图像文本检索方法与现有技术相比,具有如下有益效果:
本发明通过训练数据集分别训练图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络,使得图文检索模型能够分别获取图像和文本的全局级别相似度、关系级别相似度和数字级别相似度,即能够捕获图像和文本的全局信息、细粒度关系信息和数字信息并进行对齐,从而能够提升图像文本检索的准确性。
本发明对全局信息、细粒度关系信息和数字信息进行对齐的方式,与现有基于注意力机制对齐相比,对齐过程更简单且耗时更少,从而能够提升图像文本检索的效率。
本发明对全局级别子网络、关系级别子网络和数字级别子网络进行单独训练的方式,能够保证各个子网络的训练效果,并能够有效降低模型的训练难度,从而能够提升图文检索模型的训练效果。
本发明通过全局级别相似度、关系级别相似度和数字级别相似度融合生成多级别总体相似度来对检索结果进行评分和排序的方式,能够保证图文检索模型所输出检索结果的准确性和有效性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为图像文本检索方法的逻辑框图;
图2为图文检索模型的网络结构图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于多级别网络的图像文本检索方法。
如图1所示,基于多级别网络的图像文本检索方法,包括以下步骤:
S1:构建具有全局级别子网络、关系级别子网络(局部/关系级别子网络)和数字级别子网络的图文检索模型;
S2:构建用于训练图文检索模型的训练数据集,训练数据集中包括图像文本对;
S3:结合图2所示,将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络,以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度,然后分别基于全局级别相似度、关系级别相似度和数字级别相似度单独训练对应的子网络;
S4:基于训练完成的图文检索模型进行图像文本检索。进行图像文本检索时,将图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络输出的全局级别相似度、关系级别相似度和数字级别相似度进行融合,生成对应的多级别总体相似度,并基于多级别总体相似度对检索结果进行评分和排序;
其中,通过公式Soverall=Sr+αSd+βSg计算多级别总体相似度;
式中:Soverall表示多级别总体相似度,Sr表示关系级别相似度;Sd表示数字级别相似度;Sg表示全局级别相似度;α、β表示权衡超参数,用于调节各级网络语义信息的比例。
本发明通过训练数据集分别训练图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络,使得图文检索模型能够分别获取图像和文本的全局级别相似度、关系级别相似度和数字级别相似度,即能够捕获图像和文本的全局信息、细粒度关系信息和数字信息并进行对齐,从而能够提升图像文本检索的准确性。同时,本发明对全局信息、细粒度关系信息和数字信息进行对齐的方式,与现有基于注意力机制对齐相比,对齐过程更简单且耗时更少,从而能够提升图像文本检索的效率。此外,本发明对全局级别子网络、关系级别子网络和数字级别子网络进行单独训练的方式,能够保证各个子网络的训练效果,并能够有效降低模型的训练难度,从而能够提升图文检索模型的训练效果。最后,本发明通过全局级别相似度、关系级别相似度和数字级别相似度融合生成多级别总体相似度来对检索结果进行评分和排序的方式,能够保证图文检索模型所输出检索结果的准确性和有效性。
具体实施过程中,基于高性能服务器搭建Web平台,将所述图文检索模型作为其后端调用的接口,实现图像和文本相互检索的功能。用户通过上传图像或输入文本,检索相关的另一模态数据,返回检索结果。其中,硬件部分中所使用的计算机设备为基于AMD处理器和NVIDIA GeForce GTX 1080Ti GPU的服务型计算机,所需的图像和文本数据可通过网络传输至其存储系统中。代码均使用Python语言实现。
训练数据集包括MS-COCO和Flickr30K。其中,MS-COCO数据集是图像和句子检索任务中最常使用数据集之一,它包含123287张图片,每张图片都有5个文字说明,分别使用5000张图片用于验证与测试,剩余的图片用于训练。Flickr30k数据集包含31,783张图片,每张图片有5个文字标注,分别使用1000张图片用于验证与测试,其余的图片用于训练。
具体实施过程中,将训练数据集中的图像文本对进行预处理和特征提取,以获取对应图像的图像全局特征和图像局部特征以及对应文本的文本全局特征和文本局部特征。
具体的,对图像进行全局特征提取:将图片数据输入至在Visual Genome数据集上预训练的Resnet101模型中,取其池化层Pool5的输出结果,并通过全连接神经网络将其映射为1024维度特征表示,图像全局特征表示为gv
对图像进行局部特征提取:使用在Visual Genome数据集上预训练的目标检测模型Faster-RCNN提取图像的显著区域,取评分排名前36的目标区域,再通过预训练的Resnet-101模型提取每个区域的特征,取池化层pool5的输出结果作为每一区域的特征,并通过全连接神经网络将其映射为1024维度的特征表示,图像局部特征表示为
Figure BDA0003437388380000061
对文本进行全局特征提取和局部特征提取:对每个文本数据使用WordPiece模型进行分词,并将单词映射维768维度的特征表示。文本全局特征使用表示为gt,文本局部特征表示为
Figure BDA0003437388380000062
本发明对图像文本对进行预处理和特征提取并获取图像的图像全局特征和图像局部特征和文本的文本全局特征和文本局部特征,使得能够基于图像全局特征、图像局部特征、文本全局特征和文本局部特征单独有效的训练全局级别子网络、关系级别子网络和数字级别子网络,从而能够提升图文检索模型的训练效果。
具体实施过程中,通过如下步骤训练全局级别子网络:
S301:将图像文本对的图像全局特征和文本全局特征输入全局级别子网络中;
S302:基于图像全局特征和文本全局特征计算对应的全局级别相似度;
S303:基于全局级别相似度计算对应的全局级别三元组损失,并通过全局级别三元组损失训练全局级别子网络。从训练数据集中获取N个图像文本对,通过最小化全局级别三元组损失函数,使得相似图像文本对特征表示接近,从而实现图像和文本全局特征的对齐。
具体的,通过公式Sg(v,t)=simg(gv,gt)计算全局级别相似度;
全局级别三元组损失的目标函数为
Figure BDA0003437388380000071
式中:Sg(v,t)表示图像文本对(v,t)的全局级别相似度;gv表示图像全局特征;gt表示文本全局特征;Lglobal表示全局级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数;N表示图像文本对的数量。
本发明通过上述步骤训练全局级别子网络,使得全局级别子网络输出的全局级别相似度对特征表示接近,能够实现图像和文本全局特征的对齐,进而能够有效的捕获图像和文本的全局信息,以辅助提升图像文本检索的准确性。
具体实施过程中,通过如下步骤训练关系级别子网络:
S311:将图像文本对的图像局部特征和文本局部特征输入关系级别子网络中;
S312:将图像局部特征经过Transformer编码器以聚合每个图像区域之间的关系信息,生成对应的图像关系特征;
S313:将文本局部特征经过Bert模块以综合单词之间的关系信息,生成对应的文本关系特征;
S314:基于图像关系特征和文本关系特征计算对应的关系级别相似度;
S315:基于关系级别相似度计算对应的关系级别三元组损失,并通过关系级别三元组损失训练关系级别子网络。通过最小化关系级别三元组损失函数,可使图像和文本在关系特征级别上进行对齐,从而捕获图像和文本的细粒度关系语义信息。
具体的,通过公式
Figure BDA0003437388380000081
计算关系级别相似度;
图像关系特征表示为
Figure BDA0003437388380000082
基于图像局部特征
Figure BDA0003437388380000083
计算;
文本关系特征表示为
Figure BDA0003437388380000084
基于文本局部特征
Figure BDA0003437388380000085
计算;
关系级别三元组损失的目标函数为Lrelation=max(0,m-Sr(v+,t-)+Sr(v+,t-));
式中:Sr(v,t)表示图像文本对(v,t)的关系级别相似度;sij r表示图像关系特征中第i个特征与文本关系特征中第j个特征的相似度;Lrelation表示关系级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数。
其中,Transformer编码器包括用于多次计算注意力的多头自注意力机制层,以及用于获得丰富语义特征表示的全连接前向反馈层;Transformer编码器能够聚合每个图像区域之间的关系信息生成对应的图像关系特征,并使得图像关系特征的每个特征包含了图像区域的语义信息以及与其他区域之间的关系信息。
在多头自注意力机制层中,由于注意力被计算h次,所以称之为多头注意力机制。它是将查询值Q、键值K以及实值V通过不同的映射方式映射h次得到的。
具体地说,给定一个集合X={x1,x2,...,xm},其中
Figure BDA0003437388380000086
以及
Figure BDA0003437388380000087
给定的集合X通过映射矩阵求得查询值QX=XWi Q,键值KX=XWi K以及真实值VX=XWi V,其中权重矩阵
Figure BDA0003437388380000088
随后,将注意力权重加权得到求和得到:
Figure BDA0003437388380000089
将每个头head的注意力值进行拼接得到:
headi=Attention(XWi Q,XWi K,XWi V);
其中,
Figure BDA00034373883800000810
h表示head的数量。
为了获得更加丰富语义的特征表示,通过全连接前馈网络层将图像区域的位置信息融合入特征表示中,公式描述如下:
FFN(x)=ReLu(xW1+b1)W2+b2
其中,
Figure BDA00034373883800000811
本发明通过上述步骤训练关系级别子网络,使得关系级别子网络输出的关系级别相似度能够在关系特征级别上进行对齐,进而能够捕获图像和文本的细粒度关系语义信息,以辅助提升图像文本检索的准确性。
具体实施过程中,通过如下步骤训练数字级别子网络:
S321:将图像文本对的图像局部特征和文本局部特征输入数字级别子网络中;
S322:基于图像局部特征计算图像每个区域之间的相似度,得到对应的图像区域相似度矩阵;然后从图像区域相似度矩阵中选取相似度大于γ(根据需要自行设置)的相似区域构成相似区域集合;最后通过Bert模块将相似区域集合的数量信息转换为向量并按比例与图像局部特征进行融合,以生成对应的图像数字特征;
S323:基于文本局部特征计算文本每个单词之间的相似度,得到对应的文本单词相似度矩阵;然后从文本单词相似度矩阵中选取相似度大于γ根据需要自行设置)的相似单词构成相似单词集合;最后通过Bert模块将相似单词集合的数量信息转换为向量并按比例与文本局部特征进行融合,以生成对应的文本数字特征;
S324:基于图像数字特征和文本数字特征计算对应的数字级别相似度;
S325:基于数字级别相似度计算对应的数字级别三元组损失,并通过数字级别三元组损失训练数字级别子网络。通过最小化数字级别三元组损失函数,使得能够在数字级别对齐图像和文本,进而通过最大限度地减少损失来捕获细粒度的数字信息。
具体的,通过公式Sij v=sim(li v,lj v)计算图像区域相似度矩阵;
相似区域集合表示为
Figure BDA0003437388380000091
图像数字特征表示为
Figure BDA0003437388380000092
其中,
Figure BDA0003437388380000093
通过公式Sij t=sim(li t,lj t)计算文本单词相似度矩阵;
相似单词集合表示为
Figure BDA0003437388380000094
文本数字特征表示为
Figure BDA0003437388380000095
其中,
Figure BDA0003437388380000096
通过公式
Figure BDA0003437388380000097
计算数字级别相似度;
数字级别三元组损失的目标函数为Ldigit=max(0,m-Sr(v+,t-)+Sr(v+,t-));
式中:Sij v表示图像区域相似度矩阵;li v表示图像局部特征Lv中的第i个特征;Dv表示图像数字特征;numv表示相似区域集合V中的特征数量;Sij t表示文本单词相似度矩阵;li t表示文本局部特征Lt中的第i个特征;Dt表示文本数字特征;numt表示相似单词集合T中的特征数量;Sd(v,t)表示图像文本对(v,t)的数字级别相似度;sij d表示图像数字特征中第i个特征与文本数字特征中第j个特征的相似度;Ldigit表示数字级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数。
本发明通过上述步骤训练数字级别子网络,使得数字级别子网络输出的数字级别相似度能够在数字级别对齐图像和文本,进而能够有效的捕获细粒度的数字信息,以辅助提升图像文本检索的准确性。
需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种基于多级别网络的图像文本检索方法,其特征在于,包括以下步骤:
S1:构建具有全局级别子网络、关系级别子网络和数字级别子网络的图文检索模型;
S2:构建用于训练图文检索模型的训练数据集,训练数据集中包括图像文本对;
S3:将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络,以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度,然后分别基于全局级别相似度、关系级别相似度和数字级别相似度单独训练对应的子网络;
S4:基于训练完成的图文检索模型进行图像文本检索。
2.如权利要求1所述的基于多级别网络的图像文本检索方法,其特征在于:步骤S2中,将训练数据集中的图像文本对进行预处理和特征提取,以获取对应图像的图像全局特征和图像局部特征以及对应文本的文本全局特征和文本局部特征。
3.如权利要求2所述的基于多级别网络的图像文本检索方法,其特征在于,步骤S3中,通过如下步骤训练全局级别子网络:
S301:将图像文本对的图像全局特征和文本全局特征输入全局级别子网络中;
S302:基于图像全局特征和文本全局特征计算对应的全局级别相似度;
S303:基于全局级别相似度计算对应的全局级别三元组损失,并通过全局级别三元组损失训练全局级别子网络。
4.如权利要求3所述的基于多级别网络的图像文本检索方法,其特征在于:
通过公式Sg(v,t)=simg(gv,gt)计算全局级别相似度;
全局级别三元组损失的目标函数为
Figure FDA0003437388370000011
式中:Sg(v,t)表示图像文本对(v,t)的全局级别相似度;gv表示图像全局特征;gt表示文本全局特征;Lglobal表示全局级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数;N表示图像文本对的数量。
5.如权利要求2所述的基于多级别网络的图像文本检索方法,其特征在于,步骤S3中,通过如下步骤训练关系级别子网络:
S311:将图像文本对的图像局部特征和文本局部特征输入关系级别子网络中;
S312:将图像局部特征经过Transformer编码器以聚合每个图像区域之间的关系信息,生成对应的图像关系特征;
S313:将文本局部特征经过Bert模块以综合单词之间的关系信息,生成对应的文本关系特征;
S314:基于图像关系特征和文本关系特征计算对应的关系级别相似度;
S315:基于关系级别相似度计算对应的关系级别三元组损失,并通过关系级别三元组损失训练关系级别子网络。
6.如权利要求5所述的基于多级别网络的图像文本检索方法,其特征在于:Transformer编码器包括用于多次计算注意力的多头自注意力机制层,以及用于获得丰富语义特征表示的全连接前向反馈层;Transformer编码器能够聚合每个图像区域之间的关系信息生成对应的图像关系特征,并使得图像关系特征的每个特征包含了图像区域的语义信息以及与其他区域之间的关系信息。
7.如权利要求5所述的基于多级别网络的图像文本检索方法,其特征在于:
通过公式
Figure FDA0003437388370000021
计算关系级别相似度;
关系级别三元组损失的目标函数为Lrelation=max(0,m-Sr(v+,t-)+Sr(v+,t-));
式中:Sr(v,t)表示图像文本对(v,t)的关系级别相似度;sij r表示图像关系特征中第i个特征与文本关系特征中第j个特征的相似度;Lrelation表示关系级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数。
8.如权利要求3所述的基于多级别网络的图像文本检索方法,其特征在于,步骤S3中,通过如下步骤训练数字级别子网络:
S321:将图像文本对的图像局部特征和文本局部特征输入数字级别子网络中;
S322:基于图像局部特征计算图像每个区域之间的相似度,得到对应的图像区域相似度矩阵;然后从图像区域相似度矩阵中选取相似度大于γ的相似区域构成相似区域集合;最后通过Bert模块将相似区域集合的数量信息转换为向量并按比例与图像局部特征进行融合,以生成对应的图像数字特征;
S323:基于文本局部特征计算文本每个单词之间的相似度,得到对应的文本单词相似度矩阵;然后从文本单词相似度矩阵中选取相似度大于γ的相似单词构成相似单词集合;最后通过Bert模块将相似单词集合的数量信息转换为向量并按比例与文本局部特征进行融合,以生成对应的文本数字特征;
S324:基于图像数字特征和文本数字特征计算对应的数字级别相似度;
S325:基于数字级别相似度计算对应的数字级别三元组损失,并通过数字级别三元组损失训练数字级别子网络。
9.如权利要求8所述的基于多级别网络的图像文本检索方法,其特征在于:
通过公式Sij v=sim(li v,lj v)计算图像区域相似度矩阵;
相似区域集合表示为
Figure FDA0003437388370000031
图像数字特征表示为
Figure FDA0003437388370000032
其中,
Figure FDA0003437388370000033
通过公式Sij t=sim(li t,lj t)计算文本单词相似度矩阵;
相似单词集合表示为
Figure FDA0003437388370000034
文本数字特征表示为
Figure FDA0003437388370000035
其中,
Figure FDA0003437388370000036
通过公式
Figure FDA0003437388370000037
计算数字级别相似度;
数字级别三元组损失的目标函数为Ldigit=max(0,m-Sr(v+,t-)+Sr(v+,t-));
式中:Sij v表示图像区域相似度矩阵;li v表示图像局部特征Lv中的第i个特征;Dv表示图像数字特征;numv表示相似区域集合V中的特征数量;Sij t表示文本单词相似度矩阵;li t表示文本局部特征Lt中的第i个特征;Dt表示文本数字特征;numt表示相似单词集合T中的特征数量;Sd(v,t)表示图像文本对(v,t)的数字级别相似度;sij d表示图像数字特征中第i个特征与文本数字特征中第j个特征的相似度;Ldigit表示数字级别三元组损失;(v+,t-)表示匹配的图像文本对;(v+,t-)表示不匹配的图像文本对,即相似度最小的图像文本对;m表示margin超参数。
10.如权利要求1所述的基于多级别网络的图像文本检索方法,其特征在于:步骤S4中,进行图像文本检索时,将图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络输出的全局级别相似度、关系级别相似度和数字级别相似度进行融合,生成对应的多级别总体相似度,并基于多级别总体相似度对检索结果进行评分和排序;
其中,通过公式Soverall=Sr+αSd+βSg计算多级别总体相似度;
式中:Soverall表示多级别总体相似度,Sr表示关系级别相似度;Sd表示数字级别相似度;Sg表示全局级别相似度;α、β表示权衡超参数,用于调节各级网络语义信息的比例。
CN202111619401.1A 2021-12-27 2021-12-27 一种基于多级别网络的图像文本检索方法 Pending CN114357148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111619401.1A CN114357148A (zh) 2021-12-27 2021-12-27 一种基于多级别网络的图像文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111619401.1A CN114357148A (zh) 2021-12-27 2021-12-27 一种基于多级别网络的图像文本检索方法

Publications (1)

Publication Number Publication Date
CN114357148A true CN114357148A (zh) 2022-04-15

Family

ID=81102900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111619401.1A Pending CN114357148A (zh) 2021-12-27 2021-12-27 一种基于多级别网络的图像文本检索方法

Country Status (1)

Country Link
CN (1) CN114357148A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495129A (zh) * 2022-04-18 2022-05-13 阿里巴巴(中国)有限公司 文字检测模型预训练方法以及装置
WO2024001104A1 (zh) * 2022-06-30 2024-01-04 苏州元脑智能科技有限公司 一种图文数据互检方法、装置、设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495129A (zh) * 2022-04-18 2022-05-13 阿里巴巴(中国)有限公司 文字检测模型预训练方法以及装置
CN114495129B (zh) * 2022-04-18 2022-09-09 阿里巴巴(中国)有限公司 文字检测模型预训练方法以及装置
WO2024001104A1 (zh) * 2022-06-30 2024-01-04 苏州元脑智能科技有限公司 一种图文数据互检方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
WO2023093574A1 (zh) 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
Yu et al. Deep multimodal neural architecture search
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
Wang et al. Learning coarse-to-fine graph neural networks for video-text retrieval
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
Ueki et al. Waseda_Meisei at TRECVID 2017: Ad-hoc Video Search.
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
CN114357148A (zh) 一种基于多级别网络的图像文本检索方法
CN111428443B (zh) 一种基于实体上下文语义交互的实体链接方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Zhang et al. Hierarchical scene parsing by weakly supervised learning with image descriptions
Liu et al. Attribute-guided attention for referring expression generation and comprehension
CN113392265A (zh) 多媒体处理方法、装置及设备
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN113901228B (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
CN113377953B (zh) 一种基于palc-dca模型的实体融合及分类方法
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
Long et al. Cross-domain personalized image captioning
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
Liu et al. BCAN: Bidirectional correct attention network for cross-modal retrieval
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
Huang et al. Semantic tag augmented xlanv model for video captioning
Wu et al. Math expression image retrieval via attention-based framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination