CN117093692A - 一种基于深度融合的多粒度图像-文本匹配方法及系统 - Google Patents
一种基于深度融合的多粒度图像-文本匹配方法及系统 Download PDFInfo
- Publication number
- CN117093692A CN117093692A CN202311063453.4A CN202311063453A CN117093692A CN 117093692 A CN117093692 A CN 117093692A CN 202311063453 A CN202311063453 A CN 202311063453A CN 117093692 A CN117093692 A CN 117093692A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- encoder
- granularity
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 230000000007 visual effect Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 33
- 235000019580 granularity Nutrition 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000000844 transformation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 8
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 238000010923 batch production Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种基于深度融合的多粒度图像‑文本匹配方法及系统,方法包括:将待匹配图像进行多粒度视觉编码,得到编码后图像;将待匹配文本进行多粒度视觉编码,得到编码后文本;基于编码后图像和编码后文本训练编码器,得到初始编码器;对初始编码器进行深度融合,得到跨模态编码器;对跨模态编码器进行训练,得到最终模型,利用最终模型完成图像和文本的匹配。本申请利用模态内和模态间的特征来训练不同的编码器,避免两者之间的相互干扰,从而有效的学习个模态的特征表示,同时降低了对算力资源的要求。采用了深度融合的方法,更加充分的学习不同模态间复杂的关联。在多粒度视觉编码器训练过程中,引入硬负对,以提高检索时的匹配精度。
Description
技术领域
本申请涉及图像文本匹配领域,具体涉及一种基于深度融合的多粒度图像-文本匹配方法及系统。
背景技术
随着社交媒体上每天上传的多模态数据的爆炸式增长,跨模态检索(CMR)正成为人们方便地查找相关图像和文本的一个新兴需求。CMR是多模态视觉和语言理解的基本任务,它通过从一种模态的查询来检索另一种模态的相关数据。近年来,图像-文本匹配是一种新兴的任务,它将一个模态的实例与另一个模态的实例进行匹配。这可以连接视觉和语言,从而能提高其他多模态应用程序的性能。
图像-文本匹配,也称为图像-文本检索,是指将一张图片和一段文字进行匹配,找出它们之间的关联性。具体而言,对于任意输入的文本-图像对,图文匹配的目的是衡量图像和文本之间的语义相似程度。现有的图像文本匹配工作可以大致分为两类:1)全局关联:以整个文本和图像作为对象学习语义关联;2)局部关联:以细粒度的图像显著区域和文本单词作为对象学习语义关联。一对一匹配方法通常是分别提取图像和文本的全局特征表示,然后利用结构化或者典型相关分析的目标函数将它们的特征投影到一个共同空间,使得相似的成对图像文本在空间中的距离接近,即相似性高。其中同时考虑两者的多粒度方法X-VLM被提出来以后,由于其惊人的效果,基于多粒度的方法逐渐成为主流。
基于多粒度的图像-文本匹配方法主要思想是将给定相关文本的图像中定位视觉概念,同时将文本与视觉概念进行多粒度对齐。
发明内容
本申请旨在解决现有技术的不足,提出了一种基于深度融合的多粒度图像-文本匹配方法及系统,利用模态内和模态间的特征来训练不同的编码器,避免两者之间的相互干扰,从而有效的学习个模态的特征表示,同时降低对算力资源的要求。
为实现上述目的,本申请公开了如下方案:
一种基于深度融合的多粒度图像-文本匹配方法,步骤包括:
将待匹配图像进行多粒度视觉编码,得到编码后图像;
将待匹配文本进行多粒度视觉编码,得到编码后文本;
基于所述编码后图像和所述编码后文本训练编码器,得到初始编码器;
将初始编码器特征进行深度融合编码,得到跨模态编码器;
对所述初始编码器和所述跨模态编码器进行训练,并联合得到最终模型,利用所述最终模型完成图像和文本的匹配。
优选的,得到所述编码后图像的方法包括:将待匹配图像分割成不重叠的斑块,并线性地嵌入所有的所述斑块,得到若干补丁;将所述补丁传递至预训练的图像编码器,进行多粒度视觉编码;在不同的粒度下创建N+1个的概念表示,得到所述编码后图像。
优选的,进行所述多粒度视觉编码的方法包括:利用特殊标记[CLS]将输入文本中的单个句子和一对句子分开,完成所述多粒度视觉编码。
优选的,得到所述初始编码器的方法包括:设定一对(V,T),其中,T表示V的肯定的例子,并将其他(N-1)文本视为否定的例子;定义余弦相似度:
s(V,T)=gv(vcls)Tgw(wcls)
式中,wcls表示文本编码器的输出[CLS]嵌入;gv和gw是将[CLS]嵌入映射到规范化的低维表示的转换。
优选的,成批处理的视觉文本相似度包括:
文本与视觉的相似性包括:
式中,τ是一个可学习的温度参数;yi2t和yt2i表示地面真一热相似度,对比损失定义为p和y之间的交叉熵H:
式中,Lc1为对比损失得分,EV,T~D表示期望值。
优选的,对所述初始编码器和所述跨模态编码器进行训练包括:
首先,查询每个图像对应的前k个文本,并按降序排列;
然后,使用训练好的跨模态编码器再次对检索结果进行优化;
最后,以权重方式表示模态内和模态间的相似性,权重的计算方法为:
其中,topk-i2t_sim为相似度矩阵中第i个图像对应的最相似的前k个文本的相似度,topk-i2t_simj为topk-i2t_sim中第i个图像和第j个文本的相似度分数。
优选的,查询每个图像对应的前k个文本的方法为:
topk_i2t_sim,topk_i2t_idx=topk(pi2t)
查询每个文本对应的前k个图像的方法为:
topk_t2i_sim.topk_t2i_idx=topk(pt2i)。
优选的,生成与第i张图像最相似的文本特征为:
图像特征与第i个文本最相似为:
优选的,所述跨模态编码器主干为多路变压器,每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池组成;根据输入令牌的方式将每个输入令牌路由给专家,每个层都包含一个视觉专家和一个语言专家;此外,前三层都有为融合编码器设计的视觉-语言专家,使用模态专家鼓励模型捕获特定于模态的信息;利用共享的自我注意模块学习不同模式之间的对齐。
本申请还提供了一种基于深度融合的多粒度图像-文本匹配系统,包括:图像编码模块、文本编码模块、训练模块、融合模块和匹配模块;
所述图像编码模块用于将待匹配图像进行多粒度视觉编码,得到编码后图像;
所述文本编码模块用于将待匹配文本进行多粒度视觉编码,得到编码后文本;
所述训练模块基于所述编码后图像和所述编码后文本训练编码器,得到初始编码器;
所述融合模块用于对所述初始编码器进行深度融合,得到跨模态编码器;
所述匹配模块对所述初始编码器和所述跨模态编码器进行训练,并联合得到最终模型,利用所述最终模型完成图像和文本的匹配。
与现有技术相比,本申请有益效果如下:
利用模态内和模态间的特征来训练不同的编码器,避免两者之间的相互干扰,从而有效的学习个模态的特征表示,同时降低了对算力资源的要求。其次,采用了深度融合的方法,更加充分的学习不同模态间复杂的关联。最后,在多粒度视觉(文本)编码器训练过程中,引入硬负对,以提高检索时的匹配精度。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程框架图;
图2为本申请实施例的图像编码示意图;
图3为本申请实施例的文本编码示意图;
图4为本申请实施例的最终模型训练示意图;
图5为本申请实施例的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本申请实施例的方法流程框架图。
首先,将待匹配图像进行多粒度视觉编码,得到编码后图像。
对于每个输入图像,首先将一个图像分割成不重叠的斑块,并线性地嵌入所有的斑块,得到若干补丁。然后,这些补丁被传递到变压器层,产生{v1,...,vNI}。对于分辨率为224×224、补丁大小为32×32的图像,本实施例NI=49。
假设vpi是对相应的补丁pi的信息进行编码。通过在补丁之间的信息来对应一组补丁来表示了一个视觉概念Vj(对象、区域或图像)。保留补丁特征位置信息的同时对补丁特征进行重塑,表示为{/>是Vj的补丁。计算特征的平均值来表示整个视觉概念,表示为/>在不同的粒度下创建N+1个的概念表示,表示为j∈[0,N]。在本实施例中,令Itrans(V0)表示所有补丁特征都被利用的图像表示。如图2所示。
之后,将待匹配文本进行多粒度视觉编码,得到编码后文本。
输入文本在一个标记序列中表示单个句子或一对句子。一个“句子”可以是一个连续文本的任意跨度,而不是一个实际的语言句子。一个“序列”指的是对BERT的输入标记序列,它可以是单个句子或两个句子打包在一起。
每个序列的第一个标记总是一个特殊的分类标记([CLS])。与该标记对应的最终隐藏状态被用作分类任务的聚合序列表示。句子对被打包成一个单一的序列。如图3所示。
在上述步骤的基础上,基于编码后图像和编码后文本训练编码器,得到初始编码器(多粒度视觉/文本编码器)。具体训练过程包括:
预测(视觉,文本)对,表示(V,T)。在本实施例中,视觉概念包括对象、区域和图像。随机抽取一小批N对,并计算成批视觉到文本相似度和文本到视觉相似度。
设定一对(V,T),其中,T表示V的肯定的例子,并将其他(N-1)文本视为否定的例子;定义余弦相似度:
s(V,T)=gv(vc1s)Tgw(wc1s)
式中,wc1s表示文本编码器的输出[CLS]嵌入;gv和gw是将[CLS]嵌入映射到规范化的低维表示的转换。然后,计算成批处理本文的视觉相似度:
同样,文本与视觉的相似性为:
i∈[0,N]。
式中,τ是一个可学习的温度参数。设yi2t和yt2i表示地面真一热相似度,其中只有正对的概率为1。对比损失定义为p和y之间的交叉熵H:
式中,Lc1为对比损失的得分,EV,T~D表示期望。
之后,对初始编码器进行训练:
1)匹配训练
确定一对视觉概念和文本是否匹配。对于小批中的每个可视化概念,本实施例按照pv2t(V)对批内硬负文本进行采样。与该概念更相关的文本更有可能被抽样。本实施例还为每个文本采样了一个硬否定的视觉概念。本实施例使用xc1s,即跨模态编码器的输出[CLS]嵌入,来预测匹配概率pmatch,损失为:
其中ymatch是一个二维one-hot向量。
2)硬负训练
给定一个匹配的图像文本对(V,T),硬负排名损失只考虑最近的负对(T~,V~),在一个小批d正对的相似性应该高于负对的一个固定的边际值γ,定义为:
其中,s(·,·)表示计算出的图像-文本对的匹配得分,γ为边际参数,[x]+≡max(x,0)。
最后,总体的视觉/文本编码器的训练目标为:
此外,在上述步骤的基础上,对初始编码器特征进行深度融合,得到跨模态编码器。
主干为多路变压器。每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池(即模态专家)组成。根据输入令牌的方式将每个输入令牌路由给专家。每个层都包含一个视觉专家和一个语言专家。此外,前三层都有为融合编码器设计的视觉-语言专家。使用一群模态专家鼓励模型捕获更多特定于模态的信息。共享的自我注意模块学习不同模式之间的对齐。
本实施例通过在单模态数据(即图像和文本)和多模态数据(即图像-文本对)上的统一掩蔽数据建模进行训练。在训练过程中,本实施例随机掩码一定百分比的文本标记或图像补丁,并训练模型恢复掩码标记。统一的掩模-然后预测学习不同模式的对齐。得到最终模型。
最后,对初始编码器和跨模态编码器进行训练,得到最终模型,利用最终模型完成图像和文本的匹配。
其中,对初始编码器和跨模态编码器进行训练包括:
首先,查询每个图像对应的前k个文本,并按降序排列;
然后,使用训练好的跨模态编码器再次对检索结果进行优化;
最后,为了利用模态内和模态间的相似性表示,我们以权重来结合,权重的计算方法为:
其中,topk-i2t_sim为相似度矩阵中第i个图像对应的最相似的前k个文本的相似度,topk-i2t_simj为topk-i2t_sim中第i个图像和第j个文本的相似度分数。
进一步的,查询每个图像对应的前k个文本的方法为:
topk_i2t_sim,topk_i2t_idx=topk(pi2t);
查询每个文本对应的前k个图像的方法为:
topk-t2i_sim,topk-t2i_idx=topk(pt2i);
进一步的,生成与第i张图像最相似的文本特征为:
同样,图像特征与第i个文本最相似为:
本实施例从图像-文本对中随机掩码15%的单模态文本标记和50%的文本标记。对于图像,本实施例使用块级掩蔽策略掩蔽40%的图像补丁,如图4所示。
实施例二
如图5所示,为本实施例的系统结构示意图,包括:图像编码模块、文本编码模块、训练模块、融合模块和匹配模块;图像编码模块用于将待匹配图像进行多粒度视觉编码,得到编码后图像;文本编码模块用于将待匹配文本进行多粒度视觉编码,得到编码后文本;训练模块基于编码后图像和编码后文本训练编码器,得到初始编码器;融合模块对初始编码器进行深度融合,得到跨模态编码器;匹配模块对跨模态编码器进行训练,得到最终模型,利用最终模型完成图像和文本的匹配。
下面将结合本实施例,详细说明本申请如何解决实际生活中的技术问题。
首先,利用图像编码模块将待匹配图像进行多粒度视觉编码,得到编码后图像。
对于每个输入图像,首先将一个图像分割成不重叠的斑块,并线性地嵌入所有的斑块,得到若干补丁。然后,这些补丁被传递到变压器层,产生{v1,...,vNI}。对于分辨率为224×224、补丁大小为32×32的图像,本实施例NI=49。
假设vpi是对相应的补丁pi的信息进行编码。通过在补丁之间的信息来对应一组补丁来表示了一个视觉概念Vj(对象、区域或图像)。保留补丁特征位置信息的同时对补丁特征进行重塑,表示为{/>是Vj的补丁。计算特征的平均值来表示整个视觉概念,表示为/>在不同的粒度下创建N+1个的概念表示,表示为j∈[0,N]。在本实施例中,令Itrans(V0)表示所有补丁特征都被利用的图像表示。如图2所示。
之后,文本编码模块将待匹配文本进行多粒度视觉编码,得到编码后文本。
输入文本在一个标记序列中表示单个句子或一对句子。一个“句子”可以是一个连续文本的任意跨度,而不是一个实际的语言句子。一个“序列”指的是对BERT的输入标记序列,它可以是单个句子或两个句子打包在一起。
每个序列的第一个标记总是一个特殊的分类标记([CLS])。与该标记对应的最终隐藏状态被用作分类任务的聚合序列表示。句子对被打包成一个单一的序列。本实施例中,利用两种方式来区分这些句子:如图3所示。
在上述流程的基础上,训练模块基于编码后图像和编码后文本训练编码器,得到初始编码器(多粒度视觉/文本编码器)。具体训练过程包括:
预测(视觉,文本)对,表示(V,T)。在本实施例中,视觉概念包括对象、区域和图像。随机抽取一小批N对,并计算成批视觉到文本相似度和文本到视觉相似度。
设定一对(V,T),其中,T表示V的肯定的例子,并将其他(N-1)文本视为否定的例子;定义余弦相似度:
s(V,T)=gv(vc1s)Tgw(wc1s)
式中,wc1s表示文本编码器的输出[CLS]嵌入;gv和gw是将[CLS]嵌入映射到规范化的低维表示的转换。然后,计算成批处理本文的视觉相似度:
同样,文本与视觉的相似性为:
i∈[0,N]。
式中,τ是一个可学习的温度参数。设yi2t和yt2i表示地面真一热相似度,其中只有正对的概率为1。对比损失定义为p和y之间的交叉熵H:
式中,请老师补充Lc1和EV,T~D的字符含义
之后,对初始编码器进行训练:
1)匹配训练
确定一对视觉概念和文本是否匹配。对于小批中的每个可视化概念,本实施例按照p v2t(V)对批内硬负文本进行采样。与该概念更相关的文本更有可能被抽样。本实施例还为每个文本采样了一个硬否定的视觉概念。本实施例使用Xc1s,即跨模态编码器的输出[CLS]嵌入,来预测匹配概率pmatch,损失为:
其中ymatch是一个二维one-hot向量。
2)硬负训练
给定一个匹配的图像文本对(V,T),硬负排名损失只考虑最近的负对(T~,V~),在一个小批d正对的相似性应该高于负对的一个固定的边际值γ,定义为:
其中,S(·,·)表示计算出的图像-文本对的匹配得分,γ为边际参数,[x]+≡max(x,0)。
最后,总体的视觉/文本编码器的训练目标为:
此外,在上述流程的基础上,融合模块对初始编码器进行深度融合,得到跨模态编码器。
主干为多路变压器。每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池(即模态专家)组成。根据输入令牌的方式将每个输入令牌路由给专家。每个层都包含一个视觉专家和一个语言专家。此外,前三层都有为融合编码器设计的视觉-语言专家。使用一群模态专家鼓励模型捕获更多特定于模态的信息。共享的自我注意模块学习不同模式之间的对齐。
本实施例通过在单模态数据(即图像和文本)和多模态数据(即图像-文本对)上的统一掩蔽数据建模进行训练。在训练过程中,本实施例随机掩码一定百分比的文本标记或图像补丁,并训练模型恢复掩码标记。统一的掩模-然后预测学习不同模式的对齐。得到最终模型。
最后,训练模块对初始编码器和跨模态编码器进行训练,得到最终模型,利用最终模型完成图像和文本的匹配。
其中,对初始编码器和跨模态编码器进行训练包括:
首先,查询每个图像对应的前k个文本,并按降序排列;
然后,使用训练好的跨模态编码器再次对检索结果进行优化;
最后,为了利用模态内和模态间的相似性表示,我们以权重来结合,权重的计算方法为:
其中,topk-i2t_sim为相似度矩阵中第i个图像对应的最相似的前k个文本的相似度,topk-i2t_simj为topk-i2t_sim中第i个图像和第j个文本的相似度分数。
进一步的,查询每个图像对应的前k个文本的方法为:
topk-i2t_sim,topk-i2t_idx=topk(pi2t);
查询每个文本对应的前k个图像的方法为:
topk-t2i_sim,topk-t2i_idx=topk(pt2i);
进一步的,生成与第i张图像最相似的文本特征为:
同样,图像特征与第i个文本最相似为:
本实施例从图像-文本对中随机掩码15%的单模态文本标记和50%的文本标记。对于图像,本实施例使用块级掩蔽策略掩蔽40%的图像补丁,如图4所示。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (10)
1.一种基于深度融合的多粒度图像-文本匹配方法,其特征在于,步骤包括:
将待匹配图像进行多粒度视觉编码,得到编码后图像;
将待匹配文本进行多粒度视觉编码,得到编码后文本;
基于所述编码后图像和所述编码后文本训练编码器,得到初始编码器;
将初始编码器特征进行深度融合编码,得到跨模态编码器;
对所述初始编码器和所述跨模态编码器进行训练,并联合得到最终模型,利用所述最终模型完成图像和文本的匹配。
2.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,得到所述编码后图像的方法包括:将待匹配图像分割成不重叠的斑块,并线性地嵌入所有的所述斑块,得到若干补丁;将所述补丁传递至预训练的图像编码器,进行多粒度视觉编码;在不同的粒度下创建N+1个的概念表示,得到所述编码后图像。
3.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,进行所述多粒度视觉编码的方法包括:利用特殊标记[CLS]将输入文本中的单个句子和一对句子分开,完成所述多粒度视觉编码。
4.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,得到所述初始编码器的方法包括:设定一对(V,T),其中,T表示V的肯定的例子,并将其他(N-1)文本视为否定的例子;定义余弦相似度:
式中,wcls表示文本编码器的输出[CLS]嵌入;gv和gw是将[CLS]嵌入映射到规范化的低维表示的转换。
5.根据权利要求4所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,成批处理的视觉文本相似度包括:
文本与视觉的相似性包括:
式中,τ是一个可学习的温度参数;yi2t和yt2i表示地面真一热相似度,对比损失定义为p和y之间的交叉熵H:
式中,Lc1为对比损失得分,EV,T~D表示期望值。
6.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,对所述初始编码器和所述跨模态编码器进行训练包括:
首先,查询每个图像对应的前k个文本,并按降序排列;
然后,使用训练好的跨模态编码器再次对检索结果进行优化;
最后,以权重方式表示模态内和模态间的相似性,权重的计算方法为:
其中,topk_i2t_sim为相似度矩阵中第i个图像对应的最相似的前k个文本的相似度,topk_i2t_simj为topk_i2t_sim中第i个图像和第j个文本的相似度分数。
7.根据权利要求6所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,查询每个图像对应的前k个文本的方法为:
topk_i2t_sim,topk_i2t_idx=topk(pi2t)
查询每个文本对应的前k个图像的方法为:
topk_t2i_sim,topk_t2i_idx=topk(pt2i)。
8.根据权利要求7所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,生成与第i张图像最相似的文本特征为:
图像特征与第i个文本最相似为:
9.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法,其特征在于,所述跨模态编码器主干为多路变压器,每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池组成;根据输入令牌的方式将每个输入令牌路由给专家,每个层都包含一个视觉专家和一个语言专家;此外,前三层都有为融合编码器设计的视觉-语言专家,使用模态专家鼓励模型捕获特定于模态的信息;利用共享的自我注意模块学习不同模式之间的对齐。
10.一种基于深度融合的多粒度图像-文本匹配系统,其特征在于,包括:图像编码模块、文本编码模块、训练模块、融合模块和匹配模块;
所述图像编码模块用于将待匹配图像进行多粒度视觉编码,得到编码后图像;
所述文本编码模块用于将待匹配文本进行多粒度视觉编码,得到编码后文本;
所述训练模块基于所述编码后图像和所述编码后文本训练编码器,得到初始编码器;
所述融合模块用于对所述初始编码器进行深度融合,得到跨模态编码器;
所述匹配模块对所述初始编码器和所述跨模态编码器进行训练,并联合得到最终模型,利用所述最终模型完成图像和文本的匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311063453.4A CN117093692A (zh) | 2023-08-23 | 2023-08-23 | 一种基于深度融合的多粒度图像-文本匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311063453.4A CN117093692A (zh) | 2023-08-23 | 2023-08-23 | 一种基于深度融合的多粒度图像-文本匹配方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117093692A true CN117093692A (zh) | 2023-11-21 |
Family
ID=88769394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311063453.4A Pending CN117093692A (zh) | 2023-08-23 | 2023-08-23 | 一种基于深度融合的多粒度图像-文本匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093692A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541894A (zh) * | 2024-01-04 | 2024-02-09 | 支付宝(杭州)信息技术有限公司 | 一种多模态模型的训练方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060259450A1 (en) * | 2005-05-13 | 2006-11-16 | Fujitsu Limited | Multimodal control device and multimodal control method |
CN110889865A (zh) * | 2019-10-31 | 2020-03-17 | 广东技术师范大学 | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 |
CN113792112A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言任务处理系统、训练方法、装置、设备及介质 |
CN114911914A (zh) * | 2022-04-24 | 2022-08-16 | 中国电子科技集团公司第五十四研究所 | 一种跨模态图文检索方法 |
US20220277218A1 (en) * | 2021-02-26 | 2022-09-01 | Inception Institute of Artificial Intelligence Ltd | Domain specific pre-training of cross modality transformer model |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
US20220383048A1 (en) * | 2021-05-19 | 2022-12-01 | Baidu Usa Llc | Systems and methods for cross-lingual cross-modal training for multimodal retrieval |
US20220391755A1 (en) * | 2021-05-26 | 2022-12-08 | Salesforce.Com, Inc. | Systems and methods for vision-and-language representation learning |
US20230005178A1 (en) * | 2020-03-25 | 2023-01-05 | Beijing Wodong Tianjun Information Technology Co., Ltd | Method and apparatus for retrieving target |
US20230154146A1 (en) * | 2021-11-16 | 2023-05-18 | Salesforce.Com, Inc. | Systems and methods for video and language pre-training |
-
2023
- 2023-08-23 CN CN202311063453.4A patent/CN117093692A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060259450A1 (en) * | 2005-05-13 | 2006-11-16 | Fujitsu Limited | Multimodal control device and multimodal control method |
CN110889865A (zh) * | 2019-10-31 | 2020-03-17 | 广东技术师范大学 | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 |
US20230005178A1 (en) * | 2020-03-25 | 2023-01-05 | Beijing Wodong Tianjun Information Technology Co., Ltd | Method and apparatus for retrieving target |
CN113792112A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言任务处理系统、训练方法、装置、设备及介质 |
US20220277218A1 (en) * | 2021-02-26 | 2022-09-01 | Inception Institute of Artificial Intelligence Ltd | Domain specific pre-training of cross modality transformer model |
US20220383048A1 (en) * | 2021-05-19 | 2022-12-01 | Baidu Usa Llc | Systems and methods for cross-lingual cross-modal training for multimodal retrieval |
US20220391755A1 (en) * | 2021-05-26 | 2022-12-08 | Salesforce.Com, Inc. | Systems and methods for vision-and-language representation learning |
US20230154146A1 (en) * | 2021-11-16 | 2023-05-18 | Salesforce.Com, Inc. | Systems and methods for video and language pre-training |
CN114911914A (zh) * | 2022-04-24 | 2022-08-16 | 中国电子科技集团公司第五十四研究所 | 一种跨模态图文检索方法 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
Non-Patent Citations (5)
Title |
---|
WENHUI WANG等: "Image as a foreign language:beit pretraining for all vision and vision-language tasks", 《ARXIV》, 22 August 2022 (2022-08-22), pages 1 - 18 * |
YAN ZENG等: "Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts", 《ARXIV》, 16 November 2021 (2021-11-16), pages 1 - 13 * |
王俊豪;罗轶凤;: "通过细粒度的语义特征与Transformer丰富图像描述", 华东师范大学学报(自然科学版), no. 05 * |
落花满蹊: "图网络:Graph Structured Network for Image-Text Matching", pages 1 - 5, Retrieved from the Internet <URL:《https://blog.csdn.net/weixin_43436958/article/details/109103340》> * |
许炫淦等: "语义嵌入重构的跨模态哈希检索", 《计算机应用研究》, vol. 39, no. 6 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541894A (zh) * | 2024-01-04 | 2024-02-09 | 支付宝(杭州)信息技术有限公司 | 一种多模态模型的训练方法及装置 |
CN117541894B (zh) * | 2024-01-04 | 2024-04-16 | 支付宝(杭州)信息技术有限公司 | 一种多模态模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
Li et al. | Truncation cross entropy loss for remote sensing image captioning | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN111930887B (zh) | 基于联合训练方式的多文档多答案机器阅读理解系统 | |
CN113312452B (zh) | 基于多任务学习的篇章级文本连贯性分类方法 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN111460824A (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN112687388A (zh) | 一种基于文本检索的可解释性智慧医疗辅助诊断系统 | |
CN117093692A (zh) | 一种基于深度融合的多粒度图像-文本匹配方法及系统 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
Zhu et al. | Unpaired image captioning by image-level weakly-supervised visual concept recognition | |
CN114048314A (zh) | 一种自然语言隐写分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |