CN117421591A - 一种基于文本引导图像块筛选的多模态表征学习方法 - Google Patents
一种基于文本引导图像块筛选的多模态表征学习方法 Download PDFInfo
- Publication number
- CN117421591A CN117421591A CN202311334146.5A CN202311334146A CN117421591A CN 117421591 A CN117421591 A CN 117421591A CN 202311334146 A CN202311334146 A CN 202311334146A CN 117421591 A CN117421591 A CN 117421591A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- modal
- layer
- cls
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012512 characterization method Methods 0.000 title claims abstract description 30
- 238000012216 screening Methods 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 230000008447 perception Effects 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 53
- 239000013598 vector Substances 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 2
- 238000012821 model calculation Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明一种基于文本引导图像块筛选的多模态表征学习方法,属于计算机技术领域;包括准备预训练数据集,构建多模态预训练表征模型,对图像和文本进行特征提取,通过文本语义感知的图像块选择模块和视觉令牌摘要模块,获得与文本特征高度相关的图像特征。将文本特征和图像特征投影到公共嵌入空间,结合图文对比损失进行模态对齐。再将对齐后的特征送入跨模态编码器,结合图文匹配损失训练模型学习多模态表示。最后将多模态表示送入跨模态解码器进行语言建模。本发明通过文本特征引导模型聚焦于与文本相关性高的图像块,减少视觉序列中的冗余信息,提升模型计算效率,实现高效的细粒度交互,从而获得更好的多模态表示。
Description
技术领域
本发明属于计算机技术领域,尤其涉及基于文本引导图像块筛选的多模态表征学习方法。
背景技术
图像-文本多模态表征学习是计算机视觉和自然语言处理领域的研究热点之一,它旨在学习一个多模态表示来提高各种视觉和语言任务的性能。近年来,预训练-微调(Pretrain-finetune)的范式变得流行起来。这种方法首先在大规模通用数据集上对庞大的模型进行预训练,然后在具体的下游任务上进行微调,从而增强模型的泛化能力。
受此启发,许多研究已经尝试在图像-文本多模态数据集上对模型进行预训练,通过联合学习图像和文本数据,从大规模未标记数据中提取丰富的语义信息,为视觉和语言领域的任务提供强大的表征能力。然而,以往的图像-文本预训练表征学习主要使用预训练好的特征提取模型如Vision Transformer(ViT)和BERT来提取图像和文本的单模态信息,然后将提取到的图像、文本全局语义表示通过图文对比学习进行粗粒度的模态对齐,而图像区域和单词之间更细粒度的语义交互通过注意力机制实现。
ViT作为图像编码器,能够将图像分成图像块来建模细粒度的长视觉序列。但是,长视觉序列在图像表示建模和跨模态融合时需要进行大量的自注意力计算,从而导致训练时间长。同时,长视觉序列中包含许多与文本语义无关的冗余图像块,这些与文本无关的图像块将阻碍文本和图像之间的细粒度对齐,并且在可能会导致跨模态融合过程中简短的语言信号(例如,图像的简短标题)被复杂的视觉信息所掩盖。
为解决长视觉序列带来的问题,计算机视觉领域提出了一种方法,即通过来自ViT主干的视觉全局语义表示来选择相对重要的图像块,从而减少视觉序列长度。然而,不同于视觉的单模态任务,图像-文本多模态任务中,图像块的选择与文本上下文密切相关,并且单个图像对应的不同文本可能集中在图像内容中的不同部分。目前的方法大多集中于计算机视觉单模态领域,研究如何利用图像特征对长视觉序列进行修剪,不适用于图像-文本多模态表征任务。仅考虑图像特征而不考虑文本特征,模型无法根据不同文本输入,保留不同的图像标记,可能造成大的信息丢失,导致图像表示和文本表示不能完美地对齐到相同的语义空间,影响模型的跨模态交互性能,不利于多模态表征的学习。
发明内容
本发明目的在于提供一种基于文本引导图像块筛选的多模态表征学习方法,以解决现有的多模态表征学习算法中由于长视觉序列引起的计算复杂度高和模态间细粒度对齐困难的技术问题。
为实现上述目的,本发明的基于文本引导图像块筛选的多模态表征学习方法的具体技术方案如下:
一种基于文本引导图像块筛选的多模态表征学习方法,包括以下步骤,且以下步骤顺序进行:
步骤S1、多模态数据涉及图像和文本两个模态,收集人工标注的图像-文本对(I,T)作为预训练数据集;
步骤S2、构建多模态预训练表征模型,所述多模态预训练表征模型包括图像编码器、文本编码器、文本语义感知的图像块选择模块、视觉摘要模块、跨模态编码器以及跨模态解码器;将所述步骤S1中获得的人工标注的图像-文本对(I,T)作为输入,分别送入图像编码器和文本编码器;所述图像编码器采用预训练的ViT;
步骤S3、在所述步骤S2中ViT的第j-1和第j层transformer层之间加入一层交叉注意力块和一层图像令牌选择块作为文本语义感知的图像选择模块;
将ViT第j-1层输出的图像特征被馈送到交叉注意力层作为键向量(K)和值向量(V),文本编码器输出的全局语义表示tcls通过交叉注意力层的查询线性层线性投影为查询向量(Qtext);按公式(3)计算得到文本到图像块的注意映射,即文本与每个图像块的注意力得分:
其中,表示前一层ViT的输出特征;
根据注意力得分acls={a1,..an},保留注意力得分较高的图像令牌,并融合注意力得分较低的图像令牌,重构视觉序列,有效滤除部分与文本无关的冗余图像块,然后将新的视觉序列送入后续ViT层继续进行编码,最终ViT输出与文本相关度高的视觉序列;
步骤S4、依据所述步骤S3中文本到图像块的注意力得分acls={a1,..an},在ViT输出序列{vcls,v1,…,vu,vH}中进一步选取与文本高度相关的前s个图像块令牌作为视觉令牌摘要模块的输入,指导模块压缩视觉信息,通过交叉注意力机制,将较长的视觉序列用较短的向量表示,获得长度为s+1的输出序列作为最终的图像表示;
步骤S5,所述步骤S4获得的图像I的全局语义表示与所述步骤S2获得的文本T的全局语义表示tcls经过单层感知机映射到一个公共嵌入空间,进行图文对比学习。通过优化图文对比损失函数来训练模型学习不同模态间的语义关联性和差异性。在图文对比损失计算过程中,若图像I与文本T相匹配,则尽可能地最大化它们之间的相似度,否则,最小化它们之间的相似度,实现模态间的粗粒度对齐;
步骤S6、所述步骤S5获得的对齐后的图像-文本表示送入跨模态编码器,跨模态编码器由多头自注意力层、交叉注意力层和前馈层组成,文本表示与图像表示经过跨模态的交叉注意力层进行模态间的细粒度交互和融合,并通过预训练目标“图像-文本匹配”训练模型学习多模态表示;
步骤S7、所述步骤S6获得的包含图像与文本两种模态信息的多模态表示{dcls,d1,d2,...,dm}输入至跨模态解码器进行“语言建模”,训练模型解码生成文本;
至此,基于文本引导图像块筛选的多模态表征学习方法完成。
进一步,所述步骤S2中,包括以下步骤:
步骤S2-1、对于输入的图像采用预训练的视觉Transformer(Vision Transformer,ViT)作为图像编码器,将输入图像分成N个不重叠的图像块把每个图像块展平成二维的视觉序列,并将可学习的[CLS]标记放在视觉序列前面作为图像的全局语义令牌;输入的视觉序列表示如下:
V={vcls,v,v2,…,vn} (1)
其中,vcls表示输入图像的全局语义令牌,v1,2...,n表示N个不重叠图像块的视觉令牌。
步骤S2-2、对于输入文本T,采用预训练的双向编码器(Bidirectional EncoderRepresentation from Transformers,BERT)的作为文本编码器,对输入文本采用字节级字节对编码(BPE)标记化;输入的文本序列表示如下:
T={tcls,t1,t2,…,tm} (2)
其中,tcls表示输入文本的全局语义令牌,t1,2...,m表示m个字节对的文本令牌。
进一步,所述步骤S4中s=γ*u,γ是视觉令牌的选择比例,默认为30%;将输入到三个堆叠的transformer块中,在每个transformer块中,首先经过自注意力层,获取更多有效的上下文特征,然后再与输出序列{vcls,v1,…,vu,vH}通过公式(4)进行交叉注意力计算:
其中,为/>经查询矩阵/>线性变换得到的查询向量,K和V为{vcls,v1,…,vu,vH}经键矩阵/>和值矩阵/>线性变换得到的键、值向量。
进一步,所述步骤S6中的“图像-文本匹配”包括以下步骤:
通过文本表示与图像表示获得包含两个模态信息的多模态表示D={dcls,d1,d2,...,dm},并应用一个全连接FC层和Softmax来预测图像-文本是否匹配,通过公式(5)图像-文本匹配损失学习多模态表示:
其中,pitm为预测两类的概率,H为交叉熵,yitm表示ground-truth,当图像-文本相匹配时,yitm为1,当图像-文本不匹配时,yitm为0。
进一步,所述步骤S7中的“语言建模”具体包括以下步骤:
利用交叉熵损失以自回归的方式最大化文本似然性,语言建模损失如公式(6)所示:
其中,P(wi|w1,w2,...,wi-1;θ)表示在给定模型参数θ下,根据上下文w1,w2,...,wi-1预测下一个词wi的概率;N表示文本中词的总数,i表示当前词的位置;的目标是最大化在给定上下文中预测下一个词的概率,从而训练模型生成连贯、准确的文本描述。
本发明的基于文本引导图像块筛选的多模态表征学习方法具有以下优点:本发明基于文本引导图像块筛选的多模态表征学习方法,使用预训练的ViT和BERT分别作为图像编码器和文本编码器,在ViT主干中插入文本语义感知的图像块选择模块,可以在ViT编码过程中,通过文本语义信息的指导,帮助模型聚焦与文本相关性高的图像块,一定程度上,能有效减少视觉序列长度,提高ViT和后续跨模态编码器中自注意力与交叉注意力的计算效率。需要注意的是,在ViT主干中删除过多的图像令牌会导致图像的结构信息丢失,影响隐藏表示的分布,本发明在ViT的主干外加入视觉令牌摘要模块,选取ViT输出序列的部分图像块令牌作为输入,利用交叉注意力机制将较长的图像特征概括为少量的图像标记,实现对视觉信息的高效建模。两个模块协同作用,保留图像端与文本相关的图像信息,滤除无关的冗余图像信息,降低模型的计算量,帮助模型更好的进行模态间细粒度交互,减少文本信息被视觉信息多模态表示。
附图说明
图1为本发明基于文本引导图像块筛选的多模态表征学习方法的框架图。
图2为本发明基于文本引导图像块筛选的多模态表征学习方法的文本语义感知的图像块选择模块结构示意图。
图3为本发明基于文本引导图像块筛选的多模态表征学习方法的视觉令牌摘要模块结构示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于文本引导图像块筛选的多模态表征学习方法做进一步详细的描述。
如图1所示,本发明一种基于文本引导图像块筛选的多模态表征学习方法,具体地,包含以下步骤,并按以下步骤依次执行:
步骤S1,本发明的多模态数据涉及图像和文本两个模态,收集大量相匹配的图像-文本对(I,T)作为多模态预训练数据集,例如一张包含狗和草地的图像与一段“狗在草地上玩耍”的文本。
步骤S2,构建多模态预训练表征模型,所述多模态预训练表征模型包括图像编码器、文本编码器、文本语义感知的图像块选择模块、视觉摘要模块、跨模态编码器以及跨模态解码器。步骤S1中获得的图像-文本对(I,T)作为输入,分别送入图像编码器和文本编码器。
对于输入的图像本发明采用预训练的ViT作为图像编码器,将输入图像分成N个不重叠的图像块/>把每个图像块展平成二维的视觉序列,并将可学习的[CLS]标记放在视觉序列前面作为图像的全局语义令牌。输入的视觉序列表示如下:
V={vcls,v,v2,…,vn) (1)
对于输入文本T,本发明采用预训练的BERT的作为文本编码器,对输入文本采用字节级字节对编码(BPE)标记化。输入的文本序列表示如下:
T={tcls,t1,t2,…,tm} (2)
步骤S3,在所述步骤S2中ViT的第j-1和第j层transformer层之间加入一层交叉注意力块和一层图像令牌选择块作为文本语义感知的图像选择模块。
将ViT第j-1层输出的图像特征被馈送到交叉注意力层作为键向量(K)和值向量(V),文本端输出的全局语义表示tcls通过交叉注意力层的查询线性层线性投影为查询向量(Qtext)。按如下公式计算得到文本到图像块的注意映射,即文本与每个图像块的注意力得分:
其中,表示前一层ViT的输出特征;
根据注意力得分acls={a1,..an},对其中u个最大注意力元素对应的图像令牌进行保留,其中u=n×r,r为该层的保持率。对未选中的图像令牌通过如下公式进行融合操作:
融合未选中的图像令牌后,将ViT中第j-1层输出的视觉序列重构为有效滤除部分与文本无关的冗余图像块,然后将新的视觉序列送入第j层ViT中继续进行编码,最终ViT输出与文本相关度高的视觉序列{vcls,v1,…,vu,vH}。
步骤S4,依据所述步骤S3中文本到图像块的注意力得分acls={a1,..an},在ViT输出序列{vcls,v1,…,vu,vH}中进一步选取与文本高度相关的前s个图像块令牌作为视觉令牌摘要模块的输入,其中s=γ*u,γ是视觉令牌的选择比例,默认为30%。这些前s个图像块令牌可以为视觉令牌摘要模块提供强有力的先验,指导模块压缩视觉信息。将/>输入到三个堆叠的transformer块中,在每个transformer块中,/>首先经过自注意力层,获取更多有效的上下文特征,然后再与输出序列{vcls,v1,…,vu,vH}通过如下公式进行交叉注意力计算:
其中,为/>经查询矩阵/>线性变换得到的查询向量,K和V为{vcls,v1,…,vu,vH}经键矩阵/>和值矩阵/>线性变换得到的键、值向量。
最后,视觉令牌摘要模块的输出长度为s+1特征序列作为最终的图像表示。
步骤S5,所述步骤S4获得的图像I的全局语义表示与所述步骤S2获得的文本T的全局语义表示tcls经过单层感知机映射到一个公共嵌入空间,进行图文对比学习。通过优化图文对比损失函数来训练模型学习不同模态间的语义关联性和差异性。在图文对比损失计算过程中,若图像I与文本T相匹配,则尽可能地最大化它们之间的相似度,否则,最小化它们之间的相似度,实现模态间的粗粒度对齐。
图文对比学习的目的是最大化正样本的相似度,最小化负样本的相似度,实现途径是优化图文对比损失。
由于一张图和一段文本没法体现正、负样本,所以本发明通过“具体地”,引出模型实际训练过程中正、负样本是怎么构造的以及具体的图文对比损失函数。
具体地,假设一个训练批次中有M个图像和M个文本,对于该批次中第k个图像Ik,其与对应的第k个文本Tk组成正样本图像-文本对(Ik,Tk),与该批次中其它文本组成负样本图像-文本对,即该训练批次中包含M个正样本对和M2-M个负样本对。将所有图像-文本表示投影到公共嵌入空间,进行图文对比学习。图文对比损失函数公式如下所示:
其中τ是可学习的温度参数,为图像Ik映射到公共嵌入空间的全局语义表示,为文本Tk映射到到公共嵌入空间的全局语义表示,s(·,·)表示相似度函数,/>为图像Ik到文本的对比损失,/>为文本Tk到图像的对比损失,/>为该批次的总损失。
在模型训练过程中,通过最小化图文对比损失,使得正样本的图像表示和文本表示尽可能相近,从而学习到两个模态之间的语义关联性,负样本的图像表示和文本表示尽可能相异,从而学习到不同实体之间的差异性,粗粒度地对齐两个模态的表示。
步骤S6,所述步骤S5获得的对齐后的图像-文本表示送入跨模态编码器,通过图像-文本匹配的预训练目标学习多模态表示。跨模态编码器由多头自注意力层、交叉注意力层和前馈层组成,文本表示与图像表示经过跨模态的交叉注意力层进行模态间的细粒度交互和融合,获得包含两个模态信息的多模态表示D={dcls,d1,d2,...,dm},并应用一个全连接(FC)层和Softmax来预测图像-文本是否匹配,通过如下所示的图像-文本匹配损失学习多模态表示:
其中,pitm为预测两类的概率,H为交叉熵,yitm表示ground-truth,当图像-文本相匹配时,yitm为1,当图像-文本不匹配时,yitm为0。
步骤S7,所述步骤S6获得的包含图像与文本两种模态信息的多模态表示{dcls,d1,d2,...,dm}输入至跨模态解码器进行“语言建模”,利用交叉熵损失以自回归的方式最大化文本似然性,语言建模损失如下式所示:
其中,P(wi|w1,w2,...,wi-1;θ)表示在给定模型参数θ下,根据上下文w1,w2,...,wi-1预测下一个词wi的概率。N表示文本中词的总数,i表示当前词的位置。的目标是最大化在给定上下文中预测下一个词的概率,从而训练模型生成连贯、准确的文本描述。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (5)
1.一种基于文本引导图像块筛选的多模态表征学习方法,其特征在于,包括以下步骤,且以下步骤顺序进行:
步骤S1、多模态数据涉及图像和文本两个模态,收集人工标注的图像-文本对作为预训练数据集;
步骤S2、构建多模态预训练表征模型,所述多模态预训练表征模型包括图像编码器、文本编码器、文本语义感知的图像块选择模块、视觉摘要模块、跨模态编码器以及跨模态解码器;将所述步骤S1中获得的人工标注的图像-文本对作为输入,分别送入图像编码器和文本编码器;所述图像编码器采用预训练的ViT;
步骤S3、在所述步骤S2中ViT的第j-1和第j层transformer层之间加入一层交叉注意力块和一层图像令牌选择块作为文本语义感知的图像选择模块;
将ViT第j-1层输出的图像特征被馈送到交叉注意力层作为键向量K和值向量V,文本编码器输出的全局语义表示tcls通过交叉注意力层的查询线性层线性投影为查询向量Qtext;按公式(3)计算得到文本到图像块的注意映射,即文本与每个图像块的注意力得分:
其中,表示前一层ViT的输出特征;
根据注意力得分acls={a1,..an},保留注意力得分较高的图像令牌,并融合注意力得分较低的图像令牌,重构视觉序列,有效滤除部分与文本无关的冗余图像块,然后将新的视觉序列送入后续ViT层继续进行编码,最终ViT输出与文本相关度高的视觉序列;
步骤S4、依据所述步骤S3中文本到图像块的注意力得分acls={a1,..an},在ViT输出序列{vcls,v1,…,vu,vH}中进一步选取与文本高度相关的前s个图像块令牌作为视觉令牌摘要模块的输入,指导模块压缩视觉信息,通过交叉注意力机制,将较长的视觉序列{vcls,v1,…,vu,vH}用较短的向量/>表示,其中s<u,获得长度为s+1的输出序列/>作为最终的图像表示;
步骤S5,所述步骤S4获得的图像I的全局语义表示与所述步骤S2获得的文本T的全局语义表示tcls经过单层感知机映射到一个公共嵌入空间,进行图文对比学习;通过优化图文对比损失函数来训练模型学习不同模态间的语义关联性和差异性;在图文对比损失计算过程中,若图像I与文本T相匹配,则尽可能地最大化它们之间的相似度,否则,最小化它们之间的相似度,实现模态间的粗粒度对齐;
步骤S6、所述步骤S5获得的对齐后的图像-文本表示送入跨模态编码器,跨模态编码器由多头自注意力层、交叉注意力层和前馈层组成,文本表示与图像表示经过跨模态的交叉注意力层进行模态间的细粒度交互和融合,并通过预训练目标“图像-文本匹配”训练模型学习多模态表示;
步骤S7、所述步骤S6获得的包含图像与文本两种模态信息的多模态表示{dcls,d1,d2,...,dm}输入至跨模态解码器进行“语言建模”,训练模型解码生成文本;
至此,基于文本引导图像块筛选的多模态表征学习方法完成。
2.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤S2中,包括以下步骤:
步骤S2-1、对于输入的图像采用预训练的视觉Transformer作为图像编码器,将输入图像分成N个不重叠的图像块/>把每个图像块展平成二维的视觉序列,并将可学习的[CLS]标记放在视觉序列前面作为图像的全局语义令牌;输入的视觉序列表示如下:
V={vcls,v,v2,…,vn} (1)
其中,vcls表示输入图像的全局语义令牌,v1,2...,n表示N个不重叠图像块的视觉令牌;
步骤S2-2、对于输入文本T,采用预训练的双向编码器的作为文本编码器,对输入文本采用字节级字节对编码BPE标记化;输入的文本序列表示如下:
T={tcls,t1,t2,…,tm} (2)
其中,tcls表示输入文本的全局语义令牌,t1,2...,m表示m个字节对的文本令牌。
3.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤S4中s=γ*u,γ是视觉令牌的选择比例,默认为30%;将输入到三个堆叠的transformer块中,在每个transformer块中,/>首先经过自注意力层,获取更多有效的上下文特征,然后再与输出序列{vcls,v1,…,vu,vH}通过公式(4)进行交叉注意力计算:
其中,为/>经查询矩阵/>线性变换得到的查询向量,K和V为{vcls,v1,…,vu,vH}经键矩阵/>和值矩阵/>线性变换得到的键、值向量。
4.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤S6中的“图像-文本匹配”包括以下步骤:
通过文本表示与图像表示获得包含两个模态信息的多模态表示D={dcls,d1,d2,...,dm},并应用一个全连接FC层和Softmax来预测图像-文本是否匹配,通过公式(5)图像-文本匹配损失学习多模态表示:
其中,pitm为预测两类的概率,H为交叉熵,yitm表示ground-truth,当图像-文本相匹配时,yitm为1,当图像-文本不匹配时,yitm为0。
5.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤S7中的“语言建模”具体包括以下步骤:
利用交叉熵损失以自回归的方式最大化文本似然性,语言建模损失如公式(6)所示:
其中,P(wi|w1,w2,...,wi-1;θ)表示在给定模型参数θ下,根据上下文w1,w2,...,wi-1预测下一个词wi的概率;N表示文本中词的总数,i表示当前词的位置;的目标是最大化在给定上下文中预测下一个词的概率,从而训练模型生成连贯、准确的文本描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311334146.5A CN117421591A (zh) | 2023-10-16 | 2023-10-16 | 一种基于文本引导图像块筛选的多模态表征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311334146.5A CN117421591A (zh) | 2023-10-16 | 2023-10-16 | 一种基于文本引导图像块筛选的多模态表征学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421591A true CN117421591A (zh) | 2024-01-19 |
Family
ID=89529339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311334146.5A Pending CN117421591A (zh) | 2023-10-16 | 2023-10-16 | 一种基于文本引导图像块筛选的多模态表征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421591A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726721A (zh) * | 2024-02-08 | 2024-03-19 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117874706A (zh) * | 2024-03-12 | 2024-04-12 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN117975486A (zh) * | 2024-03-29 | 2024-05-03 | 厦门大学 | 基于文本图像的产品摘要生成方法、系统和存储介质 |
CN117874706B (zh) * | 2024-03-12 | 2024-05-31 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
-
2023
- 2023-10-16 CN CN202311334146.5A patent/CN117421591A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726721A (zh) * | 2024-02-08 | 2024-03-19 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117726721B (zh) * | 2024-02-08 | 2024-04-30 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117874706A (zh) * | 2024-03-12 | 2024-04-12 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN117874706B (zh) * | 2024-03-12 | 2024-05-31 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN117975486A (zh) * | 2024-03-29 | 2024-05-03 | 厦门大学 | 基于文本图像的产品摘要生成方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Deep hierarchical encoder–decoder network for image captioning | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN112819013A (zh) | 基于层内层间联合全局表示的图像描述方法 | |
CN114861600A (zh) | 一种面向ner的中文临床文本数据增强方法及装置 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
Zhu et al. | Multi-scale temporal network for continuous sign language recognition | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113423004A (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN117235114A (zh) | 基于跨模态语义与混合反事实训练的检索方法 | |
CN113837233A (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
CN116186312A (zh) | 用于数据敏感信息发现模型的多模态数据增强方法 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN115659172A (zh) | 基于关键信息掩码与拷贝的生成式文本摘要方法 | |
CN115291888A (zh) | 基于自注意力交互式网络的软件社区仓库挖掘方法及装置 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
Zhou et al. | Joint scence network and attention-guided for image captioning | |
CN115587160B (zh) | 一种基于自注意力机制的短语级文本图像生成方法及系统 | |
Kumar et al. | Molecular-InChI: Automated Recognition of Optical Chemical Structure | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN112613316B (zh) | 一种生成古汉语标注模型的方法和系统 | |
CN118038497A (zh) | 一种基于sam的文本信息驱动的行人检索方法及系统 | |
Huang et al. | A Seq2seq-based Model with Global Semantic Context for Scene Text Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |