CN112905827B - 跨模态图文匹配的方法、装置及计算机可读存储介质 - Google Patents

跨模态图文匹配的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112905827B
CN112905827B CN202110183075.8A CN202110183075A CN112905827B CN 112905827 B CN112905827 B CN 112905827B CN 202110183075 A CN202110183075 A CN 202110183075A CN 112905827 B CN112905827 B CN 112905827B
Authority
CN
China
Prior art keywords
similarity
image
cross
sentence
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110183075.8A
Other languages
English (en)
Other versions
CN112905827A (zh
Inventor
张勇东
张天柱
史张翔
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110183075.8A priority Critical patent/CN112905827B/zh
Publication of CN112905827A publication Critical patent/CN112905827A/zh
Application granted granted Critical
Publication of CN112905827B publication Critical patent/CN112905827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨模态图文匹配的方法、装置及计算机可读存储介质,方法包括:获取图像特征向量和句子特征向量;利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语和句子内的句子特征向量的上下文信息获得文本短语;计算视觉短语和文本短语的模态内相似度;通过交叉注意力层获取视觉短语在文本语义空间的特征表示和文本短语在视觉语义空间的特征表示,计算获得图像到句子的跨模态相似度和句子到图像的跨模态相似度;根据预设权重、模态内相似度和跨模态相似度计算获得图像到句子的综合相似度和句子到图像的综合相似度;根据综合相似度获得图像与句子的关联结果,本发明提供的方法具有匹配速度快、匹配准确性高的特点。

Description

跨模态图文匹配的方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种基于短语注意力建模的跨模态图文匹配的方法、装置及计算机可读存储介质。
背景技术
图文匹配旨在找出图像和文本之间的对应关系,在智能交互、跨模态检索、视觉问答等领域有广泛的应用。
传统的图文匹配方法通常利用监督信息将深层网络输出的图像和文本的数据特征进行关联。早期的方法主要基于全局图像文本特征,近年来许多细粒度特征关联的方法也被提出,并取得了较为显著的成果,这些方法大多基于区域特征向量提取网络和单词特征,并利用注意力机制将视觉区域特征向量和文本单词特征关联。
上述方法一般关注图像区域和句子单词的对应性,但是却忽略了跨模态对应性应该在更高的语义层面进行。即单个的区域和单词之间可能并不存在一个准确的对应关系,相反地,图文之间的整体对应性应该考虑文本短语和多个区域聚合特征(视觉短语)的关系,因此,现有技术中的图文匹配普遍存在着匹配速度慢,匹配准确度低的缺陷。
发明内容
为了解决上述技术问题,提高图文匹配的匹配速度和匹配准确度,本发明公开了一种跨模态图文匹配的方法。
一种跨模态图文匹配的方法,包括:
获取图像的图像特征向量和句子的句子特征向量;
利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语,利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语;
计算所述视觉短语和所述文本短语的模态内相似度;
通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示,通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度;
通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示,通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度;
根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度;
根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度;以及
根据所述第一综合相似度和/或所述第二综合相似度获得所述图像与所述句子的关联结果;
其中,所述文本语义空间包括所有所述句子特征向量,所述视觉语义空间包括所有所述图像特征向量。
根据本发明的一些实施例,获取图像的图像特征向量包括:通过第一预训练模型检测所述图像并提取多个区域特征,通过全连接层将每个所述区域特征降维获得所述图像特征向量;
获取句子的句子特征向量包括:通过第二预训练模型提取句子的单词片段的上下文,获得多个单词表示为所述句子特征向量。
根据本发明的一些实施例,所述利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语包括:通过transformer模型的编码器获得多个所述图像特征向量之间的两两注意力关系,并利用注意力机制将每个所述图像特征向量聚合成所述视觉短语;以及
所述利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语包括:通过一维卷积神经网络对两个或三个或多个相邻单词进行聚合获得所述文本短语。
根据本发明的一些实施例,所述通过transformer模型的编码器获得多个所述图像特征向量之间的两两注意力关系,并利用注意力机制将每个所述图像特征向量聚合成所述视觉短语包括:计算每个所述图像特征向量的查询、键和值向量,在单个注意力头使用所述查询和所述键计算相似度权值,根据所述相似度权值对所述值向量加权,将每个注意力头得到的加权结果进行拼接,将拼接结果通过全连接层处理得到所述视觉短语。
根据本发明的一些实施例,所述计算所述视觉短语和所述文本短语的模态内相似度包括:计算每个所述视觉短语与每个文本短语的相似度,选取相似度最高的k个求平均值,将获得的平均值作为所述模态内相似度,其中,k为大于1的整数。
根据本发明的一些实施例,所述通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示包括:将所述视觉短语通过交叉注意力层映射到所述文本语义空间获得所述第一特征表示;
通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示包括:将所述文本短语通过交叉注意力层映射到所述视觉语义空间获得所述第二特征表示。
根据本发明的一些实施例,所述通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度包括:计算所述文本短语与所述第一特征表示之间的余弦相似度,取余弦相似度最高的x个的平均值为所述第二跨模态相似度;
所述通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度包括:计算所述视觉短语与所述第二特征表示之间的余弦相似度,取余弦相似度最高的y个的平均值为所述第二跨模态相似度;
其中,x、y均为大于1的整数。
根据本发明的一些实施例,根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度包括:将第一预设权重与所述模态内相似度相乘,将第三预设权重与所述第一跨模态相似度相乘,将两个乘积求和得到所述第一综合相似度;
根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度包括:将第二预设权重与所述模态内相似度相乘,将第四预设权重与所述第二跨模态相似度相乘,将两个乘积求和得到所述第二综合相似度。
本发明还公开了一种跨模态图文匹配的装置,包括:
特征提取模块,用于获取图像的图像特征向量和句子的句子特征向量;
模态内注意力模块,利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语,利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语;
跨模态注意力模块,通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示,通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示;
第一计算模块,通过所述视觉短语和所述文本短语计算模态内相似度,通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度;通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度;
第二计算模块,根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度;根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度;以及
检索模块,根据所述第一综合相似度或所述第二综合相似度获得所述图像与所述句子的关联结果;
其中,所述文本语义空间包括所有所述句子特征向量,所述视觉语义空间包括所有所述图像特征向量。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被处理器执行时实现权利要求1-8任一项所述的方法。
通过上述技术方案,本发明通过对图像的特征和句子的特征先通过模态内注意力获得上下文信息,获得模态内的相似度,然后通过跨模态注意力进行对应,获得跨模态的相似度,最后通过模态内相似度和跨模态相似度的加权和进行图文的匹配,与现有技术相比,本发明公开的方法能通过端到端的方式训练网络自动学习到模态内和跨模态的注意力,并使用注意力机制自动聚合得到视觉短语和文本短语,并在短语这种相对单个区域或单词有更高阶语义信息的模态表示的基础上通过交叉模态注意力对齐并更新特征表示,最后利用更新后的特征表示计算图像-文本和文本-图像相似度,利用相似度在Flickr30K(数据集)和MSCOCO(数据集)两个执行跨模态检索,极大地提高了匹配速度和匹配准确性。
附图说明
图1示意性示出了本公开实施例的跨模态图文匹配的方法的流程图;
图2示意性示出了本公开实施例的跨模态图文匹配的方法框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在,但是并不排除存在或添加一个或多个其他特征。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释,例如,Faster R-CNN,是何凯明等在2015年提出目标检测算法,在fast rcnn基础上提出了RPN候选框生成算法,使得目标检测速度大大提高;又例如,表示学习,又称学习表示,在深度学习领域内,表示是指通过模型的参数,采用何种形式、何种方式来表示模型的输入观测样本X,表示学习指学习对观测样本X有效的表示,表示学习有很多种形式,比如CNN(卷积神经网络)参数的有监督训练是一种有监督的表示学习形式,对自动编码器和限制玻尔兹曼机参数的无监督预训练是一种无监督的表示学习形式,对DBN(深度信念网络)参数-先进行无监督预训练,再进行有监督fine-tuning(微调)-是一种半监督的共享表示学习形式。
为了解决上述技术问题,提高图文匹配的匹配速度和匹配准确度,本发明公开了一种跨模态图文匹配的方法。
图1示意性示出了本公开实施例的跨模态图文匹配的方法的流程图。
本发明公开了一种跨模态图文匹配的方法,如图1所示,包括步骤S1、步骤S2、步骤S3、步骤S4和步骤S5,其中,步骤S3包括平行的步骤S31、步骤S32和步骤S33,步骤S4包括并行的步骤S41和步骤S42。
根据本发明的一些实施例,步骤S1包括:获取图像的图像特征向量和句子的句子特征向量。
根据本发明的一些实施例,步骤S2包括:利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语,利用注意力机制聚合句子内的句子特征向量的上下文信息获得文本短语;
根据本发明的一些实施例,步骤S31包括:计算视觉短语和文本短语的模态内相似度。
根据本发明的一些实施例,步骤S32包括:通过交叉注意力层获取视觉短语在文本语义空间的第一特征表示,通过文本短语和第一特征表示计算获得图像到句子的第一跨模态相似度。
根据本发明的一些实施例,步骤S33包括:通过交叉注意力层获取文本短语在视觉语义空间的第二特征表示,通过视觉短语和第二特征表示计算获得句子到图像的第二跨模态相似度。
根据本发明的一些实施例,步骤S41包括:根据第一预设权重、模态内相似度和第一跨模态相似度计算获得图像到句子的第一综合相似度。
根据本发明的一些实施例,步骤S42包括:根据第二预设权重、模态内相似度和第二跨模态相似度计算获得句子到图像的第二综合相似度。
根据本发明的一些实施例,步骤S5包括:根据第一综合相似度和/或第二综合相似度获得图像与句子的关联结果。
根据本发明的一些实施例,文本语义空间包括所有句子特征向量,视觉语义空间包括所有图像特征向量。
根据本发明的一些实施例,图像特征向量和句子特征向量为细粒度特征,包括图像区域和句子单词。
根据本发明的一些实施例,获取图像的图像特征向量包括:通过第一预训练模型检测图像并提取多个区域特征,通过全连接层将每个区域特征降维获得图像特征向量。
根据本发明的一些实施例,使用预训练的bottom-up attention模型(自下而上注意力模型),检测并提取m个区域特征向量,再利用FC层(全连接层)将m个区域特征向量降维获得图像特征向量,m为大于1的整数。
根据本发明的一些实施例,预训练的bottom-up attention模型为针对图像字幕任务训练的目标检测网络Faster R-CNN。
根据本发明的一些实施例,获取句子的句子特征向量包括:通过第二预训练模型提取句子的单词片段的上下文,获得多个单词表示为句子特征向量。
根据本发明的一些实施例,使用预训练BERT模型(基于变换器的双向编码器表示技术)为单词片段提取上下文表示,共获得n个单词表示。
根据本发明的一些实施例,通过上述方法的到的图文表示如下:
i1={r1;r2;…;rm},
c1={w1;w2;…;wn}
其中,ri为第i个区域的区域特征向量,i1为整个图像的细粒度特征表示;wj为第j个词语的特征向量,c1为整个句子的细粒度特征表示,i、j均为大于1的整数。
根据本发明的一些实施例,聚合了上下文信息的特征表示为短语,如视觉短语和文本短语。
根据本发明的一些实施例,利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语包括:通过transformer模型的编码器获得多个图像特征向量(ri,i=1,...,m)之间的两两注意力关系,并利用注意力机制将每个图像特征向量ri聚合成视觉短语。
根据本发明的一些实施例,transformer模型的具体工作机制如下:
Qj=i1Wj Q
Kj=i1Wj K
Vj=i1Wj V
其中,Qj为第j个区域特征向量的查询,Kj为第j个区域特征向量的键,Vj为第j个区域特征向量的值向量,Wj Q、Wj K、Wj V为线性映射的可学习参数,分别将图像i1映射到它的查询、键和值;
headj=Attention(Qj,Kj,Vj)
MultiHead(i1)=concat(head1,...,headh)WO
其中,Attention(·)代表一个注意力头的运算,softmax(·)为归一化指数函数,headj为第j个注意力头的计算,MultiHead(·)为多头注意力的计算,concat(·)代表将h个注意力头的计算结果连接起来,WO为线性映射的可学习参数。
具体的,计算每个区域特征向量的查询(Qj)、键(Kj)和值向量(Vj),再利用多头注意力机制(MultiHead),在单个注意力头(headj)上使用查询Qj和键Kj计算的相似度权值对值向量Vj进行加权,把所有单个注意力头(headj)得到的加权结果拼接起来后通过FC层得到视觉短语。
根据本发明的一些实施例,利用注意力机制聚合句子内的句子特征向量的上下文信息获得文本短语包括:通过一维卷积神经网络对两个或三个或多个相邻单词进行聚合获得文本短语。
根据本发明的一些实施例,使用1d CNN(一维卷积神经网络)建模2到3个相邻的单词聚合的文本短语,具体如下:
pl,k=ReLU(Wlwk:k+l-1+bl),l=1,2,3,
ql=max{pl,1,...,pl,n},l=1,2,3,
c0=LayerNorm(Weconcat(q1,q2,q3)+be)
其中,pl,k为窗口大小为l的1d CNN在文字位置k的输出,ReLU(·)为线性整流函数,bl为卷积核中的偏置,Wl为卷积核中的权重参数,wk:k+l-1代表第k到第k+l-1个词语的特征向量,ql为窗口大小为l的1d CNN的输出,建模了连续l个单词的短语,max{·}为在1dCNN的n个文字位置的输出向量的每一维上选取最大的数字,c0为句子的整体特征表示向量,LayerNorm(·)为层归一化操作,We为线性映射的可学习参数,be为可学习偏置。
根据本发明的一些实施例,通过transformer模型的编码器获得多个图像特征向量之间的两两注意力关系,并利用注意力机制将每个图像特征向量聚合成视觉短语包括:计算每个图像特征向量的查询、键和值向量,在单个注意力头使用查询和键计算相似度权值,根据相似度权值对值向量加权,将每个注意力头得到的加权结果进行拼接,将拼接结果通过全连接层处理得到视觉短语。
根据本发明的一些实施例,计算视觉短语和文本短语的模态内相似度包括:计算每个视觉短语与句子的全局文本短语表示的相似度,选取相似度最高的K个求平均值,将获得的平均值作为模态内相似度,其中,K为大于1的整数。
根据本发明的一些实施例,模态内相似度的计算公式如下:
其中,S(i0,c0)为图像和句子的模态内相似度,r′k为前面通过多头注意力公式MultiHead(i1)得到的一组视觉短语中的第k个视觉短语,c0为句子的全局文本短语表示。
具体的,首先计算每个r′k和c0的余弦相似度,然后选取最高的前K个(topKk)余弦相似度求平均值,将计算得到的平均值来作为整体相似度(即,模态内相似度)。
根据本发明的一些实施例,利用transformer decoder(解码器)来建模跨模态注意力机制,并为图像和文本匹配和设计了T2I分支和12T分支。
根据本发明的一些实施例,通过交叉注意力层获取视觉短语在文本语义空间的第一特征表示包括:将视觉短语通过交叉注意力层映射到文本语义空间获得第一特征表示。
根据本发明的一些实施例,在I2T分支中,只用于计算图像到句子的相似度。具体的,图像i1通过模态内的自注意力层来获得视觉短语,视觉短语在交叉注意力层关注句子词语,然后利用注意力聚合区域得到视觉短语在文本语义空间的第一特征表示。
根据本发明的一些实施例,获取视觉短语在文本语义空间的第一特征表示如下:
I2T_i1={vp1;vp2;…;vpm}
其中,I2T_i1为第一特征表示,vpm为第m个视觉短语在在文本语义空间的第一特征表示。
根据本发明的一些实施例,通过交叉注意力层获取文本短语在视觉语义空间的第二特征表示包括:将文本短语通过交叉注意力层映射到视觉语义空间获得第二特征表示。
根据本发明的一些实施例,在T2I分支中,首先,将句子c1通过模态内的自注意力层来获得文本短语,然后将文本短语在交叉注意力层关注图像区域,然后利用注意力聚合区域得到文本短语在视觉语义空间的第二特征表示。
根据本发明的一些实施例,在获得第二特征表示的时候,交叉注意力层的实现和encoder(编码)基本一致,但是,其中的查询向量通过文本短语进行计算,而键和值向量则由图像区域特征向量进行计算,即可完成跨模态注意。
根据本发明的一些实施例,获取文本短语在视觉语义空间的第二特征表示如下:
T2I_c1={tp1;tp2;…;tpn}
其中,T2I_c1为第二特征表示,tpn为第n个文本短语在视觉语义空间的第二特征表示。
根据本发明的一些实施例,通过文本短语和第一特征表示计算获得图像到句子的第一跨模态相似度包括:计算每个文本短语与第一特征表示中每个视觉短语之间的余弦相似度,对第一特征表示中的每个表示在文本语义空间的视觉短语,取其到所有文本短语的余弦相似度的最大值作为其到整个句子的相似度,最后取其中最高的x个的平均值为第一跨模态相似度;其中,x为大于1的整数。
根据本发明的一些实施例,获取第一跨模态相似度包括:
其中,S(c1,I2T_i1)为第一跨模态相似度,A为余弦相似度矩阵,A(k,l)代表第k个文本短语和第l个视觉短语的余弦相似度。
具体的,计算wk和vpl之间的余弦相似度,然后对每个视觉短语vpl,取A(*,l)(即矩阵A的第l列)中的最大值作为该视觉短语到句子的相似度,最后选取所有视觉短语到句子相似度中最高的前K个相似度求平均值,将计算获得的平均值来作为第一跨模态相似度。
根据本发明的一些实施例,通过视觉短语和第二特征表示计算获得句子到图像的第二跨模态相似度包括:计算每个视觉短语与第二特征表示中每个文本短语之间的余弦相似度,对第二特征表示中的每个表示在视觉语义空间的文本短语,取其到所有视觉短语的余弦相似度的最大值作为其到整个图像的相似度,最后取其中最高的y个的平均值为第二跨模态相似度;其中,y为大于1的整数。
根据本发明的一些实施例,获取第二跨模态相似度包括:
其中,S(i1,T2I_c1)为第二跨模态相似度,A为余弦相似度矩阵,A(k,l)代表第k个视觉短语和第l个文本短语的余弦相似度。
具体的,计算rk和tpl之间的余弦相似度,然后对每个文本短语tpl,取A(*,l)(即矩阵A的第l列)中的最大值作为该文本短语到图像的相似度,最后选取所有文本短语到图像相似度中最高的前K个相似度求平均值,将计算获得的平均值来作为第二跨模态相似度。
根据本发明的一些实施例,根据第一预设权重、模态内相似度和第一跨模态相似度计算获得图像到句子的第一综合相似度包括:将第一预设权重与模态内相似度相乘,将第三预设权重与第一跨模态相似度相乘,将两个乘积求和得到第一综合相似度。
根据本发明的一些实施例,根据第二预设权重、模态内相似度和第二跨模态相似度计算获得句子到图像的第二综合相似度包括:将第二预设权重与模态内相似度相乘,将第四预设权重与第二跨模态相似度相乘,将两个乘积求和得到第二综合相似度。
根据本发明的一些实施例,将i1和T2I_c1堆叠起来成为{r1;r2;…;rm;tp1;tp2;…;tpn},然后通过transformer encoder来进一步捕捉高阶的注意力,具体的,包括通过模态内注意力更新和跨模态注意力更新,具体更新方法与上述跨模态图文匹配的方法一致,在此不进行过多的赘述。
图2示意性示出了本公开实施例的跨模态图文匹配的方法框架图。
本发明还公开了一种跨模态图文匹配的装置,如图2所示,包括特征提取模块、模态内注意力模块、跨模态注意力模块、第一计算模块、第二计算模块和检索模块。其中,更具体地,模态内注意力模块包括图像模态内注意力模块和句子模态内注意力模块。
根据本发明的一些实施例,特征提取模块用于获取图像的图像特征向量和句子的句子特征向量。
根据本发明的一些实施例,特征提取模块通过第一预训练模型检测图像并提取多个区域特征,通过全连接层将每个区域特征降维获得图像特征向量;特征提取模块通过第二预训练模型提取句子的单词片段的上下文,获得多个单词表示为句子特征向量。
根据本发明的一些实施例,特征提取模块包括预训练的Faster R-CNN模型和预训练的BERT模型,其中,Faster R-CNN模型提取图像中的特征表示i1,BERT模型提取句子中的特征表示c1
根据本发明的一些实施例,模态内注意力模块利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语,利用注意力机制聚合句子内的句子特征向量的上下文信息获得文本短语。
根据本发明的一些实施例,模态内注意力模块通过transformer模型的编码器获得多个图像特征向量之间的两两注意力关系,并利用注意力机制将每个图像特征向量聚合成视觉短语;模态内注意力模块通过一维卷积神经网络对一个或两个或三个相邻单词进行聚合获得文本短语。
根据本发明的一些实施例,模态内注意力模块利用每个图像特征向量的查询、键和值向量,在单个注意力头使用查询和键计算相似度权值,根据相似度权值对值向量加权,将所有单个注意力头得到的加权结果进行拼接,将拼接结果通过全连接层处理得到视觉短语。
根据本发明的一些实施例,模态内注意力模块利用图像内注意力和文本内注意力分别为图像和文本建模各自的注意力增强的特征表示。
根据本发明的一些实施例,图像模态内注意力模块内,视觉短语通过自身注意力处理获得i0
根据本发明的一些实施例,句子模态内注意力模块内,文本短语通过1d CNN(一维卷积神经网络)建模1到3个相邻的单词聚合的文本短语,也即获得c0
根据本发明的一些实施例,跨模态注意力模块通过交叉注意力层获取视觉短语在文本语义空间的第一特征表示,通过交叉注意力层获取文本短语在视觉语义空间的第二特征表示。
根据本发明的一些实施例,跨模态注意力模块通过将视觉短语通过交叉注意力层映射到文本语义空间获得第一特征表示;跨模态注意力模块通过将文本短语通过交叉注意力层映射到视觉语义空间获得第二特征表示。
根据本发明的一些实施例,第一计算模块通过视觉短语和文本短语计算模态内相似度,通过文本短语和第一特征表示计算获得图像到句子的第一跨模态相似度;通过视觉短语和第二特征表示计算获得句子到图像的第二跨模态相似度。
根据本发明的一些实施例,第一计算模块通过计算每个视觉短语与句子的全局文本短语表示的相似度,选取相似度最高的K个求平均值,将获得的平均值作为模态内相似度,其中,K为大于1的整数
根据本发明的一些实施例,第一计算模块通过计算文本短语与第一特征表示中视觉短语之间的余弦相似度,对每个视觉短语,取其到所有文本短语的相似度的最大值作为其到整个句子的相似度,最后取其中最高的x个的平均值为第一跨模态相似度;其中,x为大于1的整数。
根据本发明的一些实施例,第一计算模块通过计算视觉短语与第二特征表示中文本短语之间的余弦相似度,对每个文本短语,取其到所有视觉短语的相似度的最大值作为其到整个图像的相似度,最后取其中最高的y个的平均值为第二跨模态相似度;其中,y为大于1的整数。
根据本发明的一些实施例,在跨模态注意力模块中,通过查询、键、值向量配合图-文短语注意力(文-图短语注意力)获得图像表示和句子表示。
根据本发明的一些实施例,第二计算模块根据第一预设权重、模态内相似度和第一跨模态相似度计算获得图像到句子的第一综合相似度;根据第二预设权重、模态内相似度和第二跨模态相似度计算获得句子到图像的第二综合相似度。
根据本发明的一些实施例,第二计算模块将第一预设权重与模态内相似度相乘,将第三预设权重与第一跨模态相似度相乘,将两个乘积求和得到第一综合相似度。
根据本发明的一些实施例,第二计算模块将第二预设权重与模态内相似度相乘,将第四预设权重与第二跨模态相似度相乘,将两个乘积求和得到第二综合相似度。
根据本发明的一些实施例,检索模块根据第一综合相似度或第二综合相似度获得图像与句子的关联结果根据本发明的一些实施例,
根据本发明的一些实施例,文本语义空间包括所有句子特征向量,视觉语义空间包括所有图像特征向量。
本发明还公开了一种计算机可读存储介质,计算机可读存储介质上存储有程序,程序被处理器执行时实现上述的跨模态图文匹配的方法。
通过上述技术方案,本发明通过对图像的特征和句子的特征先通过模态内注意力获得上下文信息,获得模态内的相似度,然后通过跨模态注意力进行对应,获得跨模态的相似度,最后通过模态内相似度和跨模态相似度的加权和进行图文的匹配,与现有技术相比,本发明公开的方法能通过端到端的方式训练网络自动学习到模态内和跨模态的注意力,并使用注意力机制自动聚合得到视觉短语和文本短语,并在短语这种相对单个区域或单词有更高阶语义信息的模态表示的基础上通过交叉模态注意力对齐并更新特征表示,最后利用更新后的特征表示计算图像-文本和文本-图像相似度,利用相似度在Flickr30K(数据集)和MSCOCO(数据集)两个测试集上执行跨模态检索,极大地提高了匹配速度和匹配准确性。
本发明公开的跨模态图文匹配的方法可以应用于图文双向检索任务。具体来说,在图文相互检索任务中,给定一张图像,则需要找出句子候选集中与之对应的可以描述这张图像的句子。通过本发明公开的跨模态图文匹配的方法,可以将图像和句子按照神经网络批处理的形式成对的输入网络,对这张图像和所有的句子,都可以计算成对相似度,最后可以选取相似度最高对应的句子作为最适合描述这张图像的句子。
本发明公开的跨模态图文匹配的方法还可以应用在网络图像精确搜索。具体的,过本发明公开的跨模态图文匹配的方法,用户在终端输入一句描述图像的句子,服务器可以将这个句子和数据库中候选图像进行匹配并计算成对相似度,再将候选图像按照相似度从高到第的顺序返回给用户,实现网络图像精确搜索。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
还需要说明的是,在本公开的具体实施例中,除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本公开的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字,应理解为在所有情况中是受到“约”的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种跨模态图文匹配的方法,其特征在于,包括:
获取图像的图像特征向量和句子的句子特征向量;
利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语,包括:计算每个所述图像特征向量的查询、键和值向量,在单个注意力头使用所述查询和所述键计算相似度权值,根据所述相似度权值对所述值向量加权,将每个注意力头得到的加权结果进行拼接,将拼接结果通过全连接层处理得到所述视觉短语;利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语,包括:通过一维卷积神经网络对一个或两个或三个相邻单词进行聚合获得所述文本短语;
计算所述视觉短语和所述文本短语的模态内相似度;
通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示,通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度;
通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示,通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度;
根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度;
根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度;以及
根据所述第一综合相似度和/或所述第二综合相似度获得所述图像与所述句子的关联结果;
其中,所述文本语义空间包括所有所述句子特征向量,所述视觉语义空间包括所有所述图像特征向量。
2.根据权利要求1所述方法,其特征在于,
获取图像的图像特征向量包括:通过第一预训练模型检测所述图像并提取多个区域特征,通过全连接层将每个所述区域特征降维获得所述图像特征向量;
获取句子的句子特征向量包括:通过第二预训练模型提取句子的单词片段的上下文,获得多个单词表示为所述句子特征向量。
3.根据权利要求1所述方法,其特征在于,所述计算所述视觉短语和所述文本短语的模态内相似度包括:计算每个所述视觉短语与每个文本短语的相似度,选取相似度最高的k个求平均值,将获得的平均值作为所述模态内相似度,其中,k为大于1的整数。
4.根据权利要求1所述方法,其特征在于,
所述通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示包括:将所述视觉短语通过交叉注意力层映射到所述文本语义空间获得所述第一特征表示;
通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示包括:将所述文本短语通过交叉注意力层映射到所述视觉语义空间获得所述第二特征表示。
5.根据权利要求4所述方法,其特征在于,
所述通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度包括:计算所述文本短语与所述第一特征表示之间的余弦相似度,取余弦相似度最高的x个的平均值为所述第二跨模态相似度;
所述通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度包括:计算所述视觉短语与所述第二特征表示之间的余弦相似度,取余弦相似度最高的y个的平均值为所述第二跨模态相似度;
其中,x、y均为大于1的整数。
6.根据权利要求1所述方法,其特征在于,
根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度包括:将第一预设权重与所述模态内相似度相乘,将第三预设权重与所述第一跨模态相似度相乘,将两个乘积求和得到所述第一综合相似度;
根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度包括:将第二预设权重与所述模态内相似度相乘,将第四预设权重与所述第二跨模态相似度相乘,将两个乘积求和得到所述第二综合相似度。
7.一种跨模态图文匹配的装置,其特征在于,包括:
特征提取模块,用于获取图像的图像特征向量和句子的句子特征向量;
模态内注意力模块,利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语,包括:计算每个所述图像特征向量的查询、键和值向量,在单个注意力头使用所述查询和所述键计算相似度权值,根据所述相似度权值对所述值向量加权,将每个注意力头得到的加权结果进行拼接,将拼接结果通过全连接层处理得到所述视觉短语;利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语,包括:通过一维卷积神经网络对一个或两个或三个相邻单词进行聚合获得所述文本短语;
跨模态注意力模块,通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示,通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示;
第一计算模块,通过所述视觉短语和所述文本短语计算模态内相似度,通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度;通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度;
第二计算模块,根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度;根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度;以及
检索模块,根据所述第一综合相似度或所述第二综合相似度获得所述图像与所述句子的关联结果;
其中,所述文本语义空间包括所有所述句子特征向量,所述视觉语义空间包括所有所述图像特征向量。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1-6任一项所述的方法。
CN202110183075.8A 2021-02-08 2021-02-08 跨模态图文匹配的方法、装置及计算机可读存储介质 Active CN112905827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110183075.8A CN112905827B (zh) 2021-02-08 2021-02-08 跨模态图文匹配的方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110183075.8A CN112905827B (zh) 2021-02-08 2021-02-08 跨模态图文匹配的方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112905827A CN112905827A (zh) 2021-06-04
CN112905827B true CN112905827B (zh) 2024-02-27

Family

ID=76124441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110183075.8A Active CN112905827B (zh) 2021-02-08 2021-02-08 跨模态图文匹配的方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112905827B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392196B (zh) * 2021-06-04 2023-04-21 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113469197B (zh) * 2021-06-29 2024-03-22 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质
CN114241191A (zh) * 2021-12-19 2022-03-25 西北工业大学 一种基于跨模态自注意力的无候选框指代表达理解方法
CN114492451B (zh) * 2021-12-22 2023-10-24 马上消费金融股份有限公司 文本匹配方法、装置、电子设备及计算机可读存储介质
CN114462356B (zh) * 2022-04-11 2022-07-08 苏州浪潮智能科技有限公司 一种文本纠错方法、装置、电子设备和介质
CN114625910B (zh) * 2022-05-13 2022-08-19 中国科学技术大学 基于负感知注意力框架的图像文本跨模态检索方法
CN114972910B (zh) * 2022-05-20 2023-05-23 北京百度网讯科技有限公司 图文识别模型的训练方法、装置、电子设备及存储介质
CN114996425A (zh) * 2022-06-17 2022-09-02 平安科技(深圳)有限公司 视觉问答的方法、装置、设备及介质
CN115171838B (zh) * 2022-08-24 2023-04-07 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN115587160B (zh) * 2022-09-14 2023-05-12 山东财经大学 一种基于自注意力机制的短语级文本图像生成方法及系统
CN115270754B (zh) * 2022-09-19 2023-02-24 科大讯飞(苏州)科技有限公司 跨模态匹配方法及相关装置、电子设备、存储介质
CN115456176B (zh) * 2022-10-10 2023-07-21 延边大学 一种基于知识增强的文本匹配方法及系统
CN116431767B (zh) * 2023-04-21 2024-01-16 北京百度网讯科技有限公司 文本图像查询方法、装置、电子设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651661A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种图文跨媒体检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384241B2 (en) * 2011-11-24 2016-07-05 Microsoft Technology Licensing, Llc Reranking using confident image samples

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651661A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种图文跨媒体检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭浩 ; 许伟 ; 卢凯 ; 唐球 ; .基于CNN和BiLSTM的短文本相似度计算方法.信息技术与网络安全.2019,(06),全文. *

Also Published As

Publication number Publication date
CN112905827A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112905827B (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN111563149B (zh) 一种用于中文知识图谱问答系统的实体链接方法
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN112115253B (zh) 基于多视角注意力机制的深度文本排序方法
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN109190521B (zh) 一种基于知识提纯的人脸识别模型的构建方法及应用
CN110569869A (zh) 一种用于多模态情绪检测的特征级融合方法
CN114461821A (zh) 一种基于自注意力推理的跨模态图文互索方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答系统构建方法
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN112269892A (zh) 一种基于多模态多层次统一交互的短语定位识别方法
CN116662591A (zh) 一种基于对比学习的鲁棒视觉问答模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant