CN112905827B

CN112905827B - 跨模态图文匹配的方法、装置及计算机可读存储介质

Info

Publication number: CN112905827B
Application number: CN202110183075.8A
Authority: CN
Inventors: 张勇东; 张天柱; 史张翔; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2024-02-27
Anticipated expiration: 2041-02-08
Also published as: CN112905827A

Abstract

本发明公开了一种跨模态图文匹配的方法、装置及计算机可读存储介质，方法包括：获取图像特征向量和句子特征向量；利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语和句子内的句子特征向量的上下文信息获得文本短语；计算视觉短语和文本短语的模态内相似度；通过交叉注意力层获取视觉短语在文本语义空间的特征表示和文本短语在视觉语义空间的特征表示，计算获得图像到句子的跨模态相似度和句子到图像的跨模态相似度；根据预设权重、模态内相似度和跨模态相似度计算获得图像到句子的综合相似度和句子到图像的综合相似度；根据综合相似度获得图像与句子的关联结果，本发明提供的方法具有匹配速度快、匹配准确性高的特点。

Description

跨模态图文匹配的方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于短语注意力建模的跨模态图文匹配的方法、装置及计算机可读存储介质。

背景技术

图文匹配旨在找出图像和文本之间的对应关系，在智能交互、跨模态检索、视觉问答等领域有广泛的应用。

传统的图文匹配方法通常利用监督信息将深层网络输出的图像和文本的数据特征进行关联。早期的方法主要基于全局图像文本特征，近年来许多细粒度特征关联的方法也被提出，并取得了较为显著的成果，这些方法大多基于区域特征向量提取网络和单词特征，并利用注意力机制将视觉区域特征向量和文本单词特征关联。

上述方法一般关注图像区域和句子单词的对应性，但是却忽略了跨模态对应性应该在更高的语义层面进行。即单个的区域和单词之间可能并不存在一个准确的对应关系，相反地，图文之间的整体对应性应该考虑文本短语和多个区域聚合特征(视觉短语)的关系，因此，现有技术中的图文匹配普遍存在着匹配速度慢，匹配准确度低的缺陷。

发明内容

为了解决上述技术问题，提高图文匹配的匹配速度和匹配准确度，本发明公开了一种跨模态图文匹配的方法。

一种跨模态图文匹配的方法，包括：

获取图像的图像特征向量和句子的句子特征向量；

利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语，利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语；

计算所述视觉短语和所述文本短语的模态内相似度；

通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示，通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度；

通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示，通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度；

根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度；

根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度；以及

根据所述第一综合相似度和/或所述第二综合相似度获得所述图像与所述句子的关联结果；

其中，所述文本语义空间包括所有所述句子特征向量，所述视觉语义空间包括所有所述图像特征向量。

根据本发明的一些实施例，获取图像的图像特征向量包括：通过第一预训练模型检测所述图像并提取多个区域特征，通过全连接层将每个所述区域特征降维获得所述图像特征向量；

获取句子的句子特征向量包括：通过第二预训练模型提取句子的单词片段的上下文，获得多个单词表示为所述句子特征向量。

根据本发明的一些实施例，所述利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语包括：通过transformer模型的编码器获得多个所述图像特征向量之间的两两注意力关系，并利用注意力机制将每个所述图像特征向量聚合成所述视觉短语；以及

所述利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语包括：通过一维卷积神经网络对两个或三个或多个相邻单词进行聚合获得所述文本短语。

根据本发明的一些实施例，所述通过transformer模型的编码器获得多个所述图像特征向量之间的两两注意力关系，并利用注意力机制将每个所述图像特征向量聚合成所述视觉短语包括：计算每个所述图像特征向量的查询、键和值向量，在单个注意力头使用所述查询和所述键计算相似度权值，根据所述相似度权值对所述值向量加权，将每个注意力头得到的加权结果进行拼接，将拼接结果通过全连接层处理得到所述视觉短语。

根据本发明的一些实施例，所述计算所述视觉短语和所述文本短语的模态内相似度包括：计算每个所述视觉短语与每个文本短语的相似度，选取相似度最高的k个求平均值，将获得的平均值作为所述模态内相似度，其中，k为大于1的整数。

根据本发明的一些实施例，所述通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示包括：将所述视觉短语通过交叉注意力层映射到所述文本语义空间获得所述第一特征表示；

通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示包括：将所述文本短语通过交叉注意力层映射到所述视觉语义空间获得所述第二特征表示。

根据本发明的一些实施例，所述通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度包括：计算所述文本短语与所述第一特征表示之间的余弦相似度，取余弦相似度最高的x个的平均值为所述第二跨模态相似度；

所述通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度包括：计算所述视觉短语与所述第二特征表示之间的余弦相似度，取余弦相似度最高的y个的平均值为所述第二跨模态相似度；

其中，x、y均为大于1的整数。

根据本发明的一些实施例，根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度包括：将第一预设权重与所述模态内相似度相乘，将第三预设权重与所述第一跨模态相似度相乘，将两个乘积求和得到所述第一综合相似度；

根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度包括：将第二预设权重与所述模态内相似度相乘，将第四预设权重与所述第二跨模态相似度相乘，将两个乘积求和得到所述第二综合相似度。

本发明还公开了一种跨模态图文匹配的装置，包括：

特征提取模块，用于获取图像的图像特征向量和句子的句子特征向量；

模态内注意力模块，利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语，利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语；

跨模态注意力模块，通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示，通过交叉注意力层获取所述文本短语在视觉语义空间的第二特征表示；

第一计算模块，通过所述视觉短语和所述文本短语计算模态内相似度，通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度；通过所述视觉短语和所述第二特征表示计算获得所述句子到所述图像的第二跨模态相似度；

第二计算模块，根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度；根据第二预设权重、所述模态内相似度和所述第二跨模态相似度计算获得所述句子到所述图像的第二综合相似度；以及

检索模块，根据所述第一综合相似度或所述第二综合相似度获得所述图像与所述句子的关联结果；

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时实现权利要求1-8任一项所述的方法。

通过上述技术方案，本发明通过对图像的特征和句子的特征先通过模态内注意力获得上下文信息，获得模态内的相似度，然后通过跨模态注意力进行对应，获得跨模态的相似度，最后通过模态内相似度和跨模态相似度的加权和进行图文的匹配，与现有技术相比，本发明公开的方法能通过端到端的方式训练网络自动学习到模态内和跨模态的注意力，并使用注意力机制自动聚合得到视觉短语和文本短语，并在短语这种相对单个区域或单词有更高阶语义信息的模态表示的基础上通过交叉模态注意力对齐并更新特征表示，最后利用更新后的特征表示计算图像-文本和文本-图像相似度，利用相似度在Flickr30K(数据集)和MSCOCO(数据集)两个执行跨模态检索，极大地提高了匹配速度和匹配准确性。

附图说明

图1示意性示出了本公开实施例的跨模态图文匹配的方法的流程图；

图2示意性示出了本公开实施例的跨模态图文匹配的方法框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在，但是并不排除存在或添加一个或多个其他特征。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释，例如，Faster R-CNN，是何凯明等在2015年提出目标检测算法，在fast rcnn基础上提出了RPN候选框生成算法，使得目标检测速度大大提高；又例如，表示学习，又称学习表示，在深度学习领域内，表示是指通过模型的参数，采用何种形式、何种方式来表示模型的输入观测样本X，表示学习指学习对观测样本X有效的表示，表示学习有很多种形式，比如CNN(卷积神经网络)参数的有监督训练是一种有监督的表示学习形式，对自动编码器和限制玻尔兹曼机参数的无监督预训练是一种无监督的表示学习形式，对DBN(深度信念网络)参数-先进行无监督预训练，再进行有监督fine-tuning(微调)-是一种半监督的共享表示学习形式。

图1示意性示出了本公开实施例的跨模态图文匹配的方法的流程图。

本发明公开了一种跨模态图文匹配的方法，如图1所示，包括步骤S1、步骤S2、步骤S3、步骤S4和步骤S5，其中，步骤S3包括平行的步骤S31、步骤S32和步骤S33，步骤S4包括并行的步骤S41和步骤S42。

根据本发明的一些实施例，步骤S1包括：获取图像的图像特征向量和句子的句子特征向量。

根据本发明的一些实施例，步骤S2包括：利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语，利用注意力机制聚合句子内的句子特征向量的上下文信息获得文本短语；

根据本发明的一些实施例，步骤S31包括：计算视觉短语和文本短语的模态内相似度。

根据本发明的一些实施例，步骤S32包括：通过交叉注意力层获取视觉短语在文本语义空间的第一特征表示，通过文本短语和第一特征表示计算获得图像到句子的第一跨模态相似度。

根据本发明的一些实施例，步骤S33包括：通过交叉注意力层获取文本短语在视觉语义空间的第二特征表示，通过视觉短语和第二特征表示计算获得句子到图像的第二跨模态相似度。

根据本发明的一些实施例，步骤S41包括：根据第一预设权重、模态内相似度和第一跨模态相似度计算获得图像到句子的第一综合相似度。

根据本发明的一些实施例，步骤S42包括：根据第二预设权重、模态内相似度和第二跨模态相似度计算获得句子到图像的第二综合相似度。

根据本发明的一些实施例，步骤S5包括：根据第一综合相似度和/或第二综合相似度获得图像与句子的关联结果。

根据本发明的一些实施例，文本语义空间包括所有句子特征向量，视觉语义空间包括所有图像特征向量。

根据本发明的一些实施例，图像特征向量和句子特征向量为细粒度特征，包括图像区域和句子单词。

根据本发明的一些实施例，获取图像的图像特征向量包括：通过第一预训练模型检测图像并提取多个区域特征，通过全连接层将每个区域特征降维获得图像特征向量。

根据本发明的一些实施例，使用预训练的bottom-up attention模型(自下而上注意力模型)，检测并提取m个区域特征向量，再利用FC层(全连接层)将m个区域特征向量降维获得图像特征向量，m为大于1的整数。

根据本发明的一些实施例，预训练的bottom-up attention模型为针对图像字幕任务训练的目标检测网络Faster R-CNN。

根据本发明的一些实施例，获取句子的句子特征向量包括：通过第二预训练模型提取句子的单词片段的上下文，获得多个单词表示为句子特征向量。

根据本发明的一些实施例，使用预训练BERT模型(基于变换器的双向编码器表示技术)为单词片段提取上下文表示，共获得n个单词表示。

根据本发明的一些实施例，通过上述方法的到的图文表示如下：

i₁＝{r₁；r₂；…；r_m}，

c₁＝{w₁；w₂；…；w_n}

其中，r_i为第i个区域的区域特征向量，i₁为整个图像的细粒度特征表示；w_j为第j个词语的特征向量，c₁为整个句子的细粒度特征表示，i、j均为大于1的整数。

根据本发明的一些实施例，聚合了上下文信息的特征表示为短语，如视觉短语和文本短语。

根据本发明的一些实施例，利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语包括：通过transformer模型的编码器获得多个图像特征向量(r_i，i＝1，...，m)之间的两两注意力关系，并利用注意力机制将每个图像特征向量r_i聚合成视觉短语。

根据本发明的一些实施例，transformer模型的具体工作机制如下：

Q_j＝i₁W_j ^Q

K_j＝i₁W_j ^K

V_j＝i₁W_j ^V

其中，Q_j为第j个区域特征向量的查询，K_j为第j个区域特征向量的键，V_j为第j个区域特征向量的值向量，W_j ^Q、W_j ^K、W_j ^V为线性映射的可学习参数，分别将图像i₁映射到它的查询、键和值；

head_j＝Attention(Q_j，K_j，V_j)

MultiHead(i₁)＝concat(head₁，...，head_h)W^O

其中，Attention(·)代表一个注意力头的运算，softmax(·)为归一化指数函数，head_j为第j个注意力头的计算，MultiHead(·)为多头注意力的计算，concat(·)代表将h个注意力头的计算结果连接起来，W^O为线性映射的可学习参数。

具体的，计算每个区域特征向量的查询(Q_j)、键(K_j)和值向量(V_j)，再利用多头注意力机制(MultiHead)，在单个注意力头(head_j)上使用查询Q_j和键K_j计算的相似度权值对值向量V_j进行加权，把所有单个注意力头(head_j)得到的加权结果拼接起来后通过FC层得到视觉短语。

根据本发明的一些实施例，利用注意力机制聚合句子内的句子特征向量的上下文信息获得文本短语包括：通过一维卷积神经网络对两个或三个或多个相邻单词进行聚合获得文本短语。

根据本发明的一些实施例，使用1d CNN(一维卷积神经网络)建模2到3个相邻的单词聚合的文本短语，具体如下：

p_l，k＝ReLU(W_lw_k：k+l-1+b_l)，l＝1，2，3，

q_l＝max{p_l，1，...，p_l，n}，l＝1，2，3，

c₀＝LayerNorm(W_econcat(q₁，q₂，q₃)+b_e)

其中，p_l，k为窗口大小为l的1d CNN在文字位置k的输出，ReLU(·)为线性整流函数，b_l为卷积核中的偏置，W_l为卷积核中的权重参数，w_k：k+l-1代表第k到第k+l-1个词语的特征向量，q_l为窗口大小为l的1d CNN的输出，建模了连续l个单词的短语，max{·}为在1dCNN的n个文字位置的输出向量的每一维上选取最大的数字，c₀为句子的整体特征表示向量，LayerNorm(·)为层归一化操作，W_e为线性映射的可学习参数，b_e为可学习偏置。

根据本发明的一些实施例，通过transformer模型的编码器获得多个图像特征向量之间的两两注意力关系，并利用注意力机制将每个图像特征向量聚合成视觉短语包括：计算每个图像特征向量的查询、键和值向量，在单个注意力头使用查询和键计算相似度权值，根据相似度权值对值向量加权，将每个注意力头得到的加权结果进行拼接，将拼接结果通过全连接层处理得到视觉短语。

根据本发明的一些实施例，计算视觉短语和文本短语的模态内相似度包括：计算每个视觉短语与句子的全局文本短语表示的相似度，选取相似度最高的K个求平均值，将获得的平均值作为模态内相似度，其中，K为大于1的整数。

根据本发明的一些实施例，模态内相似度的计算公式如下：

其中，S(i₀，c₀)为图像和句子的模态内相似度，r′_k为前面通过多头注意力公式MultiHead(i₁)得到的一组视觉短语中的第k个视觉短语，c₀为句子的全局文本短语表示。

具体的，首先计算每个r′_k和c₀的余弦相似度，然后选取最高的前K个(topK_k)余弦相似度求平均值，将计算得到的平均值来作为整体相似度(即，模态内相似度)。

根据本发明的一些实施例，利用transformer decoder(解码器)来建模跨模态注意力机制，并为图像和文本匹配和设计了T2I分支和12T分支。

根据本发明的一些实施例，通过交叉注意力层获取视觉短语在文本语义空间的第一特征表示包括：将视觉短语通过交叉注意力层映射到文本语义空间获得第一特征表示。

根据本发明的一些实施例，在I2T分支中，只用于计算图像到句子的相似度。具体的，图像i₁通过模态内的自注意力层来获得视觉短语，视觉短语在交叉注意力层关注句子词语，然后利用注意力聚合区域得到视觉短语在文本语义空间的第一特征表示。

根据本发明的一些实施例，获取视觉短语在文本语义空间的第一特征表示如下：

I2T_i₁＝{vp₁；vp₂；…；vp_m}

其中，I2T_i₁为第一特征表示，vp_m为第m个视觉短语在在文本语义空间的第一特征表示。

根据本发明的一些实施例，通过交叉注意力层获取文本短语在视觉语义空间的第二特征表示包括：将文本短语通过交叉注意力层映射到视觉语义空间获得第二特征表示。

根据本发明的一些实施例，在T2I分支中，首先，将句子c₁通过模态内的自注意力层来获得文本短语，然后将文本短语在交叉注意力层关注图像区域，然后利用注意力聚合区域得到文本短语在视觉语义空间的第二特征表示。

根据本发明的一些实施例，在获得第二特征表示的时候，交叉注意力层的实现和encoder(编码)基本一致，但是，其中的查询向量通过文本短语进行计算，而键和值向量则由图像区域特征向量进行计算，即可完成跨模态注意。

根据本发明的一些实施例，获取文本短语在视觉语义空间的第二特征表示如下：

T2I_c₁＝{tp₁；tp₂；…；tp_n}

其中，T2I_c₁为第二特征表示，tp_n为第n个文本短语在视觉语义空间的第二特征表示。

根据本发明的一些实施例，通过文本短语和第一特征表示计算获得图像到句子的第一跨模态相似度包括：计算每个文本短语与第一特征表示中每个视觉短语之间的余弦相似度，对第一特征表示中的每个表示在文本语义空间的视觉短语，取其到所有文本短语的余弦相似度的最大值作为其到整个句子的相似度，最后取其中最高的x个的平均值为第一跨模态相似度；其中，x为大于1的整数。

根据本发明的一些实施例，获取第一跨模态相似度包括：

其中，S(c₁，I2T_i₁)为第一跨模态相似度，A为余弦相似度矩阵，A(k，l)代表第k个文本短语和第l个视觉短语的余弦相似度。

具体的，计算w_k和vp_l之间的余弦相似度，然后对每个视觉短语vp_l，取A(*，l)(即矩阵A的第l列)中的最大值作为该视觉短语到句子的相似度，最后选取所有视觉短语到句子相似度中最高的前K个相似度求平均值，将计算获得的平均值来作为第一跨模态相似度。

根据本发明的一些实施例，通过视觉短语和第二特征表示计算获得句子到图像的第二跨模态相似度包括：计算每个视觉短语与第二特征表示中每个文本短语之间的余弦相似度，对第二特征表示中的每个表示在视觉语义空间的文本短语，取其到所有视觉短语的余弦相似度的最大值作为其到整个图像的相似度，最后取其中最高的y个的平均值为第二跨模态相似度；其中，y为大于1的整数。

根据本发明的一些实施例，获取第二跨模态相似度包括：

其中，S(i₁，T2I_c₁)为第二跨模态相似度，A为余弦相似度矩阵，A(k，l)代表第k个视觉短语和第l个文本短语的余弦相似度。

具体的，计算r_k和tp_l之间的余弦相似度，然后对每个文本短语tp_l，取A(*，l)(即矩阵A的第l列)中的最大值作为该文本短语到图像的相似度，最后选取所有文本短语到图像相似度中最高的前K个相似度求平均值，将计算获得的平均值来作为第二跨模态相似度。

根据本发明的一些实施例，根据第一预设权重、模态内相似度和第一跨模态相似度计算获得图像到句子的第一综合相似度包括：将第一预设权重与模态内相似度相乘，将第三预设权重与第一跨模态相似度相乘，将两个乘积求和得到第一综合相似度。

根据本发明的一些实施例，根据第二预设权重、模态内相似度和第二跨模态相似度计算获得句子到图像的第二综合相似度包括：将第二预设权重与模态内相似度相乘，将第四预设权重与第二跨模态相似度相乘，将两个乘积求和得到第二综合相似度。

根据本发明的一些实施例，将i₁和T2I_c₁堆叠起来成为{r₁；r₂；…；r_m；tp₁；tp₂；…；tp_n}，然后通过transformer encoder来进一步捕捉高阶的注意力，具体的，包括通过模态内注意力更新和跨模态注意力更新，具体更新方法与上述跨模态图文匹配的方法一致，在此不进行过多的赘述。

本发明还公开了一种跨模态图文匹配的装置，如图2所示，包括特征提取模块、模态内注意力模块、跨模态注意力模块、第一计算模块、第二计算模块和检索模块。其中，更具体地，模态内注意力模块包括图像模态内注意力模块和句子模态内注意力模块。

根据本发明的一些实施例，特征提取模块用于获取图像的图像特征向量和句子的句子特征向量。

根据本发明的一些实施例，特征提取模块通过第一预训练模型检测图像并提取多个区域特征，通过全连接层将每个区域特征降维获得图像特征向量；特征提取模块通过第二预训练模型提取句子的单词片段的上下文，获得多个单词表示为句子特征向量。

根据本发明的一些实施例，特征提取模块包括预训练的Faster R-CNN模型和预训练的BERT模型，其中，Faster R-CNN模型提取图像中的特征表示i₁，BERT模型提取句子中的特征表示c₁。

根据本发明的一些实施例，模态内注意力模块利用注意力机制聚合图像内的图像特征向量的上下文信息获得视觉短语，利用注意力机制聚合句子内的句子特征向量的上下文信息获得文本短语。

根据本发明的一些实施例，模态内注意力模块通过transformer模型的编码器获得多个图像特征向量之间的两两注意力关系，并利用注意力机制将每个图像特征向量聚合成视觉短语；模态内注意力模块通过一维卷积神经网络对一个或两个或三个相邻单词进行聚合获得文本短语。

根据本发明的一些实施例，模态内注意力模块利用每个图像特征向量的查询、键和值向量，在单个注意力头使用查询和键计算相似度权值，根据相似度权值对值向量加权，将所有单个注意力头得到的加权结果进行拼接，将拼接结果通过全连接层处理得到视觉短语。

根据本发明的一些实施例，模态内注意力模块利用图像内注意力和文本内注意力分别为图像和文本建模各自的注意力增强的特征表示。

根据本发明的一些实施例，图像模态内注意力模块内，视觉短语通过自身注意力处理获得i₀。

根据本发明的一些实施例，句子模态内注意力模块内，文本短语通过1d CNN(一维卷积神经网络)建模1到3个相邻的单词聚合的文本短语，也即获得c₀。

根据本发明的一些实施例，跨模态注意力模块通过交叉注意力层获取视觉短语在文本语义空间的第一特征表示，通过交叉注意力层获取文本短语在视觉语义空间的第二特征表示。

根据本发明的一些实施例，跨模态注意力模块通过将视觉短语通过交叉注意力层映射到文本语义空间获得第一特征表示；跨模态注意力模块通过将文本短语通过交叉注意力层映射到视觉语义空间获得第二特征表示。

根据本发明的一些实施例，第一计算模块通过视觉短语和文本短语计算模态内相似度，通过文本短语和第一特征表示计算获得图像到句子的第一跨模态相似度；通过视觉短语和第二特征表示计算获得句子到图像的第二跨模态相似度。

根据本发明的一些实施例，第一计算模块通过计算每个视觉短语与句子的全局文本短语表示的相似度，选取相似度最高的K个求平均值，将获得的平均值作为模态内相似度，其中，K为大于1的整数

根据本发明的一些实施例，第一计算模块通过计算文本短语与第一特征表示中视觉短语之间的余弦相似度，对每个视觉短语，取其到所有文本短语的相似度的最大值作为其到整个句子的相似度，最后取其中最高的x个的平均值为第一跨模态相似度；其中，x为大于1的整数。

根据本发明的一些实施例，第一计算模块通过计算视觉短语与第二特征表示中文本短语之间的余弦相似度，对每个文本短语，取其到所有视觉短语的相似度的最大值作为其到整个图像的相似度，最后取其中最高的y个的平均值为第二跨模态相似度；其中，y为大于1的整数。

根据本发明的一些实施例，在跨模态注意力模块中，通过查询、键、值向量配合图-文短语注意力(文-图短语注意力)获得图像表示和句子表示。

根据本发明的一些实施例，第二计算模块根据第一预设权重、模态内相似度和第一跨模态相似度计算获得图像到句子的第一综合相似度；根据第二预设权重、模态内相似度和第二跨模态相似度计算获得句子到图像的第二综合相似度。

根据本发明的一些实施例，第二计算模块将第一预设权重与模态内相似度相乘，将第三预设权重与第一跨模态相似度相乘，将两个乘积求和得到第一综合相似度。

根据本发明的一些实施例，第二计算模块将第二预设权重与模态内相似度相乘，将第四预设权重与第二跨模态相似度相乘，将两个乘积求和得到第二综合相似度。

根据本发明的一些实施例，检索模块根据第一综合相似度或第二综合相似度获得图像与句子的关联结果根据本发明的一些实施例，

本发明还公开了一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行时实现上述的跨模态图文匹配的方法。

通过上述技术方案，本发明通过对图像的特征和句子的特征先通过模态内注意力获得上下文信息，获得模态内的相似度，然后通过跨模态注意力进行对应，获得跨模态的相似度，最后通过模态内相似度和跨模态相似度的加权和进行图文的匹配，与现有技术相比，本发明公开的方法能通过端到端的方式训练网络自动学习到模态内和跨模态的注意力，并使用注意力机制自动聚合得到视觉短语和文本短语，并在短语这种相对单个区域或单词有更高阶语义信息的模态表示的基础上通过交叉模态注意力对齐并更新特征表示，最后利用更新后的特征表示计算图像-文本和文本-图像相似度，利用相似度在Flickr30K(数据集)和MSCOCO(数据集)两个测试集上执行跨模态检索，极大地提高了匹配速度和匹配准确性。

本发明公开的跨模态图文匹配的方法可以应用于图文双向检索任务。具体来说，在图文相互检索任务中，给定一张图像，则需要找出句子候选集中与之对应的可以描述这张图像的句子。通过本发明公开的跨模态图文匹配的方法，可以将图像和句子按照神经网络批处理的形式成对的输入网络，对这张图像和所有的句子，都可以计算成对相似度，最后可以选取相似度最高对应的句子作为最适合描述这张图像的句子。

本发明公开的跨模态图文匹配的方法还可以应用在网络图像精确搜索。具体的，过本发明公开的跨模态图文匹配的方法，用户在终端输入一句描述图像的句子，服务器可以将这个句子和数据库中候选图像进行匹配并计算成对相似度，再将候选图像按照相似度从高到第的顺序返回给用户，实现网络图像精确搜索。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

还需要说明的是，在本公开的具体实施例中，除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态图文匹配的方法，其特征在于，包括：

获取图像的图像特征向量和句子的句子特征向量；

利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语，包括：计算每个所述图像特征向量的查询、键和值向量，在单个注意力头使用所述查询和所述键计算相似度权值，根据所述相似度权值对所述值向量加权，将每个注意力头得到的加权结果进行拼接，将拼接结果通过全连接层处理得到所述视觉短语；利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语，包括：通过一维卷积神经网络对一个或两个或三个相邻单词进行聚合获得所述文本短语；

计算所述视觉短语和所述文本短语的模态内相似度；

2.根据权利要求1所述方法，其特征在于，

获取图像的图像特征向量包括：通过第一预训练模型检测所述图像并提取多个区域特征，通过全连接层将每个所述区域特征降维获得所述图像特征向量；

3.根据权利要求1所述方法，其特征在于，所述计算所述视觉短语和所述文本短语的模态内相似度包括：计算每个所述视觉短语与每个文本短语的相似度，选取相似度最高的k个求平均值，将获得的平均值作为所述模态内相似度，其中，k为大于1的整数。

4.根据权利要求1所述方法，其特征在于，

所述通过交叉注意力层获取所述视觉短语在文本语义空间的第一特征表示包括：将所述视觉短语通过交叉注意力层映射到所述文本语义空间获得所述第一特征表示；

5.根据权利要求4所述方法，其特征在于，

所述通过所述文本短语和所述第一特征表示计算获得所述图像到所述句子的第一跨模态相似度包括：计算所述文本短语与所述第一特征表示之间的余弦相似度，取余弦相似度最高的x个的平均值为所述第二跨模态相似度；

其中，x、y均为大于1的整数。

6.根据权利要求1所述方法，其特征在于，

根据第一预设权重、所述模态内相似度和所述第一跨模态相似度计算获得所述图像到所述句子的第一综合相似度包括：将第一预设权重与所述模态内相似度相乘，将第三预设权重与所述第一跨模态相似度相乘，将两个乘积求和得到所述第一综合相似度；

7.一种跨模态图文匹配的装置，其特征在于，包括：

模态内注意力模块，利用注意力机制聚合所述图像内的所述图像特征向量的上下文信息获得视觉短语，包括：计算每个所述图像特征向量的查询、键和值向量，在单个注意力头使用所述查询和所述键计算相似度权值，根据所述相似度权值对所述值向量加权，将每个注意力头得到的加权结果进行拼接，将拼接结果通过全连接层处理得到所述视觉短语；利用注意力机制聚合所述句子内的所述句子特征向量的上下文信息获得文本短语，包括：通过一维卷积神经网络对一个或两个或三个相邻单词进行聚合获得所述文本短语；

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，其特征在于，所述程序被处理器执行时实现权利要求1-6任一项所述的方法。