CN114283430A

CN114283430A - 跨模态图文匹配训练方法及装置、存储介质、电子设备

Info

Publication number: CN114283430A
Application number: CN202111464736.0A
Authority: CN
Inventors: 王波; 张百灵; 周炬; 马成龙
Original assignee: Suzhou Dachuang Technology Co ltd
Current assignee: Suzhou Dachuang Technology Co ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-05

Abstract

本申请公开了一种跨模态图文匹配训练方法及装置、存储介质、电子设备，该方法包括将待训练图像输入至图像编码器，由图像编码器对待训练图像进行编码，得到待训练图像的图像向量特征；将待训练图像的图像内容的描述作为文本输入文本编码器，文本编码器对文本进行分词，将文本转换成token向量，将token向量进行基于transformer的文本编码处理，得到编码为与图像向量特征的维度相同的文本向量特征；训练达到所选取的样本数后，图像编码器和文本编码器分别对图像向量特征和文本向量特征进行模态交互，利用反向梯度更新图像编码器和文本编码器模型参数。本申请支持更精确和个性化方式进行图文匹配联合检索。

Description

跨模态图文匹配训练方法及装置、存储介质、电子设备

技术领域

本申请实施例涉及图像及文本匹配训练技术，尤其涉及一种跨模态图文匹配训练方法及装置、存储介质、电子设备。

背景技术

近年来，随着计算机视觉和自然语言处理技术的发展，跨模态深度学习(Cross-modal Deep Learning)也越来越受到关注。跨模态深度学习技术可以广泛应用于字幕生成、视觉问答、视觉对话、图文检索、基于文本的图像生成等诸多领域。视觉-语言预训练(vision-language pretraining，VLP)是跨模态深度学习的一个重要的研究领域，既可以生成图像描述，也可以用于图像-文本检索(Image-Text Retrieval)等跨模态问题。比较有影响的包括大规模图文匹配预训练模型(Contrastive Language–Image Pre-training，CLIP)等；CLIP能够将图像映射到文本描述的类别中，用自然语言描述所学的视觉概念，其优越的性能支持多种类型的图文联合检索(图文检索、以图搜图、多文本搜索、图文联合搜索)。

跨模态学习的关键是如何理解跨模态数据的内容和度量不同模态数据之间的语义相似性。现在很多技术方案都将图像区域特征回归的目标检测或标记作为预训练目标的一部分。比如多模态预训练方法(Object-Semantics Aligned Pre-training，OSCAR)，其使用在图像检测到的对象标签作为视觉和语言语义层面上的定位锚点(Anchor Point)，以简化图像和文本之间的语义对齐的学习任务。但这些方法需要有强大的目标检测模型，如Faster-RCNN，且目标检测所需训练集则要事先进行数据的标注，其类别数量少，类别语义粒度粗。基于目标检测的图文匹配预训练方法在面临应用场景改变时往往会导致训练流水线的成本急剧增加，模型的可扩展性和泛化性降低。基于常用目标检测的方法是一种将图像语义与文本语义进行硬对齐的方法，隐含的假设是检测到的物体类别和文本描述具有强语义相关性。但这种强相关性假设在实践中经常是无效的，比如一张几位运动员踢足球的图像，可能会被描述为“一场激烈的足球比赛”，“运动员”这个目标概念已经被该描述弱化了，而且从这个例子中可以看出，一个目标可能存在多种属性描述，如图片中的运动员也可以被描述为“人、球员、青少年”等多种文本属性。

发明内容

有鉴于此，本申请实施例提供一种跨模态图文匹配训练方法及装置、存储介质、电子设备，能够实现多模态的图像及文本匹配训练表达，便于应用于图像搜索等领域。

根据本申请的第一方面，提供一种跨模态图文匹配训练方法，包括：

将待训练图像输入至图像编码器，由所述图像编码器对所述待训练图像进行缩放处理，使所述待训练图像达到设定的长宽大小的待输入图像；判断所述待输入图像是否存在编辑完成的显著性目标掩码图，如果有则将所述显著性目标掩码图和所述输入图像输入至掩码融合模块，通过所述掩码融合模块获得所述输入图像的融合特征；如果所述待输入图像没有显著性目标掩码图，则对所述待输入图像进行显著性目标检测，生成所述输入图像的显著性目标掩码图，并将所述显著性目标掩码图和所述输入图像输入至掩码融合模块，通过所述掩码融合模块获得所述输入图像的融合特征；将所述融合特征输入至图像注意力编码模块，将输入的融合特征经过神经网络模型编码成图像向量特征；

以及将所述待训练图像的图像内容的描述作为文本输入文本编码器，所述文本编码器对所述文本进行分词，将所述文本转换成token向量，将所述token向量进行基于transformer的文本编码处理，得到编码为与所述图像向量特征的维度相同的文本向量特征；

训练达到所选取的样本数后，所述图像编码器和所述文本编码器分别对图像向量特征和文本向量特征进行模态交互，计算向量的余弦相似度和交叉熵损失，并利用反向梯度更新所述图像编码器和所述文本编码器的模型参数。

优选地，所述对所述待输入图像进行显著性目标检测，生成所述输入图像的显著性目标掩码图，包括：

将设定分辨率的所述待输入图像进多层3×3卷积处理后，分别进行多次的下采样、堆叠处理，当特征分辨率降低到设定阈值后，再对下采样的低分辨率特征进上采样特征融合UFFM处理；即首先采用1×1卷积对低分辨率特征进行降维，再上采样到高分辨率特征相同的尺度大小，依次使用1×1卷积和3×3卷积进行通道降维和特征融合；

对UFFM处理后的特征进行插值上采样恢复到输入图像相同的尺度大小，再进行3×3卷积以及1×1卷积的处理，将上采样特征降维为1通道，再经过sigmoid激活函数生成空间注意力特征；

将所述空间注意力特征和输入特征进行点乘，得到最终生成所述输入图像的显著性目标概率图，基于所述显著性目标概率图生成所述输入图像的显著性目标掩码图。

优选地，所述通过所述掩码融合模块获得所述输入图像的融合特征，包括：

将所述输入图像和所述显著性目标掩码图缩放到相同的设定分辨率，分别经过两层3×3卷积、BN正则化、ReLU激化函数的处理后，分别得到所述输入图像和所述显著性目标掩码图的底层特征；

将所述输入图像和所述显著性目标掩码图的底层特征级联后，进行1×1卷积进行特征融合和通道降维，再进行5×5卷积和Sigmoid激活函数处理，得到基于掩码的门控注意力特征；

将所述输入图像的初始特征与所述门控注意力特征进行点乘处理，并将点乘处理后的特征再次与所述输入图像的初始特征进行级联，再进行1×1卷积进行特征融合得到所述输入图像的融合特征。

优选地，所述将输入的融合特征经过神经网络模型编码成图像向量特征，包括：

所述图像注意力编码模块基于显著性目标区域的先验信息，使具有显著性语义信息的目标进行对齐，将所述融合特征编码为设定维度的图像向量。

根据本申请的第二方面，提供一种跨模态图文匹配训练装置，包括：

图像编码器，接收待训练图像，对所述待训练图像进行缩放处理，使所述待训练图像达到设定的长宽大小的待输入图像；判断所述待输入图像是否存在编辑完成的显著性目标掩码图，如果有则将所述显著性目标掩码图和所述输入图像输入至掩码融合模块；如果所述待输入图像没有显著性目标掩码图，则将所述待输入图像输入至显著性目标检测模块；

显著性目标检测模块，用于对所述待输入图像进行显著性目标检测，生成所述输入图像的显著性目标掩码图；

掩码融合模块，用于接收所述显著性目标掩码图和所述输入图像，基于所述显著性目标掩码图和所述输入图像生成所述输入图像的融合特征；

图像注意力编码模块，用于接收融合特征，将所述融合特征经过神经网络模型编码成图像向量特征；以及

文本编码器，用于接收所述待训练图像的图像内容的描述作为输入的文本，对所述文本进行分词，将所述文本转换成token向量，将所述token向量进行基于transformer的文本编码处理，得到编码为与所述图像向量特征的维度相同的文本向量特征；

处理单元，用于在训练达到所选取的样本数后，所述图像编码器和所述文本编码器分别对图像向量特征和文本向量特征进行模态交互，计算向量的余弦相似度和交叉熵损失，并利用反向梯度更新所述图像编码器和所述文本编码器的模型参数。

优选地，所述显著性目标检测模块，还用于：

将设定分辨率的所述待输入图像进行3×3卷积处理后，分别进行多次的下采样、堆叠处理，当特征分辨率降低到设定阈值后，再对下采样低分辨率特征进上采样特征融合UFFM处理；即首先采用1×1卷积对低分辨率特征进行降维，再上采样到高分辨率特征相同的尺度大小，依次使用1×1卷积和3×3卷积进行通道降维和特征融合；

优选地，所述显著性目标检测模块，还用于：

优选地，所述图像注意力编码模块，还用于：基于显著性目标区域的先验信息，使具有显著性语义信息的目标进行对齐，将所述融合特征编码为设定维度的图像向量。

根据本申请的第三方面，提供一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现所述的基于显著性目标检测的跨模态图文匹配训练方法的步骤。

根据本申请的第四方面，提供一种可读非暂时性存储介质，所述存储介质上存储程序或指令，所述程序或指令被处理器执行时实现权利要求1至4中任一项所述的基于显著性目标检测的跨模态图文匹配训练方法的步骤。

本申请实施例提供的基于显著性目标检测的跨模态图文匹配训练方法及装置、存储介质、电子设备，首先利用预训练好的显著性目标检测获取显著对象区域掩码图，接着进行输入图像和显著对象区域掩码图的特征进行融合，然后利用双塔模型进行视觉-语言匹配预训练；其中，视觉-语言匹配预训练的双塔模型借鉴CLIP的模型架构，将图像和文本编码器改为更加轻量的网络模型。将原始CLIP的图像编码器视为一种均权的图像编码器，而融合显著性对象检测的图像编码器可以视为具有空间注意力的非均权图像特征编码器。预训练完成后，模型输入的显著性区域掩码可以进行相应修改，根据掩码区域的不同，图像编码器的输出也会随之改变，本申请实施例不仅可以应用于多种形式的常规的图文联合检索，更能通过人工交互直接修改图像语义特征的方式以更精确和更个性化的方式进行图文联合检索。

附图说明

图1为本申请实施例提供的基于显著性目标检测的跨模态图文匹配训练方法的流程示意图；

图2为本申请实施例提供的图像编码器的编码流程示意图；

图3为本申请实施例提供的文本编码器的编码流程示意图；

图4为本申请实施例提供的跨模态向量特征模态交互示意图；

图5为本申请实施例提供的空间注意力显著性目标检测网络结构示意图；

图6为本申请实施例提供的残差神经网络模块结构示意图；

图7为本申请实施例提供的空间注意力模块结构示意图；

图8为本申请实施例提供的下采样模块结构示意图；

图9为本申请实施例提供的上采样特征融合模块结构示意图；

图10为本申请实施例提供的掩码融合模块结构示意图；

图11为本申请实施例提供的基于显著性目标检测的跨模态图文匹配训练装置的组成结构示意图；

图12为本申请实施例的电子设备的结构图。

具体实施方式

以下结合示例，详细阐明本申请实施例的技术方案的实质。

图1为本申请实施例提供的基于显著性目标检测的跨模态图文匹配训练方法的流程示意图，如图1所示，本申请实施例的基于显著性目标检测的跨模态图文匹配训练方法包括以下处理步骤：

步骤101，将待训练图像输入至图像编码器，由所述图像编码器对所述待训练图像进行编码，得到所述待训练图像的图像向量特征。

本申请实施例中，将待训练图像输入至图像编码器，由所述图像编码器对所述待训练图像进行缩放处理，使所述待训练图像达到设定的长宽大小的待输入图像；判断所述待输入图像是否存在编辑完成的显著性目标掩码图，如果有则将所述显著性目标掩码图和所述输入图像输入至掩码融合模块，通过所述掩码融合模块获得所述输入图像的融合特征；如果所述待输入图像没有显著性目标掩码图，则对所述待输入图像进行显著性目标检测，生成所述输入图像的显著性目标掩码图，并将所述显著性目标掩码图和所述输入图像输入至掩码融合模块，通过所述掩码融合模块获得所述输入图像的融合特征；将所述融合特征输入至图像注意力编码模块，将输入的融合特征经过神经网络模型编码成图像向量特征。

本申请实施例中，生成所述输入图像的显著性目标掩码图，包括：

将设定分辨率的所述待输入图像进行多层3×3卷积处理后，分别进行多次的下采样、堆叠处理，当特征分辨率降低到设定阈值后，再对下采样的低分辨率特征进上采样特征融合UFFM处理；即首先采用1×1卷积对低分辨率特征进行降维，再上采样到高分辨率特征相同的尺度大小，依次使用1×1卷积和3×3卷积进行通道降维和特征融合；这里的特征分辨率的设定阈值包括1024，或512，或2048等。

其中，通过所述掩码融合模块获得所述输入图像的融合特征，包括：

其中，将输入的融合特征经过神经网络模型编码成图像向量特征，包括：

步骤102，将所述待训练图像的图像内容的描述作为文本输入文本编码器，所述文本编码器对所述文本进行分词，将所述文本转换成token向量，将所述token向量进行基于transformer的文本编码处理，得到编码为与所述图像向量特征的维度相同的文本向量特征。

本申请实施例中，文本编码器的架构采用了与原始CLIP相同的transformer架构，不同之处在于为了减少参数和计算量。本申请实施例将transformer的层数由12层减少到了8层，并将head数量改为12。文本编码器的输出是与图像向量特征相同维度的向量。

步骤103，训练达到所选取的样本数后，所述图像编码器和所述文本编码器分别对图像向量特征和文本向量特征进行模态交互，计算向量的余弦相似度和交叉熵损失，并利用反向梯度更新所述图像编码器和所述文本编码器的模型参数。

本申请实施例中，在图文匹配训练阶段，采用batch_size＝N的图像-文本对数据后，图像编码器和文本编码器分别输出的图像和文本向量特征后，会再对这两种跨模态向量特征进行模态交互，计算向量的余弦相似度和交叉熵损失，从而利用反向梯度更新模型参数，同时，训练阶段由于缺乏相应的图像显著性掩码标签数据，所以本申请实施例采用由SD-Net检测输入图像并自动生成掩码图。当预训练完成后，模型可以将图像映射到文本描述的类别中，利用自然语言描述所学的视觉概念，并可以将图像和文本编码器作为特征向量提取器应用于图文检索等其他下游任务中。这里，训练样本数可以根据训练模型的参数精度要求而设置。

下面结合具体示例，对本申请实施例作进一步详细说明。

本申请实施例中，假设为文本只是图像的稀疏抽象表示，其主要描述内容跟图像中的显著性区域有强相关性。从常识而言，这也符合人类更倾向于描述能快速检测到的具有视觉显著性的图像区域的行为习惯，尤其是要求只能对图像进行简单描述的场景下。显著性物体检测(Salient Object Detection)是为找到并标注出图像或者视频中最明显最显著的物体。不同于框出物体位置和识别对象类别标签的目标检测，显著性目标检测是将显著主体目标像素级分割出来，典型的方法有HED、U2-Net等。显著性物体检测的输出是和输入一样大小的特征图，特征图对应的像素值在0～1的范围内，代表该像素属于显著性区域(前景)的概率。

本申请实施例首先利用预训练好的显著性目标检测获取显著对象区域掩码图，接着进行输入图像和显著对象区域掩码图的特征融合，然后利用双塔模型进行视觉-语言匹配预训练。视觉-语言匹配预训练的双塔模型，可以借鉴CLIP的模型架构，将图像和文本编码器改为更加轻量的网络模型。如果将原始CLIP的图像编码器视为一种均权的图像编码器，那么融合显著性对象检测的图像编码器可以视为一种具有空间注意力的非均权图像特征编码器。

本申请实施例的另一种优势是图文匹配预训练完成后，模型输入的显著性区域掩码可以人工修改，随着掩码区域的不同，图像编码器的输出也会随之改变，而传统的图像特征编码器对同一张图像只能编码输出一种语义特征，无法对图像语义的表示进行改变。由此，本申请实施例不仅可以应用于多种形式的常规的图文联合检索，更能通过人工交互直接修改图像语义特征的方式以更精确和更个性化的方式进行图文联合检索。

本申请实施例采用视觉-语言匹配预训练模型进行图像及文本的匹配训练，本申请实施例的视觉-语言匹配预训练模型主要由图像编码器和文本编码器两个功能模块组成。该图文匹配预训练模型是并行双塔模式，图像编码器和文本编码器彼此之间独立，中间过程不产生交互。输入图像可以是一张RGB图像，而文本是对这张RGB图像内容的简短描述。图2示出了本申请实施例的图像编码器的编码流程，如图2所示，其包括：首先接收输入的RGB图像Image，将输入的3通道RGB图像Image缩放到指定H×W分辨率的图像Img，如H＝W＝224；然后判断是否进行人工编辑和是否存在编辑完成的显著性目标掩码图，如果有则将人工编辑的显著性目标掩码图和图像Img作为掩码融合模块的输入，反之，则利用显著性目标检测模块和相应的后处理自动生成相应的显著性目标掩码；最后由图像注意力编码模块将输入的融合特征经过神经网络模型编码成一个512维的图像向量特征。

图3为本申请实施例提供的文本编码器的编码流程示意图，如图3所示，本申请实施例的文本编码器的编码流程包括：首先经过分词器将输入文本转换成token向量，然后将token输入基于transformer的文本编码模块，最终同样被其编码为一个512维的文本向量特征。

图4为本申请实施例提供的跨模态向量特征模态交互示意图，如图4所示，本申请实施例中，在训练阶段，采用batch_size＝N的图像-文本对数据后，图像编码器和文本编码器分别输出的图像和文本向量特征后，会再对这两种跨模态向量特征进行模态交互，计算向量的余弦相似度和交叉熵损失，从而利用反向梯度更新模型参数。同时，训练阶段由于缺乏相应的图像显著性掩码标签数据，所以采用由SD-Net检测输入图像并自动生成掩码的方法。当预训练完成后，模型可以将图像映射到文本描述的类别中，用自然语言描述所学的视觉概念，并可以将图像和文本编码器作为特征向量提取器应用于图文检索等其他下游任务中。

本申请实施例的图像编码器主要包括显著性目标检测模块、掩码融合模块和图像注意力编码模块。掩码图可以由显著性目标检测模块提供，也可以由人工绘制得到。这样不仅可以使图像编码器更加关注于掩码区域图像的特征表达，而且支持人工选择重点编码图像局部区域的操作方式，便于人为调整图像语义编码的重点和准确性。

本申请实施例的显著性目标检测模块可以使用任意一个显著性目标检测神经网络替换。作为一种实现方式，可以设计一个轻量的空间注意力显著性目标检测网络SD-Net，图5为本申请实施例提供的空间注意力显著性目标检测网络结构示意图，示出了SD-Net模型架构。本申请实施例通过SD-Net模型可以得到输入图像中每个像素属于显著性目标的概率图。假设输入一张分辨率为224×224的3通道RGB图像，SD-Net将输出一张224×224的显著目标概率图，再经过阈值处理后，最终输出一张分辨率为224×224的1通道显著目标掩码图。

其中，为了增强模型对于空间特征感知能力，本申请实施例可以改进一种残差神经网络模块，其采用深度分离卷积以减少计算量和内存需求，同时结合了空间注意力机制。图6为本申请实施例提供的残差神经网络模块结构示意图，如图6所示，残差神经网络模块中，C表示每个模块的输出通道数，“SRB×2”表示连续堆叠2个SRB模块。图7为本申请实施例提供的空间注意力模块结构示意图，图7中注意力机制模块(Spartial Attention Module，SAM)只采用(Convolutional Block Attention Module，CBAM)中空间注意力机制而去掉了通道注意力机制，该方法首先做一个基于通道的全局均值池化和全局最大值池化，然后将这两个结果基于通道做级联操作。然后经过一个大核的7×7卷积操作，降维为1个通道。再经过sigmoid激活函数生成空间注意力特征。最后将该空间注意力特征和该模块的输入特征做乘法，得到最终生成的特征，如图7所示。同时，本申请实施例使用下采样模块DSM进行下采样和通道数量调整。该模块先使用一个1×1卷积操作将通道数量由C改为C′，然后再采用最大池化操作进行2倍的下采样，如图8所示。

采样阶段，采用UFFM模块进行上采样和特征融合。该模块首先使用1×1卷积对低分辨率特征进行降维以降低计算量，接着上采样到高分辨率特征相同的尺度大小，然后依次使用1×1卷积和3×3卷积进行通道降维和特征融合，如图9所示。其中，通道降维参数为C_3＝C_1。最后一层特征融合后，进行插值上采样恢复到输入图像相同的尺度大小，再依次进行两层3×3和1×1卷积等相关操作，最后的输出概率特征层通道数为1。

最后，得到显著性目标概率图后，本申请取某一阈值进行掩码图生成，本申请实施例中阈值选为0.7。当概率大于0.7时，认为该像素属于显著性目标像素，重新设置为掩码值1；反之则为非显著性目标像素，重新设置为掩码值0。完成上述操作后即得到显著性目标区域的掩码图。

在不明显增加模型参数量和计算量的条件下，本申请实施例的SD-Net利用SRB模块的空间注意力机制增强了模型对显著性物体空间位置信息的表达能力。同时，SD-Net在上采样阶段融合了更多的多尺度特征，得到的掩码图拥有更准确的显著性目标轮廓纹理。

为了更好的引导输入图像与该图像显著性目标掩码图进行融合，本申请实施例中，没有采用直接将两张图像级联合成一个通道为4的输入数组，而是将输入图像和掩码图分别输入，然后通过门控注意力机制进行融合，如图10所示。首先将RGB输入图像和显著性目标掩码图缩放到适宜的相同分辨率，如H＝W＝224。RGB图像和掩码图分别经过两层3×3卷积、BN正则化、ReLU激化函数等操作后，分别得到H×W×32和H×W×16的初始特征F_rgb、F_mask。分别将F_rgb和F_mask特征级联后使用1×1卷积等操作进行特征融合和通道降维后，使用一个5×5大卷积和Sigmoid激活函数得到基于掩码的门控注意力特征F_gate。然后，F_rgb特征与F_gate进行乘积操作。接着，将乘积后的特征再次与输入图像初始特征F_rgb进行级联，最后使用一个1×1卷积等操作进行特征融合得到大小为H×W×64的输出特征。需要注意的是，采用级联后的融合特征作为最终输出特征，而不是与门控注意力特征进行乘积后的特征，是因为融合特征可以得到更丰富的对比语义，相当于融合了两张局部相同的图像的对比特征。

本申请实施例的掩码融合模块的特点是，没有采用直接将掩码图通道与原始图像RGB 3通道进行级联拼接，而是采用将两个参数分别经过卷积后提取的特征采用空间注意力机制来自适应的引导模型对显著性目标区域物体的表达和校正，这样更有利于避免在训练过程中因掩码图局部识别精度问题而导致对后续图文匹配过程产生干扰，降低了掩码精确度的要求。

本申请实施例的图像注意力编码模块采用CLIP中基于resnet50和多头注意力机制的图像编码模块。不同之处在于，本申请实施例的图像注意力编码模块剔除了resnet50前三层卷积等相关操作，将掩码融合模块的输出作为图像注意力编码模块输入。图像注意力编码模块最后将大小为H×W×64的输入融合特征编码为一个512维的向量。

不同于原始CLIP图像编码的输入，由于图像注意力编码模块的输入融合了显著性物体区域的先验信息，更容易对齐具有显著性语义信息的物体，从而使得图像编码器的编码方式更符合人们描述图像时更倾向描述显著性物体的习惯。同时，使用基于卷积神经网络的编码器具有更强的归纳偏置能力，更有利于应用于非大型数据集的训练中。

本申请实施例的文本编码器的架构采用了与原始CLIP相同的transformer架构，不同之处在于为了减少参数和计算量。我们将transformer的层数由12层减少到了8层，并将head数量改为12。文本编码器的输出也是一个512维的向量。

本申请实施例将显著性目标检测先验知识融合到图像-文本预训练方法中，提升了预训练模型中图像编码器对显著性目标的编码能力；另外，本申请实施例有助于人们基于个人的主观需要修改图像编码，有利于提取更符合人们主观对象的特征，尤其在以图搜图等检索任务中具有应用潜力。

图11为本申请实施例提供的基于显著性目标检测的跨模态图文匹配训练装置的组成结构示意图，如图11所示，本申请实施例的基于显著性目标检测的跨模态图文匹配训练装置包括：

图像编码器110，接收待训练图像，对所述待训练图像进行缩放处理，使所述待训练图像达到设定的长宽大小的待输入图像；判断所述待输入图像是否存在编辑完成的显著性目标掩码图，如果有则将所述显著性目标掩码图和所述输入图像输入至掩码融合模块；如果所述待输入图像没有显著性目标掩码图，则将所述待输入图像输入至显著性目标检测模块111；

显著性目标检测模块111，用于对所述待输入图像进行显著性目标检测，生成所述输入图像的显著性目标掩码图；

掩码融合模块112，用于接收所述显著性目标掩码图和所述输入图像，基于所述显著性目标掩码图和所述输入图像生成所述输入图像的融合特征；

图像注意力编码模块113，用于接收融合特征，将所述融合特征经过神经网络模型编码成图像向量特征；以及

文本编码器114，用于接收所述待训练图像的图像内容的描述作为输入的文本，对所述文本进行分词，将所述文本转换成token向量，将所述token向量进行基于transformer的文本编码处理，得到编码为与所述图像向量特征的维度相同的文本向量特征；

处理单元115，用于在训练达到所选取的样本数后，所述图像编码器和所述文本编码器分别对图像向量特征和文本向量特征进行模态交互，计算向量的余弦相似度和交叉熵损失，并利用反向梯度更新所述图像编码器和所述文本编码器的模型参数。

作为一种实现方式，所述显著性目标检测模块111，还用于：

将设定分辨率的所述待输入图像进行多层3×3卷积处理后，分别进行多次的下采样、堆叠处理，当特征分辨率降低到设定阈值后，再对下采样的低分辨率特征进上采样特征融合UFFM处理；即首先采用1×1卷积对低分辨率特征进行降维，再上采样到高分辨率特征相同的尺度大小，依次使用1×1卷积和3×3卷积进行通道降维和特征融合；

对UFFM处理后的特征进行插值上采样恢复到输入图像相同的尺度大小，再进行3×3卷积以及1×1卷积的处理，将像素数据降维为一个通道，再经过sigmoid激活函数生成空间注意力特征；

作为一种实现方式，所述显著性目标检测模块111，还用于：

作为一种实现方式，所述图像注意力编码模块113，还用于：基于显著性目标区域的先验信息，使具有显著性语义信息的目标进行对齐，将所述融合特征编码为设定维度的图像向量。

在示例性实施例中，本申请实施例的基于显著性目标检测的跨模态图文匹配训练装置的上述各处理单元可以被一个或多个中央处理器(CPU，Central Processing Unit)、图像处理器(GPU，Graphics Processing Unit)、基带处理器(BP，Base Processor)、应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现。

在本公开实施例中，图11示出的基于显著性目标检测的跨模态图文匹配训练装置中各个处理单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面，参考图12来描述根据本申请实施例的电子设备12。

如图12所示，电子设备12包括一个或多个处理器121和存储器122。

处理器121可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备12中的其他组件以执行期望的功能。

存储器122可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器121可以运行所述程序指令，以实现上文所述的本申请的各个实施例的跨系统的网络设备调用方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备12还可以包括：输入装置123和输出装置124，这些组件通过总线系统和/或其他形式的连接机构(图12中未示出)互连。

该输入装置123可以包括例如键盘、鼠标等等。

该输出装置124可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置124可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备12中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备12还可以包括任何其他适当的组件。

本申请实施例还记载了一种可读非暂时性存储介质，所述存储介质上存储程序或指令，所述程序或指令被处理器执行时实现所述的基于显著性目标检测的跨模态图文匹配训练方法的步骤。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种跨模态图文匹配训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待输入图像进行显著性目标检测，生成所述输入图像的显著性目标掩码图，包括：

将设定分辨率的所述待输入图像进行多层3×3卷积处理后，分别进行多次的下采样、堆叠处理，当特征分辨率降低到设定阈值后，再对下采样的低分辨率特征进行上采样特征融合UFFM处理；即首先采用1×1卷积对低分辨率特征进行降维，再上采样到高分辨率特征相同的尺度大小，依次使用1×1卷积和3×3卷积进行通道降维和特征融合；

3.根据权利要求1或2所述的方法，其特征在于，所述通过所述掩码融合模块获得所述输入图像的融合特征，包括：

将所述输入图像和所述显著性目标掩码图缩放到相同的设定分辨率，分别经过两层3×3卷积、BN正则化、ReLU激活函数的处理后，分别得到所述输入图像和所述显著性目标掩码图的底层特征；

将所述输入图像和所述显著性目标掩码图的底层特征级联后，进行1×1卷积进行特征融合和通道降维，再进行5×5的大卷积和Sigmoid激活函数处理，得到基于掩码的门控注意力特征；

将所述输入图像的初始特征与所述门控注意力特征进行点乘处理，并将点乘后的特征再次与所述输入图像的初始特征进行级联，再使用1×1卷积进行特征融合得到所述输入图像的融合特征。

4.根据权利要求3所述的方法，其特征在于，所述将输入的融合特征经过神经网络模型编码成图像向量特征，包括：

5.一种跨模态图文匹配训练装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述显著性目标检测模块，还用于：

7.根据权利要求5或6所述的装置，其特征在于，所述显著性目标检测模块，还用于：

将所述输入图像和所述显著性目标掩码图的底层特征级联后，进行1×1卷积进行特征融合和通道降维，再利用5×5卷积和Sigmoid激活函数处理，得到基于掩码的门控注意力特征；

8.根据权利要求7所述的装置，其特征在于，所述图像注意力编码模块，还用于：基于显著性目标区域的先验信息，使具有显著性语义信息的目标进行对齐，将所述融合特征编码为设定维度的图像向量。

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现权利要求1至4中任一项所述的基于显著性目标检测的跨模态图文匹配训练方法的步骤。

10.一种可读非暂时性存储介质，其特征在于，所述存储介质上存储程序或指令，所述程序或指令被处理器执行时实现权利要求1至4中任一项所述的基于显著性目标检测的跨模态图文匹配训练方法的步骤。