CN115393854B

CN115393854B - 一种视觉对齐处理方法、终端及存储介质

Info

Publication number: CN115393854B
Application number: CN202211326707.2A
Authority: CN
Inventors: 刘世隆; 李峰; 张�浩; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-02-21
Anticipated expiration: 2042-10-27
Also published as: CN115393854A

Abstract

本发明公开了一种视觉对齐处理方法、终端及存储介质，先根据待识别图像的图像特征和待识别文本的文本特征，构建预设对偶查询向量对并生成初始化输入向量对；初始化输入向量对包括：由预设图像查询向量及初始图像检测框、初始文本掩码组成的第一输入向量，由预设文本查询向量及初始图像检测框、初始文本掩码组成的第二输入向量；基于初始化输入向量对、图像特征和文本特征，通过预设Transformer网络的解码器，确定目标对象的目标对偶查询向量对；基于目标对偶查询向量对，确定目标对象的目标图像检测框和目标文本掩码。通过上述方案，使得多模态模型中的文本模态任务和图像模态任务能够准确对齐，提高视觉对齐效果。

Description

一种视觉对齐处理方法、终端及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视觉对齐处理方法、终端及存储介质。

背景技术

随着计算机技术的快速发展，多模态学习成为研究热点。一方面，人类对世界的理解是多个维度的，多模态学习可以使计算机能够更好地模仿人的行为、模仿人的感知能力。另一方面，随着深度学习的发展，也使得计算机视觉、自然语言处理等单一模态领域迅猛发展，为多模态学习提供了强大的理论和实践基础。

多模态学习的输入包括图像和文本两个模态，多模态模型通过同时学习这两个模态的样本获取感知能力和理解能力。其中，图像模态包括图片、视频等；文本模态包括各种语言、语音的摘要文档、问答、对话等。

目前的多模态模型一般通过一个查询向量完成两个模态任务，即一个查询向量需要完成查询到图片中的目标对象及文本中的目标短语，在这个过程中多模态需要文本特征和图像特征进行对齐，同时也需要能够找到目标位置，这两个要求相互影响导致多模态模型的模型性能差，使得完成的两个模态任务的无法准确对齐，视觉对齐效果差，目标对象所对应的图像和文本之间误差较大。

发明内容

本发明的主要目的在于提供一种视觉对齐处理方法、终端及计算机可读存储介质，旨在解决现有技术中多模态模型完成的文本模态任务和图像模态任务无法准确对齐，其视觉对齐效果差的问题。

为了实现上述目的，本发明实施例提供了一种视觉对齐处理方法，所述方法包括：

根据待识别图像的图像特征和待识别文本的文本特征，构建预设对偶查询向量对并生成初始化输入向量对；

其中，每个所述预设对偶查询向量对包括：预设图像查询向量和预设文本查询向量；所述初始化输入向量对包括：由所述预设图像查询向量及初始图像检测框、初始文本掩码组成的第一输入向量，由所述预设文本查询向量及初始图像检测框、初始文本掩码组成的第二输入向量；

基于所述初始输入向量对、所述图像特征和所述文本特征，通过预设Transformer网络的解码器确定目标对象的目标对偶查询向量对；所述目标对偶查询向量对包括：目标图像查询向量和目标文本查询向量；

基于所述目标对偶查询向量对，确定目标对象的目标图像检测框和目标文本掩码，并输出对齐的所述目标对象的目标图像检测框和目标文本掩码。

可选地，所述基于所述初始化输入向量对、所述图像特征和所述文本特征，通过预设Transformer网络的解码器，确定所述目标对象的目标对偶查询向量对，具体包括：

将所述初始化输入向量对、所述图像特征和所述文本特征输入所述解码器的第一层解码器层中，通过所述第一层解码器层，得到所述第一层解码器层的预测对偶查询向量对；

其中，所述预测对偶查询向量对包括：预测图像查询向量、预测文本查询向量；所述预测对偶查询向量对包括：预测图像查询向量、预测文本查询向量；所述预测图像查询向量包括：预测图像内容嵌入向量、预测图像位置嵌入向量；所述预测文本查询向量包括：预测文本内容嵌入向量、预测文本位置嵌入向量；所述解码器包括：多层解码器层；

将所述预测图像位置嵌入向量共享至所述预测文本查询向量，作为所述第一层解码器层对应的生成文本查询向量；以及将所述预测文本位置嵌入向量共享至所述预测图像查询向量，作为所述第一层解码器层对应的生成图像查询向量；

获取前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量，输入至后一层解码器层，以得到后一层解码器层的所述预测对偶查询向量对；

将最后一层解码器层的所述预测对偶查询向量对，作为所述目标对象的目标对偶查询向量对。

可选地，所述获取前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量，输入至后一层解码器层，得到后一层解码器层的所述预测对偶查询向量对，具体包括：

获取所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量；其中，每层所述解码器层包括：交叉注意力层或ROIAlign层；

将所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量、以及所述图像特征和所述文本特征，输入所述后一层解码器层的交叉注意力层或ROIAlign层中，以确定所述后一层解码器层的预测对偶查询向量对。

可选地，所述将所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量、以及所述图像特征和所述文本特征，输入所述后一层解码器层的交叉注意力层或ROIAlign层中，以确定所述后一层解码器层的预测对偶查询向量对，具体包括：

根据所述前一层解码器层的所述预测文本查询向量以及所述文本特征，确定所述前一层解码器层对应的生成文本掩码；

将所述前一层解码器层对应的所述生成文本掩码输入后一层解码器层的交叉注意力层或ROIAlign层，通过所述生成文本掩码对所述生成文本查询向量和所述生成图像查询向量进行引导，得到所述后一层解码器层的预测对偶查询向量对。

可选地，所述基于所述目标对偶查询向量对，确定目标对象的目标图像检测框和目标文本掩码，具体包括：

根据所述目标对偶查询向量对中的目标图像查询向量，回归出所述目标对象的目标图像检测框；以及将所述目标对偶文本查询向量与所述文本特征进行点乘计算，得到所述目标对象的目标文本掩码。

可选地，在获取待识别图像的图像特征和待识别文本的文本特征之后，所述方法还包括：

将所述图像特征、所述文本特征进行融合，并将融合后的所述图像特征和所述文本特征输入所述Transformer网络的解码器。

可选地，所述图像特征与所述文本特征的特征维度相同。

可选地，融合后的图像特征与融合前的图像特征的尺寸相同；融合后的文本特征与融合前的文本特征的尺寸相同。

为了实现上述目的，本发明实施例还提供了一种终端，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上所述的视觉对齐处理方法中的步骤。

为了实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的视觉对齐处理方法中的步骤。

本发明通过根据待识别图像的图像特征和待识别文本的文本特征构建预设对偶查询向量对并生成初始化输入向量对；初始化输入向量对中的第一输入向量包括：预设图像查询向量、初始图像检测框和初始文本掩码，初始化输入向量对中的第二输入向量包括：预设文本查询向量、初始图像检测框和初始文本掩码；再基于初始化输入向量对、图像特征和文本特征，通过预设Transformer网络的解码器，确定目标对象的目标对偶查询向量对，从而根据目标对偶查询向量对确定目标对象的目标图像检测框和目标文本掩码，以实现目标对象的视觉对齐任务处理。在本发明中，采用由预设图像查询向量和预设文本查询向量组成预设对偶查询向量对，并且将对应的初始图像检测框和初始文本掩码进行共享，以生成第一输入向量和第二输入向量，并将第一输入向量和第二输入向量作为Transformer网络的解码器的查询向量，使得用于完成图像模态任务的查询向量和用于完成文本模态任务的查询向量相互关联，从而基于目标对象的目标对偶查询向量对得到的目标图像检测框和目标文本掩码能够准确对齐，提高了视觉对齐效果，减小目标对象的目标图像检测框和目标文本掩码之间的误差。

附图说明

图1为本发明实施例提供的视觉对齐处理方法的流程图；

图2为本发明实施例提供的执行视觉对齐处理方法的一架构图；

图3为本发明实施例提供的执行视觉对齐处理方法的另一架构图；

图4为本发明实施例提供的步骤S104的流程图；

图5为本发明实施例提供的交叉注意力层的示意图；

图6为本发明实施例提供的交叉注意力层的另一示意图；

图7为本发明实施例提供的图像检测框误差的曲线图；

图8为本发明实施例提供的视觉对齐处理方法的效果示意图；

图9为本发明实施例提供的终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随着计算机技术的不断发展，多模态学习成为研究热点。尤其是目标检测、图像分割以及视频追踪等技术的不断发展，多模态模型也得到了快速的发展。多模态模型一般可以同时完成图像模态和文本模态两个任务，例如通过多模态模型完成图文匹配。

现有技术中，通常是通过一个查询向量完成两个模态任务，即通过一个查询向量确定目标对象查询到在图像中的位置以及在文本中对应的短语。在这个过程中多模态需要文本特征和图像特征进行对齐，同时也需要能够找到目标位置，这两个要求相互影响导致多模态模型的模型性能差，使得完成的两个模态任务的对齐效果差，目标物体的图像和文本之间误差较大。而如果简单的使用多个查询向量对应同一目标对象，会忽略多个查询向量的相互关联性，导致模型性能不佳。

为了解决上述技术问题，在本发明方案中，先根据待识别图像的图像特征和待识别文本的文本特征，构建预设对偶查询向量对并生成对应的初始化输入向量对。其中，每个预设对偶查询向量对包括：预设图像查询向量和预设文本查询向量；初始化输入向量对包括：由预设图像查询向量及初始图像检测框、初始文本掩码组成的第一输入向量，由预设文本查询向量及初始图像检测框、初始文本掩码组成的第二输入向量；基于初始化输入向量对、图像特征和文本特征，通过预设Transformer网络的解码器，确定目标对象的目标对偶查询向量对；再基于目标对偶查询向量对，确定目标对象的目标图像检测框和目标文本掩码。

与现有技术中多模态模型通过一个查询向量完成两个模态任务相比，在本发明方案中，根据构建的预设对偶查询向量对及初始图像检测框和初始文本掩码，生成对应的初始化输入向量对，通过Transformer网络的解码器，基于初始化输入向量对、所述图像特征和所述文本特征，确定所述目标对象的目标查询向量对，以根据目标查询向量对确定目标对象的目标图像检测框和目标文本掩码。其中，初始化输入向量对中包括：第一输入向量和第二输入向量，第一输入向量包括：预设对偶查询向量对中的预设图像查询向量、初始图像检测框和初始文本掩码；第二输入向量包括：预设对偶查询向量对中的预设文本查询向量、及初始图像检测框和初始文本框。

即在本发明中，采用初始化输入向量对中的第一输入向量和第二输入向量分别完成对应的模态任务，在并且第一输入向量和第二输入向量中均包括两个模态任务对应的目标对象的位置信息（图像位置信息和短语位置信息），保证第一输入向量和第二输入向量的相互关联性，从而使得提高完成的两个模态任务的视觉对齐效果，即得到的目标对象的目标图像检测框和目标文本掩码之间的匹配更加准确。本发明实施例提出的视觉对齐处理方法，可以适用于视频字幕匹配等场景。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

本发明实施例提供了一种视觉对齐处理方法，如图1所示，本发明实施例提供的视觉对齐处理方法至少可以包括以下步骤：

S101，获取待识别图像的图像特征和待识别文本的文本特征。

具体地，可以先获取待识别图像和待识别文本，将待识别图像输入图像特征提取器，得到待识别图像的图像特征；将待识别文本输入文本特征提取器，得到待识别文本的文本特征。如图2所示，待识别图像为图2中所示的包含小猫和小球的输入图片，待识别文本为输入文本“A cat and a ball”，对输入图片进行特征图像特征提取，对输入文本进行文本特征提取。

在本发明实施例中，可以将待识别图像和待识别文本输入预设Transformer网络的编码器中，以得到对应的图像特征和文本特征，如图3所示。该Transformer网络的编码器可以包括：图像特征编码器、文本特征编码器两个分支，其中，图像特征编码器可以由多层编码器层组成，文本特征编码器也可以包括多层编码器层，例如：图像特征编码器和文本特征编码器均由6层编码层组成。可以理解的是，在将待识别图像和待识别文本输入预设Transformer网络的编码器中，以得到对应的图像特征和文本特征的过程中，图像特征编码器即为上述图像特征提取器，文本特征编码器即为文本特征编码器。

其中，图像特征和文本特征的特征维度相同。例如，图像特征的尺寸为H×W×C，H为图像特征高度，W为图像特征宽度，C为特征维度；文本特征的尺寸为L×C，L为文本特征长度。在本发明实施例中，保证提取到的图像特征和文本特征的特征维度相同，能够进一步提高文本模态和图像模态两个模态任务的视觉对齐效果。

S102，将上述图像特征、文本特征进行融合，并将融合后的图像特征和文本特征输入预设Transformer网络的解码器中。

具体地，按照预设顺序将图像特征、文本特征进行拼接，即得到融合后的图像特征和文本特征。可以理解的是，在图像特征、文本特征进行拼接时，可以是图像特征在前文本特征在后，也可以是文本特征在前图像特征在后，具体的拼接顺序在本发明实施例中不做具体限定。并且，融合后的图像特征与融合前的图像特征的尺寸相同；融合后的文本特征与融合前的文本特征尺寸相同，从而进一步保证得到的目标对象的目标图像检测框和目标文本掩码的准确性。

在本发明实施例中，在预设Transformer网络的解码器由多层解码器层组成的情况下，将融合后的图像特征和文本特征输入预设Transformer网络的解码器中，是指将融合后的图像特征和文本特征输入每一层解码器层中。

S103，根据待识别图像的图像特征和待识别文本的文本特征，构建预设对偶查询对并生成初始化输入向量对。

其中，每个预设对偶查询向量对包括：预设图像查询向量和预设文本查询向量。在本发明实施例中，可以具有多个预设对偶查询向量对，例如100对query。并且，各预设对偶查询向量对中的预设图像查询向量和预设文本查询向量的特征维度，与步骤S101获取的图像特征和文本特征的特征维度相同，从而进一步提高文本和图像对齐的视觉对齐效果。

此外，上述预设图像查询向量包括：预设图像内容嵌入向量、预设图像位置嵌入向量；上述预设文本查询向量包括：预设文本内容嵌入向量、预设文本位置嵌入向量。

在本发明实施例中，上述预设图像内容嵌入向量、上述预设文本内容嵌入向量、和上述初始图像检测框是在模型训练中学习到的。初始文本掩码可以为空（或者等价的、全为1的向量）。

上述初始图像检测框是目标对象在待识别图像中的边界框（即锚框），初始图像检测框可以根据图像检测框的中心点坐标、图像检测框的宽高来表示。

上述初始文本掩码是将待识别文本中除目标对象的其他文本进行掩码所得到的，即初始文本掩码表示目标对象在待识别文本中对应的目标短语的位置。

由上述可知，在本发明实施例中，上述初始图像检测框是在模型训练中学习到的，初始文本掩码可以为空（或者等价的、全为1的向量）。

在本发明实施例中，将预设图像查询向量对应的初始图像检测框共享给预设文本查询向量，而预设文本查询向量将其对应的初始文本掩码共享给预设图像查询向量，从而生成初始化输入向量对。

具体地，上述初始化输入向量对包括：第一输入向量和第二输入向量。第一输入向量包括：预设图像查询向量以及初始图像检测框、初始文本掩码；第二输入向量包括：预设文本查询向量以及初始图像检测框、初始文本掩码。

通过上述方法，将预设图像查询向量对应的初始图像检测框共享给预设文本查询向量，而预设文本查询向量将其对应的初始文本掩码共享给预设图像查询向量，使得第一输入向量和第二输入向量之间具有一定的关联性。

可以理解的是，以先执行步骤S102再执行步骤S103，或者先执行步骤S103再执行步骤S102，亦或者步骤 S102和步骤S103同时执行，在本发明实施例中不做具体限定。

S104，基于初始化输入向量对、图像特征和文本特征，通过预设Transformer网络的解码器确定目标对象的目标对偶查询向量对。

在本发明实施例中，预设Transformer网络的解码器可以包括多层解码器层，且每层解码器层都包括一个交叉注意力层或ROIAlign层。以每层解码器层包含一个交叉注意力层为例，如图2所示，每个解码器层还可以包括：自注意力层、归一化层、前馈层以及其它层，与现有技术相同在此不再加以赘述。

如图4所示，步骤S104至少可以通过以下步骤实现：

S401，将初始化输入向量对、图像特征和文本特征输入解码器的第一层解码器层，通过第一层解码器层，得到第一层器解码器层的预测对偶查询向量对。

其中，预测对偶查询向量对包括：预测图像查询向量、预测文本查询向量；预测图像查询向量包括：预测图像内容嵌入向量、预测图像位置嵌入向量，预测文本查询向量包括：预测文本内容嵌入向量、预测文本位置嵌入向量。

具体地，如图3所示，将初始化输入向量对作为查询向量Q（query），将图像特征和文本特征作为键向量K（key）和值向量V（value），输入第一层解码器层，第一层解码器层通过其交叉注意力层或ROIAlign层输出更新的预设图像查询向量（即预测图像查询向量）、更新的预设文本查询向量（即预测文本查询向量）。

S402，将预测图像位置嵌入向量共享至预测文本查询向量，作为第一层解码器层对应的生成文本查询向量；以及将预测文本位置嵌入向量共享至预测图像查询向量，作为第一层解码器层的生成图像查询向量。

其中，生成文本查询向量包括：预测文本内容嵌入向量、预测文本位置嵌入向量以及预测图像位置嵌入向量；生成图像查询向量包括：预测图像内容嵌入向量、预测图像位置嵌入向量以及预测文本位置嵌入向量。

在本发明实施例中，将预测文本位置嵌入向量共享至预测图像查询向量，将预测图像位置嵌入向量共享至预测文本查询向量，从而使得得到的生成文本查询向量和生成图像查询向量具有关联性。

S403，获取前一层解码器层对应的生成文本查询向量和生成图像查询向量，输入至后一层解码器层，以得到后一层解码器层的预测对偶查询向量对。

具体地，获取前一层解码器层对应的生成文本查询向量和生成图像查询向量；将前一层解码器层对应的生成文本查询向量和生成图像查询向量、以及图像特征和文本特征，输入后一层解码器层的交叉注意力层或ROIAlign层中，以通过交叉注意力层或ROIAlign层，确定后一层解码器层的预测对偶查询向量对。

进一步地，根据前一层解码器层的预测文本查询向量以及文本特征，确定前一层解码器层对应的生成文本掩码；将前一层解码器层对应的生成文本掩码，输入后一层解码器层的交叉注意力层或ROIAlign层，通过该生成文本掩码对生成文本查询向量和生成图像查询向量进行引导，得到后一层解码器层的预测对偶查询向量对。

此外，上述根据后一层解码器层的预测对偶查询向量对，生成后一层解码器层对应的生成文本查询向量和生成图像查询向量，具体实施方式参照上述实施例中阐述的方案，在此不再加以赘述。

以解码器层包括交叉注意力层为例，如图5所示，原有的交叉注意力机制需要在文本查询向量和融合后的所有文本特征之间进行交互，当文本内容过多时会产生更多的冗余信息。在本发明实施例中，如图6所示，将生成文本掩码输入交叉注意力层中进行掩码，此时只需要计算文本查询向量与部分融合后的文本特征之间的注意力机制，可以过滤掉很多不相干的文本特征（如图6中的白色块），只与关键词语进行交互（如图6中的黑色块），从而节约计算资源，提高工作效率。

可以理解的是，在第一层解码器层中，也可以将预设文本查询向量对应的初始文本掩码输入第一层解码器层的交叉注意力层中，以过滤不掉很多不相干的文本特征，只与关键词语进行交互，从而进一步节约计算资源、提高工作效率。

S404，将最后一层解码器层的预测对偶查询向量对，作为目标对象的目标对偶查询向量对。

举例说明，以预设Transformer网络的解码器包括6层解码器层为例，将通过第一层解码器层对应的生成图像查询向量和生成文本查询向量输入第二层解码器层；第二层解码器层通过输入的生成图像查询向量和生成文本查询向量，生成新的预测对偶查询向量，得到第二层解码器层对应的生成图像查询向量和生成文本查询向量；将第二层解码器层对应的生成图像查询向量和生成文本查询向量输入第三层解码器层，第三解码器层通过第二层解码器层输入的对应的生成图像查询向量和生成文本查询向量，得到新的预测对偶查询向量以得到第三层解码器层对应的生成图像查询向量和生成文本查询向量并输入下一层解码器层，以此类推，最后一层解码器层输出预测对偶查询向量对，即为目标对偶查询向量对。

S105，基于目标对偶查询向量对，确定目标对象的目标图像检测框和目标文本掩码。

具体地，可以根据目标对偶查询向量对中的目标图像查询向量和图像特征，通过预设的多层感知器回归出目标对象的目标图像检测框；以及将目标文本查询向量与文本特征进行点乘计算，得到目标对象的目标文本掩码。

在本发明实施例提供的视觉对齐处理方法中，根据待识别图像的图像特征和待识别文本的文本特征，构建预设对偶查询向量对并生成初始化输入向量对，通过预设Transformer网络的解码器，基于初始化输入向量对、所述图像特征和所述文本特征，确定所述目标对象的目标查询向量对，以根据目标查询向量对确定目标对象的目标图像检测框和目标文本掩码。其中，初始化输入向量对中包括：第一输入向量和第二输入向量，第一输入向量包括：预设对偶查询向量对中的预设图像查询向量、及初始图像检测框和初始文本掩码；第二输入向量包括：预设对偶查询向量对中的预设文本查询向量、及初始图像检测框和初始文本框。采用初始化输入向量对中的第一输入向量和第二输入向量分别完成对应的模态任务，并且第一输入向量和第二输入向量中均包括两个模态任务对应的目标对象的位置信息（图像位置信息和短语位置信息），保证了第一输入向量和第二输入向量的相互关联性，从而使得提高完成的两个模态任务的视觉对齐效果，即得到的目标对象的目标图像检测框和目标文本掩码之间的匹配更加准确，如图7、8所示。

基于上述视觉对齐处理方法，本发明实施例还提供了一种终端，如图9所示，其包括至少一个处理器（processor）90；显示屏91；以及存储器（memory）92，还可以包括通信接口（Communications Interface）93和总线94。其中，处理器90、显示屏91、存储器92和通信接口93可以通过总线94完成相互间的通信。显示屏91设置为显示初始设置模式中预设的用户引导界面。通信接口93可以传输信息。处理器90可以调用存储器92中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器92中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器92作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器90通过运行存储在存储器92中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的视觉对齐处理方法。

存储器92可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器92可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

基于上述视觉对齐处理方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的视觉对齐处理方法中的步骤。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于终端和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例提供的终端和存储介质与方法是一一对应的，因此，终端和存储介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述终端和存储介质的有益技术效果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种视觉对齐处理方法，其特征在于，所述方法包括：

其中，每个所述预设对偶查询向量对包括：预设图像查询向量和预设文本查询向量；所述初始化输入向量对包括：由所述预设图像查询向量及初始图像检测框、初始文本掩码组成的第一输入向量，由所述预设文本查询向量及所述初始图像检测框、所述初始文本掩码组成的第二输入向量；

基于所述初始化输入向量对、所述图像特征和所述文本特征，通过预设Transformer网络的解码器确定目标对象的目标对偶查询向量对；所述目标对偶查询向量对包括：目标图像查询向量和目标文本查询向量；

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始化输入向量对、所述图像特征和所述文本特征，通过预设Transformer网络的解码器确定所述目标对象的目标对偶查询向量对，具体包括：

其中，所述预测对偶查询向量对包括：预测图像查询向量、预测文本查询向量；所述预测图像查询向量包括：预测图像内容嵌入向量、预测图像位置嵌入向量；所述预测文本查询向量包括：预测文本内容嵌入向量、预测文本位置嵌入向量；所述解码器包括：多层解码器层；

将所述预测图像位置嵌入向量共享至所述预测文本查询向量，作为所述第一层解码器层对应的生成文本查询向量；以及

将所述预测文本位置嵌入向量共享至所述预测图像查询向量，作为所述第一层解码器层对应的生成图像查询向量；

3.根据权利要求2所述的方法，其特征在于，所述获取前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量，输入至后一层解码器层，得到后一层解码器层的所述预测对偶查询向量对，具体包括：

将所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量、以及所述图像特征和所述文本特征，输入所述后一层解码器层的交叉注意力层或ROIAlign层中，以确定所述后一层解码器层的所述预测对偶查询向量对。

4.根据权利要求3所述的方法，其特征在于，所述将所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量、以及所述图像特征和所述文本特征，输入所述后一层解码器层的交叉注意力层或ROIAlign层中，以确定所述后一层解码器层的所述预测对偶查询向量对，具体包括：

将所述前一层解码器层对应的所述生成文本掩码输入所述后一层解码器层的交叉注意力层或ROIAlign层，通过所述生成文本掩码对所述生成文本查询向量和所述生成图像查询向量进行引导，得到所述后一层解码器层的所述预测对偶查询向量对。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标对偶查询向量对，确定目标对象的目标图像检测框和目标文本掩码，具体包括：

根据所述目标对偶查询向量对中的目标图像查询向量，回归出所述目标对象的目标图像检测框；以及将所述目标文本查询向量与所述文本特征进行点乘计算，得到所述目标对象的目标文本掩码。

6.根据权利要求1所述的方法，其特征在于，在所述根据待识别图像的图像特征和待识别文本的文本特征，构建预设对偶查询向量对之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述图像特征与所述文本特征的特征维度相同。

8.根据权利要求6所述的方法，其特征在于，融合后的图像特征与融合前的图像特征的尺寸相同；融合后的文本特征与融合前的文本特征的尺寸相同。

9.一种终端，其特征在于，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的视觉对齐处理方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任意一项所述的视觉对齐处理方法中的步骤。