CN114840651A

CN114840651A - 视觉问答的训练方法、系统及计算机可读存储介质

Info

Publication number: CN114840651A
Application number: CN202210415208.4A
Authority: CN
Inventors: 郑锋; 李宗蔚
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-08-02

Abstract

本申请公开了视觉问答的训练方法、系统及计算机可读存储介质，其中训练方法包括：获取预训练样本以及微调样本；对图片文本描述进行预处理，得到训练文本描述；通过视觉问答模型分别对第一图片、训练文本描述进行特征提取，得到第一图片特征向量和文本特征向量；并进行融合处理，得到第一多模态特征向量；对第一多模态特征向量进行文本解码、损失计算，更新模型参数；将微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算、更新所述视觉问答模型的参数信息，得到目标视觉问答模型。本申请将预训练和微调的过程同时应用于同一个训练模型框架中，从而提升模型在下游任务上的表现。

Description

视觉问答的训练方法、系统及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种视觉问答的训练方法、系统及计算机可读存储介质。

背景技术

视觉问答(Visual Question Answering)是一种基于图片内容对给出问题做出回答的技术。这一技术的提出旨在提供更丰富的人机交互方式，从技术上来说也是人工智能从感知智能向认知智能转变的重要支持部分。一个成熟的视觉问答系统能够在很多场景下协助未来的人工智能：手机、电脑、平板等智能设备的智能助手可以被赋能视觉和自然语言处理的能力，更好地处理人类有关图片的问题；视障人群可以通过询问语音助手与周围环境相关的问题帮助自己导航，规避风险，如询问“现在是红灯还是绿灯？”；其他的跨模态任务，如图文检索和图片描述所需要的跨模态推理能力也需要视觉问答的辅助。

一种常用的方式是使用图文对预训练的模型参数初始化视觉问答模型，并在问答数据上进行参数的微调。一方面，模型在预训练中可以学习到通用的图片与文本知识与特征表达，这有助于模型的微调；另一方面，现有的预训练任务与视觉问答任务之间存在不匹配的情况，这使得上下游任务的知识迁移变得十分困难，这导致在预训练过程中学习到的知识很难直接迁移到视觉问答任务中使用，即预训练任务和下游任务之间。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种视觉问答的训练方法、系统及计算机可读存储介质，将预训练和微调的过程同时应用于同一个训练模型框架中，从而提升模型在下游任务上的表现。

第一方面，本申请提供了一种视觉问答的训练方法，包括：

获取预训练样本以及微调样本；所述预训练样本包括若干第一图片以及与所述第一图片一一对应的若干图片文本描述；所述微调样本包括若干第二图片以及与所述第二图片一一对应的若干问题文本描述；

对所述第一图片对应的图片文本描述进行预处理，得到所述第一图片对应的训练文本描述；

通过视觉问答模型的图片编码器对所述第一图片进行特征提取，得到第一图片特征向量，并通过所述视觉问答模型的文本编码器对所述第一图片对应的所述训练文本描述进行特征提取，得到文本特征向量；

将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息；

根据所述训练答案信息进行损失计算，并更新所述视觉问答模型的参数信息；

将所述微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及更新所述视觉问答模型的参数信息，得到目标视觉问答模型。

根据本申请第一方面实施例的视觉问答的训练方法，至少具有如下有益效果：通过获取预训练样本以及微调样本，对预训练样本中第一图片对应的图片文本描述进行预处理，得到第一图片对应的训练文本描述，通过视觉问答模型的图片编码器对第一图片进行特征提取，得到第一图片特征向量，并通过视觉问答模型的文本编码器对第一图片对应的训练文本描述进行特征提取，得到文本特征向量；再将文本特征向量、对应的第一图片特征向量通过视觉问答模型的图文融合网络进行融合处理，得到第一多模态特征向量；将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息；根据所述训练答案信息进行损失计算，并通过反向传播更新所述视觉问答模型的参数信息；将所述微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及反向传播更新所述视觉问答模型的参数信息，得到目标视觉问答模型，通过统一预训练和下游任务的形式，将预训练和微调的过程同时应用于同一个训练模型框架中，减小预训练任务和下游任务之间的鸿沟的目的，从而提升模型在下游任务上的表现。

根据本申请第一方面的一些实施例，所述对所述第一图片对应的图片文本描述进行预处理，得到所述第一图片对应的训练文本描述，包括：在所述图片文本描述中提取目标答案信息，并采用第一标记替换所述目标答案信息的位置作为所述第一图片对应的训练文本描述。

根据本申请第一方面的一些实施例，所述将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息，包括：通过所述视觉问答模型的答案解码器对所述第一多模态特征向量进行序列化生成训练答案信息。

根据本申请第一方面的一些实施例，所述对所述第一图片对应的图片文本描述进行预处理，得到所述第一图片对应的训练文本描述，包括：在所述图片文本描述的末端添加第二标记，并作为所述第一图片对应的训练文本描述。

根据本申请第一方面的一些实施例，还包括：对所述第一图片和所述第一图片对应的图片文本描述进行困难样本采样，构建得到负样本；根据所述预训练样本和所述负样本，得到最大化配对和最小化配对；根据所述最大化配对确定真实答案信息的第一判断结果；根据所述最小化配对确定真实答案信息的第二判断结果。

根据本申请第一方面的一些实施例，所述将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息，包括：通过所述视觉问答模型的答案解码器对所述第一多模态特征向量基于所述最大化配对和所述最小化配对的监督对比，得到训练答案信息。

根据本申请第一方面的一些实施例，所述通过所述视觉问答模型的答案解码器对所述第一多模态特征向量基于所述最大化配对和所述最小化配对的监督对比，得到训练答案信息，包括：当所述第一多模态特征向量与所述最大化配对相匹配，得到的所述训练答案信息为所述第一判断结果；当所述第一多模态特征向量与所述最小化配对相匹配，得到的所述训练答案信息为所述第二判断结果。

根据本申请第一方面的一些实施例，所述根据所述训练答案信息进行损失计算，包括：采用所述目标答案信息监督所述训练答案信息，得到损失函数的损失值。

第二方面，本申请还提供了一种视觉问答的训练系统，包括：至少一个存储器；至少一个处理器；至少一个程序；所述程序被存储在所述存储器中，所述处理器执行至少一个所述程序以实现如第一方面任一项所述的视觉问答的训练方法。

根据本申请第二方面实施例的视觉问答的训练系统，至少具有如下有益效果：通过获取预训练样本以及微调样本，对预训练样本中第一图片对应的图片文本描述进行预处理，得到第一图片对应的训练文本描述，通过视觉问答模型的图片编码器对第一图片进行特征提取，得到第一图片特征向量，并通过视觉问答模型的文本编码器对第一图片对应的训练文本描述进行特征提取，得到文本特征向量；再将文本特征向量、对应的第一图片特征向量通过视觉问答模型的图文融合网络进行融合处理，得到第一多模态特征向量；将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息；根据所述训练答案信息进行损失计算，并通过反向传播更新所述视觉问答模型的参数信息；将所述微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及反向传播更新所述视觉问答模型的参数信息，得到目标视觉问答模型，通过统一预训练和下游任务的形式，将预训练和微调的过程同时应用于同一个训练模型框架中，减小预训练任务和下游任务之间的鸿沟的目的，从而提升模型在下游任务上的表现。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行信号，所述计算机可执行信号用于执行如第一方面任一项实施例所述的视觉问答的训练方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的附加方面和优点结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的一个实施例的视觉问答模型的结构示意图；

图2为本申请的一个实施例的视觉问答的训练方法的流程图；

图3为本申请的一个实施例中采用遮盖语言模型作为训练任务的流程图；

图4为本申请的另一实施例的视觉问答的训练方法的流程图；

图5为本申请的一个实施例中采用图文匹配任务作为训练任务的流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

在本申请的描述中，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本申请的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请中的具体含义。

第一方面，本申请提供一种视觉问答的训练方法，该训练方法基于如图1所示的视觉问答模型中，视觉问答模型包括：图像编码器(visual encoder)、文本编码器(textencoder)、图文融合网络和答案解码器(Decoder)。其中，图像编码器将输入的图片转换成序列特征向量的形式，常用的图片编码器包括卷积神经网络(CNNs)，视觉transformer(ViTs)等，这些图片编码器与我们的模型都兼容；文本编码器将预训练任务中的图片描述、下游任务中的问题文本作为输入，输出为文本模态的序列特征向量。在该模块中我们的方法也适配大多数现有的文本编码器，如长短时记忆网络(LSTM)，双向特征transformer编码器(BERT)等；图文融合网络是一个深度神经网络用来融合文本模态和图片模态的信息，一般来说，我们使用一个transformer模型将两种模态的特征向量融合为新的多模态特征；答案解码器是一个带注意力机制(attenetion mechanism)的深度神经网络，基于多模态特征可以序列化地生成答案的文本，答案解码器序列化地生成答案序列，它的输入是图文融合网络输出的特征和解码器已经预测的答案序列。参照图2，本申请提供的视觉问答的训练方法，包括但不仅限于以下步骤：

步骤S110：获取预训练样本以及微调样本；预训练样本包括若干第一图片以及与第一图片一一对应的若干图片文本描述；微调样本包括若干第二图片以及与第二图片一一对应的若干问题文本描述；

步骤S120：对第一图片对应的图片文本描述进行预处理，得到第一图片对应的训练文本描述；

步骤S130：通过视觉问答模型的图片编码器对第一图片进行特征提取，得到第一图片特征向量，并通过视觉问答模型的文本编码器对第一图片对应的训练文本描述进行特征提取，得到文本特征向量；

步骤S140：将文本特征向量、对应的第一图片特征向量通过视觉问答模型的图文融合网络进行融合处理，得到第一多模态特征向量；

步骤S150：将第一多模态特征向量输入至视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息；

步骤S160：根据训练答案信息进行损失计算，并更新视觉问答模型的参数信息；

步骤S170：将微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及更新视觉问答模型的参数信息，得到目标视觉问答模型。

通过获取预训练样本以及微调样本，对预训练样本中第一图片对应的图片文本描述进行预处理，得到第一图片对应的训练文本描述，通过视觉问答模型的图片编码器对第一图片进行特征提取，得到第一图片特征向量，并通过视觉问答模型的文本编码器对第一图片对应的训练文本描述进行特征提取，得到文本特征向量；再将文本特征向量、对应的第一图片特征向量通过视觉问答模型的图文融合网络进行融合处理，得到第一多模态特征向量；将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息；根据所述训练答案信息进行损失计算，并通过反向传播更新所述视觉问答模型的参数信息；将所述微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及反向传播更新所述视觉问答模型的参数信息，得到目标视觉问答模型，通过统一预训练和下游任务的形式，将预训练和微调的过程同时应用于同一个训练模型框架中，减小预训练任务和下游任务之间的鸿沟的目的，从而提升模型在下游任务上的表现。

简化的来说，本申请的预训练过程包含：预训练样本→特征提取→融合处理→文本解码→损失计算→反向传播更新参数→重复以上步骤多次，得到已进行预训练的视觉问答模型；本申请的微调过程包含：加载预训练参数→微调样本输入→特征提取→融合处理→文本解码→损失计算→反向传播更新参数→重复以上步骤多次，得到目标视觉问答模型。

可以理解的是，本申请的预训练方法采用基于解码器的遮盖语言模型(MaskLanguage Modeling，MLM)作为预训练任务该任务从图片描述中提取目标短语片段，并使用其作为监督信号训练模型。该预训练任务在预期中可以使模型学习到视觉问答任务中的答案表达。其中，在步骤S120中，包括但不仅限于以下步骤：

在图片文本描述中提取目标答案信息，并采用第一标记替换目标答案信息的位置作为第一图片对应的训练文本描述。

在一实施例中，随机选取第一图片对应的图片文本描述D中的一个短语片段，将其提取出来标记为目标T(target)，作为目标答案信息。在图片文本描述D中使用一个第一标记[MASK]替换该目标，获得训练文本描述M。例如有图片文本描述D为“女人正在切蛋糕”，我们取“切蛋糕”为T，则对应的M为“女人正在[MASK]”。

可以理解的是，在步骤S150中，包括但不仅限于以下步骤：

通过所述视觉问答模型的答案解码器对所述第一多模态特征向量进行序列化生成训练答案信息。

此处的训练答案信息未对应的训练文本描述M中的[MASK]处的信息。

具体地，参照图3，下面以一个具体的实施例对预训练方法采用基于解码器的遮盖语言模型(Mask Language Modeling，MLM)作为预训练任务作进一步阐述：

①获取第一图片I记忆于第一图片对应的图片文本描述D；

②随机选取第一图片对应的图片文本描述D中的一个短语片段，将其提取出来标记为目标T(target)，作为目标答案信息。在图片文本描述D中使用一个第一标记[MASK]替换该目标，获得训练文本描述M。例如有图片文本描述D为“女人正在切蛋糕”，我们取“切蛋糕”为T，则对应的M为“女人正在[MASK]”。

③将第一图片I输入图片编码器进行特征提取，获得第一图片特征向量f_I；将训练文本描述M输入文本编码器，获得文本特征向量f_M。

④将第一图片特征向量f_I和文本特征向量f_M输入图文融合网络，得到第一图片和训练文本描述的第一多模态特征向量f_c。

⑤将第一多模态特征向量f_c输入答案解码器中，用以预测我们提取出来的目标T，从而得到训练文本描述M中的[MASK]处的训练答案信息。

可以理解的是，本申请的预训练方法采用基于解码器的图文匹配任务(ImageText Matching，ITM)作为预训练任务，该任务的旨在提高下游视觉问答任务中“是/否”类问题的表现。具体而言，在该预训练任务中我们使用匹配的图文对模拟答案为“是”的问题，不匹配的图文对模拟答案为“否”的问题。其中，在步骤S120中，包括但不仅限于以下步骤：

在所述图片文本描述的末端添加第二标记，并作为所述第一图片对应的训练文本描述。

为了避免模型学到捷径(short cut)，在图片文本描述D末尾增加一个第二标记[MASK]，并作为训练文本描述M。

参照图4，可以理解的是，本申请提供的视觉问答的训练方法，其特征在于，还包括但不仅限于以下步骤：

步骤S210：对第一图片和第一图片对应的图片文本描述进行困难样本采样，构建得到负样本；

步骤S220：根据预训练样本和负样本，得到最大化配对和最小化配对；

步骤S230：根据最大化配对确定真实答案信息的第一判断结果；

步骤S240：根据最小化配对确定真实答案信息的第二判断结果。

对第一图片和第一图片对应的图片文本描述进行困难样本采样，具体为在输入至图像编码器和文本编码器前，对第一图片和第一图片对应的图片文本描述进行困难样本batch内采样，即从第一图片I和第一图片对应的图片文本描述D得到负样本I’和D’，具体地，负样本I’是batch内和D关联度最大的图片，负样本D’是batch内和I关联度最大的文本描述，并且组成关于I和D最大化配对，和关于I’和D、I和D’最小化配对，其中，最大化配对作为第一判断结果的样本监督信息，最小化配对作为第二判断结果的样本监督信息，第一判断结果为“是”，第二判断结果为“否”。

可以理解的是，在步骤S150中，包括但不仅限于以下步骤：

通过所述视觉问答模型的答案解码器对所述第一多模态特征向量基于所述最大化配对和所述最小化配对的监督对比，得到训练答案信息。

将第一多模态特征向量与最大化配对和最小化配对进行监督对比，从而判断处输出的训练答案信息为第一判断结果还是第二判断结果。

可以理解的是，在上述的步骤中，包括但不仅限于以下步骤：

当第一多模态特征向量与最大化配对相匹配，得到的训练答案信息为第一判断结果；

当第一多模态特征向量与最小化配对相匹配，得到的训练答案信息为第二判断结果。

示例性的，第一多模态特征向量与最大化配对更为相似，输出第一判断结果，即输出的训练答案信息为“是”；第一多模态特征向量与最小化配对更为相似，输出第二判断结果即输出的训练答案信息为“否”。

参照图5，下面以一个具体的实施例对预训练方法采用基于解码器的图文匹配任务(Image Text Matching，ITM)作为预训练任务作进一步阐述：

①获取第一图片I记忆于第一图片对应的图片文本描述D；

②为了避免该模型学到捷径(short cut)，为了避免模型学到捷径(short cut)，在图片文本描述D末尾增加一个第二标记[MASK]，并作为训练文本描述M，将第一图片I输入图片编码器进行特征提取，获得第一图片特征向量f_I；将训练文本描述M输入文本编码器，获得文本特征向量f_M。

③我们使用一个对比学习损失监督两个编码器的输出特征和，在一个训练批次(batch)中，我们的目标是最大化配对的第一图片I和图片文本描述D的相似度，最小化不匹配的图文对的相似度：I’和D，I和D’：

④将第一图片特征向量f_I和文本特征向量f_M输入图文融合网络，得到第一图片和图片文本描述的第一多模态特征向量f_c，并将输入答案解码器中，使用训练答案信息为“是”作为该对样本的监督信息。

⑤基于步骤③我们构建困难负样本。困难负样本是指具有较高相似度的不匹配的图文对。我们将困难负样本的特征(f_I’，f_D)，(f_I，f_D’)依次输入图文融合网络和答案解码器中，使用训练答案信息为“否”作为该样本的监督信息。

可以理解的是，在步骤S160中的根据训练答案信息进行损失计算的步骤，包括但不仅限于以下步骤：

采用所述目标答案信息监督所述训练答案信息，得到损失函数的损失值。

具体地，假设答案信息文本序列为T＝{[CLS],t₁,t₂,...,t_n},其中t_i是第i个字，[CLS]标记用于提示开始。模型在第i步输出t_i的概率为：

p(t_i)＝Decoder(f_c,{t₁,t₂,...,t_i-1})；

使用答案信息文本序列T来监督模型训练的损失函数为：

具体地，预训练阶段最终的训练损失即为遮盖语言模型MLM和图文匹配任务I TM的损失之和。

在微调阶段，将微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及反向传播更新视觉问答模型的参数信息，得到目标视觉问答模型，得到目标视觉问答模型，具体为：

①将第二图片I输入图片编码器，获得第二图片特征向量f_I；将问题文本描述Q输入文本编码器，获得问题特征向量f_Q；

2)将第二图片特征向量f_I和问题特征向量f_Q输入图文融合网络，得到关于第二图片和对应问题文本描述的第二多模态特征向量f_c；

3)将f_c输入答案解码器中，用以预测答案A。

本申请主要应用于视觉问答任务模型的预训练和微调。在之前的发明中，视觉问答模型的预训练和微调过程采用不同的模型架构，监督目标，这导致预训练和微调之间存在鸿沟(gap)，在预训练大语料库中学习到的知识和表达不能很好地应用到视觉问答任务中，限制了模型在视觉问答任务中的表现。

另外，之前的发明使用过的预训练任务一般是通用的任务，而没有考虑到对视觉问答任务的适配。我们提出的预训练任务充分考虑到了视觉问答的特殊性，并对齐进行了有针对性的改进和优化。

第二方面，本申请还提供了一种视觉问答的训练系统，至少一个存储器、至少一个处理器和至少一个程序，程序被存储在存储器中，处理器执行一个或多个程序以实现上述视觉问答的训练方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及信号，如本申请实施例中的处理模块对应的程序指令/信号。处理器通过运行存储在存储器中的非暂态软件程序、指令以及信号，从而执行各种功能应用以及数据处理，即实现上述方法实施例的视觉问答的训练方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储上述视觉问答的训练方法的相关数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个信号存储在存储器中，当被一个或者多个处理器执行时，执行上述任意方法实施例中的视觉问答的训练方法。例如，执行以上描述的图1中的方法步骤S110至S160、图2中的方法步骤S210至S240。

第五方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，可使得上述一个或多个处理器执行上述方法实施例中的视觉问答的训练方法。例如，执行以上描述的图1中的方法步骤S110至S160、图2中的方法步骤S210至S240。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读信号、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读信号、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体地”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

上面结合附图对本申请实施例作了详细说明，但是本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下，作出各种变化。

Claims

1.一种视觉问答的训练方法，其特征在于，包括：

将所述文本特征向量、对应的所述第一图片特征向量通过所述视觉问答模型的图文融合网络进行融合处理，得到第一多模态特征向量；

2.根据权利要求1所述的视觉问答的训练方法，其特征在于，所述对所述第一图片对应的图片文本描述进行预处理，得到所述第一图片对应的训练文本描述，包括：

在所述图片文本描述中提取目标答案信息，并采用第一标记替换所述目标答案信息的位置作为所述第一图片对应的训练文本描述。

3.根据权利要求2所述的视觉问答的训练方法，其特征在于，所述将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息，包括：

4.根据权利要求1所述的视觉问答的训练方法，其特征在于，所述对所述第一图片对应的图片文本描述进行预处理，得到所述第一图片对应的训练文本描述，包括：

5.根据权利要求4所述的视觉问答的训练方法，其特征在于，还包括：

对所述第一图片和所述第一图片对应的图片文本描述进行困难样本采样，构建得到负样本；

根据所述预训练样本和所述负样本，得到最大化配对和最小化配对；

根据所述最大化配对确定真实答案信息的第一判断结果；

根据所述最小化配对确定真实答案信息的第二判断结果。

6.根据权利要求5所述的视觉问答的训练方法，其特征在于，所述将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理，得到训练答案信息，包括：

7.根据权利要求6所述的视觉问答的训练方法，其特征在于，所述通过所述视觉问答模型的答案解码器对所述第一多模态特征向量基于所述最大化配对和所述最小化配对的监督对比，得到训练答案信息，包括：

当所述第一多模态特征向量与所述最大化配对相匹配，得到的所述训练答案信息为所述第一判断结果；

当所述第一多模态特征向量与所述最小化配对相匹配，得到的所述训练答案信息为所述第二判断结果。

8.根据权利要求2或7所述的视觉问答的训练方法，其特征在于，所述根据所述训练答案信息进行损失计算，包括：

9.一种视觉问答的训练系统，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在所述存储器中，所述处理器执行至少一个所述程序以实现如权利要求1至8任一项所述的视觉问答的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行信号，所述计算机可执行信号用于执行如权利要求1至8任一项所述的视觉问答的训练方法。