CN113392288A

CN113392288A - 视觉问答及其模型训练的方法、装置、设备及存储介质

Info

Publication number: CN113392288A
Application number: CN202010168092.XA
Authority: CN
Inventors: 雷陈奕; 王国鑫; 李朝; 唐海红
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-09-14

Abstract

本发明实施例提供了一种视觉问答及其模型的训练方法、装置、电子设备及计算机存储介质，其中，一种视觉问答模型的训练方法包括：通过输入部分接收输入视觉问答模型的训练样本，训练样本包括样本图像和样本图像对应的多个文本问题；通过视觉问答模型的特征提取部分，对多个文本问题分别进行特征提取获得对应的多个语义向量和对样本图像进行特征提取获得对应的图像特征向量；在视觉问答模型的表达学习部分，使用注意力机制对图像特征向量和多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；通过视觉问答模型的输出部分，根据图像特征表达向量和问题特征表达向量进行问题结果预测，根据问题结果预测的结果进行视觉问答模型的训练。

Description

视觉问答及其模型训练的方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种视觉问答模型的训练方法和视觉问答方法，以及，视觉问答模型的训练方法和视觉问答方法分别对应的装置、电子设备及计算机存储介质。

背景技术

视觉问答(Visual Question Qnswering，VQA)是一种涉及计算机视觉和自然语言处理的学习任务。一个VQA系统以一张图像和一个关于这张图像形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简言之，VQA就是针对给定的图像进行问答。

传统的VQA系统中，需要将图像和文本问题作为输入，结合这两部分信息，产生一条答案作为输出。在具体实现时，其将学习以及推理过程归纳为一个一个独立的<视觉内容-文本问题>对，独立地去学习视觉内容(例如图像、视频等)和文本问题。但随着5G时代的到来，很多应用中都融入了多媒体内容，例如电子商务应用、直播应用等等。其中，多媒体内容一般由多模态数据所构成，包括文本(如标题)、图像(如封面图)、视频(如短视频)等。在这样的场景中，对于一个视觉内容，往往存在多个文本问题，这些文本问题之间具有相互联系关系，可能是显形关系，也可能是隐形关系。

但是，现有的VQA系统的学习方式因独立学习视觉内容和文本问题，因此无法去捕获上述多个文本问题之间的关系，从而不能有效理解自然语言文本和视觉内容之间的联系，进而不能进行有效的推理，获得有效的VQA的答案。

发明内容

有鉴于此，本发明实施例提供一种视觉问答模型的训练方案和视觉问答方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种视觉问答模型的训练方法，包括：通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。

根据本发明实施例的第二方面，提供了一种视觉问答方法，包括：获取待处理图像和所述待处理图像对应的多个文本问题；将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；其中，所述视觉问答模型为通过第一方面所述的视觉问答模型的训练方法训练获得。

根据本发明实施例的第三方面，提供了另一种视觉问答方法，包括：获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过第一方面所述的视觉问答模型的训练方法训练获得；根据所述目标信息进行所述电子商务直播视频的推荐。

根据本发明实施例的第四方面，提供了一种视觉问答模型的训练装置，包括：输入模块，用于通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；特征提取模块，用于通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；表达学习模块，用于在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；输出模块，用于通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。

根据本发明实施例的第五方面，提供了一种视觉问答装置，包括：第一获取模块，用于获取待处理图像和所述待处理图像对应的多个文本问题；第一处理模块，用于将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；其中，所述视觉问答模型为通过第四方面所述的视觉问答模型的训练装置训练获得。

根据本发明实施例的第六方面，提供了一种视觉问答装置，包括：第二获取模块，用于获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；第二处理模块，用于将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过第四方面所述的视觉问答模型的训练装置训练获得；推荐模块，用于根据所述目标信息进行所述电子商务直播视频的推荐。

根据本发明实施例的第七方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述的方法对应的操作。

根据本发明实施例的第八方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的方法。

根据本发明实施例提供的模型训练方案，样本图像(视觉内容)对应有多个文本问题，该多个文本问题均与样本图像有关，属于相互之间具有一定关联关系的文本问题。基于此，在使用样本图像及其具有关联关系的多个文本问题对视觉问答模型进行训练过程中，会获得相对应的多个问题特征表达向量和多个图像特征表达向量，由此对其进行问题结果预测，并根据获得的预测结果进行视觉问答模型的有效训练。可见，在充分考虑了多个文本问题之间的关联关系的基础上，视觉问答模型可以通过训练学习到多个文本问题之间的关联、问题与样本图像(视觉内容)之间的关联、问题与答案(问题结果预测的结果)之间的关联，从而能够更好地实现对多模态数据的视觉问答学习，提升视觉问答模型的对视觉内容的理解和推理能力。

相应地，根据本发明实施例提供的视觉问答方案，应用训练好的视觉问答模型对视觉内容(如，待处理图像或连续的视频帧)进行视觉问答处理，因视觉问答模型能够较好地理解多个文本问题之间的关联、问题与视觉内容之间的关联、问题与答案之间的关联，因此，能够更为有效地对视觉内容进行理解和推理，获得更为精准的目标答案，以为后续应用提供更为准确的依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本发明实施例一的一种视觉问答模型的训练方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2为根据本发明实施例二的一种视觉问答模型的训练方法的步骤流程图；

图3A为根据本发明实施例三的一种视觉问答模型的训练方法的步骤流程图；

图3B是图3A所示实施例中的一种视觉问答模型的结构示意图；

图3C为图3A所示实施例中的一种多头注意力块的结构示意图；

图4为根据本发明实施例四的一种视觉问答方法的步骤流程图；

图5为根据本发明实施例五的一种视觉问答方法的步骤流程图；

图6为根据本发明实施例六的一种视觉问答模型的训练装置的结构框图；

图7为根据本发明实施例七的一种视觉问答装置的结构框图；

图8为根据本发明实施例八的一种视觉问答装置的结构框图；

图9为根据本发明实施例九的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1A，示出了根据本发明实施例一的一种视觉问答模型的训练方法的步骤流程图。

本实施例的视觉问答模型的训练方法包括以下步骤：

步骤S102：通过输入部分接收输入视觉问答模型的训练样本。

本实施例中，视觉问答模型包括输入部分、特征提取部分、表达学习部分和输出部分。其中，输入部分可以是视觉问答模型的输入层，通过该输入层可以向视觉问答模型输入待处理的数据。具体到本实施例，输入的是训练样本，该训练样本包括样本图像和样本图像对应的多个文本问题。

需要说明的是，本发明实施例中，若无特殊说明，“多个”，“多种”、“多张”等与“多”有关的数量均意指两个及两个以上。

本实施例中，一次输入视觉问答模型的样本图像可以仅有一张，也可以同时输入多张。针对每个样本图像，其都对应有多个文本问题，也即，这多个文本问题均与该样本图像有关，因此，该多个文本问题间存在着关联关系。此外，本领域技术人员应当明了的是，在视觉问答模型中，虽然以文本问题指代输入模型的文本，但文本问题并不必然是“问题”，该“文本问题”同样指代普通的非问题文本。

同本领域大部分视觉问答模型一样，输入模型的数据均采用向量形式，如，以向量形式表示的样本图像和以向量形式表示的文本问题等。

步骤S104：通过视觉问答模型的特征提取部分，对多个文本问题分别进行特征提取获得对应的多个语义向量，和，对样本图像进行特征提取获得对应的图像特征向量。

所述特征提取部分用于分别对文本问题和样本图像进行特征提取。

在本实施例中，对文本问题的语义特征提取和对样本图像的图像特征提取均可由本领域技术人员根据实际情况采用适当方式实现，如，通过GRU(Gated Recurrent Unit，门控循环单元)方式，或者LSTM(Long Short Term Memory，长短期记忆网络)方式，或者BERT模型方式等实现文本问题的语义特征提取；通过VGG模型方式，或者RESNET模型方式等实现样本图像的图像特征提取。当然，以上仅为示例性说明，其它特征提取方式也同样适用本发明实施例的方案。

通过特征提取，可以获得多个文本问题分别对应的多个语义向量，以及样本图像对应的图像特征向量。当样本图像包括多个时，该图像特征向量也包括多个，分别与样本图像对应。

步骤S106：在视觉问答模型的表达学习部分，使用注意力机制对图像特征向量和多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量。

所述表达学习部分用于进一步对特征提取部分的特征进行处理，以学习各类型特征之间的关系，并将视觉问答模型的关注点集中在重点特征上。而注意力机制可以使得神经网络具备专注于部分特征的能力，其可以从众多特征中选择出对当前任务目标更关键的特征，以进行更好的特征表达。

基于此，本实施例中，在视觉问答模型的表达学习部分，借助于注意力机制，对图像特征向量和多个语义特征向量进行特征学习和处理，形成图像特征表达向量和问题特征表达向量。

需要说明的是，不管是图像特征表达向量，还是问题特征表达向量，其均根据图像特征向量和多个语义向量进行融合后的向量获得，也即，图像特征表达向量中融合有语义信息，而问题特征表达向量中也融合有图像信息。所不同的是，在问题特征表达向量中，问题特征占比较大；而在图像特征表达向量中，则可以是根据图像特征和语义特征完全融合后进行学习和处理所获得的特征。

也可以认为，通过表达学习部分，视觉问答模型可以有效学习到视觉内容与文本内容之间的关系，包括：视觉内容(样本图像)与问题(输入的多个文本问题)之间的关系，问题(输入的多个文本问题)之间的关系，以及，问题(输入的多个文本问题)与答案(从视觉内容中学习到的针对文本问题的答复)之间的关系。

步骤S108：通过视觉问答模型的输出部分，根据图像特征表达向量和问题特征表达向量，进行问题结果预测，并根据问题结果预测的结果进行视觉问答模型的训练。

在学习到视觉内容与文本内容之间的关系后，即可以进行答案预测，即问题结果预测，从而获得所需的结果。进而，根据该结果继续进行视觉问答模型的训练。

例如，可以设置针对训练样本的标准答案，根据预测结果与该标准答案的误差对视觉问答模型进行训练，包括但不限于视觉问答模型中的参数或权重的训练，直至达到训练终止条件。例如，训练次数达到预设次数，如，10000次。或者，如，预测结果与该标准答案的误差在一定范围内，等等。

以下，以一个场景示例为例，对上述过程进行示例性说明，如图1B所示。

图1B中，以一个样本图像为例，该样本图像对应有三个文本问题，分别示意为问题1、问题2和问题3。将该样本图像和问题1-3通过视觉问答模型的输入部分如输入层输入模型；经模型的特征提取部分进行特征提取，获得问题1-3分别对应的语义向量1-3，以及，样本图像的图像特征向量；对语义向量1-3和图像特征向量进行合并(如加和)，形成合并向量；经模型的表达学习部分对合并向量进行基于注意力机制的表达处理，获得问题表达向量和图像特征表达向量；对问题表达向量和图像特征表达向量进行拼接，形成拼接向量；将拼接向量输入模型的输出部分进行问题结果预测，获得预测结果；基于预设的监督条件如标准结果与预测结果的差异，采用反向传播的方式训练视觉问答模型的参数，直至达到训练终止条件。

通过本实施例，样本图像(视觉内容)对应有多个文本问题，该多个文本问题均与样本图像有关，属于相互之间具有一定关联关系的文本问题。基于此，在使用样本图像及其具有关联关系的多个文本问题对视觉问答模型进行训练过程中，会获得相对应的多个问题特征表达向量和多个图像特征表达向量，由此对其进行问题结果预测，并根据获得的预测结果进行视觉问答模型的有效训练。可见，在充分考虑了多个文本问题之间的关联关系的基础上，视觉问答模型可以通过训练学习到多个文本问题之间的关联、问题与样本图像(视觉内容)之间的关联、问题与答案(问题结果预测的结果)之间的关联，从而能够更好地实现对多模态数据的视觉问答学习，提升视觉问答模型的对视觉内容的理解和推理能力。

本实施例的视觉问答模型的训练可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、PC机、或者高性能移动终端等。

实施例二

参照图2，示出了根据本发明实施例二的一种视觉问答模型的训练方法的步骤流程图。

本实施例的视觉问答模型的训练方法包括以下步骤：

步骤S202：通过输入部分接收输入视觉问答模型的训练样本。

其中，训练样本包括样本图像和样本图像对应的多个文本问题。如前所述，样本图像可以为一张，也可以为多张，每张样本图像都对应有多个文本问题。

因样本图像可以为多张，在一种可行方式中，样本图像可以为连续的多个视频关键帧图像，多个文本问题为多个视频关键帧图像对应的音频转换成的文本。连续的多帧视频帧可以形成一个视频片段，在一个视频片段里不仅有视频还有对应的音频，例如，“下雪了”这一句话可能对应有多帧视频，而在一个视频片段中大部分时候也不止一句话。为了实现对视频或视频片段的视觉问答处理，本方式中，样本图像采用了多帧视频帧的方式，且因关键帧为视频帧中包含信息最为丰富的图像，因此，本方式中以连续的多个视频关键帧图像作为训练的样本图像，以使训练具有较好的效果。

但本实施例中，为了便于说明，仍以单张样本图像为例。

步骤S204：通过视觉问答模型的特征提取部分，对多个文本问题分别进行特征提取获得对应的多个语义向量，和，对样本图像进行特征提取获得对应的图像特征向量。

其中，在对文本问题进行特征提取时，一种可行方式中，可以在特征提取部分设置数量与多个文本问题的数量相等的多个语义提取层，此种情况下，对多个文本问题分别进行特征提取获得对应的多个语义向量包括：针对多个文本问题中的每个文本问题，将该文本问题对应的词向量输入与该文本问题对应的语义提取层进行语义特征提取，获得该文本问题对应的语义向量。通过这种方式，每个文本问题对应有一个语义提取层，既可实现语义特征的有效提取，又可大大提升语义特征提取的效率。

可选地，多个语义提取层均为单层Bi-GRU(双向门控循环单元)层，所述多个语义提取层参数共享。采用这种方式，无需复杂的设计即可实现语义特征提取，计算简单，实现也简单且实现成本低。

在对图像进行特征提取时，一种可行方式中，可以在特征提取部分设置图像特征提取层，此种情况下，对样本图像进行特征提取获得对应的图像特征向量包括：通过图像特征提取层对样本图像进行特征提取，获得样本图像对应的全局特征向量；并且，通过图像特征提取层对样本图像中包含的多个对象区域进行特征提取，获得各个对象区域对应的区域特征向量。

可见，此种方式中，图像特征包括两部分，即全局特征向量和区域特征向量，其中，全局特征向量能够反映样本图像的整体信息，而区域特征向量则可以反映局部区域的信息，以弥补整体信息可能无法捕捉文本问题所需要特定区域的信息的问题。其中，样本图像中的多个对象区域的确定可以由本领域技术人员采用任意适当的方式实现，比如，采用获取ROI(Region Of Interest)的方式，或者，通过CNN对样本图像进行多目标区域检测或提取的方式，等等，本发明实施例对此不作限制。

在一种可行方式中，不管是样本图像的全局特征向量的提取还是区域特征向量的提取，都可以通过VGG的方式，也即，视觉问答模型中的图像特征提取层可以采用VGG网络层实现。VGG是Visual Geometry Group的简称，VGG通常有两种结构，分别是VGG16和VGG19，这两种结构在本发明实施例中均可适用。相较于其它图像提取方式，VGG具有更简洁的结构，并且图像特征提取效果也较好。

在获得了多个语义向量和图像特征向量后，可以对这些向量进行合并，并输入后续的视觉问答模型的表达学习部分进行表达学习处理。通过将语义特征和图像特征相融合，使得后续的表达学习可以更好地学习到语义特征和图像特征之间的关系。

但为了达到更好地表达学习效果，提升表达学习效率，在一种可行方式中，还可以通过视觉问答模型的特征提取部分，分别在多个语义向量中和图像特征向量中增加类型向量，其中，类型向量用于指示其所属的向量的类型。以获得的特征向量包括语义向量、区域特征向量和全局特征向量为例，可以设置三个类型向量，分别指示上述三种向量的类型。例如，设置E_A、E_B、和E_C向量，其中，E_A向量用于指示其所属的向量为语义向量，E_B向量用于指示其所属的向量为区域特征向量，E_C向量用于指示其所属的向量为全局特征向量。则，在每个语义向量中增加E_A向量，在每个区域特征向量中增加E_B向量，在全局特征向量中增加E_C向量(若同时输入多张样本图像，则会生成多个全局特征向量，此种情况下，需每个全局特征向量中均增加E_C向量)。通过增加类型向量的方式，使得后续的表达学习部分可以基于该类型向量确定处理的向量的类型，以便进行更有针对性地学习和处理。

还需要说明的是，若输入视觉问答模型的样本图像为连续的多帧图像，如为连续的视频帧图像或者为连续的视频关键帧图像，则可选地，还可以通过特征提取部分，分别在多个语义向量中和图像特征向量中增加位置向量，其中，位置向量用于指示所属向量与相邻向量间的时序关系。对于视频来说，时间信息对于整体理解视频内容具有着重要意义，而通过增加位置向量则可有效指示多个视频帧图像之间的时序关系，便于后续学习表达部分对于视频内容的理解和学习。单张图像时，其为可选向量。

基于上述过程，一种方式中，在获得了语义向量和图像特征向量的基础上，对两者进行合并，生成视觉问答特征向量，包括：对多个语义向量和图像特征向量(全局的)进行合并，生成视觉问答特征向量；或者，对多个语义向量、全局特征向量和区域特征向量进行合并，生成视觉问答特征向量；或者，对增加了类型向量后的多个语义向量和增加了类型向量后的图像特征向量(全局的)进行合并，生成视觉问答特征向量；或者，对增加了类型向量后的多个语义向量、增加了类型向量后的全局特征向量和增加了类型向量后的区域特征向量进行合并，生成视觉问答特征向量；或者，在连续视频帧作为样本图像情况下，对增加了类型向量和位置向量后的多个语义向量、增加了类型向量和位置向量后的多个全局特征向量，和，增加了类型向量和位置向量后的区域特征向量(每个图像对应多个)进行合并，生成视觉问答特征向量。

步骤S206：在视觉问答模型的表达学习部分，使用注意力机制对图像特征向量和多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量。

基于生成的视觉问答特征向量，可以在视觉问答模型的表达学习部分，使用注意力机制对该视觉问答特征向量进行处理。在一种可行方式中，表达学习部分包括多个注意力层，该多个注意力层依次连接，前一注意力层的输出作为后一注意力层的输入。在使用注意力机制对图像特征向量和多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量时，可以将视觉问答特征向量依次输入相连的多个注意力层；获得首个注意力层输出的特征向量作为问题特征表达向量；获得经过多个注意力层依次处理后的特征向量，并将该特征向量作为图像特征表达向量。

因首个注意力层在处理视觉问答向量时，语义向量和图像特征向量的融合度还不深，可以以语义特征为主，以图像特征为辅，学习问题之间的关系和问题与图像内容之间的关系，获得融合了图像特征的问题特征表达向量。而在经过多个注意力层的处理后，问题特征和图像特征之间的融合度更加深入，则可以更进一步学习到问题与图像内容之间的关系，以及，问题与答案之间的关系。

可选地，本实施例中的多个注意力层可以均为多头自注意力层。采用多自注意力层的方式，可以从多个维度进行特征学习，达到更为全面、准确的学习效果。

因文本问题包括多个，因此，可以针对每个文本问题设置相应的学习目标，获得与文本问题的数量相同的问题特征表达向量和图像特征表达向量。

步骤S208：通过视觉问答模型的输出部分，根据图像特征表达向量和问题特征表达向量，进行问题结果预测。

在获得了问题特征表达向量和图像特征表达向量后，可以在视觉问答模型的输出部分对其进行拼接，进而基于拼接后的向量进行预测处理。也即，在一种可行方式中，本步骤可以实现为：通过视觉问答模型的输出部分，将图像特征表达向量和问题特征表达向量进行拼接，生成拼接向量；对拼接向量进行全连接处理，将获得的特征向量作为问题结果预测的结果。其中，问题结果预测可以采用常规方式实现，如通过SOFTMAX函数方式实现等。

在实际应用时，视觉问答模型中预设有包括有一定数目的答案的答案池，拼接向量被映射成与答案池中的答案的数目相同维度的向量，通过进行预测的函数如SOFTMAX函数，获得对应于每个答案的概率，可以将概率最高的那个答案选择为最终的答案，即进行问题结果预测的结果。

步骤S210：根据问题结果预测的结果进行视觉问答模型的训练。

在获得了问题结果预测的结果后，可以根据预设的损失函数，计算该结果与预设的标准结果之间的差异，即损失值，据此进行视觉问答模型的训练，如返回步骤S204继续执行。该训练过程循环迭代，直至达到训练终止条件，如，训练达到一定次数，或者，损失值小于预设阈值，等。

实施例三

参照图3A，示出了根据本发明实施例三的一种视觉问答模型的训练方法的步骤流程图。

本实施例以一个样本图像为连续的视频关键帧图像为示例，对本发明实施例提供的视觉问答模型的训练方法进行示例性说明。

在此示例中，使用的视觉问答模型如图3B所示，其包括：输入部分、特征提取部分、表达学习部分和输出部分。

图3B中，通过输入部分向视觉问答模型输入了5个文本问题的词向量，以及，16个连续视频关键帧图像对应的向量。

特征提取部分针对文本问题采用Bi-GRU层和FC层的形式，其中，在FC层之后还设置有ReLU层和Dropout层(后文为描述简要，统称为FC层部分)，并且，在FC层部分处理后还增加了相应的类型向量“Segment Embeddings”和位置向量“Position Embeddings”的处理。图3B中，以5个文本问题为例，因此，对应于每一个问题设置有一个Bi-GRU层和一个FC层部分。经特征提取部分处理后，将获得5个语义向量。

特征提取部分针对多个视频关键帧图像的整体处理采用VGG层和FC层部分的形式，并且，在FC层部分处理后还增加了相应的类型向量“Segment Embeddings”和位置向量“Position Embeddings”的处理。图3B中，以16个连续的视频关键帧图像为例，但VGG层和FC层部分可以设置一个，对这些图像进行处理。但不限于此，也可以设置多个。经特征提取部分处理后，将获得16个全局特征向量。

特征提取部分针对样本图像中的多个对象区域的处理也采用VGG层和FC层部分的形式，并且，在FC层部分处理后还增加了相应的类型向量“Segment Embeddings”和位置向量“Position Embeddings”的处理。图3B中，以每个视频关键帧图像包含20个对象区域为例，经特征提取部分处理后，每个视频关键帧图像将对应20个区域特征向量，则16个视频关键帧图像将对应16*20＝320个区域特征向量。

通过特征提取部分获得的上述处理经合并(如加和)后，输入表达学习部分。本示例中，学习表达部分包括M个多头注意力块Multi-Head Attention Blocks和两个全连接层FC，其中，在第一个FC层之后也设置了ReLU层和Dropout层。一般地，M大于等于2，本示例中M为6。由图3B可见，本示例中的每个Multi-Head Attention Block主要包括多头注意力层Multi-Head Attention层和前馈层Feed Forward层。经首个Multi-Head Attention Block处理后，输出问题特征表达向量Task q₁₁、Task q₁₂、Task q₁₃、Task q₁₄、Task q₁₅；经M个Multi-Head Attention Block处理后，输出图像特征表达向量Task q₂₁、Task q₂₂、Taskq₂₃、Task q₂₄、Task q₂₅。

上述问题特征表达向量和图像特征表达向量输入输出部分，经由输出部分的两个FC层处理(本示例，输出部分的各个FC层还设置有部分)后，通过SOFTMAX层获得结果。

基于上述结构，本实施例的视觉问答模型的训练方法包括以下步骤：

步骤S302：通过输入层输入视频关键帧图像和对应的多个文本问题。

因在视觉问答领域，实际场景中，一个视觉内容往往存在多个文本问题，这些文本问题之间是有相互联系关系的，可能是显形关系，也可能是隐形关系。通过本实施例提供的视觉问答模型，能够去捕获这些文本问题之间的关系，进而能够更好的理解这些文本问题和视觉内容之间的联系，从而更好地去进行推理，更好地学习和推理多模态数据。

具体到本实施例，从一个输入的视频序列中，选择16个视频关键帧图像，并将每个图像的大小调整到224×224的分辨率。并且，对调整大小后的图像进行预处理，获得每个图像的20个图像区域的信息。对于文本问题，采用GloVe方式提取每个文本问题的词向量。

视觉问答模型通过输入层接收5个文本问题对应的5个词向量，16个视频关键帧的图像向量，以及每个视频关键帧对应的20个区域的区域图像向量。

步骤S304：通过特征提取部分对视频关键帧图像和对应的多个文本问题进行特征提取。

对于5个文本问题对应的5个词向量，隐藏维度(隐藏状态的维度)为512的单层双向GRU(Bi-GRU)被用于每个词向量的顶部，所有这些双向GRU共享参数。

对于视频关键帧图像，如前所述，有两个视觉信息流。一个是每个视频关键帧图像的全局信息。在这个视觉信息流中，每个视频关键帧图像的初始视觉表示是由预先训练的VGG模型提取的4096维的全局特征向量。另一个是每个视频关键帧图像内的20个对象区域的每个区域的区域信息，使用区域信息是因全局视觉表示可能无法捕获回答特定区域问题所需的所有信息。因此，针对每个视频关键帧图像生成20个候选区域即对象区域,对于每个对象区域，使用预先训练的VGG模型提取4096维的区域特征向量。

在提取图像特征(包括全局特征向量和区域特征向量)后，使用三个全连接层部分(图中仅以一个连接层部分示意)来将每种图像特征的维度更改为1024。

为了区分不同类型的特征，在相应的特征向量中添加了三种类型的段嵌入，即类型向量，分别表示为E_A、E_B和E_C。

又由于时间信息被认为对视频更重要，进一步设置了一个位置嵌入层以在相应的向量中添加时间序列信息，即位置向量。需要说明的是，文本问题对应的向量可以无序，因此图3B中所示的视频序列的所有文本问题对应的向量都有相同的位置向量E₀。而对于每个视频关键帧图像对应的全局特征向量及其相关区域对应的区域特征向量，根据其在整个视频序列中的位置，第i个视频关键帧图像的位置向量被分配为E_i。

最后，针对每个文本问题、每个视频关键帧图像区域和每个视频关键帧图像，都生成一个1024维的特征向量。这些1024维的特征向量通过加和进行合并后，形成视觉问答特征向量输入视觉问答模型的表达学习部分。

步骤S306：将特征提取的结果输入表达学习部分，通过表达学习部分进行特征表达学习。

本实施例中，采用基于多头注意力的表征学习方法来描述文本问题、对象区域和多个视频关键帧图像之间复杂的语义关系。

其中，采用了M个多头注意力块，即Multi-Head Attetion Blocks，M是一个超参数，本实施例中等于6。每个块包含两个子层。第一个子层是多头自注意力子层，第二个子层是简单的输入方式完全连接的前馈子层。这样，该模型可以利用一系列重要的语义信息来表示和推理问题和视频，包括多个文本问题之间的关系、视频关键帧图像之间的时间信息，以及文本问题和视频关键帧图像之间的空间信息和整体语义关系。

多头自注意力子层的一种具体结构如图3C所示，本实施例中，设定多头为h头，其中h的具体数量设置由本领域技术人员根据实际情况适当设置地，本发明实施例对此不作限制。基于此，首先用不同的学习线性投影将视觉问答特征向量h次(h头)线性投影到dq、dk和dv维度，分别为注意查询(A-Q)、注意键(A-K)和注意值(A-V)。根据前述描述，此时，A-Q、A-K和A-V是相同的，对于首个多头注意力块，它们是从特征提取部分提取获得的视觉问答向量；对于非首个多头注意力块，它们是从先前的多头注意块中提取的特征向量。接下来，针对A-Q、A-K和A-V，在每个头部执行缩放的点积注意处理，并沿着每个头部连接所有缩放的点积注意输出向量。然后，使用全连接层来获得输出。其中，h＝8，dq＝dk＝dv＝1024/h＝128。

前馈子层包括两个全连接层，分别且相同地应用于每个输入前馈子层的向量。

从图3B中可见，本实施例中，一方面输出首个多头注意力块输出的向量，即问题特征表达向量(The Question Representation)，包括：Task q₁₁、Task q₁₂、Task q₁₃、Taskq₁₄、Task q₁₅；另一方面，输出经6个多头注意力块和两个FC层处理后的向量，即图像特征表达向量(The Video-Questions Representation)，包括：Task q₂₁、Task q₂₂、Task q₂₃、Taskq₂₄、Task q₂₅。

其中，Task q₁₁、Task q₁₂、Task q₁₃、Task q₁₄、Task q₁₅分别用于表示每个文本问题，这是因为首个多头注意力块的输出向量能够最大程度地保留和区分每个文本问题的信息。同时，文本问题、对象区域和多个视频关键帧图像之间的关系可以在一定程度上整合。

步骤S308：将特征表达学习的结果输入输出层进行处理。

对于表达学习部分处理后获得的问题特征表达向量和图像特征表达向量，通过输出层进行连接，并利用两个全连接层来生成最终的问题/视频表示。

因本实施例中，采用联合训练多个文本问题的方式，因而可以使问题/视频表示更加通用和可靠。基于此，将问题/视频的表示(图像特征表达向量)和目标问题的表示(问题特征表达向量)连接起来，以便基于多个文本问题和视频的共享语义表达来突出目标问题的唯一性。然后，使用两个全连接层和SOFTMAX层进行问题结果预测，并生成用于预测的最终特征向量，即问题结果预测的结果。

其中，输出部分共享每个文本问题的参数。

通过本部分，可以共同培训不同的文本问题。

步骤S310：根据处理结果进行视觉问答模型训练。

在通过步骤S308获得所述最终特征向量后，如前所述，即可根据其与监督条件即预设的标准答案向量之间的差异，通过反向传播方式对视觉问答模型进行训练，调整模型参数，循环迭代，直至达到训练终止条件。

可见，通过本实施例，提供了一种针对视频帧序列的多问题联合学习的视觉问答模型，其对于不同的视觉问答任务均具有适用性。通过其中的多头注意力块，可以更好地模拟多个文本问题和视频之间的相关性和相互作用，从而有效提升了针对多媒体内容，尤其是视频内容的视觉问答的能力。

实施例四

参照图4，示出了根据本发明实施例四的一种视觉问答方法的步骤流程图。

本实施例的视觉问答方法包括以下步骤：

步骤S402：获取待处理图像和待处理图像对应的多个文本问题。

其中，待处理图像可以是单张图像，也可以是多张图像或是连续的视频帧图像或视频关键帧图像。

对于单张图像，其可以对应有多个文本问题。对于多张图像，可以每张图像对应有多个文本问题，也可以多张图像对应有多个文本问题，其中，图像的数量与文本问题的数量可以相同也可以不同。对于连续的视频帧图像或视频关键帧图像，其对应的多个文本问题可以是其音频对应的多句台词，以该多句台词作为多个文本问题。

需要说明的是，对于连续的视频帧图像或视频关键帧图像，以视频关键帧图像为例，本步骤可以实现为：获取连续的多个视频关键帧图像及与多个视频关键帧图像对应的音频；对音频进行文本转换处理，获得多个文本；将多个视频关键帧图像作为待处理图像，将所述多个文本作为待处理图像对应的多个文本问题。

步骤S404：将待处理图像和多个文本问题输入视觉问答模型进行处理，根据视觉问答模型的输出，确定针对多个文本问题中的答案。

其中，视觉问答模型为通过前述实施例一至三中任一实施例中所述的视觉问答模型的训练方法训练获得。因此，视觉问答模型对待处理图像和多个文本问题的处理均可参照前述实施例一至三中相关部分的描述，在此不再赘述。

通过本实施例，实现了各种使用多媒体内容或多模态数据场景中的视觉问答处理，有效提升了对视觉内容的理解和推理能力。

本实施例的视觉问答方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、PC机、或者高性能移动终端等。

实施例五

参照图5，示出了根据本发明实施例五的一种视觉问答方法的步骤流程图。

本实施例以一种电子商务直播场景为例，对本发明实施例提供的视觉问答方法进行示例性说明。本实施例的视觉问答方法包括：

步骤S502：获取电子商务直播视频中连续的多个视频关键帧图像，及，对多个视频关键帧图像对应的音频进行文本转换后获得的多个文本。

随着电子商务直播的广泛应用，越来越多的商品主通过直播方式在电子商务平台推销和售卖商品，以期达到更好的销售目的。此类直播场景中，视频内容多与商品介绍有关，并且，对于一个商品主，其直播的商品通常也会有多种。可以认为，在连续的多个视频关键帧图像中，其对应的视频内容可能仅为一个商品的推介，也可能包括多个商品的推介。但不管是哪种方式，商品主都会使用多句话对每个商品进行推介。基于此，需要对多个视频关键帧图像对应的音频进行文本转换，以获得多句话对应的文本。其中，对音频进行文本转换的方式可以由本领域技术人员根据实际需要采用任意适当方式实现，本发明实施例对此不作限制。

在一个示例中，假设一个商品主在16个连续的视频关键帧图像形成的视频序列中介绍一种米粉，也即，视频内容中包含该种米粉的相应内容，该介绍包括5句话，转换后对应5个文本。

步骤S504：将多个视频关键帧图像和多个文本输入视觉问答模型进行处理，根据视觉问答模型的输出，确定针对多个文本的目标信息。

其中，视觉问答模型为通过前述实施例一至三中所述的任一视觉问答模型的训练方法训练获得，其对多个视频关键帧图像和多个文本的处理也可参照前述实施例一至三中相关部分的描述，在此亦不再赘述。

在前述示例中，经过视觉问答模型的处理，可以确定5个文本的目标信息，即确定16个连续的视频关键帧图像形成的视频序列中的内容为有米粉有关的内容。

步骤S506：根据目标信息进行电子商务直播视频的推荐。

例如，在确定16个连续的视频关键帧图像形成的视频序列为米粉介绍后，将该直播视频推荐给正在进行与“米粉”有关搜索的终端用户，以使这些用户可以根据该直播视频进行查看及购买操作。

需要说明的是，若使用该视觉问答模型持续作用于某直播视频，假设该直播视频中，该商品主在介绍完前述米粉后，又介绍了一种蛋糕，后续又介绍了其它商品。则，通过该视觉问答模型均可对该直播视频中介绍的商品进行内容识别和推荐。可选地，还可将各部分内容与其直播时间相对应，若后续形成录播视频，则可直接根据用户搜索向用户推荐相关时间片段的视频内容。

可见，通过本实施例，可实现电子商务场景中的视觉问答处理，根据处理结果可快速定位商品，并可进行有针对性地视频内容推荐，提升了电子商务场景中视频推介及销售的效果。

此外，在另一种可能的直播场景中，包括上述电子商务直播场景中，与多个视频关键帧图像对应的音频也可能是提示信息，例如，直播平台对于主播的提示信息或者对于直播场面的控制提示信息。

例如，假设一个主播在16个连续的视频关键帧图像形成的视频序列中，收到了5条直播平台发送的内容不符合要求的信息，这5条信息可能是相同的信息，也可能是不同的信息，还可能是部分相同部分不同的信息。因直播平台在此种情况下发送的信息可能直接为文本，则此种情况下，可以将该16个连续的视频关键帧图像和该5条信息输入前述视觉问答模型进行处理，得到相应的目标信息，例如，该直播视频内容违规的信息，后续可据此针对该直播视频进行相应的处理。

在又一种可能的场景中，持续对直播内容进行检测，则有可以获得具有一定时序的多个目标信息，例如，在涉及问答交互的直播场景中，可以通过视觉问答模型获得多个具有一定时序的问题信息，进而，可以按照一定的规则对多个问题信息进行排序，例如，按照提问用户的用户优先级等等，在针对排序后的问题逐个进行回答。

此外，本实施例的方案也可应用于监控场景中，包括但不限于住宅安保监控、厂房监控、及其它各种工业企业的各种监控场景中。此种情况下，持续对图像采集设备采集的视频帧图像进行检测，按预设单位数量将采集的视频帧图像和该单位数量的视频帧图像对应的文本(可通过音频转换获得)输入视觉问答模型进行处理，根据视觉问答模型的输出，确定相应的目标信息。如，根据相应的目标信息确定当前时段是否存在危害生产或生活的行为，等等。

在再一种可能的场景中，可以对用户一定时段内观看的长、短视频进行检测，通过视觉问答模型输出的目标信息来分析该用户对长视频或短视频的偏好，进而在后续根据该偏好为该用户进行相关的长、短视频推荐。

可见，本发明实施例的方案可广泛应用于各种可能场景中，具有广泛的适用性，能满足多种业务需求。

实施例六

参照图6，示出了根据本发明实施例六的一种视觉问答模型的训练装置的结构框图。

本实施例的视觉问答模型的训练装置，包括：输入模块602，用于通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；特征提取模块604，用于通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；表达学习模块606，用于在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；输出模块608，用于通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。

可选地，所述特征提取部分包括有数量与所述多个文本问题的数量相等的多个语义提取层；所述特征提取模块604在对所述多个文本问题分别进行特征提取获得对应的多个语义向量时：针对所述多个文本问题中的每个文本问题，将该文本问题对应的词向量输入与该文本问题对应的语义提取层进行语义特征提取，获得该文本问题对应的语义向量。

可选地，所述多个语义提取层均为单层双向门控循环单元Bi-GRU层，所述多个语义提取层参数共享。

可选地，所述特征提取部分包括图像特征提取层；所述特征提取模块604在对所述样本图像进行特征提取获得对应的图像特征向量时：通过所述图像特征提取层对所述样本图像进行特征提取，获得所述样本图像对应的全局特征向量；并且，通过所述图像特征提取层对所述样本图像中包含的多个对象区域进行特征提取，获得各个对象区域对应的区域特征向量。

可选地，所述图像特征提取层为VGG网络层。

可选地，所述特征提取模块604还用于通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加类型向量，所述类型向量用于指示所属向量的类型。

可选地，所述特征提取模块604还用于通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加位置向量，所述位置向量用于指示所属向量与相邻向量间的时序关系。

可选地，所述特征提取模块604还用于根据所述多个语义向量和所述图像特征向量，生成视觉问答特征向量。所述表达学习模块606用于在所述视觉问答模型的表达学习部分，使用注意力机制对所述视觉问答特征向量进行处理，获得图像特征表达向量和问题特征表达向量。

可选地，所述表达学习部分包括多个注意力层；所述表达学习模块606用于将所述视觉问答特征向量依次输入相连的多个注意力层；获得首个注意力层输出的特征向量作为所述问题特征表达向量；获得经过所述多个注意力层依次处理后的特征向量，并将所述特征向量作为所述图像特征表达向量。

可选地，所述多个注意力层均为多头自注意力层。

可选地，所述输出模块608在通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测时：通过所述视觉问答模型的输出部分，将所述图像特征表达向量和所述问题特征表达向量进行拼接，生成拼接向量；对所述拼接向量进行全连接处理，将获得的特征向量作为所述问题结果预测的结果。

可选地，所述样本图像为连续的多个视频关键帧图像，所述多个文本问题为所述多个视频关键帧图像对应的音频转换成的文本。

本实施例的视觉问答模型的训练装置用于实现前述多个方法实施例中相应的视觉问答模型的训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视觉问答模型的训练装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例七

参照图7，示出了根据本发明实施例七的一种视觉问答装置的结构框图。

本实施例的视觉问答装置包括：第一获取模块702，用于获取待处理图像和所述待处理图像对应的多个文本问题；第一处理模块704，用于将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；其中，所述视觉问答模型为通过前述实施例六中所述的视觉问答模型的训练装置训练获得。

可选地，所述第一获取模块702，用于获取连续的多个视频关键帧图像及与所述多个视频关键帧图像对应的音频；对所述音频进行文本转换处理，获得多个文本；将所述多个视频关键帧图像作为所述待处理图像，将所述多个文本作为所述待处理图像对应的多个文本问题。

本实施例的视觉问答装置用于实现前述多个方法实施例中相应的视觉问答方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视觉问答装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例八

参照图8，示出了根据本发明实施例八的一种视觉问答装置的结构框图。

本实施例的视觉问答装置包括：第二获取模块802，用于获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；第二处理模块804，用于将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过前述实施例六中所述的视觉问答模型的训练装置训练获得；推荐模块806，用于根据所述目标信息进行所述电子商务直播视频的推荐。

实施例九

参照图9，示出了根据本发明实施例九的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图9所示，该电子设备可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。

其中：

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904，用于与其它电子设备或服务器进行通信。

处理器902，用于执行程序910，具体可以执行上述视觉问答模型的训练方法或者视觉问答方法实施例中的相关步骤。

具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。

处理器902可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在第一种方式中：

程序910具体可以用于使得处理器902执行以下操作：通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。

在一种可选的实施方式中，所述特征提取部分包括有数量与所述多个文本问题的数量相等的多个语义提取层；程序910还用于使得处理器902在对所述多个文本问题分别进行特征提取获得对应的多个语义向量时，对所述多个文本问题中的每个文本问题，将该文本问题对应的词向量输入与该文本问题对应的语义提取层进行语义特征提取，获得该文本问题对应的语义向量。

在一种可选的实施方式中，所述多个语义提取层均为单层双向门控循环单元Bi-GRU层，所述多个语义提取层参数共享。

在一种可选的实施方式中，所述特征提取部分包括图像特征提取层；程序910还用于使得处理器902在对所述样本图像进行特征提取获得对应的图像特征向量时，通过所述图像特征提取层对所述样本图像进行特征提取，获得所述样本图像对应的全局特征向量；并且，通过所述图像特征提取层对所述样本图像中包含的多个对象区域进行特征提取，获得各个对象区域对应的区域特征向量。

在一种可选的实施方式中，所述图像特征提取层为VGG网络层。

在一种可选的实施方式中，程序910还用于使得处理器902通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加类型向量，所述类型向量用于指示所属向量的类型。

在一种可选的实施方式中，程序910还用于使得处理器902通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加位置向量，所述位置向量用于指示所属向量与相邻向量间的时序关系。

在一种可选的实施方式中，程序910还用于使得处理器902所述方法还包括：根据所述多个语义向量和所述图像特征向量，生成视觉问答特征向量；程序910还用于使得处理器902在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，包括：在所述视觉问答模型的表达学习部分，使用注意力机制对所述视觉问答特征向量进行处理。

在一种可选的实施方式中，所述表达学习部分包括多个注意力层；程序910还用于使得处理器902在使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量时，将所述视觉问答特征向量依次输入相连的多个注意力层；获得首个注意力层输出的特征向量作为所述问题特征表达向量；获得经过所述多个注意力层依次处理后的特征向量，并将所述特征向量作为所述图像特征表达向量。

在一种可选的实施方式中，所述多个注意力层均为多头自注意力层。

在一种可选的实施方式中，程序910还用于使得处理器902在通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测时，通过所述视觉问答模型的输出部分，将所述图像特征表达向量和所述问题特征表达向量进行拼接，生成拼接向量；对所述拼接向量进行全连接处理，将获得的特征向量作为所述问题结果预测的结果。

在一种可选的实施方式中，所述样本图像为连续的多个视频关键帧图像，所述多个文本问题为所述多个视频关键帧图像对应的音频转换成的文本。

在第二种方式中：

程序910具体可以用于使得处理器902执行以下操作：获取待处理图像和所述待处理图像对应的多个文本问题；将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；其中，所述视觉问答模型为通过实施例一至三中任一所述的视觉问答模型的训练方法训练获得。

在一种可选的实施方式中，程序910还用于使得处理器902在获取待处理图像和所述待处理图像对应的多个文本问题时，获取连续的多个视频关键帧图像及与所述多个视频关键帧图像对应的音频；对所述音频进行文本转换处理，获得多个文本；将所述多个视频关键帧图像作为所述待处理图像，将所述多个文本作为所述待处理图像对应的多个文本问题。

在第三种方式中：

程序910具体可以用于使得处理器902执行以下操作：获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过前述实施例一至三中任一所述的视觉问答模型的训练方法训练获得；根据所述目标信息进行所述电子商务直播视频的推荐。

程序910中各步骤的具体实现可以参见上述述视觉问答模型的训练方法实施例或者视觉问答方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，视觉问答模型可以通过训练学习到多个文本问题之间的关联、问题与样本图像(视觉内容)之间的关联、问题与答案(问题结果预测的结果)之间的关联，从而能够更好地实现对多模态数据的视觉问答学习，提升视觉问答模型的对视觉内容的理解和推理能力。应用训练好的视觉问答模型对视觉内容(如，待处理图像或连续的视频帧)进行视觉问答处理，因视觉问答模型能够较好地理解多个文本问题之间的关联、问题与视觉内容之间的关联、问题与答案之间的关联，因此，能够更为有效地对视觉内容进行理解和推理，获得更为精准的目标答案，以为后续应用提供更为准确的依据。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的述视觉问答模型的训练方法或者视觉问答方法。此外，当通用计算机访问用于实现在此示出的述视觉问答模型的训练方法或者视觉问答方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的述视觉问答模型的训练方法或者视觉问答方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视觉问答模型的训练方法，包括：

通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；

通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；

在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；

通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。

2.根据权利要求1所述的方法，其中，所述特征提取部分包括有数量与所述多个文本问题的数量相等的多个语义提取层；

所述对所述多个文本问题分别进行特征提取获得对应的多个语义向量，包括：

针对所述多个文本问题中的每个文本问题，将该文本问题对应的词向量输入与该文本问题对应的语义提取层进行语义特征提取，获得该文本问题对应的语义向量。

3.根据权利要求2所述的方法，其中，所述多个语义提取层均为单层双向门控循环单元Bi-GRU层，所述多个语义提取层参数共享。

4.根据权利要求1所述的方法，其中，所述特征提取部分包括图像特征提取层；

所述对所述样本图像进行特征提取获得对应的图像特征向量，包括：

通过所述图像特征提取层对所述样本图像进行特征提取，获得所述样本图像对应的全局特征向量；

并且，

通过所述图像特征提取层对所述样本图像中包含的多个对象区域进行特征提取，获得各个对象区域对应的区域特征向量。

5.根据权利要求4所述的方法，其中，所述图像特征提取层为VGG网络层。

6.根据权利要求1所述的方法，其中，所述方法还包括：

通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加类型向量，所述类型向量用于指示所属向量的类型。

7.根据权利要求6所述的方法，其中，所述方法还包括：

通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加位置向量，所述位置向量用于指示所属向量与相邻向量间的时序关系。

8.根据权利要求1-7任一项所述的方法，其中，

所述方法还包括：根据所述多个语义向量和所述图像特征向量，生成视觉问答特征向量；

所述在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，包括：在所述视觉问答模型的表达学习部分，使用注意力机制对所述视觉问答特征向量进行处理。

9.根据权利要求8所述的方法，其中，所述表达学习部分包括多个注意力层；

所述使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量，包括：

将所述视觉问答特征向量依次输入相连的多个注意力层；

获得首个注意力层输出的特征向量作为所述问题特征表达向量；

获得经过所述多个注意力层依次处理后的特征向量，并将所述特征向量作为所述图像特征表达向量。

10.根据权利要求9所述的方法，其中，所述多个注意力层均为多头自注意力层。

11.根据权利要求1所述的方法，其中，所述通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，包括：

通过所述视觉问答模型的输出部分，将所述图像特征表达向量和所述问题特征表达向量进行拼接，生成拼接向量；

对所述拼接向量进行全连接处理，将获得的特征向量作为所述问题结果预测的结果。

12.根据权利要求1所述的方法，其中，所述样本图像为连续的多个视频关键帧图像，所述多个文本问题为所述多个视频关键帧图像对应的音频转换成的文本。

13.一种视觉问答方法，包括：

获取待处理图像和所述待处理图像对应的多个文本问题；

将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；

其中，所述视觉问答模型为通过所述权利要求1-12任一项所述的视觉问答模型的训练方法训练获得。

14.根据权利要求13所述的方法，其中，所述获取待处理图像和所述待处理图像对应的多个文本问题，包括：

获取连续的多个视频关键帧图像及与所述多个视频关键帧图像对应的音频；

对所述音频进行文本转换处理，获得多个文本；

将所述多个视频关键帧图像作为所述待处理图像，将所述多个文本作为所述待处理图像对应的多个文本问题。

15.一种视觉问答方法，包括：

获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；

将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过所述权利要求1-12任一项所述的视觉问答模型的训练方法训练获得；

根据所述目标信息进行所述电子商务直播视频的推荐。

16.一种视觉问答模型的训练装置，包括：

输入模块，用于通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；

特征提取模块，用于通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；

表达学习模块，用于在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；

输出模块，用于通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。

17.一种视觉问答装置，包括：

第一获取模块，用于获取待处理图像和所述待处理图像对应的多个文本问题；

第一处理模块，用于将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；

其中，所述视觉问答模型为通过所述权利要求16所述的视觉问答模型的训练装置训练获得。

18.一种视觉问答装置，包括：

第二获取模块，用于获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；

第二处理模块，用于将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过所述权利要求16所述的视觉问答模型的训练装置训练获得；

推荐模块，用于根据所述目标信息进行所述电子商务直播视频的推荐。

19.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的视觉问答模型的训练方法对应的操作；或者，所述可执行指令使所述处理器执行如权利要求13-14中任一项所述的视觉问答方法对应的操作；或者，所述可执行指令使所述处理器执行如权利要求15所述的视觉问答方法对应的操作。

20.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12中任一项所述的视觉问答模型的训练方法；或者，实现如权利要求13-14中任一项所述的视觉问答方法；或者，实现如权利要求15所述的视觉问答方法。