CN112559698A

CN112559698A - 基于多模态融合模型的提高视频问答精度方法及系统

Info

Publication number: CN112559698A
Application number: CN202011205724.1A
Authority: CN
Inventors: 徐卫志; 蔡晓雅; 曹洋; 于惠; 庄须强; 刘志远; 孙中志; 赵晗; 龙开放
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-03-26
Anticipated expiration: 2040-11-02
Also published as: CN112559698B

Abstract

本公开提供了一种基于多模态融合模型的提高视频问答精度方法及系统，包括：采集视频数据和问题特征，获取视频问答的问题；从视频数据中提取视觉特征和字幕特征；将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征；将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型；将视频问答的问题输入训练好的多模态融合模型，获得问题答案；根据问题的特点针对不同的问题聚焦不同的目标实体实例，提高了模型选择答案的准确性。

Description

基于多模态融合模型的提高视频问答精度方法及系统

技术领域

本公开属于自然语言处理和深度学习的技术领域，涉及视频问答中的一种基于多模态融合模型的提高视频问答精度方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，基于视觉内容和语言内容的视频问答(Video-QA)研究成功地得益于深度神经网络。此任务旨在从视频中的答案候选中选择正确答案的推理过程。与婴儿学习说话的过程类似，机器对图像和视频的理解正在从用几个单词标记图像过渡到学习生成完整的句子。与传统的图像字幕任务不同，多模态视频问答需要同时学习图像和语言之间的对应语义。

大多数现有的工作都引起了人们的关注，视频问答也取得了显著的进步。 2015年人们提出了一种时空动作定位方法，使用检测跟踪方法，并结合静态和运动CNN特征对视频进行评分。为了在视频中捕捉更多细节，2017年人们利用过去和未来事件的上下文信息，共同描述所有事件。但在2018年人们提出了一种多步骤语义注意网络，通过学习视觉关系事实作为语义知识来帮助推断正确答案。然而，基于视觉和自然语言的视频问答任务需要视频的视觉表示结合字幕来推断正确答案，因此视频问答任务比图像字幕任务难度更大。

视频问答任务本质上是融合多个模态数据，以生成与视频故事相关的问题的准确答案。大多数视频问答模型通常采用多模态数据联合嵌入的方法，通过深卷积神经网络计算图片特征，通过递归神经网络计算问题文本特征，然后将输入图片和问题特征映射到公共表示空间。最后，将公共特征映射向量输入到答案分类器以确定最终答案。

然而，在现实生活中，人们问的关于图片的问题往往与图片中的目标实体有关，然而目前的视频问答所提取信息无法实现视觉信息的提取，不能有效推断图像的目标实体区域和相邻的字幕信息，使得答案误差较大，难以满足视频问答准确性的需求。

发明内容

为了解决上述技术问题，本公开为了进一步了解图片的特征，通过将图片中的对象与视觉信息的理解相结合来构建图像信息表示空间，并推断舞台聚焦于图像的目标实体区域和相邻的字幕信息。另外，根据问题的特点针对不同的问题聚焦不同的目标实体实例，提高了模型选择答案的准确性。

第一方面，本公开提供了一种基于多模态融合模型的提高视频问答精度方法，包括：

采集视频数据和问题特征，获取视频问答的问题；

从视频数据中提取视觉特征和字幕特征；

将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征；

将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型；

将视频问答的问题输入训练好的多模态融合模型，获得问题答案。

第二方面，本公开提供了一种基于多模态融合模型的提高视频问答精度系统，包括：

数据采集模块，被配置为：采集视频数据和问题特征，获取视频问答的问题；

数据处理模块，被配置为：从视频数据中提取视觉特征和字幕特征；

特征融合模块，被配置为：将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征；

模型训练模块，被配置为：将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型；

输出模块，被配置为：将视频问答的问题输入训练好的多模态融合模型，利用多头自我注意机制获得问题答案。

第三方面，本公开提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如第一方面所述的基于多模态融合模型的提高视频问答精度方法。

第四方面，本公开提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如第一方面所述的基于多模态融合模型的提高视频问答精度方法。

与现有技术对比，本公开具备以下有益效果：

1、本公开采用从视频数据中提取视觉特征和字幕特征；将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征；将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型，为了进一步了解图片的特征，通过将图片中的对象与视觉信息的理解相结合来构建图像信息表示空间，并推断舞台聚焦于图像的目标实体区域和相邻的字幕信息。另外，根据问题的特点针对不同的问题聚焦不同的目标实体实例，提高了模型选择答案的准确性。

2、本公开提出了一种改进的视频问答任务框架，使用一种结合视觉和字幕表示特征的通道注意融合机制来更准确地捕捉语义。通过实验对模型的性能进行了测试，在TVQA数据集上根据语言和视觉表示给出了正确的预测，MAFMS的测试精度比之前最先进的测试精度有了提高。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为提高视频问答精度方法的流程图；

图2为TVQA数据集中的多模态视频-QA示例图；

图3为多模态融合模型示例图；

图4为多头注意力机制图；

其中，(A)、输入表征；(B)、通道注意融合；(C)、多头自我注意；S-QA、融合的字幕特征；V-QA、融合的视觉特征。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：多头注意力(multi-head attention)是利用多个查询，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分；

模态是指事物发生或存在的方式，多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式，都可以称为一种模态 (Modality)，目前研究领域中主要是对图像，文本，语音三种模态的处理。

多通道融合方法是多通道理解和交互的重要研究内容。融合图像特征和文本编码的最简单的方法之一是对特征进行平均或拼接，然后将它们融合以预测正确的答案。在过去的几年里，已经提出了一些工作来回答关于图像的问题。例如，提出了基于图卷积网络的问题回答，其中实体图用于推理正确答案。空间记忆网络提出了一种新颖的空间注意结构，将单词和图像块与注意力对齐，并通过增加考虑整个问题的第二个注意来获得改进的结果，从而将图像不同区域的神经元激活存储在同一存储器中。自上而下的视觉注意力确定特征权重，并结合更快的R-CNN来提取与图像区域相关联的特征向量，在细粒度分析中进行了更深入的研究，用于推理和预测。因此，最近的许多研究都集中在注意力模型上，该模型选择与回答问题相关的图像区域来处理视频问答任务。

视频问答的一个最新发展方向是除了用于故事理解的视频模态之外，还利用诸如字幕之类的文本模态。为此，针对各种视频问答基准，提出了时空视频问答任务，要求智能系统同时提取相关时刻的视觉概念来回答时空视频问题。基于双重LSTM的同时具有空间和时间关注的方法，产生空间和时间关注来定位视频中需要关注的区域。视频问答框架需要同时检索相关时刻和引用的视觉概念。与以往的研究不同，本公开在工作中使用了BERT对视频片段中捕获的信息进行建模。

BERT是一种语言表示模型，它使用双向转换器在大数据集上进行预训练，然后使用预训练模型的模型参数来微调其他NLP任务。BERT可以使用双向转换器很好地挖掘上下文信息。综上所述，BERT模型进一步增强了词向量模型的泛化能力，全面描述了字级、词级、句级，甚至句子之间的关系。它有以下三个新特点：

(1)掩蔽语言模型。虽然可以看到所有的位置信息，但是需要预测的单词已经被[MASK]令牌替换了。

(2)变压器。转换器是实现上下文关联的编码器，可以有更深的层次和更好的并行性。而且线性变换器更容易避免[MASK]令牌的影响，只需要通过自我关注来降低[MASK]令牌的权重。

(3)句子级别语义理解。与word2vec相似，BERT了解到句子级别的负采样是有意义的。给定一个句子和下一个肯定句(基本事实)，随机抽样一个否定句来执行句子级别二元分类任务(确定该句子是下一个句子还是噪音)。BERT将传统上在下游特定NLP任务中完成的操作转移到预先训练的单词嵌入。在获得BERT 词嵌入的用法后，只需在词嵌入中添加简单的MLP或其他线性分类器即可。

R-CNN模型全称是Region-CNN，是第一个成功将深度学习应用到目标检测上的算法。

实施例1

如图1所示，本公开提供了一种基于多模态融合模型的提高视频问答精度方法，包括：

采集视频数据和问题特征，获取视频问答的问题；

从视频数据中提取视觉特征和字幕特征；

将视频问答的问题输入训练好的多模态融合模型，获得问题答案，并预测每个答案为正确答案的概率。

进一步的，所述采集视频数据和问题特征，获取视频问答的问题，包括：

对视频进行3FPS的图像帧序列提取；

提取每个图像帧的高层语义表示。

进一步的，从视频数据中提取视觉特征和字幕特征，包括，采用R-CNN模型从视频数据前若干个的对象提案中提取视觉特征和字幕特征，由于视觉特征位于文本域中，因此视觉特征以字幕的方式嵌入。

进一步的，将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征，包括，将视觉特征和字幕特征输入BERT语言表示模型，并使用BERT 语言表示模型将视觉特征、字幕特征和问题特征与每个候选答案结合起来进行嵌入，形成融合视觉特征和融合字幕特征。

进一步的，所述BERT语言表示模型的输入包括视觉特征、字幕特征、视频镜头和字幕句子组成；所述视频镜头和字幕句子被扁平化，包括QA特征；将QA 特征和视觉特征融合为QA/视觉特征；同样，将QA特征和字幕特征融合为QA/ 字幕特征。

进一步的，从相似度矩阵中，将得到的QA/字幕特征与问题特征进行拼接形成融合字幕特征，将得到的QA/视觉特征与问题特征进行拼接形成融合视觉特征。

进一步的，所述将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型包括，建立多模态融合模型，所述多模态融合模型采用了多头自我注意机制，所述多头自注意机制是将查询矩阵、关键字矩阵和值矩阵映射到多个不同的子空间；计算子空间时彼此互不干涉，最后将输出拼接在一起。

具体的，所述采集视频数据和问题特征，获取视频问答的问题，包括：

对视频进行3FPS的图像帧序列提取。然后，提取每个图像帧的高层语义表示。R-CNN模型是公认的能够捕捉图像视觉概念的强有力的深度学习模型，因此本文采用速度更快的R-CNN模型从前20名的对象提案中提取视觉特征

由于视觉特征位于文本域中，因此它们以字幕的方式嵌入。

从BERT-BASE模型的倒数第二层提取了字幕中的视频表示

词级文本表示

和问答对

进一步的，用两个独立的BERT来处理视觉和字幕特征，并使用BERT将视觉概念特征和字幕和问题与每个候选答案结合起来进行嵌入；通过串联问题表示形式

和与5个候选人答案表示

来创建5个假设。问题与每个答案候选人串联形成5假设

和n_qa表示每个假设的最大令牌数。对于每个假设，MAFMS都学会预测其正确性分数并最大限度地提高正确答案的分数。同样创建字幕表示

进一步的，所述将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征包括：

预先训练的BERT模型可以自动微调，以在各种NLP任务中实现最先进的性能。BERT输入的每句话的第一个Token是[CLS]，用于获取分类任务中的输出。 [SEP]添加标记以指示两个句子之间的分隔。在本文中，本公开考虑如下令牌的输入序列：

[CLS]+V/S+[SEP]+QA (1)

BERT的输入由一组视频镜头和字幕句子组成。这些视频镜头和字幕句子被扁平化，并表示为

将QA特征

和视觉特征

融合为QA/视觉特征

类似地，QA特征

和字幕特征

融合在一起作为QA/字幕特征

从相似度矩阵中，将得到的字幕特征与问题特征进行拼接。然后，本公开使用最大池化操作来减小大小：

其中fc是完全连接层。同样，本公开可以将QA功能定义为：

通过拼接来自不同方向的融合字幕特征

如下:

同样，本公开可以将融合的视觉特征定义为：

本公开添加融合的字幕特征和融合的视觉特征来得到最终的融合特征

进一步的，将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型，包括，建立多模态融合模型，为了更好地提取每个通道的贡献，多模态融合模型对

采用了多头自我注意机制，将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型。

具体的，多头自注意机制是将查询矩阵(Q)、关键字矩阵(K)和值矩阵(V)映射到多个不同的子空间。计算子空间时彼此互不干涉，最后将输出拼接在一起。

包含视觉和字幕语义信息的

被用作多头自我关注层的输入。

MulHead＝Concat([h₁；…；h_k])W^m

其中

是多头关注层中的查询矩阵(Q)、关键字矩阵(K)和值矩阵(V)的线性映射矩阵。多头头数k为8。

进一步的，将视频问答的问题输入训练好的多模态融合模型，获得问题答案，并预测每个答案为正确答案的概率，包括：通过多头自注意获得特征向量后，通过Softmax函数预测每个答案为正确答案的概率y：

y＝Softmax(w_MH*MulHead+b_MH)。

实施例2

如图2所示，本公开的框架目的是在视频问答中选择正确的答案。

TVQA数据集是视频问答的基准，包含152545个人工标注的多选问答对 (84768个什么、13644个如何、17777个在哪里、15798个为什么、17654个谁问)，来自6个电视节目(“生活大爆炸”、“城堡”、“我是如何认识本公开的母亲”、“实习医生格蕾”、“医学博士之家”、“老友记”)的21.8K视频片段。TVQA数据集中的问题有五个候选答案，其中只有一个是正确答案。数据集中的试题格式设计如下：

“[What/How/Where/Why/who]___[when/before/after/…]___”，问题的两个部分需要视觉和语言理解。训练集共有122,039个QA，验证集有15,253个 QAs，测试集有7,623个QAs。

本公开的评估是在配备Intel(R)Xeon(R)Gold 6132CPU(2.60GHz)、256G RAM和NVIDIA GeForce RTX 2080Ti的计算机上进行的。本公开使用的是 BERT-Base模型，它有12层。在本公开的实验中，每个序列的最大token数设置为128个，批大小为64个，学习率设置为0.0001，epochs设置为10。在所有的实验中，严格遵循推荐的训练/验证/测试分割，每个实验独立重复100次，并报告平均结果。

基于BERT的性能比基于LSTM的模型有很大提高。

如图3所示多头注意力机制V、K、Q是固定的单个值，而Linear层有3个， ScaledDot-Product Attention有3个多头；最后cancat在一起，然后Linear 层转换变成一个和单头一样的输出值；多头和单头的区别在于复制多个单头，但权重系数肯定是不一样的，上下文向量能够访问整个输入序列，注意力权重的可视化清晰地展示了模型为了输出某个单词而关注图像的哪些区域。其中，V、 K、Q分别为value、key和query的简写，K、V是一一对应的，，通过Q与K 内积，并softmax的方式来得到Q与各个V的相似度，然后加权求和得到一个向量。

考虑到有多个验证和测试问题，这就确立了本公开多任务的优势。本公开模型在所有电视节目中的得分比其他模型的得分更均衡，使得本公开的模型更精确。性能提升主要是因为与基于LSTM的模型相比，基于BERT的模型能够捕获不同模态之间以及不同模态内部更长的依赖关系，特别是在字幕较长的情况下。本公开的方法可以适当地整合来自不同模态的输入特征来帮助回答问题。多头自注意可以更充分地考虑每个模态的贡献，融合多头结果可以使模型更准确地提取更重要的特征，从而提高模型的性能。

为了与现有方法进行公平的比较，本公开试图重现PAMN、多任务和阶段的结果。对于大多数问题类型，MAFMS得分显著高于其他基线。特别是在“何时”问题上，高效的正确率表明了MAFMS在帮助推断正确答案方面的优越性。

在这项工作中，本公开提出了一种改进的视频问答任务框架。本公开使用一种结合视觉和字幕表示特征的通道注意融合机制来更准确地捕捉语义。通过实验对模型的性能进行了测试，在TVQA数据集上根据语言和视觉表示给出了正确的预测。MAFMS的测试精度比之前最先进的测试精度有了提高。

实施例3

一种基于多模态融合模型的提高视频问答精度系统，包括：

进一步的，所述数据采集模块、数据处理模块、特征融合模块、模型训练模块和输出模块，所被配置的具体方式分别对应上述实施例中所述的单通道相关干涉仪测向方法的具体步骤。

在其他实施例中，本公开还提供了：

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上述实施例中所述的基于多模态融合模型的提高视频问答精度方法。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上述实施例中所述的基于多模态融合模型的提高视频问答精度方法。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于多模态融合模型的提高视频问答精度方法，其特征在于，包括：

采集视频数据和问题特征，获取视频问答的问题；

从视频数据中提取视觉特征和字幕特征；

2.如权利要求1所述的提高视频问答精度方法，其特征在于，所述采集视频数据和问题特征，获取视频问答的问题，包括：

对视频进行3FPS的图像帧序列提取；

提取每个图像帧的高层语义表示。

3.如权利要求1所述的提高视频问答精度方法，其特征在于，从视频数据中提取视觉特征和字幕特征，包括，采用R-CNN模型从视频数据前若干个的对象提案中提取视觉特征和字幕特征，由于视觉特征位于文本域中，因此视觉特征以字幕的方式嵌入。

4.如权利要求1所述的提高视频问答精度方法，其特征在于，将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征，包括，将视觉特征和字幕特征输入BERT语言表示模型，并使用BERT语言表示模型将视觉特征、字幕特征和问题特征与每个候选答案结合起来进行嵌入，形成融合视觉特征和融合字幕特征。

5.如权利要求4所述的提高视频问答精度方法，其特征在于，所述BERT语言表示模型的输入包括视觉特征、字幕特征、视频镜头和字幕句子组成；所述视频镜头和字幕句子被扁平化，包括QA特征；将QA特征和视觉特征融合为QA/视觉特征；同样，将QA特征和字幕特征融合为QA/字幕特征。

6.如权利要求5所述的提高视频问答精度方法，其特征在于，从相似度矩阵中，将得到的QA/字幕特征与问题特征进行拼接形成融合字幕特征，将得到的QA/视觉特征与问题特征进行拼接形成融合视觉特征。

7.如权利要求5所述的提高视频问答精度方法，其特征在于，所述将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型包括，建立多模态融合模型，所述多模态融合模型采用了多头自我注意机制，所述多头自注意机制是将查询矩阵、关键字矩阵和值矩阵映射到多个不同的子空间；计算子空间时彼此互不干涉，最后将输出拼接在一起。

8.一种基于多模态融合模型的提高视频问答精度系统，其特征在于，包括：

9.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时，完成如权利要求1-7任一所述的基于多模态融合模型的提高视频问答精度方法。

10.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-7任一所述的基于多模态融合模型的提高视频问答精度方法。