CN115599954B

CN115599954B - 一种基于场景图推理的视频问答方法

Info

Publication number: CN115599954B
Application number: CN202211587240.7A
Authority: CN
Inventors: 刘文印; 林大润; 梁达勇; 陈俊洪; 西木; 黄可思; 钟经谋
Original assignee: Guangdong University of Technology
Current assignee: Yingxi Intelligent (Shenzhen) Co.,Ltd.
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-31
Anticipated expiration: 2042-12-12
Also published as: CN115599954A

Abstract

本发明公开一种基于场景图推理的视频问答方法，包括，获取视频数据，并通过场景图生成算法对视频数据进行处理得到无偏场景图数据；对视频数据进行特征提取得到视频特征并获取问题特征，通过多尺度跨注意力模型对所述视频特征及问题特征进行处理，得到共现信息及特征信息；基于共现信息，通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息；对所述答案线索信息及特征信息进行解码，得到视频问答答案信息以实现视频问答。

Description

一种基于场景图推理的视频问答方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于场景图推理的视频问答方法。

背景技术

在人类的水平上理解视频内容是一种高级的视觉智能。为了实现这一目标，研究人员已经研究了诸如物体检测、语义分割和视频摘要等中间任务。最近，人们对许多连接语言和视觉的任务越来越感兴趣，这些任务旨在表现更接近人类理解水平的能力。许多研究人员致力于视觉问题回答 (Visual Question Answer，简称VQA)，它具有两个重要特性：（1）需要理解视觉观察的特定部分才能回答问题；(2)每个问题的相关答案空间要更少。由于这些特性，视觉问答已成为在更精细的细节水平上替代人类视觉理解的可行替代方案。在人机交互以及智能问答等科技产品上都有所应用。

视频问答(Video QA)在视频检索、智能问答系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。与图像问答相比，视频问答更具挑战性，因为视频问答需要处理具有丰富外观和运动信息的长序列图像，而不是单一的静态图像。并且视频中存在大量的时间线索，视频问答需要更多的时间推理来回答相关问题，例如动作过渡和计数任务。大多数现有方法使用递归神经网络(RNN)及其变体进行编码。最近研究人员使用时空注意机制，也有文献使用视频的卷积神经网络(CNN)提取文本的语义嵌入和空间特征用于学习外观运动表示或记忆增强，旨在捕获依赖于更大时间尺度的文本和视频之间的语义关系。虽然这些方法在基准数据集上取得了有竞争力的结果，但在很大程度上忽略了视频文本和外观运动信息之间的多层次交互。此外，在使用共同注意表征和记忆增强共同表征时，可能会进一步影响各自视觉信息的学习。近期人们发现基于从视觉信息中挖掘出结构化信息（例如场景图等），再根据问题中隐含的线索能更准确地推理出答案。由于目前关于此类挖掘结构化信息的视觉问答解决思路和方法较少，本专利提出的基于场景图的推理方法很有潜力。

最近相似的实现方案是基于Transformer的视频问答表示网络。该方法使用多头注意力层（Multi-Head Self Attention）或多头跨注意力层（Multi-Head Co-Attention）融合多模态的信息来学习通用的表示，并设计一些特定的监督任务以有助于视频问答Transformer模型的学习，最后将得到的特征输入到解码器中得到答案。上述现有技术中存在如下的问题，针对视频问答，部分模型没有使用场景图这种物体之间关系的清晰表示，可能较难捕捉到深层的结构信息。传统的Transformer方法在设计任务时可能会引入噪声，在解决开放域问题时可能会出现性能损失。现有的视频问答的设计方案方案中的模型缺少对时序信息分析的模块，导致模型缺乏对视频的动态推理能力，也间接导致了模型的训练和微调需要大量数据。综上，现有技术针对视频问答无法利用视频帧中物体之间以及动作之间清晰地层次结构，进而无法准确有效给出视频问答的答案。

发明内容

为解决上述现有技术中所存在的问题，本发明提供一种基于场景图推理的视频问答方法，能够利用视频帧中物体之间以及动作之间清晰地层次结构，得到更加准确地结果，根据问题的语义特征和视频的外观信息以及动作信息融合多个不同模态语义信息得到跨模态特征，并通过工具生成的无偏场景图推理给出正确的视频问答答案。

为了实现上述技术目的，本发明提供了如下技术方案：

一种基于场景图推理的视频问答方法，包括：

获取视频数据，通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据；

同时，对视频数据进行特征提取得到视频特征，并获取问题特征，通过多尺度跨注意力模型对所述视频特征及问题特征进行处理，得到共现信息及特征信息；

基于共现信息，通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息；对所述答案线索信息及特征信息进行解码，得到视频问答答案信息以实现视频问答。

可选的，对视频数据进行特征提取的过程包括：

分别对视频数据进行运动特征及外观特征提取，得到视频运动特征及视频外观特征，对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。

可选的，通过场景图生成算法对视频数据进行处理的过程包括：

构建场景图生成模型，对所述场景图生成模型进行有偏训练，得到有偏场景图生成算法；

通过有偏场景图生成算法对所述视频数据进行处理，得到物体特征；对视频数据中的物体特征进行掩膜覆盖，得到掩膜数据，通过有偏场景图生成算法对掩膜数据进行识别，得到掩膜场景图，对所述视频数据及掩膜场景图进行对比，得到无偏场景图数据；

通过深度生成算法为无偏场景图数据生成伪深度，得到带深度的无偏场景图数据。

可选的，获取问题特征的过程包括：

获取问题数据，对问题数据进行初始化，通过Bert模型对初始化后的问题数据进行处理，得到问题特征。

可选的，对所述视频特征及问题特征进行处理的过程包括：

构建若干个多尺度跨注意力模型，其中若干个多尺度跨注意力模型依次连接，其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层，对视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取，通过所述跨模态多头注意力层对视频金字塔自注意力结果及问题特征进行关联提取，生成共现信息，通过所述前馈层对问题特征及共现信息进行处理生成特征信息；

通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理，得到共现信息及特征信息。

可选的，对场景图数据进行推导的过程包括：

构建若干个动态图推理模型，将若干个所述动态图推理模型进行连接，所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应；将所述无偏场景图数据输入连接后的动态图推理模型，通过所述共现信息对所述动态图推理模型中的节点进行更新，并通过核函数对所述动态图推理模型中的边进行更新，最终输出答案线索信息。

可选的，所述核函数

为：

其中

为节点

的坐标，

为节点

的坐标，

为节点

的时间戳，

为节点

的时间戳，

以及

为缩放超参数。

可选的，对所述答案线索信息及特征信息进行解码的过程包括：

构建答案解码器，对所述答案解码器进行训练；通过训练好的答案解码器对所述答案线索信息及特征信息解码，得到视频问答答案信息，其中所述训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。

本发明具有如下技术效果：

本发明提供一种基于场景图的视频问答的方法：使用多尺度的跨注意力结构实现文本和视频外观以及运动信息之间的多层次交互。使用场景图提供的清晰层次结构指导模型，并设计了一种对场景图的动态推理方法在获得问题线索的前提下从视觉信息中搜索出有效的信息；进行多模态融合并生成更全面的答案特征并输入到解码器得到最终的答案。通过上述技术方案，本发明在融合跨模态特征前提下，通过无偏场景图生成工具以及基于场景图的动态推理方法来捕捉到与问题相关的视觉语义特征，在Why类型以及How类型的问题中取得更好的表现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的总体框架流程示意图；

图2为本发明实施例提供的有偏与无偏场景图区别示意图；

图3为本发明实施例提供的无偏场景图的关系边示意图；

图4为本发明实施例提供的多尺度跨注意力模型结构图示意图；

图5为本发明实施例提供的动态图推理模型结构图示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述，本发明技术方案主要可以分为五个部分：问题文本特征以及视频特征提取、无偏场景图生成算法、多尺度跨注意力模型处理、动态图推理模型处理以及答案文本解码器识别，设计并利用多尺度的跨注意力结构将问题文本特征与视频视觉特征进行多层次的融合，为图推理提供更丰富的跨模态特征。并巧妙运用无偏场景图生成算法为视频生成一系列无偏场景图，加入更强的因果关系以生成更有效的信息特征。同时设计并使用场景图动态推理模块，从视频场景图中提取出有效信息。

针对上述内容，通过如下步骤进行具体说明：

（1）问题文本特征以及视频特征提取

1、问题文本特征提取：将视频问答所提出的问题的所有单词用预训练的Golve向量初始化，并表示为300维的词嵌入。将其送入到Bert模型中得到问题特征

，其中

为512，

为问题的单词长度。

2、视频特征提取：本发明将每个视频裁剪为平均采样长度为

的

个片段，其中

，

。使用在Kinect数据集预训练的3D ResNeXt-101网络提取片段帧的运动特征

，

。使用在ImageNet数据集预训练的ResNet-101网络提取片段帧的外观特征

，

。随后将运动特征及外观特征按照时序拼接成视频特征

。

（2）生成无偏场景图：观察到现有的场景图生成网络输出的关系边表达非常的模糊。如图2所示，比如人在沙滩上行走/坐在沙滩上/躺在沙滩上等复杂关系简单归结为人在沙滩上。这种现象称为有偏生成，是由于训练数据所标注的关系边分布不平衡导致的。针对这种情况，本发明按照以下流程消除数据集分布的影响并生成无偏场景图。

1、选择构建现有的场景图生成模型进行普通的有偏训练，得到关系边的输出概率图。这样虽然可能有错但具体能过滤大量不合理的关系边。

2、我们分析图片的信息导向可以发现预测概率分布Y由物体特征X、背景信息Z以及图片本身I共同引起的组合效应，如图3所示。为了剔除除了物体特征比如背景信息等的因素影响，运用反思维我们先对物体特征X进行干预（抹除）得到第二幅组合效应图。具体的做法是将数据集中的图片出现的物体特征都使用掩膜覆盖，并继续使用模型得到新的场景图，得到另一个关系边的输出概率图。然后和原始场景进行对比（输出概率分布相减），从而得出最后的关系边预测。这种做法的原理是通过对比可以让其他无关因素相互抵消，使得最终产生的分布更加偏向于物体特征，输出的概率分布不再是长尾的。最后图节点特征由 ROI所标记的区域特征代替。为了减少计算复杂度，此处我们在每个片段只输出一张关键帧的场景图，最后得到

。

3、利用现有工具生成伪深度：为了丰富图节点特征，我们采用MiDAS预训练模型来为图节点即最终生成的无偏场景图生成伪深度，为每一个出现的物体提供三维的坐标，将位置映射到三维世界坐标

，生成带深度的无偏场景图供后续模型使用。

（3）如图4所示，多尺度跨注意力模型：此模型的目的是为了问题语义特征与视频的外观和动作特征进行多层次的交互。输入视频特征

以及文本问题特征

,输出下一步视频特征及问题特征

以及

。由于输入输出格式相同，此模型可以迭代式将多模态特征融合。将最后得到的

以及

拼接输入到答案解码器中，该模型中包括金字塔自注意力层及跨模态多头注意力层。

1、金字塔自注意力层（Pyramid-MHSA）：将输入的第i个视觉视频特征

按金字塔模式进行不同步长的池化操作：

最后将池化结果

各个特征输入到DWConv（深度卷积）并拼接得到：

再根据深度卷积拼接结果P分别生成计算金字塔自注意力（Pyramid self- attention）需要的查询向量query （

）、键向量key（

）、值向量value（

）得到：

其中

为输入的第i个视觉视频特征，

为可学习的金字塔自注意力参数。之后将上述向量输入到自注意力层得到注意力A：

其中

为

的通道数，用作尺度缩放。

上标

代表向量的转置（transpose）。使用这种金字塔特征降采样的形式，既可以减少自注意力的计算量，大大缩小特征序列长度；也可以引入更丰富的多层次视频特征，有助于与文本特征

进行多尺度的交互。最后得到多尺度视频特征

：

2、跨模态多头注意力层（Multi-Head Cross-modal Attention）：将上一步得到的多尺度视频特征

与文本问题特征

通过归一化层后得到跨模态注意力所需要的查询向量query（

）、键向量key（

）、值向量value（

）:

其中

为LayerNorm归一化层，输入到跨模态多头注意力层：

其中

用作尺度缩放。这样问题语义便可以和视频特征相互联系起来，提取出它们的语义共现，并通过前馈层对共现信息I及文体特征进行处理生成特征信息即下一步视频特征及问题特征

以及

。

（4）动态图推理模型：此模型以跨模态多头注意力层的输出共现信息

作指导，通过节点更新操作以及边更新操作，在场景图结构

（其中H为节点集、E为边集）中推导出答案线索。其流程如图5所示，最后将节点特征池化并拼接输入到答案解码器中。

1、节点更新：为了能利用视频特征和文本特征的共现信息，我们将跨模态多头注意力层的输出

分别与各个节点拼接，并使用图注意力网络（Graph Attention Network）。在第

层，关于节点

和节点

的注意力

表示为：

其中

层为全连接层。当计算完所有的注意力分数后，其第n层的第i个节点

更新为：

2、边更新：为了在更新边的信息时能考虑到时序信息以及节点之间的位置信息，本发明设计一种新的核函数

来更新边，其定义如下：

其中

为节点

的坐标，

为节点

的坐标，

为节点

的时间戳，

为节点

的时间戳，

以及

为缩放超参数。使用该核函数可以根据时序相似度以及位置相似度来评估边的变化情况，最终边更新公式如下：

（5）使用答案解码器解码答案。将多尺度跨注意力模块所输出的

以及

，动态图推理模块的节点特征和边特征拼接在一起并通过全连接层得到输出特征

，之后针对不同类型的问题设计相应地损失函数训练并得到答案。

1、对于开放式问答，我们需要将输出特征

映射到开放问题答案空间

中：

其中

代表可学习参数，

为问题答案向量，

为问题答案概率分布，

表示激活函数问题全局特征，使用交叉熵损失函数训练。

2、对于计数问题，将

函数替换为舍入函数，并使用平均方差损失函数训练。

3、对于多选问答，将每个候选答案与相应的问题按各种组合拼接起来得到对应的拼接文本并输入到模型中，将

函数替换为：

其概率最高的第k个选择组合将作为输出，使用Hinge loss函数训练。

使用多尺度的跨注意力结构将问题与视频进行多层次交互；通过无偏场景图生成工具来对视频关键帧分析并生成场景图，并利用交互信息使用动态图推理模块来推理找出线索；使用多特征融合并利用答案解码器得到最终答案。

本发明提供一个基于场景图推理的视频问答方法致力于得到准确的答案。在融合跨模态特征前提下，通过无偏场景图生成工具以及基于场景图的动态推理方法来捕捉到与问题相关的视觉语义特征，在Why类型以及How类型的问题中取得更好的表现。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于场景图推理的视频问答方法，其特征在于，包括：

对视频数据进行特征提取得到视频特征并获取问题特征，通过多尺度跨注意力模型对所述视频特征及问题特征进行处理，得到共现信息及特征信息；

基于共现信息，通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息；对所述答案线索信息及特征信息进行解码，得到视频问答答案信息以实现视频问答；

对所述视频特征及问题特征进行处理的过程包括：

构建若干个多尺度跨注意力模型，其中若干个多尺度跨注意力模型依次连接，其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层，将所述视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取，通过所述跨模态多头注意力层对金字塔自注意力结果及问题特征进行关联提取，生成共现信息，通过所述前馈层对问题特征及共现信息进行处理生成特征信息；

通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理，得到共现信息及特征信息；

对场景图数据进行推导的过程包括：

构建若干个动态图推理模型，将若干个所述动态图推理模型进行连接，所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应；将所述无偏场景图数据输入连接后的动态图推理模型，通过所述共现信息对所述动态图推理模型中的节点进行更新，并通过核函数对所述动态图推理模型中的边进行更新，最终输出答案线索信息；

多尺度跨注意力模型：输入视频特征