CN111652357A

CN111652357A - 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统

Info

Publication number: CN111652357A
Application number: CN202010795120.0A
Authority: CN
Inventors: 赵洲; 何金铮; 顾茅
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-09-11
Anticipated expiration: 2040-08-10
Also published as: CN111652357B

Abstract

本发明公开了一种利用基于图的特定目标网络解决视频问答问题的方法及其系统，属于视频问答文本生成领域。主要包括如下步骤：1）针对于一组视频、问题、答案训练集，训练一个跨模态编码器，学习出视频信息和问题信息的联合表征。2）对于跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出，通过一个解答模块根据数据集的不同问题训练不同的解码器，输出针对于视频和问题联合表达的自然语言答案。本发明采用一个更加细粒度的基于图的关系敏感的编码器来获得视频问答中的目标关系，采用一个特定目标的时序编码器来捕获特定目标的同质动态视觉线索，采用轨迹优化算法，减轻了复杂场景下目标检测的不足，有效提升了视频问答的性能。

Description

一种利用基于图的特定目标网络解决视频问答问题的方法及其系统

技术领域

本发明涉及视频问答文本生成，尤其涉及一种利用基于图的特定目标网络解决视频问答问题的方法。

背景技术

开放式的视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。

视频问答是计算机视觉和自然语言处理之间的一个跨学科领域。一个视频问答模型不仅要理解视觉内容和文本内容，还要理解它们之间的相关性。随着对象检测技术的发展，越来越多的视频问答模型利用目标级视觉内容作为进一步推理步骤的重要可视线索。

但是现有的视频问答方法中忽略了目标之间的相互依赖关系，缺少了可以给视觉问答提供重要的视觉线索；且现有技术中对目标级别的视觉数据的处理方式仅仅使用注意力机制简化了目标级别的视觉信息，这会导致很多时序依赖信息和目标的动态信息的丢失。此外，视觉信息往往混杂了很多干扰信息，这会影响目标检测，比如在跟踪某个目标的轨迹时会出现照相问题、某些目标突然消失或者突然出现，一些噪声等，这会导致目标检测和轨迹推测很不稳定。

综上，现有技术中还不能有效地利用目标级的视觉信息，导致了在复杂场景应用中性能有限，难以满足高要求场景下的使用。

发明内容

本发明的目的在于解决现有技术中的问题，提出了一个更加细粒度的基于图的关系敏感的编码器来获得视频问答中的目标关系，同时本发明还提出了一个特定目标的时序编码器来捕获特定目标的同质动态视觉线索。除此之外，本发明还设计了一种更通用、更方便的轨迹优化算法，减轻了复杂场景下目标检测的不足。

本发明具体采用的一种利用基于图的特定目标网络解决视频问答问题的方法，包括如下步骤。

1）建立由跨模态编码网络和多解码网络组成的特定目标网络模型，所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块。

2）获取视频及问题语句；

对于一段视频，训练出针对特定目标的时序编码器来得到目标通道特征和轨迹特征；

对于一段视频及问题语句，分别利用自注意力模块获得全局相关的帧通道特征和问题通道特征。

3）将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入，其中以问题通道特征作为询问序列，分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作，输出三个自注意力结果；将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果。

4）针对问题的不同形式构建不同的解码器，对跨模态编码结果进行解码，得到针对问题的预测答案；将获得的针对不同问题的预测答案与真实答案进行比较，更新跨模态编码网络和多解码网络的参数，得到最终的基于图的特定目标网络模型。

5）对于要预测答案的视频和问题，根据生成的最终的基于图的特定目标网络模型，得到所预测的答案。

本发明的另一目的在于提供了一种用于实现上述方法的系统。

包括：

视频及问题语句获取模块：用于获取视频及问题语句。

时序编码模块：用于读取视频及问题语句获取模块采集到的视频数据，输出目标通道特征和轨迹特征。

第一自注意力模块：用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征。

第二自注意力模块：用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征。

多头注意力模块：用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作，其中以问题通道特征作为询问序列，分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作，输出三个自注意力结果。

后处理模块：用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理，输出最终的编码结果。

解答模块：用于对编码结果进行解码操作，输出所预测的答案。

相对于传统方法，本发明有效提升了视频问答的性能，具体体现在以下三个方面。

（1）本发明采用了基于图的多种视觉编码器，包括空间图编码器、交互图编码器、语义图编码器，在处理目标特征和帧特征时都采用以目标特征作为图中顶点，而帧特征作为附加信息帮助更好地建模图模型，可以很好地建模目标之间的相互依赖性，解决了传统方法没有考虑目标之间的相互依赖性的缺陷，提升了视觉编码效果。

（2）针对传统方法忽略了目标的时序信息的缺陷，本发明提出了特定目标的时序编码器，包括了两个通道，建模了目标的时序信息和动态信息，提升了对视频中的目标的建模能力。

（3）针对传统方法中由于目标检测的缺陷导致轨迹推测不稳定的问题，本发明设计了一种更通用、更方便的轨迹优化算法，将dlib获取到的原始轨迹信息分类为确定轨迹和不确定轨迹，通过调整规则将相似的轨迹进行合并，最后将优化后的轨迹信息进行后处理后作为轨迹特征，减轻了复杂场景下目标检测的不足。

附图说明

图1是本发明所使用的特定目标的时序编码器的整体模型。

图2是本发明所使用的基于图的特定目标网络的整体模型。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1和2所示，本发明用基于图的特定目标网络解决视频问答问题的方法包括如下步骤。

步骤一、对于输入的视频及问题，训练一个跨模态编码器，学习出视频信息和问题信息的联合表征。

步骤二、对于输入的视频及问题，得到跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出；通过一个解答模块根据数据集的不同问题训练不同的解码神经网络。

步骤三、对于要预测答案的视频和问题，根据生成的跨模态编码器和解码神经网络，得到所预测的答案。

在本发明的一项具体实施中，步骤一的实施过程如下：

2）获取视频及问题语句。

对于一段视频，训练出针对特定目标的时序编码器来得到目标通道特征D _o和轨迹特征D _tra。

对于一段视频及问题语句，分别利用自注意力模块获得全局相关的帧通道特征h ^f和问题通道特征h ^q；具体的，对于给定的问题文本，采用预训练好的GloVe模型进行词嵌入，随后采用自注意力模块进行编码，优选的，所述的自注意力模块采用Transformer中的自注意力模型。自注意力模型的计算公式如下h ^out=Atten(Q, K, V)，这里的Atten是多头注意力机制，Q, K, V分别代表询问，键，值。对于给定的视频帧和问题，经过自注意力模型，得到编码的问题通道特征h ^q和帧通道特征h ^f。本发明获得了问题和视频的联合表征。

3）将目标通道特征D _o、轨迹特征D _tra、帧通道特征h ^f和问题通道特征

作为多头注意力模块的输入，其中以问题通道特征h ^q作为询问序列，分别与目标通道特征、轨迹特征、帧通道特征通过多头注意力机制进行交互，输出三个自注意力结果；将三个自注意力结果与问题通道特征经级联和线性层处理后得到跨模态编码结果。

具体的，针对特定目标的时序编码器包括两个通道，第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成；第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成。优选的，所述的帧级特征提取层采用ResNet网络，所述的目标级特征提取层采用Mask RCNN网络。

所述的空间图编码器用来获取目标之间的空间特征，语义图编码器和交互图编码器采用相同的结构，这两个编码器都是用来探索目标之间的相互的语义联系。对于空间图编码器，本发明通过可学习的方法控制信息传递。

具体为：

获取两个目标区域之间的相对位置特征，并进行位置编码，获得高维特征loc _s；

根据位置编码信息计算相对分数S _uv=max(0,(w _s loc _s))，其中w _s是一个可学习的向量，loc _s是通过位置编码获得的高维特征。

本发明启发式地定义了四种常见的空间关系类型:包括、排除、与IoU的交互作用大于0.5和与IoU的交互作用小于0.5，作为四种不同的边缘标签。由于这些关系类型不是消息传递过程中的主要因素，本发明将它们设置为包含辅助空间关系分类的四种不同偏差

。

空间图编码器采用的消息传递的公式为：

其中，

是可学习的矩阵，

表示第l-1层第u个顶点的特征，u表示第u个顶点，

表示偏差，

表示顶点v相邻的顶点，

表示Relu激活函数，

表示第l层第v个顶点的特征。

语义图编码器旨在探讨对象之间的相互关系。与空间图相似，本发明设置几种不同的偏差

作为辅助交互关系信息，分两步:(1)根据识别类型，将对象细分为三类:人、动物和其他。(2)根据连接对象的分组，将相互关系分为人对动物、人对人、人对其他、动物对动物、动物对人、动物对其他、其他对人、其他对动物、其他对其他共9种类型，每一种类型对应不同的偏差

。为了增强有效信息和减少不相关信息，本发明采用了自适应消息通道策略。

对于目标u和v，本发明采用的信息传递公式为：

其中，

是常量，本发明取为0.5，

是表示第l-1层第u个顶点的特征，

是表示第l层第v个顶点的特征，

是表示第l-1层第v个顶点的特征，

、

、

是参数矩阵，

是权重参数，

表示和v相邻的顶点，

是附加信息中的帧特征，

是Relu激活函数，u表示第u个顶点，

表示偏差。

交互图编码器和语义图编码器采用相同的信息传递公式，两种图编码器具备相同的结构。

在本发明的一项具体实施中，将给定的一段视频作为时序编码器两个通道的输入，采用帧级特征提取层获取视频的帧特征，采用目标级特征提取层获取每一个视频帧的目标区域特征；将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理，并将其输出进行融合，再采用语义图编码器获取编码后的目标通道特征D _o；所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时，以目标区域特征作为图中顶点，以帧特征作为附加信息，用于辅助建模。

通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息，并对原始轨迹信息进行调整，调整后的轨迹提取器用来获得相对可靠的轨迹信息。

所述轨迹调整具体为：

采用dlib获取粗糙的原始轨迹信息。

将超过N _def个帧的轨迹分类成确定轨迹，其他的分类成不确定轨迹，本实施例中N _def= 3。

对于确定轨迹集合中的任意两个轨迹，若两个轨迹不相交、两个目标种类相同且IOU>0.5，则找到这两个轨迹里面距离最近的两个目标，判断距离是否小于阈值，若是，则将两个轨迹合并；若上述条件有一个不满足则不合并。将不确定的轨迹和已经并好的确定性轨迹按照相同规则并起来。这样就完成了轨迹的调整。

调整后的轨迹信息经位置编码后输入到自注意力模块，再经卷积操作和压缩操作，最后采用语义图编码器获取编码后的轨迹特征D _tra。

在本发明的一项具体实施中，步骤二的实施过程如下：

对于输入的视频及问题，得到跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出；通过一个解答模块根据数据集不同问题训练不同的解码神经网络。

针对以下四个问题：

帧问答：从视频的某一帧中获取问题的答案，并输出答案帧。

重复计数：获取某个特征动作在视频中的重复次数，并输出答案。

重复活动：针对待选择的特定动作，从视频中确定重复了特定次数的动作，并输出答案。

状态转换：针对目标动作、目标位置和目标属性的转变问题，并输出答案。

针对重复活动和状态转换问题，采用公式

计算预测答案的概率，

是可训练的参数矩阵，

是跨模态编码网络的输出，对应的解码器采用hinge 损失函数进行优化。

针对重复计数问题，采用公式

计算预测答案的概率，

是可训练的参数矩阵，b是偏差，对应的解码器采用采用

损失函数进行优化。

对于帧问答问题，采用公式

计算预测答案的概率，

是可训练的参数矩阵，对应的解码器使用交叉熵损失函数进行优化。

包括：

视频及问题语句获取模块：用于获取视频及问题语句。

其中，所述的时序编码模块包括两个通道，第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成；第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成。

在本发明的一项具体实施中，所述的帧级特征提取层配置有ResNet网络，目标级特征提取层配置有Mask RCNN网络；其中空间图编码器用来获取目标之间的空间特征，语义图编码器和交互图编码器采用相同的结构，这两个编码器都是用来探索目标之间的相互的语义联系；语义图编码器能够在问题通道的指导下学习目标之间的关系。

在本发明的一项具体实施中，所述的轨迹调整层用于将粗糙的原始轨迹信息进行整理，用来获得相对可靠的轨迹信息。

其中，所述的解答模块包括四个解码器，每一个解码器针对不同的问题形式进行训练。

在本申请所提供的具体实施方式中，应该理解到，以上所描述的系统实施例仅仅是示意性的，例如所述时序编码模块，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接，可以是电性或其它的形式。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在TGIF-QA上面进行实验验证，本数据集包含71k条GIF片段以及165k问答对。在这个数据集种主要包括下面四个问题。

分别是：

1）帧问答：模型可以从视频中的某一帧获得答案。

2）重复计数：计数某个特定动作的重复次数。

3）重复活动：给出5个活动，模型选出重复了特定次数的活动。

4）状态转换：有关动作、位置和目标属性等状态特征的转变问题。

下面是本发明在上述数据集上面的实验结果。

表1 实验结果

方法	重复活动	状态转换	帧问答	重复计数
					GR-ATT	68.8	73.9	53.0	4.32
本发明	74.8	82.4	57.5	4.22

实验结果中重复活动、状态转换、帧问答都是采用了准确率作为评测指标，而重复计数采用了均方误差作为重复指标。通过上述结果可以看出，本发明在各种问题上已经超过了现有的传统方法，说明本发明采用的多种视觉编码器很好地建模目标之间的相互依赖性，提升了视觉编码效果，并结合了目标的时序信息和优化的轨迹算法，提高了检测能力。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种利用基于图的特定目标网络解决视频问答问题的方法，其特征在于包括如下步骤：

1）建立由跨模态编码网络和多解码网络组成的特定目标网络模型，所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块；

2）获取视频及问题语句；

对于一段视频及问题语句，分别利用自注意力模块获得全局相关的帧通道特征和问题通道特征；

3）将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入，其中以问题通道特征作为询问序列，分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作，输出三个自注意力结果；将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果；

4）针对问题的不同形式构建不同的解码器，对跨模态编码结果进行解码，得到针对问题的预测答案；将获得的针对不同问题的预测答案与真实答案进行比较，更新跨模态编码网络和多解码网络的参数，得到最终的基于图的特定目标网络模型；

2.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法，其特征在于，所述的自注意力模块采用Transformer中的自注意力模型。

3.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法，其特征在于，所述针对特定目标的时序编码器包括两个通道，第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成；第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成；

将给定的一段视频作为时序编码器两个通道的输入，采用帧级特征提取层获取视频的帧特征，采用目标级特征提取层获取每一个视频帧的目标区域特征；将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理，并将其输出进行融合，再采用语义图编码器获取编码后的目标通道特征；所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时，以目标区域特征作为图中顶点，以帧特征作为附加信息；

通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息，并对原始轨迹信息进行调整，调整后的轨迹信息经位置编码后输入到自注意力模块，再经卷积操作和压缩操作，最后采用语义图编码器获取编码后的轨迹特征。

4.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法，其特征在于，所述的帧级特征提取层采用ResNet网络。

5.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法，其特征在于，所述的目标级特征提取层采用Mask RCNN网络。

6.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法，其特征在于，所述空间图编码器，具体为：

获取两个目标区域之间的相对位置特征，并进行位置编码；

根据位置编码信息获得相对分数