CN112084319B

CN112084319B - 一种基于动作的关系网络视频问答系统及方法

Info

Publication number: CN112084319B
Application number: CN202011049187.6A
Authority: CN
Inventors: 邵杰; 张骥鹏; 高联丽; 徐行; 申恒涛
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-03-16
Anticipated expiration: 2040-09-29
Also published as: CN112084319A

Abstract

本发明提供了一种基于动作的关系网络视频问答系统及方法，属于计算语言学和计算机视觉领域，包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块。本发明使用时序动作检测网络的结果辅助视频特征的编码，强调了视频的动作因素，同时通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积，将动作概率分布与初始的视频特征被一起输入到神经网络的编码器中，以学习视频特征使最终的视频特征能够包含动作信息，最后，将输出的视频特征与问题特征输入一个多头的关系转换器网络中，通过此网络输出最后的结果，本发明通过增强问题中的动作特征来提高任务性能，并辅以关系转换器网络可以取得更好的解题效果。

Description

一种基于动作的关系网络视频问答系统及方法

技术领域

本发明属于计算语言学和计算机视觉领域，尤其涉及一种基于动作的关系网络视频问答系统及方法。

背景技术

视频问答系统即根据给定视频片段自动回答相关问题，近年来一直吸引着研究者的关注，是一项重要的多模态理解任务。典型的视频问答系统是给出一个问题的描述并给出一个对应的问题片段，较早的研究尝试通过跨模态检索和动作识别来解决问题。

近年来开始出现了基于深度学习的问答系统，这些深度学习方法能够自动获取特征学习信息，同时它们在规模较大且复杂的数据集上也达到了很高的性能。该类方法中有很多都是探究的多模态信息融合和注意力机制的使用，从那时起，许多研究工作都投身于了改进基于深度学习的问题系统。比较有代表性的改进是利用层次化和多层级的注意力机制和图神经网络建模多种信息之间的关联，它们着眼于改进模型的表征能力和特征提取能力。另一方面，改进视频表征的获取方式也是实现更好的解决方案表达方式的潜在方法，具体来说，现有的视频问答系统无法有效地获取视频中的动作信息，而且无法很好地利用相关信息，从而导致获取的特征无法准确地表达视频中的关键信息，最终导致生成的答案不准确。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于动作的关系网络视频问答系统及方法，解决了现有的深度学习模型求解答案正确率低的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于动作的关系网络视频问答系统，包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块；

所述编码模块，用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE；

所述问题特征模块，用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Q_o；

所述动作检测模块，用于利用时序动作检测网络获取视频中的多种动作概率分布，并将多种动作概率分布与实值向量VE进行融合，得到中间视频特征V；

所述关系转换网络模块，用于根据所述中间视频特征V和问题特征Q_o，利用关系转换网络得到视频动作间的关系特征R_z，并通过注意力机制将所述视频特征V和关系特征R_z聚合为关系视频特征r_att；

所述解码模块，用于融合中间视频特征V、问题特征Q_o以及关系视频特征r_att，并将融合结果输入至视频问题的解码器中生成对应类型的问题答案，完成基于动作的关系网络视频问答。

本发明的有益效果是：本发明首先使用时序动作检测网络的结果辅助视频特征的编码，强调了视频的动作因素，同时，由于缺乏精准的动作区间标注，本发明没有直接使用检测出来的动作区间，而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积，时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中，以学习视频特征，使最终的视频特征能够包含动作信息，最后，将输出的视频特征与问题特征输入一个多头的关系转换器网络中，通过此网络输出最后的结果。本发明通过增强问题中的动作特征来提高任务性能，并辅以关系转换器网络，可以取得更好的解题效果。

基于上述系统本发明还提供了一种基于动作的关系网络视频问答方法，包括以下步骤：

S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE；

S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Q_o；

S3、利用时序动作检测网络获取视频中的多种动作概率分布，并将多种动作概率分布与实值向量VE进行融合，得到中间视频特征V；

S4、根据所述中间视频特征V和问题特征Q_o，利用关系转换网络得到视频动作间的关系特征R_z，并通过注意力机制将所述视频特征V和关系特征R_z聚合为关系视频特征r_att；

S5、融合中间视频特征V、问题特征Q_o以及关系视频特征r_att，并将融合结果输入至视频问题的解码器中生成对应类型的问题答案，完成基于动作的关系网络视频问答。

进一步地，所述步骤S1包括以下步骤：

S101、根据视频文件本身的每秒传输帧数，从视频中提取T帧图像；

S102、根据提取的T帧图像，利用残差网络获取帧的静态特征集合的隐状态表征VF＝{f₁,f₂,...,f_r}，并将所述静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量，其中，f_r表示每一帧视频对应的残差特征；

S103、根据提取的T帧图像，利用光流卷积网络获取帧的动态特征集合的隐状态表征VS＝{s₁,s₂,...,s_r}，并将所述动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量，其中，s_r表示每一帧视频对应的光流特征；

S104、融合所述静态特征实值向量和动态特征实值向量，得到具有固定维度的实值向量VE。

上述进一步方案的有益效果是：残差网络和光流卷及网络分别强调了视频的动态和静态特征，这样有利于模型对视频更全面的理解。

再进一步地，所述步骤S2包括以下步骤：

S201、根据问题文本，将输入的问题以单词序列的方式进行处理；

S202、利用词嵌入方法将单词序列转换成固定维度的实值向量集合Q＝{q₁,q₂,..,q_N}，其中，q_N表示最后一个单词对应的特征向量，N表示问题序列的长度；

S203、将所述实值向量集合Q输入至循环神经网络，得到问题特征Q_o。

再进一步地，所述步骤S3包括以下步骤：

S301、利用时序动作检测网络对视频序列进行处理，得到视频中的多种动作概率分布{(tf_s1,tf_s2,...,tf_e1),...,(tf_sM,...,tf_eM)}，其中，tf_sM表示检测到的动作的开始时间帧，tf_eM表示检测到的动作的结束时间帧，M表示前M个动作概率分布；

S302、将所述多种动作概率分布转换成对应的掩膜矩阵，并将掩膜矩阵与实值向量VE进行融合处理，得到中间视频特征V。

上述进一步方案的有益效果是：本发明首先使用动作检测网络提供的信息辅助编码输入的视频特征，将视频在时间维度的属性有效地嵌入视频特征中，新生成的视频特征包含检测到的以动作为中心的信息，这些动作信息对正确回答问题往往具有重要的意义，本发明通过丰富视频特征中的动作信息来提高任务性能，可以取得更好的效果。

再进一步地，所述步骤S302包括以下步骤：

S3021、将所述多种动作概率分布转换成对应的初始掩膜矩阵，得到实值向量VE的子集VE₁；

S3022、定义一个与实值向量VE大小相同的零矩阵Mask₁，并将零矩阵Mask₁和子集VE₁对应的列赋值为1，得到最终的掩膜矩阵；

S3033、通过按位相乘将所述最终的掩膜矩阵和实值向量VE进行融合处理，并同时计算多个动作区间对应的掩摸矩阵；

S3034、将多个动作区间对应的掩摸矩阵相加，得到视频特征BSN_f；

S3035、根据所述视频特征BSN_f与实值向量VE计算得到中间视频特征V；所述中间视频特征V的表达式如下：

V＝VE+BSN_f

BSN_fj＝VE⊙Mask_j

其中，VE表示实值向量，BSN_f表示视频特征，BSN_fj表示多个动作区间对应的掩摸矩阵，⊙表示按位相乘，M表示前M个动作概率分布，j表示被检测到的第j个动作，且1≤j≤M。

上述进一步方案的有益效果是：本发明通过将多种动作概率分布与实值向量VE进行融合，可以在不改变特征形状的前提下将动作信息嵌入视频表征当中。

再进一步地，所述步骤S4包括以下步骤：

S401、利用全连接网络将所述中间视频特征V转换为视频特征VP；

S402、利用关系网络对所述视频特征VP以及问题特征Q_o进行处理，得到关系特征r_i；所述关系特征r_i的表达式如下：

r_i＝W_r([vp_i,vp_i+1,...,vp_i+F,Q_o])+b_r

其中，W_r表示待训练的参数矩阵，vp_i+F表示从第i帧往前数F帧得到的帧对应的特征，b_r表示待训练的偏置参数；

S403、利用关系转换网络将所述视频特征VP以及问题特征Q_o进行融合处理，并根据融合结果与所述关系特征r_i计算得到关系特征R_z；所述关系特征R_z的表达式如下：

R_k＝Relation-Module_k(VP,Q_o)

其中，Relation-Module_k(·)表示第k个关系子网络的计算过程，R_k表示第k个关系子网络的输出，K表示关系子网络的总体数量，||表示将K个关系子网络的输出进行拼接；

S404、根据所述关系特征R_z利用前馈网络和层正则化计算得到关系特征

S405、利用注意力机制将所述关系特征

聚合为关系视频特征r_att；所述关系视频特征r_att的表达式如下：

其中，Attention_r(·)表示注意力机制。

上述进一步方案的有益效果是：本发明首次提出了使用一个基于关系转换网络的视频模型，旨在更好地利用视频帧中分布的时间维度的属性及其相互作用，基于关系网络加入的对帧间关系特征探求的先验，加入多头结构和转换器网络的一些特征，让系统具有了更强的视频特征提取能力。

再进一步地，所述步骤S401中视频特征VP的表达式如下：

VP＝{vp₁,vp₂,...,vp_T}

vp_i＝W_p×v_i+b_p

1≤i≤T

其中，vp_T表示最后一帧图像对应的视频特征，W_p表示待训练的参数矩阵，v_i表示第i帧的中间视频特征，b_p表示待训练的偏置参数，T表示视频总帧数，i表示视频的第i帧，vp_i表示视频的第i帧对应的特征。

再进一步地，所述步骤S404中所述关系特征

的表达式如下：

其中，

表示层正则化之后的关系特征，layerNorm表示层正则化，FFN(·)表示前馈网络的计算过程，

表示对

进行前馈网络的计算，b_f1表示前馈网络的第一层的偏置参数，W_f1表示前馈网络的第一层的参数矩阵，W_f2表示前馈网络的第二层的参数矩阵，b_f2表示前馈网络的第二层的偏置参数。

上述进一步方案的有益效果是：本发明能够利用多个关系网络的综合，充分高效地地建模帧与帧之间的复杂关联。

再进一步地，所述步骤S5包括以下步骤：

S501、利用注意力机制将中间视频特征V聚合为综合的视频表征v_att：

v_att＝Attention_v(V,Q_o)

其中，Attention_v(·)表示注意力机制，Q_o表示问题特征；

S502、将所述综合的视频表征v_att、关系视频特征r_att以及问题特征Q_o利用按位相加的方式进行融合，得到最终的表征J，并将最终的表征J输入至视频问题的解码器中生成对应类型的问题答案，完成基于动作的关系网络视频问答。

上述进一步方案的有益效果是：将所述综合的视频表征v_att、关系视频特征r_att以及问题特征Q_o进行融合，增加了关系信息的融合特征可以辅助更好的确定问题的回答。

附图说明

图1为本发明的系统结构示意图。

图2为本发明的方法流程示意图。

图3为本实施例中的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，一种基于动作的关系网络视频问答系统，包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块；编码模块，用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE；问题特征模块，用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Q_o；动作检测模块，用于利用时序动作检测网络获取视频中的多种动作概率分布，并将多种动作概率分布与实值向量VE进行融合，得到中间视频特征V；关系转换网络模块，用于根据中间视频特征V和问题特征Q_o，利用关系转换网络得到视频动作间的关系特征R_z，并通过注意力机制将视频特征V和关系特征R_z聚合为关系视频特征r_att；解码模块，用于融合实值向量VE、问题特征Q_o以及关系视频特征r_att，并将融合结果输入至视频问题的解码器中生成对应类型的问题答案，完成基于动作的关系网络视频问答。

本实施例中，本发明首先通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE，再利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Q_o，然后，本发明首先使用时序动作检测网络的结果辅助视频特征的编码，强调了视频的动作因素，同时，由于缺乏精准的动作区间标注，本发明没有直接使用检测出来的动作区间，而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积，时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中，以学习视频特征，使最终的视频特征能够包含动作信息，最后，将输出的视频特征与问题特征输入一个多头的关系转换器网络中，通过此网络输出最后的结果。本发明通过增强问题中的动作特征来提高任务性能，并辅以关系转换器网络，可以取得更好的解题效果。

实施例2

如图2和图3所示，本发明还提供了一种基于动作的关系网络视频问答方法，其实现方法如下：

S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE，其实现方法如下：

S102、根据提取的T帧图像，利用残差网络获取帧的静态特征集合的隐状态表征VF＝{f₁,f₂,...,f_r}，并将静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量，其中，f_r表示每一帧视频对应的残差特征；

S103、根据提取的T帧图像，利用光流卷积网络获取帧的动态特征集合的隐状态表征VS＝{s₁,s₂,...,s_r}，并将动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量，其中，s_r表示每一帧视频对应的光流特征；

S104、融合静态特征实值向量和动态特征实值向量，得到具有固定维度的实值向量VE；

S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Q_o；其实现方法如下：

S203、将实值向量集合Q输入至循环神经网络，得到问题特征Q_o；

S3、利用时序动作检测网络获取视频中的多种动作概率分布，并将多种动作概率分布与实值向量VE进行融合，得到中间视频特征V；其实现方法如下：

S301、利用时序动作检测网络对视频序列进行处理，得到视频中的多种动作概率分布{(tf_s1,tf_s2,...,tf_e1),...,(tf_sM,...,tf_eM)}，其中，tf_sM表示检测到的动作的开始时间帧，tf_eM表示检测到的动作的结束时间帧，M表示前M个动作概率分布。

本实施例中，通过一个动作检测网络处理视频序列，获得视频上动作概率的分布；更具体地，由于动作检测网络会产生对应于多个动作的概率分布，本发明选取其中的前M个分布，即取出置信度前M的动作区间。同时将检测结果中的时间转换成对应的帧，就能得到{(tf_s1,tf_s2,...,tf_e1),...,(tf_sM,...,tf_eM)}，这里就指示了哪一些帧更有可能存在动作。

S302、将多种动作概率分布转换成对应的掩膜矩阵，并将掩膜矩阵与实值向量VE进行融合处理，得到中间视频特征V；其实现方法如下：

S3021、将多种动作概率分布转换成对应的初始掩膜矩阵，得到实值向量VE的子集VE₁；

S3035、根据视频特征BSN_f与实值向量VE计算得到中间视频特征V；中间视频特征V的表达式如下：

V＝VE+BSN_f

BSN_fj＝VE⊙Mask_j

其中，VE表示实值向量，BSN_f表示视频特征，BSN_fj表示多个动作区间对应的掩摸矩阵，⊙表示按位相乘，即矩阵之间执行按位相乘的计算然后得到一个新的矩阵，M表示前M个动作概率分布，j表示被检测到的第j个动作，且1≤j≤M。

本实施例中，根据得到的动作区间{(tf_s1,tf_s2,...,tf_e1),...,(tf_sM,...,tf_eM)}，系统先将其转换为对应的掩膜矩阵，然后将其与原始的视频特征VE融合起来，即可完成动作编码的操作。首先将以上的动作区间转换为掩膜矩阵，以(ft_s1,tf_e1)为例，以(tf_s1,tf_e1)为界，其中，ft_s1表示第一个动作的起始时间，tf_e1表示第一个动作的停止时间，系统可以获得视频特征组VE的一个子集VE₁，它只包含了处于对应检测动作区间当中的帧的特征。然后先定义一个和VE大小相同的零矩阵Mask₁，然后把Mask₁中对VE₁对应的列都赋值为1，这样就正式的得到了对应的掩膜Mask₁。接下来通过按位相乘将掩膜矩阵和视频特征VE融合在一起，同时计算多个动作区间对应的掩膜矩阵，最后将它们加起来，即可得到动作编码后的视频特征BSN_f。

S4、根据中间视频特征V和问题特征Q_o，利用关系转换网络得到视频动作间的关系特征R_z，并通过注意力机制将视频特征V和关系特征R_z聚合为关系视频特征r_att；其实现方法如下：

S401、利用全连接网络将中间视频特征V转换为视频特征VP；视频特征VP的表达式如下：

VP＝{vp₁,...,vp_T}

vp_i＝W_p×v_i+b_p

1≤i≤T

其中，vp_T表示最后一帧图像对应的视频特征，W_p表示待训练的参数矩阵，v_i表示第i帧的中间视频特征，b_p表示待训练的偏置参数，T表示视频总帧数，i表示视频的第i帧，vp_i表示视频的第i帧对应的特征；

S402、利用关系网络对视频特征VP以及问题特征Q_o进行处理，得到关系特征r_i；关系特征r_i的表达式如下：

r_i＝W_r([vp_i,vp_i+1,...,vp_i+F,Q_o])+b_r

其中，W_r表示待训练的参数矩阵，vp_i+F表示从第i帧往前数F帧得到的帧对应的特征，b_r表示待训练的偏置参数，本发明中将这里的F设置为1。

本实施例中，通过一个关系网络模块处理视频特征VP，给定帧级别的视频特征VP＝{vp₁,vp₂,...,vp_T}和问题特征Q_o，r_i表示第i个关系特征，对于包含了T帧视频特征的集合，系统将会得到T-(F-1)个对应的关系特征R＝{r₁,r₂,...,r_T-(F-1)}，F即关系网络模块所需要考虑的帧的数量，本文中设置为1。这个步骤的处理过程在后面记为Relation-Module_k；

S403、利用关系转换网络将视频特征VP以及问题特征Q_o进行融合处理，并根据融合结果与关系特征r_i计算得到关系特征R_z；关系特征R_z的表达式如下：

R_k＝Relation-Module_k(VP,Q_o)

其中，Relation-Module_k(·)表示第k个关系子网络的计算过程，其与和S402中计算方式相同，R_k表示第k个关系子网络的输出，K表示关系子网络的总体数量，||表示将K个关系子网络的输出进行拼接；

S404、根据关系特征R_k利用前馈网络和层正则化计算得到关系特征

关系特征

的表达式如下：

其中，

表示对

本实施例中，本系统新提出了一种关系转换网络，也以帧级别的视频特征VP＝{vp₁,vp₂,...,vp_T}和问题特征Q_o为输入，首先通过一个多头关系网络求视频特征，这里引入了一个K头的结构，每一个头都采用了关系网络，计算方法和上面的S402相同。对于每一个关系网络模块

系统会并行地执行运算然后将运算结果拼接在一起，接下来通过一个前馈网络FFN和层正则化LayerNorm计算得到最后的关系特征

S405、利用注意力机制将关系特征

聚合为关系视频特征r_att；关系视频特征r_att的表达式如下：

其中，Attention_r(·)表示注意力机制；

S5、融合中间视频特征V、问题特征Q_o以及关系视频特征r_att，并将融合结果输入至视频问题的解码器中生成对应类型的问题答案，完成基于动作的关系网络视频问答，其实现方法如下：

v_att＝Attention_v(V,Q_o)

其中，Attention_v(·)表示注意力机制，Q_o表示问题特征；

S502、将综合的视频表征v_att、关系视频特征r_att以及问题特征Q_o利用按位相加的方式进行融合，得到最终的表征J，并将最终的表征J输入至视频问题的解码器中生成对应类型的问题答案，完成基于动作的关系网络视频问答。

以下对本发明作进一步地说明。

本实施例中，利用两个常用的数据集：其中TGIF-QA(针对时间空间联合推理的视频问答数据集)有165,165个问题和71,741个视频片段，ActivityNet-QA(针对动作的视频问答数据集)有58,000个问题和58,00个对应的视频片段。对于TGIF-QA数据集，整个数据被划分为了4类子问题Action,Transition,Frame和Count(动作，状态转换，单帧静态问题，计数)，其中Action,Transition,Frame直接使用准确率进行评估，Count由于结果是数值，采用了均方误差(MSE)进行评估。对于ActivityNet-QA数据集，通过准确率和标准正确答案的相似度(WUPS)进行评估。如表1所示，表1为本方法与现有方法的效果对比，由表1(Action,Transition,Frame中的数据代表模型在测试集上的准确率，数值越大越好；Count中的均方误差是模型在测试集上生成结果和标准答案之间的差别，数值越小越好)可以看出，本方法相比现有的ST-TP方法(时序推理模型)、Co-memory方法(联合记忆网络)、PSAC方法(位置相关的时间空间推力网络)和HGA方法(异质图网络对齐模型)的效果都好。

表1

	Action	Transition	Frame	Count
					ST-TP	62.9	69.4	49.5	4.32
Co-memory	68.2	74.3	51.5	4.10
					PSAC	70.4	76.9	55.7	4.27
HGA	75.4	81.0	55.1	4.09
					本方法	75.81	81.61	57.68	4/08

如表2所示，从表2(Acc中的数据代表模型在测试集上的准确率，数值越大越好；WUPS是模型在测试集生成结果上和标准答案之间的差别，数值越大越好)可以看出，本方法相比现有的E-VQA(静态问答模型)方法、E-MN(记忆网络)方法、E-SA(软注意力网络)方法、VQA-HMAL(条件对抗网络)方法和CAN(组合注意力网络)方法的效果都好。

表2

综上所述，本发明引入了两种新颖的机制，基于动作的编码机制和关系转换器，以帮助改进视频问答系统，除了在静态部分中利用帧级别的特征之外，本发明还更加注重时间维度的动作属性，并将其嵌入到视频特征当中。此外，本发明没有使用循环神经网络来提取视频表征向量，而是利用一种新的关系转换网络抓取视频特征，实验在两个大型视频问答数据上进行，分别为TGIF-QA和ActivityNet-QA，结果表明，本发明在原有方法的基础上有了显着改善。