CN113536952A

CN113536952A - 一种基于动作捕捉的注意力网络的视频问答方法

Info

Publication number: CN113536952A
Application number: CN202110692149.0A
Authority: CN
Inventors: 杨阳; 杨双吉; 彭亮; 王国庆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-10-22
Anticipated expiration: 2041-06-22
Also published as: CN113536952B

Abstract

本发明公开了一种基于动作捕捉的注意力网络的视频问答方法，先提取将待处理视频和待处理的提问的特征，然后基于这些特征，通过物体动作注意力机制提取动作信息，通过物体关系注意力机制提取待处理视频的全局物体关系信息，通过全局动作注意力机制提取待处理视频的全局动作信息；接着对三种注意力机制下提取的信息进行融合，提取整个视频的全局特征向量；最后基于全局特征向量根据提问的格式输出不同类型答案。

Description

一种基于动作捕捉的注意力网络的视频问答方法

技术领域

本发明属于视频问答技术领域，更为具体地讲，涉及一种基于动作捕捉的注意力网络的视频问答方法。

背景技术

视频问答(Video Question Answering,Video QA)的主要目标是：输入任意的一个视频和一个对于该视频内容的提问，模型能通过对多模态输入的理解和推理，自动找出问题的答案。解决这个任务的典型方法是先用一个循环神经网络(RNN)处理问题文本，得到问题的特征向量；同时用一个卷积神经网络(CNN)逐帧处理输入视频，得到视频的特征向量；最后将两个模态的特征进行融合，并通过输出模块得到最终预测的答案。

现有的一些方法使用视觉或文本注意机制，帮助模型能更精准地关注到视频中的关键帧或问题中的关键单词。其次，为了给模型提供一些额外的知识，另一些方法利用了视频物体中的外部数据(如百科信息)，它提供了关于该物体的一些常识信息，从而帮助提升回答问题的准确率。还有一些方法对视频帧中的物体关系进行建模，捕捉物体间关系在时间上的演变情况，从而使模型对输入能有更全面、更深层次的理解。

然而在视频帧的层面(粗粒度)，现有方法通常对帧的整体变化进行建模，由于视频帧中可能包含多个物体而往往只有少量物体与提问有关，所以这是一种粗粒度的方法，它的识别精确度有限；其次，在视频帧中的物体层面(细粒度)，现有的方法通常对同一帧的物体间的关系进行建模，并捕捉这种交互关系的动态变化情况。但是它们忽略了物体自身的动作变化情况，这对于回答问题同样十分关键。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于动作捕捉的注意力网络的视频问答方法，通过设计一个基于动作捕捉的注意力网络(MAAN)，能够同时在细粒度和粗粒度层面捕捉视频中所有物体自身的动作改变情况，并结合提问得到预测的答案。

为实现上述发明目的，本发明一种基于动作捕捉的注意力网络的视频问答方法，其特征在于，包括以下步骤：

(1)、特征提取

(1.1)、将待处理视频输入至Faster RCNN网络中，提取出每一视频帧中物体的特征，其中，第j帧中第k个物体的特征记为v_j,k，j＝1,2…,N，k＝1,2,…,K，N表示视频的总帧数，K表示每帧画面提取的物体个数；

(1.2)、将待处理视频分割成多个视频片段，然后将每一个视频片段输入至ResNeXt网络，提取出每一个视频片段的特征，记为v_i，i＝1,2,…,C，C为待处理视频被分割成视频片段的数量；

(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理，提取出提问的特征，记为q；

(2)、基于物体动作注意力机制提取动作信息u；

(2.1)、通过双向Bi_LSTM网络提取物体的动作信息u_j,k；

u_j,k＝Bi_LSTM(v_j,k)

(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权，得到当前物体k在整个视频内的全局动作信息u_k；

β_j,k＝softmax(W₁u_j,k+W₂q)

其中，W₁、W₂为权重参数；β_j,k表示第j帧中第k个物体的重要程度指标；

(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u；

α_k＝softmax(W₃u_k+W₄q)

其中，W₃、W₄为权重参数；α_k表示第k个物体与提问的关联程度指标；

(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ；

(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μ_j；

γ_j,k＝softmax(W₅v_j,k+W₆q)

其中，W₅、W₆为为权重参数，γ_j,k是第j帧中第k个物体的关系值；

(3.2)、将不同时刻的物体关系信息μ_j按先后顺序构成序列，然后输入至Bi-LSTM网络，从而提取出整个视频的全局物体关系信息μ；

μ＝Bi_LSTM(μ₁,μ₂,…,μ_j,…μ_N)

(4)、基于全局动作注意力机制提取待处理视频的全局动作信息U；

(4.1)、计算第i个视频片段的特征v_i的权重值λ_i；

λ_i＝softmax(W₇v_i+W₈q)

其中，W₇、W₈为权重参数；

(4.2)、使用全局动作注意力机制计算整个视频的全局动作信息；

(5)、提取待处理视频的全局特征向量f；

(5.1)、对三种注意力机制下提取的信息进行融合：

表示向量拼接操作；

(5.2)、提取整个视频的全局特征向量f；

其中，

与φ(q)表示统一向量

与q的维度，

表示向量的对应元素乘积；

(6)、根据提问的格式输出不同类型答案；

(6.1)、确定待处理的提问的格式，具体包括三种提问格式：选择式、开放式单词、开放式数字；

(6.2)、当待处理的提问为选择式时，将待处理的提问视为一个五分类的场景，再利用LSTM网络提取每类场景的特征c_τ，τ＝1,2,3,4,5；然后计算出每类场景的概率值

最后选出最大的一个概率值作为预测结果；

(6.3)、当待处理的提问为开放式单词时，将待处理的提问视为一个N多分类的场景，然后利用softmax函数提取N类场景的概率矩阵P，最后在概率矩阵P中选择最大概率值对应的单词作为预测结果；

(6.4)、当待处理的提问为开放式数字时，将待处理的提问视为一个线性回归问题，通过全连接层将全局特征向量f转为实数并取整作为预测结果，即最终预测结构为：

本发明的发明目的是这样实现的：

本发明基于动作捕捉的注意力网络的视频问答方法，先提取将待处理视频和待处理的提问的特征，然后基于这些特征，通过物体动作注意力机制提取动作信息，通过物体关系注意力机制提取待处理视频的全局物体关系信息，通过全局动作注意力机制提取待处理视频的全局动作信息；接着对三种注意力机制下提取的信息进行融合，提取整个视频的全局特征向量；最后基于全局特征向量根据提问的格式输出不同类型答案。

同时，本发明基于动作捕捉的注意力网络的视频问答方法还具有以下有益效果：

(1)、本发明通过两个不同的注意力模块来分别引导模型从细粒度、粗粒度角度捕捉视频动作，从而获取视频中全局的和局部的动作信息；

(2)、本发明通过物体关系注意力模块额外捕捉视频物体间的动态关系，从而进一步提升回答问题的准确率。

附图说明

图1是本发明基于动作捕捉的注意力网络的视频问答方法流程图；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于动作捕捉的注意力网络的视频问答方法流程图。

在本实施例中，如图1所示，本发明一种基于动作捕捉的注意力网络的视频问答方法，包括以下步骤：

S1、特征提取

S1.1、将待处理视频输入至Faster RCNN网络中，提取出每一视频帧中物体的特征，其中，第j帧中第k个物体的特征记为v_j,k，j＝1,2…,N，k＝1,2,…,K，N表示视频的总帧数，K表示每帧画面提取的物体个数；在本实施例中，N的取值为32，K的取值为20，每一个物体的特征的维度为2048；

C取值为8，d_r和d_m的取值都是2048。

S1.2、将待处理视频分割成多个视频片段，然后将每一个视频片段输入至ResNeXt网络，提取出每一个视频片段的特征，记为v_i，i＝1,2,…,C，C为待处理视频被分割成视频片段的数量；在本实施例中，C的取值为8，每一个视频片段的特征的维度为2048；

S1.3、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理，提取出提问的特征，记为q；在本实施例中，提问的特征的维度为1024。

为了全面地理解和融合多模态输入，本发明采用多分支注意机制进行特征提取，具体提出了三个不同的注意力模块来分别引导模型从细粒度、粗粒度角度捕捉视频动作，以及物体间的动态关系，过程如下：

S2、基于物体动作注意力机制提取动作信息u；

S2.1、给定任意一个视频，对视频内容的提问往往是针对于某个视频物体前后的动作变化情况。所以捕捉视频中物体自身的动作演变，对于准确回答问答十分有帮助。为此，本发明首先通过双向Bi_LSTM网络提取物体的动作信息u_j,k；

u_j,k＝Bi_LSTM(v_j,k)

S2.2、使用物体动作注意力机制对不同时刻的特征进行加权，得到当前物体k在整个视频内的全局动作信息u_k；

β_j,k＝softmax(W₁u_j,k+W₂q)

其中，W₁、W₂为权重参数；β_j,k表示第j帧中第k个物体的重要程度指标，值越大代表越相关，值越小代表越不相关；

S2.3、由于提问往往针对于某个视频物体，所以视频中不相关的视频物体对于回答问题会带来额外的干扰。所以，本发明使用物体动作注意力机制使模型能聚焦最相关的物体，屏蔽不相关物体的影响。最后所有物体动作信息的加权和即为整个视频与提问有关的动作信息u；

α_k＝softmax(W₃u_k+W₄q)

其中，W₃、W₄为权重参数；α_k表示第k个物体与提问的关联程度指标，值越大代表越相关，值越小代表越不相关；

S3、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ；

S3.1、在一些复杂情况下，提问还会涉及到物体之间的关系，例如”What are thetwo men do after hugging？”。此时仅仅关注物体自身的运动情况是不够的，还得关注物体之间的交互关系。本发明的物体关系注意力模块先计算当前视频帧j中的物体关系信息μ_j；

γ_j,k＝softmax(W₅v_j,k+W₆q)

S3.2、将不同时刻的物体关系信息μ_j按先后顺序构成序列，然后输入至Bi-LSTM网络，从而提取出整个视频的全局物体关系信息μ；

μ＝Bi_LSTM(μ₁,μ₂,…,μ_j,…μ_N)

S4、基于全局动作注意力机制提取待处理视频的全局动作信息U；

S4.1、相比之下，S2.1中物体动作注意力模块获取到的是细粒度的动作信息，本发明还设计了第三个分支，它提供粗粒度的全局动作信息，这对于回答问题也很有用。首先，我们为每一个视频片段的特征计算一个权重值，该权重代表该视频段的动作与提问的相关程度，其中，第i个视频片段的特征v_i的权重值λ_i；

λ_i＝softmax(W₇v_i+W₈q)

其中，W₇、W₈为权重参数；λ_i的值越大关联度越高；

S4.2、使用全局动作注意力机制将所有视频段的加权和作为整个视频的粗粒度动作信息，即全局动作信息；

S5、提取待处理视频的全局特征向量f；

S5.1、在上面三个注意力模块都各自完成信息的提取后，本发明设计了一个输出模块对三个分支的信息进行融合：

表示向量拼接操作；

S5.2、提取整个视频的全局特征向量f；

其中，

与φ(q)表示统一向量

与q的维度，

表示向量的对应元素乘积；

S6、根据提问的格式输出不同类型答案；

S6.1、确定待处理的提问的格式，具体包括三种提问格式：选择式、开放式单词、开放式数字；

S6.2、当待处理的提问为选择式时，选择式问题会提供五个候选答案作为选项，其中有且只有一个选项是正确的，如果模型选出正确的那个选项，就代表预测正确。对于此类问题，我们将待处理的提问视为一个五分类的场景，再利用LSTM网络提取每类场景的特征c_τ，τ＝1,2,3,4,5；然后计算出每类场景的概率值

最后选出最大的一个概率值作为预测结果；

S6.3、当待处理的提问为开放式单词时，此时不会提供候选答案，我们先收集最常出现的N个单词作为词汇表，然后将待处理的提问视为一个N多分类的场景，然后利用softmax函数提取N类场景的概率矩阵P，最后在概率矩阵P中选择最大概率值对应的单词作为预测结果；其中，概率矩阵P中每类场景的概率值同样以公式

计算，τ＝1,2,…,N；

S6.4、当待处理的提问为开放式数字时，开放式数字类问题也不会提供任何候选项，它的答案是一个[0，10]之间的整数，我们将待处理的提问视为一个线性回归问题，通过全连接层将全局特征向量f转为实数并取整作为预测结果，即最终预测结构为：

本实施例在两个个大型的基准数据集1(TGIF-QA)和数据集2(MSRVTT-QA)上测试该方法的效果，如表1、表2所示，从实验的效果可以可知，本发明提出的方法优于最高水平的方法。

表1数据集1上的实验结果

从表中可以得出，本发明提出的模型在绝大多数子任务中取得了最好的表现，在数据集1中的动作转移和视频帧问答两个子任务上分别取得了82.9％和58.3％的最高准确率，在动作计数子任务上取得了3.74的最低均方误差。

表2数据集2上的实验结果

模型	什么	谁	怎样	什么时候	什么地点	总体准确率
							空间注意力模型	24.5	41.2	78.0	76.5	34.9	30.9
共内存模型	23.9	42.5	74.1	69.0	42.9	32.0
							异构内存模型	26.5	43.6	82.4	76.0	28.6	33.0
时空共注意力模型	27.4	45.4	83.7	74.0	33.2	34.2
							问题注意力模型	27.9	45.6	83.0	75.7	31.6	34.6
集联条件关系模型	29.4	44.5	82.9	77.1	33.6	35.3
							多交互模型	29.5	45.0	83.2	74.7	42.4	35.4
异构图模型	29.2	45.7	83.5	75.2	34.0	35.5
							本专利(MAAN)	30.5	47.3	81.5	76.4	32.0	36.8

从表中可以得出，本发明提出的模型在数据集2上的取得了36.8％的整体准确率，比现有的方法都更高。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。