CN107818174A

CN107818174A - 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Info

Publication number: CN107818174A
Application number: CN201711131317.9A
Authority: CN
Inventors: 庄越挺; 赵洲; 吴飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-03-20

Abstract

本发明公开了一种利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法。主要包括如下步骤：1)针对于一组视频、问题、答案训练集，训练视频外表及动作上的渐进式优化注意力网络，学习出视频和问题的联合表达。2)对于得到的视频问题的联合表达，产生相应视频问题的答案，再与真实的相关答案一起训练出完整的网络，用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案，本发明利用了视频的外表信息与动作信息，并且结合问题的单词逐渐优化其注意力值，则能够更准确地反映视频和问题的特性，并产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统的方法更好。

Description

一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

技术领域

本发明涉及视频问答答案生成，尤其涉及一种利用视频外表及动作上的渐进式优化注意力网络来生成与视频相关的问题的答案的方法。

背景技术

视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。

现有的技术主要是针对于静态图像生成相关问题的答案，虽然目前的技术针对于静态图像问答，可以取得很好的表现结果。但是由于视频中信息的复杂性与多样性的特点，简单地把针对于图片的问答技术拓展到视频问答任务中不是十分恰当的。

本发明将使用一种原创的注意力机制来挖掘视频中的外表及动作信息。更为准确地说，本发明提出了一种端对端的模型，该模型可以在问题作为指导的前提下，逐渐利用视频中的外表及动作特征来改善其注意力网络。问题被逐词进行处理直到模型生成了最终的优化注意力模型。最终，视频的权重表达及其他的上下文信息被用来生成最后的答案。

本方法将先利用VGG网络与C3D网络分别提取视频的外表及动作信息。之后逐词分析问题，并且逐渐优化这些特征上的注意力值。在问题的最后一个单词被处理过之后，模型针对于视频形成了最终的优化注意力模型，该模型的注意力值设定对于回答该特定问题是最相关的。之后该模型利用该注意力机制混合外表及动作特征并且提取出视频的最终表达。之后利用该视频的最终表达结合如问题信息及注意力机制历史信息形成最终的答案。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中缺少对于视频信息的复杂性与多样性的问题，且针对于视频中经常包含对象物品的外表及其移动信息，本发明提供一种利用视频外表及动作上的渐进式优化注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是：

利用视频外表及动作上的渐进式优化注意力网络来解决开放式视频问答问题，包含如下步骤：

1、针对于一组视频、问题、答案训练集，通过VGG网络提取视频帧级别的外表特征，通过C3D网络提取视频片段级别的动作特征，通过词嵌入的方法逐词处理问题，将问题的单词转化为对应的语义映射。

2、将问题的单词的语义映射输入到LSTM网络中，之后将LSTM网络的输出及问题单词的语义映射输入到注意力记忆单元(AMU)中来形成并调整视频外表及动作特征上的注意力值，并最终生成视频优化后的表达。

3、利用学习得到的视频表达，获取针对于视频所问问题的答案。

上述步骤可具体采用如下实现方式：

1、对于所给视频，使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数，上标a代表提取的为视频的外表表达，使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数，且与取样的帧数相同，上标m代表提取的为视频的动作表达，对于所给问题Q，可以看作是一个单词序列Q＝[q₁,q₂,...,q_T]，使用单词映射的方法利用嵌入层将单词q_t映射到其语义表达x_t。

2、将问题单词所得到的单词映射x_t输入到LSTM_q这个网络中，认为LSTM_q这个网络的隐藏层中记录了已经处理的问题部分的历史信息。之后将单词映射x_t与LSTM_q网络的隐藏层状态值输入到AMU网络中来优化视频外表及动作上的注意力网络。

3、对于AMU网络，其使用当前单词的映射值，LSTM_q网络的隐藏层中存储的问题信息及视频的外表及动作特征作为输入，之后执行一定的步骤来优化视频特征的注意力网络。在AMU 网络中主要有4个操作模块，分别为注意力模块ATT，频道混合模块CF，记忆模块LSTM_a，优化模块REF。这四个模块与一些转化操作一起，构成了本发明提出的模型的逐渐优化注意力网络机制。下面对于本发明中AMU网络的注意力优化机制进行概述。

首先ATT₁模块以当前问题单词的单词映射x_t为基础，对于视频的帧级别的外表特征F_a与视频的片段级别的动作特征F_m构成的视频的特征F初始化其注意力值输出包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征在内的结合了问题单词信息的视频特征p_t。之后，在CF模块中将视频的外表特征与视频的动作特征混合，生成视频的综合表达u_t。随后，将LSTM_q网络的隐藏层状态值之前形成的视频表达v_t-1，视频的综合表达u_t相加，形成记忆模块LSTM_a的输入，使LSTM_a中存储了所有执行过的注意力操作。之后将LSTM_a的隐藏层状态值与视频的特征F输入到ATT₂模块中，产生视频的特征F上的注意力值最后REF模块中利用ATT₁模块产生的注意力值与ATT₂模块产生的注意力值结合LSTM_q网络的隐藏层状态值与视频的帧级别的外表特征F_a与视频的片段级别的动作特征F_m构成的视频的特征F，形成视频在时刻t的表达v_t。

下面对于AMU网络中各模块的工作原理进行详述。

4、对于注意力模块ATT，输入问题单词的单词映射表达x_t，视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出：

e_i＝tanh(W_ff_i+b_f)^Ttanh(W_xx_t+b_x)

其中，W_f与W_x为权重矩阵，用来将单词映射及视频特征转化到相同大小的潜在映射空间中；f_i代指视频帧级别的外表特征或是视频片段级别的动作特征值，b_f与b_x为偏置向量。 a_i为最终求出的权重值，反映了当前单词与第i帧之间的相关程度。且将ATT₁与ATT₂所得到的所有a_i构成及集合分别记为或之后可以按如下公式求得结合了问题单词信息的视频特征p_t：

其中，p_t包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同，均为上述公式。

5、对于频道混合模块CF，原理如下。对于得到的特征p_t，包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式u_t。由于问题中的单词可能与视频的外表及动作在不同程度上相关，频道混合模块CF使用当前问题单词的单词映射表达x_t来确定对于这两种不同视频特征的权重值，并按如下公式进行混合：

其中，W_m为权重矩阵，b_m为偏置矩阵，用于将输入的x_t转化为二维的向量，分别分配两个维度值给与则最终的输出u_t吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息。

6、对于记忆模块LSTM_a，首先将LSTM_q网络的隐藏层状态值之前形成的视频表达 v_t-1，视频的综合表达u_t相加，形成记忆模块LSTM_a的输入，随后输入到LSTM_a网络中，其隐藏层状态作为第二个注意力模块ATT₂的输入，代替第一个注意力模块ATT₁的x_t的位置，之后得到ATT₂模块的输出

7、对于优化模块REF，利用ATT₁模块的输出与ATT₂模块的输出来优化注意力值，优化模块REF的优化方法如下面的公式所示：

此处的f_i代指视频的帧级别的外表特征及视频的片段级别的动作特征W_f为权重矩阵，b_f为偏置矩阵，且W_f及b_f与步骤4中的W_f及b_f相同，g_t包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTM_q网络的隐藏层状态值，CF(.)为频道混合模块CF的操作。最终所得到的v_t为视频在t时刻的最终混合表达结果。

通过上述步骤，模型使用了精确处理的单词信息及粗糙处理的问题信息来逐步优化视频的外表及动作特征上的注意力值，待AMU网络处理所有问题的单词之后，对于问题的所求答案的最相关及重要的视频的优化表达被形成。

8、得到视频在AMU处理过所有问题单词后的混合表达v_T后，结合LSTM_q网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下两种方法中的任一种得到所求问题的答案。

第一种方法为：预先准备一个已经预定义好的答案集合，答案生成器为一个简单的softmax分类器，答案按如下方式生成：

其中，W_c与W_g为权重矩阵，用于改变输出向量的维度。

第二种方法为：利用LSTM_q网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息初始化LSTM网络，并且优化后的视频的混合表达v_T作为LSTM网络的第一个输入，之后逐渐按照如下公式来在所有单词构成的单词表中产生单词构成答案：

附图说明

图1是本发明所使用的利用视频外表及动作上的渐进式优化注意力网络的整体示意图。图2是本发明所使用的AMU网络的操作示意图，及本发明使用的AMU网络中的优化模块REF 的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法包括如下步骤：

1)对于输入的视频及问题，训练出视频外表及动作上的渐进式优化注意力网络来获取问题相关的联合视频表达；

2)对于步骤1)所得到的问题相关的联合视频表达，利用神经网络获得视频相关问题答案，再与真实的答案进行比较，更新整个注意力网络的参数，得到最终的视频外表及动作上的渐进式优化注意力网络；

3)对于要预测答案的视频和问题，根据生成的视频外表及动作上的渐进式优化注意力网络，得到所预测的答案。

所述的步骤1)采用视频外表及动作上的渐进式优化注意力网络来提取视频及问题的综合表达,其具体步骤为:

1.1)采用卷积神经网络提取视频的帧级别的外表特征及片段级别的动作特征，采用单词映射的方法利用嵌入层将问题单词映射到相应表达；

1.2)利用步骤1.1)找出的问题单词的映射表达，输入到LSTM_q网络中，得到其隐藏层状态值

1.3)利用步骤1.1)找出的视频的帧级别的外表特征及片段级别的动作特征，问题单词的映射表达，与步骤1.2)找出的LSTM_q网络的隐藏层状态值通过AMU网络，获取视频的混合表达。

所述的步骤1.1)具体为：

对于所给视频，使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数，上标a代表提取的为视频的外表表达，使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数，且与取样的帧数相同，上标m代表提取的为视频的动作表达，对于所给问题Q，可以看作是一个单词序列Q＝[q₁,q₂,...,q_T]，使用单词映射的方法利用嵌入层将单词q_t映射到其语义表达x_t。

所述的步骤1.3)具体为：

AMU网络中主要有4个操作模块，分别为注意力模块ATT，频道混合模块CF，记忆模块 LSTM_a，优化模块REF。利用这4个模块逐渐优化视频的表达。具体步骤如下：

1.3.1)对于注意力模块ATT，输入问题单词的单词映射表达x_t，视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出：

e_i＝tanh(W_ff_i+b_f)^Ttanh(W_xx_t+b_x)

其中，W_f与W_x为权重矩阵，用来将单词映射及视频特征转化到相同大小的潜在映射空间中；f_i代指视频帧级别的外表特征或是视频片段级别的动作特征值，b_f与b_x为偏置向量； a_i为最终求出的权重值，反映了当前单词与第i帧之间的相关程度；且将ATT₁与ATT₂所得到的所有a_i构成及集合分别记为或之后可以按如下公式求得结合了问题单词信息的视频特征p_t：

其中，p_t包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同，均为上述公式；

1.3.2)对于频道混合模块CF，原理如下，对于得到的特征p_t，包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式u_t；由于问题中的单词可能与视频的外表及动作在不同程度上相关，频道混合模块CF使用当前问题单词的单词映射表达x_t来确定对于这两种不同视频特征的权重值，并按如下公式进行混合：

其中，W_m为权重矩阵，b_m为偏置矩阵，用于将输入的x_t转化为二维的向量，分别分配两个维度值给与则最终的输出u_t吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息；

1.3.3)对于记忆模块LSTM_a，首先将LSTM_q网络的隐藏层状态值之前形成的视频表达v_t-1，视频的综合表达u_t相加，形成记忆模块LSTM_a的输入，随后输入到LSTM_a网络中，其隐藏层状态作为第二个注意力模块ATT₂的输入，代替第一个注意力模块ATT₁的x_t的位置，之后得到ATT₂模块的输出

1.3.4)对于优化模块REF，利用ATT₁模块的输出与ATT₂模块的输出来优化注意力值，优化模块REF的优化方法如下面的公式所示：

此处的f_i代指视频的帧级别的外表特征及视频的片段级别的动作特征W_f为权重矩阵，b_f为偏置矩阵，且W_f及b_f与步骤1.3.1)中的W_f及b_f相同，g_t包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTM_q网络的隐藏层状态值，CF(.)为频道混合模块CF的操作，最终所得到的v_t为视频在t时刻的最终混合表达结果；

则经过T个问题单词的处理之后，视频最终的混合表达为v_T。

所述的步骤2)具体为：

对于步骤1.3.4)获得的视频最终的混合表达为v_T，结合LSTM_q网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下的两种方法中的任一种获取视频问题的相关答案；

第一种方法为：预先准备一个已经预定义好的答案集合，答案生成器为一个简单的 softmax分类器，答案按如下方式生成：

其中，W_c与W_g为权重矩阵，用于改变输出向量的维度；

随后将生成的答案与训练数据中真实答案在相同位置的单词做比较，根据比较的差值更新注意力网络。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明一共构建了两份数据集，分别为MSVD-QA数据集和MSRVTT-QA数据集，其中MSVD-QA数据集包含1970条视频片段及50505个问答对，MSRVTT-QA数据集包含10K 条视频片段及243K个问答对。随后本发明对于构建的视频问答数据集进行如下预处理：

1)对于MSVD-QA数据集和MSRVTT-QA数据集中的每一个视频取20个平均均匀分布的帧和片段，随后对于提取的帧和片段利用预训练好的VGGNet与预训练好的C3DNet处理，其最后一个全链接层的激活函数输出作为相应提取出来的特征，在每一个频道中的特征数为 20，每一个特征的维数为4096。

2)对于问题的单词使用嵌入层进行转换，本发明利用预处理号的300维的GloVe网络来将问题单词映射为所需的单词映射，本发明中令LSTM_q的大小为300来匹配上单词映射的维度。

3)对于AMU模块，本发明选择256作为其公共维度大小，视频的特征与单词的映射均要匹配到这一潜在公共空间之中，并且本发明中令LSTM_a的大小为256。

4)本发明使用预定义的1000答案分类的softmax选择来生成视频问题的对应答案。

5)本发明从训练数据集中选择最常见的单词作为单词表，MSVD-QA数据集选择了4000个单词，MSRVTT-QA数据集选择了8000个单词。

6)本发明使用mini-batch的随机梯度下降方法优化模型，并且使用了学习率为默认值 0.001的Adam优化器，所有的模型均被训练最多30个循环，使用了早期停止技术，为了更有效地操作不同长度的问题，本发明将问题按照问题长度分为不同的组，MSVD-QA数据集中共4组，MSRVTT-QA数据集中共5组，在每一组中，问题均要转换为该组中的最长问题的长度。所有模型的loss函数为：

其中，N为批数据集的大小，M为可能的答案数目，y_i,j为二维指示器用来指出答案j是否为例子i的正确答案，p_i,j为本发明将答案j被指定给例子i的概率大小，第二项为L2 正则项，w_k代表模型权重，λ₁为控制正则项重要性的超参数。

7)为了更有效地训练本发明中的模型，本发明在6)中的loss函数的基础上添加一项来鼓励模型从不同的频道运用特征：

其中，N代表批数据集大小，与分别代表指定给例子i的不同频道的重要性分数值。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了Accuracy 来对于本发明的效果进行评价，且分别对于数据集中不同种类的问题进行结果的求取。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示：

表1本发明针对于MSVD-QA数据集不同种类问题的测试结果

表2本发明针对于MSRVTT-QA数据集不同种类问题的测试结果。

Claims

1.一种利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法，其特征在于包括如下步骤：

2.根据权利要求1所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法，其特征在于所述的步骤1)具体步骤为:

3.根据权利要求2所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法，其特征在于所述的步骤1.1)具体为：

4.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.3)具体为：

e_i＝tanh(W_ff_i+b_f)^T tanh(W_xx_t+b_x)

<mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，W_f与W_x为权重矩阵，用来将单词映射及视频特征转化到相同大小的潜在映射空间中；f_i代指视频帧级别的外表特征或是视频片段级别的动作特征值，b_f与b_x为偏置向量；a_i为最终求出的权重值，反映了当前单词与第i帧之间的相关程度；且将ATT₁与ATT₂所得到的所有a_i构成及集合分别记为或之后可以按如下公式求得结合了问题单词信息的视频特征p_t：

<mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>g</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>a</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> </mrow>

则经过T个问题单词的处理之后，视频最终的混合表达为v_T。

5.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2)具体为：

<mrow> <mi>a</mi> <mi>n</mi> <mi>s</mi> <mi>w</mi> <mi>e</mi> <mi>r</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>max</mi> <mi> </mi> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>c</mi> </msub> <msubsup> <mi>c</mi> <mi>T</mi> <mi>q</mi> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>c</mi> <mi>T</mi> <mi>a</mi> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>v</mi> <mi>T</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中，W_c与W_g为权重矩阵，用于改变输出向量的维度；

<mrow> <mi>a</mi> <mi>n</mi> <mi>s</mi> <mi>w</mi> <mi>e</mi> <mi>r</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>max</mi> <mi> </mi> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>c</mi> </msub> <msubsup> <mi>c</mi> <mi>T</mi> <mi>q</mi> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>c</mi> <mi>T</mi> <mi>a</mi> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>v</mi> <mi>T</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>