CN107463609A

CN107463609A - 一种使用分层时空注意力编解码器网络机制解决视频问答的方法

Info

Publication number: CN107463609A
Application number: CN201710502909.0A
Authority: CN
Inventors: 赵洲; 孟令涛; 杨启凡; 肖俊; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-12-12
Anticipated expiration: 2037-06-27
Also published as: CN107463609B

Abstract

本发明公开了一种利用分层时空注意力编解码器网络机制来解决视频问答的方法。主要包括如下步骤：1)针对于一组视频、问题、答案训练集，训练时空注意力编码神经网络，学习出视频和问题的联合表达。2)对于编码完成的得到视频问题联合表达的神经网络的输出，再与相关答案一起训练出解码神经网络，用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案，本发明利用时间注意力机制更好地利用了视频帧之间的序列关系，同时利用空间注意力机制精确了视频帧中的关键位置，则能够更准确地反映视频和问题的特性，并产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统的方法更好。

Description

一种使用分层时空注意力编解码器网络机制解决视频问答的方法

技术领域

本发明涉及视频问答文本生成，尤其涉及一种利用分层时空注意力编解码器网络来生成与视频相关的问题的答案的方法。

背景技术

开放式的视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。

现有的技术主要解决的是关于静态图像相关的问答问题，针对于视频相关的问答问题，采用的方法是简单地把视频在时间上面收缩成为图像问答问题，并利用图像问答的方法来解决视频问答问题。虽然针对于静态图像问答，可以取得很好的表现结果，但是这样的方法并不能很好地利用视频中图像之间的序列关系，所以不能取得较为满意的效果。

利用时空注意力编解码网络则能很好地弥补上述解决方案的不足。目前，提出的时间注意力机制已经可以从整个视频中抓取关键帧来完成表征学习，本方法将利用时间注意力机制与视频中帧的相互序列关系来对于视频内容进行建模。本方法首先利用分层的时空注意力网络来综合地学习视频中关键帧序列及所问问题，随后通过多步的推理过程针对于之前编码的视频及相关问题生成对应的答案并且提高了所生成的答案的质量。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中无法很好地利用视频中各帧之间的相互序列关系的不足，本发明提供一种利用分层时空注意力编解码器网络来生成开放式视频问题的相关答案的方法。本发明所采用的具体技术方案是：

利用分层时空注意力编解码器网络来解决开放式视频问答问题，包含如下步骤：

1、针对于一组视频、问题、答案训练集，训练时空注意力编码神经网络，学习出视频和问题的联合表达。

2、对于编码完成的得到视频问题联合表达的神经网络的输出，再与相关答案一起训练出解码神经网络，用来针对于视频和问题的联合表达输出对应的自然语言的答案。

上述步骤可具体采用如下实现方式：

1、针对于视频和答案均为有着可变长度的序列化数据，本发明选择名为“门控循环单元” (gated recurrent unit GRU)的可变循环神经网络来学习相关的特征表达，该门单元的更新方法如下：

r_t＝δ(W_xrx_t+W_hrh_t-1+b_r)

z_t＝δ(W_xzx_t+W_hzh_t-1+b_z)

在上述公式中，x_t代表输入向量，h_t代表输出向量，z_t代表更新门向量，r_t代表重置向量，W_s和b_s分别代表参数矩阵和偏置向量。

2、对于视频和答案的序列特征表达均采用有向GRU(包括正向和反向GRU，反向GRU有着和正向GRU相同的网络结构，只是输入序列进行了翻转)，对于视频的正向GRU，在t时刻的隐藏层记作反向的GRU在t时刻的隐藏层记作则视频的双向GRU层的第t个隐藏状态可以表示为视频v的隐藏层可以表示为h＝(h₁,h₂,...,h_N)。

3、对于一个视频的系列帧，通过空间注意力模型，找出视频帧中与问题相关的一系列含有相关对象的候选区域，则视频帧可以由这些候选区域特征及总的帧区域特征的集合表示为F＝{F₁,F₂,...,F_N}，对于第j帧的特征可以表示为F_j＝{f_j1,f_j2,...,f_jK}，其中，f_j1， f_j2，…，f_j(K-1)是候选的区域特征，f_jK是总的区域特征。指定一个问题及第j帧的区域

特征f_ji∈F_j，空间注意力分数为在上面的公式中，W_qs和W_fs是参数矩阵，b_s是偏置向量。针对于每一个区域特征f_ji，空间维度的softmax激活函数为

空间注意力帧表达为

4、对于一个视频的系列帧，本发明引入时间注意力模型来估计视频帧与所问问题的相关程度，从而获取与问题相关程度较大的视频帧。给定空间伴随的视频帧本发明学习这些帧的双向GRU层中的隐藏状态表达则在时间注意力机制下的这些帧的相关分数为

上式中，W_qt和W_ht是参数矩阵，b_t是偏置向量。针对于每一帧的隐藏状态

，其在时间维度上softmax激活函数为

5、为了学习关于附属的时空关系的顺序敏感性，本发明引入注意力GRU网络(下面记为aGRU网络)。aGRU网络的输入为上文中的双向GRU层中的空间附属帧的隐藏状态及估计的时间注意力分数β₁,β₂,...,β_N。当前的估计状态由输入为基础获得，随后aGRU网络以当前估计状态及以前的状态的混合为基础更新其隐藏状态aGRU网络更新当前状态的公式为

则视频v关于问题q的时空注意力表达为其中为aGRU网络的最后一个隐藏状态。

6、为了进一步地提高开放式视频问答的表现，本发明将多个上面提出的时空注意力网络的推理过程进行合并。给定时空网络h^sp(.)、视频v、问题q，时空注意力网络的多步骤学习按照如下公式进行：

y₀＝q

则时空注意力网络的视频及问题的联合表达在经过第R次更新之后为

f(q,v)＝y_R

7、本发明中对于学习产生与视频问题相关答案的解码神经网络，按照如下方式进行：对于每一个时刻j，解码器通过如下公式计算形成第k个单词的概率值

其中，和为参数向量，为解码器神经网络的第j个隐藏状态。随后按照此概率来输出最终的答案的各个单词构成与视频问题相关的答案。

相比于其他的视频问答解决方案，本发明产生的答案由于利用了视频中各个帧之间的序列关系及确定了每个帧与问题相关的相关区域，所以可以更加贴切地表达所问问题及相关的视频的内容。并且不仅对于开放式的视频问答可以利用本发明的方法，对于多项答案选择问题也可以利用本发明进行解决。

附图说明

图1是本发明所用的注意力GRU网络(aGRU)的节点更新模型示意图。

图2是本发明所使用的对于开放式视频问答问题的多层时空注意力编解码器网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1和2所示，本发明利用分层时空注意力编解码器网络机制来解决视频问答的方法包括如下步骤：

1)对于输入的视频及问题，训练出含时空注意力模型的双向GRU编码神经网络来编码视频及问题；

2)对于输入的视频及问题，得到编码神经网络的输出；该输出再与相关答案一起训练出解码神经网络；

3)对于要预测答案的视频和问题，根据生成的编码神经网络和解码神经网络，得到所预测的答案。

所述的步骤1)采用双向GRU编码神经网络来提取视频及问题的时间及空间注意力帧的综合表达,其具体步骤为:

1.1)采用双向GRU提取视频和问题的序列特征表达，双向GRU的隐藏状态包括正向GRU隐藏层和反向GRU隐藏层

1.2)对于一个视频的系列帧，通过空间注意力模型，找出空间注意力帧的表达；

1.3)对于一个视频的系列帧，利用步骤2)找出的空间注意力帧的表达，引入时间注意力模型，得到时间及空间注意力帧的综合表达；

1.4)将R个步骤1.1)-1.3)描述的时空注意力网络的迭代过程进行合并，得到R次更新后的视频及问题的时间及空间注意力帧的综合表达。

所述的步骤1.1)具体为：

对于视频和答案的序列特征表达采用有向GRU来提取，所述有向GRU包括正向GRU和反向GRU，反向GRU有着和正向GRU相同的网络结构，只是输入序列进行了翻转；对于视频的正向GRU，在t时刻的隐藏层记作反向的GRU在t时刻的隐藏层记作则视频的双向GRU层的第t个隐藏状态表示为视频v的隐藏层表示为h＝(h₁,h₂,...,h_N)。

所述的步骤1.2)具体为：

对于一个视频的系列帧，通过空间注意力模型，找出视频帧中与问题相关的一系列含有相关对象的候选区域，则视频帧由这些候选区域特征及总的帧区域特征的集合表示为 F＝{F₁,F₂,...,F_N}，对于第j帧的特征表示为F_j＝{f_j1,f_j2,...,f_jK}，其中，f_j1，f_j2，…，f_j(K-1)是候选的区域特征，f_jK是总的区域特征；指定一个问题及第j帧的区域特征 f_ji∈F_j，空间注意力分数为

其中，tanh(.)是反正切函数，W_qs和W_fs是参数矩阵，b_s是偏置向量,q为问题所代表的向量，w^(s)为针对于空间注意力分数对应的系数，针对于每一个区域特征f_ji，空间维度的softmax激活函数为

空间注意力帧表达为

所述的步骤1.3)具体为：

对于一个视频的系列帧，引入时间注意力模型来估计视频帧与所问问题的相关程度，从而获取与问题相关程度较大的视频帧，给定空间伴随的视频帧学习这些帧的双向GRU层中的隐藏状态表达此处的h^(s)即为隐藏状态h在空间注意力网络中的具体的表示；则在时间注意力模型下的这些帧的相关分数为

上式中，tanh(.)是反正切函数，W_qt和W_ht是参数矩阵，b_t是偏置向量,q为问题所代表的向量，w^(t)为时间注意力分数对应的系数，针对于每一帧的隐藏状态，其在时间维度上softmax激活函数为

为了学习关于附属的时空关系的顺序敏感性，引入注意力GRU网络，即aGRU网络，aGRU 网络的输入为上文中的双向GRU层中的空间附属帧的隐藏状态及估计的时间注意力分数β₁,β₂,...,β_N，当前的估计状态由输入GRU网络中自动获得，随后aGRU网络以当前估计状态及以前的状态的混合为基础更新其隐藏状态 aGRU网络更新当前状态的公式为：

则视频v关于问题q的时空注意力表达为其中为aGRU网络的最后隐藏状态,此处的为隐藏状态h在时间注意力网络中的具体的表示。

所述的步骤1.4)具体为：

将R个步骤1.1)-1.3)描述的时空注意力网络的迭代过程进行合并：给定时空网络h^sp(.)、视频v、问题q，时空注意力网络的多步骤学习按照如下公式进行：

y₀＝q

f(q,v)＝y_R。

所述的步骤2)具体为：

对于每一个时刻j，解码神经网络通过如下公式计算形成第k个单词的概率值

其中，和为参数向量，为解码神经网络的第j个隐藏状态，随后根据该概率值得到答案在每个位置预测的单词；与训练数据中真实答案在相同位置的单词做比较，根据比较的差值更新解码神经网络。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在自己构建的数据集上面进行实验验证，本数据集包含201068条GIF片段及 287933条文字描述，随后本发明从视频描述中生成问题答案对。本发明的验证实验中共包含 4种问题，分别与视频的对象、数字、颜色、地点相关。随后本发明对于构建的视频问答数据集进行如下预处理：

1)对于每一个视频取25帧，并且把每一帧都重置为224×224大小，随后利用VGGNet 获取每一帧的4096维的特征表达。对于每一帧本发明选择3个区域作为候选区域。

2)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地，单词集中含有6500个单词，单词向量的维度为256维。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了Accuracy、 WUPS@0.0和WUPS@0.9来对于本发明的效果进行评价。对于本发明提出的r-STAN(reasoning Spatio-Temporal Attention Networks)根据推理的步骤数目分为r-STAN₍₀₎，r-STAN₍₁₎，r-STAN₍₂₎分别进行测试。另外，对于视频问答数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数字问题(Number)、颜色问题(Color)、地点问题(Location))分别求取测试结果。按照具体实施方式中描述的步骤，所得的实验结果如表1-表4所示：

Method	Accuracy	WUPS@0.0	WUPS@0.9
				r-STAN₍₀₎	0.478	0.7601	0.5753
r-STAN₍₁₎	0.48	0.763	0.5807
				r-STAN₍₂₎	0.4893	0.7728	0.5788

表1本发明针对于所有种类问题的测试结果

表2本发明针对于分种类问题的Accuracy维度的测试结果

表3本发明针对于分种类问题的WUPS@0.0维度的测试结果

表4本发明针对于分种类问题的WUPS@0.9维度的测试结果。

Claims

1.一种利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于包括如下步骤：

1)对于输入的视频及问题，训练出含时空注意力模型的双向GRU编码神经网络

来编码视频及问题；

2.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1)采用双向GRU编码神经网络来提取视频及问题的时间及空间注意力帧的综合表达,其具体步骤为:

3.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.1)具体为：

4.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.2)为：

对于一个视频的系列帧，通过空间注意力模型，找出视频帧中与问题相关的一系列含有相关对象的候选区域，则视频帧由这些候选区域特征及总的帧区域特征的集合表示为F＝{F₁,F₂,...,F_N}，对于第j帧的特征表示为F_j＝{f_j1,f_j2,...,f_jK}，其中，f_j1，f_j2，…，f_j(K-1)是候选的区域特征，f_jK是总的区域特征；指定一个问题及第j帧的区域特征f_ji∈F_j，空间注意力分数为

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> 1

空间注意力帧表达为

5.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.3)具体为：

上式中，tanh(.)是反正切函数，W_qt和W_ht是参数矩阵，b_t是偏置向量,q为问题所代表的向量，w^(t)为时间注意力分数对应的系数，针对于每一帧的隐藏状态其在时间维度上softmax激活函数为

<mrow> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

为了学习关于附属的时空关系的顺序敏感性，引入注意力GRU网络，即aGRU网络，aGRU网络的输入为上文中的双向GRU层中的空间附属帧的隐藏状态及估计的时间注意力分数β₁,β₂,...,β_N，当前的估计状态由输入计算获得，随后aGRU网络以当前估计状态及以前的状态的混合为基础按照如下公式更新aGRU网络的隐藏状态

<mrow> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>&CircleTimes;</mo> <msubsup> <mover> <mi>h</mi> <mo>~</mo> </mover> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&CircleTimes;</mo> <msubsup> <mi>h</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow>

则视频v关于问题q的时空注意力表达为其中为aGRU网络的最后隐藏状态。

6.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.4)为：

y₀＝q

f(q,v)＝y_R。

7.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2)为：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>R</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>y</mi> </mrow> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </msubsup> <msub> <mi>y</mi> <mi>R</mi> </msub> <mo>+</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>h</mi> </mrow> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mi>k</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>y</mi> </mrow> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </msubsup> <msub> <mi>y</mi> <mi>R</mi> </msub> <mo>+</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>h</mi> </mrow> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>