CN110990628A

CN110990628A - 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Info

Publication number: CN110990628A
Application number: CN201911238410.9A
Authority: CN
Inventors: 赵洲; 李国昌; 金韦克
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-10

Abstract

本发明公开了一种利用多粒度卷积自注意网络机制来解决视频问答的方法。主要包括如下步骤：1)针对于一组视频，利用预训练好的VGG网络与3D‑Conv网络分别获得帧级别及分段级别视频表达。2)针对于对话历史的问题词嵌入和答案词嵌入以及新问题，使用多粒度卷积自注意网络机制以及句级别的语境注意力机制，得到问题相关的联合表达。3)使用问题级别的时间注意力机制以及融合注意力网络机制，得到问题相关的联合视频表达并产生针对视频所问问题答案。相比一般的视频问答解决方案，本发明利用了多粒度卷积自注意网络，能够结合可见信息与对话历史信息，产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统方法更好。

Description

一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

技术领域

本发明涉及视频问答答案生成，尤其涉及一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法。

背景技术

视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。

现有的技术主要是针对于静态图像生成相关问题的答案，取得了较好的结果，但是在视频问答的问题上仍然存在很大的挑战，如视频的可见信息与文本信息存在上下文相关性，而静态图像没有体现在这一点，忽略了很多上下文信。本发明使用自注意力机制来捕获语境信息，相比于现在基于RNN的编码输入信息的模型，本发明使用多粒度卷积自注意力机制。RNN编码信息存在梯度消失和难以并行计算的问题，本发明使用自注意力机制捕获上下文语境信息就不会出现梯度消失的问题，同时由于卷积网络的卷积运算可以进行并行计算，这就可以大大加快运算速度。最后，本发明使用了将输入信息分成多个粒度，能够获得元素级和段级的表达，能够获得更加全面的上下文信息。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中缺少对于视频中语境信息建模的问题，且针对于视频中经常包含对象物品的外表及其移动信息，并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况，本发明提供一种利用多粒度卷积自注意语境网络来生成与视频相关的问题的答案的方法。本发明将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧，并且学习与问题相关的有效的视频表达。同时，使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。针对视频对话中问答经常包含语境信息，本发明使用多粒度卷积网络自注意语境网络来得到有语境意识的问题联合视频表达。

本发明将先利用VGG网络与C3D网络分别提取视频的外表及动作信息，并且用多粒度卷积自注意语境网络，学习达到有语境意识的视频表达。之后逐词分析问对话历史与新输入的问题，之后利用机制获得有语境意识的对话表达以及新问题的句子级表达。之后利用问题级别的时间注意力机制，学习得到问题相关的帧级别及分段级别的视频表达。最后本发明在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上，利用问题级别的融合注意力网络机制，学习得到问题相关的联合视频表达来处理视频问答问题。

本发明所采用的具体技术方案是：

一种利用多粒度卷积自注意语境网络机制来解决视频问答的方法，包括如下步骤：

1.针对一组视频的历史对话信息以及一组新问题语句，通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达；

2.根据步骤1得到的历史对话的词嵌入表达和新问题语句的词嵌入表达，采用多粒度卷积自注意单元和句嵌入，分别得到历史对话的句级表达和新问题的句级表达；

3.根据步骤2获得的历史对话的句级表达，采用联合表达机制和经遮掩后的多粒度卷积自注意单元，获得有上下文语境的历史对话表达；

4.根据步骤2获得的新问题的句级表达与步骤3获得的有上下文语境的历史对话表达，采用语境注意力机制，获得新问题相关的视频历史对话联合表达；

5.针对所给视频，使用预训练的VGG网络获取视频帧级别的外表特征，使用C3D网络获取视频片段级别的动作特征；采用多粒度卷积自注意单元和时间注意力机制，得到有语境意识的新问题相关的联合视频表达；

6.对于步骤5获得的有语境意识的新问题相关的联合视频表达，利用多粒度卷积自注意单元获得视频相关问题答案候选集，经过softmax函数的分类得到针对新问题所预测的最终答案。

本发明提出的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层，具体包括如下步骤：

将输入序列(x₁,x₂,…,x_n)分成k段相等长度为l的段，记为X＝(X¹,X²,…,X^k)，其中X¹＝(x₁,x₂,…,x_l),X²＝(x_l+1,x_l+2,…,x_2l),…X^k＝(x_kl-l+1,x_kl-l+2,…,x_kl)且n＝k×l；

利用自注意力单元获取每段内部间的语境信息，公式如下：

Yⁱ＝Attention(Xⁱ,Xⁱ,Xⁱ),i＝1,2,…k

其中，Q,K,V表示自注意力单元的三个输入通道，在此处均为Xⁱ；d为序列元素的维度；Yⁱ是经过以自注意力单元学习后的第i段的新表达，构成了新的序列Y＝(Y¹,Y²,…,Y^k)；

将Y输入到卷积核与步长均为l的卷积层获得有每段语境特性序列P＝(p₁,p₂,…,p_k)，p_i表示输入序列第i段的向量表达；同理，采用自注意力单元获得有全局语境特性序列P′＝(p′₁,p′₂,…,p′_k)；

联合P′和P，通过Z′＝Fusion(P,P′)获得序列Z′，其中Fusion(·)表示联合函数，Z′＝Fusion(P,P′)具体展开如下：

其中，σ表示sigmoid函数，[；]表示向量的连接，

表示按元素乘，

为偏移向量，S,S′为0,1间是向量分数；复制序列Z′＝(z′₁,z′₂,…,z′_k)中的每个元素z′_k各l次得到新序列Z＝(z₁,z₂,…,z_n)；

序列X,Y,Z经过融合层学习最终得到R，公式如下：

F_yz＝Fusion(Y,Z),

R＝Fusion(F_yz,X)

其中，R为多粒度卷积自注意单元的输出。

本发明具备的有益效果：

(1)相比于之前关注静态图像问答的研究，本发明将其扩展到视频问答的领域，由于视频具有的连续性以及相关性，本发明提出的模型能够连接连续的文本信息以及可见信息，以使视频问答的准确性更高。

(2)本发明将对话历史信息与视频信息结合起来，相比较于使用RNN直接编码信息序列，使用多粒度卷积自注意力机制能够获得包含多粒度序列信息的元素级和段级表达。

(3)现在大多数情况下，使用已有的RNN模型来对输入信息进行编码会出现梯度消失以及很难并行化的问题。本发明结合CNN于自注意力机制，CNN所进行的卷积计算是很容易并行画的，这样可以大大加快运算速度。而自注意力机制能够结合输入各个元素来生成有语境意识的信息序列表达。

(4)显然，人在对话的时候每一轮的问答之间都是存在相关性的，因此对于视频问答模型，能够结合上下文并理解上下文是解决这一问题的非常重要的一种能力。现在已有的模型中，对于上下文语境的理解是不充分的，本发明提出的多粒度自注意力机制能够很好的结合上下文的语境来给出新问题的答案。

(5)经过大量数据集的测试，相比于基于RNN的模型，本模型在时间方面更加高效，准确度方面也更高。

附图说明

图1是本发明所使用的多粒度卷积网络自注意语境网络的整体示意图；

图2是本发明所使用的MGCSA单元的操作示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用多粒度卷积自注意语境网络机制来解决视频问答的方法包括如下步骤：

步骤一、针对一组视频的历史对话信息以及一组新问题，通过词嵌入分别得到历史对话的词嵌入表达和新问题的词嵌入表达：

针对一组视频的历史对话信息，通过预训练的GloVe模型获得历史对话的词嵌入表达{(q₁,a₁),(q₂,a₂),…(q_N,a_N)}，其中(q_i,a_i)中的q_i和a_i分别表示历史第i轮对话的问题词嵌入q_i与回答词嵌入a_i，N表示历史对话信息中包含N轮对话；

针对新问题语句，通过预训练的GloVe模型获得新问题语句的词嵌入表达Q＝[q′₁,q′₂,...,q′_T]，其中q′_i表示新问题语句中的第i个单词，T表示新问题语句中的单词的数量。

步骤二、根据历史对话的词嵌入表达和新问题的词嵌入表达，采用多粒度卷积自注意单元和句嵌入，分别得到历史对话的句级表达和新问题的句级表达：

将历史对话的词嵌入表达输入到多粒度卷积自注意单元中，并将多粒度卷积自注意单元的输出作为句嵌入的输入，由句嵌入输出历史对话的句级表达，所述句嵌入的表达式如下：

f(x_i)＝softmax(W₁tanh(W₂x_i+b₁))

其中，x_i表示输入元素，即q_i和a_i，n是输入序列的长度；W₁表示权值常数的矩阵，b₁表示偏移量，⊙表示按元素乘操作符，O表示句嵌入的输出，即历史第i轮对话中问题的句级表达

和回答的句级表达

和

共同构成历史对话的句级表达；

将新问题的词嵌入表达输入到多粒度卷积自注意单元中，并将多粒度卷积自注意单元的输出作为句嵌入的输入，由句嵌入输出新问题的句级表达q′，所述句嵌入的表达式如下：

f(q′_i)＝softmax(W₁tanh(W₂q′_i+b₁))

综上，得到了历史对话的句级表达和新问题的句级表达。

步骤三、根据历史对话的句级表达，采用联合表达机制和遮掩多粒度卷积自注意力单元，获得有上下文语境的历史对话表达：

根据历史对话的句级表达，采用联合表达机制得到每一轮对话的表达c_i，所述的联合表达机制的表达式为：

其中，

和

为用来融合问题与答案表达的推测矩阵，d为

的维度，d_c为联合表达的维度，tanh为元素级的双曲正切函数；

进一步得到历史对话表达c＝(c₁,c₂,…,c_N)；

根据c，采用多粒度卷积自注意力单元，经过遮掩，得到有上下文语境的历史对话表达u＝(u₁,u₂,…,u_N)，

步骤四、根据新问题的句级表达与有上下文语境的历史对话表达，采用语境注意力机制，获得新问题相关的视频历史对话联合表达：

根据新问题的句级表达q′和有上下文语境的历史对话表达u，计算历史第i轮对话与新问题之间的注意力分值

其中，

为参数矩阵，

为参数向量，

为偏移向量，d_m为中间量维度；

把

作为输入，使用softmax函数生成激活值

计算对话语境的注意力表达u^q：

最终获得新问题相关的视频历史对话联合表达q^u：

q^u＝q′+u^q。

步骤五、针对所给视频，使用预训练的VGG网络获取视频帧级别的外表特征，使用C3D网络获取视频片段级别的动作特征；采用多粒度卷积自注意单元和时间注意力机制，得到有语境意识的新问题相关的联合视频表达：

针对所给视频，使用预训练的VGG网络获取视频帧级别的外表特征

其中

示视频中第i帧的外表特征，T₁代表视频中取样的帧数；使用预训练的C3D网络获取视频片段级别的动作特征

其中

表示视频中第i段的动作特征，T₂代表视频取样的分段数；

根据v^f和v^s，采用多粒度卷积自注意单元分别得到外表特征的多粒度表达

和动作特征的多粒度表达

根据v′^f和q^u，采用时间注意力机制，得到有语境意识的视频外表特征表达；所述时间注意力机制具体包括以下步骤：

a)计算针对所给视频帧的注意力分数：

其中，

为参数矩阵，

为参数向量，

为偏移向量，d_n为中间量维度，d_f为外表特征维度；

b)根据

采用softmax函数计算针对视频帧生成的激活值为：

c)得到有语境意识的视频外表特征表达v^qf：

同理，根据v′^s、q^u，以及所述的时间注意力机制，得到有语境意识的视频动作特征表达v^qs；

根据v^qf和v^qs，进一步得到有语境意识的视频表达

其中，⊙为按元素乘操作符；

根据

和q^u，由如下公式进行联合，得到有语境意识的新问题相关的联合视频表达f_quv：

其中，Concat(·)是连接两个输入向量的函数，g(·)门控双曲正切激活。

步骤六、根据有语境意识的新问题相关的联合视频表达，利用多粒度卷积自注意单元获得视频相关问题答案候选集，经过softmax函数的分类得到针对新问题所预测的最终答案。

针对一组包含N轮对话的历史对话信息，对所有对话答案使用多粒度卷积自注意力单元学习后，得到每轮对话答案的语义表达

代表第i轮对话答案的语义表达，根据每轮对话的对话答案构建成一个包含所有候选答案的答案候选集

d_h为答案表达的维度；

根据f_quv和A，经过softmax函数获取f_quv相关的候选答案集A的概率分布：

取p_a向量中的最大元素对应的

作为最终答案。

如图2所示，本发明所使用的多粒度卷积自注意单元(MGCSA单元)的操作包括如下步骤：

A、划分输入序列，采用自注意力机制学习划分好的序列提取含有语境信息的段级序列

B、利用步骤A获得的序列，经过卷积层的学习获得压缩后的有每段语境特性序列并经过自注意力机制学习得到有全局语境特性序列

C、采用步骤B)获得的序列，经过融合函数与扩展后获得输出序列

D、采用步骤A、C和输入序列，经过融合层的学习得到最终的输出序列

所述步骤A具体为：

将输入序列(x₁,x₂,…,x_n)分成k段相等长度为l的段，记为X＝(X¹,X²,…,X^k),其中X¹＝(x₁,x₂,…,x_l),X²＝(x_l+1,x_l+2,…,x_2l),…且n＝k×l。如果输入序列分割后割断长度不相等，序列将被填充。之后每一段将利用自注意力机制来捕捉每段内部间的语境信息，公式如下：

Yⁱ＝Attention(Xⁱ,Xⁱ,Xⁱ),i＝1,2,…k

其中，Q,K,V表示自注意力机制的三个输入通道，在此处均为Xⁱ；d为序列元素的维度；Yⁱ是经过以自注意力机制学习后的第i段的新表达，构成了新的序列Y＝(Y¹,Y²,…,Y^k)；

所述步骤B具体为：

将Y输入到卷积核与步长均为l的卷积层获得一个压缩后的序列P＝(p₁,p₂,…,p_k)，序列包含k个元素且每个元素可以看作原始段的向量表达。对于序列P再应用自注意力机制获得新的序列P′＝(p′₁,p′₂,…,p′_k)；

所述步骤C具体为：

联合操作来联合有全局语境特性序列P′和有每段语境特性的P获得序列Z′，联合函数Z′＝Fusion(P,P′)，其展开形式如下：

Z′＝S′⊙P′+S⊙P

其中，σ表示sigmoid函数，[；]表示向量的连接，⊙表示按元素乘，

为偏移向量，S,S′为0,1间是向量分数。复制序列Z′＝(z′₁,z′₂,…,z′_k)中的每个元素z′_k各l次得到新序列Z＝(z₁,z₂,…,z_n)；

所述步骤D具体为：

序列X,Y,Z经过融合层学习，公式如下：

F_yz＝Fusion(Y,Z),

R＝Fusion(F_yz,X)

最终得到MGCSA单元的输出R。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在专业众包标注公司产生的数据集上面进行实验验证，一共使用了两份数据集，分别为YouTubeClips数据集和TACoS-MultiLevel数据集，其中YouTubeClips数据集包含1987条视频片段及66806个问答对且每个视频为60帧，TACoS-MultiLevel数据集包含1303条视频片段及37228个问答对且每个视频为80帧。随后本发明对于构建的视频问答数据集进行如下预处理：

1)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地，单词集中含有6500个单词，单词向量的维度为100维。

2)对于YouTubeClips数据集和TACoS-MultiLevel数据集的视频，把每一帧都重置为224×224大小，并利用提前训练好的VGGNet提取每帧的外表特征表达。同时用提前训练好的3D-ConvNet提取4096维的动作特征表达。特别的，每个动作特征段包含16帧，且与邻接段有8帧的重复。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了三个评估准则：MRR,P@k,MeanRank来通过与其他基准模型比较来评估本发明的效果。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示：

表1本发明针对与TACoS-MultiLevel数据集不同基准模型的测试结果

表2本发明针对于MSRVTT-QA数据集不同种类问题的测试结果

Claims

1.一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，包括如下步骤：

1)针对一组视频的历史对话信息以及一组新问题语句，通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达；

2)根据步骤1)得到的历史对话的词嵌入表达和新问题语句的词嵌入表达，采用多粒度卷积自注意单元和句嵌入，分别得到历史对话的句级表达和新问题的句级表达；

3)根据步骤2)获得的历史对话的句级表达，采用联合表达机制和经遮掩后的多粒度卷积自注意单元，获得有上下文语境的历史对话表达；

4)根据步骤2)获得的新问题的句级表达与步骤3)获得的有上下文语境的历史对话表达，采用语境注意力机制，获得新问题相关的视频历史对话联合表达；

5)针对所给视频，使用预训练的VGG网络获取视频帧级别的外表特征，使用C3D网络获取视频片段级别的动作特征；采用多粒度卷积自注意单元和时间注意力机制，得到有语境意识的新问题相关的联合视频表达；

6)对于步骤5)获得的有语境意识的新问题相关的联合视频表达，利用多粒度卷积自注意单元获得视频相关问题答案候选集，经过softmax函数的分类得到针对新问题所预测的最终答案。

2.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述步骤1)具体为：

3.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层，具体包括如下步骤：

利用自注意力单元获取每段内部间的语境信息，公式如下：

Yⁱ＝Attention(Xⁱ,Xⁱ,Xⁱ),i＝1,2,…k

Z′＝S′⊙P′+S⊙P

序列X,Y,Z经过融合层学习最终得到R，公式如下：

F_yz＝Fusion(Y,Z),

R＝Fusion(F_yz,X)

其中，R为多粒度卷积自注意单元的输出。

4.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述步骤2)具体为：

f(x_i)＝softmax(W₁tanh(W₂x_i+b₁))

其中，x_i表示输入元素，即q_i和a_i，n是输入序列的长度；W₁表示权值常数的矩阵，b₁表示偏移量，⊙表示按元素乘操作符；O表示句嵌入的输出，即历史第i轮对话中问题的句级表达r_i ^q和回答的句级表达

r_i ^q和

共同构成历史对话的句级表达；

f(q′_i)＝softmax(W₁tanh(W₂q′_i+b₁))

综上，得到了历史对话的句级表达和新问题的句级表达。

5.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述步骤3)具体为：

其中，

和

为用来融合问题与答案表达的推测矩阵，d为r_i ^q、

进一步得到历史对话表达c＝(c₁,c₂,…,c_N)；

根据c，采用多粒度卷积自注意力单元，经过遮掩后得到有上下文语境的历史对话表达u＝(u₁,u₂,…,u_N)，

6.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述步骤4)具体为：

根据新问题的句级表达q^′和有上下文语境的历史对话表达u，计算历史第i轮对话与新问题之间的注意力分值

其中，

为参数矩阵，

为参数向量，

为偏移向量，d_m为中间量维度；

把

作为输入，使用softmax函数生成激活值

计算对话语境的注意力表达u^q：

最终获得新问题相关的视频历史对话联合表达q^u：

q^u＝q′+u^q。

7.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述步骤5)具体为：

其中

表示视频中第i帧的外表特征，T₁代表视频中取样的帧数；使用预训练的C3D网络获取视频片段级别的动作特征

其中

表示视频中第i段的动作特征，T₂代表视频取样的分段数；

和动作特征的多粒度表达

a)计算针对所给视频帧的注意力分数：

其中，

为参数矩阵，

为参数向量，

为偏移向量，d_n为中间量维度，d_f为外表特征维度；

b)根据

采用softmax函数计算针对视频帧生成的激活值为：

c)得到有语境意识的视频外表特征表达v^qf：

同理，根据v′^s、q^u、以及所述的时间注意力机制，得到有语境意识的视频动作特征表达v^qs；

根据v^qf和v^qs，进一步得到有语境意识的视频表达

根据

8.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法，其特征在于，所述步骤6)具体为：

d_h为答案表达的维度；

取p_a向量中的最大元素对应的

作为最终答案。