CN108763444B

CN108763444B - 利用分层编码解码器网络机制来解决视频问答的方法

Info

Publication number: CN108763444B
Application number: CN201810516611.XA
Authority: CN
Inventors: 俞新荣
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2021-02-05
Anticipated expiration: 2038-05-25
Also published as: CN108763444A

Abstract

本发明公开了利用分层编码解码器网络机制来解决开放式长视频问答的方法。主要包括如下步骤：1)针对于一组视频、问题、答案训练集，训练自适应分层编码神经网络，基于问题和视频学习自适应分割机制以分割长视频，从而得到视频片段和问题的联合表达。2)对于编码完成的得到视频问题联合表达的神经网络的输出，再与相关答案，结合强化学习的思想，一起训练出解码神经网络，用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案，本发明利用基于问题的自适应分层，能够更好地在长视频中锁定对于回答问题有利的片段，能够更好地反映视频的特性，同时利用了强化学习机制训练解码器，能够得到更加强大的解码器，并产生更加符合要求的答案。本发明在长视频问答问题中所取得的效果相比于传统的方法更好。

Description

利用分层编码解码器网络机制来解决视频问答的方法

技术领域

本发明涉及视频问答答案生成，尤其涉及一种利用分层编码解码器网络机制来生成与视频相关的问题的答案的方法。

背景技术

开放式的视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。开放式视频问答是视觉问答的根本问题，他根据给定的问题从引用的视频内容中自动生成自然语言答案。

目前大多数视频问答方法主要集中在短视频问答的问题，它们的方法大多是从LSTM网络层学习视频的语义表征，然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果，但是由于缺少长视频内容的语义表征的建模，这些方法仍可能无法有效地应用在长视频问答上。

长视频内容通常包含在多个帧之间的复杂对象交互，这些帧具有长期的语义依赖性。因此根据给定的问题，现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面，虽然视频帧是局部一致的，但是他们有不同的语义内容。针对这两个问题，本方法提出根据给定问题将视频内容自适应分割，然后把问题和视频的语义信息联合的学习框架。

本方法将利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段，并把每一段视频分段针对问题进行注意力网络机制学习，得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达，通过LSTM层得到问题级别的分段的视频时序表达，并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制，学习针对所问问题的问题级别分段的视频时序表达的注意力表达，作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想，指导整个模型的梯度，让整个模型收敛到更好的状态。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中缺少对于长视频问答中的视频语义特征的建模，针对长视频里面多个帧之间不同语义的内容，且这些内容分散在视频视频里的各个不同的分段的情况，本发明提供了一种使用自适应分层强化学习编码解码器网络机制来解决开放式长视频问答的方法。本发明所采用的具体技术方案是：

利用分层编码解码器网络机制来解决开放式长视频问答问题，包含如下步骤：

1、对于输入的视频及问题，训练出能够基于问题和视频信息从而自适应分段长视频，并把得到的视频分段和问题作进一步联合，得到的视频和问题的联合表达的编码神经网络；

2、对于步骤1所得到的视频和问题的联合表达，作为编码神经网络的输出；该输出再与相关答案一起训练解码神经网络，其中结合了强化学习的思想，通过提前采样得到当前状态的得分来修正整个解码神经网络，从而获得更优的解码神经网络；

3、对于要预测答案的视频和问题，根据生成的编码神经网络和解码神经网络，得到所预测的答案。

上述步骤可具体采用如下实现方式：

1、对于视频和答案均为有着可变长度的序列化数据，本发明选择名为“长短期记忆网络”(Long Short-term Memory)的可变循环神经网络来学习相关的特征表达，该门单元的更新方法如下：

i_t＝δ(W_ix_t+G_ih_t-1+b_i)

f_t＝δ(W_fx_t+G_fh_t-1+b_i)

o_t＝δ(W_ox_t+G_oh_t-1+V_oc_t+b_o)

h_t＝o_t·tanh(c_t)

2、对于视频采用预训练的2维卷积神经网络获取视频的帧级别的特征

其中N代表视频帧表达v^(f)中的帧数，

代表视频第j帧的嵌入表达。

3、对于问题文本，输入到LSTM网络中，获得问题的输出状态表达，记为

其中

为问题q的第k个单词的输出状态表达。

4、对于步骤2获得的视频的帧级别的表达

输入到LST M网络中。LSTM的计算：假设在第t步，LSTM会计算LSTM的隐藏状态

然后结合第t+1帧，以及偏差值b_γ计算二进制门函数的结果

其中

代表视频第j帧的嵌入表达，

是第t步LSTM的隐含状态；b_γ是式子的偏差值，是可训练的；τ是阈值，也是超参数。δ(·)是sigmoid函数。 W_γv和W_γh是可训练的矩阵，

是可训练的向量。LSTM下一步的隐藏状态和记忆部分状态由式子

和

决定，即如果门函数得出的结果是1，那么不把LSTM这一步的状态传到下一步，以此来“截断”长视频。我们把这一步得到的编码网络输出记为

得到的二进制门函数的输出记为 (γ₁,γ₂,...,γ_N)。

5、由步骤4我们可以得到视频的编码网络输出

和二进制门函数的输出(γ₁,γ₂,...,γ_N)。二进制门函数的输出里面的值非0即1，这样我们可以通过结果是1的部分把长视频为成各个片段。假设当前第t步得到的γ_t等于1，那么我们就把之前的视频片段作一个问题相关的帧级别的注意力计算。

其中注意力的计算如下：假设当前是视频片段S_k，对于S_k里的每一帧，假设当前是第t帧是v_t，我们由公式

计算这一帧的分值，其中

和

是可训练的矩阵，b^(v)是可训练的偏置向量。对于每一个在视频片段S_k里的帧v_t，我们可以计算出对应的分值，然后由softmax函数

计算出每一帧的注意力分值。

最后我们可以得到视频片段S_k的基于问题注意的表征s_k，其计算方法是

如果一个长视频被我们的模型分成了K段，那么我们能够得到K个视频片段的表征(s₁,s₂,...,s_k)。

6、利用步骤5获得的K个视频片段的时间上问题注意力的表征(s₁,s₂,...,s_k)，把这些表征送入片段级别的LSTM，我们可以获得他们的时间语义表征

因而整个自适应编码网络的输出为

7、利用步骤6获得的自适应编码网络的输出

假定问题的文本表征为h^(q)，解码器在第t步的隐含向量为

当前是解码LSTM运行的第t步，我们可以计算出对于问题生成的第k个视频段落的分值：

其中

都是可训练的参数矩阵，b^(s)是可训练的偏置向量，P^(s)是可训练的参数向量，用于计算各个视频段落的注意力分值。然后通过softmax公式：

我们能够算出每个段落对于问题生成的注意力分值

最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征

8、利用步骤7得到的视频片段的注意力表征e_t作为LSTM的输入，然后计算得出LSTM的输出，通过线性层，计算出下一个词的概率。

9、结合强化学习的思想，我们把下一个答案单词的生成视为一个行动(actio n)，把在当前词序列a_1:t-1存在的情况下，下一个词a_t的概率p_θ(a_t|a_1:t-1,f(v,q))视为策略。我们选择把生成的答案

的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数，其计算公式如下：

因此，假定已经生成了前t-1个单词，其序列是a_1:t-1，那么此时的状态能得到的得分应该是

由这t-1个单词a_1:t-1能够产生的所有序列

他们的得分的期望。但是如果计算期望的话，整个时间空间复杂度会指数倍增长，因此我们采用采样的方式，在解码器运行的每一步，进行蒙特卡洛采样。其采样过程如下，假设当前有t-1个词a_1:t-1，那么当前状态的得分由下式计算得出：

当t小于生成答案的句子长度是，我们会通过从t+1步开始随机采样从而生成J 个答案，记为

计算这些候选答案的得分，然后取平均值当作结果，如果t等于句子长度时，则直接计算得分即可。这样我们就可以得到解码 LSTM每一步的得分。

10、根据极大似然估计，生成答案的损失可以由下式计算：

但是这种方法无法让解码LSTM达到最优的状态，因此我们结合了强化学习的思想，引入策略梯度，利用步骤2.3)得到的得分，把它和损失相乘，再求梯度，这个梯度则被称为策略梯度，计算公式如下：

11、利用步骤7得到的视频片段的注意力表征e_t作为LSTM的输入，然后计算得出LSTM的输出，通过线性层，计算出下一个词的概率。取概率最大的作为生成的下一个词，或者根据概率随机采样一个单词作为下一个词。

附图说明

图1是本发明所使用的对于开放式长视频问答问题的分层编码解码器网络机制的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用自适应分层强化编码解码器网络机制来解决开放式长视频问答的方法包括如下步骤：

1)对于输入的视频及问题，训练出能够基于问题和视频信息从而自适应分段长视频，并把得到的视频分段和问题作进一步联合，得到的视频和问题的联合表达的编码神经网络；

2)对于步骤1)所得到的视频和问题的联合表达，作为编码神经网络的输出；该输出再与相关答案一起训练解码神经网络，其中结合了强化学习的思想，通过提前采样得到当前状态的reward来修正整个解码神经网络，从而获得更优的解码神经网络；

3)对于要预测答案的视频和问题，根据生成的编码神经网络和解码神经网络，得到所预测的答案。

所述的步骤1)对于输入的视频及问题，训练出能够基于问题和视频信息从而自适应分段长视频，并把得到的视频分段和问题作进一步联合，得到的视频和问题的联合表达,其具体步骤为:

1.1)采用卷积神经网络提取视频的帧级别的特征表达；

1.2)对于视频相关的问题文本，通过LSTM网络，获取问题的输出状态表达；

1.3)对于1.1)中的视频的帧级别的特征表达，我们建立了一个自适应循环神经网络，该网络中带有一个二进制门函数，能够决定是否传递LSTM参数到下一个状态。当二进制门函数返回结果为1时，标志着网络对视频的这一步进行分段。

1.4)利用步骤1.3)获得的视频分段的时间特征表达，对各个时间分段，结合步骤1. 2)问题的输出状态，通过注意力模型，得到问题相关的帧级别的时间注意力视频表达；

1.5)利用步骤1.4)得到的问题相关的帧级别的时间注意力视频表达，通过LSTM网络，得到片段级别的时间特征表达，最后得到视频片段和问题的联合表达。

所述的步骤1.1)具体为：

对于视频采用预训练的2维卷积神经网络获取视频的帧级别的特征

其中N代表视频帧表达v^(f)中的帧数，

代表视频第j帧的嵌入表达。所述的步骤1.2)具体为：

对于问题文本，输入到LSTM网络中，获得问题的输出状态表达，记为

其中

为问题q的第k个单词的输出状态表达。

所述的步骤1.3)具体为：

对于步骤1.1)获得的视频的帧级别的表达

输入到LSTM网络中。LSTM的计算：假设在第t步，LSTM会计算LSTM的隐藏状态

然后结合第 t+1帧，以及偏差值b_γ计算二进制门函数的结果

其中

代表视频第j帧的嵌入表达，

和

得到的二进制门函数的输出记为 (γ₁,γ₂,...,γ_N)。

所述的步骤1.4)具体为：

由步骤1.3)我们可以得到视频的编码网络输出

计算这一帧的分值，其中

和

计算出每一帧的注意力分值。

所述的步骤1.5)具体为：

利用步骤1.4)获得的K个视频片段的时间上问题注意力的表征(s₁,s₂,...,s_k)，把这些表征送入片段级别的LSTM，我们可以获得他们的时间语义表征

因而整个自适应编码网络的输出为

所述的步骤2)是对于编码完成的得到视频问题联合表达的神经网络的输出，再与相关答案，结合强化学习的思想，来训练解码神经网络。其具体步骤为：

2.1)利用步骤1.5)得到的视频片段和问题的联合表达，在LSTM的每一步，首先基于片段和问题以及LSTM的状态，对步骤1.5)得到的片段级别的时间特征表达作一个注意力的机制。得到向量e_t。

2.2)把LSTM前一步输出和e_t作为当前步LSTM的输入。

2.3)结合策略梯度的思想，在每一步LSTM计算的时候，先通过蒙特卡洛算法采样一些结果，然后算出当前序列的得分。

2.4)在每一步，把LSTM的输出通过线性层，输出作为下一个词的可能的概率，该概率和真实答案的交叉熵再与步骤2.2)得到的得分相乘，作为这个模型的损失。

所述的步骤2.1)具体为：

首先解码器原理是通过一个LSTM在每一步产生下一个词的概率分布。其主要的原理是上一步的输出作为这一步的输入，然后进行LSTM内部的计算，得到隐含状态

和输出。把输出通过一个线性层，我们就可以得到下一个词的概率分布。

利用步骤1.5)获得的自适应编码网络的输出

假定问题的文本表征为h^(q)，解码器在第t步的隐含向量为

其中

我们能够算出每个段落对于问题生成的注意力分值

所述的步骤2.2)具体为：

利用步骤2.1)得到的视频片段的注意力表征e_t作为LSTM的输入，然后计算得出LSTM的输出，通过线性层，计算出下一个词的概率。

所述的步骤2.3)具体为：

结合强化学习的思想，我们把下一个答案单词的生成视为一个行动(action)，把在当前词序列a_1:t-1存在的情况下，下一个词a_t的概率p_θ(a_t|a_1:t-1,f(v,q))视为策略。我们选择把生成的答案

由这t-1个单词a_1:t-1能够产生的所有序列

所述的步骤2.4)具体为：

根据极大似然估计，生成答案的损失可以由下式计算：

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在自己构建的数据集上面进行实验验证，包含50000条视频片段及20000 0条文字描述。我们使用70％的数据作为训练集，10％的数据作为验证集，20％的数据作为测试集：

1)对于数据集中的每一个视频，将所有帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小，随后利用预训练好的VGGNet获取每一帧的40 96维的特征表达。

2)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地，单词集中含有5000个单词，单词向量的维度为256维。

3)对于词汇表的大小，我们把它设置成8500个，最后加上“<eos>“和”<unk> “分别代码句子的结尾符和不在词汇表的单词。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了Accuracy。对于本发明提出的AHN(D adaptive hierarchical reinforced network)分为以下2类进行测试，AHN_(ml)(在最后计算损失的时候，不采用策略梯度，而是用极大似然估计)，AHN_(rl)(在最后计算损失的时候，采用策略梯度)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化，初始的学习率设定为0.001，每一个LSTM 网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(earlystopping),批数据集大小(batch size)设为100，使用了ADAM(Adaptive MomentEstimation)的梯度下降技术，阈值

设为0.3。另外，对于数据集按照问题的分类(对象问题(Object)、数目问题(Number)、人物问题(Person)、地点问题(Location)、动作问题(Action))分别求取测试结果。按照具体实施方式中描述的步骤，所得的实验结果如表1所示：

表1本发明针对自构数据集中不同种类问题的测试结果(ACC)。

Claims

1.一种利用分层编码解码器网络机制来解决视频问答的方法，其特征在于，包括如下步骤：1)对于输入的视频及问题，训练出能够基于问题和视频信息从而自适应分段长视频，并把得到的视频分段和问题作进一步联合，得到的视频和问题的联合表达的编码神经网络，其中步骤1)是训练出一个自适应分层编码网络，它能基于输入的视频及问题，训练出自适应的分割机制，对长视频进行分割，把得到的视频分段和问题作进一步联合，得到的视频和问题的联合表达，其具体步骤为：1.1)采用卷积神经网络提取视频的帧级别的特征表达；1.2)对于视频相关的问题文本，通过LSTM网络，获取问题的输出状态表达；1.3)对于1.1)中的视频的帧级别的特征表达，建立了一个自适应循环神经网络，该网络中带有一个二进制门函数，能够决定是否传递LSTM参数到下一个状态，当二进制门函数返回结果为1时，标志着网络对视频的这一步进行分段；1.4)利用步骤1.3)获得的视频分段的时间特征表达，对各个时间分段，结合步骤1.2)问题的输出状态，通过注意力模型，得到问题相关的帧级别的时间注意力视频表达；1.5)利用步骤1.4)得到的问题相关的帧级别的时间注意力视频表达，通过LSTM网络，得到片段级别的时间特征表达，最后得到视频片段和问题的联合表达；

2)对于步骤1)所得到的视频和问题的联合表达，作为编码神经网络的输出；该输出再与相关答案一起训练解码神经网络，其中结合了强化学习的思想，通过提前采样得到当前状态的得分来修正整个解码神经网络，从而获得更优的解码神经网络，其中步骤2)是对于编码完成的得到视频问题联合表达的神经网络的输出，再与相关答案，结合强化学习的思想，来训练解码神经网络，其具体步骤为：2.1)利用步骤1.5)得到的视频片段和问题的联合表达，在LSTM的每一步，首先基于片段和问题以及LSTM的状态，对步骤1.5)得到的片段级别的时间特征表达作一个注意力的机制,得到向量e_t；2.2)把LSTM前一步输出和e_t作为当前步LSTM的输入；2.3)结合策略梯度的思想，在每一步LSTM计算的时候，先通过蒙特卡洛算法采样，然后算出当前序列的得分；2.4)在每一步，把LSTM的输出通过线性层，输出作为下一个词的可能的概率，该概率和真实答案的交叉熵再与步骤2.3)得到的得分相乘，作为这个模型的损失；

2.根据权利要求1所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.1)具体为：

对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征

其中N代表视频帧表达v^(f)中的帧数，

代表视频第j帧的嵌入表达。

3.根据权利要求2所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.2)具体为：

对于问题文本，输入到LSTM网络中，获得问题的输出状态表达，记h

其中

为问题q的第k个单词的输出状态表达。

4.根据权利要求3所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.3)具体为：

对于步骤1.1)获得的视频的帧级别的表达

输入到LSTM网络中，LSTM的计算：假设在第t步，LSTM会计算LSTM的隐藏状态

然后结合第t+1帧，以及偏差值b_γ计算二进制门函数的结果

其中

代表视频第j帧的嵌入表达，

是第t步LSTM的隐含状态；b_γ是式子的偏差值，是可训练的；δ(·)是sigmoid函数，W_γv和W_γh是可训练的矩阵，

是可训练的向量，LSTM下一步的隐藏状态和记忆部分状态由式子

和

决定，即如果门函数得出的结果是1，那么不把LSTM这一步的状态传到下一步，以此来“截断”长视频，把这一步得到的编码网络输出记为

得到的二进制门函数的输出记为(γ₁，γ₂，...，γ_N)。

5.根据权利要求4所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.4)为：

由步骤1.3)可以得到视频的编码网络输出

和二进制门函数的输出(γ₁，γ₂，...，γ_N)，二进制门函数的输出里面的值非0即1，这样可以通过结果是1的部分把长视频为成各个片段，假设当前第t步得到的γ_t等于1，那么就把之前的视频片段作一个问题相关的帧级别的注意力计算，

其中注意力的计算如下：假设当前是视频片段S_k，对于S_k里的每一帧，假设当前是第t帧是v_t，由公式

计算这一帧的分值，其中

和

是可训练的矩阵，b^(v)是可训练的偏置向量,对于每一个在视频片段S_k里的帧v_t，可以计算出对应的分值，然后由softmax函数

计算出每一帧的注意力分值，

最后可以得到视频片段S_k的基于问题注意的表征s_k，其计算方法是

如果一个长视频被模型分成了K段，那么能够得到K个视频片段的表征(S₁，S₂，...，S_k)。

6.根据权利要求5所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.5)为：

利用步骤1.4)获得的K个视频片段的时间上问题注意力的表征(S₁，S₂，...，S_k)，把这些表征送入片段级别的LSTM，可以获得时间语义表征

因而整个自适应编码网络的输出为

7.根据权利要求6所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2.1)为：

首先解码器原理是通过一个LSTM在每一步产生下一个词的概率分布，其主要的原理是上一步的输出作为这一步的输入，然后进行LSTM内部的计算，得到隐含状态

和输出，把输出通过一个线性层，就可以得到下一个词的概率分布，

利用步骤1.5)获得的自适应编码网络的输出

假定问题的文本表征为h^(q)，解码器在第t步的隐含向量为

当前是解码LSTM运行的第t步，可以计算出对于问题生成的第k个视频段落的分值：

其中

都是可训练的参数矩阵，b^(s)是可训练的偏置向量，P^(s)是可训练的参数向量，用于计算各个视频段落的注意力分值，然后通过softmax公式：

能够算出每个段落对于问题生成的注意力分值

8.根据权利要求7所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2.2)为：

9.根据权利要求8所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2.3)为：

结合强化学习的思想，把下一个答案单词的生成视为一个行动(action)，把在当前词序列a_1：t-1存在的情况下，下一个词a_t的概率P_θ(a_t|a_1：t-1，f(v，q)视为策略，选择把生成的答案

因此，假定已经生成了前t-1个单词，其序列是a_1：t-1，那么此时的状态能得到的得分应该是

由这t-1个单词a_1：t-1能够产生的所有序列

他们的得分的期望，但是如果计算期望的话，整个时间空间复杂度会指数倍增长，因此采用采样的方式，在解码器运行的每一步，进行蒙特卡洛采样，其采样过程如下，假设当前有t-1个词a_1：t-1，那么当前状态的得分由下式计算得出：

当t小于生成答案的句子长度时，会通过从t+1步开始随机采样从而生成J个答案，记为

计算这些候选答案的得分，然后取平均值当作结果，如果t等于句子长度时，则直接计算得分即可，这样就可以得到解码LSTM每一步的得分。

10.根据权利要求9所述的利用分层编码解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2.4)为：

根据极大似然估计，生成答案的损失可以由下式计算：

但是这种方法无法让解码LSTM达到最优的状态，因此结合了强化学习的思想，引入策略梯度，利用步骤2.3)得到的得分，把它和损失相乘，再求梯度，这个梯度则被称为策略梯度，计算公式如下：