CN107818306A

CN107818306A - 一种基于注意力模型的视频问答方法

Info

Publication number: CN107818306A
Application number: CN201711049905.8A
Authority: CN
Inventors: 韩亚洪; 高昆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-20
Anticipated expiration: 2037-10-31
Also published as: CN107818306B

Abstract

本发明公开了一种基于注意力模型的视频问答方法，本方法基于编码解码的框架进行设计，采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计，本方法能够有效的强化视觉信息和语义信息之间的联系。本发明自主设计帧模型来提取视频的特征向量。在编码阶段，通过长短期记忆网络学习视频的场景特征表示，并将其作为解码阶段文本模型的初始状态输入，同时，在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系，更好的解析出视频的语义信息。因此，该基于注意力模型的视频问答方法取得了良好的效果。

Description

一种基于注意力模型的视频问答方法

技术领域

本发明涉及计算机视觉、多媒体分析领域，尤其涉及一种基于注意力模型的视频问答方法。

背景技术

视频分析是计算机视觉和多媒体分析领域中一项重要的研究课题，也是目前非常有挑战性的热点问题。随着视频数据的急速增长，视频分析吸引了人们的注意力。视频问答作为视频分析的一种媒介，近年来引起了人们的大量关注。

视频问答是指对给定的视频以及针对该视频提出的问题，通过获取他们的视觉信息和语义信息，对问题给出合适的答案的过程。当人们观看一段视频时，会通过视频帧展现的场景信息来获取视频中出现的人物、物体、环境等，场景带来的视觉信息使人们对视频内容有了一个整体的了解；同时，在回答针对视频提出的问题时，人们会把注意力集中在与问题相关的视频帧中，即给予与问题相关的视频帧更多的注意力。基于这种思想，我们针对视频问答任务提出了一种基于注意力模型的视频问答方法，使得视频问答任务有了很大的提升。

近年来，深度学习在视觉任务和自然语言处理任务等方面取得的成果是视频问答任务的主要驱动力。用深度学习框架提取卷积特征应用于动作识别、图片分类和物体检测等方面；另外，循环神经网络，尤其是长短期记忆网络在自然语言处理任务中以及多种时序问题中被广泛使用。为了更好的理解视觉内容，如今最常采用的方法就是将视觉和语言进行结合。最早对视频信息有研究的领域是视频描述，即针对一段视频通过生成自然语言来描述视频的语义信息。视频描述任务的一些想法启发了我们对视频问答任务的思考。在视频描述任务中，Venugopalan等人提出了编码、解码框架，使用端到端的方法来生成视频的语义描述。其中，在视频的编码阶段，通过平均视频帧特征来表示视频，进而进行视频描述。该方法忽略了产生视频语义描述时视频帧之间的差异性。后来，Yao等人对该方法进行了改进，通过使用注意力机制，进而提高了与语义信息相关的视频帧的权重，能够更好的产生视频语义描述。在问答任务中，相比于图像问答，视频问答面临着背景噪音、视频帧之间视觉点变化、视频帧之间视觉点移动速度等问题，迫切要解决的就是有效利用视频帧之间的时间信息。

在视频问答中，如何利用视频帧之间的时间信息来获取更深层的视觉信息，以及如何将其他任务中使用的注意力机制有效的应用到视频问答任务中，是视频问答的关键和难点。本发明针对该问题，提出了一种基于注意力模型的视频问答方法。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于注意力模型的视频问答方法。本发明有效的利用视频中的场景信息，并通过注意力机制将注意力集中在与视频内容和问题相关的视频帧上，从而加大相关视频帧的权重，进而达到对视频问题进行回答的目的。

本发明的目的是通过以下技术方案实现的：

一种基于注意力模型的视频问答方法，包括以下步骤：

(1)从互联网下载视频，并对每个视频提出问题，同时针对问题给出答案，形成<视频，问答对>，构成视频问答训练集；

(2)利用视频截取工具截取视频帧，并对视频帧进行采样，每一帧都是一张静态图像；

(3)构造帧模型，逐帧处理视频帧，得到视频的特征向量；

(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示；

(5)将视频的场景特征表示作为文本模型的初始化，文本模型采用长短期记忆网络，同时，在每个节点处加入了注意力模型，通过端到端的方式进行训练，得到场景-文本模型的参数；

(6)输入待回答问题的视频的特征向量，以及待回答问题的文本特征，通过场景-文本模型预测出合适的答案。

步骤(1)包括以下步骤：

a从互联网下载常用的视频问答数据集为TACoS数据集，该数据集中的小视频构成视频集合Video＝{video₁,…,video_i,…,video_P}，其中，video_i表示第i个小视频，P表示视频总数；

b每个小视频有多个对应的问答对，视频video_i对应的问答对为其中，Q表示视频video_i对应的问答对的个数；

c通过现有的视频集合Video以及每个视频对应的问答对QA组成<视频，问答对>，构成视频问答训练集。

步骤(2)中利用视频截取工具截取视频帧时对每个视频的视频帧等间隔采样N帧。

与现有技术相比，本发明的技术方案所带来的有益效果是：

本发明方法基于编码解码的框架进行设计，采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计，本方法能够有效的强化视觉信息和语义信息之间的联系。本发明自主设计帧模型来提取视频的特征向量。在编码阶段，通过长短期记忆网络学习视频的场景特征表示，并将其作为解码阶段文本模型的初始状态输入，同时，在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系，更好的解析出视频的语义信息。因此，该基于注意力模型的视频问答方法取得了良好的效果。

附图说明

图1是本发明方法的总的概况图。

图2是本发明方法的帧模型示意图

图3是本发明方法的编码阶段示意图。

图4是本发明方法的解码阶段示意图。

图5是本发明方法的结果展示示意图。

具体实施方式

下面结合附图对本发明作进一步的描述。

图1是本发明一种基于注意力模型的视频问答方法的总的概况图。本发明基于编码解码的框架进行设计，采用端到端的方式学习视频的视觉信息和语义信息，从而达到针对给定的视频及相应的问题从选项选择出合适的答案的目的。首先，利用视频截取工具截取视频帧，并对视频帧进行采样；通过自主设计帧模型，得到视频的特征向量；在编码阶段，将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示，并将其作为解码阶段文本模型的初始化输入；文本模型采用长短期记忆网络进行设计，每个节点都有一个问题单词的输入，同时，在每个节点处加入了注意力机制；通过端到端的方式进行训练，得到场景-文本模型的参数。在测试阶段，输入待回答问题的视频的特征向量，以及待回答问题的文本特征，该场景-文本模型能够有效的选择出合适的答案。

图2是本发明一种基于注意力模型的视频问答方法的帧模型示意图。帧模型是基于卷积神经网络设计针对视频帧进行操作的。通过帧模型可以得到视频帧的特征向量表示。首先，调整视频帧的大小为H×W，然后用VGGNet网络提取最后一层卷积层(conv5_3)的特征，得到维度为c×h×w的特征图，其中c表示特征图的通道数，h×w表示每个通道上的空间大小；然后在每个通道上采取sum pooling策略得到一个维度为c的特征向量，即为视频帧的特征向量表示。

图3是本发明一种基于注意力模型的视频问答方法的编码阶段示意图。本发明的编码部分是基于长短期记忆网络进行设计。在该网络中，有一个核心单元：记忆单元c，该单元用来记录网络从当前时刻到下一时刻的状态变化，它被三个门控制：输入门i、遗忘门f和输出门o。在该网络中，σ表示sigmoid函数，tanh表示双曲正切函数，表示相关元素之间的乘积，h表示隐藏单元。在该长短期记忆网络的节点处依次输入视频帧的特征向量，并在最后一个节点得到该视频的场景特征表示。

图4是本发明一种基于注意力模型的视频问答方法的解码阶段示意图。在解码阶段，文本模型是基于长短期记忆网络进行设计的，初始状态为该视频的场景特征表示；在该网络的每个节点处依次输入问题单词的Embedding表示；同时，在每个节点处都加入了注意力机制，注意力机制是由视频的特征向量引导的，它依赖于上一时刻隐藏单元的状态h_t-1。通过注意力机制，对每个视频帧的特征向量赋予新的权重，进而对视频的特征向量加权求和生成注意力向量r_t并作为t时刻的输入。在该长短期记忆网络的最后一个节点处，得到该视频的文本特征表示。

图5是本发明一种基于注意力模型的视频问答方法的结果展示示意图。本发明的目的是对给定的视频以及针对该视频提出的问题从备选选项中选择出合适的答案。在图中，针对每个视频提出的问题有十个备选选项。通过使用该基于注意力模型的视频问答方法，从备选选项中选择出了正确答案。在图中，正确答案的前面用对号进行标记。

本实施例中选取一个视频和针对该视频提出的问题作为待处理视频问答对象，使用本发明一种基于注意力模型的视频问答方法从备选选项中选择出合适的答案。

1、从互联网下载视频，并对每个视频提出问题，同时针对问题给出答案，形成<视频，问答对>，构成视频问答训练集的步骤如下：：

(1)从互联网下载常用的视频问答数据集：TACoS数据集，构成视频集合Video＝{video₁,…,video_i,…,video_P}，其中，video_i表示第i个小视频，P表示视频总数。

在TACoS数据集中，根据问题的难易程度，把数据集分为两种：hard和easy；然后将hard和easy分别分为split₁，split₂和split₃三块，其中每一块都包括三个部分：pastpart，present past和future part；最后将past part，present part和future part分别分为训练集、验证集和测试集三部分。在本实施方式中，以hard-split₁-present part为例，即此时训练集的视频总数为：P＝14283。

(2)每个小视频都会有多个对应的问答对，视频video_i对应的问答对为其中，Q表示视频video_i对应的问答对的个数。在本实施方式中，我们对应上述视频总数P＝14283的问答对总数为

(3)通过现有的视频集合以及每个视频对应的问答对组成<视频，问答对>，构成视频问答训练集。

2、利用视频截取工具截取视频帧，并对视频帧进行采样，每一帧都是一张静态图像的步骤如下：

利用视频截取工具截取视频帧，并对每个视频的视频帧等间隔采样N帧。在本实施方式中设定N＝26。

3、构造帧模型，逐帧处理视频帧，得到视频的特征向量的步骤如下：

(1)对每个视频等间隔采样的N＝26帧逐帧进行处理。

(2)构造如图2所示的帧模型：

其中，对于视频帧f_k(k＝1,2,…,N)，尺寸调整为H×W，在本实施方式中，H＝240，W＝320；用VGGNet提取最后一层卷积层(conv5_3)的特征，得到c×h×w的特征图F_k，此时c＝512，h＝15，w＝20，其中表示通道的个数，h×w表示在每个通道上的空间大小；然后我们在每个通道上采取sum pooling策略，得到一个维度为c＝512的特征向量。公式为：

F_k＝CNN_vgg(f_k) (1)

x_k＝SumPooling(F_k) (2)

(3)由步骤(2)知，对于每一视频帧f_k(k＝1,2,…,N)，我们得到一个维度为c＝512的特征向量x_k。那么，该视频的特征向量为{x₁,…,x_k,…,x_N}，维度为N×c，其中N＝26表示视频帧的个数，c＝512表示每个视频帧特征向量的维度。

4、将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示的步骤如下：

(1)构造如图3所示的长短期记忆网络进行建模，该网络共有N个节点。在本实施方式中，我们设置N＝26。

(2)将由步骤3得到的视频的特征向量{x₁,…,x_k,…,x_N}按照顺序依次输入到长短期记忆网络的节点中。

在图3中，i_k是输入门，f_k是遗忘门，o_k是输出门，c_k是记忆单元，h_k是隐藏单元，各个状态的更新和输出可表示为：

i_k＝σ(W_xix_k+W_hih_k-1+b_i) (3)

f_k＝σ(W_xfx_k+W_hfh_k-1+b_f) (4)

o_k＝σ(W_xox_k+W_hoh_k-1+b_o) (5)

g_k＝φ(W_xgx_k+W_hgh_k-1+b_g) (6)

其中，σ(·)表示sigmoid函数，φ(·)表示双曲正切函数，表示元素之间的乘积，W_ij是需要训练的参数，b_i是偏置向量。

(3)由步骤(2)知，在第N＝26个节点，我们得到该长短期记忆网络的最后一个隐藏单元状态h_x_N和最后一个记忆单元状态c_x_N，然后将隐藏单元状态和记忆单元状态拼接起来的向量{h_x_N,c_x_N}作为该视频的场景特征表示。

在本实施方式中，该长短期记忆网络隐藏单元的维度设置为256，则视频的场景特征表示{h_x_N,c_x_N}的维度为512。

5、将视频的场景特征表示作为文本模型的初始化。文本模型采用长短期记忆网络进行设计，同时，在每个节点处加入了注意力模型。采用端到端的方式进行训练，得到场景-文本模型的参数的步骤如下：

(1)文本模型采用长短期记忆网络设计，节点个数为M。在本实施方式中，设置该记忆网络隐藏单元的维度为256，网络节点个数为M＝26。

(2)将维度为512的视频的场景特征表示{h_x_N,c_x_N}作为该文本模型的初始化输入。

(3)在该文本模型中，每个节点输入一个问题单词的特征表示。设给定的问题为q＝{q₁,q₂,…,q_m}(m≤M)，则问题单词的特征表示为：

p_i＝OH(q_i) (9)

y_i＝W_ep_i (10)

其中，p_i是问题单词q_i的one hot向量表示，W_e矩阵将one hot向量p_i转化成了d_e＝512维的Embedding向量y_i。

即，对于问题q＝{q₁,q₂,…,q_m}，我们得到了其Embedding表示{y₁,y₂,…,y_m}。

(4)在文本模型的每个节点依次输入{y₁,y₂,…,y_m}，同时，在每个节点加入注意力机制，各个状态的更新规则为：

i_t＝σ(W_xiy_t+W_hih_t-1+W_rir_t+b_i) (11)

f_t＝σ(W_xfy_t+W_hfh_t-1+W_rfr_t+b_f) (12)

o_t＝σ(W_xoy_t+W_hoh_t-1+W_ror_t+b_o) (13)

g_t＝φ(W_xgy_t+W_hgh_t-1+W_rgr_t+b_g) (14)

其中，σ(·)表示sigmoid函数，φ(·)表示双曲正切函数，表示元素之间的乘积，W_ij是需要训练的参数，b_i是偏置向量，注意力机制由r_t引入，其具体的公式如下：

其中，x_k为第k帧的特征向量，维度为c＝512，指的是在t时刻视频帧x_k的权重，该权重反映了视频帧x_k与t时刻之前输入的所有问题单词的相关性，它依赖于上一时刻h_t-1并由下面的公式得出：

其中，w表示要学习的参数，F表示由步骤3得到的维度为N×c的视频的特征向量，其中N＝26表示视频帧的个数，c＝512表示每个视频帧特征向量的维度。我们在维度为26×512的视频的特征向量上进行了二维卷积，得到了相关系数进而，对相关系数进行归一化得到了t时刻第k帧的权重

(5)由步骤(4)知，在第M＝26个节点，我们得到了该长短期记忆网络的最后一个隐藏单元状态_y_M和最后一个记忆单元状态c_y_M，其中_y_M和c_y_M的维度均为256，然后将维度为512的拼接向量{_y_M,c_y_M}作为该视频的文本特征表示。

(6)使用RMSprop梯度下降的方式优化目标函数。其中，在TACoS数据集的hard部分，除去低频出现的选项，我们设定备选选项的词典为2000。采用端到端的方式训练网络，从而得到训练后的场景-文本模型的参数。

6、输入待回答问题的视频的特征向量，以及待回答问题的文本特征，通过场景-文本模型预测出合适的答案的步骤如下：

(1)提取测试集，其中，视频集合为其中，t表示测试集视频，P_t为测试集视频的个数。我们以hard-split₁-present part为例，此时测试集的视频总数为：P_t＝2350。

(2)每个测试集小视频都会有多个对应的问答对，视频对应的问答对为其中，Q_t表示视频对应的问答对的个数。我们对应上述视频总数P_t＝2350的问答对总数为

(3)通过现有的测试集视频集合以及每个视频对应的问答对组成<视频，问答对>，构成视频问答测试集。

在本实施方式中，我们以图5左面的视频为例，说明使用该场景-文本模型选择出合适答案的步骤。

(4)利用本发明设计的帧模型提取视频的特征向量，同时，将该视频对应的问答对通过生成one-hot向量以及Embedding过程生成待输入文本特征。

(5)将视频的特征向量输入到编码阶段的长短期记忆网络中得到视频的场景特征表示，并将其作为文本模型的初始状态输入；在解码阶段的文本模型的节点处依次输入单词的特征表示，并将视频的特征向量作为注意力加入到网络的节点中，从而根据训练好的场景-文本模型选择出合适的答案。

在图5中，每个问题都有十个备选选项，我们使用训练好的场景-文本模型选择出了合适的答案，在正确答案的前面用对号进行标记。

综上：本发明针对视频问答任务提出了一种基于注意力模型的视频问答方法。本方法自主设计帧模型提取视频帧的特征向量，并通过长短期记忆网络得到视频的场景特征表示，进而作为文本模型的初始状态输入，同时，在文本模型的每个节点处引入了注意力机制，选择出与视频内容和问题相关的视频帧，加大相关视频帧的权重，有效的增强视频帧和问题之间的联系，更好的解析出视频的语义信息。因此，该基于注意力模型的视频问答方法取得了良好的效果。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

【1】S.Hochreiter and J.Schmidhuber.《长短期记忆网络》，神经计算会议，1997，9(8):1735-1780.

【2】A.Karpathy and L.Fei-Fei.《基于深度视觉语义队列的图片描述方法》，计算机视觉和模式识别会议，2015，3128-3137.

【3】L.Ma,Z.Lu,and H.Li.《基于卷积神经网络的图片问答方法》，人工智能会议，2016.

【4】M.Ren,R.Kiros,and R.Zemel.《探索多模型和多数据的图片问答方法》，神经信息处理系统会议，2015，2953-2961.

【5】K.Tu,M.Meng,M.W.Lee,T.E.Choe,and S.-C.Zhu.《联合解析视频和文本信息来理解事件和回答问题》，多媒体会议，2014，21(2):42-70.

【6】S.Venugopalan,H.Xu,J.Donahue,M.Rohrbach,R.Mooney,and K.Saenko.《基于卷积神经网络的视频描述方法》，arXiv preprint，2014.

【7】Z.Yang,X.He,J.Gao,L.Deng,and A.Smola.《堆叠的注意力网络来回答图片问题》，计算机视觉和模式识别会议，2016，21-29.

【8】L.Yao,A.Torabi,K.Cho,N.Ballas,C.Pal,H.Larochelle,and A.Courville.《基于时间的视频描述方法》，2015，4507-4515.

【9】K.-H.Zeng,T.-H.Chen,C.-Y.Chuang,Y.-H.Liao,J.C.Niebles,and M.Sun.《利用视频描述学习视频问答》，arXiv preprint，2016.

【10】L.Zhu,Z.Xu,Y.Yang,and A.G.Hauptmann.《基于时间文本的视频问答方法》，arXiv preprint，2015.

Claims

1.一种基于注意力模型的视频问答方法，其特征在于，包括以下步骤：

(3)构造帧模型，逐帧处理视频帧，得到视频的特征向量；

2.根据权利要求1所述一种基于注意力模型的视频问答方法，其特征在于，步骤(1)包括以下步骤：

3.根据权利要求1所述一种基于注意力模型的视频问答方法，其特征在于，步骤(2)中利用视频截取工具截取视频帧时对每个视频的视频帧等间隔采样N帧。