CN108549658A

CN108549658A - 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统

Info

Publication number: CN108549658A
Application number: CN201810201163.4A
Authority: CN
Inventors: 薛弘扬; 蔡登�; 赵洲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2018-09-18
Anticipated expiration: 2038-03-12
Also published as: CN108549658B

Abstract

本发明公开了一种基于语法分析树上注意力机制的深度学习视频问答方法及系统，包括以下步骤：(1)对输入的视频序列进行采样，得到一系列视频帧，然后用预训练的卷积神经网络抽取并保存每帧视频的特征；(2)对输入的自然语言问句，利用语法树分析工具建立语法树；(3)根据语法树的结构，确定深度神经网络的结构；(4)对深度神经网络进行自底向上的计算得到最终的输出结果；(5)将建立的深度神经网络在数据集上进行训练；(6)利用训练好的模型，按步骤1至4输入数据得到输出结果，在答案库中选择问题的答案作为输出。利用本发明可以大大提高视频问答结果的准确率，尤其可以提升在复杂及较长问句上的结果。

Description

一种基于语法分析树上注意力机制的深度学习视频问答方法及系统

技术领域

本发明涉及计算机视觉和自然语言处理领域，具体涉及一种基于语法分析树上注意力机制的深度学习视频问答方法及系统。

背景技术

一直以来，计算机视觉是人工智能研究的重要方向之一。计算机视觉的终极目标是赋予计算机理解视觉信息的能力。相比于物体检测、识别，图像分割等任务，视频问答更加接近于理解视觉信息的本质。给定一段视频和一个自然语言问句，视频问答的任务是要结合这个问句和视频信息，给出问题的答案。视频问答不仅仅是通往视觉信息理解的一条重要道路，同时也在实际中有着许多重要的应用，比如应用于智能机器人与人的交互，帮助残障人士，早期教育等等。

最早的视觉问答系统，对视觉信息和自然语言问句采用独立编码的方式进行特征提取。ICCV2015年会议论文集，Vqa:Visual question answering，2425-2433页公开了一种独立编码视觉和自然语言特征，然后融合两者进行答案选择的方法——LSTM Q+norm I。该方法采用卷积神经网络提取图片特征，同时利用LSTM网络计算自然语言问句的特征，然后将两种特征拼接，最后使用全连层计算最终结果。之后出现的视觉问答方法，大多侧重于如何更好地处理视觉信息。为此，许多基于注意力机制的方法被发明出来，并且取得了显著的效果，成为了解决这类问题的主流的思路。注意力机制的本质是对输入的自然语言问句进行编码，然后在大范围的时间和空间上，摒弃大量无用的视觉信息，找到和问句相关并且对回答最有帮助的时空范围。CVPR 2016年会议论文集，Stacked attention networks forimage question answering，21-29页公开了一种针对图像的空间注意力机制。空间注意力机制将图像分划为若干区域，然后通过注意力层计算问句在不同区域上的注意力分布，得到最后的融合特征，再解码得到答案。后来，随着视觉问答系统开始考虑更加复杂的视频，研究者们将空间上的注意力机制扩展到了时间上，即计算问句在时间轴上的注意力分布。与此同时，各种各样的注意力机制也被提出来，但这些方法几乎没有考虑自然语言本身的复杂性，基本上都将整个自然语言语句视作整体。

AAAI2017年会议论文，Leveraging Video Descriptions to Learn VideoQuestion Answering，4334-4340页公开了一种基于时间注意力机制的方法E-SA和一种基于序列到序列学习的方法E-SS。其中E-SS先对视频帧和自然语言语句视作一个序列，按顺序用一个LSTM网络进行编码，随后直接解码得到答案。E-SA方法则加入了时间注意力机制，问句依然采用LSTM编码，但对问句的每个单词都需计算其在视频帧上的注意力权值分布，然后计算加权特征，最后再作为LSTM的输入。虽然E-SA方法对语句的考虑深入到了单词级别，然而更为重要的信息——语句的语法结构，依然没有被考虑。

在自然语言处理领域，许多时候，语句的语法结构被证明为更加有效，比如处理语句的情感分析等等问题。而之前视频问答的这些注意力机制，如E-SA方法，全都建立在线性结构的语句模型上，语句蕴含的大量结构信息没有被有效的利用。而在句子较长时，线性结构的有效性将急剧下降。与此同时，有些单词并没有视觉意义，它们仅仅是语言结构的一部分，因此不应该计算其在视觉空间上的注意力分布。现有的方法，如E-SA，也没有对这些单词加以区分。

发明内容

本发明提出了一种基于语法分析树上注意力机制的深度学习视频问答方法，能够考虑语句的复杂结构，区分每个单词是否应该进行注意力机制的计算，自底向上递归地计算得到自然语言和视觉数据的融合特征，然后解码得到答案。

一种基于语法分析树上注意力机制的深度学习视频问答方法，包括以下步骤：

步骤1，对输入的视频序列进行采样，得到一系列视频帧，然后利用预训练的卷积神经网络抽取每帧视频的特征，并将特征保存；

步骤2，对输入的自然语言问句，利用语法树分析工具建立对应的语法树；

步骤3，根据语法树的结构，确定深度神经网络的结构；

步骤4，对深度神经网络进行自底向上的计算得到最终的输出结果；

步骤5，将建立的深度神经网络在数据集上进行训练；

步骤6，利用训练好的模型，按步骤1至4输入数据得到输出结果，依据输出结果在候选答案库中选择问题的答案作为输出。

本方法可以大大提高视频问答结果的准确率，尤其可以提升在复杂及较长问句上的结果。

其中，步骤3的具体步骤为：

步骤3-1，根据建立的语法树，建立一个树状的深度神经网络，并在根结点处增加一个用于分类的多层感知机；

步骤3-2，利用预训练的词性分类器判断叶子结点上单词的性质是否为视觉性的，若是，则在该结点处增加注意力计算结构，若否，则不增加注意力计算结构；

步骤3-3，如果采用层次化的注意力机制，则继续判断中间结点性质，在判为视觉性的结点处增加注意力计算结构；如果不采用层次化的注意力机制，则只对叶子结点进行判断。

步骤3-2中，所述注意力计算结构公式为：

其中，h_k为结点k的隐藏层特征，T为视频的帧数，p_j为第j个视频帧的注意力分布权值，v_j为第j个视频帧的特征，p_j为p的第j个分量，p的计算公式如下：

p＝softmax(W_Ph_A)

其中，W_P为权值，h_A为注意力机制的隐藏层特征，h_A的第j个分量计算如下：

h_A，j＝tanh(W_Qh_k+W_vv_j+b_V)

其中，W_Q,W_v,b_V为权值，v_j为第j个视频帧的特征。

步骤3-3中，所述判断中间结点性质的方法为：

如果其子结点为含有视觉性的结点，则该结点也被标为视觉性，否则该结点为非视觉性的。

步骤4的具体步骤为：

步骤4-1，将叶子结点用预训练的词向量模型进行初始化；

步骤4-2，按照步骤3中确定的模型，沿着树状神经网络自底向上进行计算，直至根结点，最后得到多层感知机的输出结果。

步骤5的具体步骤为：

步骤5-1，对数据集中的数据进行预处理，确定单词表，将不在单词表中的单词去除；

步骤5-2，每次随机选择数据集中一个数据样本，按照步骤1至4计算网络的输出，然后计算损失函数；

步骤5-3，依据反向传播计算梯度，更新深度神经网络的权值；

步骤5-4，重复步骤5-2至5-3，直到深度神经网络收敛。

本发明还提出了一种基于语法分析树上注意力机制的深度学习视频问答系统，包括：

视频特征提取模块，用于对输入的视频进行采样，并利用预训练的卷积神经网络提取每帧视频的特征，并且将特征存储下来以便后续计算使用；

问句语法树解析模块，用于将输入的自然语言问句转化为对应的语法分析树，采用语法树解析工具将一个自然语言语句转化成一棵语法分析树；

词向量模块，利用词向量工具获得叶子结点单词的向量表示，作为叶子结点的输入；

词性分析模块，用于分析一个单词是否为视觉性的，以此来进一步决定所要构建的树状神经网络的结构；

注意力机制模块，计算当前的特征隐藏表示在各个视频帧上的注意力分布权重，然后依据权重加权计算新的特征表示；

树状神经网络模块，基于问句的语法树解析结果和词性分析结果构造对应的树状深度学习神经网络；

损失函数计算模块，根据训练时网络的输出结果和实际答案，计算损失函数；

训练迭代模块，依据损失函数和反向传播计算规则，计算梯度，更新网络的权值；

答案选择模块，依据树状网络最后的分类结果，在答案库中选择对应的答案作为输入问题的答案。

其中，视频特征提取模块、问句语法树解析模块、词向量模块、词性分析模块、注意力机制模块和树状神经网络模块组成本系统的核心模块。本系统包括在线训练阶段与实际应用阶段，在线训练阶段使用核心模块、损失函数计算模块与训练迭代模块；实际应用阶段使用核心模块与答案选择模块。

本发明通过对问句语法结构的分析和单词词性的分析，能够避免对非视觉性单词进行无意义的注意力计算，能够捕捉复杂语句的信息，能够避免语句过长时线性结构造成语句信息的丢失，从而提升了视频问答的结果，尤其在问句复杂及较长时，取得了显著的进步。

附图说明

图1为本发明基于语法分析树上注意力机制的深度学习视频问答方法的流程示意图；

图2为采用层次化注意力计算方式时，在TGIF-QA数据集上通过本发明方法与其他传统方法得到的在不同长度问句上的准确率直方图；

图3为采用层次化注意力计算方式时，在YouTube-QA数据集上通过本发明方法与其他传统方法得到的在不同长度问句上的准确率直方图；

图4为本发明基于语法分析树上注意力机制的深度学习视频问答系统的模块组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，一种基于语法分析树上注意力机制的深度学习视频问答方法，包括训练阶段和在线应用阶段。

训练阶段和在线应用阶段包含一系列共同的基于语法树上注意力机制的深度网络的计算步骤，包括步骤S001到S004如下：

S001，采用并得到输入视频的特征序列。对于输入的视频，我们在时间轴上等间隔采样固定数量的帧，记作{f₁,…,f_T}。然后利用预训练的卷积神经网络采样帧对应的特征{v₁,…,v_T}。

S002，对输入的自然语言问句，利用Stanford Parser得到其对应的语法分析树。根据树结构建立树状神经网络，该网络具体的计算如下，对于当前考虑的结点k，其输入h_k计算如下：

其中，h_k为结点k的隐藏层特征，W_B1,W_B2,b_B为网络的权值，所有结点共享这些权值，对这些权值利用随机方法进行初始化；C₁(k),C₂(k)分别表示结点k的属于视觉性的子结点集合和非视觉性的子结点集合；o_u,o_w为这些子结点的输出。结点k的输出o_k计算如下：

o_k＝tanh h_k

叶子结点本身就对应原始问句中的单词，因此对于叶子结点l，其输入o_l直接初始化为该单词的向量表示，利用预训练的词向量工具可获得单词的词向量。

S003，利用预先训练的简单词性分类器，首先对上述步骤中构造的树状网络的叶子结点进行词性分析。如果不采用层次化的注意力机制，则只需对叶结点进行分析。如果采用层次化的注意力机制，则继续分析中间结点。中间结点的分析方式如下：

考虑其子结点，如果含有视觉性的子结点，则该结点也被标为视觉性，否则该结点为非视觉性的。

分析完结点的视觉性以后，如果结点属于视觉性的，则在该结点处增加注意力计算的模块。需要进行注意力计算的结点，其输入需要再进行注意力计算：

h_k＝Attention(h_k)

然后才能计算其输出，其中注意力机制计算的方式如下：

p_j为第j个视频帧的注意力分布权值，v_j为第j个视频帧的特征，p_j为p的第j个分量，p的计算公式如下

p＝softmax(W_Ph_A)

W_P为权值，h_A为注意力机制的隐藏层特征，h_A的第j个分量计算如下：

h_A，j＝tanh(W_Qh_k+W_vv_j+b_V)

其中W_Q,W_v,b_V为权值，v_j为第j个视频帧的特征。

S004，依据前述的模型，按照自底向上的方式进行计算，直至根结点r，对于根结点的输出o_r，通过多层感知机MLP得到最终的输出向量：

h＝MLP(o_r)

训练阶段的目的在于利用大规模的训练数据，训练得到神经网络的最优权值，包括S101至S103以及前述的基于语法树上注意力机制的深度网络的计算步骤:

S101，从训练数据集中随机采样一组数据包括问句，视频及答案。通过前述S001至S004步骤，计算网络的输出向量h。

S102，计算损失函数。若正确答案为第i个，则计算损失函数为L＝-logh_i。计算梯度并进行反向传播，依据梯度值更新模型的所有权值。

S103，判断网络训练是否已经收敛。若是，则退出训练。否则，返回步骤S101继续训练。

在线应用阶段是要使用已经训练好的模型，给定输入问句和视频，输出问题的答案，包括S201和前述的基于语法树上注意力机制的深度网络的计算步骤：

首先通过前述S001至S004的步骤，计算网络的输出向量h。

S201，找到输出向量h最大分量对应的下标i，在答案库中选择第i个答案作为输出。

为了评价最后答案的满意度，同时解决存在近义词的答案的问题，采用多个评价指标，具体地，采用准确率和WUPS分数的方式，

准确率即为把选择答案当成分类问题，当且仅当最后得到的答案与标准答案完全一致，才算正确。WUPS得分是一种考虑了单词相似度的评价方法，取阈值为t的WUPS得分定义如下:

其中WUP是一种基于WordNet的单词相似度评价方式。

本发明充分利用了自然语言语句的结构信息，大大提高了复杂及较长问句时视频问答的准确率。

以下为本发明基于语法分析树上注意力机制的深度学习视频问答方法的一个较佳实现方式，具体过程如下：

以TGIF-QA和YouTube-QA数据集为例对本实现方式做进一步的详细说明，如表1的TGIF-QA数据集信息表和表2的YouTube-QA数据集信息表。

表1

数据集	训练集大小	验证集大小	测试集大小
				TGIF-QA	79967	19526	63101

表2

数据集	训练集大小	验证集大小	测试集大小
				YouTube-QA	24415	7684	16258

训练阶段，使用数据集中的训练集和验证集对模型进行训练。

步骤a，在训练集中随机采样一个样本。

步骤b，对视频进行均匀采样，每个视频等间隔采样60帧。利用在ImageNet上训练的ResNet-512网络抽取每一帧的特征{v₁,…,v₆₀}，这些特征的维度为4096。

步骤c，利用Stanford Parser对问句进行解析，得到语法树。在树上建立树状神经网络，网络的隐藏层大小全部设置为1024。利用实现训练好的词性分类模型，对词性进行分析，然后增加对应的注意力计算结构。在根结点后面增加一个三层感知机维度依次为1024，1024，1000。

步骤d，对叶子结点的输入进行初始化。利用word2vec工具获得单词的词向量作为叶结点的输入。然后自底向上开始计算，最后得到1000维的输出向量。

步骤e，计算损失函数，采用softmax分类作为输出，进行反向传播计算。采用ADAM策略的随机梯度下降(SGD)方法，更新模型的权值。初始的学习率设置为0.0001，ADAM策略的两个指数衰减率分别设置为0.1和0.001。

步骤f，在验证集上计算模型的准确率。判断是否收敛，若否，则返回步骤a，否则结束训练。

在线使用阶段，使用以下步骤获得答案：

步骤1，对输入视频进行均匀采样，每个视频等间隔采样60帧。利用在ImageNet上训练的ResNet-512网络抽取每一帧的特征{v₁,…,v₆₀}。

步骤2，用Stanford Parser对问句进行解析，得到语法树。在树上建立树状神经网络。利用实现训练好的词性分类模型，对词性进行分析，然后增加对应的注意力计算结构。在根结点后面增加一个三层感知机。模型的参数采用之前训练过程中得到的结果。

步骤3，对叶子结点的输入进行初始化。利用word2vec工具获得单词的词向量作为叶结点的输入。然后自底向上开始计算，最后得到1000维的输出向量。

步骤4，找到输出向量最大分量对应的下标i，在答案库中选取第i个答案作为最后的输出。

准确率即采用分类准确率，WUPS得分采用阈值为0和0.9两种。

根据上述公式，计算得到视频问答结果的准确率等指标。在同样的数据集下分别测试本发明方法(HTreeMN，HTreeMN-noh)，E-SA方法，E-SS方法和simple方法的效果。其中，HTreeMN是指本方法采用层次化注意力机制的方式，HTreeMN-noh是指本方法不采用层次化注意力机制。Simple方法为我们提供的一种不基于注意力机制的方法，它是LSTM Q+norm I图像问答方法在视频问答上的直接扩展。Simple方法在问句方面，与LSTM Q采用相同的计算方式，在视频方面，增加了一个LSTM用于融合所有视频帧的特征。所比较的E-SA方法是视频问答中现有的最好的一种基于注意力模型的方法。表3显示了在TGIF-QA数据集下，本发明方法和其他方法在准确率，WUPS@0和WUPS@0.9评价指标下的结果比较。表4显示了在YouTube-QA数据集下，本发明和其他方法的准确率，WUPS@0和WUPS@0.9的结果比较。由表3和表4可知，HTreeMN和HTreeMN-noh方法取得了远超其他方法的效果。

表3

方法	准确率	WUPS@0.0	WUPS@0.9
				Simple	0.2831	0.6079	0.2957
E-SA	0.2882	0.6085	0.3012
				E-SS	0.2811	0.5935	0.2927
HTreeMN-noh	0.3192	0.6163	0.3485
				HTreeMN	0.3233	0.6228	0.3660

表4

方法	准确率	WUPS@0.0	WUPS@0.9
				Simple	0.2676	0.5579	0.2733
E-SA	0.2703	0.5963	0.2831
				E-SS	0.2675	0.5877	0.2794
HTreeMN-noh	0.3179	0.6408	0.3357
				HTreeMN	0.3252	0.6645	0.3688

图2和图3显示了本发明方法和其他方法在不同长度问句上的表现。问句按单词的数量被划分为五种长度，分别是0-5，5-10，10-15，15-20和大于20。通过比较这些方法可知，本发明提出的方法在较长的问句上效果显著，远超其他方法。当其他方法随着问句变长效果逐渐下降时，本发明方法不会出现这种趋势。因此本发明提供的基于语法分析树上注意力机制的深度学习视频问答方法效果最好。

如图4所示，一种基于语法分析树上注意力机制的深度学习视频问答系统，包括：

核心模块，包括：

视频特征提取模块，用于对输入的视频进行采样，并利用预训练的卷积神经网络提取采样后每帧的特征，并且将特征存储下来以便后续计算使用。

问句语法树解析模块，用于将输入的自然语言问句转化为对应的语法分析树，采用语法树解析工具将一个自然语言语句转化成一棵语法分析树。

词向量模块，利用词向量工具获得叶子结点单词的向量表示作为叶子结点的输入。

词性分析模块，用于分析一个单词是否为视觉性的，以此来进一步决定所要构建的树状神经网络的结构。

注意力机制模块，计算当前的特征隐藏表示在各个视频帧上的注意力分布权重，然后依据权重加权计算新的特征表示。

树状神经网络模块，基于问句的语法树解析结果和词性分析结果构造对应的树状深度学习神经网络。首先将语法树解析模块得到的语法树转换为树状神经网络，然后按照词性分析的结果，递归地确定树的每个结点的性质——是否为视觉性。对视觉性的结点增加注意力计算模块。最后在根结点之后增加一个用于分类的多层感知机用于输出结果。

在线训练阶段，除了核心模块外，还包括：

损失函数计算模块，根据训练时网络的输出结果和实际答案，计算损失函数。

训练迭代模块，依据损失函数和反向传播计算规则，计算梯度，更新网络的权值。

实际应用阶段，除了核心模块外，还包括：

以上实施例的各种技术特征可以任意组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的一种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，都属于本发明的保护范围。

Claims

1.一种基于语法分析树上注意力机制的深度学习视频问答方法，其特征在于，包括以下步骤：

步骤3，根据语法树的结构，确定深度神经网络的结构；

步骤5，将建立的深度神经网络在数据集上进行训练；

2.根据权利要求1所述的基于语法分析树上注意力机制的深度学习视频问答方法，其特征在于，步骤3的具体步骤为：

3.根据权利要求2所述的基于语法分析树上注意力机制的深度学习视频问答方法，其特征在于，步骤3-2中，所述注意力计算结构公式为：

p＝softmax(W_Ph_A)

h_A,j＝tanh(W_Qh_k+W_vv_j+b_v)

其中，W_Q,W_v,b_V为权值，v_j为第j个视频帧的特征。

4.根据权利要求2所述的基于语法分析树上注意力机制的深度学习视频问答方法，其特征在于，步骤3-3中，所述判断中间结点性质的方法为：

5.根据权利要求1所述的基于语法分析树上注意力机制的深度学习视频问答方法，其特征在于，步骤4的具体步骤为：

步骤4-1，将叶子结点用预训练的词向量模型进行初始化；

6.根据权利要求1所述的基于语法分析树上注意力机制的深度学习视频问答方法，其特征在于，步骤5的具体步骤为：

步骤5-2，每次随机选择数据集中的一个数据样本，按照步骤1至4计算网络的输出，然后计算损失函数；

步骤5-4，重复步骤5-2至5-3，直到深度神经网络收敛。

7.一种基于语法分析树上注意力机制的深度学习视频问答系统，其特征在于，包括：

答案选择模块，依据树状网络最后的分类结果，在答案库中选择对应的答案作为输入问题的答案；

其中，视频特征提取模块、问句语法树解析模块、词向量模块、词性分析模块、注意力机制模块和树状神经网络模块组成本系统的核心模块；本系统包括在线训练阶段与实际应用阶段，在线训练阶段使用核心模块、损失函数计算模块与训练迭代模块；实际应用阶段使用核心模块与答案选择模块。