CN109829049B

CN109829049B - 利用知识库渐进时空注意力网络解决视频问答任务的方法

Info

Publication number: CN109829049B
Application number: CN201910080580.2A
Authority: CN
Inventors: 赵洲; 朱超凡
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2021-06-01
Anticipated expiration: 2039-01-28
Also published as: CN109829049A

Abstract

本发明公开了一种利用知识库渐进时空注意力网络解决视频问答任务的方法，主要包括如下步骤：1)针对于所给视频、问题，获取问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码。2)利用得到的问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码，获取视频问答的答案。相比于一般的视频问答解决方案，本发明利用了知识库渐进时空注意力网络，能够更好地利用问题相关视频帧与问题相关视频画面区域。本发明在视频问答任务中所取得的效果相比于传统的方法更好。

Description

利用知识库渐进时空注意力网络解决视频问答任务的方法

技术领域

本发明涉及视频问答任务，尤其涉及一种利用知识库渐进时空注意力网络解决视频问答任务的方法。

背景技术

视频问答任务是一项十分有挑战性的任务，目前吸引了很多人的关注。在该任务中需要问答系统可以针对于某个特定视频的问题，回答用户的提问。目前视频问答任务仍然是一个较为新颖的任务，对其的研究还不像对图像问答任务那样成熟。对于图像问答任务，一般采用的方法为，将文本内容与图像内容均映射到同一个空间中，之后利用文本与图像内容的联合表达预测所给问题的正确答案。

然而视频是一个具有特定时序信息的静态图像集合，所以视频中隐藏的上下文信息与时间动态信息十分重要，不可以被忽略。此外，在视频中，还有许多视频帧是与所问问题无关的，需要在进行视频问答时给予较低的权重。

此外，在视频问答任务的视频处理时，与问题相关的视频画面区域往往只占整个视频画面区域的一小部分，需要找到问题所关注的视频画面区域。同时，为了提高视频问答的准确性，需要引入相关知识信息。为了解决上述问题，本发明使用知识库渐进时空注意力网络来解决视频问答任务，提高视频问答任务形成回答语句的准确性。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术对于视频问答无法提供较为准确的回答的问题，本发明提供一种利用知识库渐进时空注意力网络解决视频问答任务的方法。本发明所采用的具体技术方案是：

利用知识库渐进时空注意力网络解决视频问答任务的方法，包含如下步骤：

1.设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码，获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出。

2.利用步骤1中获取的结合了知识库信息的问题隐层状态输出，设计一种时空注意力单元对于视频问答任务中的视频进行编码，获取含有时空注意力信息的各个时刻视频编码。

3.利用步骤2获得的含有时空注意力信息的各个时刻视频编码，获取对应的含有时空注意力信息的视频帧第n次隐层状态输出；利用步骤1中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出，设计一种答案生成器，利用该答案生成器获得视频问答任务的答案。

上述步骤可具体采用如下实现方式：

对于视频问答任务中用户输入的问题，将问题中的各个单词利用单词映射的方式，获得问题中各个单词的映射向量q＝(q₁,q₂,...,q_n)，其中q_t代表问题中的第t个单词的映射向量，n代表问题中的单词个数。将问题中各个单词的映射向量q＝(q₁,q₂,...,q_n)依次输入到问题的长短时记忆神经网络单元LSTM_q中，获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTM_q的隐层状态输出

其中

代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTM_q中，获取的对应的隐层状态输出。n代表问题中的单词个数。

将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络，获取每个帧图像中最可能含有的5个对象物体。对于视频所有帧分别预测出的5个最可能含有的对象物体，统计出现次数最高的8个物体构成该视频的对象物体集合o_v＝(o_v1,o_v2,...,o_v8)。对于该视频的对象物体集合o_v中每个对象物体，利用DBPedia数据库分别获取每个对象物体的描述。将该视频的对象物体集合o_v中每个对象物体的描述输入到提前训练好的Doc2Vec模型中，获取该视频的对象物体集合o_v中每个对象物体的知识特征向量

其中f_i ^k代表该视频的对象物体集合o_v中第i个对象物体的知识特征向量，E＝8。

利用获取的问题每个单词的隐层状态输出

视频的对象物体集合o_v中每个对象物体的知识特征向量

按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出

其中，W、W_q、W_k代表可训练的权重矩阵，b代表可训练的偏置向量，tanh()代表双曲正切函数，exp()代表以自然底数e为底的指数运算函数，E＝8，

代表问题第t个单词的隐层状态输出，f_i ^k代表视频的对象物体集合o_v中第i个对象物体的知识特征向量。则利用如上方法可以得到结合了知识库信息的问题隐层状态输出

在一些实施例中，对于视频的每个帧图像，利用提前训练好的VGG16网络获取其对应的图像帧表达(v₁,v₂,...,v_M)，其中M代表视频中的帧图像个数，v_j代表视频第j帧对应的图像帧表达。将视频的每个帧输入到Faster-RCNN网络中，Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像。将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中，之后将RoI池化层的输出输入到多层全连接网络中进行特征提起，将多层全连接网络中fc7层的输出作为对象级别的特征表达。对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域，计算所有对象候选区域的IoU值，将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域，对于挑出的对象级别的区域找到其对应的表达。利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为

其中j代表针对的为视频的第j帧，K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数，

代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达，

利用步骤1中获得的问题每个单词的隐层状态输出

与结合了知识库信息的问题隐层状态输出

可以得到每个时刻时空注意力单元的输入(I₁,I₂,...,I_n)，其中

利用第t时刻时空注意力单元的输入I_t与对象级别的区域表达

按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达

其中，W^s、

为可训练的权重矩阵，b_s代表可训练的偏置向量，tanh()代表双曲正切函数，exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达

其中M代表视频中的帧个数。将得到的第t时刻视频各个帧的空间注意力帧表达

输入到一个双向LSTM网络中，获得第t时刻视频各个帧对应的双向LSTM网络隐层输出

利用第t时刻时空注意力单元的输入I_t与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出

按照如下公式计算得到含有时空注意力信息的第t时刻视频编码

其中，W^t、

为可训练的权重矩阵，b_t代表可训练的偏置向量，tanh()代表双曲正切函数，exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码

在一些实施例中，将步骤2得到的含有时空注意力信息的各个时刻视频编码

输入到一个LSTM网络中，获取对应的含有时空注意力信息的视频帧隐层状态输出

利用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出

问题第n个单词的隐层状态输出

与步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出

按照如下公式获得视频问答的答案，

其中，W_g为可训练的权重矩阵，b_g代表可训练的偏置向量，softmax()代表softmax函数，

代表将

与

进行连接操作，argmax()代表对于softmax函数输出各个维度概率中，将相比较其他维度概率数值大的候选答案作为对于视频问答的答案。

在进行视频问答的答案生成时，也可以使用一个LSTM网络作为答案生成器，该答案生成器使用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出

与问题第n个单词的隐层状态输出

作为初始值，步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出

作为初始输入，将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词，获取的各个单词连接起来，得到视频问答所需答案。

附图说明

图1是根据本发明的一实施例的用于解决视频问答任务的知识库渐进时空注意力网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用知识库渐进时空注意力网络解决视频问答任务的方法包括如下步骤：

1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码，获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出；

2)利用步骤1)中设计的问题方面的知识库注意力机制的输出，设计一种时空注意力单元对视频问答任务中的视频进行编码，获取含有时空注意力信息的各个时刻视频编码；

3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码，获取对应的含有时空注意力信息的视频帧第n次隐层状态输出；

利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出，设计一种答案生成器，利用该答案生成器获得视频问答任务的答案。

所述步骤1)，其具体步骤为:

对视频问答任务中用户输入的问题，将问题中的各个单词利用单词映射的方式，获得问题中各个单词的映射向量q＝(q₁,q₂,...,q_n)，其中q_t代表问题中的第t个单词的映射向量，n代表问题中的单词个数；将问题中各个单词的映射向量q＝(q₁,q₂,...,q_n)依次输入到问题的长短时记忆神经网络单元LSTM_q中，获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTM_q的隐层状态输出

其中

代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTM_q中，获取的对应的隐层状态输出；n代表问题中的单词个数；

将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络，获取每个帧图像中最可能含有的5个对象物体；对于视频所有帧分别预测出的5个最可能含有的对象物体，统计出现次数最高的8个物体构成该视频的对象物体集合o_v＝(o_v1,o_v2,...,o_v8)；对于该视频的对象物体集合o_v中每个对象物体，利用DBPedia数据库分别获取每个对象物体的描述；将该视频的对象物体集合o_v中每个对象物体的描述输入到提前训练好的Doc2Vec模型中，获取该视频的对象物体集合o_v中每个对象物体的知识特征向量

其中f_i ^k代表该视频的对象物体集合o_v中第i个对象物体的知识特征向量，E＝8；

利用获取的问题每个单词的隐层状态输出

视频的对象物体集合o_v中每个对象物体的知识特征向量

代表问题第t个单词的隐层状态输出，f_i ^k代表视频的对象物体集合o_v中第i个对象物体的知识特征向量；则利用如上方法可以得到结合了知识库信息的问题隐层状态输出

所述步骤2)，其具体步骤为:

对视频问答任务视频的每个帧图像，利用提前训练好的VGG16网络获取其对应的图像帧表达(v₁,v₂,...,v_M)，其中M代表视频中的帧图像个数，v_j代表视频第j帧对应的图像帧表达；将视频的每个帧输入到Faster-RCNN网络中，Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像；将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中，之后将RoI池化层的输出输入到多层全连接网络中进行特征提起，将多层全连接网络中fc7层的输出作为对象级别的特征表达；对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域，计算所有对象候选区域的IoU值，将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域，对于挑出的对象级别的区域找到其对应的表达；利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为

利用步骤1)中获得的问题每个单词的隐层状态输出

与结合了知识库信息的问题隐层状态输出

利用第t时刻时空注意力单元的输入I_t与对象级别的区域表达

其中，W^s、

为可训练的权重矩阵，b_s代表可训练的偏置向量，tanh()代表双曲正切函数，exp()代表以自然底数e为底的指数运算函数；则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达

其中M代表视频中的帧个数；将得到的第t时刻视频各个帧的空间注意力帧表达

其中，W^t、

为可训练的权重矩阵，b_t代表可训练的偏置向量，tanh()代表双曲正切函数，exp()代表以自然底数e为底的指数运算函数；则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码

所述步骤3)，其具体步骤为:

将步骤2)得到的含有时空注意力信息的各个时刻视频编码

利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出

问题第n个单词的隐层状态输出

与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出

按照如下公式获得视频问答的答案，

代表将

与

进行连接操作，argmax()代表对于softmax函数输出各个维度概率中，将相比较其他维度概率数值大的候选答案作为对于视频问答的答案；

在进行视频问答的答案生成时，也可以使用一个LSTM网络作为答案生成器，该答案生成器使用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出

与问题第n个单词的隐层状态输出

作为初始值，步骤3)得到的含有时空注意力信息的视频帧第n次循环隐层状态输出

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在构建的YouTubeClips实验数据集及Video-QA实验数据集上进行实验，YouTubeClips实验数据集的问题被分为“什么(what)”、“谁(who)”、“怎么(how)”、“哪里(where)”、“其他(other)”五类，Video-QA实验数据集的问题被分为“什么(what)”、“谁(who)”、“其他(other)”三类。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，对于YouTubeClips实验数据集的各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价，对于YouTubeClips实验数据集的所有实验问题不分类别地使用了准确度(Accuracy)和Wu-Palmer相似性@0.9(WUPS@0.9)这两种评价标准来对于本发明的效果进行评价。对于Video-QA实验数据集针对于开放式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价，针对于多项选择式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示，本方法表示为K-PSTANet：

表1本发明针对于YouTubeClips数据集的测试结果

表2本发明针对于Video-QA数据集的测试结果