CN109829049B - 利用知识库渐进时空注意力网络解决视频问答任务的方法 - Google Patents

利用知识库渐进时空注意力网络解决视频问答任务的方法 Download PDF

Info

Publication number
CN109829049B
CN109829049B CN201910080580.2A CN201910080580A CN109829049B CN 109829049 B CN109829049 B CN 109829049B CN 201910080580 A CN201910080580 A CN 201910080580A CN 109829049 B CN109829049 B CN 109829049B
Authority
CN
China
Prior art keywords
video
question
network
frame
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910080580.2A
Other languages
English (en)
Other versions
CN109829049A (zh
Inventor
赵洲
朱超凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN201910080580.2A priority Critical patent/CN109829049B/zh
Publication of CN109829049A publication Critical patent/CN109829049A/zh
Application granted granted Critical
Publication of CN109829049B publication Critical patent/CN109829049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用知识库渐进时空注意力网络解决视频问答任务的方法,主要包括如下步骤:1)针对于所给视频、问题,获取问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码。2)利用得到的问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码,获取视频问答的答案。相比于一般的视频问答解决方案,本发明利用了知识库渐进时空注意力网络,能够更好地利用问题相关视频帧与问题相关视频画面区域。本发明在视频问答任务中所取得的效果相比于传统的方法更好。

Description

利用知识库渐进时空注意力网络解决视频问答任务的方法
技术领域
本发明涉及视频问答任务,尤其涉及一种利用知识库渐进时空注意力网络解决视频问答任务的方法。
背景技术
视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要问答系统可以针对于某个特定视频的问题,回答用户的提问。目前视频问答任务仍然是一个较为新颖的任务,对其的研究还不像对图像问答任务那样成熟。对于图像问答任务,一般采用的方法为,将文本内容与图像内容均映射到同一个空间中,之后利用文本与图像内容的联合表达预测所给问题的正确答案。
然而视频是一个具有特定时序信息的静态图像集合,所以视频中隐藏的上下文信息与时间动态信息十分重要,不可以被忽略。此外,在视频中,还有许多视频帧是与所问问题无关的,需要在进行视频问答时给予较低的权重。
此外,在视频问答任务的视频处理时,与问题相关的视频画面区域往往只占整个视频画面区域的一小部分,需要找到问题所关注的视频画面区域。同时,为了提高视频问答的准确性,需要引入相关知识信息。为了解决上述问题,本发明使用知识库渐进时空注意力网络来解决视频问答任务,提高视频问答任务形成回答语句的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频问答无法提供较为准确的回答的问题,本发明提供一种利用知识库渐进时空注意力网络解决视频问答任务的方法。本发明所采用的具体技术方案是:
利用知识库渐进时空注意力网络解决视频问答任务的方法,包含如下步骤:
1.设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出。
2.利用步骤1中获取的结合了知识库信息的问题隐层状态输出,设计一种时空注意力单元对于视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码。
3.利用步骤2获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;利用步骤1中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
上述步骤可具体采用如下实现方式:
对于视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数。将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出
Figure GDA0002635894120000031
其中
Figure GDA0002635894120000032
代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出。n代表问题中的单词个数。
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体。对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8)。对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述。将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量
Figure GDA0002635894120000033
其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8。
利用获取的问题每个单词的隐层状态输出
Figure GDA0002635894120000034
视频的对象物体集合ov中每个对象物体的知识特征向量
Figure GDA0002635894120000035
按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
Figure GDA0002635894120000036
Figure GDA0002635894120000037
Figure GDA0002635894120000041
Figure GDA0002635894120000042
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,
Figure GDA0002635894120000043
代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第i个对象物体的知识特征向量。则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
Figure GDA0002635894120000044
在一些实施例中,对于视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达。将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像。将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达。对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达。利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为
Figure GDA0002635894120000045
其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,
Figure GDA0002635894120000051
代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
Figure GDA0002635894120000052
利用步骤1中获得的问题每个单词的隐层状态输出
Figure GDA0002635894120000053
与结合了知识库信息的问题隐层状态输出
Figure GDA0002635894120000054
可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中
Figure GDA0002635894120000055
利用第t时刻时空注意力单元的输入It与对象级别的区域表达
Figure GDA0002635894120000056
按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
Figure GDA0002635894120000057
Figure GDA0002635894120000058
Figure GDA0002635894120000059
Figure GDA00026358941200000510
其中,Ws
Figure GDA00026358941200000516
为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达
Figure GDA00026358941200000512
其中M代表视频中的帧个数。将得到的第t时刻视频各个帧的空间注意力帧表达
Figure GDA00026358941200000513
输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出
Figure GDA00026358941200000514
利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出
Figure GDA00026358941200000515
按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
Figure GDA0002635894120000061
Figure GDA0002635894120000062
Figure GDA0002635894120000063
Figure GDA0002635894120000064
其中,Wt
Figure GDA0002635894120000065
为可训练的权重矩阵,bt代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码
Figure GDA0002635894120000066
在一些实施例中,将步骤2得到的含有时空注意力信息的各个时刻视频编码
Figure GDA0002635894120000067
输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出
Figure GDA0002635894120000068
利用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出
Figure GDA0002635894120000069
问题第n个单词的隐层状态输出
Figure GDA00026358941200000610
与步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出
Figure GDA00026358941200000611
按照如下公式获得视频问答的答案,
Figure GDA00026358941200000612
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,
Figure GDA00026358941200000613
代表将
Figure GDA00026358941200000614
Figure GDA00026358941200000615
进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案。
在进行视频问答的答案生成时,也可以使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出
Figure GDA0002635894120000071
与问题第n个单词的隐层状态输出
Figure GDA0002635894120000072
作为初始值,步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出
Figure GDA0002635894120000073
作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
附图说明
图1是根据本发明的一实施例的用于解决视频问答任务的知识库渐进时空注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用知识库渐进时空注意力网络解决视频问答任务的方法包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
所述步骤1),其具体步骤为:
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出
Figure GDA0002635894120000081
其中
Figure GDA0002635894120000082
代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量
Figure GDA0002635894120000091
其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
利用获取的问题每个单词的隐层状态输出
Figure GDA0002635894120000092
视频的对象物体集合ov中每个对象物体的知识特征向量
Figure GDA0002635894120000093
按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
Figure GDA0002635894120000094
Figure GDA0002635894120000095
Figure GDA0002635894120000096
Figure GDA0002635894120000097
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,
Figure GDA0002635894120000098
代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第i个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
Figure GDA0002635894120000099
所述步骤2),其具体步骤为:
对视频问答任务视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达;将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像;将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达;对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达;利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为
Figure GDA0002635894120000101
其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,
Figure GDA0002635894120000102
代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
Figure GDA0002635894120000103
利用步骤1)中获得的问题每个单词的隐层状态输出
Figure GDA0002635894120000104
与结合了知识库信息的问题隐层状态输出
Figure GDA0002635894120000105
可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中
Figure GDA0002635894120000106
利用第t时刻时空注意力单元的输入It与对象级别的区域表达
Figure GDA0002635894120000107
按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
Figure GDA0002635894120000108
Figure GDA0002635894120000109
Figure GDA00026358941200001010
Figure GDA0002635894120000111
其中,Ws
Figure GDA0002635894120000112
为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达
Figure GDA0002635894120000113
其中M代表视频中的帧个数;将得到的第t时刻视频各个帧的空间注意力帧表达
Figure GDA0002635894120000114
输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出
Figure GDA0002635894120000115
利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出
Figure GDA0002635894120000116
按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
Figure GDA0002635894120000117
Figure GDA0002635894120000118
Figure GDA0002635894120000119
Figure GDA00026358941200001110
其中,Wt
Figure GDA00026358941200001111
为可训练的权重矩阵,bt代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码
Figure GDA00026358941200001112
所述步骤3),其具体步骤为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码
Figure GDA00026358941200001113
输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出
Figure GDA0002635894120000121
利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出
Figure GDA0002635894120000122
问题第n个单词的隐层状态输出
Figure GDA0002635894120000123
与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出
Figure GDA0002635894120000124
按照如下公式获得视频问答的答案,
Figure GDA0002635894120000125
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,
Figure GDA0002635894120000126
代表将
Figure GDA0002635894120000127
Figure GDA0002635894120000128
进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案;
在进行视频问答的答案生成时,也可以使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出
Figure GDA0002635894120000129
与问题第n个单词的隐层状态输出
Figure GDA00026358941200001210
作为初始值,步骤3)得到的含有时空注意力信息的视频帧第n次循环隐层状态输出
Figure GDA00026358941200001211
作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的YouTubeClips实验数据集及Video-QA实验数据集上进行实验,YouTubeClips实验数据集的问题被分为“什么(what)”、“谁(who)”、“怎么(how)”、“哪里(where)”、“其他(other)”五类,Video-QA实验数据集的问题被分为“什么(what)”、“谁(who)”、“其他(other)”三类。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对于YouTubeClips实验数据集的各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价,对于YouTubeClips实验数据集的所有实验问题不分类别地使用了准确度(Accuracy)和Wu-Palmer相似性@0.9(WUPS@0.9)这两种评价标准来对于本发明的效果进行评价。对于Video-QA实验数据集针对于开放式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价,针对于多项选择式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为K-PSTANet:
Figure GDA0002635894120000141
表1本发明针对于YouTubeClips数据集的测试结果
Figure GDA0002635894120000142
表2本发明针对于Video-QA数据集的测试结果

Claims (4)

1.利用知识库渐进时空注意力网络解决视频问答任务的方法,用于解决视频问答任务,其中视频问答任务包括用户输入的问题,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出
Figure FDA0002967547800000011
其中
Figure FDA0002967547800000012
代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量
Figure FDA0002967547800000021
其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
利用获取的问题每个单词的隐层状态输出
Figure FDA0002967547800000022
视频的对象物体集合ov中每个对象物体的知识特征向量
Figure FDA0002967547800000023
按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
Figure FDA0002967547800000024
Figure FDA0002967547800000025
Figure FDA0002967547800000026
Figure FDA0002967547800000027
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,
Figure FDA0002967547800000028
代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第i个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
Figure FDA0002967547800000029
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
2.根据权利要求1所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤2),具体为:
对视频问答任务视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达;将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像;将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达;对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达;利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为
Figure FDA0002967547800000031
其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,
Figure FDA0002967547800000032
代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
Figure FDA0002967547800000041
利用步骤1)中获得的问题每个单词的隐层状态输出
Figure FDA0002967547800000042
与结合了知识库信息的问题隐层状态输出
Figure FDA0002967547800000043
可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中
Figure FDA0002967547800000044
Figure FDA0002967547800000045
利用第t时刻时空注意力单元的输入It与对象级别的区域表达
Figure FDA0002967547800000046
按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
Figure FDA0002967547800000047
Figure FDA0002967547800000048
Figure FDA0002967547800000049
Figure FDA00029675478000000410
其中,Ws、WI s
Figure FDA00029675478000000411
为可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达
Figure FDA00029675478000000412
其中M代表视频中的帧个数;将得到的第t时刻视频各个帧的空间注意力帧表达
Figure FDA00029675478000000413
输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出
Figure FDA00029675478000000414
利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出
Figure FDA00029675478000000415
按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
Figure FDA00029675478000000416
Figure FDA0002967547800000051
Figure FDA0002967547800000052
Figure FDA0002967547800000053
其中,Wt、WI t
Figure FDA0002967547800000054
为可训练的权重矩阵,bt代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码
Figure FDA0002967547800000055
3.根据权利要求2所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤3)具体为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码
Figure FDA0002967547800000056
输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出
Figure FDA0002967547800000057
利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出
Figure FDA0002967547800000058
问题第n个单词的隐层状态输出
Figure FDA0002967547800000059
与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出
Figure FDA00029675478000000510
按照如下公式获得视频问答的答案,
Figure FDA00029675478000000511
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,
Figure FDA00029675478000000512
代表将
Figure FDA00029675478000000513
Figure FDA00029675478000000514
进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案。
4.根据权利要求3所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤3)具体为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码
Figure FDA0002967547800000061
输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出
Figure FDA0002967547800000062
在进行视频问答的答案生成时,使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出
Figure FDA0002967547800000063
与问题第n个单词的隐层状态输出
Figure FDA0002967547800000064
作为初始值,以及得到的含有时空注意力信息的视频帧第n次循环隐层状态输出
Figure FDA0002967547800000065
作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
CN201910080580.2A 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法 Active CN109829049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080580.2A CN109829049B (zh) 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080580.2A CN109829049B (zh) 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法

Publications (2)

Publication Number Publication Date
CN109829049A CN109829049A (zh) 2019-05-31
CN109829049B true CN109829049B (zh) 2021-06-01

Family

ID=66862719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080580.2A Active CN109829049B (zh) 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法

Country Status (1)

Country Link
CN (1) CN109829049B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111008302B (zh) * 2019-11-18 2022-04-29 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113688296B (zh) * 2021-08-10 2022-05-31 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ask Me Anything: Free-form Visual Question Answering Based on Knoeledge from External Sources;Qi Wu,etc.;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20161212;第4622-4626页、图2、图3 *
基于时空注意力网络的视频问答;杨启凡;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第20-40页 *

Also Published As

Publication number Publication date
CN109829049A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829049B (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
Yu et al. Supervising neural attention models for video captioning by human gaze data
Yu et al. A joint sequence fusion model for video question answering and retrieval
Michael et al. Evaluating sequence-to-sequence models for handwritten text recognition
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
Zong et al. Domain regeneration for cross-database micro-expression recognition
US11288324B2 (en) Chart question answering
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
US20230082605A1 (en) Visual dialog method and apparatus, method and apparatus for training visual dialog model, electronic device, and computer-readable storage medium
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN108776832B (zh) 信息处理方法、装置、计算机设备和存储介质
CN109961005A (zh) 一种基于二维卷积网络的动态手势识别方法及系统
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN112597966B (zh) 一种基于比赛视频的动作自动识别方法
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN109871736A (zh) 自然语言描述信息的生成方法及装置
CN113849668A (zh) 一种基于视觉语言Transformer的端到端视频时空视觉定位系统
CN112860945A (zh) 利用帧-字幕自监督进行多模态视频问答的方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
Sha et al. Neural knowledge tracing
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant