CN109829049A - 利用知识库渐进时空注意力网络解决视频问答任务的方法 - Google Patents

利用知识库渐进时空注意力网络解决视频问答任务的方法 Download PDF

Info

Publication number
CN109829049A
CN109829049A CN201910080580.2A CN201910080580A CN109829049A CN 109829049 A CN109829049 A CN 109829049A CN 201910080580 A CN201910080580 A CN 201910080580A CN 109829049 A CN109829049 A CN 109829049A
Authority
CN
China
Prior art keywords
video
network
hidden layer
frame
state output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910080580.2A
Other languages
English (en)
Other versions
CN109829049B (zh
Inventor
赵洲
朱超凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yi Zhi Intelligent Technology Co Ltd
Original Assignee
Hangzhou Yi Zhi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yi Zhi Intelligent Technology Co Ltd filed Critical Hangzhou Yi Zhi Intelligent Technology Co Ltd
Priority to CN201910080580.2A priority Critical patent/CN109829049B/zh
Publication of CN109829049A publication Critical patent/CN109829049A/zh
Application granted granted Critical
Publication of CN109829049B publication Critical patent/CN109829049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用知识库渐进时空注意力网络解决视频问答任务的方法,主要包括如下步骤:1)针对于所给视频、问题,获取问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码。2)利用得到的问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码,获取视频问答的答案。相比于一般的视频问答解决方案,本发明利用了知识库渐进时空注意力网络,能够更好地利用问题相关视频帧与问题相关视频画面区域。本发明在视频问答任务中所取得的效果相比于传统的方法更好。

Description

利用知识库渐进时空注意力网络解决视频问答任务的方法
技术领域
本发明涉及视频问答任务,尤其涉及一种利用知识库渐进时空注意力网络解决视频问答任务的方法。
背景技术
视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要问答系统可以针对于某个特定视频的问题,回答用户的提问。目前视频问答任务仍然是一个较为新颖的任务,对其的研究还不像对图像问答任务那样成熟。对于图像问答任务,一般采用的方法为,将文本内容与图像内容均映射到同一个空间中,之后利用文本与图像内容的联合表达预测所给问题的正确答案。
然而视频是一个具有特定时序信息的静态图像集合,所以视频中隐藏的上下文信息与时间动态信息十分重要,不可以被忽略。此外,在视频中,还有许多视频帧是与所问问题无关的,需要在进行视频问答时给予较低的权重。
此外,在视频问答任务的视频处理时,与问题相关的视频画面区域往往只占整个视频画面区域的一小部分,需要找到问题所关注的视频画面区域。同时,为了提高视频问答的准确性,需要引入相关知识信息。为了解决上述问题,本发明使用知识库渐进时空注意力网络来解决视频问答任务,提高视频问答任务形成回答语句的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频问答无法提供较为准确的回答的问题,本发明提供一种利用知识库渐进时空注意力网络解决视频问答任务的方法。本发明所采用的具体技术方案是:
利用知识库渐进时空注意力网络解决视频问答任务的方法,包含如下步骤:
1.设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出。
2.利用步骤1中获取的结合了知识库信息的问题隐层状态输出,设计一种时空注意力单元对于视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码。
3.利用步骤2获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;利用步骤1中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
上述步骤可具体采用如下实现方式:
对于视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数。将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出。n代表问题中的单词个数。
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体。对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8)。对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述。将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8。
利用获取的问题每个单词的隐层状态输出视频的对象物体集合ov中每个对象物体的知识特征向量按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,代表视频的对象物体集合ov中第k个对象物体的知识特征向量。则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
在一些实施例中,对于视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达。将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像。将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达。对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达。利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
利用步骤1中获得的问题每个单词的隐层状态输出与结合了知识库信息的问题隐层状态输出可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中t=1,2,...,n。利用第t时刻时空注意力单元的输入It与对象级别的区域表达按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
其中,Ws为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达其中M代表视频中的帧个数。将得到的第t时刻视频各个帧的空间注意力帧表达输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
其中,Wt为可训练的权重矩阵,bt代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码
在一些实施例中,将步骤2得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出利用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出问题第n个单词的隐层状态输出与步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出按照如下公式获得视频问答的答案,
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,代表将进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案。
在进行视频问答的答案生成时,也可以使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出与问题第n个单词的隐层状态输出作为初始值,步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
附图说明
图1是根据本发明的一实施例的用于解决视频问答任务的知识库渐进时空注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用知识库渐进时空注意力网络解决视频问答任务的方法包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
所述步骤1),其具体步骤为:
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
利用获取的问题每个单词的隐层状态输出视频的对象物体集合ov中每个对象物体的知识特征向量按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,代表视频的对象物体集合ov中第k个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
所述步骤2),其具体步骤为:
对视频问答任务视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达;将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像;将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达;对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达;利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
利用步骤1)中获得的问题每个单词的隐层状态输出与结合了知识库信息的问题隐层状态输出可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中t=1,2,...,n;利用第t时刻时空注意力单元的输入It与对象级别的区域表达按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
其中,Ws为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达其中M代表视频中的帧个数;将得到的第t时刻视频各个帧的空间注意力帧表达输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
其中,Wt为可训练的权重矩阵,bt代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码
所述步骤3),其具体步骤为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出问题第n个单词的隐层状态输出与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出按照如下公式获得视频问答的答案,
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,代表将进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案;
在进行视频问答的答案生成时,也可以使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出与问题第n个单词的隐层状态输出作为初始值,步骤3)得到的含有时空注意力信息的视频帧第n次循环隐层状态输出作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的YouTubeClips实验数据集及Video-QA实验数据集上进行实验,YouTubeClips实验数据集的问题被分为“什么(what)”、“谁(who)”、“怎么(how)”、“哪里(where)”、“其他(other)”五类,Video-QA实验数据集的问题被分为“什么(what)”、“谁(who)”、“其他(other)”三类。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对于YouTubeClips实验数据集的各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价,对于YouTubeClips实验数据集的所有实验问题不分类别地使用了准确度(Accuracy)和Wu-Palmer相似性@0.9(WUPS@0.9)这两种评价标准来对于本发明的效果进行评价。对于Video-QA实验数据集针对于开放式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价,针对于多项选择式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为K-PSTANet:
表1本发明针对于YouTubeClips数据集的测试结果
表2本发明针对于Video-QA数据集的测试结果。

Claims (5)

1.利用知识库渐进时空注意力网络解决视频问答任务的方法,用于解决视频问答任务,其中视频问答任务包括用户输入的问题,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
2.根据权利要求1所述利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤1),具体为:
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
利用获取的问题每个单词的隐层状态输出视频的对象物体集合ov中每个对象物体的知识特征向量按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第k个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
3.根据权利要求1所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤2),具体为:
对视频问答任务视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达;将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像;将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达;对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达;利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
利用步骤1)中获得的问题每个单词的隐层状态输出与结合了知识库信息的问题隐层状态输出可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中t=1,2,...,n;利用第t时刻时空注意力单元的输入It与对象级别的区域表达按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
其中,Ws为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达其中M代表视频中的帧个数;将得到的第t时刻视频各个帧的空间注意力帧表达输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
其中,Wt为可训练的权重矩阵,bt代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到含有时空注意力信息的各个时刻视频编码
4.根据权利要求1到3任一所述利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤3)具体为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出问题第n个单词的隐层状态输出与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出按照如下公式获得视频问答的答案,
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,代表将进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案。
5.根据权利要求1到3任一所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤3)具体为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出在进行视频问答的答案生成时,使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出与问题第n个单词的隐层状态输出作为初始值,以及得到的含有时空注意力信息的视频帧第n次循环隐层状态输出作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
CN201910080580.2A 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法 Active CN109829049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080580.2A CN109829049B (zh) 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080580.2A CN109829049B (zh) 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法

Publications (2)

Publication Number Publication Date
CN109829049A true CN109829049A (zh) 2019-05-31
CN109829049B CN109829049B (zh) 2021-06-01

Family

ID=66862719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080580.2A Active CN109829049B (zh) 2019-01-28 2019-01-28 利用知识库渐进时空注意力网络解决视频问答任务的方法

Country Status (1)

Country Link
CN (1) CN109829049B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110717024A (zh) * 2019-10-08 2020-01-21 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113688296A (zh) * 2021-08-10 2021-11-23 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN114120166A (zh) * 2021-10-14 2022-03-01 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QI WU,ETC.: "Ask Me Anything: Free-form Visual Question Answering Based on Knoeledge from External Sources", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
杨启凡: "基于时空注意力网络的视频问答", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110717024A (zh) * 2019-10-08 2020-01-21 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111008302B (zh) * 2019-11-18 2022-04-29 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113688296A (zh) * 2021-08-10 2021-11-23 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN113688296B (zh) * 2021-08-10 2022-05-31 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN114120166A (zh) * 2021-10-14 2022-03-01 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109829049B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN109829049A (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
Zellers et al. From recognition to cognition: Visual commonsense reasoning
Dürr et al. Probabilistic deep learning: With python, keras and tensorflow probability
Bao et al. PLATO: Pre-trained dialogue generation model with discrete latent variable
Krohn et al. Deep learning illustrated: a visual, interactive guide to artificial intelligence
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
CN107038159B (zh) 一种基于无监督领域自适应的神经网络机器翻译方法
Churchland Plato's camera: How the physical brain captures a landscape of abstract universals
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN107766447A (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108334499A (zh) 一种文本标签标注设备、方法和计算设备
CN110084281A (zh) 图像生成方法、神经网络的压缩方法及相关装置、设备
CN110379225A (zh) 互动式语言习得的系统和方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN114049513A (zh) 一种基于多学生讨论的知识蒸馏方法和系统
CN108228674B (zh) 一种基于dkt的信息处理方法及装置
CN109919183A (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
KR102506132B1 (ko) 자기집중 메커니즘 기반의 개인화된 학습량 추천 방법 및 장치
CN110110800A (zh) 自动图像标注方法、装置、设备及计算机可读存储介质
CN107194438A (zh) 一种基于多重栈式自编码的深度特征表示方法
CN110852390A (zh) 一种基于校园行为序列的学生成绩分类预测方法及系统
CN106959946A (zh) 一种基于深度学习的文本语义特征生成优化方法
KR102563986B1 (ko) K-평균 알고리즘을 이용한 클러스터링과 인공지능을 동시에 활용한 학습량 추천 방법 및 장치
CN109559576A (zh) 一种儿童伴学机器人及其早教系统自学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant