CN109829049B - 利用知识库渐进时空注意力网络解决视频问答任务的方法 - Google Patents
利用知识库渐进时空注意力网络解决视频问答任务的方法 Download PDFInfo
- Publication number
- CN109829049B CN109829049B CN201910080580.2A CN201910080580A CN109829049B CN 109829049 B CN109829049 B CN 109829049B CN 201910080580 A CN201910080580 A CN 201910080580A CN 109829049 B CN109829049 B CN 109829049B
- Authority
- CN
- China
- Prior art keywords
- video
- question
- network
- frame
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用知识库渐进时空注意力网络解决视频问答任务的方法,主要包括如下步骤:1)针对于所给视频、问题,获取问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码。2)利用得到的问题第n个单词的隐层状态输出、结合了知识库信息的问题隐层状态输出、含有时空注意力信息的视频编码,获取视频问答的答案。相比于一般的视频问答解决方案,本发明利用了知识库渐进时空注意力网络,能够更好地利用问题相关视频帧与问题相关视频画面区域。本发明在视频问答任务中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及视频问答任务,尤其涉及一种利用知识库渐进时空注意力网络解决视频问答任务的方法。
背景技术
视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要问答系统可以针对于某个特定视频的问题,回答用户的提问。目前视频问答任务仍然是一个较为新颖的任务,对其的研究还不像对图像问答任务那样成熟。对于图像问答任务,一般采用的方法为,将文本内容与图像内容均映射到同一个空间中,之后利用文本与图像内容的联合表达预测所给问题的正确答案。
然而视频是一个具有特定时序信息的静态图像集合,所以视频中隐藏的上下文信息与时间动态信息十分重要,不可以被忽略。此外,在视频中,还有许多视频帧是与所问问题无关的,需要在进行视频问答时给予较低的权重。
此外,在视频问答任务的视频处理时,与问题相关的视频画面区域往往只占整个视频画面区域的一小部分,需要找到问题所关注的视频画面区域。同时,为了提高视频问答的准确性,需要引入相关知识信息。为了解决上述问题,本发明使用知识库渐进时空注意力网络来解决视频问答任务,提高视频问答任务形成回答语句的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频问答无法提供较为准确的回答的问题,本发明提供一种利用知识库渐进时空注意力网络解决视频问答任务的方法。本发明所采用的具体技术方案是:
利用知识库渐进时空注意力网络解决视频问答任务的方法,包含如下步骤:
1.设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出。
2.利用步骤1中获取的结合了知识库信息的问题隐层状态输出,设计一种时空注意力单元对于视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码。
3.利用步骤2获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;利用步骤1中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
上述步骤可具体采用如下实现方式:
对于视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数。将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出。n代表问题中的单词个数。
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体。对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8)。对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述。将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8。
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第i个对象物体的知识特征向量。则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
在一些实施例中,对于视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达。将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像。将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达。对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达。利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
利用步骤1中获得的问题每个单词的隐层状态输出与结合了知识库信息的问题隐层状态输出可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中利用第t时刻时空注意力单元的输入It与对象级别的区域表达按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
其中,Ws、为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数。则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达其中M代表视频中的帧个数。将得到的第t时刻视频各个帧的空间注意力帧表达输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
在一些实施例中,将步骤2得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出利用步骤1得到的结合了知识库信息的问题第n次循环隐层状态输出问题第n个单词的隐层状态输出与步骤3得到的含有时空注意力信息的视频帧第n次循环隐层状态输出按照如下公式获得视频问答的答案,
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,代表将与进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案。
附图说明
图1是根据本发明的一实施例的用于解决视频问答任务的知识库渐进时空注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用知识库渐进时空注意力网络解决视频问答任务的方法包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
所述步骤1),其具体步骤为:
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第i个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
所述步骤2),其具体步骤为:
对视频问答任务视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达;将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像;将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达;对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达;利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
利用步骤1)中获得的问题每个单词的隐层状态输出与结合了知识库信息的问题隐层状态输出可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中利用第t时刻时空注意力单元的输入It与对象级别的区域表达按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
其中,Ws、为可训练的权重矩阵,bs代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达其中M代表视频中的帧个数;将得到的第t时刻视频各个帧的空间注意力帧表达输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
所述步骤3),其具体步骤为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出问题第n个单词的隐层状态输出与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出按照如下公式获得视频问答的答案,
其中,Wg为可训练的权重矩阵,bg代表可训练的偏置向量,softmax()代表softmax函数,代表将与进行连接操作,argmax()代表对于softmax函数输出各个维度概率中,将相比较其他维度概率数值大的候选答案作为对于视频问答的答案;
在进行视频问答的答案生成时,也可以使用一个LSTM网络作为答案生成器,该答案生成器使用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出与问题第n个单词的隐层状态输出作为初始值,步骤3)得到的含有时空注意力信息的视频帧第n次循环隐层状态输出作为初始输入,将答案生成器的输出向量结合softmax函数逐次获取视频问答所求答案的每个单词,获取的各个单词连接起来,得到视频问答所需答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的YouTubeClips实验数据集及Video-QA实验数据集上进行实验,YouTubeClips实验数据集的问题被分为“什么(what)”、“谁(who)”、“怎么(how)”、“哪里(where)”、“其他(other)”五类,Video-QA实验数据集的问题被分为“什么(what)”、“谁(who)”、“其他(other)”三类。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对于YouTubeClips实验数据集的各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价,对于YouTubeClips实验数据集的所有实验问题不分类别地使用了准确度(Accuracy)和Wu-Palmer相似性@0.9(WUPS@0.9)这两种评价标准来对于本发明的效果进行评价。对于Video-QA实验数据集针对于开放式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价,针对于多项选择式视频问答任务(Open-ended VQA task)各类实验问题分别使用了准确度(Accuracy)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为K-PSTANet:
表1本发明针对于YouTubeClips数据集的测试结果
表2本发明针对于Video-QA数据集的测试结果
Claims (4)
1.利用知识库渐进时空注意力网络解决视频问答任务的方法,用于解决视频问答任务,其中视频问答任务包括用户输入的问题,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中fi k代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,fi k代表视频的对象物体集合ov中第i个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
2.根据权利要求1所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤2),具体为:
对视频问答任务视频的每个帧图像,利用提前训练好的VGG16网络获取其对应的图像帧表达(v1,v2,...,vM),其中M代表视频中的帧图像个数,vj代表视频第j帧对应的图像帧表达;将视频的每个帧输入到Faster-RCNN网络中,Faster-RCNN网络中的RPN网络利用VGG16网络作为后端网络来训练输入视频帧图像;将Faster-RCNN网络中最后一个池化层的7*7*512维特征输入到RoI池化层中,之后将RoI池化层的输出输入到多层全连接网络中进行特征提起,将多层全连接网络中fc7层的输出作为对象级别的特征表达;对于Faster-RCNN网络中的RPN网络获取的所有对象候选区域,计算所有对象候选区域的IoU值,将IoU值大于提前设定的标准值η的对象候选区域作为Faster-RCNN网络中的RPN网络获取的对象级别的区域,对于挑出的对象级别的区域找到其对应的表达;利用Faster-RCNN网络中的RPN网络获取的对象级别的区域表达表示为其中j代表针对的为视频的第j帧,K代表利用Faster-RCNN网络中的RPN网络获取的对象级别的区域个数,代表利用Faster-RCNN网络中的RPN网络获取的第k个对象级别的区域表达,
利用步骤1)中获得的问题每个单词的隐层状态输出与结合了知识库信息的问题隐层状态输出可以得到每个时刻时空注意力单元的输入(I1,I2,...,In),其中 利用第t时刻时空注意力单元的输入It与对象级别的区域表达按照如下公式计算得到第t时刻视频第j帧对应的空间注意力帧表达
其中,Ws、WI s、为可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数;则利用如上方法可以得到第t时刻视频各个帧的空间注意力帧表达其中M代表视频中的帧个数;将得到的第t时刻视频各个帧的空间注意力帧表达输入到一个双向LSTM网络中,获得第t时刻视频各个帧对应的双向LSTM网络隐层输出利用第t时刻时空注意力单元的输入It与获得的第t时刻视频各个帧对应的双向LSTM网络隐层输出按照如下公式计算得到含有时空注意力信息的第t时刻视频编码
3.根据权利要求2所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤3)具体为:
将步骤2)得到的含有时空注意力信息的各个时刻视频编码输入到一个LSTM网络中,获取对应的含有时空注意力信息的视频帧隐层状态输出利用步骤1)得到的结合了知识库信息的问题第n次循环隐层状态输出问题第n个单词的隐层状态输出与得到的含有时空注意力信息的视频帧第n次循环隐层状态输出按照如下公式获得视频问答的答案,
4.根据权利要求3所述的利用知识库渐进时空注意力网络解决视频问答任务的方法,其特征在于,所述步骤3)具体为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910080580.2A CN109829049B (zh) | 2019-01-28 | 2019-01-28 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910080580.2A CN109829049B (zh) | 2019-01-28 | 2019-01-28 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829049A CN109829049A (zh) | 2019-05-31 |
CN109829049B true CN109829049B (zh) | 2021-06-01 |
Family
ID=66862719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910080580.2A Active CN109829049B (zh) | 2019-01-28 | 2019-01-28 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829049B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263912B (zh) * | 2019-05-14 | 2021-02-26 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110516791B (zh) * | 2019-08-20 | 2022-04-22 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
CN110717024B (zh) * | 2019-10-08 | 2022-05-17 | 苏州派维斯信息科技有限公司 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
CN111008302B (zh) * | 2019-11-18 | 2022-04-29 | 浙江大学 | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 |
CN112488055B (zh) * | 2020-12-18 | 2022-09-06 | 贵州大学 | 一种基于渐进图注意力网络的视频问答方法 |
CN113536952B (zh) * | 2021-06-22 | 2023-04-21 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN113688296B (zh) * | 2021-08-10 | 2022-05-31 | 哈尔滨理工大学 | 基于多模态渐进式注意力模型解决视频问答任务的方法 |
CN114120166B (zh) * | 2021-10-14 | 2023-09-22 | 北京百度网讯科技有限公司 | 视频问答方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558750B2 (en) * | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN107463609B (zh) * | 2017-06-27 | 2020-06-19 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN108388900B (zh) * | 2018-02-05 | 2021-06-08 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
-
2019
- 2019-01-28 CN CN201910080580.2A patent/CN109829049B/zh active Active
Non-Patent Citations (2)
Title |
---|
Ask Me Anything: Free-form Visual Question Answering Based on Knoeledge from External Sources;Qi Wu,etc.;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20161212;第4622-4626页、图2、图3 * |
基于时空注意力网络的视频问答;杨启凡;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第20-40页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109829049A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829049B (zh) | 利用知识库渐进时空注意力网络解决视频问答任务的方法 | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
Yu et al. | Supervising neural attention models for video captioning by human gaze data | |
Yu et al. | A joint sequence fusion model for video question answering and retrieval | |
Michael et al. | Evaluating sequence-to-sequence models for handwritten text recognition | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN107463609B (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
Zong et al. | Domain regeneration for cross-database micro-expression recognition | |
US11288324B2 (en) | Chart question answering | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
US20230082605A1 (en) | Visual dialog method and apparatus, method and apparatus for training visual dialog model, electronic device, and computer-readable storage medium | |
CN109902164B (zh) | 利用卷积双向自注意网络解决开放长格式视频问答的方法 | |
CN108776832B (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
CN109961005A (zh) | 一种基于二维卷积网络的动态手势识别方法及系统 | |
CN108829756B (zh) | 一种利用分层注意力上下文网络解决多轮视频问答的方法 | |
CN112597966B (zh) | 一种基于比赛视频的动作自动识别方法 | |
CN109740012B (zh) | 基于深度神经网络对图像语义进行理解和问答的方法 | |
CN109871736A (zh) | 自然语言描述信息的生成方法及装置 | |
CN113849668A (zh) | 一种基于视觉语言Transformer的端到端视频时空视觉定位系统 | |
CN112860945A (zh) | 利用帧-字幕自监督进行多模态视频问答的方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
Sha et al. | Neural knowledge tracing | |
CN111767697A (zh) | 文本处理方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |