CN107463609A - 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 - Google Patents

一种使用分层时空注意力编解码器网络机制解决视频问答的方法 Download PDF

Info

Publication number
CN107463609A
CN107463609A CN201710502909.0A CN201710502909A CN107463609A CN 107463609 A CN107463609 A CN 107463609A CN 201710502909 A CN201710502909 A CN 201710502909A CN 107463609 A CN107463609 A CN 107463609A
Authority
CN
China
Prior art keywords
mrow
video
msub
msubsup
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710502909.0A
Other languages
English (en)
Other versions
CN107463609B (zh
Inventor
赵洲
孟令涛
杨启凡
肖俊
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710502909.0A priority Critical patent/CN107463609B/zh
Publication of CN107463609A publication Critical patent/CN107463609A/zh
Application granted granted Critical
Publication of CN107463609B publication Critical patent/CN107463609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种利用分层时空注意力编解码器网络机制来解决视频问答的方法。主要包括如下步骤:1)针对于一组视频、问题、答案训练集,训练时空注意力编码神经网络,学习出视频和问题的联合表达。2)对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案一起训练出解码神经网络,用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案,本发明利用时间注意力机制更好地利用了视频帧之间的序列关系,同时利用空间注意力机制精确了视频帧中的关键位置,则能够更准确地反映视频和问题的特性,并产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统的方法更好。

Description

一种使用分层时空注意力编解码器网络机制解决视频问答的 方法
技术领域
本发明涉及视频问答文本生成,尤其涉及一种利用分层时空注意力编解码器网络来生成与视频相关的问题的答案的方法。
背景技术
开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要解决的是关于静态图像相关的问答问题,针对于视频相关的问答问题,采用的方法是简单地把视频在时间上面收缩成为图像问答问题,并利用图像问答的方法来解决视频问答问题。虽然针对于静态图像问答,可以取得很好的表现结果,但是这样的方法并不能很好地利用视频中图像之间的序列关系,所以不能取得较为满意的效果。
利用时空注意力编解码网络则能很好地弥补上述解决方案的不足。目前,提出的时间注意力机制已经可以从整个视频中抓取关键帧来完成表征学习,本方法将利用时间注意力机制与视频中帧的相互序列关系来对于视频内容进行建模。本方法首先利用分层的时空注意力网络来综合地学习视频中关键帧序列及所问问题,随后通过多步的推理过程针对于之前编码的视频及相关问题生成对应的答案并且提高了所生成的答案的质量。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中无法很好地利用视频中各帧之间的相互序列关系的不足,本发明提供一种利用分层时空注意力编解码器网络来生成开放式视频问题的相关答案的方法。本发明所采用的具体技术方案是:
利用分层时空注意力编解码器网络来解决开放式视频问答问题,包含如下步骤:
1、针对于一组视频、问题、答案训练集,训练时空注意力编码神经网络,学习出视频和问题的联合表达。
2、对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案一起训练出解码神经网络,用来针对于视频和问题的联合表达输出对应的自然语言的答案。
上述步骤可具体采用如下实现方式:
1、针对于视频和答案均为有着可变长度的序列化数据,本发明选择名为“门控循环单元” (gated recurrent unit GRU)的可变循环神经网络来学习相关的特征表达,该门单元的更新方法如下:
rt=δ(Wxrxt+Whrht-1+br)
zt=δ(Wxzxt+Whzht-1+bz)
在上述公式中,xt代表输入向量,ht代表输出向量,zt代表更新门向量,rt代表重置向量,Ws和bs分别代表参数矩阵和偏置向量。
2、对于视频和答案的序列特征表达均采用有向GRU(包括正向和反向GRU,反向GRU有着和正向GRU相同的网络结构,只是输入序列进行了翻转),对于视频的正向GRU,在t时刻的隐藏层记作反向的GRU在t时刻的隐藏层记作则视频的双向GRU层的第t个隐藏状态可以表示为视频v的隐藏层可以表示为h=(h1,h2,...,hN)。
3、对于一个视频的系列帧,通过空间注意力模型,找出视频帧中与问题相关的一系列含有相关对象的候选区域,则视频帧可以由这些候选区域特征及总的帧区域特征的集合表示为F={F1,F2,...,FN},对于第j帧的特征可以表示为Fj={fj1,fj2,...,fjK},其中,fj1, fj2,…,fj(K-1)是候选的区域特征,fjK是总的区域特征。指定一个问题及第j帧的区域
特征fji∈Fj,空间注意力分数为在上面的公式中,Wqs和Wfs是参数矩阵,bs是偏置向量。针对于每一个区域特征fji,空间维度的softmax激活函数为
空间注意力帧表达为
4、对于一个视频的系列帧,本发明引入时间注意力模型来估计视频帧与所问问题的相关程度,从而获取与问题相关程度较大的视频帧。给定空间伴随的视频帧本发明学习这些帧的双向GRU层中的隐藏状态表达则在时间注意力机制下的这些帧的相关分数为
上式中,Wqt和Wht是参数矩阵,bt是偏置向量。针对于每一帧的隐藏状态
,其在时间维度上softmax激活函数为
5、为了学习关于附属的时空关系的顺序敏感性,本发明引入注意力GRU网络(下面记为aGRU网络)。aGRU网络的输入为上文中的双向GRU层中的空间附属帧的隐藏状态及估计的时间注意力分数β12,...,βN。当前的估计状态由输入为基础获得,随后aGRU网络以当前估计状态及以前的状态的混合为基础更新其隐藏状态aGRU网络更新当前状态的公式为
则视频v关于问题q的时空注意力表达为其中为aGRU网络的最后一个隐藏状态。
6、为了进一步地提高开放式视频问答的表现,本发明将多个上面提出的时空注意力网络的推理过程进行合并。给定时空网络hsp(.)、视频v、问题q,时空注意力网络的多步骤学习按照如下公式进行:
y0=q
则时空注意力网络的视频及问题的联合表达在经过第R次更新之后为
f(q,v)=yR
7、本发明中对于学习产生与视频问题相关答案的解码神经网络,按照如下方式进行:对于每一个时刻j,解码器通过如下公式计算形成第k个单词的概率值
其中,为参数向量,为解码器神经网络的第j个隐藏状态。随后按照此概率来输出最终的答案的各个单词构成与视频问题相关的答案。
相比于其他的视频问答解决方案,本发明产生的答案由于利用了视频中各个帧之间的序列关系及确定了每个帧与问题相关的相关区域,所以可以更加贴切地表达所问问题及相关的视频的内容。并且不仅对于开放式的视频问答可以利用本发明的方法,对于多项答案选择问题也可以利用本发明进行解决。
附图说明
图1是本发明所用的注意力GRU网络(aGRU)的节点更新模型示意图。
图2是本发明所使用的对于开放式视频问答问题的多层时空注意力编解码器网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1和2所示,本发明利用分层时空注意力编解码器网络机制来解决视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出含时空注意力模型的双向GRU编码神经网络来编码视频及问题;
2)对于输入的视频及问题,得到编码神经网络的输出;该输出再与相关答案一起训练出解码神经网络;
3)对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
所述的步骤1)采用双向GRU编码神经网络来提取视频及问题的时间及空间注意力帧的综合表达,其具体步骤为:
1.1)采用双向GRU提取视频和问题的序列特征表达,双向GRU的隐藏状态包括正向GRU隐藏层和反向GRU隐藏层
1.2)对于一个视频的系列帧,通过空间注意力模型,找出空间注意力帧的表达;
1.3)对于一个视频的系列帧,利用步骤2)找出的空间注意力帧的表达,引入时间注意力模型,得到时间及空间注意力帧的综合表达;
1.4)将R个步骤1.1)-1.3)描述的时空注意力网络的迭代过程进行合并,得到R次更新后的视频及问题的时间及空间注意力帧的综合表达。
所述的步骤1.1)具体为:
对于视频和答案的序列特征表达采用有向GRU来提取,所述有向GRU包括正向GRU和反向GRU,反向GRU有着和正向GRU相同的网络结构,只是输入序列进行了翻转;对于视频的正向GRU,在t时刻的隐藏层记作反向的GRU在t时刻的隐藏层记作则视频的双向GRU层的第t个隐藏状态表示为视频v的隐藏层表示为h=(h1,h2,...,hN)。
所述的步骤1.2)具体为:
对于一个视频的系列帧,通过空间注意力模型,找出视频帧中与问题相关的一系列含有相关对象的候选区域,则视频帧由这些候选区域特征及总的帧区域特征的集合表示为 F={F1,F2,...,FN},对于第j帧的特征表示为Fj={fj1,fj2,...,fjK},其中,fj1,fj2,…,fj(K-1)是候选的区域特征,fjK是总的区域特征;指定一个问题及第j帧的区域特征 fji∈Fj,空间注意力分数为
其中,tanh(.)是反正切函数,Wqs和Wfs是参数矩阵,bs是偏置向量,q为问题所代表的向量,w(s)为针对于空间注意力分数对应的系数,针对于每一个区域特征fji,空间维度的softmax激活函数为
空间注意力帧表达为
所述的步骤1.3)具体为:
对于一个视频的系列帧,引入时间注意力模型来估计视频帧与所问问题的相关程度,从而获取与问题相关程度较大的视频帧,给定空间伴随的视频帧学习这些帧的双向GRU层中的隐藏状态表达此处的h(s)即为隐藏状态h在空间注意力网络中的具体的表示;则在时间注意力模型下的这些帧的相关分数为
上式中,tanh(.)是反正切函数,Wqt和Wht是参数矩阵,bt是偏置向量,q为问题所代表的向量,w(t)为时间注意力分数对应的系数,针对于每一帧的隐藏状态,其在时间维度上softmax激活函数为
为了学习关于附属的时空关系的顺序敏感性,引入注意力GRU网络,即aGRU网络,aGRU 网络的输入为上文中的双向GRU层中的空间附属帧的隐藏状态及估计的时间注意力分数β12,...,βN,当前的估计状态输入GRU网络中自动获得,随后aGRU网络以当前估计状态及以前的状态的混合为基础更新其隐藏状态 aGRU网络更新当前状态的公式为:
则视频v关于问题q的时空注意力表达为其中为aGRU网络的最后隐藏状态,此处的为隐藏状态h在时间注意力网络中的具体的表示。
所述的步骤1.4)具体为:
将R个步骤1.1)-1.3)描述的时空注意力网络的迭代过程进行合并:给定时空网络hsp(.)、视频v、问题q,时空注意力网络的多步骤学习按照如下公式进行:
y0=q
则时空注意力网络的视频及问题的联合表达在经过第R次更新之后为
f(q,v)=yR
所述的步骤2)具体为:
对于每一个时刻j,解码神经网络通过如下公式计算形成第k个单词的概率值
其中,为参数向量,为解码神经网络的第j个隐藏状态,随后根据该概率值得到答案在每个位置预测的单词;与训练数据中真实答案在相同位置的单词做比较,根据比较的差值更新解码神经网络。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,本数据集包含201068条GIF片段及 287933条文字描述,随后本发明从视频描述中生成问题答案对。本发明的验证实验中共包含 4种问题,分别与视频的对象、数字、颜色、地点相关。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于每一个视频取25帧,并且把每一帧都重置为224×224大小,随后利用VGGNet 获取每一帧的4096维的特征表达。对于每一帧本发明选择3个区域作为候选区域。
2)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有6500个单词,单词向量的维度为256维。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy、 WUPS@0.0和WUPS@0.9来对于本发明的效果进行评价。对于本发明提出的r-STAN(reasoning Spatio-Temporal Attention Networks)根据推理的步骤数目分为r-STAN(0),r-STAN(1),r-STAN(2)分别进行测试。另外,对于视频问答数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数字问题(Number)、颜色问题(Color)、地点问题(Location))分别求取测试结果。按照具体实施方式中描述的步骤,所得的实验结果如表1-表4所示:
Method Accuracy WUPS@0.0 WUPS@0.9
r-STAN(0) 0.478 0.7601 0.5753
r-STAN(1) 0.48 0.763 0.5807
r-STAN(2) 0.4893 0.7728 0.5788
表1本发明针对于所有种类问题的测试结果
表2本发明针对于分种类问题的Accuracy维度的测试结果
表3本发明针对于分种类问题的WUPS@0.0维度的测试结果
表4本发明针对于分种类问题的WUPS@0.9维度的测试结果。

Claims (7)

1.一种利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出含时空注意力模型的双向GRU编码神经网络
来编码视频及问题;
2)对于输入的视频及问题,得到编码神经网络的输出;该输出再与相关答案一起训练出解码神经网络;
3)对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
2.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1)采用双向GRU编码神经网络来提取视频及问题的时间及空间注意力帧的综合表达,其具体步骤为:
1.1)采用双向GRU提取视频和问题的序列特征表达,双向GRU的隐藏状态包括正向GRU隐藏层和反向GRU隐藏层
1.2)对于一个视频的系列帧,通过空间注意力模型,找出空间注意力帧的表达;
1.3)对于一个视频的系列帧,利用步骤2)找出的空间注意力帧的表达,引入时间注意力模型,得到时间及空间注意力帧的综合表达;
1.4)将R个步骤1.1)-1.3)描述的时空注意力网络的迭代过程进行合并,得到R次更新后的视频及问题的时间及空间注意力帧的综合表达。
3.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于视频和答案的序列特征表达采用有向GRU来提取,所述有向GRU包括正向GRU和反向GRU,反向GRU有着和正向GRU相同的网络结构,只是输入序列进行了翻转;对于视频的正向GRU,在t时刻的隐藏层记作反向的GRU在t时刻的隐藏层记作则视频的双向GRU层的第t个隐藏状态表示为视频v的隐藏层表示为h=(h1,h2,...,hN)。
4.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.2)为:
对于一个视频的系列帧,通过空间注意力模型,找出视频帧中与问题相关的一系列含有相关对象的候选区域,则视频帧由这些候选区域特征及总的帧区域特征的集合表示为F={F1,F2,...,FN},对于第j帧的特征表示为Fj={fj1,fj2,...,fjK},其中,fj1,fj2,…,fj(K-1)是候选的区域特征,fjK是总的区域特征;指定一个问题及第j帧的区域特征fji∈Fj,空间注意力分数为
其中,tanh(.)是反正切函数,Wqs和Wfs是参数矩阵,bs是偏置向量,q为问题所代表的向量,w(s)为针对于空间注意力分数对应的系数,针对于每一个区域特征fji,空间维度的softmax激活函数为
<mrow> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>i</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> 1
空间注意力帧表达为
5.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
对于一个视频的系列帧,引入时间注意力模型来估计视频帧与所问问题的相关程度,从而获取与问题相关程度较大的视频帧,给定空间伴随的视频帧学习这些帧的双向GRU层中的隐藏状态表达此处的h(s)即为隐藏状态h在空间注意力网络中的具体的表示;则在时间注意力模型下的这些帧的相关分数为
<mrow> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mi>w</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>q</mi> <mi>t</mi> </mrow> </msub> <mi>q</mi> <mo>+</mo> <msub> <mi>W</mi> <mrow> <mi>h</mi> <mi>t</mi> </mrow> </msub> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>
上式中,tanh(.)是反正切函数,Wqt和Wht是参数矩阵,bt是偏置向量,q为问题所代表的向量,w(t)为时间注意力分数对应的系数,针对于每一帧的隐藏状态其在时间维度上softmax激活函数为
<mrow> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
为了学习关于附属的时空关系的顺序敏感性,引入注意力GRU网络,即aGRU网络,aGRU网络的输入为上文中的双向GRU层中的空间附属帧的隐藏状态及估计的时间注意力分数β12,...,βN,当前的估计状态由输入计算获得,随后aGRU网络以当前估计状态及以前的状态的混合为基础按照如下公式更新aGRU网络的隐藏状态
<mrow> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>&amp;CircleTimes;</mo> <msubsup> <mover> <mi>h</mi> <mo>~</mo> </mover> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;CircleTimes;</mo> <msubsup> <mi>h</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow>
则视频v关于问题q的时空注意力表达为其中为aGRU网络的最后隐藏状态。
6.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.4)为:
将R个步骤1.1)-1.3)描述的时空注意力网络的迭代过程进行合并:给定时空网络hsp(.)、视频v、问题q,时空注意力网络的多步骤学习按照如下公式进行:
<mrow> <msub> <mi>y</mi> <mi>r</mi> </msub> <mo>=</mo> <msub> <mi>y</mi> <mrow> <mi>r</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msubsup> <mi>h</mi> <msub> <mi>y</mi> <mrow> <mi>r</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow>
y0=q
则时空注意力网络的视频及问题的联合表达在经过第R次更新之后为
f(q,v)=yR
7.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2)为:
对于每一个时刻j,解码神经网络通过如下公式计算形成第k个单词的概率值
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>R</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>y</mi> </mrow> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </msubsup> <msub> <mi>y</mi> <mi>R</mi> </msub> <mo>+</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>h</mi> </mrow> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&amp;Sigma;</mo> <mi>k</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>y</mi> </mrow> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </msubsup> <msub> <mi>y</mi> <mi>R</mi> </msub> <mo>+</mo> <msubsup> <mi>w</mi> <mrow> <mi>k</mi> <mi>h</mi> </mrow> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,为参数向量,为解码神经网络的第j个隐藏状态,随后根据该概率值得到答案在每个位置预测的单词;与训练数据中真实答案在相同位置的单词做比较,根据比较的差值更新解码神经网络。
CN201710502909.0A 2017-06-27 2017-06-27 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 Active CN107463609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710502909.0A CN107463609B (zh) 2017-06-27 2017-06-27 一种使用分层时空注意力编解码器网络机制解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710502909.0A CN107463609B (zh) 2017-06-27 2017-06-27 一种使用分层时空注意力编解码器网络机制解决视频问答的方法

Publications (2)

Publication Number Publication Date
CN107463609A true CN107463609A (zh) 2017-12-12
CN107463609B CN107463609B (zh) 2020-06-19

Family

ID=60543845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710502909.0A Active CN107463609B (zh) 2017-06-27 2017-06-27 一种使用分层时空注意力编解码器网络机制解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN107463609B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121823A (zh) * 2018-01-11 2018-06-05 哈尔滨工业大学 Babbling情感对话生成系统及方法
CN108304506A (zh) * 2018-01-18 2018-07-20 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN108334910A (zh) * 2018-03-30 2018-07-27 国信优易数据有限公司 一种事件检测模型训练方法以及事件检测方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108875074A (zh) * 2018-07-09 2018-11-23 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN109620205A (zh) * 2018-12-26 2019-04-16 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN109840506A (zh) * 2019-02-13 2019-06-04 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111210907A (zh) * 2020-01-14 2020-05-29 西北工业大学 一种基于空时注意力机制的疼痛强度估计方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113688296A (zh) * 2021-08-10 2021-11-23 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN114120166A (zh) * 2021-10-14 2022-03-01 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135671A (zh) * 2014-07-25 2014-11-05 宁波创视信息技术有限公司 电视视频内容互动问答方法
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
US20170178531A1 (en) * 2015-12-18 2017-06-22 Eugene David SWANK Method and apparatus for adaptive learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135671A (zh) * 2014-07-25 2014-11-05 宁波创视信息技术有限公司 电视视频内容互动问答方法
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
US20170178531A1 (en) * 2015-12-18 2017-06-22 Eugene David SWANK Method and apparatus for adaptive learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨启凡: ""基于时空注意力网络的视频问答"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121823A (zh) * 2018-01-11 2018-06-05 哈尔滨工业大学 Babbling情感对话生成系统及方法
CN108304506A (zh) * 2018-01-18 2018-07-20 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108549658B (zh) * 2018-03-12 2021-11-30 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108334910A (zh) * 2018-03-30 2018-07-27 国信优易数据有限公司 一种事件检测模型训练方法以及事件检测方法
CN108334910B (zh) * 2018-03-30 2020-11-03 国信优易数据股份有限公司 一种事件检测模型训练方法以及事件检测方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108875074A (zh) * 2018-07-09 2018-11-23 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN108875074B (zh) * 2018-07-09 2021-08-10 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN109620205A (zh) * 2018-12-26 2019-04-16 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109840506B (zh) * 2019-02-13 2020-11-20 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN109840506A (zh) * 2019-02-13 2019-06-04 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN109977428B (zh) * 2019-03-29 2024-04-02 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110348462B (zh) * 2019-07-09 2022-03-04 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111008302B (zh) * 2019-11-18 2022-04-29 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111210907A (zh) * 2020-01-14 2020-05-29 西北工业大学 一种基于空时注意力机制的疼痛强度估计方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN111523410B (zh) * 2020-04-09 2022-08-26 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113688296A (zh) * 2021-08-10 2021-11-23 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN113688296B (zh) * 2021-08-10 2022-05-31 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN114120166A (zh) * 2021-10-14 2022-03-01 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107463609B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN107463609A (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN107766447A (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN109657156A (zh) 一种基于循环生成对抗网络的个性化推荐方法
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN107516110A (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN107133224A (zh) 一种基于主题词的语言生成方法
CN105069825A (zh) 基于深度置信网络的图像超分辨率重建方法
CN106951858A (zh) 一种基于深度卷积网络的人物亲缘关系识别方法与装置
CN107066445A (zh) 一种属性情感词向量的深度学习方法
CN108829756A (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN107657204A (zh) 深层网络模型的构建方法及人脸表情识别方法和系统
CN109934158A (zh) 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法
CN109597998A (zh) 一种视觉特征和语义表征联合嵌入的图像特征构建方法
CN111144553A (zh) 一种基于时空记忆注意力的图像描述方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN107423725A (zh) 一种基于混合时间卷积和循环网络的视频动作分割方法
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN106886798A (zh) 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant