CN110990628A - 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 - Google Patents
一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 Download PDFInfo
- Publication number
- CN110990628A CN110990628A CN201911238410.9A CN201911238410A CN110990628A CN 110990628 A CN110990628 A CN 110990628A CN 201911238410 A CN201911238410 A CN 201911238410A CN 110990628 A CN110990628 A CN 110990628A
- Authority
- CN
- China
- Prior art keywords
- expression
- video
- attention
- sentence
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000014509 gene expression Effects 0.000 claims abstract description 120
- 239000013598 vector Substances 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 230000033001 locomotion Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 235000019580 granularity Nutrition 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 230000002123 temporal effect Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 101100003996 Mus musculus Atrn gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用多粒度卷积自注意网络机制来解决视频问答的方法。主要包括如下步骤:1)针对于一组视频,利用预训练好的VGG网络与3D‑Conv网络分别获得帧级别及分段级别视频表达。2)针对于对话历史的问题词嵌入和答案词嵌入以及新问题,使用多粒度卷积自注意网络机制以及句级别的语境注意力机制,得到问题相关的联合表达。3)使用问题级别的时间注意力机制以及融合注意力网络机制,得到问题相关的联合视频表达并产生针对视频所问问题答案。相比一般的视频问答解决方案,本发明利用了多粒度卷积自注意网络,能够结合可见信息与对话历史信息,产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统方法更好。
Description
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要是针对于静态图像生成相关问题的答案,取得了较好的结果,但是在视频问答的问题上仍然存在很大的挑战,如视频的可见信息与文本信息存在上下文相关性,而静态图像没有体现在这一点,忽略了很多上下文信。本发明使用自注意力机制来捕获语境信息,相比于现在基于RNN的编码输入信息的模型,本发明使用多粒度卷积自注意力机制。RNN编码信息存在梯度消失和难以并行计算的问题,本发明使用自注意力机制捕获上下文语境信息就不会出现梯度消失的问题,同时由于卷积网络的卷积运算可以进行并行计算,这就可以大大加快运算速度。最后,本发明使用了将输入信息分成多个粒度,能够获得元素级和段级的表达,能够获得更加全面的上下文信息。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中语境信息建模的问题,且针对于视频中经常包含对象物品的外表及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本发明提供一种利用多粒度卷积自注意语境网络来生成与视频相关的问题的答案的方法。本发明将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。针对视频对话中问答经常包含语境信息,本发明使用多粒度卷积网络自注意语境网络来得到有语境意识的问题联合视频表达。
本发明将先利用VGG网络与C3D网络分别提取视频的外表及动作信息,并且用多粒度卷积自注意语境网络,学习达到有语境意识的视频表达。之后逐词分析问对话历史与新输入的问题,之后利用机制获得有语境意识的对话表达以及新问题的句子级表达。之后利用问题级别的时间注意力机制,学习得到问题相关的帧级别及分段级别的视频表达。最后本发明在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习得到问题相关的联合视频表达来处理视频问答问题。
本发明所采用的具体技术方案是:
一种利用多粒度卷积自注意语境网络机制来解决视频问答的方法,包括如下步骤:
1.针对一组视频的历史对话信息以及一组新问题语句,通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达;
2.根据步骤1得到的历史对话的词嵌入表达和新问题语句的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达;
3.根据步骤2获得的历史对话的句级表达,采用联合表达机制和经遮掩后的多粒度卷积自注意单元,获得有上下文语境的历史对话表达;
4.根据步骤2获得的新问题的句级表达与步骤3获得的有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达;
5.针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达;
6.对于步骤5获得的有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。
本发明提出的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层,具体包括如下步骤:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…Xk=(xkl-l+1,xkl-l+2,…,xkl)且n=k×l;
利用自注意力单元获取每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k
其中,Q,K,V表示自注意力单元的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力单元学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
将Y输入到卷积核与步长均为l的卷积层获得有每段语境特性序列P=(p1,p2,…,pk),pi表示输入序列第i段的向量表达;同理,采用自注意力单元获得有全局语境特性序列P′=(p′1,p′2,…,p′k);
联合P′和P,通过Z′=Fusion(P,P′)获得序列Z′,其中Fusion(·)表示联合函数,Z′=Fusion(P,P′)具体展开如下:
其中,σ表示sigmoid函数,[;]表示向量的连接,表示按元素乘,为偏移向量,S,S′为0,1间是向量分数;复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
序列X,Y,Z经过融合层学习最终得到R,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
其中,R为多粒度卷积自注意单元的输出。
本发明具备的有益效果:
(1)相比于之前关注静态图像问答的研究,本发明将其扩展到视频问答的领域,由于视频具有的连续性以及相关性,本发明提出的模型能够连接连续的文本信息以及可见信息,以使视频问答的准确性更高。
(2)本发明将对话历史信息与视频信息结合起来,相比较于使用RNN直接编码信息序列,使用多粒度卷积自注意力机制能够获得包含多粒度序列信息的元素级和段级表达。
(3)现在大多数情况下,使用已有的RNN模型来对输入信息进行编码会出现梯度消失以及很难并行化的问题。本发明结合CNN于自注意力机制,CNN所进行的卷积计算是很容易并行画的,这样可以大大加快运算速度。而自注意力机制能够结合输入各个元素来生成有语境意识的信息序列表达。
(4)显然,人在对话的时候每一轮的问答之间都是存在相关性的,因此对于视频问答模型,能够结合上下文并理解上下文是解决这一问题的非常重要的一种能力。现在已有的模型中,对于上下文语境的理解是不充分的,本发明提出的多粒度自注意力机制能够很好的结合上下文的语境来给出新问题的答案。
(5)经过大量数据集的测试,相比于基于RNN的模型,本模型在时间方面更加高效,准确度方面也更高。
附图说明
图1是本发明所使用的多粒度卷积网络自注意语境网络的整体示意图;
图2是本发明所使用的MGCSA单元的操作示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用多粒度卷积自注意语境网络机制来解决视频问答的方法包括如下步骤:
步骤一、针对一组视频的历史对话信息以及一组新问题,通过词嵌入分别得到历史对话的词嵌入表达和新问题的词嵌入表达:
针对一组视频的历史对话信息,通过预训练的GloVe模型获得历史对话的词嵌入表达{(q1,a1),(q2,a2),…(qN,aN)},其中(qi,ai)中的qi和ai分别表示历史第i轮对话的问题词嵌入qi与回答词嵌入ai,N表示历史对话信息中包含N轮对话;
针对新问题语句,通过预训练的GloVe模型获得新问题语句的词嵌入表达Q=[q′1,q′2,...,q′T],其中q′i表示新问题语句中的第i个单词,T表示新问题语句中的单词的数量。
步骤二、根据历史对话的词嵌入表达和新问题的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达:
将历史对话的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出历史对话的句级表达,所述句嵌入的表达式如下:
f(xi)=softmax(W1tanh(W2xi+b1))
其中,xi表示输入元素,即qi和ai,n是输入序列的长度;W1表示权值常数的矩阵,b1表示偏移量,⊙表示按元素乘操作符,O表示句嵌入的输出,即历史第i轮对话中问题的句级表达和回答的句级表达和共同构成历史对话的句级表达;
将新问题的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出新问题的句级表达q′,所述句嵌入的表达式如下:
f(q′i)=softmax(W1tanh(W2q′i+b1))
综上,得到了历史对话的句级表达和新问题的句级表达。
步骤三、根据历史对话的句级表达,采用联合表达机制和遮掩多粒度卷积自注意力单元,获得有上下文语境的历史对话表达:
根据历史对话的句级表达,采用联合表达机制得到每一轮对话的表达ci,所述的联合表达机制的表达式为:
进一步得到历史对话表达c=(c1,c2,…,cN);
步骤四、根据新问题的句级表达与有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达:
计算对话语境的注意力表达uq:
最终获得新问题相关的视频历史对话联合表达qu:
qu=q′+uq。
步骤五、针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达:
针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征其中示视频中第i帧的外表特征,T1代表视频中取样的帧数;使用预训练的C3D网络获取视频片段级别的动作特征其中表示视频中第i段的动作特征,T2代表视频取样的分段数;
根据v′f和qu,采用时间注意力机制,得到有语境意识的视频外表特征表达;所述时间注意力机制具体包括以下步骤:
a)计算针对所给视频帧的注意力分数:
c)得到有语境意识的视频外表特征表达vqf:
同理,根据v′s、qu,以及所述的时间注意力机制,得到有语境意识的视频动作特征表达vqs;
其中,⊙为按元素乘操作符;
其中,Concat(·)是连接两个输入向量的函数,g(·)门控双曲正切激活。
步骤六、根据有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。
针对一组包含N轮对话的历史对话信息,对所有对话答案使用多粒度卷积自注意力单元学习后,得到每轮对话答案的语义表达代表第i轮对话答案的语义表达,根据每轮对话的对话答案构建成一个包含所有候选答案的答案候选集dh为答案表达的维度;
根据fquv和A,经过softmax函数获取fquv相关的候选答案集A的概率分布:
如图2所示,本发明所使用的多粒度卷积自注意单元(MGCSA单元)的操作包括如下步骤:
A、划分输入序列,采用自注意力机制学习划分好的序列提取含有语境信息的段级序列
B、利用步骤A获得的序列,经过卷积层的学习获得压缩后的有每段语境特性序列并经过自注意力机制学习得到有全局语境特性序列
C、采用步骤B)获得的序列,经过融合函数与扩展后获得输出序列
D、采用步骤A、C和输入序列,经过融合层的学习得到最终的输出序列
所述步骤A具体为:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…且n=k×l。如果输入序列分割后割断长度不相等,序列将被填充。之后每一段将利用自注意力机制来捕捉每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k
其中,Q,K,V表示自注意力机制的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力机制学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
所述步骤B具体为:
将Y输入到卷积核与步长均为l的卷积层获得一个压缩后的序列P=(p1,p2,…,pk),序列包含k个元素且每个元素可以看作原始段的向量表达。对于序列P再应用自注意力机制获得新的序列P′=(p′1,p′2,…,p′k);
所述步骤C具体为:
联合操作来联合有全局语境特性序列P′和有每段语境特性的P获得序列Z′,联合函数Z′=Fusion(P,P′),其展开形式如下:
Z′=S′⊙P′+S⊙P
其中,σ表示sigmoid函数,[;]表示向量的连接,⊙表示按元素乘,为偏移向量,S,S′为0,1间是向量分数。复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
所述步骤D具体为:
序列X,Y,Z经过融合层学习,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
最终得到MGCSA单元的输出R。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在专业众包标注公司产生的数据集上面进行实验验证,一共使用了两份数据集,分别为YouTubeClips数据集和TACoS-MultiLevel数据集,其中YouTubeClips数据集包含1987条视频片段及66806个问答对且每个视频为60帧,TACoS-MultiLevel数据集包含1303条视频片段及37228个问答对且每个视频为80帧。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有6500个单词,单词向量的维度为100维。
2)对于YouTubeClips数据集和TACoS-MultiLevel数据集的视频,把每一帧都重置为224×224大小,并利用提前训练好的VGGNet提取每帧的外表特征表达。同时用提前训练好的3D-ConvNet提取4096维的动作特征表达。特别的,每个动作特征段包含16帧,且与邻接段有8帧的重复。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了三个评估准则:MRR,P@k,MeanRank来通过与其他基准模型比较来评估本发明的效果。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1本发明针对与TACoS-MultiLevel数据集不同基准模型的测试结果
表2本发明针对于MSRVTT-QA数据集不同种类问题的测试结果
Claims (8)
1.一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,包括如下步骤:
1)针对一组视频的历史对话信息以及一组新问题语句,通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达;
2)根据步骤1)得到的历史对话的词嵌入表达和新问题语句的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达;
3)根据步骤2)获得的历史对话的句级表达,采用联合表达机制和经遮掩后的多粒度卷积自注意单元,获得有上下文语境的历史对话表达;
4)根据步骤2)获得的新问题的句级表达与步骤3)获得的有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达;
5)针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达;
6)对于步骤5)获得的有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。
2.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤1)具体为:
针对一组视频的历史对话信息,通过预训练的GloVe模型获得历史对话的词嵌入表达{(q1,a1),(q2,a2),…(qN,aN)},其中(qi,ai)中的qi和ai分别表示历史第i轮对话的问题词嵌入qi与回答词嵌入ai,N表示历史对话信息中包含N轮对话;
针对新问题语句,通过预训练的GloVe模型获得新问题语句的词嵌入表达Q=[q′1,q′2,...,q′T],其中q′i表示新问题语句中的第i个单词,T表示新问题语句中的单词的数量。
3.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层,具体包括如下步骤:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…Xk=(xkl-l+1,xkl-l+2,…,xkl)且n=k×l;
利用自注意力单元获取每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k
其中,Q,K,V表示自注意力单元的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力单元学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
将Y输入到卷积核与步长均为l的卷积层获得有每段语境特性序列P=(p1,p2,…,pk),pi表示输入序列第i段的向量表达;同理,采用自注意力单元获得有全局语境特性序列P′=(p′1,p′2,…,p′k);
联合P′和P,通过Z′=Fusion(P,P′)获得序列Z′,其中Fusion(·)表示联合函数,Z′=Fusion(P,P′)具体展开如下:
Z′=S′⊙P′+S⊙P
其中,σ表示sigmoid函数,[;]表示向量的连接,⊙表示按元素乘,为偏移向量,S,S′为0,1间是向量分数;复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
序列X,Y,Z经过融合层学习最终得到R,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
其中,R为多粒度卷积自注意单元的输出。
4.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤2)具体为:
将历史对话的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出历史对话的句级表达,所述句嵌入的表达式如下:
f(xi)=softmax(W1tanh(W2xi+b1))
其中,xi表示输入元素,即qi和ai,n是输入序列的长度;W1表示权值常数的矩阵,b1表示偏移量,⊙表示按元素乘操作符;O表示句嵌入的输出,即历史第i轮对话中问题的句级表达ri q和回答的句级表达ri q和共同构成历史对话的句级表达;
将新问题的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出新问题的句级表达q′,所述句嵌入的表达式如下:
f(q′i)=softmax(W1tanh(W2q′i+b1))
综上,得到了历史对话的句级表达和新问题的句级表达。
7.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤5)具体为:
针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征其中表示视频中第i帧的外表特征,T1代表视频中取样的帧数;使用预训练的C3D网络获取视频片段级别的动作特征其中表示视频中第i段的动作特征,T2代表视频取样的分段数;
根据v′f和qu,采用时间注意力机制,得到有语境意识的视频外表特征表达;所述时间注意力机制具体包括以下步骤:
a)计算针对所给视频帧的注意力分数:
c)得到有语境意识的视频外表特征表达vqf:
同理,根据v′s、qu、以及所述的时间注意力机制,得到有语境意识的视频动作特征表达vqs;
其中,Concat(·)是连接两个输入向量的函数,g(·)门控双曲正切激活。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911238410.9A CN110990628A (zh) | 2019-12-06 | 2019-12-06 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911238410.9A CN110990628A (zh) | 2019-12-06 | 2019-12-06 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990628A true CN110990628A (zh) | 2020-04-10 |
Family
ID=70090692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911238410.9A Withdrawn CN110990628A (zh) | 2019-12-06 | 2019-12-06 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990628A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590879A (zh) * | 2021-08-05 | 2021-11-02 | 哈尔滨理工大学 | 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质 |
CN113609330A (zh) * | 2021-07-15 | 2021-11-05 | 哈尔滨理工大学 | 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 |
CN113672711A (zh) * | 2021-08-09 | 2021-11-19 | 之江实验室 | 一种服务型机器人意图识别装置及其训练、识别方法 |
CN113901302A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN109857909A (zh) * | 2019-01-22 | 2019-06-07 | 杭州一知智能科技有限公司 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
-
2019
- 2019-12-06 CN CN201911238410.9A patent/CN110990628A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN109857909A (zh) * | 2019-01-22 | 2019-06-07 | 杭州一知智能科技有限公司 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
Non-Patent Citations (1)
Title |
---|
赵洲等: "Video Dialog via Multi-Grained Convolutional Self-Attention Context Multi-Modal Network", 《 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609330A (zh) * | 2021-07-15 | 2021-11-05 | 哈尔滨理工大学 | 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 |
CN113609330B (zh) * | 2021-07-15 | 2022-06-14 | 哈尔滨理工大学 | 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 |
CN113590879A (zh) * | 2021-08-05 | 2021-11-02 | 哈尔滨理工大学 | 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质 |
CN113672711A (zh) * | 2021-08-09 | 2021-11-19 | 之江实验室 | 一种服务型机器人意图识别装置及其训练、识别方法 |
CN113672711B (zh) * | 2021-08-09 | 2024-01-19 | 之江实验室 | 一种服务型机器人意图识别装置及其训练、识别方法 |
CN113901302A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和介质 |
CN113901302B (zh) * | 2021-09-29 | 2022-09-27 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价系统 | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN107463609B (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
CN109919221B (zh) | 基于双向双注意力机制图像描述方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113934887B (zh) | 一种基于语义解耦的无提议时序语言定位方法 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111460132A (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
AU2019101138A4 (en) | Voice interaction system for race games | |
CN109889923B (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
Lee et al. | Audio feature generation for missing modality problem in video action recognition | |
CN118051635A (zh) | 基于大语言模型的对话式图像检索方法和装置 | |
Azhar et al. | Facilitated deep learning models for image captioning | |
Chharia et al. | Deep recurrent architecture based scene description generator for visually impaired | |
CN113554040A (zh) | 一种基于条件生成对抗网络的图像描述方法、装置设备 | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN114757177B (zh) | 一种基于bart融合指针生成网络的文本摘要方法 | |
CN111243060A (zh) | 一种基于手绘图的故事性文本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200410 |
|
WW01 | Invention patent application withdrawn after publication |