CN110990628A - 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 - Google Patents

一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 Download PDF

Info

Publication number
CN110990628A
CN110990628A CN201911238410.9A CN201911238410A CN110990628A CN 110990628 A CN110990628 A CN 110990628A CN 201911238410 A CN201911238410 A CN 201911238410A CN 110990628 A CN110990628 A CN 110990628A
Authority
CN
China
Prior art keywords
expression
video
attention
sentence
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911238410.9A
Other languages
English (en)
Inventor
赵洲
李国昌
金韦克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911238410.9A priority Critical patent/CN110990628A/zh
Publication of CN110990628A publication Critical patent/CN110990628A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用多粒度卷积自注意网络机制来解决视频问答的方法。主要包括如下步骤:1)针对于一组视频,利用预训练好的VGG网络与3D‑Conv网络分别获得帧级别及分段级别视频表达。2)针对于对话历史的问题词嵌入和答案词嵌入以及新问题,使用多粒度卷积自注意网络机制以及句级别的语境注意力机制,得到问题相关的联合表达。3)使用问题级别的时间注意力机制以及融合注意力网络机制,得到问题相关的联合视频表达并产生针对视频所问问题答案。相比一般的视频问答解决方案,本发明利用了多粒度卷积自注意网络,能够结合可见信息与对话历史信息,产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统方法更好。

Description

一种利用多粒度卷积网络自注意语境网络机制解决视频问答 的方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要是针对于静态图像生成相关问题的答案,取得了较好的结果,但是在视频问答的问题上仍然存在很大的挑战,如视频的可见信息与文本信息存在上下文相关性,而静态图像没有体现在这一点,忽略了很多上下文信。本发明使用自注意力机制来捕获语境信息,相比于现在基于RNN的编码输入信息的模型,本发明使用多粒度卷积自注意力机制。RNN编码信息存在梯度消失和难以并行计算的问题,本发明使用自注意力机制捕获上下文语境信息就不会出现梯度消失的问题,同时由于卷积网络的卷积运算可以进行并行计算,这就可以大大加快运算速度。最后,本发明使用了将输入信息分成多个粒度,能够获得元素级和段级的表达,能够获得更加全面的上下文信息。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中语境信息建模的问题,且针对于视频中经常包含对象物品的外表及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本发明提供一种利用多粒度卷积自注意语境网络来生成与视频相关的问题的答案的方法。本发明将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。针对视频对话中问答经常包含语境信息,本发明使用多粒度卷积网络自注意语境网络来得到有语境意识的问题联合视频表达。
本发明将先利用VGG网络与C3D网络分别提取视频的外表及动作信息,并且用多粒度卷积自注意语境网络,学习达到有语境意识的视频表达。之后逐词分析问对话历史与新输入的问题,之后利用机制获得有语境意识的对话表达以及新问题的句子级表达。之后利用问题级别的时间注意力机制,学习得到问题相关的帧级别及分段级别的视频表达。最后本发明在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习得到问题相关的联合视频表达来处理视频问答问题。
本发明所采用的具体技术方案是:
一种利用多粒度卷积自注意语境网络机制来解决视频问答的方法,包括如下步骤:
1.针对一组视频的历史对话信息以及一组新问题语句,通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达;
2.根据步骤1得到的历史对话的词嵌入表达和新问题语句的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达;
3.根据步骤2获得的历史对话的句级表达,采用联合表达机制和经遮掩后的多粒度卷积自注意单元,获得有上下文语境的历史对话表达;
4.根据步骤2获得的新问题的句级表达与步骤3获得的有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达;
5.针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达;
6.对于步骤5获得的有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。
本发明提出的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层,具体包括如下步骤:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…Xk=(xkl-l+1,xkl-l+2,…,xkl)且n=k×l;
利用自注意力单元获取每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k
Figure BDA0002305501410000021
其中,Q,K,V表示自注意力单元的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力单元学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
将Y输入到卷积核与步长均为l的卷积层获得有每段语境特性序列P=(p1,p2,…,pk),pi表示输入序列第i段的向量表达;同理,采用自注意力单元获得有全局语境特性序列P′=(p′1,p′2,…,p′k);
联合P′和P,通过Z′=Fusion(P,P′)获得序列Z′,其中Fusion(·)表示联合函数,Z′=Fusion(P,P′)具体展开如下:
Figure BDA0002305501410000031
Figure BDA0002305501410000032
Figure BDA0002305501410000033
其中,σ表示sigmoid函数,[;]表示向量的连接,
Figure BDA0002305501410000034
表示按元素乘,
Figure BDA0002305501410000035
为偏移向量,S,S′为0,1间是向量分数;复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
序列X,Y,Z经过融合层学习最终得到R,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
其中,R为多粒度卷积自注意单元的输出。
本发明具备的有益效果:
(1)相比于之前关注静态图像问答的研究,本发明将其扩展到视频问答的领域,由于视频具有的连续性以及相关性,本发明提出的模型能够连接连续的文本信息以及可见信息,以使视频问答的准确性更高。
(2)本发明将对话历史信息与视频信息结合起来,相比较于使用RNN直接编码信息序列,使用多粒度卷积自注意力机制能够获得包含多粒度序列信息的元素级和段级表达。
(3)现在大多数情况下,使用已有的RNN模型来对输入信息进行编码会出现梯度消失以及很难并行化的问题。本发明结合CNN于自注意力机制,CNN所进行的卷积计算是很容易并行画的,这样可以大大加快运算速度。而自注意力机制能够结合输入各个元素来生成有语境意识的信息序列表达。
(4)显然,人在对话的时候每一轮的问答之间都是存在相关性的,因此对于视频问答模型,能够结合上下文并理解上下文是解决这一问题的非常重要的一种能力。现在已有的模型中,对于上下文语境的理解是不充分的,本发明提出的多粒度自注意力机制能够很好的结合上下文的语境来给出新问题的答案。
(5)经过大量数据集的测试,相比于基于RNN的模型,本模型在时间方面更加高效,准确度方面也更高。
附图说明
图1是本发明所使用的多粒度卷积网络自注意语境网络的整体示意图;
图2是本发明所使用的MGCSA单元的操作示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用多粒度卷积自注意语境网络机制来解决视频问答的方法包括如下步骤:
步骤一、针对一组视频的历史对话信息以及一组新问题,通过词嵌入分别得到历史对话的词嵌入表达和新问题的词嵌入表达:
针对一组视频的历史对话信息,通过预训练的GloVe模型获得历史对话的词嵌入表达{(q1,a1),(q2,a2),…(qN,aN)},其中(qi,ai)中的qi和ai分别表示历史第i轮对话的问题词嵌入qi与回答词嵌入ai,N表示历史对话信息中包含N轮对话;
针对新问题语句,通过预训练的GloVe模型获得新问题语句的词嵌入表达Q=[q′1,q′2,...,q′T],其中q′i表示新问题语句中的第i个单词,T表示新问题语句中的单词的数量。
步骤二、根据历史对话的词嵌入表达和新问题的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达:
将历史对话的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出历史对话的句级表达,所述句嵌入的表达式如下:
f(xi)=softmax(W1tanh(W2xi+b1))
Figure BDA0002305501410000041
其中,xi表示输入元素,即qi和ai,n是输入序列的长度;W1表示权值常数的矩阵,b1表示偏移量,⊙表示按元素乘操作符,O表示句嵌入的输出,即历史第i轮对话中问题的句级表达
Figure BDA0002305501410000042
和回答的句级表达
Figure BDA0002305501410000043
Figure BDA0002305501410000044
共同构成历史对话的句级表达;
将新问题的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出新问题的句级表达q′,所述句嵌入的表达式如下:
f(q′i)=softmax(W1tanh(W2q′i+b1))
Figure BDA0002305501410000045
综上,得到了历史对话的句级表达和新问题的句级表达。
步骤三、根据历史对话的句级表达,采用联合表达机制和遮掩多粒度卷积自注意力单元,获得有上下文语境的历史对话表达:
根据历史对话的句级表达,采用联合表达机制得到每一轮对话的表达ci,所述的联合表达机制的表达式为:
Figure BDA0002305501410000051
其中,
Figure BDA0002305501410000052
Figure BDA0002305501410000053
为用来融合问题与答案表达的推测矩阵,d为
Figure BDA0002305501410000054
的维度,dc为联合表达的维度,tanh为元素级的双曲正切函数;
进一步得到历史对话表达c=(c1,c2,…,cN);
根据c,采用多粒度卷积自注意力单元,经过遮掩,得到有上下文语境的历史对话表达u=(u1,u2,…,uN),
Figure BDA0002305501410000055
步骤四、根据新问题的句级表达与有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达:
根据新问题的句级表达q′和有上下文语境的历史对话表达u,计算历史第i轮对话与新问题之间的注意力分值
Figure BDA0002305501410000056
Figure BDA0002305501410000057
其中,
Figure BDA0002305501410000058
为参数矩阵,
Figure BDA0002305501410000059
为参数向量,
Figure BDA00023055014100000510
为偏移向量,dm为中间量维度;
Figure BDA00023055014100000511
作为输入,使用softmax函数生成激活值
Figure BDA00023055014100000512
Figure BDA00023055014100000513
计算对话语境的注意力表达uq
Figure BDA00023055014100000514
最终获得新问题相关的视频历史对话联合表达qu
qu=q′+uq
步骤五、针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达:
针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征
Figure BDA00023055014100000515
其中
Figure BDA00023055014100000516
示视频中第i帧的外表特征,T1代表视频中取样的帧数;使用预训练的C3D网络获取视频片段级别的动作特征
Figure BDA00023055014100000517
其中
Figure BDA00023055014100000518
表示视频中第i段的动作特征,T2代表视频取样的分段数;
根据vf和vs,采用多粒度卷积自注意单元分别得到外表特征的多粒度表达
Figure BDA00023055014100000519
Figure BDA00023055014100000520
和动作特征的多粒度表达
Figure BDA00023055014100000521
根据v′f和qu,采用时间注意力机制,得到有语境意识的视频外表特征表达;所述时间注意力机制具体包括以下步骤:
a)计算针对所给视频帧的注意力分数:
Figure BDA0002305501410000061
其中,
Figure BDA0002305501410000062
为参数矩阵,
Figure BDA0002305501410000063
为参数向量,
Figure BDA0002305501410000064
为偏移向量,dn为中间量维度,df为外表特征维度;
b)根据
Figure BDA0002305501410000065
采用softmax函数计算针对视频帧生成的激活值为:
Figure BDA0002305501410000066
c)得到有语境意识的视频外表特征表达vqf
Figure BDA0002305501410000067
同理,根据v′s、qu,以及所述的时间注意力机制,得到有语境意识的视频动作特征表达vqs
根据vqf和vqs,进一步得到有语境意识的视频表达
Figure BDA0002305501410000068
Figure BDA0002305501410000069
其中,⊙为按元素乘操作符;
根据
Figure BDA00023055014100000610
和qu,由如下公式进行联合,得到有语境意识的新问题相关的联合视频表达fquv
Figure BDA00023055014100000611
其中,Concat(·)是连接两个输入向量的函数,g(·)门控双曲正切激活。
步骤六、根据有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。
针对一组包含N轮对话的历史对话信息,对所有对话答案使用多粒度卷积自注意力单元学习后,得到每轮对话答案的语义表达
Figure BDA00023055014100000612
代表第i轮对话答案的语义表达,根据每轮对话的对话答案构建成一个包含所有候选答案的答案候选集
Figure BDA00023055014100000613
dh为答案表达的维度;
根据fquv和A,经过softmax函数获取fquv相关的候选答案集A的概率分布:
Figure BDA00023055014100000614
取pa向量中的最大元素对应的
Figure BDA00023055014100000615
作为最终答案。
如图2所示,本发明所使用的多粒度卷积自注意单元(MGCSA单元)的操作包括如下步骤:
A、划分输入序列,采用自注意力机制学习划分好的序列提取含有语境信息的段级序列
B、利用步骤A获得的序列,经过卷积层的学习获得压缩后的有每段语境特性序列并经过自注意力机制学习得到有全局语境特性序列
C、采用步骤B)获得的序列,经过融合函数与扩展后获得输出序列
D、采用步骤A、C和输入序列,经过融合层的学习得到最终的输出序列
所述步骤A具体为:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…且n=k×l。如果输入序列分割后割断长度不相等,序列将被填充。之后每一段将利用自注意力机制来捕捉每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k
Figure BDA0002305501410000071
其中,Q,K,V表示自注意力机制的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力机制学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
所述步骤B具体为:
将Y输入到卷积核与步长均为l的卷积层获得一个压缩后的序列P=(p1,p2,…,pk),序列包含k个元素且每个元素可以看作原始段的向量表达。对于序列P再应用自注意力机制获得新的序列P′=(p′1,p′2,…,p′k);
所述步骤C具体为:
联合操作来联合有全局语境特性序列P′和有每段语境特性的P获得序列Z′,联合函数Z′=Fusion(P,P′),其展开形式如下:
Figure BDA0002305501410000072
Figure BDA0002305501410000073
Z′=S′⊙P′+S⊙P
其中,σ表示sigmoid函数,[;]表示向量的连接,⊙表示按元素乘,
Figure BDA0002305501410000074
为偏移向量,S,S′为0,1间是向量分数。复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
所述步骤D具体为:
序列X,Y,Z经过融合层学习,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
最终得到MGCSA单元的输出R。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在专业众包标注公司产生的数据集上面进行实验验证,一共使用了两份数据集,分别为YouTubeClips数据集和TACoS-MultiLevel数据集,其中YouTubeClips数据集包含1987条视频片段及66806个问答对且每个视频为60帧,TACoS-MultiLevel数据集包含1303条视频片段及37228个问答对且每个视频为80帧。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有6500个单词,单词向量的维度为100维。
2)对于YouTubeClips数据集和TACoS-MultiLevel数据集的视频,把每一帧都重置为224×224大小,并利用提前训练好的VGGNet提取每帧的外表特征表达。同时用提前训练好的3D-ConvNet提取4096维的动作特征表达。特别的,每个动作特征段包含16帧,且与邻接段有8帧的重复。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了三个评估准则:MRR,P@k,MeanRank来通过与其他基准模型比较来评估本发明的效果。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1本发明针对与TACoS-MultiLevel数据集不同基准模型的测试结果
Figure BDA0002305501410000081
表2本发明针对于MSRVTT-QA数据集不同种类问题的测试结果
Figure BDA0002305501410000091

Claims (8)

1.一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,包括如下步骤:
1)针对一组视频的历史对话信息以及一组新问题语句,通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达;
2)根据步骤1)得到的历史对话的词嵌入表达和新问题语句的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达;
3)根据步骤2)获得的历史对话的句级表达,采用联合表达机制和经遮掩后的多粒度卷积自注意单元,获得有上下文语境的历史对话表达;
4)根据步骤2)获得的新问题的句级表达与步骤3)获得的有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达;
5)针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达;
6)对于步骤5)获得的有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。
2.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤1)具体为:
针对一组视频的历史对话信息,通过预训练的GloVe模型获得历史对话的词嵌入表达{(q1,a1),(q2,a2),…(qN,aN)},其中(qi,ai)中的qi和ai分别表示历史第i轮对话的问题词嵌入qi与回答词嵌入ai,N表示历史对话信息中包含N轮对话;
针对新问题语句,通过预训练的GloVe模型获得新问题语句的词嵌入表达Q=[q′1,q′2,...,q′T],其中q′i表示新问题语句中的第i个单词,T表示新问题语句中的单词的数量。
3.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层,具体包括如下步骤:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…Xk=(xkl-l+1,xkl-l+2,…,xkl)且n=k×l;
利用自注意力单元获取每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k
Figure FDA0002305501400000021
其中,Q,K,V表示自注意力单元的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力单元学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
将Y输入到卷积核与步长均为l的卷积层获得有每段语境特性序列P=(p1,p2,…,pk),pi表示输入序列第i段的向量表达;同理,采用自注意力单元获得有全局语境特性序列P′=(p′1,p′2,…,p′k);
联合P′和P,通过Z′=Fusion(P,P′)获得序列Z′,其中Fusion(·)表示联合函数,Z′=Fusion(P,P′)具体展开如下:
Figure FDA0002305501400000022
Figure FDA0002305501400000023
Z′=S′⊙P′+S⊙P
其中,σ表示sigmoid函数,[;]表示向量的连接,⊙表示按元素乘,
Figure FDA0002305501400000024
为偏移向量,S,S′为0,1间是向量分数;复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
序列X,Y,Z经过融合层学习最终得到R,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
其中,R为多粒度卷积自注意单元的输出。
4.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤2)具体为:
将历史对话的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出历史对话的句级表达,所述句嵌入的表达式如下:
f(xi)=softmax(W1tanh(W2xi+b1))
Figure FDA0002305501400000025
其中,xi表示输入元素,即qi和ai,n是输入序列的长度;W1表示权值常数的矩阵,b1表示偏移量,⊙表示按元素乘操作符;O表示句嵌入的输出,即历史第i轮对话中问题的句级表达ri q和回答的句级表达
Figure FDA0002305501400000026
ri q
Figure FDA0002305501400000027
共同构成历史对话的句级表达;
将新问题的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出新问题的句级表达q′,所述句嵌入的表达式如下:
f(q′i)=softmax(W1tanh(W2q′i+b1))
Figure FDA0002305501400000031
综上,得到了历史对话的句级表达和新问题的句级表达。
5.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤3)具体为:
根据历史对话的句级表达,采用联合表达机制得到每一轮对话的表达ci,所述的联合表达机制的表达式为:
Figure FDA0002305501400000032
其中,
Figure FDA0002305501400000033
Figure FDA0002305501400000034
为用来融合问题与答案表达的推测矩阵,d为ri q
Figure FDA00023055014000000316
的维度,dc为联合表达的维度,tanh为元素级的双曲正切函数;
进一步得到历史对话表达c=(c1,c2,…,cN);
根据c,采用多粒度卷积自注意力单元,经过遮掩后得到有上下文语境的历史对话表达u=(u1,u2,…,uN),
Figure FDA0002305501400000035
6.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤4)具体为:
根据新问题的句级表达q和有上下文语境的历史对话表达u,计算历史第i轮对话与新问题之间的注意力分值
Figure FDA0002305501400000036
Figure FDA0002305501400000037
其中,
Figure FDA0002305501400000038
为参数矩阵,
Figure FDA0002305501400000039
为参数向量,
Figure FDA00023055014000000310
为偏移向量,dm为中间量维度;
Figure FDA00023055014000000311
作为输入,使用softmax函数生成激活值
Figure FDA00023055014000000312
Figure FDA00023055014000000313
计算对话语境的注意力表达uq
Figure FDA00023055014000000314
最终获得新问题相关的视频历史对话联合表达qu
qu=q′+uq
7.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤5)具体为:
针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征
Figure FDA00023055014000000315
其中
Figure FDA0002305501400000041
表示视频中第i帧的外表特征,T1代表视频中取样的帧数;使用预训练的C3D网络获取视频片段级别的动作特征
Figure FDA0002305501400000042
其中
Figure FDA0002305501400000043
表示视频中第i段的动作特征,T2代表视频取样的分段数;
根据vf和vs,采用多粒度卷积自注意单元分别得到外表特征的多粒度表达
Figure FDA0002305501400000044
Figure FDA0002305501400000045
和动作特征的多粒度表达
Figure FDA0002305501400000046
根据v′f和qu,采用时间注意力机制,得到有语境意识的视频外表特征表达;所述时间注意力机制具体包括以下步骤:
a)计算针对所给视频帧的注意力分数:
Figure FDA0002305501400000047
其中,
Figure FDA0002305501400000048
为参数矩阵,
Figure FDA0002305501400000049
为参数向量,
Figure FDA00023055014000000410
为偏移向量,dn为中间量维度,df为外表特征维度;
b)根据
Figure FDA00023055014000000411
采用softmax函数计算针对视频帧生成的激活值为:
Figure FDA00023055014000000412
c)得到有语境意识的视频外表特征表达vqf
Figure FDA00023055014000000413
同理,根据v′s、qu、以及所述的时间注意力机制,得到有语境意识的视频动作特征表达vqs
根据vqf和vqs,进一步得到有语境意识的视频表达
Figure FDA00023055014000000414
Figure FDA00023055014000000415
根据
Figure FDA00023055014000000416
和qu,由如下公式进行联合,得到有语境意识的新问题相关的联合视频表达fquv
Figure FDA00023055014000000417
其中,Concat(·)是连接两个输入向量的函数,g(·)门控双曲正切激活。
8.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤6)具体为:
针对一组包含N轮对话的历史对话信息,对所有对话答案使用多粒度卷积自注意力单元学习后,得到每轮对话答案的语义表达
Figure FDA00023055014000000418
Figure FDA00023055014000000419
代表第i轮对话答案的语义表达,根据每轮对话的对话答案构建成一个包含所有候选答案的答案候选集
Figure FDA00023055014000000420
dh为答案表达的维度;
根据fquv和A,经过softmax函数获取fquv相关的候选答案集A的概率分布:
Figure FDA0002305501400000051
取pa向量中的最大元素对应的
Figure FDA0002305501400000052
作为最终答案。
CN201911238410.9A 2019-12-06 2019-12-06 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 Withdrawn CN110990628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911238410.9A CN110990628A (zh) 2019-12-06 2019-12-06 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911238410.9A CN110990628A (zh) 2019-12-06 2019-12-06 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Publications (1)

Publication Number Publication Date
CN110990628A true CN110990628A (zh) 2020-04-10

Family

ID=70090692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911238410.9A Withdrawn CN110990628A (zh) 2019-12-06 2019-12-06 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN110990628A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590879A (zh) * 2021-08-05 2021-11-02 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113672711A (zh) * 2021-08-09 2021-11-19 之江实验室 一种服务型机器人意图识别装置及其训练、识别方法
CN113901302A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵洲等: "Video Dialog via Multi-Grained Convolutional Self-Attention Context Multi-Modal Network", 《 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113609330B (zh) * 2021-07-15 2022-06-14 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113590879A (zh) * 2021-08-05 2021-11-02 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113672711A (zh) * 2021-08-09 2021-11-19 之江实验室 一种服务型机器人意图识别装置及其训练、识别方法
CN113672711B (zh) * 2021-08-09 2024-01-19 之江实验室 一种服务型机器人意图识别装置及其训练、识别方法
CN113901302A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和介质
CN113901302B (zh) * 2021-09-29 2022-09-27 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113934887B (zh) 一种基于语义解耦的无提议时序语言定位方法
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
AU2019101138A4 (en) Voice interaction system for race games
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113283336A (zh) 一种文本识别方法与系统
Lee et al. Audio feature generation for missing modality problem in video action recognition
CN118051635A (zh) 基于大语言模型的对话式图像检索方法和装置
Azhar et al. Facilitated deep learning models for image captioning
Chharia et al. Deep recurrent architecture based scene description generator for visually impaired
CN113554040A (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN115422388B (zh) 一种视觉对话方法及系统
CN114757177B (zh) 一种基于bart融合指针生成网络的文本摘要方法
CN111243060A (zh) 一种基于手绘图的故事性文本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200410

WW01 Invention patent application withdrawn after publication