CN114387537A - 一种基于描述文本的视频问答方法 - Google Patents
一种基于描述文本的视频问答方法 Download PDFInfo
- Publication number
- CN114387537A CN114387537A CN202111439356.1A CN202111439356A CN114387537A CN 114387537 A CN114387537 A CN 114387537A CN 202111439356 A CN202111439356 A CN 202111439356A CN 114387537 A CN114387537 A CN 114387537A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- word
- question
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于描述文本的视频问答方法,属于自然语言处理和计算机视觉领域。本发明将视频的视觉信息通过文本来进行描述,在特征提取时考虑了常识特征的获取,在生成视频描述时对问题单词进行了短语级划分并基于短语使用了多重注意力,此外,还利用了知识库对视频描述内容做进一步的扩充,使得生成的视频描述包含视频的绝大部分视觉信息,之后,将视频描述和问题进行语义上的交互和分析,得到新的融合特征,最后将该特征输入到分类器中进行分类得到预测的答案,同时利用了知识库对答案的语义进行判断。本发明避免了跨模态信息融合的分析的困难,并使用了知识库对描述信息进行补充,从而提升了视频问答的准确率。
Description
技术领域
本发明属于自然语言处理和计算机视觉领域,尤其涉及一种基于描述文本的视频问答方法。
背景技术
视频问答通常是指给计算机提供一段视频以及几个与视频内容相关的问题,让计算机理解视频内容并用自然语言回答出这些问题,近年来一直吸引着研究者的关注,是一项重要的多模态理解任务,其在现实中也有很多应用场景,比如提高机器人人机交互的能力、帮助视觉障碍人士获取视频信息、快速获取视频信息等等。
随着神经网络的飞速发展,近年来开始出现了基于深度学习的问答系统。早期的视频问答系统侧重于将视觉信息和文本信息分开处理,在模型的最后阶段再进行特征的融合来推理答案。CVPR2017年会议论文集,TGIF-QA:Toward Spatio-Temporal Reasoning inVisual Question Answering,1359-1367页公开了一种分别提取视频的视觉信息和问题的问题特征,最后融合两者推理答案的方法,该方法采用C3D和ResNet神经网络分别在时间和空间两个维度提取视频的视觉特征并融合,利用LSTM网络提取问题的文本特征,之后将融合后的视觉特征和文本特征编码,最后解码得到答案。之后,许多研究者都投身于改进基于深度学习的问题系统,比较有代表性的改进是注意力机制以及记忆网络的使用。但是,目前的大多数方法由于将视觉信息和文本信息这两种不同模态的信息融合,导致相应的信息利用的不够充分。具体来说,现有的视频问答方法无法有效地通过高层次神经网络表达视频中与问题相关的信息,从而在问答问题时无法充分利用视频的信息,使得生成的答案不准确。
发明内容
针对现有方法的不足,本发明提出了一种基于描述文本的视频问答方法,考虑将视频特征通过文字进行描述,并利用知识库补充描述文本的内容,再将视频的相关描述与问题文本进行融合推理,挖掘问题与描述之间的潜在关联,最后进行分类得到预测答案,并通过知识库进行预测答案和预期答案的语义关系判断。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于描述文本的视频问答方法,包括如下步骤:
步骤1,根据所有问题和答案生成相应的先验知识库G;
步骤2,通过卷积神经网络提取视频的帧特征和运动特征,并表示为二组固定维度的特征实值向量Vf、Vm;
步骤3,通过常识特征提取网络提取视频帧的常识特征实值向量Vc;
步骤4,将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算,得到视频最终的特征向量表示Φ(V);
步骤5,将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw;
步骤6,通过对视频描述文本Dw进行关键词提取,在先验知识库G中查询相应的知识,根据查询结果生成补充描述Gw,并将视频描述文本Dw和补充描述Gw两者合并得到最终的描述文本Vd;
步骤7,对视频描述文本Vd和问题文本进行特征提取,利用问答处理网络对两者进行处理,将处理结果输入到分类器中得到预测的答案,结合先验知识库G判断预测的准确性,完成基于描述文本的视频问答。
作为优选,步骤1的具体步骤为:
步骤1-1,将问题文本的疑问词根据答案进行替换,得到相应的陈述句;
步骤1-2,对问题陈述语句进行关键词提取,并根据词语间的关系生成三元组<W,R,W>,其中W表示单词,R表示单词间的关系;
步骤1-3,根据关系三元组<W,R,W>,将W作为图的节点,R作为边,构建先验知识库G。
作为优选,步骤2的具体步骤为:
步骤2-1,根据视频所包含的帧数,等间隔地提取n帧图像;
步骤2-2,根据提取的n帧图像,利用卷积神经网络ResNet获取视频的帧特征向量表征Vf={Vf1,Vf2,……,Vfn},并将视频的帧特征向量表征Vf作为视频对应的帧特征实值向量,其中Vfn表示第n个视频帧对应的帧特征;
步骤2-3,根据视频所包含的帧数,等间隔地分为t个视频片段;
步骤2-4,根据划分的t个视频片段,利用卷积神经网络ResNext获取视频的运动特征向量表征Vm={Vm1,Vm2,……,Vmt},并将视频的运动特征向量表征Vm作为视频对应的运动特征实值向量,其中Vmt表示第t个视频片段对应的运动特征。
作为优选,步骤3的具体步骤为:
步骤3-1,通过稀疏采样的方法提取视频的K帧图像;
步骤3-2,将提取的K帧图像输入到在COCO数据集上预训练的VC-RNN网络进行常识特征提取,得到相应的常识特征向量表征Vc={Vc1,Vc2,……,Vck},并将所述常识特征向量表征Vc作为视频对应的常识特征实值向量,其中Vck表示第k个视频帧对应的常识特征。
作为优选,步骤4的具体步骤为:
步骤4-1,利用注意力机制,计算常识特征实值向量Vc对运动特征实值向量Vm的关注,得到常识特征关注的运动特征Φc(Vm);Φc(Vm)的表达式如下:
步骤4-2,利用注意力机制,计算常识特征实值向量Vc对帧特征实值向量Vf的关注,得到常识特征关注的帧特征Φc(Vf);Φc(Vf)的表达式如下:
步骤4-3,将常识特征Vc、常识特征关注的运动特征Φc(Vm)、常识特征关注的帧特征Φc(Vf)拼接,得到视频最终的特征表示向量Φ(V)={v1,v2,……vt},其中vt表示第t次拼接得到的视频特征表示。
作为优选,步骤5的具体步骤为:
步骤5-1,根据问题单词文本,将输入的问题以单词序列的形式进行处理;
步骤5-2,利用预训练的BERT模型将问题单词序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示第n个单词对应的词向量表示;
步骤5-3,在第一个时间步t,生成开始标识<SOS>并初始化LSTM网络;
步骤5-4,根据单词的关联性进行计算,得到短语表示矩阵Pt=[p1,t……pj,t],其中pj,t表示第j个到第t个单词构成的短语表示;
步骤5-5,根据短语表示矩阵Pt,计算相关的视频特征权重,得到最终的视频语义特征表示Φatten(V)(t);
步骤5-6,将视频语义特征Φatten(V)(t)输入至LSTM网络中,生成该时间步的视频描述单词w;
步骤5-7,循环步骤5-4至步骤5-6生成视频描述单词,直到生成结束标识<EOS>为止完成视频描述的生成,最终得到视频相应的描述文本Dw={w1,w2,……,wn},其中n表示单词的个数。
步骤5-4中,Pt的计算过程如下:
At=ψp(Wt)=[α1,t,……,αj,t]
Pt=[p1,t,……,pj,t]
在任意一个时间步t,Wt表示前t-1步生成的描述单词的词向量表示构成的矩阵,其中Ewt-1表示第t-1个单词通过word2vec得到的词向量表示,ψp表示单词注意力的计算,At表示单词注意力权重矩阵,αj,t表示第1个到第t-1个单词对于生成短语pj,t的注意权重,Pt为短语表示矩阵,pj,t表示第j个到第t个单词构成的短语表示。
步骤5-5中,Φatten(V)的计算过程如下:
在任意一个时间步t,βi,j,t表示短语对pi,t和视频特征vj的相关得分,其中σ表示tanh激活函数,Us、Os表示可训练参数矩阵,bs表示可训练偏置,pi,t表示第i个单词到第t个单词构成的短语表示,vj表示第j个视频特征表示;表示根据相关得分计算得到的视频特征表示,N表示视频特征总数;si,t表示将pi,t和的拼接结果作为短语对pi,t的单词组特征;γi,t表示当前单词组特征和历史特征的相关得分,其中σ表示tanh激活函数,Ud、Od表示可训练参数矩阵,bd表示可训练偏置,ht-1表示LSTM网络的上一个时间步t-1的隐藏层表示;Φatten(V)(t)为根据所有单词组的相关得分γi,t得到的最后特征表示,M表示单词组的数量。
作为优选,步骤6的具体步骤为:
步骤6-1,将视频描述文本Dw通过jieba分词库进行关键词提取,得到相应的关键词列表Kw={kw1,kw2,……,kwm},其中kwm表示第m个关键词,m表示关键词的个数;
步骤6-2,将关键词列表的每一个单词作为节点,进行关联知识的查询,选择关联权重最高的关系生成相应的描述信息Dk={Dk1,Dk2,……,Dki},其中Dki表示第i个关键词对应的描述信息;
步骤6-3,将视频描述文本Dw以及所有关键词的描述信息Dk进行合并,作为最终的视频描述文本Vd。
作为优选,步骤7的具体步骤为:
步骤7-1,将问题文本和视频描述文本Dw以单词序列的形式进行处理;
步骤7-2,利用预训练的BERT模型将问题文本序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示问题第n个单词对应的词向量表示;
步骤7-3,利用预训练的BERT模型将视频描述文本序列转化为固定维度的词向量集合D={d1,d2,……,dm},其中dm表示视频描述第m个单词对应的词向量表示;
步骤7-4,将视频描述词向量集合D和问题词向量集合Q输入至问答处理网络的编码层,通过预训练的BERT模型提取两者的句子级特征并得到特征编码后的表示Td和Tq;
步骤7-5,将特征编码表示Td和Tq输入至问答处理网络的双向注意层,得到question-description的注意力矩阵X和description-question的注意力矩阵Y;
步骤7-6,将特征编码后的表示Td、矩阵X的行a以及矩阵Y的行b输入至问答处理网络的模型编码层,并经过池化层处理得到最终的编码表示M;
步骤7-7,将编码表示M输入至分类器进行分类,得到模型初步预测的答案p,并根据预测答案和预期答案进行知识库搜索,判断最终生成结果的正确性,完成基于描述文本的视频问答。
步骤7-5中,矩阵X和矩阵Y的表达式及相关计算如下:
Si,j=W0[tqi,tdj,tqi⊙tdj]
X=softmax(S,axis=row)·TdT
Y=X·(TdT)-1·softmax(S,axis=column)T·TqT
其中,tqi和tdj分别为编码后问题的第i个单词向量以及描述的第j个单词向量,⊙表示按元素点乘,W0为可训练参数矩阵,LayerNorm表示正则化层。
步骤7-7中包括以下步骤:
步骤7-7-1:将预测的答案作为知识库G的节点查询其关联信息,将直接关联的t个单词作为其关联单词组Rpw={pw1,pw2,……,pwt},其中pwt表示知识库查询到的第t个与预测答案关联的单词;
步骤7-7-2:将标准答案作为知识库G的节点查询其关联信息,将直接关联的t个单词作为其关联单词组Rrw={rw1,rw2,……,rwt},其中rwt表示知识库查询到的第t个与标准答案关联的单词;
步骤7-7-3:将关联单词组Rpw和Rrw分别组成句子输入至BERT模型进行语义相似度计算,语义相似度大于设定阈值的答案预测正确,否则答案预测失败。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明通过将视频的视觉特征通过文本来进行描述,同时利用先验知识库对描述文本进一步扩充知识,避免了跨模态融合的视频语义信息保留不够的问题,在答案推理过程中通过文本单一模态的交互能够更大程度挖掘相关信息,从而提升了视频问答的效果。
附图说明
图1为本发明的方法流程示意图;
图2为本实施例中的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1和图2所示,本发明提供了一种基于描述文本的视频问答方法,其实现方法如下:
步骤1,根据所有问题和答案生成相应的先验知识库G,其实现方法如下:
步骤1-1,将问题文本的what、who、where等疑问词根据答案进行替换,得到相应的陈述句;
步骤1-2,对问题陈述语句进行关键词提取,并根据词语间的关系生成三元组<W,R,W>,其中W表示单词,R表示单词间的关系;
步骤1-3,根据关系三元组<W,R,W>,将W作为图的节点,R作为边,构建先验知识库G。
步骤2,通过卷积神经网络提取视频的帧特征和运动特征,并表示为二组固定维度的特征实值向量Vf、Vm,其实现方法如下:
步骤2-1,根据视频所包含的帧数,等间隔地提取n帧图像;
步骤2-2,根据提取的n帧图像,利用卷积神经网络ResNet获取视频的帧特征向量表征Vf={Vf1,Vf2,……,Vfn},并将视频的帧特征向量表征Vf作为视频对应的帧特征实值向量,其中Vfn表示第n个视频帧对应的帧特征;
步骤2-3,根据视频所包含的帧数,等间隔地分为t个视频片段;
步骤2-4,根据划分的t个视频片段,利用卷积神经网络ResNext获取视频的运动特征向量表征Vm={Vm1,Vm2,……,Vmt},并将视频的运动特征向量表征Vm作为视频对应的运动特征实值向量,其中Vmt表示第t个视频片段对应的运动特征。
步骤3,通过常识特征提取网络提取视频帧的常识特征实值向量Vc,其实现方法如下:
步骤3-1,通过稀疏采样的方法提取视频的K帧图像;
步骤3-2,将提取的K帧图像输入到在COCO数据集上预训练的VC-RNN网络进行常识特征提取,得到相应的常识特征向量表征Vc={Vc1,Vc2,……,Vck},并将所述常识特征向量表征Vc作为视频对应的常识特征实值向量,其中Vck表示第k个视频帧对应的常识特征。
步骤4,将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算,得到视频最终的特征向量表示Φ(V),其实现方法如下:
步骤4-1,利用注意力机制,计算常识特征实值向量Vc对运动特征实值向量Vm的关注,得到常识特征关注的运动特征Φc(Vm);
这使得运动特征包含更丰富的常识信息,有利于提高描述文本生成内容的多样性。
步骤4-2,利用注意力机制,计算常识特征实值向量Vc对帧特征实值向量Vf的关注,得到常识特征关注的帧特征Φc(Vf);
这使得帧特征包含更丰富的常识信息,也有助于提高描述文本生成内容的多样性。
步骤4-3,将常识特征Vc、常识特征关注的运动特征Φc(Vm)、常识特征关注的帧特征Φc(Vf)拼接,得到视频最终的特征表示向量Φ(V)={v1,v2,……vt},其中vt表示第t次拼接得到的视频特征表示。
步骤5,将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw,其实现方法如下:
步骤5-1,根据问题单词文本,将输入的问题以单词序列的形式进行处理;
步骤5-2,利用预训练的BERT模型将问题单词序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示第n个单词对应的词向量表示;
步骤5-3,在第一个时间步t,生成开始标识<SOS>并初始化LSTM网络;
步骤5-4,根据单词的关联性进行计算,得到短语表示矩阵Pt=[p1,t……pj,t],其中pj,t表示第j个到第t个单词构成的短语表示;
本实施例中,考虑到不同单词组合的意思是不同的,根据单词之间的注意力计算它们之间的关联性,得到短语表示矩阵Pt=[p1,t……pj,t]以及注意力权重矩阵At=[α1,t……αj,t],该方法能挖掘问题单词间的语义关系,有助于模型对问题语义的理解。
步骤5-5,根据短语表示矩阵Pt,计算相关的视频特征权重,得到最终的视频语义特征表示Φatten(V)(t);
本实施例中,通过计算不同短语和视频特征的关联性:
并综合关联性选择最相关的视频特征:
进而得到不同的语义特征组表示:
接着计算不同语义特征组对历史特征的关联性:
最后结合所有语义特征组得到最终的视频语义特征表示:
这对视频描述的信息选择和定位有着极大的帮助,使得视频描述的内容能够抓住视频和问题双方面的核心信息。
上式中,在任意一个时间步t,βi,j,t表示短语对pi,t和视频特征vj的相关得分,其中σ表示tanh激活函数,Us、Os表示可训练参数矩阵,bs表示可训练偏置,pi,t表示第i个单词到第t个单词构成的短语表示,vj表示第j个视频特征表示;表示根据相关得分计算得到的视频特征表示,N表示视频特征总数;si,t表示将pi,t和的拼接结果作为短语对pi,t的单词组特征;γi,t表示当前单词组特征和历史特征的相关得分,其中σ表示tanh激活函数,Ud、Od表示可训练参数矩阵,bd表示可训练偏置,ht-1表示LSTM网络的上一个时间步t-1的隐藏层表示;Φatten(V)(t)为根据所有单词组的相关得分γi,t得到的最后特征表示,M表示单词组的数量。
步骤5-6,将视频语义特征Φatten(V)(t)输入至LSTM网络中,生成该时间步的视频描述单词w;
步骤5-7,循环步骤5-4至5-6生成视频描述单词,直到生成结束标识<EOS>为止完成视频描述的生成,最终得到视频相应的描述文本Dw={w1,w2,……,wn},其中n表示单词的个数。
步骤6,将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw,其实现方法如下:
步骤6-1,将视频描述文本Dw通过jieba分词库进行关键词提取,得到相应的关键词列表Kw={kw1,kw2,……,kwm},其中kwm表示第m个关键词,m表示关键词的个数;
步骤6-2,将关键词列表的每一个单词作为节点,进行关联知识的查询,选择关联权重最高的i个关系生成相应的描述信息Dk={Dk1,Dk2,……,Dki},其中Dki表示第i个关键词对应的描述信息;
步骤6-3,将视频描述文本Dw以及所有关键词的描述信息的Dk进行合并,作为最终的视频描述文本Vd。
步骤7,对视频描述文本Vd和问题文本进行特征提取,利用问答处理网络对两者进行处理,将处理结果输入到分类器中得到预测的答案,结合知识库信息判断预测的准确性,完成基于描述文本的视频问答,其实现方法如下:
步骤7-1,将问题文本和视频描述文本Dw以单词序列的形式进行处理;
步骤7-2,利用预训练的BERT模型将问题文本序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示问题第n个单词对应的词向量表示;
步骤7-3,利用预训练的BERT模型将视频描述文本序列转化为固定维度的词向量集合D={d1,d2,……,dm},其中dm表示视频描述第n个单词对应的词向量表示。
步骤7-4,将视频描述词向量集合D和问题词向量集合Q输入至问答处理网络的编码层,通过预训练的BERT模型提取两者的句子级特征并得到特征编码后的表示Td和Tq;
步骤7-5,将特征编码表示Td和Tq输入至问答处理网络的双向注意层,得到question-description的注意力矩阵X和description-question的注意力矩阵Y;
步骤7-6,将特征编码后的表示Td、矩阵X的行a以及矩阵Y的行b输入至问答处理网络的模型编码层,并经过池化层处理得到最终的编码表示M;
步骤7-7,将编码表示M输入至分类器进行分类,得到模型初步预测的答案p,并根据预测答案和预期答案进行知识库搜索,判断最终生成结果的正确性,完成基于描述文本的视频问答。
本方法将视频的视觉信息通过相应的描述文本来表示,在视频描述生成的过程中,对问题的单词组计算了注意力权重,使得生成的描述与问题关联性更强,此外还利用先验知识库对描述内容进行补充,使描述文本中包含更丰富的信息,在答案推理的过程中可以充分利用单模态融合的优势,避免多模态融合过程中视频特征保留不够的问题,因此能大大提高问答结果的准确性。
本实施例中,为了生成结果更符合实际,选择了比较预测答案和标准答案的语义相关性,并且这个语义相关性是通过知识库扩充的,有助于改善问题答案的匹配能力,问题的答案只要语义足够相似即为预测正确,形式不同是可以接受的,这也符合生活实际。
以下对本发明作进一步的说明。
本实施例在数据集MSVD-QA和MSRVTT-QA上进行了测试,MSVD-QA数据集是一个拥有5K个问题的小数据集,这些问题来源于1970个视频片段,可分为what,who,how,when和where这5种类型,MSRVTT-QA数据集包含了243K个问题,它们来源于10K个视频片段,问题的类型与MSVD-QA数据集类似,但其视频包含更复杂的场景,视频的平均时间也更长。由于所有的问题均为开放式回答,因此对回答的所有5类问题均以准确率进行评估。如表1所示,表1为MSVD-QA数据集上本方法和现有方法的效果对比,从表中可以看出,本方法相比现有的ST-VQA(时空注意力网络)、Co-Mem(协同注意记忆网络)以及HME(异构记忆增强网络)方法的效果都要好。
表1
What | Who | How | When | Where | All | |
ST-VQA | 0.181 | 0.500 | 0.838 | 0.724 | 0.286 | 0.313 |
Co-Mem | 0.196 | 0.487 | 0.816 | 0.741 | 0.317 | 0.317 |
HME | 0.224 | 0.501 | 0.730 | 0.707 | 0.429 | 0.337 |
本方法 | 0.237 | 0.513 | 0.746 | 0.682 | 0.413 | 0.372 |
如表2所示,表2为MSRVTT-QA数据集上本方法和现有方法的效果对比,从表中可以看出,本方法的效果总体同样优于其它方法。
表2
What | Who | How | When | Where | All | |
ST-VQA | 0.245 | 0.412 | 0.780 | 0.765 | 0.349 | 0.309 |
Co-Mem | 0.239 | 0.425 | 0.741 | 0.690 | 0.429 | 0.32 |
HME | 0.265 | 0.436 | 0.824 | 0.760 | 0.286 | 0.33 |
本方法 | 0.266 | 0.445 | 0.824 | 0.731 | 0.322 | 0.364 |
综上所述,本发明引入了视频描述机制以及先验知识库,将视频所包含的信息不再用高层次神经网络的中间状态来表示,而是通过相应的描述文本来表示,进而将文本问答的一些技巧如知识库等运用到视频问答中,以提高视频问答的效果,同时,对于视频描述文本与问题描述做多层次的交互处理,以提高文本语义匹配的能力,进而更好的预测出答案,实验在MSVD-QA以及MSRVTT-QA两个数据集上进行,结果表明,本发明相较与其它现有方法回答的准确性有所提高。
Claims (10)
1.一种基于描述文本的视频问答方法,其特征在于:所述方法包括如下步骤:
步骤1,根据所有问题和答案生成相应的先验知识库G;
步骤2,通过卷积神经网络提取视频的帧特征和运动特征,并表示为二组固定维度的特征实值向量Vf、Vm;
步骤3,通过常识特征提取网络提取视频帧的常识特征实值向量Vc;
步骤4,将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算,得到视频最终的特征向量表示Φ(V);
步骤5,将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw;
步骤6,通过对视频描述文本Dw进行关键词提取,在先验知识库G中查询相应的知识,根据查询结果生成补充描述Gw,并将视频描述文本Dw和补充描述Gw两者合并得到最终的描述文本Vd;
步骤7,对视频描述文本Vd和问题文本进行特征提取,利用问答处理网络对两者进行处理,将处理结果输入到分类器中得到预测的答案,结合先验知识库G判断预测的准确性,完成基于描述文本的视频问答。
2.根据权利要求1所述的基于描述文本的视频问答方法,其特征在于:所述步骤1包括以下步骤:
步骤1-1,将问题文本的疑问词根据答案进行替换,得到相应的陈述句;
步骤1-2,对问题陈述语句进行关键词提取,并根据词语间的关系生成三元组<W,R,W>,其中W表示单词,R表示单词间的关系;
步骤1-3,根据关系三元组<W,R,W>,将W作为图的节点,R作为边,构建先验知识库G。
3.根据权利要求1所述的基于描述文本的视频问答方法,其特征在于:所述步骤2包括以下步骤:
步骤2-1,根据视频所包含的帧数,等间隔地提取n帧图像;
步骤2-2,根据提取的n帧图像,利用卷积神经网络ResNet获取视频的帧特征向量表征Vf={Vf1,Vf2,……,Vfn},并将视频的帧特征向量表征Vf作为视频对应的帧特征实值向量,其中Vfn表示第n个视频帧对应的帧特征;
步骤2-3,根据视频所包含的帧数,等间隔地分为t个视频片段;
步骤2-4,根据划分的t个视频片段,利用卷积神经网络ResNext获取视频的运动特征向量表征Vm={Vm1,Vm2,……,Vmt},并将视频的运动特征向量表征Vm作为视频对应的运动特征实值向量,其中Vmt表示第t个视频片段对应的运动特征。
4.根据权利要求1所述的基于描述文本的视频问答方法,其特征在于:所述步骤3包括以下步骤:
步骤3-1,通过稀疏采样的方法提取视频的K帧图像;
步骤3-2,将提取的K帧图像输入到在COCO数据集上预训练的VC-RNN网络进行常识特征提取,得到相应的常识特征向量表征Vc={Vc1,Vc2,……,Vck},并将常识特征向量表征Vc作为视频对应的常识特征实值向量,其中Vck表示第k个视频帧对应的常识特征。
5.根据权利要求1所述的基于描述文本的视频问答方法,其特征在于:所述步骤4包括以下步骤:
步骤4-1,利用注意力机制,计算常识特征实值向量Vc对运动特征实值向量Vm的关注,得到常识特征关注的运动特征Φc(Vm);Φc(Vm)的表达式如下:
步骤4-2,利用注意力机制,计算常识特征实值向量Vc对帧特征实值向量Vf的关注,得到常识特征关注的帧特征Φc(Vf);Φc(Vf)的表达式如下:
步骤4-3,将常识特征Vc、常识特征关注的运动特征Φc(Vm)、常识特征关注的帧特征Φc(Vf)拼接,得到视频最终的特征表示向量Φ(V)={v1,v2,……vt},其中vt表示第t次拼接得到的视频特征表示。
6.根据权利要求1所述的基于描述文本的视频问答方法,其特征在于:所述步骤5包括以下步骤:
步骤5-1,根据问题单词文本,将输入的问题以单词序列的形式进行处理;
步骤5-2,利用预训练的BERT模型将问题单词序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示第n个单词对应的词向量表示;
步骤5-3,在第一个时间步t,生成开始标识<SOS>并初始化LSTM网络;
步骤5-4,根据单词的关联性进行计算,得到短语表示矩阵Pt=[p1,t……pj,t],其中pj,t表示第j个到第t个单词构成的短语表示;
步骤5-5,根据短语表示矩阵Pt,计算相关的视频特征权重,得到最终的视频语义特征表示Φatten(V)(t);
步骤5-6,将视频语义特征Φatten(V)(t)输入至LSTM网络中,生成该时间步的视频描述单词w;
步骤5-7,循环步骤5-4至步骤5-6生成视频描述单词,直到生成结束标识<EOS>为止完成视频描述的生成,最终得到视频相应的描述文本Dw={w1,w2,……,wn},其中n表示单词的个数。
8.根据权利要求6所述的基于描述文本的视频问答方法,其特征在于:所述步骤5-5中,Φatten(V)(t)的计算过程如下:
在任意一个时间步t,βi,j,t表示短语对pi,t和视频特征vj的相关得分,其中σ表示tanh激活函数,Us、Os表示可训练参数矩阵,bs表示可训练偏置,pi,t表示第i个单词到第t个单词构成的短语表示,vj表示第j个视频特征表示;表示根据相关得分计算得到的视频特征表示,N表示视频特征总数;si,t表示将pi,t和的拼接结果作为短语对pi,t的单词组特征;γi,t表示当前单词组特征和历史特征的相关得分,其中σ表示tanh激活函数,Ud、Od表示可训练参数矩阵,bd表示可训练偏置,ht-1表示LSTM网络的上一个时间步t-1的隐藏层表示;Φatten(V)(t)为根据所有单词组的相关得分γi,t得到的最后特征表示,M表示单词组的数量。
9.根据权利要求1-8任一所述的基于描述文本的视频问答方法,其特征在于:所述步骤6包括以下步骤:
步骤6-1,将视频描述文本Dw通过jieba分词库进行关键词提取,得到相应的关键词列表Kw={kw1,kw2,……,kwm},其中kwm表示第m个关键词,m表示关键词的个数;
步骤6-2,将关键词列表的每一个单词作为节点,进行关联知识的查询,选择关联权重最高的关系生成相应的描述信息Dk={Dk1,Dk2,……,Dki},其中Dki表示第i个关键词对应的描述信息;
步骤6-3,将视频描述文本Dw以及所有关键词的描述信息Dk进行合并,作为最终的视频描述文本Vd。
10.根据权利要求1-8任一所述的基于描述文本的视频问答方法,其特征在于:所述步骤7包括以下步骤:
步骤7-1,将问题文本和视频描述文本Dw以单词序列的形式进行处理;
步骤7-2,利用预训练的BERT模型将问题文本序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示问题第n个单词对应的词向量表示;
步骤7-3,利用预训练的BERT模型将视频描述文本序列转化为固定维度的词向量集合D={d1,d2,……,dm},其中dm表示视频描述第m个单词对应的词向量表示;
步骤7-4,将视频描述词向量集合D和问题词向量集合Q输入至问答处理网络的编码层,通过预训练的BERT模型提取两者的句子级特征并得到特征编码后的表示Td和Tq;
步骤7-5,将特征编码表示Td和Tq输入至问答处理网络的双向注意层,得到question-description的注意力矩阵X和description-question的注意力矩阵Y;
步骤7-6,将特征编码后的表示Td、矩阵X的行a以及矩阵Y的行b输入至问答处理网络的模型编码层,并经过池化层处理得到最终的编码表示M;
步骤7-7,将编码表示M输入至分类器进行分类,得到模型初步预测的答案p,并根据预测答案和预期答案进行知识库搜索,判断最终生成结果的正确性,完成基于描述文本的视频问答。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111439356.1A CN114387537A (zh) | 2021-11-30 | 2021-11-30 | 一种基于描述文本的视频问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111439356.1A CN114387537A (zh) | 2021-11-30 | 2021-11-30 | 一种基于描述文本的视频问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114387537A true CN114387537A (zh) | 2022-04-22 |
Family
ID=81195455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111439356.1A Pending CN114387537A (zh) | 2021-11-30 | 2021-11-30 | 一种基于描述文本的视频问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114387537A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936297A (zh) * | 2022-06-10 | 2022-08-23 | 四川省人工智能研究院(宜宾) | 一种基于先验知识和对象敏感的视频问答方法 |
CN117556027A (zh) * | 2024-01-12 | 2024-02-13 | 一站发展(北京)云计算科技有限公司 | 基于数字人技术的智能交互系统及方法 |
WO2024082914A1 (zh) * | 2022-10-20 | 2024-04-25 | 华为技术有限公司 | 视频问答方法及电子设备 |
-
2021
- 2021-11-30 CN CN202111439356.1A patent/CN114387537A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936297A (zh) * | 2022-06-10 | 2022-08-23 | 四川省人工智能研究院(宜宾) | 一种基于先验知识和对象敏感的视频问答方法 |
CN114936297B (zh) * | 2022-06-10 | 2023-03-14 | 四川省人工智能研究院(宜宾) | 一种基于先验知识和对象敏感的视频问答方法 |
WO2024082914A1 (zh) * | 2022-10-20 | 2024-04-25 | 华为技术有限公司 | 视频问答方法及电子设备 |
CN117556027A (zh) * | 2024-01-12 | 2024-02-13 | 一站发展(北京)云计算科技有限公司 | 基于数字人技术的智能交互系统及方法 |
CN117556027B (zh) * | 2024-01-12 | 2024-03-26 | 一站发展(北京)云计算科技有限公司 | 基于数字人技术的智能交互系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133211B (zh) | 一种基于注意力机制的作文评分方法 | |
CN106919646B (zh) | 中文文本摘要生成系统及方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN109800434B (zh) | 基于眼动注意力的抽象文本标题生成方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN109543820B (zh) | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 | |
CN113254610B (zh) | 面向专利咨询的多轮对话生成方法 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
CN111695341A (zh) | 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN113128232A (zh) | 一种基于albert与多重词信息嵌入的命名实体识别方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115034208A (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN114972848A (zh) | 基于细粒度视觉信息控制网络的图像语义理解及文本生成 | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |