CN110704601A - 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 - Google Patents

利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 Download PDF

Info

Publication number
CN110704601A
CN110704601A CN201910965525.1A CN201910965525A CN110704601A CN 110704601 A CN110704601 A CN 110704601A CN 201910965525 A CN201910965525 A CN 201910965525A CN 110704601 A CN110704601 A CN 110704601A
Authority
CN
China
Prior art keywords
video
knowledge
attention
question
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910965525.1A
Other languages
English (en)
Inventor
赵洲
张品涵
金韦克
陈默沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910965525.1A priority Critical patent/CN110704601A/zh
Publication of CN110704601A publication Critical patent/CN110704601A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用问题‑知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,包括如下步骤:针对一段视频,利用Faster‑RCNN得到视频对象集;在外部知识库中检索视频对象集对应的注释文本,得到外部知识;使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集;针对问题,利用嵌入层(embedding layer)将输入单词转换为词嵌入向量;将词嵌入向量输入渐进式时空注意力网络,生成答案;本发明通过使用附加信息,可以回答更具体的问题,例如一些常识性问题;将外部知识与问题结合起来,在空间和时间维度上引导渐进式的视频注意力,学习细粒度联合视频表示以进行答案预测。

Description

利用问题-知识引导的渐进式时空注意力网络解决需要常识 的视频问答任务的方法
技术领域
本发明涉及视频问答答案生成领域,尤其涉及一种利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法。
背景技术
视觉问答(VQA)是一种用于连接计算机视觉(CV)和自然语言处理(NLP)的任务,它根据用户的问题自动从参考视觉内容返回准确的答案。根据视觉内容的类型,主要有两种视觉问答,一种是图像问答,另一种是视频问答。近年来,人们在视觉问答领域做了很多工作。但是,大多数现有工作都侧重于静态图像问答。
视频问答是一个新生领域,目前在该领域研究人员所做的工作比图像问答要少得多。与让计算机理解图像相比,让计算机理解视频更具挑战性。为了实现图像问答,最基本的方法是将文本内容和视觉内容映射到一个公共空间。之后,用这个联合表达预测给定问题的正确答案。本质上,视频是具有特定时间线的一系列静态图像,并且在处理视频内容时不能忽略视频固有的时间动态性。此外,视频中的大量帧是冗余的,与问题无关,这显然会影响视觉内容的表示。因此,在图像问答领域表现良好的方法拓展到视频领域可能无法有很好的表现。为了解决这个问题,研究人员提出了时间注意力机制这一概念。时间注意力机制的主要思想是冗余帧和不相关帧不应该和问题相关帧一样重要,换句话说,应该关注与问题相关的帧。另外,上下文信息在视频内容的逻辑理解中也起着重要作用。时间注意力机制也考虑到了这一点。
因为视频是图像序列,所以图像表示的方法可以用于视频表示。例如,可以使用CNN进行帧特征化。但是,这种方式是视觉内容的粗略表示,缺少更详细的信息,例如帧中的对象。这将导致这种方式不足以回答依赖于视频内容细节的问题。因此,最好在视频中添加有关详细信息的其他表示,例如帧中的对象。
回答人类提出的关于视觉内容的一般性问题,不可避免地需要参考视觉内容中未包含的外部知识。结构化知识库提供了这种辅助信息的显式表示。这些知识库可以通过手动注释(如DBpedia,Freebase和Wikidata)构建,也可以通过自动转换非结构化/半结构化数据(如YAGO,NEIL,OpenIE和ConceptNet)。近年来,研究人员对结构化知识库的自然语言问答任务(称为KB-QA)越来越感兴趣。KB-QA方法通常有两类:信息检索方法检索一组备用答案然后执行排名以获得最终答案;语义解析方法尝试将问题转换为逻辑表达式,然后映射到知识库查询。
使用外部知识的视觉问答系统仍然相对较少。Wu等人(Qi Wu,Peng Wang,ChunhuaShen,Anthony Dick,and Anton van den Hengel.2016.Ask me anything:Free-formvisual question answering based on knowledge from external sources.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition.4622-4630.)通过Word2Vec模型将从DBpedia提取的文本(知识)编码为矢量表示。他们将知识表示与视觉特征相结合,以使用LSTM模型预测最终答案。本发明试图将Wu等人提出的方法推广到视频领域。
本发明提出了一种基于知识的渐进式时空注意力网络(K-PSTANet),用于视频问答任务。由于全局帧特征是粗略表示,使用区域提案网络(RPN)来获得样本帧中的对象和对应的区域特征。通过RPN的强大功能,可以观察到有关视频内容的更多详细信息,例如人物,特定种类的动物和工具。然后使用这些对象信息,从DBpedia中检索相关的外部知识。由于获得的外部知识是用自然语言描述的,需要将其转化为机器可以理解的形式。本发明使用Doc2Vec模型编码外部知识信息。这样就能获得几种候选知识。正如并非所有对象都是主要对象一样,并非所有知识都可用于回答特定问题。因此,采用一种单词级别注意力机制,根据问题选择最相关的知识作为最终知识表示。最后,开发了问题-知识引导的渐进式时空注意力网络(question-knowledge-guided progressive spatial-temporal attentionnetwork),来学习视频问答任务的联合视频表达,以得到最终答案。
发明内容
本发明提出了一种用于视频问答的新模型,称为基于知识的渐进式时空注意力网络(knowledge-based progressive spatial-temporal attention network,K-PSTANet)。本发明所采用的具体技术方案是:
利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,包括如下步骤:
S1:针对一段视频,利用Faster-RCNN得到视频对象集;
S2:在外部知识库中检索视频对象集对应的注释文本,得到外部知识;
S3:使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集;
S4:针对问题,利用嵌入层将输入单词转换为词嵌入向量;
S5:构建渐进式时空注意力网络,包括问题感知知识注意力单元、时空注意力单元和LSTM神经网络;将步骤S4得到的词嵌入向量输入到LSTM神经网络中,得到LSTM的隐藏状态;将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中,得到单词的外部知识表达;将单词的外部知识表达、LSTM隐藏状态和视频中的所有样本帧输入到时空注意力单元,生成针对问题的答案。
进一步的,所述步骤S1具体为:
针对一段视频,使用在MS COCO数据集上预先训练的Faster-RCNN网络来检测每个样本帧中的对象;对于视频中的第j帧,选择得分最高的前D个对象构成第j帧的对象集,表示为oj=(oj1,oj2,...,ojD);对于整段视频,将所有帧中出现次数最多的前E个对象作为视频对象集ov
进一步的,所述步骤S2具体为:
使用外部知识库DBpedia作为背景信息,DBpedia是维基百科中所提取信息的结构化数据库,使用查询语言SPARQL访问DBpedia中的数据;将ov中的视频对象作为关键字来生成DBpedia查询,检索ov中每一个视频对象对应的注释文本,将注释文本作为外部知识。
进一步的,所述步骤S3具体为:
使用Doc2Vec来提取外部知识的语义特征,获得视频的知识特征集fk,表示为
Figure BDA0002229807770000031
其中
Figure BDA0002229807770000032
表示视频中第i个对象的知识特征,i=0,1,...E。
进一步的,所述步骤S4具体为:
将问题所含单词逐个输入嵌入层中,得到每个单词对应的词嵌入向量,最终得到问题的单词级别表达q=(q1,q2,...,qn),其中n是问题所含单词的数量,qt是问题中第t个单词的词嵌入向量。
进一步的,所述步骤S5具体为:
S51,将问题中的每一个单词对应的词嵌入向量qt依次输入到一个LSTM神经网络中,将此神经网络记为LSTMq,得到LSTM的隐藏状态
Figure BDA0002229807770000041
其中
Figure BDA0002229807770000042
表示问题的第t个单词所对应LSTM的隐藏状态;
将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中,计算得到注意力得分,计算公式如下:
Figure BDA0002229807770000043
其中W,Wq和Wk是要学习的参数矩阵,b是偏置向量;
Figure BDA0002229807770000044
表示问题的第t个单词的所对应LSTM隐藏状态,表示视频中第i个对象的知识特征,
Figure BDA0002229807770000046
表示视频中第i个对象的注意力得分;
应用softmax函数生成不同知识特征的注意力分布,由下式给出:
Figure BDA0002229807770000047
其中E是知识特征集fk的长度,
Figure BDA0002229807770000048
表示视频中第i个对象的注意力分布;
根据问题的第t个单词所对应LSTM的隐藏状态外部知识表达由下式给出:
其中
Figure BDA00022298077700000411
表示问题的第t个单词的外部知识表达;
S52,所述时空注意力单元包括空间注意力机制、时间注意力机制、区域提案网络和双向LSTM网络;所述视频中的所有样本帧输入到区域提案网络中得到样本帧的对象级区域表达,得到样本帧的帧表达;将样本帧的帧表达和
Figure BDA00022298077700000412
输入到空间注意力机制,得到结合空间注意力的帧特征;将结合空间注意力的帧特征作为双向LSTM网络的输入序列,对双向LSTM网络的隐藏状态应用时间注意力机制,得到结合时空注意力的视频表达;采用LSTM神经网络对vvideo进行编码,将此神经网络记为LSTMv,LSTMv的最终隐藏状态表示为
Figure BDA0002229807770000051
将所述
Figure BDA0002229807770000052
Figure BDA0002229807770000053
进行连接以生成给定问题的答案。
进一步的,所述步骤S52具体为:
对于一段视频中的每个样本帧,使用预训练的VGG16网络产生全局帧特征V=(v1,v2,...,vn),其中vj代表视频中的第j个样本帧的特征;将全局帧特征V输入到区域提案网络RPN中进行训练,输出RoI提案,计算每一个RoI提案的IoU分数,选择IoU分数高于阈值η的提案并经过RoI池化,然后输入到多层全连接网络中进行对象区域特征提取,得到视频中第j个样本帧的对象级区域表达
Figure BDA0002229807770000054
其中j表示第j个样本帧,
Figure BDA0002229807770000055
表示第j个样本帧的第i个对象区域特征,K是对象区域特征的数量;
进一步得到视频中第j帧的帧表达
Figure BDA0002229807770000056
其中
Figure BDA0002229807770000057
计算视频中第j帧的空间注意力得分
Figure BDA0002229807770000058
Figure BDA0002229807770000059
其中Ws
Figure BDA00022298077700000510
Figure BDA00022298077700000511
是参数矩阵;bs是偏置向量;k=1,2,...K+1;对于每个区域,由softmax函数在空间维度上进行激活,
Figure BDA00022298077700000512
然后,结合空间注意力的帧表达由下式给出:
得到结合空间注意力的帧特征
Figure BDA00022298077700000514
其中
Figure BDA00022298077700000515
表示结合空间注意力的的第j帧的帧表达;
将vs作为双向LSTM网络的输入序列,该双向LSTM的隐藏状态表示为
Figure BDA00022298077700000516
对隐藏状态hs应用时间注意力机制,得到正在处理的问题的第t个单词的时间注意力得分
Figure BDA00022298077700000517
其中Wt
Figure BDA0002229807770000062
是参数矩阵;bt是偏置向量;对于每个隐藏状态,由softmax函数在时间维度上进行的激活,
最后,结合注意力的视频表达由下式给出:
Figure BDA0002229807770000064
其中
Figure BDA0002229807770000065
表示问题的第t个单词的视频表达,在处理完问题最后一个词嵌入向量之后,得到一系列结合注意力的视频表达
Figure BDA0002229807770000066
其中n为问题中单词的数量。
采用LSTM神经网络对vvideo进行编码,将此神经网络记为LSTMv,LSTMv的最终隐藏状态表示为
Figure BDA0002229807770000067
含有结合注意力的时空视觉信息;外部知识表达
Figure BDA0002229807770000068
包含相关知识的语义信息,问题的最终隐藏状态
Figure BDA0002229807770000069
包含问题的语义信息;将所述
Figure BDA00022298077700000610
Figure BDA00022298077700000611
Figure BDA00022298077700000612
进行连接以生成给定问题的答案,答案生成方式如下:
Figure BDA00022298077700000613
其中Wg是参数矩阵,bg是偏置向量;
对于开放式视频问答,使用LSTM解码器通过使用
Figure BDA00022298077700000614
初始化,
Figure BDA00022298077700000616
作为第一个输入来生成自由形式的答案;具体地,LSTM解码器生成一系列候选答案向量,然后用和上式一样的softmax分类器用于逐单词生成答案a′=(a′1,a′2,...,a′T),其中T表示开放式视频问答任务的答案的长度。
本发明具备的有益效果:
(1)本发明使用外部知识库作为附加信息并且学习对象级视觉表示。通过使用附加信息,可以回答更具体的问题,例如一些常识性问题。
(2)本发明提出了一种基于知识的渐进式时空注意力网络,它将外部知识与问题结合起来,在空间和时间维度上引导渐进式的视频注意力,学习细粒度联合视频表示以进行答案预测。
附图说明
图1是基于知识的渐进式时空注意力机制示意图;
图2是时空注意力单元示意图。
具体实施方式
如图1所示,本发明使用LSTM逐字处理问题。问题感知知识注意力单元和时空注意力单元操纵注意力机制以在每个时间步骤分别生成知识特征和视频特征。在处理完问题中的所有单词之后,将视频、问题和知识的最终表示融合在一起以产生答案。
如图2所示,时空注意力单元采用问题-知识引导的时空注意力机制(question-knowledge-guided spatial-temporal attention mechanis)来学习联合视频表达。其中空间注意力机制来定位每个帧中的目标对象区域,以获得更详细的信息,时间注意力机制来定位包含用于回答的关键信息的相关样本帧。在这里,本发明使用问题和外部知识来引导这两个注意力过程。
具体实施步骤如下:
步骤一、针对一段视频,利用Faster-RCNN得到视频对象集;对于视频中的第j帧,选择得分最高的前五个对象构成第j帧的对象集,表示为oj=(oj1,oj2,...,oj0);对于整段视频,将所有帧中出现次数最多的前八个对象作为视频对象集ov
步骤二、在外部知识库中检索视频对象集对应的注释文本,得到外部知识;使用外部知识库DBpedia作为背景信息,DBpedia是维基百科中所提取信息的结构化数据库,使用查询语言SPARQL访问DBpedia中的数据;将ov中的视频对象作为关键字来生成DBpedia查询,检索ov中每一个视频对象对应的注释文本,将注释文本作为外部知识。
步骤三、使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集fk,表示为
Figure BDA0002229807770000071
其中
Figure BDA0002229807770000072
表示视频中第i个对象的知识特征,i=0,1,...E。;
步骤四、针对问题,利用嵌入层将输入单词转换为词嵌入向量,得到问题的单词级别表达q=(q1,q2,...,qn),其中n是问题所含单词的数量,qt是问题中第t个单词的词嵌入向量。
步骤五、构建渐进式时空注意力网络,包括问题感知知识注意力单元、时空注意力单元和LSTM神经网络;
将步骤S4得到的词嵌入向量输入到LSTM神经网络中,得到LSTM的隐藏状态;将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中,得到单词的外部知识表达;
所述时空注意力单元包括空间注意力机制、时间注意力机制、区域提案网络和双向LSTM网络;所述视频中的所有样本帧输入到区域提案网络中得到样本帧的对象级区域表达,得到样本帧的帧表达;将样本帧的帧表达和
Figure BDA0002229807770000081
输入到空间注意力机制,得到结合空间注意力的帧特征;将结合空间注意力的帧特征作为双向LSTM网络的输入序列,对双向LSTM网络的隐藏状态应用时间注意力机制,得到结合时空注意力的视频表达;采用LSTM神经网络对vvideo进行编码,将此神经网络记为LSTMv,LSTMv的最终隐藏状态表示为
Figure BDA0002229807770000082
将所述
Figure BDA0002229807770000083
Figure BDA0002229807770000084
进行连接以生成给定问题的答案。
对于开放式视频问答,使用LSTM解码器通过使用
Figure BDA0002229807770000085
Figure BDA0002229807770000086
初始化,作为第一个输入来生成自由形式的答案。具体地,LSTM解码器生成一系列候选答案向量,然后用和上式一样的softmax分类器用于逐单词生成答案a′=(a′1,a′2,...,a′T),其中T表示开放式视频问答任务的答案的长度,a′i表示答案中的第i个单词。
实施例
本实施例从YouTubeClips视频数据集构建了一个视频问题回答数据集,其中包含从YouTube网站收集的1,987个视频和122,708个自然语言描述。由于YouTubeClips视频数据集包含丰富的自然语言描述,因此本发明会根据自动问题生成方法生成问题和相关答案。本实施例根据答案属性将YouTube-QA数据集中生成的问题-答案对分为五类{“what”,“who”,“how”,“where”,“other”}。有关数据集的详细信息总结如下。
本实施例会舍弃那些无法从描述中生成问题的视频。因此,YouTube-QA数据集最终包含1,970个视频,以及122,708个自然语言描述和50,505个问答对。本实施例将数据集分为三个部分:训练集,验证集和测试集。训练集包含来自1,200个视频的30,933个问答对。验证和测试集分别有来自250和520个视频的6,415和13,157个问答对。通过确保来自一个视频的问答对仅出现在三个集合中的一个中来进行分割。表1显示了有关YouTube-QA数据集的更多信息。
表1 YouTube-QA数据集统计信息
除了YouTube-QA数据集,本实施方式还在实验中使用了另一个数据集Video-QA数据集。表2显示了Video-QA数据集的统计信息。虽然本实施方式的数据集和Video-QA数据集的视觉信息来自相同的源数据集,但由于采用的问题生成算法不同,这两个数据集的问答配对内容完全不同。问题类型的划分也不同。本实施方式的数据集有五种特定的问题类型;但是,Video-QA数据集只有三个问题类别,其中“其他”类别包括几个不同的问题类型,没有特定的划分。Video-QA数据集包括两类任务:开放式任务和多项任务。
表2 Video-QA数据集统计信息
Figure BDA0002229807770000092
本实施方式使用了三个现有模型与本发明进行比较,下面给出对比的三个现有模型出自的文献:
文献1:Stanislaw Antol,Aishwarya Agrawal,Jiasen Lu,Margaret Mitchell,Dhruv Batra,C.Lawrence Zitnick,and Devi Parikh.2015.Vqa:Visual questionanswering.In Proceedings of the IEEE International Conference on ComputerVision.2425-2433.
文献2:Li Yao,Atousa Torabi,Kyunghyun Cho,Nicolas Ballas,ChristopherPal,Hugo Larochelle,and Aaron Courville.2015.Describing videos by exploitingtemporal structure.In Proceedings of the IEEE International Conference onComputer Vision.4507-4515.
文献3:Sainbayar Sukhbaatar,Jason Weston,Rob Fergus,et a1.2015.End-to-end memory networks.In Advances in Neural Information ProcessingSystems.2440-2448.
VQA+模型(VQA+)(文献1)该模型包含两个LSTM网络,一个用于编码问题中的所有单词,另一个LSTM网络用于编码视频中的帧。然后将问题和视频的表达融合为统一表达,用于解码答案。该模型考虑了视频和问题的顺序性。
Soft-Attention+模型(SA+)(文献2)。该模型首先使用一个LSTM网络对问题中的单词进行编码,然后使用该问题的编码表达来参与生成帧特征。问题表达和加权视频表达都用于生成最终答案。该模型增强了基于问题选择重要帧的能力。
N2N Memory Networks+(MN+)(文献3)。该模型使用双向LSTM网络来更新给定视频的帧表达。然后,更新的表达被映射到存储器中,并且问题表达用于执行多个推断步骤以生成最终的答案预测。该模型不仅具有上述两种模型的能力,而且还增强和改进了推理过程。
本发明在数据集上的实现细节如下:
对于视频预处理,本发明首先将给定视频均匀地采样到20帧。然后提取VGG网络的fc7层特征,其维度为4,096,用于全局表达。对于所述的对象级特征表达,其大小也设置为4,096。对于问题嵌入,采用预先训练的300维Word2Vec模型。问题由嵌入层转换,嵌入层实际上是一个矩阵,包含词汇表中所有单词的向量表示,并由Word2Vec初始化。至于在词汇表中找不到的单词,本发明根据其他现有的单词嵌入来给出一个特定的平均嵌入来表示它们。LSTMq的隐藏状态大小设置为300,与单词嵌入的维度相匹配。本发明使用Doc2Vec来获取相关的知识特征,其大小也设置为300。
本发明使用mini-batch随机梯度下降来优化模型,默认学习率为0.001。由于原始问题之间的长度不同,将独热码都填充到30的大小,这也是数据集中问题的最大长度。同时,利用early stopping机制使所有模型的训练轮数不超过100轮。模型的损失函数定义如下:
Figure BDA0002229807770000101
损失函数第一部分是交叉熵的对数损失,其中N是批量大小,K是答案的长度(对于YouTube-QA和Video-QA数据集,K=1),M是候选答案集的大小,yi,j,k是真实答案(二进制值),pi,j,k是生成答案的概率。第二部分是最小二乘的L2正则化,其中Ω表示模型的参数,λ是超参数,它控制正则化的重要性。正则化项用于防止模型过度拟合。选择在验证集上实现最佳性能的参数和超参数来进行测试评估。
下面简述评估指标:
本实施方式使用Accuracy和WUPS Score的评估标准评估本发明提出的K-PSTANet方法在开放式视频问答环节中的表现。
Accuracy(准确性)。给定测试问题q∈Qt和视频v∈Vt与真实答案a,本实施方式用K-PSTANet模型表示预测答案为a′。下面介绍准确度的评估标准:
Figure BDA0002229807770000111
其中Accuracy=1(最佳)表示生成的答案和真实答案完全相同,而Accuracy=0表示相反;K是两个答案的公共长度。由于目前YouTube-QA数据集中的答案只包含一个单词,在实验中将K的值设置为1。对于具有变化长度的更多自由形式答案,K的值将大于1。
WUPS Score(WUPS得分)。该指标的目的是将不同概念的模糊性考虑在内。给定生成的答案A′=(a′1,a′2,...)和真实答案A=(a1,a2,...),其中a′i是生成的答案的第i个token,ai是真实答案的第i个token,阈值为γ的WUPS Score定义如下:
Figure BDA0002229807770000112
其中阈值为γ的WUP Score定义如下:
Figure BDA0002229807770000113
其中WUP Score是Wu-Palmer相似度,它是一种句子的词级相似性度量。
下面展示模型效果:
使用Accuracy和WUPS Score评估三个基线模型和在YouTube-QA数据集上提出的K-PSTANet的性能。为得到更有说服力的结果,本实施方式还在Video-QA数据集上评估了本发明的方法。由于原始Video-QA论文中没有WUPS Score的评估,本发明仅对比模型在此数据集上的Accuracy指标。
表3 YouTube-QA数据集实验结果
Figure BDA0002229807770000121
表4 Video-QA数据集实验结果
Figure BDA0002229807770000122
下面给出对比的r-ANL模型出自的文献:
文献4:Yunan Ye,Zhou Zhao,Yimeng Li,Long Chen,Jun Xiao,and YuetingZhuang.2017.Video question answering via attribute-augmented attentionnetwork learning.In Proceedings of the 40th International ACM SIGIRConference on Research and Development in Information Retrieval.ACM,829-832.
表3显示了基于YouTube-QA数据集的不同类型问题的总体实验结果。如表所示,本发明的方法(K-PSTANet)在Accuracy和WUPS Score两个指标上均比其他基线模型有更好的表现,这表明了本发明有效性。此外,还展示了每个问题类型的Accuracy指标的细节,本发明在“what”,“who”和“when”类型中Accuracy指标是所有参与比较的模型中得分最高的,但在其他两类问题上的性能略低。但是,“what”和“who”类型的问题数量在数据集中占比很高,其他三类问题的问答对非常有限,通常不足以反映本发明模型的表现。表4显示了Video-QA数据集的实验结果。本发明的方法在开放式问题和多选择任务上都能达到最佳性能,并且优于提出Video-QA数据集的论文(文献4)中的r-ANL方法。

Claims (7)

1.利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用Faster-RCNN得到视频对象集;
S2:在外部知识库中检索视频对象集对应的注释文本,得到外部知识;
S3:使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集;
S4:针对问题,利用嵌入层将输入单词转换为词嵌入向量;
S5:构建渐进式时空注意力网络,包括问题感知知识注意力单元、时空注意力单元和LSTM神经网络;将步骤S4得到的词嵌入向量输入到LSTM神经网络中,得到LSTM的隐藏状态;将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中,得到单词的外部知识表达;将单词的外部知识表达、LSTM隐藏状态和视频中的所有样本帧输入到时空注意力单元,生成针对问题的答案。
2.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S1具体为:
针对一段视频,使用在MS COCO数据集上预先训练的Faster-RCNN网络来检测每个样本帧中的对象;对于视频中的第j帧,选择得分最高的前D个对象构成第j帧的对象集,表示为oj=(oj1,oj2,...,ojD);对于整段视频,将所有帧中出现次数最多的前E个对象作为视频对象集ov
3.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S2具体为:
使用外部知识库DBpedia作为背景信息,DBpedia是维基百科中所提取信息的结构化数据库,使用查询语言SPARQL访问DBpedia中的数据;将ov中的视频对象作为关键字来生成DBpedia查询,检索ov中每一个视频对象对应的注释文本,将注释文本作为外部知识。
4.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S3具体为:
使用Doc2Vec来提取外部知识的语义特征,获得视频的知识特征集fk,表示为
Figure FDA0002229807760000021
其中fi k表示视频中第i个对象的知识特征,i=0,1,...E。
5.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S4具体为:
将问题所含单词逐个输入嵌入层中,得到每个单词对应的词嵌入向量,最终得到问题的单词级别表达q=(q1,q2,...,qn),其中n是问题所含单词的数量,qt是问题中第t个单词的词嵌入向量。
6.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S5具体为:
S51,将问题中的每一个单词对应的词嵌入向量qt依次输入到一个LSTM神经网络中,将此神经网络记为LSTMq,得到LSTM的隐藏状态
Figure FDA0002229807760000022
其中
Figure FDA0002229807760000023
表示问题的第t个单词所对应LSTM的隐藏状态;
将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中,计算得到注意力得分,计算公式如下:
Figure FDA0002229807760000024
其中W,Wq和Wk是要学习的参数矩阵,b是偏置向量;
Figure FDA0002229807760000025
表示问题的第t个单词的所对应LSTM隐藏状态,fi k表示视频中第i个对象的知识特征,
Figure FDA0002229807760000026
表示视频中第i个对象的注意力得分;
应用softmax函数生成不同知识特征的注意力分布,由下式给出:
Figure FDA0002229807760000027
其中E是知识特征集fk的长度,
Figure FDA0002229807760000028
表示视频中第i个对象的注意力分布;
根据问题的第t个单词所对应LSTM的隐藏状态
Figure FDA0002229807760000029
外部知识表达由下式给出:
Figure FDA00022298077600000210
其中
Figure FDA00022298077600000211
表示问题的第t个单词的外部知识表达;
S52,所述时空注意力单元包括空间注意力机制、时间注意力机制、区域提案网络和双向LSTM网络;所述视频中的所有样本帧输入到区域提案网络中得到样本帧的对象级区域表达,得到样本帧的帧表达;将样本帧的帧表达和
Figure FDA0002229807760000031
输入到空间注意力机制,得到结合空间注意力的帧特征;将结合空间注意力的帧特征作为双向LSTM网络的输入序列,对双向LSTM网络的隐藏状态应用时间注意力机制,得到结合时空注意力的视频表达;采用LSTM神经网络对vvideo进行编码,将此神经网络记为LSTMv,LSTMv的最终隐藏状态表示为
Figure FDA0002229807760000032
将所述
Figure FDA0002229807760000033
Figure FDA0002229807760000034
进行连接以生成给定问题的答案。
7.如权利要求6所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S52具体为:
对于一段视频中的每个样本帧,使用预训练的VGG16网络产生全局帧特征V=(v1,v2,...,vn),其中vj代表视频中的第j个样本帧的特征;将全局帧特征V输入到区域提案网络RPN中进行训练,输出RoI提案,计算每一个RoI提案的IoU分数,选择IoU分数高于阈值η的提案并经过RoI池化,然后输入到多层全连接网络中进行对象区域特征提取,得到视频中第j个样本帧的对象级区域表达其中j表示第j个样本帧,
Figure FDA0002229807760000036
表示第j个样本帧的第i个对象区域特征,K是对象区域特征的数量;
进一步得到视频中第j帧的帧表达
Figure FDA0002229807760000037
其中
Figure FDA0002229807760000038
计算视频中第j帧的空间注意力得分
Figure FDA00022298077600000310
其中Ws
Figure FDA00022298077600000311
Figure FDA00022298077600000312
是参数矩阵;bs是偏置向量;k=1,2,...K+1;对于每个区域,由softmax函数在空间维度上进行激活,
Figure FDA00022298077600000313
然后,结合空间注意力的帧表达由下式给出:
Figure FDA00022298077600000314
得到结合空间注意力的帧特征
Figure FDA00022298077600000315
其中
Figure FDA00022298077600000316
表示结合空间注意力的的第j帧的帧表达;
将vs作为双向LSTM网络的输入序列,该双向LSTM的隐藏状态表示为
Figure FDA0002229807760000041
对隐藏状态hs应用时间注意力机制,得到正在处理的问题的第t个单词的时间注意力得分
Figure FDA0002229807760000042
Figure FDA0002229807760000043
其中Wt
Figure FDA0002229807760000044
Figure FDA0002229807760000045
是参数矩阵;bt是偏置向量;对于每个隐藏状态,由softmax函数在时间维度上进行的激活,
Figure FDA0002229807760000046
最后,结合注意力的视频表达由下式给出:
Figure FDA0002229807760000047
其中
Figure FDA0002229807760000048
表示问题的第t个单词的视频表达,在处理完问题最后一个词嵌入向量之后,得到一系列结合注意力的视频表达
Figure FDA0002229807760000049
其中n为问题中单词的数量;
采用LSTM神经网络对vvideo进行编码,将此神经网络记为LSTMv,LSTMv的最终隐藏状态表示为
Figure FDA00022298077600000410
含有结合注意力的时空视觉信息;外部知识表达
Figure FDA00022298077600000411
包含相关知识的语义信息,问题的最终隐藏状态包含问题的语义信息;将所述
Figure FDA00022298077600000413
Figure FDA00022298077600000414
Figure FDA00022298077600000415
进行连接以生成给定问题的答案,答案生成方式如下:
其中Wg是参数矩阵,bg是偏置向量;
对于开放式视频问答,使用LSTM解码器通过使用
Figure FDA00022298077600000418
初始化,
Figure FDA00022298077600000419
作为第一个输入来生成自由形式的答案;具体地,LSTM解码器生成一系列候选答案向量,然后用和上式一样的softmax分类器用于逐单词生成答案a′。
CN201910965525.1A 2019-10-11 2019-10-11 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 Withdrawn CN110704601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910965525.1A CN110704601A (zh) 2019-10-11 2019-10-11 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910965525.1A CN110704601A (zh) 2019-10-11 2019-10-11 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

Publications (1)

Publication Number Publication Date
CN110704601A true CN110704601A (zh) 2020-01-17

Family

ID=69199489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910965525.1A Withdrawn CN110704601A (zh) 2019-10-11 2019-10-11 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

Country Status (1)

Country Link
CN (1) CN110704601A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN111444316A (zh) * 2020-03-11 2020-07-24 浙江大学 一种面向知识图谱问答的复合问句解析方法
CN111488438A (zh) * 2020-02-21 2020-08-04 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
CN111611367A (zh) * 2020-05-21 2020-09-01 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
CN112380394A (zh) * 2020-10-27 2021-02-19 浙江工商大学 面向文本到视频片段定位的渐进式定位方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114911930A (zh) * 2022-04-15 2022-08-16 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统
CN114936297A (zh) * 2022-06-10 2022-08-23 四川省人工智能研究院(宜宾) 一种基于先验知识和对象敏感的视频问答方法
CN117151228A (zh) * 2023-10-31 2023-12-01 深圳大数信科技术有限公司 一种基于大模型与知识库生成的智能客服系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
WO2019133052A1 (en) * 2017-12-28 2019-07-04 Yang Shao Wen Visual fog

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
WO2019133052A1 (en) * 2017-12-28 2019-07-04 Yang Shao Wen Visual fog
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨启凡: "基于时空注意力网络的视频问答", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488438A (zh) * 2020-02-21 2020-08-04 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
CN111488438B (zh) * 2020-02-21 2022-07-29 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
CN111444316B (zh) * 2020-03-11 2023-08-29 浙江大学 一种面向知识图谱问答的复合问句解析方法
CN111444316A (zh) * 2020-03-11 2020-07-24 浙江大学 一种面向知识图谱问答的复合问句解析方法
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN111414845B (zh) * 2020-03-18 2023-06-16 浙江大学 基于空间-时间图推理网络的多形态语句视频定位方法
CN111611367A (zh) * 2020-05-21 2020-09-01 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
US11941872B2 (en) 2020-10-27 2024-03-26 Zhejiang Gongshang University Progressive localization method for text-to-video clip localization
CN112380394A (zh) * 2020-10-27 2021-02-19 浙江工商大学 面向文本到视频片段定位的渐进式定位方法
CN112380394B (zh) * 2020-10-27 2022-05-10 浙江工商大学 面向文本到视频片段定位的渐进式定位方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN112860945B (zh) * 2021-01-07 2022-07-08 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113609330B (zh) * 2021-07-15 2022-06-14 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114911930A (zh) * 2022-04-15 2022-08-16 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统
CN114936297A (zh) * 2022-06-10 2022-08-23 四川省人工智能研究院(宜宾) 一种基于先验知识和对象敏感的视频问答方法
CN114936297B (zh) * 2022-06-10 2023-03-14 四川省人工智能研究院(宜宾) 一种基于先验知识和对象敏感的视频问答方法
CN117151228A (zh) * 2023-10-31 2023-12-01 深圳大数信科技术有限公司 一种基于大模型与知识库生成的智能客服系统
CN117151228B (zh) * 2023-10-31 2024-02-02 深圳大数信科技术有限公司 一种基于大模型与知识库生成的智能客服系统

Similar Documents

Publication Publication Date Title
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN111581510B (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN109299341B (zh) 一种基于字典学习的对抗跨模态检索方法和系统
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN111324769A (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
Moumtzidou et al. ITI-CERTH participation to TRECVID 2012.
Gan et al. Unsupervised learning of sentence representations using convolutional neural networks
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
Lian et al. Cross modification attention-based deliberation model for image captioning
CN112861580A (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN118035565B (zh) 基于多模态情绪感知的主动服务推荐方法、系统和设备
Dehaqi et al. Adversarial image caption generator network
US12001462B1 (en) Method and system for multi-level artificial intelligence supercomputer design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200117

WW01 Invention patent application withdrawn after publication