CN116385937A - 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 - Google Patents

一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 Download PDF

Info

Publication number
CN116385937A
CN116385937A CN202310371771.0A CN202310371771A CN116385937A CN 116385937 A CN116385937 A CN 116385937A CN 202310371771 A CN202310371771 A CN 202310371771A CN 116385937 A CN116385937 A CN 116385937A
Authority
CN
China
Prior art keywords
video
representation
representing
nodes
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310371771.0A
Other languages
English (en)
Inventor
孙广路
邱瑾
梁丽丽
王艺达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202310371771.0A priority Critical patent/CN116385937A/zh
Publication of CN116385937A publication Critical patent/CN116385937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

Description

一种基于多粒度的跨模态交互框架解决视频问答的方法及 系统
技术领域
本发明涉及计算机视觉和自然语言处理领域,具体涉及一种基于多粒度的跨模态交互框架解决视频问答的方法及系统。
背景技术
多模态开放式的视频问答任务是一种结合计算机视觉和自然语言处理领域的多模态任务,该任务通过给定一个包含描述信息的视频和一个自然语言描述的问题,在理解视频内容和问题的基础上,自动地预测出问题的答案。
视频问答的目的是在理解多模态视频内容的基础上正确回答给定的问题。现有的解决视频问答任务的核心技术涉及图神经网络和注意力机制,图神经网络的思想是通过注意力机制来整合图结构中的邻域结点信息,实现对不同邻域结点权重的分配,获取视频信息来预测答案。注意力机制的思想是计算问题与视频信息之间的相似度,为与问题相关的视频信息分配较高的权重值,并基于此生成答案。
但是,现有的图神经网络仅关注视觉或语言的整体内容,有意义和细粒度的视觉或语言内容常常被忽略,这会导致视频问答模型遗漏了回答问题所需要的细节信息,从而影响了对于视频信息的理解,降低了答案预测的准确性。其次,目前的注意力模型难以有效整合同模态的视频、同模态的文本、以及跨模态视频和文本之间的信息。这会导致视频问答模型很难从大量的视频信息中找到正确答案的证据。因此,解决视频问答任务需要具有两个关键的功能:理解不同语义层次上的视频内容;灵活地整合不同模态的视频内容,来提取与问题相关的内容。
发明内容
为此,本发明提出一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一方面,提供一种基于多粒度的跨模态交互框架解决视频问答的方法,该方法包括以下步骤:
S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
进一步地,S1中利用预训练的ResNet模型提取视频帧特征,利用预训练的FasterR-CNN模型提取视频帧的目标特征。
进一步地,S2中利用SRL工具包分析描述文本的词性,获取词性分析结果,所述词性分析结果包括每个描述文本对应的动词和实体。
进一步地,S3中利用预训练的wordembedding模型提取问题的特征。
进一步地,S4中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
Figure BDA0004168877480000021
其中,
Figure BDA0004168877480000022
表示空间图第i个结点在图神经网络第l层的更新;Wp表示图神经网络的结点转换矩阵;bp(ri,j)表示目标边框的相对位置ri,j的学习向量;Ni表示空间图中结点i的邻域;
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
Figure BDA0004168877480000031
其中,
Figure BDA0004168877480000032
表示语义图第i个结点在图神经网络第l层的更新;Ae,i表示第i个结点的邻接矩阵;/>
Figure BDA0004168877480000033
表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点;We表示变换矩阵;/>
Figure BDA0004168877480000034
表示注意力系数;
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示。
进一步地,S4中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
Figure BDA0004168877480000035
其中,
Figure BDA0004168877480000036
表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>
Figure BDA0004168877480000037
为注意力系数;/>
Figure BDA0004168877480000038
表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;
将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
进一步地,S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括:
将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图,并对视觉图的结点进行编码,得到视觉图编码V′;对语言图的结点进行编码,得到语言图编码L′;
利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码,得到编码后的视频表示V1和问题表示Q1
利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的视频编码Vs,应用跨模态注意力机制得到跨模态下的视频编码Vd
利用softmax函数对问题表示Q1应用同模态注意力机制得到同模态下的问题编码Qs,应用跨模态注意力机制得到跨模态下的问题编码Qd
利用sigmoid激活函数将视频编码Vs和Vd融合,将问题编码Qs和Qd融合,得到视频表示V2和问题表示Q2
利用上下文注意力机制得到视频表示V2和问题表示Q2的融合权重,根据融合权重和单层前馈网络得到基于问题的视觉表示Vq和基于视频的文本表示Qv
进一步地,S6的具体过程包括:将基于问题的视觉表示Vq和基于视频的文本表示Qv进行拼接,得到问题参与的视觉表示H;对问题的词嵌入向量Q通过双向长短期记忆网络得到问题表示Q′,将视觉表示H和问题表示Q′输入到分类器中计算每种答案的置信度;从答案中选择置信度最高的答案作为预测的答案。
根据本发明的另一方面,提供一种基于多粒度的跨模态交互框架解决视频问答的系统,该系统包括:
视频特征提取模块,其配置成对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
文本特征提取模块,其配置成对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
问题特征提取模块,其配置成对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
编码模块,其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
融合推理模块,其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的特征一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
答案预测模块,其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
进一步地,所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
Figure BDA0004168877480000051
其中,
Figure BDA0004168877480000052
表示空间图第i个结点在图神经网络第l层的更新;Wp表示图神经网络的结点转换矩阵;bp(ri,j)表示目标边框的相对位置ri,j的学习向量;Ni表示空间图中结点i的邻域;
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
Figure BDA0004168877480000053
其中,
Figure BDA0004168877480000054
表示语义图第i个结点在图神经网络第l层的更新;Ae,i表示第i个结点的邻接矩阵;/>
Figure BDA0004168877480000055
表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点;We表示变换矩阵;/>
Figure BDA0004168877480000056
表示注意力系数;
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;
所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
Figure BDA0004168877480000061
其中,
Figure BDA0004168877480000062
表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>
Figure BDA0004168877480000063
为注意力系数;/>
Figure BDA0004168877480000064
表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;
将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
本发明的有益技术效果是:
本发明提出了一个基于多粒度的跨模态交互框架来解决视频问答任务。为了充分理解不同语义层次的视频内容,提出了基于图神经网络的多粒度编码模块。具体来说,利用基于图神经网络的视觉和语言编码器对提取的视频帧特征、目标特征以及描述文本进行编码,获取多粒度的视觉表示和语言表示。其次,为了有效捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,提出了多模态注意力融合推理模块。具体来说,分别对多粒度视觉表示和语言表示进行编码融合,执行以问题为导向的注意力机制来捕获信息,将同模态的视频、同模态的文本分别与跨模态视频和文本之间的交互信息融合,获取与问题相关的视觉表示,并基于此预测答案。
本发明利用图神经网络处理视频的不同语义层次信息,并通过注意力模块捕获视觉信息和语言信息,推理出以问题为导向的视觉表示,并基于此来预测答案。其中,对视频提取视频帧和目标特征,对描述文本进行词性分析,获取不同单词的词性信息,提升了视频信息的获取能力;设计的基于图神经网络的多粒度编码模块,获取了视频与描述文本的全局表示和细粒度表示,从不同的语义层次上理解视频内容,提高了推理的准确性;设计的多模态注意力融合推理模块,捕获了视觉信息和语言信息,并将获取到的多模态信息与问题特征充分融合,灵活整合了不同层次的视频内容,提升了对视频信息的理解能力。
在MSRVTT-QA数据集上的实验结果表明,本发明提出的基于多粒度的跨模态交互框架解决视频问答的方法优于其他方法。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为本发明实施例所述一种基于多粒度的跨模态交互框架解决视频问答的方法流程示意图;
图2为本发明实施例中使用角色图嵌入示意图;
图3为本发明实施例中基于注意力机制的多模态注意力融合推理模块示意图;
图4为本发明实施例所述的基于多粒度的跨模态交互框架解决视频问答的方法的整体框架图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本发明实施例提出一种基于多粒度的跨模态交互框架解决视频问答的方法,如图1所示,该方法包括以下步骤:
S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
下面对本发明实施例进行详细说明。
在S1中,对于输入的视频,提取视频帧特征,同时对于视频帧中的目标,提取其目标级特征,目标级特征包括目标特征、目标位置和类别标签。
根据本发明实施例,对于输入的每个视频,均匀采样64帧,对得到的视频帧进行特征提取,获得静态图像信息;同时,检测每个视频帧中置信度得分高的多个目标进行特征提取,获得目标特征、目标位置和类别标签;目标特征例如为目标的尺寸、目标周围的背景与相邻物体,并进一步利用目标特征提取目标位置和类别标签。具体如下。
对于输入的视频,使用预训练的ResNet模型提取输入视频的视频帧特征F=[f1,f2,...,fN],其中,
Figure BDA0004168877480000081
代表整个视频的视频帧特征,fi代表视频第i帧的特征,N代表视频帧的数量。
对于视频帧,使用预训练的FasterR-CNN模型提取视频帧的目标特征O=[O1,O2,...,ON],其中Oi=[o1,...,oj,...,oM],
Figure BDA0004168877480000082
代表整个视频的目标特征,
Figure BDA0004168877480000083
代表视频第i帧的目标特征,oij代表视频第i帧的第j个目标的特征,N代表视频帧的数量,M代表视频第i帧中目标的数量。
进一步根据目标特征得到目标位置P=[P1,P2,...,PN],且Pi=[p1,...,pM],pj=[px,py,px+pw,py+ph,pw,ph]Τ,其中,
Figure BDA0004168877480000084
代表整个视频的位置信息,/>
Figure BDA0004168877480000085
代表视频第i帧目标位置信息,pj代表视频帧中第j个目标位置信息,px、py分别代表目标边框左上角的x坐标和y坐标,pw、ph分别代表目标边框的宽和高。根据同一帧中目标位置信息,可以计算两个目标边框的IOU值,得到目标边框的相对位置ri,j,即该帧中目标i和目标j的IOU值。
进一步根据目标特征得到目标标签C=[C1,C2,...,CN],且Ci=[c1,...,cM],其中,
Figure BDA0004168877480000086
代表整个视频的目标标签,/>
Figure BDA0004168877480000087
代表视频第i帧的目标标签,cj代表视频第i帧的第j个目标的目标标签。
在S2中,对于视频对应的描述文本,提取描述文本的词性分析结果;其中描述文本包括一个或多个。
根据本发明实施例,对于输入视频对应的描述文本,对其进行词性分析,使用SRL工具包分析词性,获取描述文本中的动词和实体D=[D1,...,DS],且
Figure BDA0004168877480000091
其中,/>
Figure BDA0004168877480000092
代表整个视频描述文本的词性信息,
Figure BDA0004168877480000093
代表视频第i个描述文本的词性信息,/>
Figure BDA0004168877480000094
代表视频第i个描述文本的第j个动词,
Figure BDA0004168877480000095
代表视频第i个描述文本的第j个实体,S代表视频描述文本的数量,X代表描述文本的长度,Y代表视频第i个描述文本中动词的数量,Z代表视频第i个描述文本中实体的数量。
在S3中,对于输入的有关视频内容的问题,提取问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息。
根据本发明实施例,对于输入的问题,提取句子的问题特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息。使用预训练的wordembedding模型提取问题特征Q=[q1,...,qW],其中,
Figure BDA0004168877480000096
代表问题特征,qi代表问题第i个词的特征,W代表问题的长度。
在S4中,将提取的视频帧特征、目标级特征和词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示。
根据本发明实施例,获得视频帧的全局表示和细粒度表示的具体过程包括:
a.将提取的视频帧特征使用全连接层映射到d维空间,得到视频帧的全局表示
Figure BDA0004168877480000097
其中,V代表视频,g代表全局。
b.首先,使用第i个视频帧的目标作为图结点,构建空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee),其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表帧中目标边框的相对位置;利用视频帧中第i个目标的位置信息pi和提取的目标特征oi初始化空间图的结点,计算公式如下:
Figure BDA0004168877480000098
其中,
Figure BDA0004168877480000099
代表空间图的第i个初始化目标结点,/>
Figure BDA00041688774800000910
和/>
Figure BDA00041688774800000911
用于将目标特征oi映射为d维表示,/>
Figure BDA0004168877480000101
和/>
Figure BDA0004168877480000102
用于将目标特征pi映射为d维表示,/>
Figure BDA0004168877480000103
用于将拼接的特征转换为d维表示空间;
然后,利用视频帧中第i个目标的目标特征oi和目标类别标签ci初始化语义图的结点,计算公式如下:
Figure BDA0004168877480000104
其中,
Figure BDA0004168877480000105
代表语义图的第i个初始化目标结点,/>
Figure BDA0004168877480000106
和/>
Figure BDA0004168877480000107
与(1)式相同,/>
Figure BDA0004168877480000108
和/>
Figure BDA0004168877480000109
用于将目标特征ci映射为d维表示;
然后,利用帧中目标边框的相对位置ri,j对空间图结点进行更新,计算公式如下:
Figure BDA00041688774800001010
其中,
Figure BDA00041688774800001011
代表空间图第i个结点在图神经网络的第l层的更新,/>
Figure BDA00041688774800001012
为图神经网络的结点转换矩阵,/>
Figure BDA00041688774800001013
为相对位置ri,j的学习向量,Ni代表空间图中结点i的邻域,/>
Figure BDA00041688774800001014
代表加法操作,ReLU(·)是激活函数,计算公式如下:
ReLU(x)=max(0,x) (4)
其中,x代表任意一个变量,max(·)是取0与x的最大值。
然后,利用语义图的多个初始目标结点
Figure BDA00041688774800001015
可以得到邻接矩阵Ae,计算公式如下:
Ae=(W1Ve 0)(W2Ve 0)Τ (5)
其中,
Figure BDA00041688774800001016
为权重矩阵。
在确定邻接矩阵Ae后,邻接矩阵Ae的每一行表示与第i个结点相邻的结点集合,根据其可以确定语义图中的相邻结点,并根据相邻结点对语义图中的结点进行更新,计算公式如下:
Figure BDA00041688774800001017
其中,ReLU(·)是上述的激活函数,
Figure BDA00041688774800001018
代表语义图第i个结点在图神经网络的第l层的更新,/>
Figure BDA00041688774800001019
代表利用邻接矩阵Ae得到的与第i个结点相邻的结点,/>
Figure BDA00041688774800001020
为变换矩阵,
Figure BDA00041688774800001021
为注意力系数,计算公式如下:
Figure BDA00041688774800001022
其中,exp代表以e为底的指数函数,
Figure BDA0004168877480000111
为可学习的变换矩阵。
最后,对得到的第i帧的结点表示
Figure BDA0004168877480000112
和/>
Figure BDA0004168877480000113
使用图池得到帧级嵌入/>
Figure BDA0004168877480000114
和/>
Figure BDA0004168877480000115
其中,/>
Figure BDA0004168877480000116
和/>
Figure BDA0004168877480000117
分别是对Vp和Ve进行平均池化;对N帧嵌入进行堆叠得到视频帧的细粒度表示/>
Figure BDA0004168877480000118
并且/>
Figure BDA0004168877480000119
其中,V代表视频,l代表局部。
如图2所示,获得描述文本的全局表示和细粒度表示的具体过程包括:
首先,对第i个描述文本的词性信息构建角色图Gr=(Vr,Er,Tr),第i个句子本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,而一个实体结点根据动作结点的词性信息与不同的动作结点连接,其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
然后,对描述文本利用BERT模型提取描述文本的句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入lc,对词级特征利用非线性投影初始化动词和实体结点,计算公式如下:
Figure BDA00041688774800001110
其中,
Figure BDA00041688774800001111
代表角色图的第i个初始化结点,/>
Figure BDA00041688774800001112
为映射矩阵,/>
Figure BDA00041688774800001113
为第i个结点的词级特征;
然后,基于描述文本的词性分析结果更新角色图结点,计算公式如下:
Figure BDA00041688774800001114
其中,
Figure BDA00041688774800001115
代表角色图中第i个结点在图神经网络的第l层的更新,/>
Figure BDA00041688774800001116
表示角色图中第i个结点的邻域点在图神经网络第l层的更新;/>
Figure BDA00041688774800001117
为嵌入矩阵,Y代表动作结点数量,Z代表实体结点数量,/>
Figure BDA00041688774800001118
为变换矩阵,tr,i为Tr中的第i个结点的类型,Wr1[tr,i,:]代表Wr的第tr,i行,/>
Figure BDA00041688774800001119
代表乘法操作,ReLU(·)是激活函数,Ni代表角色图中结点i的邻域,/>
Figure BDA00041688774800001120
为注意力系数,计算公式如下:
Figure BDA00041688774800001121
其中,exp代表以e为底的指数函数,
Figure BDA00041688774800001122
为可学习的变换矩阵。
然后,对S个描述文本的句子结点表示进行堆叠,得到描述文本的全局表示
Figure BDA0004168877480000121
对动作结点和实体结点使用平均图池得到细粒度语言嵌入/>
Figure BDA0004168877480000122
(即进行平均池化),对其进行堆叠得到描述文本的细粒度表示/>
Figure BDA0004168877480000123
其中,L代表描述文本,l代表局部,g代表全局。
在S5中,将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示。
根据本发明实施例,如图3所示,将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图GV,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图GL,并对视觉图的结点进行编码,得到视觉图编码
Figure BDA0004168877480000124
对语言图的结点进行编码,得到语言图编码/>
Figure BDA0004168877480000125
其中N代表视频帧数量,S代表描述文本的数量。
然后,将视觉图编码V′和问题特征即问题的词嵌入向量Q分别与语言图编码L′合并编码,利用两个单层前馈网络将视频表示和问题表示映射到相同的维度d′,得到编码后的视频表示
Figure BDA0004168877480000126
和问题表示/>
Figure BDA0004168877480000127
计算公式如下:
Figure BDA0004168877480000128
其中,FFN(·)是单层前馈网络,其计算公式如下:
FFN(X)=WXΤ+b(12)
其中,X代表任意一个矩阵,它包含n行m列个元素,W为权重矩阵,b为偏置向量。
然后,对视频表示V1应用同模态注意力机制得到同模态下的视频编码
Figure BDA0004168877480000129
应用跨模态注意力机制得到跨模态下的视频编码/>
Figure BDA00041688774800001210
对问题表示Q1应用同模态注意力机制得到同模态下的问题编码/>
Figure BDA00041688774800001211
应用跨模态注意力机制得到跨模态下的问题编码/>
Figure BDA00041688774800001212
计算公式如下:
Figure BDA00041688774800001213
其中,Vv、Qv、Kv是V1经过线性变换得到的,计算公式如下:
Figure BDA0004168877480000131
/>
其中,
Figure BDA0004168877480000132
是变换矩阵。
Vq、Qq、Kq是Q1经过线性变换得到的,计算公式如下:
Figure BDA0004168877480000133
其中,
Figure BDA0004168877480000134
是变换矩阵。
softmax(·)是归一化函数,计算公式如下:
Figure BDA0004168877480000135
其中,x代表任意一个向量,它包含n个元素,分别是x1,...,xn,xi和xj分别代表向量x中的第i个和第j个元素,exp(·)代表以e为底的指数函数。
然后,将视频编码Vs和Vd融合,将问题编码Qs和Qd融合交互,得到视频表示
Figure BDA0004168877480000136
和问题表示Q2 (W+S+1)×d′,计算公式如下:
Figure BDA0004168877480000137
其中,sigmoid(·)是激活函数,FFN(·)是单层前馈网络,sigmoid(·)计算公式如下:
Figure BDA0004168877480000138
其中,x代表任意一个向量,它包含n个元素,分别是x1,...,xn,xi和xj分别代表向量x中的第i个和第j个元素。
最后,利用上下文注意力机制得到视频表示V2和问题表示Q2的相似矩阵
Figure BDA0004168877480000139
利用相似矩阵As得到融合权重/>
Figure BDA00041688774800001310
和/>
Figure BDA00041688774800001311
计算公式如下:
Figure BDA00041688774800001312
其中,As,r和As,c是利用softmax函数分别对相似矩阵As的行与列进行归一化得到的。
得到融合权重后,利用单层前馈网络生成基于问题的视觉表示
Figure BDA00041688774800001313
和基于视频的文本表示/>
Figure BDA0004168877480000141
计算公式如下:
Figure BDA0004168877480000142
在S6中,根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
根据本发明实施例,将基于问题的视觉表示Vq和基于视频的文本表示Qv拼接,得到问题参与的视觉表示H=[h1,h2,...,hn],且hi=[Vq,i;Qv,i];对问题特征即问题的词嵌入向量通过双向长短期记忆网络得到问题表示Q′,将视觉表示H和问题表示Q′输入到分类器计算每种答案的置信度,其中分类器例如可以是利用朴素贝叶斯算法设计的分类器;最后,从答案中选择置信度最高的答案作为预测的答案。
图4为本发明实施例所述的基于多粒度的跨模态交互框架解决视频问答的方法的整体框架图。
进一步通过实验验证本发明的技术效果。
本发明在MSRVTT-QA数据集上进行了实验验证,该类数据集包含的10000个视频剪辑以及243680个问答对,涉及20个类别,每个视频剪辑包含20句英文的描述文本,所有描述文本中大约有29000个独特的单词。其中训练集包含6513个视频,验证集包含497个视频,测试集包含2990个视频。
该数据集中问题类型为开放式问题,预定义的答案集大小为1000,包含五种问题类型:是什么、是谁、如何、何时和在哪里。视频剪辑包含了很多的人物活动和场景的信息,具有丰富的动态性和现实的社会互动性。
实验测试结果如表1所示,本发明方法表示为MgCm-VQA,结果的度量为准确率(%):
表1本发明所提方法的测试结果
方法名 测试结果
MgCm-VQA 59.44
为了验证方法中步骤S4的有效性,设计了六个消融实验方案并进行消融测试,六个消融实验方案其具体如下,所得的测试结果如表2所示,结果的度量为准确率(%):
MgCm-VQAV:表示测试过程中仅依据视觉表示,通过视觉表示与问题特征的交互生成基于问题的视觉表示,再根据视觉表示预测答案。
MgCm-VQAL:表示测试过程中仅依据描述文本的表示,通过描述文本的表示与问题特征的交互生成文本表示,再根据文本表示预测答案。
MgCm-VQAg:表示测试过程中仅生成视频与描述文本的全局表示,通过多模态注意力融合推理模块生成基于问题的视觉表示和基于视频的文本表示,再预测答案。
MgCm-VQAl:表示测试过程中仅生成视频与描述文本的细粒度表示,通过多模态注意力融合推理模块生成基于问题的视觉表示和基于视频的文本表示,再预测答案。
MgCm-VQAf:表示测试过程中将图的编码用全连接层替换图神经网络,生成视频帧和描述文本的全局表示和细粒度表示,再预测答案。
MgCm-VQA:表示测试过程中不做任何修改,使用MgCm-VQA进行测试。
表2本发明针对所提方法的步骤S4的消融测试结果
方法名 测试结果
MgCm-VQAV 40.63
MgCm-VQAL 51.26
MgCm-VQAg 49.58
MgCm-VQAl 51.85
MgCm-VQAf 52.96
MgCm-VQA 59.44
根据实验结果分析,本发明很好的提高了答案预测的准确性。
本发明将视频提取视频帧与目标特征,对描述文本进行词性分析,获取其词性信息,对问题提取句子级的问题特征,利用对视频和描述文本的图神经网络获取多粒度的视频和描述文本表示,利用图神经网络融合不同粒度的表示,并利用注意力模型来捕获同模态的视频、同模态的文本、以及跨模态的视频和文本之间的注意信息,生成基于问题的视觉表示和基于视频的文本表示,自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。相比于一般视频问答方案,本发明在不同的语义层次上理解视频内容,提取多粒度的视频和描述文本表示,并利用注意力的方式生成基于问题的视觉表示和基于视频的文本表示,通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。
本发明另一实施例还提供一种基于多粒度的跨模态交互框架解决视频问答的系统,该系统包括:
视频特征提取模块,其配置成对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
文本特征提取模块,其配置成对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
问题特征提取模块,其配置成对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
编码模块,其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
融合推理模块,其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
答案预测模块,其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
本实施例中,优选地,所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
Figure BDA0004168877480000161
其中,
Figure BDA0004168877480000162
表示空间图第i个结点在图神经网络第l层的更新;Wp表示图神经网络的结点转换矩阵;bp(ri,j)表示目标边框的相对位置ri,j的学习向量;Ni表示空间图中结点i的邻域;
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
Figure BDA0004168877480000163
其中,
Figure BDA0004168877480000164
表示语义图第i个结点在图神经网络第l层的更新;Ae,i表示第i个结点的邻接矩阵;/>
Figure BDA0004168877480000165
表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点;We表示变换矩阵;/>
Figure BDA0004168877480000166
表示注意力系数;
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;
所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
Figure BDA0004168877480000171
其中,
Figure BDA0004168877480000172
表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>
Figure BDA0004168877480000173
为注意力系数;/>
Figure BDA0004168877480000174
表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;
将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
本实施例所述一种基于多粒度的跨模态交互框架解决视频问答的系统的功能可以由前述一种基于多粒度的跨模态交互框架解决视频问答的方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
应当注意,尽管在上文详细描述中提及了若干单元、模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,包括以下步骤:
S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
2.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S1中利用预训练的ResNet模型提取视频帧特征,利用预训练的FasterR-CNN模型提取视频帧的目标特征。
3.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S2中利用SRL工具包分析描述文本的词性,获取词性分析结果,所述词性分析结果包括每个描述文本对应的动词和实体。
4.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S3中利用预训练的wordembedding模型提取问题的特征。
5.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S4中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
Figure FDA0004168877450000021
其中,
Figure FDA0004168877450000022
表示空间图第i个结点在图神经网络第l层的更新;Wp表示图神经网络的结点转换矩阵;bp(ri,j)表示目标边框的相对位置ri,j的学习向量;Ni表示空间图中结点i的邻域;
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
Figure FDA0004168877450000023
其中,
Figure FDA0004168877450000024
表示语义图第i个结点在图神经网络第l层的更新;Ae,i表示第i个结点的邻接矩阵;/>
Figure FDA0004168877450000025
表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点;We表示变换矩阵;/>
Figure FDA0004168877450000026
表示注意力系数;
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示。
6.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S4中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
Figure FDA0004168877450000027
其中,
Figure FDA0004168877450000028
表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>
Figure FDA0004168877450000031
为注意力系数;
Figure FDA0004168877450000032
表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
7.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括:
将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图,并对视觉图的结点进行编码,得到视觉图编码V′;对语言图的结点进行编码,得到语言图编码L′;
利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码,得到编码后的视频表示V1和问题表示Q1
利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的视频编码Vs,应用跨模态注意力机制得到跨模态下的视频编码Vd
利用softmax函数对问题表示Q1应用同模态注意力机制得到同模态下的问题编码Qs,应用跨模态注意力机制得到跨模态下的问题编码Qd
利用sigmoid激活函数将视频编码Vs和Vd融合,将问题编码Qs和Qd融合,得到视频表示V2和问题表示Q2
利用上下文注意力机制得到视频表示V2和问题表示Q2的融合权重,根据融合权重和单层前馈网络得到基于问题的视觉表示Vq和基于视频的文本表示Qv
8.根据权利要求7所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S6的具体过程包括:将基于问题的视觉表示Vq和基于视频的文本表示Qv进行拼接,得到问题参与的视觉表示H;对问题的词嵌入向量Q通过双向长短期记忆网络得到问题表示Q′,将视觉表示H和问题表示Q′输入到分类器中计算每种答案的置信度;从答案中选择置信度最高的答案作为预测的答案。
9.一种基于多粒度的跨模态交互框架解决视频问答的系统,其特征在于,包括:
视频特征提取模块,其配置成对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
文本特征提取模块,其配置成对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
问题特征提取模块,其配置成对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
编码模块,其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
融合推理模块,其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
答案预测模块,其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
10.根据权利要求9所述的一种基于多粒度的跨模态交互框架解决视频问答的系统,其特征在于,所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
Figure FDA0004168877450000041
其中,
Figure FDA0004168877450000042
表示空间图第i个结点在图神经网络第l层的更新;Wp表示图神经网络的结点转换矩阵;bp(ri,j)表示目标边框的相对位置ri,j的学习向量;Ni表示空间图中结点i的邻域;
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
Figure FDA0004168877450000043
其中,
Figure FDA0004168877450000051
表示语义图第i个结点在图神经网络第l层的更新;Ae,i表示第i个结点的邻接矩阵;/>
Figure FDA0004168877450000052
表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点;We表示变换矩阵;/>
Figure FDA0004168877450000053
表示注意力系数;
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;
所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
Figure FDA0004168877450000054
其中,
Figure FDA0004168877450000055
表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>
Figure FDA0004168877450000056
为注意力系数;
Figure FDA0004168877450000057
表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
CN202310371771.0A 2023-04-07 2023-04-07 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 Pending CN116385937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310371771.0A CN116385937A (zh) 2023-04-07 2023-04-07 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310371771.0A CN116385937A (zh) 2023-04-07 2023-04-07 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

Publications (1)

Publication Number Publication Date
CN116385937A true CN116385937A (zh) 2023-07-04

Family

ID=86961279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310371771.0A Pending CN116385937A (zh) 2023-04-07 2023-04-07 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

Country Status (1)

Country Link
CN (1) CN116385937A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824461B (zh) * 2023-08-30 2023-12-08 山东建筑大学 一种问题理解导向的视频问答方法及系统
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117609553A (zh) * 2024-01-23 2024-02-27 江南大学 基于局部特征增强和模态交互的视频检索方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824461B (zh) * 2023-08-30 2023-12-08 山东建筑大学 一种问题理解导向的视频问答方法及系统
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117609553A (zh) * 2024-01-23 2024-02-27 江南大学 基于局部特征增强和模态交互的视频检索方法及系统
CN117609553B (zh) * 2024-01-23 2024-03-22 江南大学 基于局部特征增强和模态交互的视频检索方法及系统

Similar Documents

Publication Publication Date Title
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN113761936B (zh) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
Gupta et al. Integration of textual cues for fine-grained image captioning using deep CNN and LSTM
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
Li et al. Multimodal architecture for video captioning with memory networks and an attention mechanism
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
Yuan et al. 3G structure for image caption generation
CN114676234A (zh) 一种模型训练方法及相关设备
WO2022161470A1 (zh) 内容的评价方法、装置、设备及介质
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN116432019A (zh) 一种数据处理方法及相关设备
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN113283488B (zh) 一种基于学习行为的认知诊断方法及系统
Yang et al. Adaptive syncretic attention for constrained image captioning
CN115292439A (zh) 一种数据处理方法及相关设备
CN110580294B (zh) 实体融合方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination