CN116385937A - 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 - Google Patents
一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 Download PDFInfo
- Publication number
- CN116385937A CN116385937A CN202310371771.0A CN202310371771A CN116385937A CN 116385937 A CN116385937 A CN 116385937A CN 202310371771 A CN202310371771 A CN 202310371771A CN 116385937 A CN116385937 A CN 116385937A
- Authority
- CN
- China
- Prior art keywords
- video
- representation
- representing
- nodes
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000003993 interaction Effects 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 60
- 230000000007 visual effect Effects 0.000 claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 64
- 239000004973 liquid crystal related substance Substances 0.000 claims description 46
- 239000010410 layer Substances 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 102000011782 Keratins Human genes 0.000 claims description 8
- 108010076876 Keratins Proteins 0.000 claims description 8
- 239000002356 single layer Substances 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 14
- 238000002679 ablation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Abstract
本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。
Description
技术领域
本发明涉及计算机视觉和自然语言处理领域,具体涉及一种基于多粒度的跨模态交互框架解决视频问答的方法及系统。
背景技术
多模态开放式的视频问答任务是一种结合计算机视觉和自然语言处理领域的多模态任务,该任务通过给定一个包含描述信息的视频和一个自然语言描述的问题,在理解视频内容和问题的基础上,自动地预测出问题的答案。
视频问答的目的是在理解多模态视频内容的基础上正确回答给定的问题。现有的解决视频问答任务的核心技术涉及图神经网络和注意力机制,图神经网络的思想是通过注意力机制来整合图结构中的邻域结点信息,实现对不同邻域结点权重的分配,获取视频信息来预测答案。注意力机制的思想是计算问题与视频信息之间的相似度,为与问题相关的视频信息分配较高的权重值,并基于此生成答案。
但是,现有的图神经网络仅关注视觉或语言的整体内容,有意义和细粒度的视觉或语言内容常常被忽略,这会导致视频问答模型遗漏了回答问题所需要的细节信息,从而影响了对于视频信息的理解,降低了答案预测的准确性。其次,目前的注意力模型难以有效整合同模态的视频、同模态的文本、以及跨模态视频和文本之间的信息。这会导致视频问答模型很难从大量的视频信息中找到正确答案的证据。因此,解决视频问答任务需要具有两个关键的功能:理解不同语义层次上的视频内容;灵活地整合不同模态的视频内容,来提取与问题相关的内容。
发明内容
为此,本发明提出一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一方面,提供一种基于多粒度的跨模态交互框架解决视频问答的方法,该方法包括以下步骤:
S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
进一步地,S1中利用预训练的ResNet模型提取视频帧特征,利用预训练的FasterR-CNN模型提取视频帧的目标特征。
进一步地,S2中利用SRL工具包分析描述文本的词性,获取词性分析结果,所述词性分析结果包括每个描述文本对应的动词和实体。
进一步地,S3中利用预训练的wordembedding模型提取问题的特征。
进一步地,S4中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示。
进一步地,S4中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
其中,表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>为注意力系数;/>表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;
将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
进一步地,S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括:
将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图,并对视觉图的结点进行编码,得到视觉图编码V′;对语言图的结点进行编码,得到语言图编码L′;
利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码,得到编码后的视频表示V1和问题表示Q1;
利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的视频编码Vs,应用跨模态注意力机制得到跨模态下的视频编码Vd;
利用softmax函数对问题表示Q1应用同模态注意力机制得到同模态下的问题编码Qs,应用跨模态注意力机制得到跨模态下的问题编码Qd;
利用sigmoid激活函数将视频编码Vs和Vd融合,将问题编码Qs和Qd融合,得到视频表示V2和问题表示Q2;
利用上下文注意力机制得到视频表示V2和问题表示Q2的融合权重,根据融合权重和单层前馈网络得到基于问题的视觉表示Vq和基于视频的文本表示Qv。
进一步地,S6的具体过程包括:将基于问题的视觉表示Vq和基于视频的文本表示Qv进行拼接,得到问题参与的视觉表示H;对问题的词嵌入向量Q通过双向长短期记忆网络得到问题表示Q′,将视觉表示H和问题表示Q′输入到分类器中计算每种答案的置信度;从答案中选择置信度最高的答案作为预测的答案。
根据本发明的另一方面,提供一种基于多粒度的跨模态交互框架解决视频问答的系统,该系统包括:
视频特征提取模块,其配置成对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
文本特征提取模块,其配置成对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
问题特征提取模块,其配置成对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
编码模块,其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
融合推理模块,其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的特征一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
答案预测模块,其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
进一步地,所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;
所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
其中,表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>为注意力系数;/>表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;
将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
本发明的有益技术效果是:
本发明提出了一个基于多粒度的跨模态交互框架来解决视频问答任务。为了充分理解不同语义层次的视频内容,提出了基于图神经网络的多粒度编码模块。具体来说,利用基于图神经网络的视觉和语言编码器对提取的视频帧特征、目标特征以及描述文本进行编码,获取多粒度的视觉表示和语言表示。其次,为了有效捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,提出了多模态注意力融合推理模块。具体来说,分别对多粒度视觉表示和语言表示进行编码融合,执行以问题为导向的注意力机制来捕获信息,将同模态的视频、同模态的文本分别与跨模态视频和文本之间的交互信息融合,获取与问题相关的视觉表示,并基于此预测答案。
本发明利用图神经网络处理视频的不同语义层次信息,并通过注意力模块捕获视觉信息和语言信息,推理出以问题为导向的视觉表示,并基于此来预测答案。其中,对视频提取视频帧和目标特征,对描述文本进行词性分析,获取不同单词的词性信息,提升了视频信息的获取能力;设计的基于图神经网络的多粒度编码模块,获取了视频与描述文本的全局表示和细粒度表示,从不同的语义层次上理解视频内容,提高了推理的准确性;设计的多模态注意力融合推理模块,捕获了视觉信息和语言信息,并将获取到的多模态信息与问题特征充分融合,灵活整合了不同层次的视频内容,提升了对视频信息的理解能力。
在MSRVTT-QA数据集上的实验结果表明,本发明提出的基于多粒度的跨模态交互框架解决视频问答的方法优于其他方法。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为本发明实施例所述一种基于多粒度的跨模态交互框架解决视频问答的方法流程示意图;
图2为本发明实施例中使用角色图嵌入示意图;
图3为本发明实施例中基于注意力机制的多模态注意力融合推理模块示意图;
图4为本发明实施例所述的基于多粒度的跨模态交互框架解决视频问答的方法的整体框架图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本发明实施例提出一种基于多粒度的跨模态交互框架解决视频问答的方法,如图1所示,该方法包括以下步骤:
S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
下面对本发明实施例进行详细说明。
在S1中,对于输入的视频,提取视频帧特征,同时对于视频帧中的目标,提取其目标级特征,目标级特征包括目标特征、目标位置和类别标签。
根据本发明实施例,对于输入的每个视频,均匀采样64帧,对得到的视频帧进行特征提取,获得静态图像信息;同时,检测每个视频帧中置信度得分高的多个目标进行特征提取,获得目标特征、目标位置和类别标签;目标特征例如为目标的尺寸、目标周围的背景与相邻物体,并进一步利用目标特征提取目标位置和类别标签。具体如下。
对于视频帧,使用预训练的FasterR-CNN模型提取视频帧的目标特征O=[O1,O2,...,ON],其中Oi=[o1,...,oj,...,oM],代表整个视频的目标特征,代表视频第i帧的目标特征,oij代表视频第i帧的第j个目标的特征,N代表视频帧的数量,M代表视频第i帧中目标的数量。
进一步根据目标特征得到目标位置P=[P1,P2,...,PN],且Pi=[p1,...,pM],pj=[px,py,px+pw,py+ph,pw,ph]Τ,其中,代表整个视频的位置信息,/>代表视频第i帧目标位置信息,pj代表视频帧中第j个目标位置信息,px、py分别代表目标边框左上角的x坐标和y坐标,pw、ph分别代表目标边框的宽和高。根据同一帧中目标位置信息,可以计算两个目标边框的IOU值,得到目标边框的相对位置ri,j,即该帧中目标i和目标j的IOU值。
在S2中,对于视频对应的描述文本,提取描述文本的词性分析结果;其中描述文本包括一个或多个。
根据本发明实施例,对于输入视频对应的描述文本,对其进行词性分析,使用SRL工具包分析词性,获取描述文本中的动词和实体D=[D1,...,DS],且其中,/>代表整个视频描述文本的词性信息,代表视频第i个描述文本的词性信息,/>代表视频第i个描述文本的第j个动词,代表视频第i个描述文本的第j个实体,S代表视频描述文本的数量,X代表描述文本的长度,Y代表视频第i个描述文本中动词的数量,Z代表视频第i个描述文本中实体的数量。
在S3中,对于输入的有关视频内容的问题,提取问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息。
根据本发明实施例,对于输入的问题,提取句子的问题特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息。使用预训练的wordembedding模型提取问题特征Q=[q1,...,qW],其中,代表问题特征,qi代表问题第i个词的特征,W代表问题的长度。
在S4中,将提取的视频帧特征、目标级特征和词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示。
根据本发明实施例,获得视频帧的全局表示和细粒度表示的具体过程包括:
b.首先,使用第i个视频帧的目标作为图结点,构建空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee),其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表帧中目标边框的相对位置;利用视频帧中第i个目标的位置信息pi和提取的目标特征oi初始化空间图的结点,计算公式如下:
然后,利用视频帧中第i个目标的目标特征oi和目标类别标签ci初始化语义图的结点,计算公式如下:
然后,利用帧中目标边框的相对位置ri,j对空间图结点进行更新,计算公式如下:
其中,代表空间图第i个结点在图神经网络的第l层的更新,/>为图神经网络的结点转换矩阵,/>为相对位置ri,j的学习向量,Ni代表空间图中结点i的邻域,/>代表加法操作,ReLU(·)是激活函数,计算公式如下:
ReLU(x)=max(0,x) (4)
其中,x代表任意一个变量,max(·)是取0与x的最大值。
Ae=(W1Ve 0)(W2Ve 0)Τ (5)
在确定邻接矩阵Ae后,邻接矩阵Ae的每一行表示与第i个结点相邻的结点集合,根据其可以确定语义图中的相邻结点,并根据相邻结点对语义图中的结点进行更新,计算公式如下:
如图2所示,获得描述文本的全局表示和细粒度表示的具体过程包括:
首先,对第i个描述文本的词性信息构建角色图Gr=(Vr,Er,Tr),第i个句子本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,而一个实体结点根据动作结点的词性信息与不同的动作结点连接,其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
然后,对描述文本利用BERT模型提取描述文本的句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入lc,对词级特征利用非线性投影初始化动词和实体结点,计算公式如下:
然后,基于描述文本的词性分析结果更新角色图结点,计算公式如下:
其中,代表角色图中第i个结点在图神经网络的第l层的更新,/>表示角色图中第i个结点的邻域点在图神经网络第l层的更新;/>为嵌入矩阵,Y代表动作结点数量,Z代表实体结点数量,/>为变换矩阵,tr,i为Tr中的第i个结点的类型,Wr1[tr,i,:]代表Wr的第tr,i行,/>代表乘法操作,ReLU(·)是激活函数,Ni代表角色图中结点i的邻域,/>为注意力系数,计算公式如下:
然后,对S个描述文本的句子结点表示进行堆叠,得到描述文本的全局表示对动作结点和实体结点使用平均图池得到细粒度语言嵌入/>(即进行平均池化),对其进行堆叠得到描述文本的细粒度表示/>其中,L代表描述文本,l代表局部,g代表全局。
在S5中,将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示。
根据本发明实施例,如图3所示,将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图GV,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图GL,并对视觉图的结点进行编码,得到视觉图编码对语言图的结点进行编码,得到语言图编码/>其中N代表视频帧数量,S代表描述文本的数量。
其中,FFN(·)是单层前馈网络,其计算公式如下:
FFN(X)=WXΤ+b(12)
其中,X代表任意一个矩阵,它包含n行m列个元素,W为权重矩阵,b为偏置向量。
然后,对视频表示V1应用同模态注意力机制得到同模态下的视频编码应用跨模态注意力机制得到跨模态下的视频编码/>对问题表示Q1应用同模态注意力机制得到同模态下的问题编码/>应用跨模态注意力机制得到跨模态下的问题编码/>计算公式如下:
其中,Vv、Qv、Kv是V1经过线性变换得到的,计算公式如下:
Vq、Qq、Kq是Q1经过线性变换得到的,计算公式如下:
softmax(·)是归一化函数,计算公式如下:
其中,x代表任意一个向量,它包含n个元素,分别是x1,...,xn,xi和xj分别代表向量x中的第i个和第j个元素,exp(·)代表以e为底的指数函数。
其中,sigmoid(·)是激活函数,FFN(·)是单层前馈网络,sigmoid(·)计算公式如下:
其中,x代表任意一个向量,它包含n个元素,分别是x1,...,xn,xi和xj分别代表向量x中的第i个和第j个元素。
其中,As,r和As,c是利用softmax函数分别对相似矩阵As的行与列进行归一化得到的。
在S6中,根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
根据本发明实施例,将基于问题的视觉表示Vq和基于视频的文本表示Qv拼接,得到问题参与的视觉表示H=[h1,h2,...,hn],且hi=[Vq,i;Qv,i];对问题特征即问题的词嵌入向量通过双向长短期记忆网络得到问题表示Q′,将视觉表示H和问题表示Q′输入到分类器计算每种答案的置信度,其中分类器例如可以是利用朴素贝叶斯算法设计的分类器;最后,从答案中选择置信度最高的答案作为预测的答案。
图4为本发明实施例所述的基于多粒度的跨模态交互框架解决视频问答的方法的整体框架图。
进一步通过实验验证本发明的技术效果。
本发明在MSRVTT-QA数据集上进行了实验验证,该类数据集包含的10000个视频剪辑以及243680个问答对,涉及20个类别,每个视频剪辑包含20句英文的描述文本,所有描述文本中大约有29000个独特的单词。其中训练集包含6513个视频,验证集包含497个视频,测试集包含2990个视频。
该数据集中问题类型为开放式问题,预定义的答案集大小为1000,包含五种问题类型:是什么、是谁、如何、何时和在哪里。视频剪辑包含了很多的人物活动和场景的信息,具有丰富的动态性和现实的社会互动性。
实验测试结果如表1所示,本发明方法表示为MgCm-VQA,结果的度量为准确率(%):
表1本发明所提方法的测试结果
方法名 | 测试结果 |
MgCm-VQA | 59.44 |
为了验证方法中步骤S4的有效性,设计了六个消融实验方案并进行消融测试,六个消融实验方案其具体如下,所得的测试结果如表2所示,结果的度量为准确率(%):
MgCm-VQAV:表示测试过程中仅依据视觉表示,通过视觉表示与问题特征的交互生成基于问题的视觉表示,再根据视觉表示预测答案。
MgCm-VQAL:表示测试过程中仅依据描述文本的表示,通过描述文本的表示与问题特征的交互生成文本表示,再根据文本表示预测答案。
MgCm-VQAg:表示测试过程中仅生成视频与描述文本的全局表示,通过多模态注意力融合推理模块生成基于问题的视觉表示和基于视频的文本表示,再预测答案。
MgCm-VQAl:表示测试过程中仅生成视频与描述文本的细粒度表示,通过多模态注意力融合推理模块生成基于问题的视觉表示和基于视频的文本表示,再预测答案。
MgCm-VQAf:表示测试过程中将图的编码用全连接层替换图神经网络,生成视频帧和描述文本的全局表示和细粒度表示,再预测答案。
MgCm-VQA:表示测试过程中不做任何修改,使用MgCm-VQA进行测试。
表2本发明针对所提方法的步骤S4的消融测试结果
方法名 | 测试结果 |
MgCm-VQAV | 40.63 |
MgCm-VQAL | 51.26 |
MgCm-VQAg | 49.58 |
MgCm-VQAl | 51.85 |
MgCm-VQAf | 52.96 |
MgCm-VQA | 59.44 |
根据实验结果分析,本发明很好的提高了答案预测的准确性。
本发明将视频提取视频帧与目标特征,对描述文本进行词性分析,获取其词性信息,对问题提取句子级的问题特征,利用对视频和描述文本的图神经网络获取多粒度的视频和描述文本表示,利用图神经网络融合不同粒度的表示,并利用注意力模型来捕获同模态的视频、同模态的文本、以及跨模态的视频和文本之间的注意信息,生成基于问题的视觉表示和基于视频的文本表示,自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。相比于一般视频问答方案,本发明在不同的语义层次上理解视频内容,提取多粒度的视频和描述文本表示,并利用注意力的方式生成基于问题的视觉表示和基于视频的文本表示,通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。
本发明另一实施例还提供一种基于多粒度的跨模态交互框架解决视频问答的系统,该系统包括:
视频特征提取模块,其配置成对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
文本特征提取模块,其配置成对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
问题特征提取模块,其配置成对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
编码模块,其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
融合推理模块,其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
答案预测模块,其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
本实施例中,优选地,所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;
所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
其中,表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>为注意力系数;/>表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;
将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
本实施例所述一种基于多粒度的跨模态交互框架解决视频问答的系统的功能可以由前述一种基于多粒度的跨模态交互框架解决视频问答的方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
应当注意,尽管在上文详细描述中提及了若干单元、模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,包括以下步骤:
S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
2.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S1中利用预训练的ResNet模型提取视频帧特征,利用预训练的FasterR-CNN模型提取视频帧的目标特征。
3.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S2中利用SRL工具包分析描述文本的词性,获取词性分析结果,所述词性分析结果包括每个描述文本对应的动词和实体。
4.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S3中利用预训练的wordembedding模型提取问题的特征。
5.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S4中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示。
6.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S4中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
其中,表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>为注意力系数;表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
7.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括:
将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图,并对视觉图的结点进行编码,得到视觉图编码V′;对语言图的结点进行编码,得到语言图编码L′;
利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码,得到编码后的视频表示V1和问题表示Q1;
利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的视频编码Vs,应用跨模态注意力机制得到跨模态下的视频编码Vd;
利用softmax函数对问题表示Q1应用同模态注意力机制得到同模态下的问题编码Qs,应用跨模态注意力机制得到跨模态下的问题编码Qd;
利用sigmoid激活函数将视频编码Vs和Vd融合,将问题编码Qs和Qd融合,得到视频表示V2和问题表示Q2;
利用上下文注意力机制得到视频表示V2和问题表示Q2的融合权重,根据融合权重和单层前馈网络得到基于问题的视觉表示Vq和基于视频的文本表示Qv。
8.根据权利要求7所述的一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,S6的具体过程包括:将基于问题的视觉表示Vq和基于视频的文本表示Qv进行拼接,得到问题参与的视觉表示H;对问题的词嵌入向量Q通过双向长短期记忆网络得到问题表示Q′,将视觉表示H和问题表示Q′输入到分类器中计算每种答案的置信度;从答案中选择置信度最高的答案作为预测的答案。
9.一种基于多粒度的跨模态交互框架解决视频问答的系统,其特征在于,包括:
视频特征提取模块,其配置成对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;
文本特征提取模块,其配置成对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;
问题特征提取模块,其配置成对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;
编码模块,其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;
融合推理模块,其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;
答案预测模块,其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。
10.根据权利要求9所述的一种基于多粒度的跨模态交互框架解决视频问答的系统,其特征在于,所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括:
将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;
将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=(Vp,Ep,Rp)和语义图Ge=(Ve,Ee);其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;
利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;
利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下:
对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下:
利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;
所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括:
根据每个描述文本的词性分析结果构建角色图Gr=(Vr,Er,Tr),描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;
对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;
对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;
基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下:
其中,表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;/>为注意力系数;表示角色图中第i个结点的邻域点在图神经网络第l层的更新;
在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371771.0A CN116385937A (zh) | 2023-04-07 | 2023-04-07 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371771.0A CN116385937A (zh) | 2023-04-07 | 2023-04-07 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385937A true CN116385937A (zh) | 2023-07-04 |
Family
ID=86961279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310371771.0A Pending CN116385937A (zh) | 2023-04-07 | 2023-04-07 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385937A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824461B (zh) * | 2023-08-30 | 2023-12-08 | 山东建筑大学 | 一种问题理解导向的视频问答方法及系统 |
CN117372936A (zh) * | 2023-12-07 | 2024-01-09 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
CN117609553A (zh) * | 2024-01-23 | 2024-02-27 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
-
2023
- 2023-04-07 CN CN202310371771.0A patent/CN116385937A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824461B (zh) * | 2023-08-30 | 2023-12-08 | 山东建筑大学 | 一种问题理解导向的视频问答方法及系统 |
CN117372936A (zh) * | 2023-12-07 | 2024-01-09 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
CN117372936B (zh) * | 2023-12-07 | 2024-03-22 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
CN117609553A (zh) * | 2024-01-23 | 2024-02-27 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
CN117609553B (zh) * | 2024-01-23 | 2024-03-22 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078836B (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
CN113761936B (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
Gupta et al. | Integration of textual cues for fine-grained image captioning using deep CNN and LSTM | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
Li et al. | Multimodal architecture for video captioning with memory networks and an attention mechanism | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
Yuan et al. | 3G structure for image caption generation | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
WO2022161470A1 (zh) | 内容的评价方法、装置、设备及介质 | |
CN113779310B (zh) | 一种基于层级表征网络的视频理解文本生成方法 | |
CN110851641A (zh) | 跨模态检索方法、装置和可读存储介质 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
CN113283488B (zh) | 一种基于学习行为的认知诊断方法及系统 | |
Yang et al. | Adaptive syncretic attention for constrained image captioning | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN110580294B (zh) | 实体融合方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |