CN112559698B - 基于多模态融合模型的提高视频问答精度方法及系统 - Google Patents

基于多模态融合模型的提高视频问答精度方法及系统 Download PDF

Info

Publication number
CN112559698B
CN112559698B CN202011205724.1A CN202011205724A CN112559698B CN 112559698 B CN112559698 B CN 112559698B CN 202011205724 A CN202011205724 A CN 202011205724A CN 112559698 B CN112559698 B CN 112559698B
Authority
CN
China
Prior art keywords
features
fusion
subtitle
visual
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011205724.1A
Other languages
English (en)
Other versions
CN112559698A (zh
Inventor
徐卫志
蔡晓雅
曹洋
于惠
庄须强
刘志远
孙中志
赵晗
龙开放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202011205724.1A priority Critical patent/CN112559698B/zh
Publication of CN112559698A publication Critical patent/CN112559698A/zh
Application granted granted Critical
Publication of CN112559698B publication Critical patent/CN112559698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于多模态融合模型的提高视频问答精度方法及系统,包括:采集视频数据和问题特征,获取视频问答的问题;从视频数据中提取视觉特征和字幕特征;将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;将视频问答的问题输入训练好的多模态融合模型,获得问题答案;根据问题的特点针对不同的问题聚焦不同的目标实体实例,提高了模型选择答案的准确性。

Description

基于多模态融合模型的提高视频问答精度方法及系统
技术领域
本公开属于自然语言处理和深度学习的技术领域,涉及视频问答中的一种基于多模态融合模型的提高视频问答精度方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近年来,基于视觉内容和语言内容的视频问答(Video-QA)研究成功地得益于深度神经网络。此任务旨在从视频中的答案候选中选择正确答案的推理过程。与婴儿学习说话的过程类似,机器对图像和视频的理解正在从用几个单词标记图像过渡到学习生成完整的句子。与传统的图像字幕任务不同,多模态视频问答需要同时学习图像和语言之间的对应语义。
大多数现有的工作都引起了人们的关注,视频问答也取得了显著的进步。 2015年人们提出了一种时空动作定位方法,使用检测跟踪方法,并结合静态和运动CNN特征对视频进行评分。为了在视频中捕捉更多细节,2017年人们利用过去和未来事件的上下文信息,共同描述所有事件。但在2018年人们提出了一种多步骤语义注意网络,通过学习视觉关系事实作为语义知识来帮助推断正确答案。然而,基于视觉和自然语言的视频问答任务需要视频的视觉表示结合字幕来推断正确答案,因此视频问答任务比图像字幕任务难度更大。
视频问答任务本质上是融合多个模态数据,以生成与视频故事相关的问题的准确答案。大多数视频问答模型通常采用多模态数据联合嵌入的方法,通过深卷积神经网络计算图片特征,通过递归神经网络计算问题文本特征,然后将输入图片和问题特征映射到公共表示空间。最后,将公共特征映射向量输入到答案分类器以确定最终答案。
然而,在现实生活中,人们问的关于图片的问题往往与图片中的目标实体有关,然而目前的视频问答所提取信息无法实现视觉信息的提取,不能有效推断图像的目标实体区域和相邻的字幕信息,使得答案误差较大,难以满足视频问答准确性的需求。
发明内容
为了解决上述技术问题,本公开为了进一步了解图片的特征,通过将图片中的对象与视觉信息的理解相结合来构建图像信息表示空间,并推断舞台聚焦于图像的目标实体区域和相邻的字幕信息。另外,根据问题的特点针对不同的问题聚焦不同的目标实体实例,提高了模型选择答案的准确性。
第一方面,本公开提供了一种基于多模态融合模型的提高视频问答精度方法,包括:
采集视频数据和问题特征,获取视频问答的问题;
从视频数据中提取视觉特征和字幕特征;
将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;
将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;
将视频问答的问题输入训练好的多模态融合模型,获得问题答案。
第二方面,本公开提供了一种基于多模态融合模型的提高视频问答精度系统,包括:
数据采集模块,被配置为:采集视频数据和问题特征,获取视频问答的问题;
数据处理模块,被配置为:从视频数据中提取视觉特征和字幕特征;
特征融合模块,被配置为:将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;
模型训练模块,被配置为:将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;
输出模块,被配置为:将视频问答的问题输入训练好的多模态融合模型,利用多头自我注意机制获得问题答案。
第三方面,本公开提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如第一方面所述的基于多模态融合模型的提高视频问答精度方法。
第四方面,本公开提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如第一方面所述的基于多模态融合模型的提高视频问答精度方法。
与现有技术对比,本公开具备以下有益效果:
1、本公开采用从视频数据中提取视觉特征和字幕特征;将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型,为了进一步了解图片的特征,通过将图片中的对象与视觉信息的理解相结合来构建图像信息表示空间,并推断舞台聚焦于图像的目标实体区域和相邻的字幕信息。另外,根据问题的特点针对不同的问题聚焦不同的目标实体实例,提高了模型选择答案的准确性。
2、本公开提出了一种改进的视频问答任务框架,使用一种结合视觉和字幕表示特征的通道注意融合机制来更准确地捕捉语义。通过实验对模型的性能进行了测试,在TVQA数据集上根据语言和视觉表示给出了正确的预测,MAFMS的测试精度比之前最先进的测试精度有了提高。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为提高视频问答精度方法的流程图;
图2为TVQA数据集中的多模态视频-QA示例图;
图3为多模态融合模型示例图;
图4为多头注意力机制图;
其中,(A)、输入表征;(B)、通道注意融合;(C)、多头自我注意;S-QA、融合的字幕特征;V-QA、融合的视觉特征。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:多头注意力(multi-head attention)是利用多个查询,来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分;
模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态 (Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。
多通道融合方法是多通道理解和交互的重要研究内容。融合图像特征和文本编码的最简单的方法之一是对特征进行平均或拼接,然后将它们融合以预测正确的答案。在过去的几年里,已经提出了一些工作来回答关于图像的问题。例如,提出了基于图卷积网络的问题回答,其中实体图用于推理正确答案。空间记忆网络提出了一种新颖的空间注意结构,将单词和图像块与注意力对齐,并通过增加考虑整个问题的第二个注意来获得改进的结果,从而将图像不同区域的神经元激活存储在同一存储器中。自上而下的视觉注意力确定特征权重,并结合更快的R-CNN来提取与图像区域相关联的特征向量,在细粒度分析中进行了更深入的研究,用于推理和预测。因此,最近的许多研究都集中在注意力模型上,该模型选择与回答问题相关的图像区域来处理视频问答任务。
视频问答的一个最新发展方向是除了用于故事理解的视频模态之外,还利用诸如字幕之类的文本模态。为此,针对各种视频问答基准,提出了时空视频问答任务,要求智能系统同时提取相关时刻的视觉概念来回答时空视频问题。基于双重LSTM的同时具有空间和时间关注的方法,产生空间和时间关注来定位视频中需要关注的区域。视频问答框架需要同时检索相关时刻和引用的视觉概念。与以往的研究不同,本公开在工作中使用了BERT对视频片段中捕获的信息进行建模。
BERT是一种语言表示模型,它使用双向转换器在大数据集上进行预训练,然后使用预训练模型的模型参数来微调其他NLP任务。BERT可以使用双向转换器很好地挖掘上下文信息。综上所述,BERT模型进一步增强了词向量模型的泛化能力,全面描述了字级、词级、句级,甚至句子之间的关系。它有以下三个新特点:
(1)掩蔽语言模型。虽然可以看到所有的位置信息,但是需要预测的单词已经被[MASK]令牌替换了。
(2)变压器。转换器是实现上下文关联的编码器,可以有更深的层次和更好的并行性。而且线性变换器更容易避免[MASK]令牌的影响,只需要通过自我关注来降低[MASK]令牌的权重。
(3)句子级别语义理解。与word2vec相似,BERT了解到句子级别的负采样是有意义的。给定一个句子和下一个肯定句(基本事实),随机抽样一个否定句来执行句子级别二元分类任务(确定该句子是下一个句子还是噪音)。BERT将传统上在下游特定NLP任务中完成的操作转移到预先训练的单词嵌入。在获得BERT 词嵌入的用法后,只需在词嵌入中添加简单的MLP或其他线性分类器即可。
R-CNN模型全称是Region-CNN,是第一个成功将深度学习应用到目标检测上的算法。
实施例1
如图1所示,本公开提供了一种基于多模态融合模型的提高视频问答精度方法,包括:
采集视频数据和问题特征,获取视频问答的问题;
从视频数据中提取视觉特征和字幕特征;
将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;
将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;
将视频问答的问题输入训练好的多模态融合模型,获得问题答案,并预测每个答案为正确答案的概率。
进一步的,所述采集视频数据和问题特征,获取视频问答的问题,包括:
对视频进行3FPS的图像帧序列提取;
提取每个图像帧的高层语义表示。
进一步的,从视频数据中提取视觉特征和字幕特征,包括,采用R-CNN模型从视频数据前若干个的对象提案中提取视觉特征和字幕特征,由于视觉特征位于文本域中,因此视觉特征以字幕的方式嵌入。
进一步的,将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征,包括,将视觉特征和字幕特征输入BERT语言表示模型,并使用BERT 语言表示模型将视觉特征、字幕特征和问题特征与每个候选答案结合起来进行嵌入,形成融合视觉特征和融合字幕特征。
进一步的,所述BERT语言表示模型的输入包括视觉特征、字幕特征、视频镜头和字幕句子组成;所述视频镜头和字幕句子被扁平化,包括QA特征;将QA 特征和视觉特征融合为QA/视觉特征;同样,将QA特征和字幕特征融合为QA/ 字幕特征。
进一步的,从相似度矩阵中,将得到的QA/字幕特征与问题特征进行拼接形成融合字幕特征,将得到的QA/视觉特征与问题特征进行拼接形成融合视觉特征。
进一步的,所述将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型包括,建立多模态融合模型,所述多模态融合模型采用了多头自我注意机制,所述多头自注意机制是将查询矩阵、关键字矩阵和值矩阵映射到多个不同的子空间;计算子空间时彼此互不干涉,最后将输出拼接在一起。
具体的,所述采集视频数据和问题特征,获取视频问答的问题,包括:
对视频进行3FPS的图像帧序列提取。然后,提取每个图像帧的高层语义表示。R-CNN模型是公认的能够捕捉图像视觉概念的强有力的深度学习模型,因此本文采用速度更快的R-CNN模型从前20名的对象提案中提取视觉特征
Figure RE-GDA0002933437440000081
Figure RE-GDA0002933437440000082
由于视觉特征位于文本域中,因此它们以字幕的方式嵌入。
从BERT-BASE模型的倒数第二层提取了字幕中的视频表示
Figure RE-GDA0002933437440000083
词级文本表示
Figure RE-GDA0002933437440000084
和问答对
Figure RE-GDA0002933437440000085
进一步的,用两个独立的BERT来处理视觉和字幕特征,并使用BERT将视觉概念特征和字幕和问题与每个候选答案结合起来进行嵌入;通过串联问题表示形式
Figure RE-GDA0002933437440000086
和与5个候选人答案表示
Figure RE-GDA0002933437440000087
来创建5个假设。问题与每个答案候选人串联形成5假设
Figure RE-GDA0002933437440000088
和nqa表示每个假设的最大令牌数。对于每个假设,MAFMS都学会预测其正确性分数并最大限度地提高正确答案的分数。同样创建字幕表示
Figure RE-GDA0002933437440000091
进一步的,所述将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征包括:
预先训练的BERT模型可以自动微调,以在各种NLP任务中实现最先进的性能。BERT输入的每句话的第一个Token是[CLS],用于获取分类任务中的输出。 [SEP]添加标记以指示两个句子之间的分隔。在本文中,本公开考虑如下令牌的输入序列:
[CLS]+V/S+[SEP]+QA (1)
BERT的输入由一组视频镜头和字幕句子组成。这些视频镜头和字幕句子被扁平化,并表示为
Figure RE-GDA0002933437440000092
将QA特征
Figure RE-GDA0002933437440000093
和视觉特征
Figure RE-GDA0002933437440000094
融合为 QA/视觉特征
Figure RE-GDA0002933437440000095
类似地,QA特征
Figure RE-GDA0002933437440000096
和字幕特征
Figure RE-GDA0002933437440000097
融合在一起作为QA/字幕特征
Figure RE-GDA0002933437440000098
从相似度矩阵中,将得到的字幕特征与问题特征进行拼接。然后,本公开使用最大池化操作来减小大小:
Figure RE-GDA0002933437440000099
其中fc是完全连接层。同样,本公开可以将QA功能定义为:
Figure RE-GDA00029334374400000910
Figure RE-GDA0002933437440000101
通过拼接来自不同方向的融合字幕特征
Figure RE-GDA0002933437440000102
如下:
Figure RE-GDA0002933437440000103
同样,本公开可以将融合的视觉特征定义为:
Figure RE-GDA0002933437440000104
本公开添加融合的字幕特征和融合的视觉特征来得到最终的融合特征
Figure RE-GDA0002933437440000105
Figure RE-GDA0002933437440000106
进一步的,将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型,包括,建立多模态融合模型,为了更好地提取每个通道的贡献,多模态融合模型对
Figure RE-GDA0002933437440000107
采用了多头自我注意机制,将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型。
具体的,多头自注意机制是将查询矩阵(Q)、关键字矩阵(K)和值矩阵(V)映射到多个不同的子空间。计算子空间时彼此互不干涉,最后将输出拼接在一起。
包含视觉和字幕语义信息的
Figure RE-GDA0002933437440000108
被用作多头自我关注层的输入。
Figure RE-GDA0002933437440000109
Figure RE-GDA00029334374400001010
Figure RE-GDA00029334374400001011
Figure RE-GDA00029334374400001012
Figure RE-GDA00029334374400001013
MulHead=Concat([h1;…;hk])Wm
其中
Figure RE-GDA0002933437440000111
是多头关注层中的查询矩阵(Q)、关键字矩阵(K)和值矩阵(V)的线性映射矩阵。多头头数k为8。
进一步的,将视频问答的问题输入训练好的多模态融合模型,获得问题答案,并预测每个答案为正确答案的概率,包括:通过多头自注意获得特征向量后,通过Softmax函数预测每个答案为正确答案的概率y:
y=Softmax(wMH*MulHead+bMH)。
实施例2
如图2所示,本公开的框架目的是在视频问答中选择正确的答案。
TVQA数据集是视频问答的基准,包含152545个人工标注的多选问答对 (84768个什么、13644个如何、17777个在哪里、15798个为什么、17654个谁问),来自6个电视节目(“生活大爆炸”、“城堡”、“我是如何认识本公开的母亲”、“实习医生格蕾”、“医学博士之家”、“老友记”)的21.8K视频片段。TVQA数据集中的问题有五个候选答案,其中只有一个是正确答案。数据集中的试题格式设计如下:
“[What/How/Where/Why/who]___[when/before/after/…]___”,问题的两个部分需要视觉和语言理解。训练集共有122,039个QA,验证集有15,253个 QAs,测试集有7,623个QAs。
本公开的评估是在配备Intel(R)Xeon(R)Gold 6132CPU(2.60GHz)、256G RAM和NVIDIA GeForce RTX 2080Ti的计算机上进行的。本公开使用的是 BERT-Base模型,它有12层。在本公开的实验中,每个序列的最大token数设置为128个,批大小为64个,学习率设置为0.0001,epochs设置为10。在所有的实验中,严格遵循推荐的训练/验证/测试分割,每个实验独立重复100次,并报告平均结果。
基于BERT的性能比基于LSTM的模型有很大提高。
如图3所示多头注意力机制V、K、Q是固定的单个值,而Linear层有3个, ScaledDot-Product Attention有3个多头;最后cancat在一起,然后Linear 层转换变成一个和单头一样的输出值;多头和单头的区别在于复制多个单头,但权重系数肯定是不一样的,上下文向量能够访问整个输入序列,注意力权重的可视化清晰地展示了模型为了输出某个单词而关注图像的哪些区域。其中,V、 K、Q分别为value、key和query的简写,K、V是一一对应的,,通过Q与K 内积,并softmax的方式来得到Q与各个V的相似度,然后加权求和得到一个向量。
考虑到有多个验证和测试问题,这就确立了本公开多任务的优势。本公开模型在所有电视节目中的得分比其他模型的得分更均衡,使得本公开的模型更精确。性能提升主要是因为与基于LSTM的模型相比,基于BERT的模型能够捕获不同模态之间以及不同模态内部更长的依赖关系,特别是在字幕较长的情况下。本公开的方法可以适当地整合来自不同模态的输入特征来帮助回答问题。多头自注意可以更充分地考虑每个模态的贡献,融合多头结果可以使模型更准确地提取更重要的特征,从而提高模型的性能。
为了与现有方法进行公平的比较,本公开试图重现PAMN、多任务和阶段的结果。对于大多数问题类型,MAFMS得分显著高于其他基线。特别是在“何时”问题上,高效的正确率表明了MAFMS在帮助推断正确答案方面的优越性。
在这项工作中,本公开提出了一种改进的视频问答任务框架。本公开使用一种结合视觉和字幕表示特征的通道注意融合机制来更准确地捕捉语义。通过实验对模型的性能进行了测试,在TVQA数据集上根据语言和视觉表示给出了正确的预测。MAFMS的测试精度比之前最先进的测试精度有了提高。
实施例3
一种基于多模态融合模型的提高视频问答精度系统,包括:
数据采集模块,被配置为:采集视频数据和问题特征,获取视频问答的问题;
数据处理模块,被配置为:从视频数据中提取视觉特征和字幕特征;
特征融合模块,被配置为:将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;
模型训练模块,被配置为:将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;
输出模块,被配置为:将视频问答的问题输入训练好的多模态融合模型,利用多头自我注意机制获得问题答案。
进一步的,所述数据采集模块、数据处理模块、特征融合模块、模型训练模块和输出模块,所被配置的具体方式分别对应上述实施例中所述的单通道相关干涉仪测向方法的具体步骤。
在其他实施例中,本公开还提供了:
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如上述实施例中所述的基于多模态融合模型的提高视频问答精度方法。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如上述实施例中所述的基于多模态融合模型的提高视频问答精度方法。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (6)

1.一种基于多模态融合模型的提高视频问答精度方法,其特征在于,包括:
采集视频数据和问题特征,获取视频问答的问题;
从视频数据中提取视觉特征和字幕特征;
将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;包括,将视觉特征和字幕特征输入BERT语言表示模型,并使用BERT语言表示模型将视觉特征、字幕特征和问题特征与每个候选答案结合起来进行嵌入,形成融合视觉特征和融合字幕特征,所述BERT语言表示模型的输入包括视觉特征、字幕特征、视频镜头和字幕句子组成;所述视频镜头和字幕句子被扁平化,包括QA特征;将QA特征和视觉特征融合为QA/视觉特征;同样,将QA特征和字幕特征融合为QA/字幕特征;从相似度矩阵中,将得到的QA/字幕特征与问题特征进行拼接形成融合字幕特征,将得到的QA/视觉特征与问题特征进行拼接形成融合视觉特征;
将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;包括,建立多模态融合模型,所述多模态融合模型采用了多头自注意机制,所述多头自注意机制是将查询矩阵、关键字矩阵和值矩阵映射到多个不同的子空间;计算子空间时彼此互不干涉,最后将输出拼接在一起;
将视频问答的问题输入训练好的多模态融合模型,获得问题答案。
2.如权利要求1所述的提高视频问答精度方法,其特征在于,所述采集视频数据和问题特征,获取视频问答的问题,包括:
对视频进行3FPS的图像帧序列提取;
提取每个图像帧的高层语义表示。
3.如权利要求1所述的提高视频问答精度方法,其特征在于,从视频数据中提取视觉特征和字幕特征,包括,采用R-CNN模型从视频数据前若干个的对象提案中提取视觉特征和字幕特征,由于视觉特征位于文本域中,因此视觉特征以字幕的方式嵌入。
4.一种基于多模态融合模型的提高视频问答精度系统,其特征在于,包括:
数据采集模块,被配置为:采集视频数据和问题特征,获取视频问答的问题;
数据处理模块,被配置为:从视频数据中提取视觉特征和字幕特征;
特征融合模块,被配置为:将视觉特征和字幕特征进行融合处理,获得融合视觉特征和融合字幕特征;包括,将视觉特征和字幕特征输入BERT语言表示模型,并使用BERT语言表示模型将视觉特征、字幕特征和问题特征与每个候选答案结合起来进行嵌入,形成融合视觉特征和融合字幕特征,所述BERT语言表示模型的输入包括视觉特征、字幕特征、视频镜头和字幕句子组成;所述视频镜头和字幕句子被扁平化,包括QA特征;将QA特征和视觉特征融合为QA/视觉特征;同样,将QA特征和字幕特征融合为QA/字幕特征;从相似度矩阵中,将得到的QA/字幕特征与问题特征进行拼接形成融合字幕特征,将得到的QA/视觉特征与问题特征进行拼接形成融合视觉特征;
模型训练模块,被配置为:将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练,获得训练好的多模态融合模型;包括,建立多模态融合模型,所述多模态融合模型采用了多头自注意机制,所述多头自注意机制是将查询矩阵、关键字矩阵和值矩阵映射到多个不同的子空间;计算子空间时彼此互不干涉,最后将输出拼接在一起;
输出模块,被配置为:将视频问答的问题输入训练好的多模态融合模型,利用多头自注意机制获得问题答案。
5.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时,完成如权利要求1-3任一所述的基于多模态融合模型的提高视频问答精度方法。
6.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-3任一所述的基于多模态融合模型的提高视频问答精度方法。
CN202011205724.1A 2020-11-02 2020-11-02 基于多模态融合模型的提高视频问答精度方法及系统 Active CN112559698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011205724.1A CN112559698B (zh) 2020-11-02 2020-11-02 基于多模态融合模型的提高视频问答精度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011205724.1A CN112559698B (zh) 2020-11-02 2020-11-02 基于多模态融合模型的提高视频问答精度方法及系统

Publications (2)

Publication Number Publication Date
CN112559698A CN112559698A (zh) 2021-03-26
CN112559698B true CN112559698B (zh) 2022-12-09

Family

ID=75041643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011205724.1A Active CN112559698B (zh) 2020-11-02 2020-11-02 基于多模态融合模型的提高视频问答精度方法及系统

Country Status (1)

Country Link
CN (1) CN112559698B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801762B (zh) * 2021-04-13 2021-08-03 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN113205507B (zh) * 2021-05-18 2023-03-10 合肥工业大学 一种视觉问答方法、系统及服务器
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113590879B (zh) * 2021-08-05 2022-05-31 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113902964A (zh) * 2021-09-09 2022-01-07 中山大学 基于关键词感知的多模态注意力视频问答方法与系统
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114707022B (zh) * 2022-05-31 2022-09-06 浙江大学 视频问答数据集标注方法、装置、存储介质及电子设备
CN117917696A (zh) * 2022-10-20 2024-04-23 华为技术有限公司 视频问答方法及电子设备
CN115952255B (zh) * 2022-11-21 2023-12-05 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549658B (zh) * 2018-03-12 2021-11-30 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
WO2020117028A1 (ko) * 2018-12-07 2020-06-11 서울대학교 산학협력단 질의 응답 장치 및 방법
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN111160038A (zh) * 2019-12-16 2020-05-15 浙江大学 一种基于自注意机制进行视频对话答案与问题的生成方法
CN111652357B (zh) * 2020-08-10 2021-01-15 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN111652202B (zh) * 2020-08-10 2020-12-01 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统

Also Published As

Publication number Publication date
CN112559698A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112559698B (zh) 基于多模态融合模型的提高视频问答精度方法及系统
Kim et al. Modality shifting attention network for multi-modal video question answering
Wang et al. Negative sample matters: A renaissance of metric learning for temporal grounding
Dilawari et al. ASoVS: abstractive summarization of video sequences
Zhan et al. RSVG: Exploring data and models for visual grounding on remote sensing data
Jing et al. Recognizing american sign language manual signs from rgb-d videos
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
Zhang et al. Temporal sentence grounding in videos: A survey and future directions
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
Zhang et al. The elements of temporal sentence grounding in videos: A survey and future directions
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
Sudhakaran et al. Learning to recognize actions on objects in egocentric video with attention dictionaries
Tang et al. Multi-level query interaction for temporal language grounding
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Jin et al. From token to word: OCR token evolution via contrastive learning and semantic matching for text-vqa
Chaudhary et al. Signnet ii: A transformer-based two-way sign language translation model
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN116956920A (zh) 一种多任务协同表征的多模态命名实体识别方法
Lin et al. Collaborative static and dynamic vision-language streams for spatio-temporal video grounding
Zhang et al. MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding
Xie et al. Global-shared Text Representation based Multi-Stage Fusion Transformer Network for Multi-modal Dense Video Captioning
Özer et al. Deep learning based, a new model for video captioning
Ghosh et al. SpecTextor: End-to-end attention-based mechanism for dense text generation in sports journalism
Wang et al. Video description with integrated visual and textual information
Ma et al. Joint Visual Perception and Linguistic Commonsense for Daily Events Causality Reasoning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant