CN112733789B - 一种基于动态时空图的视频推理方法、装置、设备及介质 - Google Patents
一种基于动态时空图的视频推理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112733789B CN112733789B CN202110077770.6A CN202110077770A CN112733789B CN 112733789 B CN112733789 B CN 112733789B CN 202110077770 A CN202110077770 A CN 202110077770A CN 112733789 B CN112733789 B CN 112733789B
- Authority
- CN
- China
- Prior art keywords
- video
- network
- reasoning
- space
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例涉及数据处理技术领域,具体涉及一种基于动态时空图的视频推理方法、装置、设备及介质,旨在实现复杂场景下的视频问题推理任务。所述方法包括:将视频与视频对应的问题文本输入问题推理网络中,将视频动态表征为问题相关的时空图,对时空图进行特征提取,得到视频中每一帧图像的特征向量,对得到的特征向量进行上下文建模,得到融合了上下文信息的特征向量,将融合了上下文信息的特征向量与视频对应的问题文本的特征向量进行融合,得到多模态融合向量,利用神经网络分类器,根据该多模态融合向量,推理出问题的答案。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种基于动态时空图的视频推理方法、装置、设备及介质。
背景技术
视频问答任务就是给定一段视频和其对应的自然语言描述的问题文本,利用视频中的信息,得到所给问题的正确答案。现有技术中,传统的视频问答方法使用深度神经网络得到视频和问题文本的表征,并将其进行联合嵌入以融合两种模态的信息,进而的到问题推理的答案。还有一种是基于时空图的视频表征方法,该方法将视频表征为图结构,通过对时空图进行分析,得到视频问答任务的结果。
现有技术中,传统的视频问题推理方法基于全局的视觉特征,缺乏足够的语义知识,难以识别出不同物体及建模物体间的复杂的时空交互,在复杂的视频推理场景下表现较差。基于时空图的视频表征方法多应用于视频动作分类等任务,并不主要应用于视频问答任务,并且该工作在构建时空图表征时未考虑问题文本,无法针对不同的问题动态构建出视频时空图表征,静态构建的时空图难以聚焦到与问题输入最相关的视觉信息,推理问题的准确率不高。
发明内容
本申请实施例提供一种基于动态时空图的视频推理方法、装置、设备及介质,旨在实现复杂场景下的视频问题推理任务。
本申请实施例第一方面提供一种基于动态时空图的视频推理方法,所述方法包括:
将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图;
采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量;
采用所述问题推理网络中的循环神经网络将所述视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量;
将所述多个融合了上下文信息的特征向量与所述视频对应的问题文本的特征向量进行融合,得到多模态融合向量;
采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案。
可选地,将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图,包括:
采用所述问题推理网络中的预训练好的物体检测器,从所述视频的每一帧画面中识别出所有物体,并将每个物体对应的视觉特征向量作为所述时空图中的节点,得到多个节点;
将所述多个节点中相邻的节点用边进行连接,并采用所述问题推理网络,根据所述视频对应的问题文本为每个节点之间的边赋予相应的权重,完成所述时空图的构建,所述多个相邻节点之间的边代表了节点之间的交互关系。
可选地,采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量,包括:
采用所述问题推理网络中的图卷积网络对所述时空图中的相邻的节点进行融合,得到融合了交互信息的节点;
将所述视频中同一帧图像中的所有融合了交互信息的节点进行融合,得到所述视频中每一帧图像的特征向量。
可选地,采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出输入问题的答案,包括:
采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量从答案数据集中找出可能性较大的多个答案,得到多个备选答案;
利用所述多模态融合向量在所述多个备选答案的每个备选答案上进行分类,得到所述视频对应的问题文本的答案。
可选地,所述问题推理网络的训练过程包括:
通过自监督学习的方式为所述问题推理网络构造一个视频事件识别任务;
为所述视频对应的问题文本构造出所述视频事件识别任务的标注;
利用所述标注作为自监督信号,对所述问题推理网络进行预训练;
收集多个视频和与多个视频分别对应的问题文本以及问题文本对应的正确答案,将每个视频与该视频对应的一个问题文本以及该问题文本对应的正确答案作为一组训练材料,得到多组训练材料;
将所述多组训练材料输入预训练后的问题推理网络中,对所述预训练的问题推理网络继续进行训练,得到所述问题推理网络。
本申请实施例第二方面提供一种基于动态时空图的视频推理装置,所述装置包括:
动态时空图生成模块,用于将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图;
特征向量提取模块,用于采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量;
上下文建模模块,用于采用所述问题推理网络中的循环神经网络将所述视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量;
向量融合模块,用于将所述多个融合了上下文信息的特征向量与所述视频对应的问题文本的特征向量进行融合,得到多模态融合向量;
答案推理模块,用于采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案。
可选地,所述动态时空图生成模块包括:
第一时空图构建子模块,用于用所述问题推理网络中的预训练好的物体检测器,从所述视频的每一帧画面中识别出所有物体,并将每个物体对应的视觉特征向量作为所述时空图中的节点,得到多个节点;
第二时空图构建子模块,用于将所述多个节点中相邻的节点用边进行连接,并采用所述问题推理网络,根据所述视频对应的问题文本为每个节点之间的边赋予相应的权重,完成所述时空图的构建,所述多个相邻节点之间的边代表了节点之间的交互关系。
可选地,所述特征向量提取模块包括:
节点融合子模块,用于采用所述问题推理网络中的图卷积网络对所述时空图中的相邻的节点进行融合,得到融合了交互信息的节点;
向量融合子模块,用于将所述视频中同一帧图像中的所有融合了交互信息的节点进行融合,得到所述视频中每一帧图像的特征向量。
可选地,所述答案推理模块包括:
备选答案获取子模块,用于采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量从答案数据集中找出可能性较大的多个答案,得到多个备选答案;
答案推理子模块,用于利用所述多模态融合向量在所述多个备选答案的每个备选答案上进行分类,得到所述视频对应的问题文本的答案。
可选地,所述述问题推理网络的训练过程包括:
通过自监督学习的方式为所述问题推理网络构造一个视频事件识别任务;
为所述视频对应的问题文本构造出所述视频事件识别任务的标注;
利用所述标注作为自监督信号,对所述问题推理网络进行预训练;
收集多个视频和与多个视频分别对应的问题文本以及问题文本对应的正确答案,将每个视频与该视频对应的一个问题文本以及该问题文本对应的正确答案作为一组训练材料,得到多组训练材料;
将所述多组训练材料输入预训练后的问题推理网络中,对所述预训练的问题推理网络继续进行训练,得到所述问题推理网络。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的基于动态时空图的视频推理方法,首先进行动态时空图的构建,将视频与视频对应的问题文本输入问题推理网络中,根据视频对应的问题文本将视频动态表征为问题相关的时空图,之后采用图卷积网络对时空图进行特征提取,得到视频中每一帧图像的特征向量,使用循环神经网络对视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量,将这多各融合了上下文信息的特征向量与视频对应的问题文本的特征向量进行融合,得到多模态融合向量,将该多模态融合向量输入神经网络分类器中,神经网络分类器对该多模态融合向量进行分析,推理出视频对应问题文本的答案,另外,本申请还通过自监督学习的方式在该问题推理网络中构建一个视频事件识别任务,从问题文本中自动构造出该视频识别任务的标注,对问题推理网络进行预训练。本申请中,根据视频对应的问题对视频进行了动态表征,得到了问题相关的时空图,使问题推理网络在执行问题推理任务时更加注重问题与视频之间的关联,提高了推理的准确率,本申请还利用自监督学习技术对问题推理网络进行预训练,可以对问题推理网络进行更好的训练,优化神经网络的参数,从而提高问题推理任务的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的基于动态时空图的视频推理方法方法的流程图;
图2是本申请一实施例提出的视频问题推理任务的流程图;
图3是本申请一实施例提出的视频内容示意图;
图4是本申请一实施例提出的基于动态时空图的视频推理方法装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的基于动态时空图的视频推理方法的流程图。如图1所示,该方法包括以下步骤:
S11:将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图。
本实施例中,问题推理网络是用于进行问题推理任务,问题推理任务的目的就是根据输入的视频与视频对应的问题,推理出视频对应问题的答案,时空图是一种图结构,由节点和边构成,其中图中的节点代表视频中物体的特征向量,图中的边连接时间或者空间上相关的两个物体。
本实施例中,将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图的具体步骤是:
S11-1:采用所述问题推理网络中的预训练好的物体检测器,从所述视频的每一帧画面中识别出所有物体,并将每个物体对应的视觉特征向量作为所述时空图中的节点,得到多个节点。
本实施例中,物体检测器是一个特征提取网络,将收集的多个视频中的物体进行人工标注作为训练材料,人工标注的方式可以是将视频中的物体框选出来,将标注好的视频输入物体检测器中对物体检测器进行训练,得到训练好的物体检测器。
视频输入到问题推理网络中之后,训练好的物体检测器,会对输入视频中每一帧的图像进行特征提取,物体检测器会从每一帧图像中识别出该图像中包含的物体,使用物体检测框将识别出的物体进行框选,将每个物体检测框内包含物体的视觉特征向量提取出来,作为时空图中的节点。
示例地,物体检测器是用于特征提取的神经网络,该网络可以使用常用的图像特征提取的网络,例如CNN网络等,在此不做限制。
S11-2:将所述多个节点中相邻的节点用边进行连接,并采用所述问题推理网络,根据所述视频对应的问题文本为每个节点之间的边赋予相应的权重,完成所述时空图的构建,所述多个相邻节点之间的边代表了节点之间的交互关系。
本实施例中,时空图中相邻的节点之间使用边进行连接,这里的相邻包含了两个方面,一个是空间上的相邻,即在同一帧图像中提取出的物体的视觉特征向量在空间上具有相邻关系,一个是时间上的相邻,即同一个物体的视觉特征向量在不同的帧的图像之中是相邻的。每一帧图像之中的相邻物体的视觉特征向量对应的节点使用边进行连接,不同帧图像之中的同一个物体的视觉特征向量对应的节点使用边进行连接。
本实施例中,问题推理网络会根据输入的视频对应的问题文本,对时空图中的边赋予相应的权重,具体可以根据每个节点上的向量与视频对应的问题文本的特征向量,利用注意力机制对其进行运算,得到每条边上的权重。
本实施例中,根据视频与视频对应的问题文本,可以得到问题相关的时空图,同一个视频可以根据不同的问题得到不同的时空图,视频对应的时空图是根据问题的不同而动态变化的。
S12:采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量。
本实施例中,图卷积网络模型(GCN)是一种在图像特征提取中表现较好的神经网络模型,采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量的具体步骤为:
S12-1:采用所述问题推理网络中的图卷积网络对所述时空图中的相邻的节点进行融合,得到融合了交互信息的节点。
本实施例中,将S11中得到的时空图输入图卷积神经网络模型中,图卷积神经网络模型对时空图中的各个节点进行卷积运算,即对时空图各个物体的视觉特征向量进行卷积运算,进而将相邻节点的交互信息进行融合,得到融合了相邻节点之间的交互信息的节点。融合了相邻特征的节点中既包含了与该节点在空间中有交互关系的节点之间的交互信息,也包含了与该节点在时间上相邻的的节点之间的交互信息。通过图卷积神经网络模型,可以融合图中相邻节点的特征,建模视频对应的时空图中物体间的复杂的交互信息。
S12-2:将所述视频中同一帧图像中的所有融合了交互信息的节点进行融合,得到所述视频中每一帧图像的特征向量。
本实施例中,在得到融合了交互信息的节点之后,此时每个综融合了交互信息的节点都对应了视频中的每一帧图像中被识别出的物体,融合了交互信息的节点就是融合了交互信息的视觉特征向量,将视频中同一帧图像中的所有融合了交互信息的节点进行融合,就是将视频中同一帧图像中的所有融合了交互信息的视觉特征向量进行融合,得到视频中每一帧图像的特征向量。
示例的,一段视频中有50帧图像,则视频对应的时空图中有这50帧图像中每一帧图像中识别出的所有物体对应的节点,即视觉特征向量,在通过图卷积神经网络对时空图进行特征提取后,这些节点就融合了交互信息,即这些视觉特征向量融合了交互信息。之后再将视频中每一帧图像中识别出的所有物体的视觉特征向量在时空图中的对应节点进行融合,就可以得到每一帧图像的特征向量,该视频共有50帧图像,这50帧图像对应了50个特征向量。融合的方法可以采用平均池化的方法,也可以采用最大池化方法,在此不做限制。
S13:采用所述问题推理网络中的循环神经网络将所述视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量。
本实施例中,循环神经网络(RNN)在长距离上下文建模中表现出色。得到视频中每一帧图像的特征向量后,将其输入循环神经网络中,建模不同视频帧的特征向量之间的长距离时序上下文,得到多个融合了上下文信息的特征向量。
示例地,该视频共有50帧图像,将这50帧图像对应的特征向量输入循环神经网络之后,就会得到50个融合了上下文信息的特征向量。
S14:将所述多个融合了上下文信息的特征向量与所述视频对应的问题文本的特征向量进行融合,得到多模态融合向量。
本实施例中,视频是一个模态,问题文本是另一个模态,将多个融合了上下文信息的特征向量与视频对应的问题文本的特征向量进行融合,即可得到多模态融合向量。
示例地,视频共有50帧图像,对应的也有50个融合了上下文信息的特征向量,将这50个融合了上下文信息的特征向量与视频对应的问题文本的特征向量利用多模态融合技术进行融合,得到多模态融合向量,该多模态融合向量就是视频与视频对应问题文本的统一表示。
S15:采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案。
本实施例中,在得到多模态融合向量之后,使用神经网络分类器对多模态融合向量进行分析,根据多模态融合向量推理出视频对应的问题文本的答案。神经网络分类器起到对候选答案进行分类的作用。具体步骤是:
S15-1:采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量从答案数据集中找出可能性较大的多个答案,得到多个备选答案。
本实施例中,在训练该模型时会输入多个标注好的答案,这些答案就组成了答案数据集,根据多模态融合向量,从答案数据集中找出可能性较大的多个答案作为备选答案。
示例地,可能性较大的答案可以是在训练问题推理网络模型时出现次数较多的答案。
S15-2:利用所述多模态融合向量在所述多个备选答案的每个备选答案上进行分类,得到所述视频对应的问题文本的答案。
本实施例中,利用多模态融合向量在多个备选答案的每个备选答案上进行分类,就是将多模态融合向量输入神经网络分类器中,该神经网络分类器根据多模态融合向量,对多个备选答案进行评分,选取评分最高的备选答案作为问题的最终答案。
示例地,根据该多模态融合向量得到了10个备选答案,对这10个备选答案进行计算并打分,选取这10个备选答案中得分最高的备选答案作为问题的最终答案。神经分类网络可以使用MLP神经网络,MLP神经网络在语义分类上的有这不错的效果。
本实施例的另一方面,所述问题推理网络的训练过程包括:
S21:通过自监督学习的方式为所述问题推理网络构造一个视频事件识别任务。
本实施例中,自监督学习是一种不需要人工进行标注,可以按照一定的规则自行对训练材料进行标注的学习方法,节省了人工标注的时间。视频事件识别任务的目的是根据视频内容识别出视频中发生的事件。
通过自监督学些的方式为问题推理网络构建一个视频事件识别任务,是为了使问题推理网络可以更好地发掘出问题文本中隐含的事件线索,从而辅助答案的推断。
S22:为所述视频对应的问题文本构造出所述视频事件识别任务的标注。
本实施例中,使用预设的规则对视频对应的问题文本进行自动标注,将视频对应问题文本中包含的事件进行标注。
示例地,预设规则可以是对问题进行分词,将问题文本中的动宾短语标注为事件,例如,问题文本为“小明去商场买衣服”,则将问题文本中发生的事件“去商场”和“买衣服”进行标注。
S23:利用所述标注作为自监督信号,对所述问题推理网络进行预训练。
本实施例中,将自动标注好的问题文本作为监督信号,对问题推理网络中除神经网络分类器和循环神经网络之外的网络进行训练,优化网络的参数。
S24:收集多个视频和与多个视频分别对应的问题文本以及问题文本对应的正确答案,将每个视频与该视频对应的一个问题文本以及该问题文本对应的正确答案作为一组训练材料,得到多组训练材料。
本实施例中,训练材料用于对预训练后的问题推理网络进行训练,每组训练材料中有一个视频,视频对应的问题文本以及人工标注的问题答案,一个视频可以对应多个不同的问题和问题答案,每组的视频对应的问题文本和答案不相同。
S25:将所述多组训练材料输入预训练后的问题推理网络中,对所述预训练的问题推理网络继续进行训练,得到所述问题推理网络。
本实施例中,使用了自监督的学习方式来更好地训练神经网络,通过自监督学习方式构建一个视频事件识别任务,这个人物和问题推理任务的参数可以共享,这样就预先优化了问题推理网络的参数,使用视频事件识别任务对问题推理网络进行预训练,可以显著提升视频问题推理的准确率。
在本申请的另一个实施例中,结合一个具体的视频识别任务对本申请进行说明。
图2是本申请一实施例提出的视频问题推理任务的流程图。如图2所示,根据输入的视频内容进行问题推理,如图3所示,图3是本申请一实施例提出的视频内容示意图,图中是一个名为“Mario”的游戏人物,跳起来打碎了一个砖块,之后踩死了一个名为“Red Koopatroopa”的敌人。如图2所示,问题推理网络首先使用物体检测器检测到视频中每一帧画面的所有物体,主要包括“Mario”,“Red Koopa troopa”,“block(砖块)”等物体,用物体检测框将其框选出来,接着将每个物体对应的视觉特征向量作为时空图中的节点,将相邻的节点用边进行连接,构成时空图。图节点的特征包含了视觉特征,位置特征,语义特征。接着通过图卷积神经网络模(GCN)对时空图进行提取,进行卷积池化等操作,得到每一帧图像的特征向量(t),使用RNN网络对每一帧图像的特征向量进行长距离建模,之后利用多模态融合技术将视频对应的问题文本的向量与每一帧图像的特征向量进行融合,其中问题是“Whatenemy was killed after a block was broken by Mario”,得到多模态特征向量,之后将该向量输入分类器中,得到问题的答案,正确答案是“Red koopa troopa”。
另外在图2中的在视频识别任务中,将每一帧图像的特征向量进行长距离建模之后,对这些特征向量进行平均池化,得到一个统一的特征向量,使用神经网络分类器识别出视频中发生的事件。该任务在训练时的监督信号是由自动生成的。从视频中可以识别出视频对应的问题隐含了“(Mario,Break,Block)”和“(Mario,Kill,Enemy)”两个事件。
基于同一发明构思,本申请一实施例提供一种基于动态时空图的视频推理装置。参考图4,图4是本申请一实施例提出的基于动态时空图的视频推理装置的示意图。如图4所示,该装置包括:
动态时空图生成模块,用于将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图;
特征向量提取模块,用于采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量;
上下文建模模块,用于采用所述问题推理网络中的循环神经网络将所述视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量;
向量融合模块,用于将所述多个融合了上下文信息的特征向量与所述视频对应的问题文本的特征向量进行融合,得到多模态融合向量;
答案推理模块,用于采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案。
可选地,所述动态时空图生成模块包括:
第一时空图构建子模块,用于用所述问题推理网络中的预训练好的物体检测器,从所述视频的每一帧画面中识别出所有物体,并将每个物体对应的视觉特征向量作为所述时空图中的节点,得到多个节点;
第二时空图构建子模块,用于将所述多个节点中相邻的节点用边进行连接,并采用所述问题推理网络,根据所述视频对应的问题文本为每个节点之间的边赋予相应的权重,完成所述时空图的构建,所述多个相邻节点之间的边代表了节点之间的交互关系。
可选地,所述特征向量提取模块包括:
节点融合子模块,用于采用所述问题推理网络中的图卷积网络对所述时空图中的相邻的节点进行融合,得到融合了交互信息的节点;
向量融合子模块,用于将所述视频中同一帧图像中的所有融合了交互信息的节点进行融合,得到所述视频中每一帧图像的特征向量。
可选地,所述答案推理模块包括:
备选答案获取子模块,用于采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量从答案数据集中找出可能性较大的多个答案,得到多个备选答案;
答案推理子模块,用于利用所述多模态融合向量在所述多个备选答案的每个备选答案上进行分类,得到所述视频对应的问题文本的答案。
可选地,所述述问题推理网络的训练过程包括:
通过自监督学习的方式为所述问题推理网络构造一个视频事件识别任务;
为所述视频对应的问题文本构造出所述视频事件识别任务的标注;
利用所述标注作为自监督信号,对所述问题推理网络进行预训练;
收集多个视频和与多个视频分别对应的问题文本以及问题文本对应的正确答案,将每个视频与该视频对应的一个问题文本以及该问题文本对应的正确答案作为一组训练材料,得到多组训练材料;
将所述多组训练材料输入预训练后的问题推理网络中,对所述预训练的问题推理网络继续进行训练,得到所述问题推理网络。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的基于动态时空图的视频推理方法方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的基于动态时空图的视频推理方法方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于动态时空图的视频推理方法、装置、设备及介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (7)
1.一种基于动态时空图的视频推理方法,其特征在于,所述方法包括:
将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图;
采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量;
采用所述问题推理网络中的循环神经网络将所述视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量;
将所述多个融合了上下文信息的特征向量与所述视频对应的问题文本的特征向量进行融合,得到多模态融合向量;
采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案;
其中,将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图,包括:
采用所述问题推理网络中的预训练好的物体检测器,从所述视频的每一帧画面中识别出所有物体,并将每个物体对应的视觉特征向量作为所述时空图中的节点,得到多个节点;
将所述多个节点中相邻的节点用边进行连接,并采用所述问题推理网络,根据所述视频对应的问题文本为每个节点之间的边赋予相应的权重,完成所述时空图的构建,所述多个节点中相邻的节点之间的边代表了节点之间的交互关系。
2.根据权利要求1所述的方法,其特征在于,采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量,包括:
采用所述问题推理网络中的图卷积网络对所述时空图中的相邻的节点进行融合,得到融合了交互信息的节点;
将所述视频中同一帧图像中的所有融合了交互信息的节点进行融合,得到所述视频中每一帧图像的特征向量。
3.根据权利要求1所述的方法,其特征在于,采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案,包括:
采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量从答案数据集中找出可能性较大的多个答案,得到多个备选答案;
利用所述多模态融合向量在所述多个备选答案的每个备选答案上进行分类,得到所述视频对应的问题文本的答案。
4.根据权利要求1所述的方法,其特征在于,所述问题推理网络的训练过程包括:
通过自监督学习的方式为所述问题推理网络构造一个视频事件识别任务;
为所述视频对应的问题文本构造出所述视频事件识别任务的标注;
利用所述标注作为自监督信号,对所述问题推理网络进行预训练;
收集多个视频和与多个视频分别对应的问题文本以及问题文本对应的正确答案,将每个视频与该视频对应的一个问题文本以及该问题文本对应的正确答案作为一组训练材料,得到多组训练材料;
将所述多组训练材料输入预训练后的问题推理网络中,对所述预训练的问题推理网络继续进行训练,得到所述问题推理网络。
5.一种基于动态时空图的视频推理装置,其特征在于,所述装置包括:
动态时空图生成模块,用于将视频和与视频对应的问题文本输入问题推理网络之中,采用所述问题推理网络将所述视频动态表征为问题相关的时空图;
特征向量提取模块,用于采用所述问题推理网络中的图卷积网络对所述时空图进行特征提取,得到所述视频中每一帧图像的特征向量;
上下文建模模块,用于采用所述问题推理网络中的循环神经网络将所述视频中每一帧图像的特征向量进行时序上下文建模,得到多个融合了上下文信息的特征向量;
向量融合模块,用于将所述多个融合了上下文信息的特征向量与所述视频对应的问题文本的特征向量进行融合,得到多模态融合向量;
答案推理模块,用于采用所述问题推理网络中的神经网络分类器,根据所述多模态融合向量推理出所述视频对应的问题文本的答案;
其中,所述动态时空图生成模块包括:
第一时空图构建子模块,用于采用所述问题推理网络中的预训练好的物体检测器,从所述视频的每一帧画面中识别出所有物体,并将每个物体对应的视觉特征向量作为所述时空图中的节点,得到多个节点;
第二时空图构建子模块,用于将所述多个节点中相邻的节点用边进行连接,并采用所述问题推理网络,根据所述视频对应的问题文本为每个节点之间的边赋予相应的权重,完成所述时空图的构建,所述多个节点中相邻的节点之间的边代表了节点之间的交互关系。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至4任一所述的方法中的步骤。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至4任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077770.6A CN112733789B (zh) | 2021-01-20 | 2021-01-20 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077770.6A CN112733789B (zh) | 2021-01-20 | 2021-01-20 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733789A CN112733789A (zh) | 2021-04-30 |
CN112733789B true CN112733789B (zh) | 2023-04-18 |
Family
ID=75594308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110077770.6A Active CN112733789B (zh) | 2021-01-20 | 2021-01-20 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733789B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204675B (zh) * | 2021-07-07 | 2021-09-21 | 成都考拉悠然科技有限公司 | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 |
CN113469289B (zh) * | 2021-09-01 | 2022-01-25 | 成都考拉悠然科技有限公司 | 视频自监督表征学习方法、装置、计算机设备和介质 |
CN113837259B (zh) * | 2021-09-17 | 2023-05-30 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN116152817B (zh) * | 2022-12-30 | 2024-01-02 | 北京百度网讯科技有限公司 | 信息处理方法、装置、设备、介质和程序产品 |
CN117612072B (zh) * | 2024-01-23 | 2024-04-19 | 中国科学技术大学 | 一种基于动态时空图的视频理解方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10679330B2 (en) * | 2018-01-15 | 2020-06-09 | Tata Consultancy Services Limited | Systems and methods for automated inferencing of changes in spatio-temporal images |
US11790213B2 (en) * | 2019-06-12 | 2023-10-17 | Sri International | Identifying complex events from hierarchical representation of data set features |
CN110598573B (zh) * | 2019-08-21 | 2022-11-25 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
CN111476155A (zh) * | 2020-04-07 | 2020-07-31 | 南京邮电大学 | 基于时空图卷积神经网络与特征融合的人体动作分类方法 |
CN111652202B (zh) * | 2020-08-10 | 2020-12-01 | 浙江大学 | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统 |
-
2021
- 2021-01-20 CN CN202110077770.6A patent/CN112733789B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112733789A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733789B (zh) | 一种基于动态时空图的视频推理方法、装置、设备及介质 | |
US11222236B2 (en) | Image question answering method, apparatus and system, and storage medium | |
CN108229478B (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
Kim et al. | Modality shifting attention network for multi-modal video question answering | |
CN112016573B (zh) | 弹幕生成方法、装置、电子设备及计算机存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN111062451A (zh) | 一种基于文本引导图模型的图像描述生成方法 | |
Selim et al. | Students engagement level detection in online e-learning using hybrid efficientnetb7 together with tcn, lstm, and bi-lstm | |
CN114332679A (zh) | 视频处理方法、装置、设备、存储介质和计算机程序产品 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114339450A (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN115188067A (zh) | 一种视频行为识别方法、装置、电子设备及存储介质 | |
Jin et al. | Mmtom-qa: Multimodal theory of mind question answering | |
CN110728604B (zh) | 一种分析方法及装置 | |
Abdulhamied et al. | Real-time recognition of American sign language using long-short term memory neural network and hand detection | |
CN115883878A (zh) | 视频剪辑方法、装置、电子设备及存储介质 | |
Duarte et al. | Routing with self-attention for multimodal capsule networks | |
CN113903083B (zh) | 行为识别方法、装置、电子设备以及存储介质 | |
Aaliya | Triangulating Precision: A Comparative Study of Manual and Automated Annotations with YOLO, Azure Custom Vision and Grounded SAM on a Customized Data set for creation of a product for safety of recycling industries | |
CN117540024B (zh) | 一种分类模型的训练方法、装置、电子设备和存储介质 | |
US20180160963A1 (en) | Sensors and Analytics for Reading Comprehension | |
CN114936297B (zh) | 一种基于先验知识和对象敏感的视频问答方法 | |
Wang | Designing algorithms that assist people to ask visual questions | |
Li | Video-Based Object Detection in Security Monitoring System | |
CN116978113A (zh) | 一种融合视觉知识图谱的动作类别识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |