CN117612072B - 一种基于动态时空图的视频理解方法 - Google Patents
一种基于动态时空图的视频理解方法 Download PDFInfo
- Publication number
- CN117612072B CN117612072B CN202410090714.XA CN202410090714A CN117612072B CN 117612072 B CN117612072 B CN 117612072B CN 202410090714 A CN202410090714 A CN 202410090714A CN 117612072 B CN117612072 B CN 117612072B
- Authority
- CN
- China
- Prior art keywords
- tokens
- token
- adapter
- frame
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000010586 diagram Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 230000005012 migration Effects 0.000 claims abstract description 9
- 238000013508 migration Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009625 temporal interaction Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态时空图的视频理解方法,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层;该视频理解方法通过动态时空图对视频中复杂动态和结构信息的准确捕捉,提高对整体时空信息的全局理解和综合捕捉,以及利用基于适配器的预训练模型迁移,提升视频理解的准确性和效率。
Description
技术领域
本发明涉及视频理解技术领域,尤其涉及一种基于动态时空图的视频理解方法。
背景技术
视频理解是计算机视觉和人工智能领域的核心课题,广泛应用于安全监控、自动驾驶、人机交互、虚拟现实等多个领域。在现代信息时代,由于摄像设备的普及和技术的进步,视频数据以前所未有的速度快速增长。在这个背景下,如何从庞大的视频数据中快速、准确地提取有用的信息、分析和理解视频内容,成为了一个亟待解决的关键问题。
视频理解技术大多基于深度学习框架,早期利用卷积神经网络(ConvolutionNeural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN),提取视频中的视觉特征,捕捉视频序列中的时间依赖关系。然而,随着视觉Transformer(VisionTransformer, Vit)的兴起,越来越多的方法基于Vit的结构增加时序模块解决视频理解问题。但是这些方法面临着几个显著的问题。
首先,计算复杂度和资源消耗巨大。虽然Transformer在图像和序列数据处理方面表现出色,但在处理大规模、高分辨率的视频数据时往往需要巨大的计算资源和内存。这在一定程度上限制了这些方法在实际应用中的实时性和效率。
其次,对时空信息的捕捉不足。视频数据是一种典型的时空数据,其内在含有丰富的时空关联信息和动态变化规律。再者,模型泛化能力和适应性问题。当前的视频理解模型通常需要大量标注数据进行训练,面临着数据多样性和场景变化带来的挑战。模型的泛化能力和在不同场景、不同类型视频数据上的适应性成为评价其性能的关键标准。
为了克服这些问题,近年来开始涌现一些基于预训练模型的视频理解方法。它们将基于对比学习的图像-语言的预训练的模型(Contrastive Language–Image Pre-training, CLIP)迁移到该领域,通过预训练的大模型结合时序理解模块试图捕捉长范围依赖关系,提升视频理解的性能和效率。但仍然存在对动态场景和复杂背景下视频内容理解不足,算法效率和性能需要进一步优化的问题。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于动态时空图的视频理解方法,提高了对整体时空信息的全局理解和综合捕捉,提升了视频理解的准确性和效率。
本发明提出的一种基于动态时空图的视频理解方法,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;
所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层;
所述网络模型的训练过程如下:
S1:构建训练集,提取训练集中视频数据的每帧图像,将每帧图像转化为多个令牌,基于每帧图像的多个令牌建立令牌间的空域关系,将相邻帧图像中的令牌连接建立令牌间的时空关系,基于令牌间的空域关系和时空关系构建每帧图像的动态时空图,将动态时空图输入到主干网络;
S2:基于空域融合模块计算每帧图像中令牌间的相似度,按照相似度降序排列,选择每帧图像的前对相似的令牌进行融合,得到空域融合后的令牌集合,并将空域融合后的令牌集合送入可训练的第一适配器中,进行特征交互;
S3:基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重,对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征,并将每个令牌的新时空特征输入到可训练的第二适配器中,进行特征交互;
S4:将主干网络输出的新时空特征输入到分类器中以输出类别,每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移。
进一步地,在步骤S1中,具体包括:
S11:将视频数据的每帧图像分割成个块,每个块通过全连接层压缩成一定维度的向量获得令牌;
S12:在空域上,基于每帧图像转化的令牌构建图,其中/>是顶点集,每个顶点代表一个令牌,/>是描述令牌间空域关系的边集,基于令牌的位置和图像的先验知识,定义令牌间的空域关系;
S13:在时域上,将第帧图像中的令牌与第/>帧图像中的令牌连接,定义令牌间的时空关系;
令牌间的空域关系定义如下:
令牌间的时空关系定义如下:
其中,表示第/>帧的第/>个令牌,/>表示第/>帧的第/>个令牌,/>表示第/>帧的第/>个令牌,/>表示在空域上表示同一帧图像上空间邻近的令牌,在时域上表示相邻帧图像间邻近的令牌。
进一步地,在步骤S2中,令牌经过空域融合模块融合后,空域融合后的令牌集合,其中/>表示融合后的令牌,/>,/>,/>表示融合后令牌的总数,/>表示每帧图像被分割的总块数;
令牌间的相似度通过注意力机制中的键值计算如下:
其中,表示第/>个令牌和第/>个令牌之间的相似度,/>表示激活函数,/>表示令牌/>对应的键值,/>表示令牌/>对应的键值,/>表示转置,/>表示乘积;
进一步地,在步骤S3中,每个令牌与其时空邻居的注意力权重的计算如下:
每个令牌的新时空特征生成如下:
其中,表示令牌/>对其时空邻居的注意力权重,/>表示激活函数,/>表示令牌/>对应的查询值,/>表示令牌/>对应的键值,/>表示第/>帧的第/>个令牌,/>表示自注意力机制中键的维度,/>表示第/>帧第/>个令牌的新时空特征,/>表示令牌的时空邻居集合,/>表示邻居令牌的值特征。
进一步地,在步骤S2和S3中,适配器结合残差结构简化优化过程如下:
其中,是适配后网络模型的特征表示,/>是输入适配器前的特征,/>是适配器学到的调整参数,/>是适配器的特征变换函数,该适配器分别对应第一适配器或第二适配器。
本发明提供的一种基于动态时空图的视频理解方法的优点在于:本发明中提供的一种基于动态时空图的视频理解方法,克服了现有视频理解技术在计算复杂度、时空信息捕捉及模型泛化能力方面的缺陷;通过动态时空图对视频中复杂动态和结构信息的准确捕捉,提高对整体时空信息的全局理解和综合捕捉,以及利用基于适配器的预训练模型迁移,提升视频理解的准确性和效率。
附图说明
图1为本发明的网络模型中主干网络结构示意图;
图2为网络模型的训练过程示意图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
在本实施例中,网络模型为预训练完成的模型,本实施例将预训练好的模型迁移到视频理解领域,结合时序理解模块试图捕捉长范围依赖关系,提升视频理解的性能和效率,该预训练的模型可以采用基于对比学习的图像-语言的预训练的模型(ContrastiveLanguage–Image Pre-training, CLIP),该CLIP模型是已经现有的。
如图1至2所示,本发明提出的一种基于动态时空图的视频理解方法,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;
如图1所示,所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层,第一层特征提取层的输入连接动态时空图,最后一层特征提取层的输出连接到分类器上;需要说明的是,网络模型的主体结构仍为CLIP模型,只是在CLIP模型的主干网络每一层上插入一些模块,具体为在多头注意力层和前馈网络层之间插入空域融合模块、第一适配器、时域交互模块、第二适配器,本实施例在动态时空图的基础之上,深度整合了视频的时空特性,从而使网络模型能够全面捕捉并理解视频的动态信息和结构特征。
在视频理解任务中,利用预训练模型可以有效提升模型性能,节省训练时间和资源。但直接应用CLIP模型在视频任务中可能并不理想,因为图像和视频存在本质上的差异和复杂性。为解决这一问题,引入了适配器,基于适配器的迁移学习策略,使网络模型能够更好地适应视频理解任务。
本实施例的网络模型为在预训练的图像模型(CLIP模型)中插入了轻量级的适配器。这些适配器是可训练的,而原始预训练模型(CLIP模型)的参数则被冻结,这样可以在保留原始预训练模型(CLIP模型)知识的同时,通过训练适配器来适应新的任务。数学上,适配器(第一适配器或第二适配器)结合残差结构简化优化过程如下:
其中,是适配后模型的特征表示,/>是输入适配器前的特征,/>是适配器学到的调整参数,/>是适配器的特征变换函数。
适配器的设计是轻量级的,仅包含少量的参数,这使得网络模型保持高效和灵活。通过在预训练模型(CLIP模型)中嵌入适配器,仅训练适配器的参数,从而实现从图像任务到视频理解任务的迁移。在具体实施时,适配器被插入到预训练模型(CLIP模型)的每个层级中。每个适配器都负责学习该层级的任务特定特征和知识,从而使整个网络模型能够更好地适应视频理解任务。
如图2所示,对于网络模型的训练过程如下。
S1:构建训练集,提取训练集中视频数据的每帧图像,将每帧图像转化为多个令牌,基于每帧图像的多个令牌建立令牌间的空域关系,将相邻帧图像中的令牌连接建立令牌间的时空关系,基于令牌间的空域关系和时空关系构建每帧图像的动态时空图,将动态时空图输入到主干网络;具体包括步骤S11至S13。
S11:将视频数据的每帧图像分割成个块,每个块通过全连接层压缩成一定维度的向量获得令牌;
以视频帧序列为输入,其中/>和/>分别代表时间维度的帧序列长度、通道数、帧的高度和宽度。视频可视为帧的集合,即/>。其中/>为视频的帧数,原始的图像维度C一般为3。将每帧图像划分为/>个块(patch),每个块的大小是/>,P是区域边长。则每个小块的数量/>和小块的大小/>之间的关系是:/>。每帧图像按照/>块切分后,每块图像表示为,接着,每个块通过一个映射函数/>转化为令牌(token),其公式为:
其中,表示第/>帧的第/>个令牌,/>是相应的块(patch),映射函数/>通常由一个全连接网络实现。
S12:在空域上,基于每帧图像转化的令牌构建图,其中/>是顶点集,每个顶点代表一个令牌,/>是描述令牌间空域关系的边集,基于令牌的位置和图像的先验知识,相邻像素相关的可能性更大,每个令牌周围一圈的令牌视为其邻居,定义令牌间的空域关系/>;
其中,表示第/>帧的第/>个令牌,/>表示第/>帧的第/>个令牌,/>在空域上表示同一帧图像上空间邻近的令牌,在时域上表示相邻帧图像间邻近的令牌,空间邻居的定义主要有两种方式:一为基于/>近邻算法获得同一帧图像中前/>个令牌视为其邻居,二为直接以令牌为中心的/>区域的令牌视为邻居。
S13:在时域上,将第帧图像中的令牌与第/>帧图像中的令牌连接,定义令牌间的时空关系/>;
其中,表示第/>帧的第/>个令牌。
通过步骤S11至S13,时空关系能有效捕获视频的动态变化,为后续的分析和理解奠定基础。经过以上的处理步骤,成功构建出每帧图像的动态时空图表示,该表示不仅整合了视频的空间结构信息,更融合了丰富的动态变化信息,从而为视频分析和理解提供了坚实、全面的基础。随后分别从空域和时域两个维度进行交互。
S2:基于空域融合模块计算每帧图像中令牌间的相似度,按照相似度降序排列,选择每帧图像的前对相似的令牌进行融合,得到空域融合后的令牌集合,并将空域融合后的令牌集合送入可训练的第一适配器中,进行特征交互;
在构建了动态时空图后,为了进一步优化特征表示并提升计算效率,在空域上进行特征的融合。这一过程涉及到令牌(token)的减少和特征的集成,使得网络模型能够在保留关键信息的同时,降低计算复杂度。
每层的空域融合模块和时域交互模块位于主干网络(Transformer)的每一层中,具体地,在多头注意力层和前馈网络层之间。通过计算令牌间的相似度,并根据相似度融合那些具有较高相似性的令牌,从而实现减少令牌数量的目标。
令牌的相似度是通过注意力机制中的键值()来计算的。给定两个令牌/>和/>的键值分别为/>和/>,他们之间的相似度/>可计算为:
其中表示激活函数,/>表示转置,此处的/>仅是公式矩阵变换的转置操作,与文本中其他位置的/>没有联系,/>表示乘积,相似度不仅看作是两节点之间的边,还是融合时的权重。按照相似度降序排列,选择每帧图像的前/>对相似的令牌进行融合。经过融合,新的令牌集合更新为/>,其中/>表示融合后的令牌,,/>,/>表示融合后令牌的总数,/>表示每帧图像被分割的总块数,这样就实现了令牌数量的减少和计算效率的提升。
值得注意的是,融合后的令牌不仅继承了原始令牌的特征,还继承了原始令牌的时空邻居信息。这意味着,在减少令牌数量和提升计算效率的同时,仍保留了丰富的时空信息。这为处理更复杂、更长时序的视频内容提供了可能,使该基于动态时空图的视频理解方法在实际应用中具有更广泛的适用性和更高的效率。
S3:基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重,对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征,并将每个令牌的新时空特征输入到可训练的第二适配器中,进行特征交互;
时域特征交互是视频理解中一个关键步骤,专注于捕获和整合视频序列中帧与帧之间的动态关系。基于时空图细粒度的建模这种时域邻域关系,使网络模型能够更准确地理解视频内容的动态和时空结构。
对于给定的时间的帧图像与时间/>的帧图像,每个令牌/>不仅与其空间邻居有关系,还与时间/>帧上对应位置的令牌/>以及其/>区域内的8个邻近令牌有关系。这一设计使的网络模型能够捕捉更复杂、更丰富的时空动态特征。
时空特征交互是通过类似 Transformer 中的自注意力机制实现的。每个令牌与其时空邻居的注意力权重是通过查询(Q)和键(K)的计算得出的,具体为:
其中,是令牌/>对其时空邻居的注意力权重,/>表示激活函数,/>表示令牌/>对应的查询值,/>表示令牌/>对应的键值,/>表示第/>帧的第/>个令牌,表示自注意力机制中键的维度;
每个令牌的新时空特征是通过其自身和其时空邻居的特征的加权和计算得到的,具体为:
其中,表示第/>帧第/>个令牌的新时空特征,/>表示令牌/>的时空邻居集合,表示邻居令牌的值特征。
通过时空特征交互,网络模型能够充分捕捉和整合视频中的动态信息和时空结构。每个令牌的特征现在都包含了丰富的时空上下文信息,这对于后续的视频内容理解和分析具有重要价值。
S4:将主干网络输出的新时空特征输入到分类器中以输出类别,每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移。
需要说明的是,动态时空图输入到第一层特征提取层,经过层特征提取层的后通过最后一层特征提取层输出新时空特征,在每一层特征提取层上都设置第一适配器和第二适配器,对每一层上的第一适配器和第二适配器都进行训练,使得每一层的第一适配器和第二适配器在训练完成后直接使用时,实现网络模型从图像任务到视频理解任务的迁移。
考虑到视频理解任务的训练消耗巨大,该框架基于提示学习的范式,通过冻结预先训练的图像模型并添加一些可训练的轻量级适配器,仅通过训练少量参数,将预先训练好的图像模型(也就是网络模型)迁移到视频理解领域。
根据步骤S1至S4,(a)时间和空间特征的深层融合,通过构建动态时空图,本视频理解方法能够深入挖掘视频数据中的时空关联和动态变化规律。这不仅实现对视频内容的全局和深层次理解,还促进了对复杂场景、快速动作和微妙变化的精确捕捉和分析。(b)计算效率的显著提升,利用空域融合模块和时域交互模块,本实施例在保持分析精度的同时有效降低了计算复杂度和资源消耗。这意味着它可以在资源有限的环境中,如边缘计算和移动设备,实现实时视频处理的需求。(c)模型泛化和适应性的增强,通过基于适配器的预训练模型(网络模型)迁移,本视频理解方法在不增加计算负担的前提下,显著提升了网络模型在多种场景和数据上的泛化能力和适应性。这确保了网络模型能够在各种不同类型和质量的视频数据上都表现出色。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于动态时空图的视频理解方法,其特征在于,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;
所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,以CLIP模型作为网络模型的主体结构,原始CLIP模型的每层特征提取层包括多头注意力层和前馈网络层,在原始CLIP模型的每层特征提取层上插入若干模块,具体为在多头注意力层和前馈网络层之间插入空域融合模块、第一适配器、时域交互模块、第二适配器;多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层依次连接;
所述网络模型的训练过程如下:
S1:构建训练集,提取训练集中视频数据的每帧图像,将每帧图像转化为多个令牌,基于每帧图像的多个令牌建立令牌间的空域关系,将相邻帧图像中的令牌连接以建立令牌间的时空关系,基于令牌间的空域关系和时空关系构建每帧图像的动态时空图,将动态时空图输入到主干网络;
S2:基于空域融合模块计算每帧图像中令牌间的相似度,按照相似度降序排列,选择每帧图像的前对相似的令牌进行融合,得到空域融合后的令牌集合,并将空域融合后的令牌集合送入可训练的第一适配器中进行特征交互;
S3:基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重,对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征,并将每个令牌的新时空特征输入到可训练的第二适配器中进行特征交互;
S4:将主干网络输出的新时空特征输入到分类器中以输出类别,在CLIP模型中嵌入第一适配器和第二适配器,仅训练第一适配器和第二适配器的参数,每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移;
在步骤S2和S3中,适配器结合残差结构简化优化过程如下:
其中,是适配后网络模型的特征表示,/>是输入适配器前的特征,/>是适配器学到的调整参数,/>是适配器的特征变换函数,该适配器分别对应第一适配器或第二适配器。
2.根据权利要求1所述的基于动态时空图的视频理解方法,其特征在于,在步骤S1中,具体包括:
S11:将视频数据的每帧图像分割成个块,每个块通过全连接层压缩成一定维度的向量获得令牌;
S12:在空域上,基于每帧图像转化的令牌构建图 ,其中/>是顶点集,每个顶点代表一个令牌,/>是描述令牌间空域关系的边集,基于令牌的位置和图像的先验知识,定义令牌间的空域关系;
S13:在时域上,将第帧图像中的令牌与第/>帧图像中的令牌连接,定义令牌间的时空关系;
令牌间的空域关系定义如下:
令牌间的时空关系定义如下:
其中,表示第/>帧的第/>个令牌,/>表示第/>帧的第/>个令牌,/>表示第/>帧的第/>个令牌,/>在空域上表示同一帧图像上空间邻近的令牌,在时域上表示相邻帧图像间邻近的令牌。
3.根据权利要求2所述的基于动态时空图的视频理解方法,其特征在于,在步骤S2中,令牌经过空域融合模块融合后,空域融合后的令牌集合,其中表示融合后的令牌,/>,/>,/>表示融合后令牌的总数,/>表示每帧图像被分割的总块数;
令牌间的相似度通过注意力机制中的键值计算如下:
其中,表示第/>个令牌和第/>个令牌之间的相似度,/>表示激活函数,/>表示令牌/>对应的键值,/>表示令牌/>对应的键值,/>表示转置,/>表示乘积。
4.根据权利要求2所述的基于动态时空图的视频理解方法,其特征在于,在步骤S3中,每个令牌与其时空邻居的注意力权重的计算如下:
每个令牌的新时空特征生成如下:
其中,表示令牌/>对其时空邻居的注意力权重,/>表示激活函数,/>表示令牌对应的查询值,/>表示令牌/>对应的键值,/>表示第/>帧的第/>个令牌,/>表示自注意力机制中键的维度,/>表示第/>帧第/>个令牌的新时空特征,/>表示令牌/>的时空邻居集合,/>表示邻居令牌的值特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410090714.XA CN117612072B (zh) | 2024-01-23 | 2024-01-23 | 一种基于动态时空图的视频理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410090714.XA CN117612072B (zh) | 2024-01-23 | 2024-01-23 | 一种基于动态时空图的视频理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117612072A CN117612072A (zh) | 2024-02-27 |
CN117612072B true CN117612072B (zh) | 2024-04-19 |
Family
ID=89953867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410090714.XA Active CN117612072B (zh) | 2024-01-23 | 2024-01-23 | 一种基于动态时空图的视频理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612072B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110245261A (zh) * | 2019-05-24 | 2019-09-17 | 中山大学 | 一种多模态的短视频推荐系统中的特征构造方法及系统 |
CN112733789A (zh) * | 2021-01-20 | 2021-04-30 | 清华大学 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
CN114627402A (zh) * | 2021-12-30 | 2022-06-14 | 湖南大学 | 一种基于时空图的跨模态视频时刻定位方法及系统 |
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
WO2022261570A1 (en) * | 2021-08-04 | 2022-12-15 | Innopeak Technology, Inc. | Cross-attention system and method for fast video-text retrieval task with image clip |
CN115510816A (zh) * | 2022-08-25 | 2022-12-23 | 清华大学 | 用于视频问答的动态时空模块化网络方法、装置及产品 |
CN115841697A (zh) * | 2022-09-19 | 2023-03-24 | 上海大学 | 一种基于骨架和图像数据融合的动作识别方法 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
WO2023091226A1 (en) * | 2021-11-16 | 2023-05-25 | Microsoft Technology Licensing, Llc. | Language-model pretraining with gradient-disentangled embedding sharing |
CN116469155A (zh) * | 2022-01-11 | 2023-07-21 | 北京大学 | 基于可学习马尔科夫逻辑网络的复杂动作识别方法及装置 |
CN116980605A (zh) * | 2023-04-19 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备、存储介质和程序产品 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10158836B2 (en) * | 2015-01-30 | 2018-12-18 | Qualcomm Incorporated | Clipping for cross-component prediction and adaptive color transform for video coding |
CN113326767A (zh) * | 2021-05-28 | 2021-08-31 | 北京百度网讯科技有限公司 | 视频识别模型训练方法、装置、设备以及存储介质 |
US20230017072A1 (en) * | 2021-07-08 | 2023-01-19 | Google Llc | Systems And Methods For Improved Video Understanding |
US11989941B2 (en) * | 2021-11-16 | 2024-05-21 | Salesforce, Inc. | Systems and methods for video and language pre-training |
US20230409899A1 (en) * | 2022-06-21 | 2023-12-21 | Google Llc | Computer vision neural networks with learned tokenization |
-
2024
- 2024-01-23 CN CN202410090714.XA patent/CN117612072B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110245261A (zh) * | 2019-05-24 | 2019-09-17 | 中山大学 | 一种多模态的短视频推荐系统中的特征构造方法及系统 |
CN112733789A (zh) * | 2021-01-20 | 2021-04-30 | 清华大学 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
WO2022261570A1 (en) * | 2021-08-04 | 2022-12-15 | Innopeak Technology, Inc. | Cross-attention system and method for fast video-text retrieval task with image clip |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
WO2023091226A1 (en) * | 2021-11-16 | 2023-05-25 | Microsoft Technology Licensing, Llc. | Language-model pretraining with gradient-disentangled embedding sharing |
CN114627402A (zh) * | 2021-12-30 | 2022-06-14 | 湖南大学 | 一种基于时空图的跨模态视频时刻定位方法及系统 |
CN116469155A (zh) * | 2022-01-11 | 2023-07-21 | 北京大学 | 基于可学习马尔科夫逻辑网络的复杂动作识别方法及装置 |
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN115510816A (zh) * | 2022-08-25 | 2022-12-23 | 清华大学 | 用于视频问答的动态时空模块化网络方法、装置及产品 |
CN115841697A (zh) * | 2022-09-19 | 2023-03-24 | 上海大学 | 一种基于骨架和图像数据融合的动作识别方法 |
CN116980605A (zh) * | 2023-04-19 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备、存储介质和程序产品 |
Non-Patent Citations (3)
Title |
---|
ActionCLIP: Adapting Language-Image Pretrained Models for Video Action Recognition;Mengmeng Wang 等;《IEEE Transactions on Neural Networks and Learning Systems》;20231121;第1-13页 * |
基于对比学习的弱监督时序动作定位;侯永宏 等;《天津大学学报(自然科学与工程技术版)》;20230115;第56卷(第01期);第73-80页 * |
融合生成模型和判别模型的双层RBM运动捕获数据语义识别算法;周兵;彭淑娟;柳欣;;计算机辅助设计与图形学学报;20170415(第04期);第118-127页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117612072A (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Hierarchical feature fusion with mixed convolution attention for single image dehazing | |
CN110929622B (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
CN112634276A (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN111462149B (zh) | 一种基于视觉显著性的实例人体解析方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN111339818A (zh) | 一种人脸多属性识别系统 | |
CN115328319B (zh) | 一种基于轻量型手势识别的智能控制方法及装置 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN112489164A (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN111797814A (zh) | 基于通道融合和分类器对抗的无监督跨域动作识别方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN115035371A (zh) | 基于多尺度特征融合神经网络的井壁裂缝识别方法 | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
Jiang et al. | Cross-level reinforced attention network for person re-identification | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN113255464A (zh) | 一种飞机动作识别方法及系统 | |
CN117612072B (zh) | 一种基于动态时空图的视频理解方法 | |
CN116912727A (zh) | 一种基于时空特征增强网络的视频人体行为识别方法 | |
CN116189306A (zh) | 基于联合注意力机制的人体行为识别方法 | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN113283393B (zh) | 基于图像组与两流网络的Deepfake视频检测方法 | |
CN112926517B (zh) | 一种人工智能监控方法 | |
CN114419729A (zh) | 一种基于轻量双流网络的行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |