CN117612072B

CN117612072B - 一种基于动态时空图的视频理解方法

Info

Publication number: CN117612072B
Application number: CN202410090714.XA
Authority: CN
Inventors: 张信明; 张文宇; 陈思宏
Original assignee: University of Science and Technology of China USTC; Shenzhen Tencent Computer Systems Co Ltd
Current assignee: University of Science and Technology of China USTC; Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-04-19
Anticipated expiration: 2044-01-23
Also published as: CN117612072A

Abstract

本发明公开了一种基于动态时空图的视频理解方法，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层；该视频理解方法通过动态时空图对视频中复杂动态和结构信息的准确捕捉，提高对整体时空信息的全局理解和综合捕捉，以及利用基于适配器的预训练模型迁移，提升视频理解的准确性和效率。

Description

一种基于动态时空图的视频理解方法

技术领域

本发明涉及视频理解技术领域，尤其涉及一种基于动态时空图的视频理解方法。

背景技术

视频理解是计算机视觉和人工智能领域的核心课题，广泛应用于安全监控、自动驾驶、人机交互、虚拟现实等多个领域。在现代信息时代，由于摄像设备的普及和技术的进步，视频数据以前所未有的速度快速增长。在这个背景下，如何从庞大的视频数据中快速、准确地提取有用的信息、分析和理解视频内容，成为了一个亟待解决的关键问题。

视频理解技术大多基于深度学习框架，早期利用卷积神经网络(ConvolutionNeural Network, CNN）和循环神经网络（Recurrent Neural Network, RNN）,提取视频中的视觉特征，捕捉视频序列中的时间依赖关系。然而，随着视觉Transformer（VisionTransformer, Vit）的兴起，越来越多的方法基于Vit的结构增加时序模块解决视频理解问题。但是这些方法面临着几个显著的问题。

首先，计算复杂度和资源消耗巨大。虽然Transformer在图像和序列数据处理方面表现出色，但在处理大规模、高分辨率的视频数据时往往需要巨大的计算资源和内存。这在一定程度上限制了这些方法在实际应用中的实时性和效率。

其次，对时空信息的捕捉不足。视频数据是一种典型的时空数据，其内在含有丰富的时空关联信息和动态变化规律。再者，模型泛化能力和适应性问题。当前的视频理解模型通常需要大量标注数据进行训练，面临着数据多样性和场景变化带来的挑战。模型的泛化能力和在不同场景、不同类型视频数据上的适应性成为评价其性能的关键标准。

为了克服这些问题，近年来开始涌现一些基于预训练模型的视频理解方法。它们将基于对比学习的图像-语言的预训练的模型(Contrastive Language–Image Pre-training, CLIP)迁移到该领域，通过预训练的大模型结合时序理解模块试图捕捉长范围依赖关系，提升视频理解的性能和效率。但仍然存在对动态场景和复杂背景下视频内容理解不足，算法效率和性能需要进一步优化的问题。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于动态时空图的视频理解方法，提高了对整体时空信息的全局理解和综合捕捉，提升了视频理解的准确性和效率。

本发明提出的一种基于动态时空图的视频理解方法，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；

所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层；

所述网络模型的训练过程如下：

S1：构建训练集，提取训练集中视频数据的每帧图像，将每帧图像转化为多个令牌，基于每帧图像的多个令牌建立令牌间的空域关系，将相邻帧图像中的令牌连接建立令牌间的时空关系，基于令牌间的空域关系和时空关系构建每帧图像的动态时空图，将动态时空图输入到主干网络；

S2：基于空域融合模块计算每帧图像中令牌间的相似度，按照相似度降序排列，选择每帧图像的前对相似的令牌进行融合，得到空域融合后的令牌集合，并将空域融合后的令牌集合送入可训练的第一适配器中，进行特征交互；

S3：基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重，对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征，并将每个令牌的新时空特征输入到可训练的第二适配器中，进行特征交互；

S4：将主干网络输出的新时空特征输入到分类器中以输出类别，每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移。

进一步地，在步骤S1中，具体包括：

S11：将视频数据的每帧图像分割成个块，每个块通过全连接层压缩成一定维度的向量获得令牌；

S12：在空域上，基于每帧图像转化的令牌构建图，其中/>是顶点集，每个顶点代表一个令牌，/>是描述令牌间空域关系的边集，基于令牌的位置和图像的先验知识，定义令牌间的空域关系；

S13：在时域上，将第帧图像中的令牌与第/>帧图像中的令牌连接，定义令牌间的时空关系；

令牌间的空域关系定义如下：

令牌间的时空关系定义如下：

其中，表示第/>帧的第/>个令牌，/>表示第/>帧的第/>个令牌，/>表示第/>帧的第/>个令牌，/>表示在空域上表示同一帧图像上空间邻近的令牌，在时域上表示相邻帧图像间邻近的令牌。

进一步地，在步骤S2中，令牌经过空域融合模块融合后，空域融合后的令牌集合，其中/>表示融合后的令牌，/>，/>，/>表示融合后令牌的总数，/>表示每帧图像被分割的总块数；

令牌间的相似度通过注意力机制中的键值计算如下：

其中，表示第/>个令牌和第/>个令牌之间的相似度，/>表示激活函数，/>表示令牌/>对应的键值，/>表示令牌/>对应的键值，/>表示转置，/>表示乘积；

进一步地，在步骤S3中，每个令牌与其时空邻居的注意力权重的计算如下：

每个令牌的新时空特征生成如下：

其中，表示令牌/>对其时空邻居的注意力权重，/>表示激活函数，/>表示令牌/>对应的查询值，/>表示令牌/>对应的键值，/>表示第/>帧的第/>个令牌，/>表示自注意力机制中键的维度，/>表示第/>帧第/>个令牌的新时空特征，/>表示令牌的时空邻居集合，/>表示邻居令牌的值特征。

进一步地，在步骤S2和S3中，适配器结合残差结构简化优化过程如下：

其中，是适配后网络模型的特征表示，/>是输入适配器前的特征，/>是适配器学到的调整参数，/>是适配器的特征变换函数，该适配器分别对应第一适配器或第二适配器。

本发明提供的一种基于动态时空图的视频理解方法的优点在于：本发明中提供的一种基于动态时空图的视频理解方法，克服了现有视频理解技术在计算复杂度、时空信息捕捉及模型泛化能力方面的缺陷；通过动态时空图对视频中复杂动态和结构信息的准确捕捉，提高对整体时空信息的全局理解和综合捕捉，以及利用基于适配器的预训练模型迁移，提升视频理解的准确性和效率。

附图说明

图1为本发明的网络模型中主干网络结构示意图；

图2为网络模型的训练过程示意图。

具体实施方式

下面，通过具体实施例对本发明的技术方案进行详细说明，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

在本实施例中，网络模型为预训练完成的模型，本实施例将预训练好的模型迁移到视频理解领域，结合时序理解模块试图捕捉长范围依赖关系，提升视频理解的性能和效率，该预训练的模型可以采用基于对比学习的图像-语言的预训练的模型(ContrastiveLanguage–Image Pre-training, CLIP)，该CLIP模型是已经现有的。

如图1至2所示，本发明提出的一种基于动态时空图的视频理解方法，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；

如图1所示，所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层，第一层特征提取层的输入连接动态时空图，最后一层特征提取层的输出连接到分类器上；需要说明的是，网络模型的主体结构仍为CLIP模型，只是在CLIP模型的主干网络每一层上插入一些模块，具体为在多头注意力层和前馈网络层之间插入空域融合模块、第一适配器、时域交互模块、第二适配器，本实施例在动态时空图的基础之上，深度整合了视频的时空特性，从而使网络模型能够全面捕捉并理解视频的动态信息和结构特征。

在视频理解任务中，利用预训练模型可以有效提升模型性能，节省训练时间和资源。但直接应用CLIP模型在视频任务中可能并不理想，因为图像和视频存在本质上的差异和复杂性。为解决这一问题，引入了适配器，基于适配器的迁移学习策略，使网络模型能够更好地适应视频理解任务。

本实施例的网络模型为在预训练的图像模型（CLIP模型）中插入了轻量级的适配器。这些适配器是可训练的，而原始预训练模型（CLIP模型）的参数则被冻结，这样可以在保留原始预训练模型（CLIP模型）知识的同时，通过训练适配器来适应新的任务。数学上，适配器（第一适配器或第二适配器）结合残差结构简化优化过程如下：

其中，是适配后模型的特征表示，/>是输入适配器前的特征，/>是适配器学到的调整参数，/>是适配器的特征变换函数。

适配器的设计是轻量级的，仅包含少量的参数，这使得网络模型保持高效和灵活。通过在预训练模型（CLIP模型）中嵌入适配器，仅训练适配器的参数，从而实现从图像任务到视频理解任务的迁移。在具体实施时，适配器被插入到预训练模型（CLIP模型）的每个层级中。每个适配器都负责学习该层级的任务特定特征和知识，从而使整个网络模型能够更好地适应视频理解任务。

如图2所示，对于网络模型的训练过程如下。

S1：构建训练集，提取训练集中视频数据的每帧图像，将每帧图像转化为多个令牌，基于每帧图像的多个令牌建立令牌间的空域关系，将相邻帧图像中的令牌连接建立令牌间的时空关系，基于令牌间的空域关系和时空关系构建每帧图像的动态时空图，将动态时空图输入到主干网络；具体包括步骤S11至S13。

以视频帧序列为输入，其中/>和/>分别代表时间维度的帧序列长度、通道数、帧的高度和宽度。视频可视为帧的集合，即/>。其中/>为视频的帧数，原始的图像维度C一般为3。将每帧图像划分为/>个块（patch），每个块的大小是/>，P是区域边长。则每个小块的数量/>和小块的大小/>之间的关系是：/>。每帧图像按照/>块切分后，每块图像表示为，接着，每个块通过一个映射函数/>转化为令牌（token），其公式为：

其中，表示第/>帧的第/>个令牌，/>是相应的块（patch），映射函数/>通常由一个全连接网络实现。

S12：在空域上，基于每帧图像转化的令牌构建图，其中/>是顶点集，每个顶点代表一个令牌，/>是描述令牌间空域关系的边集，基于令牌的位置和图像的先验知识，相邻像素相关的可能性更大，每个令牌周围一圈的令牌视为其邻居，定义令牌间的空域关系/>；

其中，表示第/>帧的第/>个令牌，/>表示第/>帧的第/>个令牌，/>在空域上表示同一帧图像上空间邻近的令牌，在时域上表示相邻帧图像间邻近的令牌，空间邻居的定义主要有两种方式：一为基于/>近邻算法获得同一帧图像中前/>个令牌视为其邻居，二为直接以令牌为中心的/>区域的令牌视为邻居。

S13：在时域上，将第帧图像中的令牌与第/>帧图像中的令牌连接，定义令牌间的时空关系/>；

其中，表示第/>帧的第/>个令牌。

通过步骤S11至S13，时空关系能有效捕获视频的动态变化，为后续的分析和理解奠定基础。经过以上的处理步骤，成功构建出每帧图像的动态时空图表示，该表示不仅整合了视频的空间结构信息，更融合了丰富的动态变化信息，从而为视频分析和理解提供了坚实、全面的基础。随后分别从空域和时域两个维度进行交互。

在构建了动态时空图后，为了进一步优化特征表示并提升计算效率，在空域上进行特征的融合。这一过程涉及到令牌（token）的减少和特征的集成，使得网络模型能够在保留关键信息的同时，降低计算复杂度。

每层的空域融合模块和时域交互模块位于主干网络（Transformer）的每一层中，具体地，在多头注意力层和前馈网络层之间。通过计算令牌间的相似度，并根据相似度融合那些具有较高相似性的令牌，从而实现减少令牌数量的目标。

令牌的相似度是通过注意力机制中的键值（）来计算的。给定两个令牌/>和/>的键值分别为/>和/>，他们之间的相似度/>可计算为：

其中表示激活函数，/>表示转置，此处的/>仅是公式矩阵变换的转置操作，与文本中其他位置的/>没有联系，/>表示乘积，相似度不仅看作是两节点之间的边，还是融合时的权重。按照相似度降序排列，选择每帧图像的前/>对相似的令牌进行融合。经过融合，新的令牌集合更新为/>，其中/>表示融合后的令牌，，/>，/>表示融合后令牌的总数，/>表示每帧图像被分割的总块数，这样就实现了令牌数量的减少和计算效率的提升。

值得注意的是，融合后的令牌不仅继承了原始令牌的特征，还继承了原始令牌的时空邻居信息。这意味着，在减少令牌数量和提升计算效率的同时，仍保留了丰富的时空信息。这为处理更复杂、更长时序的视频内容提供了可能，使该基于动态时空图的视频理解方法在实际应用中具有更广泛的适用性和更高的效率。

时域特征交互是视频理解中一个关键步骤，专注于捕获和整合视频序列中帧与帧之间的动态关系。基于时空图细粒度的建模这种时域邻域关系，使网络模型能够更准确地理解视频内容的动态和时空结构。

对于给定的时间的帧图像与时间/>的帧图像，每个令牌/>不仅与其空间邻居有关系，还与时间/>帧上对应位置的令牌/>以及其/>区域内的8个邻近令牌有关系。这一设计使的网络模型能够捕捉更复杂、更丰富的时空动态特征。

时空特征交互是通过类似 Transformer 中的自注意力机制实现的。每个令牌与其时空邻居的注意力权重是通过查询（Q）和键（K）的计算得出的，具体为：

其中，是令牌/>对其时空邻居的注意力权重，/>表示激活函数，/>表示令牌/>对应的查询值，/>表示令牌/>对应的键值，/>表示第/>帧的第/>个令牌，表示自注意力机制中键的维度；

每个令牌的新时空特征是通过其自身和其时空邻居的特征的加权和计算得到的，具体为：

其中，表示第/>帧第/>个令牌的新时空特征，/>表示令牌/>的时空邻居集合，表示邻居令牌的值特征。

通过时空特征交互，网络模型能够充分捕捉和整合视频中的动态信息和时空结构。每个令牌的特征现在都包含了丰富的时空上下文信息，这对于后续的视频内容理解和分析具有重要价值。

需要说明的是，动态时空图输入到第一层特征提取层，经过层特征提取层的后通过最后一层特征提取层输出新时空特征，在每一层特征提取层上都设置第一适配器和第二适配器，对每一层上的第一适配器和第二适配器都进行训练，使得每一层的第一适配器和第二适配器在训练完成后直接使用时，实现网络模型从图像任务到视频理解任务的迁移。

考虑到视频理解任务的训练消耗巨大，该框架基于提示学习的范式，通过冻结预先训练的图像模型并添加一些可训练的轻量级适配器，仅通过训练少量参数，将预先训练好的图像模型（也就是网络模型）迁移到视频理解领域。

根据步骤S1至S4，（a）时间和空间特征的深层融合，通过构建动态时空图，本视频理解方法能够深入挖掘视频数据中的时空关联和动态变化规律。这不仅实现对视频内容的全局和深层次理解，还促进了对复杂场景、快速动作和微妙变化的精确捕捉和分析。（b）计算效率的显著提升，利用空域融合模块和时域交互模块，本实施例在保持分析精度的同时有效降低了计算复杂度和资源消耗。这意味着它可以在资源有限的环境中，如边缘计算和移动设备，实现实时视频处理的需求。（c）模型泛化和适应性的增强，通过基于适配器的预训练模型（网络模型）迁移，本视频理解方法在不增加计算负担的前提下，显著提升了网络模型在多种场景和数据上的泛化能力和适应性。这确保了网络模型能够在各种不同类型和质量的视频数据上都表现出色。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于动态时空图的视频理解方法，其特征在于，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；

所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，以CLIP模型作为网络模型的主体结构，原始CLIP模型的每层特征提取层包括多头注意力层和前馈网络层，在原始CLIP模型的每层特征提取层上插入若干模块，具体为在多头注意力层和前馈网络层之间插入空域融合模块、第一适配器、时域交互模块、第二适配器；多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层依次连接；

所述网络模型的训练过程如下：

S1：构建训练集，提取训练集中视频数据的每帧图像，将每帧图像转化为多个令牌，基于每帧图像的多个令牌建立令牌间的空域关系，将相邻帧图像中的令牌连接以建立令牌间的时空关系，基于令牌间的空域关系和时空关系构建每帧图像的动态时空图，将动态时空图输入到主干网络；

S2：基于空域融合模块计算每帧图像中令牌间的相似度，按照相似度降序排列，选择每帧图像的前对相似的令牌进行融合，得到空域融合后的令牌集合，并将空域融合后的令牌集合送入可训练的第一适配器中进行特征交互；

S3：基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重，对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征，并将每个令牌的新时空特征输入到可训练的第二适配器中进行特征交互；

S4：将主干网络输出的新时空特征输入到分类器中以输出类别，在CLIP模型中嵌入第一适配器和第二适配器，仅训练第一适配器和第二适配器的参数，每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移；

在步骤S2和S3中，适配器结合残差结构简化优化过程如下：

2.根据权利要求1所述的基于动态时空图的视频理解方法，其特征在于，在步骤S1中，具体包括：

令牌间的空域关系定义如下：

令牌间的时空关系定义如下：

其中，表示第/>帧的第/>个令牌，/>表示第/>帧的第/>个令牌，/>表示第/>帧的第/>个令牌，/>在空域上表示同一帧图像上空间邻近的令牌，在时域上表示相邻帧图像间邻近的令牌。

3.根据权利要求2所述的基于动态时空图的视频理解方法，其特征在于，在步骤S2中，令牌经过空域融合模块融合后，空域融合后的令牌集合，其中表示融合后的令牌，/>，/>，/>表示融合后令牌的总数，/>表示每帧图像被分割的总块数；

令牌间的相似度通过注意力机制中的键值计算如下：

其中，表示第/>个令牌和第/>个令牌之间的相似度，/>表示激活函数，/>表示令牌/>对应的键值，/>表示令牌/>对应的键值，/>表示转置，/>表示乘积。

4.根据权利要求2所述的基于动态时空图的视频理解方法，其特征在于，在步骤S3中，每个令牌与其时空邻居的注意力权重的计算如下：

每个令牌的新时空特征生成如下：

其中，表示令牌/>对其时空邻居的注意力权重，/>表示激活函数，/>表示令牌对应的查询值，/>表示令牌/>对应的键值，/>表示第/>帧的第/>个令牌，/>表示自注意力机制中键的维度，/>表示第/>帧第/>个令牌的新时空特征，/>表示令牌/>的时空邻居集合，/>表示邻居令牌的值特征。