CN116363560A

CN116363560A - 一种视频掩码自编码方法及系统

Info

Publication number: CN116363560A
Application number: CN202310294674.6A
Authority: CN
Inventors: 王利民; 黄秉焜; 赵治宇; 童湛; 何逸楠; 王毅; 王亚立; 乔宇
Original assignee: Nanjing University; Shanghai AI Innovation Center
Current assignee: Nanjing University; Shanghai AI Innovation Center
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-30

Abstract

本发明涉及视频学习技术领域，提出一种视频掩码自编码方法及系统。该方法在预训练阶段基于双重掩码策略对编码器和解码器进行掩码，包括：使用立方嵌入处理输入视频生成视频块；基于管道掩码策略生成第一掩码图M_e，由编码器根据所述第一掩码图M_e确定可见的视频块以及不可见的视频块，并且提取部分可见的视频块的特征；以及基于运动单元掩码策略生成第二掩码图M_d，由解码器根据所述第二掩码图M_d重建部分不可见的视频块的特征。本发明基于上述双重掩码策略进行预训练，可以在保持模型性能的条件下，降低预训练开销，进而可以有效节省计算机的运算资源。

Description

一种视频掩码自编码方法及系统

技术领域

本发明总的来说涉及视频学习技术领域。具体而言，本发明涉及一种视频掩码自编码方法及系统。

背景技术

大型基础模型在大规模数据上进行高效预训练是非常流行的学习通用表征能力的范式。这一范式在自然语言、音频、图像、视频、视觉语言等多种数据模态上都取得了成功。这些基础模型具有很强的泛化能力，在很多下游任务上都展现出强大的性能，推动了人工智能中很多领域的发展。

在视觉领域，已经有许多关于模型预训练的工作出现，其中使用MAE(MaskedAutoencoder，掩码自编码器)方法预训练的Transformer(变换器)模型正在成为简单而有效的视觉学习器。鉴于语言模型的成功经验，学术界认为扩大模型规模和数据规模是改进这类视觉学习器性能的重要因素。然而在大规模的视觉模型上扩展MAE预训练的工作非常少。

实际上在视频领域，因为视频额外的时间维度，计算量非常大，还没有这样的工作出现。因此需要填补这一空白，研究扩展VideoMAE(Video Masked Autoencoder，视频掩码自编码器)到例如十亿参数级别的大规模，对其进行扩展并且提高它在多种视频下游任务上的性能上限。

发明内容

为至少部分解决现有技术中的上述问题，本发明提出一种视频掩码自编码方法，其中包括下列步骤：

在预训练阶段使用立方嵌入处理输入视频生成视频块；

基于管道掩码策略生成第一掩码图M_e，由编码器根据所述第一掩码图M_e确定可见的视频块以及不可见的视频块，并且提取部分可见的视频块的特征；以及

基于运动单元掩码策略生成第二掩码图M_d，由解码器根据所述第二掩码图M_d重建部分不可见的视频块的特征。

在本发明一个实施例中规定，所述编码器使用视觉变换器模型，其中将所述视觉变换器模型的下列参数的一项或者多项进行扩展：

视频块尺寸、变换器层数、特征通道数、多层感知机扩展层数以及多头注意力头数。

在本发明一个实施例中规定，构造无标签多源视频数据集以进行预训练，其中构造无标签多源视频数据集包括提取下列数据集中的一项或者多项：

提取Kinetics数据集中的视频，其中合并Kinetics-400/600/700数据集，去除重复的视频以及在Kinetics验证集中出现的视频；

提取SSv2数据集中的视频；

提取AVA数据集中的视频，其中使用AVA数据集电影视频中第15分钟到第30分钟的视频部分，并且按照300帧切分生成视频片段；

提取WebVid数据集中的视频；以及

从内部采集的不公开视频数据集中随机提取视频。

在本发明一个实施例中规定，通过所述无标签多源数据集进行第一阶段预训练，并且构造带标签的混合数据集，在所述标签的混合数据集上进行有监督的第二阶段预训练。

在本发明一个实施例中规定，构造带标签的混合数据集包括合并Kinetics-400/600/700数据集的训练数据集和验证数据集，其中将Kinetics-400/600/700数据集中相同的标签合并，并且去除重复的视频以及在验证集中出现的视频。

在本发明一个实施例中规定，所述视频掩码自编码方法还包括对预训练后的编码器进行微调，其中在所述编码器后增加线性头以进行动作分类，并且在所述带标签的混合数据集上进行监督微调。

在本发明一个实施例中规定，进行监督微调包括下列步骤：

由编码器提取输入视频的视频特征，并且将视频特征传送至线性头；

由所述线性头预测所述输入视频属于不同类别的概率；

使用交叉熵损失监督模型的参数更新；以及

当模型收敛后由编码器形成完成训练的视频基础模型。

本发明还提出一种视频掩码自编码系统，包括：

编码器；

解码器；

预训练模块，其被配置为基于双重掩码策略对编码器和解码器进行掩码，其中包括下列步骤：

使用立方嵌入处理输入视频生成视频块；

基于运动单元掩码策略生成第二掩码图M_d，由解码器根据所述第二掩码图M_d重建部分不可见的视频块的特征；以及

监督微调模块，其被配置为对预训练后的编码器进行微调，其中在所述编码器后增加线性头以进行动作分类，并且在所述带标签的混合数据集上进行监督微调。

本发明还提出一种计算机可读存储介质，其上存储有机器可读指令，所述机器可读指令在被处理器执行时执行根据所述方法的步骤。

本发明还提出一种计算机系统，包括：

处理器，其被配置为执行机器可读指令；以及

存储器，其被存储有机器可读指令，所述机器可读指令在被处理器执行时执行根据所述方法的步骤。

本发明至少具有如下有益效果：本发明提出了一种视频掩码自编码方法及系统，其中基于双重掩码策略进行预训练，可以在保持模型性能的条件下，降低预训练开销，进而可以有效节省计算机的运算资源；本发明在模型尺寸和数据规模上进行了扩展，并且通过渐进式训练的进行预训练，可以提升模型提取特征的能力、减小模型预训练时的过拟合风险、提升模型的泛化能力，进而可以在提升动作识别、时空检测、时序动作检测等下游任务的工作效率。

附图说明

为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出了实现根据本发明的系统和/或方法的计算机系统。

图2示出了本发明一个实施例中一个使用双重掩码策略的视频掩码自编码系统流程框架图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

下面对本发明涉及的其它现有技术做介绍。

视觉基础模型：基础模型(foundation model)是指在大数据下进行预训练且能泛化到多种下游任务上的强大模型。早期，视觉领域主要研究CNN(Convolution NeutralNetwork，卷积神经网络)和Transformer模型在大规模有标签数据集(ImageNet-1k，ImageNet-22k，JFT等)上的预训练。最近也出现了一些基于对比学习和孪生学习框架的无监督预训练工作。与此同时，借鉴自然语言处理领域的成功经验，一些研究者也已经将Masked autoencoding(掩码自编码)方法引进到视觉领域，完成了一些自监督预训练的图像基础模型的工作，例如BEiT、SimMIM、MAE等。还有一些研究者利用多模态数据，引导模型对齐网络中爬取的大规模的有噪声的图像文本对，完成了视觉-语言基础模型的预训练，具有代表性的模型包括CLIP、ALIGN和Florence等等。这些视觉-语言模型具有很强的Zero-shot Transfer(零样本迁移)能力。

视频基础模型的发展极大地落后于图像基础模型，部分原因是视频数据集相对较小以及视频模型的计算量更大。在Kinetics数据集出现后，传统的视频基础模型逐渐形成了有监督预训练的范式，首先在Kinetics上有监督预训练，随后迁移到其他小规模的数据集上做动作识别任务。使用这种预训练范式的模型包括二维卷积神经网络(TSN，TSM)，三维卷积神经(I3D，R(2+1)D，SlowFast)，变换器(TimeSformer，Video Swin，Uniformer)。最近，无监督预训练视频模型也已经出现，这些工作通常是将图像领域的掩码自编码方法直接迁移到视频领域，包括BEVT，MaskFeat，VideoMAE和MAE-ST等等。

掩码视觉建模：早期的掩码视觉建模工作将掩码方法视作一种去噪自编码器或内容修复。受到自然语言处理领域中掩码建模方法的巨大成功的启发，ViT(VisionTransformer，视觉变换器)模型初步尝试了掩码特征建模。最近，掩码视觉建模的方法在以Transformer为基础的架构上取得了巨大的成功。MAE和SimMIM采用遮掩图片像素并重建恢复的预训练范式。MaskFeat通过重建HOG(Histogram of Oriented Gradient，方向梯度直方图)特征的方式在视频数据上完成预训练。VideoMAE和MAE-ST将MAE拓展到视频领域，完成自监督视频模型预训练，在动作识别上达到了很好的效果。

视觉模型扩展：已经有许多工作尝试扩展CNN模型来获得更好的性能。EfficientNet针对CNN的设计，提出了一种平衡模型深度、宽度、输入分辨率的扩展策略。还有一些工作通过扩展模型计算容量和训练数据规模训练更大的CNN网络，获得了优秀的性能。最近一些工作尝试把视觉transformer模型扩展到十亿参数级别，包括在JFT-3B数据集上进行有监督预训练和在IN-22K-ext-70M数据集上进行无监督预训练等方式。VideoMAE和MAE-ST也已经训练出数亿参数量的视频transformer模型。MAE-ST同时尝试了在一百万IG-uncurated剪辑视频数据集上的预训练，但没有获得更好的性能。

现有的视频基础模型通常受限于预训练数据量和模型大小。更重要的是，它们能迁移的下游任务通常局限于动作识别，不能迁移到更多类型的视频下游任务上，例如时序动作定位，没有系统地考虑到各种视频相关的任务。本发明的目的是，将视频Transformer模型扩展到十亿参数级别，使其在更多的视频下游任务上取得优异的性能。

下面结合具体实施方式参考附图进一步阐述本发明。

图1示出了实现根据本发明的系统和/或方法的计算机系统100。如非特殊说明，根据本发明的方法和/或系统可以在图1所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(PDA)、多处理器系统、基于微处理器或可编程消费者电子设备、网络PC、小型机、大型机、网络服务器、平板计算机等等。

如图1所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(USB)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(ROM)103和随机存取存储器(RAM)104，其中ROM103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(BIOS)数据，而RAM104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如CD-ROM之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(USB)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。

当本发明在图1所述的计算机系统100上实现时，可以基于双重掩码策略进行预训练，可以在保持模型性能的条件下，降低预训练开销，进而可以有效节省计算机的运算资源；并且在模型尺寸和数据规模上进行扩展，通过渐进式训练的进行预训练，可以提升模型提取特征的能力、减小模型预训练时的过拟合风险、提升模型的泛化能力，进而可以在提升动作识别、时空检测、时序动作检测等下游任务的工作效率。

此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。

在本发明中，根据本发明的系统的各模块可以使用软件、硬件、固件或其组合来实现。当模块使用软件来实现时，可以通过计算机程序流程来实现模块的功能，例如模块可以通过存储在存储设备(如硬盘、内存等)中的代码段(如C、C++等语言的代码段)来实现，其中当所述代码段被处理器执行时能够实现模块的相应功能。当模块使用硬件来实现时，可以通过设置相应硬件结构来实现模块的功能，例如通过对现场可编程逻辑门阵列(FPGA)等可编程器件进行硬件编程来实现模块的功能，或者通过设计包括多个晶体管、电阻和电容等电子器件的专用集成电路(ASIC)来实现模块的功能。当模块使用固件来实现时，可以将模块的功能以程序代码形式写入设备的诸如EPROM或EEPROM之类的只读存储器中，并且当所述程序代码被处理器执行时能够实现模块的相应功能。另外，模块的某些功能可能需要由单独的硬件来实现或者通过与所述硬件协作来实现，例如检测功能通过相应传感器(如接近传感器、加速度传感器、陀螺仪等)来实现，信号发射功能通过相应通信设备(如蓝牙设备、红外通信设备、基带通信设备、Wi-Fi通信设备等)来实现，输出功能通过相应输出设备(如显示器、扬声器等)来实现，以此类推。

本发明提出一个视频掩码自编码方法(VideoMAEv2)，其中包括下列步骤：

在预训练阶段基于双重掩码策略对编码器和解码器进行掩码，其中使用立方嵌入处理输入视频生成视频块；

对预训练后的编码器进行微调，其中在所述编码器后增加线性头以进行动作分类，并且在所述带标签的混合数据集上进行监督微调。

下面结合具体实施例进行进一步的说明。

本发明对VideoMAE进行进一步改进和扩展。其中基于双重掩码策略、数据规模扩展和渐进式训练，提出了一个简单高效的，以十亿参数量级的ViT为骨干网络的VideoMAEv2。通过该系统可以训练出十亿参数量级的视频基础模型，并且可以在动作识别、时序动作检测、时空检测等多种视频下游任务上，突破原始视频ViT模型的性能极限。

在预训练阶段，VideoMAEv2通过双重掩码策略提高预训练效率。图2示出了本发明一个实施例中一个使用双重掩码策略的视频掩码自编码系统流程框架图。如图2所示，VideoMAEv2使用非对称的编码器-解码器框架，并且使用立方嵌入处理输入的视频。其中双重掩码策略是指，依据不同的掩码策略和掩码比率，分别生成对应编码器和解码器的两张掩码图M_e和M_d。双重掩码策略中的掩码编码器与VideoMAE一致，使用掩码比率极高的管道掩码策略生成掩码图M_e，并根据掩码图M_e提取可见的部分视频块的特征，而掩码解码器则只重建部分不可见的视频块。与VideoMAE重建所有不可见视频块不同，本方案降低了解码器的输入长度，减小计算开销，模型性能也与完全重建方案接近。

在现有技术中，VideoMAE的解码器需要重建所有不可见的视频块，效率较低，MAR(MaskedAction Recognition，掩码动作识别器)使用部分视频块作为模型输入。VideoMAE的编码器使用管道掩码策略，其可以更好地抑制信息泄露，但也会增加重建难度；解码器的掩码策略需要让重建的部分视频块做到信息补充，鼓励在重建过程中覆盖到尽可能多的视频块。发明人对比了随机掩码策略、随机视频帧掩码策略、运动单元掩码策略后，在本发明中使用运动单元掩码策略。运动单元掩码策略由MAR提出，是指将视频片段分割成多个单元，其中每个单元包括4个视频块，并且按照一定的模式从不同时间点的同一空间位置上的单元内选择不同的视频块。通过实验发现运动单元掩码策略可以提升50％的训练速度，并且只有很小的性能损失。此外，运动单元掩码策略也可以被替换为其它有效的掩码策略。

在本发明的实施例中，对模型尺寸进行扩展以获得优异性能。VideoMAEv2参照VideoMAE使用简洁的原始ViT(Vision Transformer，视觉变换器)模型作为骨干网络，根据ViT的扩展规则，将模型扩展到具有十亿参数量的ViT-g，这是视频领域首个十亿参数级别的模型。为了降低预训练开销，视频掩码自编码系统(VideoMAEv2)使用了更浅更窄的Transformer模型作为解码器。此外，所述简洁的原始ViT也可以替换为ViT变种模型，或者其它可经掩码视频建模方法预训练的模型。

下面详细说明VideoMAEv2将ViT-H扩展为具有十亿参数量的ViT-g的过程。

ViT模型由一个视频块嵌入模块和多个结构相同的Transformer层堆叠而成。不同规模的ViT具有不同的视频块尺寸(patchsize，在输入视频尺寸不变的情况下，patchsize越小，嵌入后得到的视频块数量越多，相应地模型计算量更大，通常性能也更强)、Transformer层数(depth)、特征通道数(feature width)、多层感知机扩展层数(MLPexpand width)、多头注意力头数(heads of Multi-Head attention)。传统的VideoMAEv1最大的模型为ViT-huge，以上数据分别为16，32，1280，5120，16；扩展到ViT-giant后，上述数据可以分别变为14，40，1408，6144，16。扩展后的结构可以如表1所示：

表1

进一步地，在本发明的实施例中，对数据规模进行扩展以获得优异性能。传统的VideoMAE在小规模数据集上进行预训练，在许多下游任务上性能不佳。VideoMAEv2通过构建一个更加通用的视频基础模型，使该模型能够在广泛的下游任务上取得优异性能。在数据规模的扩展上进行了探索，将无标签预训练数据集扩展到百万量级。在扩展预训练数据规模的同时，考虑到数据多样性的问题，构建了一个包括网络、YouTube、Instagram、电影、个人记录等多个视频源的预训练数据集。具体来说，通过整理了若干公开学术视频数据集(Kinetics、Something-Something、AVA以及WebVid)，并且收集了一部分Instagram上的未剪辑视频，构建出了包括一百三十万视频片段的无标签多源视频数据集，命名为UnlabeledHybrid，UnlabeledHybrid数据集的组成可以如表2所示：

表2

在上述数据集的处理过程中，对于Kinetics数据集可以合并Kinetics-400/600/700三个版本的数据集，同时去除重复的视频以及在Kinetics验证集中出现的视频。最后得到658k个视频；对于SSv2数据集可以直接使用SSv2训练集中所有的视频，一共169k个；对于AVA数据集，AVA数据集中所有视频都是电影，只使用了电影中第15分钟到第30分钟的视频部分，将AVA训练集中的所有视频按照300帧切分(10秒)，最后得到了21k个视频片段；对于WebVid数据集，WebVid数据集有2M(200万视频)和1OM(1000万视频)两个版本，本实施例中从WebVid-2M中随机选取了250k个视频；对于自采集视频数据集，本实施例中从内部采集的不公开视频数据集中随机选取了250k个视频。

VideoMAEv2首次提出在这种大规模的多源视频数据集上进行预训练，揭示了数据规模和数据多样性对视频掩码预训练的影响。此外，使用其他数据集来构建本发明的大规模的多源预训练数据集也是可设想的。

本发明构建的无标签多源预训练视频数据集，具有大规模和多源两个特点。大量不同的视频可以让模型学到更强的提取特征的能力。传统的VideoMAEv1只在对应数据集上进行预训练，其中something-somethingv2数据集中的视频不仅数量少(169k)，而且时长短(1～2秒)。只在该数据集的视频上进行预训练，限制了videomaev1提取特征的能力。实际上videomaev2在ssv2上的提升就比较大。

同时大量的视频能减小模型预训练时的过拟合风险。掩码建模预训练过程中的过拟合，是指模型在训练过程中记住了数据集中视频的特点，能够很好地重建训练视频的像素，但不能重建好没见过的视频的像素。当模型记住训练视频的独特特征，而非视频的共同特征时，模型的性能就会急剧下降。视频数量增加后，模型不容易记住训练视频的独特特征，而是会学习所有视频的共同特征，从而能让模型迭代更多次。模型迭代次数增加，且没有发生过拟合时，模型的性能通常就会增加。VideoMAEv2扩大了训练数据集规模，从而在预训练时比videomav1进行了更多次迭代，这使得模型取得了优异性能。

同时多源的视频能够提升模型的泛化能力。泛化能力是指模型在没见过的视频类型上保持性能的能力。例如videomaev1只在youtube来源上的kinetics数据集上预训练时，其在lnstagram来源的视频上的提取特征的能力就会下降。Videomaev2在预训练时使用了多源的数据集，这提升了模型的泛化能力，使得videomaev2训练出的模型，能在更广泛的任务上取得优异的效果。

迁移过程是使预训练后的视频大模型适应下游任务的一个重要步骤。通常来说，掩码自编码预训练可以帮助模型学会一些不变性特征并获得不错的初始化。然而传统的VideoMAE只在目标数据集上有监督地微调预训练后的模型。而由于监督有限，这种直接迁移到目标数据集的方式可能无法充分释放预训练大模型的潜力。为了缓解过拟合风险、释放预训练模型潜力，VideoMAEv2转而选择在多个阶段利用多源的高语义的监督来逐步使预训练后的大模型迁移到下游任务。基于此，VideoMAEv2提出了一种渐进式训练的训练范式。

VideoMAEv2首先在UnlabeledHybrid无标签数据集上进行掩码视频预训练，随后构建一个带标签的混合数据集，并在所述带标签的混合数据集上进行有监督的后预训练阶段。所述带标签的混合数据集由Kinetics的各个版本构成，合并了相同的标签，去掉了重复的视频和在验证集中出现的视频，因此被命名为LabeledHybrid或者Kinetics-710。所述带标签的混合数据集的训练集和验证集由Kinetics-400/600/700三个版本数据集混合得到(400600700指的是数据集中的视频标签(动作类别)数，视频标签例如是“滑雪”、“在跑步机上跑步”、“弹钢琴”等等)。整理过程可以包括：分别合并Kinetics(-400/600/700)三个版本数据集的训练数据集和验证数据集，作为LabeledHybrid数据集的训练集和验证集；去除训练集和验证集中重复的视频；去除验证集中重复的视频；(由于是Kinetics的三个版本，故会有同样的视频)；去除在验证集中出现的训练集视频；合并各版本数据集中相同的类别标签，得到710个视频标签。最终可以得到658k个训练视频和67k个验证视频。

最后，VideoMAEv2在目标数据集上进行具体的微调阶段，将一般的语义转移到以任务为中心的知识中去。此外，这种渐进式训练的训练范式应用在其他基础模型上也是可设想的。

其中预训练完成后的模型的编码器作为有监督微调阶段的编码器(或称骨干网络，backbone)，并在编码器后增加一层线性头(linear head)用于动作分类(该线性头将视频特征映射为LabeledHybrid710个类别的概率)，在LabeledHybrid训练集上进行有监督微调，直至模型在该数据集上收敛(模型收敛，指模型在验证集上的分类精度不再提高)。微调的过程具体可以包括：对应给定的输入视频，使用编码器提取视频特征；将视频特征送入线性头，预测该视频属于各类别的概率；使用交叉熵损失(Cross Entropy Loss)监督模型的参数更新。当模型收敛后，编码器形成训练好的视频基础模型。

本发明还提出一种视频掩码自编码系统，包括：

编码器；

解码器；

使用立方嵌入处理输入视频生成视频块；

在本发明的实施例中，在双重掩码策略设计上进行了实验验证其可行性，并且针对提出的数据规模扩展、模型尺寸扩展、渐进式训练进行相应实验，验证了其有效性。本发明在多种下游任务上进行了实验，验证了所训练的视频基础模型的优异性能。

具体来说，在本发明一个实施例中进行双重掩码策略的消融实验，其中使用ViT-B模型作为骨干网络，在Something-Something V2数据集上进行800轮次预训练和微调。实验发现，不使用掩码解码器，Top-1分类精度为70.28％，预训练时长为28.4小时；使用随机掩码解码器，掩码比率50％，分类精度为64.87％；使用随机视频帧掩码解码器，掩码比率50％，分类精度为69.76％；使用运动单元掩码解码器，掩码比率50％，分类精度为70.15％，预训练时长为15.9小时。实验数据说明使用运动单元掩码策略作为解码器掩码策略的双重掩码设计，可以在维持相似性能的条件下，减小计算开销，加速预训练。

在本发明一个实施例中进行数据规模扩展的实验，其中验证了预训练数据规模扩展后，模型在Kinetics-400和Something-Something V2数据集上的微调分类性能。通过在Kinetics-400数据集上的实验发现，在ViT-B、ViT-L、ViT-H模型上，使用扩展后的预训练数据集比直接在Kinetics-400上预训练的分类精度高0.0％，0.2％，0.3％。通过在Something-SomethingV2数据集上的实验发现，在ViT-B、ViT-L、ViT-H模型上，使用扩展后的预训练数据集比直接在Something-SomethingV2上预训练的分类精度高0.4％，1.4％，2.0％。实验数据说明预训练数据规模扩展能给模型带来性能收益，且该收益随着模型尺寸的扩展而变大。此外，数据规模扩展在数据量更小的Something-Something V2数据集上收益更大。

在本发明一个实施例中进行模型尺寸扩展的实验，其中验证模型尺寸扩展后在Kinetics-400和Something-Something V2数据集上的微调分类性能。通过在Kinetics-400数据集上的实验发现，在使用UnlabeledHybrid数据集预训练，并且在Kinetics-400数据集上直接微调时，ViT-B、ViT-L、ViT-H、ViT-g模型的分类精度分别为81.5％，85.4％，86.9％，87.2％。通过在Something-SomethingV2数据集上的实验发现，在使用UnlabeledHybrid数据集进行预训练，并且在Something-SomethingV2数据集上直接微调时，ViT-B、ViT-L、ViT-H、ViT-g模型的分类精度分别为71.2％，75.7％，76.8％，77.0％。实验说明，模型性能会随着模型尺寸的扩展而增加，但该收益会随着模型扩展而逐渐变小。

在本发明一个实施例中进行渐进式训练的实验，其中验证使用渐进式训练对模型在Kinetics-400数据集上的分类性能的影响。直接微调的训练模式，会在预训练结束后直接将模型在Kinetics-400数据集上微调，而渐进式训练的训练模式，会在预训练结束后，首先在LabeledHybrid数据集上进行微调以释放模型性能潜力，然后再到Kinetics-400数据集上微调。ViT-H和ViT-g模型使用直接微调的训练模式，在Kinetics-400上的分类精度分别为86.9％和87.2％。ViT-H和ViT-g模型使用渐进式训练的训练模式，在Kinetics-400上的分类精度分别为88.6％和88.5％。这说明渐进式训练可以极大地释放模型性能潜力。通过实验还发现ViT-g使用渐进式训练后模型精度没有高于ViT-H，这可能是因为其在Kinetics-400上的分类性能已经接近饱和，通过实验还发现使用单视图测试模型分类性能时，ViT-H精度为85.0，比ViT-g的精度85.6更低。

在本发明一个实施例中在动作识别任务上进行实验，其中在Kinetics-400/600和Something-SomethingV1/V2数据集上完成了动作识别任务，分别达到了88.6％/88.8％和68.3％/77.0％的分类精度。在Kinetics数据集上，所述视频掩码自编码系统(VideoMAEv2)在所有不使用内部数据集进行训练的模型中性能最高。在Something-Something数据集上，所述视频掩码自编码系统(VideoMAEv2)在所有模型中性能最高，尤其是在Something-Somethingv1数据集上，分类精度超过第二名10％。

在本发明一个实施例中在时空检测任务上进行实验，其中在AVA和AVA-Kinetics数据集上进行了时空检测任务，分别达到41.0和42.5的mAP(meanaverageprecision，平均精度均值)，均为所有模型中的最佳性能。

在本发明一个实施例中在时序动作检测任务上的实验，其中在THUMOS14和FineAction数据集上进行了时序动作检测任务，分别达到69.6和17.6的mAP，均在所有模型中性能最佳。其中在时序动作检测任务上，使用ActionFormer检测框架。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种视频掩码自编码方法，其特征在于，包括下列步骤：

在预训练阶段使用立方嵌入处理输入视频以生成视频块；

2.根据权利要求1所述的视频掩码自编码方法，其特征在于，所述编码器使用视觉变换器模型，其中将所述视觉变换器模型的下列参数的一项或者多项进行扩展：

3.根据权利要求1所述的视频掩码自编码方法，其特征在于，构造无标签多源视频数据集以进行预训练，其中构造无标签多源视频数据集包括提取下列数据集中的一项或者多项：

提取SSv2数据集中的视频；

提取WebVid数据集中的视频；以及

从内部采集的不公开视频数据集中随机提取视频。

4.根据权利要求3所述的视频掩码自编码方法，其特征在于，通过所述无标签多源视频数据集进行第一阶段预训练，并且构造带标签的混合数据集，在所述标签的混合数据集上进行有监督的第二阶段预训练。

5.根据权利要求4所述的视频掩码自编码方法，其特征在于，构造带标签的混合数据集包括合并Kinetics-400/600/700数据集的训练数据集和验证数据集，其中将Kinetics-400/600/700数据集中相同的标签合并，并且去除重复的视频以及在验证集中出现的视频。

6.根据权利要求5所述的视频掩码自编码方法，其特征在于，还包括对预训练后的编码器进行微调，其中在所述编码器后增加线性头以进行动作分类，并且在所述带标签的混合数据集上进行监督微调。

7.根据权利要求6所述的视频掩码自编码方法，其特征在于，进行监督微调包括下列步骤：

由所述线性头预测所述输入视频属于不同类别的概率；

使用交叉熵损失监督模型的参数更新；以及

当模型收敛后由编码器形成完成训练的视频基础模型。

8.一种视频掩码自编码系统，其特征在于，包括：

编码器；

解码器；

使用立方嵌入处理输入视频生成视频块；

9.一种计算机可读存储介质，其上存储有机器可读指令，所述机器可读指令在被处理器执行时执行根据权利要求1-7之一所述的方法的步骤。

10.一种计算机系统，包括：

处理器，其被配置为执行机器可读指令；以及

存储器，其被存储有机器可读指令，所述机器可读指令在被处理器执行时执行根据权利要求1-7之一所述的方法的步骤。