CN115115972A

CN115115972A - 视频处理方法、装置、计算机设备、介质及程序产品

Info

Publication number: CN115115972A
Application number: CN202210562039.7A
Authority: CN
Inventors: 杨善明; 刘泽宇; 顾晓光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-27

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备、介质及程序产品。其中方法包括：获取样本视频数据对应的正样本视频特征，并获取所述样本视频数据对应的预测视频数据；所述预测视频数据是基于所述样本视频数据进行重构处理得到的视频数据；获取历史样本视频数据对应的负样本视频特征，并基于所述正样本视频特征、所述负样本视频特征、所述样本视频数据以及所述预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型；获取待处理视频，并调用所述目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征。可以提高从视频中提取的视频特征的准确性，进而提高视频处理的准确性。

Description

视频处理方法、装置、计算机设备、介质及程序产品

技术领域

本申请涉及计算视觉技术领域，尤其涉及一种视频处理方法、装置、计算机设备、介质及程序产品。

背景技术

随着计算机技术和多媒体技术的快速发展，多媒体数据也得到了快速发展，用户可以在网络上观看到各种各样的视频，为了使用户可以从海量的视频中获取自己感兴趣的视频，通常会进行视频搜索、视频分类、视频识别等视频处理，而在这些视频处理中，通常可以利用视频的视频表征(或者说视频特征)来实现视频处理。因此，如何保障视频特征的准确性，成为了当前计算机视觉技术的研究热点问题。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备、介质及程序产品，可以提高从视频中提取的视频特征的准确性，进而提高视频处理的准确性。

本申请实施例第一方面公开了一种视频处理方法，所述方法包括：

获取样本视频数据对应的正样本视频特征，并获取所述样本视频数据对应的预测视频数据；所述预测视频数据是基于所述样本视频数据进行重构处理得到的视频数据；

获取历史样本视频数据对应的负样本视频特征，并基于所述正样本视频特征、所述负样本视频特征、所述样本视频数据以及所述预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型；

获取待处理视频，并调用所述目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征。

本申请实施例第二方面公开了一种视频处理装置，所述装置包括：

获取单元，用于获取样本视频数据对应的正样本视频特征，并获取所述样本视频数据对应的预测视频数据；所述预测视频数据是基于所述样本视频数据进行重构处理得到的视频数据；

预训练单元，用于获取历史样本视频数据对应的负样本视频特征，并基于所述正样本视频特征、所述负样本视频特征、所述样本视频数据以及所述预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型；

处理单元，用于获取待处理视频，并调用所述目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征。

本申请实施例第三方面公开了一种计算机设备，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本申请实施例第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例第五方面公开了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时实现上述第一方面的方法。

在本申请实施例中，可以获取样本视频数据对应的正样本视频特征，并获取样本视频数据对应的预测视频数据；进一步还可以获取历史样本视频数据对应的负样本视频特征，以基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型。从而可以调用该目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征。通过实施上述方式，可以基于多个维度的数据进行预训练视频模型的预训练，以提高模型训练的稳定性，提高模型性能，从而可以提高模型对视频的处理能力，进而可以在利用预训练所得到的目标视频处理模型对视频进行例如视频识别、视频分类、视频检索等视频处理任务时，也可以提高从视频中提取的视频特征的准确性，进而提高视频处理的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理系统的架构示意图；

图2是本申请实施例提供的一种视频处理方法的流程示意图；

图3是本申请实施例提供的一种预训练视频模型的结构示意图；

图4是本申请实施例提供的另一种视频处理方法的流程示意图；

图5a是本申请实施例提供的另一种预训练视频模型的结构示意图；

图5b是本申请实施例提供的一种骨干网络的结构示意图；

图5c是本申请实施例提供的一种预训练视频模型进行预训练的结构示意图；

图5d是本申请实施例提供的另一种预训练视频模型进行预训练的结构示意图；

图5e是本申请实施例提供的又一种预训练视频模型进行预训练的结构示意图；

图6是本申请实施例提供的一种视频处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言模型：自然语言相对于机器语言。而自然语言模型就是通过统计学模型将人类大量的语言文字转换成机器语言，进而用于认知、理解和生成。具体用途包括机器翻译和自动问答等。

预训练：通过大量无标注的语言文本进行语言模型的训练，得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中，都被证明拥有更好的效果。

基于上述人工智能技术中所提及的计算机视觉技术和机器学习等技术，本申请实施例提出了一种视频处理方案，以实现利用无标注信息的样本视频数据对预训练视频模型的预训练，从而为基于视频的下游任务提供适应的预训练模型，例如，下游任务可以是视频的多标签识别、视频分类、视频检索等视频处理任务。具体的，可以获取样本视频数据对应的正样本视频特征以及样本视频数据对应的预测视频数据，并获取历史样本视频数据对应的负样本视频特征，以基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型。进一步的，可以调用该目标视频处理模型进行视频处理，例如，可以获取待处理视频，并调用目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征。

可选的，该目标视频处理模型还可以用于进行下游任务的微调，以使得微调后的目标视频处理模型可以处理针对下游任务的视频处理。如可以利用有标注信息的训练视频数据实现对目标视频处理模型的微调。示例性的，可以获取训练视频数据以及该训练视频数据对应的标注信息，以基于该训练视频数据以及对应的标注信息对目标视频处理模型进行训练，得到训练后的目标视频处理模型，该训练后的目标视频处理模型即是微调后的目标视频处理模型。

综上所述，可以基于多个维度的数据进行预训练视频模型的预训练，可以提高模型训练的稳定性，以提高模型性能，从而可以提高模型对视频的处理能力，进而可以在利用预训练所得到的目标视频处理模型对视频进行例如视频识别、视频分类、视频检索等视频处理任务时，也可以提高从视频中提取的视频特征的准确性，进而提高视频处理的准确性。

在具体实现中，上述所提及的视频处理方案的执行主体可以是计算机设备，该计算机设备包括但不限于终端或服务器。换句话说，计算机设备可以是服务器或终端，也可以是服务器和终端组成的系统。其中，以上所提及的终端可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、智能语音交互设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、智能家电、飞行器、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(Mobile Internet Device，MID)等。其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一种实现方式中，当计算机设备为服务器时，本申请实施例提供了一种视频处理系统，如图1所示，该视频处理系统包括至少一个终端和至少一个服务器；终端可以获取样本视频数据，并将获取到的样本视频数据上传至服务器(即计算机设备)，以使计算机设备可以获取到该样本视频数据，并基于该样本视频数据进行视频处理，如可以进一步获取该样本视频数据对应的正样本视频特征和预测视频数据，以及历史样本视频数据对应的负样本视频特征，以使服务器可以基于这些特征实现对预训练视频模型的预训练。

基于上述所提供的视频处理方案，本申请实施例提供了一种视频处理方法，该视频处理方法可由上述所提及的计算机设备执行。请参阅图2，该视频处理方法包括但不限于以下步骤：

S201，获取样本视频数据对应的正样本视频特征，并获取样本视频数据对应的预测视频数据。

其中，样本视频数据可以是指无标注信息的视频数据，即可以利用无标注信息的样本视频数据实现对预训练视频模型的预训练。例如，该标注信息可以依照不同的下游任务有不同的理解。示例性的，在多标签识别任务中，标注信息可以是指该样本视频数据对应的标签结果(如综艺类视频或体育类视频等等)；示例性的，在视频优劣分类中，标注信息可以是指样本视频数据的优劣分类结果(如优质视频或劣质视频)。

其中，样本视频数据可以是指一个视频，如该视频可以是游戏类、综艺类、影视类等各种类型的视频。需要说明的是，用于对预训练视频模型进行预训练的样本视频数据的数量是较大的，本申请主要以一个样本视频数据为例进行阐述。

在一种实现方式中，可以先获取样本视频数据，再进一步基于该样本视频数据获取对应的正样本视频特征以及预测视频数据。在申请中，可以将基于样本视频数据所得到的视频特征称之为正样本视频特征，预测视频数据可以是指对样本视频数据进行重构处理，所生成的新的视频数据。下述对正样本视频特征以及预测视频数据的获取进行阐述。

在一种实现方式中，首先，可以对该样本视频数据进行预处理，得到该样本视频数据的第一目标样本视频数据以及第二目标样本视频数据，其中，预处理可以包括抽帧处理、分块处理、数据增强处理等中的一种或多种，在本申请不做具体限定，预处理的实施方式具体可以参见下述描述。在得到第一目标样本视频数据以及第二目标样本视频数据之后，可以利用第一目标样本视频数据以及第二目标样本视频数据，得到样本视频数据对应的正样本视频特征。其中，该正样本视频特征可以包括第一正样本视频特征和第二正样本视频特征。可选的，可以对第一目标样本视频数据进行编码处理，以得到样本视频数据的第一正样本视频特征；并可以对第二目标样本视频数据进行编码处理，以得到样本视频数据的第二正样本视频特征。

在一种实现方式中，在获取到样本视频数据的正样本视频特征时，还可以获取该样本视频数据的预测视频数据，该预测视频数据可以是基于样本视频数据进行重构处理，所生成的视频数据，其中，重构处理可以基于编解码来实现，即可以利用样本视频数据进行编解码处理，以实现样本视频数据的重构。具体实现中，可以对第一目标样本视频数据进行编码处理，以得到该样本视频数据的第三正样本视频特征；然后，再对该第三正样本视频特征进行解码处理，以得到该样本视频数据的预测视频数据。

在一种实现方式中，上述正样本视频特征(第一正样本视频特征和第二正样本视频特征)以及预测视频数据可以调用预训练视频模型来得到。可选的，在基于样本视频数据得到第一目标样本视频数据以及第二目标样本视频数据之后，可以将第一目标样本视频数据以及第二目标样本视频数据输入预训练视频模型中，以得到第一正样本视频特征、第二正样本视频特征以及预测视频数据。

在一种实现方式中，预训练视频模型可以包括第一编码模块、第二编码模块以及编码模块。该第一编码模块可以对第一目标正样本视频数据进行编码处理，以得到样本视频数据的第一正样本视频特征以及第三正样本视频特征；第二编码模块可以对第二目标正样本视频数据进行编码处理，以得到样本视频数据的第二正样本视频特征；解码模块可以对第三正样本视频特征进行解码处理，以得到样本视频数据的预测视频数据。

综上所述，预训练视频模型的模型结构可以参见如图3所示。如图3所示，该预训练语言模型可以包括第一编码模块、第二编码模块以及解码模块。那么，计算机设备在获取到样本视频数据，并对该样本视频数据进行预处理，得到对应的第一目标样本视频数据以及第二目标样本视频数据之后，第一目标样本视频数据可以输入第一编码模块，以得到第一正样本视频特征以及第三正样本视频特征，同时，第二目标样本视频数据可以输入第二编码模块，以得到第二正样本视频特征；然后，第三正样本视频特征可以输入解码模块，以得到预测视频数据。

下述对样本视频数据的预处理(如预处理可以包括抽帧处理、分块处理、数据增强处理等中的一种或多种)进行具体阐述。

在一种实现方式中，一个视频中的视频帧数量较大，为减小预训练视频模型的处理复杂度，还可以对样本视频数据进行抽帧处理，以减小数据量。即预处理可以包括抽帧处理，则可以对样本视频数据进行抽帧处理，并将抽帧处理后所得到的视频数据作为第一编码模块和第二编码模块的输入。如可将通过抽帧处理得到的视频数据作为第一目标样本视频数据以及第二目标样本视频数据。

可选的，在对样本视频数据进行的抽帧处理可以是随机抽帧方式、分段抽帧方式等。在一种可能的实现方式中，对于随机抽帧方式，可以从样本视频数据中抽取预设数量的视频帧，该预设数量可以预先设置，如可以是10、15等数值。在另一种可能的实现方式中，对于分段抽帧方式，可以将样本视频数据进行分段处理，以得到多个分段视频数据，例如，可以将样本视频数据进行平均划分得到多个分段视频数据。在得到多个分段视频数据之后，可以在每个分段视频数据中抽取指定数量的视频帧。其中，在每个分段视频数据中抽取指定数量的视频帧时可以采用随机抽帧方式进行抽取；分段视频数据的数量以及指定数量可以预设设置，例如，分段视频数据的数量可以是5、10等数值，指定数据可以是1、2等数值。

在一种实现方式中，预处理可以包括分块处理。如可以对样本视频数据在3个维度上执行分块处理，块的大小对自监督的性能会有一定的影响，其中，3个维度可以是指时间长度、宽和高，例如，块的大小可以为：2*4*4。示例性的，假设样本视频数据r∈C*T*H*W，其中，C为通道数(如1、3等)，T为时间长度(如T∈{4,8,16,32}，或也可理解为视频帧的数量)，H，W分别是图像的宽和高。可以对样本视频数据进行分块处理(如块的大小为：2*4*4)，则经过分块处理后所可得到第一目标样本视频数据r1∈C*32*(T/2)*(H/4)*(W/4)，该第一目标样本视频数据r1可以由大量大小为2*4*4的视频块组成。

在一种实现方式中，预处理可以包括数据增强处理，如数据增强处理的方式可以是颜色变化、亮度变化、饱和度变化、对比度变化、随机裁剪、反转、平移变换、旋转变换、仿射变换、添加噪声、模糊处理等等。则第一目标样本视频数据以及第二目标样本视频数据可以是样本视频数据对应的增强数据，可以对样本视频数据进行数据增强处理，以得到第一目标样本视频数据以及第二目标样本视频数据。其中，第一目标样本视频数据以及第二目标样本视频数据可以是针对样本视频数据不同的增强数据，则可以将样本视频数据进行不同的数据增强处理，从而保证预训练视频模型中第一编码模块和第二编码模块的输入是针对样本视频数据所得的不同的数据，以加强后续所得到的第一正样本视频特征和第二正样本视频特征之间的差异性，进而提高模型学习鲁棒性。具体实现中，可以对样本视频数据进行第一数据增强处理，得到第一目标样本视频数据；并对样本视频数据进行第二数据增强处理，得到第二目标样本视频数据。

其中，第一数据增强处理和第二数据增强处理是不同的数据增强处理，例如，第一数据增强处理和第二数据增强处理中一个是强增强处理，另一个是弱增强处理。又如，第一数据增强处理可以是上述提及的数据增强处理方式中的任一种或多种，第二数据增强处理也可以是上述提及的数据增强处理方式中的任一种或多种，且第一数据增强处理与第二数据增强处理所利用的数据增强处理方式不同。示例性的，第一数据增强处理可以是颜色变化，第二数据增强处理可以是亮度变化；示例性的，第一数据增强处理可以是颜色变化和反转，第二数据增强处理可以是亮度变化和反转。

除了上述描述的预处理包括抽帧处理，分块处理以及数据增强处理中的任一种之外，预处理还可以包括这些处理中的任意多种，例如，预处理可以包括抽帧处理和数据增强处理。可选的，可以在进行数据增强处理之前，可以先对样本视频数据进行抽帧处理，即从样本视频数据中抽取后续进行数据增强处理的视频帧，以得到初始样本视频数据，该初始样本视频数据即是基于一帧或多帧视频帧合成得到，在得到初始样本视频数据之后，再对该初始样本视频数据进行数据增强处理，以得到第一目标样本视频数据以及第二目标样本视频数据。

在一种实现方式中，预处理还可以包括抽帧处理，分块处理以及数据增强处理，在实际的预训练过程中，预训练视频模型在预训练过程中对样本视频数据的预处理通常可以为上述三种处理的结合。可选的，可以先对样本视频数据进行抽帧处理，得到初始样本视频数据，该初始样本视频数据可以是基于一帧或多帧视频帧合成得到的；在得到初始样本视频数据之后，可以对该初始样本视频数据进行分块处理，得到样本视频分块数据；进一步的，可以对该样本视频分块数据进行第一数据增强处理，得到第一目标样本视频数据，并对该样本视频分块数据进行第二数据增强处理，得到第二目标样本视频数据。其中，抽帧处理，分块处理以及数据增强处理(第一数据增强处理和第二数据增强处理)的具体实现可以参考上述描述，在此处不再赘述。

S202，获取历史样本视频数据对应的负样本视频特征，并基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型。

其中，目标视频处理模型可以包括第一编码模块，该第一编码模块可以用于提取视频中的视频特征。

在一种实现方式中，可以进一步获取历史样本视频数据对应的负样本视频特征，该历史样本视频数据可以是指与样本视频数据不同的视频数据。在本申请中，可以将不是利用样本视频数据所得到的视频特征称之为负样本视频特征，将基于样本视频数据所得到的视频特征称之为正样本视频特征。如前述提及的历史样本视频数据对应的视频特征可以称之为负样本视频特征。历史样本视频数据对应的负样本视频特征可以是在历史预训练过程中利用预训练处理模型对历史样本视频数据处理，得到的视频特征。这些负样本视频特征可以存储在一个预设位置，以便后续需要时直接获取，例如，历史样本视频数据对应的负样本视频特征可以存储在队列(queue)中。

在一种实现方式中，可以基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据确定预训练视频模型的损失值，以利用该损失值对预训练视频模型进行预训练，得到对应的目标视频处理模型。可选的，损失值可以包括第一损失值和第二损失值，以基于多个损失值实现对预训练视频模型的预训练。例如，可以基于正样本视频特征和负样本视频特征，确定预训练视频模型的第一损失值，其中，正样本视频特征包括第一正样本视频特征和第二正样本视频特征，即可以基于第一正样本视频特征、第二正样本视频特征以及负样本视频特征，确定预训练视频模型的第一损失值。并还可以基于样本视频数据以及预测视频数据，确定预训练视频模型的第二损失值，考虑到输入第一编码模块的是样本视频数据对应的第一目标样本视频数据，则可以基于样本视频数据对应的第一目标样本视频数据以及预测视频数据，确定预训练视频模型的第二损失值。

在得到第一损失值和第二损失值之后，则可以基于第一损失值和第二损失值对预训练视频模型进行预训练，得到目标视频处理模型。可选的，可以基于第一损失值和第二损失值，确定预训练视频模型的目标损失值，以基于该目标损失值对预训练视频模型进行预训练，得到目标视频处理模型。例如，目标损失值可以是第一损失值和第二损失值之间的和值。

在一种实现方式中，可以引入对比损失和重构损失来确定预训练视频模型的目标损失值，其中，对比损失可以用来计算第一损失值，重构损失可以用来计算第二损失值。例如，可以采用对比损失，并根据第一正样本视频特征、第二正样本视频特征以及负样本视频特征，计算预训练视频模型的第一损失值；并可以采用重构损失，并根据样本视频数据以及预测视频数据，计算预训练视频模型的第二损失值。

上述可知，本申请可以采用两种自监督的预训练方式来实现对预训练视频模型的预训练，这两种自监督的预训练方式分别为：基于对比学习的自监督预训练以及基于生成学习的自监督预训练。其中，基于对比学习的自监督预训练涉及预训练视频模型中的第一编码模块和第二编码模块，基于生成学习的自监督预训练涉及预训练视频模型中的第一编码模块和解码模块。

在基于对比学习的自监督预训练中，在无标注信息的情况下，可以通过基于同一样本来构建正样本对，不同样本之间作为负样本对，从而可以更好的从语义级别来学习视频表征(或视频中的信息)。其中，正样本对可以由第一编码模块的输出以及第二编码模块的输出来构建，即第一正样本视频特征和第二正样本视频特征可以构成正样本对；而负样本对可以由第二正样本视频特征以及负样本视频特征构建。

在基于生成学习的自监督预训练中，可以对输入进行重构，使得输入和输出尽可能相似，即第一目标样本视频数据和预测视频数据尽可能相似，从而更好的从像素(或图像)级别学习视频表征。

上述可知，本申请中可以基于生成学习和对比学习联合的自监督预训练方式来实现预训练视频模型的预训练，能够更好从语义和像素级别学习视频的信息，从而有助于提高视频理解和模型的泛化能力。

上述描述可知，上述步骤S201-S202可以是对预训练视频模型的预训练过程得到目标视频处理模型的过程。可选的，在其他实施例中，在步骤S203之后还可以包括下述的步骤S203，该步骤主要是目标视频处理模型的实际应用场景。

S203，获取待处理视频，并调用目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征。

在一种实现方式中，可以利用目标视频处理模型实现对视频的视频处理，例如，可以获取待处理视频，以利用该目标视频处理模型对该待处理视频进行视频处理，得到该待处理视频对应的视频特征。

可选的，在实际应用场景中，该目标视频处理模型可以应用在具体的视频处理任务中，例如，视频的优劣分类、视频的多标签识别、视频检索等。在一种可能的实现方式中，该目标视频处理模型除了可以包括上述提及的第一编码模块，还可以包括其他模块，以由该第一编码模块和该其他模块构成一个完整的可用于在具体应用场景中的视频处理模型。例如，在视频的优劣分类中，该其他模块可以包括分类模块，以使得基于该目标视频模型中的第一编码模块得到待处理视频的视频特征之后，还可以调用该目标视频模型中的分类模块对该视频特征进行分类处理，得到该待处理视频的分类结果。又如，在视频的多标签识别中，该其他模块可以包括识别模块，以使得基于该目标视频模型中的第一编码模块得到待处理视频的视频特征之后，还可以调用该识别模块对该视频特征进行识别处理，得到该待处理视频的标签识别结果。

在一种实现方式中，还可以获取训练视频数据以及对应的标注信息对目标视频处理模型进行微调，以得到微调后的目标视频处理模型，该微调后的目标视频处理模型可以应用在实际的视频处理任务中。例如，在视频分类中，可以获取待处理视频，并调用目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征；在得到视频特征之后，进一步的可以利用该视频特征进行分类处理，以得到待处理视频的分类结果。

在本申请实施例中，可以获取样本视频数据对应的正样本视频特征，并获取样本视频数据对应的预测视频数据；进一步还可以获取历史样本视频数据对应的负样本视频特征，以基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型。从而可以调用该目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征。通过实施上述方式，可以利用基于生成学习和对比学习联合的自监督预训练方式对模型进行预训练，可以提高模型训练的稳定性，以提高模型性能，从而可以提高模型对视频的处理能力；基于对比学习的自监督预训练比较关注语义级别的特征，而基于生成学习的自监督预训练比较关注像素级别的特征，则基于生成学习和对比学习联合的自监督预训练框架，能够更好从语义和像素级别学习视频的信息，有助于提高视频理解和模型的泛化能力。进而可以在利用预训练所得到的目标视频处理模型对视频进行例如视频识别、视频分类、视频检索等视频处理任务时，可以提高从视频中提取的视频特征的准确性，也可以提高视频处理的准确性。

基于上述描述，本申请实施例进一步提出了另一种视频处理方法；在本申请实施例中，主要以计算机设备执行该视频处理方法为例进行说明。如图4所示，该视频处理方法包括但不限于以下步骤：

S401，获取样本视频数据对应的正样本视频特征，并获取样本视频数据对应的预测视频数据。

其中，样本视频数据可以是指无标注信息的视频数据，该视频数据可以是指任一视频，如综艺类视频、体育类视频等等；正样本视频数据可以是指基于样本视频数据所得到的视频特征，对应的，下述提及的负样本视频数据可以是指不是基于该样本视频数据所得到的视频特征；预测视频数据可以是指基于样本视频数据进行重构处理，所生成的视频数据。

在一种实现方式中，可以先获取样本视频数据，即基于该样本视频数据获取对应的正样本视频特征以及预测视频数据。可选的，可以对该样本视频数据进行预处理，得到该样本视频数据的第一目标样本视频数据以及第二目标样本视频数据。其中，预处理的实施方式可以参考上述步骤S201中的相关描述，在此处不再赘述。

在得到第一目标样本视频数据以及第二目标样本视频数据之后，可以进一步利用第一目标样本视频数据以及第二目标样本视频数据，得到样本视频数据对应的正样本视频特征，其中，该正样本视频特征可以包括第一正样本视频特征和第二正样本视频特征。可选的，可以对第一目标样本视频数据进行编码处理，以得到样本视频数据的第一正样本视频特征；并可以对第二目标样本视频数据进行编码处理，以得到样本视频数据的第二正样本视频特征。

在一种实现方式中，在得到第一目标样本视频数据之后，还可以基于该第一目标样本视频数据得到样本视频数据的预测视频数据，如可以对该第一目标样本视频数据进行编解码处理，以得到预测视频数据。可选的，可以对第一目标样本视频数据进行编码处理，以得到该样本视频数据的第三正样本视频特征，该第三样本视频特征与上述提及的第一样本视频特征可以相同，也可以不相同，基于不同的预训练视频模型架构有不同的结果，其具体理解可以参考下述相关描述中。在得到第三正样本视频特征之后，可以对该第三正样本视频特征进行解码处理，以得到该样本视频数据的预测视频数据。

在一种实现方式中，上述正样本视频特征(第一正样本视频特征和第二正样本视频特征)以及预测视频数据可以调用预训练视频模型来得到。参见如图3所示，该预训练视频模型可以包括第一编码模块、第二编码模块以及编码模块。该第一编码模块可以对第一目标正样本视频数据进行编码处理，以得到样本视频数据的第一正样本视频特征和第三正样本视频特征；第二编码模块可以对第二目标正样本视频数据进行编码处理，以得到样本视频数据的第二正样本视频特征；解码模块可以对第三正样本视频特征进行解码处理，以得到样本视频数据的预测视频数据。

在一种实现方式中，在得到第一正样本视频特征的过程中可以先对第一目标样本视频数据进行掩码处理，以加强编码能力。则在利用第一目标正样本视频数据进行编码处理，以得到第一正样本视频特征的具体实施方式可以是：首先，可对第一目标样本视频数据进行掩码处理，以得到样本视频数据的掩码视频特征，其中，掩码处理可以理解为对第一目标样本视频数据中的部分视频数据进行遮盖处理，即遮盖部分对应的像素值可以变为0，未遮盖部分对应的像素值保持不变；在得到该掩码视频特征之后，可以进一步对该掩码视频特征进行特征提取，从而得到样本视频数据的第一正样本视频特征。

在一种实现方式中，针对上述的第三正样本视频特征同样可以基于掩码视频特征确定，在这种情况下，获取样本视频数据的预测视频数据的具体实施方式可以是：首先，可获取样本视频数据的掩码视频特征，该掩码视频特征可以是对第一目标样本视频数据进行掩码处理得到的；在得到掩码视频特征之后，即可以对掩码视频特征进行特征提取，以得到样本视频数据的第三正样本视频特征；进一步的，可以基于该第三正样本视频特征对样本视频数据进行预测处理，也就是上述提及的对第三正样本视频特征进行解码处理，以得到样本视频数据的预测视频数据。

综上所述，预训练视频模型中的第一编码模块可以包括掩码模块和特征提取模块，其中，掩码模块可以用来对第一目标样本视频数据进行掩码处理，以得到掩码视频特征，特征提取模块可以用来对掩码视频特征进行特征提取，以得到第一正样本视特征以及第三正样本视频特征。对于第二编码模块而言，该第二编码模块也可以包括一个特征提取模块，以用来对第二目标样本视频数据进行特征提取(或者说编码处理)，得到第二正样本视频特征。其中，第一编码模块中的特征提取模块与第二编码模块中的特征提取模块可以有相同的模块结构，也可以有不同的模块结构，其具体内容可以参考下述相关描述。为区别两个编码模块中的特征提取模块，可以将第一编码模块中的特征提取模块称之为第一特征提取模块，将第二编码模块中的特征提取模块称之为第二特征提取模块。例如，此处提及的预训练视频模型的结构示意图可以参见如图5a所示。

下述对如图5a所示的预训练视频模型中的各个模块进行具体阐述。

在一种实现方式中，掩码模块的主要作用可以是对输入的视频数据遮盖掉一定比例的像素信息，在申请中，即是对第一目标样本视频数据就进行遮盖处理。可选的，遮盖处理的方式可以包括：遮盖块(mask block)和遮盖帧(mask frame)。

针对遮盖块的遮盖方式，即是对第一目标样本视频数据执行块的遮盖(mask)。可选的，该第一目标样本视频数据以由大量的视频块组成，则可以在第一目标样本视频数据上进行视频块的遮盖，如可以从第一目标样本视频数据所包括的所有视频块中选择目标遮盖块，该目标遮盖帧可以是指需要进行遮盖处理的视频块，该目标视频的数量可以是一个或多个，其数量可以预先设置；目标遮盖块可以随机选择，也可以按照预设设置的方式进行选择，在本申请不做具体限定。在确定目标视频块之后，即可以对该目标视频块进行遮盖处理。

例如，可以对第一目标样本视频数据在3个维度上执行块的mask，块的大小对自监督的性能会有一定的影响，其中，3个维度可以是指时间长度、宽和高，如，块的大小可以为：2*4*4。示例性的，假设样本视频数据r∈C*T*H*W，其中，C为通道数(如1、3等)，T为时间长度(如T∈{4,8,16,32}，或也可理解为视频帧的数量)，H，W分别是图像的宽和高。在预处理中，可以对样本视频数据进行分块处理(如块的大小为：2*4*4)，则经过分块处理后所得到的第一目标样本视频数据r1∈C*32*(T/2)*(H/4)*(W/4)，该第一目标样本视频数据r1可以由大量大小为2*4*4的视频块组成。其中，可以从第一目标样本视频数据r1中所包括的视频块中随机选择目标遮盖块，并将该目标遮盖块对应的像素与0相乘，将非目标遮盖块与1相乘，也就是将目标遮盖块对应的像素变为0，并保持非目标遮盖块对应的像素不变，从而实现遮盖块的处理。

针对遮盖帧的遮盖方式，即是对第一目标样本视频数据执行帧的遮盖(mask)。可以从第一目标样本视频数据中所包括的视频帧中确定目标视频帧，该目标视频帧可以是指需要进行遮盖处理的视频帧，该目标视频帧的数量可以是一个或多个，其数量可以预先设置；在确定目标视频帧之后，即可以对该目标视频帧进行遮盖处理。可选的，可以从所包括的视频帧中随机抽取目标视频帧；也可以按照预先设置的方式从所包括的视频帧中确定目标视频帧。例如，预先设置的方式可以是间隔确定方式，即将每隔一帧视频帧作为目标视频帧。示例性的，假设第一目标样本视频数据中所包括的视频帧为视频帧1、视频帧2、视频帧3、视频帧4、…，则目标视频帧可以为视频帧2、视频帧4、…。

在一种实现方式中，第一编码模块中的第一特征提取模块和第二编码模块中的第二特征提取模块均可以用来进行视频特征的提取。其中，第一特征提取模块和第二编码模块中的第二特征提取模块可以具有相同的结构，也可以具有不同的结构。

可选的，第一特征提取模块和第二特征提取模块可以均包括骨干网络(Backbone)，该Backbone是预训练视频模型使用的基础网络，该Backbone具体可以是指用来提取视频帧中视频特征的网络。例如，该Backbone可以采用传统的CNN(ConvolutionalNeural Networks，卷积神经网络)、Transformer等网络。由于Transformer在视觉领域中具有较佳的处理效果，本申请中的Backbone可以是3D Swin Transformer。3D SwinTransformer可以引入滑动窗口机制，让模型能够学习到跨窗口的信息；同时，3D SwinTransformer具有层级设计(即下采样层)，使得模型能够处理超分辨率的图像，节省计算量，并能够关注全局和局部的信息。

例如，3D Swin Transformer的结构可以如图5b所示。从图5b中可以看出，3D SwinTransformer采用了层次化的设计，如图5b中所显示的包含4个Stage(理解为阶段或层)。例如，针对一个视频数据(如某一Videos(视频)可以表征为T*H*W*3，这个数据可以用来指示Videos的大小)而言，首先，可以将一个视频数据(T*H*W*3)输入分块处理模块进行分块处理，得到分块数据，如分块处理模块可以称为Patch Partition模块，如块的大小可以是2*4*4，则分块数据可以表征为(T/2)*(H/4)*(W/4)*3*32。其中，3为通道数(C)。然后，再将分块数据通过线性嵌入模块进行线性嵌入，该模块可以用来降通道，如线性嵌入模块可以称为Linear Embedding模块。进一步的，可以就是通过4个Stage构建不同大小的特征图，除了Stage1(阶段1)中先通过Linear Embedding模块之外，其他三个Stage都是通过下采样模块来进行下采样，以缩小输入特征图的分辨率，如该下采样模块可以称为Patch Merging模块；然后，再通过视频特征处理模块进行视频特征融合处理，如该视频特征处理模块可以是Vioeos Swin Transformer Block。其中，图5b中每个Stage所指示的数据可以是对应Stage输出的特征图的大小，例如，Stage2(阶段2)输出的特征图的大小为(T/2)*(H/8)*(W/8)*2C。

其中，Backbone的结构也可以根据下游任务的需求来进行改变，比如可以采用Resnet，Vit等其他深度学习网络作为Backbone。

此处提及的预训练视频模型的预训练过程可以如图5c所示。如图5c所示，样本视频数据在通过预处理模块的预处理之后，可以得到第一目标样本视频数据以及第二目标样本视频数据。其中，第一目标样本视频数据可以输入第一编码模块中的掩码模块，以得到掩码视频特征，然后，掩码视频特征可以输入Backbone中，以得到第一正样本视频特征以及第三正样本视频特征，此处的第一正样本视频特征以及第三正样本视频特征可以是相同的视频特征。需要说明的是，Backbone仅对可见的视频数据(即在掩码模块中未进行遮盖处理的视频数据)进行编码，而后续解码模块的输入则是完整的视频数据。第二目标样本视频数据可以输入第二编码模块对应的Backbone中，得到第二正样本视频特征。第三正样本视频特征可以进一步输入解码模块中，以得到预测视频数据。

可选的，第一编码模块和第二编码模块中还可以均包括Projector(投影)模块；即第一编码模块可以包括掩码模块、Backbone以及Projector模块，第二编码模块可以包括Backbone和Projector模块。此处提及的预训练视频模型的预训练过程可以如图5d所示。Projector(投影)模块可以用于对Backbone输出的特征进行降维，以降低模型的处理复杂度。第一编码模块和第二编码模块中的Projector模块可以具体相同的结构。例如，Projector模块可以为MLP(Multilayer Perceptron，多层感知机)，如可以是单层MLP、两层MLP等等，同时不使用批归一化和激活函数。

可选的，为了实现第一编码模块与第二编码模块之间的非对称性，以增大第一正样本视频特征和第二正样本视频特征的差异，第一编码模块还可以包括Predictor(预测)模块；即第一编码模块可以包括掩码模块、Backbone、Projector模块以及Predictor模块，第二编码模块可以包括Backbone和Projector模块。此处提及的预训练视频模型的预训练过程可以如图5e所示。其中，Predictor模块也可以是MLP，如可以是单层MLP、两层MLP等等，同时不使用批归一化和激活函数。

可选的，Predictor模块与Projector模块可以具有相同的结构，也可以具有不同的结构。例如，Predictor模块与Projector模块可以均是两层MLP；又如，Predictor模块可以是两层MLP，Projector模块可以均是单层MLP。

在一种实现方式中，解码模块的目的是执行像素层面的重构任务，即实现预测视频数据的获取，则解码模块的输入可以是利用第一编码模块得到的第三正样本视频特征。具体地，可以使用第一编码模块中Backbone输出的视频特征作为第三正样本视频特征，以及调用解码模块对该第三正样本视频特征进行解码处理，重构出原视频数据，即得到预测视频数据。由于真正去学习视频数据中潜在特征表征的是第一编码模块，相比于第一编码模块而言，解码模块可以有更少的通道数和更浅的网络深度。其中，解码模块可以是任意形式的网络结构，只要其输出和第一编码模块的输入保持一致，以便后后续可以进行第二损失值的计算；同时，能够完成像素重构任务即可。例如，解码模块可以是两层的MLP，两层的Tansformer等简单结构。示例性的，第一编码模块中的骨干网络可以是多层堆叠的Transformer，而解码模块可以仅需较少层或者1层Transformer即可。

可选的，本申请可以使用原始像素级回归来完成重构，像素值在原始空间中是连续的，恢复遮蔽的像素值通常可以采用回归预测的方式。需要说明的是，通过视觉框架学习到的视频特征一般会进行下采样，例如，在利用3D Swin Transformer获取到第三正样本视频特征时，3D Swin Transformer的架构中涉及到下采样处理。为了能够执行全像素值的回归，可以在进行设计解码模块时，结合上采样，或者对特征(如第三正样本视频特征)进行线性映射，或者进行非线性映射等处理，以到使所得到的预测视频数据可以与原视频(即第一目标样本视频数据)的大小一致。例如，以第一编码模块中的骨干网络为3D SwinTransformer为例，如果样本视频数据的大小为C*T*H*W，将样本视频数据经过分块处理(如块的大小是2*4*4)之后，所得到的视频数据的大小为C*32*(T/2)*(H/4)*(W/4)，则最终所得到的第一目标样本视频数据的大小为C*32*(T/2)*(H/4)*(W/4)，即模型的输入的大小变为C*32*(T/2)*(H/4)*(W/4)；而在经过3D Swin Transformer的处理和解码模块的处理之后，解码模块的输出的大小也可以为C*32*(T/2)*(H/4)*(W/4)。

S402，获取历史样本视频数据对应的负样本视频特征，并基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型。

其中，历史样本视频数据可以是指与样本视频数据不同的视频数据，负样本视频特征可以是指不是利用样本视频数据所得到的视频特征，即历史样本视频数据对应的视频特征可以称之为负样本视频特征。

在一种实现方式中，历史样本视频数据对应的负样本视频特征可以是在历史预训练过程中利用预训练处理模型对历史样本视频数据处理，得到的视频特征。这些负样本视频特征可以存储在一个预设位置，以便后续需要时直接获取，例如，历史样本视频数据对应的负样本视频特征可以存储在队列(queue)中。

可选的，负样本视频特征的大小(即数量)可以为batch-size的大小，batch-size可以是指一个批次训练中样本视频数据的大小。由于GPU资源的问题，可能无法保证负样本视频特征的充足性，则通常可以考虑使用队列(queue)的方式进行大量负样本视频特征的存储。例如，在预训练视频模型的预训练的过程中，可以使用memory bank(内存条)的方式，把第二编码模块得到的第二正样本视频特征保存到队列(queue)中，这些第二正样本视频特征可以理解为在非当前迭代过程(或者理解为非当前批次的样本视频数据的训练)中所得到的第二正样本视频特征，而是历史迭代过程中所得到的第二正样本视频特征。然后，后续每次计算第一损失值时，或者说在要获取负样本视频特征时，可以从queue中选取第二正样本视频特征作为负样本视频特征，如可以选取batch-size大小的第二正样本视频特征，这样可以保持从queue中得到负样本视频特征和通过第二编码模块编码得到的视频特征相近。可选的，queue中的第二正样本视频特征也可以不断更新，例如，在每次等待该批次训练完毕之后，queue中旧的第二正样本视频特征将会被出栈，然后用当前批次下所获得的第二正样本视频特征补充到queue中，以进一步保持从queue中得到负样本视频特征和通过第二编码模块编码得到的视频特征的一致性。

在一种实现方式中，在获取到负样本视频特征之后，即可以基于正样本视频特征、负样本视频特征、样本视频数据以及预测视频数据确定预训练视频模型的损失值，以利用该损失值对预训练视频模型进行预训练，得到对应的目标视频处理模型。可选的，损失值可以包括第一损失值和第二损失值。例如，可以基于正样本视频特征(第一正样本视频特征和第二正样本视频特征)和负样本视频特征，确定预训练视频模型的第一损失值；并还可以基于样本视频数据以及预测视频数据，确定预训练视频模型的第二损失值，考虑到第一编码模块的输入为样本视频数据对应的第一目标样本视频数据，则可以基于第一目标样本视频数据以及预测视频数据，确定预训练视频模型的第二损失值。

在一种实现方式中，对比损失的数学公式可以如下公式(1)所示：

其中，q表示第一正样本视频特征，k₊表示第二正样本视频特征，k_i表示负样本视频特征，即从queue中采样的负样本视频特征，K为负样本视频特征的总数。

在一种实现方式中，重构损失的数学公式可以如下公式(2)所示：

L_{recontruction·loss}＝||y-x||₂ (2)

其中，y表示预测视频数据，x表示第一目标样本视频数据。

基于上述描述可知，在本申请中，预训练视频模型的预训练方式可以理解为基于对比学习的自监督预训练方法与基于生成学习的自监督预训练方法的结合。其中，基于对比学习的自监督预训练方法涉及第一损失值的计算，则在预训练过程中涉及预训练视频模型中第一编码模块以及第二编码模块的相关处理；基于生成学习的自监督预训练方法涉及第二损失值的计算，则在预训练过程中涉及预训练视频模型中第一编码模块以及解码模块的相关处理。

(1)在基于对比学习的自监督预训练方法中，可以通过定义正负样本对，以在表征空间中最大化正样本对之间的距离，最小化负样本对之间的距离，从而达到同类相互吸引，不同类相互排斥的作用。在无标注信息的情况下，基于对比学习的自监督预训练方法，可以基于同一样本来构建正样本对，如可以通过将同一样本进行不同的数据增强(例如强数据增广或弱数据增广)来构建正样本对，并基于不同样本之间构建负样本对，从而来学习视频表征。其中，正样本对可以由第一编码模块的输出以及第二编码模块的输出来构建，即第一正样本视频特征和第二正样本视频特征可以构成正样本对；而负样本对可以由第二正样本视频特征以及负样本视频特征构建。

同时，本申请可以通过遮盖(mask)一定比例的视频层面的信息，然后把全局和局部映射到表征空间，通过对比损失来进行监督，以最小化正样本对之间的距离，最大化负样本对之间的距离。基于上述描述也可知，本申请中的对比损失也可以称之为局部-全局对比损失。

(2)在基于生成学习的自监督预训练方法中，主要可以是对输入进行重构，使得输入和输出尽可能相似。生成学习可以通过定义编解码结构(如本申请中的第一编码模块和解码模块)，mask掉视频中的部分帧或块，然后通过第一编码模块和解码模块重构出原始视频数据，让预训练视频模型可以预测这些被mask掉的视频数据。这样可以利用视频数据本身就可以作为监督，无需复杂的人工标注。

同时，本申请可以通过编解码结构(如本申请中的第一编码模块和解码模块)通过对局部信息进行重建，然后通过像素级的重构损失进行监督，以通过最小化像素级的重构损失来实现模型的预训练。

本申请可以通过两种预训练方式同时进行自监督，以提高模型训练的稳定性，进一步可以提高模型性能，从而也可以提高模型对视频的建模能力。

在一种实现方式中，第一编码模块和第二编码模块的参数更新方式存在差别，其中，第一编码模块可以采用随机梯度下降(Stochastic Gradient Descent，SGD)的反向传播的方式进行第一编码模块中各个参数的更新，第二编码模块可以采用动量的更新方式进行第二编码模块中各个参数的更新。

S403，获取训练视频数据以及训练视频数据对应的标注信息。

在一种实现方式中，当对预训练视频模型进行预训练，得到对应的目标视频处理模型之后，就是下游任务的微调。例如该下游任务可以是视频的多标签识别、视频分类、视频检索、视频低质和优质的识别等视频处理任务。而为完成下游任务的微调，可以利用有标注信息的训练视频数据对目标视频处理模型进行微调，以得到微调后的目标视频处理模型。该微调后的目标视频处理模型即可以处理下游任务。

在一种实现方式中，可以获取训练视频数据以及训练视频数据对应的标注信息，以便于后续可以基于训练视频数据以及对应的标注信息实现对目标视频处理模型的微调。其中，针对不同的下游任务，其对应的训练视频数据和对应的标注信息可能是不同的。例如，以下游任务为视频的多标签识别，则训练视频数据可以是一个视频，其中，该视频有对应的标签，该标签也就是训练视频数据的标注信息，如一个视频的标签可以是游戏类视频、综艺类视频、体育类视频以及影视类视频中的一种。又如，以下游任务为视频的低质和优质的识别，则训练视频数据可以包括一个视频，其中，该视频有对应的标签可以是低质和优质一种。

需要说明的是，用于对目标视频处理模型进行微调的训练视频数据的数量可以是较大的，本申请主要是以一个训练视频数据为例进行阐述。

S404，基于训练视频数据以及训练视频数据对应的标注信息对目标视频处理模型进行训练，得到训练后的目标视频处理模型。

在一种实现方式中，目标视频处理模型可以基于预训练后的第一编码模块所得到，例如，该目标视频处理模型可以由预训练后的第一编码模块中的骨干网络构成。该骨干网络可以作为特征提取模块。可选的，在目标视频处理模型的微调中，该目标视频处理模型除了可以包括骨干网络，还可以包括其他模块，以构成一个完整的可用于处理下游任务的视频处理模型。例如，在视频分类任务中，该目标视频处理模型还可以包括分类模块，又如，在视频识别任务中，该目标视频处理模型还可以包括识别模块。

在一种实现方式中，可以利用训练视频数据对目标视频模型进行训练，以得到该训练视频数据的预测标注信息，以基于标注信息和预测标注信息对目标视频处理模型进行训练，得到训练后的目标视频模型。可选的，可以获取该目标视频处理模型对应的模型损失函数，以采用该模型损失函数，并利用标注信息以及预测标注信息计算目标视频处理模型的模型损失值；而在得到该模型损失值之后，即可以基于该模型损失值进行目标视频处理模型的训练，以得到训练后的目标视频处理模型。例如，可以按照减小模型损失值的方向，优化目标视频处理模型的模型参数。其中，模型损失函数可以是交叉熵损失函数、或其他损失函数，在本申请中不做具体限定。

上述可知，本申请可以为下游任务提供适应的预训练模型(即预训练视频模型)，该预训练模型的泛化能力强，一方面可以提升模型性能，另一方面也可以减少下游任务的微调中的迭代次数以及训练数据。例如，在当前各大视频应用程序中，每天可以涌入大量的视频数据(如新闻类应用程序)，下游任务的多标签识别任务需要针对所有的视频进行识别和推荐，当大量无标签的数据涌入应用程序中时，标注一个无噪声且规模可观的数据集是非常耗费人力和财力的，本申请中的预训练视频模型能够使用少量的标注数据使模型能够在新增数据上呈现较优的效果，同时不断的支持新增标签。通过利用预训练视频模型，可以使得下游任务更快的收敛同时提高下游识别性能，也有利于更快的适应新增标签，这样可以使用少量的新增标签的数据就能方便的支持新增标签的输出。

上述描述可知，上述步骤S401-S404可以是对预训练视频模型的训练过程，其中，该训练过程具体可以包括步骤S401-S402中所涉及的对预训练视频模型进行预训练得到目标视频处理模型的过程，以及步骤S402-S404中所涉及的对目标视频处理模型进行微调得到微调后的目标视频处理模型的过程。可选的，在其他实施例中，在步骤S404之后还可以包括下述的步骤S405，该步骤主要是训练后的目标视频处理模型的实际应用场景。

S405，获取待处理视频，并调用训练后的目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征。

在一种实现方式中，在得到训练后的目标视频处理模型之后，则可以将该训练后的目标视频处理模型应用在实际的视频处理场景中。例如，如果在微调对应的下游任务为多标签识别，则该训练后的目标视频处理模型可以应用在多标签识别中。可选的，可以获取待处理视频，并调用训练后的目标视频处理模型对待处理视频进行视频处理，得到待处理视频的视频特征，进一步的，可以基于该视频特征实现对待处理视频的多标签识别。在一种可能的实现方式中，该目标视频处理模型可以包括识别模块，则可以调用该识别模块对该视频特征进行识别处理，以得到该待处理视频的标签。

在一种实现方式中，为了证明利用本申请所提供的视频处理方法所得到的目标视频处理模型的模型效果(如多标签识别效果)，还可以对该目标视频处理模型进行测试。例如，可以将本申请所得到的目标视频处理模型的多标签识别效果与其他的视频处理模型进行性能对比，如可以针对多标签识别效果进行对比分析。其中，在对比分析中，本申请中的目标视频处理模型与对比的视频处理模型的训练方式存在差别，目标视频处理模型可以是指通过本申请所涉及的预训练方式并结合微调方式所得到的，对比的视频处理模型可以是指未通过预训练方式训练得到的模型。如表1所示中的数据可以是在不同训练方式所得到的视频处理模型的多标签识别效果。

表1：

模型	精确度(Precision)	召回率(Recall)
			未使用预训练的模型	70.57％	37.8％
本申请中的模型	70.29％	42.0％

其中，可以利用精确度(Precision)和召回率(Recall)来表征模型的模型效果，精确度值越高可以表示模型效果越好，召回率值越高也可以表示模型效果越好。从表1中的数据可知，精确度相近的情况下，本申请中的目标视频处理模型对应的召回率更高，则相比于未使用预训练所得到的视频处理模型，本申请中的目标视频处理模型的模型效果更好。

为更好的理解本申请实施例所提供的视频处理方法，下面结合图5e所示的预训练视频模型的预训练过程的进行进一步说明，如图5e所示，该图中所示的流程可以是本申请所提出的一种基于对比学习的自监督预训练方法与基于生成学习的自监督预训练方法的结合的预训练过程。从图5e中可以看出，基于视频的自监督预训练框架的设计主要分为两个模块的设计，这两个模块的设计分别为视频重构和视频特征对比学习两个模块的设计。其中，预训练视频模型可以分为三个主模块：第一编码模块(可以称之为Encoder)，第二编码模块(可以称之为Momentum encoder)以及解码模块(可以称之为Decoder)。

如图5e所示的框架，针对一个样本视频数据，可以先对该样本视频数据进行预处理，如预处理可以包括抽帧处理、分块处理以及数据增强数据。具体地可以先通过一个多尺度时序输入模块(mult-scale temporal input)从样本视频数据中随机抽取T帧，以得到初始样本视频数据，如初始样本视频数据可以是x∈C*T*H*W，其中，C为通道数(如1、3等)，T为时间长度(如T∈{4,8,16,32}，或也可理解为视频帧的数量)，H，W分别是图像的宽和高。在得到初始样本视频数据x之后，还可以对初始样本视频数据x进行分块处理，以得到样本视频分块数据，如块的大小可以为：2*4*4，则将x∈C*T*H*W进行分块处理可以得到样本视频分块数据x1∈C*32*(T/2)*(H/4)*(W/4)。

进一步的，可以对分块后的视频数据(即样本视频分块数据)进行数据增强处理，以得到第一目标样本视频数据(x_q)以及第二目标样本视频数据(x_k)。然后将x_q和x_k分别通过Encoder和Momentum encoder，映射到高维空间下，得到第一正样本视频特征(q)和第二正样本视频特征(k₊)。同时，可以采用一个较大的memory bank(内存条)存储负样本视频特征，如该负样本视频特征可以存储在队列(queue)中，以在需要获取负样本视频特征计算第一损失值时，可以从队列中直接获取。

从而可以利用第一正样本视频特征(q)、第二正样本视频特征(k₊)以及队列中的负样本视频特征进行对比损失的计算，即第一损失值的计算，如可以采用上述公式(1)进行对比损失的计算。

而为了实现像素级别的自监督，可以使用Encoder中Backbone输出的特征，通过Decoder重构出原视频像素(即预测视频数据)，然后使用重构损失(或者说是L2损失)进行自监督，即进行第二损失值的计算，如可以采用上述公式(2)进行重构损失的计算。

下述对Encoder，Momentum encoder，Decoder进行具体介绍。

针对Encoder，Encoder是自监督预训练框架的主体部分，该部分预训练完毕的参数可以作为下游任务的初始化参数。如图5e所示，Encoder可以包括四个模块：掩码模块(Mask block)，Backbone，投影(Projector)模块，预测(Predictor)模块，下面将依次介绍各模块作用和详细实现方式：

(1)Mask block，可以对输入的视频数据遮盖掉一定比例的像素信息，例如，可以采用遮盖块(mask block)和遮盖帧(mask frame)的方式进行遮盖处理，其具体实现可以参考上述描述。

(2)Backbone，该模块是预训练视频模型使用的基础网络，通常可以采用CNN网络以及Transformer网络。由于Transformer网络在视觉领域的优异性，本申请可以采用3DSwin Transformer为基础网络进行自监督预训练。

(3)Projector模块和Predictor模块可以均为两层MLP，同时不使用批归一化和激活函数，Predictor模块可以保持Encoder和Momentum encoder之间的非对称结构。

针对Momentum encoder，如图5e所示，Momentum encoder可以包括2个模块：Backbone，Projector模块。Backbone可以与Encoder网络中Backbone结构相同，如均可以是3D Swin Transformer；Projector模块的结构也可以和Encoder网络中Projector模块的结构相同，如均可由两层MLP构成。

其中，Momentum encoder和Encoder的参数更新方式存在差别，其中，Encoder的采用随机梯度下降(Stochastic Gradient Descent，SGD)的反向传播的更新方式进行参数更新，Momentum encoder采用动量的更新方式进行参数更新。

针对Decoder，Decoder的输入是从Encoder提取的视频特征(如上述提及的第三正样本视频特征)，Encoder的目的是执行像素层面的重建任务，由于真正去学习潜在特征表征的是Encoder，相比于Encoder，Decoder有更少的通道数和更浅的网络深度。Decoder可以是任意形式的网络，只要其输出和Encoder输入的保持一致，同时能够完成像素重建任务即可。

在一种实现方式中，本申请预训练视频模型的模型框架的自监督预训练方法可以采用其他自监督方法进行替代，例如，可以是MOCO、MOCOv2、BYOL等自监督方法。

通过实施上述方式，可以利用基于生成学习和对比学习联合的自监督预训练方式对模型进行预训练，可以提高模型训练的稳定性，以提高模型性能，从而可以提高模型对视频的处理能力；基于对比学习的自监督预训练比较关注语义级别的特征，而基于生成学习的自监督预训练比较关注像素级别的特征，则基于生成学习和对比学习联合的自监督预训练框架，能够更好从语义和像素级别学习视频的信息，有助于提高视频理解和模型的泛化能力。进而可以在利用预训练所得到的目标视频处理模型对视频进行例如视频识别、视频分类、视频检索等视频处理任务时，也可以提高视频处理的准确性。

请参阅图6，是本申请实施例提供的一种视频处理装置的结构示意图。本实施例中所描述的视频处理装置，包括：

获取单元601，用于获取样本视频数据对应的正样本视频特征，并获取所述样本视频数据对应的预测视频数据；所述预测视频数据是基于所述样本视频数据进行重构处理得到的视频数据；

预训练单元602，用于获取历史样本视频数据对应的负样本视频特征，并基于所述正样本视频特征、所述负样本视频特征、所述样本视频数据以及所述预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型；

处理单元603，用于获取待处理视频，并调用所述目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征。

在一种实现方式中，所述预训练单元602，具体用于：

基于所述正样本视频特征和所述负样本视频特征，确定所述预训练视频模型的第一损失值；

基于所述样本视频数据以及所述预测视频数据，确定所述预训练视频模型的第二损失值；

基于所述第一损失值和所述第二损失值，确定所述预训练视频模型的目标损失值；

基于所述目标损失值对所述预训练视频模型进行预训练，得到目标视频处理模型。

在一种实现方式中，所述正样本视频特征包括第一正样本视频特征和第二正样本视频特征；所述获取单元601，具体用于：

对所述样本视频数据进行预处理，得到所述样本视频数据的第一目标样本视频数据以及第二目标样本视频数据；

对所述第一目标样本视频数据进行编码处理，得到所述样本视频数据的第一正样本视频特征；

对所述第二目标样本视频数据进行编码处理，得到所述样本视频数据的第二正样本视频特征。

在一种实现方式中，所述获取单元601，具体用于：

对所述第一目标样本视频数据进行掩码处理，得到所述样本视频数据的掩码视频特征；

对所述掩码视频特征进行特征提取，得到所述样本视频数据的第一正样本视频特征。

在一种实现方式中，所述获取单元601，具体用于：

对所述样本视频数据进行抽帧处理，得到初始样本视频数据，所述初始样本视频数据是基于一帧或多帧视频帧合成得到的；

对所述初始样本视频数据进行分块处理，得到样本视频分块数据；

对所述样本视频分块数据进行第一数据增强处理，得到第一目标样本视频数据，并对所述样本视频分块数据进行第二数据增强处理，得到第二目标样本视频数据。

在一种实现方式中，所述获取单元601，具体用于：

获取所述样本视频数据的掩码视频特征；

对所述掩码视频特征进行特征提取，得到所述样本视频数据的第三正样本视频特征；

基于所述第三正样本视频特征对所述样本视频数据进行预测处理，得到所述样本视频数据的预测视频数据。

在一种实现方式中，所述装置还包括训练单元604，具体用于：

获取训练视频数据以及所述训练视频数据对应的标注信息；

基于所述训练视频数据以及所述训练视频数据对应的标注信息对所述目标视频处理模型进行训练，得到训练后的目标视频处理模型；

所述处理单元603，还用于：调用所述训练后的目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征。

可以理解，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参阅图7，图7是本申请实施例提供的一种计算机设备的结构示意图。本实施例中所描述的计算机设备，可以是终端或者服务器，计算机设备包括：处理器701、存储器702。可选的，该计算机设备还可包括网络接口703。上述处理器701、存储器702以及网络接口703之间可以交互数据。

上述处理器701可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器702可以包括只读存储器和随机存取存储器，并向处理器701提供程序指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。其中，所述处理器701调用所述程序指令时用于执行：

在一种实现方式中，所述处理器701，具体用于：

在一种实现方式中，所述正样本视频特征包括第一正样本视频特征和第二正样本视频特征；所述处理器701，具体用于：

在一种实现方式中，所述处理器701，具体用于：

获取所述样本视频数据的掩码视频特征；

在一种实现方式中，所述处理器701，还用于：

获取训练视频数据以及所述训练视频数据对应的标注信息；

调用所述训练后的目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，所述程序执行时可包括如图2或者图4对应实施例中的视频处理方法的部分或全部步骤。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。例如，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上对本申请实施例所提供的一种视频处理方法、装置、计算机设备、介质及程序产品进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述正样本视频特征、所述负样本视频特征、所述样本视频数据以及所述预测视频数据，对预训练视频模型进行预训练，得到目标视频处理模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述正样本视频特征包括第一正样本视频特征和第二正样本视频特征；所述获取样本视频数据对应的正样本视频特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第一目标样本视频数据进行编码处理，得到所述样本视频数据的第一正样本视频特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述样本视频数据进行预处理，得到所述样本视频数据的第一目标样本视频数据以及第二目标样本视频数据，包括：

6.根据权利要求1所述的方法，其特征在于，获取所述样本视频数据对应的预测视频数据，包括：

获取所述样本视频数据的掩码视频特征；

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

获取训练视频数据以及所述训练视频数据对应的标注信息；

其中，所述调用所述目标视频处理模型对所述待处理视频进行视频处理，得到所述待处理视频的视频特征，包括：

8.一种视频处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现权利要求1-7任一项所述方法。