CN117972138A

CN117972138A - 预训练模型的训练方法、装置和计算机设备

Info

Publication number: CN117972138A
Application number: CN202410391795.7A
Authority: CN
Inventors: 杨善明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-05-03

Abstract

本申请涉及一种预训练模型的训练方法、装置和计算机设备。所述方法包括：获取样本原始视频及对应的样本掩膜视频，样本原始文本及对应的样本掩膜文本；基于注意力机制网络，对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，并基于所述处理的视频特征得到重构视频；对所述文本特征查询向量和所述视频特征关键向量进行融合处理，得到处理的文本特征，并基于所述处理的文本特征得到重构文本；对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型。本申请预训练模型具有较强的视频文本的理解力和表达力。

Description

预训练模型的训练方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种预训练模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着网络视频内容的指数级增长，视频与文本相结合的形式已经逐渐成为当今信息传播的核心媒介。在这些融合了生动视觉与深度文字描述的多媒体资源中，蕴含着无比丰富的信息内涵，如何高效利用大规模多模态数据资源成为深度学习领域的研究焦点。强大的预训练模型可以解决这一难题，预训练模型能够优化任务模型的性能，还能够减少针对不同应用场景进行反复迭代的需求。

然而，相关技术中，视频与文本的预训练模型表达能力不强，对视频、文本内容的理解和处理能力较弱。

发明内容

基于此，有必要针对上述技术问题，提供一种能够视频文本理解力和表达力的预训练模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种预训练模型的训练方法。所述方法包括：

获取样本原始视频及对应的样本掩膜视频，样本原始文本及对应的样本掩膜文本；

将所述样本原始视频和所述样本掩膜视频分别输入至视频编码网络，输出对应的第一视频特征和第二视频特征，将所述样本原始文本和所述样本掩膜文本分别输入至文本编码网络，输出对应的第一文本特征和第二文本特征；

基于注意力机制网络，提取所述第一视频特征的视频特征关键向量，提取所述第二视频特征的视频特征查询向量；提取所述第一文本特征的文本特征关键向量，提取所述第二文本特征的文本特征查询向量；

对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，并基于所述处理的视频特征得到重构视频；

对所述文本特征查询向量和所述视频特征关键向量进行融合处理，得到处理的文本特征，并基于所述处理的文本特征得到重构文本；

基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型；其中，所述初始预训练模型包括所述视频编码网络、所述文本编码网络、所述注意力机制网络。

第二方面，本申请提供了一种视频分类方法，所述方法包括：

获取待分类的视频；

将所述视频输入至视频分类模型，输出所述视频的类别；其中，所述视频分类模型包括对初始视频分类模型进行网络参数调整后获得，其中，所述初始视频分类模型包括如本公开实施例任一项所述的方法训练的预训练模型以及分类器网络。

第三方面，本申请提供了一种视频检索方法，所述方法包括：

获取待检索的视频；

将所述视频输入至视频特征提取模型，输出对应的视频特征；其中，所述视频特征提取模型基于本公开实施例任一项所述的方法训练的预训练模型进行网络参数调整后获得；

从预设的视频特征集合中确定与所述视频特征项匹配的目标视频特征，确定与所述目标视频特征相匹配的目标视频作为检索结果。

第四方面，本申请还提供了一种预训练模型的训练装置，所述装置包括：

第一获取模块，用于获取样本原始视频及对应的样本掩膜视频，样本原始文本及对应的样本掩膜文本；

第一特征提取模块，用于将所述样本原始视频和所述样本掩膜视频分别输入至视频编码网络，输出对应的第一视频特征和第二视频特征，将所述样本原始文本和所述样本掩膜文本分别输入至文本编码网络，输出对应的第一文本特征和第二文本特征；

第二特征提取模块，用于基于注意力机制网络，提取所述第一视频特征的视频特征关键向量，提取所述第二视频特征的视频特征查询向量；提取所述第一文本特征的文本特征关键向量，提取所述第二文本特征的文本特征查询向量；

第一特征融合模块，用于对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，并基于所述处理的视频特征得到重构视频；

第二特征融合模块，用于对所述文本特征查询向量和所述视频特征关键向量进行融合处理，得到处理的文本特征，并基于所述处理的文本特征得到重构文本；

生成模块，用于基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型；其中，所述初始预训练模型包括所述视频编码网络、所述文本编码网络、所述注意力机制网络。

在其中一个实施例中，所述文本特征关键向量可以包括文本特征键向量和文本特征数值向量，所述第一特征融合模块还用于：

获取所述视频特征查询向量与所述文本特征键向量之间的相似度；

基于所述视频特征查询向量与所述文本特征键向量之间的相似度，对所述文本特征数值向量进行加权处理，得到处理的视频特征。

在其中一个实施例中，所述视频特征关键向量可以包括视频特征键向量和视频特征数值向量，所述第二特征融合模块还用于：

获取所述文本特征查询向量与所述视频特征键向量之间的相似度；

基于所述文本特征查询向量与所述视频特征键向量之间的相似度，对所述视频特征数值向量进行加权处理，得到处理的文本特征。

在其中一个实施例中，所述第一获取模块还用于：

获取样本原始视频及预设的掩膜矩阵；其中，所述掩膜矩阵包括像素在时间维度、空间维度对应的取值数据；

基于所述掩膜矩阵，对所述样本原始视频进行掩膜处理，得到样本掩膜视频。

在其中一个实施例中，所述第一获取模块还用于：

获取样本原始文本，并对所述样本原始文本进行分词处理，得到所述样本原始文本对应的词语集合；

从所述词语集合中获取词语及对应的屏蔽状态；其中，所述掩膜状态包括替换为预设标识、替换为其他词语以及保持不变；

基于所述词语对应的屏蔽状态，对所述词语进行掩膜处理，直至所述词语集合中所有的词语处理完毕，得到样本掩膜文本。

在其中一个实施例中，所述第一特征提取模块还用于：

基于视频编码网络，对所述样本原始视频进行分块处理，得到处理的视频块；

对所述处理的视频块进行下采样的特征提取，得到初始视频特征；

对所述初始视频特征再次进行下采样的特征提取，得到中间视频特征，对所述中间视频特征继续进行下采样的特征提取，直到满足预设要求，得到第一视频特征。

在其中一个实施例中，所述第一特征提取模块还用于：

基于窗口注意力机制网络提取所述处理的视频块的特征，得到第一视频特征；

基于局部注意力机制网络提取所述处理的视频块的特征，得到第二视频特征；其中，所述局部注意力机制网络的特征提取区域与所述窗口注意力机制网络的特征提取区域不同；

对所述第一视频特征和所述第二视频特征进行融合处理，得到中间视频特征。

在其中一个实施例中，所述第二特征提取模块还用于：

基于文本编码网络，对所述样本原始文本进行分词处理，得到处理的词语；

获取所述词语的位置信息，对所述位置信息进行编码，得到位置编码向量；

提取所述词语及对应位置编码向量的特征，得到第一文本特征。

在其中一个实施例中，所述第一特征融合模块还用于：

对所述处理的视频特征和所述第一视频特征进行融合处理，得到融合的视频特征；

将所述融合的视频特征输入至视频解码器网络，输出得到重构视频。

在其中一个实施例中，所述第二特征融合模块还用于：

对所述处理的文本特征和所述第一文本特征进行融合处理，得到融合的文本特征；

将所述融合的文本特征输入至文本解码器网络，输出得到重构文本。

在其中一个实施例中，所述生成模块还用于：

基于所述重构文本与所述样本原始文本之间的差异，确定文本损失；

基于所述重构视频与所述样本原始视频之间的差异，确定视频损失；

对所述文本损失和所述视频损失进行加权融合处理，得到联合损失；

基于所述联合损失，对初始预训练模型中的网络参数进行迭代调整。

在其中一个实施例中，所述生成模块还用于：

获取所述重构文本与所述样本原始文本之间的相似距离；

对所述相似距离进行正则化处理，得到文本损失。

第五方面，本申请还提供了一种视频分类装置，所述装置包括：

第二获取模块，用于获取待分类的视频；

分类模块，用于将所述视频输入至视频分类模型，输出所述视频的类别；其中，所述视频分类模型包括对初始视频分类模型进行网络参数调整后获得，其中，所述初始视频分类模型包括如本公开实施例中任一项所述的方法训练的预训练模型以及分类器网络。

第六方面，本申请提供一种视频检索装置，所述装置包括：

第三获取模块，用于获取待检索的视频；

检索模块，用于将所述视频输入至视频特征提取模型，输出对应的视频特征；其中，其中，所述视频特征提取模型基于本公开实施例任一项所述的方法训练的预训练模型进行网络参数调整后获得；

检索结果生成模块，用于从预设的视频特征集合中确定与所述视频特征项匹配的目标视频特征，确定与所述目标视频特征相匹配的目标视频作为检索结果。

第七方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。

第八方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。

第九方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。

上述预训练模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，通过对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，从而处理的视频特征包含了文本到视频的信息流动，有利于预训练模型深度理解视频内在的结构和语义，引导预训练模型捕捉视频动态特征。相应地，对所述文本特征查询向量和所述视频特征关键向量进行融合处理，从而处理的文本特征包含了视频到文本的信息流动，有利于预训练模型提炼和强化对文本信息的理解能力。进一步地，处理的视频特征中，视频特征查询向量来源于对样本掩膜视频的特征提取，文本特征数值向量和文本特征键向量来源于对原始文本的特征提取，其中，原始文本没有进行掩膜，包含更完整的文本信息，从而可以向处理的视频特征提供更全面的信息。相应地，处理的文本特征中，文本特征查询向量来源于对样本掩膜文本的特征提取，视频特征数值向量和视频特征键向量来源于对原始视频的特征提取，其中，原始视频没有进行掩膜，包含更完整的视频信息，从而可以向处理的文本特征提供更全面的信息。提高了预训练模型对视频、文本的理解力和表达力。此外，样本掩膜视频和样本掩膜文本的使用，有助于提高了预训练模型的抗噪能力。

附图说明

图1为一个实施例中预训练模型的训练方法的流程示意图；

图2为另一个实施例中预训练模型的训练方法的流程示意图；

图3为一个实施例中对样本原始视频进行分块处理的示意图；

图4为一个实施例中对视频块进行下采样的示意图；

图5为一个实施例中样本原始视频进行下采样和特征提取的示意图；

图6为另一个实施例中预训练模型的训练方法的流程示意图；

图7为一个实施例中基于窗口注意力机制网络特征提取的示意图；

图8为一个实施例中基于局部注意力机制网络特征提取的示意图；

图9为另一个实施例中预训练模型的训练方法的流程示意图；

图10为一个实施例中视频检索方法的流程示意图；

图11为另一个实施例中预训练模型的总体框架示意图；

图12为一个实施例中预训练模型的训练装置的结构框图；

图13为一个实施例中视频检索装置的结构框图；

图14为一个实施例中计算机设备的内部结构图；

图15为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了方便本领域技术人员理解本公开实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能与人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM, UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切。预训练模型，即是从NLP领域的大语言模型（Large Language Model）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

自动驾驶技术，指车辆在无驾驶员操作的情况下实现自行驾驶。通常包括高精地图、环境感知、计算机视觉、行为决策、路径规划、运动控制等技术。自动驾驶包括单车智能、车路协同、联网云控等多种发展路径。自动驾驶技术有着广泛的应用前景，目前的领域为物流、公共交通、出租车、智慧交通领域外，未来将得到进一步发展。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的方案涉及计算机视觉技术、自然语言处理技术和机器学习技术。

相关技术中，采用对比学习的方式得到文本图像预训练模型（CLIP，ContrastiveLanguage-Image Pre-training），该方式目标是让模型学习图像和文本描述之间的一致性映射。CLIP同时优化两种模态的嵌入空间，使得同属一个概念的图像和文本在该空间中距离尽可能接近，而不同概念的图像和文本在该空间中的距离尽可能远离。上述方式比较关注语义级别的特征，在文本图像的自监督预训练效果显著，当任务延时到三维视频与文本的预训练任务时，呈现出一定的局限性。视频包含了较丰富的语义信息，仅通过对比学习无法学习到视频中细粒度的特征信息。并且，如果使用二维图像的预训练模型参数初始化三维视频的下游任务模型，往往会舍弃一部分时间维度的信息，无法更好的理解视频内容。另一相关技术中，采用生成学习的方式得到视频预训练模型，该方式包括在自编码器中对输入的样本视频向高维空间映射，然后通过一个解码器恢复出原始图像。上述方式也存在一定的局限性，视频中存在大量噪声和无效像素，因此，解码器恢复的像素级信息可能受噪声的影响，导致难以学习视频像素级别的真实特征，也无法有效地学习视频对应的语义表征。

基于类似于上文所述的实际技术需求，本申请提供了一种预训练模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

在一个实施例中，如图1所示，提供了一种预训练模型的训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S101，获取样本原始视频及对应的样本掩膜视频，样本原始文本及对应的样本掩膜文本。

其中，样本原始视频和样本原始文本是相匹配的，样本原始文本可以用于描述对应的样本原始视频。例如，样本原始视频是关于放风筝的视频，样本原始文本可以包括：“今天我们去放风筝”。再例如，样本原始视频是关于如何制作美味披萨的视频，对应的样本原始文本可以包括标题、描述、标签等维度的描述。例如：“标题：如何制作美味披萨；描述：这个视频将向您展示如何在家中制作美味的披萨，我们将介绍所需的材料和步骤，让您轻松享受美味的披萨；标签：披萨、烹饪、食谱、美食”。

其中，样本掩膜视频可以包括对样本原始视频进行掩膜处理得到的视频。在一示例性实施例中，可以对样本原始视频整个视频帧进行掩膜处理，例如样本原始视频中的第4帧、第8帧、第16帧、第32帧…作为样本掩膜视频，样本原始视频中除上述样本掩膜视频以外的其余视频帧可以丢弃不用。在另一示例性实施例中，可以对视频帧中的视频块进行掩膜处理，例如，定义视频块的大小包括，其中，/>表示时间维度，对连续/>帧进行掩膜处理，/>表示高/>宽，即视频块对应的图像块的面积。

其中，样本掩膜文本可以包括对样本原始文本进行掩膜处理得到的文本。例如，对样本原始文本中的词语按照预设比例进行随机掩膜，例如样本原始文本可以包括、/>、…/>…/>，利用预设标记mask进行掩膜，得到样本掩膜文本：mask、/>、mask…/>…。

步骤S103，将所述样本原始视频和所述样本掩膜视频分别输入至视频编码网络，输出对应的第一视频特征和第二视频特征，将所述样本原始文本和所述样本掩膜文本分别输入至文本编码网络，输出对应的第一文本特征和第二文本特征。

具体地，所述视频编码网络可以包括变换网络（Transformer网络）、卷积神经网络以及变换网络的衍生网络，其中变换网络的衍生网络可以包括Vision Transformer网络、Swin Transformer网络等。将样本原始视频输入至视频编码网络，以使视频编码网络对该样本原始视频进行特征提取，得到第一视频特征。将样本掩膜视频输入至视频编码网络，以使视频编码网络对该样本掩膜视频进行特征提取，得到第二视频特征。

具体地，所述文本编码网络可以包括循环神经网络（RNN）、长短记忆网络（LSTM）、门控循环单元（GRU）、卷积神经网络（CNN）、变换网络、BERT网络和GPT网络等。将样本原始文本输入至文本编码网络，以使文本编码网络对该样本原始文本进行特征提取，得到第一文本特征。将样本掩膜文本输入至文本编码网络，以使文本编码网络对该样本掩膜文本进行特征提取，得到第二文本特征。

步骤S105，基于注意力机制网络，提取所述第一视频特征的视频特征关键向量，提取所述第二视频特征的视频特征查询向量；提取所述第一文本特征的文本特征关键向量，提取所述第二文本特征的文本特征查询向量。

其中，所述视频特征查询向量用于表征待查询的视频信息，所述视频特征关键向量用于表征被查询的视频信息，具体地，所述视频特征关键向量可以包括视频特征键向量和视频特征数值向量。类似地，所述文本特征查询向量用于表征待查询的文本信息，所述文本特征关键向量用于表征被查询的文本信息，具体地，所述文本特征关键向量可以包括文本特征键向量和文本特征数值向量。

在一具体的实现方式中，第一视频特征可以表示为，第二视频特征可以表示为/>，第一文本特征可以表示为/>，第二文本特征可以表示为/>。本公开实施例中，注意力机制网络可以包括第一注意力机制网络和第二注意力机制网络，其中第一注意力机制网络用于提取视频的视频特征查询向量和视频特征关键向量，第二注意力机制网络用于提取文本的文本特征查询向量和文本特征关键向量。例如：第一注意力机制网络对应的权重矩阵分别表示为查询向量矩阵/>，特征键值矩阵/>，特征值矩阵；第二注意力机制网络对应的权重矩阵分别表示为查询向量矩阵/>，特征键值矩阵，特征值矩阵/>。

在交叉注意力机制中，特征键向量用于存储一个模态特征，特征数值向量用于存储该模态特征的标识，特征查询向量用于存储另一个模态的特征。本公开实施例中，视频特征键向量，视频特征数值向量/>，视频特征查询向量。类似地，文本特征键向量/>，文本特征数值值，文本特征查询向量/>。

步骤S107，对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，并基于所述处理的视频特征得到重构视频。

具体地，所述文本特征关键向量可以包括文本特征键向量和文本特征数值向量，基于视频特征查询向量与文本特征键向量之间的距离，通过相关的权重函数，将距离映射为对应的权重分布。其中，权重函数可以包括Softmax函数、Sigmoid函数、Tanh函数、ReLU函数、Gaussian函数等。进一步地，将该权重加权于文本特征数值向量上，以获取文本方面的信息。在一示例性实施例中，将获取的文本信息与第一视频特征进行融合，例如拼接或线性处理，得到处理的视频特征。在另一示例性实施例中，将获取的文本信息与第二视频特征进行融合，例如拼接或线性处理，得到处理的视频特征。进一步地，对处理的视频特征进行解码处理，得到重构视频。

步骤S109，对所述文本特征查询向量和所述视频特征关键向量进行融合处理，得到处理的文本特征，并基于所述处理的文本特征得到重构文本。

具体地，所述视频特征关键向量可以包括视频特征键向量和视频特征数值向量，基于文本特征查询向量与视频特征键向量之间的距离，通过相关的权重函数，将距离映射为对应的权重分布。其中，权重函数可以包括Softmax函数、Sigmoid函数、Tanh函数、ReLU函数、Gaussian函数等。进一步地，将该权重加权于视频特征数值向量上，以获取视频方面的信息。在一示例性实施例中，将获取的视频信息与第一文本特征进行融合，例如拼接或线性处理，得到处理的文本特征。在另一示例性实施例中，将获取的视频信息与第二文本特征进行融合，例如拼接或线性处理，得到处理的文本特征。进一步地，对处理的文本特征进行解码处理，得到重构文本。

步骤S111，基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型；其中，所述初始预训练模型包括所述视频编码网络、所述文本编码网络、所述注意力机制网络。

具体地，重构文本与样本原始文本的差异可以通过文本损失函数进行描述，例如，文本损失函数可以通过均方误差（Mean Squared Error， MSE）、交叉熵损失（CrossEntropy Loss）、L2范数中的至少一种进行表示。重构视频与样本原始视频的差异可以通过视频损失函数进行描述，例如视频损失函数也可以通过均方误差（Mean Squared Error，MSE）、交叉熵损失（Cross Entropy Loss）、L2范数中的至少一种进行表达。

进一步地，可以基于视频损失函数和文本损失函数构建联合损失函数，例如，对视频损失函数和文本损失函数进行融合处理，得到联合损失函数，或者对视频损失函数和文本损失函数进行加权融合处理，得到联合损失函数。从而基于重构文本与所述样本原始文本的差异，对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型；其中，所述初始预训练模型包括所述视频编码网络、所述文本编码网络、所述注意力机制网络。

上述实施例中，通过对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，从而处理的视频特征包含了文本到视频的信息流动，有利于预训练模型深度理解视频内在的结构和语义，引导预训练模型捕捉视频动态特征。相应地，对所述文本特征查询向量和所述视频特征关键向量进行融合处理，从而处理的文本特征包含了视频到文本的信息流动，有利于预训练模型提炼和强化对文本信息的理解能力。进一步地，处理的视频特征中，视频特征查询向量来源于对样本掩膜视频的特征提取，文本特征数值向量和文本特征键向量来源于对原始文本的特征提取，其中，原始文本没有进行掩膜，包含更完整的文本信息，从而可以向处理的视频特征提供更全面的信息。相应地，处理的文本特征中，文本特征查询向量来源于对样本掩膜文本的特征提取，视频特征数值向量和视频特征键向量来源于对原始视频的特征提取，其中，原始视频没有进行掩膜，包含更完整的视频信息，从而可以向处理的文本特征提供更全面的信息。提高了预训练模型对视频、文本的理解力和表达力。此外，样本掩膜视频和样本掩膜文本的使用，有助于提高了预训练模型的抗噪能力。

在一个实施例中，所述文本特征关键向量可以包括文本特征键向量和文本特征数值向量，所述对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，包括：

本公开实施例中，视频特征查询向量可以表示为，文本特征键向量可以表示为，文本特征数值向量可以表示为/>，处理的视频特征可以表示为，那么，基于所述视频特征查询向量与所述文本特征键向量之间的相似度，对所述文本特征数值向量进行加权处理，得到处理的视频特征。其中，处理的视频特征/>可以表示如下：

（1）

其中，表示文本特征键向量的维度。

上述实施例中，基于所述视频特征查询向量与所述文本特征键向量之间的相似度，对所述文本特征数值向量进行加权处理，有助于向视频提供文本方面的信息，有利于预训练模型深度理解视频内在的结构和语义，提高预训练模型的理解力和表达力。

在一个实施例中，所述视频特征关键向量可以包括视频特征键向量和视频特征数值向量，所述对所述文本特征查询向量和所述视频特征关键向量进行融合处理，包括：

本公开实施例中，文本特征查询向量可以表示为，视频特征键向量可以表示为，视频特征数值向量可以表示为/>，处理的文本特征可以表示为，那么，基于所述文本特征查询向量与所述视频特征键向量之间的相似度，对所述视频特征数值向量进行加权处理，得到处理的文本特征。其中，处理的文本特征/>可以表示如下：

（2）

其中，表示视频特征键向量的维度。

上述实施例中，基于所述文本特征查询向量与所述视频特征键向量之间的相似度，对所述视频特征数值向量进行加权处理，得到处理的文本特征，有助于向文本提供视频方面的信息，有利于预训练模型提炼和强化对文本信息的理解能力。

在一个实施例中，所述获取样本原始视频及对应的样本掩膜视频，包括：

具体地，掩膜矩阵中待屏幕的视频块可以设置为预设值，例如mask。可选地，mask的值可以为0。掩膜矩阵中未屏蔽的视频块可以设置为1，表示未对样本原始视频对应像素进行修改，保持原像素值。在一示例性实施例中，掩膜矩阵可以表示为，其中，/>表示对视频帧时间维度的屏蔽，/>表示对视频帧空间维度的屏蔽，/>表示视频帧的长，/>表示视频帧的宽。

在一示例性实施例中，将掩膜矩阵与样本原始视频进行乘积处理，得到样本掩膜视频，例如待屏蔽的视频块表示为：，可以将掩膜矩阵中对应视频块中的像素置0，从而屏蔽了8帧的图像大小为/>视频内容。/>

上述实施例中，通过对样本原始视频在时间维度和空间维度的视频块进行屏蔽，有利于预训练模型对时间维度的信息的利用，提高对视频内容的理解，还可以提供预训练模型的抗噪声能力。

在一个实施例中，获取样本原始文本及对应的样本掩膜文本，包括：

具体地，对所述样本原始文本进行分词处理，得到所述样本原始文本对应的词语集合，例如词语集合可以包括、/>、/>…/>…/>，各词语对应的掩膜状态可以包括：替换为预设标记、保持不变、替换为其他词语…替换为预设标记…替换为预设标记。从而，对应的样本掩膜文本可以表示为：mask、/>、/>…mask…mask。在一示例性实施例中，可以调整掩膜状态对应的占比，得到优选的掩膜方式。可选地，样本原始文本中词语以80%的概率替换为mask，以10%的概率替换为其他词语，以10%的概率保持不变。需要说明的是，所述屏蔽状态的设置方式不限于上述举例，例如，65%的概率替换为mask，以20%的概率替换为其他词语，以15%的概率保持不变。所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。

上述实施例中，通过对样本原始文本按照下述方式：替换为预设标识、替换为其他词语以及保持不变进行处理，有利于增加预训练模型的学习难度和泛化能力。

在一个实施例中，将所述样本原始视频输入至视频编码网络，输出得到第一视频特征，包括：

步骤S201，基于视频编码网络，对所述样本原始视频进行分块处理，得到处理的视频块。

在一示例性实施例中，样本原始视频中包含了时间、长、宽、通道方面的信息，为了便于后续特征提取，本公开实施例对样本原始视频进行分块处理。具体地，参考图3所示，将样本原始视频的进行分块处理，可以将每两个视频帧作为一个视频块，每个视频块的平面大小可以为4×4的大小。然后将视频块在通道维度展平，假设通道维度是RGB三通道的图像，每个视频块有2×4×4=32个像素，特征维度变成[T/2，H/4，W/4，96]，其中，96表示通道数量，通道数量计算方式包括帧数×长×宽×通道数，即2×4×4×3。接着，将视频块在通道维度依次拼接（展平）。参考图3所示，对于一个大小为4×4的分块，为了便于理解，将每个像素进行编号0-15；将视频块在通道维度上展开，通道的长度变成96，最后对展开后的分块进行线性变换，将通道数调整为C。

步骤S203，对所述处理的视频块进行下采样的特征提取，得到初始视频特征。

在一示例性实施例中，对处理的视频块进行下采样处理，具体地，参考图4所示，假设处理的视频块拼接为一个的单通道特征图。首先，对该单通道特征图进行分割处理，分成4个/>的分块，例如，可以相同位置的像素划分在同一个分块中。接着，将这4个分块在通道维度上进行拼接，最后，可以对4个分块在通道维度做线性变换，通道数量由C变成C/2。在本实施例中，下采样处理后，处理的视频块高和宽减半，通道数量加倍。后续，可以对下采样后的视频块利用注意力机制网络进行特征提取，得到初始视频特征。

在另一示例性实施例中，也可以利用卷积神经网络对处理的视频块进行下采样和特征提取，例如，调整卷积滑动的步长，每次卷积核在输入特征图滑动距离增大时，导致输出特征图的尺寸减小。在其他实施例中，还可以利用池化层，通过池化操作减少特征图的空间尺寸等。

步骤S205，对所述初始视频特征再次进行下采样的特征提取，得到中间视频特征，对所述中间视频特征继续进行下采样的特征提取，直到满足预设要求，得到第一视频特征。

与上述实施例近似，本公开实施例，对初始视频特征再次进行下采样处理，具体地，参考图4所示，假设处理的初始视频特征拼接为一个的单通道特征图。首先，对该单通道特征图进行分割处理，分成4个/>的分块，例如，可以相同位置的像素划分在同一个分块中。接着，将这4个分块在通道维度上进行拼接，最后，可以对4个分块在通道维度做线性变换，通道数量由C变成C/2。在本实施例中，下采样处理后，初始视频特征高和宽减半，通道数量加倍。后续，可以对下采样后的初始视频特征利用注意力机制网络进行特征提取，得到中间视频特征。

在另一示例性实施例中，也可以利用卷积神经网络对初始视频特征进行下采样和特征提取，例如，调整卷积滑动的步长，每次卷积核在输入特征图滑动距离增大时，导致输出特征图的尺寸减小。在其他实施例中，还可以利用池化层，通过池化操作减少特征图的空间尺寸等。

在具体的实现过程中，还可以对中间视频特征进行下采样的特征提取，例如，参考图5所示，进行四次下采样处理。本公开实施例中，可以根据具体的应用场景，例如采样窗口满足预设要求时或采样次数满足预设要求时，停止下采样的处理，得到第一视频特征。

上述实施例，通过对样本原始视频进行分块处理，使得处理的视频块中包含了视频中的时间信息、通道信息、空间信息的融合，有利于获得更加丰富的视频内容信息。并且多次不同维度地下采样处理，既可以获得视频块宏观的内容信息，又可以获得视频块细节方面的内容信息，多尺度的特征融合，提升了模型对不同尺度特征的感知能力。

在一个实施例中，参考图6所示，所述对所述处理的视频块进行下采样的特征提取，得到初始视频特征，包括：

步骤S601，基于窗口注意力机制网络提取所述处理的视频块的特征，得到第一视频特征。

具体地，在基于窗口注意力机制网络提取所述处理的视频块的特征前，可以先对处理的视频块进行下采样处理，具体下采样的方式可以参考图4对应的实施例部分，本公开实施例在此不再进行赘述。接着，参考图7所示，对于下采样处理后的视频块，将其均分为多个窗口图像，每个窗口大小相同，均为。分别对每个窗口的特征利用多头自注意力机制进行特征提取，得到第一视频特征。

步骤S603，基于局部注意力机制网络提取所述处理的视频块的特征，得到第二视频特征；其中，所述局部注意力机制网络的特征提取区域与所述窗口注意力机制网络的特征提取区域不同。

步骤S605，对所述第一视频特征和所述第二视频特征进行融合处理，得到中间视频特征。

具体地，在基于局部注意力机制网络提取所述处理的视频块的特征前，也可以先对处理的视频块进行下采样处理，具体下采样的方式可以参考图4对应的实施例部分，本公开实施例在此不再进行赘述。接着，参考图8所示，将下采样后的视频块分割为多个窗口图像。窗口大小不同，形状也有差异。与图7相比，图8中的图像发生了偏移，可以理解成窗口由左上角分别向右侧以及下方各偏移了1/2窗口的大小。对比图7中的分割方式，图8中的分割方式能够使得图7中第一排两个窗口进行交流。再比如，图8中第二行第二列窗口，能够使得图7中四个窗口进行交流，从而促进了不同窗口之间的信息交流。分别对每个窗口的特征利用多头自注意力机制进行特征提取，得到第二视频特征。

需要说明的是，可以采用与上述实施例相同的方式提取样本掩膜视频的第二视频特征，本公开在次不再赘述。

上述实施例，通过利用不同的注意力机制网络提取处理的视频块的特征，其中，所述局部注意力机制网络的特征提取区域与所述窗口注意力机制网络的特征提取区域不同。其中，窗口注意力机制网络有利于简化处理的数据，提高计算效率，局部注意力机制网络有利增强不同窗口之间的信息交流，提高预训练模型的特征表达能力。

在一个实施例中，将所述样本原始文本输入至文本编码网络，输出得到第一文本特征，包括：

基于文本编码网络，对所述样本原始文本进行分词处理，得到处理的词语。

获取所述词语的位置信息，对所述位置信息进行编码，得到位置编码向量。

本公开实施例中，所述文本编码网络可以包括循环神经网络（RNN）、长短记忆网络（LSTM）、门控循环单元（GRU）、卷积神经网络（CNN）、变换网络、BERT网络和GPT网络等。可选地，采用预训练的BERT模型提取样本原始文本的第一文本特征。其中，BERT模型在进行预训练时，可以包括两个阶段，具体地，在第一个阶段，输入的文本序列中的一部分单词会被随机屏蔽掉，模型需要根据上下文来预测这些被屏蔽掉的单词。在第二个阶段，从语料库中随机选择一对句子，模型输出一个二分类的标签（是下一句或不是下一句），学些句子级别的语义关系。

在一示例性实施例中，训练完成的BERT网络对样本原始文本进行分词处理，得到处理的词语。为了区分不同位置的词语，为每个位置添加一个位置编码向量，以保留输入文本的顺序信息。可以利用多层Transformer编码器来处理输入文本序列。这些编码器会对输入的词嵌入向量进行多头自注意力计算和前馈神经网络处理，以捕捉单词之间的关系和语义信息。得到第一文本特征。

需要说明的是，可以采用与上述实施例相同的方式提取样本掩膜文本的第二文本特征，本公开在次不再赘述。

上述实施例，基于预训练的BERT网络完成对样本原始文本和样本掩膜文本的特征提取，借助BERT网络较强的语义理解能力，可以降低本申请预训练模型的训练复杂度。

在一个实施例中，所述基于所述处理的视频特征得到重构视频，包括：

对所述处理的视频特征和所述第一视频特征进行融合处理，得到融合的视频特征。

具体地，视频特征查询向量可以表示为，文本特征键向量可以表示为/>，文本特征数值向量可以表示为/>，处理的视频特征可以表示为/>，其表达式如式（1）所示。本公开实施例中，第一视频特征包括视频编码网络对样本原始视频进行提取后得到的第一视频特征，第一视频特征可以表示为/>。

在一示例性实施例中，可以对所述处理的视频特征和所述第一视频特征进行拼接处理，得到融合的视频特征，例如，融合的视频特征可以表示如下：

（3）

在另一示例性实施例中，可以对所述处理的视频特征和所述第一视频特征进行加权拼接处理，得到融合的视频特征，例如，融合的视频特征

可以表示如下：

（4）

本公开实施例中，将所述融合的视频特征输入至视频解码器网络，输出得到重构视频。其中，视频解码器网络可以包括前馈神经网络，如MLP（Multilayer Perceptron，多层感知网络）。视频解码器网络可以包括输入层、隐藏层、激活函数和输出层。其中，激活函数可以包括ReLU、Sigmoid、Tanh等。

上述实施例中，通过将所述融合的视频特征输入至视频解码器网络，输出得到重构视频，其中，融合的视频特征包括源自样本原始视频的第一视频特征，因此，第一视频特征具有较为完整的视频信息，从而，利用该融合的视频特征生成重构视频，可以避免梯度爆炸的问题，有助于加快预训练模型的训练速度。

在一个实施例中，基于所述处理的文本特征得到重构文本，包括：

具体地，文本特征查询向量可以表示为，视频特征键向量可以表示为/>，视频特征数值向量可以表示为/>，处理的文本特征可以表示为/>，其表达式如式（2）所示。本公开实施例中，第一文本特征包括文本编码网络对样本原始文本进行提取后得到的第一文本特征，第一文本特征可以表示为/>。

在一示例性实施例中，可以对所述处理的文本特征和所述第一文本特征进行拼接处理，得到融合的文本特征，例如，融合的视频特征可以表示如下：

（5）

在另一示例性实施例中，可以对所述处理的文本特征和所述第一文本特征进行加权拼接处理，得到融合的文本特征，例如，融合的文本特征可以表示如下：

（6）

本公开实施例中，将所述融合的文本特征输入至文本解码器网络，输出得到重构文本。其中，文本解码器网络可以包括Transformer解码器。其中，Transformer解码器可以包括自注意力层、编码-解码注意力层、前馈神经网络和位置编码等。解码过程具体采用一种称为“自回归”的策略，即在生成每个输出位置的标记时，模型会根据之前生成的标记来预测下一个标记。这种逐步生成输出的方式使得模型可以在生成序列时保持语法正确性和上下文连贯性。

上述实施例中，通过将所述融合的文本特征输入至文本解码器网络，输出得到重构文本，其中，融合的文本特征包括源自样本原始文本的第一文本特征，因此，第一文本特征具有较为完整的文本信息，从而，利用该融合的文本特征生成重构文本，可以避免梯度爆炸的问题，有助于加快预训练模型的训练速度。

在一个实施例中，参考图9所示，基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对所述视频编码网络、所述文本编码网络、所述第一注意力机制网络和所述第二注意力机制网络中的网络参数进行迭代调整，包括：

步骤S901，基于所述重构文本与所述样本原始文本之间的差异，确定文本损失。

具体地，可以基于处理的文本特征得到重构文本，例如，对所述处理的文本特征和所述第一文本特征进行融合处理，得到融合的文本特征；将所述融合的文本特征输入至文本解码器网络，输出得到重构文本。在一示例性实施例中，重构文本与样本原始文本之间的差异可以通过均方误差（Mean Squared Error， MSE）、交叉熵损失（Cross Entropy Loss）、L2范数中的至少一种进行表示。

步骤S903，基于所述重构视频与所述样本原始视频之间的差异，确定视频损失。

具体地，可以基于处理的视频特征得到重构文本，对所述处理的视频特征和所述第一视频特征进行融合处理，得到融合的视频特征；将所述融合的视频特征输入至视频解码器网络，输出得到重构视频。在一示例性实施例中，重构视频与样本原始视频之间的差异可以通过均方误差（Mean Squared Error， MSE）、交叉熵损失（Cross Entropy Loss）、L2范数中的至少一种进行表示。

步骤S905，对所述文本损失和所述视频损失进行加权融合处理，得到联合损失。

在一示例性实施例中，视频损失可以表示为，文本损失可以表示为/>，/>表示权重，联合损失/>表示如下：

（7）

步骤S911，基于所述联合损失，对初始预训练模型中的网络参数进行迭代调整。

其中，初始预训练模型至少包括视频编码网络、所述文本编码网络、所述注意力机制网络。可选地，初始预训练模型还可以包括视频解码器网络和文本解码器网络。

上述实施例，通过文本损失和视频损失的联合损失，对初始预训练模型中的网络参数进行迭代调整，可以实现无监督的学习，从而无需对样本原始视频、样本原始文本等进行预标注，提高了预训练模型的训练效率。

在一个实施例中，所述基于重构文本与所述样本原始文本之间的差异，确定文本损失，包括：

获取所述重构文本与所述样本原始文本之间的相似距离。

对所述相似距离进行正则化处理，得到文本损失。

具体地，重构文本与样本原始文本之间的相似距离可以通过欧氏距离、曼哈顿距离以及余弦相似度等。其中，正则化处理的作用在于在模型的损失函数中加入额外的惩罚以控制模型的复杂度，通常会引入一个正则化参数，用来控制正则化项在损失函数中的权重，例如L2范数。因此，在一示例性实施例中，文本损失函数可以表示如下：

（8）

其中，表示重构文本，/>表示样本原始文本与上述实施例类似地，视频损失函数/>可以表示如下：

（9）

上述实施例中，获取重构文本与所述样本原始文本之间的相似距离；对所述相似距离进行正则化处理，得到文本损失，可以提高预训练模型的泛化能力，避免在训练时过度拟合。

在一个实施例中，提供了一种视频分类方法，所述方法包括：

获取待分类的视频。

将所述视频输入至视频分类模型，输出所述视频的类别；将所述视频输入至视频分类模型，输出所述视频的类别；其中，所述视频分类模型包括对初始视频分类模型进行网络参数调整后获得，其中，所述初始视频分类模型包括如本公开实施例中任一项所述的方法训练的预训练模型以及分类器网络。

具体地，所述待分类的视频可以包括多种应用场景下的视频，又或者是视频和文本。其中，应用场景可以包括直播视频、短视频、长视频、剧集、新闻类视频等。将待分类的视频输入至视频分类模型，可以输出视频的类别。其中，视频的类别可以按照多种方式进行分类，例如按照动作或运动特征将视频分为跑步、跳舞、游泳等类别；按照场景将视频分为海滩、城市、山区等类别；按照情感将视频分为喜剧、悲剧、惊悚等；按照对象将视频分为汽车、猫、飞机等；按照语义将视频分为教育、娱乐和新闻等。需要说明的是，所述视频类别的分类方式不限于上述举例，例如，将视频分为婚礼、演唱会和运动比赛等，所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。

本公开实施例中视频分类模型基于本公开实施例任一项所述的方法训练的预训练模型结合分类器按照分类任务进行训练调参获得。其中，预训练模型具有较强的理解能力和表达能力，有效地减少了反复迭代的次数，使得视频分类模型能够较快的训练完成，并具有较强的泛化能力。

在一个实施例中，参考图10所示，提供了一种视频检索方法，其特征在于，所述方法包括：

步骤S1001，获取待检索的视频。

步骤S1003，将所述视频输入至视频特征提取模型，输出对应的视频特征；其中，所述视频特征提取模型基于本公开实施例任一项所述的方法训练的预训练模型进行网络参数调整后获得。

步骤S1005，从预设的视频特征集合中确定与所述视频特征项匹配的目标视频特征，确定与所述目标视频特征相匹配的目标视频作为检索结果。

具体地，所述待检索的视频可以包括多种应用场景下的视频，又或者是视频和文本。其中，应用场景可以包括直播视频、短视频、长视频、剧集、新闻类视频等。在一示例性实施例，将上述视频输入至视频特征提取模型，输出对应的视频特征。在一示例性实施例中，可以将视频库中的视频分别输入至视频特征提取模型，得到对应的视频特征，将各视频特征进行预先存储，可以减少视频检索的时间。

本公开实施例中视频分类模型基于本公开实施例任一项所述的方法训练的预训练模型按照具体地场景任务进行调参后获得。其中，预训练模型具有较强的理解能力和表达能力，有效地减少了反复迭代的次数，使得视频特征提取模型能够较快的训练完成，并具有较强的泛化能力。

在一个具体的实施例中，本申请方法得到的预训练模型可以应用于视觉问答、视频检索、语义分割、视频描述生成、视频分类等确定场景中。相关技术中，采用对比学习的方式得到文本图像预训练模型，上述方式比较关注语义级别的特征，在文本图像的自监督预训练效果显著，当任务延时到三维视频与文本的预训练任务时，呈现出一定的局限性。视频包含了较丰富的语义信息，仅通过对比学习无法学习到视频中细粒度的特征信息。因此，本申请提供了一种预训练模型的训练方法，能够提供一种理解和表达能力强的通用的预训练模型，进而提升模型在下游任务上的性能。

本公开实施例，提供的一种预训练模型的训练方法，参考图11所示，该方法包括如下步骤：样本掩膜视频的获取、样本掩膜文本的获取、视频特征的提取、文本特征的提取、视频特征与文本特征的融合、重构视频的生成、重构文本的生成。

样本掩膜视频的获取，具体地，掩膜矩阵中待屏幕的视频块可以设置为预设值，例如mask。可选地，mask的值可以为0。掩膜矩阵中未屏蔽的视频块可以设置为1，表示未对样本原始视频对应像素进行修改，保持原像素值。在一示例性实施例中，掩膜矩阵可以表示为其中，/>表示对视频帧时间维度的屏蔽，/>表示对视频帧空间维度的屏蔽，/>表示视频帧的长，/>表示视频帧的宽。在一示例性实施例中，将掩膜矩阵与样本原始视频进行乘积处理，得到样本掩膜视频，例如待屏蔽的视频块表示为：/>，可以将掩膜矩阵中对应视频块中的像素置0，从而屏蔽了8帧的图像大小为/>视频内容。

样本掩膜文本的获取，具体地，获取样本原始文本，并对所述样本原始文本进行分词处理，得到所述样本原始文本对应的词语集合；从所述词语集合中获取词语及对应的屏蔽状态；其中，所述掩膜状态包括替换为预设标识、替换为其他词语以及保持不变；基于所述词语对应的屏蔽状态，对所述词语进行掩膜处理，直至所述词语集合中所有的词语处理完毕，得到样本掩膜文本。可选地，样本原始文本中词语以80%的概率替换为mask，以10%的概率替换为其他词语，以10%的概率保持不变。需要说明的是，所述屏蔽状态的设置方式不限于上述举例，例如，65%的概率替换为mask，以20%的概率替换为其他词语，以15%的概率保持不变。

视频特征的提取，包括样本原始视频的特征提取、样本掩膜视频的特征提取，以样本原始视频的特征提取为例，基于视频编码网络，对所述样本原始视频进行分块处理，得到处理的视频块；对所述处理的视频块进行下采样的特征提取，得到初始视频特征；对所述初始视频特征再次进行下采样的特征提取，得到中间视频特征，对所述中间视频特征继续进行下采样的特征提取，直到满足预设要求，得到第一视频特征。在具体实现过程中，参考图3所示，将样本原始视频的进行分块处理，可以将每两个视频帧作为一个视频块，每个视频块的平面大小可以为4×4的大小。然后将视频块在通道维度展平，假设通道维度是RGB三通道的图像，每个视频块有2×4×4=32个像素，特征维度变成[T/2，H/4，W/4，96]，其中，96表示通道数量，通道数量计算方式包括帧数×长×宽×通道数，即2×4×4×3。接着，将视频块在通道维度依次拼接（展平）。最后对展开后的分块进行线性变换，将通道数调整为C。接着，参考图4所示，假设处理的视频块拼接为一个4×4的单通道特征图。首先，对该单通道特征图进行分割处理，分成4个2×2的分块，例如，可以相同位置的像素划分在同一个分块中。接着，将这4个分块在通道维度上进行拼接，最后，可以对4个分块在通道维度做线性变换，通道数量由C变成C/2。在本实施例中，下采样处理后，处理的视频块高和宽减半，通道数量加倍。后续，可以对下采样后的视频块利用注意力机制网络进行特征提取，得到初始视频特征。类似地，可以采用相同的方式对样本掩膜视频的进行特征提取，本公开在此不再进行赘述。

文本特征的提取，包括样本原始文本的特征提取和样本掩膜文本的特征提取，以样本原始文本的特征提取为例，基于文本编码网络，对所述样本原始文本进行分词处理，得到处理的词语。获取所述词语的位置信息，对所述位置信息进行编码，得到位置编码向量。提取所述词语及对应位置编码向量的特征，得到第一文本特征。可选地，采用预训练的BERT模型提取样本原始文本的第一文本特征。类似地，可以采用相同的方式对样本掩膜文本进行特征提取，本公开在此不再进行赘述。

视频特征与文本特征的融合，具体地，基于注意力机制网络，提取所述第一视频特征的视频特征关键向量，提取所述第二视频特征的视频特征查询向量；提取所述第一文本特征的文本特征关键向量，提取所述第二文本特征的文本特征查询向量。本公开实施例中，注意力机制网络可以包括第一注意力机制网络和第二注意力机制网络，其中第一注意力机制网络用于提取视频的视频特征查询向量和视频特征关键向量，第二注意力机制网络用于提取文本的文本特征查询向量和文本特征关键向量。例如：第一注意力机制网络对应的权重矩阵分别表示为查询向量矩阵，特征键值矩阵/>，特征值矩阵/>；第二注意力机制网络对应的权重矩阵分别表示为查询向量矩阵/>，特征键值矩阵/>，特征值矩阵/>。

在交叉注意力机制中，特征键向量用于存储一个模态特征，特征数值向量用于存储该模态特征的标识，特征查询向量用于存储另一个模态的特征。本公开实施例中，视频特征键向量，视频特征数值向量/>，视频特征查询向量。类似地，文本特征键向量/>，文本特征数值值，文本特征查询向量/>。基于所述视频特征查询向量与所述文本特征键向量之间的相似度，对所述文本特征数值向量进行加权处理，得到处理的视频特征。基于所述文本特征查询向量与所述视频特征键向量之间的相似度，对所述视频特征数值向量进行加权处理，得到处理的文本特征。

重构视频的生成，对所述处理的视频特征和所述第一视频特征进行融合处理，得到融合的视频特征；将所述融合的视频特征输入至视频解码器网络，输出得到重构视频。

重构文本的生成，对所述处理的文本特征和所述第一文本特征进行融合处理，得到融合的文本特征；将所述融合的文本特征输入至文本解码器网络，输出得到重构文本。

最后，基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型；其中，所述初始预训练模型包括所述视频编码网络、所述文本编码网络、所述注意力机制网络。在一示例性实施例中，可以基于处理的文本特征得到重构文本，例如，对所述处理的文本特征和所述第一文本特征进行融合处理，得到融合的文本特征；将所述融合的文本特征输入至文本解码器网络，输出得到重构文本。在一示例性实施例中，重构文本与样本原始文本之间的差异可以通过均方误差（Mean Squared Error， MSE）、交叉熵损失（Cross Entropy Loss）、L2范数中的至少一种进行表示。在一示例性实施例中，可以基于处理的视频特征得到重构文本，对所述处理的视频特征和所述第一视频特征进行融合处理，得到融合的视频特征；将所述融合的视频特征输入至视频解码器网络，输出得到重构视频。在一示例性实施例中，重构视频与样本原始视频之间的差异可以通过均方误差（Mean Squared Error， MSE）、交叉熵损失（Cross Entropy Loss）、L2范数中的至少一种进行表示。对所述文本损失和所述视频损失进行加权融合处理，得到联合损失。

本公开实施例，本申请可以用于基于视频学习的多标签识别，也能用于其他基于视频的一些下游任务中，比如视频分类，视频检索，视频低质和优质的识别等。能够为大多数基于视频的下游任务提供适应的预训练模型。

下面以视频标签为例，参照表1所示，列举未用预训练模型和使用本发明提出的视频自监督预训练框架的性能对比。

表1

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的预训练模型的训练方法的预训练模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个预训练模型的训练装置实施例中的具体限定可以参见上文中对于预训练模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种预训练模型的训练装置1200，包括：第一获取模块1201，第一特征提取模块1203，第二特征提取模块1205，第一特征融合模块1207，第二特征融合模块1209，生成模块1211，其中：

第一获取模块1201，用于获取样本原始视频及对应的样本掩膜视频，样本原始文本及对应的样本掩膜文本；

第一特征提取模块1203，用于将所述样本原始视频和所述样本掩膜视频分别输入至视频编码网络，输出对应的第一视频特征和第二视频特征，将所述样本原始文本和所述样本掩膜文本分别输入至文本编码网络，输出对应的第一文本特征和第二文本特征；

第二特征提取模块1205，用于基于注意力机制网络，提取所述第一视频特征的视频特征关键向量，提取所述第二视频特征的视频特征查询向量；提取所述第一文本特征的文本特征关键向量，提取所述第二文本特征的文本特征查询向量；

第一特征融合模块1207，用于对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，并基于所述处理的视频特征得到重构视频；

第二特征融合模块1209，用于对所述文本特征查询向量和所述视频特征关键向量进行融合处理，得到处理的文本特征，并基于所述处理的文本特征得到重构文本；

生成模块1211，用于基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对初始预训练模型中的网络参数进行迭代调整，直至满足预设要求，得到预训练模型；其中，所述初始预训练模型包括所述视频编码网络、所述文本编码网络、所述注意力机制网络。

在其中一个实施例中，所述第一获取模块还用于：

在其中一个实施例中，所述第一特征提取模块还用于：

在其中一个实施例中，所述第二特征提取模块还用于：

在其中一个实施例中，所述第一特征融合模块还用于：

在其中一个实施例中，所述第二特征融合模块还用于：

在其中一个实施例中，所述生成模块还用于：

获取所述重构文本与所述样本原始文本之间的相似距离；

对所述相似距离进行正则化处理，得到文本损失。

在一个实施例中，本申请还提供了一种视频分类装置，所述装置包括：

第二获取模块，用于获取待分类的视频；

在一个实施例中，参考图13所示，本申请提供一种视频检索装置1300，所述装置1300包括：

第三获取模块1301，用于获取待检索的视频；

检索模块1303，用于将所述视频输入至视频特征提取模型，输出对应的视频特征；其中，其中，所述视频特征提取模型基于本公开实施例任一项所述的方法训练的预训练模型进行网络参数调整后获得；

检索结果生成模块1305，用于从预设的视频特征集合中确定与所述视频特征项匹配的目标视频特征，确定与所述目标视频特征相匹配的目标视频作为检索结果。

上述预训练模型的训练装置、视频分类装置和视频检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预训练模型的训练数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预训练模型的训练方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种预训练模型的训练方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种预训练模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文本特征关键向量包括文本特征键向量和文本特征数值向量，所述对所述视频特征查询向量和所述文本特征关键向量进行融合处理，得到处理的视频特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述视频特征关键向量包括视频特征键向量和视频特征数值向量，所述对所述文本特征查询向量和所述视频特征关键向量进行融合处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取样本原始视频及对应的样本掩膜视频，包括：

5.根据权利要求1所述的方法，其特征在于，获取样本原始文本及对应的样本掩膜文本，包括：

从所述词语集合中获取词语及对应的屏蔽状态；其中，所述屏蔽状态包括替换为预设标识、替换为其他词语以及保持不变；

6.根据权利要求1所述的方法，其特征在于，将所述样本原始视频输入至视频编码网络，输出得到第一视频特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述处理的视频块进行下采样的特征提取，得到初始视频特征，包括：

8.根据权利要求1所述的方法，其特征在于，将所述样本原始文本输入至文本编码网络，输出得到第一文本特征，包括：

9.根据权利要求1所述的方法，所述基于所述处理的视频特征得到重构视频，包括：

10.根据权利要求1所述的方法，其特征在于，基于所述处理的文本特征得到重构文本，包括：

11.根据权利要求1所述的方法，所述基于重构文本与所述样本原始文本之间的差异以及所述重构视频与所述样本原始视频之间的差异，对初始预训练模型中的网络参数进行迭代调整，包括：

12.根据权利要求11所述的方法，其特征在于，所述基于重构文本与所述样本原始文本之间的差异，确定文本损失，包括：

获取所述重构文本与所述样本原始文本之间的相似距离；

对所述相似距离进行正则化处理，得到文本损失。

13.一种预训练模型的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。