CN116229332B

CN116229332B - 一种视频预训练模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116229332B
Application number: CN202310501619.XA
Authority: CN
Inventors: 范宝余; 贾麒; 李仁刚; 赵雅倩; 徐聪; 刘璐; 金良; 郭振华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-04
Anticipated expiration: 2043-05-06
Also published as: CN116229332A

Abstract

本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域，该训练方法包括：采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；将所述第三编码器作为视频预训练模型，以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量，提高了对视频预训练模型进行训练的效率。

Description

一种视频预训练模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种视频预训练模型的训练方法、训练装置、计算设备以及计算机可读存储介质。

背景技术

随着信息的技术的不断发展，人工智能模型越来越多的应用在不同的场景中，极大的提高了效率。进一步的，使用预训练模型与微调可以极大降低人工智能模型的成本。

相关技术中，视频预训练模型由于采用的数据为多模态数据，导致数据集的缺乏，降低了视频预训练模型的效率。

因此，如何提高视频预训练模型的训练效率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种视频预训练模型的训练方法、训练装置、计算设备以及计算机可读存储介质，以提高视频预训练模型的训练效率。

为解决上述技术问题，本申请提供一种视频预训练模型的训练方法，包括：

采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；

采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；

采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；

将所述第三编码器作为视频预训练模型，以利用所述视频预训练模型对视频数据进行预处理。

可选的，采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器，包括：

基于初始编码器构建所述初始视频上下文预测模型；

从视频数据中构建出所述上下文预测数据集；

采用所述初始视频上下文预测模型和所述上下文预测数据集进行模型训练，得到所述已训练的视频上下文预测模型；

将所述已训练的视频上下文预测模型中的编码器作为所述第一编码器。

可选的，所述初始视频上下文预测模型为初始连续性预测模型，基于初始编码器构建所述初始视频上下文预测模型，包括：

基于所述初始编码器和视觉预训练模型构建所述初始连续性预测模型。

可选的，从视频数据中构建出所述上下文预测数据集，包括：

从所述视频数据中切分出多个视频段，并作为正样本；

将所述多个视频段进行乱序处理，得到负样本；

将所述正样本和所述负样本作为所述上下文预测数据集。

可选的，采用所述初始视频上下文预测模型和所述上下文预测数据集进行模型训练，得到所述已训练的视频上下文预测模型，包括：

基于预设比例将所述上下文预测数据集中的正样本和负样本作为输入数据；

基于所述输入数据对所述初始连续性预测模型进行模型训练，得到所述已训练的连续性预测模型。

可选的，基于所述输入数据对所述初始连续性预测模型进行模型训练，得到所述已训练的连续性预测模型，包括：

基于所述上下文预测数据集的数据规模设置训练参数；

基于所述输入数据和所述训练参数对所述初始连续性预测模型进行模型训练，得到已训练的连续性预测模型。

可选的，所述初始视频上下文预测模型为初始内容混淆预测模型，基于初始编码器构建所述初始视频上下文预测模型，包括：

基于所述初始编码器和视觉预训练模型构建所述初始内容混淆预测模型。

可选的，若存在已训练的连续性预测模型，还包括：

从所述已训练的连续性预测模型中提取已训练编码器；

相应的，基于初始编码器构建所述初始视频上下文预测模型，包括：

基于所述已训练编码器和视觉预训练模型构建所述初始内容混淆预测模型。

对所述视频数据和另一个随机视频数据分别进行切分，得到多个原始视频段和多个随机视频段；

将多个原始视频段作为正样本；

从多个随机视频段选择部分随机视频段替换所述多个原始视频段中相同时间的视频段，得到负样本；

将所述正样本和所述负样本作为所述上下文预测数据集。

基于所述输入数据对所述初始内容混淆预测模型进行模型训练，得到所述已训练的内容混淆预测模型。

基于所述上下文预测数据集的数据规模设置训练参数；

基于所述输入数据和所述训练参数对所述初始内容混淆预测模型进行模型训练，得到已训练的内容混淆预测模型。

可选的，所述视频跨模态模型为视频音频匹配模型，采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器，包括：

采用基于所述第一编码器构建的初始视频音频匹配模型和跨模态数据集进行训练，得到已训练的视频音频匹配模型中的第二编码器。

可选的，采用基于所述第一编码器构建的初始视频音频匹配模型和跨模态数据集进行训练，得到已训练的视频音频匹配模型中的第二编码器，包括：

基于所述第一编码器和音频预训练模型构建所述初始视频音频匹配模型；

从视频数据中构建出所述跨模态数据集；

采用所述初始视频音频匹配模型和所述跨模态数据集进行模型训练，得到所述已训练的视频音频匹配模型；

将所述已训练的视频音频匹配模型中的编码器作为所述第二编码器。

可选的，基于所述第一编码器和音频预训练模型构建所述初始视频音频匹配模型，包括：

基于所述第一编码器和视觉预训练模型构建出双塔模型的左侧部分；

将所述左侧部分和音频预训练模型组合，得到所述初始视频音频匹配模型。

可选的，从视频数据中构建出所述跨模态数据集，包括：

对所述视频数据进行音频分类，得到视频部分和音频部分；

将所述视频部分和所述音频部分作为正样本；

从其他视频数据中抽取音频部分，并作为负样本；

将所述正样本和所述负样本作为所述跨模态数据集。

可选的，采用所述初始视频音频匹配模型和所述跨模态数据集进行模型训练，得到所述已训练的视频音频匹配模型，包括：

基于预设比例将所述跨模态数据集中的正样本和负样本作为输入数据；

基于所述输入数据对所述初始视频音频匹配模型进行模型训练，得到所述已训练的视频音频匹配模型。

可选的，基于所述输入数据对所述初始视频音频匹配模型进行模型训练，得到所述已训练的视频音频匹配模型，包括：

基于所述跨模态数据集的数据规模设置训练参数；

基于所述训练参数和所述输入数据对所述初始视频音频匹配模型进行模型训练，得到所述已训练的视频音频匹配模型。

可选的，所述内容识别模型为视频物体预测模型，采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器，包括：

采用基于所述第二编码器构建的初始视频物体预测模型和内容识别数据集进行训练，得到已训练的视频物体预测模型中的第三编码器。

可选的，采用基于所述第二编码器构建的初始视频物体预测模型和内容识别数据集进行训练，得到已训练的视频物体预测模型中的第三编码器，包括：

基于所述第二编码器和语言预训练模型构建所述初始视频物体预测模型；

从视频数据中构建出所述内容识别数据集；

采用所述初始视频物体预测模型和所述内容识别数据集进行模型训练，得到所述已训练的视频物体预测模型；

将所述已训练的视频物体预测模型中的编码器作为所述第三编码器。

可选的，基于所述第二编码器和语言预训练模型构建所述初始视频物体预测模型，包括：

基于所述第二编码器和视觉预训练模型构建出双塔模型的左侧部分；

将所述左侧部分和语言预训练模型组合，得到所述初始视频物体预测模型。

可选的，从视频数据中构建出所述内容识别数据集，包括：

对所述视频数据进行随机帧抽取处理，得到多个帧；

采用目标检测模型对所述多个帧进行检测，得到每个所述帧中的物体；

按照出现频次对所有所述帧中的物体从高频次到低频次进行排序，将排序前五的物体作为预测目标；

将所述预测目标和所述视频数据作为所述内容识别数据集。

可选的，采用所述初始视频物体预测模型和所述内容识别数据集进行模型训练，得到所述已训练的视频物体预测模型，包括：

将所述内容识别数据集作为输入数据；

采用自回归的方式和所述输入数据对所述初始视频物体预测模型进行模型训练，得到所述已训练的视频物体预测模型。

可选的，采用自回归的方式和所述输入数据对所述初始视频物体预测模型进行模型训练，得到所述已训练的视频物体预测模型，包括：

基于所述内容识别数据集的数据规模设置训练参数；

基于所述输入数据、所述训练参数、自回归的方式对所述初始视频物体预测模型进行模型训练，得到所述已训练的视频物体预测模型。

本申请还提供一种视频预训练模型的训练装置，包括：

上下文预测训练模块，用于采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；

跨模态训练模块，用于采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；

内容识别训练模块，用于采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；

模型获取模块，用于将所述第三编码器作为视频预训练模型，以利用所述视频预训练模型对视频数据进行预处理。

本申请还提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的训练方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的训练方法的步骤。

本申请所提供的一种视频预训练模型的训练方法，包括：采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；将所述第三编码器作为视频预训练模型，以利用所述视频预训练模型对视频数据进行预处理。

通过先在视频上下文预测的角度进行训练，得到第一编码器，然后在视频跨模态的角度对第一编码器再进行训练，得到第二编码器，最后在内容识别的角度对第二编码器进行训练，得到第三编码器，实现了从简单到复杂的训练过程，在相同效果的情况下减少了数据集的数量，提高了对视频预训练模型进行训练的效率。

本申请还提供一种视频预训练模型的训练装置、计算设备以及计算机可读存储介质，具有以上有益效果，在此不作赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种视频预训练模型的训练方法的流程图；

图2为本申请实施例所提供的一种视频预训练模型的训练方法的连续性预测模型的结构示意图；

图3为本申请实施例所提供的一种视频预训练模型的训练方法的内容混淆预测模型的结构示意图；

图4为本申请实施例所提供的一种视频预训练模型的训练方法的视频音频匹配模型的结构示意图；

图5为本申请实施例所提供的一种视频预训练模型的训练方法的视频物体预测模型的结构示意图；

图6为本申请实施例所提供的一种视频预训练模型的训练装置的结构示意图；

图7为本申请实施例所提供的一种计算设备的结构示意图。

具体实施方式

本申请的核心是提供一种视频预训练模型的训练方法、训练装置、计算设备以及计算机可读存储介质，以提高视频预训练模型的训练效率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，本申请提供一种视频预训练模型的训练方法，通过先在视频上下文预测的角度进行训练，得到第一编码器，然后在视频跨模态的角度对第一编码器再进行训练，得到第二编码器，最后在内容识别的角度对第二编码器进行训练，得到第三编码器，实现了从简单到复杂的训练过程，在相同效果的情况下减少了数据集的数量，提高了对视频预训练模型进行训练的效率。

以下通过一个实施例，对本申请提供的一种视频预训练模型的训练方法进行说明。

请参考图1，图1为本申请实施例所提供的一种视频预训练模型的训练方法的流程图。

本实施例中，该方法可以包括：

S101，采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；

本步骤旨在采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器。

其中，视频上下文预测模型主要是对视频中内容的上下文关系进行预测的模型。可以是连续性预测模型，也可以是内容混淆预测模型。

其中，采用的上下文预测数据集可以基于具体模型的任务类型进行设定。如果是连续性预测则设置连续性相关的数据集，如果是内容混淆预测则设置内容混淆的数据集，在此不做具体限定。

进一步的，本步骤可以包括：

步骤1，基于初始编码器构建初始视频上下文预测模型；

步骤2，从视频数据中构建出上下文预测数据集；

步骤3，采用初始视频上下文预测模型和上下文预测数据集进行模型训练，得到已训练的视频上下文预测模型；

步骤4，将已训练的视频上下文预测模型中的编码器作为第一编码器。

可见，本可选方案中主要是说明如何对视频上下文预测模型进行训练。其中，首先是构建初始视频上下文预测模型，然后从视频数据中自动获取到上下文预测数据集，最后进行训练得到已训练的视频上下文预测模型。可见，通过自动获取上下文预测数据集提高了训练的效率，同时避免人工进行标注，提高了训练的速度。

进一步的，如果是连续性预测模型，那么本步骤可以包括：

步骤1，基于初始编码器和视觉预训练模型构建初始连续性预测模型；

步骤2，从视频数据中切分出多个视频段，并作为正样本；

步骤2，将多个视频段进行乱序处理，得到负样本；

步骤3，将正样本和负样本作为上下文预测数据集；

步骤4，基于预设比例将上下文预测数据集中的正样本和负样本作为输入数据；

步骤5，基于输入数据对初始连续性预测模型进行模型训练，得到已训练的连续性预测模型；

步骤6，将已训练的连续性预测模型中的编码器作为第一编码器。

可见，本可选方案中主要是说明如何对连续性预测模型进行训练。本可选方案中，采用的视觉预训练模型可以是ResNet50（ResidualNetwork，残差网络50）模型。进一步的，通过从视频数据中切分出多个视频段，并作为正样本；将多个视频段进行乱序处理，得到负样本；将正样本和负样本作为上下文预测数据集，实现自动获取到上下文预测数据集，也就是获取到连续性预测数据集，提高了进行训练的效率。

进一步的，该可选方案中的步骤5可以包括：

步骤5.1，基于上下文预测数据集的数据规模设置训练参数；

步骤5.2，基于输入数据和训练参数对初始连续性预测模型进行模型训练，得到已训练的连续性预测模型。

可见，本可选方案中主要是说明如何训练模型。其中，训练参数包括但不限于batchsize（批处理大小）、Dropout（随机失活概率）、学习率、epoch（训练次数）。举例来说，batchsize：64；Dropout：0.6；学习率：1e-5；训练40个epoch。

进一步的，如果是内容混淆预测模型，那么本步骤可以包括：

步骤1，基于初始编码器和视觉预训练模型构建初始内容混淆预测模型。

步骤2，对视频数据和另一个随机视频数据分别进行切分，得到多个原始视频段和多个随机视频段；

步骤3，将多个原始视频段作为正样本；

步骤4，从多个随机视频段选择部分随机视频段替换多个原始视频段中相同时间的视频段，得到负样本；

步骤5，将正样本和负样本作为上下文预测数据集。

步骤6，基于预设比例将上下文预测数据集中的正样本和负样本作为输入数据；

步骤7，基于输入数据对初始内容混淆预测模型进行模型训练，得到已训练的内容混淆预测模型。

步骤8，将已训练的内容混淆预测模型中的编码器作为第一编码。

可见，本可选方案中主要是说明如何对内容混淆预测模型进行训练。本可选方案中，对视频数据和另一个随机视频数据分别进行切分，得到多个原始视频段和多个随机视频段；将多个原始视频段作为正样本；从多个随机视频段选择部分随机视频段替换多个原始视频段中相同时间的视频段，得到负样本；将正样本和负样本作为上下文预测数据集。也就是，得到了采用混淆后的视频段的负样本，以便训练编码器的上下文顺序预测的能力。

可选的，若存在已训练的连续性预测模型，还可以包括：

从已训练的连续性预测模型中提取已训练编码器；

相应的，基于初始编码器构建初始视频上下文预测模型，包括：

基于已训练编码器和视觉预训练模型构建初始内容混淆预测模型。也就是说，可以先训练连续性预测模型，并将连续性预测模型中的已训练编码器作为构建内容混淆预测模型的编码器。进一步的，提高编码器对于视频的上下文顺序进行预测的准确性。

可选的，步骤7可以包括：

步骤7.1，基于上下文预测数据集的数据规模设置训练参数；

步骤7.2，基于输入数据和训练参数对初始内容混淆预测模型进行模型训练，得到已训练的内容混淆预测模型。

可见，本可选方案中主要是说明如何训练模型。其中，训练参数包括但不限于batchsize（批处理大小）、Dropout（随机失活概率）、学习率、epoch（训练次数）。举例来说，batchsize：32；Dropout：0.5；学习率：1e-5；训练30个epoch。

S102，采用基于第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；

在S101的基础上，本步骤旨在采用基于第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器。

也就是说，在上一步骤中训练了编码器针对上下文顺序进行处理的能力，本步骤中主要是对编码器的多模态处理能力进行训练。

其中，初始视频跨模态模型可以是视频音频匹配模型。

进一步的，视频跨模态模型为视频音频匹配模型，本步骤可以包括：

采用基于第一编码器构建的初始视频音频匹配模型和跨模态数据集进行训练，得到已训练的视频音频匹配模型中的第二编码器。

步骤1，基于第一编码器和音频预训练模型构建初始视频音频匹配模型；

步骤2，从视频数据中构建出跨模态数据集；

步骤3，采用初始视频音频匹配模型和跨模态数据集进行模型训练，得到已训练的视频音频匹配模型；

步骤4，将已训练的视频音频匹配模型中的编码器作为第二编码器。

可见，本可选方案中主要是说明如何训练视频音频匹配模型，得到第二编码器。其中，基于第一编码器和音频预训练模型构建初始视频音频匹配模型，该音频预训练模型可以采用Wav2vec（音频模型）模型。

进一步的，本步骤可以包括：

步骤1，基于第一编码器和视觉预训练模型构建出双塔模型的左侧部分；

步骤2，将左侧部分和音频预训练模型组合，得到初始视频音频匹配模型；

步骤3，对视频数据进行音频分类，得到视频部分和音频部分；

步骤4，将视频部分和音频部分作为正样本；

步骤5，从其他视频数据中抽取音频部分，并作为负样本；

步骤6，将正样本和负样本作为跨模态数据集；

步骤7，基于预设比例将跨模态数据集中的正样本和负样本作为输入数据；

步骤8，基于输入数据对初始视频音频匹配模型进行模型训练，得到已训练的视频音频匹配模型；

步骤9，将已训练的视频音频匹配模型中的编码器作为第二编码器。

可见，本可选方案中主要是说明如何训练视频音频匹配模型。本可选方案中，对视频数据进行音频分类，得到视频部分和音频部分；将视频部分和音频部分作为正样本；从其他视频数据中抽取音频部分，并作为负样本；将正样本和负样本作为跨模态数据集。也就是，将其他视频中的音频作为负样本中的音频，以便训练出模型判断音频内容是否匹配。

可选的，该可选方案中的步骤8可以包括：

步骤8.1，基于跨模态数据集的数据规模设置训练参数；

步骤8.2，基于训练参数和输入数据对初始视频音频匹配模型进行模型训练，得到已训练的视频音频匹配模型。

S103，采用基于第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；

在S102的基础上，本步骤旨在采用基于第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器。

也就是说，在上述训练的基础上，本步骤对于训练内容进一步的加深，训练该编码器的内容识别能力。

其中，内容识别模型可以是视频物体预测模型。

进一步的，本步骤中内容识别模型为视频物体预测模型，本步骤可以包括：

采用基于第二编码器构建的初始视频物体预测模型和内容识别数据集进行训练，得到已训练的视频物体预测模型中的第三编码器。

进一步的，该步骤可以包括：

步骤1，基于第二编码器和语言预训练模型构建初始视频物体预测模型；

步骤2，从视频数据中构建出内容识别数据集；

步骤3，采用初始视频物体预测模型和内容识别数据集进行模型训练，得到已训练的视频物体预测模型；

步骤4，将已训练的视频物体预测模型中的编码器作为第三编码器。

可见，本可选方案中主要是说明如何训练视频物体预测模型。本可选方案中，语言预训练模型可以采用GPT（GereratePre-TrainingModel，生成预训练模型）模型。其中，从视频数据中构建出内容识别数据集的过程，可以采用目标检测模型对视频中的内容进行识别并标注。

进一步的，该步骤可以包括：

步骤1，基于第二编码器和视觉预训练模型构建出双塔模型的左侧部分；

步骤2，将左侧部分和语言预训练模型组合，得到初始视频物体预测模型；

步骤3，对视频数据进行随机帧抽取处理，得到多个帧；

步骤4，采用目标检测模型对多个帧进行检测，得到每个帧中的物体；

步骤5，按照出现频次对所有帧中的物体从高频次到低频次进行排序，将排序前五的物体作为预测目标；

步骤6，将预测目标和视频数据作为内容识别数据集；

步骤7，将内容识别数据集作为输入数据；

步骤8，采用自回归的方式和输入数据对初始视频物体预测模型进行模型训练，得到已训练的视频物体预测模型；

步骤9，将已训练的视频物体预测模型中的编码器作为第三编码器。

可见，本可选方案中主要是说明如何训练视频物体预测模型。本可选方案中，对视频数据进行随机帧抽取处理，得到多个帧；采用目标检测模型对多个帧进行检测，得到每个帧中的物体；按照出现频次对所有帧中的物体从高频次到低频次进行排序，将排序前五的物体作为预测目标；将预测目标和视频数据作为内容识别数据集。也就是，通过目标检测模型将视频中出现最多次数的物体进行标注，以便训练编码器对内容识别的能力。

可选的，该可选方案中的步骤8可以包括：

步骤8.1，基于内容识别数据集的数据规模设置训练参数；

步骤8.2，基于输入数据、训练参数、自回归的方式对初始视频物体预测模型进行模型训练，得到已训练的视频物体预测模型。

可见，本可选方案中主要是说明如何训练模型。其中，训练参数包括但不限于batchsize（批处理大小）、Dropout（随机失活概率）、学习率、epoch（训练次数）。举例来说，batchsize：32；Dropout：0.5；学习率：1e-5；训练20个epoch。

S104，将第三编码器作为视频预训练模型，以利用视频预训练模型对视频数据进行预处理。

在S103的基础上，本步骤旨在将第三编码器作为视频预训练模型，以便利用该视频预训练模型对视频数据进行预处理，包括视频上下文预测、视频内容混淆预测、内容识别等处理。也就是将最后训练得到的编码器作为视频预训练模型。其中，该编码器就是视频特征编码器。

可见，本实施例中模型的构建和训练是存在先后顺序的，首先，基于初始视频上下文预测模型训练得到类型为单流模型的视频上下文预测模型，单流模型使用一个特征编码器统一完成，初始视频上下文预测模型可以为初始连续性预测模型，训练后的连续性预测模型用于执行视频内容连续性预测任务；初始视频上下文预测模型还可以为初始内容混淆预测模型，训练后的内容混淆预测模型用于执行视频内容混淆预测任务。然后，在视频上下文预测模型中的第一编码器的基础上，结合其他模型训练得到类型为双塔模型的视频跨模态模型，双塔模型使用两个模型分别进行特征编码，最后交互编码衡量匹配度，视频跨模态模型具体可以为视频音频匹配模型，训练后的视频音频匹配模型用于执行视频与音频的匹配任务。最后，在视频跨模态模型中的第二编码器的基础上，结合其他模型训练得到类型为序列到序列模型的初始内容识别模型，序列到序列模型能够根据输入视频流生成相关语义序列，上述初始内容识别模型可以为视频物体预测模型，视频物体预测模型用于执行视频中场景物体预测任务。即模型构建和训练依次为视频上下文预测模型、视频跨模态模型、内容识别模型，并且后续模型的构建是在前一个模型的编码器的基础上，这是考虑到从视频上下文预测模型到视频跨模态模型再到内容识别模型，模型解决的任务由易到难，因此先完成简单任务模型的构建，在此基础上再构建复杂模型，便于提高后面模型的预测能力。

综上，本实施例通过先在视频上下文预测的角度进行训练，得到第一编码器，然后在视频跨模态的角度对第一编码器再进行训练，得到第二编码器，最后在内容识别的角度对第二编码器进行训练，得到第三编码器，实现了从简单到复杂的训练过程，在相同效果的情况下减少了数据集的数量，提高了对视频预训练模型进行训练的效率。

以下通过另一具体的实施例，对本申请提供一种视频预训练模型的训练方法做进一步说明。

本实施例中的视频预训练模型主要是针对视频数据进行预处理。

其中，视频数据是一种流式数据，由有时序的连续图片组成，其基本元素为帧，是视频中最小单位的单幅影像画面，每一帧都是静止的图像，快速连续地显示帧便形成了视频。帧速率，也叫帧率，简单地说，就是在1秒钟时间里包含的单帧图像的数量，通常用fps（FramesPerSecond，每秒帧数）表示。通常视频的帧率为25-30fps。视频往往还会有与帧同步的音频数据，其内容的表达是与视频一致的，即具有语义一致性。

首先对视频预训练模型的自监督进行任务设计。

（1）视频内容连续性预测任务的设计可以如下：

将视频分为多段，并打乱前后顺序，预测视频顺序是否打乱。

数据集构建：

Step1：将视频i随机切分为3段，包括（v_i,1，v_i,2，v_i,3）。

Step2：原始视频作为正样本。将切分的视频随机选择其中两个进行交换，作为负样本。例如（v_i,2，v_i,1，v_i,3）。

Step3：随机抽样构建正负样本1:1数据集。

任务输入：视频X。

输出：二分类，类别0代表打乱，类别1代表正序。

（2）视频内容混淆预测任务的设计可以如下：

将视频分段后，互相组合，预测视频是否出现混淆内容。

数据集构建：

Step1：随机将视频i切分为两段（v_i,1，v_i,2）。

Step2：原始视频作为正样本。随机选择另一个视频j，将视频j同样切分为两段（v_j,1，v_j,2），选择其中一段替换视频i中后一段，例如（v_i,1，v_j,2）。

Step3：随机抽样构建正负样本1:1数据集。

任务输入：视频X。

输出：二分类，类别0代表混淆，类别1代表正确。

（3）视频与音频匹配任务的设计可以如下：

将视频与音频数据分离，预测视频与音频是否一致语义表达。

数据集构建：

Step1：分离音频数据。

Step2：以原始相互匹配的视频和音频作为正样本，取其他视频抽取得到的音频作为负样本。

Step3：通过随机抽样，构建正负样本1:1的数据集。

任务输入：视频X，音频Y。

输出：二分类，类别0代表不匹配，类别1代表匹配。

（4）视频中场景物体预测任务的设计可以如下：

从视频中预测出现的物体。

数据集构建：

Step1：对视频每秒随机抽取3帧，按序排列。

Step2：使用目标检测模型，如YOLOv3，检测各个帧中出现的物体。

Step3：对检测出的物体，按频次由高到低排列，取前五为预测目标。

任务输入：视频X。

输出：物品集合。

进一步的，视频数据可以理解为图片的序列，然而由于视频在时间方向是是有冗余性的，原因在于相邻的帧可能图片变化细微，因此首先需要对视频进行抽帧处理。本实施例为了统一不同长度的视频，对每个视频按照相同的间隔抽取512帧图片，按时序排列，即长度为512的图片序列。之后，对于每个图片使用ResNet50模型，获得对应的向量特征。

对于图片预训练模型，本实施例根据自监督任务的不同分别设计，一种是单流模型，即模型使用一个特征编码器统一完成；一种是双塔模型，即使用两个模型分别进行特征编码，最后交互编码衡量匹配度；一种是Seq2Sep（序列到序列）模型，即序列到序列模型，输入视频流生成相关语义序列。

其中，单流模型的任务包括：视频内容连续性预测任务、视频内容混淆预测任务。

请参考图2，图2为本申请实施例所提供的一种视频预训练模型的训练方法的连续性预测模型的结构示意图。

对于视频内容的连续性预测模型，输入视频抽帧后，长度为512的图片序列，经过ResNet视觉预训练模型编码后，得到特征向量，再与位置向量进行加和（位置向量是在使用三角函数计算得到），在序列的前后分别加上[CLS]（全局字符）和[SEP]（结束字符）分别表示序列的全局字符和结束字符。之后将特征输入典型的Transformer（编码器）网络，经过特征编码后，使用全局特征表示T[CLS]输入分类器，得到视频内容连续性预测的预测结果。

请参考图3，图3为本申请实施例所提供的一种视频预训练模型的训练方法的内容混淆预测模型的结构示意图。

对于内容混淆预测模型，与视频内容连续性预测任务相同，经过ResNe以及与位置向量进行加和得到特征向量表示，在序列的前后分别加上[CLS]和[SEP]分别表示序列的全局字符和结束字符。不同的是，在两段拼接直接插入一个[CON]字符，用来表示视频的拼接位置，之后将特征输入典型的Transformer网络，经过特征编码后，使用全局特征表示T[CLS]输入分类器，得到视频内容混淆预测的结果。

其中，双塔模型的任务包括：视频与音频匹配任务。

请参考图4，图4为本申请实施例所提供的一种视频预训练模型的训练方法的视频音频匹配模型的结构示意图。

对于视频音频匹配模型的双塔模型的左侧是与单流模型相同的视频特征编码器，使用[CLS]作为视频的特征表示，右侧是选用Wav2vec音频预训练模型，改部分参数冻结不参与训练，输入音频得到音频的特征向量。之后将两个特征进行点积得到交互特征表示，之后通过一个二分类器，预测模型与视频是否匹配。

其中，Sep2Seq模型的任务包括：视频中场景物体预测任务。

请参考图5，图5为本申请实施例所提供的一种视频预训练模型的训练方法的视频物体预测模型的结构示意图。

对于视频物体预测模型，在视频的特征编码部分与单流模型相同，如图5中模型左侧，不同的是在右侧解码器部分，使用GPT语言预训练模型，这部分在训练过程中不做梯度更新，编码器将CLS（分类器）的向量作为对视频的特征输入到解码器，根据数据集对每个物体的词逐个进行预测。

可见，本实施例中的四个任务：视频内容连续性预测任务、视频内容混淆预测任务、视频与音频匹配任务、视频中场景物体预测任务。这些任务难度逐渐增加，对视频内容理解程度逐渐加深，因此训练的策略也要相应调整，逐渐加深模型对视频的理解能力。

因此，本实施例中的训练策略可以包括：

步骤1，视频内容连续性预测任务与视频内容混淆预测任务因为模型本质基本相同，且两个任务的提出，都是围绕视频帧的时序依赖关系建模。

具体模型的设置：

batchsize：64，每个任务在batchsize中，两个任务数据比例为1:1。

Dropout：0.6。

学习率：1e-5。

二分类Classifier使用sigmoid函数，优化器使用AdamW。

训练40个epoch。

训练后得到了视频预训练模型（步骤1）。

步骤2，视频与音频匹配任务关注的是视频与音频语义的一致性，通过拉进它们直接的语义特征强化视频理解能力。在训练时，将视频预训练（步骤1）的编码器加载到模型双塔的左侧部分，右侧使用Wav2vec音频预训练模型，读入语音得到音频的特征，最后通过与代表视频全局特征的[CLS]特征向量进行点积作为交互特征，输入分类器推理视频和音频直接的匹配关系。

具体模型的设置：

batchsize：32。

Dropout：0.5。

学习率：1e-5。

二分类Classifier（分类器）使用sigmoid（分类函数）函数，优化器使用AdamW（一种优化器）。

训练30个epoch。

训练后保留左侧的编码器部分，得到了视频预训练模型（步骤2）。

步骤3，视频中场景物体预测任务目的是增强对视频内容的理解，并建立与文本之间的语义关联关系。在训练时，将视频预训练（Step2）加载到模型左侧的编码器部分，右侧使用GPT模型，以自回归0的方式逐个预测视频中的物体名字，既实现了对视频的理解，也建立了视频与文本之间的关联。

具体模型的设置：

batchsize：32。

Dropout：0.5。

学习率：1e-6。

优化器使用AdamW。

训练20个epoch。

训练后保留双塔模型中左侧的编码器部分，得到了最终的视频预训练模型。

进一步的，得到的视频预训练模型可以用于下游与视频有关的任务，包括视频分类，动作视频，视频描述生成，视频QA（QualityAssurance，质量保证）等。

可见，本实施例通过先在视频上下文预测的角度进行训练，得到第一编码器，然后在视频跨模态的角度对第一编码器再进行训练，得到第二编码器，最后在内容识别的角度对第二编码器进行训练，得到第三编码器，实现了从简单到复杂的训练过程，在相同效果的情况下减少了数据集的数量，提高了对视频预训练模型进行训练的效率。

下面对本申请实施例提供的视频预训练模型的训练装置进行介绍，下文描述的视频预训练模型的训练装置与上文描述的视频预训练模型的训练方法可相互对应参照。

请参考图6，图6为本申请实施例所提供的一种视频预训练模型的训练装置的结构示意图。

本实施例中，该装置可以包括：

上下文预测训练模块100，用于采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；

跨模态训练模块200，用于采用基于第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；

内容识别训练模块300，用于采用基于第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；

模型获取模块400，用于将第三编码器作为视频预训练模型，以利用所述视频预训练模型对视频数据进行预处理。

可选的，该上下文预测训练模块100，具体用于基于初始编码器构建初始视频上下文预测模型；从视频数据中构建出上下文预测数据集；采用初始视频上下文预测模型和上下文预测数据集进行模型训练，得到已训练的视频上下文预测模型；将已训练的视频上下文预测模型中的编码器作为第一编码器。

可选的，该跨模态训练模块200，具体用于基于第一编码器和音频预训练模型构建初始视频音频匹配模型；从视频数据中构建出跨模态数据集；采用初始视频音频匹配模型和跨模态数据集进行模型训练，得到已训练的视频音频匹配模型；将已训练的视频音频匹配模型中的编码器作为第二编码器。

可选的，该内容识别训练模块300，具体用于基于第二编码器和语言预训练模型构建初始视频物体预测模型；从视频数据中构建出内容识别数据集；采用初始视频物体预测模型和内容识别数据集进行模型训练，得到已训练的视频物体预测模型；将已训练的视频物体预测模型中的编码器作为第三编码器。

本申请还提供了一种计算设备，请参考图7，图7为本申请实施例所提供的一种计算设备的结构示意图，该计算设备可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时可实现如上述任意一种视频预训练模型的训练方法的步骤。

如图7所示，为计算设备的组成结构示意图，计算设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器（CentralProcessingUnit，CPU）、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行异常IP识别方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能所需的应用程序等；存储数据区可存储使用过程中所创建的数据。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图7所示的结构并不构成对本申请实施例中计算设备的限定，在实际应用中计算设备可以包括比图7所示的更多或更少的部件，或者组合某些部件。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如上述任意一种视频预训练模型的训练方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种视频预训练模型的训练方法、训练装置、计算设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种视频预训练模型的训练方法，其特征在于，包括：

采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；所述初始视频上下文预测模型为基于初始编码器和视觉预训练模型构建的，所述视频上下文预测模型的类型为单流模型；

采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；所述初始视频跨模态模型为初始视频音频匹配模型；所述初始视频音频匹配模型为基于所述第一编码器和视觉预训练模型构建出双塔模型的左侧部分，并将所述左侧部分和音频预训练模型组合得到的；所述视频跨模态模型的类型为双塔模型；

采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；所述初始内容识别模型为初始视频物体预测模型；所述初始视频物体预测模型为基于所述第二编码器和视觉预训练模型构建出双塔模型的左侧部分，并将所述左侧部分和语言预训练模型组合得到的；所述初始视频物体预测模型的类型为双塔模型；

2.根据权利要求1所述的训练方法，其特征在于，采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器，包括：

基于初始编码器构建所述初始视频上下文预测模型；

从视频数据中构建出所述上下文预测数据集；

3.根据权利要求2所述的训练方法，其特征在于，所述初始视频上下文预测模型为初始连续性预测模型，基于初始编码器构建所述初始视频上下文预测模型，包括：

4.根据权利要求3所述的训练方法，其特征在于，从视频数据中构建出所述上下文预测数据集，包括：

从所述视频数据中切分出多个视频段，并作为正样本；

将所述多个视频段进行乱序处理，得到负样本；

将所述正样本和所述负样本作为所述上下文预测数据集。

5.根据权利要求3所述的训练方法，其特征在于，采用所述初始视频上下文预测模型和所述上下文预测数据集进行模型训练，得到所述已训练的视频上下文预测模型，包括：

基于所述输入数据对所述初始连续性预测模型进行模型训练，得到已训练的连续性预测模型。

6.根据权利要求5所述的训练方法，其特征在于，基于所述输入数据对所述初始连续性预测模型进行模型训练，得到所述已训练的连续性预测模型，包括：

基于所述上下文预测数据集的数据规模设置训练参数；

7.根据权利要求2所述的训练方法，其特征在于，所述初始视频上下文预测模型为初始内容混淆预测模型，基于初始编码器构建所述初始视频上下文预测模型，包括：

8.根据权利要求7所述的训练方法，其特征在于，若存在已训练的连续性预测模型，还包括：

从所述已训练的连续性预测模型中提取已训练编码器；

9.根据权利要求7或8所述的训练方法，其特征在于，从视频数据中构建出所述上下文预测数据集，包括：

将多个原始视频段作为正样本；

将所述正样本和所述负样本作为所述上下文预测数据集。

10.根据权利要求9所述的训练方法，其特征在于，采用所述初始视频上下文预测模型和所述上下文预测数据集进行模型训练，得到所述已训练的视频上下文预测模型，包括：

基于所述输入数据对所述初始内容混淆预测模型进行模型训练，得到已训练的内容混淆预测模型。

11.根据权利要求10所述的训练方法，其特征在于，基于所述输入数据对所述初始内容混淆预测模型进行模型训练，得到已训练的内容混淆预测模型，包括：

基于所述上下文预测数据集的数据规模设置训练参数；

12.根据权利要求1所述的训练方法，其特征在于，采用基于所述第一编码器构建的初始视频音频匹配模型和跨模态数据集进行训练，得到已训练的视频音频匹配模型中的第二编码器，包括：

从视频数据中构建出所述跨模态数据集；

13.根据权利要求12所述的训练方法，其特征在于，从视频数据中构建出所述跨模态数据集，包括：

对所述视频数据进行音频分类，得到视频部分和音频部分；

将所述视频部分和所述音频部分作为正样本；

从其他视频数据中抽取音频部分，并作为负样本；

将所述正样本和所述负样本作为所述跨模态数据集。

14.根据权利要求12所述的训练方法，其特征在于，采用所述初始视频音频匹配模型和所述跨模态数据集进行模型训练，得到所述已训练的视频音频匹配模型，包括：

15.根据权利要求14所述的训练方法，其特征在于，基于所述输入数据对所述初始视频音频匹配模型进行模型训练，得到所述已训练的视频音频匹配模型，包括：

基于所述跨模态数据集的数据规模设置训练参数；

16.根据权利要求1所述的训练方法，其特征在于，采用基于所述第二编码器构建的初始视频物体预测模型和内容识别数据集进行训练，得到已训练的视频物体预测模型中的第三编码器，包括：

从视频数据中构建出所述内容识别数据集；

17.根据权利要求16所述的训练方法，其特征在于，从视频数据中构建出所述内容识别数据集，包括：

对所述视频数据进行随机帧抽取处理，得到多个帧；

采用目标检测模型对所述多个帧进行检测，得到每个帧中的物体；

将所述预测目标和所述视频数据作为所述内容识别数据集。

18.根据权利要求16所述的训练方法，其特征在于，采用所述初始视频物体预测模型和所述内容识别数据集进行模型训练，得到所述已训练的视频物体预测模型，包括：

将所述内容识别数据集作为输入数据；

19.根据权利要求18所述的训练方法，其特征在于，采用自回归的方式和所述输入数据对所述初始视频物体预测模型进行模型训练，得到所述已训练的视频物体预测模型，包括：

基于所述内容识别数据集的数据规模设置训练参数；

20.一种视频预训练模型的训练装置，其特征在于，包括：

上下文预测训练模块，用于采用初始视频上下文预测模型和上下文预测数据集进行训练，得到已训练的视频上下文预测模型中的第一编码器；所述初始视频上下文预测模型为基于初始编码器和视觉预训练模型构建的，所述视频上下文预测模型的类型为单流模型；

跨模态训练模块，用于采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练，得到已训练的视频跨模态模型中的第二编码器；所述初始视频跨模态模型为初始视频音频匹配模型；所述初始视频音频匹配模型为基于所述第一编码器和视觉预训练模型构建出双塔模型的左侧部分，并将所述左侧部分和音频预训练模型组合得到的；所述视频跨模态模型的类型为双塔模型；

内容识别训练模块，用于采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练，得到已训练的内容识别模型中的第三编码器；所述初始内容识别模型为初始视频物体预测模型；所述初始视频物体预测模型为基于所述第二编码器和视觉预训练模型构建出双塔模型的左侧部分，并将所述左侧部分和语言预训练模型组合得到的；所述初始视频物体预测模型的类型为双塔模型；

21.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至19任一项所述的训练方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至19任一项所述的训练方法的步骤。