CN117197702A

CN117197702A - 视频识别模型的训练方法、装置、设备及存储介质

Info

Publication number: CN117197702A
Application number: CN202210578205.2A
Authority: CN
Inventors: 蓝玮毓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-12-08

Abstract

一种视频识别模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：采用第一数据集训练第一识别模型，调整其中包含的特征编码网络和第一分类网络的参数，得到初步训练后的特征编码网络和第一分类网络，构造出初始化的第二识别模型；采用第二数据集训练初始化的第二识别模型中的第二分类网络，调整其参数得到初步训练后的第二分类网络；基于初步训练后的特征编码网络和初步训练后的第二分类网络，构造出初步训练后的第二识别模型；采用第二数据集训练初步训练后的第二识别模型，构造出待训练的视频识别模型；采用第三数据集对待训练的视频识别模型进行训练，得到完成训练的视频识别模型，以便完成不同模态下的多种分类任务。

Description

视频识别模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种视频识别模型的训练方法、装置、设备及存储介质。

背景技术

通过对机器学习模型进行训练，能够得到用于对视频数据进行分类的视频识别模型，有助于批量化完成视频数据的分类任务，减轻人力成本。

相关技术中，通过视频训练样本对初始的视频识别模型进行训练，并通过视频识别模型产生的分类预测结果和训练样本的标签数据确定损失函数；根据损失函数调整初始的视频识别模型中的参数；在损失函数收敛的情况下，得到完成训练的视频识别模型，以便使用完成训练的视频识别模型执行对视频数据的分类任务。

然而，通过上述方式训练得到的视频识别模型，对于不同模态数据、不同分类任务的适应能力不佳。

发明内容

本申请提供了一种视频识别模型的训练方法、装置、设备及存储介质，能够增加视频识别模型执行的分类任务的数量，提高视频识别模型的普适性。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种视频识别模型的训练方法，所述视频识别模型包括：第一识别模型和第二识别模型，所述第一识别模型和所述第二识别模型共用同一个特征编码网络，所述第一识别模型包括所述特征编码网络和第一分类网络，所述第二识别模型包括所述特征编码网络和第二分类网络，所述第一分类网络和所述第二分类网络用于执行两种不同的分类任务；所述方法包括：

采用第一数据集对所述第一识别模型进行训练，调整所述第一识别模型中包含的所述特征编码网络和所述第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络；其中，所述第一数据集中包括第一模态的训练数据；

基于所述第二分类网络和所述初步训练后的特征编码网络，构造初始化的第二识别模型；

采用第二数据集对所述初始化的第二识别模型中的所述第二分类网络进行训练，固定所述初步训练后的特征编码网络的参数，并调整所述第二分类网络的参数，得到初步训练后的第二分类网络；其中，所述第二数据集中包括第二模态的训练数据，且所述第二模态和所述第一模态是两种不同的模态；

基于所述初步训练后的特征编码网络和所述初步训练后的第二分类网络，构造初步训练后的第二识别模型；

采用所述第二数据集对所述初步训练后的第二识别模型进行训练，调整所述初步训练后的特征编码网络和所述初步训练后的第二分类网络的参数，得到二次训练后的特征编码网络和二次训练后的第二分类网络；

基于所述二次训练后的特征编码网络、所述初步训练后的第一分类网络和所述二次训练后的第二分类网络，构造待训练的视频识别模型；

采用第三数据集对所述待训练的视频识别模型进行训练，得到完成训练的视频识别模型；其中，所述第三数据集中包括以下至少之一：所述第一模态的训练数据、所述第二模态的训练数据。

根据本申请实施例的一个方面，提供了一种视频识别模型的训练装置，所述视频识别模型包括：第一识别模型和第二识别模型，所述第一识别模型和所述第二识别模型共用同一个特征编码网络，所述第一识别模型包括所述特征编码网络和第一分类网络，所述第二识别模型包括所述特征编码网络和第二分类网络，所述第一分类网络和所述第二分类网络用于执行两种不同的分类任务；所述装置包括：

第一训练模块，用于采用第一数据集对所述第一识别模型进行训练，调整所述第一识别模型中包含的所述特征编码网络和所述第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络；其中，所述第一数据集中包括第一模态的训练数据；

模型构造模块，用于基于所述第二分类网络和所述初步训练后的特征编码网络，构造初始化的第二识别模型；

第二训练模块，用于采用第二数据集对所述初始化的第二识别模型中的所述第二分类网络进行训练，固定所述初步训练后的特征编码网络的参数，并调整所述第二分类网络的参数，得到初步训练后的第二分类网络；其中，所述第二数据集中包括第二模态的训练数据，且所述第二模态和所述第一模态是两种不同的模态；

所述模型构造模块，还用于基于所述初步训练后的特征编码网络和所述初步训练后的第二分类网络，构造初步训练后的第二识别模型；

所述第二训练模块，还用于采用所述第二数据集对所述初步训练后的第二识别模型进行训练，调整所述初步训练后的特征编码网络和所述初步训练后的第二分类网络的参数，得到二次训练后的特征编码网络和二次训练后的第二分类网络；

所述模型构造模块，还用于基于所述二次训练后的特征编码网络、所述初步训练后的第一分类网络和所述二次训练后的第二分类网络，构造待训练的视频识别模型；

第三训练模块，用于采用第三数据集对所述待训练的视频识别模型进行训练，得到完成训练的视频识别模型；其中，所述第三数据集中包括以下至少之一：所述第一模态的训练数据、所述第二模态的训练数据。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述视频识别模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述视频识别模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机程序，以实现上述视频识别模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过分别使用包括不同模态的训练数据的第一训练集和第二训练集，完成对第一识别模型和第二识别模型的训练，并且第一识别模型和第二识别模型共用同一个特征编码网络。一方面，特征编码网络经过了不同模态的训练数据的训练，由于不同模态中训练数据、分类任务面临的噪音可能存在相同的特征，因此有助于增强特征编码网络对不同模态的多媒体数据中的噪声的识别能力，提高训练完成的视频识别模型的鲁棒性。

另一方面，通过上述方法实现对视频识别模型的多模态训练过程，完成训练后的视频识别模型能够对某个视频进行分类处理，同时得到该视频的第一分类结果和第二分类结果，基于单个视频识别模型能够执行不同内容维度的分类任务，有助于提高视频识别模型的使用范围，提高视频识别模型的普适度。

同时，由于完成训练的视频识别模型中，第一分类网络和第二分类网络共用同一个特征编码网络，有助于减少视频识别模型中的参数的数量，减少模型推理过程中的计算量。

附图说明

图1是本申请一个示例性实施例提供的方案实施环境的示意图；

图2是本申请一个示例性实施例提供的视频识别模型的训练方法的流程图；

图3是本申请一个示例性实施例提供的多个输入图像的截取方式的示意图；

图4是本申请一个示例性实施例提供的提取训练样本的特征信息的示意图；

图5是本申请一个示例性实施例提供的视频识别模型的训练过程的示意图；

图6是本申请一个示例性实施例提供的基于视频识别显示推荐信息的示意图；

图7是本申请一个示例性实施例提供的视频识别模型的训练装置的框图；

图8是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

场景识别是指机器自动识别视频或图片中所处的应用场景。场景识别领域应用最广泛的相关数据集是places2数据集，总共包含超过1000万张图片，400多个不同的场景类别。

动作识别是指识别出视频中出现的动作，通常是视频数据中人的动作。由于动作识别不仅要分析视频数据中每个视频帧的内容，还需要从连续的视频帧的时序信息中挖掘线索，因此通常使用基于视频模态的模型来识别动作。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。在本申请中，可以通过运用机器学习的相关技术，提取视频数据、图像数据继续分类。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见视频识别分类，基于视频识别分类的推荐任务，基于视频识别分类的数据管理任务。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

时空注意力机制(divided space-time attention)：是指为了缓解机器学习模型中自注意力计算的资源消耗而引入的一种数据处理机制。在时间注意力(time attention)中，每个图像块仅和其余输入图像在对应位置提取出的图像块进行联系。在空间注意力(space attention)中，某个图像块仅和同一输入图像提取出的其他图像块进行联系。通过时空注意力机制可以有效减少机器学习模型在处理分类任务中的计算量，并且达到比较准确的分类效果。

本申请实施例提供的方案涉及人工智能的计算机视觉和机器学习等技术，具体通过如下实施例进行说明。

图1是本申请一个示例性实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为一个计算机系统，如视频识别系统。该方案实施环境可以包括：终端设备10和服务器20。

终端设备10可以是诸如PC(Personal Computer，个人计算机)、平板电脑、手机、多媒体播放设备、可穿戴设备、智能家电、车载终端等电子设备。终端设备10中可以安装运行有目标应用程序的客户端，该目标应用程序可以是视频播放类应用程序，支持视频数据播放和/或推荐的社交类应用程序，以及其他支持视频数据播放的应用程序；该目标应用程序还可以扩展理解为终端设备运行的操作系统中的服务功能，例如支持存储、显示多媒体数据的媒体库等。

服务器20能为终端设备10上运行的目标应用程序提供后台服务，例如服务器20可以是目标应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云计算、云函数、云存储、网络服务、云通信、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。服务器20至少具有数据收发、计算、存储等功能，用以实时与终端设备10上客户端进行数据传输。

在一个示例中，服务器20向终端设备10传输某个视频数据，以及该视频数据对应的推荐信息。推荐信息可以是广告信息，推荐信息可以显示在视频数据对应的显示窗口。推荐信息也可以与其他视频数据相关，例如推荐信息可以是与该视频数据相关的其他视频数据的封面图像、播放中的图像帧等。

可选地，推荐信息是通过使用视频识别模型对该视频数据进行分类，得到该视频数据的第一分类结果和第二分类结果，根据上述第一分类结果和第二分类结果，从推荐信息数据库中得到的。

在另一个示例中，终端设备10通过视频识别模型快速为用户提供待查找的多媒体数据，还可以根据视频识别模型为用户推荐多媒体数据库中的多媒体数据的分类方式。

例如，终端设备10上运行有视频识别模型，通过视频识别模型对多媒体数据库中的多媒体数据执行分类任务，得到多媒体数据的第一类型和第二类型。终端设备10可以根据多媒体数据的第一类型和第二类型，对多媒体数据库中的多媒体数据进行归类，并将归类后得到的多媒体数据集向用户展示，以供用户进行选择。

又例如，终端设备10可以向用户提供检索信息输入框，使得终端设备10能够根据用户输入的检索信息(检索信息可以是用户想要查找的目标视频数据的第一类型和第二类型)，能够快速获得对应类别的视频数据。

上述示例中使用的视频识别模型的训练过程可以由计算机设备完成，该计算机设备可以是终端设备10，也可以是服务器20，还可以是除了终端设备10和服务器20以外的另一台设备。该计算机设备可以是个人计算机、平板电脑、智能机器人等具备计算和存储功能的电子设备，用于根据训练数据训练生成视频识别模型。

图2是本申请一个示例性实施例提供的视频识别模型的训练方法的流程图。示例性地，该方法的执行主体可以是计算机设备，下面以计算机设备作为执行主体对视频识别模型的训练方法进行介绍。

在本申请实施例中，视频识别模型包括：第一识别模型和第二识别模型，第一识别模型和第二识别模型共用同一个特征编码网络，第一识别模型包括特征编码网络和第一分类网络，第二识别模型包括特征编码网络和第二分类网络，第一分类网络和第二分类网络用于执行两种不同的分类任务。

该方法可以包括如下几个步骤(210～270)：

步骤210，采用第一数据集对第一识别模型进行训练，调整第一识别模型中包含的特征编码网络和第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络；其中，第一数据集中包括第一模态训练数据。

第一数据集用于对第一识别模型进行训练。在一些实施例中，第一数据集中包括至少一个第一模态的训练数据，以及至少一个第一模态的训练数据分别对应的分类标签；其中，第一模态的训练数据是指用于对第一识别模型进行训练的数据，分类标签用于指示第一模态的训练数据的类型信息。

在一些实施例中，第一模态的训练数据属于多媒体数据。例如，第一模态的训练数据可以是具有一帧以上图像帧的视频数据。又例如，第一训练样本可以是单张图像。

模态用于区分通过不同采集方式获得的、具有不同表现形式的或者信息表征方式不同的训练数据。在一些实施例中，第一模态与训练数据的表现形式有关。例如，在训练数据是视频数据的情况下，第一模态即为视频模态。又例如，在训练数据是图像数据的情况下，第一模态即为图像模态。在一些实施例中，第一模态与训练数据的采集方式有关。例如，通过录制得到的训练数据是视频数据，第一模态为视频模态。

在一些实施例中，第一数据集中包括的全部训练数据(第一数据)均为第一模态，也即在对第一识别模型进行训练时，使用了同一种模态的训练数据，有助于减少训练数据中不相关的噪音的输入，使得第一识别模型，特别是第一识别模型中的第一分类网络能够更好地对第一模态的训练数据中的共有特征进行分类学习。同时，还有助于提高训练过程中第一识别模型的收敛速度，以便缩短完成第一识别模型训练所消耗的时长。

在一些实施例中，分类标签与训练数据的内容信息有关；其中，训练数据用于对视频识别模型进行训练。下面以训练数据是第一模态的训练数据为例，对分类标签的选取方式进行举例说明。

在一个示例中，按照第一模态的训练数据中的场景内容维度确定第一模态的训练数据的分类标签，在这种情况下，第一模态的训练数据的分类标签包括但不限于以下至少之一：自然场景和社会场景。在一些实施例中，还可以对场景内容进行进一步的细分。例如，自然场景包括但不限于以下至少之一：海洋、天空和陆地(如：森林、沙漠和山脉)等。又例如，社会场景包括但不限于以下至少之一：工作学习(如：会议室、办公室、图书馆和实验室)和家居(如：卧室、厨房和客厅)等。

在另一个示例中，按照第一模态的训练数据中的动作内容维度确定第一模态的训练数据的分类标签，在这种情况下，第一模态的训练数据的分类标签包括但不限于以下至少之一：交互类动作、单人执行动作。交互类动作还可以细分成：与物体交互(如：演奏乐器和器械运动)和与其他生物进行交互(如：给植物浇水、和动物玩耍、集体合唱)等。

在另一个示例中，按照第一模态的训练数据中的物体确定第一模态的训练数据的分类标签。例如第一模态的训练样本的分类标签为存在特定物体等。进一步地，在某个第一模态是视频模态的情况下，若在第一模态的训练数据中存在一个特定物体出现的图像帧的数量大于n帧，则将该第一训练数据对应的分类标签确定为特定物体对应的视频属性。在这种情况下，可以实现对完整视频(特别是短视频)属性进行分类，例如，某个第一模态的训练数据中出现特定的吸尘器的图像帧大于n帧，则可以将该第一模态的训练数据对应的分类标签确定为推广产品(吸尘器)类视频。

第一识别模型是指确定输入数据的类别的机器学习模型。在一些实施例中，第一识别模型基于经典的CNN(Convolutional Neural Networks，卷积神经网络)建立。在另一些实施例中，第一识别模型基于自注意力(Self-attention)机制建立。

在一些实施例中，第一识别模型特征编码网络由特征编码网络和第一分类网络组成；其中，特征编码网络用于对输入第一识别模型的输入数据(如训练数据，待分类的视频数据)进行特征提取处理。第一分类网络用于对第一识别模型的输入数据执行分类任务，得到输入数据的分类结果。

在一些实施例中，特征编码网络中包括一个以上编码层。不同的编码层用于提取输入信息不同维度的特征。特征编码网络对输入数据进行特征提取，得到输入数据的特征信息；特征编码网络将特征信息传递给第一分类网络。第一分类网络根据特征信息确定输入数据的类型。

在对第一识别模型进行训练的过程中，模型识别设备获取第一数据集，并通过第一数据集中包括的训练样本对第一识别模型进行训练，得到收敛后的第一识别模型，收敛后的识别模型中包括初步训练后的特征编码网络和初步训练后的第一分类网络。

步骤220，基于第二分类网络和初步训练后的特征编码网络，构造初始化的第二识别模型。

初始化的第二识别模型包括初步训练后的特征编码网络和第二分类网络。

第二分类网络是指用于执行第二分类任务的分类网络。初步训练后的特征编码网络是指在步骤210中经过第一数据集训练得到的第一分类网络中的特征编码网络，也即初步训练后的特征编码网络中的参数能够协助初步训练后的第一分类网络执行第一分类任务。

在一些实施例中，计算机设备通过在初始化的特征编码网络后接入第二分类网络，构造出初始化的第二识别模型。例如，模型设备通过增加特征编码网络的数据传输接口，使得特征编码网络能够向第二分类网络传输特征信息，构造出第二分类网络。

在另一些实施例中，模型构造设备建立初始的视频识别模型，其中初始的视频识别模型中包括：特征编码网络、第一分类网络和第二分类网络；其中，特征编码网络和第一分类网络构成第一识别模型，特征编码网络和第二分类网络构成第二识别模型。

在一个示例中，特征编码网络通过数据接口1为第一分类网络提供输入数据的特征信息，特征编码网络通过数据接口2为第二分类网络提供输入数据的特征信息；在进行步骤210之前，计算机设备关闭数据接口2，使得第二分类网络无法接收特征编码网络提供特征信息；在完成步骤210后，计算机设备重新开启数据接口2使得第二分类网络能够重新接收特征编码网络提供的特征信息。

计算机设备通过使用初步训练后的特征编码网络和第二分类网络，构造成初始化的第二识别模型，使得第二识别模型和第一识别模型共用同一个特征编码网络。相比于第一识别模型和第二识别模型各自拥有独立的特征编码网络，第一识别模型和第二识别模型使用同一个特征编码网络，能够线性减少视频识别模型中的使用的参数数量(具体地，减少使用了一个特征编码网络的参数)，减少对额外的超参数进行学习，有助于减少视频识别模型对视频数据进行分类过程需要进行的计算量。

步骤230，采用第二数据集对初始化的第二识别模型中的第二分类网络进行训练，固定初步训练后的特征编码网络的参数，并调整第二分类网络的参数，得到初步训练后的第二分类网络；其中，第二数据集中包括第二模态的训练数据，且第二模态和第一模态是两种不同的模态。

第二数据集用于对第二分类网络进行训练。在一些实施中，第二训练网络中包括至少一个第二模态的训练数据，以及第二模态的训练数据对应的分类标签，第二模态训练数据是指用于对第二分类网络进行训练的数据，分类标签用于指示其第二模态的训练数据的类型信息。

在一些实施例中，第二模态的训练数据属于多媒体数据，有关第二模态的训练数据的内容，具体请参考上文对第一模态的训练数据的介绍，在此不进行赘述。

第一模态和第二模态是两种不同的模态。例如，第一模态为视频模态，第二模态为图像模态。又例如第一模态为图像模态，第二模态为视频模态。

下面，对第一数据集、第一分类任务、第二数据集、第二分类任务进行举例。

在一个示例中，第一数据集为视频数据集，也即第一数据集中包括视频模态的训练数据(可以称为训练视频)，第一分类任务为动作分类；第二数据集为图像数据集，也即第二数据集中包括图像模态训练数据(可以称为训练图像)，第二分类任务为场景分类。

在这个示例中，计算机设备通过视频数据集(也即第一数据集)对特征编码网络和动作分类网络(也即第一分类网络)进行训练，得到初次训练后的特征编码网络和初次训练后的动作分类网络。随后，计算机设备通过图像数据集(也即第一数据集)对场景分类网络(也即第一分类网络)进行训练，得到初次训练后的场景分类网络。在完成上述训练过程后，计算机设备继续从步骤240开始执行。

在另一个示例中，第一数据集为图像数据集，也即第一数据集中包括图像模态的训练数据；第一分类任务为场景分类；第二数据集为视频数据集，也即第二数据集中包括视频模态的训练数据，第二分类任务为动作分类。

在这个示例中，计算机设备通过图片数据集(也即第一数据集)对特征编码网络和场景分类网络(也即第一分类网络)进行训练，得到初次训练后的特征编码网络和初次训练后的场景分类网络。随后，计算机设备通过视频数据集(也即第一数据集)对动作分类网络(也即第一分类网络)进行训练，得到初次训练后的动作分类网络。在完成上述训练过程后，计算机设备从步骤240开始执行。

在另一个示例中，第一数据集为视频数据集，第一分类任务为视频属性分类(如：宠物类视频、美妆类视频、推广类视频等)；第二数据集为图片数据集，也即第二数据集中包括的训练数据为图片模态，第二分类任务为场景分类。

需要说明的是，上述实施例中有关第一数据集、第一分类任务、第二数据集、第二分类任务对应的具体内容仅作为举例说明，不代表对第一数据集、第一分类任务、第二数据集、第二分类任务的具体内容的限定，也不能看作是限定了第一数据集与第一分类任务的对应关系、第二数据集与第二分类任务的对应关系。在实际的视频识别模型的训练过程中，根据实际需要确定第一数据集、第一分类任务、第二数据集、第二分类任务，本申请在此不进行限定。

因为第一模态和第二模态是两种不同的模态，所以用于训练第一识别模型的第一模态的训练数据和用于训练第二分类网络的第二模态的训练数据属于不同的模态，也就是说初始训练后的第一分类网络和初始训练后的第二分类网络能够执行针对不同模态的多媒体数据的分类任务。

进一步地，初步训练后的第一分类网络能够针对第一模态的数据执行第一分类任务，初步训练后的第二分类网络能够针对第二模态的数据执行第二分类任务。因此，包括有特征编码网络、第一分类网络和第二分类网络的视频识别模型能够对于同一个输入数据完成执行多个分类任务，有助于提高视频识别模型的分类能力的适应性，扩大视频识别模型的适用范围。

在一些实施例中，第一模态的训练数据对应的分类标签和第二模态的训练数据对应的分类标签是不同内容维度划分的(也即第一分类任务和第二分类任务不同)。例如，第一模态的训练数据对应的分类标签与第一模态的训练数据中的动作内容有关，第二模态的训练数据对应的分类标签与第二模态的训练数据中的场景内容有关。又例如，第一模态的训练数据对应的分类标签与第一模态的训练数据中的动作内容有关，第二模态的训练数据对应的分类标签与第二模态的训练数据中的特定物体内容有关。有关分类标签的具体内容请参考上文介绍，本申请在此不进行赘述。

在一些实施例中，在对第二分类网络的训练过程中，计算机设备不改变视频识别模型中其他网络结构(包括初始训练后的特征编码网络以及初始训练后的第一分类网络)的参数，仅仅对第二分类网络中参数进行调整，直至第二识别模型达到收敛，得到初始训练后的特征编码网络。有关该过程的具体内容请参考下文实施例。

在该步骤中，计算机设备固定初步训练后的特征编码网络参数，通过有针对性地对先第二分类网络中的参数进行调整，从而完成了对视频识别模型进行微调(finetuning)，使得初始训练后的第二分类网络能够配合初始训练后的特征编码网络比较准确地执行第二分类任务。相比于同时调整初始化的第二识别模型中的初始训练后的特征编码网络和第二分类网络中的参数，减少了对第一识别模型确定出的第一类型的准确度产生不良影响，有助于减少后续训练过程中对初始训练后的特征编码网络的参数的调整，提高了完成对视频识别模型训练耗费的时长。

步骤240，基于初步训练后的特征编码网络和初步训练后的第二分类网络，构造初步训练后的第二识别模型。

在一些实施例中，初步训练后的第二识别模型由初步训练后的特征编码网络和初步训练后的第二分类网络组成。模型分类设备在通过使用第二数据集对第二分类网络进行训练，得到初步训练后的第二分类网络后，即可得到初步训练后的第二识别模型。

步骤250，采用第二数据集对初步训练后的第二识别模型进行训练，调整初步训练后的特征编码网络和初步训练后的第二分类网络的参数，得到二次训练后的特征编码网络和二次训练后的第二分类网络。

在一些实施例中，在得到初步训练后的第二分类网络之后，计算机设备采用第二训练集对初步训练后的第二识别模型进行训练，以改变初步训练后的特征编码网络和初步训练后的第二分类网络的参数。

由于初步训练的第二分类网络能够执行对第二模态的训练数据进行分类，因此，在得到初步训练后的第一分类网络，使用第二训练集对初步训练后的第二识别模型进行训练，使得初步训练后的第二分类网络能够继续学习属于第二模态的训练数据的特诊，有助于提高训练后得到的二次训练后的第二分类网络执行第二分类任务的准确性。

步骤260，基于二次训练后的特征编码网络、初步训练后的第一分类网络和二次训练后的第二分类网络，构造待训练的视频识别模型。

在一些实施例中，待训练的待识别模型中包括二次训练后的特征编码网络、初步训练后的第二分类网络和二次训练后的第二分类网络。

步骤270，采用第三数据集对待训练的视频识别模型进行训练，得到完成训练的视频识别模型；其中，第三数据集中包括以下至少之一：第一模态的训练数据、第二模态的训练数据。

计算机设备使用第三数据集对待训练的视频识别模型进行训练，在待训练的视频识别模型达到收敛之后，得到完成训练的视频识别模型。

在一些实施例中，第三数据集用于对待训练的视频识别模型进行训练。为了提高完成训练的视频识别模型执行第一分类任务和执行第二分类任务的准确度，第三数据集可以包括第一模态的训练数据和第二模态的训练数据。

在一些实施例中，在待训练的视频识别模型中，第一识别模型和第二识别模型使用同一个二次训练后的特征编码器对训练数据特征提取，在一个示例中，二次训练后的特征编码网络对训练数据进行特征提取，得到该训练数据的特征信息，并将该特征信息传输给初次训练后的第一分类网络和二次训练后的第二分类网络。初次训练后的第一分类网络和二次训练后的第二分类网络根据该特征信息，分别执行对应的分类任务。

由于初次训练后的第一分类网络和二次训练后的第二分类网络能够根据相同的特征信息确定训练数据分别对应的第一分类结果和第二分类结果，因此减少了在使用第三数据集对视频识别模型进行训练的过程中，二次训练后的特征编码网络对某个训练数据进行特征提取的次数，有助于减少得到训练完成后的视频识别模型的训练过程中的计算量。

在步骤270的任意一个训练周期中，计算机设备可以同时调整二次训练后的特征编码网络、初步训练后的第二分类网络和二次训练后的第二分类网络中的参数。

在步骤270的任意一个训练周期中，计算机设备也可以从二次训练后的特征编码网络、初步训练后的第二分类网络和二次训练后的第二分类网络中选择任意一个或两个网络，并在训练周期中调整所选择的网络的参数。例如，在某一个训练周期，调节二次训练后的特征编码网络和初步训练后的第一分类网络的参数，在下一个训练周期中，调节二次训练后的特征编码网络和二次训练后的第一分类网络的参数。

在一些实施例中，计算机设备可以按照训练比例，分别对包括二次训练后的特征编码网络和二次训练后的第一分类网络、二次训练后的特征编码网络和二次训练后的第二分类网络中的参数进行调整。

在一些实施例中，训练比例是根据不同分类任务的重要性预先进行配置的，例如，用于调整第一识别模型的参数的训练批次数量：用于调整第一识别模型的参数的训练批次数量＝1：2。

在另一些实施例中，训练比例是根据未完成训练的视频识别模型执行分类任务的准确度进行动态设定的，具体请参考下文实施例。

综上所述，通过分别使用包括不同模态的训练数据的第一训练集和第二训练集，完成对第一识别模型和第二识别模型的训练，并且第一识别模型和第二识别模型共用同一个特征编码网络。一方面，特征编码网络经过了不同模态的训练数据的训练，由于不同模态中训练数据、分类任务面临的噪音可能存在相同的特征，因此有助于增强特征编码网络对不同模态的多媒体数据中的噪声的识别能力，提高训练完成的视频识别模型的鲁棒性。

如上文介绍的内容，第一模态和第二模态是指两个不同的模态。在一些实施例中，第一模态属于视频模态或图像模态中的一种，第二模态属于视频模态或图像模态中不同于第一模态的另一种。

在一些实施例中，第一模态为视频模态，第一数据集中包括至少一个训练视频；第二模态为图像模态，第二数据集中包括至少一个训练图像；采用第一数据集对第一识别模型进行训练，调整第一识别模型中包含的特征编码网络和第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络，包括：对于每个训练视频，根据多个截取时间点，得到训练视频对应的多个图像帧；使用训练视频对应的多个图像帧，对第一识别模型进行训练，调整第一识别模型中包含的特征编码网络和第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络。采用第二数据集对初始化的第二识别模型中的第二分类网络进行训练，固定初步训练后的特征编码网络的参数，并调整第二分类网络的参数，得到初步训练后的第二分类网络，包括：对于每个训练图像，对训练图像进行变换处理，得到训练图像对应的多个变换图像；使用训练图像对应的多个变换图像，对第二分类网络进行训练，固定初步训练后的特征编码网络的参数，并调整第二分类网络的参数，得到初步训练后的第二分类网络。

在一些实施例中，在将第一数据集中的每个训练视频输入到视频识别模型的特征编码网络之前，需要对训练视频进行预处理。对训练视频进行预处理包括：缩减、或增加训练视频的播放长度，使得多个训练视频的长度保持一致，方便后续确定多个截取时间点，并使用该多个截取时间点对至少一个训练视频分别进行处理。

在一些实施例中，对于不同批次的训练视频，对应的截取时间点总数量不同。例如，第一个训练批次中截取时间点总数量为x个，第二训练批次中截取时间点总数量为y个，其中x不等于y。通过这种方法使得训练完成的特征编码网络能够适应图像帧的数量变换，有助于提高视频识别模型对不同长度的视频数据的适应能力。

在一些实施例中，对训练图像进行变换处理，得到训练图像对应的多个变换图像，包括：对同一个训练图像进行多次不同的变换处理，得到训练图像对应的多个变换图像。在一些实施例中，变换处理包括但不限于以下至少之一：对训练图像进行拉伸、收缩、局部变形、旋转、镜像对称等。

通过设置第一模态为视频模态，且第二模态为图像模态，使得计算机设备使用视频数据集对第一识别模型进行训练，使用图像训练集对第二分类网络进行训练。相比于图像数据，视频数据中包括更多的数据量，使得使用视频训练集进行训练，得到初次训练后的特征编码网络能够尽可能地总结出关于视频数据的特征，以便在使用图像数据集对第二分类网络进行训练的过程中，初次训练后的特征编码网络中的参数能够适应对图片数据集中的训练数据进行特征提取，尽快使得第二分类网络达到收敛。

下面通过几个实施例，对第二分类网络的训练过程进行介绍。

在一些实施例中，第二模态为图像模态，第二数据集中包括至少一个训练图像；计算机设备采用第二数据集对初始化的第二识别模型中的第二分类网络进行训练，固定初步训练后的特征编码网络的参数，并调整第二分类网络的参数，得到初步训练后的第二分类网络，包括：计算机设备从同一个训练图像中截取多个不同的图像内容，得到多个输入图像；其中，属于同一个训练图像的任意两个输入图像之间存在重叠区域；计算机设备将多个输入图像作为初始化的第二识别模型的训练样本；计算机设备通过初步训练后的特征编码网络提取训练样本的特征信息；计算机设备通过第二分类网络根据训练样本的特征信息，确定训练样本的预测分类结果；计算机设备根据训练样本的预测分类结果和分类标签，确定训练损失，并基于训练损失调整第二分类网络的参数，得到初步训练后的第二分类网络。

输入图像是通过对训练图像进行截取得到的，输入图像用于输入到初始化的第二识别模型中训练第二分类网络。

输入图像中包括其对应的训练图像中的部分内容信息。同一个训练图像中截取得到的多个输入图像中，各个输入图像的显示尺寸可以不完全相同。

因为视频数据中各个图像帧之间的尺寸相同，所以，同一个训练图像中截取得到的多个输入图像中，各个输入图像的尺寸可以相同，例如，对一个225*225像素的图像进行截取，得到的m个200*200(180*180、160*160等)像素的输入图像。

在一些实施例中，通过对同一个训练图像中截取得到的多个输入图像之间存在重叠区域(重叠内容信息)，也可以理解称为两个所述输入图像之间存在部分相同的图像内容，但是各个输入图像之间不完全相同。通过这种方法能够模拟视频数据中不同图像帧之间内容信息的相关性。使得使用第二训练集中的图像模态的训练数据进行训练的第二分类网络，能够执行视频模态下的训练任务。

在一些实施例中，计算机设备从同一个训练图像中截取出a个可选择的输入图像，在a个可选择的输入图像中选择b个作为输入图像；其中a为正整数，b为正整数且b小于或等于a。

例如，计算机设备从同一个训练图像的不同位置截取出5个可选择的输入图像，在5个可选择的输入图像中任意选择3个图像作为输入图像。通过这种方式能够模拟在视频识别模型对同一个视频数据进行分类任务的过程中，使用不同的间隔时长截取得到的多个图像帧的情景。

训练样本的特征信息是指用于表征训练样本的特征的特征向量。

第二识别模型可以是基于Timesformer、Video-swin-transformer或X-ViT等具有时空注意力机制的模型的基本思想构建的，也可以是基于LTSM(Long short-term memory，长短时记忆)模型等构造的。

在一些实施例中，第二识别模型的第二分类网络采用两层的MLP(MultilayerPerceptron，多层感知器)结构。在一个示例中，第二识别模型的第二分类网络中至少具有两个FC(fully connected，全连接)层，和一个激活层(如ReLU(Rectified Linear Unit，线性整流单元)层)。在一些实施例中，激活层设置在两个FC层之间，以便减少训练过程产生的中间数据的数量。

训练样本的分类标签，与训练样本中包括的多个输入数据对应的训练图像有关。在一些实施例中，训练样本的分类标签与训练图像的分类标签相同。关于分类标签的介绍请参考上文实施例，在此不进行赘述。

在得到多个输入数据之后，模型识别设备多个输入数据作为训练样本输入第二识别模型；并通过初步训练后的特征编码网络从多个输入数据中提取训练样本特征信息。初步训练后的特征编码网络将特征信息传递给第二分类网络，使得第二分类网络根据特征信息，执行第二分类任务，得到训练样本对应的分类预测结果。

在本实施例中，使用了图像数据对第二分类网络进行训练，一方面，在第二模态为图像模态的情况下，第二数据集更容易构造以及获取，且第二数据集的数据量更小。另一方面，通过一个训练图像截取得到多个输入图像，模拟了视频数据中内容信息的连续变化，并且多个输入图像中存在重叠的部分，输入图像之间具有一定的关联度，有助于减少第二识别模型获取到的干扰信息，有助于加快模型的聚合速度。

下面对通过同一个训练图像得到多个输入图像的方法进行介绍说明。

在一些实施例中，计算机设备通过在同一个训练图像的进行截取，得到多个输入图像。

例如，计算机设备在训练图像中进行一次截取，得到一个中间图像，并对该中间图像进行多次处理，得到多个输入图像。

又例如，计算机设备在训练图像中进行多次截取，得到多个中间图像，且不同的中间图像中的内容信息不完全相同，通过该多个中间图像分别得到对应的输入图像。

在一些实施例中，计算机设备从同一个训练图像中截取多个不同的图像内容，得到多个输入图像，包括：计算机设备确定图像截取框的尺寸；计算机设备将图像截取框放置在训练图像的多个不同位置，分别截取图像截取框内的图像内容，得到多个输入图像。

图像截取框的尺寸是指在训练图像中选择的图像区域的范围。在一些是实施例中，图像截取框的尺寸等于输入图像的尺寸。在另一些实施例中，图像截取框的尺寸不等于输入图像的尺寸，例如在图像截取块截取得到中间图像之后，按照比例对中间图像放大缩小或拉伸处理。

在一些实施例中，在使用图像截取框对训练图像进行截取之前，计算机设备在训练图像中确定多个用于使用图像截取框进行截取的截取位置(也即图像截取框放置在训练图像的位置)。多个截取位置的坐标信息不重叠。在一些实施例中，多个截取位置在训练图像中均匀分布，也就是说，各个截取位置之间的距离相等，或者各个截取位置为特殊点(如：中心点，边缘点，区域内部任意一点)的图像区域在训练图像中均匀分布、或者存在两个截取位置之间存在平行或存在垂直关系。图像截取框放置在训练图像的多个不同位置，这些位置之间存在部分重叠的区域。

图3示出了本申请示例性实施例提供的一个多个输入图像的截取方式。计算机设备将训练图像310的左上角、左下角、右上角、右下角、中心点(两条对角线的交点)作为截取位置，并使用图像截取框在训练图像中的上述5个位置进行截取，得到5个可选择的输入图像。并在5个可选择的输入图像中，任选3个输入图(311、312和313)组成训练样本。

通过这样的方法能够模拟视频数据中出现的一段内容中图像帧的连续变化，提高使用图像数据训练得到的第二分类网络对视频数据的执行第二分类任务的能力。

在一些实施例中，计算机设备从同一个训练图像中截取多个不同的图像内容，得到多个输入图像，包括：计算机设备确定图像截取框的尺寸以及在训练图像中的摆放位置；计算机设备在训练图像对应的缩放范围内，确定训练图像对应的多个不同的缩放比例；计算机设备分别按照多个不同的缩放比例，对训练图像的尺寸进行缩放，得到多个缩放后训练图像；计算机设备从多个缩放后训练图像中分别截取图像截取框内的图像内容，得到多个输入图像。

在一些实施例中，训练图像对应的缩放范围是指对训练图像的尺寸仅从调整的范围，缩放范围可以是[0，1]之间的任意范围，例如[0.5，0.95]、[0.40，0.82][0.65，0.90]等。

在一些实施例中，计算机设备分别从多个缩放后的训练图像中确定图像截取框的摆放位置的对应位置，并在各个对应位置中进行截取得到多个输入图像。例如，图像截取框的摆放位置(图像截取框中心点)在训练图像中的坐标为(1，1)，在对训练图像进行0.9倍的缩放之后，得到缩放后的训练图像，此时缩放后的训练图像中，图像截取框的摆放位置的对应位置为(0.9，0.9)。

在另一些实施例中，计算机设备从同一个训练图像中截取多个不同的图像内容，得到多个输入图像，包括：计算机设备确定图像截取框的尺寸和缩放比例，通过图像截取框的尺寸改变图像截取框的缩放比例，改变图像截取框的尺寸，使用改变尺寸后的图像截取框对训练图像进行截取，得到多个需要缩放尺寸的中间图像。计算机设备将多个需要缩放尺寸的中间图像的分别进行缩放，得到尺寸相同的多个输入图像。

通过对训练图像进行缩放、对图像截取框的尺寸进行缩放，模拟了视频数据中由于镜头的推进、远离，引起的图像帧中内容的显示尺寸的变化。

在一些实施例中，通过进行缩放处理，截取得到的输入图像中存在排列顺序，例如按照缩放比例从大到小，对多个输入图像进行排序，并按照该排列顺序将上述多个输入图像分别输入第二识别模型中，使得多个输入图像具备时间属性，提高第二识别模型对连续变化的视频数据的处理能力。

在一些实施例中，计算机设备从同一个训练图像中截取多个不同的图像内容，得到多个输入图像，包括：计算机设备采用多种不同的模糊处理参数分别对训练图像进行模糊处理，得到多个处理后训练图像；计算机设备从多个处理后训练图像中分别截取图像截取框内的图像内容，得到多个输入图像。

在一些实施例中，模糊处理称为高斯模糊。通过对训练图像进行模糊处理，模拟了视频数据中由于镜头聚焦位置变化导致的图像帧部分位置出现的模糊。

在一个实施例中，计算机设备确定多个不相同的模糊半径，并根据模糊半径对训练图像进行模糊处理，得到多个模糊处理后的训练图像，其中，多个模糊处理后的训练图像虚化边缘的范围、宽度不相同。

通过提供不同方式的截取操作，实现了对视频数据中有关联的图像帧的模拟，同时有助于提高训练数据的丰富度，提高第二分类网络对不同视频数据中图像帧变化的适应能力，有助于提高模型的鲁棒性，使得通过图像模态的图像数据进行训练的第二识别模型的训练效果迁移到能够针对视频模态的视频数据是仍然保持较好的效果。

需要说明的是，上述中实施例中涉及到的对训练图像进行截取的方法可以单独使用，例如在一个训练周期中，分别对多个训练图像进行缩放处理得到多个输入图像。也可以混合使用，例如在一个训练周期中对于训练图像A通过将图像截取框放置在不同的位置，对训练图像A进行多次截取，得到多个输入图像。对训练数据B进行多次模糊处理，并从多张模糊处理后的输入图像的同一个位置进行截取，得到多个输入图像。

在得到多个输入图像之后，计算机设备将多个输入图像作为第二识别模型得训练样本对第二识别模型进行训练，下面通过几个实施例对该过程进行介绍说明。

在一些实施例中，特征编码网络包括：线性投影层和时空编码层。

计算机设备通过初步训练后的特征编码网络提取训练样本的特征信息，包括：对于训练样本中的目标输入图像，计算机设备对目标输入图像进行分块，得到同一个目标输入图像对应的多个图像块；对于多个图像块中的目标图像块，计算机设备通过线性投影层对目标图像块进行卷积处理，得到目标图像块的内容编码；其中，目标图像块的内容编码用于表征目标图像块的图像内容；计算机设备确定目标图像块的时间编码，以及目标图像块的空间编码；其中，目标图像块的时间编码用于表征目标图像块所属的时间步，目标图像块的空间编码用于表征目标图像块在所属的输入图像中的位置信息；计算机设备将目标图像块的内容编码、目标图像块的时间编码和目标图像块的空间编码进行组合，得到目标图像块的编码信息；计算机设备将训练样本对应的编码信息，输入时空编码层；其中，训练样本对应的编码信息包括：属于训练样本的多个输入图像分别对应的图像块的编码信息；计算机设备通过时空编码层对训练样本对应的编码信息进行编码处理，得到训练样本对应的特征信息。

在一些实施例中，线性投影层用于对图像数据进行线性映射，将图像数据转换成向量形式。线性投影层可以是FC层，也可以是CNN层。时空编码层用于根据多个输入图像分别对应的内容编码进行特征提取。

在一些实施例中，模型识别设备将需要训练样本中的多个输入图像进行分块处理，并将分块处理后的图像块输入到初次训练后的特征编码网络。

目标输入图像是指训练样本中的多个输入图像中的任意一个。在一些实施例中，计算机设备对目标数据图像进行平均分块，得到目标输入图像对应的多个图像块。可选地，目标输入图像对应的多个图像块之间不存在重叠区域。例如，计算机设备将目标输入图像平均分成9份，得到该目标数据图像对应的9个图像块。

在完成对训练样本中的多个输入图像进行分块，得到多个输入图像分别对对应的多个图像块之后，计算机设备将多个图像块输入到线性投影层。在一些实施例中，多个图像块输入到线性投影层的过程中具有输入顺序。例如，属于相同输入数据的多个图像块连续输入到线性投影层中。又例如，对应同一个输入图像对应的多个图像块，按照图像块在输入图像中对应的位置顺序分别输入多个图像块。

线性投影层对多个图像块分别进行卷积处理，得到多个图像块分别对应的内容编码。在一些实施例中，内容编码与图像块中的内容信息有关，同一个目标输入图像对应的不同的图像块，可以具有不完全相同的内容编码。

在得到目标图像块对应的内容编码之后，特征编码网络确定目标图像块的空间编码以及时间编码。

空间编码与目标图像块在目标输入图像中对应的位置有关，时间编码与目标对象块对应的目标输入图像，在训练样本中的多个输入图像中的排列顺序有关。在一些实施例中，时间编码称为时序编码。

在一些实施例中，不同输入图像中相同位置的图像块对应的空间编码相同。例如，输入图像1的位置1(如左上角)对应的图像块的空间编码和输入图像2的位置1(如左上角)对应的图像块的空间编码相同。

在一些实施例中，同一个训练样本的多个输入图像分别对应的图像块，采用相同的时间编码。

由于视频数据和图像数据在模态上具有差异，对于训练样本中的各个图像数据，不采用多个不同时间编码，而统一采用一个时间步(例如t＝0)对应的时间编码，例如，对于某个训练样本，该训练样本的多个输入图像分别对应的图像块均采用时间步1对应的时间编码1。

针对图像数据迁移到视频模态进行应用时会面临的模态差异，通过对图像数据和视频数据进行区别化处理，使得第二识别模型能够区分图片数据和视频数据，有助于避免视频识别模型受到图像数据的固有形态偏见的影响(比如图像数据中各物体的相对位置、相对大小是不变的，而视频数据物体的相对位置会发生改变的)。此前的方法在处理图像和视频模态时，要么无法处理跨模态的任务、要么无法有效解决图像数据带来的数据偏见问题。

特征编码网络通过将目标图像块的内容编码、空间编码、时间编码进行组合得到图像块的编码信息。在一些实施例中，多个图像块对应的编码信息后，将多个图像块对应的编码信息看作是训练样本的编码信息，特征编码网络中将多个图像块分别的编码信息传递给时空编码层。

在一些实施例中，通过时空编码层对训练样本对应的编码信息进行编码处理，得到训练样本对应的特征信息，包括：时空编码层通过对多个图像块的编码信息进行处理得到多个图像块的中间编码，将多个图像块的中间编码进行组合得到组合编码，时空编码网络通过对组合编码进行处理，得到训练样本对应的特征信息。

图4是本申请一个示例性实施例提供的提取训练样本的特征信息的示意图。

计算机设备将M个输入图像作为训练样本，在将M个输入图像输入特征编码网络之前，分别对M个输入图像进行分块。对于M个输入图像中的任意一个图像，将输入图像划分成N等份，得到N个图像块，将N个图像块输入传输给线性投影层，得到N个图像块分别对应的内容编码。根据某个图像块在输入图像中的位置，确定该图像块的空间编码，将固定的时间编码(t＝1对应的时间编码)、空间编码和内容编码组成该图像块的编码信息。M*N个图像块的编码信息输入到时空编码层，得到组合编码410，使用时空编码层根据组合编码确定该训练样本对应的特征信息。

下面，通过几个实施例对待训练的视频识别模型的训练过程进行介绍。

示例1：

在一些实施例中，计算机设备采用第三数据集对待训练的视频识别模型进行训练，得到完成训练的视频识别模型，包括：计算机设备轮流将第一分类网络和第二分类网络，作为待调整的目标分类网络；其中，第一分类网络和第二分类网络中除目标分类网络之外的另一分类网络，作为监督分类网络；计算机设备在第三数据集中确定目标分类网络的训练样本；计算机设备通过待训练的视频识别模型，输出目标分类网络的训练样本所对应的目标分类结果和监督分类结果；其中，目标分类结果是指由目标分类网络输出的分类结果，监督分类结果是指由监督分类网络输出的分类结果；计算机设备通过对照分类网络，确定目标分类网络的训练样本所对应的参考分类结果；其中，对照分类网络是指已经收敛且与监督分类网络执行相同分类任务的分类网络；计算机设备根据目标分类结果、监督分类结果和参考分类结果，确定目标分类网络的训练损失；计算机设备根据目标分类网络的训练损失，调整特征编码网络和目标分类网络的参数，直至满足停止训练条件时，得到完成训练的视频识别模型。

在一些实施例中，计算机设备根据目标分类结果、监督分类结果和参考分类结果，确定目标分类网络的训练损失，包括：计算机设备根据目标分类结果和目标分类结果对应的分类标签，确定目标分类网络的分类损失；其中，分类损失用于衡量目标分类网络输出的目标分类结果的准确性；计算机设备根据监督分类结果和参考分类结果，确定目标分类网络的督导损失；其中，督导损失用于衡量监督分类结果和参考分类结果之间的一致性；计算机设备根据分类损失和督导损失，确定目标分类网络的训练损失。

在示例1中，计算机设备在一个训练批次中只对第一识别模型或第二识别模型中的一个进行参数调整。

在一些实施例中，目标分类网络是指当前训练批次中进行参数调整分类网络。监督分类网络是指当前训练批次中不进行参数调整分类网络。

在一些实施例中，对照分类网络和监督分类网络用于执行相同的分类任务。例如若监督分类网络用于执行第一分类任务，则对照分类网络也用于执行第一分类任务。若监督分类网络用于执行第二分类任务，则对照分类网络也用于执行第二分类任务。

在一些实施例中，对照分类网络是初步训练后的第一分类网络，或者初步训练后的第二分类网络。监督分类网络与初次训练后的特征编码网络组合能够确定输入数据的类型结果，且该类型结果具有一定的准确率。在一些实施例中，模型识别设备通过对照分类网络和初次训练后的特征编码网络构成对照识模型。

目标分类网络的训练样本与目标分类网络用于执行的分类任务有关。例如，目标分离网络为第一分类网络的情况下，目标分类网络的训练数据是标签数据与第一分类类型有关的训练数据。

在另一些实施例中，目标分类模型的训练样本与初次训练目标分类模型的过程中使用的训练数据具有相同的模态。例如，目标分类网络为第二分类网络，第二模态为图像模态，则在该阶段的训练过程中目标分类网络的训练样本中包括图像数据。

在一个示例中，在使用训练视频对目标分类网络进行训练的情况下：确定多个时间点；将多个时间点在训练视频中分别对应的图像帧作为目标分类模型的训练数据。

在另一个示例中，在使用训练图像对目标分类网络进行训练的情况下：对同一个训练图像进行截取，得到多个输入图像；将多个输入图像作为目标分类图像的训练数据。该过程的具体内容请参考上文实施例，在此不进行赘述。计算机设备将目标训练样本的训练数据A输入视频识别模型，通过目标分类网络得到该训练数据A的目标分类结果，通过监督分类网络得到该训练数据A的监督分类结果。计算机设备将目标训练样本的训练数据A输入对照识别模型，通过对照分类网络确定训练数据A的对照分类结果。

目标分类结果对应的分类标签是指目标分类结果对应的训练数据的分类标签。例如，训练数据的分类标签为(动作类型)“跑步”，则目标分类结果对应的分类标签为“跑步”。

在一些实施例中，计算机设备通过目标分类结果，以及目标分类结果对应的标签计算目标分类网络的分类损失。计算机设备通过监督分类结果，以及对照分类结果对应的标签计算督导损失，并按照权重比例对目标分类网络的分类损失和督导损失进行加权，得到目标分类网络的训练损失。

在一些实施例中，权重比例是预先设定的，例如将权重比例设置成目标分类网络的分类损失：督导损失＝1：1、目标分类网络的分类损失：督导损失＝3：2等。

下面，以第一分类网络执行动作分类任务(以下将第一分类网络称为动作分类网络)，第二分类网络执行场景分类任务(以下将第二分类网络称为动作分类网络)对待训练的视频识别模型的训练过程进行举例说明。

图5示出了本申请一个示例性实施例提供的待训练的视频识别模型的训练过程的示意图。

在某一个训练批次中，计算机设备将待训练的视频识别模型510中的二次训练后的场景分类网络作为目标分类网络，目标训练数据为图像数据。计算机设备将初次训练后的动作分类网络作为对照分类网络，将二次训练后的动作分类网络作为监督网络。通过将训练样本输入待训练的视频识别模型510，得到待训练的目标分类结果(场景类型)和监督分类结果(动作类型)。并通过初次训练后的特征编码网络(此时可以称为固定的动作模型(fixed action model))和初次训练后的动作分类网络确定训练样本的对照分类结果(动作类型)。通过监督分类结果和对照分类结果确定督导损失，通过目标分类结果和目标分类结果对应的标签分类确定场景分类网络的分类损失。通过对督导损失和场景分类网络的分类损失对二次训练后的特征编码网络和二次训练后的动作分类网络中的参数进行调整。

通过上述方法，有助于减少对待训练的视频识别模型中的参数进行较大的改动，有助于加快待训练的视频识别模型的训练速度。还有助于保持监督分类网络执行对应的分类任务的准确度。

示例2：

在一些实施例中，计算机设备采用第三数据集对待训练的视频识别模型进行训练，得到完成训练的视频识别模型，包括：计算机设备按照第一模态和第二模态的样本选取比例，从第三数据集中确定待训练的视频识别模型的多个训练样本；计算机设备通过待训练的视频识别模型，输出训练样本对应的第一分类结果和第二分类结果；其中，第一分类结果是指由第一分类网络输出的分类结果，第二分类结果是指由第二分类网络输出的分类结果；计算机设备根据第一分类结果和第二分类结果，确定模型训练损失；计算机设备根据模型训练损失对待训练的视频识别模型中各网络的参数进行调整，直至满足停止训练条件时，得到完成训练的视频识别模型。

在一些实施例中，第一模态和第二模态的样本选取比例可以是预先配置的，例如根据对第一分类任务的准确性和对第二分类任务准确性的需求进行设置。

待训练的视频识别模型中各网络包括：二次训练后的特征编码网络、初次训练后的第一分类网络和二次训练后的第二分类网络。

在一些实施例中，计算机设备根据第一分类结果和第二分类结果，确定模型训练损失，包括：计算机设备根据第一分类结果和第一分类结果对应的分类标签，确定第一分类损失，第一分类损失用于衡量第一分类网络输出的第一分类结果的准确性；计算机设备根据第二分类结果和第二分类结果对应的分类标签，确定第二分类损失，第二分类损失用于衡量第二分类网络输出的第二分类结果的准确性；计算机设备根据第一分类结果和第一分类结果对应的参考分类结果，确定第一约束损失，第一约束损失用于衡量第一分类结果和第一分类结果对应的参考分类结果之间的一致性；计算机设备根据第二分类结果和第二分类结果对应的参考分类结果，确定第二约束损失，第二约束损失用于衡量第二分类结果和第二分类结果对应的参考分类结果之间的一致性；计算机设备按照加权权重，对第一分类损失、第二分类损失、第一约束损失和第二约束损失进行加权求和，得到模型训练损失；其中，加权权重在模型训练过程中根据各分类任务的损失占比动态调节。

第一分类结果对应的参考分类结果、第一分类结果对应的参考分类结果的计算方法和示例1中对照分类结果的计算方法相同，具体请参考示例1，在此不进行赘述。

在一些实施例中，在待训练的视频模型的训练过程中，改变不确定损失(Uncertainty Loss)确定第一分类损失、第二分类损失、第一约束损失和第二约束损失之间的权重，减小数值较大的损失对应的权重，增大数值较小的损失对应的权重。

通过对待训练的视频识别模型进行训练，有助于提高视频识别模型的执行第一分类任务和第二分类任务的准确度。训练完成的频识别模型在不同分类任务中共享特征编码网络中的参数，实现了潜在协同作用，有助于在图像模态和视频模态的多媒体数据分类任务中，均获得有竞争力的分类结果。

对于只能执行单个分类任务的视频识别模型，对视频数据执行第一分类任务(如动作分类)和第二分类任务(如场景分类)，需要利用两个完整的模型分析视频数据，假设每个模型每天处理5000个50分钟的长视频，则需要400个容器(容器是指运行视频识别模型的计算机资源集合)。通过本方案得到的视频识别模型通过将特征编码网络的参数共享，处理同样数据量仅需要一半的容器数量。

此外由于在视频识别模型的训练过程中融合了多个任务的训练过程，利用不同任务间的潜在协同作用，识别效果有进一步的提升。通过本方法训练得到的视频设备模型进行视频数据的分类实验得到的实验数据中，基于视频数据的场景识别效果比原有图像版本的模型的准确率有3％的提升，动作识别准确率有0.8％的提升。

通过上述视频识别模型的训练方法进行训练，得到的完成训练后的视频识别模型是一种通用构架的模型。完成训练后的视频识别模型对于输入的一个视频数据，只需要提取一次特征信息就可以同时预测出其中的第一类型和第二类型，对视频数据进行分类的过程中进行的计算量较小。第一类型和第二类型可以属于不同的模态，也即可以使用一个视频识别模型完成图像模态上的分类任务以及视频模态上的分类任务。

在一个实施例中，通过训练完成的视频识别模型对视频数据执行分类任务，包括：在视频数据中确定多个图像帧；对多个图像帧进行分块，得到多个图像帧分别对应的图像块，将多个图像帧对应的图像块输入视频识别模型，通过特征编码网络的线性映射层分别对多个图像块进行线性映射，得到多个图像块分别对应的内容编码，对于多个图像块中的目标图像块，确定目标图像块时间编码和空间编码；其中，目标图像块的时间编码和目标图像块所属的图像帧在视频数据中出现的时间点有关，目标图像块的时间编码和目标图像块在所属的图像帧中位置有关；将目标图像块的时间编码、空间编码和内容编码进行组合，得到目标图像块的编码信息；将视频图像对应的编码信息输入到空间编码网络中，通过空间编码网络得到视频图像对应的特征信息，使用第一分类网络根据该特征信息确定视频数据的第一分类结果，通过第二分类网络根据该特征视频数据的第二分类结果。

在一些实施例中，在视频数据中确定多个图像帧，包括：确定多个间隔时长；按照间隔时长，在视频数据中选择多个图像帧；其中间隔时长是指在视频数据中相邻两个被选择的图像帧分别对应的时间点的间隔。多个间隔时长可以相等，例如对播放时长为20秒的视频数据，从第一个图像帧开始，每个2秒确定一个图像帧，共得到10个图像帧。上述实施例中的具体内容请参考视频识别模型训练方法实施例中的内容，在此不进行赘述。

在一个示例中，训练完成的视频识别模型可以应用于推荐信息(如广告)投放方面。在一些实施例中，可以使用视频识别模型对视频数据进行分类，分别得到视频数据对应的第一类型结果和第二类型结果，并根据第一类型结果和第二类型结果确定该视频数据对应的推荐信息。

例如，视频识别模型确定视频数据的场景分类和动作分类，服务器可以根据该视频数据的场景分类和动作分类，在推荐信息库中选择相适配的推荐信息。在终端设备的客户端需要播放该视频数据的情况下，客户端向服务器请求该视频数据，服务器该视频数据和该视频数据对应的推荐信息发送给终端设备。客户端在播放该视频数据的过程中，显示推荐信息。

图6是本申请一个示例性实施例示出的基于视频识别显示推荐信息的示意图。

视频识别模型确定该视频片段的场景类型是古风庭院610、动作类型是弹古筝620。服务器可以根据上述信息在推荐信息库中确定目标推荐信息，例如具有投放于古风场景客户对应的白酒广告630(同时，包括未成年避免饮酒的推荐信息)。并在客户端请求该视频数据时，将目标推荐信息发送给客户端。

在一个示例中，训练完成的视频识别模型可以应用于筛选视频数据。例如，在多媒体数据存储空间中包括多个视频数据，使得用户难以直接找到需要查找的视频数据，在这种情况下，可以使用视频识别模型分别确定多个视频数据对应的第一分类类型和第二分类类型。例如，第一分类类型是视频属性类型，第二分类类型与特定物体有关。通过视频识别模型对多媒体数据存储空间中的视频数据进行分类，确定并存储各个视频数据对应的第一分类结果，第二分类结果。在用户需要查询某个视频数据的情况下，可以提供该视频数据所属的第一分类结果和第二分类结果，多媒体数据存储空间根据用户提供的第一分类结果和第二分类结果对存储的视频数据进行查询，并将满足上述两个分类结果的候选视频数据优先显示给用户。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图7示出了本申请一个示例性实施例提供的视频识别模型的训练装置的框图。该装置700可以包括：第一训练模块710、模型构造模块720、第二训练模块730和第三训练模块740。

第一训练模块710，用于采用第一数据集对所述第一识别模型进行训练，调整所述第一识别模型中包含的所述特征编码网络和所述第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络；其中，所述第一数据集中包括第一模态的训练数据。

模型构造模块720，用于基于所述第二分类网络和所述初步训练后的特征编码网络，构造初始化的第二识别模型。

第二训练模块730，用于采用第二数据集对所述初始化的第二识别模型中的所述第二分类网络进行训练，固定所述初步训练后的特征编码网络的参数，并调整所述第二分类网络的参数，得到初步训练后的第二分类网络；其中，所述第二数据集中包括第二模态的训练数据，且所述第二模态和所述第一模态是两种不同的模态。

所述模型构造模块720，还用于基于所述初步训练后的特征编码网络和所述初步训练后的第二分类网络，构造初步训练后的第二识别模型。

第二训练模块730，还用于采用所述第二数据集对所述初步训练后的第二识别模型进行训练，调整所述初步训练后的特征编码网络和所述初步训练后的第二分类网络的参数，得到二次训练后的特征编码网络和二次训练后的第二分类网络。

所述模型构造模块720，还用于基于所述二次训练后的特征编码网络、所述初步训练后的第一分类网络和所述二次训练后的第二分类网络，构造待训练的视频识别模型。

第三训练模块740，用于采用第三数据集对所述待训练的视频识别模型进行训练，得到完成训练的视频识别模型；其中，所述第三数据集中包括以下至少之一：所述第一模态的训练数据、所述第二模态的训练数据。

在一些实施例中，所述第一模态为视频模态，所述第一数据集中包括至少一个训练视频；所述第二模态为图像模态，所述第二数据集中包括至少一个训练图像；

所述第一训练模块，用于对于每个训练视频，根据多个截取时间点，得到所述训练视频对应的多个图像帧；使用所述训练视频对应的多个图像帧，对所述第一识别模型进行训练，调整所述第一识别模型中包含的所述特征编码网络和所述第一分类网络的参数，得到所述初步训练后的特征编码网络和所述初步训练后的第一分类网络；

所述第二训练模块，用于对于每个训练图像，对所述训练图像进行变换处理，得到所述训练图像对应的多个变换图像；使用所述训练图像对应的多个变换图像，对所述第二分类网络进行训练，固定所述初步训练后的特征编码网络的参数，并调整所述第二分类网络的参数，得到所述初步训练后的第二分类网络。

在一些实施例中，所述第二模态为图像模态，所述第二数据集中包括至少一个训练图像；所述第二训练模块730包括：图像处理子模块(图7未示出)，用于从同一个所述训练图像中截取多个不同的图像内容，得到多个输入图像；其中，属于同一个所述训练图像的任意两个所述输入图像之间存在部分相同的图像内容；预处理子模块(图7未示出)，用于将所述多个输入图像作为所述初始化的第二识别模型的训练样本；特征提取子模块(图7未示出)，用于通过所述初步训练后的特征编码网络提取所述训练样本的特征信息；分类确定子模块，用于通过所述第二分类网络根据所述训练样本的特征信息，确定所述训练样本的预测分类结果；参数调整子模块(图7未示出)，用于根据所述训练样本的预测分类结果和分类标签，确定训练损失，并基于所述训练损失调整所述第二分类网络的参数，得到所述初步训练后的第二分类网络。

在一些实施例中，所述图像处理子模块，用于确定图像截取框的尺寸；将所述图像截取框放置在所述训练图像的多个不同位置，分别截取所述图像截取框内的图像内容，得到所述多个输入图像。

在一些实施例中，所述图像处理子模块，用于确定图像截取框的尺寸以及在所述训练图像中的摆放位置；在所述训练图像对应的缩放范围内，确定所述训练图像对应的多个不同的缩放比例；分别按照所述多个不同的缩放比例，对所述训练图像的尺寸进行缩放，得到多个缩放后训练图像；从所述多个缩放后训练图像中分别截取所述图像截取框内的图像内容，得到所述多个输入图像。

在一些实施例中，所述图像处理子模块，用于采用多种不同的模糊处理参数分别对所述训练图像进行模糊处理，得到多个处理后训练图像；从所述多个处理后训练图像中分别截取图像截取框内的图像内容，得到所述多个输入图像。

在一些实施例中，所述特征编码网络包括：线性投影层和时空编码层；所述特征提取子模块，用于对于所述训练样本中的目标输入图像，对所述目标输入图像进行分块，得到同一个所述目标输入图像对应的多个图像块；对于所述多个图像块中的目标图像块，通过所述线性投影层对所述目标图像块进行卷积处理，得到所述目标图像块的内容编码；其中，所述目标图像块的内容编码用于表征所述目标图像块的图像内容；确定所述目标图像块的时间编码，以及所述目标图像块的空间编码；其中，所述目标图像块的时间编码用于表征所述目标图像块所属的时间步，所述目标图像块的空间编码用于表征所述目标图像块在所属的输入图像中的位置信息；将所述目标图像块的内容编码、所述目标图像块的时间编码和所述目标图像块的空间编码进行组合，得到所述目标图像块的编码信息；将所述训练样本对应的编码信息，输入所述时空编码层；其中，所述训练样本对应的编码信息包括：属于所述训练样本的所述多个输入图像分别对应的所述图像块的编码信息；通过所述时空编码层对所述训练样本对应的编码信息进行编码处理，得到所述训练样本对应的特征信息。

在一些实施例中，同一个所述训练样本的所述多个输入图像分别对应的图像块，采用相同的时间编码。

在一些实施例中，所述参数调整子模块包括：网络选择单元，用于轮流将所述第一分类网络和所述第二分类网络，作为待调整的目标分类网络；其中，所述第一分类网络和所述第二分类网络中除所述目标分类网络之外的另一分类网络，作为监督分类网络；样本确定单元，用于在所述第三数据集中确定所述目标分类网络的训练样本；分类确定单元，用于通过所述待训练的视频识别模型，输出所述目标分类网络的训练样本所对应的目标分类结果和监督分类结果；其中，所述目标分类结果是指由所述目标分类网络输出的分类结果，所述监督分类结果是指由所述监督分类网络输出的分类结果；对照确定单元，用于通过对照分类网络，确定所述目标分类网络的训练样本所对应的参考分类结果；其中，所述对照分类网络是指已经收敛且与所述监督分类网络执行相同分类任务的分类网络；损失确定单元，用于根据所述目标分类结果、所述监督分类结果和所述参考分类结果，确定所述目标分类网络的训练损失；参数调整单元，用于根据所述目标分类网络的训练损失，调整所述特征编码网络和所述目标分类网络的参数，直至满足停止训练条件时，得到所述完成训练的视频识别模型。

在一些实施例中，所述损失确定单元，用于根据所述目标分类结果和所述目标分类结果对应的分类标签，确定所述目标分类网络的分类损失；其中，所述分类损失用于衡量所述目标分类网络输出的所述目标分类结果的准确性；根据所述监督分类结果和所述参考分类结果，确定所述目标分类网络的督导损失；其中，所述督导损失用于衡量所述监督分类结果和所述参考分类结果之间的一致性；根据所述分类损失和所述督导损失，确定所述目标分类网络的训练损失。

在一些实施例中，所述参数调整子模块包括：样本确定单元，用于按照所述第一模态和所述第二模态的样本选取比例，从所述第三数据集中确定所述待训练的视频识别模型的多个训练样本；分类确定单元，用于通过所述待训练的视频识别模型，输出所述训练样本对应的第一分类结果和第二分类结果；其中，所述第一分类结果是指由所述第一分类网络输出的分类结果，所述第二分类结果是指由所述第二分类网络输出的分类结果；损失确定单元，用于根据所述第一分类结果和所述第二分类结果，确定模型训练损失；参数调整单元，用于根据所述模型训练损失对所述待训练的视频识别模型中各网络的参数进行调整，直至满足停止训练条件时，得到所述完成训练的视频识别模型。

在一些实施例中，所述参数调整单元，用于根据所述第一分类结果和所述第一分类结果对应的分类标签，确定第一分类损失，所述第一分类损失用于衡量所述第一分类网络输出的所述第一分类结果的准确性；根据所述第二分类结果和所述第二分类结果对应的分类标签，确定第二分类损失，所述第二分类损失用于衡量所述第二分类网络输出的所述第二分类结果的准确性；根据所述第一分类结果和所述第一分类结果对应的参考分类结果，确定第一约束损失，所述第一约束损失用于衡量所述第一分类结果和所述第一分类结果对应的参考分类结果之间的一致性；根据所述第二分类结果和所述第二分类结果对应的参考分类结果，确定第二约束损失，所述第二约束损失用于衡量所述第二分类结果和所述第二分类结果对应的参考分类结果之间的一致性；用于按照加权权重，对所述第一分类损失、所述第二分类损失、所述第一约束损失和所述第二约束损失进行加权求和，得到所述模型训练损失；其中，所述加权权重在模型训练过程中根据各所述分类任务的损失占比动态调节。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。上述实施例提供的装置的有益效果请参考方法侧实施例的描述，这里也不再赘述。

图8示出了本申请一个示例性实施例提供的计算机设备的结构框图。

通常，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质存储有计算机程序，该计算机程序由处理器801加载并执行以实现上述各方法实施例提供的视频识别模型的训练方法。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述各方法实施例提供的视频识别模型的训练方法。

该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM(RandomAccess Memory，随机存取存储器)、ROM(Read-Only Memory，只读存储器)、EPROM(ErasableProgrammable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储技术、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机程序，以实现上述各方法实施例提供的视频识别模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标语音数据都是在充分授权的情况下获取的。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同切换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频识别模型的训练方法，其特征在于，所述视频识别模型包括：第一识别模型和第二识别模型，所述第一识别模型和所述第二识别模型共用同一个特征编码网络，所述第一识别模型包括所述特征编码网络和第一分类网络，所述第二识别模型包括所述特征编码网络和第二分类网络，所述第一分类网络和所述第二分类网络用于执行两种不同的分类任务；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一模态为视频模态，所述第一数据集中包括至少一个训练视频；所述第二模态为图像模态，所述第二数据集中包括至少一个训练图像；

所述采用第一数据集对所述第一识别模型进行训练，调整所述第一识别模型中包含的所述特征编码网络和所述第一分类网络的参数，得到初步训练后的特征编码网络和初步训练后的第一分类网络，包括：

对于每个训练视频，根据多个截取时间点，得到所述训练视频对应的多个图像帧；

使用所述训练视频对应的多个图像帧，对所述第一识别模型进行训练，调整所述第一识别模型中包含的所述特征编码网络和所述第一分类网络的参数，得到所述初步训练后的特征编码网络和所述初步训练后的第一分类网络；

所述采用第二数据集对所述初始化的第二识别模型中的所述第二分类网络进行训练，固定所述初步训练后的特征编码网络的参数，并调整所述第二分类网络的参数，得到初步训练后的第二分类网络，包括：

对于每个训练图像，对所述训练图像进行变换处理，得到所述训练图像对应的多个变换图像；

使用所述训练图像对应的多个变换图像，对所述第二分类网络进行训练，固定所述初步训练后的特征编码网络的参数，并调整所述第二分类网络的参数，得到所述初步训练后的第二分类网络。

3.根据权利要求1所述的方法，其特征在于，所述第二模态为图像模态，所述第二数据集中包括至少一个训练图像；

从同一个所述训练图像中截取多个不同的图像内容，得到多个输入图像；其中，属于同一个所述训练图像的任意两个所述输入图像之间存在部分相同的图像内容；

将所述多个输入图像作为所述初始化的第二识别模型的训练样本；

通过所述初步训练后的特征编码网络提取所述训练样本的特征信息；

通过所述第二分类网络根据所述训练样本的特征信息，确定所述训练样本的预测分类结果；

根据所述训练样本的预测分类结果和分类标签，确定训练损失，并基于所述训练损失调整所述第二分类网络的参数，得到所述初步训练后的第二分类网络。

4.根据权利要求3所述的方法，其特征在于，所述从同一个所述训练图像中截取多个不同的图像内容，得到多个输入图像，包括：

确定图像截取框的尺寸；

将所述图像截取框放置在所述训练图像的多个不同位置，分别截取所述图像截取框内的图像内容，得到所述多个输入图像。

5.根据权利要求3所述的方法，其特征在于，所述从同一个所述训练图像中截取多个不同的图像内容，得到多个输入图像，包括：

确定图像截取框的尺寸以及在所述训练图像中的摆放位置；

在所述训练图像对应的缩放范围内，确定所述训练图像对应的多个不同的缩放比例；

分别按照所述多个不同的缩放比例，对所述训练图像的尺寸进行缩放，得到多个缩放后训练图像；

从所述多个缩放后训练图像中分别截取所述图像截取框内的图像内容，得到所述多个输入图像。

6.根据权利要求3所述的方法，其特征在于，所述从同一个所述训练图像中截取多个不同的图像内容，得到多个输入图像，包括：

采用多种不同的模糊处理参数分别对所述训练图像进行模糊处理，得到多个处理后训练图像；

从所述多个处理后训练图像中分别截取图像截取框内的图像内容，得到所述多个输入图像。

7.根据权利要求3所述的方法，其特征在于，所述特征编码网络包括：线性投影层和时空编码层；

所述通过所述初步训练后的特征编码网络提取所述训练样本的特征信息，包括：

对于所述训练样本中的目标输入图像，对所述目标输入图像进行分块，得到同一个所述目标输入图像对应的多个图像块；

对于所述多个图像块中的目标图像块，通过所述线性投影层对所述目标图像块进行卷积处理，得到所述目标图像块的内容编码；其中，所述目标图像块的内容编码用于表征所述目标图像块的图像内容；

确定所述目标图像块的时间编码，以及所述目标图像块的空间编码；其中，所述目标图像块的时间编码用于表征所述目标图像块所属的时间步，所述目标图像块的空间编码用于表征所述目标图像块在所属的输入图像中的位置信息；

将所述目标图像块的内容编码、所述目标图像块的时间编码和所述目标图像块的空间编码进行组合，得到所述目标图像块的编码信息；

将所述训练样本对应的编码信息，输入所述时空编码层；其中，所述训练样本对应的编码信息包括：属于所述训练样本的所述多个输入图像分别对应的所述图像块的编码信息；

通过所述时空编码层对所述训练样本对应的编码信息进行编码处理，得到所述训练样本对应的特征信息。

8.根据权利要求7所述的方法，其特征在于，同一个所述训练样本的所述多个输入图像分别对应的图像块，采用相同的时间编码。

9.根据权利要求1所述的方法，其特征在于，所述采用第三数据集对所述待训练的视频识别模型进行训练，得到完成训练的视频识别模型，包括：

轮流将所述第一分类网络和所述第二分类网络，作为待调整的目标分类网络；其中，所述第一分类网络和所述第二分类网络中除所述目标分类网络之外的另一分类网络，作为监督分类网络；

在所述第三数据集中确定所述目标分类网络的训练样本；

通过所述待训练的视频识别模型，输出所述目标分类网络的训练样本所对应的目标分类结果和监督分类结果；其中，所述目标分类结果是指由所述目标分类网络输出的分类结果，所述监督分类结果是指由所述监督分类网络输出的分类结果；

通过对照分类网络，确定所述目标分类网络的训练样本所对应的参考分类结果；其中，所述对照分类网络是指已经收敛且与所述监督分类网络执行相同分类任务的分类网络；

根据所述目标分类结果、所述监督分类结果和所述参考分类结果，确定所述目标分类网络的训练损失；

根据所述目标分类网络的训练损失，调整所述特征编码网络和所述目标分类网络的参数，直至满足停止训练条件时，得到所述完成训练的视频识别模型。

10.根据权利要求9所述的方法，其特征在于，所述根据所述目标分类结果、所述监督分类结果和所述参考分类结果，确定所述目标分类网络的训练损失，包括：

根据所述目标分类结果和所述目标分类结果对应的分类标签，确定所述目标分类网络的分类损失；其中，所述分类损失用于衡量所述目标分类网络输出的所述目标分类结果的准确性；

根据所述监督分类结果和所述参考分类结果，确定所述目标分类网络的督导损失；其中，所述督导损失用于衡量所述监督分类结果和所述参考分类结果之间的一致性；

根据所述分类损失和所述督导损失，确定所述目标分类网络的训练损失。

11.根据权利要求1所述的方法，其特征在于，所述采用第三数据集对所述待训练的视频识别模型进行训练，得到完成训练的视频识别模型，包括：

按照所述第一模态和所述第二模态的样本选取比例，从所述第三数据集中确定所述待训练的视频识别模型的多个训练样本；

通过所述待训练的视频识别模型，输出所述训练样本对应的第一分类结果和第二分类结果；其中，所述第一分类结果是指由所述第一分类网络输出的分类结果，所述第二分类结果是指由所述第二分类网络输出的分类结果；

根据所述第一分类结果和所述第二分类结果，确定模型训练损失；

根据所述模型训练损失对所述待训练的视频识别模型中各网络的参数进行调整，直至满足停止训练条件时，得到所述完成训练的视频识别模型。

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一分类结果和所述第二分类结果，确定模型训练损失，包括：

根据所述第一分类结果和所述第一分类结果对应的分类标签，确定第一分类损失，所述第一分类损失用于衡量所述第一分类网络输出的所述第一分类结果的准确性；

根据所述第二分类结果和所述第二分类结果对应的分类标签，确定第二分类损失，所述第二分类损失用于衡量所述第二分类网络输出的所述第二分类结果的准确性；

根据所述第一分类结果和所述第一分类结果对应的参考分类结果，确定第一约束损失，所述第一约束损失用于衡量所述第一分类结果和所述第一分类结果对应的参考分类结果之间的一致性；

根据所述第二分类结果和所述第二分类结果对应的参考分类结果，确定第二约束损失，所述第二约束损失用于衡量所述第二分类结果和所述第二分类结果对应的参考分类结果之间的一致性；

按照加权权重，对所述第一分类损失、所述第二分类损失、所述第一约束损失和所述第二约束损失进行加权求和，得到所述模型训练损失；其中，所述加权权重在模型训练过程中根据各所述分类任务的损失占比动态调节。

13.一种视频识别模型的训练装置，其特征在于，所述视频识别模型包括：第一识别模型和第二识别模型，所述第一识别模型和所述第二识别模型共用同一个特征编码网络，所述第一识别模型包括所述特征编码网络和第一分类网络，所述第二识别模型包括所述特征编码网络和第二分类网络，所述第一分类网络和所述第二分类网络用于执行两种不同的分类任务；所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至12任一项所述的视频识别模型的训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行，以实现如权利要求1至12任一项所述的视频识别模型的训练方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机程序，以实现如权利要求1至12任一项所述的视频识别模型的训练方法。