CN115187910A

CN115187910A - 视频分类模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN115187910A
Application number: CN202210856045.3A
Authority: CN
Inventors: 陈世哲; 白俊杰
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-10-14

Abstract

本发明公开了一种视频分类模型训练方法、装置、电子设备及存储介质，该方法包括：获取当前标注视频样本数据集，基于当前标注视频样本数据集进行分类任务训练得到当前视频分类模型；基于当前视频分类模型获取目标分类处理信息；基于目标分类处理信息从剩余未标注视频样本数据中选取目标剩余未标注视频样本数据作为新增的待标注视频样本数据；目标剩余未标注视频样本数据与当前标注视频样本数据集之间的差异程度大于未被选取的剩余未标注视频样本数据；基于新增的待标注视频样本数据更新当前标注视频样本数据集，直至满足预设训练结束条件得到目标视频分类模型。本发明不仅节省了标注成本，而且训练方法的稳定性强，提升了模型的迭代效率。

Description

视频分类模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种视频分类模型训练方法、装置、电子设备及存储介质。

背景技术

目前，通过视频分类模型对视频进行分类打标已经成为提高下游视频分发效率的一种重要方式。视频分类模型通常基于深度学习算法对神经网络进行训练得到。

相关技术中，在基于深度学习实现视频分类模型的过程中，采用全监督训练模型的方式，通过标注大规模的视频数据以构建大规模标注视频数据集来进行模型的视频分类任务训练，不仅耗费大量时间和人力成本进行标注，而且训练方法的稳定性较差，模型迭代效率低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频分类模型训练方法、装置、电子设备及存储介质。所述技术方案如下：

一方面，提供了一种视频分类模型训练方法，所述方法包括：

获取当前标注视频样本数据集，基于所述当前标注视频样本数据集进行分类任务训练得到当前视频分类模型；所述当前标注视频样本数据集中的标注视频样本数据为对待标注视频样本数据进行标注处理得到，所述待标注视频样本数据为从未标注视频样本数据集中选取的未标注视频样本数据；

将所述标注视频样本数据和剩余未标注视频样本数据分别输入至所述当前视频分类模型进行分类处理，获取所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息；所述剩余未标注视频样本数据是指所述未标注视频样本数据集中未被选取为所述待标注视频样本数据的未标注视频样本数据；

基于所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息，从所述剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据；所述目标剩余未标注视频样本数据与所述当前标注视频样本数据集之间的差异程度大于未被选取的所述剩余未标注视频样本数据与所述当前标注集之间的差异程度；

基于所述新增的待标注视频样本数据更新所述当前标注视频样本数据集，直至满足预设训练结束条件结束训练；其中，训练结束时的所述当前视频分类模型作为目标视频分类模型。

另一方面，提供了一种视频分类模型训练装置，所述装置包括：

当前视频分类模型训练模块，用于获取当前标注视频样本数据集，基于所述当前标注视频样本数据集进行分类任务训练得到当前视频分类模型；所述当前标注视频样本数据集中的标注视频样本数据为对待标注视频样本数据进行标注处理得到，所述待标注视频样本数据为从未标注视频样本数据集中选取的未标注视频样本数据；

分类处理信息获取模块，用于将所述标注视频样本数据和剩余未标注视频样本数据分别输入至所述当前视频分类模型进行分类处理，获取所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息；所述剩余未标注视频样本数据是指所述未标注视频样本数据集中未被选取为所述待标注视频样本数据的未标注视频样本数据；

目标未标注视频样本数据选取模块，用于基于所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息，从所述剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据；所述目标剩余未标注视频样本数据与所述当前标注视频样本数据集之间的差异程度大于未被选取的所述剩余未标注视频样本数据与所述当前标注集之间的差异程度；

标注视频样本数据集更新模块，用于基于所述新增的待标注视频样本数据更新所述当前标注视频样本数据集，直至满足预设训练结束条件结束训练；其中，训练结束时的所述当前视频分类模型作为目标视频分类模型。

在一个示例性的实施方式中，所述目标分类处理信息为所述分类处理过程中进行特征提取得到的特征；所述目标未标注视频样本数据选取模块，包括：

第一确定模块，用于确定当前第一特征集和当前第二特征集；其中，第一特征集中的第一特征包括所述标注视频样本数据对应的提取特征，第二特征集中的第二特征为所述剩余未标注视频样本数据对应的提取特征；

第一相似程度确定模块，用于确定所述当前第二特征集中每个第二特征与所述当前第一特征集之间的第一相似程度；

选取模块，用于确定最小所述第一相似程度对应的目标第二特征，选取所述目标第二特征对应的剩余未标注视频样本数据为所述目标剩余未标注视频样本数据；

更新模块，用于基于所述目标第二特征更新所述当前第一特征集和所述当前第二特征集，直至得到第一预设数量的所述目标剩余未标注视频样本数据；其中，更新后的当前第一特征集中包括所述目标第二特征并将所述目标第二特征作为第一特征，更新后的当前第二特征集中不包括所述目标第二特征；

第二确定模块，用于将第一预设数量的所述目标剩余未标注视频样本数据作为新增的待标注视频样本数据。

在一个示例性的实施方式中，所述第一相似程度确定模块，包括：

第二相似程度确定模块，用于针对所述当前第二特征集中的每个第二特征，确定所述第二特征与所述当前第一特征集中各第一特征之间的第二相似程度；

第三确定模块，用于将最大所述第二相似程度，作为所述第二特征与所述第一特征集之间的第一相似程度。

在一个示例性的实施方式中，所述当前视频分类模型训练模块，包括：

未标注视频样本数据集获取模块，用于获取所述未标注视频样本数据集；所述未标注视频样本数据集包括至少一个预设视频类别分别对应的未标注视频样本数据；

初始待标注视频样本数据选取模块，用于从每个所述预设视频类别对应的未标注视频样本数据中分别选取未标注视频样本数据作为待标注视频样本数据，得到初始待标注视频样本数据集；所述初始待标注视频样本数据集中待标注视频样本数据的总数量小于所述未标注视频样本数据集中未标注视频样本数据的总数量；

标注处理模块，用于对所述初始待标注视频样本数据集中的待标注视频样本数据进行标注处理，得到所述当前标注视频样本数据集。

在一个示例性的实施方式中，所述未标注视频样本数据集获取模块，包括：

样本视频集获取模块，用于获取样本视频集；所述样本视频集包括所述至少一个预设视频类别分别对应的样本视频；

多模态数据确定模块，用于确定每个所述样本视频对应的多模态数据；所述多模态数据包括相应样本视频的视频帧、音频数据和文本数据；

第四确定模块，用于将每个所述样本视频对应的多模态数据作为未标注视频样本数据，得到所述未标注视频样本数据集。

在一个示例性的实施方式中，所述分类任务包括二分类任务、多分类任务、多标签分类任务中的任意一种。

另一方面，提供了一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述任一方面的视频分类模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述任一方面的视频分类模型训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一方面的视频分类模型训练方法。

本发明实施例通过获取当前标注视频样本数据集，基于当前标注视频样本数据集进行分类任务训练得到当前分类模型，并将标注视频样本数据和剩余未标注视频样本数据分别输入至当前分类模型进行分类处理并获取各自对应的目标分类处理信息，进而基于标注视频样本数据和剩余未标注视频样本数据分别对应的目标分类处理信息从剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据，并利用该新增的待标注视频样本数据更新当前标注视频样本数据集直至满足预设训练结束条件结束训练得到目标分类模型。上述技术方案中，每次迭代训练根据当前视频分类模型分类处理得到的标注视频样本数据和剩余未标注视频样本数据分别对应的目标分类处理信息来从剩余未标注视频样本数据中选取更有助于提升模型训练的一批剩余未标注视频样本数据，进行标注后更新到当前标注视频样本数据集中，并继续迭代训练以提升模型的性能，相较于相关技术中的全监督训练方法，在不影响模型分类效果的前提下可以节约至少50％的标注成本，并且该训练方法的稳定性强，大大提升了整体分类模型的迭代效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频分类模型训练方法的流程示意图；

图2是本发明实施例提供的每次迭代中选取第一预设数量的目标剩余未标注视频样本数据的流程示意图；

图3是基于图2所示方法选取的数据分布示意图；

图4是本发明实施例提供的对线上部署的目标视频分类模型进行自动更新的示意图；

图5是本发明实施例提供的训练视频分类模型的流程示意图；

图6是本发明实施例提供的视频分类模型训练的一个示例；

图7(a)是本发明实施例提供的针对视频分类的分类模型训练效果示意图

图7(b)是本发明实施例提供的针对视频多标签分类的分类模型训练效果示意图；

图8是本发明实施例提供的一种视频分类模型训练装置的结构框图；

图9是本发明实施例提供的一种电子设备的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

需要说明的是，本发明实施例的分类模型训练方法可以应用于分类模型训练装置，该分类模型训练装置可以配置于电子设备中，电子设备可以是终端或者服务器。

其中，终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个示例性的实施方式中，电子设备均可以是区块链系统中的节点设备，能够将获取到以及生成的信息共享给区块链系统中的其他节点设备，实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链，该区块链由多个区块组成，并且前后相邻的区块具有关联关系，使得任一区块中的数据被篡改时都能通过下一区块检测到，从而能够避免区块链中的数据被篡改，保证区块链中数据的安全性和可靠性。

下面对本发明实施例的分类模型训练方法进行详细介绍。

请参阅图1，其所示为本发明实施例提供的一种视频分类模型训练方法的流程示意图，需要说明的是，本发明实施例的视频分类模型训练方法包括多次迭代训练，图1仅以一次迭代训练过程来说明。

另外，需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，所述方法可以包括：

S101，获取当前标注视频样本数据集，基于所述当前标注视频样本数据集进行分类任务训练得到当前视频分类模型。

其中，当前标注视频样本数据集中的标注视频样本数据为对待标注视频样本数据进行标注处理得到，所述待标注视频样本数据为从未标注视频样本数据集中选取的未标注视频样本数据。

未标注视频样本数据集可以包括至少一个预设视频类别的未标注视频样本数据，该至少一个预设视频类别为期望训练后的目标视频分类模型能够识别的视频类别，可以根据样本所属业务的实际需求设定，每个预设视频类别可以对应有多个未标注视频样本数据。

其中，分类任务可以是二分类任务、多分类任务、多标签分类任务中的任意一种。二分类任务用于预测标注视频样本数据是否属于某个预设视频类别，多分类任务用于预测标注视频样本数据属于多个预设视频类别中的哪一个，多标签分类任务用于预测标注视频样本数据可能的一个或者多个预设视频类别标签。

标注视频样本数据对应的标注信息与分类任务训练对应的分类任务相匹配。当分类任务为二分类任务时，每个标注视频样本数据对应的标注信息指示该标注视频样本数据是否属于某个预设视频类别，例如以1指示属于某个预设视频类别，0指示不属于某个预设视频类别；当分类任务为多分类任务时，每个标注视频样本数据对应的标注信息指示该标注视频样本数据属于哪个预设视频类别，也就是说，一条数据仅有一个类别标签，但是类别标签有多个；当分类任务为多标签分类任务时，每个标注视频样本数据对应的标注信息指示该标注视频样本数据属于哪一个或者哪几个预设视频类别，也就是说，一条数据可能有一个或者多个类别标签。

当前视频分类模型可以是深度学习模型，具体的实施中，可以基于未标注视频样本数据所包含信息的模态种类来选择该深度学习模型。由于视频涉及到图像、音频、文本这三种模态信息，那么就可以选择能够处理多模态信息的深度学习模型来进行分类任务训练以得到当前视频分类模型，如该深度学习模型可以是单流Transformer，也可以是多流Transformer，其中，单流Transformer将不同模态的特征/嵌入输入到同一个Transformer中，捕获模态间的信息，多流Transformer将每个模态输入到独立的Transformer中捕获模态内的信息，通过其它方式(例如，另一个Transformer)来构建跨模态关系。

当然，该深度学习模型还可以是其他的能够基于多模态信息进行分类任务处理的神经网络模型，如late-fusion结构的神经网络模型，其中，late-fusion是相对于early-fusion而言的，early-fusion是指在特征上(feature-level)进行融合，进行不同特征的连接(concatenate)，输入到一个模型中进行训练；而late-fusion指的是在预测分数(score-level)上进行融合，做法就是训练多个模型，每个模型都会有一个预测评分，对所有模型的结果进行fusion(融合)，得到最后的预测结果，常见的late-fusion方法有取分数的平均值(average)、最大值(maximum)、加权平均(weighted average)等。

在一个示例性的实施方式中，当前标注视频样本数据集可以是最初始的标注视频样本数据集，也即首次迭代训练中使用的标注视频样本数据集，那么相应的，当前视频分类模型就是还未进行分类任务训练的初始化分类模型，因此上述步骤S101在获取当前标注视频样本数据集时可以包括以下步骤：

获取未标注视频样本数据集；该未标注视频样本数据集包括至少一个预设视频类别分别对应的未标注视频样本数据；

从每个预设视频类别对应的未标注视频样本数据中分别选取未标注视频样本数据作为待标注视频样本数据，得到初始待标注视频样本数据集，该初始待标注视频样本数据集中待标注视频样本数据的总数量小于所述未标注视频样本数据集中未标注视频样本数据的总数量；

对初始待标注视频样本数据集中的待标注视频样本数据进行标注处理，得到当前标注视频样本数据集。

具体的，针对每个预设视频类别可以从海量视频中获取该预设视频类别的视频以得到未标注视频样本数据。

在从未标注视频样本数据集中选取初始待标注视频样本数据集时可以随机选取，但是考虑到随机选取的结果可能不会覆盖到各个预设视频类别，这样将不利于提升模型的上升速度，为了加快模型的迭代效率以提升训练速度，本发明实施例在选取初始待标注视频样本数据集时从每个预设视频类别对应的未标注视频样本数据中分别选取一定数量的未标注视频样本数据，然后将各预设视频类别选取的未标注视频样本数据合并为初始待标注视频样本数据集，并控制初始待标注视频样本数据集中待标注视频样本数据的总数量为小于未标注视频样本数据集中未标注视频样本数据的总数量，然后通过对初始待标注视频样本数据集中的待标注视频样本数据进行标注处理，例如通过人工标注，进而可以将标注有标注信息的初始待标注视频样本数据作为当前标注视频样本数据集，用于首次迭代训练中对初始化分类模型进行分类任务训练。

可以理解的，为了降低人工标注成本，用于首次迭代训练的当前标注视频样本数据集可以考虑在不影响训练速度的前提下尽量减少对应的未标注视频样本数据的总数量。示例性的，首次迭代训练的当前标注视频样本数据集可以是未标注视频样本数据集的10％左右，也即可以控制初始待标注视频样本数据集中待标注视频样本数据的总数量为未标注视频样本数据集中未标注视频样本数据总数量的10％。

上述实施方式，在获取用于首次迭代训练的当前标注视频样本数据集时，从每个预设视频类别对应的未标注视频样本数据中分别选取未标注视频样本数据构成初始待标注视频样本数据集，从而使得基于该初始待标注视频样本数据集得到的当前标注视频样本数据集能够在目标视频类别(即多个预设视频类别)上覆盖度更高，有利于提升模型的上升速度以提升训练速度。

在一个具体的实施方式中，为了提升视频分类模型训练效果以提高训练所得目标视频分类模型的分类准确性，在获取未标注视频样本数据集时可以包括：

获取样本视频集；该样本视频集包括至少一个预设视频类别分别对应的样本视频；

确定每个样本视频对应的多模态数据；该多模态数据包括相应样本视频的视频帧、音频数据和文本数据；

将每个样本视频对应的多模态数据作为未标注视频样本数据，得到未标注视频样本数据集。

具体的，多个预设视频类别可以根据实际应用中需要分类的类别进行设定，例如，生活类别、美女类别等等。

多模态数据中的文本数据可以包括视频标题、对视频帧进行OCR处理得到的文本内容以及对相应音频数据进行ASR处理得到的文本内容。其中，OCR(Optical CharacterRecognition，光学字符识别)，用于从图像中检测和识别文字内容；ASR(Automatic SpeechRecognition，自动语音识别)，用于将语音转换为文本。

S103，将所述标注视频样本数据和剩余未标注视频样本数据分别输入至所述当前视频分类模型进行分类处理，获取所述标注视频样本数据和剩余未标注视频样本数据分别对应的目标分类处理信息。

其中，剩余未标注视频样本数据是指所述未标注视频样本数据集中未被选取为所述待标注视频样本数据的未标注视频样本数据。假设当前标注视频样本数据集为L，剩余未标注视频样本数据集为U，未标注视频样本数据集中未标注视频样本数据的总数量为U中剩余未标注视频样本数据的数量与L中标注视频样本数据的数量之和。

其中，目标分类处理信息可以根据实际应用中的数据选择策略确定，例如，当采用k中心贪心算法作为数据选择策略时，目标分类处理信息可以是分类处理过程中提取的特征，具体的，可以是当前视频分类模型中分类器前一层全连接层的输出，当前视频分类模型中的分类器用于基于其前一层全连接层的输出预测分类结果。在其他的一些数据选择策略中，如深度贝叶斯学习(Deep Bayesian Active Learning，DBAL)，还可以将分类处理结果作为目标分类处理信息。

以目标分类处理信息为分类处理过程中提取的特征为例，将当前标注视频样本数据集中的标注视频样本数据分别输入到当前视频分类模型并提取分类器前一层全连接层的输出，得到每个标注视频样本数据对应的第一特征，进而得到第一特征集；同理，将剩余未标注视频样本数据分别输入到当前视频分类模型并提取分类器前一层全连接的输出，得到每个剩余未标注视频样本数据对应的第二特征，进而得到第二特征集。

S105，基于所述标注视频样本数据和剩余未标注视频样本数据分别对应的目标分类处理信息，从所述剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据。

其中，目标剩余未标注视频样本数据与当前标注视频样本数据集之间的差异程度大于未被选取的所述剩余未标注视频样本数据与当前标注视频样本数据集之间的差异程度。

具体的，针对每个剩余未标注视频样本数据，基于该剩余未标注视频样本数据对应的目标分类处理信息与当前标注视频样本数据集中各标注视频样本数据对应的目标分类处理信息，确定该剩余未标注视频样本数据与各标注视频样本数据之间的子差异程度，然后将最小的子差异程度作为该剩余未标注视频样本数据与当前标注视频样本数据集之间的差异程度；进而，基于每个剩余未标注视频样本数据与当前标注视频样本数据集之间的差异程度来选取目标剩余未标注视频样本数据，以使得目标剩余未标注视频样本数据与当前标注视频样本数据集之间的差异程度大于未被选取的剩余未标注样本数据与当前标注视频样本数据集之间的差异程度。

示例性的，差异程度可以采用相似程度来表征，一般相似程度越大，则差异程度越小；反之，相似程度越小，则差异程度越大。

其中，第一预设数量可以根据实际未标注视频样本数据集来进行设定，例如可以是未标注视频样本数据集总样本数量的10％。

在一个示例性的实施方式中，目标分类处理信息可以为当前视频分类模型分类处理过程中进行特征提取得到的特征，进而可以从特征分布的角度实现对数据分布规则的更加准确表达，也即通过上述步骤S103可以得到第一特征集和第二特征集，其中，第一特征集中的第一特征为标注视频样本数据对应的提取特征，第二特征集中的第二特征为剩余未标注视频样本数据对应的提取特征。

基于此，如图2所示，上述步骤S105在基于所述标注视频样本数据和剩余未标注视频样本数据分别对应的目标分类处理信息，从所述剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据时可以包括：

S1051，确定当前第一特征集和当前第二特征集。

需要说明的是，本发明实施例中第一预设数量的目标剩余未标注视频样本数据采用多次循环的方式进行选取，每次循环从剩余未标注视频样本数据中选取一个作为目标剩余未标注视频样本数据，那么，当前第一特征集和当前第二特征集即为当前循环中所涉及到的第一特征集和第二特征集。

可以理解的是，首次循环中的当前第一特征集即为前述通过步骤S103得到的第一特征集，首次循环中的当前第二特征集即为前述通过步骤S103得到的第二特征集。

S1053，确定所述当前第二特征集中每个第二特征与所述当前第一特征集之间的第一相似程度。

其中，第一相似程度表征相应第二特征与当前第一特征集整体之间的相似程度。

具体的，可以使用第二特征与当前第一特征集之间的距离来表征第一相似程度，距离越大则第一相似程度越小，反之距离越小则第一相似程度越大。具体的实施中，距离可以使用欧式距离(又称为L2距离)、曼哈顿距离(又称为L1距离)等。

为了度量第二特征与当前第一特征集之间的第一相似程度，在一个示例性的实施方式中，可以针对当前第二特征集中的每个第二特征，确定该第二特征与当前第一特征集中各第一特征之间的第二相似程度；将最大第二相似程度作为该第二特征与第一特征集之间的第一相似程度。

具体的，第二特征与第一特征之间的第二相似程度可以使用距离来表征，距离越大则第二相似程度越小，反之距离越小则第二相似程度越大。具体的实施中，距离可以使用欧式距离(又称为L2距离)、曼哈顿距离(又称为L1距离)等。

S1055，确定最小所述第一相似程度对应的目标第二特征，选取所述目标第二特征对应的剩余未标注视频样本数据为所述目标剩余未标注视频样本数据。

具体的，可以先从步骤S1053所确定的多个第一相似程度中查找出最小的第一相似程度，进而将该最小的第一相似程度所对应的第二特征确定为目标第二特征，从而选取该目标第二特征所对应的剩余未标注视频样本数据为目标剩余未标注视频样本数据。

可以理解的，上述基于最小的第一相似程度所对应的目标第二特征来选取目标剩余未标注视频样本数据可以使得该目标剩余未标注视频样本数据与当前标注视频样本数据集的差异最大，是更有利于提升模型训练效率的剩余未标注视频样本数据。

S1057，基于所述目标第二特征更新所述当前第一特征集和所述当前第二特征集，直至得到第一预设数量的目标剩余未标注视频样本数据。

其中，更新后的当前第一特征集中包括所述目标第二特征并将所述目标第二特征作为第一特征，更新后的当前第二特征集中不包括所述目标第二特征。

具体的实施中，将目标第二特征作为第一特征添加至当前第一特征集中以实现对当前第一特征集的更新，并将目标第二特征从当前第二特征集中删除以实现对当前第二特征集的更新。

在更新完当前第一特征集和当前第二特征集之后可以继续执行步骤S1051至步骤S1057，直至选取出第一预设数量的目标剩余未标注视频样本数据。

示例性的，每次选取一个目标剩余未标注视频样本数据可以通过以下公式表示：u＝arg max_i∈U min_j∈LΔ(x_i，x_j)

其中，当前标注视频样本数据集为L，剩余未标注视频样本数据集为U，x_i表示第二特征i，x_j表示第一特征j；u表示目标剩余未标注视频样本数据；Δ()表示距离计算。

S1059，将第一预设数量的所述目标剩余未标注视频样本数据作为新增的待标注视频样本数据。

具体的，由于剩余未标注视频样本数据是指未被选取为待标注视频样本数据的未标注视频样本数据，那么在将第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据时，即实现了对剩余未标注视频样本数据的更新，即从剩余未标注视频样本数据中剔除了上述第一预设数量的目标剩余未标注视频样本数据。

上述实施方式，从优化的角度给出了一组能够很好代表整体数据的子集，使得数据体现更好的特征空间覆盖规律，有利于提升模型的迭代效率。如图3中所示，以第一预设数量k是6为例，基于步骤S1051至步骤S1059可以从输入数据中选取出c₁、c₂、c₃、c₄、c₅、c₆，且这6个数据能够很好表征特征空间覆盖规律，其中，Δ(C)表示图中圆的半径。

S107，基于所述新增的待标注视频样本数据更新所述当前标注视频样本数据集，直至满足预设训练结束条件结束训练。

其中，将满足预设训练结束条件结束训练时的当前视频分类模型作为目标视频分类模型。

预设训练结束条件可以根据实际需要进行设定，例如可以是单次迭代训练的损失值达到预设最小损失阈值，还可以是相邻两次迭代训练的损失值的差值达到预设损失差阈值。当然还可以采用其他用于评价模型训练效果的方式来确定训练结束的时机。

具体的，对新增的待标注视频样本数据进行标注处理，得到新增的标注视频样本数据，将该新增的标注视频样本数据添加到当前标注视频样本数据集中即完成对当前标注视频样本数据集的更新。在下一次迭代训练时，将基于更新后的当前标注视频样本数据集和更新后的剩余未标注视频样本数据进行训练。

假设当前标注视频样本数据集为L，剩余未标注视频样本数据集为U，新增的待标注视频样本数据(即第一预设数量的目标剩余未标注视频样本数据)为{u}，那么，当前标注视频样本数据集的更新过程可以表示为L＝L∪{u}，剩余未标注视频样本数据的更新可以表示为U＝U/{u}，其中，U表示剩余未标注视频样本数据集，“/”表示剔除。

可以理解的，在当前标注视频样本数据集更新后可以继续执行步骤S101至步骤S107进行下一次迭代训练，直至满足预设结束条件得到目标视频分类模型。

由本发明实施例的上述技术方案可见，本发明实施例从一个小规模的数据集开始，以主动学习的训练方式在每次迭代训练时根据当前分类模型分类处理得到的标注视频样本数据和剩余未标注视频样本数据分别对应的目标分类处理信息来从剩余未标注视频样本数据中选取更有助于提升模型训练的一批剩余未标注视频样本数据，进行标注后更新到当前标注视频样本数据集中，并继续迭代训练以提升模型的性能，相较于相关技术中的全监督训练方法，在不影响模型分类效果的前提下可以节约至少50％的标注成本，并且该训练方法的稳定性强，大大提升了整体视频分类模型的迭代效率，提升了训练速度。

另外，相关技术中主动学习的方法缺乏鲁棒性，在不同的实验条件下效果差异很大，而像传统的策略性的算法，如不确定性采样的方法(Uncertainty Sampling)，无论是最低置信度采样方法(least confidence sampling)、边缘采样方法(margin sampling)、熵采样方法(entropy sampling)都不能很好地直接应用在多标签分类的场景下。而本发明实施例在主动学习过程中的数据选取方式使得该主动学习方式的通用性强，结果稳定，可以很好的使用于多标签视频分类场景。

在一个示例性的实施方式中，本发明实施例中得到的目标视频分类模型可以部署到线上，采用本发明实施例提供的视频分类模型训练方法可以实现对线上目标视频分类模型的自动更新。在进行自动更新时，对于新增的预设视频类别，可以基于提取该新增的预设视频类别对应的无标注视频数据以得到新增的未标注视频样本数据集，进而基于该新增的未标注视频样本数据集采用图1至图2所示的方法实施例对目标视频分类模型进行训练更新。

如图4所示为对线上部署的目标视频分类模型进行自动更新的示意图。当有新增视频标签需求时，收集该新增视频标签对应的视频数据以得到无标签视频样本数据，然后选取少量无标签视频样本数据并提交至标注节点进行标注处理，将返回的这部分标注视频样本数据加入到训练数据集中以对训练数据集进行更新，利用更新后的训练数据集训练更新目标视频分类模型，循环这个过程直到模型效果满足要求，接入模型上线流程，从而实现对线上视频分类模型的自动更新。需要说明的是，每次循环中选取的无标签视频样本数据与训练数据集之间的差异程度大于未被选取的无标签视频样本数据与训练数据集之间的差异程度，具体的每次循环中无标签视频样本数据的选取过程可以参见本发明实施例图1所示方法实施例的步骤105的相关介绍，在此不再赘述。

为了更加清楚的了解本发明实施例的技术方案，下面结合图5进行说明，训练得到的目标视频分类模型的应用场景可以包括视频分类(可以是视频二分类或者是视频多分类)和视频多标签分类。

样本视频可以采集自视频平台中发布的PGC(Professionally-generatedContent，专业生产的内容)、UGC(User-generated Content，用户生产的内容)，具体可以针对每个预设视频类别进行采集，该预设类别为期望视频分类模型能够识别的类别，例如当希望训练一个识别游戏IP标签的视频分类模型时，相应的可以从相关视频平台中采集该游戏类的视频内容。

具体到视频分类和视频多标签识别，可以通过样本视频中的多模态信息预测其对应的类别和标签，具体可以使用3个主要模态的数据：视频帧、音频、文本(包括视频标题、视频的OCR、视频ASR)作为模型的输入。因此，在采集到大量的样本视频后，对每个样本视频进行预处理，提取到其中包含的视频帧、音频和文本内容作为相应的未标注视频样本数据，从而得到未标注视频样本数据集记为S。

标注视频样本数据集L：从得到的S中抽取一定比例送标注节点进行标注处理，对于视频分类任务，可以在预设视频类别(或者称之为目标视频类别)中标注对应的视频类别，如以下表1所示，

表1

对于视频多标签的标注，可以标注对应的标签列表，如以下表2所示：

表2

视频ID	标签列表
		71mGaTngA1MUxsjUi	麻将；休闲游戏
……	……
		7cRUjnh981N2UMqkA	美女；帅哥；古典美人

剩余未标注视频样本数据集U：未标注视频样本数据集S中抽取一定比例构造L后，剩余的未标注视频样本数据作为大规模剩余标注视频样本数据集U，用于后续候选的标注视频样本数据。

如图6所示的视频分类模型训练的示例，视频分类模型G采用单流transformer的结构，将多模态视频信息的输入token化，利用transformer的自注意力机制对齐和融合多模态特征，并预测视频的类别/标签；对于文本部分，Token提取embedding(嵌入向量)的方式沿用BERT模型(Bidirectional Encoder Representations from Transformers，来自变换器的双向编码器表征量)的做法，将词本身的embedding加上位置(position)的编码和词性(type)的编码；对于视频帧的部分，类似词的embedding，使用快速训练残差网络ResNet101提取的特征作为视觉token embedding；类似地，音频的特征通过VGGish模型提取(其中，VGGish支持从音频波形中提取具有语义的128维embedding特征向量)，这样可以把视觉特征和音频特征，跟文本词一样，以token的形式输入transformer中，学习融合特征进行预测。

由于[CLS]token输出的embedding通常被认为是整个视频融合后的特征，可以使用它进行分类和多标签的预测，在[CLS]embedding后面接一个全连接层，预测目标类别的概率分布。对于分类问题，可以使用交叉熵的损失函数；对于多标签分类，可以看做是N个二分类问题，即对于N个目标标签，预测每一个标签是否存在，可以使用二分类的focal loss(动态缩放的交叉熵损失函数)或CE loss(交叉熵损失函数)进行训练。

在基于标注视频样本数据集L训练得到视频分类模型G后，利用G对L和U的每个样本提取特征，这里的特征是指[CLS]位置的embedding(即分类器前一层全连接层的输出)，然后基于提取的特征从U中选取最佳的k(如S的10％)个未标注视频样本数据标注后得到L’，将L’加入到L中，其中最佳的k个未标注视频样本数据的选取过程可以参见前述图1所示方法实施例的相关步骤介绍，并将这k个未标注视频样本数据从U中剔除(即图中所示的从U中剔除L’)，基于更新后的L重新训练模型G，更新G后再从U(实质为更新后的)中选取k个未标注视频样本数据，依次循环直到模型达到预设训练结束条件。

为了清楚体现本发明实施例的视频分类模型训练方法所达到的效果，比较了标注视频样本数据集L在整体未标注视频样本数据集S中不同占比之下，视频分类模型性能提升的变化曲线。其中，对于视频分类(可以是二分类或者多分类)，使用了分类准确率(Accuracy，简称ACC)作为指标，对于多标签分类，使用F1分数的指标来综合衡量准确率和召回率的变化情况。

对于视频分类，如图7(a)所示，最上面的虚线(base_100％data)为S中所有数据全部进行标注并训练时，模型得到的准确率，可以理解为当前设定下模型性能的极限；random的曲线为每一轮随机选择数据得到的性能，中间的曲线为采用本发明实施例的方法得到的性能。可以看到，本发明实施例使用约60％的未标注视频样本数据即可取得接近采用全量未标注视频样本数据训练的效果。

对于多标签分类，如图7(b)所示，可以看到，本发明实施例采样约50％的数据即可取得接近采用全量未标注视频样本数据训练的效果。其中，本发明实施例1为基于随机选择10％的未标注视频样本数据构造初始的标注视频样本数据集L来得到目标视频多标签分类模型，本发明实施例2为基于覆盖所有预设视频类别(即目标视频类别)的初始的标注数据集L来得到目标视频多标签分类模型，可见，本发明实施例2对于模型的效果和提升速度大于本发明实施例1。

在一个示例性的实施方式中，本发明实施例还提供了对于训练所得的目标视频分类模型的应用，具体的应用场景可以包括视频分类(可以是视频二分类或者是视频多分类)和视频多标签分类。基于此，在训练得到目标视频分类模型之后，该方法还可以包括：

获取待处理视频；

确定所述待处理视频对应的多模态数据；该多模态数据包括视频帧、音频数据和文本数据；

将待处理视频对应的多模态数据输入到目标视频分类模型进行视频分类处理，得到视频分类结果；其中，目标视频分类模型为基于本发明实施例的视频分类模型训练方法进行训练得到。

具体的实施中，当目标视频分类模型是基于二分类任务训练得到时，视频分类结果指示待处理视频是否属于预设视频类别；当目标视频分类模型是基于多分类任务训练得到时，视频分类结果指示待处理视频属于多个预设视频类别中的哪一个预设视频类别；当目标视频分类模型是基于多标签分类任务训练得到时，视频分类结果指示待处理视频所属的一个或者多个预设视频类别。

在确定待处理视频对应的多模态数据时，可以分别提取待处理视频的视频帧和音频数据，并对视频帧进行OCR识别以从图像中获取文本内容，对音频数据进行自动语音识别以将语音转换为文本，进而基于从图像中获取的文本内容和语音转换的文本得到多模态数据中的文本数据。可以理解的，文本数据中还可以包括待处理视频对应的描述文本(如视频标题等)。

目标视频分类模型在进行视频分类处理时，对于输入的多模态数据中的各个模态分别确定各模态的特征向量，而各模态的特征向量由该模态的token embedding构成。其中，文本数据的token embedding由词本身的embedding、词的位置编码和词性编码组成，视频帧的token embedding可以使用快速训练残差网络ResNet101提取的特征，音频数据的token embedding可以使用VGGish模型提取的特征。

在得到各模态的特征向量后，目标视频分类模型可以基于自注意力机制对每个模态的特征向量进行处理以得到各模态的自注意力向量，进而对各模态的自注意力向量进行融合得到融合多模态特征向量，从而基于该融合多模态特征向量进行视频分类得到视频分类结果。由于在视频分类时结合了待处理视频的多个模态信息，从而可以提高视频分类的准确性。

与上述几种实施例提供的视频分类模型训练方法相对应，本发明实施例还提供一种视频分类模型训练装置，由于本发明实施例提供的视频分类模型训练装置与上述几种实施例提供的视频分类模型训练方法相对应，因此前述视频分类模型训练方法的实施方式也适用于本实施例提供的视频分类模型训练装置，在本实施例中不再详细描述。

请参阅图8，其所示为本发明实施例提供的一种视频分类模型训练装置的结构示意图，该装置具有实现上述方法实施例中视频分类模型训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图8所示，该视频分类模型训练装置800可以包括：

当前视频分类模型训练模块810，用于获取当前标注视频样本数据集，基于所述当前标注视频样本数据集进行分类任务训练得到当前视频分类模型；所述当前标注视频样本数据集中的标注视频样本数据为对待标注视频样本数据进行标注处理得到，所述待标注视频样本数据为从未标注视频样本数据集中选取的未标注视频样本数据；

分类处理信息获取模块820，用于将所述标注视频样本数据和剩余未标注视频样本数据分别输入至所述当前视频分类模型进行分类处理，获取所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息；所述剩余未标注视频样本数据是指所述未标注视频样本数据集中未被选取为所述待标注视频样本数据的未标注视频样本数据；

目标未标注视频样本数据选取模块830，用于基于所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息，从所述剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据；所述目标剩余未标注视频样本数据与所述当前标注视频样本数据集之间的差异程度大于未被选取的所述剩余未标注视频样本数据与所述当前标注集之间的差异程度；

标注视频样本数据集更新模块840，用于基于所述新增的待标注视频样本数据更新所述当前标注视频样本数据集，直至满足预设训练结束条件结束训练；其中，训练结束时的所述当前分类模型作为目标视频分类模型。

在一个示例性的实施方式中，所述目标分类处理信息为所述分类处理过程中进行特征提取得到的特征；所述目标未标注视频样本数据选取模块830，包括：

在一个示例性的实施方式中，所述当前视频分类模型训练模块810，包括：

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的任意一种视频分类模型训练方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行，即上述电子设备可以包括计算机终端、服务器或者类似的运算装置。图9是本发明实施例提供的运行一种视频分类模型训练方法的电子设备的硬件结构框图，如图9所示，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930，一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中，存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器910可以设置为与存储介质920通信，在服务器900上执行存储介质920中的一系列指令操作。服务器900还可以包括一个或一个以上电源960，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口940，和/或，一个或一个以上操作系统921，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器900的通信供应商提供的无线网络。在一个实例中，输入输出接口940包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口940可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器900还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种分类模型训练方法相关的至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的任意一种视频分类模型训练方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频分类模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标分类处理信息为所述分类处理过程中进行特征提取得到的特征；所述基于所述标注视频样本数据和所述剩余未标注视频样本数据分别对应的目标分类处理信息，从所述剩余未标注视频样本数据中选取第一预设数量的目标剩余未标注视频样本数据作为新增的待标注视频样本数据，包括：

确定当前第一特征集和当前第二特征集；其中，第一特征集中的第一特征包括所述标注视频样本数据对应的提取特征，第二特征集中的第二特征为所述剩余未标注视频样本数据对应的提取特征；

确定所述当前第二特征集中每个第二特征与所述当前第一特征集之间的第一相似程度；

确定最小所述第一相似程度对应的目标第二特征，选取所述目标第二特征对应的剩余未标注视频样本数据为所述目标剩余未标注视频样本数据；

基于所述目标第二特征更新所述当前第一特征集和所述当前第二特征集，直至得到第一预设数量的所述目标剩余未标注视频样本数据；其中，更新后的当前第一特征集中包括所述目标第二特征并将所述目标第二特征作为第一特征，更新后的当前第二特征集中不包括所述目标第二特征；

将第一预设数量的所述目标剩余未标注视频样本数据作为新增的待标注视频样本数据。

3.根据权利要求2所述的方法，其特征在于，所述确定所述当前第二特征集中每个第二特征与所述当前第一特征集之间的第一相似程度，包括：

针对所述当前第二特征集中的每个第二特征，确定所述第二特征与所述当前第一特征集中各第一特征之间的第二相似程度；

将最大所述第二相似程度，作为所述第二特征与所述第一特征集之间的第一相似程度。

4.根据权利要求1所述的方法，其特征在于，所述获取当前标注视频样本数据集，包括：

获取所述未标注视频样本数据集；所述未标注视频样本数据集包括至少一个预设视频类别分别对应的未标注视频样本数据；

从每个所述预设视频类别对应的未标注视频样本数据中分别选取未标注视频样本数据作为待标注视频样本数据，得到初始待标注视频样本数据集；所述初始待标注视频样本数据集中待标注视频样本数据的总数量小于所述未标注视频样本数据集中未标注视频样本数据的总数量；

对所述初始待标注视频样本数据集中的待标注视频样本数据进行标注处理，得到所述当前标注视频样本数据集。

5.根据权利要求4所述的方法，其特征在于，所述获取所述未标注视频样本数据集，包括：

获取样本视频集；所述样本视频集包括所述至少一个预设视频类别分别对应的样本视频；

确定每个所述样本视频对应的多模态数据；所述多模态数据包括相应样本视频的视频帧、音频数据和文本数据；

将每个所述样本视频对应的多模态数据作为未标注视频样本数据，得到所述未标注视频样本数据集。

6.根据权利要求1～5中任一项所述的方法，其特征在于，所述分类任务包括二分类任务、多分类任务、多标签分类任务中的任意一种。

7.一种视频分类模型训练装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现如权利要求1～6中任一项所述的视频分类模型训练方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1～6任一项所述的视频分类模型训练方法。

10.一种计算机程序，其特征在于，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任一项所述的视频分类模型训练方法。