CN113610021A

CN113610021A - 视频分类方法及装置、电子设备及计算机可读存储介质

Info

Publication number: CN113610021A
Application number: CN202110923305.XA
Authority: CN
Inventors: 范清; 唐大闰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-05

Abstract

本发明提供了一种视频分类方法及装置、电子设备及计算机可读存储介质，涉及视频处理技术领域，在对待分类视频进行视频分类时，先对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；然后分别对多个初始视频片段进行空间变换增强处理，得到多个目标视频片段；进而将多个目标视频片段两两配对后输入至训练好的分类网络模型，得到待分类视频的类别。这种基于自监督对比学习的视频分类技术，分类网络模型能够从经过时序采样处理和空间变换增强处理得到的多个目标视频片段中提取到时间跨度较大、表征能力较强的时空特征，从而可以应用到长视频，与相关现有技术相比，提高了视频分类的准确率，增强了特征泛化能力。

Description

视频分类方法及装置、电子设备及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其是涉及一种视频分类方法及装置、电子设备及计算机可读存储介质。

背景技术

视频分类技术是计算机视觉领域的一个重要研究方向，其主要目的是对视频内容进行分析，根据其中的对象、场景以及对象的动作信息、场景的演化信息等将视频归为预定义的类，从而达到对视频进行监管和分类整理的目的。在大数据时代，视频分类技术还要具有高效性、并行性和可扩展性等。因此，视频分类技术是视频理解先进性和前沿性的集中体现。

视频分类问题本质上是模式识别问题，其处理流程主要包含特征提取和分类两个步骤，其中特征提取是该问题的核心步骤。在过去的几十年中，随着特征提取技术的发展，视频分类技术取得了一些进步，但是远没有达到令人满意的地步，仍面临着巨大挑战：视频低层特征与语义标签之间存在着巨大的语义鸿沟。视频是由一系列图像按照一定的顺序组成的，图像中的视觉信息构成了视频的视觉信息。此外，更重要的是，图像之间的顺序信息构成了视频的时域信息。这些时域信息包含物体的运动和场景的演化等视频载体特有的信息，是视频特征的重要组成部分。而现有特征提取方法不能充分捕获时域信息，或仅能捕获短时低层动作特征，造成特征提取不充分。随着互联网上的视频内容越来越复杂，信息越来越丰富，这个问题愈发突出。

如何学习一个良好的视觉表征，对于解决与之相关的大量下游视觉感知任务(比如图像分类、视频动作识别和视频对象检测等)是至关重要的。因此，几十年以来，很多计算机视觉研究都集中在如何学习一个“完美”的视觉特征上，从早期的SIFT(Scale-invariantfeature transform，尺度不变特征变换)特征、HOG(Histogram of Oriented Gradient，方向梯度直方图)特征到如今的深度特征。然而，学习视觉表征通常需要大量的标注数据。比如，在图像理解领域，在ImageNet大规模图像数据集上监督式的预训练一个深度网络用来提取深度特征，然后迁移到下游的分类或回归任务，已被证明是行之有效的范式。遗憾的是，由于大规模视频数据集的缺乏，这种范式无法直接应用到视频领域。

近年来，自监督对比学习技术的发展为无监督特征表示提供了潜在的解决方案。这类方法通过将数据分别与正例样本和负例样本在特征空间进行对比，来学习样本的特征表示。然而，目前基于自监督对比学习的视频分类方法准确率低，只适用于比如10s长度的动作视频，难以应用到长视频，缺乏通用性。

发明内容

本发明的目的在于提供一种视频分类方法及装置、电子设备及计算机可读存储介质，以提高视频分类的准确率，增强特征泛化能力。

本发明实施例提供了一种视频分类方法，包括：

对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；

分别对多个所述初始视频片段进行空间变换增强处理，得到多个目标视频片段；

将多个所述目标视频片段两两配对后输入至训练好的分类网络模型，得到所述待分类视频的类别；其中，所述分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。

进一步地，所述对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段，包括：

从所述待分类视频的首部、中部、尾部各采样一个预设时长的视频片段，并对所述预设时长的视频片段进行预设帧数的采样，得到三个初始视频片段。

进一步地，所述分别对多个所述初始视频片段进行空间变换增强处理，得到多个目标视频片段，包括：

对多个所述初始视频片段分别进行相同的随机变换和高斯模糊变换，得到多个目标视频片段；其中，所述随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。

进一步地，所述分类网络模型包括特征嵌入编码器和分类层；所述将多个所述目标视频片段两两配对后输入至训练好的分类网络模型，得到所述待分类视频的类别，包括：

将多个所述目标视频片段两两配对，得到多个视频片段对；

将各个所述视频片段对输入至所述特征嵌入编码器，得到所述特征嵌入编码器输出的时空特征；

将所述时空特征输入至所述分类层，得到所述分类层输出的类别。

进一步地，所述方法还包括：

获取多个样本视频，所述样本视频包括来自所述开源数据集的第一样本视频和来自所述自定义数据集的第二样本视频；

对每个所述样本视频分别进行时序采样处理和空间变换增强处理，得到每个所述样本视频对应的多个样本视频片段；

将每个所述样本视频对应的多个所述样本视频片段两两配对，得到每个所述样本视频对应的多个样本片段对；

根据各个所述第一样本视频对应的多个样本片段对，对初始特征嵌入编码器进行自监督对比学习预训练，得到预训练后的特征嵌入编码器；

根据各个所述第二样本视频对应的多个样本片段对，对由所述预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练，得到训练好的分类网络模型。

进一步地，所述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和多层感知机投影头，所述多层感知机投影头的输出连接有多层感知机预测头；所述根据各个所述第一样本视频对应的多个样本片段对，对初始特征嵌入编码器进行自监督对比学习预训练，得到预训练后的特征嵌入编码器，包括：

对于每个所述第一样本视频对应的每个样本片段对，将该样本片段对分别输入到所述初始特征嵌入编码器的两个路径中，得到所述多层感知机投影头输出的两个第一编码特征；

将所述两个第一编码特征经输入至所述多层感知机预测头，得到两个第二编码特征；

根据所述两个第一编码特征和所述两个第二编码特征，计算得到对称损失；

根据所述对称损失，更新所述初始特征嵌入编码器中的参数，以得到预训练后的特征嵌入编码器。

本发明实施例还提供了一种视频分类装置，包括：

第一处理模块，用于对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；

第二处理模块，用于分别对多个所述初始视频片段进行空间变换增强处理，得到多个目标视频片段；

模型分类模块，用于将多个所述目标视频片段两两配对后输入至训练好的分类网络模型，得到所述待分类视频的类别；其中，所述分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。

进一步地，所述装置还包括模型训练模块，所述模型训练模块用于：

本发明实施例还提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的视频分类方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的视频分类方法。

本发明实施例提供的视频分类方法及装置、电子设备及计算机可读存储介质，在对待分类视频进行视频分类时，先对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；然后分别对多个初始视频片段进行空间变换增强处理，得到多个目标视频片段；进而将多个目标视频片段两两配对后输入至训练好的分类网络模型，得到待分类视频的类别；其中，分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。这种基于自监督对比学习的视频分类技术，采用了通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到的分类网络模型，该分类网络模型通过对经过时序采样处理和空间变换增强处理得到的目标视频片段进行处理，能够提取到时间跨度较大、表征能力较强的时空特征，从而可以应用到长视频，与相关现有技术相比，提高了视频分类的准确率，增强了特征泛化能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频分类方法的流程示意图；

图2为本发明实施例提供的一种分类网络模型中特征嵌入编码器的预训练流程示意图；

图3为本发明实施例提供的一种特征嵌入骨干网络结构；

图4为本发明实施例提供的一种多层感知机的投影头和预测头结构；

图5为本发明实施例提供的一种视频分类装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前基于自监督对比学习的视频分类方法，是将图像表示学习领域的相关技术扩展至视频领域，因而无法提取到时域信息，因此准确率低，且难以应用到长视频、通用性差。基于此，本发明实施例提供的一种视频分类方法及装置、电子设备及计算机可读存储介质，可以应用到长视频，增强特征泛化能力，且视频分类的准确率高、实用性强。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频分类方法进行详细介绍。

本发明实施例提供了一种视频分类方法，该方法可以由具有视频处理能力的电子设备执行，该电子设备可以是手机、笔记本电脑或台式机等。参见图1所示的一种视频分类方法的流程示意图，该方法主要包括如下步骤S102～步骤S106：

步骤S102，对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段。

在一些可能的实施例中，可以从待分类视频的首部、中部、尾部各采样一个预设时长的视频片段，并对该预设时长的视频片段进行预设帧数的采样，得到三个初始视频片段。其中，预设时长和预设帧数都可以根据实际需求设置，这里不做限定。可选地，预设时长s可以设置为s＝64/FPS，其中，FPS(Frames Per Second)指每秒传输帧数，即视频转换中参数帧率。

具体实现时，对于一个时长为T的待分类视频，可以从待分类视频的首部、中部、尾部各采样一个时长为s的视频片段，记为片段1、片段2、片段3，且对片段1、片段2、片段3分别均匀采样到16帧，组成时序采样样例(即初始视频片段)t₁、t₂和t₃。

步骤S104，分别对多个初始视频片段进行空间变换增强处理，得到多个目标视频片段。

在一些可能的实施例中，可以对多个初始视频片段分别进行相同的随机变换和高斯模糊变换，得到多个目标视频片段；其中，随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。

具体实现时，可以对t₁、t₂、t₃应用相同的随机裁剪(改变图像的大小到224×224)、随机水平翻转、随机颜色抖动和高斯模糊变换，得到增强视图(即目标视频片段)v₁、v₂、v₃。

步骤S106，将多个目标视频片段两两配对后输入至训练好的分类网络模型，得到待分类视频的类别；其中，分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。

在一些可能的实施例中，分类网络模型包括特征嵌入编码器和分类层，其中特征嵌入编码器可以包括诸如3D-ResNet50的特征嵌入骨干网络，特征嵌入编码器还可以包括用于预训练的MLP(Multilayer，Perceptron多层感知机)投影头，MLP投影头的输出连接有用于预训练的MLP预测头，在分类网络模型的训练过程中，先基于开源数据集对特征嵌入编码器进行自监督对比学习预训练，然后基于自定义数据集对预训练后的特征嵌入编码器和分类层进行微调训练，得到训练好的分类网络模型。基于此，上述步骤S106可以通过如下过程实现：将多个目标视频片段两两配对，得到多个视频片段对；将各个视频片段对输入至特征嵌入编码器，得到特征嵌入编码器输出的时空特征；将时空特征输入至分类层，得到分类层输出的类别。

例如，对于目标视频片段v₁、v₂、v₃，可以形成三个视频片段对：v₁和v₂、v₁和v₃、v₂和v₃，将这三个视频片段对输入至分类网络模型中，得到该分类网络模型输出的类别。

本发明实施例提供的视频分类方法，在对待分类视频进行视频分类时，先对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；然后分别对多个初始视频片段进行空间变换增强处理，得到多个目标视频片段；进而将多个目标视频片段两两配对后输入至训练好的分类网络模型，得到待分类视频的类别；其中，分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。这种基于自监督对比学习的视频分类技术，采用了通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到的分类网络模型，该分类网络模型通过对经过时序采样处理和空间变换增强处理得到的目标视频片段进行处理，能够提取到时间跨度较大、表征能力较强的时空特征，从而可以应用到长视频，与相关现有技术相比，提高了视频分类的准确率，增强了特征泛化能力。

本发明实施例还提供了训练上述分类网络模型的方法，具体如下：获取多个样本视频，样本视频包括来自开源数据集的第一样本视频和来自自定义数据集的第二样本视频；对每个样本视频分别进行时序采样处理和空间变换增强处理，得到每个样本视频对应的多个样本视频片段；将每个样本视频对应的多个目标视频片段两两配对，得到每个样本视频对应的多个样本片段对；根据各个第一样本视频对应的多个样本片段对，对初始特征嵌入编码器进行自监督对比学习预训练，得到预训练后的特征嵌入编码器；根据各个第二样本视频对应的多个样本片段对，对由预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练，得到训练好的分类网络模型。

上述开源数据集可以采样kinetic4、youtube-8m等，可以从开源数据集加载一个批次的视频数据，批次大小可以但不限于为n＝512，n个样本视频通过数据增强处理(时序采样处理和空间变换增强处理)，可以得到3n个样本片段对。上述自定义数据集为自定义的有少量标签的业务数据集。对样本视频的时序采样处理和空间变换增强处理的具体过程可以参见前述实施例中对待分类视频的时序采样处理和空间变换增强处理的相应内容，得到样本片段对的具体过程可以参见前述实施例中得到视频片段对的相应内容，这里不再赘述。

在一些可能的实施例中，上述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和MLP投影头，MLP投影头的输出连接有MLP预测头，特征嵌入编码器在每个样本片段对的两个样本视频片段之间共享权重，MLP预测头转换一个样本视频片段的输出并将其与另一个样本视频片段相匹配。基于此，可以通过如下过程进行初始特征嵌入编码器的预训练：对于每个第一样本视频对应的每个样本片段对，将该样本片段对分别输入到初始特征嵌入编码器的两个路径中，得到MLP投影头输出的两个第一编码特征；将两个第一编码特征经输入至MLP预测头，得到两个第二编码特征；根据两个第一编码特征和两个第二编码特征，计算得到对称损失；根据对称损失，更新初始特征嵌入编码器中的参数，以得到预训练后的特征嵌入编码器。

为了便于理解，参见图2所示的一种分类网络模型中特征嵌入编码器的预训练流程示意图，特征嵌入编码器采用孪生网络架构，对于每个样本视频v，先经过数据增强处理得到多个样本片段对，一个样本片段对可以公式化为：

v₁,v₂＝aug(v),aug(v) (1)

将每个样本视频v对应的多个样本片段对分别输入到特征嵌入编码器的两个路径中，样本片段对v₁和v₂经过特征嵌入骨干网络的特征提取后编码为：

y₁,y₂＝f(v₁),f(v₂) (2)

进一步经MLP投影处理后编码为：

z₁,z₂＝g(y₁),g(y₂) (3)

进一步经MLP预测处理后编码为：

p₁,p₂＝h(z₁),h(z₂) (4)

最后，依据以下公式(5)计算对称损失，更新参数θ。

其中，stopgrad()代表停止梯度操作，

代表两个向量的余弦相似性。

当对称损失趋于稳定或训练预设数量(如800)个epoch(时期，当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次epoch)后停止训练，本实施例采用随机梯度下降法进行训练，学习率依据余弦衰减规则进行调整，初始学习率可以为0.1。

为了便于实施上述方法，本发明实施例还提供了如图3所示的一种特征嵌入骨干网络结构，以及如图4所示的一种多层感知机的投影头和预测头结构，其中，BN(Batchnormalization)指批量标准化；ReLU(Rectified Linear Unit)指线性整流函数，又称修正线性单元，是一种人工神经网络中常用的激活函数。

完成自监督对比学习预训练后，经过特征嵌入骨干网络编码后的特征可以作为抽取到的时空特征，其可以为一个2048维的特征向量。在预训练后的特征嵌入编码器上添加一层分类层，神经元的数量等于待分类业务数据的类别数目，此时的网络记为分类网络。在自定义的有少量标签业务数据集上微调分类网络，训练时使用预训练后的特征嵌入编码器中的权重初始化分类网络的对应层，附加的分类层随机初始化。这样就完成了分类网络模型的训练。

上述方法可以从无标签的视频数据中，通过自监督对比学习预训练自动学习有通用表达能力的视频特征，通过自定义数据集微调自动学习有鉴别力的视频特征(更加适用于当前业务数据)，可以应用到较长的视频，特征泛化能力强、视频分类的准确率高、实用性强。

对应于上述的视频分类方法，本发明实施例还提供了一种视频分类装置，参见图5所示的一种视频分类装置的结构示意图，该装置包括：

第一处理模块52，用于对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；

第二处理模块54，用于分别对多个初始视频片段进行空间变换增强处理，得到多个目标视频片段；

模型分类模块56，用于将多个目标视频片段两两配对后输入至训练好的分类网络模型，得到待分类视频的类别；其中，分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。

本发明实施例提供的视频分类装置，在对待分类视频进行视频分类时，先对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段；然后分别对多个初始视频片段进行空间变换增强处理，得到多个目标视频片段；进而将多个目标视频片段两两配对后输入至训练好的分类网络模型，得到待分类视频的类别；其中，分类网络模型通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到。这种基于自监督对比学习的视频分类技术，采用了通过基于开源数据集的自监督对比学习预训练以及基于自定义数据集的微调训练得到的分类网络模型，该分类网络模型通过对经过时序采样处理和空间变换增强处理得到的目标视频片段进行处理，能够提取到时间跨度较大、表征能力较强的时空特征，从而可以应用到长视频，与相关现有技术相比，提高了视频分类的准确率，增强了特征泛化能力。

进一步地，上述第一处理模块52具体用于：从待分类视频的首部、中部、尾部各采样一个预设时长的视频片段，并对该预设时长的视频片段进行预设帧数的采样，得到三个初始视频片段。

进一步地，上述第二处理模块54具体用于：对多个初始视频片段分别进行相同的随机变换和高斯模糊变换，得到多个目标视频片段；其中，随机变换包括随机裁剪、随机水平翻转和随机颜色抖动中的一种或多种。

进一步地，上述分类网络模型包括特征嵌入编码器和分类层；上述模型分类模块56具体用于：将多个目标视频片段两两配对，得到多个视频片段对；将各个视频片段对输入至特征嵌入编码器，得到特征嵌入编码器输出的时空特征；将时空特征输入至分类层，得到分类层输出的类别。

进一步地，上述装置还包括与模型分类模块56连接的模型训练模块，模型训练模块用于：获取多个样本视频，该样本视频包括来自开源数据集的第一样本视频和来自自定义数据集的第二样本视频；对每个样本视频分别进行时序采样处理和空间变换增强处理，得到每个样本视频对应的多个样本视频片段；将每个样本视频对应的多个目标视频片段两两配对，得到每个样本视频对应的多个样本片段对；根据各个第一样本视频对应的多个样本片段对，对初始特征嵌入编码器进行自监督对比学习预训练，得到预训练后的特征嵌入编码器；根据各个第二样本视频对应的多个样本片段对，对由预训练后的特征嵌入编码器和分类层构成的初始分类网络模型进行微调训练，得到训练好的分类网络模型。

进一步地，上述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和多层感知机投影头，多层感知机投影头的输出连接有多层感知机预测头；上述模型训练模块具体用于：对于每个第一样本视频对应的每个样本片段对，将该样本片段对分别输入到初始特征嵌入编码器的两个路径中，得到多层感知机投影头输出的两个第一编码特征；将两个第一编码特征经输入至多层感知机预测头，得到两个第二编码特征；根据两个第一编码特征和两个第二编码特征，计算得到对称损失；根据对称损失，更新初始特征嵌入编码器中的参数，以得到预训练后的特征嵌入编码器。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

参见图6，本发明实施例还提供一种电子设备100，包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory，简称NVM)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是工业标准体系结构(Industry Standard Architecture，简称ISA)总线、外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中所述的视频分类方法。该计算机可读存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频分类方法，其特征在于，包括：

2.根据权利要求1所述的视频分类方法，其特征在于，所述对待分类视频进行时序采样处理，得到多个不同部位的初始视频片段，包括：

3.根据权利要求1所述的视频分类方法，其特征在于，所述分别对多个所述初始视频片段进行空间变换增强处理，得到多个目标视频片段，包括：

4.根据权利要求1所述的视频分类方法，其特征在于，所述分类网络模型包括特征嵌入编码器和分类层；所述将多个所述目标视频片段两两配对后输入至训练好的分类网络模型，得到所述待分类视频的类别，包括：

将多个所述目标视频片段两两配对，得到多个视频片段对；

5.根据权利要求1所述的视频分类方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的视频分类方法，其特征在于，所述初始特征嵌入编码器包括依次设置的特征嵌入骨干网络和多层感知机投影头，所述多层感知机投影头的输出连接有多层感知机预测头；所述根据各个所述第一样本视频对应的多个样本片段对，对初始特征嵌入编码器进行自监督对比学习预训练，得到预训练后的特征嵌入编码器，包括：

7.一种视频分类装置，其特征在于，包括：

8.根据权利要求7所述的视频分类装置，其特征在于，所述装置还包括模型训练模块，所述模型训练模块用于：

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-6中任一项所述的方法。