CN115331139A

CN115331139A - 一种视频场景多维度分类方法、装置、设备及存储介质

Info

Publication number: CN115331139A
Application number: CN202210871884.2A
Authority: CN
Inventors: 石雅南
Original assignee: Bigo Technology Singapore Pte Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-11

Abstract

本申请公开了一种视频场景多维度分类方法、装置、设备及存储介质。本申请提供的技术方案包括：获取待分类视频，从待分类视频抽取多个视频帧组成帧序列；将帧序列输入预先训练的多维度场景分类模型中，得到多维度场景分类模型输出的多个场景类别；其中，多维度场景分类模型基于训练样本集对多任务网络进行训练得到，多任务网络的训练过程中自适应调整各任务的损失权重；将多维度场景分类模型输出的多个场景类别，确定为待分类视频的场景类别。通过上述技术方案，节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用，解决了相关技术中多维度场景分类模型难以应用到实际业务中的问题。

Description

一种视频场景多维度分类方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频场景多维度分类方法、装置、设备及存储介质。

背景技术

移动互联网时代使得视频成为人们交互的重要媒介，视频信息成为日常生活不可或缺的一部分。随着大数据技术的快速发展，部分视频平台可通过人们观看的视频内容分析出人们对各种视频内容的喜爱度，进而向人们推荐喜爱度较高类别的视频。视频的内容纷繁复杂，视频场景分类是视频内容分析的基础。然而，仅从一个维度对视频场景进行分类往往不能充分表达出视频的语义内容，比如一个视频即可分为室内和室外场景，又可根据主体人物的行为分为跳舞场景和不跳舞场景，还可以根据光线强度分为亮场景和暗场景，等等诸多分类。因此，可从多个维度对视频场景进行分类，充分表达出视频的语义内容。

目前多维度的视频场景分类方法，往往通过一个深度学习模型对应识别一个维度的视频场景，因此需要部署多个深度学习模型才能对应识别出多个维度的视频场景。但由于多个深度学习模型的计算量较大，导致多维度场景分类模型在运行过程中资源成本的消耗太大，难以成功应用到实际业务中。

发明内容

本申请提供一种视频场景多维度分类方法、装置、设备及存储介质，基于多任务学习部署轻量级模型以节省模型算力，节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用，解决了相关技术中多维度场景分类模型难以应用到实际业务中的问题。

第一方面，本申请提供了一种视频场景多维度分类方法，包括：

获取待分类视频，从所述待分类视频抽取多个视频帧组成帧序列；

将所述帧序列输入预先训练的多维度场景分类模型中，得到所述多维度场景分类模型输出的多个场景类别；其中，所述多维度场景分类模型基于训练样本集对多任务网络进行训练得到，所述多任务网络的训练过程中自适应调整各任务的损失权重；

将所述多维度场景分类模型输出的多个场景类别，确定为所述待分类视频的场景类别。

第二方面，本申请提供了一种视频场景多维度分类装置，包括：

帧序列获取模块，被配置为获取待分类视频，从所述待分类视频抽取多个视频帧组成帧序列；

分类模型预测模块，被配置为将所述帧序列输入预先训练的多维度场景分类模型中，得到所述多维度场景分类模型输出的多个场景类别；其中，所述多维度场景分类模型基于训练样本集对多任务网络进行训练得到，所述多任务网络的训练过程中自适应调整各任务的损失权重；

场景类别确定模块，被配置为将所述多维度场景分类模型输出的多个场景类别，确定为所述待分类视频的场景类别。

第三方面，本申请提供了一种视频场景多维度分类设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的视频场景多维度分类方法。

第四方面，本申请提供了一种计算机可读存储介质，所述存储介质上存储有程序，所述程序被处理器执行时实现如第一方面所述的视频场景多维度分类方法。

第五方面，本申请提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序，使得设备实现如第一方面所述的视频场景多维度分类方法。

本申请预先通过训练样本集对多任务网络进行训练，得到多维度场景分类模型，并在多任务网络的训练过程中自适应调整各任务的损失权重。从待分类视频中抽取多个视频帧并组成帧序列，将帧序列输入多维度场景分类模型，通过多维度场景分类模型中的骨干网络提取帧序列中的空间特征信息和时序特征信息，并通过多维度场景分类模型中的多个分类头基于帧序列中的空间特征信息和时序特征信息，对应预测待分类视频的场景类别。通过上述技术手段，多任务网络将多个场景分类的任务组合在一起，采用多任务网络作为多维度场景分类模型以通过一个模型对视频场景进行多维度分类，节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用。训练多任务网络时对多个场景分类的任务一起训练，并共享各个任务已经学习到的特征表达，各任务间互相促进学习，提高多维度场景分类模型的泛化效果和训练效率，保证多维度场景分类模型的分类准确率。在训练过程中根据各个任务的学习自适应调整各个任务的损失权重，平衡各个任务的学习速度，提高多任务网络的训练效果。视频帧序列包括了视频帧的空间特征信息和视频帧之间的时序特征信息，将视频帧序列作为多维度场景分类模型的输入，以丰富多维度场景分类模型可以提取到的视频特征信息，进而提高多维场景分类模型的分类准确度。

附图说明

图1是本申请实施例提供的一种视频场景多维度分类方法的流程图；

图2是本申请实施例提供的多任务网络的结构示意图；

图3是本申请实施例提供的自适应调整损失权重的模型训练过程的流程图；

图4是本申请实施例提供的多任务网络对样本帧序列进行场景分类的流程图；

图5是本申请实施例提供的多任务网络的先针对后统一的训练过程的流程图；

图6是本申请实施例提供的对基本场景分类任务进行训练的流程图；

图7是本申请实施例提供的帧序列中任一视频帧的示意图；

图8是本申请实施例提供的另一种视频场景多维度分类装置的结构示意图；

图9是本申请实施例提供的一种视频场景多维度分类设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例中提供的视频场景多维度分类方法，可以由视频场景多维度分类设备执行，该视频场景多维度分类设备可以通过软件和/或硬件的方式实现，该视频场景多维度分类设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。在本实施例中，视频场景多维度分类设备可以是计算机。

在一实施例中，视频的场景可以从基础环境、灯光环境、运动程度、文字环境和主播行为等更加细粒的维度进行分类，以充分表达出视频的语义内容。为从多个维度对视频场景进行分类，可通过一个深度学习模型对应识别一个维度的视频场景，然后部署多个深度学习模型简单组合以实现视频场景的多维度分类。虽然多个深度学习模型也可以达到多维度场景分类的目的，但是多个深度学习模型的计算量较大，其运行时所消耗的资源成本较高，难以在计算机上部署，因此也难以成功应用到实际业务中。

为解决上述问题，本申请实施例提供了一种视频场景多维度分类方法，以节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用。

图1是本申请实施例提供的一种视频场景多维度分类方法的流程图。下述以直播平台为执行视频场景多维度分类方法的主体为例进行描述。参考图1，该视频场景多维度分类方法包括：

S110、获取待分类视频，从待分类视频抽取多个视频帧组成帧序列。

其中，待分类视频是指用于进行多维度场景分类的视频。待分类视频由多个视频帧按照时间戳顺序排序组成，可从待分类视频中抽取多个视频帧并按照时间戳顺序组成帧序列，以使得帧序列中不仅包括视频帧的空间特征信息，还包括各个视频帧之间的时序特征信息。

S120、将帧序列输入预先训练的多维度场景分类模型中，得到多维度场景分类模型输出的多个场景类别；其中，多维度场景分类模型基于训练样本集对多任务网络进行训练得到，多任务网络的训练过程中自适应调整各任务的损失权重。

其中，多维度场景分类模型是指用于对待分类视频进行多维度场景分类的模型。在本实施例中，采用多任务网络作为多维度场景分类模型，多任务网络是一个可以进行多任务学习的网络模型。示例性的，图2是本申请实施例提供的多任务网络的结构示意图。如图2所示，多任务网络由一个骨干网络和至少两个分类头组成。骨干网络的输出作为每一分类头的输入，骨干网络为卷积层以用于提取输入数据的特征信息，分类头用于根据骨干网络输出的特征信息预测对应场景的类别。不同分类头对不同维度的场景进行分类，如一个分类头用于对视频为暗场景或亮场景进行分类，而另一分类头用于对视频为跳舞场景或不跳舞场景进行分类。在多任务网络中，多个分类头共用一个骨干网络，即一个分类头和该骨干网络可组成一维场景的分类任务的网络。因此多任务网络可将多个场景的分类任务组合在一个网络模型中，进而实现一个网络模型对多维度场景进行分类。相比于现有技术中通过多个单任务网络实现视频的多维度场景分类，本实施例采用一个多任务网络实现视频的多维度场景分类，节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用。

基于训练样本集对多任务网络进行训练时，将多任务网络中的多个分类任务组合在一起进行训练，通过共享不同分类任务已经学到的特征表示，各分类任务之间互相促进学习。多个分类任务之间具有相关性和差异性，相关性可以让模型的分类头关注多个分类任务间共有的特征表达，以便提高模型的学习效率；差异性可以让分类头在单任务网络中难以学到的特征表达而从其它分类头中学习到，还可以通过其它分类头判断当前分类头学习到的特征表达是否有效，有效提高了模型的泛化效果和模型性能。多维度场景分类模型基于学习到的丰富的特征表达，可对视频的多维度场景类别进行准确预测，保证了模型的分类准确率。

参考图2，本实施例以多任务网络包括五个分类头为例进行描述。第三分类头和骨干网络组成基本场景分类任务的网络，第三分类头可输出基本场景的类别，本实施例中的基本场景包含有十多种类别。第四分类头和骨干网络组成视频是否为暗场景的分类任务的网络，第四分类头可输出视频是暗场景或视频不是暗场景这两种场景类别。第五分类头和骨干网络组成视频是否为静态场景的分类任务的网络，第五分类头可输出视频是静态场景或视频不是静态场景这两种场景类别。第六分类头和骨干网络组成视频是否为大量文字覆盖场景的分类任务的网络，第六分类头可输出视频是大量文字覆盖场景或视频不是大量文字覆盖场景这种场景类别。第七分类头和骨干网络组成主播行为场景分类任务的网络，第七分类头可输出主播行为场景的类别，本实施例中的主播行为场景包括几种类别。在本实施例中，训练样本集包括多个样本帧序列，每个样本帧序列均标记有这五个维度的场景的标签。将样本帧序列输入多任务网络中，得到多任务网络中每个分类头输出对应场景的类别。根据分类头输出的类别与样本帧序列对应场景的标签，可计算出对应场景的分类任务的损失值，基于损失值优化多任务网络的模型参数。

在一实施例中，可将所有分类任务的损失函数相加，得到多任务网络的总损失函数，通过总损失函数优化多任务网络的模型参数。但是不同分类任务的损失值的量级可能不同，分类任务的损失函数直接相加容易导致多个分类任务的学习被某个分类任务所主导，使得模型倾向于拟合主导任务，导致其它分类任务的学习受到负面影响，学习效果变差。因此，为对分类任务的损失函数做简单调整，为每个分类任务的损失函数配置一个权重系数，那么总损失函数等于各个分类任务的损失函数与对应权重系数的加权求和。可预先根据各个分类任务的重要性程度设置各个分类任务的权重系数，以使得整个训练周期以固定的权重对损失函数进行加权求和。但是不同分类任务的学习难易程度是不同的，而且不同分类头的收敛速度也是不一样的，训练的同一时间不同分类任务可能处于不同的学习阶段，比如第四分类头接近收敛而第三分类头还未训练好。分类任务的学习阶段不平衡会阻碍模型的训练，因此固定损失函数的权重策略在某一训练阶段可能会限制分类任务的学习效果，分类任务的学习效果变差。

对此，本实施例提出在多任务网络的训练过程中，基于各个分类任务的学习难易程度、学习进度和学习效果，自适应调整各个分类任务的权重系数，以平衡各个分类任务的学习阶段，提高各个分类任务的学习效果，提高模型的训练效率。示例性的，如果某个分类任务的损失值量级很大(梯度量级大)或者某个分类任务的训练过快，可适当减少这种分类任务的权重系数，以使得损失值量级小(梯度量级小)或者训练速度慢的分类任务对模型优化有更多的影响，提高这种分类任务的学习效果。

在一实施例中，图3是本申请实施例提供的自适应调整损失权重的模型训练过程的流程图。如图3所示，该自适应调整损失权重的模型训练过程的步骤具体包括S210-S240：

S210、将训练样本集中的样本帧序列输入多任务网络，得到多任务网络中每一分类头输出的场景类别信息。

示例性的，图4是本申请实施例提供的多任务网络对样本帧序列进行场景分类的流程图。如图4所示，该多任务网络对样本帧序列进行场景分类的步骤具体包括S2101-S2102：

S2101、将样本帧序列输入骨干网络，得到骨干网络从样本帧序列中提取到的空间特征信息和时序特征信息。

S2102、将空间特征信息和时序特征信息输入每一分类头，得到每一分类头输出的样本帧序列的场景类别信息。

其中，场景类别信息是指分类头预测的样本帧序列对应场景的类别，比如第四分类头输出的场景类别信息为暗场景或不是暗场景，第四分类头基于视频帧序列的特征确定视频帧序列对应场景的类别为暗场景或不是暗场景。参考图2，将样本帧序列输入骨干网络，骨干网络从样本帧序列中提取到空间特征信息和时序特征信息，将空间特征信息和时序特征信息一同输入到第三分类头、第四分类头、第五分类头、第六分类头和第七分类头，得到这五个分类头输出的对应场景的类别。在一实施例中，骨干网络可采用卷积神经网络，例如MobileNet V3，分类头可采用全连接层。

S220、根据场景类别信息和对应样本帧序列的场景标签信息，确定对应分类头的损失值。

其中，场景标签信息是指样本帧序列标记的各个维度场景的标签，如某一样本帧序列的是否为暗场景的标签为暗场景。示例性的，将第四分类头输出的是否为暗场景的类别与样本帧序列的是否为暗场景的标签进行比较，得到第四分类头的损失值。其他分类头的损失值的确定过程同上。

S230、基于分类头的分类准确率确定分类头的权重系数，并根据每个分类头的损失值和权重系数确定总损失值。

示例性的，分类头的分类准确率越高，则表明在当前训练阶段对应分类任务的学习难度较小，训练速度较快，因此可将该分类头的权重系数调小，以缩小该分类任务对模型优化的影响。相反的，分类头的分类准确率越低，则表明在当前训练阶段对应分类任务的学习难度较大，训练速度较慢，因此可将该分类头的权重系数调大，以增大该分类任务对模型优化的影响。

在一实施例中，基于验证样本集确定每个分类头的分类准确率，根据分类准确率确定对应分类头的权重系数。示例性的，将验证样本集中的每一样本帧序列输入当前训练阶段的多任务网络，得到多任务网络中每个分类头输出的对应场景的类别。确定各个分类头输出的对应场景的类别与样本帧序列的对应场景的标签是否相同，当输出类别与标签相同时确定该分类头对该样本帧序列的分类正确。统计各个分类头的分类正确的次数，将该次数与验证样本集中的样本数量的百分比确定为该分类头在当前训练阶段的分类准确率。

在该实施例中，将分类准确率代入预设的权重系数计算公式，得到分类头的权重系数。基于分类头的权重系数对该分类头的损失函数进行加权求和，得到总损失函数。示例性的，总损失函数的表达式如下所示：

L＝∑_iw_i*L_i

权重系数计算公式如下所示：

w_i(t)＝-(1-p_i)log(p_i)

其中，L_i为第i个分类头的损失函数，w_i为第i个分类头的权重系数，L为总损失函数，p_i为第i个分类头的分类准确率。

S240、基于总损失值调整多任务网络的模型参数。

示例性的，通过总损失值调整骨干网络和分类头的模型参数，直至骨干网络和分类头收敛或者训练次数达到阈值。

由上述内容可知，在多任务网络的训练阶段，通过训练样本集一起骨干网络和所有分类头，即多个分类任务同时开始学习。但对于一些训练难度较大的分类任务，如上述提到的基本场景分类任务的类别有十多种，而是否为暗场景的分类任务的类别只有两种，基本场景分类任务的类别是其它分类任务的几倍，其训练难度远大于其它分类任务。因此即便将基本场景分类任务的权重系数增大，基本场景分类任务相比于其它分类任务的收敛速度还是要慢很多，难以平衡该分类任务与其它分类任务的学习进度。

对此，本实施例采用先针对性训练最复杂的分类任务后统一训练其它分类任务的训练策略，以保证模型的学习效果。示例性的，图5是本申请实施例提供的多任务网络的先针对后统一的训练过程的流程图。如图5所示，该多任务网络的先针对后统一的训练过程的步骤具体包括S310-S320：

S310、基于训练样本集训练多任务网络中的骨干网络和第一分类头，第一分类头用于确定样本帧序列的第一场景的类别，第一场景为训练样本集中标签类别最多的场景。

其中，第一分类头是指多任务网络中最复杂分类任务的分类头，第一场景即为最复杂分类任务对应的场景，假设第一分类头为基本场景分类任务的分类头，则第一场景即为基本场景。示例性的，基本场景分类任务的类别是上述五个分类任务中类别最多，相应的，训练样本集中的样本帧序列对应基本场景的标签类别最多，其高达十多种标签类别。因此可根据训练样本集中各个样本帧序列的标签类别，确定标签类别最多场景为基本场景，并确定基本场景分类任务为先针对训练的分类任务。

在多任务网络的针对性训练阶段，任选多任务网络中的一个分类头作为第一分类头以优先其进行训练。参考图2，本实施例将多任务网络中的第三分类头作为第一分类头，即作为基本场景分类任务的分类头进行针对性训练。示例性的，将样本帧序列输入骨干网络，得到骨干网络输出的空间特征信息和时序特征信息。将空间特征信息和时序特征信息输入第三分类头，得到第三分类头输出的基本场景的类别。根据该基本场景的类别与样本帧序列的基本场景的标签，确定第三分类头的损失值。根据该损失值对第三分类头和骨干网络的模型参数进行优化，以训练出第三分类头对基本场景的分类能力和骨干网络对帧序列的特征提取能力。

在一实施例中，分类任务的训练样本集的标签要涵盖对应场景的所有类别，且每种类别的样本数量要充足，因此基本场景分类任务所需的训练样本要更加丰富。对此，本实施例通过获取开源数据集和业务数据集以作为训练样本集，以满足基本场景分类任务的样本需求。示例性的，图6是本申请实施例提供的对基本场景分类任务进行训练的流程图。如图6所示，该对基本场景分类任务进行训练的步骤具体包括S3101-S3102：

S3101、基于开源数据集训练骨干网络和第一分类头。

S3102、基于业务数据集训练骨干网络和第一分类头。

示例性的，开源数据集包含大量的样本帧序列，通过开源数据集中的样本帧序列对骨干网络和第一分类头进行预训练，使得骨干网络和第一分类头在大规模数据集上训练出良好的特征提取能力和场景分类能力。业务数据集为基于实际业务收集的视频生成的训练样本，基于业务数据集对预训练后的骨干网络和第一分类头进行训练，促进骨干网络和第一分类头适应于实际业务的使用场景。

S320、在骨干网络和第一分类头训练结束后，基于训练样本集训练多任务网络中的第二分类头。

其中，第二分类头是指多任务网络中除第一分类头以外的其它分类头，如图2中的第四分类头、第五分类头、第六分类头和第七分类头均为本实施例中的第二分类头。示例性的，可通过验证样本集确定基本场景分类任务的分类准确率，当基本场景分类任务的分类准确率达到预设的准确率阈值后，确定基本场景分类任务完成针对性训练。在基本场景分类任务的针对性训练结束后，对其它分类任务进行统一的自适应调整权重参数的训练。

在第二分类头的训练阶段，将样本帧序列输入训练好的骨干网络中，得到骨干网络输出的空间特征信息和时序特征信息。将空间特征信息和时序特征信息输入每一第二分类头中，得到第二分类头输出的对应场景的类别。根据第二分类头输出的场景的类别与样本帧序列对应场景的标签，确定对应第二分类头的损失值。通过验证样本集确定当前训练阶段第二分类头的分类准确率，基于分类准确度确定第二分类头的权重系数。根据第二分类头的损失系数对其损失值进行加权求和，得到总损失值。根据总损失值调整第二分类头的模型参数。

在该实施例中，在基于开源数据集合和业务数据集对第一分类头和骨干网络进行针对性训练后，基于业务数据集训练第二分类头，使得第二分类头适应于实际业务的使用场景。

当多任务网络完成训练后，得到多维度场景分类模型。基于多维度场景分类模型对待分类视频进行多维场景分类时，将待分类视频的帧序列作为多维度场景分类模型的输入，通过多维场景分类模型中的骨干网络提取帧序列中的空间特征信息和时序特征信息，并将空间特征信息和时序特征信息作为每一分类头的输入，通过每个分类头基于空间特征信息和时序特征信息输出对应帧序列的场景类别。

S130、将多维度场景分类模型输出的多个场景类别，确定为待分类视频的场景类别。

示例性的，一个分类头输出一个维度的场景类别，多维度场景分类模型的多个分类头输出多个维度的场景类别，将该多个维度的场景类别确定为待分类视频的多维场景类别，实现了一个模型对多维度场景的分类。

图7是本申请实施例提供的帧序列中任一视频帧的示意图。如图7所示，该视频帧显示有电视和电视柜，电视处于关机状态。假设帧序列中每一视频帧都如图7所示，多维度场景分类模型的网络结构如图2所示，将该帧序列输入多维度场景分类模型中，得到第三分类头输出的室内场景，第四分类头输出的视频不是暗场景，第五分类头输出的视频不是静态场景，第六分类头输出的视频场景不是大量文字覆盖场景，第七分类头输出的无人物场景。

综上，本申请实施例提供的视频场景多维度分类方法，预先通过训练样本集对多任务网络进行训练，得到多维度场景分类模型，并在多任务网络的训练过程中自适应调整各任务的损失权重。从待分类视频中抽取多个视频帧并组成帧序列，将帧序列输入多维度场景分类模型，通过多维度场景分类模型中的骨干网络提取帧序列中的空间特征信息和时序特征信息，并通过多维度场景分类模型中的多个分类头基于帧序列中的空间特征信息和时序特征信息，对应预测待分类视频的场景类别。通过上述技术手段，多任务网络将多个场景分类的任务组合在一起，采用多任务网络作为多维度场景分类模型以通过一个模型对视频场景进行多维度分类，节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用。训练多任务网络时对多个场景分类的任务一起训练，并共享各个任务已经学习到的特征表达，各任务间互相促进学习，提高多维度场景分类模型的泛化效果和训练效率，保证多维度场景分类模型的分类准确率。在训练过程中根据各个任务的学习自适应调整各个任务的损失权重，平衡各个任务的学习速度，提高多任务网络的训练效果。视频帧序列包括了视频帧的空间特征信息和视频帧之间的时序特征信息，将视频帧序列作为多维度场景分类模型的输入，以丰富多维度场景分类模型可以提取到的视频特征信息，进而提高多维场景分类模型的分类准确度。

在上述实施例的基础上，图8是本申请实施例提供的一种视频场景多维度分类装置的结构示意图。如图8所示，该视频场景多维度分类装置包括帧序列获取模块41、分类模型预测模块42和场景类别确定模块43。

其中，帧序列获取模块，被配置为获取待分类视频，从待分类视频抽取多个视频帧组成帧序列；

分类模型预测模块，被配置为将帧序列输入预先训练的多维度场景分类模型中，得到多维度场景分类模型输出的多个场景类别；其中，多维度场景分类模型基于训练样本集对多任务网络进行训练得到，多任务网络的训练过程中自适应调整各任务的损失权重；

场景类别确定模块，被配置为将多维度场景分类模型输出的多个场景类别，确定为待分类视频的场景类别。

综上，本申请实施例提供的视频场景多维度分类装置，预先通过训练样本集对多任务网络进行训练，得到多维度场景分类模型，并在多任务网络的训练过程中自适应调整各任务的损失权重。从待分类视频中抽取多个视频帧并组成帧序列，将帧序列输入多维度场景分类模型，通过多维度场景分类模型中的骨干网络提取帧序列中的空间特征信息和时序特征信息，并通过多维度场景分类模型中的多个分类头基于帧序列中的空间特征信息和时序特征信息，对应预测待分类视频的场景类别。通过上述技术手段，多任务网络将多个场景分类的任务组合在一起，采用多任务网络作为多维度场景分类模型以通过一个模型对视频场景进行多维度分类，节约多维度场景分类模型运行的资源成本，促进多维度场景分类模型在实际业务中的应用。训练多任务网络时对多个场景分类的任务一起训练，并共享各个任务已经学习到的特征表达，各任务间互相促进学习，提高多维度场景分类模型的泛化效果和训练效率，保证多维度场景分类模型的分类准确率。在训练过程中根据各个任务的学习自适应调整各个任务的损失权重，平衡各个任务的学习速度，提高多任务网络的训练效果。视频帧序列包括了视频帧的空间特征信息和视频帧之间的时序特征信息，将视频帧序列作为多维度场景分类模型的输入，以丰富多维度场景分类模型可以提取到的视频特征信息，进而提高多维场景分类模型的分类准确度。

本申请实施例还提供了一种视频场景多维度分类设备，该视频场景多维度分类设备可集成本申请实施例提供的视频场景多维度分类装置。图9是本申请实施例提供的一种视频场景多维度分类设备的结构示意图。参考图9，该视频场景多维度分类设备包括：输入装置53、输出装置54、存储器52以及一个或多个处理器51；存储器52，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器51执行，使得一个或多个处理器51实现如上述实施例提供的视频场景多维度分类方法。

本申请实施例还提供一种计算机可读存储介质，存储介质上存储有程序，程序在由计算机处理器器执行时用于执行如上述实施例提供的视频场景多维度分类方法。当然，本申请实施例所提供的一种计算机可读存储介质，其包括的程序不限于如上述的视频场景多维度分类方法，还可以执行本申请任意实施例所提供的视频场景多维度分类方法中的相关操作。

本申请实施例还提供一种计算机程序产品，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机程序产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备、移动终端或其中的处理器执行本申请各个实施例的视频场景多维度分类方法的全部或部分步骤。

上述实施例中提供的视频场景多维度分类装置、设备、存储介质以及计算机程序产品可执行本申请任意实施例所提供的视频场景多维度分类方法，具备相应的功能和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的视频场景多维度分类方法。

Claims

1.一种视频场景多维度分类方法，其特征在于，包括：

2.根据权利要求1所述的视频场景多维度分类方法，其特征在于，所述多任务网络包括至少两个分类头；

相应的，在所述将所述帧序列输入预先训练的多维度场景分类模型之前，还包括：

将所述训练样本集中的样本帧序列输入所述多任务网络，得到所述多任务网络中每一所述分类头输出的场景类别信息；

根据所述场景类别信息和对应样本帧序列的场景标签信息，确定对应所述分类头的损失值；

基于所述分类头的分类准确率确定所述分类头的权重系数，并根据每个所述分类头的损失值和权重系数确定总损失值；

基于所述总损失值调整所述多任务网络的模型参数。

3.根据权利要求2所述的视频场景多维度分类方法，其特征在于，所述基于所述分类头的训练程度确定所述分类头的权重系数，包括：

基于验证样本集确定每个所述分类头的分类准确率，根据所述分类准确率确定对应所述分类头的权重系数。

4.根据权利要求2所述的视频场景多维度分类方法，其特征在于，所述多任务网络还包括骨干网络；

相应的，所述将所述训练样本集中的样本帧序列输入所述多任务网络，得到所述多任务网络中的每一所述分类头输出的场景类别信息，包括：

将所述样本帧序列输入所述骨干网络，得到所述骨干网络从所述样本帧序列中提取到的空间特征信息和时序特征信息；

将所述空间特征信息和所述时序特征信息输入每一所述分类头，得到每一所述分类头输出的所述样本帧序列的场景类别信息。

5.根据权利要求1所述的视频场景多维度分类方法，其特征在于，在所述将所述帧序列输入预先训练的多维度场景分类模型之前，还包括：

基于所述训练样本集训练所述多任务网络中的骨干网络和第一分类头，所述第一分类头用于确定所述样本帧序列的第一场景的类别，所述第一场景为所述训练样本集中标签类别最多的场景；

在所述骨干网络和所述第一分类头训练结束后，基于所述训练样本集训练所述多任务网络中的第二分类头。

6.根据权利要求5所述的视频场景多维度分类方法，其特征在于，所述训练样本集包括开源数据集和业务数据集；

相应的，所述基于所述训练样本集训练所述多任务网络中的骨干网络和第一分类头，包括：

基于所述开源数据集训练所述骨干网络和所述第一分类头；

基于所述业务数据集训练所述骨干网络和所述第一分类头。

7.根据权利要求6所述的视频场景多维度分类方法，其特征在于，所述基于所述训练样本集训练所述多任务网络中的第二分类头，包括：

基于所述业务数据集训练所述第二分类头。

8.一种视频场景多维度分类装置，其特征在于，包括：

9.一种视频场景多维度分类设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的视频场景多维度分类方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有程序，所述程序被处理器执行时实现如权利要求1-7任一项所述的视频场景多维度分类方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的视频场景多维度分类方法。