CN111737520B

CN111737520B - 一种视频分类方法、视频分类装置、电子设备及存储介质

Info

Publication number: CN111737520B
Application number: CN202010572195.2A
Authority: CN
Inventors: 尹康; 吴宇斌; 郭烽
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-07-25
Anticipated expiration: 2040-06-22
Also published as: CN111737520A

Abstract

本申请实施例公开了一种视频分类方法、视频分类装置、电子设备及存储介质，该方法包括：获取待分类视频对应的至少两个初始视频特征向量；将第一初始视频特征向量输入至第一目标多分类模型，得到待分类视频的初始分类标签向量；至少两个初始视频特征向量包括第一初始视频特征向量；初始分类标签向量包括待分类视频中不同的目标对象对应的第一标签值；根据初始分类标签向量和第二初始视频特征向量，获取待分类视频的目标特征向量；第二初始视频特征向量包括至少两个初始视频特征向量中除第一初始视频特征向量外的视频特征向量；将目标特征向量输入至第二目标多分类模型，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果。

Description

一种视频分类方法、视频分类装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频分类方法、视频分类装置、电子设备及存储介质。

背景技术

相较于静态的单幅图像，视频中包含着更多的主体和背景，以及主体之间的交互行为。例如，某一段视频中可能同时包含人、车、狗等主体，室内(如住宅中、办公室中等)、室外(如公园、道路等)等背景，开车、遛狗等交互行为。因此，视频分类结果通常为多标签分类结果。

目前，可以基于单标签分类算法训练多个二分类器，并将多个二分类器的输出结果进行组合得到多标签分类结果，不同二分类器用于识别不同对象类别(例如一个二分类器用于识别是否为人，另一个二类器用于识别是否为白云等)。但是，若对象类别的数量较多，则需要训练大量的二分类器，导致训练量较大。

发明内容

本申请实施例提供了一种视频分类方法、视频分类装置、电子设备及存储介质，本申请通过第一目标多分类模型获取待分类视频的初始分类标签向量，以及根据初始视频特征向量和初始分类标签向量获取目标特征向量，并通过第二目标多分类模型获取目标特征向量对应的目标分类结果。可见，本申请中采用了多分类模型，从而减少了训练量，避免现有技术中训练多个二分类器造成的训练量较大的问题。

根据本申请实施例的第一方面，提供一种视频分类方法，包括：

获取待分类视频对应的至少两个初始视频特征向量；

将第一初始视频特征向量输入至第一目标多分类模型，得到所述待分类视频的初始分类标签向量；所述至少两个初始视频特征向量包括所述第一初始视频特征向量；所述第一目标多分类模型用于检测所述待分类视频中的目标对象，所述初始分类标签向量包括所述待分类视频中不同的目标对象对应的第一标签值；

根据所述初始分类标签向量和第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述第二初始视频特征向量包括所述至少两个初始视频特征向量中除所述第一初始视频特征向量外的视频特征向量；

将所述目标特征向量输入至第二目标多分类模型，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

根据本申请实施例的第二方面，提供一种视频分类装置，包括：

获取模块，用于获取待分类视频对应的至少两个初始视频特征向量；

输入模块，用于将第一初始视频特征向量输入至第一目标多分类模型，得到所述待分类视频的初始分类标签向量；所述至少两个初始视频特征向量包括所述第一初始视频特征向量；所述第一目标多分类模型用于检测所述待分类视频中的目标对象，所述初始分类标签向量包括所述待分类视频中不同的目标对象对应的第一标签值；

所述获取模块，还用于根据所述初始分类标签向量和第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述第二初始视频特征向量包括所述至少两个初始视频特征向量中除所述第一初始视频特征向量外的视频特征向量；

所述输入模块，还用于将所述目标特征向量输入至第二目标多分类模型，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器和存储器，所述处理器和存储器耦合，所述存储器用于存储计算机程序指令，当所述处理器执行所述计算机程序指令时，使得电子设备执行上述第一方面所述的视频分类方法。

根据本申请实施例的第四方面，提供一种计算机存储介质，所述计算机存储介质中存储有程序指令，当所述程序指令在电子设备上运行时，使得电子设备执行上述第一方面所述的视频分类方法。

根据本申请实施例的第五方面，提供一种芯片，所述芯片与电子设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，使得所述电子设备执行上述第一方面所述的视频分类方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请首先获取待分类视频对应的至少两个初始视频特征向量；将第一初始视频特征向量输入至第一目标多分类模型，得到所述待分类视频的初始分类标签向量；所述至少两个初始视频特征向量包括所述第一初始视频特征向量；所述第一目标多分类模型用于检测所述待分类视频中的目标对象，所述初始分类标签向量包括所述待分类视频中不同的目标对象对应的第一标签值；根据所述初始分类标签向量和第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述第二初始视频特征向量包括所述至少两个初始视频特征向量中除所述第一初始视频特征向量外的视频特征向量；将所述目标特征向量输入至第二目标多分类模型，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

由此可见，初始视频特征向量为视频内容对应的视频特征，初始分类标签向量包含了不同的目标对象(本申请中的涉及的对象相当于通常所说的标签)的标签值，使得不同对象之间存在标签相关性，因此得到的目标分类结果综合考虑了视频内容和标签相关性，从而使得分类结果更加准确。另外，本申请中采用了多分类模型，从而减少了训练量，避免现有技术中训练多个二分类器造成的训练量较大的问题。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种视频分类方法的示意图；

图2为本申请实施例提供的另一种视频分类网络模型的结构示意图；

图3为本申请实施例提供的另一种视频分类网络模型的结构示意图；

图4为本申请实施例提供的另一种视频分类网络模型的结构示意图；

图5为本申请实施例提供的另一种视频分类网络模型的结构示意图；

图6为本申请实施例提供的另一种视频分类网络模型的结构示意图；

图7为本申请实施例提供的另一种视频分类方法的示意图；

图8为本申请实施例提供的一种视频分类装置的结构框图；

图9为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，都应当属于本申请保护的范围。

首先，为了便于理解，本申请可以对视频分类的场景进行示例性说明。用户可以通过终端设备向服务器上传一段视频；然后服务器在获取到该段视频后，可以对该段视频包括的图像帧进行特征提取得到该段视频的视频特征；接着将视频特征输入至多分类器中，得到该段视频属于各个对象(对象相当于通常所说的标签)的标签值；紧接着可以根据各个对象的标签值确定该段视频所属的目标对象，再接着服务器可以根据该段视频的目标对象对该段视频进行归类。这样，一种可能性为：服务器可以将不同终端设备上传的视频均进行归类，以便用户对某一类型的视频进行访问时，服务器可以将该某一类型的视频发送至该用户的终端设备中；另一种可能性为：服务器将该目标对象作为该段视频的分类结果。

例如，用户在某应用平台上传了一段遛狗视频，该某应用平台的服务器可以通过上述方法识别到遛狗视频中存在：人、狗、公园、白云、蓝天等目标对象，并且根据识别到的目标对象确定遛狗视频属于生活记录视频，从而将遛狗视频归类至生活记录视频的类型中。这样，若其他用户在该某应用平台中需要访问生活记录视频，则服务器可以向该某应用平台发送该遛狗视频。

在相关技术中，在多标签分类的过程中，可以将单标签算法的优化约束条件由独热(即one-hot)型向量(比如多分类结果中有且仅有一位取1，其他位取0)更改为取1的位数不固定，从而实现模型训练。但是，该模型训练过程中是将各个标签当作相互独立的，并未有效利用多标签之间的标签相关性，从而导致分类结果的准确率较低。

基于模型训练的训练量较大以及分类结果的准确率较低的问题，本申请提供了一种视频分类方法、视频分类装置、电子设备及存储介质。本申请可以根据初始视频特征向量和初始分类标签向量获取目标特征向量，并通过目标特征向量获取目标分类结果。可见，初始视频特征向量为视频内容对应的视频特征，初始分类标签向量包含了不同目标对象的标签值，使得不同对象之间存在标签相关性，因此得到的目标分类结果综合考虑了视频内容和标签相关性，从而使得分类结果更加准确。另外，本申请中采用了多分类模型，从而减少了训练量，避免现有技术中训练多个二分类器造成的训练量较大的问题。

下面将结合具体实施例对本申请中的视频分类方法进行详细介绍。

图1为本申请实施例提供的一种视频分类方法的示意图。所述方法可以应用于电子设备，示例性的，该电子设备可以包括手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personaldigital assistant，PDA)、可穿戴设备(如手表、手腕、眼镜、头盔、头带等)等终端设备，还可以包括服务器等，本申请实施例对电子设备的具体形式不做特殊限制。

如图1所示，所述方法可以包括：

101、获取待分类视频对应的至少两个初始视频特征向量。

可以理解的是，待分类视频可以为电子设备中存储的视频，或者，可以为电子设备所属的用户在视频网页上指定的视频，等等。

示例性的，待分类视频可以为一集电视、一部电影、一集综艺视频、一则新闻视频或者录制的一段视频等等，上述示例只是举例说明，本申请对此不做特殊限制。

在本申请实施例中，可以对待分类视频进行预处理，得到目标图像帧序列；根据目标图像帧序列，获取待分类视频对应的至少两个初始视频特征向量。

进一步地，对待分类视频进行预处理，得到目标图像帧序列，可以包括：对待分类视频进行采样，得到初始图像帧序列；将初始图像帧序列包括的初始图像帧进行归一化处理，得到归一化图像帧序列；从归一化图像帧序列中获取目标图像帧序列。

其中，对待分类视频进行采样，得到初始图像帧序列可以包括但不限于以下方式：

方式一、从待分类视频中获取第一指定数量的图像帧，得到初始图像帧序列。示例性的，第一指定数量可以为12。

方式二、由于视频是由多张图像帧构成，并且每张图像帧存在对应的时序，故相邻的图像帧的图像特征存在相关性。这样，若本申请在模型训练过程中是按照预设采样频率获取视频训练样本的图像帧序列样本，则本步骤同样按照预设采样频率对待分类视频进行采样，得到初始图像帧序列，从而使得不同视频(即相当于视频训练样本和待分类视频)的特征分布比较类似，从而保证分类结果更加准确。

进一步地，考虑到不同视频的时长可能是不同的，故按照预设采样频率采集到的不同视频的初始图像帧序列的序列长度不同。若在模型训练过程中均是采用同一序列长度的图像帧序列样本进行训练，则为了提高分类结果的准确率，本申请可以按照预设采样频率对待分类视频进行采样，得到第二指定数量的初始图像帧序列。其中，第二指定数量可以与第一指定数量相同。

再进一步地，本申请可以按照预设采样频率，从待分类视频的指定图像帧开始，对待分类视频进行采样，得到第二指定数量的初始图像帧序列。示例性的，指定图像帧可以为第一帧、第二帧或者第三帧等等。

其中，将初始图像帧序列包括的初始图像帧进行归一化处理，得到归一化图像帧序列，可以包括：将初始图像帧序列包括的初始图像帧进行等比例缩放处理，和/或，将初始图像帧序列包括的初始图像帧进行像素值线性化处理，得到归一化图像帧序列。

可以理解的是，在将初始图像帧序列包括的初始图像帧进行等比例缩放处理得到归一化图像帧序列的过程中，为了使得后续可以采集到足够的视频特征，本申请可以将初始图像帧中短边对应的第一像素点数量设置为第一指定值。此时，初始图像帧中长边对应的第二像素点数量为m×H/W。其中，m表示第一指定值，W表示第一像素点数量，H表示第二像素点数量。示例性的，第一指定值可以为512。

在将初始图像帧序列包括的初始图像帧进行像素值线性化处理得到归一化图像帧序列的过程中，本申请可以将初始图像帧中目标像素点的初始像素值进行线性变换，得到目标像素点的新像素值，目标像素点为初始图像帧中任一像素点；将初始图像帧中各个像素点的初始像素值更换为新像素值，得到初始图像帧对应的归一化图像帧；以及确定全部初始图像帧对应的归一化图像帧为归一化图像帧序列。这样，可以将像素值的取值范围由0～255更换为-1～1。

其中，可以通过公式一对初始图像帧中目标像素点的初始像素值进行像素值线性化处理：

其中，x表示目标像素点的初始像素值，f(x)表示目标像素点的新像素值。

将初始图像帧序列包括的初始图像帧进行等比例缩放处理，和，将初始图像帧序列包括的初始图像帧进行像素值线性化处理，得到归一化图像帧序列的具体过程可以参考上述内容，此处不再赘述。需要说明的是，本申请对等比例缩放处理和像素值线性化处理的时序不做特殊限定。

另外，从归一化图像帧序列中获取目标图像帧序列可以包括：从归一化图像帧序列包括的归一化图像帧中选取指定尺寸的图像，作为归一化图像帧的目标图像帧，并确定全部归一化图像帧的目标图像帧为目标图像帧序列；或者，从归一化图像帧序列包括的归一化图像帧中选取指定尺寸和指定位置的图像，作为归一化图像帧的目标图像帧，并确定全部归一化图像帧的目标图像帧为目标图像帧序列，等等。

示例性的，指定尺寸可以为k₁×k₂，其中k₁和k₂可以为不同数值，也可以为相同数值。例如，指定尺寸为448×448。指定位置可以为归一化图像帧中的最中心位置、左上角位置、左下角位置、右上角位置或者右下角位置等等。例如，取归一化图像帧最中心的448×448像素区域作为归一化图像帧的目标图像帧，本申请对此不做特殊限制。

可以理解的是，本申请可以通过特征提取网络模型，对目标图像帧序列包括的目标图像帧进行特征提取，得到待分类视频对应的初始视频特征向量。示例性的，特征提取网络模型可以为卷积神经网络(convolutional neural network，CNN)模型等等。

需要说明的是，本申请中的视频分类网络模型可以包括至少两个网络模型，且每个网络模型中可以存在对应的特征提取网络模型。这样，本申请可以通过每个网络模型中的特征提取网络模型对目标图像帧序列包括的目标图像帧进行特征提取，得到每个网络模型中的初始视频特征向量。其中，若某两个网络模型中的特征提取网络模型相同，则该某两个网络模型中的初始视频特征向量相同；若某两个网络模型中的特征提取网络模型不相同，则该某两个网络模型中的初始视频特征向量不相同。

102、将第一初始视频特征向量输入至第一目标多分类模型，得到待分类视频的初始分类标签向量；至少两个初始视频特征向量包括第一初始视频特征向量；第一目标多分类模型用于检测待分类视频中的目标对象，初始分类标签向量包括待分类视频中不同的目标对象对应的第一标签值。

其中，本申请中的第一目标多分类模型和第二目标多分类模型均可以为CNN模型，也均用于检测待分类视频中的目标对象。本申请对此不做特殊限制。

由于初始分类标签向量包括的向量元素通常为各个对象对应的标签值。因此，若初始分类标签向量包括的某一个向量元素大于等于指定值，则确定待分类视频存在该某一个向量元素指示的对象；相反，若初始分类标签向量包括的某一个向量元素小于指定值，则确定待分类视频不存在该某一个向量元素指示的对象。这样，可以确定待分类视频存在哪些对象，以及不存在哪些对象，从而使得对象之间存在相关性。例如，待分类视频的初始分类标签向量包括：蓝天对象对应的标签值为0.7，雾霾对象对应的标签值为0.4，以及白云对应的标签值为0.8，则在指定值为0.5的情况下，可以确定待分类视频的目标对象存在蓝天对象和白云对象，但并不存在雾霾对象。

为了便于说明，下面结合不同视频分类网络模型，对第一初始视频特征向量分情况进行说明：

情况一、视频分类网络模型包括两个网络模型。

如图2所示，视频分类网络模型包括网络1和网络2。网络1可以包括第一特征提取网络模型、第一分类模型以及第一全连接层，网络2可以包括第二特征提取网络模型、第一级联层、第二分类模型。其中，第一全连接层的输出作为第一级联层的输入。

在图2所示的视频分类网络模型中，第一初始视频特征向量的数量为一个，且第一初始视频特征向量为网络1中的V₁，第一目标多分类模型包括第一分类模型，第一初始分类标签向量为L₁。

情况二、视频分类网络模型包括至少三个网络模型。

为了便于描述，情况二所述的实施例是以视频分类网络模型包括四个网络模型(即网络1、网络2、网络3以及网络4)为例进行说明的，并且每个网络模型中均存在对应的特性提取网络模型(即第一特征提取网络模型、第二特征提取网络模型、第三特征提取网络模型以及第四特征提取网络模型)。这样，可以首先获取待分类视频的目标图像帧序列，接着将目标图像帧序列分别输入至各个网络模型中的特征提取网络模型，对应得到四个初始视频特征向量(即图3、图4、图5以及图6中所示的R₁、R₂、R₃以及R₄)。

下面对情况二中涉及的视频分类网络模型分别进行说明：

(1)如图3所示，网络1可以包括第一特征提取网络模型、第一分类模型以及第一全连接层，网络2可以包括第二特征提取网络模型、第一级联层、第二分类模型以及第二全连接层，网络3可以包括第三特征提取网络模型、第二级联层、第三分类模型以及第三全连接层，网络4可以包括第四特征提取网络模型、第三级联层以及第四分类模型。其中，第一全连接层的输出作为第一级联层的输入，第二全连接层的输出作为第二级联层的输入，第三全连接层的输出作为第三级联层的输入。

在图3所示的视频分类网络模型中，第一初始视频特征向量的数量为一个，且第一初始视频特征向量包括R₁，第一目标多分类模型包括第一分类模型，第一初始分类标签向量包括l_c1。

(2)如图4所示，网络1可以包括第一特征提取网络模型、第一分类模型以及第一全连接层，网络2可以包括第二特征提取网络模型、第二分类模型以及第二全连接层，网络3可以包括第三特征提取网络模型、第三分类模型以及第三全连接层，网络4可以包括第四特征提取网络模型、第一级联层以及第四分类模型。其中，第一全连接层的输出、第二全连接层的输出以及第三全连接层的输出作为第一级联层的输入。

在图4所示的视频分类网络模型中，第一初始视频特征向量的数量为三个，且第一初始视频特征向量包括R₁、R₂、R₃，第一目标多分类模型包括第一分类模型、第二分类模型以及第三分类模型，以及第一初始分类标签向量包括l_d1、l_d2、l_d3。

(3)如图5所示，网络1可以包括第一特征提取网络模型、第一分类模型以及第一全连接层，网络2可以包括第二特征提取网络模型、第一级联层以及第二分类模型，网络3可以包括第三特征提取网络模型、第二级联层以及第三分类模型，网络4可以包括第四特征提取网络模型、第三级联层以及第四分类模型。其中，第一全连接层的输出作为第一级联层的输入、第二级联层的输入以及第三级联层的输入。

在图5所示的视频分类网络模型中，第一初始视频特征向量的数量为一个，且第一初始视频特征向量为R₁，第一目标多分类模型包括第一分类模型，以及第一初始分类标签向量为l_b1。

(4)如图6所示，网络1可以包括第一特征提取网络模型、第一分类模型以及第一全连接层，网络2可以包括第二特征提取网络模型、第一级联层以及第二分类模型，网络3可以包括第三特征提取网络模型、第三分类模型以及第二全连接层，网络4可以包括第四特征提取网络模型、第二级联层以及第四分类模型。其中，第一全连接层的输出作为第一级联层的输入，第二全连接层的输出作为第二级联层的输入。

在图6所示的视频分类网络模型中，第一初始视频特征向量的数量为两个，且第一初始视频特征向量为R₁、R₃，第一目标多分类模型包括第一分类模型和第三分类模型，以及第一初始分类标签向量包括l_s1和l_s2。

上述示例只是示例性说明，本申请对视频分类网络模型的具体结构不做特殊限制。

103、根据初始分类标签向量和第二初始视频特征向量，获取待分类视频的目标特征向量；第二初始视频特征向量包括至少两个初始视频特征向量中除第一初始视频特征向量外的视频特征向量。

在本申请实施例中，可以根据初始分类标签向量，获取待分类视频的第一处理视频特征向量，其中，可以将初始分类标签向量输入至对应的全连接层得到待分类视频的第一处理视频特征向量；然后根据第一处理视频特征向量和第二初始视频特征向量，得到待分类视频的目标特征向量。

需要说明的是，在本申请中，第一初始视频特征向量的数量，初始分类标签向量的数量，以及第一处理视频特征向量的数量是相同的。

下面基于步骤102中所述的不同视频分类网络模型，对目标特征向量分情况进行说明：

情况一、在第一初始视频特征向量的数量为一个，第二初始视频特征向量的数量为一个的情况下，可以将第一处理视频特征向量和第二初始视频特征向量进行特征级联，得到待分类视频的目标特征向量。

示例性的，针对情况一，视频分类网络模型可以如图2所示。由图2可知，可以首先获取待分类视频的目标图像帧序列；接着将目标图像帧序列分别输入至第一特征提取网络模型和第二特征提取网络模型，得到对应的第一视频特征向量(即图2中所示的V₁)和第二视频特征向量(即图2中所示的V₂)；然后将V₁输入至第一分类模型得到初始分类标签向量(即图2中所示的L₁)，将L₁输入至第一全连接层得到第一处理视频特征向量(即图2中所示的V₃)；其次将V₂和V₃进行特征级联得到待分类视频的目标特征向量(即图2中所示的V_tar)。

情况二、

(1)在第一初始视频特征向量的数量为一个，第二初始视频特征向量的数量为至少两个的情况下，可以将第一处理视频特征向量和特定第二初始视频特征向量进行特征级联，得到第一级联视频特征向量；获取第一级联视频特征向量对应的第一级联分类标签向量，以及根据第一级联分类标签向量，获取待分类视频的第二处理视频特征向量；根据第二处理视频特征向量和剩余第二初始视频特征向量，获取待分类视频的目标特征向量；剩余第二初始视频特征向量为第二初始视频特征向量中除特定第二初始视频特征向量外的视频特征向量。

示例性的，针对该情况，视频分类网络模型可以如图3所示。如图3所示，第一初始视频特征向量为R₁，第一目标多分类模型包括第一分类模型，第二初始视频特征向量为R₂、R₃以及R₄，且可以得到初始分类标签向量l_c1以及第一处理视频特征向量为R_c1。

此时，可以根据图3所示的视频分类网络模型可知，特定第二初始视频特征向量为R₂，故将R_c1与R₂进行特征级联得到第一级联视频特征向量(即图3中所示的R_c2)，将R_c2输入至第二分类模型得到第一级联分类标签向量(即图3中所示的l_c2)，以及根据l_c2获取待分类视频的第二处理视频特征向量(即图3中所示的R_c3)；将R_c3与R₃进行特征级联得到第二级联视频特征向量(即图3中所示的R_c4)，将R_c4输入至第三分类模型得到第二级联分类标签向量(即图3中所示的l_c3)，以及根据l_c3获取待分类视频的第三处理视频特征向量(即图3中所示的R_c5)；将R_c5与R₄进行特征级联得到第三级联视频特征向量(即图3中所示的R_c6)。因此待分类视频的目标特征向量包括R_c6。

(2)在第一初始视频特征向量的数量为至少两个，第二初始视频特征向量的数量为一个的情况下，可以将第一处理视频特征向量和第二初始视频特征向量进行特征级联，得到待分类视频的目标特征向量。

示例性的，针对该情况，视频分类网络模型可以如图4所示。如图4所示，第一初始视频特征向量为R₁、R₂、R₃，第一目标多分类模型包括第一分类模型、第二分类模型以及第三分类模型，第二初始视频特征向量为R₄，且可以得到初始分类标签向量为l_d1、l_d2以及l_d3，以及第一处理视频特征向量为R_d1、R_d2以及R_d3。

此时，可以将R_d1、R_d2、R_d3以及R₄进行特征级联得到第四级联视频特征向量(即图4中所示的R_d4)。故待分类视频的目标特征向量包括R_d4。

(3)在第一初始视频特征向量的数量为至少一个，第二初始视频特征向量的数量为至少两个的情况下，可以将目标第二初始视频特征向量以及与目标第二初始视频特征向量对应的目标第一处理视频特征向量进行特征级联，得到目标第二初始视频特征向量对应的子目标特征向量；待分类视频的目标特征向量包括目标第二初始视频特征向量对应的子目标特征向量；第二初始视频特征向量包括目标第二初始视频特征向量。

在一种可选实施例中，目标第一处理视频特征向量包括第一处理视频特征向量。如图5所示，是以第一初始视频特征向量的数量和第一处理视频特征向量的数量为一个为例进行说明的，第一初始视频特征向量为R₁，第一目标多分类模型包括第一分类模型，第二初始视频特征向量为R₂、R₃、R₄，且可以得到初始分类标签向量l_b1，以及第一处理视频特征向量为R_b1。

此时，可以根据图5所示的视频分类网络模型可知，若目标第二初始视频特征向量为R₂，则对应的目标第一处理视频特征向量为R_b1；若目标第二初始视频特征向量为R₃，则对应的目标第一处理视频特征向量为R_b1；若目标第二初始视频特征向量为R₄，则对应的目标第一处理视频特征向量为R_b1。故需要将R_b1以及R₂进行特征级联得到R₂对应的子目标特征向量(即图5中所示的R_b2)，将R_b1以及R₃进行特征级联得到R₃对应的子目标特征向量(即图5中所示的R_b3)，将R_b1以及R₄进行特征级联得到R₄对应的子目标特征向量(即图5中所示的R_b4)，因此待分类视频的目标特征向量包括R_b2、R_b3、R_b4。

在另一种可选实施例中，在第一初始视频特征向量的数量为至少两个，第一处理视频特征向量的数量为至少两个的情况下，目标第一处理视频特征向量包括至少一个第一处理视频特征向量。如图6所示，是以第一初始视频特征向量的数量为两个为例进行说明的，第一初始视频特征向量为R₁、R₃，第一目标多分类模型包括第一分类模型和第三分类模型，第二初始视频特征向量为R₂、R₄，且可以得到初始分类标签向量l_s1和l_s2，以及第一处理视频特征向量为R_s1和R_s2。

此时，可以根据图6所示的视频分类网络模型可知，若目标第二初始视频特征向量为R₂，则对应的目标第一处理视频特征向量为R_s1；若目标第二初始视频特征向量为R₄，则对应的目标第一处理视频特征向量为R_s2。故需要将R_s1以及R₂进行特征级联得到R₂对应的子目标特征向量(即图6中所示的R_s3)；以及将R_s2以及R₄进行特征级联得到R₄对应的子目标特征向量(即图6中所示的R_s4)，因此待分类视频的目标特征向量包括R_s3、R_s4。

上述获取目标特征向量的过程只是示例性说明，本申请对此不做特殊限制。

104、将目标特征向量输入至第二目标多分类模型，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果。

可以理解的是，类别信息可以为目标对象的目标标签值，或者可以为目标对象的对象标识(如对象名称等)，本申请对此不做特殊限制。

对于步骤103中情况一所述的视频分类网络模型，第二目标多分类模型包括图2中所示的第二分类模型。由于待分类视频的目标特征向量包括图2中所示的V_tar。这样，可以将待分类视频的目标特征向量输入至第二目标多分类模型，得到待分类视频的目标标签向量(即图2中所示的L_tar)；并根据目标标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果。

以类别信息为目标对象的对象标识为例进行说明。可以理解的是，由于目标标签向量包括的向量元素通常为不同对象对应的标签值(例如概率值)。因此，若目标标签向量包括的第o个向量元素大于等于第二指定值，则确定待分类视频存在第o个向量元素指示的对象，从而可以确定该第o个向量元素指示的对象为目标对象；相反，若目标标签向量包括的第o个向量元素小于第二指定值，则确定待分类视频不存在第o个向量元素指示的对象，此时确定该第o个向量元素指示的对象不为目标对象；o为正整数。示例性的，第二指定值可以为0.5。通过上述方法可以获取到待分类视频中的目标对象，并且获取该目标对象的对象标识。

以类别信息为目标对象的目标标签值为例进行说明，从目标标签向量中获取目标标签值，目标标签值大于等于第二指定值。这样，可以确定待分类视频的目标分类结果包括目标标签值指示的对象。

在本申请的可选实施例中，可以在图2所示的第一级联层和第二分类模型之间设置有第二全连接层，以便将待分类视频的目标特征向量进行调整(如维度调整，和/或，将概率值的范围调整至指定数值范围)，得到调整后的目标特征向量，并将调整后的目标特征向量输入至第二分类模型。

针对步骤103中情况二所述的几种视频分类网络模型，下面分别进行说明：

(1)若视频分类网络模型为图3所示的模型类型，则第二目标多分类模型包括图3中所示的第四分类模型。

(2)若视频分类网络模型为图4所示的模型类型，则第二目标多分类模型包括图4中所示的第四分类模型。

(3)若视频分类网络模型为图5所示的模型类型，则第二目标多分类模型包括图5中所示的第二分类模型、第三分类模型以及第四分类模型。

(4)若视频分类网络模型为图6所示的模型类型，则第二目标多分类模型包括图6中所示的第二分类模型以及第四分类模型。

针对上述(1)和(2)中所述的第二目标多分类模型，同样地，可以将待分类视频的目标特征向量输入至第二目标多分类模型，得到待分类视频的目标标签向量(即图3中所示的l_ctar，或者，图4中所示的l_dtar)；并根据目标标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果。具体内容此处不再赘述。

针对上述(3)和(4)中所述的第二目标多分类模型，由于第二目标多分类模型包括多个分类模型，且由步骤103可知：本申请可以获取到目标第二初始视频特征向量对应的子目标特征向量。这样，可以将目标第二初始视频特征向量对应的子目标特征向量，输入至对应的第二目标多分类模型，得到待分类视频的待处理标签向量(即图5中所示的l_tar1、l_tar2、l_tar3，或者，图6中所示的l_des1、l_des2)；并根据待处理标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果。

可以理解的是，根据待处理标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果可以包括：根据待处理标签向量，获取最终标签向量；接着根据最终标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果。其中，根据最终标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果的具体内容可以参考上述所述的根据目标标签向量，获取待分类视频中目标对象的类别信息，得到待分类视频的目标分类结果的过程，此处不再赘述。

应理解，在一种可选实施例中，根据待处理标签向量，获取最终标签向量，可以理解为：由于存在至少两个第二初始视频特征向量，故获取到的子目标特征向量的数量可以为至少两个。这样，可以获取到至少两个待处理标签向量。因此可以计算至少两个待处理标签向量中同一元素位置对应的向量元素的均值，得到同一元素位置的最终元素值；根据同一元素位置的最终元素值，获取最终标签向量。

示例性的，如图5所示，可以获取l_tar1、l_tar2、l_tar3中同一元素位置对应的向量元素的均值，得到同一元素位置的最终元素值，并根据同一元素位置的最终元素值，获取最终标签向量，最终标签向量中同一元素位置对应的元素值包括最终元素值。

需要说明的是，在类别信息为目标对象的对象标识的情况下，本申请中的目标分类结果可以包括对象标识。示例性的，本申请中对象的类型可以包括主体和背景，以及主体之间的交互行为等类型。例如，某一段视频为遛狗视频，则目标分类结果可以包括人、狗、公园、遛狗等对象标识。

采用上述所述的方法，本申请可以根据初始视频特征向量和初始分类标签向量获取目标特征向量，并通过目标特征向量获取目标分类结果。可见，初始视频特征向量为视频内容对应的视频特征，初始分类标签向量包含了不同的目标对象的标签值，使得不同对象之间存在标签相关性，因此得到的目标分类结果综合考虑了视频内容和标签相关性，从而使得分类结果更加准确。另外，本申请中采用了多分类模型，从而减少了训练量，避免现有技术中训练多个二分类器造成的训练量较大的问题。

结合图1，如图7所示，在本申请的可选实施例中，在步骤101之前，还可以包括：

105、获取视频训练样本以及视频训练样本所属的类别标签样本。

可以理解的是，可以通过人工设置视频训练样本属于的类别标签，得到类别标签样本。

示例性的，某一个视频训练样本属于的类别共有w类，w为正整数，且视频训练样本所属的类别标签样本分别为E₁，E₂，…，E_w，E_w表示视频训练样本属于的第w个类别标签。

可选地，本申请可以将类别标签样本表示为集合形式，例如，类别标签样本可以表示为{E₁，E₂，…，E_w}。上述示例只是举例说明，本申请对此不做特殊限制。

106、对视频训练样本进行预处理，得到图像帧序列样本。

在本申请实施例中，对视频训练样本进行采样，得到初始图像帧序列样本；将初始图像帧序列样本包括的图像帧进行归一化处理，得到归一化图像帧序列样本；从归一化图像帧序列样本中获取图像帧序列样本。

可以理解的是，对视频训练样本进行采样，得到初始图像帧序列样本的过程可以参考步骤101中获取初始图像帧序列的过程。需要说明的是，步骤101中的第一指定数量可以更换为第三指定数量，第二指定数量可以更换为第四指定数量。示例地，第三指定数量和第四指定数量可以为16。

将初始图像帧序列样本包括的图像帧进行归一化处理，得到归一化图像帧序列样本的过程可以参考步骤101中获取归一化图像帧序列的过程，此处不再赘述。

为了增加数据的多样性，以及降低过拟合的风险，从归一化图像帧序列样本中获取图像帧序列样本可以包括：从归一化图像帧序列样本包括的归一化图像帧中获取指定尺寸和/或指定帧数量的图像作为图像帧序列样本。

进一步地，指定帧数量的图像可以为归一化图像帧序列样本包括的连续的归一化图像帧。

示例性的，指定帧数量与第一指定数量相同，或者与第二指定数量相同。例如，若指定帧数量为12，指定尺寸为448×448，则从归一化图像帧序列样本中获取到的图像帧序列样本对应的数据维度为12×448×448×3，3表示RGB的三个色彩通道。

107、根据图像帧序列样本，获取视频训练样本对应的至少两个视频特征向量样本。

应理解，本申请可以通过预设特征提取模型，对视频训练帧样本进行特征提取，得到视频训练样本的至少两个视频特征向量样本。其中，至少两个视频特征向量样本可以全部相同，也可以都不相同，还可以为部分相同，本申请对此不做特殊限制。

108、根据至少两个视频特征向量样本和类别标签样本进行模型训练，得到第一目标多分类模型和第二目标多分类模型。

在本申请实施例中，将第一初始视频特征向量样本输入至第一预设模型，得到视频训练样本的第一分类标；第一分类标签向量样本包括视频训练样本中不同的对象样本对应的第二标签值；根据第一分类标签向量样本和第二初始视频特征向量样本，得到总特征向量样本；第二初始视频特征向量样本为至少两个视频特征向量样本中除第一初始视频特征向量样本外的视频特征向量样本；通过将总特征向量样本输入至第二预设模型，得到视频训练样本的第二分类标签向量样本；根据第一分类标签向量样本、第二分类标签向量样本以及类别标签样本，获取第一目标多分类模型和第二目标多分类模型。

可以理解的是，第一预设模型和第二预设模型均用于检测视频训练样本中的对象样本，总特征向量样本的获取过程可以参考步骤203中待分类视频的目标特征向量的获取过程，第一分类标签向量样本的具体内容可以参考初始分类标签向量的内容，此处不再赘述。

其中，根据第一分类标签向量样本、第二分类标签向量样本以及类别标签样本，获取第一目标多分类模型和第二目标多分类模型，可以包括：根据第一分类标签向量样本、第二分类标签向量样本以及类别标签样本，获取当前网络损失值；根据当前网络损失值，对第一预设模型和第二预设模型进行模型更新得到第一更新分类模型和第二更新分类模型，并在第一更新分类模型和第二更新分类模型满足预设收敛条件的情况下，确定第一更新分类模型为第一目标多分类模型，以及第二更新分类模型为第二目标多分类模型。

在本申请实施例中，预设收敛条件可以包括：对第一更新分类模型和第二更新分类模型进行更新的次数小于等于第一预设阈值；或者，当前网络损失值与上一网络损失值之间的差值小于等于第二预设阈值。

可以理解的是，一种情况为：在进行一次模型训练的过程中，需要对第一预设模型和第二预设模型均进行更新，故对第一预设模型和第二预设模型进行更新的次数可以为：对第一预设模型进行更新的次数或者对第二预设模型进行更新的次数。

另一种情况为：在进行一次模型训练的过程中，对第一预设模型或者第二预设模型进行更新，以便通过多次模型训练对第一预设模型和第二预设模型进行轮流更新。故对第一预设模型和第二预设模型进行更新的次数可以为：对第一预设模型进行更新的次数，和，对第二预设模型进行更新的次数之间的和值。

需要说明的，本申请在模型训练的过程中可以对涉及的分类模型、特征提取网络模型以及全连接层等网络参数均进行更新。其中，可以采用反向传播(back propagation，BP)算法，基于当前网络损失值逐层反传梯度，以实现对网络参数更新。

在第一更新分类模型和第二更新分类模型不满足预设收敛条件的情况下，重新获取新的视频训练样本以及新的视频训练样本所属的类别标签样本，并返回步骤106。

为了便于理解，基于图1所示实施例中所述的不同视频分类网络模型，对当前网络损失值分情况进行说明。图2至图6提供的各个视频分类网络模型中的输出参数在此处可以理解为视频训练样本对应的输出参数，以及图2至图6提供的待分类视频在此处可以理解为视频训练样本，图2至图6提供的目标图像帧序列在此处可以理解为图像帧序列样本，图2至图6提供的第一目标多分类模型在此处可以理解为第一预设模型，图2至图6提供的第二目标分类模型在此处可以理解为第二预设模型：

情况一、视频分类网络模型包括两个网络模型。如图2所示，第一分类标签向量样本为L₁，第二分类标签向量样本为L_tar。若类别标签样本表示为L_sam，则可以通过公式二计算当前网络损失值：

其中，Loss表示当前网络损失值，y_ij表示第i分类标签向量中第j个向量元素，l_j表示类别标签样本L_sam中第j个向量元素。j为正整数，N为2。在情况一中，第i分类标签向量包括第一分类标签向量L₁和第二分类标签向量L_tar。

当然，本申请也可以分别计算L₁与L_sam之间的第一网络损失值，计算L_tar与L_sam之间的第二网络损失值，并计算第一网络损失值和第二网络损失值之间的加权值得到当前网络损失值。本申请对当前网络损失值的具体计算方法不做特殊限定。

情况二、视频分类网络模型包括至少三个网络模型。此时，可以获取到每个网络模型中的分类模型输出的分类标签向量，并根据分类标签向量和类别标签样本，获取当前网络损失值。其中，分类标签向量包括第一分类标签向量样本、第二分类标签向量样本，分类标签向量还可能包括除第一分类标签向量样本和第二分类标签向量样本外的第三分类标签向量。

其中，当前网络损失值的计算过程可以参考情况一中当前网络损失值的获取方法，此处不再赘述。针对情况二，N为视频分类网络模型包括的网络模型的数量。

示例性的，如图3所示，第一分类标签向量样本为l_c1，第二分类标签向量样本为l_ctar，第三分类标签向量可以包括l_c2，l_c3。

如图4所示，第一分类标签向量样本为l_d1，l_d2，l_d3，第二分类标签向量样本为l_dtar。

如图5所示，第一分类标签向量样本为l_b1，第二分类标签向量样本为l_tar1，l_tar2，l_tar3。

如图6所示，第一分类标签向量样本为l_s1，l_s2，第二分类标签向量样本为l_des1，l_des2。

需要说明的是，在本申请的可选实施例中，还可以根据电子设备的剩余处理资源，确定是否将视频分类网络模型包括的至少两个网络模型的网络参数进行参数共享；若剩余处理资源小于等于预设资源值，则将视频分类网络模型包括的至少两个网络模型的网络参数进行参数共享；若剩余处理资源大于预设资源值，则对视频分类网络模型包括的至少两个网络模型的网络参数不执行参数共享。

采用上述所述的方法，本申请可以根据视频训练样本的第一分类标签向量样本和初始视频特征向量样本获取总特征向量样本，并通过总特征向量样本获取第二分类标签向量样本。这样，可以根据第一分类标签向量样本、第二分类标签向量样本以及视频训练样本的类别标签样本进行模型训练。可见，初始视频特征向量样本为视频内容对应的视频特征，第一分类标签向量样本中包含了视频训练样本中不同的对象样本对应的第二标签值，使得不同对象样本之间存在标签相关性，因此得到的第二分类标签向量样本综合考虑了视频内容和标签相关性，从而使得训练得到的多分类模型更加准确。这样，通过训练得到的多分类模型可以同时基于视频内容和标签相关性进行视频分类，从而提高分类准确度。

图8为本申请实施例提供的一种视频分类装置的结构框图，如图8所示，包括：

获取模块801，用于获取待分类视频对应的至少两个初始视频特征向量；

输入模块802，用于将第一初始视频特征向量输入至第一目标多分类模型，得到所述待分类视频的初始分类标签向量；所述至少两个初始视频特征向量包括所述第一初始视频特征向量；所述第一目标多分类模型用于检测所述待分类视频中的目标对象，所述初始分类标签向量包括所述待分类视频中不同的目标对象对应的第一标签值；

获取模块801，还用于根据所述初始分类标签向量和第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述第二初始视频特征向量包括所述至少两个初始视频特征向量中除所述第一初始视频特征向量外的视频特征向量；

输入模块802，还用于将所述目标特征向量输入至第二目标多分类模型，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

可选地，获取模块801，进一步用于根据所述初始分类标签向量，获取所述待分类视频的第一处理视频特征向量；以及，根据所述第一处理视频特征向量和所述第二初始视频特征向量，得到所述待分类视频的目标特征向量。

可选地，在所述第一初始视频特征向量的数量为一个，所述第二初始视频特征向量的数量为至少两个的情况下；获取模块801，进一步用于将所述第一处理视频特征向量和特定第二初始视频特征向量进行特征级联，得到第一级联视频特征向量；获取所述第一级联视频特征向量对应的第一级联分类标签向量，以及根据所述第一级联分类标签向量，获取所述待分类视频的第二处理视频特征向量；以及，根据所述第二处理视频特征向量和剩余第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述剩余第二初始视频特征向量为所述第二初始视频特征向量中除所述特定第二初始视频特征向量外的视频特征向量。

可选地，在所述第一初始视频特征向量的数量为至少一个，所述第二初始视频特征向量的数量为一个的情况下；获取模块801，进一步用于将所述第一处理视频特征向量和所述第二初始视频特征向量进行特征级联，得到所述待分类视频的目标特征向量。

可选地，在所述第一初始视频特征向量的数量为至少一个，所述第二初始视频特征向量的数量为至少两个的情况下；获取模块801，进一步用于将目标第二初始视频特征向量以及与所述目标第二初始视频特征向量对应的目标第一处理视频特征向量进行特征级联，得到所述目标第二初始视频特征向量对应的子目标特征向量；所述待分类视频的目标特征向量包括所述目标第二初始视频特征向量对应的子目标特征向量；所述第二初始视频特征向量包括所述目标第二初始视频特征向量；

其中，所述目标第一处理视频特征向量包括所述第一处理视频特征向量；或者，

在所述第一初始视频特征向量的数量为至少两个，所述第一处理视频特征向量的数量为至少两个的情况下，所述目标第一处理视频特征向量包括至少一个第一处理视频特征向量。

可选地，输入模块802，进一步用于将所述目标第二视频特征向量对应的子目标特征向量，输入至对应的第二目标多分类模型，得到待分类视频的待处理标签向量；以及，根据所述待处理标签向量，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

可选地，获取模块801，进一步用于对所述待分类视频进行预处理，得到目标图像帧序列；以及，根据所述目标图像帧序列，获取所述待分类视频对应的至少两个初始视频特征向量。

可选地，获取模块801，进一步用于对所述待分类视频进行采样，得到初始图像帧序列；将所述初始图像帧序列包括的初始图像帧进行归一化处理，得到归一化图像帧序列；以及，从所述归一化图像帧序列中获取所述目标图像帧序列。

可选地，获取模块801，进一步用于将所述初始图像帧序列包括的初始图像帧进行等比例缩放处理，和/或，将所述初始图像帧序列包括的初始图像帧进行像素值线性化处理，得到所述归一化图像帧序列。

可选地，获取模块801，进一步用于获取视频训练样本以及所述视频训练样本所属的类别标签样本；对所述视频训练样本进行预处理，得到图像帧序列样本；根据所述图像帧序列样本，获取所述视频训练样本对应的至少两个视频特征向量样本；以及，根据所述至少两个视频特征向量样本和所述类别标签样本进行模型训练，得到所述第一目标多分类模型和所述第二目标多分类模型。

可选地，获取模块801，进一步用于将第一初始视频特征向量样本输入至第一预设模型，得到所述视频训练样本的第一分类标签向量样本；所述至少两个视频特征向量样本包括所述第一初始视频特征向量样本；所述第一分类标签向量样本包括所述视频训练样本中不同的对象样本对应的第二标签值；根据所述第一分类标签向量样本和第二初始视频特征向量样本，得到总特征向量样本；所述第二初始视频特征向量样本包括所述至少两个视频特征向量样本中除所述第一初始视频特征向量样本外的视频特征向量样本；以及，通过将所述总特征向量样本输入至第二预设模型，得到所述视频训练样本的第二分类标签向量样本；以及，根据所述第一分类标签向量样本、所述第二分类标签向量样本以及所述类别标签样本，获取所述第一目标多分类模型和所述第二目标多分类模型。

可选地，获取模块801，进一步用于根据所述第一分类标签向量样本、所述第二分类标签向量样本以及所述类别标签样本，获取当前网络损失值；以及，根据所述当前网络损失值，对所述第一预设模型和所述第二预设模型进行模型更新得到第一更新分类模型和第二更新分类模型，并在所述第一更新分类模型和所述第二更新分类模型满足预设收敛条件的情况下，确定所述第一更新分类模型为所述第一目标多分类模型，以及所述第二更新分类模型为所述第二目标多分类模型。

可选地，所述预设收敛条件包括：

对所述第一预设模型和所述第二预设模型进行更新的次数小于等于第一预设阈值；或者，

所述当前网络损失值与上一网络损失值之间的差值小于等于第二预设阈值。

需要说明的是，视频分类装置的具体内容可以参考上述视频分类方法的实施例所述的内容，此处不再赘述。

图9示出了本申请实施例提供的一种电子设备的结构框图。参考图9，电子设备包括：射频(radio frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对电子设备的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现电子设备的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现电子设备的输入和输出功能。

电子设备还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与电子设备之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一电子设备，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

电子设备还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该电子设备所包括的处理器980还具有以下功能：

获取待分类视频对应的至少两个初始视频特征向量；将第一初始视频特征向量输入至第一目标多分类模型，得到所述待分类视频的初始分类标签向量；所述至少两个初始视频特征向量包括所述第一初始视频特征向量；所述第一目标多分类模型用于检测所述待分类视频中的目标对象，所述初始分类标签向量包括所述待分类视频中不同的目标对象对应的第一标签值；根据所述初始分类标签向量和第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述第二初始视频特征向量包括所述至少两个初始视频特征向量中除所述第一初始视频特征向量外的视频特征向量；将所述目标特征向量输入至第二目标多分类模型，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

可选地，处理器980进一步具有以下功能：

根据所述初始分类标签向量，获取所述待分类视频的第一处理视频特征向量；根据所述第一处理视频特征向量和所述第二初始视频特征向量，得到所述待分类视频的目标特征向量。

可选地，处理器980进一步具有以下功能：在所述第一初始视频特征向量的数量为一个，所述第二初始视频特征向量的数量为至少两个的情况下；将所述第一处理视频特征向量和特定第二初始视频特征向量进行特征级联，得到第一级联视频特征向量；获取所述第一级联视频特征向量对应的第一级联分类标签向量，以及根据所述第一级联分类标签向量，获取所述待分类视频的第二处理视频特征向量；根据所述第二处理视频特征向量和剩余第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述剩余第二初始视频特征向量为所述第二初始视频特征向量中除所述特定第二初始视频特征向量外的视频特征向量。

可选地，处理器980进一步具有以下功能：在所述第一初始视频特征向量的数量为至少一个，所述第二初始视频特征向量的数量为一个的情况下；将所述第一处理视频特征向量和所述第二初始视频特征向量进行特征级联，得到所述待分类视频的目标特征向量。

可选地，处理器980进一步具有以下功能：在所述第一初始视频特征向量的数量为至少一个，所述第二初始视频特征向量的数量为至少两个的情况下；将目标第二初始视频特征向量以及与所述目标第二初始视频特征向量对应的目标第一处理视频特征向量进行特征级联，得到所述目标第二初始视频特征向量对应的子目标特征向量；所述待分类视频的目标特征向量包括所述目标第二初始视频特征向量对应的子目标特征向量；所述第二初始视频特征向量包括所述目标第二初始视频特征向量；

可选地，处理器980进一步具有以下功能：将所述目标第二视频特征向量对应的子目标特征向量，输入至对应的第二目标多分类模型，得到待分类视频的待处理标签向量；以及，根据所述待处理标签向量，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

可选地，处理器980进一步具有以下功能：对所述待分类视频进行预处理，得到目标图像帧序列；以及，根据所述目标图像帧序列，获取所述待分类视频对应的至少两个初始视频特征向量。

可选地，处理器980进一步具有以下功能：对所述待分类视频进行采样，得到初始图像帧序列；将所述初始图像帧序列包括的初始图像帧进行归一化处理，得到归一化图像帧序列；以及，从所述归一化图像帧序列中获取所述目标图像帧序列。

可选地，处理器980进一步具有以下功能：将所述初始图像帧序列包括的初始图像帧进行等比例缩放处理，和/或，将所述初始图像帧序列包括的初始图像帧进行像素值线性化处理，得到所述归一化图像帧序列。

可选地，处理器980还具有以下功能：获取视频训练样本以及所述视频训练样本所属的类别标签样本；对所述视频训练样本进行预处理，得到图像帧序列样本；根据所述图像帧序列样本，获取所述视频训练样本对应的至少两个视频特征向量样本；以及，根据所述至少两个视频特征向量样本和所述类别标签样本进行模型训练，得到所述第一目标多分类模型和所述第二目标多分类模型。

可选地，处理器980进一步具有以下功能：将第一初始视频特征向量样本输入至第一预设模型，得到所述视频训练样本的第一分类标签向量样本；所述至少两个视频特征向量样本包括所述第一初始视频特征向量样本；所述第一分类标签向量样本包括所述视频训练样本中不同的对象样本对应的第二标签值；

根据所述第一分类标签向量样本和第二初始视频特征向量样本，得到总特征向量样本；所述第二初始视频特征向量样本包括所述至少两个视频特征向量样本中除所述第一初始视频特征向量样本外的视频特征向量样本；

通过将所述总特征向量样本输入至第二预设模型，得到所述视频训练样本的第二分类标签向量样本；

根据所述第一分类标签向量样本、所述第二分类标签向量样本以及所述类别标签样本，获取所述第一目标多分类模型和所述第二目标多分类模型。

可选地，处理器980进一步具有以下功能：根据所述第一分类标签向量样本、所述第二分类标签向量样本以及所述类别标签样本，获取当前网络损失值；以及，根据所述当前网络损失值，对所述第一预设模型和所述第二预设模型进行模型更新得到第一更新分类模型和第二更新分类模型，并在所述第一更新分类模型和所述第二更新分类模型满足预设收敛条件的情况下，确定所述第一更新分类模型为所述第一目标多分类模型，以及所述第二更新分类模型为所述第二目标多分类模型。

可选地，所述预设收敛条件包括：对所述第一预设模型和所述第二预设模型进行更新的次数小于等于第一预设阈值；或者，所述当前网络损失值与上一网络损失值之间的差值小于等于第二预设阈值。

在本申请所提供的几个实施例中，应该理解到，所揭露的视频分类方法视频分类装置和电子设备，可以通过其它的方式实现。例如，以上所描述的电子设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频对应的至少两个初始视频特征向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述初始分类标签向量和第二初始视频特征向量，获取所述待分类视频的目标特征向量，包括：

根据所述初始分类标签向量，获取所述待分类视频的第一处理视频特征向量；

根据所述第一处理视频特征向量和所述第二初始视频特征向量，得到所述待分类视频的目标特征向量。

3.根据权利要求2所述的方法，其特征在于，在所述第一初始视频特征向量的数量为一个，所述第二初始视频特征向量的数量为至少两个的情况下；

所述根据所述第一处理视频特征向量和所述第二初始视频特征向量，得到所述待分类视频的目标特征向量，包括：

将所述第一处理视频特征向量和特定第二初始视频特征向量进行特征级联，得到第一级联视频特征向量；

获取所述第一级联视频特征向量对应的第一级联分类标签向量，以及根据所述第一级联分类标签向量，获取所述待分类视频的第二处理视频特征向量；

根据所述第二处理视频特征向量和剩余第二初始视频特征向量，获取所述待分类视频的目标特征向量；所述剩余第二初始视频特征向量为所述第二初始视频特征向量中除所述特定第二初始视频特征向量外的视频特征向量。

4.根据权利要求2所述的方法，其特征在于，在所述第一初始视频特征向量的数量为至少一个，所述第二初始视频特征向量的数量为一个的情况下；

将所述第一处理视频特征向量和所述第二初始视频特征向量进行特征级联，得到所述待分类视频的目标特征向量。

5.根据权利要求2所述的方法，其特征在于，在所述第一初始视频特征向量的数量为至少一个，所述第二初始视频特征向量的数量为至少两个的情况下；

将目标第二初始视频特征向量以及与所述目标第二初始视频特征向量对应的目标第一处理视频特征向量进行特征级联，得到所述目标第二初始视频特征向量对应的子目标特征向量；所述待分类视频的目标特征向量包括所述目标第二初始视频特征向量对应的子目标特征向量；所述第二初始视频特征向量包括所述目标第二初始视频特征向量；

6.根据权利要求5所述的方法，其特征在于，所述将所述目标特征向量输入至第二目标多分类模型，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果，包括：

将所述目标第二视频特征向量对应的子目标特征向量，输入至对应的第二目标多分类模型，得到所述待分类视频的待处理标签向量；

根据所述待处理标签向量，获取所述待分类视频中目标对象的类别信息，得到所述待分类视频的目标分类结果。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取待分类视频对应的至少两个初始视频特征向量，包括：

对所述待分类视频进行预处理，得到目标图像帧序列；

根据所述目标图像帧序列，获取所述待分类视频对应的至少两个初始视频特征向量。

8.根据权利要求7所述的方法，其特征在于，所述对所述待分类视频进行预处理，得到目标图像帧序列，包括：

对所述待分类视频进行采样，得到初始图像帧序列；

将所述初始图像帧序列包括的初始图像帧进行归一化处理，得到归一化图像帧序列；

从所述归一化图像帧序列中获取所述目标图像帧序列。

9.根据权利要求8所述的方法，其特征在于，所述将所述初始图像帧序列包括的初始图像帧进行归一化处理，得到所述目标图像帧序列，包括：

将所述初始图像帧序列包括的初始图像帧进行等比例缩放处理，和/或，将所述初始图像帧序列包括的初始图像帧进行像素值线性化处理，得到所述归一化图像帧序列。

10.根据权利要求1至6任一项所述的方法，其特征在于，还包括：

获取视频训练样本以及所述视频训练样本所属的类别标签样本；

对所述视频训练样本进行预处理，得到图像帧序列样本；

根据所述图像帧序列样本，获取所述视频训练样本对应的至少两个视频特征向量样本；

根据所述至少两个视频特征向量样本和所述类别标签样本进行模型训练，得到所述第一目标多分类模型和所述第二目标多分类模型。

11.根据权利要求10所述的方法，其特征在于，所述根据所述至少两个视频特征向量样本和所述类别标签样本进行模型训练，得到所述第一目标多分类模型和所述第二目标多分类模型，包括：

将第一初始视频特征向量样本输入至第一预设模型，得到所述视频训练样本的第一分类标签向量样本；所述至少两个视频特征向量样本包括所述第一初始视频特征向量样本；所述第一分类标签向量样本包括所述视频训练样本中不同的对象样本对应的第二标签值；

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一分类标签向量样本、所述第二分类标签向量样本以及所述类别标签样本，获取所述第一目标多分类模型和所述第二目标多分类模型，包括：

根据所述第一分类标签向量样本、所述第二分类标签向量样本以及所述类别标签样本，获取当前网络损失值；

根据所述当前网络损失值，对所述第一预设模型和所述第二预设模型进行模型更新得到第一更新分类模型和第二更新分类模型，并在所述第一更新分类模型和所述第二更新分类模型满足预设收敛条件的情况下，确定所述第一更新分类模型为所述第一目标多分类模型，以及所述第二更新分类模型为所述第二目标多分类模型。

13.根据权利要求12所述的方法，其特征在于，所述预设收敛条件包括：

14.一种视频分类装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器耦合，所述存储器用于存储计算机程序指令，当所述处理器执行所述计算机程序指令时，使得电子设备执行权利要求1至13中任一所述的视频分类方法。

16.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有程序指令，当所述程序指令在电子设备上运行时，使得电子设备执行如权利要求1至13中任一所述的视频分类方法。