CN111612093A

CN111612093A - 一种视频分类方法、视频分类装置、电子设备及存储介质

Info

Publication number: CN111612093A
Application number: CN202010476804.4A
Authority: CN
Inventors: 尹康; 吴宇斌; 郭烽
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-01

Abstract

本申请实施例公开了一种视频分类方法、视频分类装置、电子设备及存储介质，该方法包括：获取待分类视频；将待分类视频进行预处理得到目标图像帧序列；根据目标图像帧序列，获取待分类视频对应的目标视频特征向量；通过将目标视频特征向量输入至训练完成的视频分类模型，得到待分类视频的分类结果；其中，视频分类模型为通过视频训练样本的视频特征向量样本和增广视频特征向量样本进行模型训练得到的。可见，本申请采用特征增广的方式可以在扩大训练样本的数量的同时，保证增广视频特征向量样本的多样性，有效避免人工设定数据增广方式造成的数据相关性较高的问题，从而提升了模型训练的准确度，进而可以提高视频分类的准确度。

Description

一种视频分类方法、视频分类装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频分类方法、视频分类装置、电子设备及存储介质。

背景技术

在视频分类领域，为了更好地训练视频分类模型，需要通过人工设定的数据增广方式，对原始训练数据进行数据增广得到增广训练数据，从而实现了训练数据的扩充，这样可以根据原始训练数据和增广训练数据进行模型训练。例如，可以人工对原始训练数据进行随机裁剪、随机翻转等得到增广训练数据。但是，由于数据增广方式是在原始训练数据的基础上进行的数据增广，故增广训练数据与原始训练数据之间的相关性较高，从而导致模型训练的准确度较低。

发明内容

本申请实施例提供了一种视频分类方法、视频分类装置、电子设备及存储介质，本申请采用特征增广的方式可以在扩大训练样本的数量的同时，保证增广视频特征向量样本的多样性，有效避免人工设定数据增广方式造成的数据相关性较高的问题，从而提升了模型训练的准确度，进而可以提高视频分类的准确度。

根据本申请实施例的第一方面，提供一种视频分类方法，包括：

获取待分类视频；

将所述待分类视频进行预处理得到目标图像帧序列；

根据所述目标图像帧序列，获取所述待分类视频对应的目标视频特征向量；

通过将所述目标视频特征向量输入至训练完成的视频分类模型，得到所述待分类视频的分类结果；

其中，所述视频分类模型为通过视频训练样本的视频特征向量样本和增广视频特征向量样本进行模型训练得到的。

根据本申请实施例的第二方面，提供一种视频分类装置，包括：

获取模块，用于获取待分类视频；

处理模块，用于将所述待分类视频进行预处理得到目标图像帧序列；

所述获取模块，还用于根据所述目标图像帧序列，获取所述待分类视频对应的目标视频特征向量；以及，

根据本申请实施例的第三方面，提供一种电子设备，包括处理器和存储器，所述处理器和存储器耦合，所述存储器用于存储计算机程序指令，当所述处理器执行所述计算机程序指令时，使得电子设备执行上述第一方面所述的视频分类方法。

根据本申请实施例的第四方面，提供一种计算机存储介质，所述计算机存储介质中存储有程序指令，当所述程序指令在电子设备上运行时，使得电子设备执行上述第一方面所述的视频分类方法。

根据本申请实施例的第五方面，提供一种芯片，所述芯片与电子设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，使得所述电子设备执行上述第一方面所述的视频分类方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请首先获取待分类视频；并将所述待分类视频进行预处理得到目标图像帧序列；接着根据所述目标图像帧序列，获取所述待分类视频对应的目标视频特征向量；然后通过将所述目标视频特征向量输入至训练完成的视频分类模型，得到所述待分类视频的分类结果；其中，所述视频分类模型为通过视频训练样本的视频特征向量样本和增广视频特征向量样本进行模型训练得到的。

由此可见，本申请可以获取视频训练样本的视频特征向量样本以及增广视频特征向量样本，并且通过视频特征向量样本和增广视频特征向量样本进行模型训练得到视频分类模型。可见，本申请采用特征增广的方式可以在扩大训练样本的数量的同时，保证增广视频特征向量样本的多样性，有效避免人工设定数据增广方式造成的数据相关性较高的问题，从而提升了模型训练的准确度，进而可以提高视频分类的准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种视频分类方法的示意图；

图2为本申请实施例提供的另一种视频分类方法的示意图；

图3为本申请实施例提供的另一种视频分类方法的示意图；

图4为本申请实施例提供的另一种视频分类方法的示意图；

图5为本申请实施例提供的一种视频分类装置的结构框图；

图6为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，都应当属于本申请保护的范围。

首先，对本申请的应用场景进行说明。本申请可以应用于视频多标签分类的场景，在该场景下，同一视频可以标记为多个类别标签，该多个类别标签即为分类结果。示例性的，一部电影可以按照电影类型同时标记为动作片和犯罪片，或者，一则新闻视频可以按照新闻类型同时标记为法律和政治，或者，一集电视可以按照电视内容同时标记为小狗、学校、办公室、女主角等。

下面将结合具体实施例对本申请中的视频分类方法进行详细介绍。

图1为本申请实施例提供的一种视频分类方法的示意图。所述方法可以应用于电子设备，示例性的，该电子设备可以包括手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personaldigital assistant，PDA)、可穿戴设备(如手表、手腕、眼镜、头盔、头带等)等终端设备，还可以包括服务器等，本申请实施例对电子设备的具体形式不做特殊限制。

如图1所示，所述方法可以包括：

101、获取待分类视频。

可以理解的是，待分类视频可以为电子设备中存储的视频，或者，可以为电子设备所属的用户在视频网页上指定的视频，等等。

示例性的，待分类视频可以为一集电视、一部电影、一集综艺视频或者一则新闻视频等等，上述示例只是举例说明，本申请对此不做特殊限制。

102、将待分类视频进行预处理得到目标图像帧序列。

在本申请实施例中，可以对待分类视频进行采样，得到初始图像帧序列；并且将初始图像帧序列进行归一化处理，得到目标图像帧序列。其中，初始图像帧序列包括的图像帧可以按照图像帧的时序进行排序。

其中，可以通过但不限于以下方式得到初始图像帧序列：

方式一、按照预设采样频率对待分类视频进行均匀采样，得到初始图像帧序列。

可以理解的是，由于视频是由多张图像帧构成，并且每张图像帧存在对应的时序，故相邻的图像帧的图像特征存在相关性。这样，若本申请在视频分类模型的模型训练过程中是按照预设采样频率获取视频训练样本的图像帧序列样本，且本步骤同样按照预设采样频率对待分类视频进行采样，使得不同视频(即相当于视频训练样本和待分类视频)的特征分布比较类似，从而保证分类结果更加准确。

进一步地，本申请可以按照预设采样频率，从待分类视频的指定图像帧开始对待分类视频进行均匀采样，得到初始图像帧序列。示例性的，指定图像帧可以为待分类视频的第一张图像帧，第三张图像帧或者第五张图像帧等等。

示例性的，若预设采样频率为0.2Hz，且指定图像帧为第一张图像帧，则电子设备可以从待分类视频的第一张图像帧开始，每隔5秒采集一张图像帧，并将采集到的图像帧作为初始图像帧序列。

方式二、从待分类视频中随机采样预设数量的图像帧，并根据预设数量的图像帧得到初始图像帧序列，初始图像帧序列包括预设数量的图像帧。

可以理解的是，若本申请在视频分类模型的模型训练过程中，获取到的视频训练样本的图像帧序列样本的图像帧数均为预设数量，且本步骤同样地从待分类视频中获取预设数量的图像帧，则可以避免对初始图像帧序列进行时间维度归一化处理，降低了图像处理的繁琐度。

在本申请实施例中，将初始图像帧序列进行归一化处理，得到目标图像帧序列可以包括：将初始图像帧序列包括的初始图像帧进行像素大小归一化处理，和/或，将初始图像帧序列进行时间维度归一化处理，得到目标图像帧序列。

可以理解的是，本申请中可以预先存储有目标像素大小，例如，目标像素大小可以为k1×k2，其中k1和k2可以为不同数值，也可以为相同数值。

这样，若初始图像帧序列中存在待处理图像帧，待处理图像帧的像素大小不为目标像素大小，则本申请可以按照预设插值算法，将待处理图像帧的像素大小调节为目标像素大小。其中，预设插值算法可以为双线性插值法、样条插值法、最邻近插值法或者双立方插值法等。

应理解，若本申请按照上述所述的方式一获取初始图像帧序列，则考虑到初始图像帧序列的图像帧数与图像帧序列样本的图像帧数可能不同，从而降低了分类结果的准确性。基于此，本申请可以预先存储有预设数量，该预设数量可以为图像帧序列样本的图像帧数，不同图像帧序列样本的图像帧数都相同。这样，电子设备可以在初始图像帧序列的图像帧数大于预设数量的情况下，根据目标图像帧得到目标图像帧序列，目标图像帧为初始图像帧序列中预设数量的图像帧；在初始图像帧序列的图像帧数小于预设数量的情况下，将特定数量的预设图像帧添加至初始图像帧序列中，得到目标图像帧序列；特定数量为预设数量与图像帧数之间的差值。

其中，目标图像帧可以为：初始图像帧序列中的前N张图像帧，或者，初始图像帧序列中的后N张图像帧，或者，初始图像帧序列中随机获取的N张图像帧；N为上述所述的预设数值。

这里，根据目标图像帧得到目标图像帧序列可以理解为：将初始图像帧序列中的非目标图像帧删除得到目标图像帧序列；或者，获取初始图像帧序列中的目标图像帧，并将目标图像帧组合为目标图像帧序列，目标图像帧序列包括的目标图像帧可以按照目标图像帧的时序进行排序。

其中，可以将预设图像帧添加至初始图像帧序列中的任意位置。示例性的，可以将预设图像帧添加至初始图像帧序列中的最后面，或者，可以将预设图像帧添加至初始图像帧序列中最前面，等等。

可以理解的是，预设图像帧的像素大小可以为目标像素大小，且预设图像帧的像素颜色可以为预设颜色。示例性的，预设图像帧可以为k1×k2的黑色图像帧，黑色图像帧的RGB值为(0，0，0)；也可以为k1×k2的白色图像帧，白色图像帧的RGB值为(255，255，255)；还可以为k1×k2的红色图像帧，红色图像帧的RGB值为(255，0，0)。当然，预设图像帧还可以是其他图像帧，比如，预设图像帧的一部分像素的颜色为黑色，另一部分像素的颜色为白色，等等，本申请对此不做特殊限制。

103、根据目标图像帧序列，获取待分类视频对应的目标视频特征向量。

可以理解的是，本申请可以通过预设特征提取模型，对目标图像帧序列进行特征提取，得到待分类视频对应的目标视频特征向量。示例性的，预设特征提取模型可以为卷积神经网络(convolutional neural network，CNN)模型等等。

104、通过将目标视频特征向量输入至训练完成的视频分类模型，得到待分类视频的分类结果；其中，视频分类模型为通过视频训练样本的视频特征向量样本和增广视频特征向量样本进行模型训练得到的。

其中，增广视频特征向量样本为通过预设特征增广模型对视频特征向量样本进行特征增广得到的。可以理解的是，增广视频特征向量样本是在视频特征向量样本的基础上额外增加的特征向量，从而实现了扩充特征向量样本。

在本申请实施例中，可以将目标视频特征向量输入至训练完成的视频分类模型，得到待分类视频的预测标签向量；接着对预设标签向量包括的向量元素进行二值化处理得到二值化数值；并且根据二值化数值确定待分类视频的分类结果。其中，可以将目标向量元素对应的类别标签作为待分类视频的分类结果，目标向量元素的二值化数值为第一预置数值。

可以理解的是，通常在第i个向量元素为第一预置数值的情况下，可以确定待分类视频属于该第i个向量元素对应的类别标签；在第i个向量元素为第二预置数值的情况下，可以确定待分类视频不属于该第i个向量元素对应的类别标签。但是，若预测标签向量包括的第i个向量元素并非为第一预置数值和第二预置数值，此时，电子设备无法根据第i个向量元素确定待分类视频是否属于该第i个向量元素对应的类别标签。其中，i为正整数。故本申请需要对预设标签向量包括的向量元素进行二值化处理得到二值化数值。

示例性的，第一预置数值可以为1，第二预置数值可以为0；若第i个向量元素为1，则待分类视频属于该第i个向量元素对应的类别标签；若第i个向量元素为0，则待分类视频不属于该第i个向量元素对应的类别标签。此时，若预测标签向量包括的一个向量元素为0.7，则无法确定待分类视频是否属于该一个向量元素对应的类别标签。

基于上述问题，本申请可以通过预设的二值化函数对预设标签向量包括的向量元素进行二值化处理得到二值化数值，其中，预设的二值化函数可以参考公式(1)：

其中p_i为预设标签向量包括的第i个向量元素；σ(p_i)为第i个向量元素对应的sigmoid函数；t为第三预设阈值，t可以人工设定，例如，t取值为0.5；q_i为预设标签向量包括的第i个向量元素对应的二值化数值。

综上，若第i个向量元素对应的二值化数值为1，则待分类视频属于该第i个向量元素对应的类别标签；若第i个向量元素对应的二值化数值为0，则待分类视频不属于该第i个向量元素对应的类别标签。这样，可以确定待分类视频是否属于每一个个向量元素对应的类别标签。其中，可以确定二值化数值为1的向量元素为目标向量元素，并将目标向量元素的类别标签作为待分类视频的分类结果。

采用上述所述的方法，可以获取视频训练样本的视频特征向量样本以及增广视频特征向量样本，并且通过视频特征向量样本和增广视频特征向量样本进行模型训练得到视频分类模型。可见，本申请采用特征增广的方式可以在扩大训练样本的数量的同时，保证增广视频特征向量样本的多样性，有效避免人工设定数据增广方式造成的数据相关性较高的问题，从而提升了模型训练的准确度，进而可以提高视频分类的准确度。

结合图1，如图2所示，在本申请的可选实施例中，在步骤101之前，还可以包括：

105、获取视频训练样本以及视频训练样本所属的类别标签样本；视频训练样本的数量为两个。

其中，可以人工设置视频训练样本属于的类别标签，得到类别标签样本。示例性的，视频训练样本属于的类别共有h类，h为正整数，且视频训练样本所属的类别标签样本分别为c₁，c₂，…，c_h，c_h表示视频训练样本属于的第h个类别标签。

可选地，本申请可以将类别标签样本表示为集合形式，例如，类别标签样本可以表示为{c₁，c₂，…，c_h}。上述示例只是举例说明，本申请对此不做特殊限制。

106、获取视频训练样本对应的视频特征向量样本和增广视频特征向量样本；增广视频特征向量样本为通过预设特征增广模型对视频特征向量样本进行特征增广得到的。

在本申请实施例中，可以将视频训练样本进行预处理得到图像帧序列样本；根据图像帧序列样本，获取视频训练样本的视频特征向量样本；将视频特征向量样本输入至预设特征增广模型得到增广视频特征向量样本。

其中，对视频训练样本进行预处理的过程可以参考步骤102中对待分类视频进行预处理的过程，此处不再赘述。

应理解，本申请可以通过预设特征提取模型，对图像帧序列样本进行特征提取，得到视频训练样本的视频特征向量样本。示例性的，特征提取模型可以为卷积神经网络模型等等。

进一步地，本申请需要将视频特征向量样本进行级联形成一个总视频特征向量样本，并通过预设特征增广模型，对总视频特征向量样本进行特征增广得到增广视频特征向量样本。其中，若视频特征向量样本的维度为m维，则总视频特征向量样本的维度为2m维，且增广视频特征向量样本的维度为m维。

可以理解的是，预设特征增广模型包括以下至少一个：交运算特征增广模型、并运算特征增广模型以及差运算特征增广模型。示例性的，预设特征增广模型可以为单隐层的多层感知机(multi-layer perceptron，MLP)，也可以为多隐层的MLP等等，本申请对预设特征增广模型的具体模型类型不做特殊限制。

107、根据类别标签样本获取视频训练样本的标签向量样本。

在本申请实施例中，可以获取类别标签样本对应的第一向量；按照预设增广运算方式，对类别标签样本进行类别增广得到增广类别集合；并且获取增广类别集合对应的第二向量；以及确定第一向量和第二向量为标签向量样本。

其中，电子设备可以预先设置有一个待确定向量，待确定向量包括的向量元素的数量与预先获取的总类别标签的数量相同，总类别标签可以包括训练数据集中的全部视频训练样本所属的类别标签，且待确定向量包括的向量元素为待确定数值。

这样，可以根据类别标签样本对待确定向量包括的向量元素进行设置，得到第一向量。其中，可以将待确定向量包括的第一待确定数值设置为第一预置数值，且将待确定向量包括的第二待确定数值设置为第二预置数值；第一待确定数值为类别标签样本对应的待确定数值，第二待确定数值为待确定数值中除第一待确定数值外的数值。

示例性的，若第一预置数值为1，第二预置数值为0，总类别标签的数量为7，待确定向量可以表示为(s₁，s₂，s₃，s₄，s₅，s₆，s₇)。则在视频训练样本video₁所属的类别标签样本为A、B、C、D，且A、B、C、D分别对应的待确定数值依次为s₁，s₂，s₅，s₇的情况下，video₁的第一向量可以表示为：label₁＝(1，1，0，0，1，0，1)；在视频训练样本video₂所属的类别标签样本为C、E、F，且C、E、F分别对应的待确定数值依次为s₅，s₃，s₆的情况下，video₂的第一向量可以表示为：label₂＝(0，0，1，0，1，1，0)。

可以理解的是，在预设特征增广模型包括交运算特征增广模型的情况下，预设增广运算方式为交运算增广方式；在预设特征增广模型包括并运算特征增广模型的情况下，预设增广运算方式为并运算增广方式；在预设特征增广模型包括差运算特征增广模型的情况下，预设增广运算方式为差运算增广方式。这样，本申请中的特性增广和类别增广需要存在一一对应关系，从而可以保证模型训练的准确性。

当然，若本申请中采用的预设特征增广模型包括交运算特征增广模型、并运算特征增广模型、差运算特征增广模型，则预设增广运算方式对应包括交运算增广方式、并运算增广方式以及差运算增广方式。

应理解，获取增广类别集合对应的第二向量的方法与第一向量的获取方法类似，此处不再赘述。

示例性的，若视频训练样本包括视频训练样本video₁和视频训练样本video₂，视频训练样本video₁所属的类别标签样本为A、B、C、D，且第一预置数值为1，第二预置数值为0。则通过交运算增广方式可以得到增广类别集合set_inter＝{C}，通过并运算增广方式得到增广类别集合set_union＝{A，B，C，D，E，F}，通过差运算增广方式得到增广类别集合set_sub＝{A，B，D}。

这样，若A、B、C、D、E、F分别对应的待确定数值依次为s₁，s₂，s₅，s₇，s₃，s₆，则set_inter＝{C}对应的第二向量label_inter＝(0，0，0，0，1，0，0)；set_union＝{A，B，C，D，E，F}对应的第二向量label_inter＝(1，1，1，0，1，1，1)，set_sub＝{A，B，D}对应的第二向量label_sub＝(1，1，0，0，0，0，1)。上述示例只是举例说明，本申请对此不做特殊限制。

108、通过增广视频特征向量样本、视频特征向量样本以及标签向量样本，对预设分类模型进行模型训练得到视频分类模型。

在本申请实施例中，将增广视频特征向量样本和视频特征向量样本输入至预设分类模型得到输出结果向量；根据输出结果向量和标签向量样本，获取预设分类模型的当前网络损失值；根据当前网络损失值对预设分类模型进行更新得到更新后的分类模型，并在更新后的分类模型满足预设收敛条件的情况下，确定更新后的分类模型为视频分类模型；在更新后的分类模型不满足预设收敛条件的情况下，重新获取新的视频训练样本以及新的视频训练样本所属的类别标签样本，并返回步骤105。

需要说明的是，根据输出结果向量和标签向量样本，获取预设分类模型的当前网络损失值可以理解为：根据输出结果向量和标签向量样本，获取总网络模型(总网络模型包括预设分类模型、预设特征提取模型以及预设特征增广模型)的当前网络损失值。这样，根据当前网络损失值对预设分类模型进行更新可以包括：根据当前网络损失值对预设分类模型、预设特征提取模型、预设特征增广模型进行模型更新，得到更新后的分类模型、更新后的特征提取模型以及更新后的特征增广模型。其中，可以采用反向传播(backpropagation，BP)算法，基于当前网络损失值逐层反传梯度，以实现对总网络模型的网络参数更新。

进一步地，本申请可以同时对预设分类模型、预设特征提取模型、预设特征增广模型进行模型更新。当然，也可以依次对预设分类模型、预设特征提取模型、预设特征增广模型进行模型更新。这样，本申请可以将更新后的分类模型、更新后特征提取模型以及更新后的特征增广模型，分别作为预设分类模型、预设特征提取模型以及预设特征增广模型。

其中，预设收敛条件可以包括：

对预设分类模型进行更新的次数小于等于第一预设阈值；或者，

当前网络损失值与上一网络损失值之间的差值小于等于第二预设阈值。

需要说明的是，在更新后的分类模型不满足预设收敛条件的情况下，需要根据新的视频训练样本以及新的视频训练样本所属的类别标签样本，对预设分类模型重新进行模型训练。故若预设收敛条件包括：当前网络损失值与上一网络损失值之间的差值小于等于第二预设阈值，则需要将更新后的分类模型的新网络损失值作为当前网络损失值，且将当前网络损失值作为上一网络损失值。

在本申请实施例中，根据输出结果向量和标签向量样本，获取预设分类模型的当前网络损失值进一步地包括：可以首先获取目标视频特征向量样本的目标网络损失值，接着根据目标网络损失值获取预设分类模型的当前网络损失值。其中，目标视频特征向量样本为增广视频特征向量样本和视频特征向量样本中的任一特性向量样本。

可以理解的是，目标网络损失值可以采用预设损失算法得到，示例性，预设损失算法可以为交叉熵损失算法、范数损失算法或者线性回归算法等等，本申请对此不做特殊限制。

其中，假设目标视频特征向量样本的输出结果向量Y＝(y₁，y₂，y₃，…，y_j，…，y_M)，目标视频特征向量样本的标签向量样本L＝(l₁，l₂，l₃，…，l_j，…，l_M)，M为预先获取的总类别标签的数量，这样可以包括但不限于以下方式确定目标视频特征向量样本的目标网络损失值：

方式一、采用交叉熵损失算法获取目标网络损失值，具体计算可以参考公式(2)：

其中，Loss₁表示目标网络损失值，y_j表示目标视频特征向量样本的输出结果向量中第j个向量元素，l_j表示目标视频特征向量样本的标签向量样本中第j个向量元素。

方式二、采用范数损失算法获取目标网络损失值，具体计算参考公式(3)：

其中，Loss₂表示目标网络损失值；y_j表示目标视频特征向量样本的输出结果向量中第j个向量元素；l_j表示目标视频特征向量样本的标签向量样本中第j个向量元素；v为第三预设阈值，例如v可以为1或者2等数值。

方式三、采用线性回归算法获取目标网络损失值，具体计算可以参考公式(4)：

其中，Loss₃表示目标网络损失值，y_j表示目标视频特征向量样本的输出结果向量中第j个向量元素，l_j表示目标视频特征向量样本的标签向量样本中第j个向量元素，k为第四预设阈值。

可以理解的是，若k＝1，则目标网络损失值相当于采用最小二乘法得到的网络损失值；若k＝2，则目标网络损失值相当于采用均方误差法得到的网络损失值。

这样，当获取到目标视频特征向量样本的目标网络损失值时，在一种可选实施例中，可以计算各个目标视频特征向量样本分别对应的目标网络损失值之间的和值得到预设分类模型的当前网络损失值；在另一种可选实施例中，可以对各个目标视频特征向量样本分别对应的目标网络损失值计算加权求和值，得到预设分类模型的当前网络损失值。

示例性的，若视频特征向量样本包括feature₁、feature₂，增广视频特征向量样本包括交运算特征feature_inter、并运算特征feature_union、差运算特征feature_sub；feature₁输入预设分类模型得到的输出结果向量为result₁，且feature₁对应的标签向量样本为label₁；feature₂输入预设分类模型得到的输出结果向量为result₂，且feature₂对应的标签向量样本为label₂；feature_inter输入预设分类模型得到的输出结果向量为result_inter，且feature_inter对应的标签向量样本为label_inter；feature_union输入预设分类模型得到的输出结果向量为result_union，且feature_union对应的标签向量样本为label_union，feature_sub输入预设分类模型得到的输出结果向量为result_sub，且feature_sub对应的标签向量样本为label_sub。则本申请可以计算result₁与label₁之间的目标网络损失值loss₁，result₂与label₂之间的目标网络损失值loss₂，result_inter与label_inter之间的目标网络损失值loss₃，result_union与label_union之间的目标网络损失值loss₄，result_sub与label_sub之间的目标网络损失值loss₅。

此时，在一种情况下，当前网络损失值可以为loss₁、loss₂、loss₃、loss₄以及loss₅之间的和值。

在另一种情况下，预先可以对loss₁、loss₂、loss₃、loss₄以及loss₅分别设置有权值，且权值之间的和值可以为1。例如，loss₁、loss₂、loss₃、loss₄以及loss₅分别对应的权值为：f₁、f₂、f₃、f₄和f₅，以及f₁、f₂、f₃、f₄以及f₅之间的和值为1。那么，可以根据f₁、f₂、f₃、f₄和f₅，对loss₁、loss₂、loss₃、loss₄以及loss₅计算加权求和值得到当前网络损失值，即LOST＝loss₁·f₁+loss₂·f₂+loss₃·f₃+loss₄·f₄+loss₅·f₅，其中，LOST表示当前网络损失值。上述示例只是示例性说明，本申请对此不做特殊限制。

应理解，预设分类模型可以为单隐层的MLP，也可以为多隐层的MLP等等，本申请对预设分类模型的具体模型类型不做特殊限制。

为了便于理解，如图3所示，为本申请中的视频分类方法的示意图。视频分类方法可以包括预处理过程、模型训练过程以及预测过程。其中，预处理过程用于将视频训练样本处理成为适用于模型训练的训练数据集(即相当于步骤106中获取图像帧序列样本的过程)；模型训练过程可以包括特征提取分支、增广分支(即特征增广对应的分支、类别增广对应的分支)以及分类分支，即通过迭代优化方式获取多个分支(相当于特征提取分支、特征增广对应的分支以及分类分支)的最佳网络参数，模型训练过程相当于步骤106中获取增广视频特征向量样本、步骤107中获取标签向量样本、步骤108中获取视频分类模型的过程；预测过程包括将待分类视频进行预处理，并将预处理后得到的目标图像帧序列依次输入训练所得的特征提取分支和分类分支中，得到分类结果(即相当于步骤101至步骤104所述的内容)。需要说明的是，分类分支相当于上述所述的预设分类模型，特征提取分支相当于上述所述的预设特征提取模型，增广分支相当于上述所述的预设特征增广模型以及用于按照预设增广运算方式，对类别标签样本进行类别增广得到增广类别集合的分支。

进一步地，如图4所示，示出了一种模型训练过程的示意图。在训练数据集中随机挑选两个视频训练样本(即图4中的视频1和视频2)，以及获取两个视频训练样本分别对应的类别标签样本(即图4中的视频1对应的类别标签1和视频2对应的类别标签2)。然后将视频1和视频2分别输入至特征提取分支进行特征提取，得到视频1对应的视频特征向量样本(即图4中的特征1)以及视频2对应的视频特征向量样本(即图4中的特征2)。接着对特征1和特征2进行特征增广得到增广视频特征向量样本(即图4中“交”特征、“并”特征以及“差”特征)，对类别标签1和类别标签2进行类别增广得到增广类别集合(即图4中的“交”标签、“并”标签和“差”标签)。其次将特征1、特征2、“交”特征、“并”特征以及“差”特征输入至分类分支中得到输出结果向量；并且，根据输出结果向量、类别标签1、类别标签2、“交”标签、“并”标签和“差”标签获取多个分支(相当于特征提取分支、特征增广对应的分支以及分类分支)的当前网络损失值，以便根据当前网络损失值对多个分支进行更新，具体内容可以参考步骤108，此处不再赘述。

图5为本申请实施例提供的一种视频分类装置的结构框图，如图5所示，包括：

获取模块501，用于获取待分类视频；

处理模块502，用于将所述待分类视频进行预处理得到目标图像帧序列；

获取模块501，还用于根据所述目标图像帧序列，获取所述待分类视频对应的目标视频特征向量；以及，

在本申请的可选实施例中，获取模块501，还用于获取视频训练样本以及所述视频训练样本所属的类别标签样本；所述视频训练样本的数量为两个；

获取所述视频训练样本对应的视频特征向量样本和增广视频特征向量样本；所述增广视频特征向量样本为通过预设特征增广模型对所述视频特征向量样本进行特征增广得到的；以及，

根据所述类别标签样本获取所述视频训练样本的标签向量样本；

处理模块502，还用于通过所述增广视频特征向量样本、所述视频特征向量样本以及所述标签向量样本，对预设分类模型进行模型训练得到所述视频分类模型。

在本申请的可选实施例中，获取模块501，进一步用于将所述视频训练样本进行预处理得到图像帧序列样本；

根据所述图像帧序列样本，获取所述视频训练样本的视频特征向量样本；

将所述视频特征向量样本输入至预设特征增广模型得到所述增广视频特征向量样本。

在本申请的可选实施例中，获取模块501，进一步用于获取所述类别标签样本对应的第一向量；

按照预设增广运算方式，对所述类别标签样本进行类别增广得到增广类别集合；

获取所述增广类别集合对应的第二向量；以及，

确定所述第一向量和所述第二向量为所述标签向量样本。

在本申请的可选实施例中，所述预设特征增广模型包括以下至少一个：交运算特征增广模型、并运算特征增广模型以及差运算特征增广模型；

在所述预设特征增广模型包括所述交运算特征增广模型的情况下，所述预设增广运算方式为交运算增广方式；

在所述预设特征增广模型包括所述并运算特征增广模型的情况下，所述预设增广运算方式为并运算增广方式；

在所述预设特征增广模型包括所述差运算特征增广模型的情况下，所述预设增广运算方式为差运算增广方式。

在本申请的可选实施例中，处理模块502，进一步用于将所述增广视频特征向量样本和所述视频特征向量样本输入至预设分类模型得到输出结果向量；

根据所述输出结果向量和所述标签向量样本，获取所述预设分类模型的当前网络损失值；以及，

根据所述当前网络损失值对所述预设分类模型进行更新得到更新后的分类模型，并在更新后的分类模型满足预设收敛条件的情况下，确定所述更新后的分类模型为所述视频分类模型。

在本申请的可选实施例中，所述预设收敛条件包括：

对所述预设分类模型进行更新的次数小于等于第一预设阈值；或者，

所述当前网络损失值与上一网络损失值之间的差值小于等于第二预设阈值。

在本申请的可选实施例中，处理模块502，进一步用于对所述待分类视频进行采样，得到初始图像帧序列；以及，

将所述初始图像帧序列进行归一化处理，得到所述目标图像帧序列。

将所述初始图像帧序列包括的初始图像帧进行像素大小归一化处理，和/或，将所述初始图像帧序列进行时间维度归一化处理，得到所述目标图像帧序列。

在本申请的可选实施例中，处理模块502，进一步用于在所述初始图像帧序列的图像帧数大于预设数量的情况下，根据目标图像帧得到所述目标图像帧序列，所述目标图像帧为所述初始图像帧序列中预设数量的图像帧；

在所述初始图像帧序列的图像帧数小于预设数量的情况下，将特定数量的预设图像帧添加至所述初始图像帧序列中，得到所述目标图像帧序列；所述特定数量为所述预设数量与所述图像帧数之间的差值。

在本申请的可选实施例中，获取模块501，进一步用于将所述目标视频特征向量输入至训练完成的视频分类模型，得到所述待分类视频的预测标签向量；

对所述预设标签向量包括的向量元素进行二值化处理得到二值化数值；以及，

根据所述二值化数值确定所述待分类视频的分类结果。

视频分类装置的具体内容可以参考上述视频分类方法的实施例所述的内容，此处不再赘述。

图6示出了本申请实施例提供的一种电子设备的结构框图。参考图6，电子设备包括：射频(radio frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对电子设备的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现电子设备的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现电子设备的输入和输出功能。

电子设备还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与电子设备之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一电子设备，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

电子设备还包括给各个部件供电的电源690(比如电池)，优选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该电子设备所包括的处理器680还具有以下功能：

获取待分类视频；

将所述待分类视频进行预处理得到目标图像帧序列；

可选地，处理器680还具有以下功能：

获取视频训练样本以及所述视频训练样本所属的类别标签样本；所述视频训练样本的数量为两个；

获取所述视频训练样本对应的视频特征向量样本和增广视频特征向量样本；所述增广视频特征向量样本为通过预设特征增广模型对所述视频特征向量样本进行特征增广得到的；

通过所述增广视频特征向量样本、所述视频特征向量样本以及所述标签向量样本，对预设分类模型进行模型训练得到所述视频分类模型。

可选地，处理器680进一步具有以下功能：

将所述视频训练样本进行预处理得到图像帧序列样本；

可选地，处理器680进一步具有以下功能：

获取所述类别标签样本对应的第一向量；

获取所述增广类别集合对应的第二向量；

确定所述第一向量和所述第二向量为所述标签向量样本。

可选地，所述预设特征增广模型包括以下至少一个：交运算特征增广模型、并运算特征增广模型以及差运算特征增广模型；

处理器680进一步具有以下功能：

将所述增广视频特征向量样本和所述视频特征向量样本输入至预设分类模型得到输出结果向量；

根据所述输出结果向量和所述标签向量样本，获取所述预设分类模型的当前网络损失值；

可选地，所述预设收敛条件包括：

可选地，处理器880进一步具有以下功能：

对所述待分类视频进行采样，得到初始图像帧序列；

可选地，处理器880进一步具有以下功能：

在所述初始图像帧序列的图像帧数大于预设数量的情况下，根据目标图像帧得到所述目标图像帧序列，所述目标图像帧为所述初始图像帧序列中预设数量的图像帧；

可选地，处理器880进一步具有以下功能：

将所述目标视频特征向量输入至训练完成的视频分类模型，得到所述待分类视频的预测标签向量；

对所述预设标签向量包括的向量元素进行二值化处理得到二值化数值；

根据所述二值化数值确定所述待分类视频的分类结果。

在本申请所提供的几个实施例中，应该理解到，所揭露的视频分类方法视频分类装置和电子设备，可以通过其它的方式实现。例如，以上所描述的电子设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频；

将所述待分类视频进行预处理得到目标图像帧序列；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述视频训练样本对应的视频特征向量样本和增广视频特征向量样本，包括：

将所述视频训练样本进行预处理得到图像帧序列样本；

4.根据权利要求3所述的方法，其特征在于，所述根据所述类别标签样本获取所述视频训练样本的标签向量样本，包括：

获取所述类别标签样本对应的第一向量；

获取所述增广类别集合对应的第二向量；

确定所述第一向量和所述第二向量为所述标签向量样本。

5.根据权利要求4所述的方法，其特征在于，所述预设特征增广模型包括以下至少一个：交运算特征增广模型、并运算特征增广模型以及差运算特征增广模型；

6.根据权利要求2至5任一项所述的方法，其特征在于，所述通过所述增广视频特征向量样本、所述视频特征向量样本以及所述标签向量样本，对预设分类模型进行模型训练得到所述视频分类模型，包括：

将所述增广视频特征向量样本和所述视频特征向量样本输入至所述预设分类模型得到输出结果向量；

7.根据权利要求6所述的方法，其特征在于，所述预设收敛条件包括：

8.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述待分类视频进行预处理得到目标图像帧序列，包括：

对所述待分类视频进行采样，得到初始图像帧序列；

9.根据权利要求8所述的方法，其特征在于，所述将所述初始图像帧序列进行归一化处理，得到所述目标图像帧序列，包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述初始图像帧序列进行时间维度归一化处理，得到所述目标图像帧序列，包括：

11.根据权利要求1至5任一项所述的方法，其特征在于，所述通过将所述目标视频特征向量输入至训练完成的视频分类模型，得到所述待分类视频的分类结果，包括：

根据所述二值化数值确定所述待分类视频的分类结果。

12.一种视频分类装置，其特征在于，包括：

获取模块，用于获取待分类视频；

13.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器耦合，所述存储器用于存储计算机程序指令，当所述处理器执行所述计算机程序指令时，使得电子设备执行权利要求1至11中任一所述的视频分类方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有程序指令，当所述程序指令在电子设备上运行时，使得电子设备执行如权利要求1至11中任一所述的视频分类方法。