CN109614517B

CN109614517B - 视频的分类方法、装置、设备及存储介质

Info

Publication number: CN109614517B
Application number: CN201811474135.6A
Authority: CN
Inventors: 刘汇川
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2023-08-01
Anticipated expiration: 2038-12-04
Also published as: CN109614517A

Abstract

本发明实施例公开了一种视频的分类方法、装置、设备及存储介质。该方法包括：将视频数据输入视频分类模型中的特征提取网络，获得特征向量；将所述特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签；将所述多个分类标签进行合并，获得所述视频对应的分类结果。本发明实施例提供的视频的分类方法，多个并行的分类网络对同一个特征提取网络输出的特征向量进行识别，无需重复获取相同的特征向量，减少计算量，提高分类效率；多个并行的分类网络对特征向量进行识别，以获得视频数据对应的多个分类标签，可以提高对视频分类的准确性。

Description

视频的分类方法、装置、设备及存储介质

技术领域

本发明实施例涉及视频处理技术领域，尤其涉及一种视频的分类方法、装置、设备及存储介质。

背景技术

在视频内容类产品中，为了提高用户的观看体验，需要根据用户的个人喜好，结合视频本身的特点进行个性化的内容推荐。然而视频类应用中存在大量的用户原创内容(User Generated Content，UGC)，UGC内容具有数量大、变化快、内容杂、无标签以及质量不可控等特点。因此，对视频进行多标签分类显得尤为重要。

现有技术中，在采用分类算法对视频进行分类时通常有如下两种方法：一种是使用复杂的单个神经网络将视频拟合为一维标签向量，该方法中的单个神经网络要对所有类别的视频进行识别，使得神经网络在训练过程中，参数更新过程按照所有类别的损失函数的梯度下降方向，忽略了不同类别在某一参数下损失函数梯度方向的差异性，从而造成神经网络识别准确性较低。另一种方法是针对不同的类别，建立不同的神经网络，对视频进行多标签分类，需要将视频文件同时输入多个神经网络进行识别，计算量大且效率低下。

发明内容

本发明实施例提供一种视频的分类方法、装置、设备及存储介质，以实现对视频的多标签分类，可以提高视频分类的准确性及效率。

第一方面，本发明实施例提供了一种视频的分类方法，该方法包括：

将视频数据输入视频分类模型中的特征提取网络，获得特征向量；

将所述特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签；

将所述多个分类标签进行合并，获得所述视频对应的分类结果。

进一步地，所述视频分类模型包括特征提取网络、特征缓存池、多个并行的分类网络；

所述特征提取网络包括至少两层子网络，所述特征缓存池用于存储预设子网络输出的特征结果，以对所述特征结果进行复用；

所述分类网络包括第一类分类网络和第二类分类网络；所述第一类分类网络对输入的所述特征向量进行分析，获得第一分类标签；所述第二类分类网络包括共享参数层和至少两个子分类层，所述共享参数层对输入的所述特征向量进行分析获得子分类结果，将所述子分类结果分别输入所述至少两个子分类层，获得至少两个第二分类标签。

进一步地，在将视频数据输入视频分类模型中的特征提取网络，获得特征向量之前，还包括：

对所述特征提取网络和所述多个并行的分类网络分别进行训练，获得视频分类模型。

进一步地，对所述特征提取网络进行训练，包括：

获取视频数据集；

基于所述视频数据集采用深度学习神经网络DNN算法对所述特征提取网络进行训练。

进一步地，对所述多个并行的分类网络进行训练，包括：

将所述视频数据集输入训练好的特征提取网络，获得特征向量集；

将所述特征向量集输入所述多个并行的分类网络，获得多个分类标签的置信度；

根据所述分类标签的置信度和真实标签的概率确定各分类网络的损失函数；

根据所述损失函数分别更新各分类网络中的参数。

进一步地，根据所述损失函数分别更新各分类网络中的参数，包括：

若分类网络为第一类分类网络，则根据所述第一分类网络的损失函数更新所述第一分类网络的参数；

若分类网络为第二类分类网络，所述第二类分类网络对应至少两个损失函数，根据所述至少两个损失函数分别更新对应的子分类层中的参数；将所述至少两个损失函数求和后更新所述共享参数层的参数。

第二方面，本发明实施例还提供了一种视频的分类装置，该装置包括：

特征向量获取模块，用于将视频数据输入视频分类模型中的特征提取网络，获得特征向量；

分类标签获取模块，用于将所述特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签；

分类结果获取模块，用于将所述多个分类标签进行合并，获得所述视频对应的分类结果。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例所述的视频的分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的视频的分类方法。

本发明实施例，首先将视频数据输入视频分类模型中的特征提取网络，获得特征向量，然后将特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签，最后将多个分类标签进行合并，获得视频对应的分类结果。本发明实施例提供的视频的分类方法，多个并行的分类网络对同一个特征提取网络输出的特征向量进行识别，无需重复获取相同的特征向量，减少计算量，提高分类效率；多个并行的分类网络对特征向量进行识别，以获得视频数据对应的多个分类标签，可以提高对视频分类的准确性。

附图说明

图1是本发明实施例一中的一种视频的分类方法的流程图；

图2是本发明实施例二中的一种视频的分类方法的流程图；

图3是本发明实施例二中的一种视频分类模型的结构示意图；

图4是本发明实施例三中的一种视频的分类装置的结构示意图；

图5是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频的分类方法的流程图，本实施例可适用于对视频进行分类的情况，该方法可以由视频的分类装置来执行，该装置可由硬件和/或软件组成，并一般可集成在电脑、服务器以及所有包含视频的分类功能的终端中。如图1所示，该方法具体包括如下步骤：

步骤110，将视频数据输入视频分类模型中的特征提取网络，获得特征向量。

其中，视频数据可以是对视频进行预处理之后获得的数据，是特征提取网络可以识别的数据，格式可以是mjpeg、avi、rmvb或3gp等。预处理的过程可以是首先对视频进行解码获得多个视频帧，然后对视频帧进行像素归一化，最后进行切片处理获得视频数据，例如可以采用FFmpeg(Fast Forward Mpeg)对视频进行预处理获得符合特征提取网络格式需求的视频数据。

特征提取网络可以是基于视频数据集，采用深度学习神经网络(Deep NeuralNetwork，DNN)算法训练获取的。本实施例中，特征提取网络包括多层子网络，每层子网络对上一层子网络的输出结果进行卷积等运算，将输出结果送入下一层子网络运算。特征向量包含视频数据的分类信息，如场景特征、人物特征、物品特征及时间特征等。示例性的，可以使用全连接层将视频数据压缩为长度为2048的一维特征向量，一维特征向量代表一帧图像，假设视频包含300帧图像，则可以提取到一组2048*300的特征向量。

步骤120，将特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签。

其中，分类网络对特征向量中的子向量进行运算，以获得子向量中包含的视频特征信息，多个并行的分类网络分别负责特征向量中的不同的子向量的运算。示例性的，假设特征向量的长度为2048，分类网络的数量为4个，则第一个分类网络对特征向量中1-512的元素进行运算，第二个分类网络对特征向量中513-1024的元素进行运算，第三个分类网络对特征向量中1025-1536的元素进行运算，第四个分类网络对特征向量中1537-2048的元素进行运算。本实施例中，分类网络运算的子向量在特征向量中的位置可以在建立分类网络时进行限定。

具体的，将特征向量输入视频分类模型中的多个并行的分类网络后，各分类网络运算其对应的子向量，获得子向量对应的视频特征，从而输出分类标签。例如，分类网络A输出分类标签a、分类网络B输出分类标签b、分类网络C输出分类标签c、分类网络D输出分类标签d。本实施例中，输出的分类标签携带置信度，置信度用于表征视频属于该分类的概率，例如，分类标签a的置信度为0.1，分类标签b的置信度为0.8，分类标签c的置信度为0.3，分类标签d的置信度为0.5。

步骤130，将多个分类标签进行合并，获得视频对应的分类结果。

分类结果可以是由多个标签组成的分类。在获得多个分类标签后，可以将置信度超过设定阈值的分类标签按照置信度排序后合并，或者将所有的分类标签按照置信度排序后合并，获得分类结果。示例性的，分类结果的形式可以是：分类标签b：0.8、分类标签d:0.5、分类标签c：0.3、分类标签a：0.1。

本实施例的技术方案，首先将视频数据输入视频分类模型中的特征提取网络，获得特征向量，然后将特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签，最后将多个分类标签进行合并，获得视频对应的分类结果。本发明实施例提供的视频的分类方法，多个并行的分类网络对同一个特征提取网络输出的特征向量进行识别，无需重复获取相同的特征向量，减少计算量，提高分类效率；多个并行的分类网络对特征向量进行识别，以获得视频数据对应的多个分类标签，可以提高对视频分类的准确性。

实施例二

图2为本发明实施例二提供的一种视频的分类方法的流程图，以上述实施例为基础，如图2所述，该方法包括如下步骤：

步骤210，对特征提取网络和多个并行的分类网络分别进行训练，获得视频分类模型。

其中，视频分类模型包括特征提取网络、特征缓存池、多个并行的分类网络。特征提取网络包括至少两层子网络，特征缓存池用于存储预设子网络输出的特征结果，以对特征结果进行复用。分类网络包括第一类分类网络和第二类分类网络；第一类分类网络对输入的特征向量进行分析，获得第一分类标签；第二类分类网络包括共享参数层和至少两个子分类层，共享参数层对输入的特征向量进行分析获得子分类结果，将子分类结果分别输入至少两个子分类层，获得至少两个第二分类标签。

示例性的，图3是本发明实施例二中的一种视频分类模型的结构示意图，如图3所示，视频数据依次输入特征提取网络和多个并行的分类网络，最后输出多个分类标签。在训练过程中，根据各分类网络的损失函数对应更新分类网络中的参数。图3中的分类网络B和分类网络C属于第一类分类网络，对输入的特征向量进行分析获得分类标签b和分类标签c；分类网络A属于第二类分类网络，包括共享参数层和两个子分类层，共享参数层输出的子分类结果分别输入两个子分类层，获得分类标签a1和分类标签a2。

特征缓存池用于存储预设子网络输出的特征结果，以对特征结果进行复用。本实施例中，特征提取网络由多个子网络组成，当进行不同的特征提取时，需要构建不同的特征提取网络。对于多个不同功能的特征提取网络，若多个特征提取网络共用顶层子网络的输出结果，则将输出结果分别输入多个特征提取网络的底层子网络中，例如，假设特征提取网络A和特征提取网络B共用前两层子网络的输出结果，在特征提取网络A构建好之后，构建特征提取网络B时，无需重复构建前两层子网络，只需将特征提取网络A前两层子网络的输出结果输入特征提取网络B的底层子网络中即可。即将特征提取网络A前两层子网络的输出结果存储至特征缓存池，以供特征提取网络B复用。这样做的好处是，可以节省成本。

可选的，对特征提取网络进行训练的过程可以是：获取视频数据集；基于视频数据集采用DNN算法对特征提取网络进行训练。

可选的，对多个并行的分类网络进行训练的过程可以是：将视频数据集输入训练好的特征提取网络，获得特征向量集；将特征向量集输入多个并行的分类网络，获得多个分类标签的置信度；根据分类标签的置信度和真实标签的概率确定各分类网络的损失函数；根据损失函数分别更新各分类网络中的参数。

本实施例中，对于当前分类网络，将特征网络输入当前分类网络后，获得当前分类网络的分类标签及置信度，根据该分类标签的置信度和真实标签的概率计算当前分类网络的损失函数，根据该损失函数更新当前分类网络中的参数，以训练当前分类网络。示例性的，分类网络C输入分类标签c，根据分类标签c的置信度和标签c的真实概率，确定分类网络C的损失函数，根据该损失函数更新分类网络C中的参数，以对分类网络C进行训练。

可选的，根据损失函数分别更新各分类网络中的参数，包括如下两种情况：若分类网络为第一类分类网络，则根据第一分类网络的损失函数更新第一分类网络的参数；若分类网络为第二类分类网络，第二类分类网络对应至少两个损失函数，根据至少两个损失函数分别更新对应的子分类层中的参数；将至少两个损失函数求和后更新共享参数层的参数。

若分类网络为第二类分类网络，以上述实施例中的分类网络A为例，获得分类标签a1和分类标签a2，根据分类标签a1的置信度和标签a1的真实概率获得损失函数更新对应的子分类层中的参数，根据分类标签a2的置信度和标签a2的真实概率获得损失函数更新对应的子分类层中的参数，将两个损失函数求和后更新共享参数层中的参数。本实施例中，分类网络之间独立训练，在更新参数时不影响其他分类网络中的参数，灵活性高。设置共享参数层，可以提高系统运算力的利用率，降低消耗。本方案还可以对单独的分类网络进行增加、删除或修改操作，而不影响其他分类网络的工作。

步骤220，将视频数据输入视频分类模型中的特征提取网络，获得特征向量。

步骤230，将特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签。

步骤240，将多个分类标签进行合并，获得视频对应的分类结果。

标签合并的过程可以是将置信度超过设定阈值的分类标签按照置信度排序后合并，或者将所有的分类标签按照置信度排序后合并，最终获得分类结果。

本实施例的技术方案，特征提取网络和多个并行的分类网络分别进行训练，获得视频分类模型，可以提高视频分类模型对视频分类的准确性。

实施例三

图4为本发明实施例三提供的一种视频的分类装置的结构示意图。如图4所示，该装置包括：特征向量获取模块410，分类标签获取模块420和分类结果获取模块430。

特征向量获取模块410，用于将视频数据输入视频分类模型中的特征提取网络，获得特征向量；

分类标签获取模块420，用于将特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签；

分类结果获取模块430，用于将多个分类标签进行合并，获得视频对应的分类结果。

可选的，视频分类模型包括特征提取网络、特征缓存池、多个并行的分类网络；

特征提取网络包括至少两层子网络，特征缓存池用于存储预设子网络输出的特征结果，以对特征结果进行复用；

分类网络包括第一类分类网络和第二类分类网络；第一类分类网络对输入的特征向量进行分析，获得第一分类标签；第二类分类网络包括共享参数层和至少两个子分类层，共享参数层对输入的特征向量进行分析获得子分类结果，将子分类结果分别输入至少两个子分类层，获得至少两个第二分类标签。

可选的，还包括：

模型训练模块，用于对特征提取网络和多个并行的分类网络分别进行训练，获得视频分类模型。

可选的，模型训练模块，还用于：

获取视频数据集；

基于视频数据集采用深度学习神经网络DNN算法对特征提取网络进行训练。

可选的，模型训练模块，还用于：

将视频数据集输入训练好的特征提取网络，获得特征向量集；

将特征向量集输入多个并行的分类网络，获得多个分类标签的置信度；

根据分类标签的置信度和真实标签的概率确定各分类网络的损失函数；

根据损失函数分别更新各分类网络中的参数。

可选的，模型训练模块，还用于：

若分类网络为第一类分类网络，则根据第一分类网络的损失函数更新第一分类网络的参数；

若分类网络为第二类分类网络，第二类分类网络对应至少两个损失函数，根据至少两个损失函数分别更新对应的子分类层中的参数；将至少两个损失函数求和后更新共享参数层的参数。

上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。

实施例四

图5为本发明实施例四提供的一种计算机设备的结构示意图，如图5所示，本实施例提供的一种计算机设备，包括：处理器51和存储器52。该计算机设备中的处理器可以是一个或多个，图5中以一个处理器51为例，所述计算机设备中的处理器51和存储器52可以通过总线或其他方式连接，图5中以通过总线连接为例。

本实施例中计算机设备的处理器51中集成了上述实施例提供的视频的分类装置。此外，该计算机设备中的存储器52作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中视频的分类方法对应的程序指令/模块。处理器51通过运行存储在存储器52中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述方法实施例中视频的分类方法。

存储器52可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器52可进一步包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器51通过运行存储在存储器52中的程序，从而执行各种功能应用以及数据处理，实现例本发明实施例提供的视频的分类方法。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的视频的分类方法。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频的分类方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频的分类方法，其特征在于，包括：

将所述特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签；其中，所述多个并行的分类网络分别对所述特征向量中的不同的子向量进行运算；

将所述多个分类标签进行合并，获得所述视频对应的分类结果；

所述视频分类模型包括特征提取网络、特征缓存池、多个并行的分类网络；

2.根据权利要求1所述的方法，其特征在于，在将视频数据输入视频分类模型中的特征提取网络，获得特征向量之前，还包括：

3.根据权利要求2所述的方法，其特征在于，对所述特征提取网络进行训练，包括：

获取视频数据集；

4.根据权利要求3所述的方法，其特征在于，对所述多个并行的分类网络进行训练，包括：

根据所述损失函数分别更新各分类网络中的参数。

5.根据权利要求4所述的方法，其特征在于，根据所述损失函数分别更新各分类网络中的参数，包括：

若分类网络为第一类分类网络，则根据所述第一类分类网络的损失函数更新所述第一类分类网络的参数；

6.一种视频的分类装置，其特征在于，包括：

分类标签获取模块，用于将所述特征向量输入视频分类模型中的多个并行的分类网络，获得并行的多个分类标签；其中，所述多个并行的分类网络分别对所述特征向量中的不同的子向量进行运算；

分类结果获取模块，用于将所述多个分类标签进行合并，获得所述视频对应的分类结果；

7.一种视频的分类设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。