CN112131429A

CN112131429A - 一种基于深度预测编码网络的视频分类方法及系统

Info

Publication number: CN112131429A
Application number: CN202010976749.5A
Authority: CN
Inventors: 宋波
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-25
Anticipated expiration: 2040-09-16

Abstract

本申请提供了一种基于深度预测编码网络的视频分类方法及系统，在本申请提供的方法中，先获取待分类视频数据，在待分类视频数据中提取目标视频帧；再构建深度预测编码网络模型；然后将目标视频帧输入深度预测编码网络模型进行分类；最后基于深度预测编码网络对所述目标视频帧的分类结果生成待分类视频的分类标签。基于本申请提供的基于深度预测编码网络的视频分类方法及系统，针对现阶段视频分类领域的不足，提出一种基于深度预测编码网络的视频分类模型，采用了一种基于预测编码原理设计的深度神经网络架构PredNet，并在其基础上针对视频分类任务进行了扩展，能够提升无监督视频分类的准确性和效率。

Description

一种基于深度预测编码网络的视频分类方法及系统

技术领域

本申请涉及数据处理领域，特别是涉及一种基于深度预测编码网络的视频分类方法及系统。

背景技术

目前计算机视觉模型针对静态图像的处理已经取得了优异的成果，但是在真实的视觉世界中，物体和观察者都是不断运动的，静态图像智能代表其中的一小部分，因此视频分析已经成为机器学习研究的一个多产领域。

现有的视频分类模型大多数基于监督学习的方法，但在实际情况中无监督的方法更具实用价值，目前虽然有些借鉴了视频预测领域的无监督模型，但由于视频预测模型自身具有一定的不确定性和局限性，导致视频分类模型的准确率较低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于深度预测编码网络的视频分类方法，包括：

获取待分类视频数据，并在所述待分类视频数据中提取目标视频帧；

构建深度预测编码网络模型；

将所述目标视频帧输入所述深度预测编码网络模型，由所述深度预测编码网络模型对所述目标视频帧进行分类；

基于所述深度预测编码网络对所述目标视频帧的分类结果生成所述待分类视频的分类标签。

可选地，所述深度预测编码网络模型包括第一网络层、第二网络层和第三网络层；

所述第一网络层、第二网络层和第三网络层均包括输入卷积模块、预测模块、误差表示模块以及递归表示模块；

所述第二网络层的递归表示模块和第三网络层的递归表示模块之间设置第一视频分类模块；所述第一网络层的递归表示模块和第二网络层的递归表示模块之间设置第二视频分类模块。

可选地，所述将所述目标视频帧输入所述深度预测编码网络模型，由所述深度预测编码网络模型对所述目标视频帧进行分类，包括：

将所述目标视频帧输入所述深度预测编码网络模型第一网络层的输入卷积模块，以自下而上的方式由所述第一网络层、第二网络层和第三网络层进行三次循环运行处理；

通过所述第一网络层的递归表示模块输出所述目标视频帧的预测帧，通过所述第二视频分类模块输出所述目标视频帧的分类结果，进而对所述目标视频帧进行分类。

可选地，所述将所述目标视频帧输入所述深度预测编码网络模型第一网络层的输入卷积模块，以自下而上的方式由所述第一网络层、第二网络层和第三网络层进行三次循环运行处理，包括：

将所述目标视频帧输入所述深度预测编码网络模型第一网络层的输入卷积模块A_l，所述第一网络层的预测模块

的预设值设定为0，将A_l和

的输出相互做差输入所述第一网络层的误差表示模块E_l；再将E_l的预测误差表示结果同时输入所述第一层网络的递归表示模块R_l和所述第二网络层的输入卷积模块A_l+1进行操作；

对所述第二网络层操作后的误差表示模块E_l+1的预测误差表示结果同时输入所述第二层网络的递归表示模块R_l+1和所述第三网络层的输入卷积模块A_l+2进行操作，并将所述第三网络层生成的误差表示模块E_l+2输入所述第三层网络的递归表示模块R_l+2，生成的预测值输入所述第一视频分类模块C¹进行视频分类；

将C¹的分类结果传送至R_l+1，以自上而下的模式再传送至所述第二视频分类模块C²，完成第一次循环运行，并依次完成三次循环运行处理；其中，所述递归表示模块的输入还包括上一层递归表示模块输出的上采样表示、递归表示模块本身的状态和/或上一层的视频分类模块的输出；所述预测模块的输入为同一网络层的递归表示模块。

可选地，所述第一视频分类模块和第二视频分类模块均由一个生成对抗网络组成；

其中，所述生成对抗网络包括生成器和鉴别器，所述生成器由编码器和解码器组成；

所述将所述第三网络层生成的误差表示模块E_l+2输入所述第三层网络的递归表示模块R_l+2，生成的预测值输入所述第一视频分类模块C¹进行视频分类，包括：

将所述第三网络层生成的误差表示模块E_l+2输入所述第三层网络的递归表示模块R_l+2，生成的预测值输入所述视频分类模块C¹，先通过所述生成器为所述目标视频帧重建原始特征向量；

再将所述原始特征向量输入所述鉴别器，通过所述鉴别器将所述原始特征向量与所述预测值进行比对判别，对所述目标视频帧进行分类。

根据本申请的另一个方面，提供了一种基于深度预测编码网络的视频分类系统，包括：

目标视频帧提取模块，其配置成获取待分类视频数据，并在所述待分类视频数据中提取目标视频帧；

网络模型构建模块，其配置成构建深度预测编码网络模型；

目标视频帧分类模块，其配置成将所述目标视频帧输入所述深度预测编码网络模型，由所述深度预测编码网络模型对所述目标视频帧进行分类；

分类标签生成模块，其配置成基于所述深度预测编码网络对所述目标视频帧的分类结果生成所述待分类视频的分类标签。

可选地，所述目标视频帧分类模块，还配置成：

的预设值设定为0，将A_l和

所述目标视频帧分类模块，还配置成：

本申请提供了一种基于深度预测编码网络的视频分类方法及系统，在本申请提供的方法中，先获取待分类视频数据，在待分类视频数据中提取目标视频帧；再构建深度预测编码网络模型；然后将目标视频帧输入深度预测编码网络模型进行分类；最后基于深度预测编码网络对所述目标视频帧的分类结果生成待分类视频的分类标签。

基于本申请提供的基于深度预测编码网络的视频分类方法及系统，针对现阶段视频分类领域的不足，提出一种基于深度预测编码网络的视频分类模型，这是一种借鉴视频预测模型的无监督视频分类方法，采用了一种基于预测编码原理设计的深度神经网络架构PredNet，并在其基础上针对视频分类任务进行了扩展，能够提升无监督视频分类的准确性和效率；同时，以多任务方式对其进行训练，模型不仅输出分类结果，而且还可以进行将来的帧预测工作。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的基于深度预测编码网络的视频分类方法流程示意图；

图2是根据本申请实施例的深度预测编码网络运行架构图；

图3是根据本申请实施例的基于深度预测编码网络的视频分类系统结构示意图；

图4是根据本申请实施例的计算设备示意图；

图5是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

关于视频分类的大多数研究都是由大型标记数据集的出现引发的，例如HMDB，ActivityNet或Sports-1M。因此大型公开数据集对于视频分析来说是至关重要的，这是因为现有的方法大多数属于有监督深度学习领域，然而标记的数据是昂贵且耗时的，并且采用众包的方式标注的数据集也可能会出现一定的质量问题。因此，无监督学习是一个很有前景的方向。

视频预测是从未标记数据中学习的一种可能方式。该模型应学会关注在后续帧之间发生变化的区域，这样可以提高样本效率，因为它使模型能够从更少的数据样本中学习。视频预测的最新趋势是基于神经科学文献的预测编码理论，该理论认为大脑不断对传入的感觉刺激做出预测，因此可以自上而下的连接传达这些预测，将其与实际观察结果进行比较以生成误差信号，此错误信号传播回层次结构，最终导致预测更新。训练模型来预测视频的未来帧可以带来许多好处。例如使用原始帧以及它们的高级表示，即帧中相应的人体姿势，以预测未来的长期，但是这种方法需要标记的姿势信息，并且仅适用于静态背景。

图1是根据本申请实施例的基于深度预测编码网络的视频分类方法流程示意图。参见图1所知，本申请实施例提供的基于深度预测编码网络的视频分类方法可以包括：

步骤S101：获取待分类视频数据，并在待分类视频数据中提取目标视频帧；

步骤S102：构建深度预测编码网络模型；

步骤S103：将目标视频帧输入深度预测编码网络模型，由深度预测编码网络模型对目标视频帧进行分类；

步骤S104：基于深度预测编码网络对目标视频帧的分类结果生成待分类视频的分类标签。

本申请提供了一种基于深度预测编码网络的视频分类方法，在本申请提供的方法中，先获取待分类视频数据，在待分类视频数据中提取目标视频帧；再构建深度预测编码网络模型；然后将目标视频帧输入深度预测编码网络模型进行分类；最后基于深度预测编码网络对所述目标视频帧的分类结果生成待分类视频的分类标签。基于本申请提供的基于深度预测编码网络的视频分类方法，通过构建深度预测编码网络模型对提取的目标视频帧进行快速分类，进而有效实现对待分类视频数据的分类。

首先执行步骤S101，获取待分类的视频数据，从中提取目标视频帧，以便对待分类的视频数据执行标签分类以及将来的帧预测。在本发明实施例中，待分类视频数据可以是任意没有分类标签的视频数据，基于待分类视频数据提取的目标视频帧可以是一帧或是多帧，本发明对此不做限定。进一步地，在提取目标视频帧时，可以通过跳帧器从待分类的视频数据中选择出70帧目标视频帧，通过对70帧目标视频帧进行预测，即可得到待分类的视频数据的视频分类结果(比如是娱乐类)。在得到待分类的视频数据结果之后，按照各个视频的分类结果将视频归类到相应的分类下，用户可以通过客户端快速地浏览并观看视频。

本实施例提及的待分类视频数据包含但不仅限于如下格式：音频视频交错(Audio Video Interleaved，AVI)、运动图像专家组(Motion Picture Experts Group，MPEG)、MPEG1、MPEG2、高级流格式(Advanced Streaming format，ASF)以及Matroska多媒体容器(Multimedia Container，MKV)等。

参见上文，对待分类视频数据进行分类时，还需构建深度预测编码网络模型。

在本申请一可选实施例中，深度预测编码网络模型可以包括第一网络层、第二网络层和第三网络层。

其中，第一网络层、第二网络层和第三网络层均包括输入卷积模块、预测模块、误差表示模块以及递归表示模块。并且，第二网络层的递归表示模块和第三网络层的递归表示模块之间设置第一视频分类模块；第一网络层的递归表示模块和第二网络层的递归表示模块之间设置第二视频分类模块。

也就是说，深度预测编码网络模型为三层的分层层次结构，每一层的构成相同，以输入方向来看，设定最下面有视频帧输入的层为第一层，中间为第二层，最上方的为第三层，模型以自下而上的方式运行，并进行循环运行。

本申请实施例中的深度预测编码网络模型是PredNet模型与判断视频种类的视频分类模块C模块的结合，记为C-PredNet模型，基于本发明实施例提供总共由五大模块组成，分别是输入卷积模块A模块、预测模块

模块、误差表示模块E模块、递归表示模块R模块和视频分类模块C模块。

PredNet模型是一个用于预测视频未来帧的网络模型，根据产生的预测图像与实际下一帧图像的误差及各层特征图像的误差，去训练网络预测能力。本发明实施例提供的深度预测编码网络模型增加了视频分类模块的C-PredNet模型，有效的利用了PredNet模型的优点，实现了一种无监督的视频分类模型，并提升了无监督视频分类模型的准确率。

接下来执行步骤S103，将目标视频帧输入深度预测编码网络模型，由深度预测编码网络模型对所述目标视频帧进行分类。

具体来讲，将目标视频帧输入深度预测编码网络模型第一网络层的输入卷积模块，以自下而上的方式由第一网络层、第二网络层和第三网络层进行三次循环运行处理；通过第一网络层的递归表示模块输出目标视频帧的预测帧，通过第二视频分类模块输出目标视频帧的分类结果，进而对目标视频帧进行分类。即在模型的第一层进行目标视频帧的输入，经过模型整体的三次循环后，输出在第二层运行结束。

具体的模型运行架构图如图2所示，将目标视频帧输入深度预测编码网络模型第一网络层的输入卷积模块A_l，第一网络层的预测模块

的预设值设定为0，将A_l和

的输出相互做差输入第一网络层的误差表示模块E_l；再将E_l的预测误差表示结果同时输入第一层网络的递归表示模块R_l和第二网络层的输入卷积模块A_l+1进行操作。

对第二网络层操作后的误差表示模块E_l+1的预测误差表示结果同时输入第二层网络的递归表示模块R_l+1和第三网络层的输入卷积模块A_l+2进行操作，并将第三网络层生成的误差表示模块E_l+2输入第三层网络的递归表示模块R_l+2，生成的预测值输入第一视频分类模块C¹进行视频分类。

将C¹的分类结果传送至R_l+1，以自上而下的模式再传送至第二视频分类模块C²，完成第一次循环运行，并依次完成三次循环运行处理。其中，递归表示模块的输入还包括上一层递归表示模块输出的上采样表示、递归表示模块本身的状态和/或上一层的视频分类模块的输出；预测模块的输入为同一网络层的递归表示模块。

其中，第一视频分类模块和第二视频分类模块均由一个生成对抗网络组成；生成对抗网络包括生成器和鉴别器，生成器由编码器和解码器组成。

生成对抗网络(Generative adversarial netWork,简称GAN)模型，是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用。

而将第三网络层生成的误差表示模块E_l+2输入所述第三层网络的递归表示模块R_l+2，生成的预测值输入所述第一视频分类模块C¹进行视频分类，也就是将第三网络层生成的误差表示模块E_l+2输入所述第三层网络的递归表示模块R_l+2，生成的预测值输入所述视频分类模块C¹，先通过所述生成器为所述目标视频帧重建原始特征向量；再将原始特征向量输入鉴别器，通过鉴别器将原始特征向量与预测值进行比对判别，从而对目标视频帧进行分类。

以下将具体描述每个模块的具体功能：

(1)A模块：

A模块是输入卷积模块，由卷积层和池化层组成，对于第一网络层来说，它的输入为需要分类的目标视频帧，对于第二网络层和第三网络层来说，它的输入为前一网络层的E模块的输出。

(2)

模块：

模块是预测模块，由卷积层组成，对于第一网络层的

来说，由于还没有开始进行预测，因此最开始的值设定为0，对于第二网络层、第三网络层，还有进行再次循环运行的第一网络层来说，输入为R模块输出。

(3)E模块：

E模块是误差表示模块，有一个ReLU激活函数组成，其输入为A模块和

模块的输出相互做差，将其输入经过ReLU激活函数，产生预测误差表示，并将其作为E模块的输出。

激活函数是神经网络中一个至关重要的部分，而ReLU(Rectified Linear Unit)激活函数是目前使用最频繁的一个激活函数，它是分段线性函数，非线性性很弱，因此网络一般要做得很深。ReLU激活函数一定程度上缓解了梯度问题(正区间)，而且计算速度非常快，能加速模型的收敛。

(4)R模块：

R模块为递归表示模块，由convLSTM模型组成，它是一个自上而下的运行过程，其输入由四部分组成，第一部分为前一时刻E模块的误差输出，第二部分为前一网络层R模块的输出的上采样表示，第三部分为前一网络层的C模块的输出，第四部分为本网络层R模块的自身状态，其输出为预测视频帧。

ConvLSTM模型，不仅可以向LSTM一样建立时序关系，而且可以像CNN一样刻画局部空间特征。ConvLSTM模型核心本质还是和LSTM一样，将上一层的输出作下一层的输入。不同的地方在于加上卷积操作之后，为不仅能够得到时序关系，还能够像卷积层一样提取特征，提取空间特征。这样就能够得到时空特征，并且将状态与状态之间的切换也换成了卷积计算。

(5)C模块：

C模块为视频分类模块，它的输入为R模块的输出，即对视频帧的预测，输出为对视频的分类标签，本申请主要通过该模块对视频进行分类操作。C模块由一个对抗生成网络组成，由包括生成器和鉴别器。生成器由编码器和解码器组成，其中编码器包括6个卷积层，并设置3个卷积层为下采样，3个卷积层为上采样，采用ReLU作为采样层的激活函数，从编码器中获得的输出特征被送至解码器，解码器采用了上采样的2个卷积层，可以重建原始特征向量。鉴别器使用了4个卷积层，将生成器生成的视频帧作为输入，将其与视频帧的预测进行比对判别为真或假，使用softmax函数将此特征向量转换为二进制输出，以与生成器相同的方式，使用ReLU作为所有层的激活函数。通过生成对抗网络的生成器和鉴别器的博弈操作，对目标视频帧进行分类。

在对目标视频帧分类之后，最后执行步骤S104，基于深度预测编码网络对目标视频帧的分类结果生成待分类视频的分类标签。分类标签可以是动作(如做蛋糕)，场景(如海滩)，物体(如桌子)等等，本发明对此不做限定。

基于同一发明构思，如图3所示，本申请实施例还提供了一种基于深度预测编码网络的视频分类系统，包括：

目标视频帧提取模块310，其配置成获取待分类视频数据，并在待分类视频数据中提取目标视频帧；

网络模型构建模块320，其配置成构建深度预测编码网络模型；

目标视频帧分类模块330，其配置成将目标视频帧输入深度预测编码网络模型，由深度预测编码网络模型对目标视频帧进行分类；

分类标签生成模块，其配置成基于深度预测编码网络对目标视频帧的分类结果生成待分类视频的分类标签。

在本申请另一可选实施例中，深度预测编码网络模型包括第一网络层、第二网络层和第三网络层；第一网络层、第二网络层和第三网络层均包括输入卷积模块、预测模块、误差表示模块以及递归表示模块；

第二网络层的递归表示模块和第三网络层的递归表示模块之间设置第一视频分类模块；第一网络层的递归表示模块和第二网络层的递归表示模块之间设置第二视频分类模块。

在本申请另一可选实施例中，目标视频帧分类模块330，其还可以配置成：

将目标视频帧输入深度预测编码网络模型第一网络层的输入卷积模块，以自下而上的方式由第一网络层、第二网络层和第三网络层进行三次循环运行处理；

通过第一网络层的递归表示模块输出目标视频帧的预测帧，通过第二视频分类模块输出目标视频帧的分类结果，进而对目标视频帧进行分类。

将所述目标视频帧输入深度预测编码网络模型第一网络层的输入卷积模块A_l，第一网络层的预测模块

的预设值设定为0，将A_l和

的输出相互做差输入第一网络层的误差表示模块E_l；再将E_l的预测误差表示结果同时输入第一层网络的递归表示模块R_l和第二网络层的输入卷积模块A_l+1进行操作；

对第二网络层操作后的误差表示模块E_l+1的预测误差表示结果同时输入第二层网络的递归表示模块R_l+1和第三网络层的输入卷积模块A_l+2进行操作，并将第三网络层生成的误差表示模块E_l+2输入第三层网络的递归表示模块R_l+2，生成的预测值输入第一视频分类模块C¹进行视频分类；

将C¹的分类结果传送至R_l+1，以自上而下的模式再传送至第二视频分类模块C²，完成第一次循环运行，并依次完成三次循环运行处理；其中，递归表示模块的输入还包括上一层递归表示模块输出的上采样表示、递归表示模块本身的状态和/或上一层的视频分类模块的输出；预测模块的输入为同一网络层的递归表示模块；

在本申请另一可选实施例中，第一视频分类模块和第二视频分类模块均由一个生成对抗网络组成；其中，生成对抗网络包括生成器和鉴别器，生成器由编码器和解码器组成；

所述目标视频帧分类模块330，其还可以配置成：

将第三网络层生成的误差表示模块E_l+2输入第三层网络的递归表示模块R_l+2，生成的预测值输入视频分类模块C¹，先通过生成器为所述目标视频帧重建原始特征向量；

再将原始特征向量输入鉴别器，通过鉴别器将原始特征向量与预测值进行比对判别，对目标视频帧进行分类。

基于本申请提供的基于深度预测编码网络的视频分类方法及系统，针对现阶段视频分类领域的不足，提出一种基于深度预测编码网络的视频分类模型，这是一种借鉴视频预测模型的无监督视频分类方法，采用了一种基于预测编码原理设计的深度神经网络架构PredNet，直接从像素空间学习，并与具有非静态背景和真实视频一起训练，此外，该模型基于一个神经科学框架，旨在学习不同层级的特征而无需专门调整，降低了模型的复杂性，并提高了模型的效率。进一步地，本发明实施提供的方法在PredNet架构的基础上针对视频分类任务进行了扩展，能够提升无监督视频分类的准确性和效率；同时，以多任务方式对其进行训练，模型不仅输出分类结果，而且还可以进行将来的帧预测工作。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器420、处理器410和存储在所述存储器420内并能由所述处理器410运行的计算机程序，该计算机程序存储于存储器420中的用于程序代码的空间430，该计算机程序在由处理器410执行时实现用于执行任一项根据本发明的方法步骤431。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序431′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。