CN110516113B

CN110516113B - 一种视频分类的方法、视频分类模型训练的方法及装置

Info

Publication number: CN110516113B
Application number: CN201910838607.XA
Authority: CN
Inventors: 姜文浩; 李弼; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2020-11-17
Anticipated expiration: 2039-06-13
Also published as: CN110263216B; CN110516113A; CN110263216A

Abstract

本申请公开了一种视频分类的方法，该方法应用于人工智能领域，方法包括从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，计划跳帧向量包括每个前瞻视频帧对应的分值元素，根据计划跳帧向量确定待分类视频所对应的待分类视频帧；根据待分类视频帧，通过视频分类模型中的分类器确定待分类视频的分类结果。本申请还公开一种视频分类模型训练的方法以及相关装置。本申请采用跳帧器可以从待分类视频中选择一部分具有代表性的视频帧作为目标视频，将该目标视频输入至分类器进行识别即可，从而减少了冗余信息的干扰，由此提高分类器的分类效率，提升视频分类的速度。

Description

一种视频分类的方法、视频分类模型训练的方法及装置

本申请为2019年6月13日提交中国专利局、申请号为201910511487.2、发明名称为“一种视频分类的方法、视频分类模型训练的方法及装置”的中国专利申请的分案申请。

技术领域

本申请涉及人工智能领域，尤其涉及一种视频分类的方法、视频分类模型训练的方法及装置。

背景技术

随着网络多媒体技术的飞速发展，各式各样的多媒体信息不断涌现。越来越多的用户习惯于在网络上观看视频，为了使用户能够从大量的视频中选择自己想观看的内容，通常会对视频进行分类，因此，视频分类对于实现视频的管理以及兴趣推荐具有十分重要的作用，此外，视频分类的结果在监控、检索以及人机交互等领域被广泛应用。

目前，在视频序列分类的技术中，将视频帧的特征输入到循环神经网络(recurrent neural network，RNN)中，将RNN输出的结果输入到逻辑回归(logisticregression，LR)中得到视频类型。

然而，基于上述视频分类方式，需要将视频中的每一帧信息都输入到RNN中，对于视频识别的任务而言，视频帧之间往往具有很多冗余的信息，因此，这些冗余的信息会导致视频分类的速度降低，不利于提升视频分类的效率。

发明内容

本申请实施例提供了一种视频分类的方法、视频分类模型训练的方法及装置，采用跳帧器可以从待分类视频中选择一部分具有代表性的视频帧作为目标视频，将该目标视频输入至分类器进行识别即可，从而减少了冗余信息的干扰，由此提高分类器的分类效率，提升视频分类的速度。

有鉴于此，本申请一个方面提供一种视频分类的方法，包括：

从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧包括所述目标视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况；

根据所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值；

根据所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果。

本申请另一个方面提供一种视频分类模型训练的方法，包括：

获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频；

通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧；

通过所述待训练分类器获取所述待训练视频所对应的分类预测结果；

根据所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，其中，所述目标损失函数包括第一损失函数以及第二损失函数，所述第一损失函数用于训练所述待训练分类器，所述第二损失函数用于训练所述待训练跳帧器；

根据所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

本申请另一个方面提供一种视频分类装置，包括：

获取模块，用于从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧包括所述目标视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

所述获取模块，还用于通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况；

选择模块，用于根据所述获取模块获取的所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值；

确定模块，用于根据所述选择模块选择的所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果。

在一种可能的设计中，所述获取模块，还用于从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧之后，通过卷积神经网络CNN获取所述L个前瞻视频帧所对应的L个前瞻视频帧特征，其中，每个前瞻视频帧对应一个前瞻视频帧特征；

所述获取模块，具体用于通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量。

在一种可能的设计中，所述获取模块，具体用于通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量，其中，所述第一估计向量包括L个第一元素，所述第一元素用于表示前瞻视频帧属于边界帧的概率；

通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第二估计向量，其中，所述第二估计向量包括L个第二元素，所述第二元素用于表示前瞻视频帧在所述待分类视频中的重要程度；

根据所述第一估计向量以及所述第二估计向量，确定所述计划跳帧向量。

在一种可能的设计中，所述获取模块，具体用于获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数；

根据所述L个前瞻视频帧特征中的前瞻视频帧特征、所述第一跳帧器参数以及第二跳帧器参数，计算得到所述前瞻视频帧特征所对应的第一元素；

根据L个所述前瞻视频帧特征所对应的第一元素，生成所述第一估计向量。

在一种可能的设计中，所述获取模块，具体用于采用如下方式计算所述前瞻视频帧特征所对应的第一元素：

其中，所述

表示第i个前瞻视频帧特征所对应的第一元素，i∈{0,1,...,L-1}，所述L表示所述第一估计向量中第一元素的个数，所述W_θ表示所述第一跳帧器参数，所述W_φ表示所述第二跳帧器参数，所述( )^T表示转置运算，所述|| ||₂表示L2范数，所述x_t+i表示第(t+i)个前瞻视频帧特征，所述x_t+i+1表示第(t+i+1)个前瞻视频帧特征。

在一种可能的设计中，所述获取模块，具体用于根据所述L个前瞻视频帧特征获取L个注意力值，其中，每个注意力值对应一个前瞻视频帧特征；

获取目标隐状态，其中，所述目标隐状态表示输入至所述分类器的最后一个视频帧所对应的隐状态；

根据注意力值以及所述目标隐状态，计算得到所述前瞻视频帧特征所对应的第二元素；

根据L个所述前瞻视频帧特征所对应的第二元素，生成所述第二估计向量。

在一种可能的设计中，所述获取模块，具体用于采用如下方式计算所述前瞻视频帧特征所对应的第二元素：

其中，所述

表示第i个前瞻视频帧特征所对应的第二元素，i∈{0,1,...,L-1}，所述L表示所述第二估计向量中第二元素的个数，所述σ()表示sigmoid函数，所述max()表示取最大值，所述W₁表示所述跳帧器的第一参数矩阵，所述W₂表示所述跳帧器的第二参数矩阵，所述h_m表示所述目标隐状态，所述x_t+i表示第(t+i)个前瞻视频帧特征，所述c_t+i表示所述第(t+i)个前瞻视频帧特征对应的注意力值。

在一种可能的设计中，所述获取模块，具体用于采用如下方式计算所述计划跳帧向量：

其中，所述st表示所述计划跳帧向量，所述f_binarize()表示二值化函数，所述r_t ^B表示所述第一估计向量，所述r_t ^I表示所述第二估计向量。

在一种可能的设计中，所述确定模块，还用于所述获取模块通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量之后，若所述计划跳帧向量包括第一分值，则确定所述第一分值所对应的前瞻视频帧属于待分类视频帧；

所述确定模块，还用于所述获取模块通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量之后，若所述计划跳帧向量包括第二分值，则确定所述第二分值所对应的前瞻视频帧属于待跳过视频帧。

在一种可能的设计中，所述获取模块，具体用于从所述待分类视频中获取第一目标视频帧所对应的L个第一前瞻视频帧，其中，所述L个第一前瞻视频帧包括所述第一目标视频帧；

通过所述视频分类模型中的所述跳帧器获取所述L个第一前瞻视频帧所对应的第一计划跳帧向量；

所述选择模块，具体用于若所述第一计划跳帧向量包括第一分值，则获取第二目标视频帧，其中，所述第二目标视频帧对应于所述第一分值；

根据所述第二目标视频帧获取L个第二前瞻视频帧；

通过所述视频分类模型中的所述跳帧器获取所述L个第二前瞻视频帧所对应的第二计划跳帧向量；

若所述第二计划跳帧向量包括第一分值，则获取第三目标视频帧，其中，所述第三目标视频帧对应于所述第一分值；

将所述第二目标视频帧以及所述第三目标视频帧确定为所述待分类视频帧。

本申请另一个方面提供一种视频分类模型训练装置，包括：

获取模块，用于获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频；

所述获取模块，还用于通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧；

所述获取模块，还用于通过所述待训练分类器获取所述待训练视频所对应的分类预测结果；

训练模块，用于根据所述获取模块获取的所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，其中，所述目标损失函数包括第一损失函数以及第二损失函数，所述第一损失函数用于训练所述待训练分类器，所述第二损失函数用于训练所述待训练跳帧器；

生成模块，用于根据所述训练模块训练得到的所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

本申请另一个方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器；

本申请另一个方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频分类的方法，首先从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，待分类视频包括T个视频帧，然后通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，再根据计划跳帧向量确定待分类视频所对应的待分类视频帧，最后根据待分类视频帧，通过视频分类模型中的分类器确定待分类视频的分类结果。通过上述方式，采用跳帧器可以从待分类视频中选择一部分具有代表性的视频帧作为目标视频，将该目标视频输入至分类器进行识别即可，从而减少了冗余信息的干扰，由此提高分类器的分类效率，提升视频分类的速度。

附图说明

图1为本申请实施例中视频分类系统的一个架构示意图；

图2为本申请实施例中基于视频分类模型的一个处理框架示意图；

图3为本申请实施例中视频分类的方法一个实施例示意图；

图4为本申请实施例中目标视频生成方法的一个实施例示意图；

图5为本申请实施例中视频分类模型训练的方法一个实施例示意图；

图6为本申请实施例中视频分类装置一个实施例示意图；

图7为本申请实施例中视频分类模型训练装置一个实施例示意图；

图8为本申请实施例中服务器一个结构示意图；

图9为本申请实施例中终端设备一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的视频分类方法可以基于人工智能(ArtificialIntelligence,AI)识别出视频内容的类型，比如将视频分为娱乐、生活、搞笑和奇闻等类型。可选地，还可以进一步根据视频分类的结果识别出物体，比如，区分出移动物体的类型，是轿车或者摩托车，是人类还是动物等。可选地，还可以进一步根据视频分类的结果识别出越界，比如在视频画面上人为构建一条线，从而识别出物体穿越此界限的行为，比如，视野在马路上，构建一条线把道路分为两段，假设定义了从左到右是合法，从右到左是非法，一旦车辆行驶跨越这条界限，设备就会判断其是否非法，在非法的情况下产生报警。可选地，还可以进一步根据视频分类的结果跟踪目标，设备到移动物体之后，能在移动的元素后面画出其运动经过场所的轨迹，比如广场等公众场所中人流穿梭，设备能显示并记录下每个人的走动轨迹，如果一个人长时间在视野中徘徊游荡，超过一定时间，则设备自动报警提示发现可疑行为人物。可选地，还可以进一步根据视频分类的结果识别出遗失物体，设备能识别出视野场景中的物体多出一个或者少了一个，适合仓库、车站、展厅和安检等场所。可选地，还可以进一步根据视频分类的结果识别出车牌，如果视频场景是个道路口或者小区出入口，只要车牌区域在视频中出现过，设备能自动识别出车牌号码，并以文字的方式提示用户。可选地，还可以进一步根据视频分类的结果识别烟雾或者火焰等，通过对视野范围内的烟雾和火焰进行检查，及时发现烟火事故并产生报警，降低危害。

因此，视频识别在日常生活起到了非常重要的作用。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供的视频分类方法可以通过计算机视觉技术(Computer Vision，CV)对视频内容进行识别。其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

为了便于理解，本申请提出了一种视频分类的方法，该方法应用于图1所示的视频分类系统，请参阅图1，图1为本申请实施例中视频分类系统的一个架构示意图，如图所示，首先由服务器获取待分类视频，这些待分类视频可以是原本存储在服务器中的视频，也可以是用户通过客户端上传的视频，还可以是服务器从云端中获取到的视频。服务器通过视频分类模型中的跳帧器和分类器对这些视频进行处理，即对于视频A(假设有200个视频帧)而言，服务器通过跳帧器从视频A中选择出待分类视频帧，假设从视频A中选择出100个待分类视频帧，那么后续仅需要对这100个待分类视频帧进行预测，从而得到视频A的视频分类结果(比如是体育类)。类似地，对于视频B(假设有500个视频帧)而言，服务器同样通过跳帧器从视频B中选择出待分类视频帧，假设从视频B中选择出70个待分类视频帧，那么后续仅需要对这70个待分类视频帧进行预测，即可得到视频B的视频分类结果(比如是娱乐类)。在服务器得到视频的分类结果之后，按照各个视频的分类结果将视频归类到相应的分类下，用户可以通过客户端快速地浏览并观看视频。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机及个人电脑(personal computer，PC)，此处不做限定。

下面将结合图2，介绍如何从视频中提取待分类视频帧，请参阅图2，图2为本申请实施例中基于视频分类模型的一个处理框架示意图，如图所示，假设待分类视频包括8个视频帧，当前处理到第4个视频帧，即4号视频帧为目标视频帧，从目标视频帧开始向前选择5个视频帧作为前瞻视频帧。分别提取每个前瞻视频帧的特征，并将这些特征输入到跳帧器中进行重要性估计和边界估计，融合重要性估计结果和边界估计结果之后生成计划跳帧向量。该计划跳帧向量为[1,0,0,1,0]，其中，“0”表示不跳帧，“1”表示跳帧，并且结合1号视频帧、2号视频帧以及3号视频帧，得到如表1所示的视频帧取样结果。

表1

由表1可见，待分类视频中的1号视频帧、3号视频帧、5号视频帧、6号视频帧和8号视频帧可以输入至RNN中，而剩下的2号视频帧、4号视频帧和7号视频帧作为冗余信息，不需要被输入至RNN中。最后，RNN将输出结果输入至分类器(比如LR)中，从而生成该待分类视频的视频分类结果。

本申请实施例提供的方案涉及人工智能的计算机视觉等技术，具体通过如下实施例进行说明，结合上述介绍，下面将对本申请中视频分类的方法进行介绍，请参阅图3，本申请实施例中视频分类的方法一个实施例包括：

101、从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，待分类视频包括T个视频帧，L个前瞻视频帧包括目标视频帧，T为大于1的整数，L为大于或等于1，且小于T的整数；

本实施例中，视频分类装置首先获取待分类视频，然后根据当前处理的步骤确定目标视频帧，比如当前处理到待分类视频的第4帧，于是以第4帧视频帧作为目标视频帧，再利用目标视频帧从待分类视频中提取L个前瞻视频帧，其中，这L个前瞻视频帧中包括了目标视频帧，假设L为4，那么前瞻视频帧包括待分类视频中的第4帧、第5帧、第6帧和第7帧。

可以理解的是，待分类视频包含但不仅限于如下格式：音频视频交错(AudioVideo Interleaved，AVI)、运动图像专家组(Motion Picture Experts Group，MPEG)、MPEG1、MPEG2、高级流格式(Advanced Streaming format，ASF)以及Matroska多媒体容器(Multimedia Container，MKV)等。

可以理解的是，视频分类装置可以部署于服务器，由服务器对待分类视频进行分类，从而生成分类结果。在实际应用中，视频分类装置也可以部署于终端设备中。

102、通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，其中，计划跳帧向量包括每个前瞻视频帧对应的分值元素，分值元素用于表示前瞻视频帧的选择情况；

本实施例中，视频分类装置将L个前瞻视频帧输入至视频分类模型中的跳帧器，由该跳帧器输出L个前瞻视频帧所对应的计划跳帧向量，可以理解的是，计划跳帧向量包括L个分值元素，每个分值元素对应一个前瞻视频帧，分值元素用于表示前瞻视频帧的选择情况。假设L为4，L个前瞻视频帧分别为待分类视频中的第4帧、第5帧、第6帧和第7帧，于是输出的计划跳帧向量也包括4个分值元素，分值元素可以分为两个结果，“1”和“0”，其中，“0”表示不跳帧，“1”表示跳帧，假设计划跳帧向量为[1,0,1,0]，则表示跳过第4帧，不跳过第5帧，跳过第6帧，不跳过第7帧。

103、根据计划跳帧向量选择待分类视频所对应的待分类视频帧，其中，待分类视频帧所对应的分值元素为第一分值；

本实施例中，视频分类装置根据计划跳帧向量，可以从待分类视频中选择出待分类视频帧，其中，待分类视频帧所对应的分值元素为第一分值，第一分值可以为“0”。在实际应用中，视频分类装置将对待分类视频中的视频帧执行如上述步骤102的处理，直到筛选出待分类视频中所有的待分类视频帧。通常情况下，待分类视频帧的帧数总和小于待分类视频中所有视频帧的帧数总和。

104、根据待分类视频帧，通过视频分类模型中的分类器确定待分类视频的分类结果。

本实施例中，视频分类装置在获取到待分类视频中的待分类视频帧之后，将这些待分类视频帧输入至视频分类模型中的分类器，通过分类器输出待分类视频所对应的分类结果。可以理解的是，待分类视频中可以包括T个视频帧，而待分类视频帧可以由M个，M通常小于T，且M为正整数。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，从待分类视频中获取目标视频帧所对应的L个前瞻视频帧之后，还可以包括：

通过卷积神经网络CNN获取L个前瞻视频帧所对应的L个前瞻视频帧特征，其中，每个前瞻视频帧对应一个前瞻视频帧特征；

通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，可以包括：

通过视频分类模型中的跳帧器获取L个前瞻视频帧特征所对应的计划跳帧向量。

本实施例中，介绍了一种提取视频帧特征的方式。具体地，将从待分类视频中提取的L个前瞻视频帧输入至卷积神经网络(Convolutional Neural Network,CNN)，CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。通过CNN输出每个前瞻视频帧所对应的前瞻视频帧特征，将L个前瞻视频帧所对应的前瞻视频帧特征输入至跳帧器，其中，每个前瞻视频帧特征经过跳帧器后生成一个分值元素，L个分值元素构成计划跳帧向量。

CNN包括卷积层(Convolutional layer)、线性整流层(Rectified Linear Unitslayer,ReLU layer)以及池化层(Pooling layer)，还可以包括全连接层(Fully-Connectedlayer)。其中，卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。线性整流层这一层神经的活性化函数(Activation function)使用线性整流(Rectified Linear Units,ReLU)。池化层通常在卷积层之后会得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，得到新的且维度较小的特征。全连接层把所有局部特征结合变成全局特征，用来计算最后每一类的得分。

对CNN进行微调(fine-tuning)就是使用已用于其他目标、预训练好模型的权重或者部分权重，作为初始值开始训练。微调可以复用相同层的权重，新定义层取随机权重初始值，调大新定义层的的学习率，调小复用层学习率。

其次，本申请实施例中，提供了一种利用CNN提取视频帧特征的方式，即通过CNN获取L个前瞻视频帧所对应的L个前瞻视频帧特征，通过视频分类模型中的跳帧器获取L个前瞻视频帧特征所对应的计划跳帧向量。通过上述方式，在CNN中用卷积核去提取特征，一方面可以共享卷积核，从而使得对高维数据的处理压力较小。另一方面，无需手动提取每个视频帧的特征，而是直接利用训练好的CNN提取视频帧特征，从而提升方案的应用效率以及可行性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，通过视频分类模型中的跳帧器获取L个前瞻视频帧特征所对应的计划跳帧向量，可以包括：

通过跳帧器获取L个前瞻视频帧特征所对应的第一估计向量，其中，第一估计向量包括L个第一元素，第一元素用于表示前瞻视频帧属于边界帧的概率；

通过跳帧器获取L个前瞻视频帧特征所对应的第二估计向量，其中，第二估计向量包括L个第二元素，第二元素用于表示前瞻视频帧在待分类视频中的重要程度；

根据第一估计向量以及第二估计向量，确定计划跳帧向量。

本实施例中，介绍了一种计划跳帧向量的确定方式。跳帧器主要分为三个模块，分别为边界估计模块、重要性估计模块以及融合模块，其中，边界估计模块用于估计视频帧属于边界帧的概率，视频中的相邻帧通常内容非常相似，因为视频在时序上具有连续性的特征，视频在一个区间内通常在讲同一件事情，而对于同一个区间内的视频帧，可以仅仅考虑其中的一帧，为了便于建立模型，直接考虑边界上的帧即可，因此，需要估计相邻的两帧的内容是否足够相似，如果不相似说明该视频帧是在边界上。将L个前瞻视频帧特征输入至跳帧器中的边界估计模块，从而生成第一估计向量，，第一估计向量包括L个第一元素，该第一元素用于表示前瞻视频帧属于边界帧的概率。

重要性估计模块用于估计视频帧在待分类视频中的重要程度，其中，重要程度的估计往往需要考虑到历史信息，被判定为更加重要的视频帧更适合作为分类器的输入。将L个前瞻视频帧特征输入至跳帧器中的重要性估计模块，从而生成第二估计向量，，第二估计向量包括L个第二元素，该第二元素用于表示前瞻视频帧在待分类视频中的重要程度。

融合模块对每个前瞻视频帧特征生成一个分值元素，根据分值元素来衡量是否值得跳过该前瞻视频帧。

再次，本申请实施例中，提供了一种生成计划跳帧向量的方式，即需要通过跳帧器获取第一估计向量，并且通过跳帧器获取第二估计向量，结合第一估计向量以及第二估计向量生成计划跳帧向量。通过上述方式，采用第一估计向量可以估计每个前瞻视频帧属于边界的概率，采用第二估计向量可以估计每个前瞻视频帧的重要性，因此，结合两者的特点能够更加准确地判断一个前瞻视频帧是否适合跳过，从而提升跳帧器工作的精确性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，通过跳帧器获取L个前瞻视频帧特征所对应的第一估计向量，可以包括：

获取跳帧器的第一跳帧器参数以及第二跳帧器参数；

根据L个前瞻视频帧特征中的前瞻视频帧特征、第一跳帧器参数以及第二跳帧器参数，计算得到前瞻视频帧特征所对应的第一元素；

根据L个前瞻视频帧特征所对应的第一元素，生成第一估计向量。

本实施例中，将介绍一种计算得到第一估计向量的方式。视频分类装置根据跳帧器确定第一跳帧器参数W_θ以及第二跳帧器参数W_φ，目标视频帧可以表示为x_t，于是对应L个前瞻视频帧特征表示为{x_t,x_t+1,...,x_t+L-1}，于是采用如下方式计算前瞻视频帧特征所对应的第一元素：

其中，

表示第i个前瞻视频帧特征所对应的第一元素，i∈{0,1,...,L-1}，L表示第一估计向量中第一元素的个数，( )^T表示转置运算，|| ||₂表示L2范数，x_t+i表示第(t+i)个前瞻视频帧特征，x_t+i+1表示第(t+i+1)个前瞻视频帧特征。L个第一元素

构成第一估计向量

进一步地，本申请实施例中，提供了一种生成第一估计向量的方式，即获取跳帧器的第一跳帧器参数以及第二跳帧器参数，然后根据前瞻视频帧特征、第一跳帧器参数以及第二跳帧器参数，计算得到前瞻视频帧特征所对应的第一元素，最后根据L个前瞻视频帧特征所对应的第一元素，生成第一估计向量。通过上述方式，利用跳帧器能够确定每个前瞻视频帧的边界估计结果，并且在本申请中提供了具体的计算方式，从而提升了方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，通过跳帧器获取L个前瞻视频帧特征所对应的第二估计向量，可以包括：

根据L个前瞻视频帧特征获取L个注意力值，其中，每个注意力值对应一个前瞻视频帧特征；

获取目标隐状态，其中，目标隐状态表示输入至分类器的最后一个视频帧所对应的隐状态；

根据L个注意力值以及目标隐状态，计算得到前瞻视频帧特征所对应的第二元素；

根据L个前瞻视频帧特征所对应的第二元素，生成第二估计向量。

本实施例中，将介绍一种计算得到第二估计向量的方式。视频分类装置根据跳帧器确定第一参数矩阵W₁以及第二参数矩阵W₂，目标视频帧可以表示为x_t，于是对应L个前瞻视频帧特征表示为{x_t,x_t+1,...,x_t+L-1}，于是，先将L个前瞻视频帧特征输入至自注意力机制(self-attention)模块中，即：

{c_t,c_t+1,...,c_t+L-1}＝SelfAttention{x_t,x_t+1,...,x_t+L-1}；

其中，L个注意力值即为{c_t,c_t+1,...,c_t+L-1}，每个注意力值对应一个前瞻视频帧特征，也就是说，前瞻视频帧x_t的注意力值为c_t，前瞻视频帧x_t+1的注意力值为c_t+1，以此类推，得到L个前瞻视频帧特征获取L个注意力值。

基于L个注意力值以及目标隐状态h_m，采用如下方式计算前瞻视频帧特征所对应的第二元素：

其中，

表示第i个前瞻视频帧特征所对应的第二元素，L表示第二估计向量中第二元素的个数，σ()表示sigmoid函数，max()表示取最大值，W₁表示跳帧器的第一参数矩阵，W₂表示跳帧器的第二参数矩阵，第一参数矩阵和第二参数矩阵都是可以学习的到的矩阵。h_m表示目标隐状态，x_t+i表示第(t+i)个前瞻视频帧特征，c_t+i表示第(t+i)个前瞻视频帧特征对应的注意力值。当第i个前瞻视频帧越重要时，

的值会接近1。L个第二元素

构成第一估计向量

目标隐状态表示输入至分类器的最后一个视频帧所对应的隐状态，比如，当前分类器中已经输入了5个视频帧，从前至后分别为待分类视频的第5帧、第9帧、第13帧、第17帧以及第20帧，那么目标隐状态就是第20帧视频帧所对应的隐状态。

其中，自注意力机制是近来序列学习的常用网络结构。针对序列学习任务，常见的网络有RNN、CNN以及自注意力网络(self-attention network，SAN)。常见的一种实现方式表示为，首先把输入序列X经过线性变换分别得到Q、K和V，注意，Q、K和V都来自于X，只不过是线性变换的矩阵的权值不同而已。然后把Q和K做点积(dot-product)相乘，得到输入X序列中成对元素x_i和元素x_j之间的依赖关系：

其中，W_q表示Q的线性变换矩阵，W_k表示K的线性变换矩阵，

表示尺度变换因子，防止输入值过大导致训练不稳定。然后经过softmax操作得到注意力权重w_ij，加权求和得到最终的输出元素z_i，计算过程表示如下：

其中，W_v表示V的线性变换矩阵。

进一步地，本申请实施例中，提供了一种生成第二估计向量的方式，即根据L个前瞻视频帧特征获取L个注意力值，然后获取目标隐状态，其中，目标隐状态表示输入至分类器的最后一个视频帧所对应的隐状态，再根据注意力值以及目标隐状态，计算得到前瞻视频帧特征所对应的第二元素，最后根据L个前瞻视频帧特征所对应的第二元素，生成第二估计向量。通过上述方式，利用跳帧器能够确定每个前瞻视频帧的重要性估计结果，并且在本申请中提供了具体的计算方式，从而提升了方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，根据第一估计向量以及第二估计向量，确定计划跳帧向量，可以包括：

采用如下方式计算计划跳帧向量：

其中，s_t表示计划跳帧向量，f_binarize()表示二值化函数，r_t ^B表示第一估计向量，r_t ^I表示第二估计向量。

本实施例中，将介绍一种计算得到计划跳帧向量的方式。在得到第一估计向量r_t ^B以及第二估计向量r_t ^I之后，采用如下方式计算计划跳帧向量s_t：

s_t＝f_binarize(1-r_t ^B·r_t ^I)；

其中，·表示向量的元素对元素的乘积，f_binarize()表示二值化函数，f_binarize：[0,1]→[0,1]是一个输入二值化的函数，本申请采用四舍五入的方式生成分值元素，即得到第一分值“0”或者第二分值“1”。

进一步地，本申请实施例中，提供了一种根据第一估计向量以及第二估计向量，计算得到计划跳帧向量的方式。通过上述方式，为方案的实现提供了具体可行的依据，从而增强方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量之后，还可以包括：

若计划跳帧向量包括第一分值，则确定第一分值所对应的前瞻视频帧属于待分类视频帧；

若计划跳帧向量包括第二分值，则确定第二分值所对应的前瞻视频帧属于待跳过视频帧。

本实施例中，介绍一种从待分类视频中选择待分类视频帧的方式。在得到计划跳帧向量之后，根据计划跳帧向量中各个分值元素，判断分数元素所对应的前瞻视频帧是否需要跳过。具体地，假设计划跳帧向量中共有5个分值元素，分别为0,1,0,1,1，第一分值“0”表示该前瞻视频帧为待分类视频帧，第二分值“1”表示该前瞻视频帧为待跳过视频帧，由此可见，待分类视频具有两个待分类视频帧，这两个待分类视频帧将被输入至分类器中。

更进一步地，本申请实施例中，提供了一种从待分类视频中选择可用于分类的视频帧的方式，即若计划跳帧向量包括第一分值，则确定第一分值所对应的前瞻视频帧属于待分类视频帧，若计划跳帧向量包括第二分值，则确定第二分值所对应的前瞻视频帧属于待跳过视频帧。通过上述方式，可以根据计划跳帧向量中各个分值元素的结果准确地选择出适合跳过的视频帧，以及不适合跳过的视频帧，从而为分类器的输入提供更有效的视频数据，降低了数据冗余的情况，由此提升分类的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频分类的方法一个可选实施例中，从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，可以包括：

从待分类视频中获取第一目标视频帧所对应的L个第一前瞻视频帧，其中，L个第一前瞻视频帧包括第一目标视频帧；

通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，包括：

通过视频分类模型中的跳帧器获取L个第一前瞻视频帧所对应的第一计划跳帧向量；

根据计划跳帧向量生成待分类视频所对应的目标视频，包括：

若第一计划跳帧向量包括第一分值，则获取第二目标视频帧，其中，第二目标视频帧对应于第一分值；

根据第二目标视频帧获取L个第二前瞻视频帧；

通过视频分类模型中的跳帧器获取L个第二前瞻视频帧所对应的第二计划跳帧向量；

若第二计划跳帧向量包括第一分值，则获取第三目标视频帧，其中，第三目标视频帧对应于第一分值；

将第二目标视频帧以及第三目标视频帧确定为待分类视频帧。

本实施例中，介绍了一种从待分类视频中选择出多个待分类视频帧的方式。首先获取第一目标视频帧，根据第一目标视频帧获取L个第一前瞻视频帧，L个第一前瞻视频帧包括第一目标视频帧，通过跳帧器后得到第一计划跳帧向量，如果第一计划跳帧向量包括第一分值，则从L个第一前瞻视频帧中获取第二目标视频帧，该第二目标视频帧可能与第一目标视频帧为同一个视频帧，也可能不是同一个视频帧。根据选择的第二目标视频帧，继续获取L个第二前瞻视频帧，其中，L个第二前瞻视频帧可能不包括第二目标视频帧，比如，第二目标视频帧为L个第一前瞻视频帧中的最后一个视频帧。通过跳帧器后得到第L个第二前瞻视频帧所对应的第二计划跳帧向量。如果第二计划跳帧向量包括第一分值，则从L个第二前瞻视频帧中获取第三目标视频帧。第二目标视频帧以及第三目标视频帧都属于待分类视频帧，即可输入至分类器，用于生成分类结果。

为了便于理解，下面将结合图4进行说明，请参阅图4，图4为本申请实施例中目标视频生成方法的一个实施例示意图，如图所示，假设待分类视频包括14个视频帧，L为4，在第一轮处理中，将1号视频帧、2号视频帧、3号视频帧和4号视频帧输入至跳帧器，由跳帧器输出计划跳帧向量[0,0,0,0]，其中，“0”为第一分值(不跳过)，“1”为第二分值(跳过)，1号视频帧属于不跳帧，2号视频帧属于不跳帧，3号视频帧属于不跳帧，4号视频帧属于不跳帧，于是，将第一个不跳帧，即1号视频帧输入至分类器。

在第二轮处理中，将2号视频帧、3号视频帧、4号视频帧和5号视频帧输入至跳帧器，由跳帧器输出计划跳帧向量[0,1,0,0]，2号视频帧属于不跳帧，3号视频帧属于需跳帧，4号视频帧属于不跳帧，5号视频帧属于不跳帧，于是，将第一个不跳帧，即2号视频帧输入至分类器。

在第三轮处理中，将3号视频帧、4号视频帧、5号视频帧和6号视频帧输入至跳帧器，由跳帧器输出计划跳帧向量[1,1,1,0]，3号视频帧属于需跳帧，4号视频帧属于需跳帧，5号视频帧属于需跳帧，6号视频帧属于不跳帧，于是，将第一个不跳帧，即6号视频帧输入至分类器。

在第四轮处理中，将7号视频帧、8号视频帧、9号视频帧和10号视频帧输入至跳帧器，由跳帧器输出计划跳帧向量[1,1,1,1]，3号视频帧属于需跳帧，4号视频帧属于需跳帧，5号视频帧属于需跳帧，6号视频帧属于需跳帧，于是，在本轮处理中无需向分类器输入视频帧。

在第五轮处理中，将11号视频帧、12号视频帧、13号视频帧和14号视频帧输入至跳帧器，由跳帧器输出计划跳帧向量[1,0,1,0]，11号视频帧属于需跳帧，12号视频帧属于不跳帧，13号视频帧属于需跳帧，14号视频帧属于不跳帧，于是，将第一个不跳帧，即12号视频帧输入至分类器。

结合上述方式，分类器根据1号视频帧、2号视频帧、6号视频帧和12号视频帧生成待分类视频的分类结果。由此可见，如果s_t[i]的分值元素为0，就将s_t[i]输入至RNN中，并重新计算计划跳帧向量s_t+i+1。

其次，本申请实施例中，提供了一种对多组前瞻视频帧进行处理的方式，即从待分类视频中获取第一目标视频帧所对应的L个第一前瞻视频帧，通过视频分类模型中的跳帧器获取第一计划跳帧向量，若第一计划跳帧向量包括第一分值，则获取第二目标视频帧，再根据第二目标视频帧获取L个第二前瞻视频帧，通过视频分类模型中的跳帧器获取L个第二前瞻视频帧所对应的第二计划跳帧向量，若第二计划跳帧向量包括第一分值，则获取第三目标视频帧，其中，第三目标视频帧对应于第一分值，最后根据第二目标视频帧以及第三目标视频帧生成目标视频。通过上述方式，对于一个待分类视频而言，往往会包括多个视频帧，此时，需要对这些视频帧进行多次的处理，进而确定出不会被跳过的视频帧，仅对这部分筛选得到的视频帧进行分类处理，从而减少了冗余信息的干扰，由此提高分类器的分类效率，提升视频分类的速度。

结合上述介绍，下面将对本申请中视频分类模型训练的方法进行介绍，请参阅图5，本申请实施例中视频分类模型训练的方法一个实施例包括：

201、获取待训练视频集合，其中，待训练视频集合包括至少一个待训练视频；

本实施例中，视频分类模型训练模型获取待训练视频集合，其中，视频分类模型训练模型可以部署于服务器上，可选地，视频分类模型训练模型也可以部署在终端设备上。待训练视频集合包括至少一个待训练视频。可以理解的是，待训练视频包含但不仅限于如下格式：AVI、MPEG、MPEG1、MPEG2、ASF以及MKV等。

202、通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，跳帧预测结果表示待训练视频中输入至待训练分类器的视频帧；

本实施例中，视频分类模型训练模型将每个待训练视频输入至待训练的视频分类模型，由此可以输出两个结果，这两个结果是基于待训练视频分类模型中包括待训练跳帧器和待训练分类器得到的。

将待训练视频输入至待训练跳帧器之后，输出预测得到的跳帧预测结果，其中，跳帧预测结果表示待训练视频中输入至待训练分类器的视频帧，也就确定了在预测过程中跳过了多少个视频帧。

203、通过待训练分类器获取待训练视频所对应的分类预测结果；

本实施例中，视频分类模型训练模型将待训练视频输入至待训练分类器之后，输出预测得到的分类预测结果，其中，分类预测结果表示预测得到的待训练视频的类型，比如体育类、娱乐类或者生活类等。

204、根据跳帧预测结果以及分类预测结果，采用目标损失函数训练得到待训练跳帧器的模型参数以及待训练分类器模型参数，其中，目标损失函数包括第一损失函数以及第二损失函数，第一损失函数用于训练待训练分类器，第二损失函数用于训练待训练跳帧器；

本实施例中，这个模型训练的过程可以采用随机梯度下降(Stochastic GradientDescent，SGD)法来训练，在实际应用中，也可以采用批梯度下降(Batch GradientDescent，BGD)法或者批梯度下降(mini-batch gradient descent，mini-BGD)。视频分类模型训练模型根据分类预测结果，采用第一损失函数L_CE进行计算，其中，第一损失函数具体可以是交叉熵损失(cross-entropy loss)函数。

视频分类模型训练模型根据跳帧预测结果，采用第二损失函数进行计算，即：

其中，L_budget表示第二损失函数，T1表示跳过的视频帧数量，T2表示跳过的视频帧数量和未跳过的视频帧数量的总和。

根据第一损失函数和第二损失函数生成目标损失函数，即：

L＝L_CE+λL_budget；

其中，L表示目标损失函数，L_CE表示第一损失函数，L_budget表示第二损失函数，λ表示权重控制参数。

目标损失函数的目标是最小化结果，根据每次得到结果回传梯度，再更新待训练跳帧器的模型参数和待训练分类器的模型参数，经过多此次迭代后慢慢收敛。

205、根据待训练跳帧器的模型参数以及待训练分类器模型参数，生成视频分类模型，其中，视频分类模型包括跳帧器以及分类器。

本实施例中，基于收敛结果确定待训练跳帧器的模型参数以及待训练分类器模型参数，进而得到视频分类模型，该视频分类模型包括已经训练好的跳帧器以及分类器。

本申请实施例中，提供了一种视频分类模型训练的方法，首先获取待训练视频集合，待训练视频集合包括至少一个待训练视频，然后通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，并且通过待训练分类器获取待训练视频所对应的分类预测结果，再根据跳帧预测结果以及分类预测结果，采用目标损失函数训练得到待训练跳帧器的模型参数以及待训练分类器模型参数，最后根据待训练跳帧器的模型参数以及待训练分类器模型参数，生成视频分类模型，其中，视频分类模型包括跳帧器以及分类器。通过上述方式，能够采用第一损失函数训练待训练分类器，并且采用第二损失函数训练待训练跳帧器，分别利用不同的损失函数作为模型的学习准则，通过最小化损失函数求解和评估视频分类模型，从而有利于提升模型训练的可靠性，进而提升基于该视频分类模型对视频进行分类的准确性。

下面对本申请中的视频分类装置进行详细描述，请参阅图6，图6为本申请实施例中视频分类装置一个实施例示意图，视频分类装置30包括：

获取模块301，用于从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧包括所述目标视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

所述获取模块301，还用于通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况；

选择模块302，用于根据所述获取模块301获取的所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值；

确定模块303，用于根据所述选择模块302选择的所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果。

本实施例中，获取模块301从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧包括所述目标视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数，所述获取模块301通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况，选择模块302根据所述获取模块301获取的所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值，确定模块303根据所述选择模块302选择的所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果。

本申请实施例中，提供了一种视频分类装置，首先从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，待分类视频包括T个视频帧，然后通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，再根据计划跳帧向量确定待分类视频所对应的待分类视频帧，最后根据待分类视频帧，通过视频分类模型中的分类器确定待分类视频的分类结果。通过上述方式，采用跳帧器可以从待分类视频中选择一部分具有代表性的视频帧作为目标视频，将该目标视频输入至分类器进行识别即可，从而减少了冗余信息的干扰，由此提高分类器的分类效率，提升视频分类的速度。

可选地，在上述图6所对应的实施例的基础上，本申请实施例提供的视频分类装置30的另一实施例中，

所述获取模块301，还用于从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧之后，通过卷积神经网络CNN获取所述L个前瞻视频帧所对应的L个前瞻视频帧特征，其中，每个前瞻视频帧对应一个前瞻视频帧特征；

所述获取模块301，具体用于通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量。

所述获取模块301，具体用于通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量，其中，所述第一估计向量包括L个第一元素，所述第一元素用于表示前瞻视频帧属于边界帧的概率；

所述获取模块301，具体用于获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数；

所述获取模块301，具体用于采用如下方式计算所述前瞻视频帧特征所对应的第一元素：

其中，所述

更进一步地，本申请实施例中，提供了一种生成第一估计向量的方式，即获取跳帧器的第一跳帧器参数以及第二跳帧器参数，然后根据前瞻视频帧特征、第一跳帧器参数以及第二跳帧器参数，计算得到前瞻视频帧特征所对应的第一元素，最后根据L个前瞻视频帧特征所对应的第一元素，生成第一估计向量。通过上述方式，利用跳帧器能够确定每个前瞻视频帧的边界估计结果，并且在本申请中提供了具体的计算方式，从而提升了方案的可行性和可操作性。

所述获取模块301，具体用于根据所述L个前瞻视频帧特征获取L个注意力值，其中，每个注意力值对应一个前瞻视频帧特征；

所述获取模块301，具体用于采用如下方式计算所述前瞻视频帧特征所对应的第二元素：

其中，所述

表示第i个前瞻视频帧特征所对应的第二元素，i∈{0,1,...,L-1}，所述L表示所述第二估计向量中第二元素的个数，所述σ( )表示sigmoid函数，所述max( )表示取最大值，所述W₁表示所述跳帧器的第一参数矩阵，所述W₂表示所述跳帧器的第二参数矩阵，所述h_m表示所述目标隐状态，所述x_t+i表示第(t+i)个前瞻视频帧特征，所述c_t+i表示所述第(t+i)个前瞻视频帧特征对应的注意力值。

更进一步地，本申请实施例中，提供了一种生成第二估计向量的方式，即根据L个前瞻视频帧特征获取L个注意力值，然后获取目标隐状态，其中，目标隐状态表示输入至分类器的最后一个视频帧所对应的隐状态，再根据注意力值以及目标隐状态，计算得到前瞻视频帧特征所对应的第二元素，最后根据L个前瞻视频帧特征所对应的第二元素，生成第二估计向量。通过上述方式，利用跳帧器能够确定每个前瞻视频帧的重要性估计结果，并且在本申请中提供了具体的计算方式，从而提升了方案的可行性和可操作性。

所述获取模块301，具体用于采用如下方式计算所述计划跳帧向量：

s_t＝f_binarize(1-r_t ^B·r_t ^I)；

其中，所述s_t表示所述计划跳帧向量，所述f_binarize()表示二值化函数，所述r_t ^B表示所述第一估计向量，所述r_t ^I表示所述第二估计向量。

所述确定模块303，还用于所述获取模块301通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量之后，若所述计划跳帧向量包括第一分值，则确定所述第一分值所对应的前瞻视频帧属于待分类视频帧；

所述确定模块303，还用于所述获取模块301通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量之后，若所述计划跳帧向量包括第二分值，则确定所述第二分值所对应的前瞻视频帧属于待跳过视频帧。

所述获取模块301，具体用于从所述待分类视频中获取第一目标视频帧所对应的L个第一前瞻视频帧，其中，所述L个第一前瞻视频帧包括所述第一目标视频帧；

所述选择模块302，具体用于若所述第一计划跳帧向量包括第一分值，则获取第二目标视频帧，其中，所述第二目标视频帧对应于所述第一分值；

根据所述第二目标视频帧获取L个第二前瞻视频帧；

下面对本申请中的视频分类模型训练装置进行详细描述，请参阅图7，图7为本申请实施例中视频分类模型训练装置一个实施例示意图，视频分类模型训练装置40包括：

获取模块401，用于获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频；

所述获取模块401，还用于通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧；

所述获取模块401，还用于通过所述待训练分类器获取所述待训练视频所对应的分类预测结果；

训练模块402，用于根据所述获取模块401获取的所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，其中，所述目标损失函数包括第一损失函数以及第二损失函数，所述第一损失函数用于训练所述待训练分类器，所述第二损失函数用于训练所述待训练跳帧器；

生成模块403，用于根据所述训练模块402训练得到的所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

本实施例中。获取模块401获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频，所述获取模块401通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧，所述获取模块401通过所述待训练分类器获取所述待训练视频所对应的分类预测结果，训练模块402根据所述获取模块401获取的所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，其中，所述目标损失函数包括第一损失函数以及第二损失函数，所述第一损失函数用于训练所述待训练分类器，所述第二损失函数用于训练所述待训练跳帧器，生成模块403根据所述训练模块402训练得到的所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

图8是本发明实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 522还具有以下功能：

可选地，CPU 522还用于执行如下步骤：

通过卷积神经网络CNN获取所述L个前瞻视频帧所对应的L个前瞻视频帧特征，其中，每个前瞻视频帧对应一个前瞻视频帧特征；

通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量。

可选地，CPU 522具体用于执行如下步骤：

通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量，其中，所述第一估计向量包括L个第一元素，所述第一元素用于表示前瞻视频帧属于边界帧的概率；

可选地，CPU 522具体用于执行如下步骤：

获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数；

可选地，CPU 522具体用于执行如下步骤：

采用如下方式计算所述前瞻视频帧特征所对应的第一元素：

其中，所述

可选地，CPU 522具体用于执行如下步骤：

根据所述L个前瞻视频帧特征获取L个注意力值，其中，每个注意力值对应一个前瞻视频帧特征；

可选地，CPU 522具体用于执行如下步骤：

采用如下方式计算所述前瞻视频帧特征所对应的第二元素：

其中，所述

可选地，CPU 522具体用于执行如下步骤：

采用如下方式计算所述计划跳帧向量：

可选地，CPU 522还用于执行如下步骤：

若所述计划跳帧向量包括第一分值，则确定所述第一分值所对应的前瞻视频帧属于所述待分类视频帧；

若所述计划跳帧向量包括第二分值，则确定所述第二分值所对应的前瞻视频帧属于待跳过视频帧。

可选地，CPU 522具体用于执行如下步骤：

从所述待分类视频中获取第一目标视频帧所对应的L个第一前瞻视频帧，其中，所述L个第一前瞻视频帧包括所述第一目标视频帧；

若所述第一计划跳帧向量包括第一分值，则获取第二目标视频帧，其中，所述第二目标视频帧对应于所述第一分值；

根据所述第二目标视频帧获取L个第二前瞻视频帧；

本申请实施例还提供了另一种图像显示控制装置，如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器680还具有以下功能：

可选地，处理器680还用于执行如下步骤：

可选地，处理器680具体用于执行如下步骤：

获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数；

可选地，处理器680具体用于执行如下步骤：

可选地，处理器680还用于执行如下步骤：

可选地，处理器680具体用于执行如下步骤：

根据所述第二目标视频帧获取L个第二前瞻视频帧；

本申请实施例中，该终端设备所包括的处理器680还具有以下功能：

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频分类的方法，其特征在于，包括：

从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧表示包括所述目标视频帧以及与所述目标视频帧相邻的后(L-1)个视频帧在内的L个视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况，所述分值元素包括第一分值以及第二分值，所述第一分值表示所述前瞻视频帧属于待分类视频帧，所述第二分值表示所述前瞻视频帧属于待跳过视频帧；

所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量，包括：

获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数；

4.根据权利要求2所述的方法，其特征在于，所述通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第二估计向量，包括：

5.一种视频分类模型训练的方法，其特征在于，包括：

通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧，所述跳帧预测结果用于确定所述待训练视频中跳过的视频帧数量；

根据所述待训练跳帧器模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

6.根据权利要求5所述的方法，其特征在于，所述根据所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，包括：

根据所述分类预测结果，采用所述第一损失函数对所述待训练分类器进行训练，得到所述待训练分类器模型参数；

根据所述跳帧预测结果，采用所述第二损失函数对所述待训练跳帧器进行训练，得到所述待训练跳帧器模型参数。

7.根据权利要求5或6所述的方法，其特征在于，所述第二损失函数表示为：

其中，所述L_budget表示所述第二损失函数，所述T1表示所述跳过的视频帧数量，所述T2表示所述跳过的视频帧数量和未跳过的视频帧数量的总和。

8.根据权利要求7所述的方法，其特征在于，所述目标损失函数表示为：

L＝L_CE+λL_budget；

其中，所述L表示所述目标损失函数，所述L_CE表示所述第一损失函数，所述L_budget表示所述第二损失函数，所述λ表示权重控制参数。

9.一种视频分类装置，其特征在于，包括：

获取模块，用于从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧表示包括所述目标视频帧以及与所述目标视频帧相邻的后(L-1)个视频帧在内的L个视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

所述获取模块，还用于通过卷积神经网络CNN获取所述L个前瞻视频帧所对应的L个前瞻视频帧特征，其中，每个前瞻视频帧对应一个前瞻视频帧特征；

所述获取模块，还用于通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况，所述分值元素包括第一分值以及第二分值，所述第一分值表示所述前瞻视频帧属于待分类视频帧，所述第二分值表示所述前瞻视频帧属于待跳过视频帧；

选择模块，用于根据所述获取模块获取的所述计划跳帧向量生成所述待分类视频所对应的目标视频；

确定模块，用于通过所述视频分类模型中的分类器确定所述选择模块生成的所述目标视频的分类结果；

10.一种视频分类模型训练装置，其特征在于，包括：

所述获取模块，还用于通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧，所述跳帧预测结果用于确定所述待训练视频中跳过的视频帧数量；

选择模块，用于根据所述训练模块训练得到的所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

11.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量；

12.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

13.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至4中任一项所述的方法，或执行如权利要求5至8中任一项所述的方法。