CN112818914B

CN112818914B - 一种视频内容的分类方法及装置

Info

Publication number: CN112818914B
Application number: CN202110207205.7A
Authority: CN
Inventors: 吴凯琳; 姜波; 杨杨; 胡光龙; 陈鸿翔; 袁芷露; 张炫
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-08-18
Anticipated expiration: 2041-02-24
Also published as: CN112818914A

Abstract

本申请涉及计算机技术领域，提供一种视频内容的分类方法及装置，该方法包括：基于获取到的多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征；一个候选图像特征集合包含多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的；基于最小尺度的候选图像特征集合，确定第一目标图像特征，并基于第一目标图像特征和多个目标动态特征，确定多帧视频图像所包含的视频内容的类别。基于目标图像特征和多个动态特征生成的分类结果更加准确，解决视频内容分类准确率低、实时性差的问题。

Description

一种视频内容的分类方法及装置

技术领域

本申请涉及计算机技术领域，提供了一种视频内容的分类方法及装置。

背景技术

随着互联网业务的高速发展，视频类业务逐渐成为常见的娱乐方式。通过视频、音频等形式输出内容，并与用户产生互动，而视频内容与用户兴趣的契合度会影响用户的互动氛围，对用户体验造成很大影响，因此，需要实时确认视频内容的类别，并根据视频内容的类别将视频推荐给相应的用户群体。

以直播类视频业务为一种可能的应用场景，随着直播业务的爆炸式上涨，人工标记直播内容的方式无法满足现有需求，而且一场直播中的直播内容也会频繁变化，仅仅依靠主播选择的开播内容也无法准确地确定直播内容的类别。相关技术提出了一种通过分析直播画面确定直播内容的方式，但在这种方式中，通常只截取当前一帧直播画面，或者截取当前时刻之后的N帧直播画面，不仅实时性较差，基于该帧直播画面获得的分析结果，其准确率也较低。

有鉴于此，本申请实施例提供了一种新的视频内容的分类方法及装置。

发明内容

本申请实施例提供一种视频内容的分类方法及装置，以解决视频内容分类准确率低、实时性差的问题。

第一方面，本申请实施例提供了一种视频内容的分类方法，包括：

获取多帧视频图像；

基于所述多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征；其中，一个候选图像特征集合包含所述多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的；

基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于所述第一目标图像特征和所述多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别。

可选的，所述获取多帧视频图像，包括：

按照设定周期多次截取视频图像，获取所述多帧视频图像；其中，每截取一帧视频图像，将所述一帧视频图像添加到预设队列的队尾中。

可选的，所述每截取一帧视频图像，将所述一帧视频图像添加到预设队列的队尾之后，还包括：

若所述队列中存储的帧数大于设定帧数，则删除位于所述队列的队首的视频图像。

可选的，所述设定帧数为最小设定帧数的倍数。

可选的，所述基于所述多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征，包括：

将所述多帧视频图像输入图像分类子网络中，所述图像分类子网络包含多个第一特征提取层，其中，每个第一特征提取层分别用于实现以下操作：

若所述第一特征提取层位于所述图像分类子网络的首位，则将所述多帧视频图像输入所述第一特征提取层进行特征提取，获得所述候选图像特征集合，并基于所述候选图像特征集合获得对应的目标动态特征；

若所述第一特征提取层未位于所述图像分类子网络的首位和末位，则将上一个第一特征提取层输出的候选图像特征集合输入所述第一特征提取层进行特征提取，获得新的候选图像特征集合，并基于所述新的候选图像特征集合获得对应的目标动态特征；

其中，每经过一次特征提取，等比例缩小获得的所述新的候选图像特征集合的尺度。

可选的，所述基于所述候选图像特征集合，获得对应的目标动态特征，包括：

将所述候选图像特征集合输入动态检测子网络的时域融合模块中，通过以下方式获得与所述候选图像特征集合尺度相同的所述目标动态特征，其中，所述时域融合模块包含多个特征提取层和多个池化层：

将所述候选图像特征集合输入第二特征提取层进行特征提取，获得第一候选动态特征集合；

将所述第一候选动态特征集合输入第一池化层进行池化处理，获得第二候选动态特征集合；

将所述第二候选动态特征集合输入第三特征提取层进行特征提取，获得第三候选动态特征集合；

将所述第三候选动态特征集合输入第二池化层进行池化处理，获得第四候选动态特征集合；

基于所述第一候选动态特征集合、所述第二候选动态特征集合和所述第四候选动态特征集合，生成所述目标动态特征。

可选的，所述基于所述第一候选动态特征集合、所述第二候选动态特征集合和所述第四候选动态特征集合，生成所述目标动态特征，包括：

将所述第一候选动态特征集合、所述第二候选动态特征集合和所述第四候选动态特征集合进行拼接，获得第五候选动态特征集合；

将所述第五候选动态特征集合输入所述第三池化层进行池化处理，生成所述目标动态特征。

可选的，所述基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，包括：

将所述最小尺度的候选图像特征集合输入所述图像分类子网络的第四池化层进行池化处理，获得所述第一目标图像特征。

可选的，所述基于所述第一目标图像特征和所述多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别，包括：

将所述第一目标图像特征和所述多个目标动态特征进行拼接，获得分类特征；

将所述分类特征输入所述图像分类子网络的全连接层中，获得所述多帧视频图像所包含的视频内容的类别。

可选的，还包括：

若所述队列中存储的帧数小于所述设定帧数阈值，则将当前截取的一帧视频图像输入图像分类子网络中，通过以下方式确定所述一帧视频图像所包含的视频内容的类别：

将所述一帧视频图像输入所述图像分类子网络进行多次特征提取，获得最小尺度的候选图像特征；

将所述候选图像特征输入所述图像分类子网络的第四池化层进行池化处理，获得第二目标图像特征；

将所述第二目标图像特征输入所述图像分类子网络的全连接层中，获得所述一帧视频图像所包含的视频内容的类别。

可选的，在确定出所述多帧视频图像所包含的视频内容的类别之后，还包括：

若所述视频内容的类别为设定类别，则向用户偏好为所述设定类别的用户推送对应的视频。

第二方面，本申请实施例还提供了一种视频内容的分类装置，包括：

采集单元，用于获取多帧视频图像；

特征提取单元，用于基于所述多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征；其中，一个候选图像特征集合包含所述多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的；

分类单元，用于基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于所述第一目标图像特征和所述多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别。

可选的，所述采集单元用于：

可选的，所述每截取一帧视频图像，将所述一帧视频图像添加到预设队列的队尾之后，所述采集单元还用于：

可选的，所述设定帧数为最小设定帧数的倍数。

可选的，所述特征提取单元用于：

可选的，所述分类单元用于：

可选的，所述分类单元还用于：

可选的，在确定出所述多帧视频图像所包含的视频内容的类别之后，所述分类单元还用于：

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种视频内容的分类方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种视频内容的分类方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频内容的分类方法及装置，该方法包括：基于获取到的多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征；其中，一个候选图像特征集合包含多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的；再基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于第一目标图像特征和多个目标动态特征，确定多帧视频图像所包含的视频内容的类别。针对难以通过单帧图像识别视频内容状态变化的问题，本申请实施例实时获取当前时刻及之前的多帧视频图像，并将多帧视频图像输入图像分类子网络和动态检测子网络中进行处理，由于图像分类子网络中增加了多尺度融合结构、动态检测子网络中增加了时域融合结构，可以有效提高视频内容识别的准确度和满足识别的实时性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中视频内容分类系统的架构示意图；

图2a为本申请实施例中视频内容的分类方法的流程示意图；

图2b为本申请实施例中队列存储多帧直播画面的示意图；

图2c为本申请实施例中队列存储多帧视频图像的示意图；

图3为本申请实施例中的一种视频内容的分类装置的组成结构示意图；

图4为本申请实施例中的一种计算机设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

经过前述背景技术的介绍可知，相关技术中采用的视频内容类别检测方式存在实时性差、准确率低的问题，因此，为了解决该问题，本申请实施例提供了一种新的视频内容的分类方法及装置。

本申请实施例将截取到的多帧视频图像输入视频内容分类系统，获得视频内容的分类结果，参阅图1示出的视频内容分类系统的架构示意图，先对该系统的组成架构进行介绍。

视频内容分类系统是由图像分类子网络和动态检测子网络组成的神经网络，其中，图像分类子网络为主干网络，用于从多帧视频图像中提取二维图像特征和执行视频分类任务，前者获得不同尺度的多个候选图像特征集合，后者获得视频内容的分类结果；动态检测子网络为支路网络，用于从不同尺度的多个候选图像特征集合中提取三维动态特征，以便描述该视频内容中的对象所执行的动作，这样，在传统的二维图像特征的基础上，引入三维动态特征，可以更好地帮助主干网络对视频内容进行分类，有效提高分类准确率。

常用的网络结构如视觉几何群网络(Visual Geometry Group Network，VGG)、深度残余网络(Deep Residual Network，ResNet)、Inception等均可作为主干网络的特征提取层的网络结构，图1示出的主干网络的特征提取层采用了ResNet网络结构，ResNet主要是由多个残差块构成的残差网络，每个残差块均为一个二维(2Dimensional，2D)卷积，可以获取多帧视频图像中每个像素点四周的信息(即二维图像特征)，而且ResNet还可以有效解决神经网络训练过程中的梯度消失和梯度爆炸问题，保证训练出的神经网络具备良好的性能。主干网络使用多尺度的动态特征和ResNet输出的第一目标图像特征确定分类结果，因此，如图1所示的主干网络在ResNet网络结构的基础上还增加了具备多尺度融合结构的全连接层，在传统的二维图像特征的基础上引入三维动态特征，可以更好地帮助主干网络对视频内容进行分类，有效提高分类准确率。

图1所示的支路网络包含多个具备时域融合结构的时域融合模块，每个时域融合模块由多个特征提取层和多个池化层组成，每个特征提取层中包含了多个三维(3Dimensional，3D)卷积，可以提取出对应的候选图像特征集合中每个像素点四周的信息以及前后帧的信息(即三维动态特征)。

接下来，参阅图2a示出的流程示意图，对应用视频内容分类系统对获取到的视频内容进行分类的过程进行介绍。

S201：获取多帧视频图像。

经过前述的介绍可知，在相关技术中通常只截取当前一帧的视频画面，或者从当前时刻起截取N帧视频画面，无法满足实时获取视频画面的需求，有鉴于此，本申请实施例提供了一种多帧视频画面实时截取的方案。该方案具体包括：多帧视频图像获取模块按照设定周期多次截取视频图像，获取多帧视频图像。在本申请实施例中，视频图像可为直播画面、短视频的图像、影视作品的图像等多种形式的多媒体资源的图像。

其中，队列采取“先进先出”的原则，每截取一帧视频图像，将该帧视频图像添加到预设队列的队尾中，若队列中存储的帧数大于设定帧数阈值，则删除位于队列的队首的视频图像。为了便于计算，本申请实施例中设定帧数为最小设定帧数的倍数。例如，最小设定帧数为4帧，则设定帧数可设为4帧、8帧、12帧或者其他倍数的帧数。

例如，参阅图2b示出的示意图，以直播为例，设定帧数阈值为4，在直播开始时(默认为t0时刻)截取直播流中当前一帧的直播画面F0，并将F0存储在队列的队首；之后，间隔x秒在t1时刻截取直播流中当前一帧的直播画面F1，并将F1存储在队列的队尾；以此类推，直至队列中存储4帧直播画面为止，将此时队列中的N帧直播画面输入视频内容分类系统进行后续处理。若继续获取到新的一帧直播画面，则将新的一帧直播画面存到队列队尾，同时删除队列队首的直播画面，以此类推，保持队列中存储的总帧数为4帧。

再例如，参阅图2c示出的示意图，以视频播放为例，设定帧数阈值为4，从后台服务器中获取一个视频，并在t0时刻截取该视频中当前一帧的视频图像V0，将V0存储在队列的队首；之后，间隔x秒在t1时刻截取该视频中当前一帧的视频图像V1，并将V1存储在队列的队尾；以此类推，直至队列中存储4帧视频图像为止，将此时队列中的N帧视频图像输入视频内容分类系统进行后续处理。若继续获取到新的一帧视频图像，则将新的一帧视频图像存到队列队尾，同时删除队列队首的视频图像，以此类推，保持队列中存储的总帧数为4帧。

在执行步骤201的过程中，若队列中未存储满设定帧数的视频图像，则同时运行单帧视频图像获取模块和多帧视频图像获取模块，由单帧视频图像获取模块按照设定周期截取当前一帧视频图像，并将该帧视频图像输入主干网络中进行视频内容分类处理，直至队列中存储的视频图像的总帧数达到设定帧数，停止运行单帧视频图像获取模块，由多帧视频图像获取模块继续执行步骤202。

S202：基于多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征；其中，一个候选图像特征集合包含多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的。

可选的，将多帧视频图像输入图像分类子网络中，根据前述的介绍可知，在图像分类子网络中包含多个第一特征提取层，其中，每个第一特征提取层分别用于实现以下操作：

若第一特征提取层位于图像分类子网络的首位，则将多帧视频图像输入第一特征提取层进行特征提取，获得候选图像特征集合，并基于候选图像特征集合获得对应的目标动态特征；

若第一特征提取层未位于图像分类子网络的首位和末位，则将上一个第一特征提取层输出的候选图像特征集合输入第一特征提取层进行特征提取，获得新的候选图像特征集合，并基于新的候选图像特征集合获得对应的目标动态特征；

其中，每经过一次特征提取，等比例缩小获得的新的候选图像特征集合的尺度。

例如，第一特征提取层1输出的候选图像特征集合的尺度为4×256×56×56(此处的56为候选图像特征的宽、高，并非图1中的特征维数；4为输入图像分类子网络的图像总数)，对应的目标动态特征为256维的特征；

第一特征提取层2输出的候选图像特征集合的尺度为4×512×28×28，对应的目标动态特征为512维的特征；

第一特征提取层3输出的候选图像特征集合的尺度为4×1024×14×14，对应的目标动态特征为1024维的特征。

随着网络深度的加深，提取出的候选图像特征集合所表示的感受野也愈大，检测性能也愈好，而且由于本申请实施例中使用了ResNet网络结构，还可以有效解决神经网络训练过程中的梯度消失和梯度爆炸问题，保证训练出的神经网络具备良好的性能。

除了最后一个第一特征提取层外，其他第一特征提取层输出的候选图像特征集合，均作为支路网络中对应的第二特征提取层的输入，依次经过卷积、池化处理后，得到对应的目标动态特征。为了便于描述，结合图1示出的示意图，以一个候选图像特征集合为例，介绍生成对应的目标动态特征的过程。

将候选图像特征集合输入第二特征提取层中进行特征提取，获得第一候选动态特征集合，再将第一候选动态特征集合输入第一池化层进行池化处理，获得第二候选动态特征集合；将第二候选动态特征集合输入第三特征提取层进行特征提取，获得第三候选动态特征集合，再将第三候选动态特征集合输入第二池化层进行池化处理，获得第四候选动态特征集合；最后，基于第一候选动态特征集合、第二候选动态特征集合和第四候选动态特征集合，生成目标动态特征。

其中，基于第一候选动态特征集合、第二候选动态特征集合和第四候选动态特征集合，生成目标动态特征的过程为，将第一候选动态特征集合、第二候选动态特征集合和第四候选动态特征集合进行拼接，获得第五互选动态特征集合，再将第五候选动态特征集合输入第三池化层进行池化处理，生成目标动态特征。拼接不同维度的候选动态特征，获得多帧视频图像的不同感受野大小的动态特征，有助于提高检测精度，获得更加准确的目标动态特征，可以更好地帮助主干网络对视频内容进行分类，有效提高分类准确率。

例如，向时域融合模块1输入候选图像特征集合(8×256×56×56)(其中，56×56表示一个候选图像特征的尺度，256表示一个候选图像特征的维度，8为输入时域融合模块1的图像总数)，通过一个(3×3×3)的3D卷积生成第一候选动态特征集合FM1(8×256×56×56)，再通过一个(2×1×1)的最大池化层获得第二候选动态特征集合FM2(4×256×56×56)；

通过一个(3×3×3)的3D卷积生成第三候选动态特征集合(4×256×56×56)，再通过一个(2×1×1)的最大池化层获得第二候选动态特征集合FM3(2×256×56×56)；

拼接FM1、FM2和FM3，得到(14×256×56×56)的候选图像特征集合，再通过一个(7×1×1)、步长为7、且不进行填充的3D卷积，生成(2×256×56×56)，通过对(2×256×56×56)进行平均池化获得(1×256×56×56)，最终经过全局池化，获得(1×256)的目标动态特征。

无论是直播还是短视频、或者影视作品等，画面中的目标对象很难长时间保持同一状态(如，主播突然离开直播间、短视频中的女生慢慢起身跳舞等)，而目标对象状态的转换又会影响检测当前视频内容的类别，因此，为了准确检测视频内容的类别，采用动态检测子网络生成多个目标动态特征，可以更好地帮助主干网络对视频内容进行分类，有效提高分类准确率。

S203：基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于第一目标图像特征和多个目标动态特征，确定多帧视频图像所包含的视频内容的类别。

可选的，先将最小尺度的候选图像特征集合输入图像分类子网络的第四池化层进行池化处理，获得第一目标图像特征。例如，图1中的残差块4输出最小尺度的候选图像特征集合，该集合经过全局平均池化层后得到了2048维的第一目标图像特征。

再将第一目标图像特征和多个目标动态特征进行拼接，获得分类特征；将分类特征输入图像分类子网络的全连接层中，获得多帧视频图像所包含的视频内容的类别。本申请实施例的图像分类子网络中增加了多尺度融合结构、动态检测子网络中增加了时域融合结构，这样不仅能够提取传统的二维图像特征，还在传统的二维图像特征的基础上引入三维动态特征，确定视频内容所包含的目标对象状态，有效解决难以通过单帧图像识别视频内容状态变化的问题，还可以更好地帮助主干网络对视频内容进行分类，有效提高分类准确率。

在介绍步骤201时提到了若队列中未存储满设定帧数的视频图像，则同时运行单帧视频图像获取模块和多帧视频图像获取模块，由单帧视频图像获取模块按照设定周期截取当前一帧视频图像，并将该帧视频图像输入主干网络中进行视频内容分类处理。因此，下面详细介绍下这种检测方式。

将该帧视频图像输入图像分类子网络进行多次特征提取，获得最小尺度的候选图像特征；将候选图像特征输入图像分类子网络的第四池化层进行池化处理，获得第二目标图像特征；再将第二目标图像特征输入图像分类子网络的全连接层中，获得该帧视频图像所包含的视频内容的类别。由于本申请实施例中的队列可在较短时间内截取到设定帧数的视频图像，因此，将这种方式作为过渡手段，不仅不会影响到检测准确性，还可以保证检测视频内容类别不中断，满足实时检测视频内容类别的需求。

在执行完步骤203以后，若视频内容的类别为设定类别，则向用户偏好为设定类别的用户推送对应的视频。例如，经过视频内容分类系统的检测，当前直播间的内容被判定为舞蹈类直播，则向喜欢观看舞蹈视频、喜欢观看舞蹈教学视频的用户推送该直播间；又例如，经过视频内容分类的检测，当前短视频的内容被判定为拍照教学类视频，则向喜欢观看该类短视频的用户的推荐页推送该短视频，使得用户在瀑布流推荐页中下滑查看到该短视频，提高了用户推荐命中率和转化率，提升了用户体验的同时，也增加了用户粘性。

参阅图3示出的视频内容的分类装置的结构示意图，该装置包括获取单元301、特征提取单元302和分类单元303，其中，

采集单元301，用于获取多帧视频图像；

特征提取单元302，用于基于所述多帧视频图像，确定不同尺度的多个候选图像特征集合和对应的多个目标动态特征；其中，一个候选图像特征集合包含所述多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的；

分类单元303，用于基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于所述第一目标图像特征和所述多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别。

可选的，所述采集单元301用于：

可选的，所述每截取一帧视频图像，将所述一帧视频图像添加到预设队列的队尾之后，所述采集单元301还用于：

可选的，所述设定帧数为最小设定帧数的倍数。

可选的，所述特征提取单元302用于：

可选的，所述分类单元用于：

可选的，所述分类单元303用于：

可选的，所述分类单元303还用于：

可选的，在确定出所述多帧视频图像所包含的视频内容的类别之后，所述分类单元303还用于：

在一些可能的实施方式中，本申请实施例还提供一种计算机设备，参阅图4所示，聚焦设备可以至少包括至少一个处理器401、以及至少一个存储器402。其中，存储器402存储有程序代码，当程序代码被处理器401执行时，使得处器401执行本说明书上述描述的根据本申请各种示例性实施方式的视频内容的分类方法中的步骤。例如，处理器401可以执行如图2a所示的步骤。

在一些可能的实施方式中，本申请提供的视频内容的分类方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频内容的分类方法中的步骤，例如，计算机设备可以执行如图2a中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于业务控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频内容的分类方法，其特征在于，包括：

获取多帧视频图像；

基于所述多帧视频图像，将所述多帧视频图像输入图像分类子网络中，所述图像分类子网络包含多个第一特征提取层，其中，每个第一特征提取层分别用于实现以下操作：

若所述第一特征提取层位于所述图像分类子网络的首位，则将所述多帧视频图像输入所述第一特征提取层进行特征提取，获得候选图像特征集合，并基于所述候选图像特征集合获得对应的目标动态特征；

若所述第一特征提取层未位于所述图像分类子网络的首位和末位，则将上一个第一特征提取层输出的候选图像特征集合输入所述第一特征提取层进行特征提取，获得新的候选图像特征集合，并基于所述新的候选图像特征集合获得对应的目标动态特征，其中，一个候选图像特征集合包含所述多帧视频图像各自对应的候选图像特征，同一候选图像特征集合中的各个候选图像特征的尺度相同，每个候选图像特征集合之间的尺度不同，一个目标动态特征是基于同一尺度的候选图像特征集合确定的，每经过一次特征提取，等比例缩小获得的所述新的候选图像特征集合的尺度；

基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于所述第一目标图像特征和多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别。

2.如权利要求1所述的方法，其特征在于，所述获取多帧视频图像，包括：

3.如权利要求2所述的方法，其特征在于，所述每截取一帧视频图像，将所述一帧视频图像添加到预设队列的队尾之后，还包括：

4.如权利要求3所述的方法，其特征在于，所述设定帧数为最小设定帧数的倍数。

5.如权利要求1所述的方法，其特征在于，所述基于所述候选图像特征集合，获得对应的目标动态特征，包括：

6.如权利要求5所述的方法，其特征在于，所述基于所述第一候选动态特征集合、所述第二候选动态特征集合和所述第四候选动态特征集合，生成所述目标动态特征，包括：

将所述第五候选动态特征集合输入第三池化层进行池化处理，生成所述目标动态特征。

7.如权利要求1所述的方法，其特征在于，所述基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，包括：

8.如权利要求1所述的方法，其特征在于，所述基于所述第一目标图像特征和所述多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别，包括：

9.如权利要求3所述的方法，其特征在于，还包括：

10.如权利要求1-9任一项所述的方法，其特征在于，在确定出所述多帧视频图像所包含的视频内容的类别之后，还包括：

11.一种视频内容的分类装置，其特征在于，包括：

采集单元，用于获取多帧视频图像；

分类单元，用于基于最小尺度的候选图像特征集合，确定对应的第一目标图像特征，并基于所述第一目标图像特征和所述多个目标动态特征，确定所述多帧视频图像所包含的视频内容的类别；

所述特征提取单元用于：

12.如权利要求11所述的装置，其特征在于，所述采集单元用于：

13.如权利要求12所述的装置，其特征在于，所述每截取一帧视频图像，将所述一帧视频图像添加到预设队列的队尾之后，所述采集单元还用于：

14.如权利要求13所述的装置，其特征在于，所述设定帧数为最小设定帧数的倍数。

15.如权利要求11所述的装置，其特征在于，所述特征提取单元用于：

16.如权利要求15所述的装置，其特征在于，所述特征提取单元用于：

17.如权利要求11所述的装置，其特征在于，所述分类单元用于：

18.如权利要求11所述的装置，其特征在于，所述分类单元用于：

19.如权利要求13所述的装置，其特征在于，所述分类单元还用于：

20.如权利要求11-19任一项所述的装置，其特征在于，在确定出所述多帧视频图像所包含的视频内容的类别之后，所述分类单元还用于：

21.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～10中任一项所述方法的步骤。

22.一种计算机可读存储介质，其特征在于，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1～10中任一项所述方法的步骤。