CN109753985A

CN109753985A - 视频分类方法及装置

Info

Publication number: CN109753985A
Application number: CN201711084117.2A
Authority: CN
Inventors: 张立成
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2019-05-14

Abstract

本发明公开了一种视频分类方法及装置，涉及数据处理领域。其中的视频分类方法包括：利用Inception网络模型对待识别视频包含的每帧图像提取图像特征；利用LSTM网络对提取的每帧图像的图像特征进行处理；将处理后的每帧图像的图像特征分别输入全连接层得到每帧图像对应的预设C维的输出；将各帧图像对应的预设C维的输出在每个维度进行融合得到一个新的C维输出，根据新的C维输出确定所述待识别视频的行为类别。本公开的视频分类方案先利用特征学习能力更强的Inception网络模型提取图像特征，再利用LSTM网络处理图像特征，然后基于这些图像特征进行视频分类，从而提高视频分类的准确率。

Description

视频分类方法及装置

技术领域

本公开涉及数据处理领域，特别涉及一种视频分类方法及装置。

背景技术

视频分类是指利用图像分析、视频处理等技术对视频进行分析，识别视频中个体的行为，这些行为例如可能是运动、打球等。

发明内容

本公开实施例所要解决的一个技术问题是：提供一种视频分类方案，提高视频分类的准确率。

根据本公开的一个方面，提出一种视频分类方法，包括：

利用Inception网络模型对待识别视频包含的每帧图像提取图像特征；

利用LSTM(Long Short-Term Memory，长短期记忆)网络对提取的每帧图像的图像特征进行处理；

将处理后的每帧图像的图像特征分别输入全连接层得到每帧图像对应的预设C维的输出；

将各帧图像对应的预设C维的输出在每个维度进行融合得到一个新的C维输出，根据新的C维输出确定所述待识别视频的行为类别。

可选地，将待识别视频包含的每帧图像分别输入Inception网络模型，并将Inception网络模型的降采样层的输出作为每帧图像的图像特征。

可选地，将每帧图像的图像特征依时序分别输入LSTM网络，并将前一帧图像在LSTM网络的输出与当前帧图像的图像特征共同输入LSTM网络得到当前帧图像在LSTM网络的输出。

可选地，将各帧图像对应的预设C维的输出在每个维度进行平均得到一个新的C维输出，新的C维输出中的值较大的维度代表所述待识别视频的行为类别。

可选地，Inception网络模型包括Inception-V4网络模型。

根据本公开的再一个方面，提出一种视频分类装置，包括：

特征提取模块，用于利用Inception网络模型对待识别视频包含的每帧图像提取图像特征；

特征处理模块，用于利用长短期记忆LSTM网络对提取的每帧图像的图像特征进行处理；

视频分类模块，用于将处理后的每帧图像的图像特征分别输入全连接层得到每帧图像对应的预设C维的输出；

视频输出模块，用于将各帧图像对应的预设C维的输出在每个维度进行融合得到一个新的C维输出，根据新的C维输出确定所述待识别视频的行为类别。

可选地，所述特征提取模块，用于将待识别视频包含的每帧图像分别输入Inception网络模型，并将Inception网络模型的降采样层的输出作为每帧图像的图像特征。

可选地，所述视频分类模块，用于将每帧图像的图像特征依时序分别输入LSTM网络，并将前一帧图像在LSTM网络的输出与当前帧图像的图像特征共同输入LSTM网络得到当前帧图像在LSTM网络的输出。

可选地，所述视频输出模块，用于将各帧图像对应的预设C维的输出在每个维度进行平均得到一个新的C维输出，新的C维输出中的值较大的维度代表所述待识别视频的行为类别。

可选地，Inception网络模型包括Inception-V4网络模型。

根据本公开的又一方面，提出一种视频分类装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行前述的视频分类方法。

根据本公开的另一方面，提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的视频分类方法的步骤。

本公开的视频分类方案先利用特征学习能力更强的Inception网络模型提取图像特征，再利用LSTM网络处理图像特征，然后基于这些图像特征进行视频分类，从而提高视频分类的准确率。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开，

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A是本公开视频分类方法一个实施例的流程示意图。

图1B是本公开视频分类方法再一个实施例的流程示意图。

图2是本公开视频分类装置一个实施例的结构示意图。

图3是本公开视频分类装置再一个实施例的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

图1A是本公开视频分类方法一个实施例的流程示意图。

如图1A所示，该实施例的视频分类方法10包括：

步骤110，利用Inception网络模型对待识别视频包含的每帧图像提取图像特征。

其中，输入Inception网络模型的例如可以是待识别视频的RGB(红绿蓝)图像帧。

其中，降采样层负责提取图像的特征，因此，将待识别视频包含的每帧图像分别输入Inception网络模型，并将Inception网络模型的降采样层的输出(1536维)作为每帧图像的图像特征，每帧图像可以提取出1536维的图像特征。

其中，Inception网络模型包括Inception-V1、Inception-V2、Inception-V3、Inception-V4网络模型。其中，Inception-V4网络模型具有更深的层数，更多的参数，特征学习能力更强。

步骤120，利用LSTM(Long Short-Term Memory，长短期记忆)网络对提取的每帧图像的图像特征进行处理。

在一个实施例中，将每帧图像的图像特征(即每帧图像的1536维图像特征)依时序分别输入LSTM网络，并将前一帧图像在LSTM网络的输出与当前帧图像的图像特征共同输入LSTM网络得到当前帧图像在LSTM网络的输出。假设LSTM网络输出的是M维的图像特征。从而，把上文的信息也利用起来，利用多帧的信息综合判断视频的行为。

LSTM网络包含三个门结构：输入门、输出门和遗忘门，分别起到调整输入、调整输出和清除记忆的作用。由于门机制的作用，该网络可以捕捉序列中的长期相关关系，并且可以避免训练递归神经网络中常出现的梯度爆炸和梯度消失的现象。

步骤130，将处理后的每帧图像的图像特征分别输入全连接层得到每帧图像对应的预设C维的输出，输出的每个维度分别代表对应行为类别的概率。

其中，全连接层负责分类。

其中，C的值根据视频中个体可能的行为类别的数量确定。例如，若视频中个体可能的行为类别有C类，则全连接层的输出为C维。

步骤140，将各帧图像对应的预设C维的输出在每个维度进行融合得到一个新的C维输出，根据新的C维输出确定待识别视频的行为类别。

在一个实施例中，将各帧图像对应的预设C维的输出在每个维度进行平均得到一个新的C维输出，新的C维输出中的值较大的维度代表待识别视频的行为类别。

此外，还可以依图像的重要程度设置各帧图像的权值，然后将各帧图像对应的预设C维的输出在每个维度进行加权平均得到一个新的C维输出，将新的C维输出中的值较大的维度代表待识别视频的行为类别。从而进一步提高视频分类的准确率。

其中，根据业务需要，可以选择新的C维输出中的值较大的若干维度代表待识别视频的行为类别。例如，若新的C维输出中的值最大的维度与值第二大的维度之间的差距较大，大于预设值，可以选择新的C维输出中的值较大的维度代表待识别视频最可能的一种行为类别。若新的C维输出中的值较大的维度与值第二大的维度之间的差距较小，小于预设值，可以选择新的C维输出中的值最大的两个维度代表待识别视频可能的两种行为类别。

本实施例的视频分类方案先利用特征学习能力更强的Inception网络模型提取图像特征，再利用LSTM网络处理图像特征，然后基于这些图像特征进行视频分类，从而提高视频分类的准确率。

在UCF-101数据集上的测试结果表明，AlexNet与LSTM模型结合的视频分类方案准确率约为76％，而Inception-V4与LSTM模型结合的视频分类方案准确率约为86％，视频分类的准确率提高了约10％。其中，UCF-101是基于视频的行为识别数据集，共101个行为类别，近13000个视频，训练集约10000个视频，测试集约3000个视频，准确率是指测试集中被识别正确的视频占测试集所有视频的比例。

此外，在利用Inception网络模型和LSTM网络进行视频分类之前，还可以对Inception网络模型和LSTM网络进行训练。Inception网络模型的参数例如包括卷积核以及全连接层的参数及偏置，模型参数可以通过反向传导算法，从数据中学习得到。Inception网络模型的参数还可以使用在ImageNet(图像分类数据集)上训练好的参数进行初始化，之后再根据业务需要进行微调。在Inception网络模型训练好之后，用训练好的Inception网络模型从图像中提取特征；然后把提取的1536维的图像特征作为LSTM循环神经网络的输入，训练LSTM循环神经网络模型。

图1B是本公开视频分类方法再一个实施例的流程示意图。

如图1B所示，该实施例的视频分类方法10包括：

步骤110～130，具体参考图1A所示实施例的描述。

步骤140，将各帧图像对应的预设C维的输出在每个维度进行融合得到一个新的C维输出(设为新的第一C维输出)。

步骤150，根据待识别视频包含的每相邻两帧图像，获得待识别视频的光流图像。例如，相邻两帧图像之差作为光流图像。利用Inception网络模型对待识别视频的每帧光流图像提取图像特征。

采用与步骤110类似的处理，将待识别视频的每帧光流图像分别输入Inception网络模型，并将Inception网络模型的降采样层的输出(1536维)作为每帧光流图像的图像特征，每帧光流图像可以提取出1536维的图像特征。

步骤160，利用LSTM网络对提取的每帧光流图像的图像特征进行处理。

在一个实施例中，将每帧光流图像的图像特征(即每帧光流图像的1536维图像特征)依时序分别输入LSTM网络，并将前一帧光流图像在LSTM网络的输出与当前帧光流图像的图像特征共同输入LSTM网络得到当前帧光流图像在LSTM网络的输出。假设LSTM网络输出的是M维的图像特征。从而，把上文的信息也利用起来，利用多帧的信息综合判断视频的行为。

步骤170，将处理后的每帧光流图像的图像特征分别输入全连接层得到每帧光流图像对应的预设C维的输出。

步骤180，将各帧光流图像对应的预设C维的输出在每个维度进行融合得到一个新的第二C维输出。其中，融合方式参考步骤140。

其中，如图所示，步骤110～140，与步骤150～180，执行不分先后顺序。

步骤190，根据步骤140得到的新的第一C维输出和步骤180得到的新的第二C维输出，确定待识别视频的行为类别。

在一个实施例中，将新的第一C维输出和新的第二C维输出在每个维度进行融合，例如，进行平均，得到第三C维输出，第三C维输出中的值较大的维度代表待识别视频的行为类别。

此外，与步骤140类似的，根据业务需要，可以选择第三C维输出中的值较大的若干维度代表待识别视频的行为类别。具体的选择方式参考步骤140。

需要说明的是，本公开中的第一、第二、第三等描述方式，用来区分不同的对象，并不用来表示大小或时序等含义。例如，第一/第二/第三C维输出分别表示三个不同的C维输出。

本实施例的视频分类方案，对视频的图像和光流图像，均用Inception网络模型和LSTM网络进行特征处理，然后基于这些图像特征进行视频分类，可以进一步提高视频分类的准确率。

图2是本公开视频分类装置一个实施例的结构示意图。

如图2所示，该实施例的视频分类装置20包括：

特征提取模块210，用于利用Inception网络模型对待识别视频包含的每帧图像提取图像特征；

特征处理模块220，用于利用长短期记忆LSTM网络对提取的每帧图像的图像特征进行处理；

视频分类模块230，用于将处理后的每帧图像的图像特征分别输入全连接层得到每帧图像对应的预设C维的输出；

视频输出模块240，用于将各帧图像对应的预设C维的输出在每个维度进行融合得到一个新的C维输出，根据新的C维输出确定待识别视频的行为类别。

其中，特征提取模块210，用于将Inception网络模型的降采样层的输出作为待识别视频包含的每帧图像的图像特征。

其中，视频分类模块230，用于将每帧图像的图像特征依时序分别输入LSTM网络，并将前一帧图像在LSTM网络的输出与当前帧图像的图像特征共同输入LSTM网络得到当前帧图像在LSTM网络的输出。

其中，视频输出模块240，用于将各帧图像对应的预设C维的输出在每个维度进行平均得到一个新的C维输出，新的C维输出中的值较大的维度代表待识别视频的行为类别。

此外，视频输出模块240，还可以依图像的重要程度设置各帧图像的权值，然后将各帧图像对应的预设C维的输出在每个维度进行加权平均得到一个新的C维输出，将新的C维输出中的值较大的维度代表待识别视频的行为类别。从而进一步提高视频分类的准确率。

此外，根据业务需要，视频输出模块240，还可以选择新的C维输出中的值较大的若干维度代表待识别视频的行为类别。例如，若新的C维输出中的值最大的维度与值第二大的维度之间的差距较大，大于预设值，可以选择新的C维输出中的值较大的维度代表待识别视频最可能的一种行为类别。若新的C维输出中的值较大的维度与值第二大的维度之间的差距较小，小于预设值，可以选择新的C维输出中的值最大的两个维度代表待识别视频可能的两种行为类别。

此外，视频分类装置20还可以包括：训练模块(图中未示出)，用来对Inception网络模型和LSTM网络进行训练。

在一个实施例中，特征提取模块210，还用于利用Inception网络模型对待识别视频的每帧光流图像提取图像特征，其中，待识别视频的光流图像根据待识别视频包含的每相邻两帧图像获得；特征处理模块220，还用于利用LSTM网络对提取的每帧光流图像的图像特征进行处理；视频分类模块230，还用于将处理后的每帧光流图像的图像特征分别输入全连接层得到每帧光流图像对应的预设C维的输出；视频输出模块240，还用于将各帧光流图像对应的预设C维的输出在每个维度进行融合得到一个新的第二C维输出，并且，根据新的C维输出和新的第二C维输出确定待识别视频的行为类别。

上述实施例，对视频的图像和光流图像，均用Inception网络模型和LSTM网络进行特征处理，然后基于这些图像特征进行视频分类，可以进一步提高视频分类的准确率。

图3是本公开视频分类装置再一个实施例的结构示意图。

如图3所示，该实施例的视频分类装置30包括：存储器310以及耦接至该存储器310的处理器320，处理器320被配置为基于存储在存储器310中的指令，执行前述任意一个实施例中的视频分类方法。

其中，存储器310例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

装置30还可以包括输入输出接口330、网络接口340、存储接口350等。这些接口330，340，350以及存储器310和处理器320之间例如可以通过总线360连接。其中，输入输出接口330为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口340为各种联网设备提供连接接口。存储接口350为SD卡、U盘等外置存储设备提供连接接口。

本公开还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的视频分类方法的步骤。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种视频分类方法，包括：

利用长短期记忆LSTM网络对提取的每帧图像的图像特征进行处理；

2.如权利要求1所述的方法，其中，将待识别视频包含的每帧图像分别输入Inception网络模型，并将Inception网络模型的降采样层的输出作为每帧图像的图像特征。

3.如权利要求1所述的方法，其中，将每帧图像的图像特征依时序分别输入LSTM网络，并将前一帧图像在LSTM网络的输出与当前帧图像的图像特征共同输入LSTM网络得到当前帧图像在LSTM网络的输出。

4.如权利要求1所述的方法，其中，将各帧图像对应的预设C维的输出在每个维度进行平均得到一个新的C维输出，新的C维输出中的值较大的维度代表所述待识别视频的行为类别。

5.如权利要求1-4任一项所述的方法，其中，Inception网络模型包括Inception-V4网络模型。

6.如权利要求1所述的方法，还包括：

根据待识别视频包含的每相邻两帧图像，获得待识别视频的光流图像；

利用Inception网络模型对待识别视频的每帧光流图像提取图像特征；

利用LSTM网络对提取的每帧光流图像的图像特征进行处理；

将处理后的每帧光流图像的图像特征分别输入全连接层得到每帧光流图像对应的预设C维的输出；

将各帧光流图像对应的预设C维的输出在每个维度进行融合得到一个新的第二C维输出；

并且，

根据新的C维输出和新的第二C维输出确定所述待识别视频的行为类别。

7.一种视频分类装置，包括：

8.如权利要求7所述的装置，其中，所述特征提取模块，用于将待识别视频包含的每帧图像分别输入Inception网络模型，并将Inception网络模型的降采样层的输出作为每帧图像的图像特征。

9.如权利要求7所述的装置，其中，所述视频分类模块，用于将每帧图像的图像特征依时序分别输入LSTM网络，并将前一帧图像在LSTM网络的输出与当前帧图像的图像特征共同输入LSTM网络得到当前帧图像在LSTM网络的输出。

10.如权利要求7所述的装置，其中，所述视频输出模块，用于将各帧图像对应的预设C维的输出在每个维度进行平均得到一个新的C维输出，新的C维输出中的值较大的维度代表所述待识别视频的行为类别。

11.如权利要求7-10任一项所述的装置，其中，Inception网络模型包括Inception-V4网络模型。

12.如权利要求7所述的装置，其中，

所述特征提取模块，还用于利用Inception网络模型对待识别视频的每帧光流图像提取图像特征，其中，待识别视频的光流图像根据待识别视频包含的每相邻两帧图像获得；

所述特征处理模块，还用于利用LSTM网络对提取的每帧光流图像的图像特征进行处理；

所述视频分类模块，还用于将处理后的每帧光流图像的图像特征分别输入全连接层得到每帧光流图像对应的预设C维的输出；

所述视频输出模块，还用于将各帧光流图像对应的预设C维的输出在每个维度进行融合得到一个新的第二C维输出，并且，根据新的C维输出和新的第二C维输出确定所述待识别视频的行为类别。

13.一种视频分类装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-6中任一项所述的视频分类方法。

14.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-6中任一项所述的视频分类方法的步骤。