CN104966104A

CN104966104A - 一种基于三维卷积神经网络的视频分类方法

Info

Publication number: CN104966104A
Application number: CN201510380973.7A
Authority: CN
Inventors: 孙建德; 赵冬; 李静
Original assignee: Individual
Current assignee: Shandong Management University
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-10-07
Anticipated expiration: 2035-06-30
Also published as: CN104966104B

Abstract

本发明公开了一种基于三维卷积神经网络的视频分类的方法，属于视频处理技术领域。此方法将视频等间隔采样为多个视频段，扩增了视频数据库，将三维视频段直接输入到3D CNN中，同时提取视频的时域和空域特征，改善了传统视频分类方法因人工选取视频特征及视频建模方式的局限性。并行分布式3D CNN多分类模型降低了3D CNN学习的复杂度，同时使得分类系统更方便的实现分布式并行计算。基于3D CNN多分类系统能够仅用较少的视频段就达到较高的识别率，并能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。

Description

一种基于三维卷积神经网络的视频分类方法

技术领域

本发明涉及一种视频分类的方法，属于视频处理技术领域。

背景技术

随着多媒体技术和互联网技术的发展，现在人们可以从各种渠道方便的获得许多的视频数据，但是由于这些海量的视频数据太过于庞大，如何对这些视频数据进行分类，使人们能够更加方便的获取自己感兴趣的数据成为计算机视觉领域里面非常重要同时也非常具有挑战性的研究热点之一。

对视频的分类技术主要包括基于视频的视觉信息、文字信息和音频信息三种方法，视觉信息作为视频中最重要的信息，也是包含视频信息最多，最能代表视频类别的信息，因此也最值得研究。传统的基于视觉信息的视频分类技术涉及到特征提取、视频建模、分类技术三个方面的内容。在特征提取环节，研究者通常自主选择视频帧的全局或局部特征来表示视频，如HSV、LBP等特征，但这种表示方法不能全面而准确的描述视频内容，也忽略了视频的时域特征。视频是连续的图像序列，因此具有时间和空间上的相关性，对视频的准确描述应该能够同时捕捉视频空域和时域两个方面的特性。三维卷积神经网络(3D CNN)可以直接将视频作为三维数据输入，避免了人为选择视频特征的局限性，并且三维的输入模式保证了视频在时间上的连续性，为同时提取视频的时域和空域特征提供了新的途径。同时，基于机器学习的卷积神经网络避免了视频建模环节，而是从大量的视频数据中通过学习的方式得到较优的分类效果，改善了因人工建模选取的不适对分类效果的影响。

虽然三维卷积神经网络在处理视频方面具有优势，但目前其应用受到数据资源不足、三维卷积神经网络的训练过程复杂等问题的制约。基于机器学习的卷积神经网络的训练需要大量的视频数据，数量级应达到几千甚至几万，而现有的视频数据库每一类视频的数量基本在100个左右，如CC_WEB_VEIDEO数据库的第二类拷贝视频数量为122，第六类数量为45等，视频数据的数量远远满足不了卷积神经网络的要求。另外，在视频分类应用中，基于卷积神经网络的模式分类通常采用多类别模型，即网络输出端设计多个节点表示多个类别。由此导致的结果是，当类别数目增加时，网络的构建难度以及计算复杂度会急剧增加，对硬件配置的要求也较高。同时，多类别模型只能对已有类别的视频正确分类，当输入类别之外的视频时，网络会将其错误分到已有类别中的某类中。因此，如何克服上述问题，在现有视频数据资源和硬件配置的条件下，降低网络构建难度，实现快速、实用的视频分类系统已成为大数据多媒体应用的一个重要课题。

发明内容

本发明的目的在于提供一种基于小规模视频数据集和较低配置硬件条件下的视频分类方法，该方法通过数据集扩增和三维卷积神经网络的分布式并行运算方式，将视频多分类问题转化为二分类问题，既解决了视频数据资源不足的难题，又大大降低了三维卷积神经网络学习的复杂度。在分类识别阶段，本发明提出的方法能够仅用较少的几个视频段就达到较高的识别率，并能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。

本发明采用以下技术方案：

一种基于三维卷积神经网络3D CNN的视频分类方法，该方法构建了并行分布式的三维卷积神经网络多分类模型，并对视频库进行扩增处理，该方法包括以下步骤：

(1)读取视频库中的视频，对视频帧进行灰度化处理；

(2)通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帧数为k的视频段，且任意视频段均无重复的帧；

(3)对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集；

(4)构建C个3D CNN网络，C是数据集中的类别数，每个3D CNN以视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点，利用每一类视频的训练数据集训练属于该类的3D CNN，使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别；

(5)构建并行分布式3D CNN多分类模型，将C个训练好的3D CNN进行并联，在并联末端设置分类机制，通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类；

(6)待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。

针对本发明的上述方法，对视频帧进行灰度化处理使计算量降低，速度提高；等间隔采样对视频分段的方法保证了每个视频段都能最大化的呈现视频的全部内容；利用3D CNN的三维输入特性为同时提取视频的时域和空域特征提供了新的途径；采用并行分布式3D CNN多分类框架便于多机分布式并行计算，解决了类别数目增加带来的网络构建难度以及计算复杂度急剧增加的问题，降低了对硬件的配置高要求。

在进一步改进的方案中，上述基于三维卷积神经网络的视频分类方法，步骤(2)中视频段的分类方法为等间隔采样，设视频段的帧数固定为k，分段方法如下：

设视频所有帧为F₁,F₂,…,F_n，则分成的视频段数为m＝floor(n,k)，其中floor函数为向下取整，分成的视频段为：

视频段1：F₁,F_1+m,F_1+2m,…,F_1+(k-1)×m

视频段2：F₂,F_2+m,F_2+2m,…,F_2+(k-1)×m

视频段m:F_m,F_2m,F_3m,…,F_k×m

上述基于三维卷积神经网络的视频分类方法，步骤(3)中针对每一类视频的训练测试数据集的制作方法为：

设视频库中视频的类别总数为C，则第a类视频的训练正样本为属于第a类视频的视频段，训练负样本为不属于第a类视频的视频段，样本标签为{1,0}，其中1表示属于第a类，0表示不属于第a类；每一类的测试样本是相同的，分为三种：属于该类的视频段、不属于该类而属于其他类的视频段、不属于任意类的视频段。

上述基于三维卷积神经网络的视频分类方法，步骤(4)中以视频段作为输入的3D CNN的结构模型为：

3D CNN的卷积层：卷积核为三维，卷积后得到的特征图也为三维。卷积层第i层第j个特征图在(x,y,z)位置处的值为：

f_{i j}^{x y z} = s i g m (b_{i j} + \underset{n}{Σ} Σ_{p = 0}^{p_{i} - 1} Σ_{q = 0}^{q_{i} - 1} Σ_{r = 0}^{r_{i} - 1} w_{i j n}^{p q r} f_{(i - 1) n}^{(x + p) (y + q) (z + r)})

其中，sigm(·)为sigmoid函数，b_ij是第i层第j个特征图的偏置，n指与当前特征图连接的上一层特征图的集合，p_i、q_i、r_i分别指第i层卷积核的长、宽、高，是与上层特征图连接的卷积核在(p,q,r)处的值。

3D CNN的采样层：只将上一层特征图第一维和第二维下采样，第三维维数不变。采样层第i层第j个特征图表示为：

f_ij＝sigm(β_ijdown(f_(i-1)j)+b_ij)

其中，β_ij和b_ij分别是第i层第j个特征图的乘子偏差和附加偏差，down(·)是降采样函数，这个函数使输入的数据在第一维和第二维每一个不同的n×n区域求和取平均，使第一维和第二维的维数均减小n倍，其它维数保持不变。

3D CNN的输出层：输出层全连接，输出节点数为2，实现该类两分类问题。

上述基于三维卷积神经网络的视频分类方法，步骤(5)中并联末端分类机制为：

将输入的未知类别视频的视频段分别送入不同类的CNN网络中，计算每个类中视频段的识别率，视频类别c的计算公式为：

其中，c＝0表示该视频不属于库中任意类，r_i表示第i个网络的视频段识别率，T为判断视频类别阈值，取50％。

视频段识别率r_i的定义为：

基于三维卷积神经网络的视频分类技术直接以视频段作为输入，通过学习的方式提取特征进行分类，避免了人工特征提取和视频建模阶段，提升了分类性能，并且视频的三维输入模式保证了视频在时间上的连续性，同时提取视频的时域和空域特征，全面而准确的表示视频内容。等间隔采样的分段方法扩增了视频数据库，解决了视频数据资源不足的难题，并且此分段方法保证每个视频段均能最大化呈现视频内容，在测试阶段，只需输入少数视频段就能达到较高的识别率，大大节省了识别时间，为视频分类的实时处理提供了新途径。为每类视频构建一个3D CNN网络两两分类，降低了同时构建多类别网络的网络复杂度，同时并联多分类模型方便系统进行分布式并行运行。除此之外，基于三维卷积神经网络的多网络视频分类系统能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。

附图说明

图1为视频分段方法示意图；

图2为三维卷积神经网络结构图；

图3为视频分类训练阶段示意图；

图4为视频分类测试阶段示意图。

具体实施方式

下面结合附图对发明作进一步描述：

依据本发明，提供一种视频分类方法，首先读取视频库中的视频，对视频帧进行灰度化处理；其次通过等间隔采样的方式将灰度化后的视频采样为固定帧数的视频段；针对每一类视频，以视频段为单元，制定不同的训练测试数据集，为每个视频段设定标签，标签分为属于这一类与不属于这一类两种；为每一类视频初始化一个3D CNN网络，用该类对应的训练样本训练该网络，使3D CNN对类内和类外多个视频段进行两类别分类；将训练好的多个3D CNN进行并联，在并联末端设置分类机制，通过比较多个3D CNN识别的该视频段的比例即可判断该视频的类别。

依据本发明的视频分类方法主要包括以下步骤：

(1)读取视频库中的视频，对视频帧进行灰度化处理；

(4)构建C个3D CNN网络，C是数据集中的类别数，每个3D CNN以视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN，使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别；

下面对上述步骤进行详述：

1.读取视频库中的视频，对视频帧进行灰度化处理。

采用CC_WEB视频库，该库包含24类视频，将视频帧进行灰度化处理，降低计算量，提高运行速度。

2.通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帧数为k的视频段，且任意视频段均无重复的帧。

设视频段的帧数固定为k，分段方法如下所示：

视频段1：F₁,F_1+m,F_1+2m,…,F_1+(k-1)×m

视频段2：F₂,F_2+m,F_2+2m,…,F_2+(k-1)×m

视频段m:F_m,F_2m,F_3m,…,F_k×m

实验中，视频段的帧数固定为7帧，图1展示了视频分段方法，展示视频长为14帧，根据视频段帧数为7的要求，通过2倍平移等间隔采样的方法将该视频分为两段。

根据上述分段方法，CC_WEB_VIDEO视频库中每个视频均被分为多个7帧的视频段，如第一类的第2个视频被分为68段，第二类的第1个视频被分为195段等，此分段方法扩增了数据库，便于3D CNN从大量数据中学习规律。

3.对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集。

CC_WEB_VIDEO视频库中视频的类别总数为24，则需针对每一类制定不同的训练样本。

以第一类为例：第一类中随机取3个视频，将这3个视频分成的视频段作为正样本，根据视频库中的视频分段后可得311个视频段，训练负样本为随机选取不属于第1类，属于其它23类的视频段，选取的负样本的个数也为311，训练样本标签为{1,0}，其中1表示属于第1类，0表示不属于第1类。

第二类与第一类相似：第二类中随机取3个视频，将这3个视频分成的视频段作为正样本，根据视频库中的视频分段后可得1155个视频段，训练负样本为随机选取不属于第2类，属于其它23类的视频段，选取的负样本的个数也为1155，训练样本标签为{1,0}，其中1表示属于第2类，0表示不属于第2类。

其他类均按上述方法制定其训练样本。

每一类的测试样本是相同的，分为三种：属于该类的视频段、不属于该类，属于其他类的视频段、不属于任意类的视频段。实验中，除训练样本使用视频外，随机选取每类其他17个视频以及不属于任意类的120个视频，即测试视频共528个，按上述分段方法得测试视频段为81746个。

4.构建C个3D CNN网络，C是数据集中的类别数，每个3D CNN以视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN，使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别。

图2为3D CNN的结构图，图中网络结构为3-3-6-6，输出节点个数设为2，即可使3D CNN对类内和类外多个视频段进行两类别分类。

f_{i j}^{x y z} = s i g m (b_{i j} + \underset{n}{Σ} Σ_{p = 0}^{p_{i} - 1} Σ_{q = 0}^{q_{i} - 1} Σ_{r = 0}^{r_{i} - 1} w_{i j n}^{p q r} f_{(i - 1) n}^{(x + p) (y + q) (z + r)})

f_ij＝sigm(β_ijdown(f_(i-1)j)+b_ij)

图3为训练阶段结构示意图，CC_WEB库类别数C为24，则构建24个3D CNN，根据步骤3中制定的每一类的训练样本训练每一类的3D CNN网络。

5.构建并行分布式3D CNN多分类模型，将C个训练好的3D CNN进行并联，在并联末端设置分类机制，通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类。

图4为并行分布式3D CNN多分类模型，针对CC_WEB库类别数C为24，将训练好的24个3D CNN网络并联，在并联末端设置分类机制判断视频类别，分类机制为：

将待分类视频的视频段送入到并联网络中，计算每个类中视频段的识别率，视频类别c的判别方法为：

其中，c＝0表示该视频不属于库中任意类，r_i表示第i个网络的视频段识别率，T为判断视频类别阈值，取50％，CC_WEB实验中C＝24。

视频段识别率r_i的定义为：

6.待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。

等间隔采样后的视频段能最大化的呈现视频的全部内容，所以只需随机输入部分视频段即可完整表示视频内容，节省分类所需时间，经实验验证，只需随机输入20％的视频段即可达到较高的识别率。测试视频528个，每个视频随机输入20％的视频段进行分类，分类识别正确率为85.2％。

Claims

1.一种基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，该方法构建了并行分布式的三维卷积神经网络多分类模型，并对视频库进行扩增处理，该方法包括以下步骤：

(1)读取视频库中的视频，对视频帧进行灰度化处理；

2.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，步骤(2)中视频段的分段方法为等间隔采样，设视频段的帧数固定为k，分段方法如下：

视频段1：F₁,F_1+m,F_1+2m,…,F_1+(k-1)×m

视频段2：F₂,F_2+m,F_2+2m,…,F_2+(k-1)×m

视频段m：F_m,F_2m,F_3m,…,F_k×m。

3.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，步骤(3)中针对每一类视频的训练测试数据集的制作方法为：

4.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，步骤(4)中以视频段作为输入的3D CNN的结构模型为：

f_{i j}^{x y z} = s i g m (b_{i j} + \underset{n}{Σ} Σ_{p = 0}^{p_{i} - 1} Σ_{q = 0}^{q_{i} - 1} Σ_{r = 0}^{r_{i} - 1} w_{i j n}^{p q r} f_{(i - 1) n}^{(x + p) (y + q) (z + r)})

其中，sigm(·)为sigmoid函数，b_ij是第i层第j个特征图的偏置，n指与当前特征图连接的上一层特征图的集合，p_i、q_i、r_i分别指第i层卷积核的长、宽、高，是与上层特征图连接的卷积核在(p,q,r)处的值；

3D CNN的采样层：只将上一层特征图第一维和第二维下采样，第三维维数不变，采样层第i层第j个特征图表示为：

f_ij＝sigm(β_ijdown(f_(i-1)j)+b_ij)

其中，β_ij和b_ij分别是第i层第j个特征图的乘子偏差和附加偏差，down(·)是降采样函数，这个函数使输入的数据在第一维和第二维每一个不同的n×n区域求和取平均，使第一维和第二维的维数均减小n倍，其它维数保持不变；

5.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，步骤(5)中并联末端视频分类机制方法如下：

其中，c＝0表示该视频不属于库中任意类，r_i表示第i个网络的视频段识别率，T为判断视频类别阈值。

6.根据权利要求5所述的基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，视频段识别率r_i的定义为：

7.根据权利要求5所述的基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，判断视频类别阈值T为50％。