CN105550699B

CN105550699B - 一种基于cnn融合时空显著信息的视频识别分类方法

Info

Publication number: CN105550699B
Application number: CN201510901557.7A
Authority: CN
Inventors: 尹宝才; 王文通; 王立春; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2019-02-12
Anticipated expiration: 2035-12-08
Also published as: CN105550699A

Abstract

本发明公开了一种基于CNN融合时空显著信息的视频识别分类方法，其能够提高视频分类的准确率。该方法包括步骤：(1)对待识别分类视频进行采样得到多个视频片段；(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列；(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征，并基于这三类特征，计算视频片段隶属于不同类别的概率；(4)融合不同的特征计算得到的类别概率，得到视频片段的分类结果；(5)融合步骤(4)的各视频片段的分类结果，得到视频的分类结果。

Description

一种基于CNN融合时空显著信息的视频识别分类方法

技术领域

本发明属于计算机视觉的技术领域，具体地涉及一种基于CNN融合时空显著信息的视频识别分类方法。

背景技术

随着CNN(Covolution Neural Networks，卷积神经网络)在计算机视觉领域的崛起，几乎任何图像分类相关的任务中，卷积神经网络都取得最好的结果。近两年，卷积网络在视频中的应用也在逐渐增多，主要方法可以分为三类：3D卷积网络(3-DimensionCovolution Neural Networks，3DCNN)、卷积网络结合长短期记忆(Long-Short TermMemory，LSTM)的模型以及结合光流(Optical Flow)的两流法。

Ji等人提出的3D卷积网络方法，将输入视频序列看做若干个三维块，对其进行三维卷积，然后经过卷积神经网络提取特征，再对特征进行分类。这种方法，使用三维卷积，能够很好地兼顾时空信息提取。但三维卷积运算使用参数多，故而内存需求成为其瓶颈。

Ng等人提出的卷积网络结合LSTM的方法，对输入视频的每一帧分别使用卷积神经网络提取单帧特征，再用LSTM将单帧特征串连起来，进行分类。这种方法针对单帧进行计算，所以模型参数相比于三维卷积的方法少了很多。但是这种方法需要提前训练好一个比较有效的单帧特征提取模型，同时，由于是在特征层面进行的时域融合，所以失掉了原本视频帧之间的空间域上的对应关系。

Simonyan等人的结合光流与神经网络，将单帧原始图像和多帧光流图像分别作为卷积神经网络的输入(将原始图像作为空域信息，将光流图像作为时域信息)，融合两类识别结果输出最终的视频类别。该方法融合了时域信息和空域信息，但仍然有提升空间。

本发明在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显著信息(边缘),进行视频识别，提高视频分类的准确率。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于CNN融合时空显著信息的视频识别分类方法，其能够提高视频分类的准确率。

本发明的技术解决方案是：这种基于CNN融合时空显著信息的视频识别分类方法，该方法包括以下步骤：

(1)对待识别分类视频进行采样得到多个视频片段；

(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列；

(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征，并基于这三类特征，计算视频片段隶属于不同类别的概率；

(4)融合不同的特征计算得到的类别概率，得到视频片段的分类结果；

(5)融合步骤(4)的各视频片段的分类结果，得到视频的分类结果。

本发明在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显著信息(边缘),进行视频识别，因此提高视频分类的准确率。

附图说明

图1是本方法的流程图。

图2是卷积网络模型的结构图。

具体实施方式

如图1所示，这种基于CNN融合时空显著信息的视频识别分类方法，该方法包括以下步骤：

(1)对待识别分类视频进行采样得到多个视频片段；

优选地，所述步骤(1)中采样时根据公式(1)-(3)：

Sample(video,m,n)＝{Clip₁,Clip₂,…Clip_k} (1)

l＝1+(m+1)*(n-1)＝m*n+n-m (2)

k＝s-l+1＝s-m*n-n+m+1 (3)

其中video为输入的视频序列，n为采样帧数,m为采样间隔，Clip_i(i＝1…k)为采样得到的视频片段，s为视频总帧数，k为采样得到的视频序列数目，l为一个片段的帧数跨度。

优选地，在所述步骤(2)中处理为原始图像序列是对原始视频中采样得到一个原始图像片段序列C，基于序列C的识别过程记为P_C＝CNN(C)；处理为边缘图像序列是使用OpenCV中的Canny边缘函数，针对原始图像片段序列的RGB三个通道分别计算边缘，生成片段边缘图像序列E，基于序列E的识别过程记为P_E＝CNN(E)；处理为光流图像序列是使用OpenCV库函数calcOpticalFlowFarneback()计算生成，然后通过孟塞尔颜色系统，将X和Y方向的光流转换为RGB三个通道，对原始图像片段序列的相邻帧进行处理，从而得到光流图像片段序列F，基于序列F的识别过程记为P _F＝CNN(F)。

优选地，在所述步骤(3)中卷积神经网络模型为公式(4)-(6)：

P＝CNN(X) (4)

P＝(p₁,p₂,…,p_N) (5)

X＝(x₁,x₂,…,x_M) (6)

其中p_i为某个类别的分类概率，N为类别总数，X为模型的输入序列，M为序列的帧数。

优选地，在所述步骤(3)中三路卷积网络分别进行训练，采用小批次的随机梯度下降方法；训练时，取训练集中15％的视频作为验证集。

优选地，在所述步骤(4)中根据公式(7)-(8)进行融合：

其中，(i＝1,2,…,k)为原始图像序列经过CNN输出的类别概率向量，(i＝1,2,…,k)为边缘图像序列经过CNN输出的类别概率向量，(i＝1,2,…,k)为光流图像序列经过CNN输出的类别概率向量,(i＝1,2,…,k)为片段级平均类别概率向量，Yⁱ为片段i的分类类别。

优选地，在所述步骤(5)中根据公式(9)-(10)进行融合：

P_V＝(∑P_A)/k (9)

Y_V＝arg max_indexP_V (10)

其中P_A为公式(7)中所求得片段级平均类别概率向量，k为片段个数，P_V为视频级平均类别概率向量，Y_V为视频级分类的类别。

现在给出一个本发明的详细实施例。

1.时间序列采样

考虑到一般的分类视频数据集样本数不多，使用卷积网络训练出的模型很容易过拟合，因此本发明首先对数据样本进行扩充。视频数据其相邻两帧之间的相关性较大，但变化幅度不是很大，因此可利用其时间维度上的数据冗余性对视频进行间隔采样，将一次采样输出的序列作为一个新的数据样本。又由于卷积网络模型限制输入数据的维度要相同，故而每次采样取相同的帧数。

采样规则为“每间隔m帧采一帧，每个序列采样n帧”。将视频标签赋予该视频采样得到的各视频片段。

Sample(video,m,n)＝{Clip₁,Clip₂,…Clip_k}

l＝1+(m+1)*(n-1)＝m*n+n-m

k＝s-l+1＝s-m*n-n+m+1

其中n为采样帧数,m为采样间隔，s为视频总帧数，k为采样得到的视频序列数目，l为一个片段的帧数跨度。

2、三路卷积网络模型

本发明中的深度网络采用三路卷积网络模型结构。

2.1卷积网络

本发明中采用的卷积网络模型，如图2所示输入数据为多帧(RGB)图像。例如输入数据为6帧图像，则输入数据为RRRRRRGGGGGGBBBBBB。模型维度为220*220*6*3→55*55*96→27*27*256→13*13*384→13*13*384→13*13*256→4096→4096→N(N为类别数)。

如图2所示，第一个数据块的输入为6×3的多帧(RGB)图像，第一个数据块与第二个数据块之间首先进行卷积操作，然后进行最大池化操作。卷积核大小为11*11，窗口滑动步长为4。池化操作窗口大小为3*3，窗口滑动步长为2。

第二个数据块与第三个数据块之间首先进行卷积操作，然后进行最大池化操作。卷积操作卷积核大小为5*5，窗口滑动步长为1。池化操作窗口大小为3*3，窗口滑动步长为2。

第三、第四、第五、第六个数据块之间均为卷积操作。卷积操作卷积核大小为3*3，窗口滑动步长为1。

第六、第七、第八个数据块之间均为全连接。

第八个数据块与第九个数据块之间为softmax分类器。

模型简记为

P＝CNN(X)

P＝(p₁,p₂,…,p_N)

X＝(x₁,x₂,…,x_M)

2.2模型训练

三路卷积网络分别进行训练，采用小批次(mini-batch)的随机梯度下降方法；训练时，为了防止训练过早终止(early stopping)，取训练集中15％的视频作为验证集。

2.3多路卷积网络融合

实验表明，单纯地使用一种数据(无论是原始数据，还是显著数据)其识别准确率都不如多种数据融合的方式。本发明将光流图像(时域显著信息)、边缘图像(空域显著信息)和原始图像进行融合。每一路模型，均采用图1中的卷积网络结构。经过卷积网络输出的类别概率，进行决策层面的融合。

2.3.1原始图像片段序列

本发明对原始视频中采样得到一个原始图像片段序列C，基于序列C的识别过程记为P_C＝CNN(C)。

2.3.2光流图像片段序列

光流是物体运动在时域上的显著信息，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性找到的上一帧与当前帧之间的对应关系，相邻帧之间的这种对应关系看作是物体的运动信息。

本发明实验中的光流图像使用OpenCV库函数

calcOpticalFlowFarneback()计算生成，然后通过孟塞尔颜色系统

(Munsell Color System)，将X和Y方向的光流转换为RGB三个通道。本发明中对原始图像片段序列的相邻帧进行处理，从而得到光流图像片段序列F。基于序列F的识别过程记为P_F＝CNN(F)。

2.3.3边缘图像片段序列

图像边缘是图像的空间结构属性，是物体运动在空域上的显著信息。

本发明实验中的边缘图像使用OpenCV中的Canny边缘函数，针对原始图像片段序列的RGB三个通道分别计算边缘，生成片段边缘图像序列E。基于序列E的识别过程记为P_E＝CNN(E)。

3、视频识别

本发明中，采用从片段到视频的两阶段融合方式进行视频识别。

3.1片段级融合

本发明第一阶段的融合为“片段级决策融合”。

如图1所示，将三类数据分别输入卷积网络，对三个序列输出的类别概率进行加权平均，再输出概率较高的一类的类别标签。

3.2视频级融合

虽然利用分片段的方式改善了CNN在小数据集上的过拟合问题，但片段毕竟只是视频在时间序列上的局部描述，如果单纯地由一个片段的识别结果来断定整个视频序列的识别结果，其识别准确率也是有限的。

所以本发明融合所有片段的分类预测结果得出整个视频的识别结果，如图1所示。融合后的分类准确率有小幅提升，如表2所示。

P_V＝(ΣP_A)/k

表2

对上述方法进行了实验验证，并取得了明显的效果。实验采用caffe深度学习框架，视频样本扩充采样参数设定为(6,6)(即每6帧取1帧，共取6帧)。

实验所用数据集为CAMBRIDGE手势数据集(Kim和Cipolla 2009)，该数据集的规模为5组光照模式×20个人×9种手势。将第5组数据中17个人作为训练样本，3个人的数据作为验证样本进行训练；训练结束后，在另外4组数据集上进行评估。

表1为片段级别的识别准确率，表2为视频级别的识别准确率。可以看出，使用原始图像作为直接输入，识别准确率很不稳定，受到非运动信息的影响较大；采用边缘数据或光流数据作为直接输入，在干扰较大的两组数据上(第2、3组)识别率有很大提高；将边缘数据或光流数据的模型与原始图像的模型进行融合，其准确率也均远高于原始图像的准确率。

同时，可以看出，将视频每个片段的识别结果在视频级别进行融合，可以很大程度地提高视频识别的准确率。

表1

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于CNN融合时空显著信息的视频识别分类方法，其特征在于，该方法包括以下步骤：

(1)对待识别分类视频进行采样得到多个视频片段；

(5)融合步骤(4)的各视频片段的分类结果，得到视频的分类结果；

所述步骤(1)中采样时根据公式(1)-(3)：

Sample(video,m,n)＝{Clip₁,Clip₂,…Clip_k} (1)

l＝1+(m+1)*(n-1)＝m*n+n-m (2)

k＝s-l+1＝s-m*n-n+m+1 (3)

其中video为输入的视频序列，n为采样帧数,m为采样间隔，Clip_i(i＝1,2,…,k)为采样得到的视频片段，s为视频总帧数，k为采样得到的视频序列数目，l为一个片段的帧数跨度。

2.根据权利要求1所述的基于CNN融合时空显著信息的视频识别分类方法，其特征在于，在所述步骤(2)中处理为原始图像序列是对原始视频中采样得到一个原始图像片段序列C，基于序列C的识别过程记为P_C＝CNN(C)；处理为边缘图像序列是使用OpenCV中的Canny边缘函数，针对原始图像片段序列的RGB三个通道分别计算边缘，生成片段边缘图像序列E，基于序列E的识别过程记为P_E＝CNN(E)；处理为光流图像序列是使用OpenCV库函数calcOpticalFlowFarneback()计算生成，然后通过孟塞尔颜色系统，将X和Y方向的光流转换为RGB三个通道，对原始图像片段序列的相邻帧进行处理，从而得到光流图像片段序列F，基于序列F的识别过程记为P_F＝CNN(F)。

3.根据权利要求2所述的基于CNN融合时空显著信息的视频识别分类方法，其特征在于，在所述步骤(3)中卷积神经网络模型为公式(4)-(6)：

P＝CNN(X) (4)

P＝(p₁,p₂,…,p_N) (5)

X＝(x₁,x₂,…,x_M) (6)

其中p_i为某个类别的分类概率，P为类别概率向量，N为类别总数，X为模型的输入序列，M为序列的帧数。

4.根据权利要求3所述的基于CNN融合时空显著信息的视频识别分类方法，其特征在于，在所述步骤(3)中三路卷积网络分别进行训练，采用小批次的随机梯度下降方法；训练时，取训练集中15％的视频作为验证集。

5.根据权利要求4所述的基于CNN融合时空显著信息的视频识别分类方法，其特征在于，在所述步骤(4)中根据公式(7)-(8)进行融合：

其中，为原始图像序列经过CNN输出的类别概率向量，为边缘图像序列经过CNN输出的类别概率向量，为光流图像序列经过CNN输出的类别概率向量,为片段i的平均类别概率向量，Yⁱ为片段i的分类类别。

6.根据权利要求5所述的基于CNN融合时空显著信息的视频识别分类方法，其特征在于，在所述步骤(5)中根据公式(9)-(10)进行融合：

P_V＝(∑P_A)/k (9)

Y_V＝arg max_indexP_V (10)