CN108764084B

CN108764084B - 基于空域分类网络和时域分类网络融合的视频分类方法

Info

Publication number: CN108764084B
Application number: CN201810475657.1A
Authority: CN
Inventors: 韩冰; 褚福跃; 王平; 高新波; 连慧芳; 张萌
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2021-07-27
Anticipated expiration: 2038-05-17
Also published as: CN108764084A

Abstract

本发明公开了一种基于空域分类网络和时域分类网络融合的视频分类方法，主要解决现有视频分类方法准确率低的问题。其实现方案为1)获取训练集和测试视频；2)从训练集中提取视频帧；3)使用训练集对卷积神经网络进行训练；4)对从训练集中提取的视频帧提取特征；5)使用训练集对空域分类网络进行训练；6)使用训练集对时域分类网络进行训练；7)使用训练后的空域分类网络和时域分类网络对测试视频进行分类，并对空域分类网络和时域分类网络的分类结果进行融合，完成对视频的分类。本发明相比现有视频分类方法有效提高了分类准确率，可用于视频的特征提取和识别。

Description

基于空域分类网络和时域分类网络融合的视频分类方法

技术领域

本发明属于图像处理技术领域，更进一步设计一种视频的计算机分类方法，可用于视频的特征提取和识别。

背景技术

随着互联网技术的不断普及和视频压缩存储技术的日益发展，互联网上所能获取的视频数量呈现了爆炸式的增长。如何对海量的视频数据进行分析管理，就成为了目前亟需解决的重要问题。其中，视频分类技术是视频分析的基础。如果新增的互联网视频不能被适当的标记和分类，用户就无法有效的利用互联网获取或者共享这些视频文件。早期的视频分类方法往往分为两步。第一步是提取一种或多种视频特征，第二步是利用分类器对提取到的特征进行分类。但是这类算法过度依赖所提取特征的质量，而且不能充分获取视频中复杂的视频模式，因此对视频的分类准确率并不理想。

近年来，深度神经网络在计算机视觉领域取得了巨大成功，它能够借助层次化的结构，从训练数据中学习复杂多样的特征模式，从而有效提取输入数据的特征。研究人员也提出了多种基于深度神经网络的视频分类技术，使得视频分类方法的效果得到了明显的提升。但是研究表明，在一些情况下，对输入视频数据添加细微干扰，如改变部分像素点像素值后，深度神经网络对于输入样本的识别结果可能会产生严重错误。这是由于深度神经网络的本质在于理解训练数据的统计特性，从训练数据中学习其中复杂多样的特征模式。一旦数据的统计特性改变，就会影响深度神经网络的分类结果。而人工标记的过程就能够排除此类干扰的影响，因此理解并模拟人工标记过程中人类的认知方式对提高视频分类方法的效果，有着重要的意义。此外，目前一些分类效果较好的基于深度神经网络的视频分类方法大多包含两个独立的空域分类网络和时域分类网络，需要分别进行网络结构的设计和网络参数的训练，设计难度较大，训练耗时较多。同时，现有的视频分类方法的分类准确率仍然有待提高。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于空域分类网络和时域分类网络融合的视频分类方法，以降低网络的设计难度和训练时间，提升了视频的分类准确率。

本发明的技术方案是：利用深度神经网络技术，同时提取视频的时域特征和空域特征，学习视频中复杂多样的特征模式；分别从空域和时域对视频的类别进行分析；融合空域和时域的分析结果，得到最终对视频的分类结果。其实现步骤包括如下：

1)获取训练集和测试视频：

从已标记类别的视频数据库中任取N个视频组成训练集：X＝{x₁,x₂,...,x_k,...,x_N}，其中x_k是第k个训练集视频，x_k的标签为y_k，k＝1,2,...,N；

将剩余视频组成测试集，从测试集中取一个视频作为测试视频x_test；

2)提取训练集X中训练集视频x_k的全部视频帧

其中，τ＝1,2,...,T，T为视频x_k中所包含视频帧的数目，以训练集视频x_k的标签y_k作为全部视频帧

的标签；

3)以全部视频帧

及其标签y_k作为训练数据，对卷积神经网络进行训练，得到训练好的卷积神经网络Z；

4)提取全部视频帧

的特征：

4a)计算全部视频帧

的视觉注意力特征

4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征

进行提取，得到空域特征矩阵

4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧

进行特征提取，得到时域特征矩阵

5)利用空域特征矩阵

对空域分类网络进行训练；

6)利用时域特征矩阵

对时域分类网络进行训练；

7)使用训练后的空域分类网络和时域分类网络对测试视频x_test进行分类：

7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频x_test属于不同视频类别的概率：

p^s＝{p^s(1),p^s(2),...,p^s(m),...p^s(M)}，

其中p^t(m)是空域分类网络上测试视频x_test属于第m类视频的概率，m＝1,2,...,M,M为视频类别数；

7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频x_test属于不同视频类别的概率：

p^t＝{p^t(1),p^t(2),...,p^t(m),...,p^t(M)}，

其中p^t(m)是时域分类网络上测试视频x_test属于第m类视频的概率；

7c)根据7a)和7b)的结果，计算测试视频x_test属于第m类视频的概率：

p(m)＝wp^s(m)+(1-w)p^t(m)，

其中w是空域分类网络的分类结果所占的权重；

7d)将p(m)中最大值所对应的视频类别，作为测试视频x_test的分类结果。

本发明与现有技术相比，具有以下优点：

1)本发明由于在空域分类网络和时域分类网络中使用相同的卷积神经网络进行特征提取，降低了网络结构设计的难度和网络训练所需的时间；

2)本发明由于在空域分类网络中提取了全部视频帧的视觉注意力特征，提升了分类准确率。

附图说明

图1是本发明的实施流程图；

图2是用本发明在空域分类网络分类结果所占权重不同时，对极光视频分类数据库的分类准确率图。

具体实施方式

以下结合附图和具体实例，对本发明的技术方案和效果进一步详细描述：

参照图1，本发明的实现步骤如下：

步骤1，获取训练集和测试视频。

将剩余视频组成测试集，从测试集中取一个视频作为测试视频x_test。

步骤2，提取训练集X中训练集视频x_k的全部视频帧

2a)将训练集X中训练集视频x_k输入到商用ffmpeg数字音视频处理软件中，提取训练集视频x_k的全部视频帧

其中，τ＝1,2,...,T，T为视频x_k中所包含视频帧的数目；

2b)以训练集视频x_k的标签y_k作为全部视频帧

的标签。

步骤3，对卷积神经网络进行训练。

3a)使用卷积神经网络对全部视频帧

进行提取，得到卷积特征矩阵

3b)将卷积特征矩阵

转换为卷积神经网络上的一维特征向量

3c)将卷积神经网络上的一维特征向量

输入到soft-max分类器，计算全部视频帧

属于不同标签的概率：

其中

为卷积神经网络上全部视频帧

标签为m的概率，m＝1,2,...,M，M为视频类别数；

3d)计算全部视频帧

的标签y_k和

之间的交叉熵

3e)求卷积神经网络在训练集X上交叉熵的均值：

3f)根据交叉熵的均值lc，使用反向传播算法更新卷积神经网络参数，得到训练后的卷积神经网络Z。

步骤4，提取全部视频帧

的特征。

4a)计算全部视频帧

的视觉注意力特征

4a1)提取全部视频帧

自下而上的视觉注意力特征

的维度为h*w，其中h为全部视频帧

的高，w为全部视频帧

的宽；

4a2)提取全部视频帧

自上而下的视觉注意力特征

的维度为h*w；

4a3)将自下而上的视觉注意力特征

和自上而下的视觉注意力特征

进行拼接，得到全部视频帧

的视觉注意力特征

的维度为h*w*2；

4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征

进行提取，得到空域特征矩阵

4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧

进行特征提取，得到时域特征矩阵

步骤5，利用空域特征矩阵

对空域分类网络进行训练。

5a)将空域特征矩阵

转换为空域分类网络上的一维特征向量

5b)将空域分类网络上的一维特征向量

输入到soft-max分类器，计算空域分类网络上全部视频帧

属于不同视频类别的概率：

其中

为空域分类网络上全部视频帧

属于第m类视频的概率；

5c)根据训练集视频x_k中全部视频帧

属于不同视频类别的概率

计算空域分类网络上训练集视频x_k属于不同视频类别的概率：

ps_k＝{ps_k(1),ps_k(2),...ps_k(m),...ps_k(M)}，

其中ps_k(m)为空域分类网络上训练集视频x_k属于第m类视频的概率，其计算方法为：

5d)计算训练集视频x_k的标签y_k和ps_k之间的交叉熵ls_k：

ls_k＝-log(ps_k(y_k))；

5e)求空域分类网络在训练集X上交叉熵的均值：

5f)根据交叉熵的均值ls，使用反向传播算法更新空域分类网络参数，得到训练后的空域分类网络。

步骤6，利用时域特征矩阵

对时域分类网络进行训练。

6a)将时域特征矩阵

输入到时域分类网络中的长短时记忆网络单元中，得到时刻τ＝1时的网络输出

和网络状态

6b)将时域特征矩阵

和网络状态

共同输入到时域分类网络中的长短时记忆网络单元中，得到网络输出

和网络状态

τ＝2,3,...,T；

6c)将全部时刻上的网络输出

按顺序首尾相接得到时域分类网络上的一维特征向量vt_k；

6d)将时域分类网络上的一维特征向量vt_k输入到soft-max分类器，得到时域分类网络上训练集视频x_k属于不同视频类别的概率：

pt_k＝{pt_k(1),pt_k(2),...pt_k(m),...pt_k(M)}，

其中pt_k(m)为时域分类网络上训练集视频x_k属于第m类视频的概率；

6e)计算训练集视频x_k的标签y_k和pt_k之间的交叉熵lt_k：

lt_k＝-log(pt_k(y_k))；

6f)求时域分类网络训练集X上交叉熵的均值lt：

6g)根据交叉熵的均值lt，使用反向传播算法更新时域分类网络参数，得到训练后的时域分类网络。

步骤7，使用训练后的空域分类网络和时域分类网络对测试视频x_test进行分类。

p^s＝{p^s(1),p^s(2),...,p^s(m),...p^s(M)}，

其中，p^s(m)是空域分类网络上测试视频x_test属于第m类视频的概率，m＝1,2,...,M,M为视频类别数；

p^t＝{p^t(1),p^t(2),...,p^t(m),...,p^t(M)}，

其中，p^t(m)是时域分类网络上测试视频x_test属于第m类视频的概率；

p(m)＝wp^s(m)+(1-w)p^t(m)，

其中w是空域分类网络的分类结果所占的权重；

7d)将p(m)中最大值所对应的视频类别，作为测试视频x_test的分类结果，完成对测试视频x_test的分类。

本发明的效果可通过以下实验进一步说明。

1.实验条件

实验硬件设备：PC台式机，CPU为i7-5930K，显卡为英伟达GTX Titan X,内存容量128GB。

实验软件平台：64位Ubuntu 14.04.3操作系统下的MATLAB R2015B和caffe深度学习工具包。

2.实验内容

实验1.为了选取空域分类网络分类结果所占权重w，用本发明所提视频分类方法，使用不同空域分类网络分类结果所占权重w，对极光视频数据库进行分类，计算分类准确率，结果如图2，其中横坐标表示空域分类网络分类结果所占权重w的取值，纵坐标表示在极光视频分类数据库上的分类准确率。

从图2可见，空域分类网络分类结果所占权重w为0.2时，本发明所提视频分类方法对极光视频数据库进行分类的分类准确率最高。

实验2.用本发明和现有的四种极光视频分类方法，TDTM，DOWSIFT-DM,3DPCANet和3DPCANet-BRVLBP，对极光视频数据库进行分类，计算其分类准确率，结果如表1：

表1.本发明和现有极光视频分类方法在极光视频分类数据库上的分类准确率

方法	分类准确率
		TDTM	80.81％
DOWSIFT-DM	87.19％
		3DPCANet	90.30％
3DPACNet-BRVLBP	92.10％
		本发明	94.69％

从表1可见，在对极光视频数据库进行分类时，本发明所提视频分类方法较现有极光视频分类方法，在分类准确率上有所提升。

实验3.用本发明和现有的四种人类行为视频分类方法，MDM，BOWF，IOP-ARM和SPHOG，对人类行为视频数据库进行分类，计算分类准确率，结果如表2：

表2.本发明和现有人类行为视频分类方法在人类行为视频数据库上的分类准确率

方法	分类准确率
		MDM	87.19％
BOWF	92.30％
		IOP-ARM	89.10％
SPHOG	89.80％
		本发明	94.82％

从表2可见，在对人类行为视频数据库进行分类时，本发明所提视频分类方法较现有人类行为视频分类方法，在分类准确率上有所提升。

Claims

1.基于空域分类网络和时域分类网络融合的视频分类方法，包括：

1)获取训练集和测试视频：

2)提取训练集X中训练集视频x_k的全部视频帧

的标签；

3)以全部视频帧

4)提取全部视频帧

的特征：

4a)计算全部视频帧

的视觉注意力特征

4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征

进行提取，得到空域特征矩阵

4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧

进行特征提取，得到时域特征矩阵

5)利用空域特征矩阵

对空域分类网络进行训练；按如下步骤进行：

5a)将空域特征矩阵

转换为一维特征向量

5b)将一维特征向量

输入到soft-max分类器，计算空域分类网络上全部视频帧

属于不同视频类别的概率：

其中

为空域分类网络上全部视频帧

属于第m类视频的概率；

5c)根据训练集视频x_k中全部视频帧

属于不同视频类别的概率

ps_k＝{ps_k(1),ps_k(2),...ps_k(m),...ps_k(M)}，

5d)计算训练集视频x_k的标签y_k和ps_k之间的交叉熵ls_k：

ls_k＝-log(ps_k(y_k))；

5e)求空域分类网络在训练集X上交叉熵的均值：

5f)根据交叉熵的均值ls，使用反向传播算法更新空域分类网络参数，得到训练后的空域分类网络；

6)利用时域特征矩阵

对时域分类网络进行训练；按如下步骤进行：

6a)将时域特征矩阵

和网络状态

6b)将时域特征矩阵

和网络状态

和网络状态

6c)将全部时刻上的网络输出

按顺序首尾相接得到训练集视频x_k的一维特征向量vt_k；

6d)将一维特征向量vt_k输入到soft-max分类器，得到时域分类网络上训练集视频x_k属于不同视频类别的概率：

pt_k＝{pt_k(1),pt_k(2),...pt_k(m),...pt_k(M)}，

6e)计算训练集视频x_k的标签y_k和pt_k之间的交叉熵lt_k：

lt_k＝-log(pt_k(y_k))；

6f)求时域分类网络训练集X上交叉熵的均值lt：

6g)根据交叉熵的均值lt，使用反向传播算法更新时域分类网络参数，得到训练后的时域分类网络；

p^s＝{p^s(1),p^s(2),...,p^s(m),...p^s(M)}，

其中p^s(m)是空域分类网络上测试视频x_test属于第m类视频的概率，m＝1,2,...,M,M为视频类别数；

p^t＝{p^t(1),p^t(2),...,p^t(m),...,p^t(M)}，

p(m)＝wp^s(m)+(1-w)p^t(m)，

其中w是空域分类网络的分类结果所占的权重；

2.根据权利要求1所述的方法，其特征在于，其中步骤4a)中计算全部视频帧

的视觉注意力特征

按如下步骤进行：

4a1)提取全部视频帧

自下而上的视觉注意力特征

的维度为h*w，其中h为全部视频帧

的高，w为全部视频帧

的宽；

4a2)提取全部视频帧

自上而下的视觉注意力特征

的维度为h*w；

4a3)将自下而上的视觉注意力特征

和自上而下的视觉注意力特征

进行拼接，得到全部视频帧

的视觉注意力特征

的维度为h*w*2。