CN111209433A

CN111209433A - 一种基于特征增强的视频分类算法

Info

Publication number: CN111209433A
Application number: CN202010006568.XA
Authority: CN
Inventors: 张梦超; 李永
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-29

Abstract

一种基于特征增强的视频分类算法涉及视频处理技术领域，方法包括：首先将待分类视频分为K段，在每段中随机选择帧或者等距离选择帧；通过预先训练好的CNN模型来提取每一帧的图像特征，将每一帧特征输入特征融合层的池化模块，池化模块将提取的特征聚合成整个视频的压缩表示；根据每一段中的视频表示输入到特征增强层，特征增强层能够增加重要特征的权重，并减少非重要特征的权重，然后通过聚合函数从K个片段中相同类别得分得到某个类别的最终分数。本发明能够有效的提高分类效率，通过分为K段采样，解决了视频相邻帧相似度高的问题，通过特征增强层选择更重要的特征有效的提高了分类准确率。

Description

一种基于特征增强的视频分类算法

技术领域

本发明属于视频信息内容发掘技术，更具体的是，设计一种基于注意力的特征增强的视频分类。

背景技术

近年来，得益于深度学习强大的特征提取能力，视频内容的识别和分析取得了突

破性进展。视频内容识别的核心在于视频特征的提取，视频特征是视频本身所具有的物理性质，能够从不同的角度反映视频内容。

目前主流的视频分类的方法有三大类：基于LSTM的方法，基于3D卷积的方法和基于双流的方法。基于LSTM的方法将视频的每一帧用卷积网络提取出每一帧的特征，然后将每一个特征作为一个时间点，依次输入到LSTM中。由于LSTM并不限制序列的长度，所以这种方法可以处理任意长度的视频。但同时，因为LSTM本身有梯度消失和爆炸的问题，往往难以训练出令人满意的效果。而且，由于LSTM需要一帧一帧得进行输入，所以速度也比不上其他的方法。

基于3D卷积的方法将原始的2D卷积核扩展到3D。类似于2D卷积在空间维度的作用方式，它可以在时间维度自底向上地提取特征。基于3D卷积的方法往往能得到不错的分类精度。但是，由于卷积核由2D扩展到了3D，其参数量也成倍得增加了，所以网络的速度也会相应下降。

基于双流网络的方法会将网络分成两支。其中一支使用2D卷积网络来对稀疏采样的图片帧进行分类，另一支会提取采样点周围帧的光流场信息，然后使用一个光流网络来对其进行分类。两支网络的结果会进行融合从而得到最终的类标。基于双流的方法可以很好地利用已有的2D卷积网络来进行预训练，同时光流又可以建模运动信息，所以精度往往也很高。但是由于光流的提取过程很慢，所以整体上制约了这一方法的速度。

发明内容

本发明的目的在于克服现有技术的不足，将视频分为K段，缩短每次处理的时间序列，通过对每段特征的融合，再增加重要的特征从而提高分类的准确率与效率。

为实现上述发明目的，本发明一种基于特征增强机制的视频分类方法，其特征在于，包括以下步骤：

将待分类视频分为K(3)段；在每段中每隔n帧采样一帧。

获取每段视频中的空间特征：将每段中所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征，通过卷积神经网络CNN提取输入视频的空间特征。

通过LSTM循环神经网络融合每段中的时间特征和空间。

然后在每段中取对应的LSTM网络每个时刻取的输出输入到一个全连接层降维到1024维，可以起到降维，保留有用信息等作用。

将全连接层的输出作为特征增强层的输入，在每段的特征增强模块中采用一种注意力机制来增加相关重要的权重。

将特征增强层输入到分类模块，分类模块将得到的表示作为输入，并输出预定义标签集的分数，得到每段视频的分类结果。

融合K段中的K个结果，最终得到整个视频的分类结果。

其中，所述LSTM循环神经网络部分包括：

设输入视频为X＝{x₁，x₂，…,x_n}，N表示每段输入视频的总帧数，通过卷积神经网络CNN提取，输入视频的空间特征为V＝{v₁，v₂，…,v_n}，v_i表示第i帧视频图像的特征向量，i＝1,2,…,n；

更新当前时刻LSTM网络状态；

h_t＝O_tC_t

其中，f_t、i_t、O_t分别表示LSTM网络的遗忘门、输入门和输出门的计算结果，h_t-1和C_t-1分别表示上一时刻隐藏单元状态和记忆单元状态，h_t和C_t分别表示当前时刻隐藏单元状态和记忆单元状态，σ(·)是sigmoid函数，表达式为

A_f、A_f、A_c，b_i、b_f、b_c分别为待学习参数。计算每个时刻对应的输出类别进行梯度更新，所有参数初始化采用随机初始化的方法。

其中，所述特征增强层部分包括：

先初始化一个权重矩阵W，b。特征增强公式为：

Y＝σ(WX+b)☉X

其中,X是输入特征向量，σ是逐个元素的sigmoid激活函数，☉是逐个元素相乘。W和b是可训练的参数向量σ(WX+b)代表应用于输入特征X的个体维度的一组学习门。

其中，所述分类模块采用SoftMax函数分类器，它将多个神经元的输出，映射到(0,1)区间内，可以看成概率来理解，从而来进行多分类，具体如下：

其中，i表示k的某个分类，g_i表示该分类的值。

所述每段结果融合共识部分采用简单的均匀平均法来表示，即对每段n个结果的分数求和取平均就是最后的结果集。

附图说明

图1是本发明基于特征增强的视频分类方法流程图

图2是整体网络的结构图

具体实施方式

下面结合附图和实施例，对本发明作做一步的详细说明。特别指出的是以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所以实施例，都属于本发明的保护范围。

本发明提供一种基于特征增强的视频分类方法，能够提高视频分类的准确率和效率。

图1是本发明基于特征增强的视频分类方法的流程图，下面根据图1介绍具体流程：

首先本文需要用到预先训练的图像处理模型，视觉特征包括来自在Imagenet上训练的公共可用的Inception网络的最后一个完全连接层的ReLU激活。

在步骤101中，获取包括视频类别的视频。本实施例采用HMDB-51和UCF-101数据集进行模型的仿真和验证分析，HMDB-51数据集包含6766个视频，视频内容主要来自电影片段，分为51个类别，每个类别都包含至少101个视频，数据集的划分采用7/3原则。UCF-101数据集是从现实生活中收集的视频识别数据集，视频内容全部来源于YouTube视频，包含13320个视频，共101类视频类别，是迄今为止最具挑战性的视频识别数据集之一。其中训练集，验证集，测试集的比例可以是8:1:1。

在步骤102中，视频采样可以参考TSN(Temporal Segment Networks)采样方法，首先将视频分为K段，K一般取3，在每段中每隔n帧采样一帧，这样可以避免视频中相邻帧有大量冗余的问题。

在步骤103中，将采好样的关键帧输入到预训练好的模型中提取空间特征，对于空间特征提取部分，本实施例采用GoogLeNet的Inception-v3结构，并在2012年的imageNet上进行预训练，然后固定Inception-v3网络参数，提取pooling3层特征作为视频的空间特征，特征大小为2048维。

在步骤104中，在每段提取空间特征之后，采用LSTM神经网络融合每段的时间特征，对于时间特征提取部分，设置LSTM网络的层数为1层，输入单元个数为2048，隐藏单元个数为512。

步骤105中，构建一个全连接层，这一层是每一个单元都和前一层的每一个单元相连接，所以神经元数量为2048个，激活函数采用双正切曲线。

步骤106中，在特征增强层中，首先随机初始化矩阵W，b，保证和输入矩阵相同维度。将全连接层提取后的特征与矩阵W相乘，通过反向传播更新W的值，从而增大重要的特征的权重，减少非重要特征的权重。

步骤107中，每段的结果采用SoftMax函数进行分类，得到每个类别的分值。其中SoftMax函数表示如下：

其中，i表示k的某个分类，g_i表示该分类的值。

步骤108中，融合所有段的结果，对每段的类别分值进行简单的求和取平均就是最终的分类结果。

以上训练方法用Adam优化算法进行训练，初始学习率为0.001，最大迭代次数为20000。