CN107341462A

CN107341462A - 一种基于注意力机制的视频分类方法

Info

Publication number: CN107341462A
Application number: CN201710506561.2A
Authority: CN
Inventors: 徐杰; 何庆强; 李林科; 余兴
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-11-10

Abstract

本发明公开了一种基于注意力机制的视频分类方法，通过卷积神经网络CNN提取视频的空间特征，以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征，最后采用多分类函数对视频内容进行分类。在LSTM网络中引入的注意力机制能够模拟人脑的识别功能，将不同的视频内容区别对待，有效提高视频分类的准确性。

Description

一种基于注意力机制的视频分类方法

技术领域

本发明属于光通信技术领域，更为具体地讲，涉及一种基于注意力机制的视频分类方法。

背景技术

近年来，得益于深度学习强大的特征提取能力，视频内容的识别和分析取得了突破性进展。视频内容识别的核心在于视频特征的提取，视频特征是视频本身所具有的物理性质，能够从不同的角度反映视频内容。Karpathy采用卷积神经网络提取视频的空间特征，并在时间维度上将卷积神经网络进行扩展，从而提取视频的空时特征。Ji则直接将二维卷积核扩展至三维卷积核，捕获相邻帧之间的运动信息。结合神经学方面的研究，Simonyan和Zisserman提出双通道CNN模型，一通道的CNN提取视频的空间特征，捕获视觉目标信息，一通道的CNN提取视频的短时间特征，捕获目标运动信息。尽管如此，这些方法只能捕捉视频的短时信息，忽视了视频的长时信息。

虽然卷积神经网络能够提取鲁棒的空间特征，但却无法处理序列问题。尤其是对于一段长时间的视频内容，视频内容的识别和分析需要视频在更长时间范围内的时间特征。Jeffrey Donahue在2014年提出LRCN模型，该模型由空间特征提取和时间特征提取两部分组成。空间特征提取部分采用卷积神经网络，时间特征提取部分采用LSTM网络，LSTM网络根据连续输入的空间特征向量提取视频的长时间特征。虽然LRCN模型采用LSTM网络提取视频的长时间特征，但在每一时刻，网络的输入仅为一帧视频内容，忽略了全局内容对网络的影响。

深度学习模型能够直接利用原始数据进行端到端的训练，提取出与原始数据相适应的特征，这为视频内容识别和分析提供了更丰富的特征表示。Moustafa分别训练AlexNet模型和GoogLeNet模型同时对视频内容进行识别。Tran将三维卷积核应用于深度卷积神经网络，并将全部视频帧序列输入到网络中。为提取短时和长时特征，Donahue在双通道CNN模型的基础上加入了两层LSTM网络进行端到端学习。提出一种多粒度的空时结构，LSTM网络被用于提取视频帧、光流特征图像、视频片段的时间特征，从多个角度关注视频内容。由于使用全部的视频帧序列对深度学习模型进行学习耗费了大量的资源，Veeriah提出一种LSTM网络的变体，该变体能够感知视频内容的变化，降低视频中的无关信息对视频内容识别的干扰。

在视频内容识别过程中，如果深度学习模型能够感知视频内容的变化，把握视频内容的重点，将对视频内容识别非常有益。2014年google mind团队使用注意力机制来进行图像分类，在递归神经网络中模拟人脑注意力特性，感知图像内容在各个区域的变化。随后Bahdanau等人将注意力机制运用到自然语言翻译上，将翻译和对齐同时进行，相比传统的方法效果得到很大的提升，在长句的处理上也显示了极大的优势。Venugopalan在自动生成视频描述时，采用编解码结构，编码部分采用卷积神经网络，解码部分采用LSTM网络，并将全部的视频帧特征进行平均作为LSTM网络的输入。该方法虽然在每一时刻考虑了全部的视频信息，但采用平均的方法使得视频特征丢失了时序信息，不利于视频内容的识别。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于注意力机制的视频分类方法，从全局考虑视频信息，同时采用注意力机制选择性的关注视频中的有效信息，降低无效信息的干扰，从而实现视频分类。

为实现上述发明目的，本发明一种基于注意力机制的视频分类方法，其特征在于，包括以下步骤：

(1)、训练LSTM网络模型

(1.1)、通过卷积神经网络CNN提取输入视频的空间特征

设输入视频为X＝{x₁,x₂，…,x_N}，N表示输入视频的总帧数，通过卷积神经网络CNN提取输入视频的空间特征为V＝{v₁,v₂,…,v_N}，v_i表示第i帧视频图像的特征向量，i＝1,2,…,N；

(1.2)、以注意力权重组合空间特征，得到加权空间特征并输入到LSTM网络；

其中，t＝1,2,…,T,T表示时刻总数；

(1.3)、更新当前时刻LSTM网络状态；

其中，f_t、i_t、o_t分别表示LSTM网络的遗忘门、输入门和输出门的计算结果，h_t-1和c_t-1分别表示上一时刻隐藏单元状态和记忆单元状态，h_t和c_t分别表示当前时刻隐藏单元状态和记忆单元状态，σ(·)是sigmoid函数，表示点积运算，U_f、U_i、U_c，A_f、A_i、A_c，b_i、b_f、b_c分别为待学习参数；

(1.4)、LSTM网络根据当前时刻状态预测视频类别；

计算当前时刻t时视频类别的预测概率分布

其中，softmax(·)是多分类函数，U_p、W_p、b_p、d分别为待学习参数；

(1.5)、重复步骤(1.2)-(1.4)，分别预测出其余T-1个时刻的视频类别的预测概率分布p_t；

(1.6)、计算第T次的预测概率分布值p_T和视频标识之间的误差Δε，采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数，完成本轮迭代；

(1.7)、当本轮迭代完成后，按照步骤(1.2)-(1.6)所述方法进行下一轮迭代，直到完成M次迭代，得到训练好的LSTM网络模型；

(2)、利用训练后的LSTM网络模型对视频进行分类

(2.1)、从待检测视频中每间隔m帧提取一个长度为n视频片段作为测试样本x_j，j＝1,2,…,L，L表示待检测视频划分为长度为n的视频片段的个数；

(2.2)、将L个测试样本x_j按照步骤(1.1)-(1.5)所述方法进行处理，得到L个预测概率分布p_T；

(2.3)、在L个预测概率分布p_T中，选取每一个预测概率分布p_T中概率最大项的维度所对应的类别作为该测试样本x_j的类别，从而得到L个统计结果，再统计L个统计结果中每个类别出现的次数，并将出现次数最多的类别作为待检测视频的类别；如果出现最大次数相等的类别，则以最大次数相等对应的预测概率分布p_T中概率最大项的维度所对应的类别作为待检测视频的类别。

本发明的发明目的是这样实现的：

本发明一种基于注意力机制的视频分类方法，通过卷积神经网络CNN提取视频的空间特征，以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征，最后采用多分类函数对视频内容进行分类。在LSTM网络中引入的注意力机制能够模拟人脑的识别功能，将不同的视频内容区别对待，有效提高视频分类的准确性。

同时，本发明一种基于注意力机制的视频分类方法还具有以下有益效果：

(1)、通过将空间特征以注意力权重进行组合，每一时刻，模型能够感知到所有的视频信息，而非单个视频帧的信息；

(2)、引入注意力机制后，模型能够模拟人脑的注意力机制，将不同的视频内容区别对待，有效提高视频分类的准确率。

附图说明

图1是本发明基于注意力机制的视频分类方法流程图；

图2是基于注意力机制的LRCN模型结构图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了方便描述，先对具体实施方式中出现的相关专业术语进行说明：

CNN(Convolutional Neural Network)：卷积神经网络；

LSTM(Long Short-Term Memory)：长短时记忆网络；

BPTT(Back Propagation Through Time)：时间后向传播算法；

图1是本发明基于注意力机制的视频分类方法流程图。

在本实施例中，从CRCV官方网站下载UCF-101数据集作为训练的样本视频，UCF-101数据集包含C＝101类视频，例如ApplyEyeMakeup、ApplyLipstick、...YoYo等，每个类别对应一个视频标识，如表1所示，按字母顺序排列，例如ApplyEyeMakeup的标识为(1,0,0…0)、ApplyLipstick的标识为(0,1,0…0)，YoYo的标识为(0,0,0…1)，标识为一个C维向量，是哪一类视频哪一维就为1，其余为0，视频标识在训练阶段属于已知。

视频类别	维度下标	视频标识
			ApplyEyeMakeup	0	(1,0,0…0)
ApplyLipstick	1	(0,1,0…0)
			…
YoYo	100	(0,0,0…1)

表1

下面以UCF-101数据集中任意一类视频为例，本发明一种基于注意力机制的视频分类方法进行详细说明，具体包括以下步骤：

S1、训练LSTM网络模型

S1.1、通过卷积神经网络CNN提取输入视频的空间特征

设输入视频YoYo为X＝{x₁,x₂，…,x_N}，N表示输入视频的总帧数，通过卷积神经网络CNN提取输入视频的空间特征为V＝{v₁,v₂,…,v_N}，v_i表示第i帧视频图像的特征向量，大小为2048维，i＝1,2,…,N；

S1.2、以注意力权重组合空间特征，得到加权空间特征并输入到LSTM网络；

其中，t＝1,2,…,T,T＝16表示时刻总数；

在本实施例中，如图2所示，基于注意力机制的LRCN模型由两部分组成，一部分是通过卷积神经网络CNN提取视频的空间特征，另一部分是以注意力权重组合空间特征，得到加权空间特征

S1.3、更新当前时刻LSTM网络状态；

S1.4、计算注意力权重

根据LSTM网络当前时刻状态，计算第i帧视频的相关性得分

其中，W_a、U_a、b_a分别为待学习参数，tanh(·)为双曲正切函数；

将所有帧视频的相关性得分进行归一化，得到第i帧视频的注意力权重

其中，exp(·)为指数函数；

注意力权重反映了第i帧视频特征向量在t时刻与整个视频特征向量集合的紧密程度，若该视频帧内容与整个视频内容越相关，则该注意力权重将越大；的学习与上一时刻的LSTM网络状态和当前时刻的输入有关，且满足条件为：

S1.5、LSTM网络根据当前时刻状态预测视频类别；

计算当前时刻t时视频类别的预测概率分布

S1.6、重复步骤S1.2-S1.5，分别预测出其余T-1个时刻的视频类别的预测概率分布p_t；

S1.7、计算第T次的预测概率分布值p_T和该视频的标识之间的误差Δε，采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数，完成本轮迭代；

S1.8、当本轮迭代完成后，按照步骤S1.2-S1.7所述方法进行下一轮迭代，直到完成M＝20000次迭代，得到训练好的LSTM网络模型；

S2、利用训练后的LSTM网络模型对待检测视频进行分类

S2.1、从待检测视频中每间隔m＝8帧提取一个长度为n＝16视频片段作为测试样本x_j，j＝1,2,…,L，L表示待检测视频划分为长度为n的视频片段的个数；

S2.2、将L个测试样本x_j按照步骤S1.1-S1.6所述方法进行处理，得到L个预测概率分布p_T；

S2.3、在L个预测概率分布p_T中，选取每一个预测概率分布p_T中概率最大项的维度所对应的类别作为该测试样本x_j的类别，从而得到L个统计结果，再统计L个统计结果中每个类别出现的次数，并将出现次数最多的类别作为待检测视频的类别；如果出现最大次数相等的类别，则以最大次数相等对应的预测概率分布p_T中概率最大项的维度所对应的类别作为待检测视频的类别。

仿真验证

本实施例采用HMDB-51和UCF-101数据集进行模型的仿真和验证分析。

HMDB-51数据集包含6766个视频，视频内容主要来自电影片段，分为51个类别，每个类别都包含至少101个视频，数据集的划分采用7/3原则。

UCF-101数据集是从现实生活中收集的视频识别数据集，视频内容全部来源于YouTube视频，包含13320个视频，共101类视频类别，是迄今为止最具挑战性的视频识别数据集之一。

HMDB-51和UCF-101数据集的划分都包含3种划分方式，本实施例统一采用split-1划分方式，测试模型分类的准确率。

对于空间特征提取部分，本实施例采用GoogLeNet的Inception-v3结构，并在2012年的imageNet上进行预训练，然后固定Inception-v3网络参数，提取pooling3层特征作为视频的空间特征，特征大小为2048维。对于时间特征提取部分，在LSTM网络中引入注意力机制，设置LSTM网络的层数为1层，输入单元个数为2048，隐藏单元个数为512，根据数据集的不同，输出单元个数为51或101。

在训练时，视频内容每16帧被划分成一个视频片段作为训练视频，在测试时，视频内容每隔8帧被划分成一个视频片段作为测试视频，相邻两个视频片段之间包含8帧相同的视频内容，来自同一视频的视频片段具有相同的视频标识。基于注意力机制的LRCN模型采用Adam优化算法进行训练，初始学习率为0.001，最大迭代次数为20000。

基于注意力机制的LRCN模型采用CNN+LSTM的结构，为验证注意力机制对视频内容识别的影响，本文以CNN+LSTM模型结构为基础，将基础模型与基于注意力机制的LRCN模型设置相同的单元结构，采用同样的方法进行训练，基础模型和基于注意力机制的LRCN模型分别在HMDB-51和UCF-101数据集上的识别准确率如表2所示。

表2是基于注意力机制的LRCN模型在HMDB-51和UCF-101数据集上的识别准确率；

模型	HMDB-51	UCF-101
			基础模型	38.8％	68.3％
基于注意力机制的LRCN模型	41.5％	72.4％

表2

从表2的识别结果可以看出，基于注意力机制的LRCN模型对视频内容的识别效果有明显的改善，相对于基础模型，基于注意力机制的LRCN模型在HMDB-51数据集上的识别准确率提高了2.7％，在UCF-101数据集上的识别准确率提高了4.1％。相对于HMDB-51数据集，基于注意力机制的LRCN模型在UCF-101数据集上的改善效果更为明显，这是由于UCF-101数据集中的视频通常拥有较长的视频时长，而随着识别时间的增加，基础模型容易丢失视频中的关键信息，而基于注意力机制的LRCN模型始终能够关注与视频主题相关的视频帧序列，从而更准确的识别视频内容。

同时，本实施例将基于注意力机制的LRCN模型与不同的视频内容识别方法进行了比较，比较结果如表3和表4所示。

表3是不同视频内容识别方法在HMDB-51数据集上的识别准确率；

不同视频内容识别方法	HMDB-51
		HOG/HOF^[7]	20.0％
空时HMAX网络^[49]	22.8％
		TRAJMF^[50]	40.7％
空间注意力模型^[51]	41.3％
		基于注意力机制的LRCN模型	41.5％

表3

由于HOG、HOF特征和HMAX网络提取的时间特征较为简单，因此视频内容的识别准确率不高。TRAJMF则将各种时间特征进行了融合，各种时间特征起到了互补的作用，识别准确率达到40.7％。空间注意力模型同样采用CNN+LSTM模型结构，不同的是，空间注意力模型将注意力落在每个视频帧的内容上，没有考虑视频本身的时间特性。然而，卷积神经网络提取的空间特征有效表征了视频的空间信息，本实施例提出的基于注意力机制的LRCN模型将注意力落在视频帧序列的时间顺序上，识别准确率高于空间注意力模型。

表4是不同视频内容识别方法在UCF-101数据集上的识别准确率；

表4

Karpathy应用深度学习模型，直接将连续的视频帧作为卷积神经网络的输入提取视频的空间特征对视频内容进行识别，相对于传统的手工特征获得了不错的识别效果。Jain在2014年THUMOS挑战赛中提出将HOG/HOF等手工空时特征与神经网络进行融合，识别准确率得到进一步提升。LRCN-single采用CNN+LSTM模型结构进行端到端的学习，识别准确率达到71.1％。本实施例在LRCN-single模型的基础上引入注意力机制，并以加权的视频空间特征向量作为LSTM网络的输入，提取带注意力的时间特征，识别准确率达到72.4％，高于LRCN-single模型。由此可以看出，在视频内容识别过程中，模拟人脑的注意力特性，有助于视频内容的理解和分析，改善识别效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于注意力机制的视频分类方法，其特征在于，包括以下步骤：

(1)、训练LSTM网络模型

(1.1)、通过卷积神经网络CNN提取输入视频的空间特征

其中，t＝1,2,…,T,T表示时刻总数；

(1.3)、更新当前时刻LSTM网络状态；

(1.4)、LSTM网络根据当前时刻状态预测视频类别；

计算当前时刻t时视频类别的预测概率分布

(1.6)、计算第T次的预测概分布值p_T和视频标识之间的误差Δε，采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数，完成本轮迭代；

(2)、利用训练后的LSTM网络模型对视频进行分类

(2.3)、在L个预测概率分布p_T中，选取每一个预测概率分布p_T中概率最大项的维度所对应的类别作为该测试样本x_j的类别，从而得到L个统计结果，再统计L个统计结果中每个类别出现的次数，并将出现次数最多的类别作为待检测视频的类别；如果出现最大最大次数相等的类别，则以最大次数相等对应的预测概率分布p_T中概率最大项的维度所对应的类别作为待检测视频的类别。

2.根据权利要求1所述的基于注意力机制的视频分类方法，其特征在于，所述的注意力权重的计算方法为：

根据LSTM网络当前时刻状态，计算第i帧视频的相关性得分

<mrow> <msubsup> <mi>&alpha;</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>e</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>e</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，exp(·)为指数函数。

3.根据权利要求1或2所述的基于注意力机制的视频分类方法，其特征在于，所述的注意力权重满足条件为：