CN109101896B

CN109101896B - 一种基于时空融合特征和注意力机制的视频行为识别方法

Info

Publication number: CN109101896B
Application number: CN201810797742.XA
Authority: CN
Inventors: 徐杰; 余兴; 盛纾纬; 魏号亮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2022-03-25
Anticipated expiration: 2038-07-19
Also published as: CN109101896A

Abstract

本发明公开了一种基于时空融合特征和注意力机制的视频行为识别方法，通过卷积神经网络Inception V3提取输入视频的时空融合特征，然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制，使得网络能够根据视频内容自动分配权重，提取出视频帧序列中的关键帧，从视频整体上对行为进行识别，这样排出冗余信息对识别的干扰，且提高了视频行为识别的准确率。

Description

一种基于时空融合特征和注意力机制的视频行为识别方法

技术领域

本发明属于行为识别技术领域，更为具体地讲，涉及一种基于时空融合特征和注意力机制的视频行为识别方法。

背景技术

行为识别相关的研究正日益在诸多应用场景中得到了广泛的引用，例如安全监控、自动驾驶、视频检索等。行为识别通常指从视频序列中识别出个体或群体的行为。通常具体的行为发生在连续的视频帧序列上，而不仅仅是单个视频帧。因此视频中的运动信息对行为的识别至关重要，如何有效地表征出视频中的时空特征是行为识别研究领域的一个热点。

传统的行为识别有赖于从视频帧序列和光流序列中提取出的手工特征，例如SIFT、HOG、HOF等。近年来得益于深度学习强大的特征提取能力，许多人尝试采用深度学习的方法进行行为识别相关的研究并取得了一定的进展。视频作为一种复杂的媒体形式，自然地涉及到两方面的信息，视频帧序列中包含的空间场景信息和视频帧之间的运动信息。现在很多研究工作都是基于比较经典的Two stream结构，但是这种网络结构没有考虑到长时间范围视频帧之间的时序联系。Jeffrey Donahue进一步提出了LRCN网络模型，利用LSTM进一步建模CNN卷积特征在长时间范围内的时序联系。在LRCN网络模型中，每一时刻输入的是单个的视频帧，缺乏对全局视频帧的描述。而且视频帧序列中存在大量的冗余信息，这种简单的输入方式未能利用视频帧序列中的关键帧信息。

视频行为识别相关的研究一直是计算机视觉研究领域的热点，传统的识别方法高度依赖提取出的视频特征，因此很多人致力于设计出足够鲁棒的特征。很多图像处理领域的特征进一步拓展可以挖掘视频的时域特征。Laptev将2D哈里斯角点拓展到三维以找出视频中的时空兴趣点。Dollar在3D Harris角点的基础上，首先单独在时间维和空间维采用Gabor滤波器滤波，这样检测出的兴趣点的数目会随着时间和空间的局部领域尺寸的改变而改变。为了更有效地描述局部特征点信息，Paul将传统的SIFT拓展到3D-SIFT。Ronald从多个时空兴趣点中提取出HOG和HOF特征，然后采用词袋模型对特征进行编码。Heng通过提取关键点的稠密轨迹，和每个点的HOG、HOF、MBH特征进一步提高了识别准确率。上述的手工特征一定程度上反应了视频内容信息，但是手工特征的设计需要大量的专业知识和经验。

近年来，得益于深度学习强大的特征提取能力，视频行为的识别和分析取得了突破性进展。视频行为识别的核心在于视频特征的提取，Kpapathy首先采用卷积神经网络提取视频帧的卷积特征，并进一步在时域上进行拓展。Ji则直接将二维卷积拓展到三维，同时从空间和时间两个维度提取视频特征，以提取视频相邻帧之间运动信息。结合人类神经学方面的研究，Simonyan提出了Two stream模型，分别提取视频帧序列特征和光流序列特征，融合两个通道的识别结果做识别。尽管如此，这些基于深度学习的方法只考虑到了短时间范围内的视频帧前后时序联系，忽略了视频的长时信息。

虽然卷积神经网络能够提取视频的空间特征，但无法处理序列问题。因此，提出了一种基于注意力机制的视频行为识别方法，该方法从全局考虑视频信息，同时采用注意力机制选择性的关注视频中的有效信息，降低无效信息的干扰，从而实现视频行为识别。

本发明在此基础上，提出了的注意力机制和时空融合特征，本文提出基于注意力机制的时空融合模型。首先从视频内在的时空特性出发，分别提取出视频帧序列和光流序列的卷积特征，融合成为时空融合特征，在时空融合特征的基础上，再借鉴人类视觉系统中的注意力机制，使得网络能够根据视频内容自动分配权重，提取出视频帧序列中的关键帧内容。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于时空融合特征和注意力机制的视频行为识别方法，在时空融合特征的基础上结合人类视觉系统中的注意力机制，使得网络能够根据视频内容自动分配权重，提取出视频帧序列中的关键帧，从而实现视频行为识别。

为实现上述发明目的，本发明一种基于时空融合特征和注意力机制的视频行为识别方法，其特征在于，包括以下步骤：

(1)、训练LSTM网络模型

(1.1)、通过卷积神经网络Inception V3提取输入视频的时空融合特征

设输入视频帧序列为X＝{x₁,x₂，…,x_N}，N表示输入视频的总帧数，对输入的相邻两帧依次提取光流，得到光流序列{f₁,f2,…,f_N-1}；

从输入视频帧序列和光流序列中分别等间隔采样出n帧，n＜＜N；再通过卷积神经网络Inception V3提取这n帧输入视频帧序列的卷积特征序列f_sta和光流序列的卷积特征序列f_flow；最后以f_sta为基准，将f_flow拼接在f_sta后面，从而生成时空融合特征，其中，v_i表示第i视频帧的时空融合特征向量，i＝1,2,…,n；

(1.2)、以注意力权重

组合时空融合特征，得到加权时空融合特征

并输入到LSTM网络；

其中，t＝1,2,…,T,T表示时刻总数；

(1.3)、更新当前时刻LSTM网络状态；

其中，f_t、i_t、o_t分别表示LSTM网络的遗忘门、输入门和输出门的计算结果，h_t-1和c_t-1分别表示上一时刻隐藏单元状态和记忆单元状态，h_t和c_t分别表示当前时刻隐藏单元状态和记忆单元状态，σ(·)是sigmoid函数，

表示点积运算， U_f、U_i、U_c，A_f、A_i、A_c，b_i、b_f、b_c分别为待学习参数；

(1.4)、LSTM网络根据当前时刻状态预测视频类别；

计算当前时刻t时视频类别的预测概率分布

其中，softmax(·)是多分类函数，U_p、W_p、b_p、d分别为待学习参数；

(1.5)、重复步骤(1.2)-(1.4)，分别预测出其余T-1个时刻的视频行为类别的概率分布p_t；

(1.6)、计算第T次的预测概率分布值p_T和视频标签之间的误差Δε；

计算网络模型损失的交叉熵

其中，M为本轮学习时使用的视频数，P为数据集中包含的视频的类别数，

为某一视频的标签；

将交叉熵

和模型复杂度损失L_λ之和作为网络的整体损失，然后采用 BPTT算法将网络损失进行反向传递进而更新LSTM网络中待学习参数，完成本轮迭代；

(1.7)、当本轮迭代完成后，按照步骤(1.2)-(1.6)所述方法进行下一轮迭代，直到完成所有迭代，得到训练好的LSTM网络模型；

(2)、利用训练后的LSTM网络模型对视频进行行为识别

(2.1)、从待检测视频

中提取出视频帧序列和光流序列，并按照步骤(1.1)所示提取出长度为n的时空融合特征序列，作为一条测试数据；

(2.2)、将测试数据按照步骤(1.1)-(1.5)所述方法进行测试，将概率最大的类别作为测试视频行为的预测结果。

本发明的发明目的是这样实现的：

本发明一种基于时空融合特征和注意力机制的视频行为识别方法，通过卷积神经网络Inception V3提取输入视频的时空融合特征，然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制，使得网络能够根据视频内容自动分配权重，提取出视频帧序列中的关键帧，从视频整体上对行为进行识别，这样排出冗余信息对识别的干扰，且提高了视频行为识别的准确率。

同时，本发明一种基于时空融合特征和注意力机制的视频行为识别方法还具有以下有益效果：

(1)、从视频内在的时空融合特性出发，通过提取视频的时空融合特征能够更有效地利用视频信息，从而提高视频行为识别的准确率。

(2)、通过注意力机制，能够将时空融合特征以注意力权重进行组合，每一时刻模型能够关注到视频内容的关键帧信息，提高视频行为识别的准确率。

附图说明

图1是本发明基于时空融合特征和注意力机制的视频行为识别方法流程图；

图2是基于注意力机制的时空融合模型结构图；

图3是HMDB-51数据集中dribble视频的注意力可视化结果图；

图4是UCF-101数据集中biking视频的注意力可视化结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了方便描述，先对具体实施方式中出现的相关专业术语进行说明：

LSTM(Long Short-Term Memory)：长短时记忆网络；

图1是本发明基于时空融合特征和注意力机制的视频行为识别方法流程图。

在本实施例中，

采用LSVRC2012数据集用于Inception V3网络的预训练，采用HMDB-51 和UCF-101数据集进行模型的仿真和验证分析。

HMDB-51数据集包含6849部视频，视频内容主要来自电影片段，分为51 个类别，其中5222部作为训练集，300部作为验证集，1327部作为测试集。

UCF-101数据集是从现实生活中收集的视频动作识别数据集，视频内容全部来源于YouTube视频，包含13320个视频，共101类视频类别，是迄今为止最具挑战性的视频识别数据集之一，其中9537部视频作为训练集，412部作为验证集，3371部作为测试集。

下面我们对本发明一种基于时空融合特征和注意力机制的视频行为识别方法进行详细说明，具体包括以下步骤：

S1、训练LSTM网络模型

S1.1、通过卷积神经网络Inception V3提取输入视频的时空融合特征

设输入视频帧序列为X＝{x₁,x₂，…,x_N}，N表示输入视频的总帧数，对输入的相邻两帧依次提取光流，得到光流序列{f₁,f₂,…,f_N-1}；

在本实施例中，提取时空融合特征时，采用Inception V3结构，并在 LSCRC2012数据集上进行预训练，然后固定Inception-v3网络参数，提取pooling3 层特征作为视频的卷积特征，特征大小为2048维。在LSTM网络中引入注意力机制，设置LSTM网络的层数为1层，输入单元个数为4096。

在训练时，每部视频内容等间隔抽取16帧作为训练视频，在测试时，测试集视频同样抽取16帧作为测试视频。基于注意力机制的时空融合模型采用Adam 优化算法进行训练，初始学习率为0.001，最大迭代次数为20个epoch。

S1.2、以注意力权重

组合空间特征，得到加权空间特征

并输入到 LSTM网络；

其中，t＝1,2,…,T,T＝16表示时刻总数；

在本实施例中，如图2所示，基于注意力机制的时空融合模型由两部分组成，一部分是通过卷积神经网络CNN提取视频的时空融合特征，另一部分是以注意力权重

组合时空融合特征，供后续网络使用；

S1.3、更新当前时刻LSTM网络状态；

其中，f_t、i_t、o_t分别表示LSTM网络的遗忘门、输入门和输出门的计算结果，h_t-1和c_t-1分别表示上一时刻隐藏单元状态和记忆单元状态，h_t和c_t分别表示当前时刻隐藏单元状态和记忆单元状态，σ()是sigmoid函数，

表示点积运算，U_f、U_i、U_c，A_f、A_i、A_c，b_i、b_f、b_c分别为待学习参数；

S1.4、计算注意力权重

根据LSTM网络当前时刻状态，计算第i帧视频的相关性得分

其中，W_a、U_a、b_a分别为待学习参数，tanh()为双曲正切函数；

将所有帧视频的相关性得分进行归一化，得到第i帧视频的注意力权重

其中，exp()为指数函数；

注意力权重

反映了第i帧视频特征向量在t时刻与整个视频特征向量集合的紧密程度，若该视频帧内容与整个视频内容越相关，则该注意力权重将越大；

的学习与上一时刻的LSTM网络状态和当前时刻的输入有关，且

满足条件为：

S1.5、LSTM网络根据当前时刻状态预测视频类别；

计算当前时刻t时视频类别的预测概率分布

其中，softmax()是多分类函数，U_p、W_p、b_p、d分别为待学习参数；

S1.6、重复步骤S1.2-S1.5，分别预测出其余T-1个时刻的视频类别的预测概率分布p_t；

S1.7、计算第T次的预测概率分布值p_T和视频标签之间的误差Δε；

计算网络模型损失的交叉熵

为某一视频的标签；

将交叉熵

和模型复杂度损失L_λ之和作为网络的整体损失，然后采用BPTT算法将网络损失进行反向传递进而更新LSTM网络中待学习参数，完成本轮迭代；

S1.8、当本轮迭代完成后，按照步骤S1.2-S1.7所述方法进行下一轮迭代，直到所有迭代，得到训练好的LSTM网络模型；

S2、利用训练后的LSTM网络模型对待检测视频进行行为识别

S2.1、从待检测视频

中每间隔m＝8帧提取一个长度为n＝16视频片段作为测试样本x_j，j＝1,2,…,L，L表示待检测视频划分为长度为n的视频片段的个数；

S2.2、将L个测试样本x_j按照步骤S1.1-S1.6所述方法进行处理，得到L个预测概率分布p_T；

S2.3、在L个预测概率分布p_T中，选取每一个预测概率分布p_T中概率最大项的维度所对应的类别作为该测试样本x_j的类别，从而得到L个统计结果，再统计L个统计结果中每个类别出现的次数，并将出现次数最多的类别作为待检测视频的类别；如果出现最大次数相等的类别，则以最大次数相等对应的预测概率分布p_T中概率最大项的维度所对应的类别作为待检测视频的类别。

仿真验证

基于注意力机制的时空融合模型充分利用视频内在的时空融合特性，又通过注意力机制去挑选视频序列的关键帧内容，为验证基于注意力机制的时空融合模型的识别效果，本实施例将基于注意力机制的时空融合模型与不同的视频内容识别方法进行了比较，比较结果如表1和表2所示。

表1是不同视频内容识别方法在HMDB-51数据集上的识别准确率

表1

通过表1可知，由于传统的基于稠密轨迹的识别方法采用的是传统的手工特征，在HMDB-51数据集上只实现了57.2％的识别准确率。改进的基于稠密轨迹和编码的识别方法在传统手工特征基础上，利用分层的费舍尔向量做识别，取得了66.8％的识别准确率，但是中间采用了两层费舍尔向量提取，较为繁琐。 Sharma将空间注意力机制引入到视频识别中，提出了空间软注意力模型。让模型捕捉视频的关键运动部位，实现了41.3％的识别准确率。Simonyan等分别利用两路CNN提取视频的时间特征和空间特征，并对时间特征和空间特征的识别结果采用均值和支持向量机两种融合方法。虽然考虑到了视频的时空融合特性，但是没有进行关键帧的选取，分别实现了58.0％和59.4％的识别准确率。本文提出的基于注意力机制的时空融合模型采用两路CNN分别提取视频帧序列和光流序列的卷积特征，并将融合后的特征送入后续的LSTM网络训练。在LSTM网络部分采用注意力机制，改善了模型的动作识别效果，实现了63.82％的识别准确率。

表2是不同视频内容识别方法在UCF-101数据集上的识别准确率；

表2

Li Fei-Fei采用缓慢融合直接提取连续视频帧不同分辨率下卷积特征进行识别，整体识别准确率为65.4％。相比于传统的手工特征方法上虽然有一定的创新，但没有考虑视频帧间的运动信息，没有选取视频连续帧间的关键帧，整体的识别准确率有进一步提高的空间。Simonyan，Zisserman提出了基于单帧光流的识别方法，将光流信息应用到行为识别中，取得了73.9％的准确率。相比于缓慢融合方法，准确率有一定的提升。Hao Ye虽然采取了空间早期融合和空间晚期融合两种不同的融合策略，但只使用了视频的空间特征，分别达到了75.73％和 70.29％的识别准确率。本文提出的基于注意力机制的时空融合模型CNN部分使用两路CNN分别提取视频帧序列和光流序列的卷积特征，在输入到LSTM网络单元之前进行时空特征的融合，在LSTM网络部分引入注意力机制，以加权后的视频时空融合特征作为LSTM网络单元的输入。在识别过程中，能够关注视频片段更重要的视频帧，排除无关信息的干扰，实现了75.8％的识别准确率。

下面我们进行可视化分析：基于注意力机制的时空融合模型以加权的视频时空融合特征向量作为LSTM网络的输入，LSTM网络根据当前时刻的输入与之前的网络状态为与视频主题相关的区域分配较大的权重，无关的区域分配较小的权重。从HMDB-51和UCF-101数据集中各选取一部测试视频对基于注意力机制的时空融合模型分配的注意力权重进行了可视化，可视化结果分别如图3 和4所示。

如图3所示，从HMDB-51数据集中选取一段男孩打棒球的测试视频，该视频的标签为swing baseball，时长3秒，视频帧率是30fps，共计包含102个视频帧。每隔6帧选取一帧作为测试视频，作为最终基于注意力机制的时空融合模型的输入。计算模型最后一个时刻各帧的注意力权重并对其做可视化分析。

从3可以看到，在第1帧至第7帧，男孩主要处于准备击球阶段，动作变化幅度不大，基于注意力机制的时空融合模型对其分配的权重较小。而在第8 帧至12帧，男孩完成了击球动作，特别在第8帧，棒球出现在画面中，具有较大的区分度，模型给第8帧至12帧分配了较大的注意力权重。在第13帧至16 帧男孩在完成击球之后开始跑垒，模型给这一段视频帧分配的权重有所减小，是因为相较于跑垒，击球阶段更容易辨识出swing baseball这一行为。不难发现，基于注意力机制的时空融合模型将男孩击球这一段视频帧作为识别行为的关键帧。

如图4所示，从UCF-101数据集中选取的测试视频内容为一个男孩吹灭蜡烛，标签为blowing candles。从图4看到，从第1帧至3帧，画面中的人物正在桌边准备吹蜡烛，基本没有什么动作，基于注意力机制的时空融合模型为其分配了较小的权重。而在第4帧到第6帧，视频中人物开始吹灭蜡烛，模型开始给相应的视频帧分配更大的权重。从第7帧到第12帧，视频中人物开始靠近蜡烛，此时模型分配的权重比第4帧到第6帧的更大，此时间段视频帧明显更容易识别为Blowing Candles这一行为。到第13帧为止，视频中人物基本吹灭蜡烛，因此后续的第13帧到第16帧，基于注意力机制的时空模型分配的权重极少，基本为0。因此可以看出第4帧到第12帧包含了更多的场景信息，并且包含了相关的时间顺序，被模型认定为与动作识别任务更紧密的关键帧，因此分配了更多的注意力权重。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。