CN108229338B

CN108229338B - 一种基于深度卷积特征的视频行为识别方法

Info

Publication number: CN108229338B
Application number: CN201711340444.XA
Authority: CN
Inventors: 许勇; 张银珠
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2021-12-21
Anticipated expiration: 2037-12-14
Also published as: CN108229338A

Abstract

本发明公开了一种基于深度卷积特征的视频行为识别方法，包括以下步骤：1)提取视频的密集轨迹；2)提取视频的深度卷积空间特征；3)计算视频光流并提取深度卷积时态特征；4)对深度卷积空间特征和深度卷积时态特征分别依次进行时空归一化、通道间归一化；5)对归一化后的空间特征和时态特征分别沿密集轨迹进行时序池化操作；6)将池化后的空间特征和时态特征联结后利用LSTM网络进行分类。所述方法在结合深度学习特征和轨迹特征的过程中，考虑了轨迹特征的时序信息，能更加有效地利用视频轨迹信息，使特征提取更加准确，最后使用LSTM网络作为分类器，有利地提高了行为识别的准确率。

Description

一种基于深度卷积特征的视频行为识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度卷积特征的视频行为识别方法。

背景技术

视频作为比图片能承载更多信息的载体，已经逐渐成为生活中一种最重要的视觉数据。视频行为识别技术作为视频分析与理解的基本技术，正受到越来越多学者和工程师的关注。一方面，行为识别在生活生产上应用广泛，诸如实现智能、自动驾驶等。另一方面，行为识别可以推动视频分析理解技术的发展，进一步推动网络视频的传输、存储、网络视频个性推荐等技术的进步。

与图像分类任务相比，基于视频的分类在提取特征过程中，除了提取静态特征之外，还需要考虑时间特征，比如提取光流特征和轨迹特征，复杂度更高。在提取特征时，需要考虑分辨率、光照、遮挡、杂乱背景等变化带来的影响，除此之外，需要考虑如何合理地融合空间特征和时间特征等问题。以上种种使得视频行为识别成为在视觉领域中一个极具挑战性的课题。

现有技术中，通常采用某种特征描述子提取视频特征，然后用所学特征和样本标签训练分类器对视频行为进行分类。传统三维特征描述有3D-SIFT、HOG3D、extended SURF、iDT等，基于深度学习的特征提取可以用卷积神经网络C3D、Two stream网络、LSTM网络等。其中3D-SIFT、HOG3D、extended SURF由其对应的2D特征描述子添加时间维度扩展而来，对空间维度和时间维度上的特征不作区分糅合在一个三维空间中，无法合理处理两种不同空间特征的特性。iDT相比其他特征提取算子，提取并描述了轨迹特征，具有较好效果。深度学习特征相较于手工传统特征，能够学到更具区分性和层次性的特征，没有考虑轨迹特征及其时序性，忽略了运动特性，导致最终分类效果精确率不高。

发明内容

本发明的目的是针对现有技术的不足，提供了一种基于深度卷积特征的视频行为识别方法，所述方法在结合深度学习特征和轨迹特征的过程中，考虑了轨迹特征的时序信息，能更加有效地利用视频轨迹信息，使特征提取更加准确，最后使用LSTM网络作为分类器，有利地提高了行为识别的准确率。

本发明的目的可以通过如下技术方案实现：

一种基于深度卷积特征的视频行为识别方法，所述方法包括以下步骤：

S1、对视频序列提取视频的密集轨迹：每隔L帧，使用网格法对视频进行密集采样，使用密集轨迹算法在这L帧内对采样点进行跟踪，获取每个采样点的轨迹，去除静态轨迹和变化值大于设定阈值的轨迹，得到该视频的密集轨迹；

S2、提取视频的深度卷积空间特征：将视频序列输入到预训练好的空间神经网络，最后一层卷积层的特征图即为视频的深度卷积空间特征；

S3、提取视频的深度卷积时态特征：用光流算法对每个视频进行光流场计算，然后归一化成三维的特征图，输入到预训练好的时态神经网络，最后一层卷积层的特征图即为视频的深度卷积时态特征；

S4、规范化处理与时序轨迹池化：将提取的视频的深度卷积空间特征和深度卷积时态特征分别依次进行时空归一化和通道间归一化，然后对归一化后的深度卷积空间特征和深度卷积时态特征分别沿着视频的密集轨迹进行时序池化操作；

S5、训练视频行为识别分类器：将时序池化后的深度卷积空间特征和深度卷积时态特征进行联结后输入到LSTM神经网络中进行训练，得到训练后的LSTM神经网络作为视频行为识别分类器；

S6、视频行为识别：对待识别视频进行与训练集中视频步骤S1至步骤S4相同的密集轨迹提取、深度卷积空间特征提取、深度卷积时态特征提取操作，以及将空间特征和时态特征进行归一化和池化操作，得到的特征输入到步骤S5训练好的视频行为识别分类器中，输出视频行为识别的结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明结合视频行为识别中深度学习特征和传统特征描述子的优点，在学得具有区分性和层次性的空间特征和时态特征的同时，能有效利用视频轨迹特征。

2、本发明在对视频的密集轨迹进行池化过程中考虑了时序性，使特征提取更加准确，保留了更多有效信息。

3、本发明利用LSTM神经网络作为最终分类器，有利于时间特征和空间特征之间的融合，利用LSTM神经网络输入特性可以解决输入特征长度不一的问题，这种特性可以充分保留和利用输入信息，有利于行为识别准确率的提高。

附图说明

图1为本发明实施例一种基于深度卷积特征的视频行为识别方法的流程图。

图2为本发明实施例中用于提取深度卷积空间特征和深度卷积时态特征的卷积网络结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种基于深度卷积特征的视频行为识别方法，所述方法的流程图如图1所示，包括以下步骤：

S1、获取训练数据：获取训练视频数据集中的视频和对应的标签，按某一帧率提取每一帧画面，得到训练样本和其所属的类别，所属类别包括训练数据集中视频涉及的所有行为种类；提取视频的密集轨迹：每隔15帧，使用网格法进行密集采样，使用密集轨迹算法在这15帧内对采样点进行跟踪，获取每个采样点的轨迹，去除静态轨迹和变化过大的轨迹，得到该视频的密集轨迹；

S2、提取视频的深度卷积空间特征：将视频序列输入到预训练好的空间神经网络，最后一层卷积层的特征图即为视频的深度卷积空间特征；所述空间神经网络在ImageNet数据集上预训练、在公开数据集UCF101上微调得到；将ImageNet数据集中的图像及其对应的标签输入至神经网络，以对神经网络进行训练，然后将数据集UCF101中的训练样本及其对应的标签输入至上述训练好的神经网络，对网络进行微调；

S3、提取视频的深度卷积时态特征：用TVL1光流算法对每个视频进行光流场计算，然后归一化成三维的特征图，输入到预训练好的时态神经网络，最后一层卷积层的特征图即为视频的深度卷积时态特征；与空间神经网络的网络结构一样，时态神经网络在公开数据集UCF101上预训练；所述用于提取深度卷积空间特征和深度卷积时态特征的卷积网络结构示意图如图2所示；

S6、视频行为识别：对待识别视频进行与训练集中视频步骤S1至步骤S4相同的密集轨迹提取、深度卷积空间特征提取、深度卷积时态特征提取操作，然后将空间特征和时态特征进行归一化和池化操作，得到的特征输入到步骤S5训练好的视频行为识别分类器中，输出视频行为识别的结果。

进一步地，步骤S1中提取训练集中视频的密集轨迹的具体过程为：对首帧原始尺度空间的视频使用网格划分的方法进行密集采样，采样间隔即网格大小为5像素，其中对采样得到的像素点的计算阈值如下：

其中，

为图像I中像素点i的自相关矩阵的特征值，η为一般参数，此处取η＝0.001，去除采样点中自相关矩阵的特征值低于阈值T的点，剩余的采样点组成被跟踪特征点集P，设第t帧的某一被跟踪特征点P_t＝(x_t,y_t)，能够根据光流场和中值滤波器

来跟踪其在t+1帧的轨迹点P_t+1：

其中，

表示中值滤波器，*表示卷积操作，ω_t＝(u_t,v_t)是第t帧的密集光流场，由此能够计算得到特征点连续L帧的一条轨迹(P_t,P_t+1P_t+2,…,P_t+L)，这里L＝15，防止漂移现象的出现，最后，去除变化太小的静态轨迹和变化过大的轨迹，得到训练集中视频的密集轨迹。

进一步地，所述提取视频的深度卷积空间特征的具体过程为：

Sa1、将视频提取的帧作为输入层特征图输入到训练好的卷积神经网络；

Sb1、卷积神经网络中首先对输入层特征图进行卷积和激活，得到卷积层C1；

Sc1、将卷积层C1特征图进行局部响应值归一化，得到归一化层N1；

Sd1、将归一化层N1特征图进行最大值池化，得到降采样层P1；

Se1、将降采样层P1特征图进行卷积和激活，得到卷积层C2；

Sf1、将卷积层C2特征图进行局部响应值归一化，得到归一化层N2；

Sg1、将归一化层N2特征图进行最大值池化，得到降采样层P2；

Sh1、将降采样层P2特征图进行卷积和激活，得到卷积层C3；

Si1、将卷积层C3特征图进行卷积和激活，得到卷积层C4；

Sj1、将卷积层C4特征图进行卷积和激活，得到卷积层C5的特征图即为视频的深度卷积空间特征。

进一步地，所述提取视频的深度卷积时态特征的具体过程为：

Sa2、对视频使用TVL1光流算法提取光流，包括垂直和水平分量，对每一帧用后面F-1帧的光流填补为通道数为2F的三维输入数据，将其作为输入层特征图输入到训练好的卷积神经网络；

Sb2、卷积神经网络中首先对输入层特征图进行卷积和激活，得到卷积层C1；

Sc2、将卷积层C1特征图进行局部响应值归一化，得到归一化层N1；

Sd2、将归一化层N1特征图进行最大值池化，得到降采样层P1；

Se2、将降采样层P1特征图进行卷积和激活，得到卷积层C2；

Sf2、将卷积层C2特征图进行最大值池化，得到降采样层P2；

Sg2、将降采样层P2特征图进行卷积和激活，得到卷积层C3；

Sh2、将卷积层C3特征图进行卷积和激活，得到卷积层C4；

Si2、将卷积层C4特征图进行卷积和激活，得到卷积层C5的特征图即为视频的深度卷积时态特征。

进一步地，所述卷积层C1～C5为带参数的隐含层，在卷积层C1～C5的每个卷积层中，经过当前卷积层的第j个卷积核卷积得到的特征图

为：

其中，

表示的是第a层卷积层第i个神经元的第j个卷积核，

为第a层卷积层的第j个卷积核的神经元的偏置，f是激活函数，

为当前卷积层的上一层第i个神经元输出的特征图。

进一步地，步骤S4中所述将提取的视频的深度卷积空间特征或深度卷积时态特征

进行时空归一化的具体过程如下：

所述将提取的视频的深度卷积空间特征或深度卷积时态特征

进行通道归一化的具体过程如下：

其中，H、W、L、N分别表示深度卷积空间特征图或深度卷积时态特征图的长、深度卷积空间特征图或深度卷积时态特征图的宽、视频帧数、深度卷积空间特征图或深度卷积时态特征图的通道数。

进一步地，步骤S4中所述对归一化后的深度卷积空间特征或深度卷积时态特征沿着视频的密集轨迹进行时序池化操作的具体过程为：

其中，W_i是根据时序决定其不同重要性的权重，

为归一化后的深度卷积空间特征图或深度卷积时态特征图，T_k表示第k条轨迹，

表示T_k中的第i个轨迹点的坐标，r表示特征图的尺寸比例，这里r＝1/32，

表示舍入操作，

为轨迹时序池化后的特征。

进一步地，所述根据时序决定其不同重要性的权重W_i是一个从对数正态分布函数中采样得到的一组数：

W_i＝f(i％L·(Ed-St)/L+St，u，σ)

其中，％表示取模运算；L表示轨迹长度，这里取L＝15；(Ed，St)表示f(x，u，σ)函数的采样区间；u，σ为函数参数；f(x，u，σ)是对数正态分布函数：

进一步地，步骤S6中将得到的特征输入到训练好的视频行为识别分类器中进行识别的具体过程为：

Sa3、将视频每一帧提取得到的特征依次输入到训练好的LSTM网络；

Sb3、LSTM网络中将当前帧视频特征与网络的隐含层状态、细胞状态输入到LSTM单元中，得到网络当前隐含层状态和细胞状态，再与下一帧视频特征输入到LSTM单元中，依此循环，直至得到最后一帧视频对应的隐含层状态；

Sc3、将最后一层隐含层状态输入到输出层进行全连接操作，然后采用函数计算该视频分别属于各类行为的概率，以此得到视频中行为所属类别。

进一步地，所述LSTM单元层为带参数的隐含层，处理第t帧视频的特征x_t时，经过LSTM单元得到当前帧的细胞状态C_t和隐含层状态h_t为：

h_t＝o_t*tanh(C_t)

f_t＝σ(W_f[h_t-1，x_t]+b_f)

i_t＝σ(W_i[h_t-1，x_t]+b_i)

o_t＝σ(W_o[h_t-1，x_t]+b_o)

其中，

为LSTM网络四个带参数的结构，σ(·)为sigmoid函数，C_t-1、h_t-1分别第t-1帧视频特征对应的细胞状态和隐含层状态，W_f、W_i、W_o、W_C为LSTM单元层参数，b_f、b_i、b_o、b_C为偏置。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度卷积特征的视频行为识别方法，其特征在于，所述方法包括以下步骤：

S6、视频行为识别：对待识别视频进行与训练集中视频步骤S1至步骤S4相同的密集轨迹提取、深度卷积空间特征提取、深度卷积时态特征提取操作，以及将空间特征和时态特征进行归一化和池化操作，得到的特征输入到步骤S5训练好的视频行为识别分类器中，输出视频行为识别的结果；

步骤S4中所述对归一化后的深度卷积空间特征或深度卷积时态特征沿着视频的密集轨迹进行时序池化操作的具体过程为：

其中，W_i是根据时序决定其不同重要性的权重，

表示舍入操作，

为轨迹时序池化后的特征；

所述根据时序决定其不同重要性的权重W_i是一个从对数正态分布函数中采样得到的一组数：

W_i＝f(i％L·(Ed-St)/L+St，u，σ)

其中，％表示取模运算；L表示轨迹长度，(Ed，St)表示f(x，u，σ)函数的采样区间；u，σ为函数参数；f(x，u，σ)是对数正态分布函数：

2.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法，其特征在于，步骤S1中提取训练集中视频的密集轨迹的具体过程为：对首帧原始尺度空间的视频使用网格划分的方法进行密集采样，采样间隔即网格大小为5像素，其中对采样得到的像素点的计算阈值如下：

其中，

为图像I中像素点i的自相关矩阵的特征值，η为一般参数，去除采样点中自相关矩阵的特征值低于阈值T的点，剩余的采样点组成被跟踪特征点集P，设第i帧的某一被跟踪特征点P_t＝(x_t，y_t)，能够根据光流场和中值滤波器M来跟踪其在t+1帧的轨迹点P_t+1：

其中，

表示中值滤波器，*表示卷积操作，ω_t＝(u_t，v_t)是第t帧的密集光流场，由此能够计算得到特征点连续L帧的一条轨迹(P_t，P_t+1，P_t+2，...，P_t+L)，防止漂移现象的出现，最后，去除变化太小的静态轨迹和变化过大的轨迹，得到训练集中视频的密集轨迹。

3.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法，其特征在于，所述提取视频的深度卷积空间特征的具体过程为：