CN108133188A

CN108133188A - 一种基于运动历史图像与卷积神经网络的行为识别方法

Info

Publication number: CN108133188A
Application number: CN201711403339.6A
Authority: CN
Inventors: 石英; 罗佳齐; 杨明东; 孙明军; 徐乐; 高田翔; 谢凌云; 全书海; 刘子伟; 朱剑怀
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-06-08
Anticipated expiration: 2037-12-22
Also published as: CN108133188B

Abstract

本发明公开了一种基于运动历史图像与卷积神经网络的行为识别方法，包括以下步骤：S1、获取输入的原始视频图像，通过基于运动历史图像的行为序列特征提取方法对其进行处理；S2、采用基于深度卷积神经网络的方法对局部运动历史图像进行行为识别，得到行为类别分类器，最终通过该行为类别分类器输出行为识别结果。本发明从原始视频序列中计算运动历史图像，不仅减少了待处理的信息量，还提取了行为识别中的关键时空信息；接着以运动历史图像作为输入，搭建了深度卷积神经网络，然后利用随机梯度下降法(Stochastic gradient descent,SGD)与Dropout策略训练网络，最终实现行为类别分类。本发明能有效的应用于在线实时行为识别。

Description

一种基于运动历史图像与卷积神经网络的行为识别方法

技术领域

本发明涉及行为识别领域，尤其涉及一种基于运动历史图像与卷积神经网络的行为识别方法。

背景技术

基于计算机视觉的人体行为识别技术在机器人、视频监控、虚拟现实等领域应用广泛，解决人体行为识别问题的方法主要分为传统算法与基于深度学习的识别算法。传统算法采用“特征提取与表达+特征匹配”的方式识别人体行为，基于深度学习的识别算法则通过神经网络学习对象特性，直接输出最终识别结果。目前大量研究聚焦于准确率的提升，忽略了算法的实时性，而在各类实际应用中，算法速度不容忽视。

传统算法通过分析人体行为固有特性，人工设计特征，包括运动信息特征、时空兴趣点以及几何特征等。其中，时空兴趣点对于光照变化、背景差异和环境噪声有着很强的鲁棒性，特征表达更加充分，识别率最高，常用的时空兴趣点有3D-SIFT、HOG3D以及ESURF等。但该类特征提取复杂、匹配耗时，在实际应用中很难满足实时性要求。相对地，运动历史图像、运动能量图像等仅需通过图像差分、阈值化等简单的处理方法即可实现几何特征的提取，但常规的利用Hu矩这类描述子进行特征表达的方式往往会造成特征维度的压缩，虽然特征提取的速度得到了提升，但因其时空信息的丢失，识别率将大大降低。

近年来，深度学习方法兴起，通过神经网络获取的特征，对行为特征有着更加抽象、全面的描述，而卷积神经网络因其卷积层共享权值特性，可有效减少待训练参数量，应用最为广泛。有的方法使用三维卷积神经网络3DCNN，将视频序列作为网络的输入，成功提取了行为序列的时空信息。也有的方法使用two-stream网络分别获取时间信息与空间信息，再融合为行为特征描述子。这些方法的前提是输入视频序列需覆盖整个行为序列，动作持续时间的增加将加深网络结构，降低实时性。因此，如何解决神经网络的有效且高效输入是深度学习应用于人体行为识别的关键。

发明内容

本发明要解决的技术问题在于针对现有技术中使用传统特征描述子作为特征表达方式进行行为识别的精度较低，以及直接以原始视频作为神经网络的输入会带来算法速度下降的缺陷，提供一种基于运动历史图像与卷积神经网络的行为识别方法，本发明采用基于调整后的AlexNet网络的深度学习方法来进行行为识别以提高算法的精度，以运动历史图像作为神经网络的输入来提高算法的速度。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于运动历史图像与卷积神经网络的行为识别方法，包括以下步骤：

S1、获取输入的原始视频图像，通过基于运动历史图像的行为序列特征提取方法对其进行处理：先通过帧差算法提取原始视频图像中的前景，再由一段时间内的前景生成全局运动历史图像，采用最小外界矩形原则对全局运动历史图像进行运动区域的分割，并对其进行归一化处理，得到局部运动历史图像；

S2、采用基于深度卷积神经网络的方法对局部运动历史图像进行行为识别：将得到的局部运动历史图像划分为训练集和测试集，搭建去除LRN层的AlexNet神经网络模型，将训练集和测试集带入该神经网络模型中，通过随机梯度下降法进行神经网络模型的权值参数的迭代更新，并通过Dropout策略抑制过拟合，得到行为类别分类器；最终通过该行为类别分类器输出行为识别结果。

进一步地，本发明的步骤S1中的基于运动历史图像的行为序列特征提取方法的具体实现为：

S11、全局运动历史图像提取：对原始视频图像，使用帧差法进行运动区域分割，对灰度化之后的视频帧，求差分图像并进行二值化，得到运动目标；并进一步得到基于时间戳的全局运动历史图像，其中越近发生的行为动作灰度值越大，越远发生的行为动作灰度值随时间逐步衰减；

S12、局部运动历史图像分割与归一化：对每一时刻生成的全局运动历史图像，采用最小外界矩形进行运动区域的分割，并通过矩形的大小和长宽筛选出目标区域，对于目标区域中像素，按照各向异性缩放方式进行尺度变换的方式进行归一化处理，使图像大小保持一致，得到局部运动历史图像。

进一步地，本发明的步骤S2中基于深度卷积神经网络的方法对局部运动历史图像进行行为识别方法的具体实现为：

S21、卷积神经网络中特征提取部分的构建：针对去除LRN层后的AlexNet网络的构建，先搭建特征提取部分，包含5个卷积层以及3个池化层，在每一层卷积后面都设置有ReLU激活函数层；特征提取部分用于提取局部运动历史图像中的特征，并将其传给卷积神经网络的分类器部分；

S22、卷积神经网络中分类器的构建：分类器部分由3层全连接层和一层损失层构成，其中全连接层的每个输入节点都与所有输出节点相连，而损失层通过Softmax函数将最后一层输出结果映射到概率分布，并由此概率分布得到负对数似然损失；取概率分布中的最大值作为分类结果，并以损失函数作为神经网络参数更新的依据；

S23、卷积神经网络的训练过程：卷积神经网络的训练过程包括正向传播阶段与反向传播阶段；在正向传播阶段，卷积神经网络依据输入运动历史图像信息计算分类结果，得到损失；在反向传播阶段，根据链式规则计算误差梯度，利用随机梯度下降法进行权值参数的迭代更新；

S24、采用Dropout策略对训练进行优化：在训练过程中，Dropout策略按照设定的概率丢弃掉神经网络中的隐藏节点，使部分神经元失活，减小神经网络模型的复杂度，抑制神经网络的过拟合现象；最终得到训练后的行为类别分类器。

进一步地，本发明的步骤S11中进行全局运动历史图像提取的方法具体为：

首先进行运动前景提取，采用帧差法进行运动区域分割，对t时刻灰度化之后的视频帧I(x,y,t)，求差分图像D(x,y,t)；

D(x,y,t)＝|I(x,y,t+1)-I(x,y,t)|

进行二值化处理得到：

其中，ξ为判定当前位置是否存在行为动作的阈值；

基于时间戳的运动历史图像Hτ(x,y,t)灰度值更新方法为：

其中，τ表示当前的时间戳。

进一步地，本发明的步骤S22中卷积神经网络中分类器的构建方法具体为：

分类器部分由3层全连接层和一层损失层构成，损失层通过Softmax函数将最后一层输出结果映射到概率分布

其中，x_k为最后一层全连接层计算结果，K为分类标签数；

通过最大似然估计得到Softmax分类器的损失函数为：

其中，y为样本最终分类标签。

进一步地，本发明的步骤S23中卷积神经网络的训练过程具体为：

卷积神经网络的训练过程包括正向传播阶段与反向传播阶段；在正向传播阶段，卷积神经网络依据输入运动历史图像信息计算分类结果，得到损失；在反向传播阶段，根据链式规则计算误差梯度，利用随机梯度下降法SGD进行权值参数的迭代更新；

采用带Mini-batch的SGD算法进行权值更新，其更新方式为：

W_t+1＝W_t+V_t+1

其中，W_t为上一次迭代的权值参数，V_t+1为当前时刻的权值更新值，为反向传播梯度，α为学习率，μ为上次权值更新值的权重；对于损失层，其反向传播梯度为：

采用指数衰减策略：

其中，α₀为基准学习率，γ为学习率衰减系数，floor(*)为向下取整函数，iter为当前迭代次数，stepsize为学习率衰减周期。

本发明产生的有益效果是：本发明的基于运动历史图像与卷积神经网络的行为识别方法，(1)传统检测方法以Hu或HOG特征作为特征描述子，往往算法的精度较低。本发明采用卷积神经网络代替传统特征描述子作为特征表达方式，保证了算法的精度。(2)较之其他使用深度学习的方法，本发明采用去除LRN层后的AlexNet来训练和识别行为，并采用Dropout方法来抑制过拟合，提高了算法的精度。(3)直接将原始视频作为神经网络的输入会带来算法速度下降的问题。为了提高算法的速度，本发明以运动历史图像作为神经网络的输入。这种单帧输入方式使得神经网络模型得以固定，有效减小了模型复杂度，且运动历史图像特征提取方式简单高效，二者共同保证了算法的实时性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例的行为识别的基本流程图；

图2为本发明实施例的Weizmann数据库样本图片；

图3为本发明实施例的归一化后的运动历史图像；

图4为本发明实施例的行为识别网络框架图；

图5为本发明实施例的含LRN和不含LRN的训练样本损失、测试样本损失和测试样本准确率随迭代次数的变化曲线；

图6为本发明实施例的Dropout示意图；

图7为本发明实施例的采用Dropout和不采用Dropout的训练样本损失、测试样本损失和测试样本准确率随迭代次数的变化曲线；

图8为本发明实施例的各类行为准确率的混淆矩阵图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的基于运动历史图像与卷积神经网络的行为识别方法，包括以下步骤：

在本发明的另一个具体实施例中：

首先，在Weizmann行为识别数据集上进行行为序列特征提取；紧接着，将得到的归一化之后的运动历史图像作为样本构建训练集和测试集；然后，利用训练集对本发明改进的卷积神经网络训练，得到带参数的模型；最后，利用该模型进行测试集的预测。其具体步骤如下。

步骤S1.基于运动历史图像的行为序列特征提取：

本发明采用Weizmann行为数据库数据库来进行算法的训练与验证。Weizmann行为数据库由九个行为主体在同一场景下拍摄的十组行为视频序列组成，包括bend、jack、jump、pjump、run、side、skip、walk、wave1、wave2，帧率为50fps，分辨率为180×144，图2显示了Weizmann数据库的部分样本图片。

本发明采用运动历史图像从Weizmann行为数据库数据库提取行为序列特征。运动历史图像可将人体行为从多帧描述方式转为单帧独立描述方式，并能反映运动的先后顺序，保留了行为识别所必须的时空信息。运动历史图像实现方式简单，对于分辨率要求不高，具有很好抗噪声能力，尤其适合应用于视频监控领域。基于运动历史图像的行为序列特征提取主要包括全局运动历史图像运动历史图像生成和局部运动历史图像运动历史图像分割与归一化两个步骤。

步骤S11.全局运动历史图像提取；

运动历史图像首先需要进行运动前景提取，采用帧差法进行运动区域分割。对t时刻灰度化之后的视频帧I(x,y,t)，求差分图像D(x,y,t)。

D(x,y,t)＝|I(x,y,t+1)-I(x,y,t)| (1)

进行二值化处理得到：

其中ξ为判定当前位置是否存在行为动作的阈值。基于时间戳的运动历史图像H_τ(x,y,t)灰度值更新方式如下：

公式(3)表明，越近发生的行为动作灰度值越大，越远发生的行为动作灰度值随时间逐步衰减。

步骤S12.局部运动历史图像分割与归一化

全图进行运动区域分割之后将图像分为运动前景部分和非运动背景部分，其中背景部分属于行为识别的冗余信息，不仅影响识别效果，还会增加神经网络的计算量，应予以剔除。对每一时刻生成的运动历史图像，采用最小外界矩形进行运动区域的分割，分割之后的每个图像大小也不尽相同，这对后续的识别过程也将产生影响，因此需要对其进行归一化处理，使图像大小保持一致。对于初始位置(x₀,y₀)的像素，按照各向异性缩放方式进行尺度变换之后的位置为(x,y)；

其中，f_x和f_y分别为x方向和y方向的缩放比例。

最终，局部运动历史图像通过前景提取实现了行为动作空间相关性的表达，通过灰度值明暗变化实现了行为动作时间相关性的表达。

局部运动历史图像的具体实现为，研究Weizmann行为数据库视频样本灰度值分布，将帧差法的阈值设定为30；分析视频样本的帧率以及行为动作的周期性特性，设定行为动作持续时间为1.6s。归一化后的运动历史图像如图3所示，其大小为256×256，从图中可以看出十个动作均呈现出灰度值的明暗变化，动作发生时间越久，灰度值越低，反之亦然，因此运动历史图像可以很好地表征行为动作。经过数据扩充之后，共生成了3000个样本数据，按照5:1的比例划分训练集与测试集。

步骤S2.基于深度卷积神经网络的行为识别

近年来，在图像分类领域，深度卷积神经网络已逐步取代传统的“手动设计特征+分类器”的识别方式，其原因在于卷积神经网络通过大量样本训练，获取图像高层特征，该特征对于图像特性有着更加全面、准确的表达，分类准确率也因此大幅提高。对于行为识别任务，一般通过3DCNN、two-stream这类扩展网络结构的方式来处理，这种方式实现时空特征提取的同时也带来了算法复杂度的增加。本发明将运动历史图像作为卷积神经网络的输入，将视频分类任务转化为图像分类任务，既实现了时空特征的提取，又保证了算法的效率。

本发明网络框架如图4所示，从左到右依次为行为视频序列、归一化处理后的局部运动历史图像、去除LRN层后的AlexNet网络(C1～C5代表卷积层，S1～S3代表池化层，fc1～fc3代表全连接层)以及网络输出的属于各个类别的概率；分为输入图像预处理、特征提取以及分类器3个部分，其主体部分AlexNet网络分类效果出众，模型复杂度适中，可以满足本发明所需的实时性要求。为进一步提升算法速度，本发明对AlexNet进行了部分优化，在实现过程中剔除了LRN层。使用深度卷积神经网络进行行为识别的具体步骤如下。

步骤S21.卷积神经网络中特征提取部分的构建

特征提取部分主要包含5个卷积层以及3个池化层，在每一层卷积后面都有激活函数层，该网络采用ReLU作为激活函数：

f(x)＝max(0,x) (5)

其中，x为卷积计算之后的结果。ReLU函数使网络具有稀疏特性，其效果类似于无监督学习的预训练；且ReLU相较于Sigmoid等激活函数可有效提升收敛速度，减少网络训练时间。

特征提取部分的具体构建过程为首先进行两组卷积池化操作，卷积核的大小分别为11×11和5×5，步长大小分别为2和1，输出特征图的个数分别为98和256；池化操作均为最大池算法，运算核大小为3×3，步长为2。紧接着，中间计算结果输入到三层卷积层与一层池化层进行运算，卷积核大小均为3×3，步长大小均为1，输出特征图大小分别为384、384和256；池化层仍然为最大池算法，运算核大小为3×3，步长为2。

步骤S22.卷积神经网络中分类器的构建：

其中，x_k为最后一层全连接层计算结果，K为分类标签数。

相对应的，通过最大似然估计得到Softmax分类器的损失函数为：

其中，_y为样本最终分类标签。

分类器的具体构建由三层全连接层和一层Softmax损失层实现，其中全连接层神经元个数依次为4096、4096和10，前两层全连接层dropout比率为0.5。由于Weizmann行为数据库包含十类行为动作，因此在实现过程中，设置AlexNet最后一层全连接层为10个神经元。

步骤S23.卷积神经网络的训练过程

本发明卷积神经网络的训练过程主要包括正向传播阶段与反向传播阶段。在正向传播阶段，卷积神经网络依据输入运动历史图像信息计算分类结果，得到损失；在反向传播阶段，根据链式规则计算误差梯度，利用随机梯度下降法SGD进行权值参数的迭代更新。

相较于单个样本计算损失与全部样本计算损失的方式，Mini-batch将训练样本分为多批，对于每批样本计算平均损失，该种方式可以兼顾收敛速度与计算精度的要求，因此本发明采用带Mini-batch的SGD算法进行权值更新，其更新方式为：

W_t+1＝W_t+V_t+1 (9)

其中，W_t为上一次迭代的权值参数，V_t+1为当前时刻的权值更新值，为反向传播梯度，α为学习率，μ为上次权值更新值的权重。对于损失层，其反向传播梯度为：

通常，神经网络开始训练时通常设置一个较大的初始学习率，以扩大V_t的值，快速降低损失函数值，加快神经网络收敛速度；随着训练次数的增加，较大的学习率反而有可能造成神经网络的震荡，导致神经网络无法收敛。因此，学习率通常随着迭代训练次数的增加逐步衰减，本发明采用了指数衰减策略，即：

在训练阶段，Mini-batch分批之后，每批训练图像的数据量为50，通过不断的尝试，选择的基准学习率为0.0001，学习率衰减系数γ为0.9，学习率衰减周期stepsize为1000，最大迭代次数为25000。本发明按照上述训练策略进行训练，对比了含LRN层和不含LRN层对识别效果的影响，图5分别为训练样本损失、测试样本损失以及识别准确率随迭代次数的变化曲线，左图为训练样本损失随迭代次数变化曲线，中图为测试样本损失随迭代次数变化曲线，右图为测试样本准确率随迭代次数的变化曲线。

步骤S24.采用Dropout技术对训练进行优化：

为进一步加快神经网络收敛速度，本发明采用Dropout技术对训练进行优化。Dropout是指在训练过程中，按照一定的概率丢弃掉神经网络中的隐藏节点，使部分神经元失活，减小模型的复杂度，可有效地抑制神经网络的过拟合现象，具体实现方式如图6所示，左边为未使用Dropout策略的神经网络中层与层连接方式，右边为使用Dropout策略的神经网络层与层连接方式。

按照S23中的训练策略，本发明进一步对比分析了Dropout对神经网络训练结果的影响，包括训练样本损失、测试样本损失以及识别准确率，分别如图7所示，左图为训练样本损失随迭代次数变化曲线，中图为测试样本损失随迭代次数变化曲线，右图为测试样本准确率随迭代次数的变化曲线；其中设置Dropout的比率为0.5。

通过25000次迭代训练得到了卷积神经网络模型及其各层参数，本发明采用500组数据作为测试样本，最终得到的平均测试准确率为95％，本发明方法和原始AlexNet网络以及不含dropout、不含LRN层的网络对比结果如表1所示。

表1各种网络结构识别准确率对比

从表1中可以发现本发明所改进网络相较于其他两种网络均有一定准确率的提升。此外，在测试过程中，绘制了各类行为准确率的混淆矩阵，如图8所示。

图8表明，bend、jack、pjump、walk、wave1、wave2这六类动作识别的准确率接近或已达到100％，而jump、run、side、skip这四类动作识别的准确率相对较低，这是由于这四类动作存在一定的相似性，从运动历史图像上也可有直观的感受，故识别效果有所下降。在测试过程中，本发明也对单独的动作进行了识别速度的检测，最终持续时间为1.6s的动作识别时间为1.56s，达到了行为识别的实时性要求。

本实施例以Weizmann行为数据库为例，首先从视频序列中计算全局运动历史图像，并对其分割和归一化得到局部运动历史图像；接着以归一化后的局部运动历史图像作为输入，搭建了去除LRN层的AlexNet网络，然后利用随机梯度下降法(Stochasticgradient descent,SGD)与Dropout策略训练此网络，最终实现行为类别分类。结果表明，本发明方法较之原始AlexNet方法的准确率提高了1.2％，并且实时率也满足要求。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于运动历史图像与卷积神经网络的行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于运动历史图像与卷积神经网络的行为识别方法，其特征在于，步骤S1中的基于运动历史图像的行为序列特征提取方法的具体实现为：

3.根据权利要求1所述的基于运动历史图像与卷积神经网络的行为识别方法，其特征在于，步骤S2中基于深度卷积神经网络的方法对局部运动历史图像进行行为识别方法的具体实现为：

4.根据权利要求2所述的基于运动历史图像与卷积神经网络的行为识别方法，其特征在于，步骤S11中进行全局运动历史图像提取的方法具体为：

D(x,y,t)＝|I(x,y,t+1)-I(x,y,t)

进行二值化处理得到：

其中，ξ为判定当前位置是否存在行为动作的阈值；

基于时间戳的运动历史图像H_τ(x,y,t)灰度值更新方法为：

其中，τ表示当前的时间戳。

5.根据权利要求3所述的基于运动历史图像与卷积神经网络的行为识别方法，其特征在于，步骤S22中卷积神经网络中分类器的构建方法具体为：

其中，x_k为最后一层全连接层计算结果，K为分类标签数；

通过最大似然估计得到Softmax分类器的损失函数为：

其中，y为样本最终分类标签。

6.根据权利要求5所述的基于运动历史图像与卷积神经网络的行为识别方法，其特征在于，步骤S23中卷积神经网络的训练过程具体为：

采用带Mini-batch的SGD算法进行权值更新，其更新方式为：

V_t+1＝μV_t-α▽L(W_t)

W_t+1＝W_t+V_t+1

其中，W_t为上一次迭代的权值参数，V_t+1为当前时刻的权值更新值，▽L(W_t)为反向传播梯度，α为学习率，μ为上次权值更新值的权重；对于损失层，其反向传播梯度为：

采用指数衰减策略：