CN104281853B

CN104281853B - 一种基于3d卷积神经网络的行为识别方法

Info

Publication number: CN104281853B
Application number: CN201410444276.9A
Authority: CN
Inventors: 郝宗波; 桑楠; 吴杰; 余冬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-09-02
Filing date: 2014-09-02
Publication date: 2017-11-17
Anticipated expiration: 2034-09-02
Also published as: CN104281853A

Abstract

该发明公开了一种基于3D卷积神经网络的行为识别方法，涉及机器学习、特征匹配、模式识别和视频图像处理的领域。该方法分为两个阶段：首先是离线训练，通过输入各种行为的样本视频，经过计算得到不同输出，每种输出对应一类行为，再根据输出向量和标签向量之间的误差修正计算过程中参数使各输出数据误差下降，误差满足要求之后，对各输出根据其对应的样本视频的行为名称添加标签；其次进行在线识别，输入需要行为识别的视频，采用与训练阶段相同的方法进行计算后输出，再将该输出和添加标签的样本向量进行匹配，将与之最匹配的样本标签名称视为该输入视频的行为名称，从而具有复杂度低、计算量小、实时性高、准确度高的效果。

Description

一种基于3D卷积神经网络的行为识别方法

技术领域

本发明涉及计算机视觉领域，特别是涉及机器学习、特征匹配、模式识别和视频图像处理的方法。

背景技术

用计算机进行行为识别是从包含人的视频或图像序列中对人的行为进行理解和描述,属于图像分析和理解的范畴。自动检测人以及理解人的行为的能力是智能视频系统的核心功能。在最近几年，由于社会的需要，包括工业安全、交换接口、游戏等，人们对人的行为识别的兴趣不断增加。人的行为识别的研究内容十分丰富,主要涉及到模式识别与机器学习、图像处理、人工智能等学科知识。下面描述行为识别使用的三种现有主流技术方案。

A.底层特征和时空兴趣点(spatio-temporal interest points)

行为识别通常的方法包括稠密光流(dense optical flow)和时空兴趣点(STIPs)。STIPs是Harris角点检测的时空变体，它是在时域和空间域都高强度变化的区域。稠密光流已经也应用在行为识别。比如稠密光流轨迹，可以对运动的视频分割前景和背景。稠密轨迹对无规则断裂的运动比较健壮，在捕获复杂的运动模式比较精确。但特征提取复杂，时间复杂度高，难以满足实时性的要求。

B.轮廓

使用轮廓来分类假设了人的运动能作为一个身体姿势的连续过程来表示。这个方法主要基于背景减除，行为描述子从一系列的轮廓中被抽取出来。一个通常的方法是累积轮廓来产生运动能量图(MEI)以及运动历史图(MHI)。在MEI和MHI中抽取Hu矩作为描述子，运动分类基于每个已知行为和待分类的行为的矩描述子的马氏距离，该方法对稍微复杂的运动类型分辨能力低。

C.中层和高层表示

在更高的层次，使用中高层的特征来进行行为识别，例如长时间跟踪的轨迹和语义。一种方法是用运动轨迹来定位事件发生的位置。轨迹是被类聚的，分析类的属性来分类行为。另一种方法是用storyline来描述行为之间偶然的关系，与或图(AND-OR graphs)用来作为表示storyline模型的机制，对短时简单的动作缺乏分类能力。

发明内容

本发明针对背景技术的不足之处改进设计了一种基于3D卷积神经网络的行为识别方法，该方法对传统的卷积神经网络(CNN)做了3D扩展，结合Gabor滤波器和视频的光流信息，避免过拟合，从而达到复杂度低、计算量小、实时性高、准确度高的目的。

本发明的技术方案是一种基于3D卷积神经网络的行为识别方法，该方法分为两个阶段：离线训练阶段和在线识别阶段，通过对含n类标签的样本进行训练，获得合适的网络参数，再用该神经网络对视频里的行为进行识别。首先是离线训练，通过输入各种行为的样本视频，经过计算得到不同输出，每种输出对应一类行为，再根据输出向量和标签向量之间的误差修改计算过程中参数使各输出数据误差下降，误差满足要求之后，训练完毕，最后对各输出根据其对应的样本视频的行为名称添加标签；其次进行在线识别，输入需要行为识别的视频，采用与训练阶段相同的方法进行计算后输出，再将该输出和添加标签的样本向量进行匹配，将与之最匹配的样本标签名称视为该输入视频的行为名称，从而实现发明目的，因而该方法包括：

(一)离线训练

步骤1：首先进行神经网络的训练，输入样本视频，并对该样本视频进行灰度化等预处理处理；

步骤2：在第一层设置5～9个通道，这些通道包括：1个灰度通道、2～6个Gabor通道、2个光流通道，其中灰度通道包含视频的灰度图像，Gabor通道是灰度化处理后的视频通过不同的Gabor滤波器得到的不同响应；

步骤3：对第一层的每个通道采用尺寸小于原视频的2个或3个不同的3D卷积核进行3D卷积，得到含有2倍或3倍于通道数量的特征map，为第二层；

步骤4：对第二层各特征map在空间域上进行采样单元为2×2或3×3的下采样，时间域上进行采样单元为2的下采样，得到数量相同但时空分辨率减小的特征map，为第三层；

步骤5：对第三层的每个特征map采用尺寸小于该层特征map的2个或3个不同的3D卷积核进行3D卷积，得到含有2倍或3倍于第三层特征map的第四层特征map；

步骤6：对第四层各特征map在空间域上进行采样单元为2×2或3×3的下采样，时间域上进行采样单元为2的下采样，得到数量相同但时空分辨率减小的特征map，为第五层；

步骤7：第六层为100～150个尺寸为1×1的特征map，每个特征map与第五层的所有特征map全连接；

步骤8：第七层为输出层，包含n个输出节点，对应n种分类行为(标签)，每个节点与第六层所有特征map全连接；

步骤9：通过BP算法(反向传播算法)对各层之间的计算参数进行调整，使得每个样本的输出与标签之间的误差下降，当误差满足要求后，训练完毕，再对各输出向量根据其对应的样本视频行为名称设置标签；

(二)在线识别

步骤10：对欲视频进行识别，输入需要识别的视频，并对该视频进行灰度化等预处理，采用与步骤2～步骤8的方法对输出视频进行处理，得到输出向量；

步骤11：将步骤10的输出向量与各标签定义的向量进行匹配，找到与之最匹配的标签向量，该标签向量的行为名称为输入视频的行为名称。

其中所述步骤2中设置7个通道，包括：1各灰度通道、4个Gabor通道、2个光流通道，其中4个Gabor通道分别为灰度化视频通过四个不同Gabor滤波器得到的不同响应，这四个Gabor滤波器的Gabor核分别为：方向水平和小尺度、方向垂直和小尺度、方向水平和大尺度、方向垂直和大尺度。

所述步骤7中第六层设置128个个尺寸为1×1的特征map，每个特征map与第五层的所有特征map全连接；

本发明一种基于3D卷积神经网络的行为识别方法，该方法对传统的卷积神经网络做了3D扩展，结合Gabor滤波器和视频的光流信息，避免过拟合，而且对空间域和时间域的同时下采样，使得在时间和空间上都有一定的不变性，从而具有复杂度低、计算量小、实时性高、准确度高的效果。

附图说明

图1是3D卷积和2D卷积的示意图；

图2是Gabor滤波的函数和效果图；

图3是3D卷积神经网络的总体结构。

具体实施方式

训练使用BP算法，但是CNN自身的网络结构和传统的神经网络有很大不同，所以CNN使用的BP算法也与传统的BP算法有不同。由于CNN主要由卷积层和下采样层交替组成，所以，它们各自的计算反向误差δ传播的公式是不同的。

采用平方误差代价函数，输出层δ的计算公式是：

其中，y是网络实际输出向量，t是期望的标签向量，都有n个分量，f函数是S型函数，是Schur乘积，即两个向量对应元素相乘，u是上层节点输出的加权和，计算公式如下：

u^l＝W^lx^l-1+b^l

第l-1层的输出x乘上第l层的权重W，再加上偏置b。

卷积层的反向误差公式为：

其中，C是常数，是卷积层的下一个下采样层的下采样尺度。Up是上采样函数。

下采样层的反向误差传播公式：

其中conv3是3D卷积操作，‘full’是卷积边际的类型，它是对缺少的边界补0。rot180是对核k的每一维进行倒置。得到各个层的反向误差后，就可以计算参数的梯度了，计算参数的公式如下：

其中‘valid’是卷积边界类型，它是不对边界做任何的处理，只用数据的有效部分进行卷积。有了参数的梯度以后，就可以像梯度下降算法那样更新参数，从而对网络进行训练，以此对视频行为进行分类。

Gabor滤波器的方向和频率的表达非常类似于人类的视觉系统，并且可以很好地近似单细胞的感受野函数。帧通过Gabor滤波后，会去除很多无用的信息，这可以防止网络过拟合。所以，我们选取了Gabor滤波器作为这种基本特征。Gobor滤波器只作用于空间域，要获取时间域的信息，光流可以满足这一点，所以，我们也选择了光流作为这种基本特征。最后，原始的像素灰度值也作为一个通道，这让网络对原始的数据也学习到相应的基本特征。更高层的特征，网络的更高层会在训练中自动学学得。在一层，人工选取何种特征对分类结果的正确率影响重大，我们选用了一个灰度值、四个Gaborl滤波器获得的特征、两个光流特征。四个Gabor函数分别是：方向水平和小尺度、方向垂直和小尺度、方向水平和大尺度、方向垂直和大尺度。2个光流特征分别是输入视频光流的水平分量和垂直分量。

卷积层可以获取特征，而下采样层则保证了网络对数据的不变性。我们在下采样层，对空间域和时间域都进行了下采样，这使得在时间域和空间域上都有不变性。实验也证明，这样能提高正确率。

整个网络具体的结构和参数如：卷积核的尺寸和数量、下采样尺寸、C6层单元个数、输出层单元个数，可以在实际场景中具体调整来使得网络有更好的分类表现。原视频分辨率为60×80，帧数为22帧，对第一层每个通道进行卷积核尺寸为7×9×9、数量为2的卷积，在第二层得到14个特征map，其分辨率为54×72，帧数为14；对第二层的每个特征map进行空间域上3×3，时间域2的下采样，在第三层得到14个分辨率为18×24，帧数为7的特征map；对第三层的每个特征map进行卷积核尺寸为7×7×3、数量为3的卷积，在第四层得到42个分辨率为12×18、帧数为5的特征map；对第四层的特征map进行空间域3×3下采样，时间域不下采样，在第五层得到42个分辨率为4×6、帧数为5的特征map；第六层为128个尺寸为1×1的特征map，每个特征map与第五层的所有特征map全连接。最后输出层的单元与第六层的128个特征map全连接。

CNN相比传统的神经网络，每个卷积核在同一层参数共享，因此在相同层数的情况下，参数的个数少得多。就我们的3D CNN为例，第i卷积层卷积核尺寸为W(i)×H(i)×F(i)，核的个数为N(i)，输出层分N(L)类，输出层上一层节点个数为W(L-1)×H(L-1)×F(L-1)(我们的网络这三项都为1，所有乘起来为1)，而传统的神经网络都是全连接的方式，特征map的每一个单元都会有一个参数，所以参数个数会比CNN多得多。

比较国内外其他的行为识别方法，我们的方法能够达到更好的效果。在公共数据集的测试上，正确率能够达到94％以上，而现有的同种类型的方法，都不能达到这个效果。

整个网络的结构为七层结构，多一层或者少一层对实际的分类效果都有不利影响。

Claims

1.一种基于3D卷积神经网络的行为识别方法，该方法包括：

一、离线训练

步骤1：首先进行神经网络的训练，输入样本视频，并对该样本视频进行灰度化预处理处理；

步骤8：第七层为输出层，包含n个输出节点，对应n种分类行为，每个节点与第六层所有特征map全连接；

步骤9：通过BP算法对各层之间的计算参数进行调整，使得每个样本的输出与标签之间的误差下降，当误差满足要求后，训练完毕，再对各输出向量根据其对应的样本视频行为名称设置标签；

二、在线识别

步骤10：对视频进行识别，输入需要识别的视频，并对该视频进行灰度化预处理，采用与步骤2～步骤8的方法对输入视频进行处理，得到输出向量；

步骤11：将步骤10的输出向量与各标签定义的向量进行匹配，找到与之最匹配的标签向量，该标签向量的行为名称为输入视频的行为名称；

所述步骤2中设置7个通道，包括：1个灰度通道、4个Gabor通道、2个光流通道，其中4个Gabor通道分别为灰度化视频通过四个不同Gabor滤波器得到的不同响应，这四个Gabor 滤波器的Gabor核分别为：方向水平和小尺度、方向垂直和小尺度、方向水平和大尺度、方向垂直和大尺度；所述步骤7中第六层设置128个尺寸为1×1的特征map，每个特征map与第五层的所有特征map全连接。