CN110188637A

CN110188637A - 一种基于深度学习的行为识别技术方法

Info

Publication number: CN110188637A
Application number: CN201910413528.4A
Authority: CN
Inventors: 来兴雪; 陈颖
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-30

Abstract

本发明公开了一种基于深度学习的行为识别技术方法，克服了现有技术中视频监控系统智能化有待提高的问题。该发明含有以下步骤，采用双流卷积神经网络和GRU网络相结合的方式搭建更深层次的时空双流CNN‑GRU神经网络模型；提取视频的时间域和空间域特征；根据GRU网络能记忆信息的能力，提取时空特征序列的长时间序列化特征，利用softmax分类器进行视频的行为识别；提出新的基于相关熵的损失函数；借鉴人脑视觉神经注意力机制处理海量信息的方法，在时空双流CNN‑GRU神经网络模型进行时空特征融合之前引入注意力机制。该技术提出的模型的准确率为61.5％，与基于双流卷积神经网络的算法相比，识别率有一定的提升。

Description

一种基于深度学习的行为识别技术方法

技术领域

本发明涉及计算机视频识别技术，特别是涉及一种基于深度学习的行为识别技术方法。

背景技术

网络技术的发展和多媒体技术的突飞猛进，各种视频类媒介已经在人们的生活中随处可见，视频已经成为现代社会中常用的传送信息方式，并且视频类业务的增长趋势还在迅猛提高。随着数码相机、智能手机等视频设备的广泛使用，人们开始流行发送小视频作为相互传递信息的方式，从而代替传统的文字和图片。视频的产生成本越来越低，网络的传播又很广泛，每天都会产生大量的视频信息，网上已经产生了巨大的视频库。庞大的数据资源为我们的生活带来了很大的便利，同时拍摄及制作视频的方法日趋简单，视频内容良莠不齐并且可以无限制的在网络上传播，如果对那些不健康以及那些缺乏真实性、客观性的视频管理不完善，就会形成网络垃圾。这些视频垃圾破坏了良好的互联网环境，严重影响了广大网民尤其是青少年的身心健康，影响了和谐、健康发展的社会环境。因此，为了让人们在良好的互联网环境中享受高科技带来的便利，加强和改善网络中的视频管理是非常必要的。

视频监控系统普遍应用在商场、办公区域等公共场合，对社会公共安全有不可磨灭的作用，并且随着社会的发展，视频监控的需求在持续增长。现有的监控系统只是通过摄像头对特定地方进行拍摄并保存视频数据，监控功能主要依赖工作人员人工监控实现，工作人员必须长时间盯着多个屏幕从而实现对多个地方的实时监控，长时间的监控多个屏幕使工作人员很容易疲劳，不能及时发现和处理视频中的异常行为，有可能对人们的人身财产造成不可挽回得损失。再者，传统的监控系统日以继夜的产生监控数据，工作人员们也得日以继夜地实时观察监控屏幕，长时间监控庞大的视频数据对工作人员的身体健康也是巨大的挑战。因此，研究基于视频内容识别的算法有巨大的应用价值。试想，设计一个基于视频内容的行为识别监控系统，能够自动实时地监控视频内容。当视频中出现异常行为时，系统会自动进行行为识别并且发出预警通知工作人员。很大程度上将工作人员从庞大的数据处理中解放出来，工作人员不必夜以继日地时时刻刻盯着屏幕，而是让系统代替工作人员去监控，工作人员只需等待预警。基于视频内容的行为识别监控系统一方面可以减少在视频监控方面的人力投资，一方面有效的提高了视频监管的质量。

视频行为识别技术的主要内容是利用计算机快速处理问题的能力，使计算机代替人脑去识别视频中的人类行为，将人们从枯燥繁重的人工识别工作中解放出来，提高人们的工作效率，并且基于深度学习的视频行为识别技术还能解决人工无法解决的大数据类问题。视频行为识别技术的研究具有广阔的应用价值并且能更好的服务于社会。视频比图片、文本包含更多的信息，视频的时间连续性能表达事件的完整性和时序性，在娱乐活动中，用视频代替图片作为信息传递的媒介，能让人们更有效地享受视频带来的视觉上的冲击。监控工作人员可以实时地处理监控异常数据，警察调查案件时回放视频进行取证时，不用人工观察视频，而是系统自动地去检索，提高办案效率。视频的行为识别技术还可以应用在很多自动驾驶、无人商店、人机交互等前沿领域中，更加方便和改善人们的生活。

近年来，随着深度学习技术研究的深入，基于深度学习的视频行为识别技术也得到突飞猛进的发展，行为识别技术成为国内外研究者们的热点研究方向。Moeslund[1]将人的行为分为三层次，第一层次为微笑、点头等简单地基本动作，第二层次为走路、跳高等需要四肢相互协调的动作。第三个层次是人体和外界交互的动作，需要借助外部条件完成的动作，比如打网球、吃饭等动作。这三个层次是行为识别技术研究的主要依据。

传统的行为识别方法中特征提取主要是依赖人为的规定和设置，常用的方法有基于的底层特征的密集轨迹算法[2][3][4]和时间兴趣点算法[5][6][7]。密集轨迹算法获取行为轨迹的的方法是对光流场密集采样的特征点的跟踪，通过对运动轨迹的编码提取行为特征，编码方式是计算轨迹的偏移向量并且提取轨迹的运动边界直方图(MotionBoundaryHistograms,MBH)[8]、梯度直方图(HistogramofOrientedGradient,HOG)[9]、光流直方图(HistogramsOpticalFlow,HOF)[10]。MBH特征提取的方法是由Dalal[11]等人提出的，通过计算帧之间每个像素点的相对位移来表达人体的移动，其中相对位移的计算是通过对光流X方向和Y方向进行求导实现的。MBH方法对运动物体的背景移动等干扰有较好的鲁棒性。Zhu[12]等首次在行为识别技术中提取视频运动特征时引入支持向量机(SupportVectorMachine,SVM)，HOF提取特征的方法[13]是统计帧之间的连通区域的光流。HOG特征描述方法首先将帧分成大小相等的网格，在每个网格内计算各像素点的边缘直方图和梯度，通过统计所有网格的直方图来统计帧的方向信息。HOG方法将帧分成网格，更重视帧的局部信息，通过局部对比归一化技术，HOG技术能对光照的变化以及阴影有良好的鲁棒性。

发明内容

本发明克服了现有技术中视频监控系统智能化有待提高的问题，提供一种处理效果好的基于深度学习的行为识别技术方法。

本发明的技术解决方案是，提供一种具有以下步骤的基于深度学习的行为识别技术方法：含有以下步骤，步骤1、将3D卷积神经网络引入到双流卷积神经网络中，并且采用双流卷积神经网络和GRU网络相结合的方式搭建更深层次的时空双流CNN-GRU神经网络模型；

步骤2、在时空双流卷积神经网络中的空间流和时间流分别使用3D卷积神经网络，将更多的视频帧输入到网络中参与网络的训练，提取视频的时间域和空间域特征；

步骤3、将时间域特征和空间域特征相融合成有时间顺序的时空特征序列，将时空特征序列作为GRU网络的输入，根据GRU网络能记忆信息的能力，提取时空特征序列的长时间序列化特征，利用softmax分类器进行视频的行为识别；

步骤4、提出新的基于相关熵的损失函数；

步骤5、最后针对模型中存在大量的冗余信息，借鉴人脑视觉神经注意力机制处理海量信息的方法，在时空双流CNN-GRU神经网络模型进行时空特征融合之前引入注意力机制，使空间流特征向量和时间流特征向量进行自适应加权融合。

所述步骤2中时空双流CNN-GRU神经网络基本框架中，将视频处理成空间流和时间流所需的数据，空间流输入的是视频的多个静态的图片帧块，时间流的输入是视频的光流图，通过空间流和时间流3D卷积神经网络分别提取视频的时间维度上的表征信息和运动信息，其中空间流使用3D卷积核对视频帧块进行卷积，获取视频帧块的时间特性，时间流以多个连续的光流图块作为模型的输入，光流图是通过比对相邻帧的像素值变化得到像素运动的图片。

所述步骤3中对空间流特征向量和时间流特征向量进行最大值融合，得到时空特征向量序列作为GRU网络的输入，具体过程如下：采用两层GRU网络，每层512个神经元，当空间流特征向量和时间流特征向量融合后按顺序输入到GRU网络中，GRU网络通过其神经元中更新门和重置门的设计，控制神经元中前一刻的隐层输出对当前隐层的影响程度，进行选择性的训练，提取时空特征融合向量时间维度上的信息，即提取视频的运动信息，GRU网络的更新公式如下：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

其中：r_t是t时刻的重置门，由新输入x_t前状态h_t-1和权重W_r计算而得，z_t表示t时刻的更新门，由新输入x_t前状态h_t-1和权重W_z计算更新其值，表示t时刻的候选激活状态，由新输入x_t前状态h_t-1和权重W计算更新其值，r_t的取值在0和1之间，为了约束h_t-1，h_t表示t时刻的激活状态.根据新的z_t的前状态h_t-1和的值，得到新的GRU的输出值，通过GRU网络学习时空特征向量的时序性信息，特征向量经过GRU网络的学习，进入全连接层，该层中加入了Dropout技术，再通过softmax分类器进行分类。

所述步骤4中含有以下步骤，步骤a，信号传入模型，经过模型的处理再输出信号，称为前项传播，网络中的参数在传输过程中只参与计算，其值不变，其公式为，

上式中J(W,b)是均方误差损失函数，后面一项是权重衰减项，其中初始化参数W和阈值b，λ的作用是对前后两部分的相对重要性进行调整；

步骤b，误差信号在模型中从后往前逆向传播，误差信号是输出信号和标记信号的差值，通过损失函数的作用，误差信号逐层向前传递，传递的过程中会修改网络的参数，逐渐使损失函数变小，让网络的输出信号能更接近标记信号，其中步骤b分为以下几步：

Step1、初始化参数W和阈值b，样本输入到神经网络，在模型中从前往后依次通过各层的传递，并且计算各层(L₂,L₃,…,L_n)的神经元的值，最后在输出层输出；

Step2、计算输出层的残差：

输出层的残差是模型输出的结果与标记值的差值，表示第n层第i个节点的差值，

其中，表示第n层第i个节点的输入，表示第n层第i个节点的输出，

Step3、依次向前计算各层(L_n-1,L_n-2,…,L₂)的残差：

隐藏层每个神经元的残差是其后一层所有神经元的残差和权值分别相乘后再相加而得，

Step4、计算偏导数，更新参数

其中，表示第l层第j个节点的输出。

与现有技术相比，本发明基于深度学习的行为识别技术方法具有以下优点：本发明提出的时空双流CNN-GRU神经网络在空间流和时间流分别使用3D-CNN，充分提取视频的内容信息和时间特性，特征融合后输入到GRU网络，提取长时间序列化视频的特征，让框架有更好的特征表达能力，时空双流CNN-GRU神经网络在UCF101数据集上的识别率是92.2％。本发明模型的识别率比Two-Stream(VGG)高0.8％，说明本发明将3D卷积神经网络引入双流卷积神经网络中使模型更全面的提取了视频的信息，并且GRU网络的结合，使视频的时序性信息得到有效的使用。

本发明提出的模型的准确率为61.5％，与基于双流卷积神经网络的算法相比，识别率有一定的提升。

附图说明

图1是本发明基于深度学习的行为识别技术方法中UCF101数据集中画眉、射击和打篮球的视频帧和光流图；

图2是本发明基于深度学习的行为识别技术方法中时空双流CNN-GRU神经网络基础架构的整体流程图；

图3是本发明基于深度学习的行为识别技术方法中3D卷积神经网络的结构示意图；

图4是本发明基于深度学习的行为识别技术方法中空间流和时间流模型每层特征图的数据图；

图5是本发明基于深度学习的行为识别技术方法中UCF101数据集中的部分动作的视频帧示意图；

图6是本发明基于深度学习的行为识别技术方法中HMDB51数据集中的部分动作示意图。

图7是本发明基于深度学习的行为识别技术方法中模型学习率变化曲线图；

图8是本发明基于深度学习的行为识别技术方法中模型的loss与epoch关系的趋势图；

图9是本发明基于深度学习的行为识别技术方法中时空双流CNN-GRU神经网络在UCF101数据集上的实验结果示意图；

图10是本发明基于深度学习的行为识别技术方法中时空双流CNN-GRU神经网络在HMDB51数据集上的实验结果示意图；

图11是本发明基于深度学习的行为识别技术方法中UCF101数据集上各种方法的识别率对比示意图；

图12是本发明基于深度学习的行为识别技术方法中HMDB51数据集上各种方法的识别率对比示意图。

具体实施方式

下面结合附图和具体实施方式对本发明基于深度学习的行为识别技术方法作进一步说明：含有以下步骤，步骤1、将3D卷积神经网络引入到双流卷积神经网络中，并且采用双流卷积神经网络和GRU网络相结合的方式搭建更深层次的时空双流CNN-GRU神经网络模型；

步骤4、提出新的基于相关熵的损失函数；

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

Step2、计算输出层的残差：

Step3、依次向前计算各层(L_n-1,L_n-2,…,L₂)的残差：

Step4、计算偏导数，更新参数

其中，表示第l层第j个节点的输出。

本发明根据卷积神经网络等深度学习的理论知识，对行为识别技术进行进一步的研究。首先，提出时空双流CNN-GRU神经网络基础架构。架构中用空间流3D卷积神经网络和时间流3D卷积神经网络提取视频的内容特征和运动特征，然后融合空间流特征向量和时间流特征向量，形成有时间顺序的时空特征序列作为GRU网络的输入。本发明提出用GRU网络提取时空融合特征向量序列的时间关联性，最后通过分类器对特征向量分类，提出了时空双流CNN-GRU神经网络基础架构，最后在UCF101数据集和HMDB51数据集上和传统的行为识别算法进行比较。

其次，针对传统损失函数对加噪数据集有较低的识别率，本发明结合相关熵具有对非高斯噪声和脉冲信号有较好的鲁棒性特点，提出新的基于相关熵的损失函数，提高模型对非高斯噪声和异常值的鲁棒性。

最后针对模型中存在大量的冗余信息，借鉴人脑视觉神经注意力机制处理海量信息的方法，在时空双流CNN-GRU神经网络模型进行时空特征融合之前引入注意力机制，使空间流特征向量和时间流特征向量进行自适应加权融合，使模型更突出地训练重要的特征，忽略冗余的信息。最后在行为识别数据集UCF101和HMDB51上进行实验。本发明还介绍了常用的行为识别数据集，并对本发明提出的技术进行了实验，验证本发明中技术的可行性。

时空双流CNN-GRU神经网络基础架构分为两个部分，第一部分提出基于3D卷积神经网络的双流神经网络模型。传统的双流卷积神经网络的空间流和时间流分别采用2D卷积神经网络，通过空间流提取视频的内容信息和表征信息，时间流输入视频的光流图提取视频的运动特性和时间特征。提出在双流卷积神经网络中用3D卷积神经网络而非2D卷积神经网络。空间流使用3D卷积神经网络提取视频时域上的内容信息和表征信息，时间流通过输入视频帧光流块提取视频的运动特性。双流卷积神经网络中的空间流和时间流使用3D卷积神经网络使模型的输入为多个视频帧块，因此模型中可以包含更多的视频信息。并且3D卷积操作可以让模型更多的表达视频的动作信息和时间特征，使得该模型在行为识别领域具有更有效的特征表达能力。第二部分提出双流卷积神经网络与GRU(GatedRecurrentUnit)网络相结合建立更深层次的网络结构，由于GRU网络有长时记忆信息的能力，因此网络可以提取长时间序列化视频的特征，有效的提取视频中时间维度上的特征，使网络能更强地表达视频的时间特征。

在行为识别任务中，3D卷积神经网络和双流卷积神经网络是两种常用的行为识别网络模型。3D卷积神经网络可以输入多个连续的视频帧，使用3D卷积核进行卷积操作，可以提取视频时间维度上的特征。双流卷积神经网络包括空间流和时间流，双流分别使用2D卷积神经网络，每次输入一个视频帧，用2D卷积核进行卷积，最后将双流各自softmax预测的分数结合起来作为其分类结果。在双流卷积神经网络中视频的时序性特征主要通过时间流来获取。

该部分主要根据3D卷积神经网络和双流卷积神经网络的优点，在双流卷积神经网络中的空间流和时间流分别引入3D卷积神经网络来提取视频的表征和运动信息。其次提出将双流卷积神经网络和GRU网络相结合搭建更深层次的网络模型。下面先详细介绍3D卷积神经网络模型和双流卷积模型，然后重点介绍本发明提出的时空双流CNN-GRU神经网络基础架构。

(1)3D卷积原理

卷积核相当于Equation Chapter 2 Section 1一个权值矩阵，卷积过程实际上是对图像中的像素值进行加权合并的过Equation Chapter(Next)Section 1程，卷积操作的目的是抑制和消除图像中的噪声和污染并且提取图片的某种特征。在图像处理技术中，2D卷积Equation Chapter 2 Section 1操作是卷积核从上到下从左到右依次和图像的像素值相乘，得到乘积之和是该图像的特征图的某像素值。在3D卷积操作中，3D卷积核和多个相连的图片帧块相乘构成该帧块的特征图中的某个像素点。通过使用3D卷积核，多个相邻的特征图构成模型中下一层的某个特征图，因此可以提取多个相邻特征图的时间上的关联性。3D卷积核是特征图共有的，一个卷积核只能从模型上层提取某种图片信息，在实际应用中，为了提取多个特征，在模型中一般会使用多个卷积核。3D卷积的公式如下所示：

其中：tanh(.)是激活函数，r_i是3D卷积核在时间维度的大小，b_ij是特征图的偏置，的值是(p,q,r)点与上层第m个特征图连接的值。

(2)3D下采样原理

卷积神经网络中的参加训练的数据很多，计算复杂度高，尤其在图片数量巨大并且图片尺寸较大的情况下进行卷积操作，即使卷积操作能够缩小特征图的尺寸大小，但是其缩小的范围有限，网络中特征图缩小的速度很慢，导致模型的层数会很多，并且严重影响了模型的收敛速度。因此，下采样层被引入了卷积神经网络中。下采样层的目的是缩小卷积层的特征图尺寸，从而减少图像中的冗余信息，由于下采样层具有平移不变性，即使目标图像有较小的位移，提取的特征是不变的，并且下采样层对过拟合有一定的抵抗能力，使网络更具有鲁棒性。下采样操作是对卷积层产生的特征图在对应窗口上取取大值或者均值，即最大池化或均值池化。

(3)误差逆传播算法原理

误差逆传播(errorBackPropagation,简称BP)算法是目前最经典的神经网络算法。其不仅可以用于多层前馈神经网络，也可以用在递归神经网络等其他类型的网络中。在多层前馈神经网络中，其过程主要分两步.第一步,信号传入模型，经过模型的处理，最后输出信号。该过程称为前项传播，在前项传播中，网络中的参数在传输过程中只参与计算，其值是不变的。第二步，误差信号在模型中从后往前逆向传播，误差信号是输出信号和标记信号的差值。通过损失函数的作用，误差信号逐层向前传递，传递的过程中会修改网络的参数，逐渐使损失函数变小，让网络的输出信号能更接近标记信号。下文在多层前馈神经网络基础上讨论BP算法的公式：

给定训练集{(x⁽¹⁾,y⁽¹⁾),…,(x^(m),y^(m))},x⁽ⁱ⁾∈R^d,y⁽ⁱ⁾∈R^l,训练集的属性有d个，标记向量是l维。定义误差函数：

上式中J(W,b)是均方误差损失函数，后面一项是权重衰减项，作用是使权重幅度可以相应的减少，以防止发生过拟合的现象。其中λ的作用是对前后两部分的相对重要性进行调整。

神经网络训练的目的是更新参数W和阈值b的值，使损失函数J(W,b)得值逐渐变小，最终收敛到最小值。在开始训练时，参数W和阈值b的值会被初始化为一个较小的接近于0的值，在实际应用中，经常使用正态分布初始化参数。

BP算法使用梯度逐渐下滑策略，对损失函数梯度的负方向上对参数调整。参数更新：

其中：

上式中无λ项的原因是权重衰减作用于W，跟b无关系。

BP逆向传播算法过程：

准备部分：初始化参数W和阈值b。

Step1:样本输入到神经网络，在模型中从前往后依次通过各层的传递，并且计算各层(L₂,L₃,…,L_n)的神经元的值，最后在输出层输出。

Step2:计算输出层的残差：

输出层的残差是模型输出的结果与标记值的差值。表示第n层第i个节点的差值。

其中，表示第n层第i个节点的输入，表示第n层第i个节点的输出。

Step3:依次向前计算各层(L_n-1,L_n-2,…,L₂)的残差：

隐藏层每个神经元的残差是其后一层所有神经元的残差和权值分别相乘后再相加而得。

Step4:计算偏导数，更新参数

其中，表示第l层第j个节点的输出。

(4)3D-CNN的总体结构

视频分类和行为识别等视频类处理常用的经典神经网络是Ji等人设计的3D-CNN，该模型的输入是视频的7张图片帧，图片帧的大小是60×40，7张图片帧产生5个通道，分别是灰度图、x方向和y方向的梯度图、x方向和y方向的光流图，这些特征图作为网络的H1层，共33个60×40的特征图，该层表示图像的先验知识，提高图片的识别效果。

C2层使用两个不同的7×7×3大小的卷积核对H1层的特征图进行3维卷积，得到两组特征图，一共是46个54×34的特征图，每组23个特征图。

S3下采样层对C2层的46个特征图进行池化操作，窗口大小为2×2。特征图的大小变为27×17，而个数不变。该层的作用是使特征图的分辨率得到有效的降低，从而减少神经网络的神经元个数，降低模型的复杂度。

C4层对S3层输出的特征图使用3个不同的7×6×3卷积核进行卷积操作。卷积后得到6组大小为21×12、个数为78个的特征图，，使用多个卷积核的目的是增加特征图的数量。

S5层对C4层的特征图进行下采样操作，窗口大小是3×3，得到个数不变分辨率为7×4的特征图。

全连接层C6对上一层进行二维卷积操作，卷积核的大小为7×4。由于卷积核大小同S5层输出的特征图大小相同，因此该层输出的特征图大小为1×1。全连接层中的每个特征图都和上一层所有的78个特征图相连。该层的输出是128维的特征向量。最后一层是输出层，该层的神经元个数和行为识别种类数相同，并且每个神经元和C6层的128个大小为1×1的特征图全连接。该层的作用是采用softmax分类器进行分类。

1)双流卷积网络

在行为识别任务中，有两种常用的网络模型，一种是3D-CNN，该模型输入连续的视频帧块，用3D卷积核进行卷积，提取视频的静态信息和运动信息。另一种是双流卷积神经网络，该模型分为空间流和时间流，分别在2D-CNN上进行训练，最后将双流各自softmax预测的分数结合起来作为其分类结果。很多研究表明，双流卷积神经网络模型比3D-CNN的效果更好些。

双流卷积神经网络空间流的输入是单个连续的视频帧，获取RGB图片帧的外观特征。空间流的实质是一种获取图片的静态信息的分类模型。空间流使用的典型的模型是牛津大学视觉几何组(VisualGeometryGroup，VGG)研发的VGG-M-2048模型，VGG神经网络模型在国际比赛上取得了很好的成绩，其有很强的特征表示能力和图片分类能力。

双流卷积神经网络的时间流输入的是单个连续的光流图，光流图清晰地表示了视频的时间特性。时间流通常采用VGG模型提取视频信息。在视频的行为识别任务中，空间流对动作比较单一、静态的表象特征比较明显的视频的识别率比较高，比如在UCF101数据集中，挥拳的动作，空间流识别手和腿的位置，仅仅根据一张特征图中的表征信息就可以识别。时间流对动作比较复杂、时序性要求高的视频的识别率较高。对于挥拳的动作，时间流识别在一定的空间区域内手和腿的周期性变化。UCF101数据集中画眉、射击和打篮球的视频帧和光流图如图1所示：

图中A、D、G分别是UCF101数据集中画眉、射击和打篮球视频中某时刻的视频帧，作为空间流的输入。B、E、H分别是画眉、射击和打篮球视频中某时刻相邻视频帧在x方向上的光流图像，x方向的光流代表相邻视频帧中像素在水平位移上的移动情况。C、F、I分别是画眉、射击和打篮球视频中某时刻相邻视频帧在y方向上的光流图像,y方向的光流代表相邻帧中像素在竖直方向的移动情况。将x和y方向的光流图相结合能更精确地提取视频的时间特性。

2)双流卷积网络模型

双流卷积神经网络的空间流和时间流是各自训练，空间流提取视频的内容，时间流通过光流图提取视频的运动特性。

该部分主要内容是将3D卷积神经网络引入到双流卷积神经网络中，并且采用双流卷积神经网络和GRU网络相结合的方式搭建一个更深层次的时空双流CNN-GRU神经网络模型。网络模型的主要构建思想是在双流卷积神经网络中的空间流和时间流分别使用3D卷积神经网络，3D卷积神经网络可以让更多的视频帧输入到网络中参与网络的训练，更有效的提取视频的时间域和空间域特征；然后将时间域特征和空间域特征相融合成有时间顺序的时空特征序列，将其作为GRU网络的输入，根据GRU网络能记忆信息的能力，提取时空特征序列的长时间序列化特征；最后利用softmax分类器进行视频的行为识别。该基础架构的输入是视频的多个连续的特征帧块，空间域和时间域的输入不同。空间域的输入是多个静态的图片帧块，该流通过3D卷积神经网络提取视频中时间维度上的表征信息。空间流使用3D卷积核对视频帧块进行卷积，从而可以获取视频帧块的时间特性。时间流以多个连续的光流图块作为模型的输入。光流图是通过比对相邻帧的像素值变化得到像素运动的图片，比如打羽毛球这个动作，光流图可以提现在一定的空间范围内身体移动的周期性动作并且能更加清晰直观的表达人物的移动状况。将3D卷积神经网络应用在时间域，对光流图的卷积操作使用3D卷积核，使提取视频中物体的运动特性和时间信息能力得到有效的提升。图2为时空双流CNN-GRU神经网络的基础架构。

在时空双流CNN-GRU神经网络基本框架中，首先将视频处理成空间流和时间流所需的数据。空间流输入的是视频的图片帧块，即取视频连续的16帧作为一块，每个视频按时间顺序取7块。时间流的输入是视频的光流图，即按时间顺序取7块视频的光流图，每块8个x方向光流图和8个y方向光流图。通过空间流和时间流3D卷积神经网络分别提取视频的时间维度上的表征信息和运动信息。然后对空间流特征向量和时间流特征向量进行最大值融合，得到时空特征向量序列作为GRU网络的输入。最后通过GRU网络学习时空特征向量的时序性信息。GRU网络的目的是提取长时间序列化视频的特征，让框架有更好的特征表达能力。特征向量经过GRU网络的学习，进入全连接层，该层中加入了Dropout技术，目的是防止网络发生过拟合的情况。最后通过softmax分类器进行分类。

1)3D卷积神经网络调整方案

本发明中的3D卷积神经网络结构中包含8个卷积层，5个池化层，2个全连接层和一个分类层。网络的输入是7个视频帧块，每块包含16个大小为112×112的图片帧。8个卷积层的卷积核个数分别为64,128,256,256,512,512,512,512，卷积核大小为3×3×3且步长为1，池化层采用3维池化操作。时空双流CNN-GRU网络基本框架中的空间流和时间流均采用上述的3D卷积神经网络结构。图3为3D卷积神经网络的结构示意图。

对于数据集中的行为视频，视频被处理成7个视频帧块作为网络的输入，每块包含16个大小为112×112的视频帧。即空间流和时间流的输入是7×16×112×112。在训练过程中，特征图的大小会根据不同网络层产生相应的变化，卷积层不会改变特征图的大小，因为在卷积层进行加边处理。在池化层对特征图进行3维下采样操作，特征图的大小会响应的变化，如图4所示。

2)GRU网络

循环神经网络(RecurrentNeuralNetwork,RNN)的神经元中存储着信息当前输出、当前输入和前一时刻输出的关系，有长时间记忆信息的能力。理论上RNN能够对任何长度的有序列的数据进行处理，可以提取数据的序列化信息，当然也可以提取长时间序列化视频的特征。但是RNN缺乏远距离学习能力，容易产生梯度消失和梯度爆炸问题。为了解决RNN的梯度问题，LSTM(LongShort-TermMemory,LSTM)被提了出来，成功地解决了RNN的缺点。LSTM网络训练时间长、参数多并且内部设计复杂，GRU是对LSTM的改进版，GRU在保持LSTM效果的基础上有较少的参数、结构更加简单并且有更好的收敛性。

通过上述分析，本发明框架中的提取时空融合特征向量的运动信息和时间维度上的特征采用GRU网络模型，在本框架中采用两层GRU网络，每层512个神经元，当空间流特征向量和时间流特征向量融合后按顺序输入到GRU网络中，GRU网络通过其神经元中更新门和重置门的设计，控制神经元中前一刻的隐层输出对当前隐层的影响程度，进行选择性的训练，提取时空特征融合向量时间维度上的信息，即提取视频的运动信息。在框架中加入GRU网络，提高了框架提取视频运动信息和时间特征的能力。

GRU网络的更新公式如下：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

其中：r_t是t时刻的重置门，由新输入x_t前状态h_t-1和权重W_r计算而得。z_t表示t时刻的更新门，由新输入x_t前状态h_t-1和权重W_z计算更新其值。表示t时刻的候选激活状态，由新输入x_t前状态h_t-1和权重W计算更新其值，r_t的取值在0和1之间，为了约束h_t-1。

h_t表示t时刻的激活状态，根据新的z_t的前状态h_t-1和的值，得到新的GRU的输出值。

随着深度学习在视频分类等计算机视觉中广泛的应用，所使用的数据集也越来越完善。目前主流的数据集有KTH,Weizmann,IXMAS,Hollywood,UCF,HMDB51等。KTH和Weizmann这两个数据集在视频分类领域被使用的很多，如今这两个数据集的准确率已经很高了。本发明使用UCF101和HMDB51数据集进行实验。

1)UCF101数据集在行为识别任务中有广泛的应用，拥有较多的类别数和样本数。该数据集是从YouTube网站上收集的各个动作的视频，有13320个视频，每个视频的时长10秒左右，一共17小时，分辨率是320×240,共有101类动作，每个动作有100多个视频段，由不同的人完成，但是有相似的背景和方位。该数据集比较复杂，相机的移动、拍摄的角度、同一动作不同的人物和背景、相机的运动等都会造成干扰，在行为识别中，使用该数据集比较有挑战性，可以有效地检验网络模型的鲁棒性。图5为UCF101数据集中的部分动作的视频帧。

2)HMDB51数据集中的动作比UCF数据集更多样化，同一个动作有不同的背景和视野等特征。数据集中有6849个视频，包含51种动作。动作内容主要有面部的动作，比如微笑，大笑，咀嚼，交谈等。身体部位和面部结合的动作，比如吸烟，吃，喝等。身体动作，比如打篮球、跳高、骑自行车等。图6是HMDB51数据集中的部分动作。

本章实验系统是ubuntu16.04LTS，处理器为InterCorei7-4790CPU,主频3.60GHz,4核，GPU显卡为NVIDIAGeForceGTXTITANX，内存为16GiB。使用的深度学习框架是tensorflow、keras、Pytorch。数据处理工具有Python3.7、OpenCV、Numpy等。

本模型的训练过程中使用基于梯度下降算法的SGD算法。梯度下降算法的基本思想是：为了使损失函数的值最小，首先计算损失函数的梯度，然后让损失函数的值按照梯度的方向渐渐变小，在epoch的过程中，不断地更新参数的值，使损失函数的值变小，最终损失函数的值达到最小值，模型训练结束，达到最优。学习率的设置影响梯度下降算法的效果。学习率设置的过小，模型的收敛速度会降低，并且损失函数需要训练多次才能达到最优解，甚至网络会陷入局部最优解，不能收敛到真正的最优解。学习率设置的过太，模型可以快速的收敛，但是模型很可能会跳过最优解并且在最优解附近震荡。学习率太大会导致损失函数很难收敛，因为损失函数的梯度下降太快，可能造成过拟合的情况发生。因此，在选取学习率时，在刚开始迭代的时候，应该选取较大的学习率，此学习率不能太大，防止模型不能收敛。选取较大的学习率的作用是防止模型陷入局部最优解并且使模型能快速收敛。当损失函数收敛到一定程度时，可能会发生过拟合的现象，此时选取较小的学习率，使损失函数缓慢的收敛，直到收敛到某值，即在某值的附近波动。

为了克服SGD算法学习率选择困难或者直接将学习率设置为常值0.01，模型中使用动态周期性下降的学习率，学习率周期性下降的好处是模型多次迭代过程中使用同一个学习率，能更有效的使用学习率。随着模型的训练，学习率渐渐变小并且不为0，下降幅度也随着迭代的进行变得缓慢，其目的是防止学习率下降的太快使模型难以收敛或者收敛速度缓慢。经过多次试验，模型中采用的学习率如图7所示:

模型训练分析：该部分提出的模型在数据集UCF101上使用前面所述的学习率进行训练，可得出模型的loss与epoch关系的趋势图，如图8所示，位置靠下的连线为训练集误差值的变化情况，位置靠上的连线为验证集误差值变化情况，验证集是在模型训练的过程中进行测试，若训练误差在逐渐降低，而验证集误差逐渐升高，说明模型发生了过拟合现象。验证集的作用是检测模型是否发生过拟合情况。

模型在刚开始训练的时候，误差比较大，值在2.5左右，原因是虽然模型空间流和时间流卷积神经网络是欲训练过的，参数已被有效初始化，而模型的后半部分GRU网络里的参数是随机初始化的，还没有得到调整，当迭代次数在0至28区间时，模型的训练误差斜率较大，模型误差快速变小。随着迭代次数的增加，模型的训练误差曲线斜率总体上在变小，误差值在缓慢的缩小，模型在渐渐收敛。当epoch在区间80至85之间时，误差值有波动，分析模型整体结构和训练过程得知，其原因很可能是在模型训练过程中，空间流输出的空间域特征向量和时间流输出的时间域特征向量进行最大值融合，使得GRU网络在训练过程中，误差向前传递参数更新发生改变。但是在整体上，模型的误差值在逐渐减小，模型在渐渐的收敛。

图9展示了本发明提出的时空双流CNN-GRU神经网络在UCF101数据集上的实验结果。从数据集的13320个视频中取出12830个作为训练集，500个作为测试集。实验迭代次数是100次。由图可知，空间流和时间流分别采用3D卷积神经网络进行行为识别，空间流训练的是视频的图片帧，而时间流训练的是视频的光流图，在UCF101数据集上的行为识别率相差不大，分别为79.15％和80.8％。而本发明提出的时空双流CNN-GRU神经网络的识别率为92.2％，说明本发明的方法比单一的用3D卷积神经网络的识别率更高。由图可知，时空双流CNN-GRU神经网络的平均训练时间、平均测试时间比单一用3D卷积神经网络的空间流和时间流时间长至少4倍，因为时空双流CNN-GRU神经网络的网络结构比较复杂，由时间流3D卷积神经网络和空间流3D卷积神经网络组成双流，又结合GRU网络构成。即使时空双流CNN-GRU神经网络的网络结构复杂，训练时间较长，但是其识别率有较高的提升。时空双流CNN-GRU神经网络的内存消耗也较大。

图10列出了时空双流CNN-GRU神经网络在HMDB51数据集上的实验结果。从数据集的5222个视频中取出4922个作为训练集，300个作为测试集。实验迭代次数为100次。由图可知，模型在HMDB51数据集上的识别率为61.5％，与单一用3D卷积神经网络的时间流和空间流来说，识别率得到有效的提升，训练时间和测试时间较长，内存开销也较大。

由图11可知，当深度学习刚被应用到行为识别技术中时，研究者们使用的是2D-CNN，通过对单个图片进行卷积和池化等操作，提取图片的特征，该方法在UCF101数据集上的识别率是68.59％。由于视频分类比图片分类更加复杂，视频具有时间特性和运动特点，3D卷积神经网络被提了出来，该网络以多个连续的视频帧为输入，通过3D卷积核对视频帧进行卷积，更加有效地提取视频的表面特征，更重要的是一定程度上提取了视频的时间特性，该网络识别率为79.15％。为了更加充分的提取视频的时间特征，研究者们提出了Two-Stream和Two-Stream(VGG)方法，通过时间域和空间域2D-CNN，分别提取视频的内容信息和时间特性，在UCF101数据集上的识别率分别为88.0％和91.4％。Two-Stream+LSTM方法结合了LSTM网络和双流卷积神经网络，识别率为88.6％。本发明提出的时空双流CNN-GRU神经网络在空间流和时间流分别使用3D-CNN，充分提取视频的内容信息和时间特性，特征融合后输入到GRU网络，提取长时间序列化视频的特征，让框架有更好的特征表达能力，时空双流CNN-GRU神经网络在UCF101数据集上的识别率是92.2％。本发明模型的识别率比Two-Stream(VGG)高0.8％，说明本发明将3D卷积神经网络引入双流卷积神经网络中使模型更全面的提取了视频的信息，并且GRU网络的结合，使视频的时序性信息得到有效的使用。

图10中可得出，IDTwithstackedfisherencoding算法是行为识别技术中经典的算法，该算法密集采取图像特征样本，提取了非常有区分度的视频特征，识别准确率为56.8％，在当时非深度学习行为识别技术中取得了比较高的准确率。图12中的Softattentionmodel算法在行为识别领域中引入了注意力机制，将视频帧分为块，目的是可以让模型更精确的学习特征，识别准确率为41.2％。Two-Stream和Two-Stream(VGG)方法是分别提取空间域和时间域的特征，然后进行特征融合，最后利用softmax分类器进行分类，其中VGG模型是经典的2D-CNN，曾在世界级比赛中得奖，准确率分别是59.4％和58.5％。T3D+TSN算法达到了63.3％的准确率。本发明提出的模型的准确率为61.5％，与基于双流卷积神经网络的算法相比，识别率有一定的提升。

背景技术中的文献编号，分别对应下列文献名称：

[1]T.B.Moeslund,A.Hilton,V.Krger.A survey ofadvances in vision-basedhuman motion capture and analysis[J].Computervision and image understanding,2006,104(2-3):90-126.

[2]Wang H, A,Schmid C,et al.Action recognition by densetrajectories[C]//CVPR2011-IEEE Conference on ComputerVision&PatternRecognition.IEEE,2011:3169-3176.

[3]Wu S,Oreifej O,Shah M.Action recognition in videos acquired by amoving camera using motion decomposition of Lagrangian particle trajectories[C]//International Conference on Computer Vision.Spain:IEEE Computer Society,2011.

[4]Wang H,Klaser A,Schmid C,et al.Dense Trajectories and MotionBoundary Descriptors for Action Recognition[J].InternationalJournalofComputerVision,2013,103(1):60-79.

[5]Chen D,Shih S,Liao H M.Human action recognition using 2-d spatio-temporal templates[C]//IEEE International Conference on Multimedia&Expo.IEEEComputer Society,2007.

[6]Laptev I,Lindeberg T.On Space-Time InterestPoints[J].InternationalJournal ofComputer Vision,2005,64(2):107一123.

[7]Schuldt C,Laptev I,Caputo B.Recognizing human actions:a local SVMapproach[C].Proceedings ofthe 17th International Conference on PatternRecognition,Cambridge,2004,3:32-36.

[8]Dalal N,Triggs B.Histograms of Oriented Gradients for HumanDetection[C]//IEEE Computer Society Conference on Computer Vision&PatternRecognition.San Diego,CA,USA,2005.IEEE Computer Society,2005:886-893.

[9]傅红普,邹北骥.方向梯度直方图及其扩展[J].计算机工程,2013,39(05):212-217.

[10]T.Wang,H.Snoussi.Histograms of optical flow orientation forabnormal events detection[J].2013 IEEE International Workshop on PerformanceEvaluation of Tracking and Surveillance(PETS),2013,45-52.

[11]DALAL N,TRIGGS B,SCHMID C.Human detection using orientedhistograms offlow and appearance[C]//ECCV'06:Proceedings of the 2006International Conference on Computer Vision Human-ComputerInteraction.Berlin:Springer,2006:428-441.

[12]ZHU G,XU C,GAO W,er al.Action recognition in broadcast tennisvideo using optical flow and support vector machine[C]//ECCV'06:Proceedingsofthe 2006 International Conference on Computer Vision in Human-ComputerInteraction.Berlin:Springer,2006:89-98.

[13]LAPTEV I,MARSZALEKM,SCHMID C,et al.Learning realistic humanactions from movies[C]//CVPR 2008:Proceedings of the 2008 IEEE Conference onComputer Vision and Pattern Recognition.Washington,D.C.:IEEE ComputerSociety,2008:1-8.

Claims

1.一种基于深度学习的行为识别技术方法，其特征在于：含有以下步骤，

步骤1、将3D卷积神经网络引入到双流卷积神经网络中，并且采用双流卷积神经网络和GRU网络相结合的方式搭建更深层次的时空双流CNN-GRU神经网络模型；

步骤3、将时间域特征和空间域特征相融合成有时间顺序的时空特征序列，将时空特征序列作为GRU网络的输入.根据GRU网络能记忆信息的能力，提取时空特征序列的长时间序列化特征，利用softmax分类器进行视频的行为识别；

步骤4、提出新的基于相关熵的损失函数；

2.根据权利要求1所述的基于深度学习的行为识别技术方法，其特征在于：所述步骤2中时空双流CNN-GRU神经网络基本框架中，将视频处理成空间流和时间流所需的数据，空间流输入的是视频的多个静态的图片帧块，时间流的输入是视频的光流图，通过空间流和时间流3D卷积神经网络分别提取视频的时间维度上的表征信息和运动信息，其中空间流使用3D卷积核对视频帧块进行卷积，获取视频帧块的时间特性，时间流以多个连续的光流图块作为模型的输入，光流图是通过比对相邻帧的像素值变化得到像素运动的图片。

3.根据权利要求1所述的基于深度学习的行为识别技术方法，其特征在于：所述步骤3中对空间流特征向量和时间流特征向量进行最大值融合，得到时空特征向量序列作为GRU网络的输入，具体过程如下：采用两层GRU网络，每层512个神经元，当空间流特征向量和时间流特征向量融合后按顺序输入到GRU网络中，GRU网络通过其神经元中更新门和重置门的设计，控制神经元中前一刻的隐层输出对当前隐层的影响程度，进行选择性的训练，提取时空特征融合向量时间维度上的信息，即提取视频的运动信息，GRU网络的更新公式如下：

4.根据权利要求1所述的基于深度学习的行为识别技术方法，其特征在于：所述步骤4中含有以下步骤，步骤a，信号传入模型，经过模型的处理再输出信号，称为前项传播，网络中的参数在传输过程中只参与计算，其值不变，其公式为，

Step2、计算输出层的残差：

Step3、依次向前计算各层(L_n-1,L_n-2,…,L₂)的残差：

Step4、计算偏导数，更新参数

其中，表示第l层第j个节点的输出。