CN109002808B

CN109002808B - 一种人体行为识别方法及系统

Info

Publication number: CN109002808B
Application number: CN201810848243.9A
Authority: CN
Inventors: 毛亮; 朱婷婷; 黄仝宇; 汪刚; 宋一兵; 侯玉清; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2020-10-02
Anticipated expiration: 2038-07-27
Also published as: CN109002808A

Abstract

本发明提供了一种人体行为识别方法及系统，可以区分背景视频与包含人体行为视频并识别出其种类的网络，通过运用多任务深度学习方法训练3D卷积神经网路，将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入，经过3D卷积神经网络训练后完成识别任务。本发明不仅提高了提取特征的效率，而且也提高了对包含背景视频的长视频段的识别能力，以便为智能监控等领域提供更好的技术支撑。

Description

一种人体行为识别方法及系统

本发明涉及一种视频分析、图像理解与识别领域，特别是涉及一种用于人体行为识别的方法及系统。

背景技术

近些年来，随着深度学习等相关技术的兴起，深度神经网络在计算机视觉等各类领域都取得了突破性的进展。卷积神经网络由于其特性，被大量运用在图像处理等领域。深度学习的特点是采用较深的网络结构并运用大量的训练数据从图像低层的像素中学习到更高层更复杂的信息，以拟合出适用于当前任务的网络。同时，现今社会获取海量数据变得十分容易，也为深度学习运用到视频、图像理解、识别等领域提供了便利条件。

随着计算机视觉技术以及深度学习的蓬勃发展，安防、智能视频监控、城市治安、事故预警等领域中已经从研究人体某单一区域的特征转移到研究整个行人的特征(整体特征、动作特征)。人体行为识别运用在这类领域中，可以做到对监控区域行人的状态、以及重大事故的预警以及监控作用，以避免事故的发生，可以大大降低人力物力。然而，对视频中的人体行为进行识别面临着巨大的考验，超大规模的视频数量使得行为识别任务对算法性能的要求越来越高，传统算法在处理摄像机不同视角、背景杂乱、遮挡等问题的不足也愈发明显。如何设计一个高效且高识别率的人体行为识别算法显得尤为重要。

中国专利申请CN201711054505.6《人体行为识别模型及其构建方法和人体行为识别方法》公开了一种基于深度学习的人体行为识别方法，首先会获取包含人体行为的视频并对其预处理，其次通过3D卷积神经网络进行特征提取，并将提取的特征向量输入进库仑力场，通过场内引力进行聚类。最后采用损失函数计算特征向量所代表的质点当前位置与相似度函数最小时特征向量的目标位置之间的误差，当误差大于设定阈值进行反向传播，并进行网络学习。该方法只针对包含人体行为的视频，没有提及如果涉及背景视频该出如何处理，同时其提取特征以及网络更新过程复杂，网络学习难度高且效率不高。

在现实视频监控中，容易得到大段监控视频，在这些监控视频中，不仅包含某个人体行为的完整过程，还包含没有人体行为的视频段，这种没有人体行为的视频段称之为背景视频。如果网络仅仅只对包含整个行为的完整过程进行学习，则会造成网络对视频段中包含背景视频或者其他非行为视频不具有一定的鲁棒性，从而造成误识别。

发明内容

本发明针对长时间的监控视频，提出了一种人体行为识别方法及系统，解决了现有技术存在的对完整视频进行学习造成的网络对视频段中包含背景视频或者其他非行为视频不具有一定的鲁棒性，从而造成误识别的技术问题。

本发明提出了一种人体行为的识别方法，包括，

获取多个用于训练人体行为识别模型的人体行为的视频样本；

对所述视频样本分别进行裁剪，获得包含完整人体行为的行为视频和不包含人体行为的背景视频；

提取所述行为视频及背景视频的每一帧图像，并将所述行为视频的帧图像及所述背景视频的帧图像按顺序进行存储；

所述行为视频的帧图像和所述背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，每个人体行为对应一个子数据集，该子数据集包括该人体行为和背景；

将所述子数据集合并成总数据集，所述总数据集中的连续帧块与所述子数据集中的连续帧块一一对应；

将所述总数据集输入3D卷积神经网络提取所述总数据集的特征；

将所述总数据集切分为多个子数据集，所述子数据集与输入所述3D卷积神经网络的总数据集中的连续帧块一一对应；

将所述切分后的多个子数据集输入损失函数层进行计算，获得总数据集对应的人体行为种类。

更进一步，所述行为视频的帧图像和所述背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，每个人体行为对应一个子数据集，该子数据集包括该人体行为和背景，具体的，所述相等的连续帧块为为16帧图像。

更进一步，所述损失函数层的函数采用概率形式，

其中：T为类别数，且T为大于等于1的正整数，a_j为T*1的向量中第j个值，a_k为T*1的向量中的第k个值，S_j为T*1的向量中第j个样本属于第j类的概率，S_j是正数，S_j范围是(0,1)。

更进一步，将所述总数据集输入3D卷积神经网络提取所述总数据集的特征，具体的，输入到所述3D卷积神经网络的总数据集格式为数组形式，所述数组形式为：n*l*c*w*h，其中，n为输入进网络的连续帧块的个数，l为连续帧块的帧数，c为帧图像的通道数，w、h为所述总数据集中帧图像的宽和高。

更进一步，所述人体行为识别的人体行为至少包括以下人体行为中的一种：摔跤、打架、奔跑。

本发明还提出了一种构建人体行为识别方法的系统，

数据预处理单元，包括，

获取模块，用于获取多个用于训练人体行为识别模型的人体行为的视频样本，

裁剪模块，用于对所述视频样本分别进行裁剪，获得包含完整人体行为的行为视频和不包含人体行为的背景视频；

网络输入单元，包括，

存储模块，用于提取所述行为视频及背景视频的每一帧图像，并将所述行为视频的帧图像及所述背景视频的帧图像按顺序进行存储，

子数据集生成模块，用于所述行为视频的帧图像和所述背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，每个人体行为对应一个子数据集，该子数据集包括该人体行为和背景；

数据合并单元，用于将所述子数据集合并成总数据集，所述总数据集中的连续帧块与所述子数据集中的连续帧块一一对应；

网络训练单元，用于将所述总数据集输入3D卷积神经网络提取所述总数据集的特征；

网络输出单元，包括，

切分模块，用于将所述总数据集切分为多个子数据集，所述子数据集与输入所述3D卷积神经网络的总数据集中的连续帧块一一对应；

损失函数模块，用于将所述切分后的多个子数据集输入损失函数层进行计算，获得总数据集对应的人体行为种类。

更进一步，所述子数据集生成模块中所述相等的连续帧块为16帧图像。

更进一步，所述损失函数模块中损失函数层的函数采用概率形式，

更进一步，所述网络训练单元，将所述总数据集输入3D卷积神经网络提取所述总数据集的特征，具体的，输入到所述3D卷积神经网络的总数据集格式为数组形式，所述数组形式为：n*l*c*w*h，其中，n为输入进网络的连续帧块的个数，l为连续帧块的帧数，c为帧图像的通道数，w、h为所述总数据集中帧图像的宽和高。

以上技术方案可以看出，本发明提出了一个可以区分背景视频与包含人体行为视频并识别出其种类的网络，通过运用多任务深度学习方法训练3D卷积神经网路，将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入，经过3D卷积神经网络训练后完成识别任务。本发明不仅提高了提取特征的效率，而且也提高了对包含背景视频的长视频段的识别能力，以便为智能监控等领域提供更好的技术支撑。

附图说明

图1为本发明提出的人体行为识别流程图；

图2为本发明实施例1的流程示意图；

图3为本发明实施例1中2D卷积与3D卷积对比示意图；

图4为本发明实施例2的结构示意图。

具体实施方式

为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请实施例一部分实施例，而非全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

为使本发明具体实施方式通俗易懂，图1为本发明提出的人体行为识别流程图，可帮助理解如下实施例1、实施例2.

实施例1：

图2为本实施例的流程示意图，一种人体行为识别方法，包括，

步骤101，获取多个用于训练人体行为识别模型的人体行为的视频样本；

需要说明的是，在本实施例中，假设已经收集到足够多的包含完整人体行为和背景视频(没有人体行为的视频段)的视频样本，这些样本作为训练集用于训练人体行为识别模型。

步骤102，对视频样本分别进行裁剪，获得包含完整人体行为的行为视频和不包含人体行为的背景视频；

需要说明的是，在步骤101获取的视频样本中，将每个动作从开始到结束的完整视频片段裁剪并保存，并保证每一种行为具有多样性。

具体的，从视频样本中裁剪出来的包含完整人体行为的行为视频可以是成千上万的摔跤视频、打架视频、奔跑视频，而不包含人体行为的视频与前述视频不产生交叉。

步骤103，提取行为视频及背景视频的每一帧图像，并将行为视频的帧图像及背景视频的帧图像按顺序进行存储；

本步骤的目的是为了对每个行为视频和背景视频按照帧数相等的原则构成该行为的子数据集。

步骤104，行为视频的帧图像和背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，每个人体行为对应一个子数据集，该子数据集包括该人体行为和背景；

需要说明的是，每个人体行为的子数据集中包含构成该行为的正样本和负样本，从而达到保存视频中时域特征的目的，不再以视频的光流信号作为网络提取时域特征的输入。

还需要说明的是，本步骤中构成的子数据集为(人体行为1，背景视频)，(人体行为2，背景视频)，.......(人体行为n，背景视频)，也就是说，N个行为会对应N个数据集。

在一个具体的实施例中，子数据集可以为(摔跤，背景视频)，(打架，背景视频)，(奔跑，背景视频)。

还需要说明的是，将行为视频的帧图像和背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，这里的连续帧块必须是相等的，也就是说包含相同数量的帧图像。

在一个具体的实施例中，相等的连续帧块包含16帧图像。

步骤105，将子数据集合并成总数据集，总数据集中的连续帧块与子数据集中的连续帧块一一对应；

需要说明的是，本实施例是一种基于多任务深度学习的人体行为识别方法，采用多任务网络学习机制可以使网络共享到其他数据的特征。很多深度学习网络仅专注于单一任务，会使很多具有相同共性的数据特性得不到共享。多任务学习的提出可以很好地解决这个问题，它是一种归纳迁移机制，主要目标是利用隐含在多个相关任务的训练信号的特定领域信息来提高泛化能力，多任务学习通过使用共享表示并行训练多个任务来完成这一目标，即可以在学习一个问题的同时，使用共享表示来获取其他相关问题的知识。因此多任务学习是一种专注于将解决一个问题的知识应用到其他相关问题的方法。本实施例使用对子数据集进行合并的方式实现多任务学习训练数据的准备。在子数据合并的过程中需要遵循以下准则：

(1)每个子数据集输入进网络的连续帧块的帧数、每一帧图像的通道数、每一帧图像的宽、高要保证一样。

(2)在进行子数据集合并时，由于3D卷积神经网络的数据输入格式为数组形式，其数据格式为：n*l*c*w*h，其中n为输入进网络的连续帧块的个数，l为连续帧块的帧数，c为帧图像的通道数(一般为3通道)，w、h为帧图像的宽和高。

在满足(1)的条件下，将子数据集按照输入数组的第一维，即连续帧块的个数进行合并。

以上两个原则完成了多任务学习的数据准备阶段。将合并后的总数据集输入网络进行学习，使网络可以学习到每个数据集之间的相关性，从而达到了多任务学习的目的。

具体的，总数据集可以是{(人体行为1，背景视频)，(人体行为2，背景视频).......(人体行为n，背景视频)}，在一个具体的实施例中，总数据集是{(摔跤，背景视频)，(打架，背景视频)，(奔跑，背景视频)}。

步骤106，将总数据集输入3D卷积神经网络提取总数据集的特征；

需要说明的是，本实施例3D卷积神经网络对网络输入数据进行特征提取。其原因在于：在针对图像识别或其他任务时，网络不需要学习到时域的特征，只需要提取到空域的特征就可以很好的完成任务，所以使用2D卷积可以达到很好的效果。但相对于行为识别任务，整个行为的完成单单依靠一帧图像是不可能完成的，因此需要在网络的学习过程中能够加入时域信息，以便网络能够很好地完成行为识别的任务。相比于2D卷积，3D卷积可以对时域信息进行建模，从而进行特征学习。如图3所示，(a)图为2D卷积，无论是单张图像还是多张图像，经过2D卷积计算之后均得到一副2维图像，其输出结果不包含时域信息，反观3D卷积，以连续多帧图像输入进网络，网络输出结果为保存时序信息的特征图像块。因此为了保留视频中行为的时序信息，本方案采用3D卷积神经网络进行学习。

具体的，在本实施例中，采用人体行为视频中相等的连续帧(在一个具体的实施例中，与步骤104相对应为16帧)作为网络的输入，以保存动作中的连续信息。不再选择为了保留时域信息，以数据中的光流信息作为输入的方法，可以很好的提升在数据准备的效率。本实施例中的网络结构比较简单，一共七层，其前五层为五个卷积层和池化层组成的特征学习模块，第六层和第七层均为全连接层。通过3D卷积神经网络，很好地保留了连续帧块中的时域特征。

步骤107，将总数据集切分为多个子数据集，子数据集与输入所述3D卷积神经网络的总数据集中的连续帧块一一对应；

根据步骤105可知，本实施例在网络训练开始时对多个人体行为的子数据集进行了合并，以方便学习到数据的共享知识。经过网络的训练学习，网络学习到了较好的特征，且网络在学习的过程中，训练总数据集的连续帧块个数没有发生改变。因此，为了得到各个人体行为子数据集的学习情况，在网络输出计算损失函数的时，需要对各个数据集进行切分，以便损失函数可以根据学习到共享特征计算各个行为数据相对应的损失函数。

需要说明的是，本实施例对总数据集进行切分的时候，应遵循以下准则：

(1)步骤105，在对子数据集进行合并时根据人体行为子数据集连续帧块的个数进行合并，在对总数据集进行切分时，也应该按照每个子数据集输入进网络的连续帧块的个数进行切分，必须保证与原始个数相同；

(2)切分之后的数据集必须输入进相对应的损失函数层，从而进行相应的损失函数计算，得到相应的权重更新，并得到对应的每一个人体行为子数据集中的种类输出。

步骤108，将切分后的多个子数据集输入损失函数层进行计算，获得总数据集对应的人体行为种类。

本实施例采用的损失函数采用概率形式，公式如下：

其中，T表示类别数，且T为大于等于1的正整数，本实施例属于7分类，那么T就是7，a_j为T*1的向量中第j个值，a_k为T*1的向量中的第k个值，S_j为T*1的向量中第j个样本属于第j类的概率，S_j是正数，S_j范围是(0,1)。根据网络损失函数，运用反向传播算法更新权重，使网络达到最优状态，从而得到输入样本对应的人体行为种类。

根据本实施例的技术方案，可以对3D卷积神经网络输入进多种行为数据集(每个数据集分为正负样本)，在训练过程中根据网络相对应的输出，可以知道网络每一个分支对应的行为种类，从而完成对行为种类的识别。

本实施例提出的基于多任务深度学习的人体行为识别方案，首先对训练集视频进行裁剪，获得人体行为视频和背景视频，建立多种人体行为子数据集，将多种人体行为子数据集输入3D卷积神经网络，通过多任务学习的深度网络学习方法达到对多种动作进行识别的目的，同时，本实施例的网络针对每一种行为只需要学习该行为视频的连续帧块是否是该行为，其相应的人体行为种类分类通过网络相应的输出分支得到。对于一个网络而言，二分类(是或不是)的学习效率相对比较高效，且准确率较高。本实施不仅可以对包含背景视频的大段视频进行识别，而且通过多任务学习的方法可以提高对人体行为识别的准确率和效率。

实施例2：

图3为本实施例的结构示意图，一种构建人体行为识别方法的系统，包括，

数据预处理单元201，包括，

获取模块2011，用于获取多个用于训练人体行为识别模型的人体行为的视频样本，

裁剪模块2012，用于对视频样本分别进行裁剪，获得包含完整人体行为的行为视频和不包含人体行为的背景视频；

网络输入单元202，包括，

存储模块2021，用于提取行为视频及背景视频的每一帧图像，并将行为视频的帧图像及背景视频的帧图像按顺序进行存储，

子数据集生成模块2022，用于行为视频的帧图像和所述背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，每个人体行为对应一个子数据集，该子数据集包括该人体行为和背景；

数据合并单元203，用于将子数据集进行合并成总数据集，总数据集中的连续帧块与子数据集中的连续帧块一一对应；

网络训练单元204，用于将总数据集输入3D卷积神经网络提取所述总数据集的特征；

网络输出单元205，包括，

切分模块2051，用于将总数据集切分为多个子数据集，子数据集与输入3D卷积神经网络的总数据集中的连续帧块一一对应；

损失函数模块2052，用于将切分后的多个子数据集输入损失函数层进行计算，获得总数据集对应的人体行为种类。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述系统的具体工作过程，可以参考前述方法实施例中的对应过程，在实施例2中不再赘述。

在本申请所提供的几个实施例中，应该理解到，所披露的方法、系统，可以通过其它的方式实现。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人体行为识别方法，其特征在于，包括，

2.根据权利要求1所述的人体行为识别方法，其特征在于，所述行为视频的帧图像和所述背景视频的帧图像按照帧数相等的连续帧块构成人体行为的子数据集，每个人体行为对应一个子数据集，该子数据集包括该人体行为和背景，具体的，所述相等的连续帧块为16帧图像。

3.根据权利要求1所述的人体行为识别方法，其特征在于，所述损失函数层的函数采用概率形式，

其中：T为类别数，且T为大于等于1的正整数，a_j为T*1的向量中第j个值，a_k为T*1的向量中的第k个值，S_j为T*1的向量中第j个样本属于第j类的概率，S_j是正数，S_j范围是(0，1)。

4.根据权利要求1所述的人体行为识别方法，其特征在于，将所述总数据集输入3D卷积神经网络提取所述总数据集的特征，具体的，输入到所述3D卷积神经网络的总数据集格式为数组形式，所述数组形式为：n*l*c*w*h，其中，n为输入进网络的连续帧块的个数，l为连续帧块的帧数，c为帧图像的通道数，w、h为所述总数据集中帧图像的宽和高。

5.根据权利要求1所述的人体行为识别方法，其特征在于，所述多个用于训练人体行为识别模型的人体行为至少包括以下人体行为中的一种：摔跤、打架、奔跑。

6.一种构建人体行为识别方法的系统，其特征在于，包括，

数据预处理单元，包括，

网络输入单元，包括，

网络输出单元，包括，

切分模块，用于将所述总数据集切分为多个子数据集，所述子数据集与输入所述3D卷积神经网络的总数据集中的连续帧块一一对应，

7.根据权利要求6所述的构建人体行为识别方法的系统，其特征在于，所述子数据集生成模块中所述相等的连续帧块为16帧图像。

8.根据权利要求6所述的构建人体行为识别方法的系统，其特征在于，所述损失函数模块中损失函数层的函数采用概率形式，

9.根据权利要求6所述的构建人体行为识别方法的系统，其特征在于，所述网络训练单元，将所述总数据集输入3D卷积神经网络提取所述总数据集的特征，具体的，输入到所述3D卷积神经网络的总数据集格式为数组形式，所述数组形式为：n*l*c*w*h，其中，n为输入进网络的连续帧块的个数，l为连续帧块的帧数，c为帧图像的通道数，w、h为所述总数据集中帧图像的宽和高。

10.根据权利要求6所述的构建人体行为识别方法的系统，其特征在于，所述人体行为识别的人体行为至少包括以下人体行为中的一种：摔跤、打架、奔跑。