CN109299702A

CN109299702A - 一种基于深度时空图的人体行为识别方法及系统

Info

Publication number: CN109299702A
Application number: CN201811196370.1A
Authority: CN
Inventors: 侯振杰; 李兴; 林恩; 莫宇剑; 巢新; 杨天金
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-02-01
Anticipated expiration: 2038-10-15
Also published as: CN109299702B

Abstract

本发明属于图像数据处理技术领域，公开了一种基于深度时空图的人体行为识别方法及系统,通过构建3D人体面具获取主要活动部位的深度数据，去除数据中的冗余信息；将深度帧投影到三个正交轴上得到与每个轴相对应的分布列表，二值化分布列表后按时序拼接生成深度时空图DSTM(Depth Space‑Time Maps)；对DSTM提取方向梯度直方图(HOG)特征用于行为识别。实验表明本发明能有效提高人体行为识别的准确性；解决了当前基于深度序列的人体行为识别方法中存在的冗余数据过多、时序信息缺失等问题。

Description

一种基于深度时空图的人体行为识别方法及系统

技术领域

本发明属于图像数据处理技术领域，尤其涉及一种基于深度时空图的人体行为识别方法及系统。

背景技术

目前，业内常用的现有技术是这样的：

人体行为识别研究有着广泛的人机交互应用，包括体感游戏，智能监视系统等。人体行为识别最初使用彩色摄像机捕捉人体的视频序列。文献引入运动能量图(motionenergy images，MEI)与运动历史图(motion history images，MHI)作为时空模板，模拟视频序列中人体行为的空间与时序特征。文献提出了一种用于计算MHI密集运动流的分层扩展算法。基于彩色图像序列的人体行为识别算法主要缺点是对光照变化敏感，大大地限制了识别的稳健性。

随着成像技术的发展，特别是微软体感设备Kinect推出，使得基于深度图像序列的人体行为识别研究成为可能。相比于彩色序列，深度序列优势明显。深度序列可以提供信息更为丰富的3D人体数据,并且深度序列对光照条件不敏感，相较于彩色序列深度序列更容易进行前景提取和获取人体目标部位的信息。至今已经探索了多种深度序列的表示方法，包括3D点、时空深度长方体、深度运动图(depth motion maps，DMM)、表面法线、骨骼关节等。

文献将深度图投影到三个正交平面上，通过累积整个视频序列的全局活动信息生成DMM，使用三张2D灰度图片表征整个深度视频序列，并计算DMM的梯度直方图作为特征进行分类。在DMM基础上，结合使用局部二进制模式(local binary patterns，LBP)获取更为紧致的特征表示。DMM能较好的表征人体行为的深度图序列，但同样存在着一些不足。首先人体行为有时只是某些主要部位的运动，使用整个人体的深度数据进行行为识别，无疑会产生大量的冗余信息，影响识别精度。DMM为了减少冗余，对深度帧进行了图片差分，在此基础上进行能量累积。但是由于主要运动部位以外的人体无法保证完全的静止，所以效果并不理想。其次DMM无法描述人体行为的时序性，只是对人体时空行为的一种静态描述。所以DMM无法区分正放与倒放行为，即一组轨迹相同时序相反的行为对，例如抬手与放手。

综上所述，现有技术存在的问题是：

(1)当前基于深度序列的人体行为识别方法中的冗余数据过多，不仅包含目标部位的深度信息，而且包含大量对行为识别无用的静止部位深度信息，严重地影响了识别精度。

(2)当前深度序列的特征图时序信息缺失，无法识别一组轨迹相同时序相反的行为对，例如抬手与放手。

(3)当前深度序列的特征图无法兼顾行为的空间信息与时序信息。

解决上述技术问题的难度和意义：

难度：正放、倒放行为是一组空间上轨迹相同，时序相反的行为对，所以要求用来描述的整个深度序列的行为特征不仅能反映出行为的空间信息，也要能够反映出行为的时序信息。这是现有技术比较难解决的问题。

意义：本发明通过生成三张DSTM特征图并在此基础上提取HOG特征，很好的实现了这一要求。DSTM特征图相较于MEI蕴含了更为丰富的空间信息，相较于MHI不仅蕴含了更为丰富的空间信息而且拓展了时序信息，相较于DMM在保留了较高的空间信息的同时，加入了时序信息，实现了空间信息与时序信息的兼顾。本发明在识别正放倒放行为对上有着优势明显。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度时空图的人体行为识别方法及系统。

针对现有的深度序列特征图冗余数据过多、时序信息缺失等问题，本发明中提出一种深度序列表示方式DSTM，并在此基础上进行了人体行为识别研究。首先制作静态人体的3D面具，使用3D人体面具去除人体运动时相对静态部位的数据，获取主要运动部位的深度信息；接着与深度运动图相同，将深度序列每一帧投影到三个正交的笛卡尔平面上，得到每个视角的2D地图。与深度运动图不同的是，2D地图将再次投影到行为空间的三个正交轴上，得到各个轴上的1D分布列表，将这些1D分布列表二值化处理后按时序拼接，生成相应的DSTM；然后对每张DSTM提取HOG特征，连接后送入分类器进行人体行为识别。本发明方法不仅对常规的正放行为数据库，而且对同时包含正放与倒放行为的数据库都能保持较高的识别率。

本发明是这样实现的，一种基于深度时空图的人体行为识别方法，所述基于深度时空图的人体行为识别方法包括：

第一步，通过构建人体的3D面具获取主要运动部位的深度信息；

第二步，将深度序列每一帧投影到三个正交的笛卡尔平面上，得到每个视角的2D地图，再将2D地图投影到行为空间的三个正交轴上，得到各个轴上的1D列表，将这些1D列表二值化处理后按时序拼接生成DSTM；

第三步，对每张DSTM提取HOG特征连接后送入分类器进行人体行为识别。

进一步，将深度帧投影到三个正交的笛卡尔平面中，每个3D深度帧根据前视图，侧视图和俯视图生成三个2D地图，表示为map_f、map_s、map_t；选择使用其中的两张地图继续向正交轴上投影，求取2D地图的行和与列和列表sum_a，其中a∈{d，w，h}；将和列表sum_a经过二值化处理后生成与宽度轴、高度轴以及深度轴对应的三个1D分布列表，表示为list_w、list_h、list_d；计算公式如下：

其中list_a[i]表示a轴上分布列表的第i个元素；sum_a[i]为与a轴对应的和列表第i个元素；ω表示二值化阈值，通过参数实验进行选取。

1D分布列表生成方式由map_t的行和得到，或由map_s的列和得到；对于有N帧的深度视频序列，DSTM的计公式如下：

其中表示深度图序列第x帧在a轴上的1D分布列表；DSTM_a[x]表示DSTM_a的第x行。

进一步，第二步中，对DSTM感兴趣区域(region of interest，ROI)处理，即根据设定感兴趣区域，对图片进行裁剪与大小归一化操作。

进一步，第三步，进一步包括：HOG通过计算和统计图像局部区域的梯度方向直方图构成特征；在均匀间隔的单元密集网格上计算梯度方向的统计直方图并进行归一化处理；对直方图统计量采用L2范数归一化方法；对于每张深度时空图，选取10*10像素的图片单元分割图像；每2*2个图片单元构成一个图像块，以10像素为步长滑动图像块，生成每个图像块内各个图像单元的梯度直方图统计量；

对于每个图像单元的梯度分布，按梯度方向分为8份，以梯度大小为权重生成直方图统计量；

将三张深度时空图的HOG特征连接形成最终的DSTM-HOG特征，并输入分类器实现人体行为识别。

本发明的另一目的在于提供一种计算机程序，所述计算机程序实现所述的基于深度时空图的人体行为识别方法。

本发明的另一目的在于提供一种终端，所述终端至少搭载实现所述基于深度时空图的人体行为识别方法的控制器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于深度时空图的人体行为识别方法。

本发明的另一目的在于提供一种实现所述基于深度时空图的人体行为识别方法的基于深度时空图的人体行为识别系统，所述基于深度时空图的人体行为识别系统包括：

运动部位深度信息获得模块，用于通过构建人体的3D面具获取主要运动部位的深度信息；

DSTM生成模块，用于将深度序列每一帧投影到三个正交的笛卡尔平面上，得到每个视角的2D地图，再将2D地图投影到行为空间的三个正交轴上，得到各个轴上的1D列表，将这些1D列表二值化处理后按时序拼接生成DSTM；

人体行为识别模块，用于对每张DSTM提取HOG特征连接后送入分类器进行人体行为识别。

本发明的另一目的在于提供一种人体行为图像数据处理设备，所述人体行为图像数据处理设备至少搭载所述的基于深度时空图的人体行为识别系统。

综上所述，本发明的优点及积极效果为：

(1)本发明中DSTM-HOG特征适用于多种分类器。表1为不同分类器中DSTM-HOG的识别率，从表1可以看出DSTM-HOG特征在各种分类器上均有较高的识别率，其中以SVM的识别结果最为出色。

Tab.1Recognition rate of DSTM-HOG using different classifiers

表1不同分类器中DSTM-HOG的识别率

(2)本发明中DSTM-HOG特征包含丰富的行为空间信息可以很好地识别通常的正放行为。对比实验在数据库D2上进行。数据库D2中包含的9种典型的人体正放行为，与经典行为数据库MSRAction3D中9种手臂行为相同。数据库D2上的实验结果如表2所示。

Tab.2Recognition rate of different methods on D2

表2数据库D2上不同方法的识别率

从表2可知，本文方法与DMM-HOG、DMM-LBP在数据库D2上识别率基本持平，无明显优势。但相比于MEI-HOG与MHI-HOG方法，本文方法优势明显。主要原因有以下几点：一是MEI与MHI特征图并未使用人体行为的深度信息；二是MEI与MHI特征图记录的是人体行为的2D轮廓，对于处于轮廓内部的行为信息则无法记录。MHI虽然通过亮度衰变，增加了一部分轮廓内部行为信息与时序信息，但是依然避免不了生成特征图时行为信息的前后遮盖导致的空间信息缺失。

(3)本发明中DSTM-HOG特征不仅包含丰富的空间信息而且也包含丰富的时序信息，可以很好地识别正放、倒放行为对。实验又在数据库D1上对各种方法进行了对比。与数据库D2不同，数据库D1不仅包含9种典型人体正放行为，还包括了9种倒放行为。数据库D1上的实验结果如表3所示。

Tab.3Recognition rate of different methods on D1

表3数据库D1上不同方法的识别率

从表3可知，本文DSTM-HOG方法在D1数据库上优势明显。正放、倒放行为是一组空间上轨迹相同，时序相反的行为对，所以要求用来描述的整个深度序列的行为特征不仅能反映出行为的空间信息，也要能够反映出行为的时序信息。DSTM-HOG方法通过生成三张DSTM特征图并在此基础上提取HOG特征，很好的实现了这一要求。DSTM特征图相较于MEI蕴含了更为丰富的空间信息，相较于MHI不仅蕴含了更为丰富的空间信息而且拓展了时序信息，相较于DMM在保留了较高的空间信息的同时，加入了时序信息，实现了空间信息与时序信息的兼顾。如图16所示，为DSTM-HOG方法测试结果的混淆矩阵，可以看出本文DSTM-HOG方法不仅可以识别非正放倒放行为对，也可以很好的识别正放、倒放行为对。

本发明通过构建3D人体面具获取主要活动部位的深度数据，去除数据中的冗余信息；将深度帧投影到三个正交轴上得到与每个轴相对应的分布列表，二值化分布列表后按时序拼接生成DSTM；对DSTM提取方向梯度直方图(histogram of oriented gradient,HOG)特征用于行为识别。实验表明该算法能有效提高人体行为识别的准确性。

附图说明

图1是本发明实施例提供的基于DSTM的人体行为识别框架图。

图2是本发明实施例提供的膨胀处理示意图。

图3是本发明实施例提供的正放画钩行为的深度序列经过图片差分与3D人体面具处理后的效果对比图。

图4是本发明实施例提供的DSTM的流程图。

图5是本发明实施例提供的正放、倒放画钩行为特征图。

图中：(a)、正放画钩行为DSTM；(b)倒放画钩行为DSTM；(c)、正放画钩行为MEI；(d)倒放画钩行为MEI；(e)正放画钩行为MHI；(f)倒放画钩行为MHI；(g)正放画钩行为DMM；(h)倒放画钩行为DMM。

图6是本发明实施例提供的正放画钩行为图。

图7是本发明实施例提供的倒放画钩行为图。

图8是本发明实施例提供的不同阈值下的DSTM图。

图中：(a)ω＝0；(b)ω＝20；(c)ω＝40。

图9是本发明实施例提供的不同阈值下的识别率图。

图10是本发明实施例提供的MEI-HOG方法混淆矩阵图。

图11是本发明实施例提供的MHI-HOG方法混淆矩阵图。

图12是本发明实施例提供的DMM-HOG方法混淆矩阵图。

图13是本发明实施例提供的DMM-LBP方法混淆矩阵图。

图14是本发明实施例提供的DSTM-LBP方法混淆矩阵图。

图15是本发明实施例提供的基于深度时空图的人体行为识别系统示意图。

图中：1、运动部位深度信息获得模块；2、DSTM生成模块；3、人体行为识别模块。

图16是本发明实施例提供的DSTM-HOG方法混淆矩阵图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

当前基于深度序列的人体行为识别方法中存在的冗余数据过多、时序信息缺失。

下面结合具体分析对本发明作进一步描述。

相关工作

大多数基于视频序列的的行为识别算法都是从高维的视频序列中生成低维特征图，从特征图中提取特征。最初人们使用RGB相机获取人体行为彩色序列，文献中，通过对彩色序列中相邻帧进行图片差分，获取人体行为的前景区域，在此基础上进行二值化处理后生成二值的图像序列D(x,y,t)，进一步获得二值图MEI。MEI的计算式如下：

其中E_τ(x,y,t)为视频序列中t帧处，由τ张图片生成的MEI。

MEI通过计算多张行为帧二值前景区域的并集，来描述整个视频序列。二值前景区域的并集实际上就是人体时空行为的二维轮廓。采用二维轮廓来表征人体行为会出现两个问题，一是行为信息会前后相互覆盖，最后只保留了相互覆盖后最大的轮廓边界，所以通过MEI描述视频序列会损失部分的行为空间信息；二是通过计算二值前景区域的并集得到二维轮廓无法记录行为的时序信息。

为了表示出行为的时序性，很多学者又提出了MHI来描述视频序列。与MEI不同的是，MHI变成了灰度图。在MHI中像素亮度是该点处运动的时间历史的函数。MHI可以用简单的替换和衰减运算符表示为：

其中H_τ(x,y,t)为初始像素亮度为σ，视频序列中t帧处生成的MEI。

很多研究在MHI上使用HOG描述符来进行人体行为的检测与识别。使用包括MHI和熵的动态特征结合基于空间域中局部Zernike矩的时空特征进行面部表情的情感识别。MHI图通过亮度衰变的方式，记录了行为部分的时序信息。但依然未能解决行为信息前后相互覆盖问题。

随着成像技术的发展，越来越多的研究使用深度序列进行人体行为识别。在基于深度序列的人体行为识别当中，可以更为方便的获取人体行为的前景区域，从而生成MEI与MHI。为了获取行为更多的空间信息，将每个深度帧投影到三个正交的笛卡尔平面上。每个3D深度帧根据前视图、侧视图和俯视图生成三个2D地图map_f、map_s、map_t，对于每个投影地图通过计算和阈值化两个连续地图之间的差异来获得其运动能量。堆叠整个深度序列运动能量的生成三个视角的DMM_v，其中v∈{f，s，t}，计算公式如下：

其中表示深度图序列在第i帧、v方向上的投影图。ε为差异阈值。

虽然DMM通过将深度帧投影到三个正交面上，充分利用了深度序列的空间信息。但与MEI相同DMM通过堆叠整个深度序列运动能量的生成DMM无法记录行为的时序信息。

下面结合具体实施例对本发明作进一步描述。

1、基于DSTM的人体行为识别框架

基于DSTM的人体行为识别框架如图1所示。首先使用人体静止时的深度帧制作3D人体面具，利用3D人体面具提取主要活动部位的深度数据。然后获取每一帧深度数据在三个正交轴上的分布列表，二值化后按时序拼接成DSTM。最后对每张深度时空图提取HOG特征，连接后送入分类器进行人体行为识别。

2、人体面具

人体行为有时只是身体部分部位的运动，其他部位相对的静止。例如挥手行为主要的运动部位仅为手臂，将相对静止部位的深度信息纳入行为识别当中无疑是增加了数据的冗余性。文献对深度图序列提取DMM特征图，通过图片差分方法，计算两个连续深度帧的差异来获取运动部位信息。但行为中相对静止部位无法保持绝对的静止，所以效果不甚理想。

3D人体面具是人体初始状态深度数据的3维轮廓。行为发生后人体运动部位将会离开初始位置从而越出3D人体面具，而静止部位则会保持在3D人体面具内部，根据3D人体面具的这一特性，便可以分离人体的运动部位与静止部位。由于行为时静止部位不是绝对的静止，会随运动部位发生些许的晃动，为了实现理想的分离效果，一般3D人体面具会比人体3维轮廓稍大。使用3D人体面具可以较为理想地获取到人体运动时主要运动部位的深度数据，大大降低了数据的冗余性。制作3D人体面具时，首先取深度序列第一帧即初始状态下的人体深度数据作为初始面具，接着选用大小为9*9卷积核对初始面具进行膨胀处理，其中卷积核的大小根据人体行为时相对静止部位的运动幅度来确定。此处膨胀处理与常规不同，由于离摄像头越近深度值越小，所以膨胀处理时应求取卷积核覆盖区域的最小非0值，如图2所示。

获取3D人体面具后，对每个深度帧进行处理。通过去除面具内的深度数据，保留面具外的深度数据，便可以获取到人体行为时主要运动部位的深度数据。将经过3D人体面具处理后的深度帧用于行为识别，大大减少了数据中的冗余信息，进一步地提高了识别精度。图3为正放画钩行为的深度序列经过图片差分与3D人体面具处理后的效果对比图。如图3(b)所示，图片差分方法一方面由于晃动现象的存在无法很好地去除相对静止部位的深度数据，另一方面因为图片差分是计算相邻深度帧的差值，深度数据会一定程度上的相互抵消，所以获取的运动部位的深度数据也是有损失的。如图3(c)所示，相比于图片差分方法3D人体面具不但解决了晃动现象对去除相对静止部深度数据的影响，而且避免了深度数据的损失，从而可以较为理想地从人体行为深度帧中分离出主要活动部位的深度数据。

3、深度时空图

本发明中提出一种新的深度序列表示方式深度时空图DSTM。DSTM反映了人体运动时深度信息在三个正交轴上的分布随时间的变化情况。三个正交轴为宽度轴、高度轴以及深度轴，分别对应深度帧的宽度方向、高度方向以及深度方向。图4为DSTM的流程图。

首先使用3D人体面具获取行为时主要运动部位的深度数据。然后与DMM相同，将深度帧投影到三个正交的笛卡尔平面上。每个3D深度帧根据前视图，侧视图和俯视图生成三个2D地图，表示为map_f、map_s、map_t。选择使用其中的两张地图继续向正交轴上投影，即求取2D地图的行和与列和列表sum_a，其中a∈{d，w，h}。我们将和列表sum_a经过二值化处理后生成与宽度轴、高度轴以及深度轴对应的三个1D分布列表，表示为list_w、list_h、list_d。计算公式如下：

1D分布列表生成方式不唯一，例如list_d可由map_t的行和得到，也可以由map_s的列和得到。对于有N帧的深度视频序列，DSTM的计公式如下：

其中表示深度图序列第x帧在a轴上的1D分布列表。DSTM_a[x]表示DSTM_a的第x行。

最后对DSTM进行ROI处理，根据研究主题设定感兴趣区域，对图片进行裁剪与大小归一化操作。如图5、图6所示，分别为正放倒放画钩行为的深度序列生成的各类特征图示意图。如图5(a)、5(b)所示，因为DSTM反映的是人体运动时深度信息在三个正交轴上的分布随时间的变化情况，所以即使正放、倒放画钩行为的空间轨迹相同，但由于时序上的相反，各自生成的DSTM同样具有明显的可区分性。相比之下，如图5(c)、5(d)与5(g)、5(h)所示，MEI与DMM则完全不具备区分正放倒放行为的能力，对于拥有相同空间轨迹的正放与倒放行为，生成的MEI与DMM也极其相似。如图5(e)、5(f)所示，虽然MHI具备一定的区分正放倒放行为的能力，但因为MHI只是由部分深度帧生成，所以MHI反反映不出完整行为的空间与时序信息。

3、DSTM-HOG描述符：

HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征。HOG能够很好地对DSTM的局部外观和形状进行描述。基本思想是在均匀间隔的单元密集网格上计算梯度方向的统计直方图并进行归一化处理。本发明中对直方图统计量采用L2范数归一化方法。对于每张深度时空图，本发明选取10*10像素的图片单元分割图像。每2*2个图片单元构成一个图像块，以10像素为步长滑动图像块，生成每个图像块内各个图像单元的梯度直方图统计量。对于每个图像单元的梯度分布，本发明按梯度方向分为8份，以梯度大小为权重生成直方图统计量。最后将三张深度时空图的HOG特征连接形成最终的DSTM-HOG特征，并输入分类器以实现人体行为识别。

如图15，本发明提供一种基于深度时空图的人体行为识别系统包括：

运动部位深度信息获得模块1，用于通过构建人体的3D面具获取主要运动部位的深度信息；

DSTM生成模块2，用于将深度序列每一帧投影到三个正交的笛卡尔平面上，得到每个视角的2D地图，再将2D地图投影到行为空间的三个正交轴上，得到各个轴上的1D列表，将这些1D列表二值化处理后按时序拼接生成DSTM；

人体行为识别模块3，用于对每张DSTM提取HOG特征连接后送入分类器进行人体行为识别。

下面结合具体实验对本发明作进一步描述。

3、实验在Thinkpad T550型号的笔记本上运行，Windows10系统，CPU为2.20GHz，安装内存为12.00GB，Python3.5版本。

3.1数据集

本发明使用微软推出的体感设备Kinect2.0，采集人体行为的深度序列构成人体行为数据库。该数据库包括25位采集者的18种行为，每位采集者的每种行为进行2次采集，共900个样本。18种行为包括9种典型人体正放行为及其倒放行为，分别为正放高挥手(A1)、正放水平挥手(A2)、正放猛击(A3)、正放手抓(A4)、正放冲拳(A5)、正放高抛(A6)、正放画叉(A7)、正放画钩(A8)、正放侧冲拳(A9)、倒放高挥手(B1)、倒放水平挥手(B2)、倒放猛击(B3)、倒放手抓(B4)、倒放冲拳(B5)、倒放高抛(B6)、倒放画叉(B7)、倒放画钩(B8)、倒放侧冲拳(B9)。正放行为与倒放行为是一组轨迹相同、时序相反的行为对。如图6、图7所示，分别为正放画钩行为与倒放画钩行为。

3.2实验设置

实验中将包含18种正放、倒放行为的数据库命名为D1。将只包含9种正放行为的数据库命名为D2。实验将在这两个数据库上分别进行，并且每个数据库上进行三种测试。测试一中，3/10作为训练数据，7/10作为测试数据。测试二中，7/10作为训练数据，3/10作为测试数据。测试三中，采用10折交叉验证法，将样本平均分为10份，每份中每种行为样本数相同。轮流将其中的9份用于训练，1份用于测试，最终的识别结果为10次结果的平均值。

3.3参数设置

在生成DSTM的过程中，需要确定和列表二值化时的阈值ω。ω的大小直接影响了DSTM的效果。如图8所示，当ω过小时DSTM会受到更大的噪声影响，当ω过大时DSTM会损失一部分行为的轴分布信息。为了得到最为理想的DSTM，将步长设置为5，以行为识别的效果作为标准，从0到40中选取最为合适的阈值ω。结果如图9所示，当ω为20时识别效果最好。

3.4实验结果与分析

为了说明DSTM-HOG特征的表征能力，将数据库D1中各类行为的DSTM-HOG特征以测试二的数据划分方式的送入多种分类器进行分类，结果如表(1)所示。从表1可以看出DSTM-HOG特征在各种分类器上均有较高的识别率，其中以SVM的识别结果最为出色。为了使DSTM-HOG特征达到最为理想的识别效果，接下来实验均选用SVM作为分类器。

表1不同分类器中DSTM-HOG的识别率

分类方法	识别率/(％)
		SVM	97.03(262/270)
KNN	95.92(259/270)
		随机森林	94.81(256/270)
高斯贝叶斯	94.44(255/270)
		神经网络	95.55(258/270)

进一步为了说明本发明方法的有效性，与现有方法进行了对比。首先在数据库D2上进行对比实验。数据库D2中包含的9种典型的人体正放行为，与经典行为数据库MSRAction3D中9种手臂行为相同。实验结果如表2所示。

表2数据库D2上不同方法的识别率

从表2可知，本发明方法与DMM-HOG、DMM-LBP在数据库D2上识别率基本持平，无明显优势。但相比于MEI-HOG与MHI-HOG方法，本发明方法优势明显。主要原因有以下几点：一是MEI与MHI特征图并未使用人体行为的深度信息；二是MEI与MHI特征图记录的是人体行为的二维轮廓，对于处于轮廓内部的行为信息则无法记录。MHI虽然通过亮度衰变，增加了一部分轮廓内部行为信息与时序信息，但是依然避免不了生成特征图时行为信息的前后遮盖。基于此种原因，MEI与MHI特征图无法利用整个深度序列，所以为了提高运行效率只使用部分视频帧产生MEI与MHI特征图。

为了突出本发明方法的优越性，实验又在数据库D1上对各种方法进行了对比。与数据库D2不同，数据库D1不仅包含9种典型人体正放行为，还包括了9种倒放行为。实验结果如表3所示。

表3数据库D1上不同方法的识别率

从表3可知，MEI-HOG方法在D1数据库上表现最不理想。主要有两点原因，一是使用HEI特征图表征整个深度序列时空间信息丢失严重，不但未使用深度信息而且行为的二维轮廓信息前后相互掩盖。二是HEI特征图通过对二值化的深度帧求交集，只反映出行为的二维轮廓信息，而并未反映出行为的时序性。MEI-HOG方法测试一结果的混淆矩阵如图10所示。可以看出MEI-HOG方法不但由于时序性的缺失无法识别倒放行为与其原行为，而且因为空间信息不足在识别非正放倒放行为对时效果也不甚理想。

从表3可知，MHI-HOG方法在D1数据库上的识别效果是除本发明方法外最为理想的，但与本发明方法还是有较大差距。主要原因是相较于MEI、DMM特征图，MEI特征图通过亮度衰变，增加的了行为的空间信息同时也反映出部分行为的时序性。图11是MHI-HOG方法测试一结果的混淆矩阵，可以看出无论是在识别正放倒放行为对时，还是在识别非正放倒放行为对时MHI-HOG方法的效果都要优于MEI-HOG方法，但依然不甚理想。

从表3可知，DMM-HOG与DMM-LBP方法在D1数据库上表现同样不太理想。DMM特征图是近来基于深度序列行为识别研究中较为流行特征提取方法。DMM通过将深度帧投影到三个正交的笛卡尔平面上，根据前视图、侧视图和俯视图生成三个2D地图，并在此基础上堆叠整个深度序列运动能量的生成三个视角的DMM。相较于MEI与MHI，DMM充分利用了人体行为的深度信息，很大程度得丰富了特征中的空间信息。虽然DMM在表征行为的空间信息时展现出了明显的优势，但同样存在着缺陷。DMM通过求取相邻深度帧的差异绝对值，以此堆叠整个深度序列运动能量，因此DMM无法表征人体行为的时序信息。图12、图13分别为DMM-HOG方法与DMM-LBP方法测试一结果的混淆矩阵，可以看出DMM-HOG方法与DMM-LBP方法在识别非正放倒放行为对时效果十分理想，但却无法有效分辨正放倒放行为对。

从表3可知，本发明DSTM-HOG方法不仅可以识别非正放倒放行为对，也可以很好的识别正放倒放行为对。正放倒放行为对是一组空间上轨迹相同，但时序相反的行为对，所以要求用来描述的整个深度序列的行为特征不仅好能反映出行为的空间信息，也要能反映出行为的时序信息。DSTM-HOG方法通过生成三张DSTM特征图并在此基础上提取HOG特征，很好的实现了这一要求。如图14所示，为DSTM-HOG方法测试结果的混淆矩阵。DSTM特征图相较于MEI蕴含了更为丰富的空间信息，相较于MHI不仅蕴含了更为丰富的空间信息而且拓展了时序信息，相较于DMM在保留了较高的空间信息的同时，加入了时序信息，实现了空间信息与时序信息的并举。

3.5计算效率

最后对比了DSTM-HOG与DMM-HOG的运行效率，结果如表4所示。首先从表4中可以看出DSTM的计算时间明显要小于DMM。其次因为DSTM是二值图，相比于灰度图DMM，DSTM可以进行更大程度的图片压缩，所以从表4中也可以看出在DSTM基础上进行的HOG特征提取以及PCA降维与SVM分类操作拥有更快运行效率。

表4运行效率对比

下面结合效果对本发明作进一步描述。

本发明提出了一种基于DSTM的人体行为识别算法。首先通过构建人体的3D面具获取主要运动部位的深度信息，接着先将深度序列每一帧投影到三个正交的笛卡尔平面上，得到每个视角的2D地图，然后再将2D地图投影到行为空间的三个正交轴上，得到各个轴上的1D列表，将这些1D列表二值化处理后按时序拼接生成DSTM，最后对每张DSTM提取HOG特征连接后送入分类器进行人体行为识别。实验表明本发明提出的使用DSTM特征图来表征人体行为，以此为基础进行行为识别，不但能够保留行为丰富的空间信息，而且还可以引入良好的时序信息，从而有效的提高行为识别的准确性。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度时空图的人体行为识别方法，其特征在于，所述基于深度时空图的人体行为识别方法包括：

2.如权利要求1所述的基于深度时空图的人体行为识别方法，其特征在于，

将深度帧投影到三个正交的笛卡尔平面中，每个3D深度帧根据前视图，侧视图和俯视图生成三个2D地图，表示为map_f、map_s、map_t；选择使用其中的两张地图继续向正交轴上投影，求取2D地图的行和与列和列表sum_a，其中a∈{d，w，h}；将和列表sum_a经过二值化处理后生成与宽度轴、高度轴以及深度轴对应的三个1D分布列表，表示为list_w、list_h、list_d；计算公式如下：

3.如权利要求1所述的基于深度时空图的人体行为识别方法，其特征在于，

第二步中，对DSTM感兴趣区域(region of interest，ROI)处理，即根据设定感兴趣区域，对图片进行裁剪与大小归一化操作。

4.如权利要求1所述的基于深度时空图的人体行为识别方法，其特征在于，

第三步，进一步包括：HOG通过计算和统计图像局部区域的梯度方向直方图构成特征；在均匀间隔的单元密集网格上计算梯度方向的统计直方图并进行归一化处理；对直方图统计量采用L2范数归一化方法；对于每张深度时空图，选取10*10像素的图片单元分割图像；每2*2个图片单元构成一个图像块，以10像素为步长滑动图像块，生成每个图像块内各个图像单元的梯度直方图统计量；

5.一种计算机程序，其特征在于，所述计算机程序实现权利要求1～4任意一项所述的基于深度时空图的人体行为识别方法。

6.一种终端，其特征在于，所述终端至少搭载实现权利要求1～4任意一项所述基于深度时空图的人体行为识别方法的控制器。

7.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-4任意一项所述的基于深度时空图的人体行为识别方法。

8.一种实现权利要求1所述基于深度时空图的人体行为识别方法的基于深度时空图的人体行为识别系统，其特征在于，所述基于深度时空图的人体行为识别系统包括：

9.一种人体行为图像数据处理设备，其特征在于，所述人体行为图像数据处理设备至少搭载权利要求8所述的基于深度时空图的人体行为识别系统。