CN109460734B

CN109460734B - 基于层次动态深度投影差值图像表示的视频行为识别方法及系统

Info

Publication number: CN109460734B
Application number: CN201811327041.6A
Authority: CN
Inventors: 马昕; 武寒波; 荣学文; 宋锐; 田新诚; 田国会; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2020-07-31
Anticipated expiration: 2038-11-08
Also published as: CN109460734A

Abstract

本发明公开了一种基于层次动态深度投影差值图像(HDDPDI)表示的视频行为识别方法及系统，首先把深度视频序列分别投影在三个正交的笛卡尔平面内生成对应的深度投影图序列，来捕捉人体行为的3D轮廓和运动特征，每个投影平面中基于深度投影图序列来构建对应的HDDPDI。HDDPDI能够同时编码视频中行为的时空运动动态。CNN可以自动学习图像中的差异特征。为了验证所提出HDDPDI视频表示的有效性，构造了一个基于CNN的行为识别框架，其中设计了三种行为分类方案。三个投影平面内的HDDPDI分别单独输入三个相同的预训练CNN进行网络参数的微调，不同的分类方案使用CNN不同的网络层以比较它们对行为识别的影响，每一种分类方案中融合三个投影平面的信息以获取更加丰富全面的行为特征表示。

Description

基于层次动态深度投影差值图像表示的视频行为识别方法及系统

技术领域

本发明涉及行为识别技术领域，具体而言，涉及到一种基于层次动态深度投影差值图像表示的视频行为识别方法及系统。

背景技术

近年来，人体行为识别在计算机视觉领域内吸引了越来越多的关注。传统基于RGB数据的行为识别方法通常聚焦于人体轮廓特征，关键姿势等。尽管他们在一些特定的应用背景下可能具有了较高的识别性能,然而,基于RGB的行为识别方法对光照条件的变化非常敏感,对在更具挑战性的场景中(存在遮挡和杂乱的背景)的人体行为也无法准确地识别。

低成本集成深度传感器的出现如微软的KinectTM,可以同时捕获RGB(红、绿、蓝)视频和深度信息，极大地促进了对基于深度数据的人体行为识别研究。与传统的RGB相机相比，Kinect深度传感器能够捕获场景的三维结构信息，简化了类内的运动变化，消除了杂乱的背景噪声，为人体行为识别提供了便利与帮助。此外，深度信息可以消除光照和颜色变化的影响。因此，基于深度数据的人体行为识别受到了越来越多的关注，国内外研究人员提出了多种典型的深度特征表示方法如深度运动投影图、局部占用模式、4D法向量方向直方图、超法向量、深度立方体相似性特征、距离样本深度特征等。

在过去的十年中，由于计算机性能的显著提升以及一些大规模数据集的出现，深度学习得到了越来越多的关注，并被广泛用于应对各种计算机视觉任务的挑战。其中最典型的深度神经网络模型是由LeCun提出的CNN。CNN可以自动学习具有差异性的图像特征，是用于理解图像内容的一个非常有效的模型。由于它优越的性能，大量的研究人员逐渐开始把CNN应用在基于视频的行为识别任务中。然而，目前大多数基于CNN的行为识别都依赖于RGB和骨骼数据，而且，深度神经网络模型评估所使用的公共人体行为数据集绝大多数只包含RGB数据，如UCF-101，HMDB51，Kinetics。因此，目前多数基于CNN的行为识别研究工作针对的都是RGB视频中的行为识别与分类，一些标志性的成果如3D卷积网络(C3D)、双流卷积网络、基于轨迹池化的深度卷积描述子、时间分割网络(TSN)等等；然而，基于深度数据进行的行为识别研究少之又少。

与图像分类任务不同，行为视频是3D的，包含了丰富的时空动态信息。由于视频能够被表示为图像序列，因此大多数的特征提取算法都是基于图像帧的，而如何建模视频中的时间结构一直是一个具有挑战性的问题。

深度视频序列通过在不同视角进行投影来获取行为运动变化的思路最早来源于深度运动投影图(Depth Motion Maps,DMM)。虽然DMM包含了行为视频的运动变化信息，但是求和运算忽略了视频中行为的时序信息。

发明内容

为了解决上述问题，本发明提出了一种基于层次动态深度投影差值图像表示的视频行为识别方法及系统，能够同时从不同的时间尺度提取视频中行为的时空动态信息。通过应用排序池化和动态图像，层次动态深度投影差值图像HDDPDI视频表示方法克服了原始DMM忽略时序信息的缺点，显著地提升了行为识别的性能。

为了实现上述目的，本发明采用如下技术方案：

在一个或多个实施方式中公开的一种基于层次动态深度投影差值图像表示的视频行为识别方法，包括：

对于一个深度视频序列，在三个正交的笛卡尔平面中分别进行投影得到对应平面的深度投影图序列；

根据每一个投影平面内的深度投影图序列，构建深度视频在该平面内的层次动态深度投影差值图像表示；层次动态深度投影差值图像表示能够从不同的时间尺度同时编码视频中行为的时空运动动态，包含了丰富的行为运动信息；

将深度视频在三个投影平面内生成的层次动态深度投影差值图像分别输入三个相同的预训练后的卷积神经网络CNN中，分别提取CNN三个不同网络层的输出；对于每一个网络层输出，融合三个投影平面的行为信息进行分类与识别。

进一步地，对于一个深度视频序列，在三个正交的笛卡尔平面中分别进行投影得到对应的深度投影图序列，具体为：深度视频序列中的每一帧被投影在三个2D正交的笛卡尔平面内，其中X-Y平面表示前向，Y-Z平面表示侧向，X-Z平面表示俯向。

进一步地，根据每一个投影平面内的深度投影图序列，构建深度视频在该平面内的层次动态深度投影差值图像表示，具体为：

对每个平面中的深度投影图序列按照时间顺序进行层次采样，生成不同时间尺度下的采样深度投影图序列；

通过计算每一个时间尺度下的采样深度投影图序列中相邻两帧图像的绝对帧差得到深度投影差值图像序列；

使用排序池化来编码深度投影差值图像序列，生成动态深度投影差值图像；

每个投影平面中不同时间尺度下的动态深度投影差值图像构成了深度视频在该平面内的层次动态深度投影差值图像表示。

进一步地，对每个平面中的深度投影图序列按照时间顺序进行层次采样，生成不同时间尺度下的采样深度投影图序列，具体为：

基于深度投影图序列，从初始帧开始以采样步长s按照时间顺序进行采样；初始帧在采样过程中以步长s_f沿时间轴进行不断地更新；

每个投影平面内原始的深度投影图序列记为第一个时间尺度；

初始帧被初始化为第一帧，按照采样步长s得到第二个时间尺度下的采样深度投影图序列，所包含的图像帧数为[N/s]，[N/s]表示大于N/s的最小整数，N表示视频序列的帧数；

按照步长s_f更新初始帧，继续进行采样，得到第三个时间尺度下的采样深度投影图序列；

依次类推，直至初始帧达到移动的下限。

进一步地，初始帧的移动下限具体为：

设置一个比例阈值r来限定初始帧移动的下限，即初始帧索引不超过N*r，以保证采样序列能够包含完整的行为信息。

进一步地，使用排序池化来编码深度投影差值图像序列，生成动态深度投影差值图像，具体为：

假设在投影平面v中第t个时间尺度下的长度为k的深度投影差值图像序列为：

表示向量化的

分别表示深度视频序列在投影平面v中第t个时间尺度下的第j张和第j+1张深度投影图，

表示在投影平面v中第t个时间尺度下生成的第j张深度投影差值图像；

通过时间变化平均向量运算来获取深度投影差值图像序列中的时间信息，具体为：

被归一化的向量序列d＝{d₁，...，d_i，...，d_k}仍然能够保留深度投影差值图像序列中k帧之间的时序信息；

定义一个线性排序函数：

α是排序函数的一个参数向量，包含了视频帧之间的相对时间顺序，即如果存在t_i＞t_j,排序函数值就满足

使用结构风险最小化来定义排序池化的目标函数：

其中，ε_ij表示松弛变量，α^*是最优参数向量，即DPDI序列的时序特征表示；向量α^*被转换为图像表示，即为动态深度投影差值图像。

进一步地，将三个投影平面内的层次动态深度投影差值图像分别输入三个卷积神经网络CNN中，提取不同网络层的输出并融合三个投影平面的信息进行行为的识别与分类，具体为：

将深度视频在三个投影平面内的层次动态深度投影差值图像表示分别输入三个卷积神经网络CNN中，分别获取三个投影平面内的层次动态深度投影差值图像在最后一个卷积层(LC)的特征描述子，三个投影平面内的层次动态深度投影差值图像在卷积层的特征描述子融合作为深度视频序列最终的卷积层特征表示，使用支持向量机进行行为的识别与分类；

将深度视频在三个投影平面内的层次动态深度投影差值图像表示分别输入三个卷积神经网络CNN中，三个投影平面内的层次动态深度投影差值图像在全连接层(FC)的特征描述子融合作为深度视频序列最终的全连接层特征表示，使用支持向量机进行行为的识别与分类；

将三个投影平面内的层次动态深度投影差值图像分别输入三个卷积神经网络CNN中获取softmax分类层的输出；分别使用最大值、平均化和乘积三种运算处理每一个投影平面内层次动态深度投影差值图像的softmax层输出，得到深度视频在该投影平面内三种运算处理下的分类概率输出；每一种运算下，取三个投影平面内分类概率输出的平均值，作为深度视频的最终类概率得分。即：分别取最大值运算下深度视频在三个投影平面内的分类概率输出的平均值，作为最大值运算处理下深度视频的最终类概率得分；或者，分别取平均化运算下深度视频在三个投影平面内的分类概率输出的平均值，作为平均化运算处理下深度视频的最终类概率得分；或者，分别取乘积运算下深度视频在三个投影平面内的分类概率输出的平均值，作为乘积运算处理下深度视频的最终类概率得分；因此，该种分类方式下，得到了3种分类结果。

进一步地，利用上述三种行为识别与分类方法得到5种分类结果，经过实验验证，三个投影平面内的层次动态深度投影差值图像在全连接层的特征描述子融合作为深度视频序列最终的全连接层特征表示，使用支持向量机进行行为的识别与分类的方法得到的分类结果精度最高。

在一个或多个实施方式中公开的一种基于层次动态深度投影差值图像表示的视频行为识别系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于层次动态深度投影差值图像表示的视频行为识别方法。

在一个或多个实施方式中公开的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述的基于层次动态深度投影差值图像表示的视频行为识别方法。

与现有技术相比，本发明的有益效果是：

(1)提出了层次动态深度投影差值图像作为一种新的深度视频表示方法，能够同时有效地捕获视频中行为的时空动态。通过应用排序池化和动态图像，HDDPDI视频表示方法克服了原始DMM忽略时序信息的缺点，显著地提升了行为识别的性能；

(2)通过对每个投影方向中不同时间尺度下的DPDI序列应用排序池化生成DDPDI，从而把动态图像的概念扩展到深度视频中，不同时间尺度下的DDPDI按照时序递进的方式层次地描述了行为运动变化的过程；

(3)建立了一个基于CNN的行为识别框架来验证HDDPDI视频表示的有效性，三个投影平面内的HDDPDI被分别输入三个相同的CNN，同时设计了三种分类方案进行行为的分类，每种方案中三个投影方向上提取的行为运动信息融合用于行为的识别；

(4)所提出的行为识别框架在三个基准数据集进行实验并取得了优秀的识别结果。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是基于层次动态深度投影差值图像表示的视频行为识别方法示意图；

图2是NTU RGB+D数据集部分行为在三个投影方向的深度投影图；

图3是层次采样流程图；

图4是NTU RGB+D数据集中几类行为在前向生成的不同时间尺度下的DDPDI；

图5是LC层分类方案流程图；

图6是FC层分类方案流程图；

图7是三种运算子下深度视频的类概率得分生成流程图；

图8是FC层分类方案对SDUFall数据集六类行为识别的混淆矩阵；

图9是FC层分类方案对MSRAction3D数据集20类行为识别的混淆矩阵；

图10是交叉-人实验中FC层分类方案对NTU RGB+D数据集60类行为识别的混淆矩阵。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中公开了一种基于层次动态深度投影差值图像表示的视频行为识别方法，如图1所示，能够同时从不同的时间尺度提取视频中行为的时空动态信息。

对于一个深度视频序列，首先在三个正交的笛卡尔平面中分别进行投影得到对应的深度投影图序列，对每个平面中的深度投影图序列按照时间顺序进行层次采样，生成不同时间尺度下的采样深度投影图序列。

通过计算每一个时间尺度下的深度投影图序列中相邻两帧图像的绝对帧差得到深度投影差值图像(Depth Projected Difference Image，DPDI)序列。

三个投影平面中不同时间尺度下的DPDI序列能够综合全面地反应行为的3D运动变化。使用排序池化来编码DPDI序列，从而生成动态深度投影差值图像(Dynamic DepthProjectedDifference Image,DDPDI)。DDPDI把整个视频中行为的运动变化过程按照时间顺序反应在一张动态图像上，能够同时有效地捕捉行为的时空动态。

每个投影平面中不同时间尺度下的DDPDI构成了深度视频在该平面内的层次动态深度投影差值图像(HDDPDI)。

为了评估HDDPDI视频表示的有效性，建立一个基于CNN的行为识别框架。深度视频在三个投影平面的HDDPDI分别单独输入三个相同的在ImageNet预训练过的CNN进行模型参数的微调。在行为识别框架中，设计三种分类方案，分别使用CNN不同的网络层进行行为的识别与分类，一方面可以充分验证所提出HDDPDI视频表示的性能，同时也能够比较CNN不同网络层对行为识别的影响。由于三个投影平面从不同的视角描述了人体行为的3D运动变化，因此每一种分类方案都采用了多模态信息融合的方法，把三个投影方向提取的信息融合进行行为的识别。

下面对本申请的方法进行详细的说明。

深度视频包含了人体行为丰富的3D结构和轮廓信息，有助于显著地提升行为识别的性能。将深度视频序列中的每一帧投影在三个2D正交的笛卡尔平面内，其中X-Y平面表示前向，Y-Z平面表示侧向，X-Z平面表示俯向。深度图像中的点(x,y,z)在前向投影图、侧向投影图和俯向投影图的像素值分别是z,x,y。深度视频序列在三个投影平面内生成三个深度投影图序列，图2是NTU RGB+D数据集中部分行为在三个投影方向上得到的深度投影图。

为了描述视频中人体行为随时间的变化过程以及抑制噪声，基于深度投影图序列，提出了时序递进的层次采样方法。这一方法也可以作为增加行为样本数量的一种数据增强方法。

对于一个深度视频投影图序列

N表示视频序列的帧数，v表示投影方向(前向f，侧向s，俯向t)。层次采样即基于深度投影图序列从初始帧开始以采样步长s按照时间顺序进行采样，初始帧在采样过程中以步长s_f沿时间轴进行不断地更新。每个投影平面内原始的深度投影图序列记为第一个时间尺度。然后初始帧被初始化为第一帧，按照采样步长s得到第二个时间尺度下的采样深度投影图序列，所包含的图像帧数为[N/s]，[N/s]表示大于N/s的最小整数。接着按照步长s_f更新初始帧，继续进行采样。由于初始帧沿时间不断更新，会导致后面的采样序列长度太短以致于无法包含行为的完整运动信息，因此，通过设置一个比例阈值r来限定初始帧移动的下限，即初始帧索引不超过N*r，以保证采样序列能够包含完整的行为信息。

通过对三个投影平面中的深度投影图序列分别进行层次采样得到了对应的不同时间尺度下的一组采样深度投影图序列。假设时间尺度数量为T，图3表示了基于深度投影图序列的层次采样过程。一个深度视频时间尺度的数量与视频时长相关，因此不同的行为视频可能具有不同数量的时间尺度。

通过基于深度投影图序列的层次采样，得到了深度视频在三个投影方向上不同时间尺度下的采样投影图序列，每个尺度下的采样投影图序列都是原始深度投影图序列按照时序递进的采样方式生成的行为序列。对每个时间尺度下的采样投影图序列计算连续两帧的绝对差值构建深度投影差值图像(Depth Projected Difference Image，DPDI)序列，能够反应人体行为在深度视频中随时间的运动变化。DPDI的计算过程见式(1)：

其中，

表示深度视频序列在投影平面v(前向、侧向、俯向)中第t个时间尺度下的第j张深度投影图，

表示在投影平面v中第t个时间尺度下生成的第j张深度投影差值图像。

为了提取深度视频中人体行为的时间动态，对每个投影平面中不同时间尺度下的DPDI序列分别应用排序池化生成动态深度投影差值图像(Dynamic Depth ProjectedDifference Image,DDPDI),DDPDI同时捕获了视频行为的时空运动信息。不同时间尺度下的DDPDI层次地反应了行为的动态变化过程。

排序池化作为一种新的时间池化方法，不仅能够鲁棒性地捕捉视频的时序信息，而且简单有效，易于实现。它使用成对线性排序机来学习一个线性函数，该函数的参数能够编码视频帧的时间顺序，从而可以作为视频时序信息的一种表示方法。

本文把排序池化直接应用在DPDI序列中，假设在投影平面v中第t个时间尺度下的长度为k的DPDI序列为

表示向量化的

通过时间变化平均向量运算来获取DPDI序列中的时间信息，见式(2)。

被归一化的向量序列d＝{d₁，...，d_i，...，d_k}仍然能够保留DPDI序列中k帧之间的时序信息。一个线性排序函数被定义为

使用结构风险最小化来定义排序池化的目标函数，见式(3)。

ε_ij表示松弛变量，α^*是最优参数向量，即DPDI序列的时序特征表示。向量α^*被转换为图像表示，也就是动态深度投影差值图像DDPDI。

通过将排序池化分别应用于一个深度视频在三个投影平面内生成的不同时间尺度下的DPDI序列，从而得到不同尺度下的一组DDPDI。图4是NTU RGB+D数据集中几类行为在前向生成的不同时间尺度下的DDPDI。由于原始深度投影图序列是按照时序递进的方式进行层次采样，因此DDPDI沿着时间尺度也呈现时间递进的形态，后面的DDPDI更能突显人体行为的关键动作信息。一个深度视频在每个投影方向上得到的一组不同时间尺度下的DDPDI构成了该方向上视频的层次动态深度投影差值图像(HDDPDI)表示。

为了验证HDDPDI视频表示的有效性，构建了基于CNN的行为识别框架，选用VGG16作为行为识别框架的基本网络结构，一方面在评估HDDPDI表示的实验中，VGG16作为基本深度卷积网络结构有助于排除网络自身优越的性能对识别结果的影响，此外，VGG16计算简便，易于实现。VGG16网络结构包含5个卷积层，3个全连接层和一个softmax分类层。深度视频在3个投影方向的HDDPDI表示分别输入3个相同的在ImageNet中预训练过的VGG16进行模型参数的微调。本文使用Pytorch来完成实验。

在VGG16网络训练的过程中，层次动态深度投影差值图像的大小均被随机剪裁为224*224，作为网络的输入。调整网络最后一个全连接层的输出参数C为数据集的行为类别数量。基于交叉熵损失函数，使用随机梯度下降法来学习网络权值，其中最小批尺寸为32个样本，动量为0.9，权值衰减为10^-3。学习率被初始化为10^-4，并随着训练的进行而下降。训练的迭代次数为100。训练过程中应用了随机水平翻转和旋转进行数据增强。

CNN不同的网络层能够编码图像中不同类型的特征信息，网络低层捕捉图像的空间结构信息，高层能够提取复杂的语义信息。因此为了充分评估HDDPDI视频表示的性能以及比较CNN不同网络层对行为识别的影响，本申请设计了3种分类方案，不同的分类方案使用不同的网络层，即最后一个卷积层(Last Convolutional,LC)，全连接层(Fully-Connected，FC)和柔性最大值传输函数分类层(softmax)。

定义LC层为VGG16的第5个卷积层，FC层为VGG16的第2个全连接层，softmax层为VGG16网络的分类层。在LC层和FC层的分类方案中，深度视频在三个投影平面内的HDDPDI视频表示分别输入3个VGG16中提取LC层和FC层的特征，三个视角的特征融合作为深度视频的行为特征表示，使用SVM完成分类任务。对于softmax层的分类方案来说，深度视频三个视角的HDDPDI表示输入网络获取softmax分类概率输出，首先使用最大值(max)、平均化(average)和乘积(multiply)三种运算分别处理每一个投影视角中的HDDPDI分类概率输出，最后每一种运算操作下取三个视角类概率的平均值作为深度视频的类概率得分。

下面对三种分类方案进行了详细的描述。

LC层分类方案

CNN中浅层的卷积特征能够用于捕获HDDPDI中行为的空间结构信息，如颜色、边缘及纹理等。VGG16中LC层具有更大的感受野，编码了更加丰富复杂的空间特征。因此本文将深度视频在三个投影视角中生成的HDDPDI视频表示分别输入3个VGG16网络中获取LC层的特征输出，下面以前向投影为例介绍具体的分类方案。假设一个深度视频在前向投影视角中生成的HDDPDI表示输入VGG16中获取的LC层的特征输出为四维向量F_LC∈R^H×W×C×T，其中H和W表示LC层卷积特征图的高度和宽度，C表示LC层输出的通道数，T表示时间尺度，即HDDPDI表示中所包含的动态图像数目。由于HDDPDI视频表示是不同时间尺度下深度视频的行为时空动态表示，因此本申请对HDDPDI中不同时间尺度动态图像的LC层输出按通道累积求和进行特征强化处理，见式(4)。

表示第i个通道的累积卷积特征图。

即LC层所有通道特征强化后的特征图。然后进行归一化处理，对每个通道归一化后的累积特征图应用最大池化生成深度视频在前向投影视角下LC层的特征表示，即

其中

表示第i个通道中归一化的累积特征图中的最大响应值。图5是LC层分类方案的流程图。按照同样的方法生成深度视频在侧向和俯向投影视角下的LC层特征，三个方向的特征融合作为深度视频最终的LC层特征表示

使用支持向量机SVM进行行为的识别与分类。

FC层分类方案

与卷积层相比，CNN全连接层更适用于捕获视频中行为的抽象语义信息。将深度视频在三个投影视角下的HDDPDI表示分别输入3个VGG16网络中获取FC层的输出。对于一个深度视频，假设它在前向投影方向下的HDDPDI视频表示输入网络得到的FC层输出为二维向量F_FC∈R^T×D，其中T表示HDDPDI中所包含时间尺度的数目，D是CNN的FC层特征维数。与LC层分类方案类似，对HDDPDI表示中不同时间尺度下动态图像FC层的输出累积求和进行特征强化，见式(5)。

表示累积FC层特征，应用最小最大值归一化处理后作为深度视频在前向投影视角下的FC层特征，被表示为

图6是FC层分类方案的流程图。以同样的方法得到深度视频在侧向和俯向视角下的FC层特征，三个方向特征融合作为深度视频最终的FC层特征表示，使用SVM进行行为的分类。

Softmax层分类方案

CNN是一个端到端的网络结构，能够通过自动学习图像中的差异性特征，从而实现分类任务。CNN中softmax层输出样本对于每一类的分类概率，以前向投影视角为例，深度视频的HDDPDI表示输入VGG16获取的softmax分类层输出被表示为二维向量P∈R^T×A，其中T表示时间尺度的数量，A是网络softmax层输出的类概率维数，也是数据集待分类的行为类别数。

表示HDDPDI中第t个时间尺度下的视频动态图像被识别为第i类行为的概率。对HDDPDI表示中不同时间尺度下动态图像的类概率，应用最大化(max)、平均化(average)、乘积(multiply)三种运算子进行处理，分别见式(6)、(7)和(8)。

和

分别表示三种操作子处理后深度行为视频在前向视角下对于第i类行为的分类概率。每一种运算下深度视频三个投影视角的分类概率取平均值作为行为视频最终的类概率得分，取最大概率值所对应的行为为预测行为类。图7是每个投影方向中三种运算下深度视频的最终类概率得分生成流程图。

在三个公共行为数据集上对所提出的基于HDDPDI视频表示的三种行为分类方案进行评估。首先介绍了实验中的3个人体行为数据集以及基本的实验设置，然后给出了三种分类方案的实验结果并进行了详细的分析。此外，为了验证三个投影视角融合进行行为识别的优势与必要性，对单个投影视角下的HDDPDI视频表示同样使用3种分类方案进行了实验。最后，通过对比三个数据集上所提出的方法与其他优秀算法的实验结果，证明了HDDPDI视频表示能够有效捕获行为运动的时空动态，三个投影视角的信息融合能够提供行为更加丰富全面的3D运动特征，从而提升行为分类的性能。

行为数据集

实验中，所提出的3种基于CNN的分类方案分别在3个公共行为数据集中进行评估，以验证HDDPDI视频表示的性能，三个数据集分别是：SDUFall、MSRAction3D和NTU RGB+D。

SDUFall数据集由山东大学机器人研究中心发布。该数据集由安装在1.5米高的一个Kinect摄像头在实验室环境中采集，包含20个人，六类行为：弯腰、摔倒、躺、坐、蹲、行走，每人每类行为执行10次，共1200个行为样本。此外，SDUFall数据集包含了丰富的类内变化如光照、人体行为方向以及位置的变化等。

MSRAction3D数据集由伍伦贡大学高级多媒体研究室发布，包含了由10个人执行的20类行为：高手臂挥动、水平手臂挥动、锤击、手抓、前推、高抛、画X、画√，画圆、拍手、双手挥动、侧向拳击、弯腰、前踢、侧踢、慢跑、网球挥拍、网球发球、高尔夫挥杆、捡起—扔。每人每类行为执行2-3次，共567个深度行为序列。

NTU RGB+D数据集由南洋理工大学ROSE实验室发布，是目前为止最大的RGB+D行为数据集。该数据集由3个Microsoft Kinect v.2摄像头同时采集，包含40个人执行的60类行为，共56880个行为样本。60类行为中包括了人体日常行为、与健康相关行为以及人体交互行为，具体类别如下：喝酒、吃饭、刷牙、梳头、丢东西、捡东西、扔东西、坐下来、站起来(从坐姿)、拍手、读书、写字、撕纸、穿外套、脱外套、穿鞋子、脱鞋子，戴上眼镜，摘下眼镜，戴上帽子，脱下帽子，兴奋，挥手，踢东西，把手伸进口袋，单脚跳、跳起来、接电话、玩电话、打字、指向、自拍、查看时间(手表)、搓双手、鞠躬、摇头、擦脸、敬礼、双手合十、双手交叉、打喷嚏/咳嗽、踉踉跄跄、摔倒、碰头(头痛)、触摸胸部(胃痛/心口痛)、触摸背部(背痛)、触摸颈部(脖子痛)、呕吐、扇风、拳打脚踢、推别人、拍别人的背、指着别人、拥抱、给别人东西、摸别人的口袋、握手、走到一起、分开走。该数据集包含了丰富的行为类别以及大量的行为样本，因此成为了行为识别领域内一个具有挑战性的基准数据集。

实验设置

为构建HDDPDI视频表示，将深度视频序列投影在3个2D正交的笛卡尔平面中。在基于深度投影图序列的层次采样过程中，初始帧步长设为s_f，初始帧移动下限比率设为r，采样步长为s，不同数据集根据所包含行为视频序列的长度设置三组采样参数。对于SDUFall数据集，s_f＝5，s＝3，r＝0.7；MSRAction3D数据集，s_f＝2，s＝3，r＝0.3；NTU RGB+D数据集，s_f＝5，s＝3，r＝0.3。

深度视频在每一个投影视角下的HDDPDI视频表示分别输入3个相同的预训练过的VGG16网络中进行模型参数的微调。为了防止过拟合，网络全连接层后的drop out比率设为0.5，此外网络训练过程中还应用了水平翻转和旋转两种数据增强方法。在基于CNN的行为识别框架中，分别设计了基于网络LC层、FC层以及softmax层的3种分类方案，其中VGG16中LC层输出的卷积特征图尺寸为7*7；FC层输出的特征维数为4096；softmax层输出的类概率维数与数据集的行为类别数相关，SDUFall数据集为6，MSRAction3D数据集为20，NTURGB+D数据集为60。

基于CNN 3种行为分类方案的HDDPDI视频表示评估

(1)SDUFall数据集

SDUFall数据集中每个深度视频在三个投影视角下的HDDPDI表示分别输入3个VGG16网络中，提取LC层、FC层以及softmax层的输出，应用3种分类方案进行行为的识别。SDUFall数据集中随机选取12个人的行为样本作为训练集，其余8个人的行为样本为测试集。使用训练集中行为视频样本在三个投影方向上的HDDPDI表示分别微调3个VGG16网络，训练好的VGG16网络在LC层和FC层分类方案中作为特征提取器来捕获行为的时空运动。

表1给出了不同分类方案下的识别精度。FC层的识别效果最好，准确率达到了97.08％。与LC层分类方案相比，提高了3.44％，说明CNN的高层特征对于行为识别更加有效。图8是FC层分类方案对于SDUFall数据集中6类行为识别的混淆矩阵。从图8中，可以观察到所有的行为基本都能被正确地分类，跌倒和躺下这两类相似的行为也能够被很好地区分。该数据集良好的实验结果证明了所提出的HDDPDI视频表示有效地捕获了视频中行为的时空动态信息，对于SDUFall数据集中的人体行为具有较强的辨识力。此外，实验结果也说明了三个投影视角的融合能够从不同的方向描述人体行为的3D运动变化，更有助于提升行为识别的性能。

表1.不同分类方案在SDUFall数据集中的识别结果

(2)MSRAction3D数据集

对于MSRAction3D数据集，使用交叉-人设置来获取训练集和测试集，即ID为1、3、5、7、9的人的行为样本作为训练集，余下5个人的行为样本为测试集。表2是三种分类方案的实验结果，从表中可以看出FC层分类方案在MSRAction3D数据集上同样实现了最优的行为识别结果，一方面证明了CNN的FC层相对于LC层具有更强的特征表达能力，另一方面也说明三个投影视角特征的融合相比于分类结果的融合更有利于行为的正确分类。此外，最高识别精度96.15％充分显示了所提出的HDDPDI视频表示通过有效提取视频行为的时空运动变化，能够提升行为识别的性能。

图9给出了FC层分类方案在MSRAction3D数据集上对20类行为识别的混淆矩阵。从图中可以看出，除了画圆、画√、画X这三类行为由于相似的HDDPDI表示易于混淆外，大部分的人体行为都能被正确地识别。

表2.不同分类方案在MSRAction3D数据集中的识别结果

(3)NTU RGB+D数据集

NTU RGB+D数据集有两种评估标准：交叉-人和交叉-视角。使用以上两种评价标准分别对基于HDDPDI视频表示的三种分类方案进行实验，训练集和测试集的划分如下：交叉-人评价标准下，ID为1,2,4,5,8,9,13,14,15,16,17,18,19,25,27,28,31,34,35,38的人作为训练集，余下的人为测试集；交叉-视角评价标准下，摄像头2和3视角下的行为样本作为训练集，摄像头1视角下的行为样本为测试集。表3是三种分类方案在两种评价标准下的实验结果，从表中可以看出，FC层分类方案在交叉-人和交叉-视角实验中都取得了最高的识别结果，分别为82.43％和87.56％。

图10是交叉-人实验中FC层分类方案对NTU RGB+D数据集60类行为分类的混淆矩阵，从图中可以看出，数据集中大部分的行为包括交互类行为均能被较好地识别。甚至对于某些时序相反的相似行为类如“穿衣服”和“脱衣服”、“戴上帽子”和“脱掉帽子”等，基于HDDPDI视频表示的FC层分类方案仍然具有较强的识别能力，这也证明了HDDPDI视频表示能够有效地捕获视频行为的空间运动特征和时间顺序信息。

表3.不同分类方案在NTU RGB+D数据集中的识别结果

以上实验表明，三种分类方案中，基于HDDPDI视频表示的FC层分类方案在三个公共行为数据集中均取得了最优的识别结果，实现了良好的分类性能，证明了HDDPDI视频表示能够有效捕获深度视频中人体行为的空间运动和时序变化信息。与LC层分类方案相比，CNN的FC层特征具有更强的行为信息表达能力，对于行为的识别及分类更具辨识力。此外，由于每个投影视角下的HDDPDI视频表示都包含了不同时间尺度下的动态图像，softmax层分类方案首先需要对不同时间尺度下动态图像的分类结果进行处理，一张动态图像的误分类可能会影响视频行为在相应投影视角上的分类结果，进而影响最终的行为识别结果。因此相对于FC层分类方案中三个投影视角下特征融合进行行为识别的方法来说，softmax层分类方案更容易造成行为的误分类。

三个投影视角的贡献评估

深度视频被投影在三个正交的2D平面中以捕获视频中人体行为的3D结构和轮廓信息，三个投影视角下的HDDPDI视频表示从不同的角度描述了行为运动变化的过程，为了评估每一个投影方向对行为识别的影响，同时为了证明三个投影视角融合能够表达更加丰富全面的行为信息，有助于提高行为识别的精度，本节对每一个投影方向下的HDDPDI视频表示，分别输入CNN获取LC层、FC层以及softmax层的输出，基于单个投影视角下的HDDPDI视频表示分别使用三种分类方案进行行为的识别。实验中，三个公共行为数据集的训练集和测试集的划分保持不变。表4给出了每个数据集中不同分类方案在融合三个投影视角和单独使用一个投影视角的行为识别结果。

表4.三个数据集上不同分类方案中融合三个投影视角和单独使用一个投影视角的行为识别结果

从表4中可以看出，对于三个数据集来说，三个投影视角融合进行行为识别的结果都优于一个投影视角下的行为分类结果。由于不同投影视角下的HDDPDI视频表示能够从不同的角度描述行为运动的3D时空动态，为行为识别提供互补的特征信息，因此不同投影方向的融合可以进一步提升行为识别的精度。对于单一投影视角下的行为分类结果，因为数据集中大部分的人体行为都是面向摄像头采集，所以前向投影视角能够获取更多的行为特征信息，相比于侧向和俯向视角更具区分度，行为分类的准确率更高。而侧向和俯向投影视角更适用于描述类似“前踢”以及“前向拳击”等的行为。对于NTU RGB+D数据集，由于深度视频序列的俯向投影图中包含了大量的地面噪声干扰信息，因此俯向的行为识别精度整体低于侧向较多。

表5.SDUFall数据集中不同算法的性能比较

表6.MSRAction3D数据集中不同算法的性能比较

表7.NTU RGB+D数据集中不同算法的性能比较

表5、表6和表7给出了所提出的基于HDDPDI视频表示的FC层分类方案与其它算法在SDUFall数据集、MSRAction3D数据集以及NTU RGB+D数据集上的行为识别精度对比结果。从表格中可以看出，所提出的方法在三个数据集中的识别精度均高于其它算法，分析原因如下：

1)HDDPDI视频表示从不同的时间尺度同时描述人体行为的时空动态，包含了丰富的行为运动信息；

2)CNN的FC层能够提供视频行为抽象的语义信息，具有更强的特征表达能力，对于行为的识别和分类更加有效；

3)三个投影方向的HDDPDI被分别输入3个预训练过的CNN中进行模型参数的微调，避免了参数从头开始训练的复杂性，保证了网络模型的参数能够被很好地初始化，从而应用于行为识别；

4)深度视频在三个投影视角下的HDDPDI视频表示从不同角度反应了行为的3D运动变化信息，三种模态下的信息融合有利于提高行为识别的性能。

HDDPDI视频表示更适用于捕获具有显著运动变化的视频行为的空间动态和时间顺序信息，SDUFall数据集中六类人体行为的运动变化幅度较大，因此该数据集中本文所提方法的识别精度明显高于其它算法。NTU RGB+D数据集中的多数行为类别也具有较为显著的空间运动变化，所以本文方法在两种评价标准下相对于其它算法都达到了最高识别率。

然而对于MSRAction3D数据集，本方法的识别率稍高于Range Sample的方法，并没有显著的优越性，这是由于本方法受限于区分一些包含细微运动变化的相似行为类，如“画X”和“画√”。此外，CNN网络模型更适用于基于纹理的特征学习和分类，而深度视频缺乏颜色和纹理信息，可能会减弱CNN的辨别和分类能力。

实施例二

在一个或多个实施方式中公开的一种基于层次动态深度投影差值图像表示的视频行为识别系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中所述的基于层次动态深度投影差值图像表示的视频行为识别方法。

实施例三

在一个或多个实施方式中公开的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行实施例一所述的基于层次动态深度投影差值图像表示的视频行为识别方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，包括：

将深度视频在三个投影平面内生成的层次动态深度投影差值图像表示分别输入三个相同的预训练后的卷积神经网络CNN中，分别提取CNN三个不同网络层的输出；对于每一个网络层输出，融合三个投影平面的行为信息进行分类与识别；

根据每一个投影平面内的深度投影图序列，构建深度视频在该平面内的层次动态深度投影差值图像表示，具体为：

2.如权利要求1所述的一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，对于一个深度视频序列，在三个正交的笛卡尔平面中分别进行投影得到对应的深度投影图序列，具体为：深度视频序列中的每一帧被投影在三个2D正交的笛卡尔平面内，其中X-Y平面表示前向，Y-Z平面表示侧向，X-Z平面表示俯向。

3.如权利要求1所述的一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，对每个平面中的深度投影图序列按照时间顺序进行层次采样，生成不同时间尺度下的采样深度投影图序列，具体为：

依次类推，直至初始帧达到移动下限。

4.如权利要求3所述的一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，初始帧的移动下限具体为：

5.如权利要求1所述的一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，使用排序池化来编码深度投影差值图像序列，生成动态深度投影差值图像，具体为：

表示向量化的

其中，

被归一化的向量序列d＝{d₁,…，d_i，…，d_k}仍然能够保留深度投影差值图像序列中k帧之间的时序信息；

定义一个线性排序函数：

α∈R^D；

α是排序函数的一个参数向量，包含了视频帧之间的相对时间顺序，即如果存在t_i>t_j,排序函数值就满足

使用结构风险最小化来定义排序池化的目标函数：

6.如权利要求1所述的一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，将深度视频在三个投影平面内的层次动态深度投影差值图像表示分别输入三个CNN中，提取CNN三个不同网络层的输出，对于每一个网络层输出，融合三个投影平面的信息进行行为的识别与分类，具体为：

将深度视频在三个投影平面内的层次动态深度投影差值图像表示分别输入三个卷积神经网络CNN中，分别获取三个投影平面内的层次动态深度投影差值图像在最后一个卷积层的特征描述子，三个投影平面内的层次动态深度投影差值图像在卷积层的特征描述子融合作为深度视频序列最终的卷积层特征表示，使用支持向量机进行行为的识别与分类；

将深度视频在三个投影平面内的层次动态深度投影差值图像表示分别输入三个卷积神经网络CNN中，三个投影平面内的层次动态深度投影差值图像在全连接层的特征描述子融合作为深度视频序列最终的全连接层特征表示，使用支持向量机进行行为的识别与分类；

将三个投影平面内的层次动态深度投影差值图像分别输入三个卷积神经网络CNN中获取softmax分类层的输出；分别使用最大值、平均化和乘积三种运算处理每一个投影平面内层次动态深度投影差值图像的softmax层输出，得到深度视频在该投影平面内三种运算下的分类概率输出；每一种运算下，取三个投影平面内的分类概率输出的平均值，作为深度视频的最终类概率得分。

7.如权利要求6所述的一种基于层次动态深度投影差值图像表示的视频行为识别方法，其特征在于，利用权利要求6中的三种行为识别与分类方案得到5种分类结果，经过实验验证，融合三个投影平面内的层次动态深度投影差值图像在全连接层的特征描述子作为深度视频序列最终的全连接层特征表示，并使用支持向量机进行行为识别与分类的方法得到的分类结果精度最高。

8.一种基于层次动态深度投影差值图像表示的视频行为识别系统，其特征在于，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-7任一项所述的基于层次动态深度投影差值图像表示的视频行为识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行权利要求1-7任一项所述的基于层次动态深度投影差值图像表示的视频行为识别方法。