CN108038420A

CN108038420A - 一种基于深度视频的人体行为识别方法

Info

Publication number: CN108038420A
Application number: CN201711162729.9A
Authority: CN
Inventors: 肖阳; 陈俊; 曹治国; 熊拂; 张博深; 胡桂雷
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-05-15
Anticipated expiration: 2037-11-21
Also published as: CN108038420B

Abstract

本发明公开了一种基于深度视频的人体行为识别方法，属于视频信息处理技术领域。本发明方法首先对视频序列的人体目标检测与行为定位，然后对视频的多视角投影形成多视角子视频序列，再对视频进行的动态图编码，之后采用多卷积神经网络模型进行训练提特征，再对特征进行PCA降维处理，最后训练线性支撑向量机分类器，利用支撑向量机分类器获得待测深度视频的行为识别结果；本发明方法从深度图的特点与视频编码的角度出发，充分挖掘图像中的空间信息，降低了处理视频的复杂性，采用的深度学习方法提供了强的特征表达能力，相对于现有其他的传统方法，该方法在算法复杂性、特征表达与识别精度上具有明显的优势。

Description

一种基于深度视频的人体行为识别方法

技术领域

本发明属于视频信息处理技术领域，更具体地，涉及一种基于深度视频的人体行为识别方法。

背景技术

随着深度摄像机日益广泛的使用，深度视频的获取越来越容易，基于视频的内容分析，尤其是对行为的分析，对于视频的理解与应用来说起到至关重要的作用。

针对深度视频行为识别的问题，现有技术主要从两类不同形式出发研究的解决方案。考虑到深度视频通常可以容易得到视频中人的骨架关节点信息，所以一类解决方案是根据骨架关节点信息作为输入进行的行为识别技术，由于视频是一种与时间序列有关的数据结构，处理该类问题一般使用递归神经网络RNN模型及其改进模型LSTM来进行编码视频信息。另一类解决方案是直接使用深度图像作为输入来进行的行为识别，该类方法主要依据深度图中点的实际空间位置产生梯度向量的统计直方图(如HON4D、HOPC等)、或者直接在4D空间上提特征来进行行为表述。

上述方法存在以下缺陷，对于第一类方法，使用骨架关节点作为输入的方法相对简单，噪声较少，带来的问题是没有真正有效的使用到深度信息，只是根据相对运动结构的特点来进行的行为识别，信息损失严重同时缺乏丰富的空间信息，准确率相对较低。对于第二类方法，由于真实场景下深度图像的噪声较大，目前基于梯度的方法很难得到准确的特征描述效果，同时该类方法中对于视频的时间序列信息只是简单帧之间的串联结构，没有比较好的描述能力，无法实现较好的识别效果。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度视频的人体行为识别方法，其目的在于通过对深度图像的降噪、对深度视频的编码以及充分利用深度卷积网络的强表达能力的优势得到更为准确的视频描述特征，从而提高深度视频人体行为识别的准确率。

为实现上述目的，本发明提供了一种基于深度视频的人体行为识别方法，所述方法包括：

(1)对数据集中深度视频采用多视角投影，获得深度视频的多个视角的子视频帧序列；

(2)对每个子视频帧序列使用动态图编码，将子视频帧序转化为动态图；

(3)对所有视角的动态图进行分组并训练各组的深度卷积神经网络，分别提取各组深度卷积神经网络全连接层的特征并串联起来作为各组的多视角特征；

(4)所有多视角特征分别进行降维处理，再将降维后所有多视角特征串联起来作为最终特征，然后针对最终特征采用多类分类策略训练线性的支撑向量机分类器；

(5)将待识别深度视频经过多视角变换和动态图编码再使用训练好的卷积神经网络提取特征后输入到支撑向量机分类器，输出结果即为人体行为识别结果。

进一步地，所述步骤(1)中深度视频的多视角投影具体包括：

(11)根据深度视频中每一帧图像的每个像素点深度值的信息进行旋转变换得到不同视角的三维空间位置，三维空间三个坐标轴的旋转变换矩阵可以表示为：

其中，α，θ，β分别表示三维空间三个坐标轴的旋转角度；

(12)对旋转后的三维视角图，选择一个投影面进行投影，得到二维灰度图像，三个投影面的投影矩阵分别表示为：

(13)通过旋转与投影变换得到三维空间任意其他视角下的深度图像，整体的变换矩阵T可以表示为：

T＝R_row*R_col*R_depth*V_surface，

其中，V_surface表示所选择投影面的投影变换矩阵。

进一步地，所述步骤(2)中待编码视频的动态图为：

ξ_ij≥0

其中，u为动态图模型参数；ξ_ij为可松弛变量；C为惩罚系数；t_i为视频第i帧时间；t_j为视频的第j帧时间；u^T为模型参数的转置；为视频第j帧图像的映射表示；为视频第i帧图像的映射表示。

进一步地，所述步骤(3)对所有视角的动态图进行分组具体按照视角所处的区间进行分组。

进一步地，所述步骤(3)中各组深度卷积神经网络的训练集为各组的动态图。

进一步地，所述步骤(4)中采用基于PCA的降维处理。

进一步地，所述步骤(1)中深度视频采用多视角投影之前还包括步骤(0)：

(0)对深度视频的视频帧序列中的人体目标进行检测，并将检测得到的结果进行融合，得到人体目标的运动行为定位边框，在深度视频中截取运动行为定位边框部分获得新的深度视频。

进一步地，所述步骤(0)中人体目标检测具体方法为：

首先利用数据集中的深度视频训练人体目标检测的Yolo V2模型；再使用该模型去检测视频帧序列中的人体目标。

进一步地，所述步骤(0)中人体目标的运动行为定位边框具体为：

m＝(x_um,y_um,x_lm,y_lm)，

其中，边框左上角的坐标值边框右下角的坐标值和表示单个人体目标左上角的坐标；和表示单个人体目标右下角的坐标。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：

(1)本发明技术方案首先对视频中的目标进行了提取，对目标行为的范围进行了定位，避免直接对噪声严重的原始深度视频进行处理，而是在一个目标行为运动范围内进行特征提取与识别任务，这样可以有效的避免深度图像本身噪声严重的问题，提高识别的精度；

(2)本发明技术方案对深度图像进行了多视角的投影变换，充分利用了深度图像所携带的几何空间信息，变换后的多视角视频不仅增加了训练样本的数量使得训练更充分，同时也充分挖掘了行为动作所含有的各种模式信息，对于行为的特征表达起到了非常重要的作用；

(3)本发明技术方案对每个子视频序列采用动态图的编码方式，将视频变换成一张图来提特征而不是直接对视频提特征，这一方面降低了算法处理的复杂度，另一方面可以很好的嵌入使用深度卷积网络模型进行进一步的特征提取；

(4)本发明技术方案使用了多卷积神经网络模型，卷积神经网络模型是一种强大的图像特征提取方法，基于该网络使得本方法提取的行为表述特征更为强大，达到了更高的行为识别效果。

附图说明

图1是本发明实施例的识别方法流程图；

图2是本发明实施例的目标检测与视频行为定位示意图；

图3是本发明实施例的深度视频多视角投影变换示意图；

图4是本发明实施例的视频序列的动态图转化部分结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例的流程如图1所示，包含了对视频序列的人体目标检测与行为定位，对视频的多视角投影形成多视角子视频序列，对视频进行的动态图编码，采用多卷积神经网络模型进行训练提特征，对特征进行PCA降维处理，最后训练线性支撑向量机分类器获得最终的行为识别结果；以下结合实例来具体阐述本发明提供的基于深度视频的行为识别方法，具体步骤如下：

(1)对原始深度视频进行行为定位，包括如下子步骤：

(11)获得源深度视频序列数据集：

在本实施例中采用三种不同类型的数据集：60种不同类行为的NTURGB+D数据库，包含超过56000个视频序列，30种不同类行为的UWA3DII数据库，包含1075个视频序列，10种不同类行为的Northwestern-UCLA数据库，包含1475个视频序列；

(12)检测视频中的目标：在该实施例中，首先需要在各个数据集上训练对应人体目标检测的Yolo V2模型，然后使用该模型去检测不同测试视频序列中可能存在的目标，并得到目标的位置，如图2中的左图所示；

(13)生成视频的行为定位边框：在得到视频中所有目标的位置以后，基于该位置优化得到视频的运动行为定位边框：

其中，视频的行为定位边框用左上角和右下角坐标表示，具体为m＝(x_um,y_um,x_lm,y_lm)，和表示单个人体目标左上角的坐标；和表示单个人体目标右下角的坐标。得到的模拟结果如图2中的右图所示；

(2)对行为定位的视频进行多视角的投影变换，在本发明中我们的投影视角可以是一个半球形范围内的任意投影角，横向投影范围从-90°～90°，纵向投影范围从-90°～90°，为了避免投影视角过多引起的时间与空间计算量复杂，我们通过实验结果选择只在横向范围内进行投影变换，并将投影范围划分为4个差异较大的不同区间：-90°～-40°,-40°～0°,0°～40°,40°～90°，在这四个区间上，我们人为定义11个投影效果差异明显的投影变换视角作为最终的投影视角：-90°,-40°,-20°,-10°,-5°,0°,5°,10°,20°,40°,90°。采用的变换矩阵可以表示为：

T＝R_row*R_col*R_depth*V_surface，

其中R_row、R_col、R_depth分别为三维空间三个轴的旋转变换矩阵，V_surface为三维空间某一个面的投影变换矩阵：

其流程如图3所示，经过多视角投影变换后，一个深度图可以有多个视角的投影深度图，同理一个视频可以有多个视角的投影子视频。

(3)对视频进行动态图编码，在得到深度视频的多个视角子视频序列后，为了方便处理视频数据，采用动态图编码的方式对视频进行编码成图像的形式，采取的优化目标函数为：

ξ_ij≥0

优化后得到最终的u^*可以以一张灰度图像的形式表示，u为动态图模型参数；ξ_ij为可松弛变量；C为惩罚系数；t_i为视频第i帧时间；t_j为视频的第j帧时间；u^T为模型参数的转置；为视频第j帧图像的映射表示；为视频第i帧图像的映射表示。流程如图4所示，最终每一个子视角视频都可以是一张图，对视频的特征提取转化为对动态图的特征提取。

(4)采用深度卷积神经网络的模型进行特征提取，这里我们对上述得到的多视角动态图采用多个独立的深度卷积神经网络进行训练，并将全连接层特征提取出来作为动态图的表述特征，如图1的中间部分，包括如下子步骤：

(41)对多视角数据集进行进一步分组划分，这里按照步骤(2)中定义的4个投影视角区间与11个具体视角来划分对应的数据集，进一步将这11个视角融合成表1中的5个大的视角组合以降低计算复杂度：

表1

视角组合	选择视角
		组合1(-90°～-40°)	-90°，-40°
组合2(-40°～0°)	-20°，-10°，-5°
		组合3(0°)	0°
组合4(0°～40°)	5°，10°，20°
		组合5(40°～90°)	40°，90°

(42)对每个组合中的视角，将对应组合中所有视角的动态图作为单独的一个子数据集来训练单独的深度卷积神经网络，这里采用典型的5层卷积层与2层全连接层的AlexNet网络框架，针对5个不同视角组合，训练多个独立的网络，最后通过训练的多个网络模型分别提取全连接层的特征，并将其串联起来作为该组合下的视频动态图多视角特征；

(5)对得到的组合视角特征，首先进行PCA的降维处理得到低维度的表示特征，并将这些组合视角的特征再串联起来作为最终的一个视频的表达特征，如图1后半部分所示，针对最终视频的表达特征，采用一对一的多类分类策略训练线性的支撑向量机分类器；本实施里中采用开源的LIBLINEAR来训练支撑向量机模型；最后使用该模型进行预测，分类器的输出结果即为最后的行为识别结果。

以上内容本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度视频的人体行为识别方法，其特征在于，所述方法包括：

(5)将待识别深度视频经过多视角变换和动态图编码，再使用训练好的卷积神经网络提取特征后输入到支撑向量机分类器，输出结果即为人体行为识别结果。

2.根据权利要求1所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(1)中深度视频的多视角投影具体包括：

<mrow> <msub> <mi>R</mi> <mrow> <mi>r</mi> <mi>o</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

<mrow> <msub> <mi>R</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中，α，θ，β分别表示三维空间三个坐标轴的旋转角度；

T＝R_row*R_col*R_depth*V_surface，

其中，V_surface表示所选择投影面的投影变换矩阵。

3.根据权利要求1所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(2)中待编码视频的动态图为：

<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>u</mi> <mo>*</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mi>u</mi> </munder> <mfrac> <mi>1</mi> <mi>2</mi> </mfrac> <msup> <mi>||u||</mi> <mi>2</mi> </msup> <mo>+</mo> <mi>C</mi> <munder> <mo>&Sigma;</mo> <mrow> <mo>&ForAll;</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>></mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </munder> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msup> <mi>u</mi> <mi>T</mi> </msup> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msub> <mi>v</mi> <msub> <mi>t</mi> <mi>j</mi> </msub> </msub> <mo>-</mo> <msub> <mi>v</mi> <msub> <mi>t</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> </mrow>

4.根据权利要求1所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(3)对所有视角的动态图进行分组具体按照视角所处的区间进行分组。

5.根据权利要求1所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(3)中各组深度卷积神经网络的训练集为各组的动态图。

6.根据权利要求1所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(4)中采用基于PCA的降维处理。

7.根据权利要求1所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(1)中深度视频采用多视角投影之前还包括步骤(0)：

8.根据权利要求7所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(0)中人体目标检测具体方法为：

9.根据权利要求7所述的一种基于深度视频的人体行为识别方法，其特征在于，所述步骤(0)中人体目标的运动行为定位边框具体为：

m＝(x_um,y_um,x_lm,y_lm)，