CN109993103A

CN109993103A - 一种基于点云数据的人体行为识别方法

Info

Publication number: CN109993103A
Application number: CN201910246695.4A
Authority: CN
Inventors: 吴秋霞; 康力; 许鸿斌; 杨晓伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-09

Abstract

本发明公开了一种基于点云数据的人体行为识别方法，包括步骤：1)获取基础数据，包括深度图数据、相机参数；2)对数据做预处理，包括对深度图进行平滑处理，深度图到点云的转换，对点云数据做归一化处理；3)把处理过后的数据输入到网络中进行行为识别。本发明提出了基于点云数据的深度学习人体行为识别，能够直接利用从深度图获取到的点云数据进行人体行为识别，并取得了不错的结果。

Description

一种基于点云数据的人体行为识别方法

技术领域

本发明涉及图像处理算法研究及三维数据处理算法研究及人体行为识别算法研究与深度学习算法研究的技术领域，尤其是指一种基于点云数据的人体行为识别方法。

背景技术

人体行为识别主要根据采集到的视频来分析人体行为，这在视频监控、医疗康复、健身评估、人机交互等领域应用广泛，是计算机视觉研究的热点问题。点云数据就是利用结构光扫描仪或者三维激光扫描仪采集到的分布在三维空间中的离散点集，它对复杂场景以及物体的外形表达具有独特的优势，加之其获取的快速性和便捷性，已被广泛地应用在计算机图形学、CAD造型设计等行业。

为了方便实验，出现了很多人体行为识别数据集，可以把它划分成二维和三维数据集，二维数据集一般用普通的摄像头进行采集，而三维数据集一般用如Kinect等可以获取深度信息的特殊摄像头进行采集，三维数据集由于包含图像的深度信息，因此信息更加丰富。深度图像也叫距离影像，是指将从图像采集器到场景中各点的距离(深度)值作为像素值的图像。深度图像经过坐标转换可以计算为点云数据；有规则及必要信息的点云数据可以反算为深度图像。

人体行为识别方法可分为传统学习方法和深度学习方法。深度学习方法不用人工主动去提取特征，保留了视频中更多有价值的信息，从效果来讲，一般优于传统方法。深度学习方法应用在人体行为识别不仅要利用到视频的空间信息，还要用到视频的时间信息，这也是该方法研究的重点。人体行为识别的深度学习框架大体上可以分为时空网络、双流网络还有其他。时空网络重点在于如何提取视中的时间信息，一般使用CNN提取空间特征，再利用其他如LSTM等方法提取时间信息，时间信息和空间信息使用的类似于电路中的串联架构，这种网络架构在早期的方法中比较流行，效果一般也优于传统的方法，得到了广泛的应用。双流网络中的时间信息和空间信息采用的方式有点像电路中的并联架构，两个网络开始时互不干涉，各自提取各自的信息，最后采用一定方式进行融合。除了时空网络，还有一些比较优秀的网络架构，特别是一些无监督和弱监督方法的出现。然而目前没有基于点云的深度学习人体行为识别方法。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于点云数据的人体行为识别方法，结合点云和深度学习，可以利用深度图转换得到的点云数据完成人体行为识别。

为实现以上目的，本发明所提供的技术方案为：一种基于点云数据的人体行为识别方法，包括以下步骤：

1)获取基础数据，包括深度图数据、相机参数；

2)对数据做预处理，包括对深度图进行平滑处理、深度图到点云的转换、对点云数据做归一化处理；

3)把处理过后的数据输入到网络中进行行为识别。

在步骤1)中，所述深度图数据是指通过深度图相机采集到的数据，包括深度图数据的分辨率、深度值；所述相机参数是指在采集数据时所使用的深度相机的内参数和外参数，相机内参数是与相机自身特性相关的参数，包括相机的焦距、像素大小，内参数包括射影变换本身的参数，相机的焦点到成像平面的距离，也就是焦距，以及从成像平面坐标系到像素坐标系的变换所得到的内参数矩阵K；

式中，f_x和f_y是与相机的焦距、像素的大小有关的内参参数；c_x,c_y是平移的距离，和相机成像平面的大小有关；相机外参数是在世界坐标系中的参数，包括相机的位置、旋转方向，外参数包括相机坐标到世界坐标的转换矩阵T；

式中，R是旋转矩阵，t是平移向量。

在步骤2)中，对深度图做平滑处理，从深度图中得到点云数据，对得到的点云数据做归一化处理，包括以下步骤：

2.1)使用双边滤波对深度图数据做平滑处理：

其中，x是中心像素点，ξ是邻域像素点，f(x)表示当前像素点的色彩，s(ξ,x)是表示和邻域像素点ξ与中心像素点x之间的几何距离的权重函数，即空间滤波器，c(f(ξ),f(x))是表示和邻域像素点ξ与中心像素点x之间的色彩距离的权重函数，即色彩滤波器；

2.2)深度图到点云数据的转换算法如下：

其中，u，v为图像坐标系下的任意坐标点；u₀，v₀分别为图像的中心坐标；x_w，y_w，z_w表示世界坐标系下的三维坐标点；z_c表示相机坐标的z轴值，即目标到相机的距离；f_x和f_y是与相机的焦距，像素的大小有关的内参参数；R，T分别为外参矩阵的3×3旋转矩阵和3×1平移矩阵；由于世界坐标原点和相机原点是重合的，即没有旋转和平移，所以：

相机坐标系和世界坐标系的坐标原点重合，因此相机坐标和世界坐标下的同一个物体具有相同的深度，即z_c＝z_w；于是公式进一步简化为：

从以上的变换矩阵公式，计算得到图像点[u,v]^T到世界坐标点[x_w,y_w,z_w]^T的变换公式：

2.3)点云数据的归一化处理，以第一帧的点云数据的中心点为整个动作序列的原点：

{P_t'|t＝1,...,n}＝{P_t-d|t＝1,...,n}

其中，P_t'是平移之后的点云，P_t是原始点云，t表示当前帧数，n表示当前视频总帧数，d表示平移向量；

把点云数据在Z轴上按比例缩放：

其中，z'是缩放之后的值，z是原始值，a是锚点，k是缩放比例。

在步骤3)中，所述网络是一个端到端的深度神经网络，由三部分串联组成：用于从点云数据中提取姿态特征，即空间特征的PointNet；从姿态特征序列中提取时间特征的长短时记忆网络；把提取到的时空特征映射到分类结果上的多层感知机。

PointNet是一种可以从原始点云提取点云特征的深度神经网络，在点云分类和点云分割上取得了不错的效果。点云是3D空间中点的集合{P_i|i＝1,...,n}，每一个点P_i是由点坐标(x,y,z)以及额外的特征通道，如色彩，法向量等，组成的向量。点云有三个主要的特征：

·无序性。图片中的像素有序的排列在网格中，点云并没有特定的排列顺序，这要求网络必须与点云的排列无关。

·点相关性。每一个点与它的邻近点按照特定的度量构成了一个空间，因此点与点之间存在着一定的联系。网络必须要能够捕捉到这种局部的联系

·变换无关性。无论是旋转还是平移，点云构成的物体始终是不变的。

PointNet在网络的设计上分别应用了对称函数，局部与全局信息的聚合，校准网络以满足点云的三个主要特征。

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于RNN(Recurrent Neural Network)的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。LSTM的公式表示如下：

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

i_t，f_t，o_t，c_t分别表示输入门，忘记门，输出门和细胞状态，x_t是t时刻的输入，⊙表示元素相乘。M：是一个仿射函数。σ是sigmod激活函数。

多层感知机由感知机推广而来，最主要的特点是有多个神经元层，因此也叫深度神经网络。感知机的神经网络表示如下：

x_i是输入向量的x的第i维，w_i是对应的权值，b是对应的偏置量，y是最终的输出。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次将由深度图转换得到的点云数据直接应用到深度神经网络中，设计了一个端到端的网络，进行人体行为识别。

2、本发明使用的点云数据是三维数据，与图像相比，携带的信息更丰富，有更多的处理方式与使用方式。

3、本发明使用的点云数据是从深度图数据中转换得到，与通过常规步骤采集点云数据相比，降低了成本，提升了便利性。

4、本发明在视频监控、医疗康复、健身评估、人机交互等领域中具有广泛的使用空间，操作简单、适用性强。

附图说明

图1为本发明方法流程图。

图2a为深度图示意图。

图2b为平滑处理前的深度图转换得到的点云数据示意图。

图2c为平滑处理后的点云数据示意图。

图2d为归一化后的点云数据示意图。

图3为网络框架图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于点云数据的人体行为识别方法，结合了从深度图转换得到的点云数据和深度神经网络，包括以下步骤：

1)获取基础数据，包括深度图数据、相机参数；深度图数据如图2a所示，在本实施例中，相机内参f_x＝f_y＝f/z_c，f是相机的焦距。由于所使用数据集没有明确指出相机焦距z_c，因此每一帧深度图数据对应的焦距通过计算得到。

2)对数据做预处理，包括对深度图进行平滑处理，深度图到点云的转换，对点云数据做归一化处理。

2.1)使用双边滤波对深度图数据做平滑处理：

x是中心像素点，ξ是邻域像素点，f(x)表示当前像素点的色彩，c(ξ,x)是表示和邻域像素点ξ与中心像素点x之间的几何距离的权重函数，s(f(ξ),f(x))是表示和邻域像素点ξ与中心像素点x之间的色彩距离的权重函数。在本实施例中，两个权重函数均为高斯函数。

where where

d(ξ,x)＝||ξ-x|| δ(f(ξ),f(x))＝||f(ξ)-f(x)||

||x-y||是两者的欧氏距离。两个参数σ_s＝8。平滑处理之后得到的点云数据如图2c所示。

2.2)深度图到点云数据的转换算法如下：

其中u，v为图像坐标系下的任意坐标点。u₀，v₀分别为图像的中心坐标。x_w，y_w，z_w表示世界坐标系下的三维坐标点。z_c表示相机坐标的z轴值，即目标到相机的距离。f_x和f_y是与相机的焦距，像素的大小有关的内参参数。R，T分别为外参矩阵的3×3旋转矩阵和3×3平移矩阵。由于世界坐标原点和相机原点是重合的，即没有旋转和平移，所以:

相机坐标系和世界坐标系的坐标原点重合，因此相机坐标和世界坐标下的同一个物体具有相同的深度，即z_c＝z_w。于是公式可进一步简化为

从以上的变换矩阵公式，可以计算得到图像点[u,v]^T到世界坐标点[x_w,y_w,z_w]^T的变换公式:

从深度图得到的点云数据如图2b所示。

{P_t'|t＝1,...,n}＝{P_t-d|t＝1,...,n}

P_t'是平移之后的点云，P_t是原始点云，t表示当前帧数，n表示当前视频总帧数，d表示平移向量。

把点云数据在Z轴上按比例缩放：

z'是缩放之后的值，z是原始值，a是锚点，k是缩放比例。在本实施例中，锚点选取为从深度图中的第一个点，k＝5。归一化之后的点云数据如图2d所示。

3)把处理过后的数据输入到网络中进行行为识别。所述的网络是一个端到端的深度神经网络，由三部分串联组成：用于从点云数据中提取姿态特征，即空间特征的PointNet；从姿态特征序列中提取时间特征的长短时记忆网络；把提取到的时空特征映射到分类结果上的多层感知机。网络框架如图3所示。输入数据的尺寸为b×n×f，b为批处理的大小，n为点云中点的数量，f为输入维度，在本实施例中，三者分别为32，2048，3。

PointNet在网络的设计上分别应用了对称函数，局部与全局信息的聚合，校准网络以满足点云的三个主要特征。在本实施例中PointNet的输出维度为512。

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

i_t，f_t，o_t，c_t分别表示输入门，忘记门，输出门和细胞状态，x_t是t时刻的输入，⊙表示元素相乘。M：是一个仿射函数。σ是sigmod激活函数。在本实施例中，LSTM的输入维度和隐藏状态维度均为512。

x_i是输入向量的x的第i维，w_i是对应的权值，b是对应的偏置量，y是最终的输出。令L(s,n)表示输入输出维度为s和n的线性函数，ReLU表示线性整流函数，Softmax是归一化指数函数。在本实施例中，多层感知机的结构是

L(512,256)→ReLU→L(256,128)→ReLU→L(128,30)→Softmax

本文方法所用编程语言为python，计算机平台为Linux，Intel(R)Core(TM)i7-6850K CPU@3.60GHz，32GB内存，GPU为GTX1080Ti，所用的实验数据库为UWA3D。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于点云数据的人体行为识别方法，其特征在于，包括以下步骤：

1)获取基础数据，包括深度图数据、相机参数；

3)把处理过后的数据输入到网络中进行行为识别。

2.根据权利要求1所述的一种基于点云数据的人体行为识别方法，其特征在于：在步骤1)中，所述深度图数据是指通过深度图相机采集到的数据，包括深度图数据的分辨率、深度值；所述相机参数是指在采集数据时所使用的深度相机的内参数和外参数，相机内参数是与相机自身特性相关的参数，包括相机的焦距、像素大小，内参数包括射影变换本身的参数，相机的焦点到成像平面的距离，也就是焦距，以及从成像平面坐标系到像素坐标系的变换所得到的内参数矩阵K；

式中，R是旋转矩阵，t是平移向量。

3.根据权利要求1所述的一种基于点云数据的人体行为识别方法，其特征在于：在步骤2)中，对深度图做平滑处理，从深度图中得到点云数据，对得到的点云数据做归一化处理，包括以下步骤：

2.1)使用双边滤波对深度图数据做平滑处理：

2.2)深度图到点云数据的转换算法如下：

{P′_t|t＝1,...,n}＝{P_t-d|t＝1,...,n}

其中，P′_t是平移之后的点云，P_t是原始点云，t表示当前帧数，n表示当前视频总帧数，d表示平移向量；

把点云数据在Z轴上按比例缩放：

4.根据权利要求1所述的一种基于点云数据的人体行为识别方法，其特征在于：在步骤3)中，所述网络是一个端到端的深度神经网络，由三部分串联组成：用于从点云数据中提取姿态特征，即空间特征的PointNet；从姿态特征序列中提取时间特征的长短时记忆网络；把提取到的时空特征映射到分类结果上的多层感知机。