CN110766746A

CN110766746A - 一种基于联合2d-3d神经网络的3d驾驶员姿态估计方法

Info

Publication number: CN110766746A
Application number: CN201910837845.9A
Authority: CN
Inventors: 刘亚洲; 姚智杰
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-02-07
Anticipated expiration: 2039-09-05
Also published as: CN110766746B

Abstract

本发明公开了一种基于联合2D‑3D神经网络的3D驾驶员姿态估计方法。该方法是基于点云和红外图像的两种输入，通过卷积神经网络模型得到驾驶员的上半身关节点的三维坐标，在3D空间中重建人体骨骼。与传统的方法相比，利用卷积神经网络的本方法大大提高了在3D姿态估计上的精度。

Description

一种基于联合2D-3D神经网络的3D驾驶员姿态估计方法

技术领域

本发明涉及模式识别和视频分析领域，更具体地说，是一种基于联合2D-3D神经网络的3D驾驶人姿态估计方法。

背景技术

人体姿态估计是计算机视觉领域中的一个重要的研究课题,且被广泛的使用在多个应用中，如虚拟现实，增强现实和安全警告。基于深度学习的驾驶员姿态估计是指在有驾驶员驾驶的图片或视频中标记出驾驶员上半身的关节点位置。面对真实的驾驶环境，我们需要得到更精准的检测结果、能够实现实时性结果反馈以及更好拟合现实三维空间(3D姿态估计)。

在过去的工作中，大多数的3D人体姿态估计技术都是依赖于两种形式的输入：RGB图像和深度图像。RGB图像很容易受到像阴影和光照变换等因素的影响。因此，TOF作为一种能够同时捕捉红外图像和深度图像的成像设备被引入进来。作为客观世界的一种基本表达，3D物体经常被不同的模态数据表示，例如点云、多视图、体素和网格。深度图在本质上是一系列点的集合。因此，我们可以通过组合不同来源的数据信息得到更加精确的人体3D姿态估计。

姿态估计方法可以分为传统的姿态估计方法和基于深度学习的姿态估计方法。传统的姿态估计方法分为两步：建立人体模型和通过数字图像处理提取特征。基于传统的姿态估计方法具有简单直观、速度快的优点，但其准确度低且应对尺度变化的能力差。随着深度学习在多个计算机视觉任务上的成功，其也被引入到姿态估计的领域中。基于深度学习的姿态估计方法也包含两个关键步骤：特征提取和回归器训练。不同于传统方法中人工提取特征，深度学习使用多层卷积神经网络来自动提取特征。回归器的训练是指与数据集的标签作对比使用反向传播来进行网络参数的更新。目前主流的姿态估计方法包括StackedHourglass，CPM，Openpose，REN等。但是这些方法普遍存在两个问题：(1)卷积网络叠加层数太多，参数太多，运行速度慢。(2)3D姿态估计精度还不够好。以上两点的不足很难将3D人体姿态估计应用到实时驾驶员姿态估计中。

发明内容

本发明的目的在于，针对上述3D人体姿态估计方法中，人工提取图像特征费时低效，深度学习方法中神经网络模型复杂，检测速度缓慢的问题，检测精度不够高的问题，提出了一种以红外图像和点云作为特输入，适用于驾驶环境的基于联合神经网络的3D驾驶员姿态估计方法。

实现本发明目的的技术解决方案为：一种基于联合神经网络的3D驾驶员姿态估计方法，包括设计神经网络、训练神经网络和检测三个过程：

神经网络构建过程包括以下步骤：

1)设计神经网络的主要模块PointConvNet和ImgConvNet；

2)将PointConvNet和ImgConvNet的特征联结后接上全连接层，设定输出维度(关节点个数×3)。

训练神经网络过程包括以下步骤：

3)获取有红外图像和深度图像以及有关节点标签的驾驶员图片集合，将深度图像转换成点云数据并进行预处理，将红外图像和点云数据以及关节点标签转换成输入标准格式；其中70％作为训练集，30％作为测试集；

4)初始化神经网络的参数；

5)通过不断迭代前向传播过程、反向传播过程训练神经网络模型；

姿态估计过程包括以下步骤：

6)输入测试数据，利用由训练过程得到的神经网络模型计算得到检测结果(数值)即每个关节点三维坐标的位置；

7)根据检测结果在三维空间中用圆点标出每个关节点的位置，并用直线将相关联的关节点连接。

上述方法中，所述步骤1)包括以下具体步骤：

11)设计1层卷积核大小为1×3的卷积层，4层卷积核大小为1×1的卷积层，一层2×2的池化层以及一个残差连接组成PointConvNet，5层卷积层中滤波器的个数分别是64,64,64,128,2048；

12)设计5层卷积层，3层2×2的池化层组成以及2层全连接层组成ImgConvNet，5层卷积层滤波器的个数分别是48,128,192,192,128；

上述方法中，所述步骤2)包括以下具体步骤：

21)神经网络模型使用PointConvNet和ImgConvNet分别从点云和红外图像中提取特征；

22)将提取的特征拼接起来，接上4层全连接层，维度分别为1024,512,256，3×9；

上述方法中，所述步骤3)包括以下具体步骤：

31)预处理数据集的标签信息，将每张图像的每个关节点标签格式化为(x_i,y_i,z_i)写入一个h5文件中。其中x,y,z是关节点在三维空间中的坐标，i是驾驶员的第i个关节点；

32)预处理输入红外图像，进行归一化，存储到h5文件；

33)预处理点云，包含从深度图转换到点云，删除深度值为0的无效点；划定驾驶员的活动范围来限制区域；对点云进行随机下采样至统一的个数；

上述方法中，所述步骤4)包括以下具体步骤：

41)初始化学习率，迭代轮数，batch；

42)采用标准初始化方法初始化权重参数；

上述方法中，所述步骤5)包括以下具体步骤：

51)根据输入数据和标签信息进行网络的前向传播，计算损失函数大小；

52)如果迭代次次数大于最大迭代次数结束训练；

53)由计算得到的损失函数值，进行神经网络反向传播计算，更新神经网络各层的权重参数；

54)迭代次数加1，调到步骤51)；

上述方法中，所述步骤6)包括以下具体步骤：

61)从h5文件中输入待检测数据；

62)根据训练好的神经网网络模型和输入数据计算得到检测结果。

上述方法中，所述步骤7)包括以下具体步骤：

71)在三维空间中标出驾驶员的关节位置，将相关联的关节连接起来，重建人体骨骼；

72)将检测结果保存到文件中。

与现有技术相比，本发的明显著优点在于：其一，使用深度学习中卷积神经网络提取特征用于目标检测，而非手工设计特征，不仅效率高，准确率也得到了提高；其二，设计的神经网络模型相比其他深度学习方法中复杂的网络模型，计算速度更快。其三，对于带有无效点的点云数据，我们的网络模型鲁棒性更强，更高效。其四，使用多种形式数据组合输入，进一步提高了精度。

附图说明

图1是PointConvNet的结构组成。

图2是ImgConvNet的结构组成。

图3是神经网络模型的组成。

图4是本发明的训练过程。

图5是点云数据预处理过程。

图6是本发明的可视化检测结果图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明的姿态估计方法包括神经网络构建、神经网络训练、姿态重建三个主要过程。

神经网络构建过程是指设计合理神经网络层数，在神经网络的每一层使用最优的卷积核个数，并将重复使用的多层卷积层和池化层封装了模块。包括以下具体步骤：

首先，我们设计PointConvNet负责提取点云形式的输入数据的基本特征，如图1所示。PointConvNet由五层卷积层，一层池化层和一个残差连接组成。五层卷积层在前，一层池化层在后。第一层卷积层的卷积核大小都是1×3，后面四层卷积层的卷积核大小为1×1，滤波器的个数分别是64,64,64,128,2048，池化层大小为2×2。PointConvNet的作用是从点云信息中提取高级特征。池化层被用来作为一个对称函数从所有点集中聚集信息。残差连接设置在两个通道数为64的卷积层之间，能够得到更好的泛化表现和减少训练时间。

由于TOF相机容易受到光照和不同物体材质反射的影响以及遮挡的不连续，所以相机生成的深度图带有严重的噪声。为了提取有效的信息，我们需要对噪声进行处理，主要分为两个步骤：(1)对深度图进行预处理；(2)设计带有去噪功能的PointConvNet中的卷积结构。卷积结构中卷积核为1×3的卷积层首先被设置用来整合坐标信息(x,y,z)，接着用4个1×1卷积(即点乘卷积)来平等和独立地从低级到高级提取特征。

ImgConvNet由五层卷积层的卷积核，三层池化层以及两个全连接层组成，如图2所示。第一层是卷积核为7×7的卷积层，第二层是2×2的池化层，第三层是卷积核为5×5的卷积层，第四层是2×2的池化层，第五、六、七层分别是卷积核为3×3、3×3、5×5的卷积层，第八层是2×2的池化层，第九层是维度为4096的全连接层，第十层是维度为2048的全连接层。ImgConvNet的作用是从红外图像中提取高级特征。

我们设计并使用PointConvNet和ImgConvNet模块作为神经网络的主体部分，用来提取不同数据的抽象特征。两个模块生成的特征维度为(32，2048)连接后得到维度为(32,4096)的特征。后面连接4层全连接层，融合所有特征，维度分别是1024,512,256，27。整体结构如图3所示。

深度神经网络的训练过程是通过梯度下降法训练模型中的参数，自动学习图像中具有的层次特征，如图4所示。包括以下具体步骤：

预处理训练集过程41。在这里说明，本发明使用的训练集是Driver数据集，包含深度图，红外图像以及关节标注点。图片一共有62000张，共78个动作序列，每张图片大小为96×120。每张图片有9个标注关节点，包括：头，脖子，腰，左肩，左肘，左手，右肩，右肘，右手。我们使用52000张图片做训练和10000张图片做测试。点云数据来自于深度图，需要经过如图5所示的几个预处理步骤：转换，去除无效点，限制区域，采样。红外图像的矩阵表示在输入前进行归一化。将处理好的训练集作为神经网络的输入。

初始化训练参数和权重参数42。迭代轮数epoch＝81,一次输入的图像数batch＝32，初始学习率为0.002。我们使用xavier初始化权重参数，使得神经网络在开始训练的时候不会出现发散和梯度消失的情况。

前向传播过程43。前向传播即计算输入数据在神经网络每一次的输出。深层神经网络包含一个输入层，多个中间层，一个输出层，每一层可以表示为非线性映射过程。样本x在第m层的输入计算公式如下：

其中，

表示网络的m层和m-1层之间的权重矩阵，

表示偏移参数，p^(m)表示m层的节点数目，

表示非线性激励函数，通常使用tanh、sigmoid或者ReLU函数。

计算损失函数过程44。本发明使用的均方误差损失函数如下：

其中N代表图片的总数而Y_n是在第n个数据上的ground truth。我们的输入是一系列的三维信息点云P和二维的红外图像I。我们的输出是一系列的三维关节点J。我们的目的是在N个姿态的数据集上最小化损失函数f，得到P,I→3*J。

通过计算得到的损失函数和阈值比较，如果损失函数值小于阈值或者此时的迭代次数大于最大迭代次数，则结束训练过程45。否则执行反向传播过程46。反向传播过程通过计算损失函数关于某一节点的偏导数，使用梯度下降算法更新网络的权重参数。在链式法则中，关于每个神经元的梯度可以如下表示：

其中L表示损失函数，

是在l层上一个神经元的权重。

网络权重的更新参数如下：

其中n表示第n次权重w的迭代，η表示学习率。

反向传播过程更新网络权重参数结束后，跳转前向传播过程43。

本发明的姿态估计过程是指输入测试数据(从TOF相机中捕捉的数据)，通过神经网络模型的计算，给出检测的结果。包含以下具体步骤：

(1)数据预处理。将相机传来的数据进行预处理，得到可以输入的形式。

(2)使用训练好的网络模型计算3D关节点。

(3)在三维空间中重建人体骨架并保存坐标数据。

这里需要着重指出，相比于其他的3D姿态估计方法，本发明的准确度有了进一步的提升。和目前较先进的处理点云的深度网络PointNet和PointNet++，本发明设计的卷积神经网络，获得同等准确度的前提下取得了至少30％的检测速度提升。图6给出了本发明的部分姿态估计结果可视化视图。

目前较为流行的基于神经网络的姿态估计方法存在卷积网络叠加层数太多，参数太多，运行速度慢的问题。现在的姿态估计都是基于单一的输入数据如RGB图或深度图实现的，这种单一数据使得数据的信息不够多样化，精度的提升存在一定的问题。针对这些问题并结合驾驶员驾驶时的真实情况如天气和光照变换等，一方面采用点云和红外图像作为双输入，先分别提取特征后联结融合，最后输出关节坐标信息，另一方面设计轻量化的神经网络模型结构，在不损失精度的前提下提高模型运行速度，实现实时性反馈。通过TOF相机中获取深度图像和红外图像，点云由深度图转化而来。深度图带有严重的噪声，在输入前需要进行点云转化和局部去噪操作。设计的神经网络模块也实现了一定程度的去噪功能。实验结果表明，该方法通过数据的预处理，组合多种输入，设计精简网络模型等方式达到了实时反馈驾驶员3D姿态的要求。实验获得了较为理想的效果，对于驾驶安全监测、虚拟现实、增强现实等方向具有重要的实际意义。

对于本领域普通技术人员来说，上述的每个功能都可以采用硬件、软件或硬件和软件的适当的组合方式实现，应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于联合2D-3D神经网络的3D驾驶员姿态估计方法，其特征在于：包括设计卷积神经网络、训练卷积神经网络和关节点定位三个过程：

设计卷积神经网络，包括以下步骤：

1)设计卷积神经网络的模块PointConvNet和ImgConvNet；

2)将PointConvNet和ImgConvNet的特征联结后接上全连接层，设定输出维度，即关节点个数×3；

训练卷积神经网络，包括以下步骤：

4)初始化神经网络的参数；

5)通过不断迭代前向传播、反向传播训练神经网络模型；

关节点定位，包括以下步骤：

6)输入测试数据，利用由训练过程得到的神经网络模型计算得到检测结果即每个关节点三维坐标的位置；

2.根据权利要求1所述的方法，其特征在于，所述步骤1)包括以下具体步骤：

11)设计1层卷积核大小为1×3的卷积层，4层卷积核大小为1×1的卷积层，一层2×2的池化层以及一个残差连接组成PointConvNet，5层卷积层中滤波器的个数分别是64,64,64,128,2048；残差连接设置在两个通道数为64的卷积层之间；

12)ImgConvNet由五层卷积层的卷积核，两个池化层以及两个全连接层组成；第一层是卷积核为7×7的卷积层，第二层是2×2的池化层，第三层是卷积核为5×5的卷积层，第四层是2×2的池化层，第五、六、七层分别是卷积核为3×3、3×3、5×5的卷积层，第八层是2×2的池化层，第九层是维度为4096的全连接层，第十层是维度为2048的全连接层。

3.根据权利要求1所述的方法，其特征在于，所述步骤2)包括以下具体步骤：

21)卷积神经网络模型使用PointConvNet和ImgConvNet分别从点云和红外图像中提取特征；

22)将提取的特征拼接起来，接上4层全连接层，维度分别为1024,512,256,27。

4.根据权利要求1所述的方法，其特征在于，所述步骤3)包括以下具体步骤：

31)预处理数据集的标签信息，将每张图像的每个关节点标签格式化为(x_i,y_i,z_i)写入一个h5文件中；其中x,y,z是关节点在三维空间中的坐标，i是驾驶员的第i个关节点；

32)预处理输入红外图像，进行归一化，存储到h5文件；

33)预处理点云，包含以下步骤，从深度图转换到点云；删除深度值为0的无效点；划定驾驶员的活动范围来限制区域；对点云进行随机下采样至统一的个数。

5.根据权利要求1所述的方法，其特征在于，所述步骤4)包括以下具体步骤：

41)初始化训练参数：学习率α＝0.002,迭代轮数epoch＝81,一次输入的图像数batch＝32；

42)使用xavier初始化权重参数，使得神经网络在开始训练的时候不会出现发散和梯度消失的情况。

6.根据权利要求1所述的方法，其特征在于，所述步骤5)包括以下具体步骤：

51)前向传播即计算输入图像在神经网络每一次的输出；深层神经网络包含一个输入层，多个中间层，一个输出层，每一层表示为非线性映射过程；样本x在第m层的输入计算公式如下：