CN111428586A

CN111428586A - 基于特征融合与样本增强的三维人体姿态估计方法

Info

Publication number: CN111428586A
Application number: CN202010158977.1A
Authority: CN
Inventors: 卫志华; 崔啸萱; 赵才荣; 臧笛
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-07-17
Anticipated expiration: 2040-03-09
Also published as: CN111428586B

Abstract

本发明公开了一种基于特征融合与样本增强的三维人体姿态估计方法，涉及三维人体姿态估计与性能优化方法。首先，采用基于候选区域的全卷积网络，对图片中人体进行身体部位分类与像素点三维坐标回归；其次，采用辅助网络样本增强，对没有初始标注的样本位置进行信号补充；最后，将模型与现有效果良好的2D姿态识别模型进行特征融合，从全局姿态的角度与局部回归坐标发挥优势互补性。本发明通过特征融合技术构造基于多任务并行的人体姿态估计架构，为二维和三维姿态识别的优势互补提供有效的理论和方法；通过模拟半监督学习的方式，建立基于数据增强的辅助网络，为提升姿态识别模型泛化能力提供新的思路。

Description

基于特征融合与样本增强的三维人体姿态估计方法

技术领域

本发明属于计算机视觉领域，具体地说，涉及三维人体姿态估计与性能优化方法。

背景技术

随着人工智能的兴起，越来越多关于人类行为特征的识别、分类等深度学习系统被应用到实际生活场景中；而关于人体姿势的3D识别由于其更直观、丰富的视觉体验和更符合人类理解世界的行为模式，在人机交互、AR、VR等现实场景中具有广泛的应用途径和应用价值。

然而，在通常的计算机视觉人体姿态识别模型中，计算机对于3D世界的了解很少。与之相反的是，对于人类来说，即使在查看存在透视、遮挡、深度、场景中的人体相互关联等情况下的2D图片的时候，人的眼睛依然能够以3D空间来理解和解读。在深度学习模型中，从3D角度理解人体姿态一直面临着一些难题，涉及到应用于3D数据表示的物体的计算、从2D图像推导3D物体形状和姿态估计、从2D图像确定物体的3D姿态的变换等等。因此，面对现实背景复杂多变的情况下，如何让机器在3D空间的视角下理解人体姿态，成了计算机系统地解释和认知现实世界不可或缺的环节和亟待解决的问题。

目前基于3D姿态识别的研究大多基于两类方法：(1)基于辅助设备的3D姿态识别：通过增加辅助硬件设备(如深度传感器、六视角摄像机、可穿戴设备等)的方式，采集样本数据的三维特性，将采集的三维数据直接作为网络输入进行训练；该种方法存在设备复杂、造价昂贵、计算量庞大等问题，难以推广到日常生活与应用中；(2)基于三维骨架拟合的3D姿态识别：通过将3D人体骨架模型拟合到2D图片上的方式，来实现对输入图像中人体的3D姿态识别；该方法目前存在着样本量缺乏、预测结果模糊、二义性、错误翻转等问题，造成准确率的不理想。

因此，这些问题的存在导致3D姿态识别分析还处于未完善阶段。针对现有姿态识别方法中样本量缺乏、三维空间中姿态模糊、局部二义性等问题，需要一种能够应对复杂现实场景中对3D人体姿态更具体和精确的识别方法。

发明内容

本发明的目的在于克服现有技术不足，公开一种基于特征融合与样本增强的三维人体姿态估计方法，针对当前现实应用场景中存在的问题和困难，围绕人体姿态多尺度特征融合识别及样本增强扩充展开研究工作，实现能够应对复杂现实场景中对3D人体姿态识别做到更具体、更精确。

技术方案

一种基于特征融合与样本增强的三维人体姿态估计方法，概括为，包括三个步骤：

步骤一：部位分类与像素回归

采用基于候选区域的全卷积网络，对图片中人体进行身体部位分类与像素点三维坐标回归，其流程图如图7所示；

步骤二：辅助网络样本增强

采用辅助网络样本增强算法，对没有初始标注的样本位置进行信号补充；

步骤三：特征融合

将3D模型与现有效果良好的2D姿态识别模型进行特征融合，从全局姿态的角度与局部回归坐标发挥优势互补性。

步骤二和步骤三流程图如图8所示。

三个步骤整体流程图如图9所示

以下进一步给出具体方法过程

步骤一：部位分类与像素回归，具体为：

1.1首先将人体按照三维模型划分为若干个不同的身体部位；

1.2采用数字图像领域中的参数化方法，对每个身体部位块进行二维展开和三维坐标参数化标注；

1.3采用改进的目标分割区域建议神经网络(Mask R-CNN)对人体各身体部位进行关键点检测和语义级别的像素分割。

步骤二中，所述辅助神经网络样本增强算法可以实现样本的增强和补充。对于没有初始标注的样本位置，训练一个神经网络，来对像素点进行三维坐标预测。此算法目的在于实现对没有初始标注的样本位置进行信号补充，以取得更好的训练预测结果。具体方法过程为：

2.1利用原始样本训练一个辅助增强网络(Auxiliary Enhancement Network,AE-Net)，使其回归学习到已标注像素点与生成的预测坐标之间的关系；

2.2对未标记样本进行一系列的几何变换(翻转、缩放、旋转等)后，输入到步骤2.1训练好的AE-Net网络进行预测推断；将预测结果提供给步骤2.3；

2.3将不同变换生成的预测结果进行融合，生成未标注像素点的预测坐标，作为增强样本的新标注；提供给步骤2.4；

2.4将原始样本和增强样本一同送入原3D模型中进行训练；提供给步骤三。

步骤三中，所述特征融合算法，将原3D模型与2D姿态识别模型两个神经网络得到的特征进行融合，将不同视角下的多尺度特征进行整合。此算法目的在于从全局姿态的角度与局部回归坐标发挥优势互补性。具体方法过程为：

3.1首先，将原始3D模型与二维姿态识别模型进行连接，实现多任务交叉并行网络结构；

3.2接着，从RoIAlign层输出,后面分为两个分支，分别进行姿态识别关键点检测和原始的像素分类回归，得到前者的关键点检测任务特征图(第一路数据：2D识别中间输出)及后者的分类和坐标任务的特征图输出(第二路数据：3D识别中间输出)；

3.3将步骤3.2中两路分支的输出，和该两路分支最后一层的特征图(第三路和第四路数据)，分别通过对应1×1的卷积核组成的卷积层，使上述括号内四路数据转换成同样的维度，且该种卷积层不改变数据尺寸，只改变数据深度；提供给步骤3.4；

3.4最后，将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别(element-wise)的特征融合相加，之后送入全卷积层再次进行卷积，计算loss并得到最终优化后的输出，使模型能够发挥不同监督来源带来的协同性和互补性。

有益效果

1、本发明针对现有姿态识别方法中样本量缺乏、三维空间中姿态模糊、局部二义性等问题，提出基于特征融合与样本增强的三维人体姿态估计方法，对复杂现实场景中3D人体姿态进行更具体和精确的识别。

2、本发明使用基于辅助神经网络的样本增强算法，基于神经网络在原是样本上的训练来对没有初始标注的样本位置进行信号补充，使得3D姿态识别不再局限于样本量的缺乏和稀少，为姿态识别的准确度提升提供了保障。

具体的说，通过算法中将原模型与2D姿态识别模型两个神经网络得到的特征进行融合，将不同视角下的多尺度特征进行整合。此算法目的在于从全局姿态的角度与局部回归坐标发挥优势互补性。

3、本发明使用基于深度学习理论的特征融合算法，融合不同视角下的多尺度姿态特征，发挥全局姿态角度与局部坐标回归的优势互补性，为3D姿态识别提供新的思路。

4、本发明将丰富和拓展机器学习理论和方法，同时也为未来推动3D姿态识别分析和优化奠定理论和应用基础。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1部位分类与像素回归模型图

图2特征融合架构模型图

图3辅助网络样本增强算法流程图

图4上采样反卷积方法表示图

图5系统综合流程图

图6 3D姿态识别系统示例图

图7步骤一部位分类与像素回归流程图

图8步骤二和步骤三流程图

图9技术方案整体流程图

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题以及达成技术功效的实现过程能充分理解并据以实施。

本发明公开了一种基于特征融合与样本增强的三维人体姿态估计方法，包括以下步骤：

步骤一：部位分类与像素回归

1.1在本实施例中，采用COCO数据集中的人体样本数据集，共5万张图片。数据集中图片包含场景复杂、不同形态、不同尺寸的目标人体；其中划分训练集4.8万张，测试集2千张。

1.2将人体按照三维模型划分为若干个不同的身体部位，并采用数字图像领域中的参数化(Parameterization)方法，对每个部位块进行二维展开和三维坐标参数化标注，每个三角网格和它的uv平面上对应仿射变换关系；对于一个在x，y，z坐标系上的三维模型，将曲面的x、z坐标归一化到一个半径为r的圆柱面上。设3D模型

(m为自然数)，其中x_j∈R³是三维空间网格的定点位置；令U∈R² ^×m，则映射函数Ψ具有如下形式：

Ψ(x_j)→u_j (1)

Ψ^-1(u_j)→x_j (2)

u_j∈U；

其中：

参数h与v对照于上述uv平面中的水平方向与垂直方向。

1.3在此基础上，使用深度学习方法对标注后的样本集进行训练，采用改进的目标分割区域建议神经网络(Mask R-CNN)对人体各部位进行关键点检测和语义级别的像素分割，Mask R-CNN网络模型如图1所示。

首先，图像由经典卷积神经网络处理生成特征图，得到特征图后经过候选框生成网络层(Region Proposal Network,RPN)，在RPN阶段分别经过3X 3和1X1的卷积得到若干个包含分数和坐标的结果，再结合预先定义的边框，经过回归修正等后处理得到候选框的精确坐标和大小。RPN网络的代价函数定义如下:

其中，i表示第i个小窗口候选框，p_i是第i个小窗口候选框为目标的预测概率，当候选框是正例

等于1，反例等于0；t_i是一个四维向量，表示预测边界框的参数化坐标，

表示和正例小窗口相关联的真值边界框；L_cls和L_reg分别表示分类和回归的损失函数，N_cls、N_reg和λ为平衡参数。

接着，将图像送入两个通路：一个用于生成回归框和预测类别；另一路在生成掩码(Mask)的基础上，使用回归系统来精确定位该身体部位内每一个像素的uv坐标。对于某一像素点，先分类并计算该像素所在具有最高后验概率的身体部位，再使用回归器将该点进行特定部位下的uv坐标参数化；在训练过程中，身体部位的分类使用交叉熵损失，坐标回归使用平滑L₁损失；当像素在特定身体部位范围内的时候，其回归部分的loss才会作为被算入；平滑L₁损失函数的定义公式如下：

经过上述网络之后，实现人体各部位的关键点坐标预测和语义级别的像素分割。

步骤二：辅助网络样本增强

2.1利用原始训练集样本(即上述训练集4.8万张)训练一个辅助增强网络(Auxiliary Enhancement Network,AE-Net)，使其回归学习到已标注像素点与生成的预测坐标之间的关系，其流程如图3所示。辅助网络采用全卷积结构进行训练和预测，全卷积网络构造流程如下：

步骤2.1.1将传统卷积神经网络(CNN)的最后一层全连接层改为全卷积层，即全卷积化(fully convolution)。

步骤2.1.2采用反卷积层对最后一个卷积层的特征图(feature map)进行上采样(upsampling)，将卷积层输出的特征图还原成原始图片大小。

反卷积(Deconvolution)也称为分数步长卷积(convolution with fractionalstrides)或者转置卷积(transpose convolution)，在卷积神经网络中常用于表示一种反向卷积上采样方式。但它并不是一个符合严格数学定义的反卷积操作，使用反卷积来对图像进行上采样是可以习得的。假设常规的卷积操作模式下的滑动步长为S，图片大小为N₁xN₁，卷积核大小为N₂xN₂，则卷积后图像的大小为：

(N₁-N₂)/S+1x(N₁-N₂)/S+1 (4)

为了要让经过卷积的结果回到卷积前的模样，则须进行如图4所示的反卷积操作，在反向卷积的基础上加上padding操作，输出特征图还原成原始图片大小。

步骤2.1.3利用上一步骤2.1.2所述的上采样操作对最后一层的特征图进行上采样得到原图大小的分割，由于最后一层的特征图太小，会损失很多细节。为此，本发明采用跳级结构(Skips)对前几层卷积层也同样进行反卷积，并将有更富的全局信息的最后一层预测和有更多的局部细节的更浅层的预测结合起来，将各层反卷积后的特征图进行结合，并利用插值补充细节。最后得到的输出为上采样到原图的大小的结果，从而完成对整个图像的像素级别预测。

2.2对未标记样本进行一系列不同的几何变换(翻转、缩放、旋转等)后，输入训练好的AE-Net网络进行预测推断；

2.3将不同变换生成的预测结果通过取平均值的方式进行融合，对每个未标注像素点生成预测的坐标，并部署在原大小的图像域上，作为增强样本的新标注。同时，为了减小误差获得更精确的结果，在结果中剔除背景区域的预测，只保留对标记为人体的区域的预测。

2.4将原始样本和增强样本一同送入3D原模型中进行训练，即可实现样本的增强和补充，以取得更好的训练预测结果。

步骤三：特征融合

在本实例中，采用基于深度学习理论的特征融合算法，将3D原模型与2D姿态识别模型两个神经网络得到的特征进行融合，将不同视角下的多尺度特征进行整合，从全局姿态的角度与局部回归坐标发挥优势互补性。如图2所示，基于深度学习理论的特征融合算法步骤如下：

3.1首先，将原始模型与二维姿态识别模型进行连接，实现多任务交叉并行网络结构；

3.3将步骤3.2中两路分支的输出，和该两路分支最后一层的特征图(第三路和第四路数据)，分别通过对应1×1的卷积核组成的卷积层，使上述括号内四路数据转换成同样的维度，且该种卷积层不改变数据尺寸，只改变数据深度；

3.4最后，将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别(element-wise)的特征融合相加，之后送入全卷积层再次进行卷积，计算loss并得到最终优化后的输出。特征融合使模型关注到了原来所没有的上下文特征和语义细节，增加了监督学习的广度和深度，从而进一步提升了模型识别效果，发挥了不同监督来源带来的协同性和互补性。

本实施例的综合流程图如图5所示，系统示意图如图6所示。

上述说明展示并描述了本发明的若干具体实施方案，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

创新点

本项目的特色在于从3D人体姿态识别的实际需求出发，通过3D人体姿态识别的训练特征融合、数据样本增强方法，达到对三维人体坐标的精确预测，进而实现更精准的三维人体姿态估计。这是一个环环相扣、逐级递增的过程，在增强样本优化算法的基础上再通过特征融合算法进一步增加深度学习的预测准确度，对于实际应用而言，具有较强的可解释性和更灵活的兼容能力。

以VR、人机交互等一些实际应用为背景，就三维人体姿态的特征融合识别架构和辅助网络样本增强的理论和方法开展研究工作。首先，采用基于候选区域的全卷积网络，对图片中人体进行身体部位分类与像素点三维坐标回归；其次，采用辅助网络样本增强，对没有初始标注的样本位置进行信号补充；最后，将模型与现有效果良好的2D姿态识别模型进行特征融合，从全局姿态的角度与局部回归坐标发挥优势互补性。本发明通过特征融合技术构造基于多任务并行的人体姿态估计架构，为二维和三维姿态识别的优势互补提供有效的理论和方法；通过模拟半监督学习的方式，建立基于数据增强的辅助网络，为提升姿态识别模型泛化能力提供新的思路。本发明将丰富和拓展机器学习理论和方法。

创新之一：基于辅助网络的样本增强

传统3D姿态识别由于样本的局限性而存在姿态识别精细度缺乏、预测结果不够具体等问题，本项目突破传统3D姿态识别中样本较为稀缺的局限性，在现有样本的基础上通过辅助网络训练，对现有三维标注样本进行信号补充和数据增强，然后将训练融合后的增强3D样本和原有3D样本送入模型中共同进行训练识别，使得监督更加有效，三维姿态识别更加精细和具体，提高了模型的识别准确度及模型的泛化能力。

创新之二：基于特征融合的识别模型

传统的3D姿态识别模型聚焦于局部的身体部位三维重塑，而忽略了作为人类整体的姿态协调性。本项目通过将人体全局姿态特征与局部三维特征相融合的方式，既进行了精细的局部三维重塑，又从全局姿态的角度关注到了人体的整体走向，使模型关注到了原来所没有的上下文特征和语义细节，增加了监督学习的广度和深度，发挥了不同监督来源带来的协同性和互补性，从而进一步提升了模型识别效果。

Claims

1.一种基于特征融合与样本增强的三维人体姿态估计方法，其特征在于，包括三个步骤：

步骤一：部位分类与像素回归

采用基于候选区域的全卷积网络，对图片中人体进行身体部位分类与像素点三维坐标回归；

步骤二：辅助网络样本增强

步骤三：特征融合

2.如权利要求1所述的基于特征融合与样本增强的三维人体姿态估计方法，其特征在于，

步骤一：部位分类与像素回归，具体为：

1.1首先将人体按照三维模型划分为若干个不同的身体部位；

3.如权利要求2所述的基于特征融合与样本增强的三维人体姿态估计方法，其特征在于，

步骤一：

1.1采用人体样本数据集，数据集中图片包含场景复杂、不同形态、不同尺寸的目标人体；其中划分训练集和测试集。

(m为自然数)，其中x_j∈R³是三维空间网格的定点位置；令U∈R^2×m，则映射函数Ψ具有如下形式：

Ψ(x_j)→u_j (1)

Ψ^-1(u_j)→x_j (2)

u_j∈U；

其中：

参数h与v对照于上述uv平面中的水平方向与垂直方向。

1.3使用深度学习方法对标注后的样本集进行训练，采用改进的目标分割区域建议神经网络(Mask R-CNN)对人体各部位进行关键点检测和语义级别的像素分割。

首先，图像由经典卷积神经网络处理生成特征图，得到特征图后经过候选框生成网络层(Region Proposal Network,RPN)，在RPN阶段分别经过3X3和1X1的卷积得到若干个包含分数和坐标的结果，再结合预先定义的边框，经过回归修正等后处理得到候选框的精确坐标和大小。RPN网络的代价函数定义如下:

步骤二：

2.1利用原始训练集样本训练一个辅助增强网络(Auxiliary Enhancement Network,AE-Net)，使其回归学习到已标注像素点与生成的预测坐标之间的关系。辅助网络采用全卷积结构进行训练和预测，全卷积网络构造流程如下：

(N₁-N₂)/S+1x(N₁-N₂)/S+1 (4)

为了要让经过卷积的结果回到卷积前的模样，进行反卷积操作，在反向卷积的基础上加上padding操作，输出特征图还原成原始图片大小。

步骤2.1.3利用上一步骤2.1.2所述的上采样操作对最后一层的特征图进行上采样得到原图大小的分割，由于最后一层的特征图太小，会损失很多细节。采用跳级结构(Skips)对前几层卷积层也同样进行反卷积，并将有更富的全局信息的最后一层预测和有更多的局部细节的更浅层的预测结合起来，将各层反卷积后的特征图进行结合，并利用插值补充细节。最后得到的输出为上采样到原图的大小的结果，从而完成对整个图像的像素级别预测。

2.3将不同变换生成的预测结果通过取平均值的方式进行融合，对每个未标注像素点生成预测的坐标，并部署在原大小的图像域上，作为增强样本的新标注。同时，在结果中剔除背景区域的预测，只保留对标记为人体的区域的预测。

2.4将原始样本和增强样本一同送入3D原模型中进行训练，即可实现样本的增强和补充。

步骤三：特征融合

将3D原模型与2D姿态识别模型两个神经网络得到的特征进行融合，将不同视角下的多尺度特征进行整合，从全局姿态的角度与局部回归坐标发挥优势互补性。算法步骤如下：

3.2接着，从RoIAlign层输出,后面分为两个分支，分别进行姿态识别关键点检测和原始的像素分类回归，得到前者的关键点检测任务特征图及后者的分类和坐标任务的特征图输出；

3.3将步骤3.2中两路分支的输出，和该两路分支最后一层的特征图，分别通过对应1×1的卷积核组成的卷积层，使上述括号内四路数据转换成同样的维度，且该种卷积层不改变数据尺寸，只改变数据深度；

3.4最后，将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别(element-wise)的特征融合相加，之后送入全卷积层再次进行卷积，计算loss并得到最终优化后的输出。