CN110647991B

CN110647991B - 一种基于无监督领域自适应的三维人体姿态估计方法

Info

Publication number: CN110647991B
Application number: CN201910885280.1A
Authority: CN
Inventors: 耿卫东; 张锡恒
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-04-05
Anticipated expiration: 2039-09-19
Also published as: CN110647991A

Abstract

本发明公开了一种基于无监督领域自适应的三维人体姿态估计方法，步骤如下：设计一种无监督基于领域自适应方法的深度学习框架；在虚拟生成的深度图像数据集上训练神经网络模型，并将领域知识编码到神经网络模型中；将包含领域知识的神经网络模型迁移到RGB图像领域；在RGB图像数据集上利用迁移的领域知识以无监督的方式进行训练，得到能够从RGB图像中估计三维人体姿态的神经网络模型；将测试数据输入到训练得到的最佳参数模型中，得到预测的三维人体姿态。本发明方法能够在没有三维人体姿态真实值的RGB图像数据集上训练三维人体姿态估计模型，并得到准确的三维人体姿态估计结果。

Description

一种基于无监督领域自适应的三维人体姿态估计方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于无监督领域自适应的三维人体姿态估计方法。

背景技术

人体姿态估计是指从输入的图像或者视频中，估计出人体关节点的坐标。因其广泛的应用场景，越来越受到学术界和工业界的关注，例如人机交互，隐私保护，行为识别，虚拟现实，游戏建模等场景都需要用到人体姿态估计技术。二维的人体姿态估计发展迅速，因为目前有大量的公开的有标注的数据集能够支撑我们训练一个复杂的神经网络模型。然而三维人体姿态估计仍然是一个具有挑战的问题，因为收集大量有标注的三维人体姿态数据集十分费时费力，并且场景限制在室内中。

为了解决训练数据缺少的问题，前人主要采用了弱监督学习方法来减少需要的训练数据量，或者是虚拟生成尽量真实的RGB图像，来增加训练集样本的数量。但是，弱监督学习方法通常需要额外的监督信息，例如多视角下的相机参数；虚拟生成RGB图像需要考虑人体穿着衣物的纹理，光照和背景等因素，这些工作需要耗费大量的精力和时间。

为了解决这个问题，本发明提出了基于无监督领域自适应的深度学习框架，借助虚拟生成的深度图像来帮助在缺少三维人体姿态真实值的RGB数据集上训练神经网络模型。使用虚拟生成的深度图像的好处是在生成时不需要考虑人体穿着衣物的纹理，光照和背景等因素，并且深度图像与RGB图像相比包含有额外的深度信息，能够使得模型的预测结果更加准确。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于无监督领域自适应的三维人体姿态估计方法，将领域知识从深度图像领域迁移到RGB图像领域，以无监督的方式在RGB图像领域上训练深度神经网络模型，然后利用训练好的模型从RGB图像中估计出人体的三维姿态。

本发明的目的是通过以下技术方案来实现的：一种基于无监督领域自适应的三维人体姿态估计方法，包括如下步骤：

(1)获取三维人体姿态数据集，包括以下子步骤：

(1.1)从虚拟生成的深度图像数据集中获取包含人体的虚拟深度图像、人体部位分割图、二维人体姿态真实值、三维人体姿态真实值；

(1.2)从RGB图像数据集中获取包含人体的RGB图像、三维人体姿态真实值；

(1.3)将RGB图像数据集划分为训练集和测试集；

(2)设计基于无监督领域自适应的深度学习神经网络框架，包括以下步骤：

(2.1)设计分别以深度图像、人体部位分割图和RGB图像作为输入的姿态估计器模块，其模型结构由卷积神经网络构成，分为编码器和解码器两个部分，编码器对输入的图像进行特征提取，解码器将提取的特征解码为关节点体素热力图，由体素热力图可以得到预测的二维人体姿态和三维人体姿态；

(2.2)设计从二维人体姿态生成人体部位分割图的分割模块，其模型结构由反卷积神经网络构成，反卷积神经网络的输入是二维人体姿态和关节点体素热力图预测的每个关节点的深度值，输出是预测的人体部位分割图和每个部位的深度值，分割模块的作用是作为连接深度图像领域与RGB图像领域的桥梁，使得深度图像和RGB图像不需要匹配成对输入，因此任意的深度图像数据集都可以将领域知识迁移到任意的RGB图像数据集；

(2.3)设计用于将提取特征进行领域分类的领域分类器模块，其模型结构由梯度反转层和softmax层构成，输入是不同输入的姿态估计器的中间层特征，输出是输入特征被分类为哪一个领域，梯度反转层的作用是将由分类损失计算的梯度值进行反转，迫使姿态估计器努力学习出无法被区分领域的特征，而领域分类器则努力分类出特征所属的真实领域，这种对抗学习的训练方式，使得不同领域之间能够相互自适应，同时达到领域知识的迁移效果；

(3)在虚拟生成的深度图像数据集上，使用步骤(2)设计的深度学习神经网络框架，训练神经网络模型，将领域知识编码到神经网络模型中，具体步骤如下：

(3.1)将深度图像I_d输入到姿态估计器E^d(D^d(·))中，得到预测的二维人体姿态

和三维人体姿态

(3.2)将人体部位分割图I_s输入到姿态估计器E^s(D^s(·))中，得到预测的三维人体姿态

(3.3)根据预测的三维人体姿态

和

分别与三维人体姿态真实值P_g计算损失

和

(3.4)将预测的二维人体姿态

输入到分割模块G，生成预测的人体部位分割图

(3.5)根据预测的人体部位分割图

和真实的人体部位分割图I_s，计算损失

(3.6)将姿态估计器E^d(D^d(·))和E^s(D^s(·))中学习到的中间层特征输入到领域分类器中，通过领域分类器输出领域分类结果

(3.7)根据领域分类结果

与特征所属的真实领域l计算分类损失

(3.8)根据步骤(3.3)，(3.5)，(3.7)中得到的损失乘以权重相加，计算梯度，反向传播优化所有神经网络模型的参数；

(4)将步骤(3)中得到的最佳参数的姿态估计器E^s(D^s(·))和分割模块G迁移到RGB图像数据集上；

(5)在RGB图像数据集的训练集上利用迁移的领域知识以无监督的方式进行训练，不需要三维人体姿态真实值，具体步骤如下：

(5.1)将RGB图像输入姿态估计器E^r(D^r(·))，得到预测的二维人体姿态

和三维人体姿态

(5.2)将预测的二维人体姿态

输入分割模块G中，得到预测的人体部位分割图；

(5.3)将预测的人体部位分割图输入到姿态估计器E^s(D^s(·))中，得到预测的三维人体姿态

(5.4)根据预测的三维人体姿态

和

计算损失

(5.5)将姿态估计器E^r(D^r(·))和E^s(D^s(·))中学习到的中间层特征输入到领域分类器中，通过领域分类器输出领域分类结果

(5.6)根据领域分类结果

与特征所属的真实领域l计算分类损失

(5.7)根据步骤(5.4)，(5.6)中得到的损失乘以权重相加，计算梯度，反向传播优化E^r(D^r(·))的参数，并且保持姿态估计器E^s(D^s(·))和分割模块G的网络参数固定不变；

(6)将RGB图像数据集的测试集输入由步骤(5)得到的最优模型参数的姿态估计器E^r(D^r(·))中，输出预测的三维人体姿态。

进一步地，所述步骤(1)中，虚拟生成的深度图像数据集采用公开数据集UBC3V，RGB图像数据集采用公开数据集Human3.6M，将数据集Human3.6M中subject 1，5，6，7，8的数据作为训练集，subject9，11作为测试集，将测试集中的视频数据每隔64帧取样一次，作为测试样本。

进一步地，所述步骤(2.1)中，所述姿态估计器模块的编码器为ResNet-50结构，解码器为核大小4×4，步长为2的反卷积层，姿态估计器的输入是大小为256×256的图像，输出是大小为，×64×64×64的关节点体素热度图，J为关节点个数。

进一步地，所述步骤(2.2)中，所述分割模块的结构为DCGAN(Radford，Alec，LukeMetz，and Soumith Chintala.″Unsupervised representation learning with deepconvolutional generative adversarial networks.″arXiv preprint arXiv：1511.06434(2015).)的生成器部分，输入是二维人体姿态的关节点坐标和每个关节点的深度值，大小为J×3，J为关节点个数，输出是预测的人体部位分割图和每个部位的深度值，大小为256×256×12。

进一步地，所述步骤(2.3)中，所述领域分类器中，梯度反转层由两层大小为1024的全连接网络构成。

进一步地，所述步骤(3.3)中，损失

和

所述步骤(5.4)中，损失

其中

的计算公式为：

进一步地，所述步骤(3.5)中，损失

的计算公式为：

其中，k代表图像I中的像素总数，N_s代表训练样本的总数。

进一步地，所述步骤(3.7)和(5.6)中，分类损失

的计算公式为：

其中，N_s代表训练样本的总数。

进一步地，所述步骤(3.8)中，损失

和

相加时，四者的权重分别为0.4，0.4，0.15，0.05。

进一步地，所述步骤(5.7)中，损失

与分类损失

相加时，两者的权重分别为0.95与0.05。

本发明的有益效果是：本发明提出一种基于无监督领域自适应的三维人体姿态估计方法，将领域知识从深度图像领域迁移到RGB图像领域，以无监督的方式在RGB图像领域上训练深度神经网络模型从RGB图像中估计出人体的三维姿态。与已有发明中利用虚拟生成的RGB图像来扩充训练数据集的方法相比，该方法生成虚拟深度图像，不需要考虑人体穿着衣物的纹理，光照和背景等因素，更易于生成，并且深度图像与RGB图像相比包含有额外的深度信息，能够使得模型的预测结果更加准确。与已有发明中需要包含三维人体姿态真实值的RGB图像数据集来训练神经网络模型的方法相比，该方法能够在没有三维人体姿态真实值的RGB图像数据集上训练神经网络模型，并得到准确的三维人体姿态估计结果。

附图说明

图1为本发明在虚拟生成的深度图像数据集上的训练流程图；

图2为本发明在RGB图像数据集上的训练流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明提供的一种基于无监督领域自适应的三维人体姿态估计方法，具体实施步骤如下：

步骤(1)从公开数据集UBC3V中获取包含人体的虚拟深度图像，人体部位分割图，二维人体姿态真实值，三维人体姿态真实值；从公开数据集Human3.6M中获取包含人体的RGB图像，三维人体姿态真实值；将数据集Human3.6M中subject 1，5，6，7，8的数据作为训练集，subject 9，11作为测试集；将测试集中的视频数据每隔64帧取样一次，作为测试样本；

步骤(2)设计一种基于无监督领域自适应方法的深度学习神经网络框架，首先设计分别以深度图像，人体部位分割图和RGB图像作为输入的姿态估计器模块，其模型结构由卷积神经网络构成，分为编码器和解码器两个部分，编码器对输入的图像进行特征提取，解码器将提取的特征解码为关节点体素热力图。由体素热力图可以得到预测的二维人体姿态和三维人体姿态。编码器为ResNet-50结构，解码器为核大小4×4，步长为2的反卷积层，模块的输入是大小为256×256的图像，输出是大小为J×64×64×64的关节点体素热度图，其中J为关节点的个数，然后设计从二维人体姿态生成人体部位分割图的分割模块，其模型结构由反卷积神经网络构成，反卷积神经网络的输入是二维人体姿态和体素热力图预测的各个关节点的深度值，输出是预测的人体部位分割图及各个部位的深度值，其结构为DCGAN(Radford，Alec，Luke Metz，and Soumith Chintala.″Unsupervised representationlearning with deep convolutional generative adversarial networks.″arXivpreprint arXiv：1511.06434(2015).)的生成器部分，输入大小为J×3，其中J为关节点的个数，输出大小为256×256×12，分割模块的作用是作为连接深度图像领域与RGB图像领域的桥梁，使得深度图像和RGB图像不需要匹配成对输入，因此任意的深度图像数据集都可以将领域知识迁移到任意的RGB图像数据集，最后设计将提取特征进行领域分类的领域分类器模块，其模型结构由梯度反转层和softmax层构成，输入是不同输入的姿态估计器的中间层特征，输出是输入特征被分类为哪一个领域，梯度反转层的结构为两层大小为1024的全连接网络，其作用是将由分类损失计算的梯度进行反转，迫使姿态估计器努力学习出无法被区分领域的特征，而领域分类器则努力分类出特征所属的真实领域，这种对抗学习的训练方式，使得不同领域之间能够相互自适应，同时达到领域知识的迁移效果；

步骤(3)，如图1所示，在UBC3V数据集上，使用步骤(2)设计的深度学习神经网络框架，训练神经网络模型，将领域知识编码到神经网络模型中。首先将深度图像I_d输入到姿态估计器E^d(D^d(·))中，得到预测的二维人体姿态

和三维人体姿态

其次将人体部位分割图I_s输入到姿态估计器E^s(D^s(·))中，得到预测的三维人体姿态

然后根据预测的三维人体姿态

和

分别与三维人体姿态真实值P_g计算损失

和

损失

其中

的计算公式为：

再将预测的二维人体姿态

输入到分割模块G，生成预测的人体部位分割图

接下来根据预测的人体部位分割图

和真实的人体部位分割图I_s，计算损失

计算公式为：

然后将姿态估计器E^d(D^d(·))和E^s(D^s(·))中学习到的中间层特征输入到领域分类器中，输入领域分类结果

再根据领域分类结果

与特征所属的真实领域l计算分类损失

计算公式为：

最后将上述得到的四种损失乘以权重相加，四者的权重分别为0.4，0.4，0.15，0.05，计算梯度，反向传播优化所有神经网络模型的参数；

步骤(4)将步骤(3)中得到的最佳参数的姿态估计器E^s(D^s(·))和分割模块G迁移到RGB图像数据集上；

步骤(5)，如图2所示，在Human3.6M训练集上利用迁移的领域知识以无监督的方式进行训练，首先将RGB图像输入姿态估计器E^r(D^r(·))，得到预测的二维人体姿态

和三维人体姿态

其次将预测的二维人体姿态

输入分割模块G中，得到预测的人体部位分割图；然后预测的人体部位分割图输入到估计姿态器E^s(D^s(·))中，得到预测的三维人体姿态

再根据预测的三维人体姿态

和

计算损失

其中

的计算公式与步骤3中相同；接下来将姿态估计器E^r(D^r(·))和E^s(D^s(·))中学习到的特征输入到领域分类器中，输入领域分类结果

然后根据领域分类结果

与特征所属的真实领域l计算分类损失

其计算公式与步骤(3)中的相同；最后将上述得到的两种损失乘以权重相加，两者的权重分别为0.95与0.05，计算梯度，反向传播优化E^r(D^r(·))的参数，并且保持估计姿态器E^s(D^s(·))和分割模块G的网络参数固定不变；

步骤(6)将Human3.6M测试集的样本输入由步骤(5)得到的最优模型参数的姿态估计器E^r(D^r(·))中，输出预测的三维人体姿态，预测结果为17个人体关节点的三维坐标，用平均关节点位置误差(Mean Per Joint Position Error)来衡量预测结果，平均关节点位置误差等于所有关节点坐标与真实值坐标之间的欧式距离的平均值。使用本发明基于无监督领域自适应的三维人体姿态估计方法，在不使用Human3.6数据集的三维人体姿态真实值的情况下，在其测试集上的平均关节点位置误差为78.5mm，与已有利用半监督或者弱监督学习的方法相比，能够显著减少误差20-30mm。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施案例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于无监督领域自适应的三维人体姿态估计方法，其特征在于，包括如下步骤：

(1)获取三维人体姿态数据集，包括以下子步骤：

(1.3)将RGB图像数据集划分为训练集和测试集；

(2.2)设计从二维人体姿态生成人体部位分割图的分割模块，其模型结构由反卷积神经网络构成，反卷积神经网络的输入是二维人体姿态和关节点体素热力图预测的每个关节点的深度值，输出是预测的人体部位分割图和每个部位的深度值；

(2.3)设计用于将提取特征进行领域分类的领域分类器模块，其模型结构由梯度反转层和softmax层构成，输入是不同输入的姿态估计器的中间层特征，输出是输入特征被分类为哪一个领域，梯度反转层的作用是将由分类损失计算的梯度值进行反转，迫使姿态估计器学习出无法被区分领域的特征；

和三维人体姿态

(3.3)根据预测的三维人体姿态

和

分别与三维人体姿态真实值P_g计算损失

和

(3.4)将预测的二维人体姿态

输入到分割模块G，生成预测的人体部位分割图

(3.5)根据预测的人体部位分割图

和真实的人体部位分割图I_s，计算损失

(3.7)根据领域分类结果

与特征所属的真实领域l计算分类损失

(5)在RGB图像数据集的训练集上利用迁移的领域知识以无监督的方式进行训练，具体步骤如下：

和三维人体姿态

(5.2)将预测的二维人体姿态

输入分割模块G中，得到预测的人体部位分割图；

(5.4)根据预测的三维人体姿态

和

计算损失

(5.6)根据领域分类结果

与特征所属的真实领域l计算分类损失

2.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法，其特征在于，所述步骤(1)中，虚拟生成的深度图像数据集采用公开数据集UBC3V，RGB图像数据集采用公开数据集Human3.6M，将数据集Human3.6M中subject 1，5，6，7，8的数据作为训练集，subject9，11作为测试集，将测试集中的视频数据每隔64帧取样一次，作为测试样本。

3.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法，其特征在于，所述步骤(2.1)中，所述姿态估计器模块的编码器为ResNet-50结构，解码器为核大小4×4，步长为2的反卷积层，姿态估计器的输入是大小为256×256的图像，输出是大小为J×64×64×64的关节点体素热度图，J为关节点个数。

4.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法，其特征在于，所述步骤(2.2)中，所述分割模块的结构为DCGAN的生成器部分，输入是二维人体姿态的关节点坐标和每个关节点的深度值，大小为J×3，J为关节点个数，输出是预测的人体部位分割图和每个部位的深度值，大小为256×256×12。

5.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法，其特征在于，所述步骤(2.3)中，所述领域分类器中，梯度反转层由两层大小为1024的全连接网络构成。

6.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法，其特征在于，

所述步骤(3.3)中，损失