CN110647991B - 一种基于无监督领域自适应的三维人体姿态估计方法 - Google Patents

一种基于无监督领域自适应的三维人体姿态估计方法 Download PDF

Info

Publication number
CN110647991B
CN110647991B CN201910885280.1A CN201910885280A CN110647991B CN 110647991 B CN110647991 B CN 110647991B CN 201910885280 A CN201910885280 A CN 201910885280A CN 110647991 B CN110647991 B CN 110647991B
Authority
CN
China
Prior art keywords
human body
dimensional human
domain
body posture
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910885280.1A
Other languages
English (en)
Other versions
CN110647991A (zh
Inventor
耿卫东
张锡恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910885280.1A priority Critical patent/CN110647991B/zh
Publication of CN110647991A publication Critical patent/CN110647991A/zh
Application granted granted Critical
Publication of CN110647991B publication Critical patent/CN110647991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明公开了一种基于无监督领域自适应的三维人体姿态估计方法,步骤如下:设计一种无监督基于领域自适应方法的深度学习框架;在虚拟生成的深度图像数据集上训练神经网络模型,并将领域知识编码到神经网络模型中;将包含领域知识的神经网络模型迁移到RGB图像领域;在RGB图像数据集上利用迁移的领域知识以无监督的方式进行训练,得到能够从RGB图像中估计三维人体姿态的神经网络模型;将测试数据输入到训练得到的最佳参数模型中,得到预测的三维人体姿态。本发明方法能够在没有三维人体姿态真实值的RGB图像数据集上训练三维人体姿态估计模型,并得到准确的三维人体姿态估计结果。

Description

一种基于无监督领域自适应的三维人体姿态估计方法
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于无监督领域自适应的三维人体姿态估计方法。
背景技术
人体姿态估计是指从输入的图像或者视频中,估计出人体关节点的坐标。因其广泛的应用场景,越来越受到学术界和工业界的关注,例如人机交互,隐私保护,行为识别,虚拟现实,游戏建模等场景都需要用到人体姿态估计技术。二维的人体姿态估计发展迅速,因为目前有大量的公开的有标注的数据集能够支撑我们训练一个复杂的神经网络模型。然而三维人体姿态估计仍然是一个具有挑战的问题,因为收集大量有标注的三维人体姿态数据集十分费时费力,并且场景限制在室内中。
为了解决训练数据缺少的问题,前人主要采用了弱监督学习方法来减少需要的训练数据量,或者是虚拟生成尽量真实的RGB图像,来增加训练集样本的数量。但是,弱监督学习方法通常需要额外的监督信息,例如多视角下的相机参数;虚拟生成RGB图像需要考虑人体穿着衣物的纹理,光照和背景等因素,这些工作需要耗费大量的精力和时间。
为了解决这个问题,本发明提出了基于无监督领域自适应的深度学习框架,借助虚拟生成的深度图像来帮助在缺少三维人体姿态真实值的RGB数据集上训练神经网络模型。使用虚拟生成的深度图像的好处是在生成时不需要考虑人体穿着衣物的纹理,光照和背景等因素,并且深度图像与RGB图像相比包含有额外的深度信息,能够使得模型的预测结果更加准确。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于无监督领域自适应的三维人体姿态估计方法,将领域知识从深度图像领域迁移到RGB图像领域,以无监督的方式在RGB图像领域上训练深度神经网络模型,然后利用训练好的模型从RGB图像中估计出人体的三维姿态。
本发明的目的是通过以下技术方案来实现的:一种基于无监督领域自适应的三维人体姿态估计方法,包括如下步骤:
(1)获取三维人体姿态数据集,包括以下子步骤:
(1.1)从虚拟生成的深度图像数据集中获取包含人体的虚拟深度图像、人体部位分割图、二维人体姿态真实值、三维人体姿态真实值;
(1.2)从RGB图像数据集中获取包含人体的RGB图像、三维人体姿态真实值;
(1.3)将RGB图像数据集划分为训练集和测试集;
(2)设计基于无监督领域自适应的深度学习神经网络框架,包括以下步骤:
(2.1)设计分别以深度图像、人体部位分割图和RGB图像作为输入的姿态估计器模块,其模型结构由卷积神经网络构成,分为编码器和解码器两个部分,编码器对输入的图像进行特征提取,解码器将提取的特征解码为关节点体素热力图,由体素热力图可以得到预测的二维人体姿态和三维人体姿态;
(2.2)设计从二维人体姿态生成人体部位分割图的分割模块,其模型结构由反卷积神经网络构成,反卷积神经网络的输入是二维人体姿态和关节点体素热力图预测的每个关节点的深度值,输出是预测的人体部位分割图和每个部位的深度值,分割模块的作用是作为连接深度图像领域与RGB图像领域的桥梁,使得深度图像和RGB图像不需要匹配成对输入,因此任意的深度图像数据集都可以将领域知识迁移到任意的RGB图像数据集;
(2.3)设计用于将提取特征进行领域分类的领域分类器模块,其模型结构由梯度反转层和softmax层构成,输入是不同输入的姿态估计器的中间层特征,输出是输入特征被分类为哪一个领域,梯度反转层的作用是将由分类损失计算的梯度值进行反转,迫使姿态估计器努力学习出无法被区分领域的特征,而领域分类器则努力分类出特征所属的真实领域,这种对抗学习的训练方式,使得不同领域之间能够相互自适应,同时达到领域知识的迁移效果;
(3)在虚拟生成的深度图像数据集上,使用步骤(2)设计的深度学习神经网络框架,训练神经网络模型,将领域知识编码到神经网络模型中,具体步骤如下:
(3.1)将深度图像Id输入到姿态估计器Ed(Dd(·))中,得到预测的二维人体姿态
Figure BDA0002207123520000021
和三维人体姿态
Figure BDA0002207123520000022
(3.2)将人体部位分割图Is输入到姿态估计器Es(Ds(·))中,得到预测的三维人体姿态
Figure BDA0002207123520000023
(3.3)根据预测的三维人体姿态
Figure BDA0002207123520000024
Figure BDA0002207123520000025
分别与三维人体姿态真实值Pg计算损失
Figure BDA0002207123520000026
Figure BDA0002207123520000027
(3.4)将预测的二维人体姿态
Figure BDA0002207123520000031
输入到分割模块G,生成预测的人体部位分割图
Figure BDA0002207123520000032
(3.5)根据预测的人体部位分割图
Figure BDA0002207123520000033
和真实的人体部位分割图Is,计算损失
Figure BDA0002207123520000034
(3.6)将姿态估计器Ed(Dd(·))和Es(Ds(·))中学习到的中间层特征输入到领域分类器中,通过领域分类器输出领域分类结果
Figure BDA0002207123520000035
(3.7)根据领域分类结果
Figure BDA0002207123520000036
与特征所属的真实领域l计算分类损失
Figure BDA0002207123520000037
(3.8)根据步骤(3.3),(3.5),(3.7)中得到的损失乘以权重相加,计算梯度,反向传播优化所有神经网络模型的参数;
(4)将步骤(3)中得到的最佳参数的姿态估计器Es(Ds(·))和分割模块G迁移到RGB图像数据集上;
(5)在RGB图像数据集的训练集上利用迁移的领域知识以无监督的方式进行训练,不需要三维人体姿态真实值,具体步骤如下:
(5.1)将RGB图像输入姿态估计器Er(Dr(·)),得到预测的二维人体姿态
Figure BDA0002207123520000038
和三维人体姿态
Figure BDA0002207123520000039
(5.2)将预测的二维人体姿态
Figure BDA00022071235200000310
输入分割模块G中,得到预测的人体部位分割图;
(5.3)将预测的人体部位分割图输入到姿态估计器Es(Ds(·))中,得到预测的三维人体姿态
Figure BDA00022071235200000311
(5.4)根据预测的三维人体姿态
Figure BDA00022071235200000312
Figure BDA00022071235200000313
计算损失
Figure BDA00022071235200000314
(5.5)将姿态估计器Er(Dr(·))和Es(Ds(·))中学习到的中间层特征输入到领域分类器中,通过领域分类器输出领域分类结果
Figure BDA00022071235200000315
(5.6)根据领域分类结果
Figure BDA00022071235200000316
与特征所属的真实领域l计算分类损失
Figure BDA00022071235200000317
(5.7)根据步骤(5.4),(5.6)中得到的损失乘以权重相加,计算梯度,反向传播优化Er(Dr(·))的参数,并且保持姿态估计器Es(Ds(·))和分割模块G的网络参数固定不变;
(6)将RGB图像数据集的测试集输入由步骤(5)得到的最优模型参数的姿态估计器Er(Dr(·))中,输出预测的三维人体姿态。
进一步地,所述步骤(1)中,虚拟生成的深度图像数据集采用公开数据集UBC3V,RGB图像数据集采用公开数据集Human3.6M,将数据集Human3.6M中subject 1,5,6,7,8的数据作为训练集,subject9,11作为测试集,将测试集中的视频数据每隔64帧取样一次,作为测试样本。
进一步地,所述步骤(2.1)中,所述姿态估计器模块的编码器为ResNet-50结构,解码器为核大小4×4,步长为2的反卷积层,姿态估计器的输入是大小为256×256的图像,输出是大小为,×64×64×64的关节点体素热度图,J为关节点个数。
进一步地,所述步骤(2.2)中,所述分割模块的结构为DCGAN(Radford,Alec,LukeMetz,and Soumith Chintala.″Unsupervised representation learning with deepconvolutional generative adversarial networks.″arXiv preprint arXiv:1511.06434(2015).)的生成器部分,输入是二维人体姿态的关节点坐标和每个关节点的深度值,大小为J×3,J为关节点个数,输出是预测的人体部位分割图和每个部位的深度值,大小为256×256×12。
进一步地,所述步骤(2.3)中,所述领域分类器中,梯度反转层由两层大小为1024的全连接网络构成。
进一步地,所述步骤(3.3)中,损失
Figure BDA0002207123520000041
Figure BDA0002207123520000042
所述步骤(5.4)中,损失
Figure BDA0002207123520000043
其中
Figure BDA0002207123520000044
的计算公式为:
Figure BDA0002207123520000045
进一步地,所述步骤(3.5)中,损失
Figure BDA0002207123520000046
的计算公式为:
Figure BDA0002207123520000047
其中,k代表图像I中的像素总数,Ns代表训练样本的总数。
进一步地,所述步骤(3.7)和(5.6)中,分类损失
Figure BDA0002207123520000048
的计算公式为:
Figure BDA0002207123520000049
其中,Ns代表训练样本的总数。
进一步地,所述步骤(3.8)中,损失
Figure BDA00022071235200000410
Figure BDA00022071235200000411
相加时,四者的权重分别为0.4,0.4,0.15,0.05。
进一步地,所述步骤(5.7)中,损失
Figure BDA00022071235200000412
与分类损失
Figure BDA00022071235200000413
相加时,两者的权重分别为0.95与0.05。
本发明的有益效果是:本发明提出一种基于无监督领域自适应的三维人体姿态估计方法,将领域知识从深度图像领域迁移到RGB图像领域,以无监督的方式在RGB图像领域上训练深度神经网络模型从RGB图像中估计出人体的三维姿态。与已有发明中利用虚拟生成的RGB图像来扩充训练数据集的方法相比,该方法生成虚拟深度图像,不需要考虑人体穿着衣物的纹理,光照和背景等因素,更易于生成,并且深度图像与RGB图像相比包含有额外的深度信息,能够使得模型的预测结果更加准确。与已有发明中需要包含三维人体姿态真实值的RGB图像数据集来训练神经网络模型的方法相比,该方法能够在没有三维人体姿态真实值的RGB图像数据集上训练神经网络模型,并得到准确的三维人体姿态估计结果。
附图说明
图1为本发明在虚拟生成的深度图像数据集上的训练流程图;
图2为本发明在RGB图像数据集上的训练流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明提供的一种基于无监督领域自适应的三维人体姿态估计方法,具体实施步骤如下:
步骤(1)从公开数据集UBC3V中获取包含人体的虚拟深度图像,人体部位分割图,二维人体姿态真实值,三维人体姿态真实值;从公开数据集Human3.6M中获取包含人体的RGB图像,三维人体姿态真实值;将数据集Human3.6M中subject 1,5,6,7,8的数据作为训练集,subject 9,11作为测试集;将测试集中的视频数据每隔64帧取样一次,作为测试样本;
步骤(2)设计一种基于无监督领域自适应方法的深度学习神经网络框架,首先设计分别以深度图像,人体部位分割图和RGB图像作为输入的姿态估计器模块,其模型结构由卷积神经网络构成,分为编码器和解码器两个部分,编码器对输入的图像进行特征提取,解码器将提取的特征解码为关节点体素热力图。由体素热力图可以得到预测的二维人体姿态和三维人体姿态。编码器为ResNet-50结构,解码器为核大小4×4,步长为2的反卷积层,模块的输入是大小为256×256的图像,输出是大小为J×64×64×64的关节点体素热度图,其中J为关节点的个数,然后设计从二维人体姿态生成人体部位分割图的分割模块,其模型结构由反卷积神经网络构成,反卷积神经网络的输入是二维人体姿态和体素热力图预测的各个关节点的深度值,输出是预测的人体部位分割图及各个部位的深度值,其结构为DCGAN(Radford,Alec,Luke Metz,and Soumith Chintala.″Unsupervised representationlearning with deep convolutional generative adversarial networks.″arXivpreprint arXiv:1511.06434(2015).)的生成器部分,输入大小为J×3,其中J为关节点的个数,输出大小为256×256×12,分割模块的作用是作为连接深度图像领域与RGB图像领域的桥梁,使得深度图像和RGB图像不需要匹配成对输入,因此任意的深度图像数据集都可以将领域知识迁移到任意的RGB图像数据集,最后设计将提取特征进行领域分类的领域分类器模块,其模型结构由梯度反转层和softmax层构成,输入是不同输入的姿态估计器的中间层特征,输出是输入特征被分类为哪一个领域,梯度反转层的结构为两层大小为1024的全连接网络,其作用是将由分类损失计算的梯度进行反转,迫使姿态估计器努力学习出无法被区分领域的特征,而领域分类器则努力分类出特征所属的真实领域,这种对抗学习的训练方式,使得不同领域之间能够相互自适应,同时达到领域知识的迁移效果;
步骤(3),如图1所示,在UBC3V数据集上,使用步骤(2)设计的深度学习神经网络框架,训练神经网络模型,将领域知识编码到神经网络模型中。首先将深度图像Id输入到姿态估计器Ed(Dd(·))中,得到预测的二维人体姿态
Figure BDA0002207123520000061
和三维人体姿态
Figure BDA0002207123520000062
其次将人体部位分割图Is输入到姿态估计器Es(Ds(·))中,得到预测的三维人体姿态
Figure BDA0002207123520000063
然后根据预测的三维人体姿态
Figure BDA0002207123520000064
Figure BDA0002207123520000065
分别与三维人体姿态真实值Pg计算损失
Figure BDA0002207123520000066
Figure BDA0002207123520000067
损失
Figure BDA0002207123520000068
其中
Figure BDA0002207123520000069
的计算公式为:
Figure BDA00022071235200000610
再将预测的二维人体姿态
Figure BDA00022071235200000611
输入到分割模块G,生成预测的人体部位分割图
Figure BDA00022071235200000612
接下来根据预测的人体部位分割图
Figure BDA00022071235200000613
和真实的人体部位分割图Is,计算损失
Figure BDA00022071235200000614
计算公式为:
Figure BDA00022071235200000615
然后将姿态估计器Ed(Dd(·))和Es(Ds(·))中学习到的中间层特征输入到领域分类器中,输入领域分类结果
Figure BDA00022071235200000616
再根据领域分类结果
Figure BDA00022071235200000617
与特征所属的真实领域l计算分类损失
Figure BDA00022071235200000618
计算公式为:
Figure BDA0002207123520000071
最后将上述得到的四种损失乘以权重相加,四者的权重分别为0.4,0.4,0.15,0.05,计算梯度,反向传播优化所有神经网络模型的参数;
步骤(4)将步骤(3)中得到的最佳参数的姿态估计器Es(Ds(·))和分割模块G迁移到RGB图像数据集上;
步骤(5),如图2所示,在Human3.6M训练集上利用迁移的领域知识以无监督的方式进行训练,首先将RGB图像输入姿态估计器Er(Dr(·)),得到预测的二维人体姿态
Figure BDA0002207123520000072
和三维人体姿态
Figure BDA0002207123520000073
其次将预测的二维人体姿态
Figure BDA0002207123520000074
输入分割模块G中,得到预测的人体部位分割图;然后预测的人体部位分割图输入到估计姿态器Es(Ds(·))中,得到预测的三维人体姿态
Figure BDA0002207123520000075
再根据预测的三维人体姿态
Figure BDA0002207123520000076
Figure BDA0002207123520000078
计算损失
Figure BDA0002207123520000079
其中
Figure BDA00022071235200000710
的计算公式与步骤3中相同;接下来将姿态估计器Er(Dr(·))和Es(Ds(·))中学习到的特征输入到领域分类器中,输入领域分类结果
Figure BDA00022071235200000711
然后根据领域分类结果
Figure BDA00022071235200000712
与特征所属的真实领域l计算分类损失
Figure BDA00022071235200000713
其计算公式与步骤(3)中的相同;最后将上述得到的两种损失乘以权重相加,两者的权重分别为0.95与0.05,计算梯度,反向传播优化Er(Dr(·))的参数,并且保持估计姿态器Es(Ds(·))和分割模块G的网络参数固定不变;
步骤(6)将Human3.6M测试集的样本输入由步骤(5)得到的最优模型参数的姿态估计器Er(Dr(·))中,输出预测的三维人体姿态,预测结果为17个人体关节点的三维坐标,用平均关节点位置误差(Mean Per Joint Position Error)来衡量预测结果,平均关节点位置误差等于所有关节点坐标与真实值坐标之间的欧式距离的平均值。使用本发明基于无监督领域自适应的三维人体姿态估计方法,在不使用Human3.6数据集的三维人体姿态真实值的情况下,在其测试集上的平均关节点位置误差为78.5mm,与已有利用半监督或者弱监督学习的方法相比,能够显著减少误差20-30mm。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施案例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,包括如下步骤:
(1)获取三维人体姿态数据集,包括以下子步骤:
(1.1)从虚拟生成的深度图像数据集中获取包含人体的虚拟深度图像、人体部位分割图、二维人体姿态真实值、三维人体姿态真实值;
(1.2)从RGB图像数据集中获取包含人体的RGB图像、三维人体姿态真实值;
(1.3)将RGB图像数据集划分为训练集和测试集;
(2)设计基于无监督领域自适应的深度学习神经网络框架,包括以下步骤:
(2.1)设计分别以深度图像、人体部位分割图和RGB图像作为输入的姿态估计器模块,其模型结构由卷积神经网络构成,分为编码器和解码器两个部分,编码器对输入的图像进行特征提取,解码器将提取的特征解码为关节点体素热力图,由体素热力图可以得到预测的二维人体姿态和三维人体姿态;
(2.2)设计从二维人体姿态生成人体部位分割图的分割模块,其模型结构由反卷积神经网络构成,反卷积神经网络的输入是二维人体姿态和关节点体素热力图预测的每个关节点的深度值,输出是预测的人体部位分割图和每个部位的深度值;
(2.3)设计用于将提取特征进行领域分类的领域分类器模块,其模型结构由梯度反转层和softmax层构成,输入是不同输入的姿态估计器的中间层特征,输出是输入特征被分类为哪一个领域,梯度反转层的作用是将由分类损失计算的梯度值进行反转,迫使姿态估计器学习出无法被区分领域的特征;
(3)在虚拟生成的深度图像数据集上,使用步骤(2)设计的深度学习神经网络框架,训练神经网络模型,将领域知识编码到神经网络模型中,具体步骤如下:
(3.1)将深度图像Id输入到姿态估计器Ed(Dd(·))中,得到预测的二维人体姿态
Figure FDA0003409423160000011
和三维人体姿态
Figure FDA0003409423160000012
(3.2)将人体部位分割图Is输入到姿态估计器Es(Ds(·))中,得到预测的三维人体姿态
Figure FDA0003409423160000013
(3.3)根据预测的三维人体姿态
Figure FDA0003409423160000014
Figure FDA0003409423160000015
分别与三维人体姿态真实值Pg计算损失
Figure FDA0003409423160000016
Figure FDA0003409423160000017
(3.4)将预测的二维人体姿态
Figure FDA0003409423160000021
输入到分割模块G,生成预测的人体部位分割图
Figure FDA0003409423160000022
(3.5)根据预测的人体部位分割图
Figure FDA0003409423160000023
和真实的人体部位分割图Is,计算损失
Figure FDA0003409423160000024
(3.6)将姿态估计器Ed(Dd(·))和Es(Ds(·))中学习到的中间层特征输入到领域分类器中,通过领域分类器输出领域分类结果
Figure FDA0003409423160000025
(3.7)根据领域分类结果
Figure FDA0003409423160000026
与特征所属的真实领域l计算分类损失
Figure FDA0003409423160000027
(3.8)根据步骤(3.3),(3.5),(3.7)中得到的损失乘以权重相加,计算梯度,反向传播优化所有神经网络模型的参数;
(4)将步骤(3)中得到的最佳参数的姿态估计器Es(Ds(·))和分割模块G迁移到RGB图像数据集上;
(5)在RGB图像数据集的训练集上利用迁移的领域知识以无监督的方式进行训练,具体步骤如下:
(5.1)将RGB图像输入姿态估计器Er(Dr(·)),得到预测的二维人体姿态
Figure FDA0003409423160000028
和三维人体姿态
Figure FDA0003409423160000029
(5.2)将预测的二维人体姿态
Figure FDA00034094231600000210
输入分割模块G中,得到预测的人体部位分割图;
(5.3)将预测的人体部位分割图输入到姿态估计器Es(Ds(·))中,得到预测的三维人体姿态
Figure FDA00034094231600000211
(5.4)根据预测的三维人体姿态
Figure FDA00034094231600000212
Figure FDA00034094231600000213
计算损失
Figure FDA00034094231600000214
(5.5)将姿态估计器Er(Dr(·))和Es(Ds(·))中学习到的中间层特征输入到领域分类器中,通过领域分类器输出领域分类结果
Figure FDA00034094231600000215
(5.6)根据领域分类结果
Figure FDA00034094231600000216
与特征所属的真实领域l计算分类损失
Figure FDA00034094231600000217
(5.7)根据步骤(5.4),(5.6)中得到的损失乘以权重相加,计算梯度,反向传播优化Er(Dr(·))的参数,并且保持姿态估计器Es(Ds(·))和分割模块G的网络参数固定不变;
(6)将RGB图像数据集的测试集输入由步骤(5)得到的最优模型参数的姿态估计器Er(Dr(·))中,输出预测的三维人体姿态。
2.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(1)中,虚拟生成的深度图像数据集采用公开数据集UBC3V,RGB图像数据集采用公开数据集Human3.6M,将数据集Human3.6M中subject 1,5,6,7,8的数据作为训练集,subject9,11作为测试集,将测试集中的视频数据每隔64帧取样一次,作为测试样本。
3.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(2.1)中,所述姿态估计器模块的编码器为ResNet-50结构,解码器为核大小4×4,步长为2的反卷积层,姿态估计器的输入是大小为256×256的图像,输出是大小为J×64×64×64的关节点体素热度图,J为关节点个数。
4.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(2.2)中,所述分割模块的结构为DCGAN的生成器部分,输入是二维人体姿态的关节点坐标和每个关节点的深度值,大小为J×3,J为关节点个数,输出是预测的人体部位分割图和每个部位的深度值,大小为256×256×12。
5.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(2.3)中,所述领域分类器中,梯度反转层由两层大小为1024的全连接网络构成。
6.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,
所述步骤(3.3)中,损失
Figure FDA0003409423160000031
Figure FDA0003409423160000032
Figure FDA0003409423160000033
所述步骤(5.4)中,损失
Figure FDA0003409423160000034
其中
Figure FDA0003409423160000035
的计算公式为:
Figure FDA0003409423160000036
7.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(3.5)中,损失
Figure FDA0003409423160000037
的计算公式为:
Figure FDA0003409423160000038
其中,k代表图像I中的像素总数,Ns代表训练样本的总数。
8.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(3.7)和(5.6)中,分类损失
Figure FDA0003409423160000041
Figure FDA0003409423160000042
的计算公式为:
Figure FDA0003409423160000043
Figure FDA0003409423160000044
其中,Ns代表训练样本的总数。
9.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(3.8)中,损失
Figure FDA0003409423160000045
Figure FDA0003409423160000046
相加时,四者的权重分别为0.4,0.4,0.15,0.05。
10.根据权利要求1所述一种基于无监督领域自适应的三维人体姿态估计方法,其特征在于,所述步骤(5.7)中,损失
Figure FDA0003409423160000047
与分类损失
Figure FDA0003409423160000048
相加时,两者的权重分别为0.95与0.05。
CN201910885280.1A 2019-09-19 2019-09-19 一种基于无监督领域自适应的三维人体姿态估计方法 Active CN110647991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910885280.1A CN110647991B (zh) 2019-09-19 2019-09-19 一种基于无监督领域自适应的三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910885280.1A CN110647991B (zh) 2019-09-19 2019-09-19 一种基于无监督领域自适应的三维人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN110647991A CN110647991A (zh) 2020-01-03
CN110647991B true CN110647991B (zh) 2022-04-05

Family

ID=68991989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910885280.1A Active CN110647991B (zh) 2019-09-19 2019-09-19 一种基于无监督领域自适应的三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN110647991B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222459B (zh) * 2020-01-06 2023-05-12 上海交通大学 一种视角无关的视频三维人体姿态识别方法
CN110957042B (zh) * 2020-01-17 2022-12-27 广州慧视医疗科技有限公司 一种基于领域知识迁移的不同条件下眼部疾病的预测和模拟方法
CN111310659B (zh) * 2020-02-14 2022-08-09 福州大学 基于增进式图卷积神经网络的人体动作识别方法
CN111402397B (zh) * 2020-02-28 2022-07-29 清华大学 基于无监督数据的tof深度数据优化方法及装置
CN111914618A (zh) * 2020-06-10 2020-11-10 华南理工大学 基于对抗式相对深度约束网络的三维人体姿态估计方法
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN113807183A (zh) * 2021-08-17 2021-12-17 华为技术有限公司 模型训练方法及相关设备
CN113792859B (zh) * 2021-09-13 2022-06-17 中南大学 一种无监督形状对应方法及人体形状对应方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631861A (zh) * 2015-12-21 2016-06-01 浙江大学 结合高度图从无标记单目图像中恢复三维人体姿态的方法
CN108647663A (zh) * 2018-05-17 2018-10-12 西安电子科技大学 基于深度学习和多层次图结构模型的人体姿态估计方法
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110210320A (zh) * 2019-05-07 2019-09-06 南京理工大学 基于深度卷积神经网络的多目标无标记姿态估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017156243A1 (en) * 2016-03-11 2017-09-14 Siemens Aktiengesellschaft Deep-learning based feature mining for 2.5d sensing image search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631861A (zh) * 2015-12-21 2016-06-01 浙江大学 结合高度图从无标记单目图像中恢复三维人体姿态的方法
CN108647663A (zh) * 2018-05-17 2018-10-12 西安电子科技大学 基于深度学习和多层次图结构模型的人体姿态估计方法
CN110210320A (zh) * 2019-05-07 2019-09-06 南京理工大学 基于深度卷积神经网络的多目标无标记姿态估计方法
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法

Also Published As

Publication number Publication date
CN110647991A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN110647991B (zh) 一种基于无监督领域自适应的三维人体姿态估计方法
Zhang et al. A late fusion cnn for digital matting
Liu et al. Attribute-aware face aging with wavelet-based generative adversarial networks
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN109410168B (zh) 用于确定图像中的子图块类别的卷积神经网络的建模方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
US20190057532A1 (en) Realistic augmentation of images and videos with graphics
CN109359527B (zh) 基于神经网络的头发区域提取方法及系统
CA3137297C (en) Adaptive convolutions in neural networks
Liu et al. Defective samples simulation through adversarial training for automatic surface inspection
CN110827304B (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN113297988B (zh) 一种基于域迁移和深度补全的物体姿态估计方法
CN112819853B (zh) 一种基于语义先验的视觉里程计方法
CN112489164A (zh) 基于改进深度可分离卷积神经网络的图像着色方法
Xiang et al. Deep optical flow supervised learning with prior assumptions
CN111259735A (zh) 基于多级预测特征增强卷积神经网络的单人姿态估计方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
Zhu et al. Neural transmitted radiance fields
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant