CN109087329A

CN109087329A - 基于深度网络的人体三维关节点估计框架及其定位方法

Info

Publication number: CN109087329A
Application number: CN201810846886.XA
Authority: CN
Inventors: 林倞; 杨猛; 王可泽; 王青
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-25
Anticipated expiration: 2038-07-27
Also published as: CN109087329B

Abstract

本发明公开了一种基于深度网络的人体三维关节点估计框架及其定位方法，该框架包括：二维姿势子网络，用于在二维姿势数据集上进行预训练，以提取二维姿势特征传入二维‑三维转换模块，并生成精确的二维预测姿势；二维‑三维转换模块，用于接收所述二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中，并生成时序一致的三维姿势粗估计；三维‑二维投影模块，用于将所述二维‑三维转换模块估计的中间级三维姿势粗估计投影回二维空间，生成二维投影姿势，并通过优化二维投影姿势和二维预测姿势之间的一致性，修正估计的三维姿势，最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计，本发明可提高人体三维关节点预测定位的精度。

Description

基于深度网络的人体三维关节点估计框架及其定位方法

技术领域

本发明涉及人体三维姿势估计、计算机视觉和人机交互领域，特别是涉及一种基于自监督修正机制提高人体三维关节点定位精度的基于深度网络的人体三维关节点估计框架及其定位方法。

背景技术

姿势估计是计算机视觉研究的一个重要领域，其主要任务是让计算机能够自动感知和理解人的行为，它的应用包括智能监控、病人监护和一些涉及人机交互的系统。人体三维关节点定位的目标是希望能够自动地从包含人的图像中推测人体在真实世界中的具体位置，并且可以通过这些信息重建人体的运动，为深层次的场景语义理解奠定基础。

然而三维数据集难以获得，且相比之下目前二维关节点预测的技术较为成熟，现有的三维关节点预测方法受阴影遮挡等因素影响严重，为了提高预测的准确率往往会将模型设计的极为复杂，不便于移植到其他设备或数据集上使用。

现在对单目彩色视频中人体三维关节点定位主要存在以下难点：

(1)人体外表变化大，相机视点不固定，外物或者自身遮挡导致的部分关节点的不可见性。

(2)从几何角度来说三维姿态本身含有二义性。

(3)为了保留人体的骨骼关节之间约束关系，设计极为复杂的模型，导致模型的可扩展性，泛化能力都不强。

现有的三维关节点定位方法多是依赖人工设计的复杂先验条件和人体骨骼结构约束，但是这种方法参数设置依赖传感器的内部参数，难以移植到其他摄像传感器上。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于深度网络的人体三维关节点估计框架及其定位方法，以提高人体三维关节点预测定位的精度。

为达上述及其它目的，本发明提出一种基于深度网络的人体三维关节点估计框架，包括：

二维姿势子网络，用于在二维姿势数据集上进行预训练，以提取二维姿势特征传入二维-三维转换模块，并生成精确的二维预测姿势；

二维-三维转换模块，用于接收所述二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中，并生成时序一致的三维姿势粗估计；

三维-二维投影模块，用于将所述二维-三维转换模块估计的中间级三维姿势粗估计投影回二维空间，生成二维投影姿势，并通过优化二维投影姿势和二维预测姿势之间的一致性，修正估计的三维姿势，最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。

优选地，所述框架引入两个对偶学习任务，所述两个对偶学习任务分别是根据预测二维姿势的二维空间特征转换到三维空间预测三维姿势坐标，以及三维姿势坐标投影生成二维姿势坐标，最小化三维姿势投影生成的二维投影姿势和预测的二维姿势之间的误差，以在不需要更多三维姿势标注的基础上修正预测的三维姿势，并引入更多二维姿势标注数据提高三维姿势预测的准确率，最终通过自监督修正机制生成具有空间几何一致性的三维姿势估计。

优选地，所述三维-二维投影模块由全连接层、修正线性单元层、batch-normalization层堆叠而成：

所述全连接层中，输入的每一维元素都连向全连接层的所有节点，并进一步全连接到所有的输出单元，用来逼近预测关节点和真实关节点之间的变换和三维空间到二维空间的映射；

所述修正线性单元层采用简单的非线性阀值函数，对输入信号进行只允许非负信号通过的变化；

所述batch-normalization层对网络中每层神经元的输入，计算均值和方差后，进行归一化处理。

优选地，所述三维-二维投影模块分为回归部分ψ_C和映射部分ψ_P，回归部分输出经修正的三维关节点坐标映射部分输出三维关节点映射到二维空间的二维投影姿势的坐标。

优选地，于训练时，所述三维-二维投影模块回传二维投影姿势与真实标注的二维姿势之间的误差梯度；预测时，所述三维-二维投影模块固定映射部分ψ_P的参数，将训练时的真实标注的二维姿势替换成二维姿势子网络预测的二维预测姿势，根据二维投影姿势与二维预测姿势误差，自监督地更新回归部分ψ_C的参数，输出最终的三维姿势估计

为达到上述目的，本发明还提供一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，包括如下步骤：

步骤S1，构建基于深度网络的人体三维关节点估计框架，所述框架由二维姿势子网络、二维-三维转换模块和三维-二维投影模块级联构成；

步骤S2，通过反向传播算法，离线训练基于深度网络的人体三维关节点估计框架的模型参数；

步骤S3，输入待预测的图像序列，通过所述二维姿势子网络和二维-三维转换模块初始化二维预测姿势和三维姿势，并通过所述三维-二维投影模块最小化二维投影姿势与二维预测姿势的误差更新粗预测的三维姿势，最终输出经修正后包含几何一致性的人物三维关节点的定位结果。

优选地，步骤S1进一步包括：

步骤S100，构建二维姿势子网络，所述二维姿势子网络在大规模二维姿势数据集上进行预训练，以提取二维姿势特征传入二维-三维转换模块，并生成精确的二维预测姿势；

步骤S101，构建可配置的二维-三维转换模块，所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中，并生成时序一致的三维姿势粗估计；

步骤S102，构建三维-二维投影模块，所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间，生成二维投影姿势，并通过优化二维投影姿势和二维预测姿势之间的一致性，修正估计的三维姿势，最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。

优选地，步骤S2进一步包括：

步骤S200，采用二维姿势数据集训练所述二维姿势子网络，使该二维姿势子网络提取有效的二维特征表达，并生成较准确的二维预测姿势；

步骤S201，固定二维姿势子网络参数，串行构建二维-三维转换模块，输入二维姿势子网络提取的二维特征图训练二维-三维转换模块参数，使其生成粗预测的三维姿势；

步骤S202，固定前两个模块，串行构建三维-二维投影模块，输入粗预测的三维姿势和真实标注的二维姿势，采用后向传播算法训练三维-二维投影模块；

步骤S203，输入混合的二维姿势和三维姿势数据，端到端的微调整个框架参数，利用二维姿势数据增加模型多样性，提高三维姿势预测的准确率。

优选地，于步骤S2中，在所述三维-二维投影模块训练过程中引入dropout机制，对作为输入的三维粗预测和真实标注的二维姿势以小概率随机置零后再输入该模块中，以降低回归部分和投影部分对预测的三维姿势和二维姿势中野点的敏感度。

优选地，步骤S3进一步包括：

步骤S300，采用离线学习训练好的模型初始化三维-二维投影模块，并生成待修正的三维姿势和二维预测姿势；

步骤S301，固定三维-二维投影模块映射部分ψ_P的权值，将输入的待修正的三维姿势重映射到二维空间，根据重二维投影姿势与真实标注的二维姿势之间的误差，自监督地更新回归部分ψ_C的权值；

步骤S302，输出最后一次迭代更新后三维-二维投影模块预测的三维关节点，即为经过修正的最终预测的人体三维关节点坐标。

与现有技术相比，本发明一种基于深度网络的人体三维关节点估计框架及其定位方法引入了一种简单有效的自监督修正机制，该自监督修正机制由二维姿势到三维姿势的转换，和三维姿势投影为二维姿势两个对偶任务引入，由二维姿势子网络，二维-三维转换模块和三维-二维投影模块级联实现，通过上述机制本发明强调人体姿势在三维空间和二维空间中的几何一致性，提高了人体三维关节点预测的精度，具有高移植性和稳定鲁棒性。

附图说明

图1为本发明一种基于深度网络的人体三维关节点估计框架的架构示意图；

图2为本发明具体实施例中三维-二维投影模块示意图；

图3为本发明一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法的步骤流程图；

图4为本发明具体实施例之离线训练和在线学习的流程示意图；

图5为本发明实施例中人体二维关节点示意图；

图6A/B/C为本发明实施例中人体三维关节点的前视图/左视图/顶视图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于深度网络的人体三维关节点估计框架的架构示意图。如图1所示，本发明一种基于深度网络的人体三维关节点估计框架，包括：

二维姿势子网络101，所述二维姿势子网络在大规模二维姿势数据集上进行预训练，以提取二维姿势特征传入二维-三维转换模块，并生成精确的二维预测姿势。具体地，所述二维姿势子网络由卷积神经网络组成，当然也可替换成其他先进二维姿势估计网络，本发明不以此为限，所述二维姿势子网络将二维姿势数据集的单目图像序列逐帧编码为二维姿势估计的特征图，并生成有效的人体二维关节点预测；

二维-三维转换模块102，所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中，并生成时序一致的三维姿势粗估计。在本发明具体实施例中，所述二维-三维转换模块由全连接层和双向长短时记忆网络组成(当然也可替换其他有效的深度网络，本发明不以此为限)，输入二维姿势子网络提取的二维特征，经过全连接层映射到三维姿势特征空间中，由双向长短时记忆网络输出时序一致的人体三维关节点的粗预测；

三维-二维投影模块103，所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间，生成二维投影姿势，并通过优化二维投影姿势和二维预测姿势之间的一致性，修正估计的三维姿势，最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。在本发明具体实施例中，所述三维-二维投影模块由6层全连接层组成，分为回归部分ψ_C和映射部分ψ_P，通过映射部分ψ_P逼近三维空间与二维空间之间的几何映射关系，输入二维-三维转换模块粗预测的三维关节点经重映射到二维空间，根据重二维投影姿势与真实标注的二维姿势之间的误差，自监督地更新回归部分ψ_C的参数，输出具有几何一致性的人体三维关节点的精细预测，并采用跳层的思想保留全局信息。

图2为本发明具体实施例中三维-二维投影模块的细部结构图。如图2所示i，该三维-二维投影模块由多个全连接层、修正非线性单元、batch-normalization层串联组成，分为回归部分ψ_C和映射部分ψ_P，回归部分输出经修正的三维关节点坐标映射部分输出三维关节点映射到二维空间的二维投影姿势的坐标。训练时，回传二维投影姿势与真实标注的二维姿势之间的误差梯度，预测时，该模块固定映射部分ψ_P的参数，将训练时的真实标注的二维姿势替换成二维姿势子网络预测的二维预测姿势，根据二维投影姿势与二维预测姿势误差，自监督地更新回归部分ψ_C的参数，输出最终的三维姿势估计

具体地，三维到二维空间的映射具有显示的几何结构，希望通过单目彩色图片预测人体在相机坐标系中的具体位置，而单目图片缺少深度信息导致预测三维姿势不准，相反通过单目彩色图片预测二维姿势的准确比较高，其实当已知相机内参的情况下，可以根据理想相机模型，将三维空间和二维平面的点之间的关系可以看做是像素坐标系，图像坐标系和相机坐标系之间相互转换的关系，如下所示，假设X为三维空间的点，x是二维图像中的点，P为内参矩阵，三维空间和二维平面之间的转化关系为：

然而实际中采用相机模型还需要考虑各种畸变影响，并且很难得到相机的全部详细参数，并且这样的方式推广性低难适用于不同的数据，因此直接用网络来学习一个三维数据和二维数据直接的映射关系P，并且将初步预测的三维关节点转化到二维平面上，与直接预测的更准确的二维关节点求残差，以此修正三维关节点的位置。这样模型中即包含了二维空间和三维空间互相转化的特征，保证了几何一致性，又考虑了时序连续性。

全连接层：在模型的两处各中一层全连接层，第一个全连接层是为了将二维特征抽取模块提取的特征转换到三维特征空间上，第二个全连接层用来预测关节点的三维坐标。可以认为是在前面层输出的基础上建立的感知机模型(隐藏层和逻辑回归层)。全连接层中，输入的每一维元素都连向全连接层的所有节点，并进一步全连接到所有的输出单元，用来逼近预测关节点和真实关节点之间的变换和三维空间到二维空间的映射

修正非线性单元层(ReLU Nonlinearity Layer)：该层是采用简单的非线性阈值函数，对输入进行只允许非负信号通过的变换。假设g表示本层的输出，W表示本层边上的权重，a表示本层输入，则有

g＝max(0，W^Ta) (2)

实验证明在深层卷积神经网络中，使用校正线性单元可使网络的训练收敛速度比使用传统的激励函数更快。

batch-normalization层：对网络中每层神经元的输入，计算均值和方差后，进行归一化处理。

图3为本发明一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法的步骤流程图。如图3所示，本发明一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，包括如下步骤：

步骤S1，构建基于深度网络的人体三维关节点估计框架。该框架由二维姿势子网络、二维-三维转换模块和三维-二维投影模块级联构成。所述框架的构建过程如下：

步骤S100，构建二维姿势子网络，所述二维姿势子网络在大规模二维姿势数据集上进行预训练，以提取二维姿势特征传入二维-三维转换模块，并生成精确的二维预测姿势。具体地，所述二维姿势子网络由卷积神经网络组成，当然也可替换成其他先进二维姿势估计网络，本发明不以此为限，所述二维姿势子网络将二维姿势数据集的单目图像序列逐帧编码为二维姿势估计的特征图，并生成有效的人体二维关节点预测；

步骤S101，构建可配置的二维-三维转换模块，所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中，并生成时序一致的三维姿势粗估计。在本发明具体实施例中，所述二维-三维转换模块由全连接层和双向长短时记忆网络组成(当然也可替换其他有效的深度网络，本发明不以此为限)，输入二维姿势子网络提取的二维特征，经过全连接层映射到三维姿势特征空间中，由双向长短时记忆网络输出时序一致的人体三维关节点的粗预测。

步骤S102，构建三维-二维投影模块，所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间，生成二维投影姿势，并通过优化二维投影姿势和二维预测姿势之间的一致性，修正估计的三维姿势，最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。在本发明具体实施例中，所述三维-二维投影模块由6层全连接层组成，分为回归部分ψ_C和映射部分ψ_P，通过映射部分ψ_P逼近三维空间与二维空间之间的几何映射关系，输入二维-三维转换模块粗预测的三维关节点经重映射到二维空间，根据重二维投影姿势与真实标注的二维姿势之间的误差，自监督地更新回归部分ψ_C的参数，输出具有几何一致性的人体三维关节点的精细预测，并采用跳层的思想保留全局信息。

步骤S2，通过反向传播算法，离线训练基于深度网络的人体三维关节点估计框架的模型参数，即对所构建的框架，序列输入训练图片，该训练图片包括相应的真实标注的三维关节点(非必需)和真实标注的二维关节点，用反向传播算法端到端训练整个人体三维关节点估计框架。

具体地，步骤S2进一步包括：

步骤S200，采用复杂多变的二维姿势数据集(训练图片的集合)训练二维姿势子网络，使该二维姿势子网络提取有效的二维特征表达(二维特征图)，并生成较准确的二维预测姿势这里需先说明的是，本发明中二维预测姿势、三维预测姿势均用坐标形式表示，批量训练时输出的三维关节点为N×3K的矩阵，N表示图片的数量，K为人体关节点的数量，每一行表示该图片对应的K个关节点的三维坐标；

步骤S201，固定二维姿势子网络参数，串行构建二维-三维转换模块，输入二维姿势子网络提取的二维特征图训练二维-三维转换模块参数，使其生成粗预测的三维姿势

步骤S202，固定前两个模块，串行构建三维-二维投影模块，输入粗预测的三维姿势和真实标注的二维姿势，采用后向传播算法训练三维-二维投影模块，即由回归部分ψ_C得到修正的三维关节点坐标接着由投影部分ψ_P将三维关节点坐标投影为二维关节点坐标

在本发明具体实施例中，三维-二维投影模块的后向传播算法需要先求出，待修正的三维姿势经过投影部分ψ_P正向传播生成的二维投影姿势与真实标注的二维姿势之间的误差，和修正后的三维姿势与真实标注的三维姿势之间的误差构成的损失函数J(ω)，然后求得其对于参数ω的梯度，采用Adam算法更新ω。

为了提高自监督修正机制的鲁棒性，本发明还在三维-二维投影模块训练过程中引入dropout机制，对作为输入的三维粗预测和真实标注的二维姿势以小概率随机置零后再输入该模块中，这样可以降低回归部分ψ_C和投影部分ψ_P对预测的三维姿势和二维姿势中野点的敏感度。

步骤S3，利用基于深度网络的人体三维关节点估计框架进行人体三维关节点定位，即输入待预测的图像序列，通过二维姿势子网络和二维-三维转换模块初始化二维预测姿势和三维姿势，并通过三维-二维投影模块最小化二维投影姿势与二维预测姿势的误差更新粗预测的三维姿势，最终输出经修正后包含几何一致性的人物三维关节点的定位结果。

具体地，步骤S3进一步包括：

步骤S300，采用离线学习训练好的模型初始化三维-二维投影模块，并生成待修正的三维姿势和二维预测姿势,即将二维姿势子网络和二维-三维转换模块生成的二维预测关节点坐标和粗预测的三维关节点坐标作为三维-二维投影模块的输入；

步骤S301，固定三维-二维投影模块映射部分ψ_P的权值，将输入的待修正的三维姿势重映射到二维空间，根据重二维投影姿势与真实标注的二维姿势之间的误差，自监督地更新回归部分ψ_C的权值，即将输入的三维关节点坐标映射为二维投影关节点，最小化二维投影关节点和二维预测关节点的欧式距离，启发式地迭代更新几次三维-二维投影模块回归部分ψ_C的权值；

在本发明具体实施例中，步骤S3的具体预测过程如下：

1)所有图片依次通过一个人物检测子，识别出人物的定位框；

2)根据人物定位框将人物图像抠出来，序列地输入到加载好参数的深度模型中，前向传播得到二维预测姿势和粗预测的三维姿势；

3)再固定除三维-二维投影模块中回归部分ψ_C的其余参数，根据启发式策略决定是否更新回归部分ψ_C的参数后，输出最终预测的人体三维关节点坐标；

于步骤S3中，还包括将预测的三维关节点放回原图坐标系的操作，具体为：

输入的图片通过网络预测的是一个归一化的值，构造一个N×(K×3)的二维矩阵，该矩阵的行代表对应图片的人体关节点坐标向量，计算该矩阵的每一列的最大值X_max以及最小值X_min，通过如下公式将预测的关节点坐标重新映射到原图像的世界坐标，再进行评估与可视化，其中Y是预测的归一化的结果，X是映射到原坐标系中的结果：

X＝Y(X_max-X_min)+X_min

图4为本发明具体实施例之离线训练和在线学习的流程示意图。如图4所示，本发明之基于自监督修正机制来提高人体三维关节点定位精度的方法，主要包括离线训练过程和在线学习的预测过程：

离线训练过程的步骤如下：

1)在二维姿势数据集(即采集的图像视频)上预训练二维姿势子网络，固定二维姿势子网络参数，串行构建二维-三维转换模块，训练二维-三维转换模块；

2)固定二维姿势子网络和二维-三维转换模块，串行构建三维-二维投影模块，输入粗预测的三维姿势和真实二维姿势标注，训练三维-二维投影模块。所述参数包括每层的权重和偏置；

3)输入混合的二维姿势和三维姿势数据，端到端的微调整个框架参数，利用二维姿势数据增加模型多样性，提高三维姿势预测的准确度。

自监督修正模型在线学习过程如下：

4)载入训练好的离线模型；

5)将二维姿势子网络和二维-三维转换模块生成的二维预测关节点坐标和粗预测的三维关节点坐标作为三维-二维投影模块的输入；

6)固定三维-二维投影模块映射部分ψ_P的权值，将输入的三维关节点坐标映射为二维投影关节点，最小化二维投影关节点和二维预测关节点的欧式距离，启发式地更新几次三维-二维投影模块回归部分ψ_C的权值；

8)输出最后一次更新后三维-二维投影模块预测的三维关节点，即为经过修正的最终预测的人体三维关节点坐标。

以下将通过实施例来说明本发明之模型训练及关节点的修正与评估：

一、模型的训练

首先分别利用真实标注的二维和三维姿势数据训练，分步训练二维姿势子网络ψ_R、二维-三维转换模块ψ_T，和三维-二维投影模块{ψ_C，ψ_P}。然后混合二维三维姿势数据端到端的微调整个框架，最后预测阶段根据反向传播算法，启发式地迭代更新几次三维-二维投影模块回归部分ψ_C的权值，并输出修正后的三维关节点。各阶段的训练方法都是采用Adam优化算法最小化残差更新参数，下面将详细介绍：

假设共有N个训练样本，I_t表示输入的第t张图片，通过二维姿势子网络ψ_R提取的二维特征图和二维预测姿势表示第t张图片中人物K个关节点的二维坐标(如图5)；将二维特征图输入二维-三维转换模块ψ_T，输出粗预测的三维姿势表示第t张图片中K个关节点的三维坐标；将输入三维-二维投影模块，由回归部分ψ_C得到修正的三维关节点坐标接着由投影部分ψ_P将三维关节点坐标投影为二维关节点坐标过程表示如下：

离线训练阶段，利用前向传播和反向传播算法，最小化三维-二维投影模块(ψ_C，ψ_P)的损失函数J(ω)：

其中ω＝{ω_C，ω_P}，更新模型的参数ω时，求解J(ω)对于参数ω的梯度并采用Adam优化算法更新ω以最小化残差。

在线训练阶段，载入已训练好的离线模型ω，固定映射部分ψ_P的网络参数ω_P，利用前向传播和反向传播算法微调回归部分ψ_C的参数ω_C，每输入一个新的待修正三维关节点重新初始化三维-二维投影模块为训练好的离线模型ω。在线训练时的损失函数J(ω)：

二、关节点的修正与评估

设给定的数据集为{Y_t，L_t}，t＝1，…，N，其中N为数据集样本总数，L_t表示第t张图像对应的人体关节点集，L_t＝{l_k}，k＝1，…，3K，K表示关节点的数目，每个关节点是一个包含xyz坐标的三维数据点，模型设置K为17，详见图6A/B/C。

每一帧图片被依次输入到二维姿势子网络ψ_R、二维-三维转换模块ψ_T，和三维-二维投影模块{ψ_C，ψ_P}去预测三维关节点。输入第t帧图片通过二维姿势子网络ψ_R，二维-三维转换模块ψ_T，预测二维关节点坐标和粗预测的三维关节点坐标然后将预测的二维关节点坐标和三维关节点坐标输入载入参数的三维-二维投影模块{ψ_C，ψ_P}，获得最终的三位关节点预测值

将整个的预测过程总结为如下算法1。

最终预测的为N张图像对应的17个关节点的归一化后的三维坐标。通过式(1)(2)将该坐标变换回原始图像坐标上，即可得到连续N帧的17个关节点的原始坐标。评价标准如下：

其中，x^pred是网络预测的关节点坐标，x^gt是真实坐标。

综上所述，本发明一种基于深度网络的人体三维关节点估计框架及其定位方法引入了一种简单有效的自监督修正机制，该自监督修正机制由二维姿势到三维姿势的转换，和三维姿势投影为二维姿势两个对偶任务引入，由二维姿势子网络，二维-三维转换模块和三维-二维投影模块级联实现，通过上述机制本发明强调人体姿势在三维空间和二维空间中的几何一致性，提高了人体三维关节点预测的精度，具有高移植性和稳定鲁棒性。

与现有技术相比，本发明具有如下有益效果：

第一，本发明考虑了三维空间和二维空间的几何一致性，编码三维空间到二维空间的几何特征到网络中，提高三维关节点估计的准确性，预测结果的视觉合理性更高，对消除关节点间的遮挡和重合的影响有较好的效果。

第二，本发明提出了一个扩展性高的自监督修正模型，离线和在线学习占用的时间和内存都较小，集成性较高能用任意二维三维关节点预测方法替换二维姿势子网络和二维-三维转换模块。

第三，本发明为当前已有真实的二维关节点坐标数据提供了一个三维关节点坐标的校正方法，可为仅有二维关节点的数据提供一个三维预测的基准。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于深度网络的人体三维关节点估计框架，包括：

2.如权利要求1所述的一种基于深度网络的人体三维关节点估计框架，其特征在于：所述框架引入两个对偶学习任务，所述两个对偶学习任务分别是根据预测二维姿势的二维空间特征转换到三维空间预测三维姿势坐标，以及三维姿势坐标投影生成二维姿势坐标，最小化三维姿势投影生成的二维投影姿势和预测的二维姿势之间的误差，以在不需要更多三维姿势标注的基础上修正预测的三维姿势，并引入更多二维姿势标注数据提高三维姿势预测的准确率，最终通过自监督修正机制生成具有空间几何一致性的三维姿势估计。

3.如权利要求1所述的一种基于深度网络的人体三维关节点估计框架，其特征在于，所述三维-二维投影模块由全连接层、修正线性单元层、batch-normalization层堆叠而成：

4.如权利要求3所述的一种基于深度网络的人体三维关节点估计框架，其特征在于：所述三维-二维投影模块分为回归部分ψ_C和映射部分ψ_P，回归部分输出经修正的三维关节点坐标映射部分输出三维关节点映射到二维空间的二维投影姿势的坐标。

5.如权利要求4所述的一种基于深度网络的人体三维关节点估计框架，其特征在于：于训练时，所述三维-二维投影模块回传二维投影姿势与真实标注的二维姿势之间的误差梯度；预测时，所述三维-二维投影模块固定映射部分ψ_P的参数，将训练时的真实标注的二维姿势替换成二维姿势子网络预测的二维预测姿势，根据二维投影姿势与二维预测姿势误差，自监督地更新回归部分ψ_C的参数，输出最终的三维姿势估计

6.一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，包括如下步骤：

7.如权利要求6所述的一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，其特征在于，

8.如权利要求7所述的一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，其特征在于，步骤S2进一步包括：

9.如权利要求8所述的一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，其特征在于：于步骤S2中，在所述三维-二维投影模块训练过程中引入dropout机制，对作为输入的三维粗预测和真实标注的二维姿势以小概率随机置零后再输入该模块中，以降低回归部分和投影部分对预测的三维姿势和二维姿势中野点的敏感度。

10.如权利要求8所述的一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法，其特征在于，步骤S3进一步包括：