CN115880720A

CN115880720A - 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法

Info

Publication number: CN115880720A
Application number: CN202211502587.7A
Authority: CN
Inventors: 任柯燕; 岳天一; 史禹; 边青云; 谷美颖
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-31

Abstract

本发明公开一种自适应无标注场景的单目三维人体估计方法，以单目无标注的图像为输入估计人体的姿态和外形参数。首先，该方法同时以生成范式和回归范式两个学习视角识别目标人体。其中，回归范式的估计结果表现为一种三维人体网格，生成范式的估计结果表现为二维的人体轮廓分割和表面法线纹理贴图。随后，一个视角中置信度最高的估计结果会被筛选作为另一个视角的伪标，填充训练子集。特别的，本发明设计一个名为法线交并比损失的函数，监督法线贴图和三维网格的对齐。为保障在复杂的野外环境中训练的稳定性，本方法的回归范式估计结果由一种对遮挡鲁棒的自注意力回归器预测。综上，本发明所提出的人体估计方法，通过不断学习无标注数据集的分布特征，能有效提高实际部署场景下的人体估计精度，并且可以在复杂的遮蔽环境中稳定的部署。

Description

一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人体姿态和外形参数的估计方法。

背景技术

从单目图像中回归人体的姿态和外形，是计算机视觉领域一个非常有价值的研究方向。该任务在虚拟现实、医疗辅助、运动分析等领域有广泛的应用前景。该任务以单张单目RGB图像作为输入，并预测人体模型参数作为输出。归功于大规模三维姿势数据集的发展，最近的深度学习方法在室内和室外基准上取得了显著的性能提升。然而，现有工作在实际部署当中通常会出现性能不佳的问题。原因在于，当有限的训练集难以覆盖多样化的野外场景，训练和测试场景之间会存在较大的分布偏移。当前，在现实的无标注域场景中部署三维人体姿态和外形估计的有关方法仍然保有挑战性。

以往该领域的工作主要专注于提供更易得的约束。一些无监督方法和自监督方法依赖配对数据补充监督信号，如多视角图像、时间序列的连续帧、高低分辨率图像，并假设这些的辅助数据可以在目标场景中大范围获取。然而在实际部署场景中该假设并不总是成立。另有一些方法雇佣现成检测器制作伪标，其直接约束了估计精度的上限。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种适应无标注场景的人体姿态和外形估计方法，能够解决上述技术问题。

本发明的技术方案是这样实现的：

一种自适应无标注场景的单目三维人体估计方法，包括：

(1)以单目无标注图像为输入，高级语义的骨干卷积网络提取高分辨率人体表征，供给随后的生成视角和回归视角识别目标人体；

(2)在生成视角中，多通道像素生成器将高分辨率表征的像素分类为前景人体轮廓和后景，同时估计轮廓内的表面法线纹理；

(3)在回归视角中，自注意力回归器从高分辨率表征中聚合感兴趣的局部补丁，并推断人体姿态和外形参数；

(4)以步骤(3)的估计的人体参数为输入，蒙皮模型映射得到对应的三维人体网格和关键骨骼；

(5)步骤(4)的三维人体被一种可微分渲染器进一步投影到二维像素平面，作为人体轮廓和纹理的候选伪标签；

(6)以生成和回归视角估计的人体轮廓和纹理为输入，置信度分享算法通过对齐部分置信度最高的估计结果，促使步骤(2)和步骤(3)的网络分享先验性和后验性知识；

(7)作为步骤(6)的组成部分，一种法线交并比损失函数用于对齐估计结果，其主要特征在于通过约束法线纹理间接补充三维监督信号的缺失；

(8)重复步骤(1)到(7)直到生成和回归视角的估计结果一致，输出步骤(4)的三维人体网格作为最优解。

需要说明的是，上述提到的人体参数化模型具体为“SMPL”：作为一种可微分的表面蒙皮网格模型，其以特定参数空间的人体姿态和外形参数为输入，输出权重关联的三维人体蒙皮网格和骨骼关节。

相比于以往的人体估计方法，本发明的创新点在于提出一种置信度分享的数据分布偏移适应方法，通过在不同视角的学习者之间分享置信度最高的预测结果，适应无标注的未见场景。其中，置信度分享模型通过精心设计耦合度低的学习任务可以有效增加两个学习者简单化趋同的难度，从而避免无标注训练过程中的模型坍塌问题。自注意力人体回归器和渲染的法线交并比损失，通过提升模型对环境遮挡的鲁棒性和特征共享的精度，确保无标注训练过程的稳定性。

具体来说，所提出的方法建立一个双视角的孪生学习任务：首先，回归视角用于估计参数化的人体模型，其拥有身体骨骼长度、蒙皮变形、软组织形态等先验知识。第二，生成视角用于分割身体轮廓，其像素层面的估计目标天然的对前后景边界敏感。此外，一个置信度的指导模块，用于挑选上述视角中最优的识别结果作为伪标签以扩展训练集。

遵循多任务学习范式，本发明的孪生学习者共用一个主干卷积神经网络，同时进行端到端的训练。与多任务学习范式的不同点在于，本发明所提出模型的损失函数由两部分组成。其中，一个被称为标准损失的函数用于在有标签的子数据集上约束孪生网络，从而使模型学习源域中的先验知识。另一个是本发明提出的法线交并比损失用于在无标签的子数据集上最小化生成和回归结果之间的差异，从而使模型探索并总结目标域中的后验知识。借助一种业内成熟的可微分渲染器，该损失函数的最小化过程可以被描述为回归的三维网格与生成的二维人体轮廓在投影的像素平面上最大化对齐人体表面纹理和轮廓。当识别结果在立体和平面视角上一致，本发明的模型达到最佳的无标注场景内的人体估计解。

于此同时，本发明中置信度的指导模块本质为一个噪声对比估计任务，其工作模式类似于对抗学习中的鉴别器。在一个迷你批次中，该模块学习生成结果、回归结果与真相标签的数据分布关系，并在下一批次的训练中评价识别结果的分布相似度，也就是置信度评级。继而，指导模块以真实标签的数量为参照，筛选一定比例置信度评价最高的识别结果作为有价值的伪标签，填充无标签场景的训练子数据集。当该类伪标签包含生成和回归学习者各自所学的后验知识，孪生学习者在置信度的指导下可以稳定且高效的分享学习经验。

有益效果

本发明提出的无标注场景自适应适应方法能够在实例场景中快速部署，高精度的估计场景中的人体姿态和形态。所提出的基于置信度的指导方案能够有效剔除负面的伪标签，包括姿态错位、体态未匹配，相机参数未聚焦和被遮蔽的轮廓。与此同时，基于人体补丁自注意力的回归器能够在复杂的遮挡环境中稳定估计人体模型参数，保证模型稳定化适应野外场景的能力。渲染的法线交并比损失能够间接补充对人体模型的深度约束，从而进一步提高人体估计精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中人体姿态和外形估计方法的流程图；

图2是根据本发明实施例中人体姿态和外形估计模型的总体架构示意图；

图3是根据本发明实施例中基于置信度的指导方案对回归和生成识别结果的评级示意图；

图4是根据本发明实施例中基于人体补丁自注意力的回归器的网络结构示意图；

图5是根据本发明实施例中基于可微分渲染的法线交并比损失的可视化约束示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，一种无标注场景的人体姿态和外形估计方法，在实际应用中可如图1所示，对本发明的网络结构进行部署，包括：

一种基于深度学习的模型以单张、单目和无标注的图像为输入，并同时从回归和生成两个视角识别目标人体，其中回归视角估计人体的姿态和外形参数并输出人体参数化模型的三维网格，生成角度分割二维的人体轮廓并预测目标人体表面法线的纹理贴图；

一种基于像素补丁自注意力的回归器作为回归视角，用于从像素对齐的高分辨率特征中自主聚合可见人体线索，从而有效的在遮挡环境中依据局部特征推断人体姿态和外形参数，强化在遮挡环境中无监督训练的鲁棒性；

一种像素点多属性估计的生成器作为生成视角，用于从像素对齐的高分辨率特征中分类像素所属人体部位或背景并识别人体表面顶点法线的向量值。

一种基于置信度的指导方法，以生成和回归两个视角的估计结果为输入，通过在像素层面对齐估计结果，分享不同视角网络自有的先验知识和学习的后验知识，从而适应无标注场景中数据域的分布偏移。

为方便理解本发明的上述技术方案，以下通过实际部署和应用对本发明的上述技术方案进行详细说明。

基于模型的人体参数回归任务以被指定为一个元组

其中X表示输入观测，Θ＝{θ，β}表示人体模型参数，/>

和/>

分别代表人体的姿势和形状。之后，人体模型输出一个可微分的三维网格/>

具有性别中立的形状模型，并通过使用预先训练的网格到骨架的映射，恢复三维关节/>

第三个参数Π_st是一个弱透视投影模型，通过/>

获得2D关节，其中s和t分别表示相机模型的比例和平移。最后一个参数/>

定义了预测元组/>

的基本损失函数

以约束所采用的基于CNN的编码器[-,-]和参数回归分支/>

人体轮廓和法线的生成任务可以简单描述为一个多通道像素值的估计任务，用公式表示为

对于输入图像x_i∈X的每个像素，生成分支/>

被训练为分类一组复合标签/>

其中RGB通道代表表面法向量，alpha(α)通道编码前景的概率，gamma(γ)通道对像素所属的身体部位进行分类。为了分别约束这些通道，设计了一个复合损失函数/>

其中/>

表示交叉熵损失函数。由于该模型遵循多任务学习范式，/>

和/>

共享一个公共编码器。

上述两个视角所估计的人体表征在像素层面上进行对齐，以分享各自网络的学习经验，具体如图4所示。对于生成任务，人体表征直接对应于分类结果，包括前景轮廓

身体部位分割/>

和表面法线映射/>

对于回归任务，给定预测的人体网格，通过可微分的渲染器/>

获得相应的人体表征，其过程可以描述为

由于网络的泛化能力或各种遮挡场景的原因，有一些负面的伪标签。因此，本发明设计了一种指导策略，推荐感兴趣的伪标签参与训练。首先，该发明实例为回归和生成分支的全部预测结果评级。对于随机抽取的N数量的有标签和M数量的无标签的样混合样本。本实例简单的雇佣一段普适的可学习网络映射得到人体表征的概率化表示，公式化表达为：

其中x代表输入的人体表征，

达标输出的概率化表示，CNN是一段卷积神经网络，W是一组可训练的权重，ReLU代表一个激活函数，σ代表指数归一化函数。如图1中(a)圈出的自信度指导部分所示，本实例在不同的来源的表征上进行对比学习，即地面真相

回归结果/>

和生成结果/>

其中d代表概率表示的维度。本发明实例分别以地面真相和回归结果，地面真相和生成结果作为两组独立的正样本对，迷你批次中的其它数据点作为负面样本。同时，让相对熵

表示人体表征的自信度评级，其中/>

代表真实分布的概率化表征，/>

代表近似分布的预测概率化表征。对于一组正面样本

其对比损失函数的公式化表达如下：/>

其中，x和y分别代表输入的样本对，τ是一个温度控制的超参数。如图2所示，本发明实例筛选K＝ρN数量的评分最高的结果加入孪生学习者的训练子集，其中ρ表示一个百分比参数。到目前为止，本发明的伪注意力分支拥有以下感知，即分布在

和/>

之间，而远离

当用/>

代替/>

时，该实例选择相对熵最低的数据点作为有价值的注释。根据该标准，自信度指导方案推荐K数量的伪标签来扩大回归分支的训练集。一个小型批次的最终对比性损失由以下公式给出：

为提升模型对野外场景中普遍存在的遮挡样本的鲁棒性，本实例遵循身体部位注意力范式的网络结构。所提出的人体补丁自注意力回归器的目标是独立回归多个参数空间(即相机、人体形状和24个身体关节)。当传统的自注意力方法利用多头策略，其需要庞大的嵌入尺寸。为解决该问题，本实例简单地使用多个分类头来查询每个子空间感兴趣的局部表示。如图3所示，给定一组从表征中重塑的补丁序列X，参数回归过程可以公式化的表达为：

（4）

其中，Φ表示一组参数合集，θ_n表示24个人体姿态参数，β表示人体外形参数，T表示标准配置下的人体模型参数，

和/>

分别表示第i数量的参数的映射权重和查询权重，W_k和W_v代表一对共用的键值权重，σ表示指数归一化函数。这样的结构在无法叠层的前提下实现轻量级。事实上，这种单层回归器能在野外遮挡场景下与最先进的工作相媲美。受屏蔽自动编码器的启发，本发明进一步应用大规模的遮盖补丁进行训练。对于随机遮盖的像素补丁序列，自注意力机制能够关注与未遮盖序列一致的局部区域。该训练方法可以有效促使网络关注被遮蔽区域周围的可见度线索。

当前计算机视觉技术已经引入软交并比损失提高渲染的人体模型轮廓

与生成的人体边界/>

的拟合度，公式化表达为：

其中h和w分别表示输入图像像素的高和宽度。然而，这种方法继承了传统IoU损失函数的缺点，即不能为内部和非重叠情况提供移动梯度。本发明实例的损失函数通过添加额外的惩罚项，从而实现更好的约束效果。如图4所示，对于身体轮廓内的每个像素，实例使用顶点的法线映射来约束凹凸不平的纹理，并以它们到目标边界的距离来惩罚外部像素。该惩罚项公式化表示为：

其中

表示一种距离变换函数用于测量与最近像素的曼哈顿距离，max表示取最值函数。本发明采用L2距离函数作为监督正常映射的标准，因为背景代表零像素，这导致使用余弦相似度的梯度消失问题。因此，被分割的每个区域的损失被定义为：

本实例渲染法线交并比损失函数约束了网格顶点在像素层面上的相对位置。对于遮蔽区域，凹凸不平的纹理提供了重要的深度线索，以明确每个身体关节的边界。对于轮廓之外的像素，曼哈顿距离映射拥有移动梯度，惩罚了像素的偏移。即使在复杂的重叠情况下，该损失也能更好地将预测与目标拓扑结构对齐。

本实例阐述概括性的阐释回归和生成视角各自的优势，其中回归学习者拥有人体骨骼、表面蒙皮等参数化模型的先验知识，表现为具有详细的表面纹理，但不准确的身体姿势。相对的，生成学习者对身体的前后景边界更敏感，能够更加精准分割人体轮廓，但其对外部遮挡的鲁棒性差。为继承二者的优势，传统的无监督方法简单的约束估计结果的一致性，其会遇到严肃的坍塌问题。部分原因在于，上述两视角有概率输出负面的估计结果，其能够轻易的破坏精细的身体回归器所学习到的分布规律。因此，本实例引入一种基于置信度的指导方案来实现所提出的半监督学习框架。该方案利用公式(2)评价的相似度过滤感兴趣的识别结果，并以对比学习的形式迭代提升评价能力。本实例的最终的目标是最小化法线交并比损失，以实现立体人体与平面表征的一致性。集合上述所有的特征，本发明实例的最终损失定义为：

其中，λ_n表示渲染法线交并比损失的训练权重，λ_g代表生成学习者的损失的训练权重，λ_c表示自信度指导方案的损失的训练权重。

综上所述，借助于上述技术方案，本发明提出的基于自信度分享的无标注场景自适应的人体姿态和外形估计方法通过在无标签样本上分享不同视角的先验性知识和后验性知识，以适应未见的实际部署场景。本发明所提出的模型能够共享回归范式学习者和生成范式学习的优势，并且不受严肃的坍塌问题的影响。其本质原因在于，本发明引入的基于置信度的指导方案能够剔除负面预测结果对无监督训练的影响。另一方面，由于缺乏三维监督会导致上述适应方案在复杂场景中的表现不稳定。本发明提出两项辅助技术。其一，对遮挡鲁棒的人体回归器，通过自主收集像素补丁中可见的人体关节线索，从而针对性的推理被遮蔽区域内的人体特征。其二，在二维像素层面约束深度轴的渲染法线交并比损失，能够更好的在空间层面对齐生成与回归的人体表征，从而提高知识共享的效率。从总体结果来看，本发明达到了最先进的跨场景适应的人体姿态和外形估计方法的表现。在大部分的对比案例中，本发明提出的方法在野外和遮蔽环境中的人体预估结果表现较为突出，能够较准确的得到单目图像中人体的位姿和体态。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。