CN117115363B

CN117115363B - 人体胸部平面估计方法和装置

Info

Publication number: CN117115363B
Application number: CN202311376949.7A
Authority: CN
Inventors: 黄高; 蒋昊峻
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-03-26
Anticipated expiration: 2043-10-24
Also published as: CN117115363A

Abstract

本公开提供了一种人体胸部平面估计方法和装置，涉及人体姿态估计领域，旨在准确估计人体胸部平面。所述方法包括：获取人体图像的图像特征；将图像特征输入二维胸部分割注意力模型，得到注意力特征；将图像特征输入三维人体姿态估计模型，得到人体姿态特征；对注意力特征和人体姿态特征进行融合处理，得到融合特征；对融合特征进行特征变换，得到人体模型参数；将人体模型参数输入三维人体模型，得到三维人体结构；基于三维人体结构，确定三维空间中的人体胸部平面。

Description

人体胸部平面估计方法和装置

技术领域

本公开涉及人体姿态估计领域，特别是涉及一种人体胸部平面估计方法和装置。

背景技术

人体胸部平面估计是一个新兴且重要的计算机视觉任务，可以用于重建和分析人体上身姿态。人体胸部平面估计通常需要利用人体姿态估计方法，人体姿态估计利用计算机视觉技术来检测图像或视频中的人体，并准确定位身体关键点，如关节、面部特征点、手部等，实现对人体姿态的估计。

人体胸部平面估计为人体姿态估计提供了人体上身方向和姿态的信息。人体胸部平面估计在运动捕捉、人机交互和医疗保健等多个领域，具有重要意义。

早期的人体姿态估计方法利用如关节点图等模型来表示身体各部分之间的空间关系，估计单个人体的姿态。随着深度学习的发展，卷积神经网络在姿态估计领域占据了重要地位。关键点的检测可以直接通过回归进行，或者通过预测图像上的热力图来表示关键点的位置。

早期的胸部平面估计方法从几何的角度出发，通过拟合经过手动选择或检测得到的胸部关键点的平面来实现。利用足够的躯干点，并进行最小二乘拟合，估计出一个粗略的胸部平面。

相关技术的人体姿态估计方法，利用人体姿态估计模型回归得到的关键点，如左肩、右肩、髋关节、左臀部、右臀部等，再通过进一步补偿来粗略估计人体上半身平面。然而，人体上半身是一种非刚性机体，胸部和腹部的扭曲都会使该方法准确率大幅降低，并且这些方法检测到的关键点为人体骨骼关节，并非身体表面，通过粗略的固定补偿会导致准确率进一步下降。因此，基于相关技术的人体姿态估计方法得到的人体胸部平面，准确率还有待提高。

发明内容

鉴于上述问题，本公开实施例提供了一种人体胸部平面估计方法和装置，以便克服上述问题或者至少部分地解决上述问题。

本公开实施例的第一方面，提供了一种人体胸部平面估计方法，应用于人体胸部平面估计网络，所述人体胸部平面估计网络包括二维胸部分割注意力模型、三维人体姿态估计模型和三维人体模型，所述方法包括：

获取人体图像的图像特征；

将所述图像特征输入所述二维胸部分割注意力模型，得到注意力特征，所述注意力特征表征：所述人体图像的各个像素点为胸部像素点的可能性；

将所述图像特征输入所述三维人体姿态估计模型，得到人体姿态特征，所述人体姿态特征表征：所述人体图像的各个像素点所属的人体部位；

对所述注意力特征和所述人体姿态特征进行融合处理，得到融合特征，所述融合特征包括：非胸部特征向量和包含胸部注意力掩码的胸部特征向量；

对所述融合特征进行特征变换，得到人体模型参数；

将所述人体模型参数输入所述三维人体模型，得到三维人体结构；

基于所述三维人体结构，确定三维空间中的人体胸部平面。

可选地，所述对所述融合特征进行特征变换，得到人体模型参数，包括：

对所述融合特征进行特征变换，得到所述人体模型参数和相机的位姿参数；

所述基于所述三维人体结构，确定三维空间中的人体胸部平面，包括：

根据所述注意力特征，确定人体胸部分割结果；

根据所述三维人体结构，确定三维关键点；

通过所述相机的位姿参数，将所述三维关键点投影到所述人体图像所在的二维平面上，得到二维关键点；

根据所述人体胸部分割结果，将所述二维关键点中属于人体胸部的关键点，确定为胸部表面的二维关键点；

通过所述相机的位姿参数，对所述胸部表面的二维关键点进行反投影转换，得到所述胸部表面的三维关键点；

基于所述胸部表面的三维关键点，得到三维空间中的人体胸部平面。

可选地，所述基于所述胸部表面的三维关键点，得到三维空间中的人体胸部平面，包括：

利用近邻传播算法，对所述胸部表面的三维关键点进行聚类计算，得到三维空间中的胸部平面关键点；

利用随机抽样一致算法，对所述三维空间中的胸部平面关键点进行离群值筛选；

将包含筛选后的所述三维空间中的胸部平面关键点最多的平面，确定为所述三维空间中的人体胸部平面。

可选地，所述人体胸部平面估计网络包括多个用于进行特征变换的全连接层；所述对所述融合特征进行特征变换，得到所述人体模型参数和相机的位姿参数，包括：

从所述融合特征中，获取所述胸部特征向量和所述非胸部特征向量；

将所述胸部特征向量输入第一全连接层，得到人体胸部的旋转参数；

将所述非胸部特征向量输入第二全连接层，得到人体的非胸部的参数；

将所述融合特征输入第三全连接层，得到人体模型的形状参数，以及所述相机的位姿参数。

可选地，所述对所述注意力特征和所述人体姿态特征进行融合处理，得到融合特征，包括：

根据所述注意力特征，确定稀疏注意力掩码，所述稀疏注意力掩码包含胸部特征和人体胸部的位置信息；

将所述稀疏注意力掩码和所述人体姿态特征进行点乘，得到所述融合特征。

可选地，所述人体胸部平面估计网络的训练步骤至少包括：

获取人体图像样本和所述人体图像样本对应的三维人体结构样本，所述人体图像样本标注了二维关键点样本，所述三维人体结构样本标注了三维关键点样本，所述人体图像样本携带各个像素点的类别标签，所述类别标签至少包括人体胸部；

将所述人体图像样本输入待训练的人体胸部平面估计网络，得到所述人体图像样本的图像特征样本；

将所述图像特征样本输入待训练的二维胸部分割注意力模型，得到注意力特征样本；

将所述图像特征样本输入待训练的三维人体姿态估计模型，得到人体姿态特征样本；

根据所述类别标签和所述注意力特征样本，确定第一损失函数；

根据所述类别标签和所述人体姿态特征样本，确定第二损失函数；

基于所述注意力特征样本和所述人体姿态特征样本，确定预测的三维关键点、预测的二维关键点和预测的三维人体结构；

根据所述三维关键点样本和所述预测的三维关键点，确定第三损失函数；

根据所述二维关键点样本和所述预测的二维关键点，确定第四损失函数；

根据所述三维人体结构样本和所述预测的三维人体结构，确定第五损失函数；

基于所述第一损失函数、所述第二损失函数、所述第三损失函数、所述第四损失函数和所述第五损失函数，对所述待训练的人体胸部平面估计网络进行训练，得到训练好的所述人体胸部平面估计网络。

可选地，所述人体胸部平面估计网络包括骨干模型；所述获取人体图像的图像特征，包括：

对目标图像进行人形检测，得到所述人体图像；

将所述人体图像输入所述骨干模型，得到所述人体图像的图像特征。

本公开实施例的第二方面，提供了一种人体胸部平面估计装置，应用于人体胸部平面估计网络，所述人体胸部平面估计网络包括二维胸部分割注意力模型、三维人体姿态估计模型和三维人体模型，所述装置包括：

第一获取模块，用于获取人体图像的图像特征；

第二获取模块，用于将所述图像特征输入所述二维胸部分割注意力模型，得到注意力特征，所述注意力特征表征：所述人体图像的各个像素点为胸部像素点的可能性；

第三获取模块，用于将所述图像特征输入所述三维人体姿态估计模型，得到人体姿态特征，所述人体姿态特征表征：所述人体图像的各个像素点所属的人体部位；

融合模块，用于对所述注意力特征和所述人体姿态特征进行融合处理，得到融合特征，所述融合特征包括：非胸部特征向量和包含胸部注意力掩码的胸部特征向量；

变换模块，用于对所述融合特征进行特征变换，得到人体模型参数；

输入模块，用于将所述人体模型参数输入所述三维人体模型，得到三维人体结构；

确定模块，用于基于所述三维人体结构，确定三维空间中的人体胸部平面。

本公开实施例的第三方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行指令，以实现如第一方面的人体胸部平面估计方法。

本公开实施例的第四方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面的人体胸部平面估计方法。

本公开实施例包括以下优点：

本公开实施例中，通过二维胸部分割注意力模型可以得到注意力特征，注意力特征表征：人体图像的各个像素点为胸部像素点的可能性；通过三维人体姿态估计模型可以得到人体姿态特征，人体姿态特征表征：人体图像的各个像素点所属的人体部位；对注意力特征和人体姿态特征进行了融合处理，得到融合特征，因此，融合特征融合了注意力特征和人体姿态特征的信息，基于融合特征可以准确判断出人体图像中的胸部图像。进而，通过融合特征得到的人体模型参数和相机的位姿参数也比较准确；根据准确的人体模型参数和相机的位姿参数，最后得到的三维空间中的人体胸部平面，也比较准确。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例中一种人体胸部平面估计方法的步骤流程图；

图2是本公开实施例中人体胸部平面估计网络的结构示意图；

图3是本公开实施例中一种人体胸部平面估计装置的结构示意图。

具体实施方式

为使本公开的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本公开作进一步详细的说明。

参照图1所示，示出了本公开实施例中一种人体胸部平面估计方法的步骤流程图，该人体胸部平面估计方法应用于人体胸部平面估计网络，所述人体胸部平面估计网络包括二维胸部分割注意力模型、三维人体姿态估计模型和三维人体模型。如图1所示，该人体胸部平面估计方法具体可以包括步骤S11~步骤S17。

步骤S11：获取人体图像的图像特征。

人体图像是指包含人体的图像。对目标图像进行人形检测，将包含人体的目标图像，确定为人体图像。目标图像可以为任意图像，例如可以为照片、绘画或视频帧等。

人体胸部平面估计网络可以包括预先训练好的骨干模型，将人体图像输入人体胸部平面估计网络的骨干模型，可以提取到人体图像的图像特征。骨干模型可以为卷积神经网络骨干模型，具体可以为ResNet-50（具有50个层的残差网络）。骨干模型的训练方法可以参照相关技术。

步骤S12：将所述图像特征输入所述二维胸部分割注意力模型，得到注意力特征。

所述注意力特征表征：所述人体图像的各个像素点为胸部像素点的可能性。

二维胸部分割注意力模型的训练可以是随着人体胸部平面估计网络的训练进行的，后文将详述人体胸部平面估计网络的训练方法。

二维胸部分割注意力模型为卷积神经网络组成的解码器，二维胸部分割注意力模型可以包括：上采样模块、3×3卷积网络、批归一化层、ReLU（Linear rectificationfunction，线性整流函数）激活函数层和3个1×1卷积核。

作为一个实施例，图像特征的特征尺寸可以为7×7×2048，二维胸部分割注意力模型将图像特征输入上采样模块进行Pixel-shuffle（像素重排）上采样，然后将上采样模块的输出依次经过3×3卷积网络、批归一化层和ReLU激活函数层，得到最终特征，最终特征的尺寸为H×W×512。最后运用3个1×1卷积核来减少最终特征的通道数量，得到具有3个通道的注意力特征N，N的尺寸为H×W×3，其中，3个通道分别代表胸部、除胸部以外的人体部分和图像背景部分。

将图像特征输入二维胸部分割注意力模型，可以得到二维胸部分割注意力模型输出的注意力特征，注意力特征包含了人体图像的各个像素点为胸部像素点的可能性。

步骤S13：将所述图像特征输入所述三维人体姿态估计模型，得到人体姿态特征。

所述人体姿态特征表征：所述人体图像的各个像素点所属的人体部位。

三维人体姿态估计模型的训练可以是随着人体胸部平面估计网络的训练进行的，后文将详述人体胸部平面估计网络的训练方法。

三维人体姿态估计模型的网络结构与二维胸部分割注意力模型的网络结构类似。作为一个实施例，将图像特征输入三维人体姿态估计模型，对图像特征进行4次Pixel-shuffle上采样，然后将上采样后的图像特征依次通过3×3卷积网络、批归一化层、ReLU激活函数层和C个1×1卷积核，可以得到具有C个通道的人体姿态特征M，M的尺寸为H×W×C，其中，C的取值由身体部位的数量决定。例如，设置了头部、手臂、腿部和躯干4个身体部位，再加上1个背景类别，则C的取值可以为5。

将图像特征输入三维人体姿态估计模型，可以得到三维人体姿态估计模型输出的人体姿态特征，人体姿态特征表征人体图像的各个像素点所属的人体部位。

步骤S14：对所述注意力特征和所述人体姿态特征进行融合处理，得到融合特征。

所述融合特征包括：非胸部特征向量和包含胸部注意力掩码的胸部特征向量。

对注意力特征和人体姿态特征进行融合处理，可以是直接将注意力特征作为权重，对人体姿态特征进行加权处理，得到融合特征。融合特征综合了注意力特征和人体姿态特征的信息，可以更加准确地区别胸部和非胸部。因此，融合特征可以区分出非胸部特征向量和胸部特征向量，胸部特征向量包含胸部注意力掩码。

可选地，作为一个实施例，可以通过如下公式实现注意力特征和人体姿态特征的融合处理：

其中，F表征融合特征，H和W表征注意力特征的尺寸，也表征人体姿态特征的尺寸，N为注意力特征，M为人体姿态特征，⊙为哈达玛积，表征N为稀疏注意力掩码，该稀疏注意力掩码为M提供胸部特征及胸部的位置信息。

可选地，可以通过如下公式，利用点乘计算实现注意力特征和人体姿态特征的融合处理：

其中，T表示转置矩阵，其余各个字符的含义可以参照前文。融合特征F的尺寸为3×C。

一个像素的注意力越高，在融合特征F上具有越多的贡献。一个像素的注意力越高，表征该像素越有可能为胸部像素点。

步骤S15：对所述融合特征进行特征变换，得到人体模型参数。

可选地，在对融合特征进行特征变换时，还可以得到相机的位姿参数。

人体模型参数是指三维人体模型所需的参数。相机的位姿参数包括弱透视相机的平移参数和旋转参数。可以理解的是，人体图像并不一定是照片，因此人体图像并不一定是由相机拍摄的，此处所指的相机的位姿参数表征的是：人体图像反映出来的观测人体图像中的人体的位置和角度。

作为一个实施例，人体胸部平面估计网络可以包括多个用于进行特征变换的全连接层。所述对所述融合特征进行特征变换，得到人体模型参数和相机的位姿参数，包括：从所述融合特征中，获取所述胸部特征向量和所述非胸部特征向量；将所述胸部特征向量输入第一全连接层，得到人体胸部的旋转参数；将所述非胸部特征向量输入第二全连接层，得到人体的非胸部的参数；将所述融合特征输入第三全连接层，得到人体模型的形状参数，以及所述相机的位姿参数。

步骤S16：将所述人体模型参数输入所述三维人体模型，得到三维人体结构。

三维人体模型可以为SMPL模型（Skinned Multi-Person Linear Model，人体参数模型）。SMPL模型是从大量人体数据中学习得到的，能够精确地表示人体的不同形状和姿态。将人体模型参数输入SMPL模型，可以得到SMPL模型构建的三维人体结构。

步骤S17：基于所述三维人体结构，确定三维空间中的人体胸部平面。

根据SMPL输出的三维人体结构，可以直接根据三维人体结构中的胸部结构，确定三维空间中的人体胸部平面。

采用本公开实施例的技术方案，通过二维胸部分割注意力模型可以得到注意力特征，注意力特征表征：人体图像的各个像素点为胸部像素点的可能性；通过三维人体姿态估计模型可以得到人体姿态特征，人体姿态特征表征：人体图像的各个像素点所属的人体部位；对注意力特征和人体姿态特征进行了融合处理，得到融合特征，因此，融合特征融合了注意力特征和人体姿态特征的信息，基于融合特征可以准确判断出人体图像中的胸部图像。进而，通过融合特征得到的人体模型参数和相机的位姿参数也比较准确；根据准确的人体模型参数和相机的位姿参数，最后得到的三维空间中的人体胸部平面，也比较准确。

可选地，在上述技术方案的基础上，所述基于所述三维人体结构，确定三维空间中的人体胸部平面，可以包括：根据所述注意力特征，确定人体胸部分割结果；根据所述三维人体结构，确定三维关键点；通过所述相机的位姿参数，将所述三维关键点投影到所述人体图像所在的二维平面上，得到二维关键点；根据所述人体胸部分割结果，将所述二维关键点中属于人体胸部的关键点，确定为胸部表面的二维关键点；通过所述相机的位姿参数，对所述胸部表面的二维关键点进行反投影转换，得到所述胸部表面的三维关键点；基于所述胸部表面的三维关键点，得到三维空间中的人体胸部平面。

注意力特征表征人体图像的各个像素点为胸部像素点的可能性，因此，根据注意力特征，可以通过设置可能性阈值等，确定人体图像中的各个像素点是否为胸部像素点，从而得到人体胸部分割结果，人体胸部分割结果表征各个像素点是否为人体胸部的像素点。

对三维人体结构进行识别，可以确定三维关键点，三维关键点可以为左肩、右肩、髋关节、左臀部、右臀部等。

可选地，可以通过如下公式确定三维关键点：

其中，包括人体胸部的旋转参数/>和人体的非胸部的参数/>；/>为人体模型的形状参数；/>表征三维关键点；/>表征SMPL预训练的回归模型；/>表征SMPL模型。

相机的位姿参数表征的是人体图像反映出来的观测人体图像中的人体的位置和角度。因此，通过相机的位姿参数，可以确定人体图像相对于人体所处的二维平面，从而将三维关键点投影到人体图像所处的二维平面上，得到二维关键点。

可选地，可以通过如下公式确定二维关键点：

其中，表征二维关键点，/>表征三维关键点；/>为相机的正投影，R为相机的旋转矩阵，s为弱透视相机的平移参数，t为弱透视相机的旋转参数。

根据人体胸部分割结果确定属于人体胸部的像素点，将二维关键点中不属于人体胸部的关键点进行筛除，将剩余的二维关键点确定为胸部表面的二维关键点。通过相机的位置参数，对胸部表面的二维关键点进行反投影转换，可以得到胸部表面的三维关键点。

在得到胸部表面的三维关键点之后，可以直接根据胸部表面的三维关键点拟合得到更加准确的胸部表面。进而，根据拟合得到的胸部表面，确定三维空间中的人体胸部平面。

可选地，作为一个实施例，所述基于所述胸部表面的三维关键点，得到三维空间中的人体胸部平面，可以包括：利用近邻传播算法，对所述胸部表面的三维关键点进行聚类计算，得到三维空间中的胸部平面关键点；利用随机抽样一致算法，对所述三维空间中的胸部平面关键点进行离群值筛选；将包含筛选后的所述三维空间中的胸部平面关键点最多的平面，确定为所述三维空间中的人体胸部平面。

可以利用近邻传播算法（Affinity Propagation），对胸部表面的三维关键点进行聚类计算，得到三维空间中的胸部平面关键点。可选地，可以建立近邻传播模型，将胸部表面的三维关键点输入近邻传播模型，得到三维空间中的胸部平面关键点。

近邻传播模型是一种聚类模型，用于选择代表性关键点。近邻传播模型在起始阶段将所有的胸部表面的三维关键点看作是潜在的聚类中心点，同时，将每个胸部表面的三维关键点都视为网络中的一个节点，吸引力信息沿着节点连线递归传输，直到找到最优的类代表点集合，使得所有胸部表面的三维关键点到最近的类代表点的相似度之和最大。其中，吸引力信息是胸部表面的三维关键点适合被选作其他胸部表面的三维关键点的类代表点的程度。

具体地，近邻传播算法通过在两个消息传递步骤之间交替进行来实现，两个步骤分别为：1）“责任”矩阵R，R包含值r(i,k)，用于量化相对于其他候选示例时，作为/>的示例的适宜程度；2）“可用性”矩阵A，A包含值a(i,k)，表示考虑到其他点对/>作为示例的偏好后，/>选择/>作为其示例的适当性。两个矩阵皆初始化为全0矩阵，该算法然后迭代地执行以下更新：

“责任”更新：

“可用性”更新：

当时，/>

当时，/>。

其中，表征更新前的/>，/>表征更新前的/>；设定/>为三维关键点的负欧式距离。迭代执行直到聚类边界在若干次迭代中保持不变，或达到某预定次数(迭代次数)。从最终矩阵中提取那些对自己的“责任+可用性”为正的示例（即(r(i,i)+a(i,i)>0），得到三维空间中的胸部平面关键点/>。相比较于其他传统的聚类算法，近邻传播算法将每个数据点都作为候选的类代表点，避免了聚类结果受限于初始类代表点的选择，同时该算法对于数据集生成的相似度矩阵的对称性没有要求，并在处理大规模多类数据时运算速度快，所以能够很好地解决非欧空间问题以及大规模稀疏矩阵计算问题等。

在得到三维空间中的胸部平面关键点之后，可以利用随机抽样一致算法（RandomSample Consensus，RANSAC），对三维空间中的胸部平面关键点进行离群值筛选，并将包含筛选后的三维空间中的胸部平面关键点最多的平面，确定为三维空间中的人体胸部平面。

具体地，在第一步，随机采样一组（三个）三维空间中的胸部平面关键点，判断三个点是否共线，若不共线，则重新随机采集；在第二步，利用最小二乘法初步拟合平面，平面满足Ax+By+Cz+D=0；在第三步，计算所有三维空间中的胸部平面关键点到拟合的平面的距离，并根据预设的阈值筛选距离较远的离群点，利用筛选后的三维空间中的胸部平面关键点，重复迭代第一步至第三步，最终选取筛选后的三维空间中的胸部平面关键点最多的平面，作为三维空间中的人体胸部平面。

下面介绍人体胸部平面估计网络的训练步骤，该人体胸部平面估计网络的训练步骤包括步骤S201~步骤S211。

步骤S201：获取人体图像样本和所述人体图像样本对应的三维人体结构样本，所述人体图像样本标注了二维关键点样本，所述三维人体结构样本标注了三维关键点样本，所述人体图像样本携带各个像素点的类别标签，所述类别标签至少包括人体胸部。

可以通过对人体进行拍照和扫描，得到人体图像样本和人体图像样本对应的三维人体结构样本。人体图像样本携带的各个像素点的类别标签可以包括人体胸部、除胸部以外的人体和背景。可选地，除胸部以外的人体的还可以包括手臂、腿部、躯干等多个类别。

步骤S202：将所述人体图像样本输入待训练的人体胸部平面估计网络，得到所述人体图像样本的图像特征样本。

获取人体图像样本的图像特征样本的方法，可以参照获取人体图像的图像特征的方法。

步骤S203：将所述图像特征样本输入待训练的二维胸部分割注意力模型，得到注意力特征样本。

待训练的二维胸部分割注意力模型与训练好的二维胸部分割注意力模型的模型结构相同，可以待训练的二维胸部分割注意力模型对图像特征进行上采样，并将上采样后的图像特征依次经过3×3卷积网络、批归一化层和ReLU激活函数层，得到最终特征，最终特征的尺寸为H×W×512。最后运用3个1×1卷积核来减少最终特征的通道数量，得到具有3个通道的注意力特征N，N的尺寸为H×W×3，其中，3个通道分别代表胸部、除胸部以外的人体部分和图像背景部分。

步骤S204：将所述图像特征样本输入待训练的三维人体姿态估计模型，得到人体姿态特征样本。

待训练的三维人体姿态估计模型对图像特征样本的处理方法，可以参照训练好的三维人体姿态估计模型对图像特征的处理方法。

步骤S205：根据所述类别标签和所述注意力特征样本，确定第一损失函数。

根据图像样本的各个像素点的类别标签，将图像样本的像素点分为以下3类：胸部、除胸部以外的人体部分和图像背景。根据3类类别标签和注意力特征样本，建立交叉熵损失函数，得到第一损失函数。

可以通过如下公式，确定第一损失函数：

其中，表征第一损失函数；H和W用于表征注意力特征样本在每个通道的尺寸；表征像素点(h,w)分别为胸部、除胸部以外的人体和图像背景的预测概率；/>表征像素点(h,w)的类别标签；σ为空间柔性最大激活函数（Spatial Softmax），CE为交叉熵损失。/>是根据注意力特征样本确定的。

步骤S206：根据所述类别标签和所述人体姿态特征样本，确定第二损失函数。

根据图像样本的各个像素点的类别标签各自表征的像素点的类别，以及人体姿态特征样本表征的各个像素点类别，建立交叉熵损失函数，得到第二损失函数。第二损失函数与第一损失函数的建立方法类似。

步骤S207：基于所述注意力特征样本和所述人体姿态特征样本，确定预测的三维关键点、预测的二维关键点和预测的三维人体结构。

对注意力特征样本和人体姿态特征样本进行融合处理，得到融合特征样本，融合特征样本包括：非胸部特征向量样本和包含胸部注意力掩码的胸部特征向量样本。

对融合特征样本进行特征变换，得到人体模型参数样本和相机的位姿参数样本；将人体模型参数样本输入待训练的三维人体模型，得到预测的三维人体结构。

根据注意力特征样本，确定人体胸部分割结果样本；根据预测的三维人体结构，确定预测的三维关键点；通过相机的位姿参数样本，将预测的三维关键点投影到人体图像样本所在的二维平面上，得到预测的二维关键点。

步骤S208：根据所述三维关键点样本和所述预测的三维关键点，确定第三损失函数。

可以通过如下公式，确定第三损失函数：

其中，表征第三损失函数；/>表征预测的三维关键点，/>表征三维关键点样本，/>表征L1范数。

步骤S209：根据所述二维关键点样本和所述预测的二维关键点，确定第四损失函数。

可以通过如下公式，确定第四损失函数：

其中，表征第四损失函数；/>表征预测的二维关键点，/>表征二维关键点样本，/>表征L1范数。

步骤S210：根据所述三维人体结构样本和所述预测的三维人体结构，确定第五损失函数。

可以通过如下公式，确定第五损失函数：

其中，表征第五损失函数；/>表征预测的三维人体结构，/>表征三维人体结构样本，/>表征L2范数。

步骤S211：基于所述第一损失函数、所述第二损失函数、所述第三损失函数、所述第四损失函数和所述第五损失函数，对所述待训练的人体胸部平面估计网络进行训练，得到训练好的所述人体胸部平面估计网络。

基于所述第一损失函数、所述第二损失函数、所述第三损失函数、所述第四损失函数和所述第五损失函数，可以得到总损失函数，基于总损失函数对所述待训练的人体胸部平面估计网络进行端到端的训练，得到训练好的所述人体胸部平面估计网络。训练好的人体胸部平面估计网络中的全连接层、提取图像特征的模块、二维胸部分割注意力模型和三维人体姿态估计模型，都为训练好的模块或模型。

可以通过如下公式确定总损失函数：

其中，表征第二损失函数，/>分别为各个损失函数的标量系数，用于均衡各个损失函数；其余各个字符的含义可以参照前文。

作为一个实施例，图2是本公开实施例中人体胸部平面估计网络的结构示意图。人体胸部平面估计网络包括骨干模型、二维胸部分割注意力模型和三维人体姿态估计模型、注意力融合模块、多个全连接层、三维人体模型。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本公开实施例所必须的。

图3是本公开实施例中一种人体胸部平面估计装置的结构示意图，所述人体胸部平面估计装置应用于人体胸部平面估计网络，所述人体胸部平面估计网络包括二维胸部分割注意力模型、三维人体姿态估计模型和三维人体模型。如图3所示，所述装置包括第一获取模块、第二获取模块、第三获取模块、融合模块、变换模块、输入模块和确定模块，其中：

第一获取模块，用于获取人体图像的图像特征；

可选地，所述变换模块具体用于：

所述确定模块具体用于：

根据所述注意力特征，确定人体胸部分割结果；

根据所述三维人体结构，确定三维关键点；

可选地，所述人体胸部平面估计网络包括多个用于进行特征变换的全连接层；所述变换模块具体用于：

可选地，所述融合模块具体用于：

可选地，所述人体胸部平面估计网络的训练步骤至少包括：

可选地，所述人体胸部平面估计网络包括骨干模型；所述第一获取模块具体用于：

对目标图像进行人形检测，得到所述人体图像；

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本公开实施例的实施例可提供为方法、装置或计算机程序产品。因此，本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例是参照根据本公开实施例的方法、装置、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本公开所提供的一种人体胸部平面估计方法和装置，进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本公开的限制。

Claims

1.一种人体胸部平面估计方法，其特征在于，应用于人体胸部平面估计网络，所述人体胸部平面估计网络包括二维胸部分割注意力模型、三维人体姿态估计模型和三维人体模型，所述方法包括：

获取人体图像的图像特征；

对所述融合特征进行特征变换，得到人体模型参数；

基于所述三维人体结构，确定三维空间中的人体胸部平面；

所述对所述融合特征进行特征变换，得到人体模型参数，包括：

根据所述注意力特征，确定人体胸部分割结果；

根据所述三维人体结构，确定三维关键点；

2.根据权利要求1所述的方法，其特征在于，所述基于所述胸部表面的三维关键点，得到三维空间中的人体胸部平面，包括：

3.根据权利要求1所述的方法，其特征在于，所述人体胸部平面估计网络包括多个用于进行特征变换的全连接层；所述对所述融合特征进行特征变换，得到所述人体模型参数和相机的位姿参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述注意力特征和所述人体姿态特征进行融合处理，得到融合特征，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述人体胸部平面估计网络的训练步骤至少包括：

6.根据权利要求1-4任一所述的方法，其特征在于，所述人体胸部平面估计网络包括骨干模型；所述获取人体图像的图像特征，包括：

对目标图像进行人形检测，得到所述人体图像；

7.一种人体胸部平面估计装置，其特征在于，应用于人体胸部平面估计网络，所述人体胸部平面估计网络包括二维胸部分割注意力模型、三维人体姿态估计模型和三维人体模型，所述装置包括：

第一获取模块，用于获取人体图像的图像特征；

确定模块，用于基于所述三维人体结构，确定三维空间中的人体胸部平面；

所述变换模块具体用于：

所述确定模块具体用于：

根据所述注意力特征，确定人体胸部分割结果；

根据所述三维人体结构，确定三维关键点；

8.根据权利要求7所述的装置，其特征在于，所述基于所述胸部表面的三维关键点，得到三维空间中的人体胸部平面，包括：