CN112528858A

CN112528858A - 人体姿态估计模型的训练方法、装置、设备、介质及产品

Info

Publication number: CN112528858A
Application number: CN202011457299.5A
Authority: CN
Inventors: 杨少雄
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-19

Abstract

本申请公开了一种人体姿态估计模型的训练方法、装置、设备、介质及产品，涉及深度学习、增强现实和图像识别技术领域。具体方案为：当人体姿态估计模型不满足收敛条件时，将当前样本图像输入至待训练的姿态估计网络，得到当前样本图像对应的第一估计矩阵；将其输入至待训练的人体实例分割网络，得到当前样本图像对应的第二估计矩阵；根据第一估计矩阵和第二估计矩阵以及预先确定的第一真值矩阵和第二真值矩阵，分别计算第一损失函数值和第二损失函数值；根据第一损失函数值和第二损失函数值训练人体姿态估计模型；直到人体姿态估计模型满足收敛条件。本申请实施例可以在保持较低模型复杂度的前提下，有效地提升人体姿态估计模型的检测精度。

Description

人体姿态估计模型的训练方法、装置、设备、介质及产品

技术领域

本申请涉及人工智能领域，进一步涉及深度学习、增强现实和图像识别技术领域，尤其是一种人体姿态估计模型的训练方法、装置、设备、介质及产品。

背景技术

人体姿态估计算法可以检测出图片或者视频中各个人体关节点和骨骼的位置，在人体交互、动作识别、行为监控、美体等领域具有十分广泛的应用价值。

在现有技术中，通常是将2D人体姿态估计作为一个单独的课题和任务进行研究解决的，直接输出人体各个关键点的热图(heatmap)信息，然后将其和真值热图信息计算距离损失来进行模型训练。在复杂背景、困难光照(曝光、昏暗等)、极端视角(如侧面大角度)以及人体快速移动造成的模糊情况下，检测出的人体2D骨骼关键点不是很准确，较真值往往有较大偏移，而且经常把背景相似的物体识别为人体骨骼关键点，造成关键点误检，从而影响肢体特效、美体、动作识别等应用的效果，造成十分不佳的应用体验。

发明内容

本申请提供了一种人体姿态估计模型的训练方法、装置、设备、介质及产品，可以在保持较低模型复杂度的前提下，有效地提升人体姿态估计模型的检测精度。

第一方面，本申请提供了一种人体姿态估计模型的训练方法，所述方法包括：

当人体姿态估计模型不满足预先设置的收敛条件时，将当前样本图像输入至待训练的姿态估计网络，通过所述姿态估计网络得到所述当前样本图像对应的第一估计矩阵；

将所述第一估计矩阵输入至待训练的人体实例分割网络，通过所述人体实例分割网络得到所述当前样本图像对应的第二估计矩阵；其中，所述人体姿态估计模型包括：所述姿态估计网络和所述人体实例分割网络；

根据所述第一估计矩阵和预先确定的第一真值矩阵，计算所述姿态估计网络对应的第一损失函数值；根据所述第二估计矩阵和预先确定的第二真值矩阵，计算所述人体实例分割网络对应的第二损失函数值；

根据所述第一损失函数值和所述第二损失函数值对所述人体姿态估计模型进行训练；将下一个样本图像作为所述当前样本图像，重复执行上述操作，直到所述人体姿态估计模型满足所述预先设置的收敛条件

第二方面，本申请提供了一种人体姿态估计模型的训练装置，所述装置包括：第一输入模块、第二输入模块、计算模块和训练模块；其中，

所述第一输入模块，用于当人体姿态估计模型不满足预先设置的收敛条件时，将当前样本图像输入至待训练的姿态估计网络，通过所述姿态估计网络得到所述当前样本图像对应的第一估计矩阵；

所述第二输入模块，用于将所述第一估计矩阵输入至待训练的人体实例分割网络，通过所述人体实例分割网络得到所述当前样本图像对应的第二估计矩阵；其中，所述人体姿态估计模型包括：所述姿态估计网络和所述人体实例分割网络；

所述计算模块，用于根据所述第一估计矩阵和预先确定的第一真值矩阵，计算所述姿态估计网络对应的第一损失函数值；根据所述第二估计矩阵和预先确定的第二真值矩阵，计算所述人体实例分割网络对应的第二损失函数值；

所述训练模块，用于根据所述第一损失函数值和所述第二损失函数值对所述人体姿态估计模型进行训练；将下一个样本图像作为所述当前样本图像，重复执行上述操作，直到所述人体姿态估计模型满足所述预先设置的收敛条件。

第三方面，本申请实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请任意实施例所述的人体姿态估计模型的训练方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任意实施例所述的人体姿态估计模型的训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品被计算机设备执行时实现本申请任意实施例所述的人体姿态估计模型的训练方法。

根据本申请的技术解决了现有技术中在复杂背景、困难光照、极端视角以及人体快速移动造成的模糊情况下，检测出的人体2D骨骼关键点不是很准确，较真值往往有较大偏移，而且经常把背景相似的物体识别为人体骨骼关键点，造成关键点误检，从而影响肢体特效、美体、动作识别等应用的效果，造成十分不佳的应用体验的技术问题，本申请提供的技术方案，可以在保持较低模型复杂度的前提下，有效地提升人体姿态估计模型的检测精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的人体姿态估计模型的训练方法的第一流程示意图；

图2是本申请实施例提供的人体姿态估计模型的训练方法的第二流程示意图；

图3是本申请实施例提供的人体姿态估计模型的训练装置的第一结构示意图；

图4是本申请实施例提供的人体姿态估计模型的训练装置的第二结构示意图；

图5是用来实现本申请实施例的人体姿态估计模型方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1是本申请实施例提供的人体姿态估计模型的训练方法的第一流程示意图，该方法可以由人体姿态估计模型的训练装置或者电子设备来执行，该装置或者电子设备可以由软件和/或硬件的方式实现，该装置或者电子设备可以集成在任何具有网络通信功能的智能设备中。如图1所示，人体姿态估计模型的训练方法可以包括以下步骤：

S101、当人体姿态估计模型不满足预先设置的收敛条件时，将当前样本图像输入至待训练的姿态估计网络，通过姿态估计网络得到当前样本图像对应的第一估计矩阵。

在本步骤中，当人体姿态估计模型不满足预先设置的收敛条件时，电子设备可以将当前样本图像输入至待训练的姿态估计网络，通过姿态估计网络得到当前样本图像对应的第一估计矩阵。具体地，电子设备可以先将当前样本图像输入至姿态估计网络，获得姿态估计网络输出的当前样本图像中各个肢体部位分别对应的关键点热力图；然后根据各个肢体部位分别对应的关键点热力图确定各个肢体部位的关键点的二维信息；再根据各个肢体部位的关键点的二维信息，得到当前样本图像对应的第一估计矩阵。

S102、将第一估计矩阵输入至待训练的人体实例分割网络，通过分割网络得到当前样本图像对应的第二估计矩阵；其中，人体姿态估计模型包括：姿态估计网络和人体实例分割网络。

在本步骤中，电子设备可以将第一估计矩阵输入至待训练的人体实例分割网络，通过分割网络得到当前样本图像对应的第二估计矩阵；其中，人体姿态估计模型包括：姿态估计网络和人体实例分割网络。具体地，电子设备可以基于卷积神经网络算法对当前样本图像预处理，得到预处理后的当前样本图像；然后将预处理后的当前样本图像中所包含的识别目标的前景图像特征与背景图像特征进行实例分割，得到实例分割后的当前样本图像；再将实例分割后的当前样本图像进行背景分离，得到当前样本图像对应的背景图像；对背景图像进行特征提取，得到当前样本图像对应的第二估计矩阵。

S103、根据第一估计矩阵和预先确定的第一真值矩阵，计算姿态估计网络对应的第一损失函数值；根据第二估计矩阵和预先确定的第二真值矩阵，计算人体实例分割网络对应的第二损失函数值。

在本步骤中，电子设备可以根据第一估计矩阵和预先确定的第一真值矩阵，计算姿态估计网络对应的第一损失函数值；根据第二估计矩阵和预先确定的第二真值矩阵，计算人体实例分割网络对应的第二损失函数值。具体地，第一损失函数值为L1距离损失(L1Loss)；第二损失函数值为交叉熵损失(CELoss)。

S104、根据第一损失函数值和第二损失函数值对人体姿态估计模型进行训练，将下一个样本图像作为当前样本图像，重复执行上述操作，直到人体姿态估计模型满足预先设置的收敛条件。

在本步骤中，电子设备可以根据第一损失函数值和第二损失函数值对人体姿态估计模型进行训练，将下一个样本图像作为当前样本图像，重复执行上述操作，直到人体姿态估计模型满足预先设置的收敛条件。具体地，电子设备可以计算第一损失函数和第二损失函数之和，将其作为人体姿态估计模型的目标损失函数；根据目标损失函数对人体姿态估计模型进行训练。

本申请实施例提出的人体姿态估计模型的训练方法，当人体姿态估计模型不满足预先设置的收敛条件时，先将当前样本图像输入至待训练的姿态估计网络，通过姿态估计网络得到当前样本图像对应的第一估计矩阵；然后将第一估计矩阵输入至待训练的人体实例分割网络，通过人体实例分割网络得到当前样本图像对应的第二估计矩阵；再根据第一估计矩阵和预先确定的第一真值矩阵，计算姿态估计网络对应的第一损失函数值；根据第二估计矩阵和预先确定的第二真值矩阵，计算人体实例分割网络对应的第二损失函数值；根据第一损失函数值和第二损失函数值对人体姿态估计模型进行训练，将下一个样本图像作为当前样本图像，重复执行上述操作，直到人体姿态估计模型满足预先设置的收敛条件。也就是说，本申请在姿态估计网络后面增加一个人体实例分割网络，分别计算第一损失函数值和第二损失函数值，根据第一损失函数值和第二损失函数值对人体姿态估计模型进行训练。而在现有的人体姿态估计模型的训练方法中，人体姿态估计模型只有姿态估计网络而没有人体实例分割网络。因为本申请采用了在姿态估计网络后面增加一个人体实例分割网络的技术手段，克服了现有技术中在复杂背景、困难光照、极端视角以及人体快速移动造成的模糊情况下，检测出的人体2D骨骼关键点不是很准确，较真值往往有较大偏移，而且经常把背景相似的物体识别为人体骨骼关键点，造成关键点误检，从而影响肢体特效、美体、动作识别等应用的效果，造成十分不佳的应用体验的技术问题，本申请提供的技术方案，可以在保持较低模型复杂度的前提下，有效地提升人体姿态估计模型的检测精度；并且，本申请实施例的技术方案实现简单方便、便于普及，适用范围更广。

实施例二

图2是本申请实施例提供的人体姿态估计模型的训练方法的第二流程示意图。基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，人体姿态估计模型的训练方法可以包括以下步骤：

S201、当人体姿态估计模型不满足预先设置的收敛条件时，将当前样本图像输入至预先训练好的人体检测模型，通过人体检测模型对当前样本图像进行识别，得到当前样本图像的人体检测框。

在本步骤中，当人体姿态估计模型不满足预先设置的收敛条件时，将当前样本图像输入至预先训练好的人体检测模型，电子设备可以通过人体检测模型对当前样本图像进行识别，得到当前样本图像的人体检测框。人像检测框是指沿着人像在图像中的所在区域的轮廓所围成的人像区域框；特征信息可以包括目标图像的颜色特征、纹理特征、形状特征和空间关系特征等。目标图像是指需要进行人体实例分割的待处理图像，例如，目标图像可以是在任意场景中拍摄的人的照片、或者也可以是视频中包含有人物某一帧图像等。目标图像的颜色特征可以用于表示目标图像或目标图像中的部分区域所对应的场景的表面性质，可以是基于像素点的亮度值；目标图像的纹理特征可以用于描述目标图像或目标图像中的部分区域的纹理，不同场景的目标图像的纹理特征不同；目标图像的形状特征可以用于表示目标图像中的目标物体的轮廓，如目标物体可以是人、树木、建筑物等；目标图像的空间关系特征可以用于表示目标图像中不同目标之间的相对空间位置或相对方向关系等，如：不同目标之间可以是连接、重叠、交叉等关系。

S202、将当前样本图像的人体检测框扩大预设倍数，得到扩大后的人体检测框；在扩大后的人体检测框中对当前样本图像中的人体区域进行裁剪，得到裁剪后的人体图像；将裁剪后的人体图像调整为预定尺寸，得到调整后的人体图像；将调整后的人体图像作为当前样本图像；将当前样本图像输入至待训练的姿态估计网络，通过姿态估计网络得到当前样本图像对应的第一估计矩阵。

在本步骤中，电子设备可以将当前样本图像的人体检测框扩大预设倍数，得到扩大后的人体检测框；在扩大后的人体检测框中对当前样本图像中的人体区域进行裁剪，得到裁剪后的人体图像；将裁剪后的人体图像调整为预定尺寸，得到调整后的人体图像；将调整后的人体图像作为当前样本图像；将当前样本图像输入至待训练的姿态估计网络，通过姿态估计网络得到当前样本图像对应的第一估计矩阵。具体地，预设尺寸可以根据预设设定的比例值或比例范围来确定，例如，预设比例可以是105％、110％、115％、120％等预先设定的固定比例值，可以将人像检测框按照该比例值进行扩大处理；或者，预设比例也可以是105％～115％、115％～120、110％～120％等预设的比例范围，在进行人像检测框的扩大处理时，可以从预设的比例范围内任意选取一个比例值进行扩大处理。预设比例的具体数值或比例范围可以基于对训练数据集中的样本进行统计得到。统计时，可以综合考虑下述条件：1)避免比例过大而导致人像检测框中引入过多背景信息，影响分割精度；2)避免比例过小，导致会有一定概率出现检测框小于人像掩膜的情况。

S203、将第一估计矩阵输入至待训练的人体实例分割网络，通过人体实例分割网络得到当前样本图像对应的第二估计矩阵；其中，人体姿态估计模型包括：姿态估计网络和人体实例分割网络。

具体地，人体实例分割技术是指在图像中找出指定类别的对象实例“人”的技术，可以被广泛应用于娱乐、拍照、美颜等场景中。具体地，人体实例分割技术可以细分为人像检测技术和人像分割技术，其中，人像检测技术负责从图像中检测到人像区域，人像分割技术负责对检测到的人像区域进行前景/背景的分割，从而实现对图像进行人体实例分割。

S204、根据第一估计矩阵和预先确定的第一真值矩阵，计算姿态估计网络对应的第一损失函数值；根据第二估计矩阵和预先确定的第二真值矩阵，计算人体实例分割网络对应的第二损失函数值。

S205、根据第一损失函数值和第二损失函数值对人体姿态估计模型进行训练，将下一个样本图像作为当前样本图像，重复执行上述操作，直到人体姿态估计模型满足预先设置的收敛条件。

本申请提出的人体姿态估计模型，在模型训练阶段，在原有的姿态估计网络后面加了一个人体实例分割网络，对姿态估计网络输出的heatmap和真值heatmap计算L1距离损失(L1Loss)，对人体实例分割模块输出的mask和真值人像分割掩膜计算交叉熵损失(CELoss)。在预测阶段，人像分割网络模块直接移除掉，所以算法实际应用的时候是没有额外增加计算量的，并不会导致模型体积和预测耗时增加。而人体实例分割网络，使得网络学习到更多人像和背景的信息，这些前后景的语义信息对人体姿态估计网络进行人体关键点检测是有非常大的帮助的，尤其是背景环境比较杂乱、光照比较复杂以及人体快速移动造成的模糊等情况下关键点检测的精度提升十分明显。而且人体实例分割网络是直接安装在姿态估计网络的后面，不会破坏原有的网络和算法结构，十分绿色和友好，使用起来非常简单和方便，可直接插拔。在训练阶段，把这个模块直接安装在网络后面，在预测阶段，可以直接移除注释掉即可，由于实际应用的时候并不需要人体实例分割网络，这个网络部分实际是不运行的，所以不会给模型带来额外的参数和算量的增加。本申请提出的技术方案，不仅可以应用于人体2d姿态估计还可应用于人体3d姿态估计，具有十分明显的技术增益，带来很可观的业务收益。

实施例三

图3是本申请实施例提供的人体姿态估计模型的训练装置的第一结构示意图。如图3所示，所述装置300包括：第一输入模块301、第二输入模块302、计算模块303和训练模块304；其中，

所述第一输入模块301，用于当人体姿态估计模型不满足预先设置的收敛条件时，将当前样本图像输入至待训练的姿态估计网络，通过所述姿态估计网络得到所述当前样本图像对应的第一估计矩阵；

所述第二输入模块302，用于将所述第一估计矩阵输入至待训练的人体实例分割网络，通过所述人体实例分割网络得到所述当前样本图像对应的第二估计矩阵；其中，所述人体姿态估计模型包括：所述姿态估计网络和所述人体实例分割网络；

所述计算模块303，用于根据所述第一估计矩阵和预先确定的第一真值矩阵，计算所述姿态估计网络对应的第一损失函数值；根据所述第二估计矩阵和预先确定的第二真值矩阵，计算所述人体实例分割网络对应的第二损失函数值；

所述训练模块304，用于根据所述第一损失函数值和所述第二损失函数值对所述人体姿态估计模型进行训练；将下一个样本图像作为所述当前样本图像，重复执行上述操作，直到所述人体姿态估计模型满足所述预先设置的收敛条件。

图4是本申请实施例提供的人体姿态估计模型的训练装置的第二结构示意图。如图4所示，所述装置包括：其中，预处理模块401、第一输入模块402、第二输入模块403、计算模块404和训练模块405；需要说明的是，图4中的第一输入模块402、第二输入模块403、计算模块404和训练模块405分别与图3中的第一输入模块301、第二输入模块302、计算模块303和训练模块304实现相同的功能。

在图4中，所述预处理模块401，用于将所述当前样本图像输入至预先训练好的人体检测模型，通过所述人体检测模型对所述当前样本图像进行识别，得到所述当前样本图像的人体检测框；将所述当前样本图像的人体检测框扩大预设倍数，得到扩大后的人体检测框；在所述扩大后的人体检测框中对所述当前样本图像中的人体区域进行裁剪，得到裁剪后的人体图像；将所述裁剪后的人体图像调整为预定尺寸，得到调整后的人体图像；将所述调整后的人体图像作为所述当前样本图像；执行所述将当前样本图像输入至待训练的姿态估计网络的操作。

进一步的，所述第一输入模块402，具体用于将所述当前样本图像输入至所述姿态估计网络，获得所述姿态估计网络输出的所述当前样本图像中各个肢体部位分别对应的关键点热力图；根据各个肢体部位分别对应的关键点热力图确定各个肢体部位的关键点的二维信息；根据各个肢体部位的关键点的二维信息，得到所述当前样本图像对应的第一估计矩阵。

进一步的，所述第二输入模块403，具体用于基于卷积神经网络算法对所述当前样本图像预处理，得到预处理后的当前样本图像；将所述预处理后的当前样本图像中所包含的识别目标的前景图像特征与背景图像特征进行实例分割，得到实例分割后的当前样本图像；将所述实例分割后的当前样本图像进行背景分离，得到所述当前样本图像对应的背景图像；对所述背景图像进行特征提取，得到所述当前样本图像对应的第二估计矩阵。

进一步的，所述训练模块405，具体用于计算所述第一损失函数和所述第二损失函数之和，将其作为所述人体姿态估计模型的目标损失函数；根据所述目标损失函数对所述人体姿态估计模型进行训练。

上述人体姿态估计模型的训练装置可执行本申请任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的人体姿态估计模型的训练方法。

实施例四

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如人体姿态估计模型的训练方法。例如，在一些实施例中，人体姿态估计模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的人体姿态估计模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人体姿态估计模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人体姿态估计模型的训练方法，所述方法包括：

根据所述第一损失函数值和所述第二损失函数值对所述人体姿态估计模型进行训练；将下一个样本图像作为所述当前样本图像，重复执行上述操作，直到所述人体姿态估计模型满足所述预先设置的收敛条件。

2.根据权利要求1所述的方法，在所述将当前样本图像输入至待训练的姿态估计网络之前，所述方法还包括：

将所述当前样本图像输入至预先训练好的人体检测模型，通过所述人体检测模型对所述当前样本图像进行识别，得到所述当前样本图像的人体检测框；

将所述当前样本图像的人体检测框扩大预设倍数，得到扩大后的人体检测框；在所述扩大后的人体检测框中对所述当前样本图像中的人体区域进行裁剪，得到裁剪后的人体图像；将所述裁剪后的人体图像调整为预定尺寸，得到调整后的人体图像；将所述调整后的人体图像作为所述当前样本图像；执行所述将当前样本图像输入至待训练的姿态估计网络的操作。

3.根据权利要求1所述的方法，所述将当前样本图像输入至待训练的姿态估计网络，通过所述姿态估计网络得到所述当前样本图像对应的第一估计矩阵，包括：

将所述当前样本图像输入至所述姿态估计网络，获得所述姿态估计网络输出的所述当前样本图像中各个肢体部位分别对应的关键点热力图；

根据各个肢体部位分别对应的关键点热力图确定各个肢体部位的关键点的二维信息；

根据各个肢体部位的关键点的二维信息，得到所述当前样本图像对应的第一估计矩阵。

4.根据权利要求1所述的方法，所述将所述第一估计矩阵输入至待训练的人体实例分割网络，通过所述人体实例分割网络得到所述当前样本图像对应的第二估计矩阵，包括：

基于卷积神经网络算法对所述当前样本图像预处理，得到预处理后的当前样本图像；

将所述预处理后的当前样本图像中所包含的识别目标的前景图像特征与背景图像特征进行实例分割，得到实例分割后的当前样本图像；

将所述实例分割后的当前样本图像进行背景分离，得到所述当前样本图像对应的背景图像；对所述背景图像进行特征提取，得到所述当前样本图像对应的第二估计矩阵。

5.根据权利要求1所述的方法，所述根据所述第一损失函数值和所述第二损失函数值对所述人体姿态估计模型进行训练，包括：

计算所述第一损失函数和所述第二损失函数之和，将其作为所述人体姿态估计模型的目标损失函数；根据所述目标损失函数对所述人体姿态估计模型进行训练。

6.一种人体姿态估计模型的训练装置，所述装置包括：第一输入模块、第二输入模块、计算模块和训练模块；其中，

7.根据权利要求6所述的装置，所述装置还包括：预处理模块，用于将所述当前样本图像输入至预先训练好的人体检测模型，通过所述人体检测模型对所述当前样本图像进行识别，得到所述当前样本图像的人体检测框；将所述当前样本图像的人体检测框扩大预设倍数，得到扩大后的人体检测框；在所述扩大后的人体检测框中对所述当前样本图像中的人体区域进行裁剪，得到裁剪后的人体图像；将所述裁剪后的人体图像调整为预定尺寸，得到调整后的人体图像；将所述调整后的人体图像作为所述当前样本图像；执行所述将当前样本图像输入至待训练的姿态估计网络的操作。

8.根据权利要求6所述的装置，所述第一输入模块，具体用于将所述当前样本图像输入至所述姿态估计网络，获得所述姿态估计网络输出的所述当前样本图像中各个肢体部位分别对应的关键点热力图；根据各个肢体部位分别对应的关键点热力图确定各个肢体部位的关键点的二维信息；根据各个肢体部位的关键点的二维信息，得到所述当前样本图像对应的第一估计矩阵。

9.根据权利要求6所述的装置，所述第二输入模块，具体用于基于卷积神经网络算法对所述当前样本图像预处理，得到预处理后的当前样本图像；将所述预处理后的当前样本图像中所包含的识别目标的前景图像特征与背景图像特征进行实例分割，得到实例分割后的当前样本图像；将所述实例分割后的当前样本图像进行背景分离，得到所述当前样本图像对应的背景图像；对所述背景图像进行特征提取，得到所述当前样本图像对应的第二估计矩阵。

10.根据权利要求6所述的装置，所述训练模块，具体用于计算所述第一损失函数和所述第二损失函数之和，将其作为所述人体姿态估计模型的目标损失函数；根据所述目标损失函数对所述人体姿态估计模型进行训练。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，当所述计算机程序产品被计算机设备执行时实现如权利要求1-5中任一项所述的方法。