CN116524062A

CN116524062A - 一种基于扩散模型的2d人体姿态估计方法

Info

Publication number: CN116524062A
Application number: CN202310807926.0A
Authority: CN
Inventors: 张锋; 刘锦维; 李泽; 马海龙; 陈蕾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-08-01
Anticipated expiration: 2043-07-04
Also published as: CN116524062B

Abstract

本发明属于人体姿态估计技术领域，公开了一种基于扩散模型的2D人体姿态估计方法，其采集人体姿态图像及标注信息，并利用前向扩散公式在标注的关节点坐标中加入噪声破坏其中的坐标信息，生成中间噪声样本；然后构建2D人体姿态估计扩散模型；随后模型依据输入图像与生成的噪声样本预测出目标关节点的热图，再将预测结果与标注间的均方误差作为损失函数优化模型参数；最后将模型预测关节点热图送入反向扩散公式，完成高斯噪声的迭代去噪，获得去噪后的精确预测。本发明预测精度高，有效提高了2D人体姿态估计方法在实际应用中泛化性和鲁棒性，并使模型可以通过改变推理采样步数，取得检测效率与精度上的平衡，以适应不同应用场景的需求。

Description

一种基于扩散模型的2D人体姿态估计方法

技术领域

本发明属于人体姿态估计技术领域，具体是涉及一种基于扩散模型的2D人体姿态估计方法。

背景技术

2D人体姿态估计作为计算视觉中的一种热门任务，被广泛应用于人机交互、危险驾驶检测、行为分析、动作矫正等诸多领域，有着广阔的应用前景与巨大的现实价值。当前2D人体姿态估计方法分为2大类：1）自顶向下（Top-Down）方法，该类方法先用目标检测器将图片中的人物检测出来，再将多人姿态估计任务拆分为多个单人姿态估计任务，该方法有着较高的精度，但目标检测器的精度对于姿态估计有着较大的影响，且该类方法所需计算开销与图像中人物数量成正比；2）自底向上（Bottom-Up）方法，该类方法先将图像中所有人体关节点检测出来，之后再按照人体骨架与关节点特征，对各个关节点进行划分，获得图像中每个人的姿态，这类方法检测速度较快，但受遮挡等原因，精度相对较差。

现有的技术方案多依赖于高质量图像特征；而实际应用场景中，往往存在图像质量差、关节点不可视等情况，这使得以往人体姿态估计方法的检测精度急剧下降，因此迫切需要一种鲁棒、泛化性能好的人体姿态估计方法；另一方面，现有方案往往需要在预测精度与检测效率之间进行权衡，且无法依据任务的需求改变二者倾向，难以适应多种任务的应用需求。

发明内容

为解决上述技术问题，本发明提供了一种基于扩散模型的2D人体姿态估计方法，该方法能够基于所采样的高斯噪声以及图像特征，逐步获得精确稳定的预测结果，以克服人体姿态估计所面临的不够鲁棒以及、泛化能力较差；且该方法可以根据实际应用场景需要，改变推理采样步数，取得检测效率与精度上的平衡。

本发明所述的一种基于扩散模型的2D人体姿态估计方法，包括以下步骤：

S1、获取带标注的训练样本集，并利用前向扩散公式生成中间噪声样本；

S2、构建2D人体姿态估计扩散模型，包括图像编码器与热图解码器，图像编码器提取出输入图像的特征，并将图像特征传递给热图解码器以预测出正确的关节点热图；

S3、训练阶段，所述2D人体姿态估计扩散模型依据输入图像与生成的噪声样本预测出关节点热图，并依据预测结果与标注间的均方误差优化模型参数；

S4、测试阶段，将2D人体姿态估计扩散模型的预测结果带入反向扩散公式，逐步完成高斯噪声的去噪，以获得目标关节的精确坐标。

进一步，步骤S1具体为：

S1.1：收集带标注的人体姿态图像，构建训练样本集；

S1.2：根据前向扩散公式，选择关节点标注坐标作为加噪目标，并向其中逐步加入高斯噪声，构建马尔可夫链，并生成一系列中间噪声样本，前向扩散公式如下：

，

其中，是关节点标注坐标，/>是生成的噪声坐标集合；/>是前向扩散最大扩散步数，/>是当前所处的扩散步数；/>是单位矩阵；/>是高斯噪声，其大小由噪声参数控制；/>是在给定参数的条件下对噪声坐标样本/>采样的可能性，其满足多维正态分布。

进一步，步骤S2具体为：

S2.1：构建图像编码器以提取输入图像/>的特征；

首先构建标准的残差卷积网络ResNet-50作为图像编码器的骨干网络，将输入图像映射为图像特征/>；

然后构建特征金字塔网络作为图像编码器的融合网络，将骨干网络所提取的图像特征进行多尺度融合，并调整图像特征的分辨率大小，使其与关节点热图分辨率大小相同；

S2.2：构建热图解码器，热图解码器可以从图像特征/>、噪声坐标样本/>对应的热图/>与扩散步数/>的时间编码/>中预测出目标关节点热图/>；

热图解码器由堆栈沙漏模型和热图检测头构成，前者提取出图像特征、噪声坐标样本/>对应的热图/>与扩散步数/>的时间编码/>的关联特征，以供检测头预测出目标人物各关节点热图/>。

进一步，步骤S3具体为：

S3.1：先对噪声坐标样本进行随机偏移，之后将偏移坐标映射为对应的热图，最后再根据偏移坐标的位置向热图中加入一定大小的局部高斯噪声以获取噪声热图/>：

，

其中，是模为人体躯干长度的随机方向向量，/>是控制该向量长度的随机系数；/>是将关节点坐标映射为热图的函数；/>是一个局部高斯噪声，其中高斯噪声分布在目标位置一定范围内，而/>是控制该噪声的强度系数；上述的随机扰动策略可以使模型通过更加丰富的噪声样本增强模型归纳偏置，并维持模型在采样各阶段对自身预测偏差的敏感性，从而提高模型的检测精度与泛化性能；

S3.2：使用构建的2D人体姿态估计扩散模型的图像编码器提取输入图像的图像特征/>：

，

之后再使用热图解码器依据图像特征、噪声热图/>与时间编码/>预测出目标关节点热图/>：

；

S3.3：以人体姿态估计扩散模型的预测结果与关节点标注坐标/>对应的热图间的均方误差作为损失函数，并使用Adam优化器更新模型参数，损失函数公式如下：

，

其中，为堆栈沙漏模型包含的沙漏模块数量，/>为堆栈沙漏模型的第/>个沙漏模块所输出的预测结果，模型预测的最终结果/>是第n个沙漏模块的预测结果/>。

进一步，步骤S4具体为：

S4.1：对标准正态分布随机采样获得噪声坐标，并依据/>生成对应的噪声热图/>：

；

S4.2：首先图像编码器提取输入图像的图像特征/>，然后将图像特征/>、噪声热图与时间编码/>送入热图解码器中获得关节点热图/>，最后取/>极大值点的坐标和数值分别作为关节点坐标/>与关节点分数/>；

S4.3：优化反向扩散公式，之后再使用该公式对进行单步去噪/>，具体反向扩散公式如下：

，

其中，为依据前向扩散公式反向推导出的高斯噪声；/>是控制反向过程不确定性程度的高斯噪声，其取值与/>无关，/>为该噪声的强度系数，/>是为相关系数的超参数；/>为推理阶段模型单步去噪相当于前向扩散过程中的扩散步数数目,是前向扩散的最后一步得到的噪声坐标；

再依据去噪后的关节点坐标和关节点分数/>生成单步去噪热图/>：

，

其中，是由关节点分数所决定的热图掩码，当时，目标热图将被遮掩，各像素数值均为0；

S4.4：重复上述步骤S4.2~S4.3，完成预先设定的推理采样步数，逐步对进行去噪，以获得目标关节的精确坐标预测。

本发明所述的有益效果为：本发明所述的方法，采用去噪扩散这一类概率生成模型，以去噪生成的方式完成2D人体姿态估计任务，这种渐进去噪的范式有助于将噪声分布到目标分布间的较大不确定性分解为多个不确定较小的中间步骤，可以使模型平稳、鲁棒地生成高质量去噪结果；本发明所述方法针对扩散模型迭代去噪的特点，对模型架构进行了特征提取与姿态估计两阶段功能的解耦，克服了测试阶段模型重复提取图像特征的缺陷，减少了计算开销以提高模型检测效率;本发明所述方法优化反向扩散公式，并增强了模型归纳偏置，这使得模型在迭代采样得过程中可以纠正自身预测所存在的偏差，让其具有了良好的鲁棒性与泛化能力；本发明所述方法采用模型预测热图而在关节点坐标上使用反向扩散公式迭代优化的策略，避免了热图方法只取极大值点作为关节点坐标而导致扩散模型优化整体热图却效果有限的缺陷，并保留了热图方法精度相对较高的优点；本发明所述方法可以根据实际需要改变推理采样步数，取得检测效率与精度间的平衡，以适应不同应用场景。

附图说明

图1是本发明提供的2D人体姿态估计方法的整体流程图；

图2是本发明提供的2D人体姿态估计方法的模型架构图；

图3是本发明提供的2D人体姿态估计方法在测试阶段的流程图；

图4是本发明提供方法与HRNet-W48检测效果对比图，左侧为HRNet-W48检测效果，右侧为本发明方法检测效果。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

本发明提出的一种基于扩散模型的2D人体姿态估计方法，其整体流程如图1所示，具体包括以下步骤：

S1、获取带标注的训练样本集，并利用前向扩散公式生成中间噪声样本，具体步骤如下：

S1.1：采集带有标注的人体姿态图像，并使用标注的检测框与关节点坐标将原始图像分割为单人姿态图像，构建单人姿态图像数据集；

S1.2：扩散模型通过逐步完成噪声样本的去噪操作，生成高质量目标数据；为使模型可以稳定学习这一去噪过程，本发明根据前向扩散公式，向关节点标注坐标逐步加入高斯噪声，以构建前向扩散过程马尔可夫链，生成一系列的中间噪声样本，前向扩散公式如下：

(1)，

(2)，

其中，是关节点标注坐标，/>是生成的噪声坐标集合；/>是前向扩散最大扩散步数，/>是当前所处的扩散步数；/>是单位矩阵；/>是高斯噪声，其大小由噪声参数控制，/>依据不同的扩散步数/>采用单调递减余弦函数自适应生成；/>是在给定参数的条件下对噪声坐标样本/>采样的可能性，其服从多维正态分布；

但上述操作只能逐步生成噪声坐标样本，效率低下；而为了快速完成前向扩散过程，直接计算扩散步数为/>时的噪声关节坐标，上述公式可整合如下：

(3)，

该公式将关节点标注坐标与高斯噪声线性组合，直接生成对应步数时的噪声坐标样本/>；其中，/>依据扩散步数/>控制噪声引入强度，其数值大小为/>的累乘。需要注意的是，/>为一个递减序列，且满足/>，因此当扩散步数为/>时，/>，即高斯噪声最后均匀分布在样本中，将关节点标注坐标彻底破坏。

S2、构建2D人体姿态估计扩散模型，包括图像编码器与热图解码器；

由于扩散模型通过迭代采样完成噪声样本去噪，因此在推理阶段模型需要进行多次正向传递，在该过程中模型会反复提取图像特征，但模型在整个采样阶段只需提取一次图像特征，这导致模型增加了大量的计算开销，严重影响模型检测效率。因此本发明将整个模型分为2个部分，即图像编码器与热图解码器，实现对模型特征提取与姿态估计两阶段功能的解耦；具体结构可以参考图2，该设计使得模型在测试阶段只需提取一次图像特征，从而提高模型的预测效率，具体步骤如下：

S2.1：构建图像编码器以提取输入图像/>的特征；首先构建标准的残差卷积网络ResNet-50作为图像编码器的骨干网络，将输入图像/>映射为图像特征/>；然后构建特征金字塔网络作为图像编码器的融合网络，将骨干网络所提取的图像特征/>进行多尺度融合，并调整特征分辨率大小，使其与关节点热图分辨率大小相同，最后将所提取得到的多尺度的图像特征/>作为去噪条件传递给热图解码器；

S2.2：构建热图解码器，热图解码器可以从图像特征/>、噪声坐标样本/>对应的热图/>与扩散步数/>的时间编码/>中预测出目标关节点热图/>；热图解码器由堆栈沙漏模型和热图检测头构成，前者提取出图像特征/>、噪声坐标样本/>对应的热图/>与扩散步数/>的时间编码/>的关联特征，以供检测头预测出目标人物各关节点热图；

S3、训练阶段，所述2D人体姿态估计扩散模型依据输入图像与生成的噪声样本预测出关节点热图，再使用预测结果与标注间的均方误差优化模型参数，具体步骤如下：

(4)，

其中，是模为人体躯干长度的随机方向向量，/>是控制该向量长度的随机系数；/>是将关节点坐标映射为热图的函数；/>是一个局部高斯噪声，其中高斯噪声分布在目标位置一定范围内，而/>是控制该噪声的强度系数；

执行这两项数据随机扰动操作是因为在测试时，本发明提出的人体姿态估计扩散模型不仅要完成噪声目标的去噪，还要纠正采样步骤中模型预测热图与标注热图不一致所带来的偏差。一方面以往扩散模型用于生成任务，推理采样步骤中模型预测所产生的细微误差可以给最终结果带来更加多样的生成效果，然而本发明针对人体姿态估计这类感知任务，模型在推理采样过程中的细微误差会逐步累加，导致模型预测精度下降；另一方面，只使用由前向扩散公式计算出的直接生成的用以训练模型，会导致模型在测试阶段，随采样步骤的进行直接将去噪结果归纳为具有参考价值的数据，而降低对预测偏差的敏感性，失去应有的纠错能力；因此本发明向噪声坐标样本及对应的噪声热图添加了不同程度的随机扰动，以增强模型归纳偏置，并保持模型对于错误预测的敏感性，使得模型可以学习并逐步修正自身的错误预测及预测偏差，从而提高模型的检测精度与泛化能力；

S3.2：使用构建的2D人体姿态估计扩散模型的图像编码器提取输入图像的图像特征：

(5)，

之后再使用热图解码器从图像特征、噪声热图样本/>与时间编码/>中预测出目标关节点热图/>：

(6)；

S3.3：本发明提出方法的学习目标是最小化预测结果与关节点标注坐标/>对应的热图/>间的均方误差，同时，热图解码器采用了堆栈沙漏模型，为提高其特征提取能力与检测性能，本发明使用中间监督约束解码器各沙漏模块，损失函数公式如下：

(7) ，

其中，为堆栈沙漏模型包含的沙漏模块数量，/>为堆栈沙漏模型的第/>个沙漏模块所输出的预测结果，模型预测的最终结果/>是第n个沙漏模块的预测结果/>；之后再利用Adam优化器更新模型参数，直到满足设定的训练周期。

S4、测试阶段，将2D人体姿态估计扩散模型的预测结果带入反向扩散公式，逐步完成高斯噪声的去噪，以获得目标关节的精确坐标具体流程可以参考图3；具体步骤如下：

(8)；

S4.2：首先使用图像编码器提取输入图像的图像特征，再将图像特征/>、噪声热图/>与时间编码/>送入热图解码器中获得关节点热图/>；需要注意的是，图像编码器在整个测试阶段只提取一次图像特征；最后取热图/>的极大值点坐标作为对应关节点的坐标位置/>，并将极大值点的数值作为关节点分数/>；

S4.3：优化反向扩散公式，再使用该公式对进行单步去噪/>，计算出去噪后的关节点坐标/>，反向扩散公式如下：

(9)，

(10)，

(11)，

其中，是在已知/>和/>的情况下，依据前向扩散公式反向推导出的高斯噪声；/> 是控制反向过程不确定大小的高斯噪声，其取值与/>无关，/>为该噪声的强度系数，/>是为相关系数的超参数；/>为推理阶段模型单步去噪相当于前向扩散过程中的扩散步数数目, />是前向扩散的最后一步得到的噪声坐标样本；

之后，再依据去噪后的噪声坐标样本生成对应的噪声热图样本/>，并用于下一步的去噪操作中；同时，为避免模型将自身预测高度不确定的节点作为重要参考而产生错误的预测，本发明将关节点分数/>低于0.5的热图遮掩起来，使其各像素取值均为0：

(12)，

(13)，

其中，是由关节点分数所决定的热图掩码，当时，目标热图将被遮掩，各像素数值均为0。

人体姿态估计任务中，关节点热图预测依赖于对应节点的图像特征，而前向扩散过程中所添加的噪声采样于标准正态分布，因此如果采用原有扩散模型预测前向扩散噪音的方式，模型必须依靠图像特征预测出关节点热图后，再与噪声热图进行比较，才能求解出相应的噪声，这样繁琐的过程加大了模型训练难度，且模型预测的噪声与实际噪声间存在泛化误差，即使带入反向扩散公式单步中也难以获取精准的去噪结果。因此本发明修改了反向扩散公式，并使模型直接预测关节点热图，而该过程中，模型可以直接使用热图/>获取关节点大致分布，并利用图像特征细化预测结果，这减小了模型训练难度，使其更容易收敛；其次得益于训练过程所添加的随机扰动策略增强了模型的归纳偏置，本发明提出方法在使用反向扩散公式迭代去噪过程中，能对自身预测误差不断进行纠正以达到更好地检测效果，这进一步增强了模型泛化能力。

S4.4：重复上述步骤S4.2~S4.3，直到完成预先设定的推理采样步数，逐步完成的去噪，并将模型最后一步预测的关节点热图/>解码出的关节点坐标/>作为最终的输出结果。

本发明为避免热图方法只取极大值点所导致的扩散模型整体优化却效果有限的问题，并未采用以往扩散模型方法将模型预测与反向扩散公式处理的目标均设定为同一对象的策略，而是依据人体姿态估计热图方法的特点，采用将模型用以预测关节点热图、在关节点二维坐标上进行反向扩散公式迭代优化的策略，该策略既可以克服上述问题，又可以保留热图方法精度相对较高的优点；此外，由于推理采样步数是人为设定，当推理采样步数较多时，模型可以对预测结果进行更加细致的去噪优化，以获取较高的检测精度，但推理次数的增多，会导致预测效率有所下降，相反，在推理步数较少的情况下，模型可以很快生成预测结果，但去噪较为粗略，精度会有所下降，因此该方法可以调整自身的推理采样步数，取得预测精度与效率的平衡，以适应不同应用场景的需求。

如下表1所示，本发明在COCO数据集上将本方法与现有的常见方法进行了比对，实验结果表明本发明相较于现有方法可以取得更好的检测精度，同时在查全率上也能有所提升。

表1

；

具体检测结果的可视化图像可以参考图4，左图为HRNet-W48的检测结果，而右图为本发明提出方法的检测效果。可以明显看出即使是在遮挡、目标较小等情况下，本发明提出的方法仍然可以获得更贴合关节点实际分布的预测，模型具有较高的精度和鲁棒性。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于扩散模型的2D人体姿态估计方法，其特征在于，包括以下步骤：

S1、获取带标注的训练样本集，并利用前向扩散公式对标注信息进行破坏生成中间噪声样本；

S3、训练阶段，所述2D人体姿态估计扩散模型依据输入图像与生成的噪声样本预测出关节点热图，并使用预测结果与标注间的均方误差优化模型参数；

2.根据权利要求1所述的一种基于扩散模型的2D人体姿态估计方法，其特征在于，步骤S1具体为：

S1.1：收集带标注的人体姿态图像，构建训练样本集；

，

其中，是关节点标注坐标，/>是生成的噪声坐标集合；/>是前向扩散最大扩散步数，是当前所处的扩散步数；/>是单位矩阵；/>是高斯噪声，其大小由噪声参数/>控制；/>是在给定参数的条件下对噪声坐标样本/>采样的可能性，其满足多维正态分布。

3.根据权利要求2所述的一种基于扩散模型的2D人体姿态估计方法，其特征在于，步骤S2具体为：

S2.1：构建图像编码器以提取输入图像/>的特征；

S2.2：构建热图解码器，热图解码器由堆栈沙漏模型和热图检测头构成，前者提取出图像特征/>、噪声坐标样本/>对应的热图/>与扩散步数/>的时间编码/>的关联特征，以供检测头预测出目标人物各关节点热图/>。

4.根据权利要求3所述的一种基于扩散模型的2D人体姿态估计方法，其特征在于，步骤S3具体为：

，

；

S3.3：以人体姿态估计扩散模型的预测结果与关节点标注坐标/>对应的热图/>间的均方误差作为损失函数，并使用Adam优化器更新模型参数，损失函数公式如下：

，

5.根据权利要求4所述的一种基于扩散模型的2D人体姿态估计方法，其特征在于，步骤S4具体为：

；

S4.2：首先图像编码器提取输入图像的图像特征/>，然后将图像特征/>、噪声热图/>与时间编码/>送入热图解码器中获得关节点热图/>，最后取/>极大值点的坐标和数值分别作为关节点坐标/>与关节点分数/>；

，

其中，为依据前向扩散公式反向推导出的高斯噪声；/> 是控制反向过程不确定性程度的高斯噪声，其取值与/>无关，/>为该噪声的强度系数，/>是为相关系数的超参数；/>为推理阶段模型单步去噪相当于前向扩散过程中的扩散步数数目, />是前向扩散的最后一步得到的噪声坐标；

，

其中，是由关节点分数/>所决定的热图掩码，当/>时，目标热图将被遮掩，各像素数值均为0；