CN115223190A

CN115223190A - 一种基于人体结构引导学习网络的姿态估计方法及系统

Info

Publication number: CN115223190A
Application number: CN202210119930.3A
Authority: CN
Inventors: 骆炎民; 王友杰; 林躬耕
Original assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Current assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-10-21

Abstract

本发明公开一种基于人体结构引导学习网络的姿态估计方法及系统，涉及人体姿态估计技术领域，包括：获取待测人体姿态图像；将待测人体姿态图像输入至人体姿态估计模型中，以获取人体姿态；人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的；训练集包括多张第一图像以及与第一图像对应的标签信息；标签信息为所述第一图像中的人体关节点；人体关节点用于构建所述人体姿态；标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络。本发明结合人体结构引导学习方法和特征融合方法构建人体姿态估计模型，提高模型预测的精确度。

Description

一种基于人体结构引导学习网络的姿态估计方法及系统

技术领域

本发明涉及人体姿态估计技术领域，特别是涉及一种基于人体结构引导学习网络的姿态估计方法及系统。

背景技术

作为计算机视觉领域一个基础且富有挑战性的问题，2D人体姿态估计在不同的计算机视觉任务中扮演着不同的角色，广泛地应用于异常行为检测、人机交互和医疗康复辅助等领域。人体姿态估计的目标是从给定的图像或视频中分类并且定位人体部位关节点，例如：手腕，脚踝和躯干等，从而形成正确的人体姿态。

尽管当前对于姿态估计技术的研究众多，也取得了不错的进展，但目前不论是自顶向下还是自底向上的方法，设计的均是静态姿态估计模型，同时将网络模型当做黑盒，其结果会导致模型灵活性不高，没有很好地结合人体结构先验知识，不能有效地针对遮挡场景下的姿态估计，且可解释性不强。

发明内容

本发明的目的是提供一种基于人体结构引导学习网络的姿态估计方法及系统，结合人体结构引导学习方法和特征融合方法构建人体姿态估计模型，提高模型预测的精确度。

为实现上述目的，本发明提供了如下方案：

一种基于人体结构引导学习网络的姿态估计方法，所述姿态估计方法包括：

获取待测人体姿态图像；所述待测人体姿态图像包括多个人体关节点；

将所述待测人体姿态图像输入至人体姿态估计模型中，以获取人体姿态；

所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的；所述训练集包括多张第一图像以及与所述第一图像对应的标签信息；所述标签信息为所述第一图像中的人体关节点；所述人体关节点用于构建所述人体姿态；所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络；

所述茎网络的输入端用于输入所述训练集；所述茎网络的输出端与所述第一主干网络的输入端连接；所述茎网络用于对所述训练集中的第一图像进行特征提取，以确定第一特征图；

所述第一主干网络的第一输出端与所述第二主干网络的输入端连接，所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接；所述第一主干网络用于对所述第一特征图进行特征提取，以确定第二特征图；

所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接，所述第二主干网络用于对所述第二特征图进行特征提取，以确定第三特征图；

所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接；所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析，以确定第四特征图；

所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合，并对融合后的特征图进行姿态细化，以确定人体姿态。

可选地，所述人体结构引导学习分支网络包括编码子网络和解码子网络；

所述编码子网络的输入端与所述第一主干网络的第二输出端连接，所述编码子网络的输出端与所述解码子网络的输入端连接，所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接；

所述编码子网络包括依次连接的多个编码模块，所述解码子网络包括依次连接的多个解码模块；所述编码模块与所述解码模块一一对应，且一个所述编码模块与对应的一个所述解码模块残差连接；

所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块；所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络；

所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块；所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。

可选地，所述特征融合细化网络包括多尺度融合模块和姿态细化模块；

所述多尺度融合模块的第一输入端与所述第二主干网络的输出端连接，所述多尺度融合模块的第二输入端分别与多个所述解码模块的输出端连接，所述多尺度融合模块的输出端与所述姿态细化模块的输入端连接；

所述姿态细化模块的输出端用于输出人体姿态；

所述多尺度融合模块包括特征融合子模块和多个特征提取子模块；所述特征提取子模块的数量与所述解码模块的数量相同，且一个所述特征提取子模块与一个所述解码模块相对应；

所述特征提取子模块的第一输入端与所述第二主干网络的输出端连接，所述特征提取子模块的第二输入端与相对应的所述解码模块的输出端连接，所述特征提取子模块的输出端与所述特征融合子模块的输入端连接；所述特征融合子模块的输出端与所述姿态细化模块的输入端连接；

所述特征融合子模块用于将多个所述特征提取子模块输出的子特征图进行融合，以确定最终特征图；

所述姿态细化模块用于根据所述最终特征图确定多个人体关节点，并根据多个所述人体关节点确定人体姿态。

可选地，所述人体姿态估计模型的训练过程，还包括：

确定目标损失函数；

根据所述目标损失函数和所述训练集对所述标定深度卷积神经网络进行训练，以得到人体姿态估计模型；

其中，所述目标损失函数为由第一损失函数、第二损失函数、第三损失函数和第四损失函数确定的；所述第一损失函数用于表示所述第二特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值；所述第二损失函数用于表示所述第二特征图对应的人体关节预测点的偏移量与所述人体关节预测点的平均偏移量之间的损失值；所述第三损失函数用于表示所述第四特征图对应的人体关节预测点中各个人体关节预测点之间的距离与第一图像中各个人体关节点之间的距离的损失值；所述第四损失函数用于表示所述融合后的特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值。

可选地，所述第一损失函数为：

其中，L_h表示第一损失函数值；i表示人体编号，j为人体关节点的编号，且i,j为正整数；P_i(p_j)表示第二特征图中第i个人的人体关节预测点；

表示与所述第二特征图对应的关节点热图，

表示与所述第二特征图对应的关节点热图中的粗关节点，λ表示关节点的个数；G_i(p_j)表示第i个人在第一图像中真实的人体关节点；G＝{g₁,...,g_λ}，表示与第一图像对应的关节点热图，g_λ表示与第一图像对应的关节点热图中真实的人体关节点；

所述第二损失函数为：

其中，L_o表示第二损失函数值；O_i(p_j)表示第二特征图中第i个人的人体关节预测点的偏移量；

所述第三损失函数为：

其中，L_b表示第三损失函数值；k和n表示第四特征图中人体关节点的编号，且k,n∈j；

表示第四特征图中预测的第k个人体关节点，

表示第四特征图中预测的第n个人体关节点；

表示第一图像中真实的第k个人体关节点，

表示第一图像中真实的第n个人体关节点；

表示真实的相邻人体关节点之间的距离，

表示预测的相邻人体关节点之间的距离；

所述第四损失函数为：

其中，L_m表示第四损失函数值；M_i(m_j)表示所述融合后的特征图中第i个人的人体关节预测点；

表示与所述融合后的特征图对应的关节点热图，

表示与所述融合后的特征图对应的关节点热图中的粗关节点，λ表示关节点的个数；G_i(p_j)表示第i个人在第一图像中真实的人体关节点；G＝{g₁,...,g_λ}，表示与第一图像对应的关节点热图，g_λ表示与第一图像对应的关节点热图中真实的人体关节点。

可选地，所述目标损失函数的确定过程，具体包括：

根据公式L＝αL_h+βL_o+γL_b+δL_m确定目标损失函数；

其中，α表示第一损失函数值的权重，β表示第二损失函数值的权重，γ表示第三损失函数值的权重，δ表示第四损失函数值的权重。

可选地，所述第一主干网络包括第一子网和第二子网；

所述第一子网的输入端与所述茎网络的输出端连接，所述第一子网的输出端与所述第二子网的输入端连接；所述第二子网的第一输出端与所述第二主干网络的输入端连接，所述第二子网的第二输出端与所述人体结构引导学习分支网络的输入端连接；

所述第一子网包括依次连接的多个残差模块；

所述第二子网包括第一分支和第二分支；所述第一分支和所述第二分支均包括多个残差模块，且所述第一分支的残差模块的数量与所述第二分支的残差模块的数量相同；

所述第一分支的输入端与所述第一子网的第一输出端连接，所述第一分支的第一输出端与所述第二主干网络的输入端连接，所述第一分支的第二输出端与所述人体结构引导学习分支网络的输入端连接；

所述第二分支为所述第一子网经过下采样衍生确定的；所述第二分支的输入端与所述第一子网的第二输出端连接，所述第二分支的第一输出端与所述第二主干网络的输入端连接，所述第二分支的第二输出端与所述人体结构引导学习分支网络的输入端连接。

可选地，所述第二主干网络包括第三子网和第四子网；

所述第三子网的第一输入端与所述第一分支连接，所述第三子网的第二输入端与所述第二分支连接；所述第三子网的输出端与所述第四子网的输入端连接，所述第四子网的输出端与所述特征融合细化网络的第一输入端连接；

所述第三子网包括并行的第三分支、第四分支和第五分支；所述第三分支、所述第四分支和所述第五分支均包括多个残差模块，且所述第三分支的残差模块的数量、所述第四分支的残差模块的数量与所述第五分支的残差模块的数量均相同；

所述第三分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接；所述第四分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接；

所述第五分支为所述第二分支经过下采样衍生确定的；所述第五分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接；

所述第四子网包括并行的第六分支、第七分支、第八分支和第九分支；所述第六分支、所述第七分支、所述第八分支和所述第九分支均包括多个残差模块，且所述第六分支的残差模块的数量、所述第七分支的残差模块的数量、所述第八分支的残差模块的数量与所述第九分支的残差模块的数量均相同；

所述第六分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接；所述第七分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接；所述第八分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接；

所述第九分支为所述第五分支经过下采样衍生确定的；所述第九分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接。

为达上述目的，本发明还提供了如下技术方案：

一种基于人体结构引导学习网络的姿态估计系统，包括：

图像获取子系统，用于获取待测人体姿态图像；所述待测人体姿态图像包括多个人体关节点；

姿态估计子系统，用于将所述待测人体姿态图像输入至人体姿态估计模型中，以获取人体姿态；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明结合茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络构建一种人体姿态估计模型，利用该模型对人体姿态进行估计。其中，采用的人体结构引导学习分支网络是一种动态的结构网络，能够通过有效地学习达到一次性适应姿态参数，进而快速适应基础的姿态估计模型，以辅助人体关节点的检测估计；通过特征融合细化网络，有效地将具有丰富语义信息的第四特征图特征融合到具有强空间位置信息的第三特征图中，进而提高关节点预测精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于人体结构引导学习网络的姿态估计方法的流程示意图；

图2为本发明特征融合细化网络中两个尺度特征融合模块的示意图；

图3为本发明特征融合细化网络中多个尺度递进特征融合模块的示意图；

图4为本发明基于人体结构引导学习网络的姿态估计系统的结构示意图；

图5为本发明人体姿态估计模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于人体结构引导学习网络的姿态估计方法及系统，采用基于Transformer的Encoder-Decoder网络结构作为人体结构引导学习器，通过有效的学习一次性适应姿态参数，从而快速适应基础的姿态估计模型，以辅助关节点的预测；通过基于注意力机制的多尺度特征融合方法，有效地将具有丰富语义信息的高层特征融合到具有强空间位置信息的高分辨率特征图中，进而提高关节点预测精度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供一种基于人体结构引导学习网络的姿态估计方法，包括：

步骤100，获取待测人体姿态图像；所述待测人体姿态图像包括多个人体关节点。

步骤200，将所述待测人体姿态图像输入至人体姿态估计模型中，以获取人体姿态。

所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的；所述训练集包括多张第一图像以及与所述第一图像对应的标签信息；所述标签信息为所述第一图像中的人体关节点；所述人体关节点用于构建所述人体姿态；所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络。具体地，所述茎网络为包括两个大小为3×3的带有步长卷积核的网络，所述茎网络用于改变图像特征图的通道和图像的分辨率，从而提取图像的特征。

所述茎网络的输入端用于输入所述训练集；所述茎网络的输出端与所述第一主干网络的输入端连接；所述茎网络用于对所述训练集中的第一图像进行特征提取，以确定第一特征图。所述第一主干网络的第一输出端与所述第二主干网络的输入端连接，所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接；所述第一主干网络用于对所述第一特征图进行特征提取，以确定第二特征图。所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接，所述第二主干网络用于对所述第二特征图进行特征提取，以确定第三特征图。

所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接；所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析，以确定第四特征图。所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合，并对融合后的特征图进行姿态细化，以确定人体姿态。

具体地，在人体姿态估计模型进行训练之前，先获取数据集中的样本图像(第一图像)和与每张样本图像相对应的标注数据。其中，将所述样本图像经过人体检测模型提取出包含单个人的每一个单张图片，且将图像调整为大小为384x288的RGB图像。然后，将相应的原始数据集标注的关节点位置调整到输入图像尺度的位置，并构造地面真值热图。具体地，将相应的原始数据集标注的关节点位置调整到输入图像尺度的位置，以减小训练过程中可能造成的误差。

在人体姿态估计模型进行训练过程中，将训练集输入至标定深度卷积神经网络进行训练，再利用验证集对训练后的标定深度卷积神经网络进行验证。深度卷积神经网络的训练过程中，首先设定一个较小值作为初始精度，将每次训练后得到的人体检测模型的检测精度与当前最好的精度进行比较。如果当前迭代轮次得到的人体检测模型的精度最高，则将该模型进行保存，并将该模型的精度作为当前最好的精度。在下一轮迭代中，根据目标损失函数的损失值更新标定深度卷积神经网络的网络参数，并使标定深度卷积神经网络开始下一次迭代训练。当训练迭代次数达到预设的训练次数后，训练结束，并将所有训练轮次中精度最好的模型作为最终的人体检测模型。在一个具体实施例中，预设的训练次数为240。

优选地，如图5所示，所述人体结构引导学习分支网络包括编码子网络和解码子网络；所述编码子网络的输入端与所述第一主干网络的第二输出端连接，所述编码子网络的输出端与所述解码子网络的输入端连接，所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接。

所述编码子网络包括依次连接的多个编码模块，所述解码子网络包括依次连接的多个解码模块；所述编码模块与所述解码模块一一对应，且为了防止梯度消失，一个所述编码模块与对应的一个所述解码模块残差连接。

在一个具体实施例中，所述编码子网络包括四个编码模块，所述解码子网络包括四个解码模块。所述编码模块包括依次连接的第一带记忆Transformer模块(MemoryTransformer Block,MTB)和下采样模块；所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络；所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块；所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。

具体地，所述编码子网络包括依次连接的第一MTB、第一1/2下采样模块、第三MTB、第二1/2下采样模块、第五MTB、第三1/2下采样模块、第七MTB和第四1/2下采样模块；所述解码子网络包括依次连接的第一×2上采样模块、第二MTB、第二×2上采样模块、第四MTB、第三×2上采样模块、第六MTB、第四×2上采样模块和第八MTB。其中，所述第一MTB还与第八MTB跳跃连接，执行特征相加以得到第一输出特征，并将第一输出特征输出至特征融合细化网络；所述第一输出特征为经由卷积核提取出的人体姿态特征。所述第三MTB还与第六MTB跳跃连接，执行特征相加以得到第二输出特征，并将第二输出特征输出至特征融合细化网络；所述第五MTB还与第四MTB跳跃连接，执行特征相加以得到第三输出特征，并将第三输出特征输出至特征融合细化网络；所述第七MTB还与第二MTB跳跃连接，执行特征相加以得到第四输出特征，并将第四输出特征输出至特征融合细化网络。

上述四个编码模块和四个解码模块组成的人体结构引导学习分支网络能够达到更高的人体关节估计精度；若要达到更快的人体关节估计速度，可构建由三个编码模块和三个解码模块组成的人体结构引导学习分支网络。

优选地，所述第一主干网络包括第一子网和第二子网。其中，第一子网的通道数为48；第二子网为具有两个分支的并行多分辨网络。所述第一子网的输入端与所述茎网络的输出端连接，所述第一子网的输出端与所述第二子网的输入端连接；所述第二子网的第一输出端与所述第二主干网络的输入端连接，所述第二子网的第二输出端与所述人体结构引导学习分支网络的输入端连接；

所述第一子网包括依次连接的多个残差模块；具体地，第一子网包括横向并行排列并连接的4个残差模块。所述第二子网包括第一分支和第二分支；所述第一分支和所述第二分支均包括多个残差模块，且所述第一分支的残差模块的数量与所述第二分支的残差模块的数量相同，均为4个。

所述第一分支的输入端与所述第一子网的第一输出端连接，所述第一分支的第一输出端与所述第二主干网络的输入端连接，所述第一分支的第二输出端与所述人体结构引导学习分支网络的输入端连接，具体地，所述第一分支的第二输出端与第一MTB的输入端连接。所述第二分支为所述第一子网经过下采样衍生确定的；所述第二分支的输入端与所述第一子网的第二输出端连接，所述第二分支的第一输出端与所述第二主干网络的输入端连接，所述第二分支的第二输出端与所述人体结构引导学习分支网络的输入端连接，具体地，所述第二分支的第二输出端与第一MTB的输入端连接。

所述第二主干网络包括第三子网和第四子网；其中，第三子网为具有3个分支的并行多分辨的网络，第四子网为具有4个分支的并行多分辨的网络。所述第三子网的第一输入端与所述第一分支连接，所述第三子网的第二输入端与所述第二分支连接；所述第三子网的输出端与所述第四子网的输入端连接，所述第四子网的输出端与所述特征融合细化网络的第一输入端连接。

所述第三子网包括并行的第三分支、第四分支和第五分支；所述第三分支、所述第四分支和所述第五分支均包括多个残差模块，且所述第三分支的残差模块的数量、所述第四分支的残差模块的数量与所述第五分支的残差模块的数量均相同，均为4个。所述第三分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接；所述第四分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接。

所述第五分支为所述第二分支经过下采样衍生确定的；所述第五分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接。

所述第四子网包括并行的第六分支、第七分支、第八分支和第九分支；所述第六分支、所述第七分支、所述第八分支和所述第九分支均包括多个残差模块，且所述第六分支的残差模块的数量、所述第七分支的残差模块的数量、所述第八分支的残差模块的数量与所述第九分支的残差模块的数量均相同，均为4个。

所述第六分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接；所述第七分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接；所述第八分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接。

进一步地，所述第一子网、所述第二子网、所述第三子网和所述第四子网从左到右依次进行连接，子网中的各个分支上下排列对齐。

优选地，所述特征融合细化网络包括多尺度融合模块和姿态细化模块；所述多尺度融合模块的第一输入端与所述第二主干网络的输出端连接，所述多尺度融合模块的第二输入端分别与多个所述解码模块的输出端连接，所述多尺度融合模块的输出端与所述姿态细化模块的输入端连接；所述姿态细化模块的输出端用于输出人体姿态。

所述多尺度融合模块包括特征融合子模块和多个特征提取子模块；所述特征提取子模块的数量与所述解码模块的数量相同，且一个所述特征提取子模块与一个所述解码模块相对应，均为四个。

所述特征提取子模块的第一输入端与所述第二主干网络的输出端连接，所述特征提取子模块的第二输入端与相对应的所述解码模块的输出端连接，所述特征提取子模块的输出端与所述特征融合子模块的输入端连接；所述特征融合子模块的输出端与所述姿态细化模块的输入端连接。

其中，第一特征提取子模块的第一输入端与第六分支的输出端连接，第一特征提取子模块的第二输入端用于输入解码模块输出的第一输出卷积核，第一特征提取子模块用于将所述第一输出卷积核运用于所述第六分支输出的特征图，以提取第一人体结构特征信息，并输出第一尺度特征。第二特征提取子模块的第一输入端与第七分支的输出端连接，第二特征提取子模块的第二输入端用于输入解码模块输出的第二输出卷积核，第二特征提取子模块用于将所述第二输出卷积核运用于所述第七分支输出的特征图，以提取第二人体结构特征信息，并输出第二尺度特征。第三特征提取子模块的第一输入端与第八分支的输出端连接，第三特征提取子模块的第二输入端用于输入解码模块输出的第三输出卷积核，第三特征提取子模块用于将所述第三输出卷积核运用于所述第八分支输出的特征图，以提取第三人体结构特征信息，并输出第三尺度特征。第四特征提取子模块的第一输入端与第九分支的输出端连接，第四特征提取子模块的第二输入端用于输入解码模块输出的第四输出卷积核，第四特征提取子模块用于将所述第四输出卷积核运用于所述第九分支输出的特征图，以提取第四人体结构特征信息，并输出第四尺度特征。第六分支输出的特征图、第七分支输出的特征图、第八分支输出的特征图和第九分支输出的特征图属于不同分辨率的特征图，且第一输出卷积核、第二输出卷积核、第三输出卷积核和第四输出卷积核分别应用到分支输出的特征图之后，分别提取特定的人体结构特征信息。

所述特征融合子模块用于将多个所述特征提取子模块输出的子特征图进行融合，以确定最终特征图；所述姿态细化模块用于根据所述最终特征图确定多个人体关节点，并根据多个所述人体关节点确定人体姿态。

具体地，将第一尺度特征、第二尺度特征、第三尺度特征和第四尺度特征输入至特征融合子模块。如图2和图3所示，在特征融合子模块中，将第三尺度特征进行自身相似度计算，得到与第三尺度特征具有相同分辨率的输出Sout_3,1特征；将第三尺度特征和第四尺度特征进行相似度计算，得到与第三尺度特征具有相同分辨率的输出Sout_3,2特征；将第三尺度特征、Sout_3,1特征和Sout_3,2特征在通道维度上拼接然后经过一个1x1卷积层，输出Sout_3,f特征。同理递归，计算第二尺度特征与Sout_3,f特征进行特征融合后的Sout_2,f特征，同理递归，计算第一尺度特征与Sout_2,f特征进行特征融合后的Sout_1,f特征；将Sout_1,f特征确定为最终特征图，从而实现将高层的具有丰富语义信息的特征图融合到低层具有强空间信息的特征图像素中。

最后将最终特征图输入至姿态细化模块，姿态细化模块将特征图通道调整为与关节点个数相同的通道，生成最终预测的关节点热图，并确定人体姿态。

进一步地，为了能够加速模型的收敛，在模型的训练过程中，使用高斯函数生成关节点预测热图，通过均方误差进行关节点的粗预测。具体地，所述人体姿态估计模型的训练过程，还包括：确定目标损失函数；根据所述目标损失函数和所述训练集对所述标定深度卷积神经网络进行训练，以得到人体姿态估计模型。

所述第一损失函数为：

表示与所述第二特征图对应的关节点热图，尺度为λ×96×72，

表示与所述第二特征图对应的关节点热图中的粗关节点，具体地，获取第二特征图对应的关节点的位置热图，根据关节点的位置热图确定关节点的粗略位置，λ表示关节点的个数；G_i(p_j)表示第i个人在第一图像中真实的人体关节点；G＝{g₁,...,g_λ}，表示与第一图像对应的关节点热图，g_λ表示与第一图像对应的关节点热图中真实的人体关节点。具体地，在样本图像完成标注处理之后，即可通过高斯激活构造出与样本图像(第一图像)对应的地面真值热图。

所述第二损失函数为：

其中，L_o表示第二损失函数值；O_i(p_j)表示第二特征图中第i个人的人体关节预测点的偏移量，

表示第二特征图中第i个人的人体关节预测点的平均偏移量。具体地，获取第二特征图对应的关节点的偏移热图，根据偏移热图确定第二损失函数。

所述第三损失函数为：

表示第四特征图中预测的第k个人体关节点，

表示第四特征图中预测的第n个人体关节点；

表示第一图像中真实的第k个人体关节点，

表示第一图像中真实的第n个人体关节点；

表示真实的相邻人体关节点之间的距离，

表示预测的相邻人体关节点之间的距离。通过根据人体骨架进行第三损失函数的计算，能够约束网络学习人体结构的先验知识。进一步地，此处依旧是对第i个人的关节点进行的预测，下标2D_k和2D_n表示第i个人的不同关节点。

所述第四损失函数为：

表示与所述融合后的特征图对应的关节点热图，

进一步地，所述目标损失函数的确定过程，具体包括：根据公式L＝αL_h+βL_o+γL_b+δL_m确定目标损失函数；其中，α表示第一损失函数值的权重，β表示第二损失函数值的权重，γ表示第三损失函数值的权重，δ表示第四损失函数值的权重。

优选地，在关节点的位置热图中，利用非极大值抑制算法查找各个关节点的最大像素值位置，以所述最大像素值位置为关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，保留半径内的值，其余值设置为0，以确定中心关节点的初步位置；在关节点的偏移热图中，利用非极大值抑制算法查找所述偏移热图中的最大像素值，即偏移向量；以关节点的初步位置加上关节点的偏移向量即可得到预测出的关节点位置，即人体关节预测点；最后，将多个人体关节预测点按照预先标定的骨架顺序连接，形成完整的人体姿态。

实施例二

如图4所示，本实施例提供一种基于人体结构引导学习网络的姿态估计系统，所述姿态估计系统包括：

图像获取子系统101，用于获取待测人体姿态图像；所述待测人体姿态图像包括多个人体关节点。

姿态估计子系统201，用于将所述待测人体姿态图像输入至人体姿态估计模型中，以获取人体姿态。

所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的；所述训练集包括多张第一图像以及与所述第一图像对应的标签信息；所述标签信息为所述第一图像中的人体关节点；所述人体关节点用于构建所述人体姿态；所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络。

所述茎网络的输入端用于输入所述训练集；所述茎网络的输出端与所述第一主干网络的输入端连接；所述茎网络用于对所述训练集中的第一图像进行特征提取，以确定第一特征图。所述第一主干网络的第一输出端与所述第二主干网络的输入端连接，所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接；所述第一主干网络用于对所述第一特征图进行特征提取，以确定第二特征图；所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接，所述第二主干网络用于对所述第二特征图进行特征提取，以确定第三特征图。所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接；所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析，以确定第四特征图。所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合，并对融合后的特征图进行姿态细化，以确定人体姿态。

所述人体结构引导学习分支网络包括编码子网络和解码子网络。所述编码子网络的输入端与所述第一主干网络的第二输出端连接，所述编码子网络的输出端与所述解码子网络的输入端连接，所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接；所述编码子网络包括依次连接的多个编码模块，所述解码子网络包括依次连接的多个解码模块；所述编码模块与所述解码模块一一对应，且一个所述编码模块与对应的一个所述解码模块残差连接。

所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块；所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块；所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。

相对于现有技术，本发明还具有以下优点：

(1)本发明构建了人体结构引导学习分支网络，其预测的自适应参数可以帮助人体姿态估计模型学习更多定制的表示，以估计特定的输入的姿态，其中包含的身体线索能够被有效地集成，以约束关节位置和姿态结构。并且，人体结构引导学习器还可以针对不同的输入图像有效地学习适应参数，从而根据解析信息快速适应姿态模型，是一种动态的姿态模型。

(2)本申请通过基于自注意力机制的递归特征融合操作，将低分辨率的具有丰富语义信息的特征图中的“概念”融合到高分辨率具有较强空间信息的特征图的“像素”中，使得人体各关节点精度更加准确，大大提高姿态估计的精度，为行为识别、行人重识别、异常行为检测等提供一个姿态参考。

(3)本申请通过在模型训练过程中输出采样中间，能够减小数据样本方差，加快模型的收敛速度，通过设计的加权骨头损失函数(第三损失函数)，能够很好约束人体骨架，辅助关节点位置和类别的预测，进一步提高关节预测精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。