CN112052886A

CN112052886A - 基于卷积神经网络的人体动作姿态智能估计方法及装置

Info

Publication number: CN112052886A
Application number: CN202010847005.3A
Authority: CN
Inventors: 官全龙; 罗伟其; 李哲夫; 刘东灵; 张焕明; 方良达; 汪超男; 赖兆荣
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-08
Anticipated expiration: 2040-08-21
Also published as: CN112052886B; WO2022036777A1

Abstract

本发明属于深度学习计算机视觉领域，公开了一种基于卷积神经网络的人体动作姿态智能估计方法及装置，方法包括：将待进行动作姿态估计的人体图像输入到训练好的人体检测模型中进行处理，得人物个体检测结果，输入到训练好的全局估计模型中进行处理，得到不同尺度的人体关键点的第一特征图，输入到训练好的补充精调模型中进行处理，通过加强学习得到不同尺度的人体关键点的第二特征图；补充精调模型中包括多个特征提取分支，每个特征提取分支中设置数量不同的精调模块，通过各特征提取分支的精调模块加强学习；基于第二特征图，得到人体姿态估计结果。本发明有效解决了现有技术容易遗漏人体图像中难以分辨的关键点而导致人体姿态估计不准确的问题。

Description

基于卷积神经网络的人体动作姿态智能估计方法及装置

技术领域

本发明涉及深度学习计算机视觉领域，具体涉及一种基于卷积神经网络的人体动作姿态智能估计方法及装置。

背景技术

随着计算机科学技术的快速发展以及公众社会对技术应用需求的不断提升，人工智能的研究和应用越来越受到学术界与工业界的关注。随着硬件设备的高速发展、人工智能与深度学习技术的不断完善以及由此催生的各种实践产品，人体姿态估计在日常生活中拥有着广泛的应用前景，并不断开拓到新的市场，目前关于人体姿态估计应用的几个主流场景包括：安防监控、人机交互、运动分析、无人驾驶等。这也说明了人体姿态估计具有很大的理论意义与实践价值。

如今，现有的基于深度学习的人体姿态估计方法中，采用自底向上策略的模型其平均准确率一般不如采用自顶向下的方法，而其他采用自顶向下策略的模型对不同人体关键点采用相同的学习过程，容易遗漏在人体图像中受干扰因素影响难以分辨的关键点，导致人体姿态估计不准确。

发明内容

本发明的目的是提供一种基于卷积神经网络的人体动作姿态智能估计方法及装置，用以解决现有技术容易遗漏人体图像中难以分辨的关键点而导致人体姿态估计不准确的问题。

根据本发明的第一方面，提供了一种基于卷积神经网络的人体动作姿态智能估计方法，包括：

将待进行动作姿态估计的人体图像输入到训练好的人体检测模型中进行处理，得到所述人体图像的人物个体检测结果；

将所述人物个体检测结果输入到训练好的全局估计模型中进行处理，得到不同尺度的人体关键点的第一特征图；

将所述第一特征图输入到训练好的补充精调模型中进行处理，通过加强学习得到不同尺度的人体关键点的第二特征图；所述补充精调模型中包括多个特征提取分支，每个特征提取分支中设置数量不同的精调模块，通过各特征提取分支的精调模块加强学习；

基于所述不同尺度的人体关键点的第二特征图，得到人体姿态估计结果。

进一步地，所述通过精调模块加强学习，包括：

所述精调模块的输入为上一层特征图，对所述特征图进行多次先进行规范化处理、再进行激活、后进行卷积特征提取的处理方式，将提取得到的特征图与所述上一层特征图相加后，输出精调后的特征图；

其中，当所述特征提取分支上设置一个精调模块时，该精调模块输入的上一层特征图为所述第一特征图；

当所述特征提取分支上设置一个以上的精调模块时，第一个精调模块输入的上一层特征图为所述第一特征图，第一个精调模块输出的精调后的特征图作为下一个精调模块的输入。

进一步地，所述精调模块包括残差分支，其中，残差分支上设置有依次连接的第一归一化层、第一激活层、第一卷积层、第二归一化层、第二激活层、第二卷积层、第三归一化层、第三激活层、第三卷积层；

所述精调模块还包括相加层，用于对经过残差分支处理后输出的特征图和输入精调模块的特征图相加，以输出精调后的特征图。

进一步地，所述补充精调模型中，通过各特征提取分支的精调模块加强学习之后，还包括：

对每个特征提取分支输出的精调后的特征图依次进行压缩、激励和整合操作，其中压缩操作通过全局平均池化压缩不同通道上的特征图以获得全局特征，激励操作通过将学习得到的非线性依赖关系来对不同通道赋予相应的权重系数，整合操作将压缩操作、激励操作的结果整合到所述精调后的特征图中，以对所述精调后的特征图进行重新标定，输出所述人体关键点的第二特征图。

进一步地，所述人体检测模型、全局估计模型和补充精调模型依次连接，构成基于卷积神经网络的人体动作姿态智能估计模型；所述估计模型采用反向传播算法进行训练，训练时的目标函数由两个子项组成，第一项为所述估计模型输出的人体姿态估计结果与真实标记的人体姿态之间的损失函数值，通过两者的欧式距离评估所述估计模型预测的性能；第二项为所述人体姿态估计结果与真实标记的人体姿态之间的形状距离项，通过形状相似性度量两者在人体关键点形状分布上的相似性。

进一步地，所述形状距离项的计算公式为：

其中，D_sc(P,Q)表示形状距离项，P、Q分别表示模型预测人体姿态与真实标记的人体关键点点集，n、m分别为点集P、Q的大小，T()为estimated TPS变换，用来衡量点集形状之间的转变，C()为代价函数，用于计算两点集之间的匹配代价。

进一步地，所述人体检测模型中对人体图像进行处理的过程包括：

对人体图像进行多尺度特征图提取与融合，并分别对不同尺度的特征图采用不同大小的锚框生成候选框，将候选框映射到相应层级的特征层上，经过池化处理，然后分成两条支路，每条支路分别进行分类与回归处理，最终得到表示人物个体检测结果的人体候选框。

进一步地，所述全局估计模型中对人物个体检测结果进行处理的过程包括：

将人体候选框填充到原始人体图像大小，将填充后的图像利用特征金字塔提取不同尺度的特征图，并对每个尺度的特征图进行卷积处理消除混叠效应，得到所述第一特征图。

进一步地，基于所述不同尺度的人体关键点的第二特征图，得到人体姿态估计结果，包括：

对于所述不同尺度的所述第二特征图进行尺度调整、合并与精调处理，得到人体姿态估计结果。

进一步地，所述人体检测模型、全局估计模型均为卷积神经网络模型。

根据本发明的第二方面，提供了一种基于卷积神经网络的人体动作姿态智能估计装置，包括：

人物个体检测模块，用于将待进行动作姿态估计的人体图像输入到训练好的人体检测模型中进行处理，得到所述人体图像的人物个体检测结果；

全局估计模块，用于将所述人物个体检测结果输入到训练好的全局估计模型中进行处理，得到不同尺度的人体关键点的第一特征图；

补充精调模块，用于将所述第一特征图输入到训练好的补充精调模型中进行处理，通过加强学习得到不同尺度的人体关键点的第二特征图；所述补充精调模型中包括多个特征提取分支，每个特征提取分支中设置数量不同的精调模块，通过各特征提取分支的精调模块加强学习；

姿态估计模块，用于对于不同尺度的所述第二特征图进行尺度调整、合并与精调处理，得到人体姿态估计结果。

本发明的第三方面提供了一种终端设备，包括包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现前述第一方面的基于卷积神经网络的人体动作姿态智能估计方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现前述第一方面的基于卷积神经网络的人体动作姿态智能估计方法的步骤。

与现有技术相比，本发明具有以下技术特点：

本发明利用卷积神经网络进行人体动作姿态估计包括人体检测、全局估计和补充精调阶段，其中在补充精调阶段针对不同尺度的特征图在不同特征提取分支上采用不同数量的精调模块加强学习，使得模型针对多尺度特征图采用不同的学习机制，精调模块中采用优化的压缩、激励和整合策略也可以辅助模型针对多尺度特征图自适应学习不同人体关键点的特征表示，强化模型对难以识别人体关键点的学习，提高模型的表现性能，能有效克服现有技术容易遗漏人体图像中难以分辨的关键点而导致人体姿态估计不准确的问题。

附图说明

图1为本发明一个实施例提供的基于卷积神经网络的人体动作姿态智能估计方法的流程示意图；

图2为本发明一个实施例中由人体检测模型、全局估计模型和补充精调模构成发基于卷积神经网络的人体动作姿态智能估计模型的结构示意图；

图3为本发明一个实施例中人体检测模型中采用的DenseNet卷积网络模型的结构示意图；

图4为本发明一个实施例中两阶段人体检测器的结构示意图；

图5为本发明一个实施例中全局估计模型的处理流程示意图；

图6为本发明一个实施例中补充精调模型中各特征提取分支的结构示意图；

图7为本发明一个实施例中补充精调模型的处理流程示意图；

图8为本发明一个实施例中精调模块的结构示意图；

图9为本发明一个实施例预测人体姿态关键点的示意图；

图10为本发明的方法与几种同类方法的对比试验结果示意图；

图11为本发明的一个实施例提供的基于卷积神经网络的人体动作姿态智能估计装置的结构示意图；

图12为本发明的一个实施例提供的终端设备的结构示意图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

本发明第一方面公开了一种基于卷积神经网络的人体动作姿态智能估计方法，如图1和图2所示，包括：

S1，将待进行动作姿态估计的人体图像输入到训练好的人体检测模型中进行处理，得到所述人体图像的人物个体检测结果。

在一种可选的实现方式中，所述人体检测模型可采用卷积神经网络模型，例如，采用DenseNet作为主干网络，具有更强的特征提取与泛化能力，提高人体检测阶段的表现性能。通过所述网络模型，提取多尺度的图像特征，训练两阶段人体检测器提取图像中的人体候选框，划分出图像中的人物个体，得到所述的人物个体检测结果。

S2，将所述人物个体检测结果输入到训练好的全局估计模型中进行处理，得到不同尺度的人体关键点的第一特征图。

示例性地，所述全局估计模型也可以采用卷积神经网络模型，例如同样采用卷积神经网络DenseNet作为主干网络，将人体候选框填充到原始人体图像大小，使得每张图像都只有一个人物个体，基于特征金字塔FPN提取人物个体检测结果的多种不同尺度的特征图，得到初步的表示人体关键点热力图的所述第一特征图。

S3，将所述第一特征图输入到训练好的补充精调模型中进行处理，通过加强学习得到不同尺度的人体关键点的第二特征图；所述补充精调模型中包括多个特征提取分支，每个特征提取分支中设置数量不同的精调模块，通过各特征提取分支的精调模块加强学习。

S4，基于所述不同尺度的人体关键点的第二特征图，得到人体姿态估计结果。

例如，在所述第二特征图的基础上，将每种尺度的第二特征图通过上采样的方式调整到统一尺度下，经过拼接将第二特征图在通道尺度上进行合并，然后经过卷积操作得到精调后的人体关键点热力图，即人体姿态估计结果。

本发明的实施例中，在补充精调阶段针对不同尺度的特征图在不同特征提取分支上采用不同数量的精调模块加强学习，使得模型针对多尺度特征图采用不同的学习机制，强化模型对难以识别人体关键点的学习，提高模型的表现性能，能有效克服现有技术容易遗漏人体图像中难以分辨的关键点而导致人体姿态估计不准确的问题。

参见图3，所述人体检测模型中对人体图像进行处理的过程包括：

对人体图像进行多尺度特征图提取与融合，训练两阶段人体检测器，并分别对不同尺度的特征图采用不同大小的锚框生成候选框，将候选框映射到相应层级的特征层上，经过池化处理，然后分成两条支路，每条支路分别进行分类与回归处理，最终得到表示人物个体检测结果的人体候选框。其中，人体检测模型中采用的DenseNet的结构如图3所示。

在该示例中，尺寸大小为416×416的人体图像先经过DenseNet网络的第一个卷积层得到输出大小为208×208的特征图，然后经过Dense Block 1-4分别得到尺寸为104×104，52×52，26×26，13×13四种尺度的特征图(分别对应C2、C3、C4、C5)。然后将四种尺度的特征图在基于特征金字塔FPN的思想上进行多尺度特征融合，特征金字塔FPN可分为三个部分：自底向上通路，自顶向下通路，横向连接。Dense Block 1-4输出四种尺度特征图分别经过以下操作：

Dense Block 4输出13×13特征图：经过1×1卷积操作降维得到特征图M5。DenseBlock 3输出26×26特征图：经过1×1卷积操作降维，再与经过上采样后的特征图M5进行element-wise addition合并得到特征图M4，其中特征图M5采用的上采样方法为最近邻点插值法，将特征图上采样到原来的两倍尺寸。Dense Block 2输出52×52特征图：经过1×1卷积操作降维，再与经过上采样后的特征图M4进行element-wise addition合并得到特征图M3，其中特征图M4采用的上采样方法为最近邻点插值法，将特征图上采样到原来的两倍尺寸。Dense Block 1输出104×104特征图：经过1×1卷积操作降维，再与经过上采样后的特征图M3进行element-wise addition合并得到特征图M2，其中特征图M3采用的上采样方法为最近邻点插值法，将特征图上采样到原来的两倍尺寸。

然后为了消除边界像素形状可能会出现锯齿状的混叠效应，将特征图M2-M5经过3×3卷积操作输出特征图P2-P5，此处控制输出通道数为256；得到P2-P5后，训练两阶段人体检测器，如图4所示，在区域生成网络RPN中分别对不同尺度下的特征图采用不同大小的锚框生成候选框RoI，具体为：

在区域生成网络RPN中分别对P2-P5分别采用大小不同的锚框，每个特征层都包含1:1、1:2、2:1三种长宽比的候选框，通过RPN对四个不同尺度的特征图生成候选框RoI后需要将RoI映射到相应层级的特征层上，计算公式如下：

其中k₀＝4，对应输入尺寸大小映射的层级，w和h为特征图的宽度和高度。将每个RoI映射到相应层级之后，需要经过RoI池化将各个RoI设置为相同的尺寸大小，此处设置的大小为13×13，然后分成两条分别连接通道数为1024的全连接层及其后的分类支路与回归的支路，最终划分出图像中的人物候选框，在预测人体检测框时使用非极大值抑制将阈值设为0.5。人体检测框将检测到的人体图像会经过padding填充到与输入图像大小相同，再传递到下一阶段。

参见图5，可选地，所述全局估计模型中对人物个体检测结果进行处理的过程包括：

在该示例中，基于特征金字塔FPN从主干网络DenseNet行图像特提取，选取DenseBlock 1-4的四个输出作为四种不同的尺度特征图，即104×104，52×52，26×26，13×13四种尺度的特征图度的特征图(分别对应C2、C3、C4、C5)，进行深度卷积、特征提取的过程中低层特征可以反映如图像边缘等信息，高层特征可以反映如人体、关节轮廓等信息，并将这些特征图经过3×3卷积消除混叠效应，得到本阶段输出的四种不同尺度的特征图。

该步骤中处理划分出来的人体候选框实际上是和输入图像尺寸大小相同，而每张图像中仅有一个人体的图像。对于提取的四种尺度的特征图，通过自底向上、自顶向下、横向连接的通路得到特征图M2-M5，其中自顶向下通路上采样的方法采用最近邻点插值法，M2-M5再经过3×3卷积操作消除混叠效应得到输出特征图P2-P5，四种尺度特征图的大小分别为104×104，52×52，26×26，13×13，通道数为256，此时就能得到关于全局估计阶段对于人体关键点初步估计的热力图在四种不同尺度上的输出结果。全局估计阶段的过程如图4所示。

作为一种可选的实现方式，在图1所示的实施例的基础上，所述通过精调模块加强学习，包括：

所述精调模块的输入为上一层特征图，对所述特征图进行多次先进行规范化处理、再进行激活、后进行卷积特征提取的处理方式，将提取得到的特征图与所述上一层特征图相加后，输出精调后的特征图；其中，当所述特征提取分支上设置一个精调模块时，该精调模块输入的上一层特征图为所述第一特征图；当所述特征提取分支上设置一个以上的精调模块时，第一个精调模块输入的上一层特征图为所述第一特征图，第一个精调模块输出的精调后的特征图作为下一个精调模块的输入。

参见图6和图7，在该示例中，共设置四条特征提取分支，每条特征提取分支上依次设置一个、两个、三个、四个精调模块。本实施例中提出的精调模块，在接收上一层特征图后，先进行规范化处理，使得特征图数据分布拉回到近似正态分布上，输入数据落在非线性激活函数对输入相对敏感的位置，再进行卷积特征提取操作，所以有着更好的性能。此外，所述激活操作可以加速模型结构的向前传播与反向传播，同时在很大程度上也扩增了特征图数据表达的多样性。

示例性地，在一种精调模块可选的实现方式中，如图8所示，所述精调模块包括残差分支，其中，残差分支上设置有依次连接的第一归一化层、第一激活层、第一卷积层、第二归一化层、第二激活层、第二卷积层、第三归一化层、第三激活层、第三卷积层；所述精调模块还包括相加层，用于对经过残差分支处理后输出的特征图和输入精调模块的特征图相加，以输出精调后的特征图。

该示例中，精调模块包括残差分支和恒等分支，残差分支的第一归一化层BN之后是第一激活层，然后是1×1的第一卷积层，之后是第二归一化层BN、第二激活层、3×3的第二卷积层、第三归一化层、第三激活层和1×1的第三卷积层。恒等分支不对输入作其他处理，精调模块的输入的特征图最终与第三卷积层输出的特征图进入相加层，在其中进行addition的相加操作，输出精调后的特征图。

本发明实施例提出的这种精调模块结构，残差分支上卷积池化的过程为BN-激活函数-卷积，这样可以使每个精调模块在接受上一层特征图后先经过规范化处理，再进行卷积特征提取操作，输入与权重层相乘之前先被规范化；所以有着更好的性能。在网络模型中对于浅层l与深层L，通过递归关系可得到前向传播的计算为：

其中x_l和x_L分别为第l层和第L层的输入，F(x_i,ω_i)为残差分支的残差函数计算，x_i为第i层输入，ω_i为第i层残差分支上的卷积操作，假设损失函数为loss，则对损失函数求导得到反向传播公式：

由上可得损失函数loss对浅层x_l的梯度计算由两个项决定：前者为损失函数对深层x_L的梯度值，后者则是一项不轻易被抵消的值，有效地避免了当权重很小时出现梯度消失的问题，加快了模型收敛的速度。这也说明了在精调模块中使得恒等分支与残差分支相加的结果保持“干净”，成为信息传递的直接通道，可以加速模型结构的前向传播与反向传播。

另外，残差分支上的激活函数的设置在很大程度上也扩增了特征图数据表达的多样性。相加addition操作之后经过激活函数ReLU的输出值均为非负值传送到下一个精调模块当中，则每精调模块接收到的输入特征图数据的取值范围在(-∞,+∞)之间，很大程度上扩增了数据表达的多样性，同时也让模型能更加充分地学习图像特征与人体关键点之间的关联关系。

在本发明的一个实施例中，所述补充精调模型中，通过各特征提取分支的精调模块加强学习之后，还包括：

对每个特征提取分支输出的精调后的特征图依次进行压缩、激励和整合操作，其中压缩操作通过全局平均池化压缩不同通道上的特征图以获得全局特征，激励操作通过将学习得到的非线性依赖关系来对不同通道赋予相应的权重系数，从特征图通道的角度来进行信息处理，屏蔽掉空间上的关系，找到不同通道之间的依赖关系；整合操作将压缩操作、激励操作的结果整合到所述精调后的特征图中，以对所述精调后的特征图进行重新标定，输出所述人体关键点的第二特征图。

在该实施例中：

S31，压缩操作，通过平面维度进行特征压缩，采用全局平均池化来实现，将不同通道上的特征图二维信息压缩成一个实数，这个实数在某种程度上具有全局感受野，它表征着在特征通道上响应的全局分布。对于精调模块的输出首先需要进行压缩操作，将不同通道上的特征图二维信息通过全局平均池化的方式压缩成一个实数，来表示该通道的全局特征，计算公式如下：

上述公式中u_c代表第c个特征通道上的特征图，F_sq表示通过全局平均池化的方式压缩成一个实数，H、W为特征图u_c的高度和宽度(描述特征图的平面尺度大小)，(i,j)则为特征图u_c上的像素点。因此通过全局平均池化的压缩方法可以u_c压缩成一个实数z_c作为输出，描述了第c特征通道上特征图的全局感受野。

S32，激励操作，通过学习到的非线性依赖关系来对不同通道赋予相应的权重系数。由上一步的压缩操作通过全局平均池化获得一个实数z_c代表该通道上的全局分布。但仅仅由z_c还不能表征通道之间的依赖关系，需要捕获到各个通道之间的非线性关系，通过学习到的非线性依赖关系来对不同通道赋予相应的权重系数，于是得到激励操作公式如下：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(BN(W₁z)))

其中z为中z_c的集合，z＝{z₁,z₂,...,z_C}，W₁和W₂则为残差分支上全连接层的权重矩阵，这两个全连接层均为1×1卷积核，采用的第一个1×1的W₁目的是通过压缩通道数来降低运算量，然后紧接着归一化处理BN，δ函数表示Leaky ReLU激活函数，用来捕获降维后不同通道之间的依赖关系，第二个1×1的W₂目的是将通道数恢复到原本的大小，σ表示sigmoid函数，计算得到C个在(0,1)区间上的归一化权重实数，即特征通道描述子s。

S33，整合操作，将压缩和激励操作的结果整合到原来的输入特征图当中，将得到的权重实数通过乘法逐通道加权到原来的输入特征图当中，完成对原始特征的重新标定。

整合操作是将压缩和激励的结果整合到原来的输入特征图当中，当激励操作捕获不同通道之间的非线性依赖关系后，将其输出结果看做是经过特征选择后的每个特征通道的重要程度，然后将得到的权重实数通过乘法逐通道加权到原来的输入特征图当中，完成对原始特征的重新标定。整合操作公式如下：

x_c＝F_scale(u_c,s_c)＝s_c·u_c

上述公式表示最终输出为经过压缩、激励和整合操作之后的特征，F_scale为整合操作，u_c代表第c通道上的特征图，实数s_c代表第c通道特征图的重要程度，按照不同的通道与之对应的权重系数相乘，通过学习的方式自适应计算得到每个特征通道的重要程度，然后按照这个重要程度去提升发挥作用的特征，辅助模型针对多尺度特征图自适应学习不同人体关键点的特征表示，并抑制无关紧要的特征，以此增强模型对较难识别人体关键点的学习性能，提高模型的表现性能。

参见图2，所述人体检测模型、全局估计模型和补充精调模型依次连接，构成基于卷积神经网络的人体动作姿态智能估计模型；所述估计模型采用反向传播算法进行训练，训练时的目标函数由两个子项组成，第一项为所述估计模型输出的人体姿态估计结果与真实标记的人体姿态之间的损失函数值，通过两者的欧式距离评估所述估计模型预测的性能；第二项为所述人体姿态估计结果与真实标记的人体姿态之间的形状距离项，通过形状相似性度量两者在人体关键点形状分布上的相似性。

在该实施例中，形状距离项是在多目标识别中的形状描述子方法，统计估计模型预测人体姿态与真实标记人体姿之间的上下文信息，然后比较两点集间各个点的上下文信息来判断它们的相似程度，进而来衡量这两个点集所表示形状的相似性，从而计算形状距离项。形状距离项计算公式如下：

在上述形状距离项的基础上，本实施例中建立的目标函数如下：

其中，前一项

为L2损失函数项，通过估计模型预测人体姿态估计结果

与真实标记人体姿的人体关键点y⁽ⁱ⁾的平方损失计算得来，后一项为形状距离项，超参数λ为惩罚项系数。对于人体检测阶段在反向传播过程中采用Adam优化方法，将学习率设为1e-5，对于全局估计阶段和补充精调阶段的反向传播训练时仍然采用Adam优化方法，将学习率设为1e-4。

可选地，S4所述的基于所述不同尺度的人体关键点的第二特征图，得到人体姿态估计结果，包括：

其中上采样方法为最近邻点插值法，在待求像素的四个临近像素点找出最近的临近像素灰度值赋给待求像素，从而得到一个较大尺度的特征图。该步骤经过上采样将四种不同尺度(相对于输入图像的尺寸缩放步长为4，8，16，32)的特征图重新调整为相同的尺寸大小，上采样的方法为最近邻点插值法。然后进行concat拼接操作，再经过1×1卷积操作输出通道数为18的特征图，表示输出18个人体关键点的热力图，模型预测人体姿态关键点的示意图如图9所示。

本发明的基于卷积神经网络的人体动作姿态智能估计模型在训练时，采用MSCOCO数据集上所有类别为人的图像，并进行数据预处理操作，包括图像旋转和翻转、图像缩放与裁剪、图像添加随机噪声、图像标准化处理后，利用反向传播算法与前述的目标函数，对模型进行训练。

几种人体姿态估计方法在MSCOCO test-dev上的实验结果如图10所示。其中AP为平均精确率，AP@0.5和AP@0.75是指AP在OKS阈值取值为0.5和0.75时的平均精确率，mAP为平均精确率的均值，是指通过给定不同的阈值计算相应情况下的AP，然后求平均值，一般以mAP作为此处模型性能的衡量标准。可以看到CMU-Pose、Mask R-CNN、G-RMI、AssociativeEmbedding以及本方案在MSCOCO test-dev上的实验结果，本方案具有更高的平均精确率，这也说明了通过本方案提出的模型对人体关键点学习更加充分，从而使得人体姿态估计达到更好的效果。

根据本发明的另一方面，提供了一种基于卷积神经网络的人体动作姿态智能估计装置1，如图11所示，包括：

人物个体检测模块11，用于将待进行动作姿态估计的人体图像输入到训练好的人体检测模型中进行处理，得到所述人体图像的人物个体检测结果；

全局估计模块12，用于将所述人物个体检测结果输入到训练好的全局估计模型中进行处理，得到不同尺度的人体关键点的第一特征图；

补充精调模块13，用于将所述第一特征图输入到训练好的补充精调模型中进行处理，通过加强学习得到不同尺度的人体关键点的第二特征图；所述补充精调模型中包括多个特征提取分支，每个特征提取分支中设置数量不同的精调模块，通过各特征提取分支的精调模块加强学习；

姿态估计模块14，用于对于不同尺度的所述第二特征图进行尺度调整、合并与精调处理，得到人体姿态估计结果。

需要说明的是，上述各个模块的具体功能和相关解释参见前述方法实施例中对应的步骤，例如图1所示的S1～S4，在此不赘述。

请参阅图12，本发明实施例进一步提供一种终端设备2，该终端设备2可以为计算机、服务器；包括存储器22、处理器21以及存储在存储器22中并可在处理器上运行的计算机程序23，处理器21执行计算机程序23时实现上述基于卷积神经网络的人体动作姿态智能估计方法的步骤，例如，前述的S1至S4。

计算机程序23也可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器22中，并由处理器21执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序23在终端设备2中的执行过程，例如，计算机程序23可以被分割为人物个体检测模块11、全局估计模块12、补充精调模块13和姿态估计模块14，各模块的功能参见前述装置中的描述，不再赘述。

本发明的实施提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述基于卷积神经网络的人体动作姿态智能估计方法的步骤，例如，前述的S1至S4。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的人体动作姿态智能估计方法，其特征在于，包括：

2.根据权利要求1所述的人体动作姿态智能估计方法，其特征在于，所述通过精调模块加强学习，包括：

3.根据权利要求1所述的人体动作姿态智能估计方法，其特征在于，所述精调模块包括残差分支，其中，残差分支上设置有依次连接的第一归一化层、第一激活层、第一卷积层、第二归一化层、第二激活层、第二卷积层、第三归一化层、第三激活层、第三卷积层；

4.根据权利要求1所述的人体动作姿态智能估计方法，其特征在于，所述补充精调模型中，通过各特征提取分支的精调模块加强学习之后，还包括：

5.根据权利要求1所述的人体动作姿态智能估计方法，其特征在于，所述人体检测模型、全局估计模型和补充精调模型依次连接，构成基于卷积神经网络的人体动作姿态智能估计模型；所述估计模型采用反向传播算法进行训练，训练时的目标函数由两个子项组成，第一项为所述估计模型输出的人体姿态估计结果与真实标记的人体姿态之间的损失函数值，通过两者的欧式距离评估所述估计模型预测的性能；第二项为所述人体姿态估计结果与真实标记的人体姿态之间的形状距离项，通过形状相似性度量两者在人体关键点形状分布上的相似性。

6.根据权利要求1所述的人体动作姿态智能估计方法，其特征在于，所述人体检测模型中对人体图像进行处理的过程包括：

7.根据权利要求1所述的人体动作姿态智能估计方法，其特征在于，所述全局估计模型中对人物个体检测结果进行处理的过程包括：

8.一种基于卷积神经网络的人体动作姿态智能估计装置，其特征在于，包括：

9.一种终端设备，包括包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现根据权利要求1-7中任一方法的步骤。

10.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现根据权利要求1-7中任一方法的步骤。