CN111339969A

CN111339969A - 人体姿势估计方法、装置、设备及存储介质

Info

Publication number: CN111339969A
Application number: CN202010134710.9A
Authority: CN
Inventors: 黄少光; 许秋子
Original assignee: Shenzhen Realis Multimedia Technology Co Ltd
Current assignee: Shenzhen Realis Multimedia Technology Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-06-26
Anticipated expiration: 2040-03-02
Also published as: CN111339969B

Abstract

本发明涉及计算机视觉领域，公开了一种人体姿势估计方法、装置、设备及存储介质，用于解决现有的人体姿势估计方式成本高和计算效率低的问题。人体姿势估计方法包括：通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，人体特征处理网络结构包括网络输入层、具有一个卷积核大小为3*3、多个卷积核大小为1*1和一个最大池化核大小为2*2的茎网络层Stem以及卷积核大小均为1*1的初始网络层Inception‑A，热度图网络结构用于指示两个特征拼接阶段的残差网络ResNet；通过人体特征处理网络结构对获取的人体图像信息进行特征提取获得人体特征；通过热度图网络结构生成人体特征的人体热度图；对人体热度图进行人体姿态估计获得人体的关键点。

Description

人体姿势估计方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种人体姿势估计方法、装置、设备及存储介质。

背景技术

随着机器视觉和深度学习的人工智能技术的快速发展，人体姿势估计技术也随之快速发展，且在虚拟现实技术、三维虚拟场景人机交互技术或其他体姿交互的应用领域中具有重要意义。人体姿势估计技术广泛应用于基于机器视觉对人体进行定位识别，结合深度学习或其他技术进行人体姿态估计的项目中，例如：多人姿态估计系统Alphapose的人体姿势估计项目、姿态识别系统kinect的姿态识别项目和肢体语言识别系统OpenPose的人体检测项目。

在现有技术中，结合深度学习或其他技术进行人体姿态估计的项目在一些应用场景下都各有优点，但也存在着一些缺点，比如：姿态识别系统kinect需要深度相机开发成本和硬件成本较高，开发者不能从底层进行开发，只能基于姿态识别系统kinect的基础上进行开发；多人姿态估计系统Alphapose和肢体语言识别系统OpenPose存在着计算量大、对显卡资源需求很高的缺点。由于现有的人体姿势估计方式需要采用深度相机，以及所运用的系统对参数的计算量大，因而，导致现有的人体姿势估计方式存在成本高和计算效率低的问题。

发明内容

本发明的主要目的在于解决现有的人体姿势估计方式成本高和计算效率低的问题。

本发明第一方面提供了一种人体姿势估计方法，包括：

通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，所述人体特征处理网络结构包括网络输入层、茎网络层Stem和初始网络层Inception-A，所述网络输入层用于将尺寸大小为368*368*3的人体特征图输入到所述茎网络层Stem中，所述茎网络层Stem包括一个卷积核大小为3*3的卷积层、多个卷积核大小为1*1的卷积层和两个最大池化层，所述两个最大池化层中的一个最大池化层的最大池化核大小为2*2，所述初始网络层Inception-A包括多个卷积核大小均为1*1的卷积层和一个均值池化核大小为1*1的均值池化层，所述热度图网络结构包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet；

获取人体图像训练数据集，根据所述人体图像训练数据集对所述深度学习网络模型进行训练，获得人体姿态估计模型；

获取待处理的人体图像信息，通过所述人体姿态估计模型中的人体特征处理网络结构对所述待处理的人体图像信息进行特征提取，获得人体特征；

通过所述人体姿态估计模型中的热度图网络结构，生成所述人体特征的人体热度图；

对所述人体热度图进行人体姿态估计，获得人体的关键点。

可选的，在本发明第一方面的第一种实现方式中，所述茎网络层Stem包括第一特征拼接层、第二特征拼接层和第三特征拼接层，所述第一特征拼接层包括一个卷积核大小为3*3的卷积层、三个卷积核大小为1*1的卷积层和一个最大池化核大小为2*2的最大池化层，所述第二特征拼接层包括六个卷积核大小为1*1的卷积层，所述第三特征拼接层包括一个步长为2的最大池化层和一个卷积核大小为1*1的卷积层。

可选的，在本发明第一方面的第二种实现方式中，所述获取待处理的人体图像信息，通过所述人体姿态估计模型中的人体特征处理网络结构对所述待处理的人体图像信息进行特征提取，获得人体特征，包括：

获取待处理的人体图像信息，对所述待处理的人体图像信息进行尺寸大小转换处理并进行归一化处理，获得尺寸大小为368*368*3的人体特征图；

通过所述人体姿态估计模型中所述人体特征处理网络结构的网络输入层，将所述尺寸大小为368*368*3的人体特征图输入到所述茎网络层Stem中；

通过所述第一特征拼接层、所述第二特征拼接层和所述第三特征拼接层对所述尺寸大小为368*368*3的人体特征图进行卷积处理、池化处理和特征拼接处理，获得尺寸大小为46*46*384的人体特征图；

通过所述初始网络层Inception-A对所述尺寸大小为46*46*384的人体特征图进行卷积处理、均值池化处理和特征拼接处理，获得人体特征。

可选的，在本发明第一方面的第三种实现方式中，所述通过所述第一特征拼接层、所述第二特征拼接层和所述第三特征拼接层对所述尺寸大小为368*368*3的人体特征图进行卷积处理、池化处理和特征拼接处理，获得尺寸大小为46*46*384的人体特征图，包括：

通过所述第一特征拼接层对所述大小为368*368*3的人体特征图分别进行第一预设卷积处理和第一预设池化处理，获得第一卷积特征和第一池化特征，对所述第一卷积特征和所述第一池化特征进行特征拼接处理，获得尺寸大小为92*92*160的人体特征图；

通过所述第二特征拼接层对所述尺寸大小为92*92*160的人体特征图分别进行第二预设卷积处理和第三预设卷积处理，获得第二卷积特征和第三卷积特征，对所述第二卷积特征和所述第三卷积特征进行特征拼接处理，获得尺寸大小为92*92*192的人体特征图；

通过所述第三特征拼接层对所述尺寸大小为92*92*192的人体特征图分别进行第四预设卷积处理和第二预设池化处理，获得第四卷积特征和第二池化特征，对所述第四卷积特征和所述第二池化特征进行特征拼接处理，获得尺寸大小为46*46*384的人体特征图。

可选的，在本发明第一方面的第四种实现方式中，所述热度图网络结构中的所述第一特征拼接阶段的残差网络ResNet和所述第二特征拼接阶段的残差网络ResNet均包括三个卷积激活层，每个所述卷积激活层包括卷积核大小为1*1的卷积层和激活层。

可选的，在本发明第一方面的第五种实现方式中，所述通过所述人体姿态估计模型中的热度图网络结构，生成所述人体特征的人体热度图，包括：

通过所述第一特征拼接阶段的残差网络ResNet中所述三个卷积激活层对所述人体特征进行卷积处理、激活函数处理和融合处理，获得候选人体热度图；

通过所述第二特征拼接阶段的残差网络ResNet中所述三个卷积激活层对所述候选人体热度图和所述初始网络层Inception-A输出的人体特征进行卷积处理、激活函数处理和融合处理，获得所述人体特征的人体热度图。

本发明第二方面提供了一种人体姿势估计装置，包括：

构建模块，用于通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，所述人体特征处理网络结构包括网络输入层、茎网络层Stem和初始网络层Inception-A，所述网络输入层用于将尺寸大小为368*368*3的人体特征图输入到所述茎网络层Stem中，所述茎网络层Stem包括一个卷积核大小为3*3的卷积层、多个卷积核大小为1*1的卷积层和两个最大池化层，所述两个最大池化层中的一个最大池化层的最大池化核大小为2*2，所述初始网络层Inception-A包括多个卷积核大小均为1*1的卷积层和一个均值池化核大小为1*1的均值池化层，所述热度图网络结构包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet；

训练模块，用于获取人体图像训练数据集，根据所述人体图像训练数据集对所述深度学习网络模型进行训练，获得人体姿态估计模型；

特征提取模块，用于获取待处理的人体图像信息，通过所述人体姿态估计模型中的人体特征处理网络结构对所述待处理的人体图像信息进行特征提取，获得人体特征；

生成模块，用于通过所述人体姿态估计模型中的热度图网络结构，生成所述人体特征的人体热度图；

姿态估计模块，用于对所述人体热度图进行人体姿态估计，获得人体的关键点。

本发明第三方面提供了一种人体姿势估计设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述人体姿势估计设备执行上述的人体姿势估计方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的人体姿势估计方法。

本发明提供的技术方案中，通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，人体特征处理网络结构包括网络输入层、具有一个卷积核大小为3*3、多个卷积核大小为1*1和一个最大池化核大小为2*2的茎网络层Stem以及卷积核大小均为1*1的初始网络层Inception-A，热度图网络结构用于指示两个特征拼接阶段的残差网络ResNet；通过人体特征处理网络结构对获取的人体图像信息进行特征提取获得人体特征；通过热度图网络结构生成人体特征的人体热度图；对人体热度图进行人体姿态估计获得人体的关键点。本发明中，通过采用大量1*1卷积核以及网络输入层、茎网络层Stem和初始网络层Inception-A的三部分结构构建人体特征处理网络结构，通过包括第一特征拼接阶段和第二特征拼接阶段的残差网络ResNet构建热度图网络结构，一方面，不需要运用深度相机，减少了采用深度相机所致的开发成本和硬件成本，另一方面通过以简单化的网络结构降低人体特征处理网络结构和热度图网络结构的复杂度，以及采用大量1*1卷积核，减少深度学习网络模型中运算所需的参数量，降低了计算量，且不易出现梯度消失的现象，在一定程度上解决网络退化问题，提高了计算的准确性，减少了计算的操作时间，进而，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题。

附图说明

图1为本发明实施例中人体姿势估计方法的一个实施例示意图；

图2为本发明实施例中人体姿势估计方法的另一个实施例示意图；

图3为本发明实施例中人体姿势估计装置的一个实施例示意图；

图4为本发明实施例中人体姿势估计装置的另一个实施例示意图；

图5为本发明实施例中人体姿势估计设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种人体姿势估计方法、装置、设备及存储介质，通过采用大量1*1卷积核以及网络输入层、茎网络层Stem和初始网络层Inception-A的三部分结构构建人体特征处理网络结构，通过第一特征拼接阶段和第二特征拼接阶段的残差网络ResNet构建热度图网络结构，一方面，不需要运用深度相机，减少了采用深度相机所致的开发成本和硬件成本，另一方面通过以简单化的网络结构降低人体特征处理网络结构和热度图网络结构的复杂度，以及采用大量1*1卷积核，减少深度学习网络模型中运算所需的参数量，降低了计算量，且不易出现梯度消失的现象，在一定程度上解决网络退化问题，提高了计算的准确性，减少了计算的操作时间，进而，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中人体姿势估计方法的一个实施例包括：

101、通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，人体特征处理网络结构包括网络输入层、茎网络层Stem和初始网络层Inception-A，网络输入层用于将尺寸大小为368*368*3的人体特征图输入到茎网络层Stem中，茎网络层Stem包括一个卷积核大小为3*3的卷积层、多个卷积核大小为1*1的卷积层和两个最大池化层，两个最大池化层中的一个最大池化层的最大池化核大小为2*2，初始网络层Inception-A包括多个卷积核大小均为1*1的卷积层和一个均值池化核大小为1*1的均值池化层，热度图网络结构包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet；

用于人体姿势估计深度学习网络模型由两部分的网络结构构成，分别为人体特征提取部分的网络结构和人体热度图部分的网络结构。服务器基于谷歌网络Inceptionv4中的网络输入层、茎网络层Stem和初始网络层Inception-A的网络结构，构建人体特征提取部分的网络结构。人体特征提取部分的网络结构中，网络输入层中的特征图尺寸大小为368*368*3，茎网络层Stem和初始网络层Inception-A的输入和输出的特征图尺寸大小为均为46*46*384；茎网络层Stem中除了网络结构中连接的第一个卷积核的大小为3*3，该大小为3*3的第一个卷积核对应卷积层，其他的卷积层对应的卷积核大小均为1*1，网络结构中连接中的第一个最大池化核的大小为2*2，该大小为2*2的第一个卷积核对应最大池化层；初始网络层Inception-A中的卷积层的卷积核均为1*1，均值池化层的均值池化核大小为1*1。人体热度图部分的网络结构由热度图网络结构构成，热度图网络结构为残差网络ResNet，该残差网络ResNet包括两个处理阶段的网络结构，分别为第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet，第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet中的卷积层的卷积核大小均为1*1，而现有的热度图网络结构包括五个处理阶段的残差网络结构，其涉及的卷积操作的卷积核大小部分为3*3，部分为1*1，热度图网络结构中输入和输出的特征图尺寸大小为均为46*46*384。

102、获取人体图像训练数据集，根据人体图像训练数据集对深度学习网络模型进行训练，获得人体姿态估计模型。

服务器通过从各网络平台爬取人体图像和/或通过摄像头或其他采集工具采集人体图像，获得人体图像训练数据集，将人体图像训练数据集输入到深度学习网络模型中，不断调整深度学习网络模型的权重值，以及通过预置的损失函数对深度学习网络模型的效果值进行评估，以对深度学习网络模型进行训练获得人体姿态估计模型，使得人体姿态估计模型能够对人体图像进行特征提取、生成人体热度图和人体姿态估计，从而获得人体的关键点。在获得人体姿态估计模型，还可通过预置的优化算法对人体姿态估计模型进行迭代优化。

103、获取待处理的人体图像信息，通过人体姿态估计模型中的人体特征处理网络结构对待处理的人体图像信息进行特征提取，获得人体特征；

服务器可通过终端上的摄像头对人体进行拍照以采集待处理的人体图像信息，服务器获得待处理的人体图像信息之后，对该待处理的人体图像信息进行尺寸大小转换，将尺寸大小转换所得的尺寸大小368*368*3的人体特征图输入到人体姿态估计模型中人体特征处理网络结构的网络输入层，网络输入层将尺寸大小为368*368*3的人体特征图输入到该茎网络层Stem，通过该茎网络层Stem采用卷积处理和池化处理并行的结构以及多层的特征拼接处理，对该待处理的人体图像信息进行预处理，对尺寸大小368*368*3的人体特征图进行尺寸大小缩减处理，获得尺寸大小为46*46*384的人体特征图。通过初始网络层Inception-A对尺寸大小为46*46*384的人体特征图进行多层的卷积处理和一层的均值池化处理，从而获得人体特征。

104、通过人体姿态估计模型中的热度图网络结构，生成人体特征的人体热度图；

服务器获得人体特征后，将人体特征输入至人体姿态估计模型中的热度图网络结构，通过热度图网络结构中的第一特征拼接阶段的残差网络ResNet对人体特征进行多层的卷积处理和激活函数处理，将经过多层的卷积处理和激活函数处理的人体特征进行融合处理，得到作为第二特征拼接阶段的残差网络ResNet的输入，通过第二特征拼接阶段的残差网络ResNet对该输入人体特征和初始网络层Inception-A输出的人体特征进行多层的卷积处理和激活函数处理，以及融合处理，得到处理后的特征，根据该处理后的特征可生成人体关键点特征的热度图。

105、对人体热度图进行人体姿态估计，获得人体的关键点。

服务器通过人体姿态估计模型以预置的积分姿势回归算法计算人体热度图中所有位置的积分，对该积分进行归一化处理，获得基于概率的积分，根据该基于概率的积分对人体热度图中的骨骼关节的位置进行估计，以将人体热度图的表示转换为关节的位置，获得人体的关键点，该人体的关键点对应的图可为2D或3D形式的。其中，在该基于概率的积分对人体热度图中的骨骼关节的位置进行估计，以将人体热度图的表示转换为关节的位置时，通过包括人体热度图的损失的关节坐标的损失函数对将人体热度图的表示转换为关节的位置进行损失计算。通过预置的积分姿势回归算法的较好鲁棒性的特性，提高获取对人体热度图进行人体姿态估计获得人体的关键点的准确性。

通过人体姿态估计模型对人体图像信息进行特征提取和生成人体热度图，对人体热度图进行人体姿态估计，获得人体的关键点，在RTX2080TI上达到60fps以上，准确率较高，具备一定抗遮挡能力；在RTX2080TI显卡上，人体的关键点对应的图所显示的帧数能达到60fps以上，即使在普通显卡(比如GTX1070)上也能达到实时性较高的效果，此外，所实现的在线实时预测的效果与肢体语言识别系统Openpose的算法差别较小，因而，本发明能在不采用深度相机的基础上达到肢体语言识别系统Openpose的算法效果，且对显卡资源需求较低，从而，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题。

本发明实施例中，通过采用大量1*1卷积核以及网络输入层、茎网络层Stem和初始网络层Inception-A的三部分结构构建人体特征处理网络结构，通过第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet构建热度图网络结构，一方面，不需要运用深度相机，减少了采用深度相机所致的开发成本和硬件成本，另一方面通过以简单化的网络结构降低人体特征处理网络结构和热度图网络结构的复杂度，以及采用大量1*1卷积核，减少深度学习网络模型中运算所需的参数量，降低了计算量，且不易出现梯度消失的现象，在一定程度上解决网络退化问题，提高了计算的准确性，减少了计算的操作时间，进而，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题。

请参阅图2，本发明实施例中人体姿势估计方法的另一个实施例包括：

201、通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，人体特征处理网络结构包括网络输入层、茎网络层Stem和初始网络层Inception-A，网络输入层用于将尺寸大小为368*368*3的人体特征图输入到茎网络层Stem中，茎网络层Stem包括一个卷积核大小为3*3的卷积层、多个卷积核大小为1*1的卷积层和两个最大池化层，两个最大池化层中的一个最大池化层的最大池化核大小为2*2，初始网络层Inception-A包括多个卷积核大小均为1*1的卷积层和一个均值池化核大小为1*1的均值池化层，热度图网络结构包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet，热度图网络结构中的第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet均包括三个卷积激活层，每个卷积激活层包括卷积核大小为1*1的卷积层和激活层；

服务器通过人体特征处理网络结构和热度图网络结构建用于人体姿势估计深度学习网络模型。人体特征处理网络结构中，网络输入层中的特征图尺寸大小为368*368*3。输入茎网络层Stem的为尺寸大小为46*46*384的特征图，经过茎网络层Stem输出的特征图的尺寸大小为46*46*384。输入初始网络层Inception-A的为尺寸大小为46*46*384的特征图，经过初始网络层Inception-A输出的特征图的尺寸大小为46*46*384。茎网络层Stem中除了网络结构中连接的第一个卷积层的卷积核的大小为3*3之外，其他的卷积层对应的卷积核大小均为1*1，网络结构中连接中的第一个最大池化核的大小为2*2。初始网络层Inception-A包括多个卷积核均为1*1的卷积层和均值池化核大小为1*1的均值池化层。热度图网络结构为残差网络ResNet，该残差网络ResNet包括两个处理阶段的网络结构，分别为第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet，第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet中的卷积层的卷积核大小均为1*1，第一特征拼接阶段的残差网络ResNet和所述第二特征拼接阶段的残差网络ResNet均由三层卷积激活层构成，而现有的热度图网络结构包括五个处理阶段的残差网络结构，其涉及的卷积操作的卷积核大小部分为3*3，部分为1*1，热度图网络结构中输入和输出的特征图尺寸大小为均为46*46*384。

具体地，第一特征拼接阶段的残差网络ResNet和所述第二特征拼接阶段的残差网络ResNet均由三层卷积激活层构成，分别为第一卷积激活层、第二卷积激活层和第三卷积激活层，第一卷积激活层为一个卷积核大小为1*1的卷积层，以及一个结合卷积核大小为1*1的卷积层和激活函数Relu的卷积激活层，第二卷积激活层与第一卷积激活层相同，第三卷积激活层为一个结合卷积核大小为1*1的卷积层，以及激活函数Relu层。第一特征拼接阶段的残差网络ResNet的输出与初始网络层Inception-A的输出相加到一起，将相加之后的输出作为所述第二特征拼接阶段的残差网络ResNet的输入，即第一特征拼接阶段的残差网络ResNet的输出输入到第二特征拼接阶段的残差网络ResNet中，初始网络层Inception-A的输出也输入到第二特征拼接阶段的残差网络ResNet中，第二特征拼接阶段的残差网络ResNet对这两个输入进行处理。

具体地，茎网络层Stem包括第一特征拼接层、第二特征拼接层和第三特征拼接层，第一特征拼接层包括一个卷积核大小为3*3的卷积层、三个卷积核大小为1*1的卷积层和一个最大池化核大小为2*2的最大池化层，第二特征拼接层包括六个卷积核大小为1*1的卷积层，第三特征拼接层包括一个步长为2的最大池化层和一个卷积核大小为1*1的卷积层。

茎网络层Stem中第一特征拼接层、第二特征拼接层和第三特征拼接层依次连接，网络输入层作为第一特征拼接层的输入口，第一特征拼接层的输出作为第二特征拼接层的输入，第二特征拼接层的输出作为第三特征拼接层的输入。第一特征拼接层由一个步长为2、输出通道个数为32、卷积核大小为3*3的卷积层，一个输出通道个数为32和卷积核大小为1*1的卷积层，一个卷积核个数为64和卷积核大小为1*1的卷积层，一个步长为2和最大池化核大小为2*2的最大池化层，以及一个步长为2、输出通道个数为96、卷积核大小为1*1的卷积层构成。第二特征拼接层由四个卷积核个数为64和卷积核大小为1*1的卷积层，以及两个输出通道个数为96和卷积核大小为1*1的卷积层构成。第三特征拼接层由一个输出通道个数为192和卷积核大小为1*1的卷积层，以及一个步长为2的最大池化层构成。

202、获取人体图像训练数据集，根据人体图像训练数据集对深度学习网络模型进行训练，获得人体姿态估计模型。

203、获取待处理的人体图像信息，通过人体姿态估计模型中的人体特征处理网络结构对待处理的人体图像信息进行特征提取，获得人体特征；

具体地，服务器获取待处理的人体图像信息，通过人体姿态估计模型中的人体特征处理网络结构对待处理的人体图像信息进行特征提取，获得人体特征，可以包括：获取待处理的人体图像信息，对待处理的人体图像信息进行尺寸大小转换处理并进行归一化处理，获得尺寸大小为368*368*3的人体特征图；通过人体姿态估计模型中人体特征处理网络结构的网络输入层，将尺寸大小为368*368*3的人体特征图输入到茎网络层Stem中；通过第一特征拼接层、第二特征拼接层和第三特征拼接层对尺寸大小为368*368*3的人体特征图进行卷积处理、池化处理和特征拼接处理，获得尺寸大小为46*46*384的人体特征图；通过初始网络层Inception-A对尺寸大小为46*46*384的人体特征图进行卷积处理、均值池化处理和特征拼接处理，获得人体特征。

服务器通过图像采集工具获取待处理的人体图像信息，通过预置的图像大小缩放函数Resize对待处理的人体图像信息进行尺寸大小转换处理并进行归一化处理，获得尺寸大小为368*368*3的人体特征图。将该尺寸大小为368*368*3的人体特征图放入到网络输入层，通过网络输入层将该尺寸大小为368*368*3的人体特征图作为茎网络层Stem的输入。第一特征拼接层、第二特征拼接层和第三特征拼接层均包括卷积处理、池化处理和特征拼接处理的网络。第一特征拼接层、第二特征拼接层和第三特征叠均在卷积处理和池化处理之后，对经过卷积处理和池化处理的人体特征图进行特征拼接处理。初始网络层Inception-A包括四层结构，分别为第一层结构、第二层结构、第三层结构和四层结构，第一层结构为均值一个池化核大小为1*1的均值池化层和一个卷积核数量为96、卷积核大小为1*1的卷积层，第二层结构为一个卷积核数量为96、卷积核大小为1*1的卷积层，第三层结构为一个卷积核数量为96、卷积核大小为1*1的卷积层和一个卷积核数量为64、卷积核大小为1*1的卷积层，第四层结构为两个卷积核数量为96、卷积核大小为1*1的卷积层和一个卷积核数量为64、卷积核大小为1*1的卷积层，第一层结构、第二层结构、第三层结构和四层结构分别对尺寸大小为46*46*384的人体特征图进行处理，将第一层结构、第二层结构、第三层结构和四层结构处理后所得的人体特征图进行特征拼接处理获得人体特征。

具体地，服务器通过第一特征拼接层、第二特征拼接层和第三特征拼接层对尺寸大小为368*368*3的人体特征图进行卷积处理、池化处理和特征拼接处理，获得尺寸大小为46*46*384的人体特征图，可以包括：通过第一特征拼接层对大小为368*368*3的人体特征图分别进行第一预设卷积处理和第一预设池化处理，获得第一卷积特征和第一池化特征，对第一卷积特征和第一池化特征进行特征拼接处理，获得尺寸大小为92*92*160的人体特征图；通过第二特征拼接层对尺寸大小为92*92*160的人体特征图分别进行第二预设卷积处理和第三预设卷积处理，获得第二卷积特征和第三卷积特征，对第二卷积特征和第三卷积特征进行特征拼接处理，获得尺寸大小为92*92*192的人体特征图；通过第三特征拼接层对尺寸大小为92*92*192的人体特征图分别进行第四预设卷积处理和第二预设池化处理，获得第四卷积特征和第二池化特征，对第四卷积特征和第二池化特征进行特征拼接处理，获得尺寸大小为46*46*384的人体特征图。

其中，第一预设卷积处理包括一个步长为2、输出通道个数为32、卷积核大小为3*3的卷积层，一个输出通道个数为32和卷积核大小为1*1的卷积层，一个卷积核个数为64和卷积核大小为1*1的卷积层，以及一个步长为2、输出通道个数为96、卷积核大小为1*1的卷积层的卷积处理。第一预设池化处理包括一个步长为2、输出通道个数为32、卷积核大小为3*3的卷积层，一个输出通道个数为32和卷积核大小为1*1的卷积层，一个卷积核个数为64和卷积核大小为1*1的卷积层的卷积处理，以及一个步长为2和最大池化核大小为2*2的最大池化层的最大池化处理。经过第一预设卷积处理和第二预设池化处理后的人体特征图的尺寸大小为184*184*32。第二预设卷积处理包括一个卷积核个数为64和卷积核大小为1*1的卷积层以及一个输出通道个数为96和卷积核大小为1*1的卷积层的卷积处理。第三预设卷积处理包括三个卷积核个数为64和卷积核大小为1*1的卷积层以及一个输出通道个数为96和卷积核大小为1*1的卷积层的卷积处理。第四预设卷积处理包括一个输出通道个数为192和卷积核大小为1*1的卷积层的卷积处理。第二预设池化处理包括一个步长为2的最大池化层的最大池化处理。

204、通过第一特征拼接阶段的残差网络ResNet中三个卷积激活层对人体特征进行卷积处理、激活函数处理和融合处理，获得候选人体热度图；

服务器通过第一特征拼接阶段的残差网络ResNet中三个卷积激活层的三个卷积核大小为1*1的卷积层，两个结合卷积核大小为1*1的卷积层和激活函数Relu的卷积激活层，以及一个激活函数Relu层对人体特征进行卷积处理和激活函数处理，将经过卷积处理和激活函数处理的人体特征和未经过卷积处理和激活函数处理的人体特征进行融合处理，该融合处理可为矩阵向量相加处理，从而获得候选人体热度图。

205、通过第二特征拼接阶段的残差网络ResNet中三个卷积激活层对候选人体热度图和初始网络层Inception-A输出的人体特征进行卷积处理、激活函数处理和融合处理，获得人体特征的人体热度图；

服务器将第一特征拼接阶段的残差网络ResNet输出的候选人体热度图以及初始网络层Inception-A输出的人体特征输入到第二特征拼接阶段的残差网络ResNet中，通过第二特征拼接阶段的残差网络ResNet中三个卷积激活层的三个卷积核大小为1*1的卷积层，两个结合卷积核大小为1*1的卷积层和激活函数Relu的卷积激活层，以及一个激活函数Relu层对候选人体热度图进行卷积处理和激活函数处理，以及对初始网络层Inception-A输出的人体特征进行卷积处理和激活函数处理，将经过卷积处理和激活函数处理的候选人体热度图和经过卷积处理和激活函数处理的初始网络层Inception-A输出的人体特征进行融合处理，并生成热度图，从而获得人体特征的人体热度图。通过上述获取候选人体热度图和人体特征的人体热度图的操作，既能不丢失人体特征的原始信息，保证人体特征在处理过程中的质量，又能充分利用人体特征融合后所携带的信息，进而提高生成人体特征的人体热度图的准确性。

206、对人体热度图进行人体姿态估计，获得人体的关键点。

服务器通过人体姿态估计模型对人体图像信息进行特征提取和生成人体热度图，对人体热度图进行人体姿态估计，获得人体的关键点，在RTX2080TI上达到60fps以上，准确率较高，具备一定抗遮挡能力；在RTX2080TI显卡上，人体的关键点对应的图所显示的帧数能达到60fps以上，即使在普通显卡(比如GTX1070)上也能达到实时性较高的效果，此外，所实现的在线实时预测的效果与肢体语言识别系统Openpose的算法差别较小，因而，本发明能在不采用深度相机的基础上达到肢体语言识别系统Openpose的算法效果，且对显卡资源需求较低，从而，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题。

本发明实施例中，在减少采用深度相机所致的开发成本和硬件成本，以及减少运算所需的参数量，降低计算量，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题的基础上，通过包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段，以及每个特征拼接阶段均为三层卷积激活层的残差网络ResNet构建热度图网络结构，降低热度图网络结构的复杂度，减少热度图网络结构的参数量，进而减少计算量，通过获取候选人体热度图和人体特征的人体热度图的操作，既能不丢失人体特征的原始信息，保证人体特征在处理过程中的质量，又能充分利用人体特征融合后所携带的信息，进而提高了生成人体特征的人体热度图的准确性。

上面对本发明实施例中人体姿势估计方法进行了描述，下面对本发明实施例中人体姿势估计装置进行描述，请参阅图3，本发明实施例中人体姿势估计装置一个实施例包括：

构建模块301，用于通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，人体特征处理网络结构包括网络输入层、茎网络层Stem和初始网络层Inception-A，网络输入层用于将尺寸大小为368*368*3的人体特征图输入到茎网络层Stem中，茎网络层Stem包括一个卷积核大小为3*3的卷积层、多个卷积核大小为1*1的卷积层和两个最大池化层，两个最大池化层中的一个最大池化层的最大池化核大小为2*2，初始网络层Inception-A包括多个卷积核大小均为1*1的卷积层和一个均值池化核大小为1*1的均值池化层，热度图网络结构包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet；

训练模块302，用于获取人体图像训练数据集，根据人体图像训练数据集对深度学习网络模型进行训练，获得人体姿态估计模型；

特征提取模块303，用于获取待处理的人体图像信息，通过人体姿态估计模型中的人体特征处理网络结构对待处理的人体图像信息进行特征提取，获得人体特征；

生成模块304，用于通过人体姿态估计模型中的热度图网络结构，生成人体特征的人体热度图；

姿态估计模块305，用于对人体热度图进行人体姿态估计，获得人体的关键点。

本发明实施例中，通过采用大量1*1卷积核以及网络输入层、茎网络层Stem和初始网络层Inception-A的三部分结构构建人体特征处理网络结构，通过包括第一特征拼接阶段和第二特征拼接阶段的残差网络ResNet构建热度图网络结构，一方面，不需要运用深度相机，减少了采用深度相机所致的开发成本和硬件成本，另一方面通过以简单化的网络结构降低人体特征处理网络结构和热度图网络结构的复杂度，以及采用大量1*1卷积核，减少深度学习网络模型中运算所需的参数量，降低了计算量，且不易出现梯度消失的现象，在一定程度上解决网络退化问题，提高了计算的准确性，减少了计算的操作时间，进而，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题。

请参阅图4，本发明实施例中人体姿势估计装置的另一个实施例包括：

构建模块301，通过预置的人体特征处理网络结构和热度图网络结构，构建深度学习网络模型，人体特征处理网络结构包括网络输入层、茎网络层Stem和初始网络层Inception-A，网络输入层用于将尺寸大小为368*368*3的人体特征图输入到茎网络层Stem中，茎网络层Stem包括一个卷积核大小为3*3的卷积层、多个卷积核大小为1*1的卷积层和两个最大池化层，两个最大池化层中的一个最大池化层的最大池化核大小为2*2，初始网络层Inception-A包括多个卷积核大小均为1*1的卷积层和一个均值池化核大小为1*1的均值池化层，热度图网络结构包括第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet，热度图网络结构中的第一特征拼接阶段的残差网络ResNet和第二特征拼接阶段的残差网络ResNet均包括三层卷积激活层，每个卷积激活层包括卷积核大小为1*1的卷积层和激活层；

其中，生成模块304具体包括：

第三处理单元3041，用于通过第一特征拼接阶段的残差网络ResNet中三个卷积激活层对人体特征进行卷积处理、激活函数处理和融合处理，获得候选人体热度图；

第四处理单元3042，用于通过第二特征拼接阶段的残差网络ResNet中三个卷积激活层对候选人体热度图和初始网络层Inception-A输出的人体特征进行卷积处理、激活函数处理和融合处理，获得人体特征的人体热度图；

可选的，构建模块301中的茎网络层Stem包括第一特征拼接层、第二特征拼接层和第三特征拼接层，第一特征拼接层包括一个卷积核大小为3*3的卷积层、三个卷积核大小为1*1的卷积层和一个最大池化核大小为2*2的最大池化层，第二特征拼接层包括六个卷积核大小为1*1的卷积层，第三特征拼接层包括一个步长为2的最大池化层和一个卷积核大小为1*1的卷积层。

可选的，特征提取模块303包括：

获取单元3031，用于获取待处理的人体图像信息，对待处理的人体图像信息进行尺寸大小转换处理并进行归一化处理，获得尺寸大小为368*368*3的人体特征图；

输入单元3032，用于通过深度学习网络模型中人体特征处理网络结构的网络输入层，将尺寸大小为368*368*3的人体特征图输入到茎网络层Stem中；

第一处理单元3033，用于通过第一特征拼接层、第二特征拼接层和第三特征拼接层对尺寸大小为368*368*3的人体特征图进行卷积处理、池化处理和特征拼接处理，获得尺寸大小为46*46*384的人体特征图；

第二处理单元3034，用于通过初始网络层Inception-A对尺寸大小为46*46*384的人体特征图进行卷积处理、均值池化处理和特征拼接处理，获得人体特征。

可选的，第一处理单元3033还可以具体用于：

通过第一特征拼接层对大小为368*368*3的人体特征图分别进行第一预设卷积处理和第一预设池化处理，获得第一卷积特征和第一池化特征，对第一卷积特征和第一池化特征进行特征拼接处理，获得尺寸大小为92*92*160的人体特征图；

通过第二特征拼接层对尺寸大小为92*92*160的人体特征图分别进行第二预设卷积处理和第三预设卷积处理，获得第二卷积特征和第三卷积特征，对第二卷积特征和第三卷积特征进行特征拼接处理，获得尺寸大小为92*92*192的人体特征图；

通过第三特征拼接层对尺寸大小为92*92*192的人体特征图分别进行第四预设卷积处理和第二预设池化处理，获得第四卷积特征和第二池化特征，对第四卷积特征和第二池化特征进行特征拼接处理，获得尺寸大小为46*46*384的人体特征图。

本发明实施例中，在减少采用深度相机所致的开发成本和硬件成本，以及减少运算所需的参数量，降低计算量，很大程度上解决了现有的人体姿势估计方式成本高和计算效率低的问题的基础上，通过包括第一特征拼接阶段和第二特征拼接阶段，以及每个特征拼接阶段均为三层卷积激活层的残差网络ResNet构建热度图网络结构，降低热度图网络结构的复杂度，减少热度图网络结构的参数量，减少计算量，通过获取候选人体热度图和人体特征的人体热度图的操作，既能不丢失人体特征的原始信息，保证人体特征在处理过程中的质量，又能充分利用人体特征融合后所携带的信息，进而提高了生成人体特征的人体热度图的准确性。

上面图3和图4从模块化功能实体的角度对本发明实施例中的人体姿势估计装置进行详细描述，下面从硬件处理的角度对本发明实施例中人体姿势估计设备进行详细描述。

图5是本发明实施例提供的一种人体姿势估计设备的结构示意图，该人体姿势估计设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对人体姿势估计设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在人体姿势估计设备500上执行存储介质530中的一系列指令操作。

人体姿势估计设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的人体姿势估计设备结构并不构成对人体姿势估计设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述人体姿势估计方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人体姿势估计方法，其特征在于，所述人体姿势估计方法包括：

对所述人体热度图进行人体姿态估计，获得人体的关键点。

2.根据权利要求1所述的人体姿势估计方法，其特征在于，所述茎网络层Stem包括第一特征拼接层、第二特征拼接层和第三特征拼接层，所述第一特征拼接层包括一个卷积核大小为3*3的卷积层、三个卷积核大小为1*1的卷积层和一个最大池化核大小为2*2的最大池化层，所述第二特征拼接层包括六个卷积核大小为1*1的卷积层，所述第三特征拼接层包括一个步长为2的最大池化层和一个卷积核大小为1*1的卷积层。

3.根据权利要求2所述的人体姿势估计方法，其特征在于，所述获取待处理的人体图像信息，通过所述人体姿态估计模型中的人体特征处理网络结构对所述待处理的人体图像信息进行特征提取，获得人体特征，包括：

4.根据权利要求3所述的人体姿势估计方法，其特征在于，所述通过所述第一特征拼接层、所述第二特征拼接层和所述第三特征拼接层对所述尺寸大小为368*368*3的人体特征图进行卷积处理、池化处理和特征拼接处理，获得尺寸大小为46*46*384的人体特征图，包括：

5.根据权利要求1所述的人体姿势估计方法，其特征在于，所述热度图网络结构中的所述第一特征拼接阶段的残差网络ResNet和所述第二特征拼接阶段的残差网络ResNet均包括三个卷积激活层，每个所述卷积激活层包括卷积核大小为1*1的卷积层和激活层。

6.根据权利要求5所述的人体姿势估计方法，其特征在于，所述通过所述人体姿态估计模型中的热度图网络结构，生成所述人体特征的人体热度图，包括：

7.一种人体姿势估计装置，其特征在于，所述人体姿势估计装置包括：

8.根据权利要求7所述的人体姿势估计装置，其特征在于，所述茎网络层Stem包括第一特征拼接层、第二特征拼接层和第三特征拼接层，所述第一特征拼接层包括一个卷积核大小为3*3的卷积层、三个卷积核大小为1*1的卷积层和一个最大池化核大小为2*2的最大池化层，所述第二特征拼接层包括六个卷积核大小为1*1的卷积层，所述第三特征拼接层包括一个步长为2的最大池化层和一个卷积核大小为1*1的卷积层。

9.一种人体姿势估计设备，其特征在于，所述人体姿势估计设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述人体姿势估计设备执行如权利要求1-6中任意一项所述的人体姿势估计方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述人体姿势估计方法。