CN114155560B

CN114155560B - 基于空间降维的高分辨率人体姿态估计模型的轻量化方法

Info

Publication number: CN114155560B
Application number: CN202210116943.5A
Authority: CN
Inventors: 沈复民; 周宜暄; 徐行; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-04-29
Anticipated expiration: 2042-02-08
Also published as: CN114155560A

Abstract

本发明公开了基于空间降维的高分辨率人体姿态估计模型的轻量化方法，涉及人体姿态估计领域，解决深度神经网络所需要的计算资源巨大的技术问题，本发明提出一种对1*1卷积核的等级替换方案。首先通过条纹状的上下文建模对输入的二维空间特征压缩后得到单维的空间特征，再分别对两个单维的空间特征进行编码学习到条纹状的注意力图，最终用学习到的两个单维空间的注意力图还原成一个双维空间的注意力图，并且用此注意力图帮助模型聚焦在关键点附近的区域；由于在自顶向下的姿态估计方法中两个一维的空间特征可以还原出一个二维的空间特征的特性，这种方法能够在保持高精度的同时将网络的计算复杂度从二次方级降低到一次方级。

Description

基于空间降维的高分辨率人体姿态估计模型的轻量化方法

技术领域

本发明涉及人体姿态估计领域，具体涉及基于空间降维的高分辨率人体姿态估计模型的轻量化方法。

背景技术

人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题，其目的是从单张RGB图像中，精确地识别出多个人体的位置以及每个人体实例的预先定义好的关节点（左/右眼睛、鼻子、左/右肩膀、左/右手肘等17类关节点）的位置。人体姿态任务从提出至今一直是学术界研究的热点任务，它承接了基础的目标检测的同时又作为行为识别、情感分析等众多高阶理解任务的基础，在工业界也广受关注。

研究技术尝试利用前沿的深度学习技术改善模型表现力，基于深度学习的人体姿态估计技术不断涌现。相较于手工设计数据的特征，深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归，因此具有更高的鲁棒性。随着深度卷积神经网络的应用和MSCOCO等大规模数据集的发布，人体姿态估计方法已经取得了较大的发展，它们大致可以分为自底向上（bottom-up）和自顶向下（top-down）的方法。

1）对于自顶向下的方法，首先对输入图片进行人体检测，定位所有人体实例，然后根据检测的结果将每个人体实例对应的区域裁剪出，再对每个人体实例进行单人的姿态估计，此类方法的设计核心主要集中在如何设计高效的单人姿态估计方法。

2）自底向上的方法则正好相反，首先通过一个关键点检测器定位出所有的人体关键点，然后以对每个关键点的编码为依据将这些关键点分配到不同的人体实例，从而组成图片中所有的人体姿态。这类方法的核心技术在于如何检测出所有的关键点以及如何正确地进行分组。

虽然相较于需要提前进行人体检测的自顶向下的方法来说，自底向上的方法具有更高的检测效率，但在精度上仍然有一定的差距，因此目前的研究热点仍然集中在自顶向下的方法上。

目前自顶向下的方法在精度方面已经完全达到了工业应用的要求，但是因为人体姿态估计这个任务本身就是一个像素级的密集预测任务，因此要求在通过神经网络提取特征时要保持高分辨率的空间维度，这就导致深度神经网络所需要的计算资源巨大，而这些大网络对计算资源的苛刻要求，使得其难以部署到日益普遍的移动端设备上。

发明内容

本发明的目的在于：克服现有技术的不足，提供基于空间降维的高分辨率人体姿态估计模型的轻量化方法，通过对将神经网络学习到的高分辨率二维空间特征压缩到两个一维的空间特征实现对人体姿态估计网络的轻量化设计。

本发明采用的技术方案如下：

基于空间降维的高分辨率人体姿态估计模型的轻量化方法，包括以下步骤：

步骤S1：选择训练数据集为MSCOCO key point数据集，并通过人体检测框截取图片得到输入图片；

步骤S2：构建基于空间降维的高分辨率轻量级基础网络模块M_x；

步骤S3：基于步骤S2中构建好的轻量级基础网络模块M_x，构建基于空间降维的高分辨率轻量级特征提取网络N_x，对步骤S1中截取到的输入图片通过卷积编码的方法生成高分辨率的视觉特征；

步骤S4：构建基于热力图的人体姿态估计器E_x，利用步骤S3中提取出的高分辨率的视觉特征，得到人体姿态的预测结果，并定义损失函数计算预测结果的误差；

步骤S5：采用Adam优化器，根据步骤S3得到的误差，对整个基于空间降维的轻量级高分辨率姿态估计网络进行训练；

步骤S6：实用训练完的基于空间降维的轻量级高分辨率姿态估计网络对人体图片进行姿态估计，以验证训练完的基于空间降维的轻量级高分辨率姿态估计网络的检测精度。

进一步地，所述步骤S2具体包括：

步骤S21：首先设定基础网络模块，输入的初始图像特征为F∈R^C×H×W，其中R^C×H×W表示维度为C×H×W的实数域，C表示初始图像特征F的通道数，H和W分别表示初始图像特征F的两个空间维度；

步骤S22：对步骤S21中定义好的初始图像特征F在通道数C二等分、得到等分图像特征一F₁∈R^1/2C×H×W和等分图像特征二F₂∈R^1/2C×H×W；

步骤S23：对二等分的到的等分图像特征二F₂，首先对H空间维度通过带权重的平均函数进行压缩得到压缩等分图像特征二F₂ ^W∈R^1/2C×1×W，对压缩等分图像特征二F₂ ^W通过1*1卷积核进行编码，通过Sigmoid激活函数后得到W维度的注意力图A₂ ^W∈R^1/2C×1×W；将学习到注意力图A₂ ^W与等分图像特征二F₂进行元素级的相乘、得到对维度强化后的第一代等分图像特征二F^' ₂。

步骤S24：对步骤S23中得到的第一代等分图像特征二F^' ₂通过卷积核为3*3的深度可分离卷积进行编码，得到更大感受野的第二代等分图像特征二F^'' ₂；

步骤S25：对步骤S24中得到的第二代等分图像特征二F^'' ₂对W空间维度通过带权重的平均函数进行压缩得到第二代压缩等分图像特征二F^'' ₂ ^H∈R^1/2C×H×1,对第二代压缩等分图像特征二F^'' ₂ ^H通过1*1卷积核进行编码，通过Sigmoid激活函数后得到H维度的注意力图A^'' ₂ ^H∈R^1/2C×H×1；将学习到注意力图A^'' ₂ ^H与第二代等分图像特征二F^'' ₂进行元素级的相乘得到对维度强化后的第三代等分图像特征二F^''' ₂；

步骤S26：将步骤S25中的强化后的第三代等分图像特征二F^''' ₂和步骤S22中二等分后的另一半等分图像特征一F₁在特征维度重新拼接在一起，得到输出特征F^*，将输出特征F^*带入到步骤S21中设定的基础网络模块，得到基于空间降维的高分辨率轻量级基础网络模块M_x。

进一步地，所述步骤S3具体包括：

步骤S31：首先通过卷积核和双线性插值操作对输入的图片I∈R^3×H×W；提取4倍下采样的基础特征F_base∈R^C×H×W；

步骤S32：构建多分辨率网络结构，最终构建出有四个分支的三角形层级网络结构，这四个分支的分辨率分别4倍下采样，8倍下采样，16倍下采样和32倍下采样；“整个网络结构的所有编码模块都是在步骤S2中构建的基于空间降维的高分辨率轻量级基础网络模块M_x；

步骤S33：构建对不同分辨率的特征融合模块，对小分辨率的特征进行上采样后通过元素级加法的方式加到大分辨率的特征上，对大分辨率的特征进行下采样后通过元素级加法的方式加到小分辨率的特征上；

步骤S34：在步骤S32中设计的多分辨率网络结构中，加入在步骤S33中构建的对不同分辨率的特征融合模块，对不同分辨率的特征进行信息交互，得到基于空间降维的高分辨率轻量级特征提取网络N_X；

步骤S35：通过步骤S34中设计好的基于空间降维的高分辨率轻量级特征提取网络N_X对S31中提取好的4倍下采样的基础特征进行编码，最终得到一组不同分辨率的视觉特征（F_4X、F_8X、F_16X、F_32X）。

进一步地，所述步骤S4具体包括：

步骤S41：通过卷积操作构建人体姿态估计器，对步骤S35中提取出的高分辨率特征F_4X进行编码，得到K张人体关节点的热力图，其中K表示数据集预先定义好的人体关节点类别数量；

步骤S42：对步骤S41中预测到的K张人体关节点的热力图与根据真值构造好的高斯分布真值热力图通过均方差损失函数计算损失。

进一步地，在MSCOCO key point数据集中，K=17。

进一步地，所述均方差损失函数为L _MSE，具体如下：

其中，K表示数据集预先定义好的人体关节点类别、

表示第k个关节点对应的真值热力图；

表示第k个关节点对应的预测热力图。

进一步地，所述步骤S5中，对Adam的超参设置为：学习率为2e-3，用于计算梯度以及梯度平方的运行平均值的系数β ₁=0.9，β ₂=0.999。

进一步地，所述步骤S6中，对在步骤S4中预测到的K张人体关节点的热力图分别得到对应的峰值所在的索引位置即为最终的关节点的预测结果。

本发明的有益效果如下：

1.本发明的轻量化方法保持了特征的高分辨率，由于在自顶向下的姿态估计方法中两个一维的空间特征可以还原出一个二维的空间特征的特性，这种方法能够在保持高精度的同时将网络的计算复杂度从二次方级降低到一次方级；

2.本发明使用空间降维的方式对自顶向下的人体姿态估计方法进行轻量化优化，有效地将计算量从二次方级降低到一次方级；

3.本发明所设计的基于空间降维的高分辨率人体姿态估计模型轻量化方法在轻量化的过程中保持了特征的高分辨率，基本对网络的精度不造成损失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明的流程图；

图2是本发明的热力图；

图3是本发明网络模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面结合图1至图3，对本发明作详细说明。

实施例1

本发明的工作原理/工作过程为：首先通过条纹状的上下文建模对输入的二维空间特征压缩后得到单维的空间特征，再分别对两个单维的空间特征进行编码学习到条纹状的注意力图，最终用学习到的两个单维空间的注意力图还原成一个双维空间的注意力图，并且用此注意力图帮助模型聚焦在关键点附近的区域。

实施例2

一种基于空间降维的高分辨率人体姿态估计模型轻量化方法实际上是提出了一种对1*1卷积核的等级替换方案。首先通过条纹状的上下文建模对输入的二维空间特征压缩后得到单维的空间特征，再分别对两个单维的空间特征进行编码学习到条纹状的注意力图，最终用学习到的两个单维空间的注意力图还原成一个双维空间的注意力图，并且用此注意力图帮助模型聚焦在关键点附近的区域。

本发明的工作原理/工作过程为：主要包括步骤S1：选择训练数据集为MSCOCO keypoint数据集，并通过人体检测框截取图片得到输入图片；

MSCOCO key poin数据集基于MSCOCO数据集构建。训练集包括57,000张图片，其中包含了150,000个人体实例，验证集包含了5,000张图片。MSCOCO key point中包含各种各样的自然场景，人体姿态多样性高，这是一个非常具有挑战性的数据集；

步骤S2：构建基于空间降维的高分辨率轻量级基础网络模块M_x；该步骤具体内容如下：

步骤S3：基于步骤S2中构建好的轻量级基础网络模块M_x，构建基于空间降维的高分辨率轻量级特征提取网络N_x，对步骤S1中截取到的输入图片通过卷积编码的方法生成高分辨率的视觉特征。具体内容如下：

步骤S4：构建基于热力图的人体姿态估计器E_X，利用步骤S3中提取出的高分辨率的视觉特征，得到人体姿态的预测结果，并定义损失函数计算预测结果的误差。具体内容如下：

步骤S41：通过卷积操作构建人体姿态估计器，对S35中提取出的高分辨率特征F_4X进行编码，得到K张人体关节点的热力图，其中K表示数据集预先定义好的人体关节点类别数量，就MSCOCO key point数据集来说，K=17；

步骤S42：对S41中预测到的K张人体关节点的热力图与根据真值构造好的高斯分布真值热力图通过均方差损失函数计算损失。

所述步骤S4中提到的均方差损失函数L _MSE，具体如下：

步骤S5：采用Adam优化器，根据S3计算出的误差，对整个基于空间降维的轻量级高分辨率姿态估计网络进行训练。具体的，我们对Adam的超参设置为：学习率为2e-3，用于计算梯度以及梯度平方的运行平均值的系数β ₁=0.9，β ₂=0.999。

步骤S6：实用训练完的基于空间降维的轻量级高分辨率姿态估计网络对人体图片进行姿态估计，以验证训练完的基于空间降维的轻量级高分辨率姿态估计网络的检测精度。具体地，我们对在步骤S4中预测到的K张人体关节点的热力图分别得到对应的峰值所在的索引位置即为最终的关节点的预测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，包括以下步骤：

步骤S1：选择训练数据集为MSCOCOkeypoint数据集，并通过人体检测框截取图片得到输入图片；

步骤S6：实用训练完的基于空间降维的轻量级高分辨率姿态估计网络对人体图片进行姿态估计，以验证训练完的基于空间降维的轻量级高分辨率姿态估计网络的检测精度；

所述步骤S2具体包括：

步骤S22：对步骤S21中定义好的初始图像特征F在通道数C二等分，得到等分图像特征一F₁∈R^1/2C×H×W和等分图像特征二F₂∈R^1/2C×H×W；

步骤S23：对二等分得到的等分图像特征二F₂，首先对H空间维度通过带权重的平均函数进行压缩得到压缩等分图像特征F₂ ^W∈R^1/2C×1×W，对压缩等分图像特征二F₂ ^W通过1*1卷积核进行编码，通过Sigmoid激活函数后得到W维度的注意力图A₂ ^W∈R^1/2C×1×W；将学习到注意力图A₂ ^W与等分图像特征二F₂进行元素级的相乘、得到对维度强化后的第一代等分图像特征二F^' ₂；

2.根据权利要求1所述的基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，所述步骤S3具体包括：

步骤S32：构建多分辨率网络结构，最终构建出有四个分支的三角形层级网络结构，这四个分支的分辨率分别4倍下采样，8倍下采样，16倍下采样和32倍下采样；整个网络结构的所有编码模块都是在步骤S2中构建的基于空间降维的高分辨率轻量级基础网络模块M_x；

3.根据权利要求2所述的基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，所述步骤S4具体包括：

4.根据权利要求3所述的基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，在MSCOCOkeypoint数据集中，K=17。

5.根据权利要求3所述的基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，所述均方差损失函数为L _MSE，具体如下：

其中，K表示数据集预先定义好的人体关节点类别、

表示第k个关节点对应的真值热力图；

表示第k个关节点对应的预测热力图。

6.根据权利要求1所述的基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，所述步骤S5中，对Adam的超参设置为：学习率为2e-3，用于计算梯度以及梯度平方的运行平均值的系数β ₁=0.9，β ₂=0.999。

7.根据权利要求1所述的基于空间降维的高分辨率人体姿态估计模型的轻量化方法，其特征在于，所述步骤S6中，对在步骤S4中预测到的K张人体关节点的热力图分别得到对应的峰值所在的索引位置即为最终的关节点的预测结果。