CN113095251B

CN113095251B - 一种人体姿态估计方法及系统

Info

Publication number: CN113095251B
Application number: CN202110421844.3A
Authority: CN
Inventors: 王好谦; 蔡元昊
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-05-27
Anticipated expiration: 2041-04-20
Also published as: CN113095251A

Abstract

本发明提供一种人体姿态估计方法和系统，其方法包括：S1.对图像进行预处理，并对卷积神经网络进行预训练获得教师网络；S2.将预处理后的图像分别输入至学生网络和教师网络，学生网络为骨干采用动态路径空间的卷积神经网络；S3.教师网络输出多个不同尺度的第一特征图，再将第一特征图卷积生成第一热力图，同时第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中；S4.学生网络输出多个不同尺度的第二特征图，再将第二特征图卷积生成第二热力图，然后第一热力图的概率分布迁移至第二热力图中生成最终热力图；S5.将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标。该方法为轻量级，能极大提高计算效率。

Description

一种人体姿态估计方法及系统

技术领域

本发明涉及计算机视觉(Computer Vision)中检测识别领域，尤其涉及一种人体姿态估计方法及系统。

背景技术

人体姿态估计的主要目标是将单张RGB图像中的所有人的骨骼关键点都定位出来并连接成一个个的人体实例。人体姿态估计是计算机视觉中的一个十分重要且基础的任务。传统算法将人体姿态估计任务视为一个树状或者网状的图论模型，基于手工设计的特征去求解。这种方法的表征能力有限，无法取得较好的效果。随着深度学习的不断突破，人体姿态估计领域也取得了飞速的进展。

当前的人体姿态估计主流算法主要分为两类：自顶向下(Top-down)和自底向上(Bottom-up)。自顶向下算法首先采用一个人体检测器输出矩形边界框(bounding box)来标定出行人位置。通常而言矩形边界框是一个四元组参量(x,y,w,h)，x表示矩形边界框的左上角点的横坐标，y表示矩形边界框的左上角点的纵坐标，w表示矩形边界框的宽度，h表示矩形边界框的高度，用这样一个四元组便表示出了矩形边界框的位置和大小信息。然后将包含行人的矩形框区域扣出，对每个人体实例进行单人姿态估计。单人姿态估计的流程就是对将包含单人的图片输入到设计好的卷积神经网络当中，假定人有K个骨骼关键点，则神经网络会输出K通道的热力图，每个通道表示图片中任意位置是该种类骨骼关键点的概率大小，然后对每个通道的热力图进行解码(一般是取峰值往次峰值偏移)便可得到每个骨骼关键点的二维坐标。自底向上算法首先检测出整张图片中的所有不含实例标注的人体骨骼关键点，具体而言是将包含多个人的整张图片输入到卷积神经网络当中，然后输出所有骨骼关键点的热力图，一样也是K个通道，然后对每个通道的热力图进行解码得到每一种类的骨骼关键点的二维坐标信息，接着将属于同一个人的关键点连接得到一个个的人体实例。

近年来，人们对于人体姿态估计的研究主要集中在深度卷积神经网络的设计上，通常会调用更深更宽更大的神经网络，这类神经网络虽然可以取得较好的检测效果，但是往往参数量(Parameters)大、计算复杂度(FLOPS，floating-point operations persecond)高，使得算法效率低下。而移动端设备要求速度快，延迟低，模型容量小。因此，这些算法很难部署到移动端，很难投入到实际应用当中。因此，越来越多的研究兴趣转移到模型轻量化。

现有的模型轻量化的算法有：模型剪枝，低位宽量化，采用深度可分离卷积。这三种方法的通病是盲目压缩模型的参数量导致模型的表征能力较低。同时在训练过程中缺少更多的信息来指导模型的整体优化。

知识蒸馏(Knowledge Distillation)是实现模型轻量化的一项重要技术。知识蒸馏算法中有两个卷积神经网络——学生网络(Student)和教师网络(Teacher)，教师网络通常会使用一个尽心设计过的参数量和计算量较大的网络，通常教师网络会事先训练好，并且将网络的参数固定住。而学生网络通常而言参数量和计算量都较小，并且在训练学生网络时，将训练图片分别输入到学生网络和教师网络当中得到两个输出(Predictions)，把教师网络的输出作为软标签(Soft Labels)，真实标注(True Label)作为硬标签(HardLabels)。软标签与硬标签一同与学生网络进行损失计算。如此一来，学生网络不仅可以从真实标注中学到拟合真值所需要的隐含信息，还能从教师网络的输出中学到蒸馏出来的知识(Distilled Knowledge)，从而模仿教师网络。但现有的知识蒸馏方法主要集中在图像分类，是一种基于向量的点对点的对齐。

动态路径规划(Dynamic Routing)是2020年在CVPR论文《Learning DynamicRouting for Semantic Segmentation》中新提出的一项技术。之前的方法采用的是静态的深度卷积神经网络，在训练阶段，卷积核中的参数经过不断优化后便固定不变，测试阶段每张图片经过的卷积核，通过的路径，经过的计算过程都是预先设定好的。而动态路径规划打破了这一常识，首先设定一个总体的搜索空间，定义好每个节点及其对应的门函数，然后在训练过程中将每个节点及其门函数的参数进行优化。在测试的过程中，图片输入到动态卷积神经网络之后，每一个节点通过其门函数来控制图片是否需要经过该节点的计算。在训练过程中预先设定好计算复杂度的限制，并且将这样的限制体现在损失函数当中，如此一来，整个训练过程就转化为一个优化问题，而测试阶段就变成了一个路径寻优问题。动态路径规划算法会在一定计算复杂度内对包含不同尺度物体的图片匹配一条最优计算路径，从而使得检测效果达到最优。但现有的动态路径规划的卷积神经网络的路径搜索的引擎目标主要是网络的参数量，过于单一，仅仅主要关注网络的轻量化。

发明内容

为解决上述问题，本发明提出一种人体姿态估计方法及系统，该轻量级方法能极大提高计算效率，具备模型容量小、计算速度快、延时低等优势，适用于部署在移动端。

本发明提出一种人体姿态估计方法，包括：S1.对图像进行预处理，并对卷积神经网络进行预训练获得教师网络；S2.将预处理后的图像分别输入至学生网络和所述教师网络，所述学生网络为骨干采用动态路径空间的卷积神经网络；S3.所述教师网络的骨干部分输出多个不同尺度的第一特征图，再由业务层部分将所述第一特征图卷积生成第一热力图，同时所述第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中；S4.所述学生网络的骨干部分输出多个不同尺度的第二特征图，再由业务层部分将所述第二特征图卷积生成第二热力图，然后所述第一热力图的概率分布迁移至所述第二热力图中生成最终热力图；S5.将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标。

优选地，所述步骤S1中对图像进行预处理包括：利用检测器将图像中的人体一一分别检测出来，并进行数据增强；选取残差网络ResNet152作为卷积神经网络的骨干来进行预训练获得教师网络。

优选地，所述第一特征图和所述第二特征图的不同尺度包括：预处理后图像的1/4，1/8，1/16，1/32。

优选地，所述动态路径空间包括多个整齐排列的路径单元，每个路径单元包括一个操作节点和一个门函数；每个路径单元中，三个不同尺度的特征图输入至操作节点，并分别通过恒等连接、双三次上采样和降采样之后按位相加得到输入该路径单元的特征值，所述特征值输入到该路径单元之后分为三条支路，第一条支路为依次通过两个深度可分离卷积、一个批归一化和一个ReLU激活函数，第二条支路为恒等连接，第三条支路为先通过两层深度可分离卷积和全局均值池化将特征值的维度转化为B×3×1×1，再通过门函数。

进一步优选，所述动态路径空间分为L个阶段，第i个阶段竖着排列max{i+1，4}个路径单元；且所述动态路径空间分为四层，从上往下输出图像的尺度依次为预处理后图像的1/4，1/8，1/16，1/32，第二、三层的路径单元有三个尺度的输出，第一、四层的单元只有两个尺度的输出，第L阶段的路径单元只有一个尺度的输出。

进一步优选，所述门函数表达如下：

其中v为任意实数，tanh为双正切函数，t为可以调整的超参数。

优选地，所述动态路径空间中包含计算复杂度的预算限定，且将所述计算复杂度的预算限定反映在损失函数上并进行优化。

进一步优选，所述动态路径空间的理论计算复杂度为：

其中，

表示第l阶段，第s层的路径单元的计算复杂度。

设计算复杂度的监督目标为：

其中C表示路径空间实际的计算复杂度，μ∈[0，1]，表示衰减因子。

本发明还提供一种人体姿态估计系统，包括：预处理模块：对图像进行预处理，并对卷积神经网络进行预训练获得教师网络；教师网络：用于输入预处理后的图像，骨干部分输出多个不同尺度的第一特征图，再由业务层部分将所述第一特征图卷积生成第一热力图；学生网络：包括采用动态路径空间的骨干网络，用于输入预处理后的图像，骨干部分输出多个不同尺度的第二特征图，再由业务层部分将所述第二特征图卷积生成第二热力图；金字塔知识蒸馏模块：用于将所述教师网络的知识迁移至所述学生网络，包括金字塔特征蒸馏模块和金字塔热力图蒸馏模块；所述金字塔特征蒸馏模块用于对所述教师网络输出的多个不同尺度的第一特征图迁移至所述学生网络的动态路径空间的最后一个阶段的节点中；所述金字塔热力图蒸馏模块用于将所述教师网络输出的第一热力图的概率分布迁移至所述学生网络输出的第二热力图中；骨骼关键点热力图解码模块：用于对所述第一热力图的概率分布迁移至所述第二热力图中生成的最终热力图进行解码获得人体骨骼关键的坐标。

本发明的有益效果：

1)首先采用知识蒸馏的方式来实现人体姿态估计的轻量化，这项技术不必对模型进行剪枝和低位宽量化，而是在有限的模型容量中尽可能多地学到丰富有效的表征，能极大地提高卷积神经网络的效率。同时，知识蒸馏是一种隐式的表征迁移学习，通过将教师网络中提炼的知识转移到学生网络当中来提升学生的性能。且本申请中的知识蒸馏基于三维矩阵，关注到对生成高质量热力图的起到关键作用的金字塔特征的对齐。

2)人体姿态估计领域当前的许多算法大都采用一些精心设计过的很深很宽空间存储量大计算量高的卷积神经网络，这些模型一味过度地追求人体关键点检测的精度而忽视了计算效率。相较于当前人体姿态估计的主流算法，本发明提供的解决方案具备模型容量小、计算速度快、延时低等优势，适用于部署在移动端。

3)本发明加大了对金字塔特征图的利用率和挖掘力度，不仅仅基于训练任务本身去优化，还基于教师模型的金字塔特征图去进行对齐，其表征能力更强。独创的金字塔知识蒸馏使得学生网络能够全方位地学到教师网络多个尺度输出的关键点热力图，同时还能捕获教师网络中更加深层的隐式特征知识，从而更好地模拟教师，提升性能。

4)本发明采用了动态路径规划技术，能够在给定的预算限定(计算复杂度和空间存储量)对计算路径和计算单元进行优选，将人体姿态估计问题转化为一个凸优化问题去求解。相较于人手工设计的静态神经网络，动态路径规划技术能够根据输入图片的不同来调整计算路径，具备更优越的灵活性和泛化性，在解决多尺度不平衡问题上有着天然的优势。同时，动态路径规划本质上来看也是一种实现Auto Machine Learning(自动机器学习)的手段，减少了人工参与，更加智能化。本发明的动态路径规划是基于人体骨骼关键点更精确定位，金字塔特征更具表现力和网络骨干轻量化三个目标进行驱动。另一方面，操作节点与门函数都经过了改良，参数量和计算量都经过降低。

5)本发明在关键点热力图解码上采用了一种Top-k加权的形式。由于人体骨骼关键点在图像中的位置大概率不是落在一个整点上边，因此与该关键点临近的四个整点在热力图中的概率值都相对较大，取关键点的坐标为这四个点的加权和能够有效地降低在图片数据处理过程中引入的量化误差，从而提升检测精度。

附图说明

图1为本发明实施例中人体姿态估计方法的流程图。

图2为本发明实施例中预处理模块图。

图3为本发明实施例中金字塔知识蒸馏模块图。

图4为本发明实施例中学生网络中的动态路径空间模块图。

图5为本发明实施例中骨骼关键点热力图解码模块图。

图6为本发明实施例中的实验效果图。

具体实施方式

下面结合具体实施方式并对照附图对本发明作进一步详细说明，应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本实施例提供一种人体姿态估计系统，基于深度卷积神经网络和迁移学习理论研究降低人体骨骼关键点检测任务的计算复杂度的问题，如图1所示，分为如下板块：

101：预处理模块

102：教师网络

103：学生网络，包括采用动态路径空间(动态路径规划)的骨干网络

104：金字塔知识蒸馏模块

105：骨骼关键点热力图解码模块

101预处理模块

预处理模块由两部分组成，如图2所示，包括201和202。

201：用一个行人检测器输出一系列的矩形边界框将图片中的人给检测出来，然后将矩形框扣出作为训练数据。将训练数据调整为统一大小(256×256或256×192或384×288)并进行随机裁剪、旋转、对称、遮挡、截断等数据增强。

202：选取残差网络ResNet-152作为卷积神经网络的骨干，采用《Simple Baselinefor Human Pose Estimation》中的模型作为教师网络并将其训练好。

102教师网络

如图1所示，预处理后的图像输入至教师网络，骨干部分输出多个不同尺度的第一特征图1021，再由业务层部分将第一特征图卷积生成第一热力图1022。

104金字塔知识蒸馏模块

如图3所示，金字塔知识蒸馏模块包含金字塔特征蒸馏模块和金字塔热力图蒸馏模块。

301：金字塔特征蒸馏模块。在学生网络和教师网络的骨干部分当中，特征图被连续地上采样三次得到四个不同尺度的特征图，计算学生和教师这一部分特征图的均方损失，记为L₁，并计入总的损失函数当中。

302：金字塔热力图蒸馏模块。在学生和教师网络四个不同尺度的业务层特征图之后都分别跟随着一个1×1的卷积层，然后将特征图转化为K个通道的骨骼关键点热力图。对教师和学生输出的四个尺度的骨骼关键点热力图分别计算均方误差求和，得到这一部分的损失记为L₂，并最终计入总的损失函数当中。

103学生网络

如图1所示，学生网络包括采用动态路径空间的骨干网络402，用于输入预处理后的图像，骨干部分输出多个不同尺度的第二特征图1031，再由业务层部分将所述第二特征图卷积生成第二热力图1032。

学生网络中的骨干动态路径空间

输入图片进入动态路径空间之前首先经过卷积神经网络头部的2～3层卷积层降采样为原图大小的1/4。

学生网络的主干部分采用动态路径规划算法，如图4所示，动态路径空间(RoutingSpace)402由多个整齐排列的路径单元(Routing Cell)401组成。

401：路径单元。路径单元是动态路径空间中的基本组件，每一个路径单元包括一个操作节点和一个门函数，门函数与操作节点呈并联关系，共同组成了路径空间中的一个单元。通过寻找各单元之间的连接关系来实现动态路径规划。

每一个路径单元都接受多个尺度特征图的输入，假设当前操作节点的空间分辨率为s，则在输入端，s，s/2与2s的特征图分别通过恒等连接、双三次上采样和降采样之后按位相加得到输入该动态路径单元的特征值。该特征值输入到路径单元之后有三条支路，一条路依次通过两个深度可分离卷积(SepConv)，一个批归一化和一个ReLU激活函数，另一条路是一个恒等连接，还有一条路首先通过两层深度可分离卷积和全局均值池化将特征值的维度转化为B×3×1×1，通过一个门函数(Gate)。

每一个操作节点都接收三个不同尺度的特征图作为输入，并且输出的特征图会依次缩放到三个尺度的大小并输入到后续的操作节点。为了实现动态路劲规划，需要在每个操作节点后部署一个门函数来控制输出路径的权重。本发明对双曲正切函数(Tanh(x))进行改造，得到一个可调参的门函数。门函数的表达式如下：

402：动态路径空间实质是动态路径规划的搜索空间。如图4中402，该空间由一个个的路径单元及其相互间的连接的概率值共同实现动态规划功能。

路径空间一共分为L阶段，第i阶段竖着排列max{i+1，4}个单元。

路径空间可分为四层，从上往下依次为原图大小的1/4，1/8，1/16，1/32。

第二、三层的路径单元会有3个尺度的输出，第一、四层的单元只有两个尺度的输出。第L阶段的单元只有一个尺度的输出。

在实际应用场合中计算资源有限，因此，本发明对路径规划作了计算复杂度的预算限定。同时将计算复杂度的预算限定反映在损失函数上并进行优化。

整个空间的长度为L，层数为4(即4个空间分辨率尺度)。则整个动态路径空间的理论计算复杂度为：

其中，

表示第l阶段，第s层的路径单元的计算复杂度。如此一来，设计计算复杂度的监督目标如下：

105骨骼关键点热力图解码模块：

在得到业务层的四个尺度的特征图之后，分别将其通过一个1×1卷积层便得到该尺度下的关键点热力图，热力图与真值标签之间计算均方误差损失，记为L₄。如图5所示，为了降低量化误差，取这四个尺度热力图中空间分辨率最大者用于解码骨骼关键点的二维坐标。在解码的过程中，我们分别对K个通道的热力图采用Top-4加权，即假设第i个通道的热力图中概率降序排列的前四个二维坐标分别为(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，(x₄，y₄)。那么最终解码得到的第i个骨骼关键点的二维坐标为：

(xⁱ，yⁱ)＝λ₁(x₁，y₁)+λ₂(x₂，y₂)+λ₃(x₃，y₃)+λ₄(x₄，y₄) 公式(4)

最后总的损失函数为：

loss＝α₁L₁+α₂L₂+α₃L₃+α₄L₄ 公式(5)

其中，α₁，α₂，α₃，α₄都是超参数，均可调整。完成模型训练之后，对学生网络作测试，初步的效果图如图6所示，且其计算量均在0.5GFLOPS左右。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims

1.一种人体姿态估计方法，其特征在于，包括：

S1.对图像进行预处理，并对卷积神经网络进行预训练获得教师网络；

S2.将预处理后的图像分别输入至学生网络和所述教师网络，所述学生网络为骨干采用动态路径空间的卷积神经网络；

S3.所述教师网络的骨干部分输出多个不同尺度的第一特征图，再由业务层部分将所述第一特征图卷积生成第一热力图，同时所述第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中；

S4.所述学生网络的骨干部分输出多个不同尺度的第二特征图，再由业务层部分将所述第二特征图卷积生成第二热力图，然后所述第一热力图的概率分布迁移至所述第二热力图中生成最终热力图；

S5. 将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标；

其中，所述动态路径空间包括多个整齐排列的路径单元，每个路径单元包括一个操作节点和一个门函数；每个路径单元中，三个不同尺度的特征图输入至操作节点，并分别通过恒等连接、双三次上采样和降采样之后按位相加得到输入该路径单元的特征值，所述特征值输入到该路径单元之后分为三条支路，第一条支路为依次通过两个深度可分离卷积、一个批归一化和一个ReLU激活函数，第二条支路为恒等连接，第三条支路为先通过两层深度可分离卷积和全局均值池化将特征值的维度转化为B×3×1×1，再通过门函数。

2.如权利要求1所述的方法，其特征在于，所述步骤S1中对图像进行预处理包括：利用检测器将图像中的人体一一分别检测出来，并进行数据增强；选取残差网络ResNet152作为卷积神经网络的骨干来进行预训练获得教师网络。

3.如权利要求1所述的方法，其特征在于，所述第一特征图和所述第二特征图的不同尺度包括：预处理后图像为原图大小的1/4，1/8，1/16，1/32。

4.如权利要求1所述的方法，其特征在于，所述动态路径空间分为L个阶段，第i个阶段竖着排列

个路径单元；且所述动态路径空间分为四层，从上往下输出图像的尺度依次为预处理后图像的1/4，1/8，1/16，1/32，第二、三层的路径单元有三个尺度的输出，第一、四层的单元只有两个尺度的输出，第L阶段的路径单元只有一个尺度的输出。

5.如权利要求1所述的方法，其特征在于，所述门函数表达如下：

6.如权利要求1所述的方法，其特征在于，所述动态路径空间中包含计算复杂度的预算限定，且将所述计算复杂度的预算限定反映在损失函数上并进行优化。

7.如权利要求6所述的方法，其特征在于，所述动态路径空间的理论计算复杂度为：

其中，

表示第l阶段，第s层的路径单元的计算复杂度，L为整个空间的长度；

设置计算复杂度的监督目标为：

其中

表示路径空间实际的计算复杂度，

，表示衰减因子。

8.如权利要求7所述的方法，其特征在于，对多个不同尺度的第一特征图和第二特征图分别计算均方损失

，对多个不同尺度的第一热力图和第二热力图的分别计算均方误差求和

，

为计算复杂度的监督目标，

为最终热力图与真值标签之间计算的均方误差损失，总损失函数为：

其中，

，

，

，

为超参数，均可调整。

9.一种人体姿态估计系统，其特征在于，包括：

预处理模块：对图像进行预处理，并对卷积神经网络进行预训练获得教师网络；

教师网络：用于输入预处理后的图像，骨干部分输出多个不同尺度的第一特征图，再由业务层部分将所述第一特征图卷积生成第一热力图；

学生网络：包括采用动态路径空间的骨干网络，用于输入预处理后的图像，骨干部分输出多个不同尺度的第二特征图，再由业务层部分将所述第二特征图卷积生成第二热力图；

金字塔知识蒸馏模块：用于将所述教师网络的知识迁移至所述学生网络，包括金字塔特征蒸馏模块和金字塔热力图蒸馏模块；所述金字塔特征蒸馏模块用于对所述教师网络输出的多个不同尺度的第一特征图迁移至所述学生网络的动态路径空间的最后一个阶段的节点中；所述金字塔热力图蒸馏模块用于将所述教师网络输出的第一热力图的概率分布迁移至所述学生网络输出的第二热力图中；

骨骼关键点热力图解码模块：用于对所述第一热力图的概率分布迁移至所述第二热力图中生成的最终热力图进行解码获得人体骨骼关键的坐标；