CN115273129A

CN115273129A - 基于神经架构搜索的轻量级人体姿态估计方法及装置

Info

Publication number: CN115273129A
Application number: CN202210164323.9A
Authority: CN
Inventors: 刘振锋; 刘正中; 梁延研
Original assignee: Zhuhai Digital Power Technology Co ltd
Current assignee: Zhuhai Digital Power Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-11-01
Anticipated expiration: 2042-02-22
Also published as: CN115273129B

Abstract

本发明是关于一种基于神经架构搜索的轻量级人体姿态估计方法及装置，其中，方法包括：构建多通道和多分辨率的网络模型的搜索空间；利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。

Description

基于神经架构搜索的轻量级人体姿态估计方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于神经架构搜索的轻量级人体姿态估计方法及装置。

背景技术

人体姿态估计技术可应用于运动教学与分析、视频安防与监控、人机交互、肢体语言理解等领域，它是一项有助于理解人体姿态语义和基于此语义信息进行拓展应用的基础视觉检测技术。现有的人体姿态估计主要部署在 GPU和CPU上，而在特定的移动设备上并没有对计算量、内存和延迟进行优化。这对人体姿态估计技术在移动设备的部署带来较大的困难。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于神经架构搜索的轻量级人体姿态估计方法及装置。

根据本发明实施例的第一方面，提供一种基于神经架构搜索的轻量级人体姿态估计方法，所述方法包括：

构建多通道和多分辨率的网络模型的搜索空间；

利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；

利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；

利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。

在一个实施例中，优选地，所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构；

通过所述茎部结构对输入的原始图像进行升维处理和下采样处理，以增加图像的通道数量和减小图像的分辨率，得到多通道和多分辨率的特征图像；

通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理；

通过所述平行模块传输同一分辨率之间的特征图像；

通过所述头部结构选取目标特征图像，并进行人体关键点的预测。

在一个实施例中，优选地，所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块，其中，所述卷积模块包括卷积层、BN层和 Relu激活层；

所述特征融合模块和所述平行模块中包括可搜索单元，所述可搜索单元包括1×1的第一卷积模块、三个并列的纵深卷积模块和1×1的第一卷积模块，三个并列的纵深卷积模块分别为：3×3纵深卷积模块、5×5纵深卷积模块、7×7纵深卷积模块；

所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率，以通道作为维度方向进行拼接操作，并通过一个1×1 卷积模块将通道数压缩为N个，代表需要预测的N个人体姿态关键点。

在一个实施例中，优选地，所述模型搜索过程中采用的搜索策略包括：

其中，

表示搜索过程的总损失函数，

表示预测的人体关键点与真实人体关键点的均方误差，γ表示BN层的缩放因子，与可搜索单元中的纵深卷积模块的通道一一对应，用于衡量每个通道的重要性，l表示可搜索单元中纵深卷积模块的每一个通道的延迟，λ₁、λ₂表示正则化权重，λ₁＝10^-6，λ₂＝ 10^-4，β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性；

经过若干轮迭代后，分别将γ和β与预设阈值进行比较，以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。

在一个实施例中，优选地，所述方法还包括：

根据所述目标移动终端的内存大小和计算速度，确定所述预设阈值。

根据本发明实施例的第二方面，提供一种基于神经架构搜索的轻量级人体姿态估计装置，所述装置包括：

构建模块，用于构建多通道和多分辨率的网络模型的搜索空间；

搜索模块，用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；

剪枝模块，用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；

识别模块，用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。

所述茎部结构，用于对输入的原始图像进行升维处理和下采样处理，以增加图像的通道数量和减小图像的分辨率，得到多通道和多分辨率的特征图像；

所述特征融合模块，用于将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理；

所述平行模块，用于传输同一分辨率之间的特征图像；

所述头部结构，用于选取目标特征图像，并进行人体关键点的预测。

其中，

表示搜索过程的总损失函数，

在一个实施例中，优选地，所述装置还包括：

确定模块，用于根据所述目标移动终端的内存大小和计算速度，确定所述预设阈值。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，通过对多通道和多分辨率的网络模型的搜索空间进行不断搜索，剪掉不重要的通道和拓扑连接，从而减小了模型的内存、计算量和延迟，以便更好地在移动设备上进行部署。最终，本方法得到一个收敛的轻量级网络，并且不需要重新训练，便可高效地实现对人体姿态的估计。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计方法的流程图。

图2是根据一示例性实施例示出的网络模型的搜索空间的具体结构示意图。

图3是根据一示例性实施例示出的可搜索单元的示意图。

图4是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计方法的总体流程图。

图5是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计方法的流程图，如图1所示，所述方法包括：

步骤S101，构建多通道和多分辨率的网络模型的搜索空间；

步骤S102，利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；

步骤S103，利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；

步骤S104，利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。

在该实施例中，通过对多通道和多分辨率的网络模型的搜索空间进行不断搜索，剪掉不重要的通道和拓扑连接，从而减小了模型的内存、计算量和延迟，以便更好地在移动设备上进行部署。最终，本方法得到一个收敛的轻量级网络，并且不需要重新训练，便可高效地实现对人体姿态的估计。

如图2所示，在一个实施例中，优选地，所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构；

通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理；以图一右上部分为例，每个输出的特征图需接收四个不同尺度的特征图。分辨率较小的特征图需进行上采样插值操作，而分辨率较大的则需进行下采样操作，最后它们以element-wise的方式相加。

通过所述平行模块传输同一分辨率之间的特征图像；

所述特征融合模块和所述平行模块中包括可搜索单元，可搜索单元如图 3所示，通道为c的输入特征图经过一个1×1卷积模块，将通道数扩张为3rc，其中r为逆残差模块(MBConv)的扩张比例。接着分成三个通道数为rc的特征图，分别通过3×3depth-wise卷积，5×5depth-wise卷积和7×7depth-wise 卷积(depth-wise卷积：以通道为维度方向进行卷积)，最后再通过一个1×1 卷积，输出通道为c'的特征图；

其中，

表示搜索过程的总损失函数，

在搜索过程中，因为BN层的缩放因子γ与可搜索单元中的depth-wise卷积的通道一一对应，所以利用此缩放因子来衡量每个通道的重要性。为了加快缩放因子的收敛，使用L1正则化技术，并将此正则化项加入到损失函数

当中，其中

为预测的人体关键点与真实人体关键点的均方误差，如公式1中第二项所示，正则化权重λ₁＝10^-6。l为可搜索单元中depth-wise卷积的每一个通道的延迟(latency)，其预先衡量好，以表的形式储存。经过若干轮迭代后，γ<T的缩放因子会被除掉，与之对应的通道也会被去掉。因此，可以从通道层次上搜索到重要性高的通道。

除了通道层次上的搜索，还在模型层次上进行优化搜索。在特征融合模块引入新的一组参数β＝1，其用来衡量特征融合模块中特征图之间的连接的重要性。类似地，对β进行L1正则化，如公式1中的第三项所示正则化权重λ₂＝10^-4。经过若干轮迭代后，β<T的连接会被去掉。因此可以从模型层次上搜索到重要性高的拓扑连接。

在一个实施例中，优选地，所述方法还包括：

阈值T的选取取决于目标移动设备的内存大小、计算速度等因素，使用者可根据实际情况选择不同的阈值。

下面以一个具体实施例，详细说明本发明的基于神经架构搜索的轻量级人体姿态估计方法的总体流程。

如图4所示，利用人体检测框对输入的原始图像进行人体检测，将框出来的人体图片输送至模型，进行下一步生成关键点操作。

生成关键点：对输入的3通道图像的尺寸进行重塑，转换为(3，256，192) 通道图像，首先经过茎部结构，生成一个尺度为(256，64，48)的特征图，然后通过若干个特征融合模块和平行模块生成了(32，64，48)、(64，32， 24)、(128，16，12)、(256，8，6)4种不同尺度的特征图，分别对应着图一中分辨率为1/4、1/8、1/16、1/32的特征图，最后经过头部结构的特征融合和通道压缩操作，输出一个尺度为(N，64，48)的人体关键点热度图。其中三元组中第一项N为图像通道数，第二项64为图像宽度，第三项48为图像高度。

在模型搜索过程，会不断循环生成关键点的过程。这一过程得到的梯度会用来更新网络模型的参数和特征融合模块中的β。设定每隔30轮对小于阈值T＝0.001的通道和特征融合层的连接进行剪枝操作，然后对得到的模型进行微调。使用改这种渐进式缩减搜索的策略，在搜索结束后不需要对模型进行重新训练，进一步减少了计算损耗。

最终在测试阶段，本方法可将模型部署于移动设备。以单张图片为例，参照生成关键点的流程，移动设备可利用预先部署好的人体检测框捕捉到人体目标，一张包含M人的图像，经过模型处理后，会输出一个带有M×N个人体关键点的图像。而本方法中的低延迟轻量级网络可实现视频检测，后续便可基于这些关键点信息进行下一步的分析应用，如运动分析、行人跌倒检测等。

总的来说，本方法通过对超网的不断搜索，剪掉不重要的通道与连接，从而减小了模型的内存、计算量和延迟，以便更好地在移动设备上进行部署。最终，本方法得到一个收敛的轻量级网络，并且不需要重新训练，便可高效地实现对人体姿态的估计。

如图5所示，根据本发明实施例的第二方面，提供一种基于神经架构搜索的轻量级人体姿态估计装置，所述装置包括：

构建模块51，用于构建多通道和多分辨率的网络模型的搜索空间；

搜索模块52，用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；

剪枝模块53，用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；

识别模块54，用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。

所述平行模块，用于传输同一分辨率之间的特征图像；

其中，

表示搜索过程的总损失函数，

在一个实施例中，优选地，所述装置还包括：

确定模块61，用于根据所述目标移动终端的内存大小和计算速度，确定所述预设阈值。

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于神经架构搜索的轻量级人体姿态估计方法，其特征在于，所述方法包括：

构建多通道和多分辨率的网络模型的搜索空间；

2.根据权利要求1所述的方法，其特征在于，所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构；

通过所述平行模块传输同一分辨率之间的特征图像；

3.根据权利要求2所述的方法，其特征在于，所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块，其中，所述卷积模块包括卷积层、BN层和Relu激活层；

所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率，以通道作为维度方向进行拼接操作，并通过一个1×1卷积模块将通道数压缩为N个，代表需要预测的N个人体姿态关键点。

4.根据权利要求3所述的方法，其特征在于，所述模型搜索过程中采用的搜索策略包括：

其中，

表示搜索过程的总损失函数，

表示预测的人体关键点与真实人体关键点的均方误差，γ表示BN层的缩放因子，与可搜索单元中的纵深卷积模块的通道一一对应，用于衡量每个通道的重要性，l表示可搜索单元中纵深卷积模块的每一个通道的延迟，λ₁、λ₂表示正则化权重，λ₁＝10^-6，λ₂＝10^-4，β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种基于神经架构搜索的轻量级人体姿态估计装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构；

所述平行模块，用于传输同一分辨率之间的特征图像；

8.根据权利要求7所述的装置，其特征在于，所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块，其中，所述卷积模块包括卷积层、BN层和Relu激活层；

9.根据权利要求8所述的装置，其特征在于，所述模型搜索过程中采用的搜索策略包括：

其中，

表示搜索过程的总损失函数，

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：