CN115222959A

CN115222959A - 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法

Info

Publication number: CN115222959A
Application number: CN202210826824.9A
Authority: CN
Inventors: 周后盘; 刘剑星; 黄经州; 赖波
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-21

Abstract

本发明涉及一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，采用深度可分离卷积与两个残差块相结合作为特征提取主干网络，采用轻量化卷积网络与Transformer相结合进行关键点检测。深度可分离卷积与传统CNN相比减少了大量冗余的参数，同时两个残差块又结合了标准卷积的优点，在压缩模型参数，加快运行效率的同时，使得本文的特征提取网络在图像特征提取方面达到不俗的效果，轻量化卷积网络对图像特征进行更好提取的同时减少了参数量，Transformer中自我注意力层能获得全局约束关系，并保留细粒度的局部特征信息，从而可以有效地捕获人体各部位之间的空间关系，通过更少的参数和更快的速度，达到了可以媲美基于CNN最先进的人体关键点检测技术的精度。

Description

一种轻量化卷积网络与Transformer相结合的人体关键点检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种轻量化卷积网络与Transformer相结合的人体关键点检测方法。

背景技术

人体关键点检测是指基于图像来重建人的关节和肢干，即找出人体骨骼的关键点并将其组合。在计算机视觉(Computer Vision,CV)领域，人体的关键点定位至今依旧是热门的研究方向。发展到现在，人体关键点检测已经催生了很多应用，在人机交互、病人监护系统、智能视频监控、虚拟现实、运动员辅助训练、智能家居、人体动画、智能安防等领域都有着重要的意义和广泛的应用前景。

目前，人体关键点检测方法大多是基于传统的卷积神经网络，虽然能够很好地学习特征检测关键点，但是这些卷积神经网络结构复杂且参数量大，训练及推理会占用大量计算资源和时间。Transformer采用基于自注意力和多层感知器的编码器架构，使得其在学习位置关系上的约束方面比CNN具有天然优势，多层注意力模块使模型能够捕获任何关键点位置之间的关系，并且其网络结构比传统卷积网络更加简易。然而Transformer在提取图像低级特征方面远不如卷积网络，也导致使用Transformer模型进行关键点检测的精度大打折扣。

发明内容

针对现有技术的不足，本发明提出了一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，针对轻量化卷积网络对图像纹理信息的特征提取优势和模型轻量性，与Transformer结构的全局建模特点相结合，在关键点精度较高的前提下大大提高了检测的速度。

本申请采用以下技术方案：一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，包括：

步骤1：获取图片数据，处理后作为输入；

步骤2：构建轻量化卷积网络作为特征提取器，将图片数据输入特征提取器进行特征提取，得到目标特征图；

步骤3：对目标特征图进行位置编码，使得目标特征图中的特征向量保持独立地空间位置关系；

步骤4：将带有位置编码的目标特征图输入Transformer的多层注意力模块，注意力模块从特征向量序列中捕获不同特征之间的依赖关系，将获得不同注意力权重的特征图与目标特征图再次融合，得到更新后的特征向量；

步骤5：将更新后的特征向量输入至Transformer的多层感知机MLP模块，得到最终的输出特征；

步骤6：通过回归热图的方法预测输出特征的关键点坐标。

作为优选，所述步骤2中，特征提取器包括深度可分离卷积块和两个深度残差块；在进行特征提取时：Stage1，采用步长为1的卷积核，对输入通道为3的输入图片进行逐通道卷积，同时保持通道独立，将通道维度升到128，得到第一特征图；stage2：逐点卷积，采用1*1*128的卷积核将第一特征图在深度方向上进行加权组合，生成第二特征图；stage3：将第二特征图的通道维度降到64维并输入至3层bottleneck残差块中，使用3*3*64的卷积核进一步提取特征，得到第三特征图；stage4：将第三特征图通道维度升到128维，输入至4层bottleneck残差块中，使用3*3*128的卷积核提取特征，得到目标特征图。

作为优选，所述3步骤中，编码过程表示为:

其中P_x、P_y是沿x或y方向的位置索引，i表示新生成索引，

T为缩放比例，然后将位置信息嵌入到目标特征图的特征向量中

作为优选，所述步骤4中，多层注意力模块带有3个权重参数矩阵w_q，w_k，w_v∈R^d×d，表示注意力指标的矩阵A∈R^N×N的计算公式为：

其中，特征向量X₁乘以w_q的权重矩阵q_i得到新向量q₁，q₁表示包含Q值矩阵权重的向量；特征向量X₁乘以w_k的权重矩阵k_i的到新向量k₁，k₁表示包含K值矩阵权重的向量；将q₁和k₁的点积除以d的平方根后进行加权平均得到注意力指标矩阵，其中d表示K值矩阵向量的维数，然后V值矩阵中的权重向量w_i分别对矩阵A进行加权求和，完成对特征向量的更新。

作为优选，所述步骤5中，将更新后的特征向量输入至前馈神经网络，经过两个全连接层和一个Relu激活层后，再进行LayerNorm运算与上层特征向量融合得到最终的特征向量。

作为优选，所述步骤6中，Transformer的输出连接至一个头部网络，头部网络由两个卷积层组成，第一卷积层将步骤5得到的特征向量维度保持与第二卷积层一致，第二卷积层将Transformer模块的输出升维后再降到k，从而预测k类关键点热图，其中k为关键点的个数。

作为优选，采用COCO2017公开数据集作为图片数据来源，并将其等比缩放为256*192尺寸后作为输入。

本发明具有以下有益效果：1、采用深度可分离卷积与两个残差块相结合作为特征提取主干网络，深度可分离卷积与传统CNN相比减少了大量冗余的参数，同时两个残差块又结合了标准卷积的优点，在压缩模型参数，加快运行效率的同时，使得本文的特征提取网络在图像特征提取方面达到不俗的效果。2、采用轻量化卷积网络与Transformer相结合进行关键点检测，其中轻量化卷积网络对图像特征进行更好提取的同时减少了参数量，Transformer中自我注意力层能获得全局约束关系，并保留细粒度的局部特征信息，从而可以有效地捕获人体各部位之间的空间关系，本发明通过更少的参数和更快的速度，达到了可以媲美基于CNN最先进的人体关键点检测技术的精度。

附图说明

附图用来提供对本申请的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请，并不构成对本申请的限制。在附图中：

图1为本发明人体关键点检测流程图；

图2为本发明整体结构图；

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，如图1和图2所示，包括以下步骤：

步骤1：获取图片数据，本实施例采用COCO2017公开数据集作为图片数据来源，并将其等比缩放为256*192尺寸后作为输入；

本实施例中，特征提取器包括深度可分离卷积块和两个深度残差块。在进行特征提取时，首先采用深度可分离卷积块：Stage1，采用步长为1的卷积核，对输入通道为3的输入图片进行逐通道卷积，同时保持通道独立，将通道维度升到128，得到第一特征图；stage2：逐点卷积，采用1*1*128的卷积核将第一特征图在深度方向上进行加权组合，生成第二特征图；stage3：将第二特征图的通道维度降到64维并输入至3层bottleneck残差块中，使用3*3*64的卷积核进一步提取特征，得到第三特征图；stage4：将第三特征图通道维度升到128维，输入至4层bottleneck残差块中，使用3*3*128的卷积核提取特征，得到目标特征图。

鉴于Transformer模块本身是缺失位置信息的，所以在进入Transformer模块之前需要对目标特征图中的特征向量加上位置编码，使得特征向量的位置信息在图像水平x和垂直y方向上独立，保持独立的空间位置关系。编码过程可表示为：

其中P_x、P_y是沿x或y方向的位置索引，i表示新生成索引，

T为缩放比例，H和W表示输入图像的长和宽，然后将位置信息嵌入到目标特征图的特征向量中。

多层注意力模块通过查询量(query)-键(key)-值(value)迭代地从特征向量序列中捕获不同特征比如关键点特征之间的依赖关系，然后将获得不同注意力权重的特征图与步骤3得到的特征图融合。具体地，多层注意力模块带有3个权重参数矩阵w_q，w_k，w_v∈R^d×d，表示注意力指标的矩阵A∈R^N×N的计算公式为：

其中，特征向量X₁乘以w_q的权重矩阵q_i得到新向量q₁，q₁表示包含Q值矩阵权重的向量；特征向量X₁乘以w_k的权重矩阵k_i的到新向量k₁，k₁表示包含K值矩阵权重的向量；将q₁和k₁的点积除以d的平方根后进行加权平均得到注意力指标矩阵A，其中d表示K值矩阵向量的维数，然后V值矩阵中的权重向量w_i分别对矩阵A进行加权求和，完成对特征向量的更新。不同特征获得不同权重后的特征图称之为注意力图，注意力图也可以看作是特征的动态权重。

将得到的注意力图与低维特征图再次融合，做LayerNorm运算，以进行不同尺度特征信息的交换。特征图融合过程为特征图中的特征向量进行前向传播的同时也进行反向传播，最后进行归一化。

多层感知机MLP模块包括位置前馈网络层(feed-forward network，FFN)，其作用是可以更好的构建出关键点之间的空间位置联系，提升模型的定位效率。将更新后的特征向量输入至前馈神经网络，经过两个全连接层和一个Relu激活层后，再进行LayerNorm运算与上层特征向量融合得到最终的特征向量。

步骤6：通过回归热图的方法预测输出特征的关键点坐标。

Transformer的输出连接至一个简单的头部网络，其作用是通过回归热图的方法预测关键点坐标。具体地，头部网络由两个卷积层组成，第一卷积层将步骤5得到的特征向量维度保持与第二卷积层一致，第二卷积层的作用是特征的分类与回归。将Transformer模块的输出升维到E∈R^c×H×W，其中H和W表示输入图像的长和宽，c表示特征图的通道维数；通过1×1卷积将E的通道维数从c降到k，从而预测k类关键点热图P∈R^k×h×w，其中k为关键点的个数，c表示特征图的通道维数，h和w表示关键点热图的长和宽且h和w分别为输入图像尺寸的1/4。

使用基于OKS(Object Keypoint Similarity)的平均准确率AP(AveragePrecision)和FPS(Frames Per Second)作为评估指标，评估模型的精度和处理速度。其中OKS表示关键点之间的相似度，平均准确率AP(Average Precision)表示的是成功检测出关键点的目标个数与目标总个数的比值，FPS表示一秒钟模型处理的图片张数。

将本文方法与主流的基于CNN的人体关键点检测方法AlphaPose、HRNet分别进行比较，实验结果如下表所示：

Model	AP	FPS
			AlphaPose	72.3	20
HRNet	73.1	27
			本文方法	73.5	78

从实验结果可以看出，相比较基于CNN的主流关键点检测方法，本发明提出的轻量化卷积与TransFormer模型结合的方法在平均准确率都不低于上面两种方法的前提下，大大提高了检测速度(FPS)，加快了模型运行速度。

上述只是本发明的具体实施例，并非对本发明作任何形式上的限制。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改等，都应落在本发明技术方案保护的范围内。

Claims

1.一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，包括：

步骤1：获取图片数据，处理后作为输入；

步骤6：通过回归热图的方法预测输出特征的关键点坐标。

2.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，所述步骤2中，特征提取器包括深度可分离卷积块和两个深度残差块；

在进行特征提取时：Stage1，采用步长为1的卷积核，对输入通道为3的输入图片进行逐通道卷积，同时保持通道独立，将通道维度升到128，得到第一特征图；stage2：逐点卷积，采用1*1*128的卷积核将第一特征图在深度方向上进行加权组合，生成第二特征图；stage3：将第二特征图的通道维度降到64维并输入至3层bottleneck残差块中，使用3*3*64的卷积核进一步提取特征，得到第三特征图；stage4：将第三特征图通道维度升到128维，输入至4层bottleneck残差块中，使用3*3*128的卷积核提取特征，得到目标特征图。

3.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，所述步骤中，编码过程表示为:

其中P_x、P_y是沿x或y方向的位置索引，i表示新生成索引，i∈

T为缩放比例，然后将位置信息嵌入到目标特征图的特征向量中。

4.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，所述步骤4中，多层注意力模块带有3个权重参数矩阵w_q，w_k，w_v∈R^d×d，表示注意力指标的矩阵A∈R^N×N的计算公式为：

5.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，所述步骤5中，将更新后的特征向量输入至前馈神经网络，经过两个全连接层和一个Relu激活层后，再进行LayerNorm运算与上层特征向量融合得到最终的特征向量。

6.根据权利要求5所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，所述步骤6中，Transformer的输出连接至一个头部网络，头部网络由两个卷积层组成，第一卷积层将步骤5得到的特征向量维度保持与第二卷积层一致，第二卷积层将Transformer模块的输出升维后再降到k，从而预测k类关键点热图，其中k为关键点的个数。

7.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法，其特征在于，采用COCO2017公开数据集作为图片数据来源，并将其等比缩放为256*192尺寸后作为输入。