CN110378253B

CN110378253B - 一种基于轻量化神经网络的实时关键点检测方法

Info

Publication number: CN110378253B
Application number: CN201910585486.2A
Authority: CN
Inventors: 王雷; 黄科杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-03-26
Anticipated expiration: 2039-07-01
Also published as: CN110378253A

Abstract

本发明公开一种基于轻量化神经网络的实时关键点检测方法，该方法首先使用faster rcnn或者类似的人体检测算法将图片中的人物截取出来然后再送入设计的轻量化网络中去，然后输出预测的坐标，该方法不同于一般的方法在于所设计的网络是轻量化的可伸缩的，能够以较小的参数量和运算量，达到满意的检测精度，同时使用了基于积分的热图预测，使得系统完成端到端的预测，同时能够完成2D和3D任务。

Description

一种基于轻量化神经网络的实时关键点检测方法

技术领域

本发明属于计算机视觉的关键点检测领域，具体涉及一种轻量化神经网络的实时关键点检测方法。

背景技术

关键点检测技术在人体动作识别，行人重识别领域以及相关的领域都有极其重要的应用，但是无论是在安防或者消费领域如体感游戏等都对系统的运行时间有着严格的要求，目前的主流的关键点检测算法虽然在检测精度上获得了巨大的提升，然而在运行速度上却受到了严重的制约，因此本发明主要是在采用尽可能的少的参数和运算量的情况下实现能够满足实际应用的检测精度，以实现在保证检测精度的前提下提升运行速度。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于轻量化神经网络的实时关键点检测方法。

为了实现上述目的，本发明采用的技术方案如下：

一种基于轻量化神经网络的实时关键点检测方法，步骤如下：

首先通过基于深度学习的人体检测技术(如faster rcnn等)将图像中的人体截取出来，然后将截取获得的结果送入到构建的轻量化神经网络中，所述的轻量化神经网络包括若干瓶颈模块A和瓶颈模块B，其中瓶颈模块A中3×3卷积层的步长为1，瓶颈模块B中3×3卷积层的步长为2，所述的轻量化神经网络的结构如下：

将所截取的人体图像输入瓶颈模块B中，输入输出通道分别为3、64，输出结果再输入至另一瓶颈模块B中，输入输出通道分别为64、64，之后依次经过若干个输入输出通道分别为64、64的瓶颈模块A后，再输入至输入通道数为64、输出通道数为n的瓶颈模块A，其中n为16-64，图像尺度为H×W，该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中，另一方面输入至另一瓶颈模块B中，该瓶颈模块B的输入输出通道数为n、2n，经瓶颈模块B的2倍降采样后，图像尺度降为H/2×W/2，该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A，一方面输入至另一瓶颈模块B中，该瓶颈模块B的输入输出通道数为2n、4n，经2倍降采样后，图像尺度降为H/4×W/4，另一方面采用双线性插值的方法进行上采样，图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中，如此，每进行一次降采样，使得图像分辨率继续减少为二分之一，模块的通道数翻倍，同时，将已有尺度的图像之间进行特征融合，达到预设的最低尺度后再不断地升采样，模块的通道数则减半，直至回到图像尺寸为H×W，即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A，该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A，其输出即为热图H_k，1≤k≤K；

根据如下积分公式预测关键点位置：

式中H为输出的原始热图，

为归一化的热图，p为热图中的像素点，

对其进行离散化得到：

其中，D为深度、H为高度、W为宽度。

损失函数采用L2范数。

本发明的有益效果是：

本发明方法所设计的神经网络是轻量化的可伸缩的，能够以较小的参数量和运算量，达到满意的检测精度，同时使用了基于积分的热图预测，使得系统完成端到端的预测，同时能够完成2D和3D任务。

附图说明

图1是本发明构建的轻量化神经网络的结构示意图。

图2是本发明构建的一种具体轻量化神经网络的结构示意图。

图3是图2中的预处理模块的结构示意图。

具体实施方式

下面结合附图和具体实例对本发明的方法做进一步的说明。

以下实例仅用于对本发明方法做进一步的解释说明，但并非对本发明的具体限定。图1为本发明构建的一种具体的轻量化神经网络的结构示意图(图中c＝4)，基于该轻量化神经网络进行实时关键点检测方法，步骤如下：

首先通过基于深度学习的人体检测技术(如faster rcnn等)将图像中的人体截取出来，然后将截取获得的结果送入到构建的轻量化神经网络中，所述的轻量化神经网络包括若干瓶颈模块(bottleneck)A和瓶颈模块B，其中瓶颈模块A中3×3卷积层的步长为1，瓶颈模块B中3×3卷积层的步长为2，主要用来实现降采样。所述的轻量化神经网络的结构如下：

将所截取的人体图像输入瓶颈模块B中，输入输出通道分别为3、64，输出结果再输入至另一瓶颈模块B中，输入输出通道分别为64、64，之后依次经过若干个输入输出通道分别为64、64的瓶颈模块A后，再输入至输入通道数为64、输出通道数为n的瓶颈模块A，其中n为16-64，图像尺度为H×W，该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中，另一方面输入至另一瓶颈模块B中，该瓶颈模块B的输入输出通道数为n、2n，经瓶颈模块B的2倍降采样后，图像尺度降为H/2×W/2，该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A，一方面输入至另一瓶颈模块B中，该瓶颈模块B的输入输出通道数为2n、4n，经2倍降采样后，图像尺度降为H/4×W/4，另一方面采用双线性插值的方法进行上采样，图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中，如此，每进行一次降采样，使得图像分辨率继续减少为二分之一，模块的通道数翻倍，同时，将已有尺度的图像之间进行特征融合，达到预设的最低尺度后再不断地升采样，模块的通道数则减半，直至回到图像尺寸为H×W，即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A，该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A，其输出即为热图H_k，1≤k≤K；简单来说该处理过程就是：首先将之前检测到的图片放入网络的输入端，然后经过两次降采样后，达到原来的四分之一大小，然后不断的分出一个向下的分支实现降采样，使得分辨率不断的减少为上一级尺度的二分之一，同时，同一尺度之间进行特征融合，达到最低尺度后再不断地升采样，直至回到原来的尺寸的四分之一大小，最后输出热图。

根据如下积分公式预测关键点位置：

式中H_k为输出的第k个关键点对应原始热图，

为归一化的热图，p为热图中的像素点，Ω为热图中像素点的集合。

对其进行离散化得到：

其中，D为深度、H为高度、W为宽度。当D＝1时即可用于2D预测。

损失函数采用L2范数。

损失函数采用L2范数。

本方法在3D训练的时候使用了2D3D数据混合训练策略(考虑到3D数据量较少)，即将x，y，z坐标分开训练，这样2D的数据也可以用来训练3D预测中的x，y坐标，显著提高准确性。具体操作以x坐标为例：首先对y，z坐标积分，得到关于x单独的预测值：

则热图的关键点预测就可以改写成：

实现2D数据x坐标的利用，y坐标同理。这样就可以在训练3D网络的时候充分利用2D的训练数据，提高预测的精度。最后使用的损失函数为L2范数，训练时使用的数据增强的手段为翻转，旋转正负45度，尺度缩放为0.8到1.2之间。

图2、3为另一具体实例的网络结构图，其中，预处理模块由两个瓶颈模块B和四个瓶颈模块A构成，该实例中n取32，K为17。

Claims

1.一种基于轻量化神经网络的实时关键点检测方法，其特征在于，该方法步骤如下：

首先通过基于深度学习的人体检测技术将图像中的人体截取出来，然后将截取获得的结果送入到构建的轻量化神经网络中，所述的轻量化神经网络包括瓶颈模块A和瓶颈模块B，其中瓶颈模块A中3×3卷积层的步长为1，瓶颈模块B中3×3卷积层的步长为2，所述的轻量化神经网络的结构如下：

将所截取的人体图像输入瓶颈模块B中，输入输出通道分别为3、64，输出结果再输入至另一瓶颈模块B中，输入输出通道分别为64、64，之后依次经过多个输入输出通道分别为64、64的瓶颈模块A后，再输入至输入通道数为64、输出通道数为n的瓶颈模块A，其中n为16-64，图像尺度为H×W，该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中，另一方面输入至另一瓶颈模块B中，该瓶颈模块B的输入输出通道数为n、2n，经瓶颈模块B的2倍降采样后，图像尺度降为H/2×W/2，该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A，一方面输入至另一瓶颈模块B中，该瓶颈模块B的输入输出通道数为2n、4n，经2倍降采样后，图像尺度降为H/4×W/4，另一方面采用双线性插值的方法进行上采样，图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中，如此，每进行一次降采样，使得图像分辨率继续减少为二分之一，模块的通道数则翻倍，同时，将已有尺度的图像之间进行特征融合，达到预设的最低尺度后再不断地升采样，模块的通道数则减半，直至回到图像尺寸为H×W，即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A，该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A，其输出即为热图H_k，1≤k≤K；

根据如下积分公式预测关键点位置：

式中H为输出的原始热图，

为归一化的热图，p为热图中的像素点，对其进行离散化得到：

其中，D为深度、H为高度、W为宽度；

损失函数采用L2范数。