CN112580721B

CN112580721B - 一种基于多分辨率特征融合的目标关键点检测方法

Info

Publication number: CN112580721B
Application number: CN202011509933.5A
Authority: CN
Inventors: 何宁; 张聪聪
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2020-12-19
Filing date: 2020-12-19
Publication date: 2023-10-24
Anticipated expiration: 2040-12-19
Also published as: CN112580721A

Abstract

本发明公开了一种基于多分辨率特征融合的目标关键点检测方法，分为三个部分：特征提取、多分辨率特征融合、分辨率调整。特征提取模块使用骨架网络ResNet网络提取图像特征；多分辨率特征融合模块对提取的特征图重复上下采样，将特征图进行融合。分辨率调整模块对融合模块得到的特征图与从低分辨率特征中上采样得到的特征图进行拼接。最后输出姿态热图估计结果。该方法将主干网络提取出的不同分辨率的特征，进行多次融合，构建了一种新的目标关键点检测方法，可对任何大小的图片，进行单目标关键点检测；本发明有效的融合了网络的深层特征和浅层特征，在精度、模型参数量和计算量方面体现出了较大的优越性。

Description

一种基于多分辨率特征融合的目标关键点检测方法

技术领域

本发明属于计算机视觉、数字图像处理技术领域，尤其涉及一种基于多分辨率特征融合的目标关键点检测方法。

背景技术

目标关键点检测也称姿态估计。姿态估计早期应用在人体骨架检测，主要应用场景有：协助体育裁判评分、训练机器人形体动作、虚拟换衣等。同时，人体行为分析现在也是一大研究热点。越来越多的研究人员，不断地通过精准且连续的姿态估计来分析人体行为。其中，将人体姿态用图的方式来表示，并且通过图结构中包含的特征来提取更高语义层次的人体行为信息。也有很多研究者，将目标关键点检测用于动物数据集，进一步分析动物的行为。

现有的目标关键点检测算法大都使用卷积神经网络。常见的模型，大多先使用主干网络对图像进行特征提取，为了减少模型的运算量，在提取特征的过程中不断地降低图像的分辨率，例如ResNet。在主干网络之后，再通过几步上采样将图像恢复到任务所需的分辨率。这类型的模型在很多应用中取得了较高的精度。后来，研究者意识到，在卷积神经网络模型中，网络浅层提取的特征包含较多的细节信息，网络深层提取的特征包含较多的语义信息。Unet在ResNet的基础上，将相同分辨率的主干网络和上采样部分的特征进行融合，取得了更高的精度。但在Unet中主干网络和上采样部分的参数量几乎相同，大大的增加了模型的大小和浮点运算量。如何在不增加网络计算量的情况下，更加有效的融合图像的细节信息和语义信息，使得网络的性能得以提升也是一个众人研究的课题。

针对以上问题，本方法提出了一种多分辨率融合模块，有效的融合了网络的深层特征和浅层特征，可以在几乎不增加网络开销的前提下，提升模型的效率。并在MPII数据集和ATRW dataset中得到了验证。

发明内容

本发明是一种基于多分辨率特征融合的目标关键点检测方法，主要分为三个部分：特征提取模块、多分辨率特征融合模块、分辨率调整模块。特征提取模块使用骨架网络ResNet网络提取图像特征；多分辨率特征融合模块对提取的特征图重复上下采样，将分辨率为192×144、96×72、48×36的特征图进行融合。分辨率调整模块对融合模块得到的特征图与从低分辨率特征中上采样得到的特征图进行拼接。最后输出姿态热图估计结果。

该方法将主干网络提取出的不同分辨率的特征，进行多次融合，构建了一种新的目标关键点检测方法，可对任何大小的图片，进行单目标关键点检测，主要包括以下步骤：

步骤1：输入已裁剪好的单目标图片到目标关键点检测模型中。

步骤2：将单目标图片的分辨率调整为当前网络设定的分辨率。

步骤3：对输入的单目标图片使用ResNet网络提取图像特征，分别得到分辨率为96×128,48×64,24×32,12×16,6×8的特征图，将这五个分辨率大小不同的特征图取名为:2×down,4×down,8×down,16×down，32×down(在下面用到这五个名称时按最新赋值的作为有效)。

步骤4：将ResNet特征提取网络提取的2×down,4×down,8×down,16×down等四个特征图进行多分辨率特征融合。

步骤4-1：主要融合分为三部分，首先分别将4×down和8×down下采样两次和一次，然后与16×down进行拼接，得到新的16×down。

步骤4-2：其次，将4×down下采样一次，将16×down上采样一次，然后与8×down进行拼接，得到新的8×down。

步骤4-3：最后，分别将8×down和16×down上采样一次和两次，然后与4×down进行拼接，得到新的4×down。

步骤5：然后将多分辨率特征融合模块最终输出的特征图的分辨率大小调整为和4×down分辨率大小相同，主要也分为三部分。

步骤5-1：首先，将32×down上采样一次，与16×down进行拼接，得到新的16×down。

步骤5-2：其次，将16×down上采样一次，与8×down进行拼接，得到新的8×down。

步骤5-3：最后，将8×down上采样一次，与4×down进行拼接，得到新的4×down。

步骤6：经过分辨率大小调整后将4×down特征图的通道数调整为目标关键点数，并作为网络的输出。

其中，在训练的过程中使用自适应时刻估计方法(Adaptive Moment Estimation)迭代的方式对网络进行优化。用到的损失函数为均方差损失函数：

其中，m为关键点的个数，y_i为标注的ground_truth关键点的坐标，为模型预测的关键点的坐标，n为训练样本个数，i为当前的关键点。

本发明提出了一种多分辨率融合模块，有效的融合了网络的深层特征和浅层特征，该融合模块能够充分利用图像语义信息和空间信息，可以在几乎不增加网络开销的前提下，提升模型的效率。在MPII和ATRW数据集上使用ResNet50和ResNet101网络进行了模型对比，实验结果如表1和表2所示。在MPII数据集上进行测试，本发明的方法在模型参数量和计算量没有明显的提高，PCKh@0.5在ResNet50和ResNet101网络上分别有0.6％和0.3％的提高。在ATRW数据集上，虽然采用融合模块的方法计算成本略高，但AP和AR显著增加，特别是与无融合模块的ResNet-101方法相比，本发明的方法F1评分提高了2.3％。实验结果表明，本发明的方法在精度，模型参数量和计算量方面体现出了较大的优越性。

附图说明

图1基于多分辨率特征融合的卷积神经网络模型图。

图2多分辨率特征融合模块结构图。

图3姿态估计检测效果图。

具体实施方式

下面结合实例对本发明进行验证其相对于其他算法的优越性。

步骤2：将单目标图片的分辨率resize为网络设定的分辨率(此处假设为192×256)。

步骤3：使用ResNet网络提取图像特征，分别得到分辨率为96×128,48×64,24×32,12×16,6×8的特征图，将这五个分辨率大小不同的特征图取名为:2×down,4×down,8×down,16×down，32×down(在下面用到这五个名称时按最新赋值的作为有效)。

步骤4：将2×down,4×down,8×down,16×down进行融合；

步骤4-1：分别将4×down和8×down下采样两次和一次，然后与16×down进行拼接,得到新的16×down。

步骤4-2：将4×down下采样一次，将16×down上采样一次，然后与8×down进行拼接,得到新的8×down。

步骤4-3：分别将8×down和16×down上采样一次和两次，然后与4×down进行拼接,得到新的4×down。

步骤5：将最终输出的特征图的分辨率大小调整为和4×down分辨率大小相同。

步骤5-1：将32×down上采样一次，与16×down进行拼接，得到新的16×down。

步骤5-1：将16×down上采样一次，与8×down进行拼接，得到新的8×down。

步骤5-2：将8×down上采样一次，与4×down进行拼接，得到新的4×down。

步骤6：将4×down特征图的通道数调整为目标关键点数，并作为网络的输出，

其中，m为关键点的个数，y_i为标注的ground_truth关键点的坐标，为模型预测的关键点的坐标。

使用MPII和ATRW数据集的训练集对模型进行训练，用其验证集来测试算法的有效性。

为了验证改进算法的准确性和效率，使用ResNet50和ResNet101网络进行了模型对比。实验结果表明，本方法在精度，模型参数量和计算量方面体现出了较大的优越性。实验结果如表1和表2所示。

表1在MPII数据集的结果对比表

其中是一个常数，l是ground_truth中头部对角线的60％PCKh@0.5就是指限定

表2在ATRW数据集的结果对比表

这里的评价指标用到了目标关键点相似度object keypoint similarity(OKS)，其中：

其中d_i是预测的关键点和相应的标注关键点的欧氏距离，v_i是这个关键点是否为可见的标志(0为不可见，1为可见)，s是目标的尺度，k_i是关键点常数。

AP和AR是指OKS＝0.50,055,…,0.90,0.95时置信度和召回率的平均值。F1的公公式为：

图1基于多分辨率特征融合的卷积神经网络模型图。

在图1所示的基于多分辨率特征融合的卷积神经网络模型图中，最左边是使用骨架网络ResNet网络提取图像特征，分别得到分辨率为96×128,48×64,24×32,12×16,6×8的特征图。然后，多分辨率特征融合模块对这些多分辨率特征图进行融合，将融合后的特征图与从低分辨率特征图上采样得到的特征图进行拼接。最后，我们输出15个通道的特征图，对应于15个关键点的特征图，输出相对应的热图估计结果。

图2多分辨率特征融合模块结构图。

图2所示的特征融合模块中，我们对特征图重复上下采样。然后将分辨率为192×144、96×72、48×36的特征图拼接起来，融合特征。

图3姿态估计检测效果图。

图3为使用多分辨率特征融合网络在MPII数据集和ATRW数据集进行姿态估计的检测效果图。

Claims

1.一种基于多分辨率特征融合的目标关键点检测方法，其特征在于：分为特征提取、多分辨率特征融合、分辨率调整；特征提取使用骨架网络ResNet网络提取图像特征；多分辨率特征融合对提取的特征图重复上下采样，将分辨率为192×144、96×72、48×36的特征图进行融合；分辨率调整对融合模块得到的特征图与从低分辨率特征中上采样得到的特征图进行拼接；最后输出姿态热图估计结果；该方法将主干网络提取出的不同分辨率的特征，进行多次融合，构建了目标关键点检测方法，对任何大小的图片，进行单目标关键点检测；

包括以下步骤：

步骤1：输入已裁剪好的单目标图片到目标关键点检测模型中；

步骤2：将单目标图片的分辨率调整为当前网络设定的分辨率；

步骤3：对输入的单目标图片使用ResNet网络提取图像特征，分别得到分辨率为96×128,48×64,24×32,12×16,6×8的特征图，将这五个分辨率大小不同的特征图取名为:2×down,4×down,8×down,16×down，32×down；

步骤4：将ResNet特征提取网络提取的2×down,4×down,8×down,16×down四个特征图进行多分辨率特征融合；

步骤5：将多分辨率特征融合模块最终输出的特征图的分辨率大小调整为和4×down分辨率大小相同；

步骤6：经过分辨率大小调整后将4×down特征图的通道数调整为目标关键点数，并作为网络的输出；

在训练的过程中使用自适应时刻估计方法迭代的方式对网络进行优化；用到的损失函数为均方差损失函数：

其中，m为关键点的个数，y_i为标注的ground_truth关键点的坐标，为模型预测的关键点的坐标，n为训练样本个数，i为当前的关键点；

步骤4中，步骤4-1：融合分为三部分，首先分别将4×down和8×down下采样两次和一次，然后与16×down进行拼接，得到新的16×down；步骤4-2：将4×down下采样一次，将16×down上采样一次，然后与8×down进行拼接，得到新的8×down；步骤4-3：分别将8×down和16×down上采样一次和两次，然后与4×down进行拼接，得到新的4×down；

步骤5中，步骤5-1：将32×down上采样一次，与16×down进行拼接，得到新的16×down；步骤5-2：将16×down上采样一次，与8×down进行拼接，得到新的8×down；步骤5-3：将8×down上采样一次，与4×down进行拼接，得到新的4×down。