CN111126412B

CN111126412B - 基于特征金字塔网络的图像关键点检测方法

Info

Publication number: CN111126412B
Application number: CN201911159408.2A
Authority: CN
Inventors: 路红; 李宝根; 王琳; 杨博弘
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-04-18
Anticipated expiration: 2039-11-22
Also published as: CN111126412A

Abstract

本发明属于计算机图像处理技术领域，具体为基于特征金字塔网络的图像关键点检测方法。本发明方法包括：通过特征金字塔网络提取高表征性图像特征，对尺度、视角几何变换、光照、模糊等都具备鲁棒性；并生成适用于关键点检测的训练数据集；在训练阶段，灰度图像作为网络模型的输入，使用在ImageNet数据集上预训练得到的权重参数来初始化网络模型参数，使用训练数据集对网络参数进行微调，最后输出和输入图像尺寸相同的概率图，图中的每个值处于0到1之间，值越大代表该点越适合作为关键点；在测试阶段使用非极大值抑制算法来避免响应值大的点堆积在一小部分区域，并且设置不同大小的阈值控制关键点数量，保证关键点质量。

Description

基于特征金字塔网络的图像关键点检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种图像关键点检测方法。

背景技术

计算机视觉技术是基于感知图像做出对客观对象和场景有用的决策。关键点检测，又被称为特征点或兴趣点检测技术，是计算机视觉领域的关键性技术，被应用于很多任务如图像匹配、图像检索和视觉同时定位与建图等。关键点通常是指图像中较为突出的、有着很强的可区分性的像素点或者图像区域块，其作为图像中最重要的局部特征之一，具备旋转不变性、视角不变性、尺度不变性等多种优异性质，因此被广泛的应用于各种计算机视觉任务中。

尽管在过去的十年里对关键点检测这一问题的研究已经取得了巨大的进展，但由于环境中各种因素的影响，仍然面临着巨大的挑战，需要不断寻求更加鲁棒的关键点检测算法，来使得视觉系统更加有效和可靠。针对光照、旋转、尺度、模糊以及视角变换等不利因素，一个鲁棒的关键点检测算法应该具备一些优良特质：可重复性、可区分性、数量合理、准确性以及高效性等。

传统的基于手工设计的关键点检测算法大都利用图像的局部梯度信息来检测关键点，例如经典的Hessia[1]特征点检测算子使用Hessian矩阵来计算关键点响应函数。后续的许多算法如LoG(Laplacian of Gaussian)[2]、SURF[3]、KAZE[4]、AKAZE(Accelerated-KAZE)[5] 等也都沿用了这一思想。另一类关键点检测算法则从模式识别的角度出发，认为关键点及其周围邻域应该具有特殊性和可区分性，所以存在某种特定的模式，让算法可以通过机器学习的方式去学习这些模式。这些算法是基于某种特定环境而手工设计的，所以缺乏一定的泛化性，不能很好的适应环境的变换。

近年来，深度学习技术发展迅速，相比于人工设计的低层次特征，深度卷积神经网络可以通过层次性的非线性模型从大量的训练样本中提取更抽象更具有表征性的特征，利用这种特征可以有效的提高关键点检测算法的性能。

发明内容

本发明的目的在于提供一种能够检测出可重复率高的、鲁棒的图像关键点的检测方法。

本发明提供的图像关键点检测方法，是基于特征金字塔网络的，通过深度卷积神经网络提取高表征性特征，对尺度、视角几何变换、光照、模糊等都具备鲁棒性；并通过一种简单有效的方法来生成适用于关键点检测的训练数据集，数据集中包含了各种复杂的变换情况，如相机视角变换、模糊、光照变化以及室内室外等复杂的场景。

在训练阶段，本发明提供的网络模型以灰度图像作为输入，使用在ImageNet数据集上预训练得到的权重参数来初始化网络模型参数，使用训练数据集对网络参数进行微调，最后输出一张和输入图像尺寸相同的概率图，图中的每个值处于0到1之间，值越大代表该点越适合作为关键点。在测试阶段，本发明使用非极大值抑制算法(Non-MaximumSuppression，NMS) [6]来避免响应值大的点堆积在一小部分区域，并且设置了不同大小的阈值控制关键点数量，保证关键点质量。

本发明提供的图像关键点检测方法，具体步骤如下：

(1)利用相机位姿以及深度点云构建训练数据集；具体过程如下：

(1.1)选取初始数据集ETH3D[7]，且数据集为每帧图像提供精准的相机位姿以及对应的深度图；

(1.2)假设数据集中同一场景下有图像I₁，I₂…I_n，使用SIFT算法[8]对每张图像I_i分别检测关键点，这里只选择最小尺度上的关键点，得到初始关键点集K_i；

(1.3)利用数据集提供的相机位姿和激光扫描深度图，可以计算出K_i点集中每个关键点在3D世界下的坐标，记K_i中关键点的3D世界坐标为G_i；

(1.4)将G₁中的关键点全局世界坐标分别与G₂，G₃，……G_n比较，如果存在g_1j与g_ik距离小于5厘米，则保存g_1j为候选关键点世界坐标并放入集合S₁，其中g_1j表示集合G₁中第j 个点的世界坐标，g_ik表示集合G_i中第k个点的世界坐标，这里i不等于1；

(1.5)重复步骤(14)，分别将G₂，G₃，……G_n中的初步关键点世界坐标与其余集合G_i比较，得到集合S₂，S₃，…S_n；

(1.6)利用相机位姿和相机内参将集合S_i中的3D点重新投影其对应的图像I_i中，把这些关键点作为训练数据集的正样本，图像中的其他像素点作为负样本。

(2)利用特征金字塔网络检测图像关键点，包括构建特征金字塔网络，提取图像特征，并通过上采样模块将特征重构为原图大小的热度图，利用非极大值抑制和自适应阈值筛选出热度图中具备较大响应值的关键点；

步骤(2)具体过程如下：

(2.1)构建图像特征金字塔网络模型，对于每一张图像，利用该模型输出一张分辨率相同的热度图(图中值表示该点为关键点的概率)；

(2.2)训练阶段，利用步骤(1)所构建的数据集进行训练，并设计有效的损失函数；

(2.3)测试阶段，即检测图像关键点，是利用非极大值抑制和自适应阈值筛选出稀疏且响应值高的点作为关键点。

其中，步骤(2.1)中所述构建图像特征金字塔网络模型，模型包含三个模块，具体如下：

(2.1.1)自底向上模块(bottom-up)，主要是卷积网络在图像最小尺度上的前向计算，其不同的特征层级隐射图像的不同尺度，缩放步长为2；

(2.1.2)自顶向下模块(top-down)，其对更抽象、语义更强的高层特征图进行上采样，并通过横向连接将上采样结果和自底向上模块每层金字塔输出的相同大小的特征图进行融合；横向连接通过双线性插值上采样方法将低分辨率的特征图放大两倍，然后和自底向上模块输出的特征图按元素相加，生成最终的融合后的特征图；

(2.1.3)上采样模块(upsample)，其通过双线性插值上采样和卷积层搭配使用将最后一层融合后的特征图恢复为和输入图像分辨率相同的热度图。

步骤(2.2)中所述模型训练方法，具体过程如下：

(2.2.1)损失函数设计：得到热度图后，将其与对应的数据集标签比较，设计损失函数计算误差，用于反向传播更新模型参数；损失函数设计如下：

当L(y)＝1时

当L(y)＝0时

其中，P表示网络输出的概率图，L表示训练图像的标签，y表示训练图像中的像素点位置坐标，

表示损失函数，

表示训练时输入图像中正样本的损失函数，

表示训练时输入图像中负样本的损失函数，N_pos和N_neg分别表示训练时输入图像中正样本与负样本的数量；

(2.2.2)预训练模型：使用ResNet在ImageNet图像分类任务[9]上预训练过的参数来初始化本文网络中的自底向上模块。并将该模块的学习率固定为0.0001，其余模块正常训练；

(2.2.3)训练策略：使用小批随机梯度下降方式[10]进行训练，每批训练数据包含8张图像；将最大训练轮数(epoch)设置为300，且每轮训练图像的输入顺序随机。网络自底向上模块使用预训练模型初始化，设置固定的学习率为0.0001，其余可训练模块统一使用学习率计划表：前30轮学习率为0.1，第31到80轮学习率为0.01，第81到180轮学习率为0.001，后面120轮学习率为0.0001。这样可以保证模型较快的收敛速度，也避免训练过程过早进入局部最优。

训练优化算法使用Adam优化器[11]。

步骤(2.3)中所述测试阶段检测图像关键点，具体过程如下：

(2.3.1)输入图像，经过特征金字塔网络模型得到热度图后，利用非极大值抑制避免关键点堆积，即在一定区域内，只保留最高响应值；

(2.3.2)通过设置阈值筛选出响应值高的点作为图像关键点。

本发明提供的关键点检测算法，能够在多样的图像和复杂的背景下，提取稳定的可重复检测的关键点，对尺度、视角几何变换、光照、模糊等都具备鲁棒性。

附图说明

图1为本发明的基于特征金字塔网络的图像关键点检测算法的总流程框图。

图2为步骤(1)所述的数据集构建算法结果图。其中，(a)展示了使用SIFT算法在数据集图像中提取的初始关键点，(b)显示了使用筛选算法剔除那些低质量、不可重复检测的点后的结果。

图3为步骤(2)中的特征金字塔网络结构图。其中包括特征提取中的自底向上模块(bottom-up)、自顶向下模块(top-down)和上采样模块(upsample)，以及测试阶段通过非极大值抑制(NMS，Non-Maximum Suppression)和自适应阈值(Threshold)检测图像关键点。

图4为展示了本发明算法检测的可重复关键点和SIFT算法检测的可重复关键点。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

参照图1，本发明的图像关键点检测算法，其具体步骤如下：

(1)利用特征金字塔网络(FPN，feature pyramid network)[12]对输入图像提取特征。特征金字塔网络结构参见图3所示，包括自底向上模块(bottom-up)、自顶向下模块(top-down) 和上采样模块(upsample)三个模块。参照图3，网络模型以RGB图像作为输入，“Conv1”表示第一个卷积层。“max pooling”表示最大池化层，池化大小为2×2，步长为2；其后的“Conv block2、Conv block3、Conv block4、Conv block5”表示卷积块，每个块中由不同数量的卷积层堆叠而成。在具体实现中，使用了ResNet中对应的四个不同阶段的残差块作为网络的四个卷积块，并将这些残差块的输出特征表示为{C2，C3，C4，C5}，其相对于原始输入图像分别具有{4，8，16，32}的步长：

(1.1)自底向上模块主要是卷积网络在图像最小尺度上的前向计算，其不同的特征层级隐射图像的不同尺度，缩放步长为2；

(1.2)自顶向下模块则对更抽象、语义更强的高层特征图进行上采样，并通过横向连接将上采样结果和自底向上模块每层金字塔输出的相同大小的特征图进行融合。横向连接通过双线性插值上采样方法将低分辨率的特征图放大两倍，并将自底向上模块输出的特征图{C2， C3，C4，C5}分别应用一个1×1的卷积层“Conv6”，然后将两者按元素相加，生成最终的融合后的特征图；

(1.3)上采样模块，其通过双线性插值上采样和卷积层搭配使用将最后一层融合后的特征图恢复为和输入图像分辨率相同的热度图；

(2)利用sigmoid函数将热度图中数值映射到0-1之间，得到相应的概率图；

(3)利用非极大值抑制和自适应阈值筛选出响应值高的图像关键点。

图4给出了本发明算法检测的可重复关键点和SIFT算法检测的可重复关键点。需要注意的是，图中只显示左右两张图像中的可重复点，即同时在两张图像中被检测到的关键点。图4 中选取的测试图像都来源于VGG-Affine[13]数据集，其中(a)和(c)为graf场景中的第一张图像，(b)和(d)为graf场景中的第二张图像，其相比于第一张图像，由相机侧面旋转了30°的视角所拍摄；(e)和(g)为ubc场景中的第3张图像，(f)和(h)为ubc场景中的第6张图像，两幅图像的压缩率有所不同。每张图像都分别使用SIFT算法和本发明提出的算法检测关键点。

由图4中检测结果可以看出，本发明提出的关键点检测算法提取到的可被重复检测关键点分布相比于SIFT更为均匀，数量也高于SIFT算法；另外，针对图像的压缩比变化，本发明算法明显可以准确检测出可重复性高的关键点，对图像视角变换的鲁棒性也比较强。

参考文献

[1]Pual B.Rotationally invariant image operators[C]//InternationalConference of Pattern Recognition,Kyoto,Japan,1978.

[2]Lindeberg T.Feature Detection with Automatic Scale Selection[J].International Journal of Computer Vision,1998,30(2):79-116.

[3]Bay H,Ess A,Tuytelaars T,et al.Speeded-Up Robust Features(SURF)[J].Computer Vision &Image Understanding,2008,110(3):346-359.

[4]Pablo FernándezAlcantarilla,Bartoli A,Davison A J.KAZE Features[M]//Computer Vision –ECCV 2012.Springer Berlin Heidelberg,2012:214-227.

[5]Pablo F,Jesús N,Adrien B.Fast explicit diffusion for acceleratedfeatures in nonlinear scale spaces[C]//British Machine Vision Conference,Bristol,UK,2013:1281-1298.

[6]NeubeckA,Gool L J V.Efficient Non-Maximum Suppression[C]//18thInternational Conference on Pattern Recognition(ICPR 2006),20-24August 2006,Hong Kong,China.IEEE Computer Society,2006.

[7]Thomas S,Johannes L,Galliani S,et al.A Multi-View Stereo Benchmarkwith High-Resolution Images and Multi-Camera Videos[C]//IEEE Computer SocietyConference on Computer Vision&Pattern Recognition.IEEE Computer Society,2017:3260-3269.

[8]Lowe D G.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[9]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[C]//IEEE Computer Society Conference on Computer Vision&PatternRecognition.2015:770-778.

[10]Hinton,Geoffrey,Nitish Srivastava,and Kevin Swersky."Neuralnetworks for machine learning lecture 6a Overview of mini-batch gradientdescent."Cited on 14(2012):8.

[11]Kingma D,Ba J.Adam:A Method for Stochastic Optimization[Z].arXivpreprint arXiv:1412.6980,2014.

[12]Lin T Y,Dollár,Piotr,Girshick R,et al.Feature Pyramid Networksfor Object Detection[J]. 2016.

[13]Mikolajczyk,Krystian,Cordelia S.A performance evaluation of localdescriptors[C]// IEEE Computer Society Conference on Computer Vision&PatternRecognition.2003:257-263。

Claims

1.一种基于特征金字塔网络的图像关键点检测方法，其特征在于，具体步骤如下：

(1.1)选取初始数据集ETH3D，且数据集为每帧图像提供精准的相机位姿以及对应的深度图；

(1.2)假设数据集中同一场景下有图像I₁,I₂…I_n，使用SIFT算法对每张图像I_i分别检测关键点，这里只选择最小尺度上的关键点，得到初始关键点集K_i；

(1.3)利用数据集提供的相机位姿和激光扫描深度图，计算出K_i点集中每个关键点在3D世界下的坐标，记K_i中关键点的3D世界坐标为G_i；

(1.4)将G₁中的关键点全局世界坐标分别与G₂,G₃,……G_n比较，如果存在g_1j与g_ik距离小于5厘米，则保存g_1j为候选关键点世界坐标并放入集合S₁，其中g_1j表示集合G₁中第j个点的世界坐标，g_ik表示集合G_i中第k个点的世界坐标，这里i不等于1；

(1.5)重复步骤(14)，分别将G₂,G₃,……G_n中的初步关键点世界坐标与其余集合G_i比较，得到集合S₂,S₃,…S_n；

(1.6)利用相机位姿和相机内参将集合S_i中的3D点重新投影其对应的图像I_i中，把这些关键点作为训练数据集的正样本，图像中的其他像素点作为负样本；

(2)利用特征金字塔网络检测图像关键点，包括构建特征金字塔网络，提取图像特征，并通过上采样模块将特征重构为原图大小的热度图，利用非极大值抑制和自适应阈值筛选出热度图中具备较大响应值的关键点。

2.根据权利要求1所述的基于特征金字塔网络的图像关键点检测方法，其特征在于，步骤(2)具体过程如下：

(2.1)构建图像特征金字塔网络模型，对于每一张图像，利用该模型输出一张分辨率相同的热度图，图中值表示该点为关键点的概率；

3.根据权利要求2所述的基于特征金字塔网络的图像关键点检测方法，其特征在于，步骤(2.1)中构建的图像特征金字塔网络模型，包含三个模块：

(2.1.1)自底向上模块，主要是卷积网络在图像最小尺度上的前向计算，其不同的特征层级隐射图像的不同尺度，缩放步长为2；

(2.1.2)自顶向下模块，其对更抽象、语义更强的高层特征图进行上采样，并通过横向连接将上采样结果和自底向上模块每层金字塔输出的相同大小的特征图进行融合；横向连接通过双线性插值上采样方法将低分辨率的特征图放大两倍，然后和自底向上模块输出的特征图按元素相加，生成最终的融合后的特征图；

(2.1.3)上采样模块，其通过双线性插值上采样和卷积层搭配使用将最后一层融合后的特征图恢复为和输入图像分辨率相同的热度图。

4.根据权利要求3所述的基于特征金字塔网络的图像关键点检测方法，其特征在于，步骤(2.2)中所述模型训练，具体过程如下：

当L(y)＝1时

当L(y)＝0时

表示损失函数，

表示训练时输入图像中正样本的损失函数，

(2.2.2)预训练模型：使用ResNet在ImageNet图像分类任务上预训练过的参数来初始化网络中的自底向上模块，并将该模块的学习率固定为0.0001，其余模块正常训练；

(2.2.3)训练策略：使用小批随机梯度下降方式进行训练，每批训练数据包含8张图像；将最大训练轮数设置为300，且每轮训练图像的输入顺序随机；网络自底向上模块使用预训练模型初始化，设置固定的学习率为0.0001，其余可训练模块统一使用学习率计划表：前30轮学习率为0.1，第31到80轮学习率为0.01，第81到180轮学习率为0.001，后面120轮学习率为0.0001；

训练优化算法使用Adam优化器。

5.根据权利要求4所述的基于特征金字塔网络的图像关键点检测方法，其特征在于，步骤(23)中所述测试阶段检测图像关键点，具体过程如下：

(231)输入图像，经过特征金字塔网络模型得到热度图后，利用非极大值抑制避免关键点堆积，即在一定区域内，只保留最高响应值；

(232)通过设置阈值筛选出响应值高的点作为图像关键点。