CN110929748A

CN110929748A - 一种基于深度学习的运动模糊图像特征匹配方法

Info

Publication number: CN110929748A
Application number: CN201910969152.5A
Authority: CN
Inventors: 颜成钢; 郑锦凯; 陈利; 巩鹏博; 孙垚棋; 张继勇; 张勇东; 韩卫东; 沈韬
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-27

Abstract

本发明公开了一种基于深度学习的运动模糊图像特征匹配方法。本发明步骤：1、利用全卷积网络训练“俄罗斯方块数据集”，得到训练后的MagicPoint网络；2、利用MagicPoint网络训练未加标签的真实图像数据集，再加上同形变换处理，生成伪标签；3、构建图像特征点提取和描述的网络结构SuperPoint，以前面的伪标签为基准，训练SuperPoint网络，最终输出运动模糊图像的描述符；4：利用前面步骤中得到的描述符，实现运动模糊图像的特征匹配。本发明成功将卷积神经网络应用于运动模糊图像的特征匹配工作，并开创性的打破传统先特征点提取后描述的思想，采用提取和描述同步进行的网络架构，并共享了大部分网络参数，降低网络的计算量，达到了特征点提取和描述之间相辅相成、互相促进的效果。

Description

一种基于深度学习的运动模糊图像特征匹配方法

技术领域

本发明涉及图像处理技术领域，尤其针对运动模糊图像的特征匹配，具体地说，提出了一种基于深度学习的图像特征点提取和匹配的方法。

背景技术

通常来讲，图像的特征匹配主要分为三个步骤：特征提取、特征描述和特征匹配。特征提取用来从图片中提取出关键点(或特征点、角点)等。有了关键点的信息，之后将对关键点进行描述，从而可以根据不同关键点的不同描述来判断关键点之间的匹配关系。用一组数学向量对特征点进行描述，其主要保证不同的向量和不同的特征点之间是一种一一对应的关系，同时相似的关键点之间的向量的差异尽可能小。在进行特征匹配的时候，将通过计算不同特征描述符向量之间距离的远近来判断特征点之间是否相似。特征点之间的匹配过程到该步骤其实就是特征向量之间的距离计算。常用的距离有欧式距离、汉明距离、余弦距离等等。

传统的图像特征匹配方法，如SIFT和ORB等，均是先进行特征提取，后进行特征匹配，两者是分开进行的。有不少学者对上述两种方法在应对光照和视角变化的场景中，进行了大量的应用和改进。但极少有人对运动模糊图像的特征匹配，进行过相关的研究。本发明所研究的正是针对快速运动情况下模糊图像的特征匹配。

随着深度学习的兴起，越来越多的学者开始研究将神经网络应用到图像的特征匹配中来。DeTone等人则提出一种基于VGG架构的新型全卷积神经网络SuperPoint，它打破了传统方法中，将特征提取和特征匹配分先后进行的固有思路，将两者同时进行，并且共用一部分网络结构和参数，以减少网络的训练量。该方法在应对光照和视角变化的场景中，取得了惊人的效果。

卷积神经网络已经被证明在许多方面优于传统的算法，且卷积特征具有尺度不变性、保持图像纹理信息等优点，因此将深度学习的方法用于快速运动情况下模糊图像的特征匹配工作，是极具研究价值的。我们在SuperPoint的基础上，加入了对训练数据的模糊处理，并将其训练好的网络模型应用到了运动模糊图像的特征匹配上，结果显示我们的方法比传统方法(如：SIFT和ORB)都要好。

发明内容

本发明主要研究的是运动模糊图像的特征匹配，需要解决的技术问题有：如何将当前火热的卷积神经网络应用于由相机快速运动导致的运动模糊图像的特征匹配。

本发明的灵感就来自于，在几乎所有将图像作为输入的任务中，卷积神经网络已经被证明优于传统手工方法。如今，许多学者将卷积神经网络应用于人体姿态估计、目标检测和房间布局估计等多个领域，并且取得了惊人的效果。

为了将“万能”的神经网络用于运动模糊图像的特征匹配，本发明采用如下四个步骤进行：

步骤1、利用全卷积网络训练“俄罗斯方块数据集”，得到训练后的网络MagicPoint；

训练卷积神经网络的关键之一是使用由人类手工标记的标签，然而，在图像的特征匹配工作，特别是运动模糊图像的特征点匹配工作中，所要提取的兴趣点在语义上是不明确的，无法按照传统的人工标记的方式去实现。为了解决这一难题，本发明采取神经网络自己给自己标记标签的方法，从而实现网络的自监督训练，避开了人工标记这一不易实现的步骤。

我们首先制作了一个大型的“俄罗斯方块数据集”，该数据集由大量的棋盘、立方体、椭圆、直线、多边形、星形和条纹等简单图形组成。我们将这些简单图形称为角点，有研究表明：这些形状简单的角点更适合作为兴趣点，用于两幅图像的特征点检测、描述和匹配。接着，我们又对“俄罗斯方块数据集”进行了模糊处理，将处理后的数据集用于训练一个全卷积神经网络，得到训练后的网络，我们称它为MagicPoint，使得MagicPoint在模糊图像中对兴趣点具有较好的检测效果。

步骤2、利用MagicPoint网络训练未加标签的真实图像数据集，再加上同形变换处理，生成伪标签；

为了得到伪标签，我们将未标记的真实数据集(这里选择MS-COCO 2014)作为输入，输送到MagicPoint，我们惊奇的发现，MagicPoint在泛化到真实数据集上时，对桌子、椅子、窗户等物体的检测特别敏感，然而除了这些点以外，别的兴趣点就检测的非常少了。我们采取一种叫做同形变换的方法来解决这一问题，同形变换是对MS-COCO 2014数据集进行大量的随机变形操作，以提高MagicPoint能够检测出更多潜在兴趣点的能力，特别是在图像的视角变换方面。我们将加入同形变换后的MagicPoint训练MS-COCO 2014输出的结果作为后续工作的伪标签。

步骤3、构建图像特征点提取和描述的网络结构SuperPoint，以前面的伪标签为基准，训练SuperPoint网络，最终输出运动模糊图像的描述符；

我们参考SuperPoint这一全卷积神经网络。该网络有一个单一的、共享的编码器，用于降低输入图像的维度，之后连接两个解码器，分别学习不同类型的权重，一个用于兴趣点提取，一个用于兴趣点描述，并且两个解码器网络的大部分参数都是共享的，这一点和传统方法中先进行兴趣点提取，后进行兴趣点描述的思想是不一致的，因为传统方法一先一后的思想无法做到提取和描述这两步骤的计算量共享，以及这两任务之间相辅相成，互相促进的效果。

在兴趣点提取结构中，加入了softmax层，并最后进行了reshape操作，损失函数用的常见的交叉熵函数。在兴趣点描述的结构中，加入了双三次插值和L2正则化，损失函数使用的是铰链损失。

构建好SuperPoint网络结构之后，将我们的目标数据集(运动模糊图像)输入网络，并以伪标签为参考，得到目标数据集的特征点描述符文件。

步骤4：利用前面步骤中得到的描述符文件，实现运动模糊图像的特征匹配；

在得到描述符文件之后，利用计算两个描述符向量之间的L2正则化距离，再使用暴力匹配的方法，得到两幅相邻帧运动模糊图像的匹配结果，我们还对传统方法进行了实验，结果显示，我们的方法优于传统的SIFT和ORB，在所有相邻帧运动模糊图像的匹配中，平均每对相邻帧图像的正确匹配数是最多的。

本发明方法具有的优点及有益结果为：

1、避开了传统的人工标记标签用于训练卷积神经网络的工作，因为图像的兴趣点在语义上是不明确的，是不容易采用人工标记实现的。而我们巧妙地让神经网络自己给自己标记伪标签的方式攻克了这一难题。

2、成功将卷积神经网络应用于运动模糊图像的特征匹配工作，并开创性的打破传统先特征点提取后描述的思想，采用提取和描述同步进行的网络架构，并共享了大部分网络参数，降低网络的计算量，还达到了特征点提取和描述之间相辅相成、互相促进的效果。

3、本发明最终实现了运动模糊图像的特征匹配，且效果优于传统的SIFT和ORB等方法，为即时定位与重建(SLAM)提供了可靠的描述符文件，特别是在相机快速运动下的SLAM场景中，我们的方法可以为回环检测提供必要的技术支持，帮助其减小累积误差，构建出更为准确的三维重建模型。

附图说明

图1是本发明制作的经过模糊处理后“俄罗斯方块数据集”的样例展示；

图2是本发明利用全卷积神经网络训练模糊处理后的“俄罗斯方块数据集”的流程图；

图3是本发明利用MagicPoint网络和MS-COCO数据集，再加上同形变换操作生成伪标签的流程图；

图4是本发明利用SuperPoint网络生成两幅相邻帧运动模糊图像的特征匹配流程展示图；

图5是本发明中提到的SuperPoint网络结构图。

图6是本发明在两幅相邻帧运动模糊图像特征匹配上的定性结果展示图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步的详细说明。

本发明提出了一种基于深度学习进行运动模糊图像特征匹配的方法。我们参考SuperPoint网络架构，该网络能实现特征点提取和描述同步进行，打破了传统方法中一先一后的思想，以达到提取和描述之间参数共享，减小计算量，以及两者之间相辅相成、互相促进的效果。另外，我们采用卷积神经网络自己给自己标记标签的方法，为目标数据集(运动模糊图像)制作伪标签，从而解决了不易在特征匹配工作中人工标记标签的问题。最终，我们以29对相邻帧运动模糊图像为例，对其进行了特征匹配，结果显示，相对于SIFT和ORB两种传统方法，我们的方法在平均每对相邻帧图像之间的正确匹配数是最多的。下面详细说明本发明的各个步骤：

我们首先制作了一个大型的“俄罗斯方块数据集”，如图1所示。该数据集由大量的棋盘、立方体、椭圆、直线、多边形、星形和条纹等简单图形组成。我们还对“俄罗斯方块数据集”进行了4、8、12三种不同的模糊程度处理，以及0度、45度、90度、135度、180度、225度、270度、315度、360度共9种不同的角度变换，以增强卷积神经网络对运动模糊图像(我们的目标数据集)的兴趣点检测能力。

如图2所示，我们将SuperPoint网络(如图5所示)中去除特征点描述的部分用来训练前面提到的模糊处理和角度变换后的“俄罗斯方块数据集”，一共反复迭代训练了200,000次，将得到的网络称为MagicPoint。从而使得MagicPoint对(模糊)角点具有较好的检测能力。

在这里，我们选择MS-COCO 2014数据集作为未加标签的真实图像，输入到MagicPoint网络中，得到伪标签。在这一过程中，我们将MS-COCO 2014数据集中每幅图像的分辨率调整为240×320，并且所有图像均转变至灰度级图像。我们惊奇的发现，MagicPoint在泛化到真实数据集上时，对桌子、椅子、窗户等物体的检测特别敏感，然而除了这些点以外，别的兴趣点就检测的非常少了。

为了解决这一问题，我们采取一种叫做同形变换的方法。同形变换就是对MS-COCO2014数据集进行大量的随机变形操作，从而提高MagicPoint能够检测出更多潜在兴趣点的能力。下面详细说明同形变换的过程。

假设f_θ(·)是我们希望的提取兴趣点函数，I为输入的图像，x为输入图像所对应的兴趣点，那么，我们有如下的对应关系：

x＝f_θ(I) (1)

一个理想的兴趣点检测算子对于同形变换应该是协变的，假设H是一个随机的同形变换，那么f_θ(·)函数就是关于H的协变函数，则满足如下关系式：

Hx＝f_θ(H(I)) (2)

为了方便表述，我们轻微的滥用一下符号表达，我们用Hx表示同形变换H被应用到兴趣点上，H(I)表示图像I被应用H后的结果。

将同形变换矩阵H移至右边，可得如下结果：

x＝H^-1f_θ(H(I)) (3)

在实践中，一个兴趣点检测器不会是完全协变的。在上面的等式中，不同的H会产生不同的兴趣点x。同形变换操作的基本思想就是对一个足够大的随机H样本进行求和平均，这样子在所有样本上求和平均的结果，我们称之为超点检测器，并记作

通过实验，我们决定取值N_h＝100，并且将加入同形变换后的MagicPoint训练MS-COCO 2014输出的结果作为后续工作的伪标签，具体流程如图3所示。

SuperPoint网络结构如图5所示，网络有一个共享的编码器，用于降低输入图像的维度，之后连接两个解码器，分别学习不同类型的权重，一个用于兴趣点提取，一个用于兴趣点描述，并且两个解码器网络的大部分参数都是共享的，这一点和传统方法中先进行兴趣点提取、后进行兴趣点描述的思想是不一样的，从而达到传统方法一先一后的思想无法做到提取和描述这两步骤的计算量共享，以及这两任务之间相辅相成，互相促进的效果。

对于共享的编码器，是基于VGG架构进行设计的，主要目的是降低输入图像的维度。编码器由卷积层、空间下采样池化层和非线性激活函数组成，一共分为4个部分。第一部分包含2个卷积核数量均为64的3×3的卷积层和一个2×2的最大池化层；第二部分和第一部分结构一模一样；第三部分包含2个卷积核数量均为128的3×3的卷积层和一个2×2的最大池化层；第四部分只包含2个卷积核数量均为128的3×3的卷积层。以上4个部分中，每个卷积层后面都接了一个ReLU非线性激活函数和BatchNorm正则化。经过3个最大池化层之后，图像尺寸由H×W变成了(H/8)×(W/8)。

在兴趣点提取结构中，首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为65的1×1的卷积层，每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化。第一部分对应输出的通道数为65，相当于局部的8×8网格区域，加上一个无兴趣点的回收箱。之后通过softmax层，去除了那个额外的无兴趣点回收箱。并最后通过reshape操作，将尺寸从(H/8)×(W/8)×64变回到H×W。

在兴趣点描述的结构中，首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为D(256)的1×1的卷积层，每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化。为了输出固定长度描述符的稠密映射，这里使用了类似于UCN的模型，首先输出半稠密的描述符网格(例如，每8个像素为一格)，然后对描述符进行双三次插值和L2正则化。

最后的损失函数是两个损失函数的总和：一个用于兴趣点检测L_p，另一个用于兴趣点描述L_d。例如，我们给定两幅相邻帧运动模糊图像，如图4所示。我们同时优化这两个损失函数，并使用λ来平衡最后的损失。

L(X,X',D,D'；Y,Y',S)＝L_p(X,Y)+L_p(X',Y')+λL_d(D,D',S) (5)

兴趣点提取部分对应的损失函数L_p采用的是常见的全卷积交叉熵损失。我们将实际输出整体记为X，相应的每一个输出记为x_hw；将对应的标签整体记为Y，相应的每一个标签记为y_hw。上面公式中的X'和Y'分别指代第二幅图像的实际输出和标签。具体的损失函数L_p公式如下：

其中，

兴趣点描述部分对应的损失函数L_d采用的是铰链损失方法。我们首先定义d_hw∈D是第一幅图像的描述子单元，d'_h'w'∈D'是第二副图像的描述子单元，(h,w)单元与(h',w')单元之间的对应关系可以写成如下表达式：

其中p_hw指代(h,w)单元中心像素的位置，

指代p_hw乘上H并除以最后的坐标，这在欧几里德坐标和齐次坐标之间的转换中时常用到。最后，我们用大写的S指代一对图像中所有的对应关系。

我们还添加了一个权重系数λ_d，来平衡负对应比正对应更多这一事实，我们使用具有正裕度m_p和负裕度m_n的铰链损失，兴趣点描述部分的损失函数定义如下：

其中，

l_d(d,d',s)＝λ_d*s*max(0,m_p-d^Td')+(1-s)*max(0,d^Td'-m_n) (10)

构建好SuperPoint网络结构之后，将我们的目标数据集(运动模糊图像)输入SuperPoint网络，并以伪标签为参考，得到目标数据集的特征点描述符文件。

在这里，详细介绍下我们在实验中，各个参数的取值情况。我们取值λ_d＝250，用于平衡兴趣点描述部分网络的参数学习；铰链损失中取值正裕度m_p＝1和负裕度m_n＝0.2；取值λ＝0.0001，用于平衡兴趣点检测和兴趣点描述两部分。用于训练的深度学习框架是TensorFlow 1.6。

在得到描述符文件之后，利用计算两个描述符向量之间的L2正则化距离，再使用暴力匹配的方法，得到两幅相邻帧运动模糊图像的匹配结果。使用的是Opencv2库函数中自带的BFMatcher函数，并设置参数crossCheck为True，对匹配要求更加严格，保证匹配的正确性。实验的定性结果如图6所示，从图中可以看到，匹配的位置基本都是正确的。在定量表现方面。我们还对传统方法进行了实验，结果显示，我们的方法优于传统的SIFT和ORB，在一共29对相邻帧运动模糊图像的匹配中，平均每对相邻帧之间的正确匹配数是最多的，详细的定量结果如下表格所示。

表1平均每对相邻帧运动模糊图像的正确匹配数(一共29对)

Claims

1.一种基于深度学习的运动模糊图像特征匹配方法，其特征在于包括如下步骤：

步骤1、利用全卷积网络训练“俄罗斯方块数据集”，得到训练后的MagicPoint网络；

步骤4：利用前面步骤中得到的描述符，实现运动模糊图像的特征匹配。

2.根据权利要求1所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于步骤1具体实现如下：

采取神经网络自己给自己标记标签的方法，实现网络的自监督训练，避开了人工标记；首先制作一个大型的“俄罗斯方块数据集”，该数据集由大量的棋盘、立方体、椭圆、直线、多边形、星形和条纹图形组成；将图形称为角点，用于两幅图像的特征点检测、描述和匹配；其次又对“俄罗斯方块数据集”进行模糊处理，将处理后的数据集用于训练一个全卷积神经网络，得到训练后的网络MagicPoint。

3.根据权利要求2所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于步骤2具体实现如下：

将加入同形变换后的MagicPoint网络训练MS-COCO 2014输出的结果作为后续工作的伪标签。

4.根据权利要求3所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于步骤3具体如下：

以SuperPoint全卷积神经网络为基础，构建所需的SuperPoint网络结构；SuperPoint全卷积神经网络包括一个单一的、共享的编码器，用于降低输入图像的维度，编码器之后连接两个解码器，分别学习不同类型的权重，一个解码器用于兴趣点提取，另一个解码器用于兴趣点描述，且两个解码器网络的大部分参数都是共享的；

在兴趣点提取的解码器结构中加入softmax层，并最后进行reshape操作，损失函数用交叉熵函数；

在兴趣点描述的解码器结构中加入双三次插值和L2正则化，损失函数使用铰链损失；

构建好SuperPoint网络结构之后，将目标数据集(运动模糊图像)输入网络，并以伪标签为参考，得到目标数据集的特征点描述符文件。

5.根据权利要求4所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于步骤4具体实现如下：

在得到描述符文件之后，利用计算两个描述符向量之间的L2正则化距离，再使用暴力匹配的方法，得到两幅相邻帧运动模糊图像的匹配结果。

6.根据权利要求1或2或3或4或5所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于所述的同形变换具体实现如下：

假设f_θ(·)是希望的提取兴趣点函数，I为输入的图像，x为输入图像所对应的兴趣点，那么有如下的对应关系：

x＝f_θ(I) (1)

Hx＝f_θ(H(I)) (2)

用Hx表示同形变换H被应用到兴趣点上，H(I)表示图像I被应用H后的结果，将同形变换矩阵H移至右边，可得如下结果：

x＝H^-1f_θ(H(I)) (3)

在实践中，一个兴趣点检测器不会是完全协变的；在上面的等式中，不同的H会产生不同的兴趣点x；同形变换操作的基本思想就是对一个足够大的随机H样本进行求和平均，这样子在所有样本上求和平均的结果，我们称之为超点检测器，并记作

通过实验，决定取值N_h＝100，并且将加入同形变换后的MagicPoint训练MS-COCO 2014输出的结果作为后续工作的伪标签。

7.根据权利要求4所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于共享的编码器是基于VGG架构进行设计的，编码器由卷积层、空间下采样池化层和非线性激活函数组成，一共分为4个部分；第一部分包含2个卷积核数量均为64的3×3的卷积层和一个2×2的最大池化层；第二部分和第一部分结构一模一样；第三部分包含2个卷积核数量均为128的3×3的卷积层和一个2×2的最大池化层；第四部分只包含2个卷积核数量均为128的3×3的卷积层；以上4个部分中，每个卷积层后面都接了一个ReLU非线性激活函数和BatchNorm正则化；经过3个最大池化层之后，图像尺寸由H×W变成了(H/8)×(W/8)；

在兴趣点提取的解码器结构中，首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为65的1×1的卷积层，每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化；第一部分对应输出的通道数为65，相当于局部的8×8网格区域，加上一个无兴趣点的回收箱；之后通过softmax层，去除了那个额外的无兴趣点回收箱；并最后通过reshape操作，将尺寸从(H/8)×(W/8)×64变回到H×W；

在兴趣点描述的解码器结构中，首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为D(256)的1×1的卷积层，每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化；为了输出固定长度描述符的稠密映射，这里使用了类似于UCN的模型，首先输出半稠密的描述符网格，然后对描述符进行双三次插值和L2正则化；

最后的损失函数是两个损失函数的总和：一个用于兴趣点检测L_p，另一个用于兴趣点描述L_d，同时优化这两个损失函数，并使用λ来平衡最后的损失；

L(X,X',D,D'；Y,Y',S)＝L_p(X,Y)+L_p(X',Y')+λL_d(D,D',S) (5)

兴趣点提取部分对应的损失函数L_p采用全卷积交叉熵损失，将实际输出整体记为X，相应的每一个输出记为x_hw；将对应的标签整体记为Y，相应的每一个标签记为y_hw；上面公式中的X'和Y'分别指代第二幅图像的实际输出和标签；具体的损失函数L_p公式如下：

其中，

兴趣点描述部分对应的损失函数L_d采用铰链损失方法；首先定义d_hw∈D是第一幅图像的描述子单元，d'_h'w'∈D'是第二副图像的描述子单元，(h,w)单元与(h',w')单元之间的对应关系可以写成如下表达式：

其中p_hw指代(h,w)单元中心像素的位置，

指代p_hw乘上H并除以最后的坐标，这在欧几里德坐标和齐次坐标之间的转换中时常用到；最后用大写的S指代一对图像中所有的对应关系；

添加一个权重系数λ_d来平衡负对应比正对应更多这一事实，使用具有正裕度m_p和负裕度m_n的铰链损失，兴趣点描述部分的损失函数定义如下：

其中，

l_d(d,d',s)＝λ_d*s*max(0,m_p-d^Td')+(1-s)*max(0,d^Td'-m_n) (10)。

8.根据权利要求7所述的一种基于深度学习的运动模糊图像特征匹配方法，其特征在于取值λ_d＝250，用于平衡兴趣点描述部分网络的参数学习；铰链损失中取值正裕度m_p＝1和负裕度m_n＝0.2；取值λ＝0.0001，用于平衡兴趣点检测和兴趣点描述两部分。