CN110929748A - 一种基于深度学习的运动模糊图像特征匹配方法 - Google Patents
一种基于深度学习的运动模糊图像特征匹配方法 Download PDFInfo
- Publication number
- CN110929748A CN110929748A CN201910969152.5A CN201910969152A CN110929748A CN 110929748 A CN110929748 A CN 110929748A CN 201910969152 A CN201910969152 A CN 201910969152A CN 110929748 A CN110929748 A CN 110929748A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- interest
- convolution
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000009466 transformation Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000004064 recycling Methods 0.000 claims 1
- 230000008929 regeneration Effects 0.000 claims 1
- 238000011069 regeneration method Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 7
- 230000000295 complement effect Effects 0.000 abstract description 2
- KRQUFUKTQHISJB-YYADALCUSA-N 2-[(E)-N-[2-(4-chlorophenoxy)propoxy]-C-propylcarbonimidoyl]-3-hydroxy-5-(thian-3-yl)cyclohex-2-en-1-one Chemical compound CCC\C(=N/OCC(C)OC1=CC=C(Cl)C=C1)C1=C(O)CC(CC1=O)C1CCCSC1 KRQUFUKTQHISJB-YYADALCUSA-N 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的运动模糊图像特征匹配方法。本发明步骤:1、利用全卷积网络训练“俄罗斯方块数据集”,得到训练后的MagicPoint网络;2、利用MagicPoint网络训练未加标签的真实图像数据集,再加上同形变换处理,生成伪标签;3、构建图像特征点提取和描述的网络结构SuperPoint,以前面的伪标签为基准,训练SuperPoint网络,最终输出运动模糊图像的描述符;4:利用前面步骤中得到的描述符,实现运动模糊图像的特征匹配。本发明成功将卷积神经网络应用于运动模糊图像的特征匹配工作,并开创性的打破传统先特征点提取后描述的思想,采用提取和描述同步进行的网络架构,并共享了大部分网络参数,降低网络的计算量,达到了特征点提取和描述之间相辅相成、互相促进的效果。
Description
技术领域
本发明涉及图像处理技术领域,尤其针对运动模糊图像的特征匹配,具体地说,提出了一种基于深度学习的图像特征点提取和匹配的方法。
背景技术
通常来讲,图像的特征匹配主要分为三个步骤:特征提取、特征描述和特征匹配。特征提取用来从图片中提取出关键点(或特征点、角点)等。有了关键点的信息,之后将对关键点进行描述,从而可以根据不同关键点的不同描述来判断关键点之间的匹配关系。用一组数学向量对特征点进行描述,其主要保证不同的向量和不同的特征点之间是一种一一对应的关系,同时相似的关键点之间的向量的差异尽可能小。在进行特征匹配的时候,将通过计算不同特征描述符向量之间距离的远近来判断特征点之间是否相似。特征点之间的匹配过程到该步骤其实就是特征向量之间的距离计算。常用的距离有欧式距离、汉明距离、余弦距离等等。
传统的图像特征匹配方法,如SIFT和ORB等,均是先进行特征提取,后进行特征匹配,两者是分开进行的。有不少学者对上述两种方法在应对光照和视角变化的场景中,进行了大量的应用和改进。但极少有人对运动模糊图像的特征匹配,进行过相关的研究。本发明所研究的正是针对快速运动情况下模糊图像的特征匹配。
随着深度学习的兴起,越来越多的学者开始研究将神经网络应用到图像的特征匹配中来。DeTone等人则提出一种基于VGG架构的新型全卷积神经网络SuperPoint,它打破了传统方法中,将特征提取和特征匹配分先后进行的固有思路,将两者同时进行,并且共用一部分网络结构和参数,以减少网络的训练量。该方法在应对光照和视角变化的场景中,取得了惊人的效果。
卷积神经网络已经被证明在许多方面优于传统的算法,且卷积特征具有尺度不变性、保持图像纹理信息等优点,因此将深度学习的方法用于快速运动情况下模糊图像的特征匹配工作,是极具研究价值的。我们在SuperPoint的基础上,加入了对训练数据的模糊处理,并将其训练好的网络模型应用到了运动模糊图像的特征匹配上,结果显示我们的方法比传统方法(如:SIFT和ORB)都要好。
发明内容
本发明主要研究的是运动模糊图像的特征匹配,需要解决的技术问题有:如何将当前火热的卷积神经网络应用于由相机快速运动导致的运动模糊图像的特征匹配。
本发明的灵感就来自于,在几乎所有将图像作为输入的任务中,卷积神经网络已经被证明优于传统手工方法。如今,许多学者将卷积神经网络应用于人体姿态估计、目标检测和房间布局估计等多个领域,并且取得了惊人的效果。
为了将“万能”的神经网络用于运动模糊图像的特征匹配,本发明采用如下四个步骤进行:
步骤1、利用全卷积网络训练“俄罗斯方块数据集”,得到训练后的网络MagicPoint;
训练卷积神经网络的关键之一是使用由人类手工标记的标签,然而,在图像的特征匹配工作,特别是运动模糊图像的特征点匹配工作中,所要提取的兴趣点在语义上是不明确的,无法按照传统的人工标记的方式去实现。为了解决这一难题,本发明采取神经网络自己给自己标记标签的方法,从而实现网络的自监督训练,避开了人工标记这一不易实现的步骤。
我们首先制作了一个大型的“俄罗斯方块数据集”,该数据集由大量的棋盘、立方体、椭圆、直线、多边形、星形和条纹等简单图形组成。我们将这些简单图形称为角点,有研究表明:这些形状简单的角点更适合作为兴趣点,用于两幅图像的特征点检测、描述和匹配。接着,我们又对“俄罗斯方块数据集”进行了模糊处理,将处理后的数据集用于训练一个全卷积神经网络,得到训练后的网络,我们称它为MagicPoint,使得MagicPoint在模糊图像中对兴趣点具有较好的检测效果。
步骤2、利用MagicPoint网络训练未加标签的真实图像数据集,再加上同形变换处理,生成伪标签;
为了得到伪标签,我们将未标记的真实数据集(这里选择MS-COCO 2014)作为输入,输送到MagicPoint,我们惊奇的发现,MagicPoint在泛化到真实数据集上时,对桌子、椅子、窗户等物体的检测特别敏感,然而除了这些点以外,别的兴趣点就检测的非常少了。我们采取一种叫做同形变换的方法来解决这一问题,同形变换是对MS-COCO 2014数据集进行大量的随机变形操作,以提高MagicPoint能够检测出更多潜在兴趣点的能力,特别是在图像的视角变换方面。我们将加入同形变换后的MagicPoint训练MS-COCO 2014输出的结果作为后续工作的伪标签。
步骤3、构建图像特征点提取和描述的网络结构SuperPoint,以前面的伪标签为基准,训练SuperPoint网络,最终输出运动模糊图像的描述符;
我们参考SuperPoint这一全卷积神经网络。该网络有一个单一的、共享的编码器,用于降低输入图像的维度,之后连接两个解码器,分别学习不同类型的权重,一个用于兴趣点提取,一个用于兴趣点描述,并且两个解码器网络的大部分参数都是共享的,这一点和传统方法中先进行兴趣点提取,后进行兴趣点描述的思想是不一致的,因为传统方法一先一后的思想无法做到提取和描述这两步骤的计算量共享,以及这两任务之间相辅相成,互相促进的效果。
在兴趣点提取结构中,加入了softmax层,并最后进行了reshape操作,损失函数用的常见的交叉熵函数。在兴趣点描述的结构中,加入了双三次插值和L2正则化,损失函数使用的是铰链损失。
构建好SuperPoint网络结构之后,将我们的目标数据集(运动模糊图像)输入网络,并以伪标签为参考,得到目标数据集的特征点描述符文件。
步骤4:利用前面步骤中得到的描述符文件,实现运动模糊图像的特征匹配;
在得到描述符文件之后,利用计算两个描述符向量之间的L2正则化距离,再使用暴力匹配的方法,得到两幅相邻帧运动模糊图像的匹配结果,我们还对传统方法进行了实验,结果显示,我们的方法优于传统的SIFT和ORB,在所有相邻帧运动模糊图像的匹配中,平均每对相邻帧图像的正确匹配数是最多的。
本发明方法具有的优点及有益结果为:
1、避开了传统的人工标记标签用于训练卷积神经网络的工作,因为图像的兴趣点在语义上是不明确的,是不容易采用人工标记实现的。而我们巧妙地让神经网络自己给自己标记伪标签的方式攻克了这一难题。
2、成功将卷积神经网络应用于运动模糊图像的特征匹配工作,并开创性的打破传统先特征点提取后描述的思想,采用提取和描述同步进行的网络架构,并共享了大部分网络参数,降低网络的计算量,还达到了特征点提取和描述之间相辅相成、互相促进的效果。
3、本发明最终实现了运动模糊图像的特征匹配,且效果优于传统的SIFT和ORB等方法,为即时定位与重建(SLAM)提供了可靠的描述符文件,特别是在相机快速运动下的SLAM场景中,我们的方法可以为回环检测提供必要的技术支持,帮助其减小累积误差,构建出更为准确的三维重建模型。
附图说明
图1是本发明制作的经过模糊处理后“俄罗斯方块数据集”的样例展示;
图2是本发明利用全卷积神经网络训练模糊处理后的“俄罗斯方块数据集”的流程图;
图3是本发明利用MagicPoint网络和MS-COCO数据集,再加上同形变换操作生成伪标签的流程图;
图4是本发明利用SuperPoint网络生成两幅相邻帧运动模糊图像的特征匹配流程展示图;
图5是本发明中提到的SuperPoint网络结构图。
图6是本发明在两幅相邻帧运动模糊图像特征匹配上的定性结果展示图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步的详细说明。
本发明提出了一种基于深度学习进行运动模糊图像特征匹配的方法。我们参考SuperPoint网络架构,该网络能实现特征点提取和描述同步进行,打破了传统方法中一先一后的思想,以达到提取和描述之间参数共享,减小计算量,以及两者之间相辅相成、互相促进的效果。另外,我们采用卷积神经网络自己给自己标记标签的方法,为目标数据集(运动模糊图像)制作伪标签,从而解决了不易在特征匹配工作中人工标记标签的问题。最终,我们以29对相邻帧运动模糊图像为例,对其进行了特征匹配,结果显示,相对于SIFT和ORB两种传统方法,我们的方法在平均每对相邻帧图像之间的正确匹配数是最多的。下面详细说明本发明的各个步骤:
步骤1、利用全卷积网络训练“俄罗斯方块数据集”,得到训练后的网络MagicPoint;
我们首先制作了一个大型的“俄罗斯方块数据集”,如图1所示。该数据集由大量的棋盘、立方体、椭圆、直线、多边形、星形和条纹等简单图形组成。我们还对“俄罗斯方块数据集”进行了4、8、12三种不同的模糊程度处理,以及0度、45度、90度、135度、180度、225度、270度、315度、360度共9种不同的角度变换,以增强卷积神经网络对运动模糊图像(我们的目标数据集)的兴趣点检测能力。
如图2所示,我们将SuperPoint网络(如图5所示)中去除特征点描述的部分用来训练前面提到的模糊处理和角度变换后的“俄罗斯方块数据集”,一共反复迭代训练了200,000次,将得到的网络称为MagicPoint。从而使得MagicPoint对(模糊)角点具有较好的检测能力。
步骤2、利用MagicPoint网络训练未加标签的真实图像数据集,再加上同形变换处理,生成伪标签;
在这里,我们选择MS-COCO 2014数据集作为未加标签的真实图像,输入到MagicPoint网络中,得到伪标签。在这一过程中,我们将MS-COCO 2014数据集中每幅图像的分辨率调整为240×320,并且所有图像均转变至灰度级图像。我们惊奇的发现,MagicPoint在泛化到真实数据集上时,对桌子、椅子、窗户等物体的检测特别敏感,然而除了这些点以外,别的兴趣点就检测的非常少了。
为了解决这一问题,我们采取一种叫做同形变换的方法。同形变换就是对MS-COCO2014数据集进行大量的随机变形操作,从而提高MagicPoint能够检测出更多潜在兴趣点的能力。下面详细说明同形变换的过程。
假设fθ(·)是我们希望的提取兴趣点函数,I为输入的图像,x为输入图像所对应的兴趣点,那么,我们有如下的对应关系:
x=fθ(I) (1)
一个理想的兴趣点检测算子对于同形变换应该是协变的,假设H是一个随机的同形变换,那么fθ(·)函数就是关于H的协变函数,则满足如下关系式:
Hx=fθ(H(I)) (2)
为了方便表述,我们轻微的滥用一下符号表达,我们用Hx表示同形变换H被应用到兴趣点上,H(I)表示图像I被应用H后的结果。
将同形变换矩阵H移至右边,可得如下结果:
x=H-1fθ(H(I)) (3)
在实践中,一个兴趣点检测器不会是完全协变的。在上面的等式中,不同的H会产生不同的兴趣点x。同形变换操作的基本思想就是对一个足够大的随机H样本进行求和平均,这样子在所有样本上求和平均的结果,我们称之为超点检测器,并记作
通过实验,我们决定取值Nh=100,并且将加入同形变换后的MagicPoint训练MS-COCO 2014输出的结果作为后续工作的伪标签,具体流程如图3所示。
步骤3、构建图像特征点提取和描述的网络结构SuperPoint,以前面的伪标签为基准,训练SuperPoint网络,最终输出运动模糊图像的描述符;
SuperPoint网络结构如图5所示,网络有一个共享的编码器,用于降低输入图像的维度,之后连接两个解码器,分别学习不同类型的权重,一个用于兴趣点提取,一个用于兴趣点描述,并且两个解码器网络的大部分参数都是共享的,这一点和传统方法中先进行兴趣点提取、后进行兴趣点描述的思想是不一样的,从而达到传统方法一先一后的思想无法做到提取和描述这两步骤的计算量共享,以及这两任务之间相辅相成,互相促进的效果。
对于共享的编码器,是基于VGG架构进行设计的,主要目的是降低输入图像的维度。编码器由卷积层、空间下采样池化层和非线性激活函数组成,一共分为4个部分。第一部分包含2个卷积核数量均为64的3×3的卷积层和一个2×2的最大池化层;第二部分和第一部分结构一模一样;第三部分包含2个卷积核数量均为128的3×3的卷积层和一个2×2的最大池化层;第四部分只包含2个卷积核数量均为128的3×3的卷积层。以上4个部分中,每个卷积层后面都接了一个ReLU非线性激活函数和BatchNorm正则化。经过3个最大池化层之后,图像尺寸由H×W变成了(H/8)×(W/8)。
在兴趣点提取结构中,首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为65的1×1的卷积层,每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化。第一部分对应输出的通道数为65,相当于局部的8×8网格区域,加上一个无兴趣点的回收箱。之后通过softmax层,去除了那个额外的无兴趣点回收箱。并最后通过reshape操作,将尺寸从(H/8)×(W/8)×64变回到H×W。
在兴趣点描述的结构中,首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为D(256)的1×1的卷积层,每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化。为了输出固定长度描述符的稠密映射,这里使用了类似于UCN的模型,首先输出半稠密的描述符网格(例如,每8个像素为一格),然后对描述符进行双三次插值和L2正则化。
最后的损失函数是两个损失函数的总和:一个用于兴趣点检测Lp,另一个用于兴趣点描述Ld。例如,我们给定两幅相邻帧运动模糊图像,如图4所示。我们同时优化这两个损失函数,并使用λ来平衡最后的损失。
L(X,X',D,D';Y,Y',S)=Lp(X,Y)+Lp(X',Y')+λLd(D,D',S) (5)
兴趣点提取部分对应的损失函数Lp采用的是常见的全卷积交叉熵损失。我们将实际输出整体记为X,相应的每一个输出记为xhw;将对应的标签整体记为Y,相应的每一个标签记为yhw。上面公式中的X'和Y'分别指代第二幅图像的实际输出和标签。具体的损失函数Lp公式如下:
其中,
兴趣点描述部分对应的损失函数Ld采用的是铰链损失方法。我们首先定义dhw∈D是第一幅图像的描述子单元,d'h'w'∈D'是第二副图像的描述子单元,(h,w)单元与(h',w')单元之间的对应关系可以写成如下表达式:
我们还添加了一个权重系数λd,来平衡负对应比正对应更多这一事实,我们使用具有正裕度mp和负裕度mn的铰链损失,兴趣点描述部分的损失函数定义如下:
其中,
ld(d,d',s)=λd*s*max(0,mp-dTd')+(1-s)*max(0,dTd'-mn) (10)
构建好SuperPoint网络结构之后,将我们的目标数据集(运动模糊图像)输入SuperPoint网络,并以伪标签为参考,得到目标数据集的特征点描述符文件。
在这里,详细介绍下我们在实验中,各个参数的取值情况。我们取值λd=250,用于平衡兴趣点描述部分网络的参数学习;铰链损失中取值正裕度mp=1和负裕度mn=0.2;取值λ=0.0001,用于平衡兴趣点检测和兴趣点描述两部分。用于训练的深度学习框架是TensorFlow 1.6。
步骤4:利用前面步骤中得到的描述符文件,实现运动模糊图像的特征匹配;
在得到描述符文件之后,利用计算两个描述符向量之间的L2正则化距离,再使用暴力匹配的方法,得到两幅相邻帧运动模糊图像的匹配结果。使用的是Opencv2库函数中自带的BFMatcher函数,并设置参数crossCheck为True,对匹配要求更加严格,保证匹配的正确性。实验的定性结果如图6所示,从图中可以看到,匹配的位置基本都是正确的。在定量表现方面。我们还对传统方法进行了实验,结果显示,我们的方法优于传统的SIFT和ORB,在一共29对相邻帧运动模糊图像的匹配中,平均每对相邻帧之间的正确匹配数是最多的,详细的定量结果如下表格所示。
表1平均每对相邻帧运动模糊图像的正确匹配数(一共29对)
Claims (8)
1.一种基于深度学习的运动模糊图像特征匹配方法,其特征在于包括如下步骤:
步骤1、利用全卷积网络训练“俄罗斯方块数据集”,得到训练后的MagicPoint网络;
步骤2、利用MagicPoint网络训练未加标签的真实图像数据集,再加上同形变换处理,生成伪标签;
步骤3、构建图像特征点提取和描述的网络结构SuperPoint,以前面的伪标签为基准,训练SuperPoint网络,最终输出运动模糊图像的描述符;
步骤4:利用前面步骤中得到的描述符,实现运动模糊图像的特征匹配。
2.根据权利要求1所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于步骤1具体实现如下:
采取神经网络自己给自己标记标签的方法,实现网络的自监督训练,避开了人工标记;首先制作一个大型的“俄罗斯方块数据集”,该数据集由大量的棋盘、立方体、椭圆、直线、多边形、星形和条纹图形组成;将图形称为角点,用于两幅图像的特征点检测、描述和匹配;其次又对“俄罗斯方块数据集”进行模糊处理,将处理后的数据集用于训练一个全卷积神经网络,得到训练后的网络MagicPoint。
3.根据权利要求2所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于步骤2具体实现如下:
将加入同形变换后的MagicPoint网络训练MS-COCO 2014输出的结果作为后续工作的伪标签。
4.根据权利要求3所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于步骤3具体如下:
以SuperPoint全卷积神经网络为基础,构建所需的SuperPoint网络结构;SuperPoint全卷积神经网络包括一个单一的、共享的编码器,用于降低输入图像的维度,编码器之后连接两个解码器,分别学习不同类型的权重,一个解码器用于兴趣点提取,另一个解码器用于兴趣点描述,且两个解码器网络的大部分参数都是共享的;
在兴趣点提取的解码器结构中加入softmax层,并最后进行reshape操作,损失函数用交叉熵函数;
在兴趣点描述的解码器结构中加入双三次插值和L2正则化,损失函数使用铰链损失;
构建好SuperPoint网络结构之后,将目标数据集(运动模糊图像)输入网络,并以伪标签为参考,得到目标数据集的特征点描述符文件。
5.根据权利要求4所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于步骤4具体实现如下:
在得到描述符文件之后,利用计算两个描述符向量之间的L2正则化距离,再使用暴力匹配的方法,得到两幅相邻帧运动模糊图像的匹配结果。
6.根据权利要求1或2或3或4或5所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于所述的同形变换具体实现如下:
假设fθ(·)是希望的提取兴趣点函数,I为输入的图像,x为输入图像所对应的兴趣点,那么有如下的对应关系:
x=fθ(I) (1)
一个理想的兴趣点检测算子对于同形变换应该是协变的,假设H是一个随机的同形变换,那么fθ(·)函数就是关于H的协变函数,则满足如下关系式:
Hx=fθ(H(I)) (2)
用Hx表示同形变换H被应用到兴趣点上,H(I)表示图像I被应用H后的结果,将同形变换矩阵H移至右边,可得如下结果:
x=H-1fθ(H(I)) (3)
在实践中,一个兴趣点检测器不会是完全协变的;在上面的等式中,不同的H会产生不同的兴趣点x;同形变换操作的基本思想就是对一个足够大的随机H样本进行求和平均,这样子在所有样本上求和平均的结果,我们称之为超点检测器,并记作
通过实验,决定取值Nh=100,并且将加入同形变换后的MagicPoint训练MS-COCO 2014输出的结果作为后续工作的伪标签。
7.根据权利要求4所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于共享的编码器是基于VGG架构进行设计的,编码器由卷积层、空间下采样池化层和非线性激活函数组成,一共分为4个部分;第一部分包含2个卷积核数量均为64的3×3的卷积层和一个2×2的最大池化层;第二部分和第一部分结构一模一样;第三部分包含2个卷积核数量均为128的3×3的卷积层和一个2×2的最大池化层;第四部分只包含2个卷积核数量均为128的3×3的卷积层;以上4个部分中,每个卷积层后面都接了一个ReLU非线性激活函数和BatchNorm正则化;经过3个最大池化层之后,图像尺寸由H×W变成了(H/8)×(W/8);
在兴趣点提取的解码器结构中,首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为65的1×1的卷积层,每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化;第一部分对应输出的通道数为65,相当于局部的8×8网格区域,加上一个无兴趣点的回收箱;之后通过softmax层,去除了那个额外的无兴趣点回收箱;并最后通过reshape操作,将尺寸从(H/8)×(W/8)×64变回到H×W;
在兴趣点描述的解码器结构中,首先接入的第一部分是一个卷积核数量为256的3×3的卷积层和一个卷积核数量为D(256)的1×1的卷积层,每个卷积层后面同样都接了一个ReLU非线性激活函数和BatchNorm正则化;为了输出固定长度描述符的稠密映射,这里使用了类似于UCN的模型,首先输出半稠密的描述符网格,然后对描述符进行双三次插值和L2正则化;
最后的损失函数是两个损失函数的总和:一个用于兴趣点检测Lp,另一个用于兴趣点描述Ld,同时优化这两个损失函数,并使用λ来平衡最后的损失;
L(X,X',D,D';Y,Y',S)=Lp(X,Y)+Lp(X',Y')+λLd(D,D',S) (5)
兴趣点提取部分对应的损失函数Lp采用全卷积交叉熵损失,将实际输出整体记为X,相应的每一个输出记为xhw;将对应的标签整体记为Y,相应的每一个标签记为yhw;上面公式中的X'和Y'分别指代第二幅图像的实际输出和标签;具体的损失函数Lp公式如下:
其中,
兴趣点描述部分对应的损失函数Ld采用铰链损失方法;首先定义dhw∈D是第一幅图像的描述子单元,d'h'w'∈D'是第二副图像的描述子单元,(h,w)单元与(h',w')单元之间的对应关系可以写成如下表达式:
添加一个权重系数λd来平衡负对应比正对应更多这一事实,使用具有正裕度mp和负裕度mn的铰链损失,兴趣点描述部分的损失函数定义如下:
其中,
ld(d,d',s)=λd*s*max(0,mp-dTd')+(1-s)*max(0,dTd'-mn) (10)。
8.根据权利要求7所述的一种基于深度学习的运动模糊图像特征匹配方法,其特征在于取值λd=250,用于平衡兴趣点描述部分网络的参数学习;铰链损失中取值正裕度mp=1和负裕度mn=0.2;取值λ=0.0001,用于平衡兴趣点检测和兴趣点描述两部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969152.5A CN110929748A (zh) | 2019-10-12 | 2019-10-12 | 一种基于深度学习的运动模糊图像特征匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969152.5A CN110929748A (zh) | 2019-10-12 | 2019-10-12 | 一种基于深度学习的运动模糊图像特征匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929748A true CN110929748A (zh) | 2020-03-27 |
Family
ID=69848833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910969152.5A Pending CN110929748A (zh) | 2019-10-12 | 2019-10-12 | 一种基于深度学习的运动模糊图像特征匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929748A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583340A (zh) * | 2020-04-28 | 2020-08-25 | 西安交通大学 | 基于卷积神经网络降低单目相机位姿估计误差率的方法 |
CN112861988A (zh) * | 2021-03-04 | 2021-05-28 | 西南科技大学 | 一种基于注意力图神经网络的特征匹配方法 |
CN113052311A (zh) * | 2021-03-16 | 2021-06-29 | 西北工业大学 | 具有跳层结构的特征提取网络及特征和描述子生成的方法 |
CN113298097A (zh) * | 2021-07-27 | 2021-08-24 | 电子科技大学 | 基于卷积神经网络的特征点提取方法、设备及存储介质 |
CN113361542A (zh) * | 2021-06-02 | 2021-09-07 | 合肥工业大学 | 一种基于深度学习的局部特征提取方法 |
CN113688842A (zh) * | 2021-08-05 | 2021-11-23 | 北京科技大学 | 一种基于解耦合的局部图像特征提取方法 |
CN113705391A (zh) * | 2021-08-10 | 2021-11-26 | 安徽友荣胜通信科技有限公司 | 个体时空关系推理的群体暴力行为检测方法 |
CN113712525A (zh) * | 2020-05-21 | 2021-11-30 | 深圳市理邦精密仪器股份有限公司 | 一种生理参数处理方法、装置及医疗设备 |
CN114863134A (zh) * | 2022-04-01 | 2022-08-05 | 浙大宁波理工学院 | 基于交替优化深度学习模型的三维模型兴趣点提取方法 |
CN117671022A (zh) * | 2023-11-02 | 2024-03-08 | 武汉大学 | 一种室内弱纹理环境的移动机器人视觉定位系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549892A (zh) * | 2018-06-12 | 2018-09-18 | 东南大学 | 一种基于卷积神经网络的车牌图像清晰化方法 |
CN109064502A (zh) * | 2018-07-11 | 2018-12-21 | 西北工业大学 | 基于深度学习和人工设计特征相结合的多源图像配准方法 |
-
2019
- 2019-10-12 CN CN201910969152.5A patent/CN110929748A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549892A (zh) * | 2018-06-12 | 2018-09-18 | 东南大学 | 一种基于卷积神经网络的车牌图像清晰化方法 |
CN109064502A (zh) * | 2018-07-11 | 2018-12-21 | 西北工业大学 | 基于深度学习和人工设计特征相结合的多源图像配准方法 |
Non-Patent Citations (1)
Title |
---|
DANIEL DETONE等: "SuperPoint: Self-Supervised Interest Point Detection and Description", 《ARXIV》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583340A (zh) * | 2020-04-28 | 2020-08-25 | 西安交通大学 | 基于卷积神经网络降低单目相机位姿估计误差率的方法 |
CN113712525A (zh) * | 2020-05-21 | 2021-11-30 | 深圳市理邦精密仪器股份有限公司 | 一种生理参数处理方法、装置及医疗设备 |
CN112861988A (zh) * | 2021-03-04 | 2021-05-28 | 西南科技大学 | 一种基于注意力图神经网络的特征匹配方法 |
CN113052311A (zh) * | 2021-03-16 | 2021-06-29 | 西北工业大学 | 具有跳层结构的特征提取网络及特征和描述子生成的方法 |
CN113052311B (zh) * | 2021-03-16 | 2024-01-19 | 西北工业大学 | 具有跳层结构的特征提取网络及特征和描述子生成的方法 |
CN113361542B (zh) * | 2021-06-02 | 2022-08-30 | 合肥工业大学 | 一种基于深度学习的局部特征提取方法 |
CN113361542A (zh) * | 2021-06-02 | 2021-09-07 | 合肥工业大学 | 一种基于深度学习的局部特征提取方法 |
CN113298097A (zh) * | 2021-07-27 | 2021-08-24 | 电子科技大学 | 基于卷积神经网络的特征点提取方法、设备及存储介质 |
CN113298097B (zh) * | 2021-07-27 | 2021-10-26 | 电子科技大学 | 基于卷积神经网络的特征点提取方法、设备及存储介质 |
CN113688842A (zh) * | 2021-08-05 | 2021-11-23 | 北京科技大学 | 一种基于解耦合的局部图像特征提取方法 |
CN113705391A (zh) * | 2021-08-10 | 2021-11-26 | 安徽友荣胜通信科技有限公司 | 个体时空关系推理的群体暴力行为检测方法 |
CN114863134A (zh) * | 2022-04-01 | 2022-08-05 | 浙大宁波理工学院 | 基于交替优化深度学习模型的三维模型兴趣点提取方法 |
CN117671022A (zh) * | 2023-11-02 | 2024-03-08 | 武汉大学 | 一种室内弱纹理环境的移动机器人视觉定位系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929748A (zh) | 一种基于深度学习的运动模糊图像特征匹配方法 | |
Chang et al. | Clkn: Cascaded lucas-kanade networks for image alignment | |
DeTone et al. | Superpoint: Self-supervised interest point detection and description | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
Cho et al. | Weakly-and self-supervised learning for content-aware deep image retargeting | |
Rafi et al. | An Efficient Convolutional Network for Human Pose Estimation. | |
CN108427924B (zh) | 一种基于旋转敏感特征的文本回归检测方法 | |
Danelljan et al. | Beyond correlation filters: Learning continuous convolution operators for visual tracking | |
CN110503680B (zh) | 一种基于非监督的卷积神经网络单目场景深度估计方法 | |
Eigen et al. | Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture | |
CN104008538B (zh) | 基于单张图像超分辨率方法 | |
CN107680116B (zh) | 一种监测视频图像中运动目标的方法 | |
CN112862792B (zh) | 一种用于小样本图像数据集的小麦白粉病孢子分割方法 | |
JP2014511608A (ja) | 対象物のモデル変換に基づくモデルパラメータの決定 | |
CN108509925B (zh) | 一种基于视觉词袋模型的行人重识别方法 | |
CN110197255A (zh) | 一种基于深度学习的可变形卷积网络 | |
CN111583340A (zh) | 基于卷积神经网络降低单目相机位姿估计误差率的方法 | |
CN107154017A (zh) | 一种基于sift特征点匹配的图像拼接方法 | |
Lu et al. | A no-reference image sharpness metric based on structural information using sparse representation | |
Guo et al. | HandNeRF: Neural radiance fields for animatable interacting hands | |
CN115439669A (zh) | 基于深度学习的特征点检测网络及跨分辨率图像匹配方法 | |
CN109934283A (zh) | 一种融合cnn和sift光流的自适应运动目标检测方法 | |
CN113361378A (zh) | 一种运用适应性数据增强的人体姿态估计方法 | |
CN113159158A (zh) | 一种基于生成对抗网络的车牌矫正与重构方法及系统 | |
Li et al. | Image synthesis via adversarial geometric consistency pursuit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |
|
RJ01 | Rejection of invention patent application after publication |