一种基于多尺度邻居深度神经网络的图像匹配方法
技术领域
本发明涉及计算机视觉技术,具体涉及一种基于多尺度邻居深度神经网络的图像匹配方法。
背景技术
建立可靠的特征匹配是计算机视觉中的一个基本问题,例如,多标签分类,全景拼接和几何模型拟合。找到鲁棒的特征匹配主要依赖于两个步骤,即匹配生成和匹配选择。第一步利用特征点初步生成匹配集。然而,由于局部特征点的定位误差和局部描述子的含糊不清,最初的匹配常常不可避免地被异常值所污染。因此,第二步(即从初步匹配中选择正确的匹配)在鲁棒匹配中扮演着重要的角色。
特征匹配方法方法主要可以分为参数方法,非参数方法和基于学习的方法。参数方法主要包括RANSAC(MartinA Fischler and Robert C Bolles.Random sampleconsensus:a paradigm for model fitting with applications to image analysisand automated cartography.Communications ofthe ACM,24(6):381–395,1981.)及其变体(例如SCRAMSAC(Torsten Sattler,Bastian Leibe,andLeif Kobbelt.Scramsac:Improving ransac’s efficiency with a spatial consistency filter.In ICCV,pages2090–2097,2009.)和LORANSAC(Ondˇrej Chum,Jiˇr′1Matas,andJosefKittler.Locally optimized ransac.InDAGM,pages 236–243,2003.))。它们首先对数据集进行采样生成单应性矩阵或基本矩阵,然后对生成的矩阵进行判定(即它是否为最大内点子集)并循环第一步和第二步。然而,这些方法有两个基本的缺点:1)当正确匹配占总匹配的比率较低时,它们不能有效地工作;2)参数方法善于描述单个几何模型,很难表达复杂模型(比如非刚性匹配和多一致性匹配)。
非参数方法主要挖掘特征点的局部信息以进行匹配。LPM(Jiayi Ma,JiZhao,JunjunJiang,Huabing Zhou,and Xiaojie Guo.Locality preservingmatching.International Journal of Computer Vision,127(5):512–531,2019.)假定同一场景或物体的图像对的特征点之间的空间邻域关系相似。GLPM(Jiayi Ma,JunjunJiang,Huabing Zhou,Ji Zhao,and Xiaojie Guo.Guided locality preserving featurematchingforremote sensing imageregistration.)将两个图像之间潜在的真实匹配的邻域结构公式化为数学模型,并利用数学模型进行快速匹配。非参数方法虽然利用了特征点的局部信息,但没有充分挖掘匹配对之间的局部信息。
基于深度学习的方法在计算机视觉任务被广泛的的使用。许多研究人员试图采用基于学习的方法来解决匹配任务。尽管已证明基于学习的方法优于参数方法和非参数方法,但在生成的推定匹配项中仍然存在大量错误匹配项。MooYi(Kwang Moo Yi,EduardTrulls,Yuki Ono,Vincent Lepetit,Mathieu Salzmann,and Pascal Fua.Learning tofind good correspondences.In Proceedings ofthe IEEE Conference on ComputerVision and Pattern Recognition,pages 2666–2674,2018.)等人的网络模型通过上下文标准化捕获全局上下文信息,并将上下文信息嵌入节点中,但是其上下文标准化不仅容易受到其他匹配对的影响,而且忽视了局部信息的挖掘。为了解决这个问题,NM-Net(ChenZhao,Zhiguo Cao,Chi Li,Xin Li,and Jiaqi Yang.Nm-net:Mining reliable neighborsfor robust feature correspondences.In CVPR,pages 215–224,2019.)通过匹配的特异相容的距离来定义邻居,并将定义的邻居组合形成新的邻居图以挖掘每个匹配对的局部信息。虽然NM-Net解决了LGC-Net的局部信息挖掘问题,但是NM-Net以相同的权重对待所有的邻居,忽视了不同邻居之间的信息。为了解决这个问题,我们提出了基于多尺度邻居的匹配神经网络模型。
发明内容
本发明的目的在于提供一种基于多尺度邻居深度神经网络的图像匹配方法,在基准数据集取得了最先进的性能,具备较好的鲁棒性。
为实现上述目的,本发明的技术方案是:一种基于多尺度邻居深度神经网络的图像匹配方法,首先,准备数据集;其次,对数据集进行预处理,并对处理后的数据进行特征增强;然后,对增强后的特征进行多尺度组合,之后对多尺度组合后的特征进行提取特征;最后,在测试阶段输出结果;所述方法具体包括如下步骤:
步骤S1、准备数据集:对于给定的图像对(I,I'),采用基于黑塞映射的检测子从图像中提取特征点kpi,kp′i,其中图像I提取的特征点集为KP={kpi}i∈N,图像I′提取的特征点集为KP′={kp′i}i∈N,每个对应关系(kpi,kp′i)可生成4D数据:
D=[d1;d2;d3;.......dN;],di=[xi,yi,x′i,y′i]
其中,D表示图像对的匹配组,di表示匹配对,(xi,yi),(x′i,y′i)表示图像对匹配中相应两个特征点的坐标;
步骤S2、特征增强:采用一个卷积核大小为1×1的卷积层将原始特征数据映射为一个32维的特征向量,即D(1×N×4)→D(1×N×32),其中,N为一张图片提取的特征点个数;
步骤S3、多尺度组合:通过基于黑塞映射方法提取局部信息的特征点,提出基于黑塞映射的兼容性距离,而后,采用多尺度近邻挖掘不同邻居的信息,按升序对数据之间的距离进行排序,最后,构造多尺度信息构造邻域图;
步骤S4、特征学习:使用残差网络作为预训练编码器对多尺度组合后的特征进行特征提取,其中残差网络由一个个残差块叠加而成;
步骤S5、测试:在测试阶段,将残差网络的输出设为初步预测结果,并且使用激活函数tanh和relu对初步预测结果进行处理,即:fx=relu(tanh(xout)),fx为最终结果。
在本发明一实施例中,所述步骤S3具体实现步骤如下:
S31、采用基于黑塞映射方法提取可以提供局部信息的特征点,该特征点可描述为一个3×3的矩阵:
其中,Ai代表特征点描述子,vi是一个通过黑塞映射提取的局部仿射信息组成的2×2矩阵,ui表示特征点的坐标位置;
S32、提出基于黑塞映射的兼容性距离,可表示为:
其中,α[a b c]T=[a/c b/c]T,由于sli(Ai·Aj)经常小于0,因此再使用高斯核评估数据之间的兼容性距离:
S33、采用多尺度近邻挖掘不同邻居的信息:首先,计算每两个数据的兼容性距离,其次,按升序对数据之间的距离进行排序:
其中,σ(A
i)表示相似排列的顺序集合;
表示与A
i相似度排名的第m个数据;
S34、使用从Ai中提取的多尺度信息构造邻域图:
其中,kn表示多尺度近邻的尺度,kn的下标m表示最大邻居。
在本发明一实施例中,所述步骤S4中,残差块的输入和输出的关系映射如下式所示:
x′=F(x,w)+x
其中x,x′是残差块的输入和输出,w是权重,F(·)是非线性变换。
在本发明一实施例中,该方法采用交叉熵损失函数来指导网络的学习,交叉熵损失函数如下式所示:
其中,yi就表示label,y'i表示预测值。
相较于现有技术,本发明具有以下有益效果:本发明方法在基准数据集取得了最先进的性能,具备较好的鲁棒性。
附图说明
图1为残差块结构图。
图2为本发明本发明的实施例的流程图。
图3为本发明实施的神经网络构架。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于多尺度邻居深度神经网络的图像匹配方法,首先,准备数据集;其次,对数据集进行预处理,并对处理后的数据进行特征增强;然后,对增强后的特征进行多尺度组合,之后对多尺度组合后的特征进行提取特征;最后,在测试阶段输出结果;所述方法具体包括如下步骤:
步骤S1、准备数据集:对于给定的图像对(I,I'),采用基于黑塞映射的检测子从图像中提取特征点kpi,kp′i,其中图像I提取的特征点集为KP={kpi}i∈N,图像I′提取的特征点集为KP′={kp′i}i∈N,每个对应关系(kpi,kp′i)可生成4D数据:
D=[d1;d2;d3;.......dN;],di=[xi,yi,x′i,y′i]
其中,D表示图像对的匹配组,di表示匹配对,(xi,yi),(x′i,y′i)表示图像对匹配中相应两个特征点的坐标;
步骤S2、特征增强:采用一个卷积核大小为1×1的卷积层将原始特征数据映射为一个32维的特征向量,即D(1×N×4)→D(1×N×32),其中,N为一张图片提取的特征点个数;
步骤S3、多尺度组合:通过基于黑塞映射方法提取局部信息的特征点,提出基于黑塞映射的兼容性距离,而后,采用多尺度近邻挖掘不同邻居的信息,按升序对数据之间的距离进行排序,最后,构造多尺度信息构造邻域图;
步骤S4、特征学习:使用残差网络作为预训练编码器对多尺度组合后的特征进行特征提取,其中残差网络由一个个残差块叠加而成;
步骤S5、测试:在测试阶段,将残差网络的输出设为初步预测结果,并且使用激活函数tanh和relu对初步预测结果进行处理,即:fx=relu(tanh(xout)),fx为最终结果。
以下为本发明的具体实现过程。
如图2、3所示,本发明一种基于多尺度邻居深度神经网络的图像匹配方法,首先,准备数据集;其次,对数据集进行预处理,并对处理后的数据进行特征增强;然后,对增强后的特征进行多尺度组合,之后对多尺度组合后的特征进行提取特征;最后,在测试阶段输出结果;所述方法具体包括如下步骤:
A、准备数据集:
对于给定的图像对(I,I'),采用基于黑塞映射的检测子从图像中提取特征点kpi,kp′i,其中图像I提取的特征点集为KP={kpi}i∈N,图像I′提取的特征点集为KP′={kp′i}i∈N,每个对应关系(kpi,kp′i)可生成4D数据:
D=[d1;d2;d3;.......dN;],di=[xi,yi,x′i,y′i]
其中,D表示图像对的匹配组,di表示匹配对,(xi,yi),(x′i,y′i)表示图像对匹配中相应两个特征点的坐标;
B、特征增强:
在特征增强阶段,为了减少网络特征学习带来的信息损失,采用一个卷积核大小为1×1的卷积层将原始特征数据映射为一个32维的特征向量,即D(1×N×4)→D(1×N×32),其中,N为一张图片提取的特征点个数;
C、多尺度组合:
C1、采用基于黑塞映射(hessian-affine)方法提取可以提供局部信息的特征点,该特征点可描述为一个3×3的矩阵:
其中,Ai代表特征点描述子,vi是一个通过黑塞映射提取的局部仿射信息组成的2×2矩阵,ui表示特征点的坐标位置;
C2、匹配数据普遍不符合欧式距离,为了更好的度量数据的距离,本申请提出了一种基于黑塞映射的兼容性距离,可表示为:
其中,α[a b c]T=[a/c b/c]T,由于sli(Ai·Aj)经常小于0,因此再使用高斯核评估数据之间的兼容性距离:
C3、为了进一步挖掘局部信息,本申请中采用多尺度近邻挖掘不同邻居的信息:首先,计算每两个数据的兼容性距离,其次,按升序对数据之间的距离进行排序:
其中,σ(A
i)表示相似排列的顺序集合;
表示与A
i相似度排名的第m个数据;
C4、使用从Ai中提取的多尺度信息构造邻域图:
其中,kn表示多尺度近邻的尺度,kn的下标m表示最大邻居。
D、特征学习:
在特征学习阶段,本申请采用残差网络作为预训练编码器进行多尺度特征提取,其中残差网络由一个个残差块叠加而成,如图1所示;残差块的输入和输出的关系映射如下式所示:
x′=F(x,w)+x
其中x,x′是残差块的输入和输出,w是权重,F(·)是非线性变换。
E、测试:
在模型测试阶段,我们使用卷积层聚合残差网络的输出结果。最后,本申请使用激活函数tanh和relu对预测的输出结果进行处理,即:fx=relu(tanh(xout)),fx为最终结果。在整个网络的训练中,本申请采用交叉熵损失函数来指导网络的学习,交叉熵损失函数如下式所示:
其中,yi就表示label,y'i表示预测值。
实验数据:
表1
|
F-测量值 |
准确率 |
召回率 |
Ransac |
0.8003 |
0.8189 |
0.8003 |
LPM |
0.7867 |
0.8765 |
0.7328 |
Point-Net |
0.9143 |
0.8937 |
0.9402 |
Piont-Net++ |
0.9683 |
0.9634 |
0.9741 |
LCG-Net |
0.9690 |
0.9690 |
0.9700 |
NM-Net |
0.9614 |
0.9587 |
0.9658 |
MS-Net |
0.9714 |
0.9717 |
0.9715 |
表1为本实施例与其他几种匹配算法COLMAP数据集的F-测量值,准确率,召回率量化对比。对比方法有Ransac(Martin A Fischler and Robert C Bolles.Random sampleconsensus:a paradigm for model fitting with applications to image analysisand automated cartography.Communications of the ACM,24(6):381–395,1981.),LPM(Jiayi Ma,Ji Zhao,Junjun Jiang,Huabing Zhou,and Xiaojie Guo.Localitypreserving matching.International Journal of Computer Vision,127(5):512–531,2019.),Point-Net(Charles R Qi,Hao Su,Kaichun Mo,and Leonidas JGuibas.Pointnet:Deep learning on point sets for 3d classification andsegmentation.In CVPR,pages652–660,2017.),Point-Net++(Charles Ruizhongtai Qi,Li Yi,Hao Su,and Leonidas J Guibas.Pointnet++:Deep hierarchical featurelearning on point sets in a metric space.In NIPS,pages 5099–5108,2017.),LCG-Net(Kwang Moo Yi,Eduard Trulls,Yuki Ono,Vincent Lepetit,Mathieu Salzmann,andPascal Fua.Learning to find good correspondences.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 2666–2674,2018.),NM-Net(Nm-net:Mining reliable neighbors for robust feature correspondences.InCVPR,pages 215–224,2019.)。从表1中,可以看到本发明方法显著提升了检测准确率,在六种方法中取得最好的效果。
综上所述,本发明提出的一种基于多尺度邻居深度神经网络的图像匹配方法,搜索每个对应关系的一致邻居以进行特征聚合;本发明方法定量和定性在公共数据集(NARROW)上进行测试,结果表明本发明方法明显优于其他算法。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。