CN115841422A - 基于金字塔结构超分辨率网络的图像拼接方法 - Google Patents

基于金字塔结构超分辨率网络的图像拼接方法 Download PDF

Info

Publication number
CN115841422A
CN115841422A CN202211547399.6A CN202211547399A CN115841422A CN 115841422 A CN115841422 A CN 115841422A CN 202211547399 A CN202211547399 A CN 202211547399A CN 115841422 A CN115841422 A CN 115841422A
Authority
CN
China
Prior art keywords
feature
network
super
resolution
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211547399.6A
Other languages
English (en)
Inventor
樊凌雁
彭义辉
王洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211547399.6A priority Critical patent/CN115841422A/zh
Publication of CN115841422A publication Critical patent/CN115841422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了基于金字塔结构超分辨率网络的图像拼接方法,S11,使用Microsoft COCO生成一个图像拼接数据集;S12,通过数据加载器加载生成的图像拼接数据集;S13,数据加载器单次从图像拼接数据集中获取两张相对应的图像,将其送入特征提取网络,通过特征提取器获取图片的特征向量,一幅图像输出三个特征图;S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换;S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;S16,将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络,预测偏移量,预测出的偏移量与单应性相对应;S17,通过训练将求得最优参数使得损失函数最小。

Description

基于金字塔结构超分辨率网络的图像拼接方法
技术领域
本发明属于图像处理技术领域,涉及一种基于金字塔结构超分辨率网络的图像拼接方法。
背景技术
在计算机视觉领域,图像拼接是经典并且十分重要的研究方向。它的目的在于由两张或多张窄视野的图像自主生成一幅具有宽阔视野的图像。目前主流的方案有两大类:一类是传统方案,另一类则是基于深度学习的方案。两者的主要区别在于特征点提取方法。主流的流程为特征提取、图像配准、计算单应性矩阵、变形和融合。
传统方案一般会运用SIFT或者Harris等特征点检测方法检测到特征点后使用一个全局的单应性矩阵对图像进行缝合。以深度学习为基础的图像拼接仍然在发展当中,目前主流有基于特征点再计算单应性矩阵以及直接运用深度学习网络预测图像四个顶点的八个偏移从而确定对应的单应性两种方案。
由于传统的特征点检测方案一般只会运用一个单应性矩阵进行计算,因此容易产生重影、健壮性也不高。而深度学习方案很多时候是设计了特定的拼接情况。不能拼接任意视图中的图片。而自由拼接的深度学习方案在实际的应用中拼接质量并不能令人满意,尤其是在大基线场景下。其原因主要在于大基线场景下图片重叠率太低,特征距离过远而卷积的感受野过窄。
发明内容
本发明使用超分辨率方法加强图像拼接效果的深度学习网络。单应性估计阶段是深度学习进行图像拼接的重要阶段,但是当前提出的大部分深度学习网络普遍存在两个问题:首先是很多方法都只会使用最后一层卷积层得到的特征进行单应性的预测,这样就会浪费掉之前卷积得到的不同水平的特征,与此同时只使用单一尺度估计单应性矩阵也很难得到精确的结果。其次是在大基线的图像拼接场景下,目前提出的方法大部分效果都相对较差。因为需要匹配的特征在大基线场景下距离非常远,而卷积核的感受野受到卷积核的限制难以有效工作。
第一个问题可以通过多层金字塔网络结构提取图像特征解决,这样就可以输出多个尺度的特征。第二个问题本发明采用了超分辨的方法扩大了卷积核的感受野。
具体技术方案为包括以下步骤:
S1,使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型;
S2,使用经过训练的神经网络模型,即S1得到的超分辨率神经网络模型,进行深度单应性预测;
其中,S1具体包括以下步骤:
S11,使用Microsoft COCO生成一个图像拼接数据集;
S12,将生成的图像拼接数据集送入特征提取网络,通过特征提取获取图片的特征向量;
S13,将两张图片送入特征提取网络,输出三个特征图F4、F3、F2以进行下一步融合操作,其大小分别为
Figure BDA0003979910030000021
其中F为输入图片大小;
S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′4、F′3、F′2
F′4=F4
F′3=T(F′4)+F3
F′2=T(F′3)+F2
其中,T代表步长为2的转置卷积操作;
S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;
S16,将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络,预测偏移量,预测出的偏移量与单应性相对应;
S17,通过训练将求得最优参数使得损失函数最小。
优选地,所述S11中在拼接数据集的图片中添加随机扰动以及随机平移。
优选地,所述S11中生成50000张图片作为训练集,5000张图片作为测试集。
优选地,所述S13中特征提取网络包括八个卷积层和三个最大池化层,卷积层不改变特征图大小、只改变通道数,并且输入的两张图片所经过的卷积层的参数都是共享的,卷积层的通道数分别为64、64、128、128、256、256、512,每两个卷积层后紧跟一个最大池化层对特征进行降维以及压缩,每经过一个最大池化层图像的高和宽就变为之前的一半。
优选地,所述S15中计算相关性的公式为:
Figure BDA0003979910030000031
其中,
Figure BDA0003979910030000032
Figure BDA0003979910030000033
是在特征图
Figure BDA0003979910030000034
Figure BDA0003979910030000035
中二维空间位置。
优选地,所述S16中偏移量的计算公式为:
Figure BDA0003979910030000036
其中,
Figure BDA0003979910030000037
是从目标特征图以及参考特征图中估计偏移的操作,W是使用透视变换对特征图进行变换,i=1,2,3;
最终的偏移量为:
Δ=Δ123
优选地,所述S17中损失函数公式为:
Figure BDA0003979910030000041
其中,ω1,ω2,ω3代表三层特征金字塔中每一层的参数,
Figure BDA0003979910030000042
代表真实偏移量。
优选地,所述S2具体包括以下步骤:
S21,使用训练好的卷积神经网络预测得到偏移量;
S22,使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵;
S23,得到单应性矩阵后,使用单应性矩阵透视变化处理图像,两张图像实现图像配准以及拼接。
优选地,所述S22具体包括以下步骤:
S221,通过偏移量计算得到目标图像上的预测特征点;
S222,通过DLT算法计算单应性,公式为:
X′=HX
Figure BDA0003979910030000043
其中,X′以及X分别是两张图片中的特征点集合;
Figure BDA0003979910030000044
是X′中特征点的坐标,
Figure BDA0003979910030000045
是X中特征点的坐标;H是一个3×3的矩阵:
Figure BDA0003979910030000046
hi,i=1,2,3,4,5,6,7,8,9代表待求解的未知参数,其有八个自由度,待求解的未知参数实际上有八个;
将(1)式展开,前两行分别被第三行相除,得到
-h1x-h2y-h3+(h7x+h8y+h9)u=0
-h4x-h5y-h6+(h7x+h8y+h9)v=0
整理为:
其中,
Figure BDA0003979910030000051
优选地,所述式(1)中求解H至少需要四对匹配点,为了得到更加稳定的结果会用到多于四对的特征匹配,此时该式变为超定的,将最小二乘解作为该式的解,得到方程的最小二乘解可对A使用SVD分解,A的最小的奇异值对应的右奇异向量即为h的解。
本发明至少具有以下有益效果:卷积神经网络的感受野由于机制原因收到限制,因此虽然当前在小基线的单应性方法中深度学习已经比传统方法效果更加优秀,但是在大基线的场景当中由于重叠的部分相对于整张图像比例太低因此仍然存在着诸多问题需要解决。本发明在特征金字塔结构特征网络的基础上用超分辨率方法解决大基线下情况图片重叠率过低导致的拼接效果不理想。一方面本发明采用特征金字塔输出多尺度特征,另一方面本发明使用超分辨率方法增大卷积神经网络的感受野从而改善深度学习方案图像拼接的效果。
附图说明
图1为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的步骤流程图;
图2为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的S1流程图;
图3为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的网络结构示意图;
图4为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的特征提取网络结构示意图;
图5为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的回归网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参见图1,为本发明方法流程图,包括以下步骤:
S1,使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型;
S2,使用经过训练的神经网络模型,即S1得到的超分辨率神经网络模型,进行深度单应性预测;
参见图2和图3,网络的输入是一对图像,它们需要经过特征提取、特征融合、相关性计算、回归网络、DLT(Direct Linear Transform,直接线性变换)计算、透视变换一共六个步骤,具体包括以下步骤:
S11,使用Microsoft COCO生成一个图像拼接数据集;在拼接数据集的图片中添加随机扰动以及随机平移。具体实施例中,生成50000张图片作为训练集,5000张图片作为测试集;
S12,将生成的图像拼接数据集送入特征提取网络,通过特征提取获取图片的特征向量;
S13,将两张图片送入特征提取网络,输出三个特征图F4、F3、F2以进行下一步融合操作,其大小分别为
Figure BDA0003979910030000061
其中F为输入图片大小;特征提取网络结构图参见图4,包括八个卷积层Conv和三个最大池化层Max Pooling,卷积层不改变特征图大小、只改变通道数,并且输入的两张图片所经过的卷积层的参数都是共享的,卷积层的通道数分别为64、64、128、128、256、256、512,每两个卷积层(Conv×2)后紧跟一个最大池化层对特征进行降维以及压缩,每经过一个最大池化层图像的高和宽就变为之前的一半。
S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′4、F′3、F′2
F′4=F4
F′3=T(F′4)+F3
F′2=T(F′3)+F2
其中,T代表步长为2的转置卷积操作;
S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;计算相关性的公式为:
Figure BDA0003979910030000071
其中,
Figure BDA0003979910030000072
Figure BDA0003979910030000073
是在特征图
Figure BDA0003979910030000074
Figure BDA0003979910030000075
中二维空间位置。
S16,将计算出的相关性分别送入一个由卷积层Conv以及全连接层Fully Connect所构成的回归网络(结构参见图5),预测偏移量,预测出的偏移量与单应性相对应;偏移量的计算公式为:
Figure BDA0003979910030000076
其中,
Figure BDA0003979910030000077
是从目标特征图以及参考特征图中估计偏移的操作,W是使用透视变换对特征图进行变换,i=1,2,3;
最终的偏移量为:Δ=Δ123
S17,通过训练将求得最优参数使得损失函数最小,损失函数公式为:
Figure BDA0003979910030000081
其中,ω1,ω2,ω3代表三层特征金字塔中每一层的参数,
Figure BDA0003979910030000082
代表真实偏移量。
S2具体包括以下步骤:
S21,使用训练好的卷积神经网络预测得到偏移量;
S22,使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵;
S23,得到单应性矩阵后,使用单应性矩阵透视变化处理图像,两张图像实现图像配准以及拼接。
S22具体包括以下步骤:
S221,通过偏移量计算得到目标图像上的预测特征点;
S222,通过DLT算法计算单应性,公式为:
X′=HX
Figure BDA0003979910030000083
其中,X′以及X分别是两张图片中的特征点集合;
Figure BDA0003979910030000084
是X′中特征点的坐标,
Figure BDA0003979910030000085
是X中特征点的坐标;H是一个3×3的矩阵:
Figure BDA0003979910030000086
hi,i=1,2,3,4,5,6,7,8,9代表待求解的未知参数,其有八个自由度,待求解的未知参数实际上有八个;
将(1)式展开,前两行分别被第三行相除,得到
-h1x-h2y-h3+(h7x+h8y+h9)u=0
-h4x-h5y-h6+(h7x+h8y+h9)v=0
整理为:
其中,
Figure BDA0003979910030000091
式(1)中求解H至少需要四对匹配点,为了得到更加稳定的结果会用到多于四对的特征匹配,此时该式变为超定的,将最小二乘解作为该式的解,得到方程的最小二乘解可对A使用SVD分解,A的最小的奇异值对应的右奇异向量即为h的解。
本发明使用超分辨率方法提升了拼接效果,采用特征金字塔结构由粗到细的预测单应性;大基线情况下出色拼接效果;相对于传统拼接方法更高的精度;具有出色的泛化能力和任意尺寸图像拼接能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,包括以下步骤:
S1,使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型;
S2,使用经过训练的神经网络模型,即S1得到的超分辨率神经网络模型,进行深度单应性预测;
其中,S1具体包括以下步骤:
S11,使用Microsoft COCO生成一个图像拼接数据集;
S12,将生成的图像拼接数据集送入特征提取网络,通过特征提取获取图片的特征向量;
S13,将两张图片送入特征提取网络,输出三个特征图F4、F3、F2以进行下一步融合操作,其大小分别为
Figure FDA0003979910020000011
其中F为输入图片大小;
S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′4、F′3、F′2
F′4=F4,
F′3=T(F′4)+F3
F′2=T(F′3)+F2
其中,T代表步长为2的转置卷积操作;
S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;
S16,将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络,预测偏移量,预测出的偏移量与单应性相对应;
S17,通过训练将求得最优参数使得损失函数最小。
2.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S11中在拼接数据集的图片中添加随机扰动以及随机平移。
3.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S11中生成50000张图片作为训练集,5000张图片作为测试集。
4.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S13中特征提取网络包括八个卷积层和三个最大池化层,卷积层不改变特征图大小、只改变通道数,并且输入的两张图片所经过的卷积层的参数都是共享的,卷积层的通道数分别为64、64、128、128、256、256、512,每两个卷积层后紧跟一个最大池化层对特征进行降维以及压缩,每经过一个最大池化层图像的高和宽就变为之前的一半。
5.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S15中计算相关性的公式为:
Figure FDA0003979910020000021
其中,
Figure FDA0003979910020000022
Figure FDA0003979910020000023
是在特征图
Figure FDA0003979910020000024
Figure FDA0003979910020000025
中二维空间位置。
6.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S16中偏移量的计算公式为:
Figure FDA0003979910020000026
其中,
Figure FDA0003979910020000027
是从目标特征图以及参考特征图中估计偏移的操作,W是使用透视变换对特征图进行变换,i=1,2,3;
最终的偏移量为:
Δ=Δ123
7.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S17中损失函数公式为:
Figure FDA0003979910020000028
其中,ω1,ω2,ω3代表三层特征金字塔中每一层的参数,
Figure FDA0003979910020000029
代表真实偏移量。
8.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S2具体包括以下步骤:
S21,使用训练好的卷积神经网络预测得到偏移量;
S22,使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵;
S23,得到单应性矩阵后,使用单应性矩阵透视变化处理图像,两张图像实现图像配准以及拼接。
9.根据权利要求8所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S22具体包括以下步骤:
S221,通过偏移量计算得到目标图像上的预测特征点;
S222,通过DLT算法计算单应性,公式为:
X′=HX
Figure FDA0003979910020000031
其中,X′以及X分别是两张图片中的特征点集合;
Figure FDA0003979910020000032
是X′中特征点的坐标,
Figure FDA0003979910020000033
是X中特征点的坐标;H是一个3×3的矩阵:
Figure FDA0003979910020000034
hi,i=1,2,3,4,5,6,7,8,9代表待求解的未知参数,其有八个自由度,待求解的未知参数实际上有八个;
将(1)式展开,前两行分别被第三行相除,得到
-h1x-h2y-h3+(h7x+h8y+h9)u=0
-h4x-h5y-h6+(h7x+h8y+h9)v=0
整理为:
Ah=0
其中,
Figure FDA0003979910020000041
h=(h1 h2 h3 h4 h5 h6 h7 h8 h9)。
10.根据权利要求9所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述式(1)中求解H至少需要四对匹配点,为了得到更加稳定的结果会用到多于四对的特征匹配,此时该式变为超定的,将最小二乘解作为该式的解,得到方程的最小二乘解可对A使用SVD分解,A的最小的奇异值对应的右奇异向量即为h的解。
CN202211547399.6A 2022-12-05 2022-12-05 基于金字塔结构超分辨率网络的图像拼接方法 Pending CN115841422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211547399.6A CN115841422A (zh) 2022-12-05 2022-12-05 基于金字塔结构超分辨率网络的图像拼接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211547399.6A CN115841422A (zh) 2022-12-05 2022-12-05 基于金字塔结构超分辨率网络的图像拼接方法

Publications (1)

Publication Number Publication Date
CN115841422A true CN115841422A (zh) 2023-03-24

Family

ID=85577999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211547399.6A Pending CN115841422A (zh) 2022-12-05 2022-12-05 基于金字塔结构超分辨率网络的图像拼接方法

Country Status (1)

Country Link
CN (1) CN115841422A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934591A (zh) * 2023-06-28 2023-10-24 深圳市碧云祥电子有限公司 多尺度特征提取的图像拼接方法、装置、设备及存储介质
CN117011137A (zh) * 2023-06-28 2023-11-07 深圳市碧云祥电子有限公司 基于rgb相似度特征匹配的图像拼接方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934591A (zh) * 2023-06-28 2023-10-24 深圳市碧云祥电子有限公司 多尺度特征提取的图像拼接方法、装置、设备及存储介质
CN117011137A (zh) * 2023-06-28 2023-11-07 深圳市碧云祥电子有限公司 基于rgb相似度特征匹配的图像拼接方法、装置及设备

Similar Documents

Publication Publication Date Title
CN115841422A (zh) 基于金字塔结构超分辨率网络的图像拼接方法
CN106920224A (zh) 一种评估拼接图像清晰度的方法
CN113516693B (zh) 一种快速通用的图像配准方法
CN110070598A (zh) 用于3d扫描重建的移动终端及其进行3d扫描重建方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113962858A (zh) 一种多视角深度获取方法
CN106355195A (zh) 用于测量图像清晰度值的系统及其方法
Su et al. Super-resolution without dense flow
CN116934592A (zh) 一种基于深度学习的图像拼接方法、系统、设备及介质
CN113936117A (zh) 基于深度学习的高频区域增强的光度立体三维重建方法
CN116385660A (zh) 室内单视图场景语义重建方法及系统
Wang et al. Efficient multi-branch dynamic fusion network for super-resolution of industrial component image
Zhang et al. EDGAN: motion deblurring algorithm based on enhanced generative adversarial networks
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
Sun et al. A hybrid demosaicking algorithm for area scan industrial camera based on fuzzy edge strength and residual interpolation
Liu et al. Ground control point automatic extraction for spaceborne georeferencing based on FPGA
Li et al. An improved method for underwater image super-resolution and enhancement
CN116452556A (zh) 基于交叉特征融合的金属膜片表面缺陷检测方法
CN106570911B (zh) 一种基于daisy描述子的脸部卡通画合成方法
WO2023138764A1 (en) Device and method for super resolution kernel estimation
CN114708315A (zh) 一种基于深度虚拟对应点生成的点云配准方法及系统
CN116503697B (zh) 一种无监督多尺度多阶段的内容感知单应性估计方法
WO2023155043A1 (zh) 一种基于历史信息的场景深度推理方法、装置及电子设备
Wang et al. E-HANet: Event-based hybrid attention network for optical flow estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination