CN115841422A - 基于金字塔结构超分辨率网络的图像拼接方法 - Google Patents
基于金字塔结构超分辨率网络的图像拼接方法 Download PDFInfo
- Publication number
- CN115841422A CN115841422A CN202211547399.6A CN202211547399A CN115841422A CN 115841422 A CN115841422 A CN 115841422A CN 202211547399 A CN202211547399 A CN 202211547399A CN 115841422 A CN115841422 A CN 115841422A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- super
- resolution
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 7
- 230000017105 transposition Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于金字塔结构超分辨率网络的图像拼接方法,S11,使用Microsoft COCO生成一个图像拼接数据集;S12,通过数据加载器加载生成的图像拼接数据集;S13,数据加载器单次从图像拼接数据集中获取两张相对应的图像,将其送入特征提取网络,通过特征提取器获取图片的特征向量,一幅图像输出三个特征图;S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换;S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;S16,将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络,预测偏移量,预测出的偏移量与单应性相对应;S17,通过训练将求得最优参数使得损失函数最小。
Description
技术领域
本发明属于图像处理技术领域,涉及一种基于金字塔结构超分辨率网络的图像拼接方法。
背景技术
在计算机视觉领域,图像拼接是经典并且十分重要的研究方向。它的目的在于由两张或多张窄视野的图像自主生成一幅具有宽阔视野的图像。目前主流的方案有两大类:一类是传统方案,另一类则是基于深度学习的方案。两者的主要区别在于特征点提取方法。主流的流程为特征提取、图像配准、计算单应性矩阵、变形和融合。
传统方案一般会运用SIFT或者Harris等特征点检测方法检测到特征点后使用一个全局的单应性矩阵对图像进行缝合。以深度学习为基础的图像拼接仍然在发展当中,目前主流有基于特征点再计算单应性矩阵以及直接运用深度学习网络预测图像四个顶点的八个偏移从而确定对应的单应性两种方案。
由于传统的特征点检测方案一般只会运用一个单应性矩阵进行计算,因此容易产生重影、健壮性也不高。而深度学习方案很多时候是设计了特定的拼接情况。不能拼接任意视图中的图片。而自由拼接的深度学习方案在实际的应用中拼接质量并不能令人满意,尤其是在大基线场景下。其原因主要在于大基线场景下图片重叠率太低,特征距离过远而卷积的感受野过窄。
发明内容
本发明使用超分辨率方法加强图像拼接效果的深度学习网络。单应性估计阶段是深度学习进行图像拼接的重要阶段,但是当前提出的大部分深度学习网络普遍存在两个问题:首先是很多方法都只会使用最后一层卷积层得到的特征进行单应性的预测,这样就会浪费掉之前卷积得到的不同水平的特征,与此同时只使用单一尺度估计单应性矩阵也很难得到精确的结果。其次是在大基线的图像拼接场景下,目前提出的方法大部分效果都相对较差。因为需要匹配的特征在大基线场景下距离非常远,而卷积核的感受野受到卷积核的限制难以有效工作。
第一个问题可以通过多层金字塔网络结构提取图像特征解决,这样就可以输出多个尺度的特征。第二个问题本发明采用了超分辨的方法扩大了卷积核的感受野。
具体技术方案为包括以下步骤:
S1,使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型;
S2,使用经过训练的神经网络模型,即S1得到的超分辨率神经网络模型,进行深度单应性预测;
其中,S1具体包括以下步骤:
S11,使用Microsoft COCO生成一个图像拼接数据集;
S12,将生成的图像拼接数据集送入特征提取网络,通过特征提取获取图片的特征向量;
S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′4、F′3、F′2:
F′4=F4,
F′3=T(F′4)+F3,
F′2=T(F′3)+F2,
其中,T代表步长为2的转置卷积操作;
S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;
S16,将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络,预测偏移量,预测出的偏移量与单应性相对应;
S17,通过训练将求得最优参数使得损失函数最小。
优选地,所述S11中在拼接数据集的图片中添加随机扰动以及随机平移。
优选地,所述S11中生成50000张图片作为训练集,5000张图片作为测试集。
优选地,所述S13中特征提取网络包括八个卷积层和三个最大池化层,卷积层不改变特征图大小、只改变通道数,并且输入的两张图片所经过的卷积层的参数都是共享的,卷积层的通道数分别为64、64、128、128、256、256、512,每两个卷积层后紧跟一个最大池化层对特征进行降维以及压缩,每经过一个最大池化层图像的高和宽就变为之前的一半。
优选地,所述S15中计算相关性的公式为:
优选地,所述S16中偏移量的计算公式为:
最终的偏移量为:
Δ=Δ1+Δ2+Δ3。
优选地,所述S17中损失函数公式为:
优选地,所述S2具体包括以下步骤:
S21,使用训练好的卷积神经网络预测得到偏移量;
S22,使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵;
S23,得到单应性矩阵后,使用单应性矩阵透视变化处理图像,两张图像实现图像配准以及拼接。
优选地,所述S22具体包括以下步骤:
S221,通过偏移量计算得到目标图像上的预测特征点;
S222,通过DLT算法计算单应性,公式为:
X′=HX
hi,i=1,2,3,4,5,6,7,8,9代表待求解的未知参数,其有八个自由度,待求解的未知参数实际上有八个;
将(1)式展开,前两行分别被第三行相除,得到
-h1x-h2y-h3+(h7x+h8y+h9)u=0
-h4x-h5y-h6+(h7x+h8y+h9)v=0
整理为:
优选地,所述式(1)中求解H至少需要四对匹配点,为了得到更加稳定的结果会用到多于四对的特征匹配,此时该式变为超定的,将最小二乘解作为该式的解,得到方程的最小二乘解可对A使用SVD分解,A的最小的奇异值对应的右奇异向量即为h的解。
本发明至少具有以下有益效果:卷积神经网络的感受野由于机制原因收到限制,因此虽然当前在小基线的单应性方法中深度学习已经比传统方法效果更加优秀,但是在大基线的场景当中由于重叠的部分相对于整张图像比例太低因此仍然存在着诸多问题需要解决。本发明在特征金字塔结构特征网络的基础上用超分辨率方法解决大基线下情况图片重叠率过低导致的拼接效果不理想。一方面本发明采用特征金字塔输出多尺度特征,另一方面本发明使用超分辨率方法增大卷积神经网络的感受野从而改善深度学习方案图像拼接的效果。
附图说明
图1为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的步骤流程图;
图2为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的S1流程图;
图3为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的网络结构示意图;
图4为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的特征提取网络结构示意图;
图5为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的回归网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参见图1,为本发明方法流程图,包括以下步骤:
S1,使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型;
S2,使用经过训练的神经网络模型,即S1得到的超分辨率神经网络模型,进行深度单应性预测;
参见图2和图3,网络的输入是一对图像,它们需要经过特征提取、特征融合、相关性计算、回归网络、DLT(Direct Linear Transform,直接线性变换)计算、透视变换一共六个步骤,具体包括以下步骤:
S11,使用Microsoft COCO生成一个图像拼接数据集;在拼接数据集的图片中添加随机扰动以及随机平移。具体实施例中,生成50000张图片作为训练集,5000张图片作为测试集;
S12,将生成的图像拼接数据集送入特征提取网络,通过特征提取获取图片的特征向量;
S13,将两张图片送入特征提取网络,输出三个特征图F4、F3、F2以进行下一步融合操作,其大小分别为其中F为输入图片大小;特征提取网络结构图参见图4,包括八个卷积层Conv和三个最大池化层Max Pooling,卷积层不改变特征图大小、只改变通道数,并且输入的两张图片所经过的卷积层的参数都是共享的,卷积层的通道数分别为64、64、128、128、256、256、512,每两个卷积层(Conv×2)后紧跟一个最大池化层对特征进行降维以及压缩,每经过一个最大池化层图像的高和宽就变为之前的一半。
S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′4、F′3、F′2:
F′4=F4,
F′3=T(F′4)+F3,
F′2=T(F′3)+F2,
其中,T代表步长为2的转置卷积操作;
S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;计算相关性的公式为:
S16,将计算出的相关性分别送入一个由卷积层Conv以及全连接层Fully Connect所构成的回归网络(结构参见图5),预测偏移量,预测出的偏移量与单应性相对应;偏移量的计算公式为:
最终的偏移量为:Δ=Δ1+Δ2+Δ3。
S17,通过训练将求得最优参数使得损失函数最小,损失函数公式为:
S2具体包括以下步骤:
S21,使用训练好的卷积神经网络预测得到偏移量;
S22,使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵;
S23,得到单应性矩阵后,使用单应性矩阵透视变化处理图像,两张图像实现图像配准以及拼接。
S22具体包括以下步骤:
S221,通过偏移量计算得到目标图像上的预测特征点;
S222,通过DLT算法计算单应性,公式为:
X′=HX
hi,i=1,2,3,4,5,6,7,8,9代表待求解的未知参数,其有八个自由度,待求解的未知参数实际上有八个;
将(1)式展开,前两行分别被第三行相除,得到
-h1x-h2y-h3+(h7x+h8y+h9)u=0
-h4x-h5y-h6+(h7x+h8y+h9)v=0
整理为:
式(1)中求解H至少需要四对匹配点,为了得到更加稳定的结果会用到多于四对的特征匹配,此时该式变为超定的,将最小二乘解作为该式的解,得到方程的最小二乘解可对A使用SVD分解,A的最小的奇异值对应的右奇异向量即为h的解。
本发明使用超分辨率方法提升了拼接效果,采用特征金字塔结构由粗到细的预测单应性;大基线情况下出色拼接效果;相对于传统拼接方法更高的精度;具有出色的泛化能力和任意尺寸图像拼接能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,包括以下步骤:
S1,使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型;
S2,使用经过训练的神经网络模型,即S1得到的超分辨率神经网络模型,进行深度单应性预测;
其中,S1具体包括以下步骤:
S11,使用Microsoft COCO生成一个图像拼接数据集;
S12,将生成的图像拼接数据集送入特征提取网络,通过特征提取获取图片的特征向量;
S14,由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′4、F′3、F′2:
F′4=F4,
F′3=T(F′4)+F3,
F′2=T(F′3)+F2,
其中,T代表步长为2的转置卷积操作;
S15,计算相关性,根据输入的不同,输出的相关性从全局到局部;
S16,将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络,预测偏移量,预测出的偏移量与单应性相对应;
S17,通过训练将求得最优参数使得损失函数最小。
2.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S11中在拼接数据集的图片中添加随机扰动以及随机平移。
3.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S11中生成50000张图片作为训练集,5000张图片作为测试集。
4.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S13中特征提取网络包括八个卷积层和三个最大池化层,卷积层不改变特征图大小、只改变通道数,并且输入的两张图片所经过的卷积层的参数都是共享的,卷积层的通道数分别为64、64、128、128、256、256、512,每两个卷积层后紧跟一个最大池化层对特征进行降维以及压缩,每经过一个最大池化层图像的高和宽就变为之前的一半。
8.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S2具体包括以下步骤:
S21,使用训练好的卷积神经网络预测得到偏移量;
S22,使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵;
S23,得到单应性矩阵后,使用单应性矩阵透视变化处理图像,两张图像实现图像配准以及拼接。
9.根据权利要求8所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述S22具体包括以下步骤:
S221,通过偏移量计算得到目标图像上的预测特征点;
S222,通过DLT算法计算单应性,公式为:
X′=HX
hi,i=1,2,3,4,5,6,7,8,9代表待求解的未知参数,其有八个自由度,待求解的未知参数实际上有八个;
将(1)式展开,前两行分别被第三行相除,得到
-h1x-h2y-h3+(h7x+h8y+h9)u=0
-h4x-h5y-h6+(h7x+h8y+h9)v=0
整理为:
Ah=0
h=(h1 h2 h3 h4 h5 h6 h7 h8 h9)。
10.根据权利要求9所述的一种基于金字塔结构超分辨率网络的图像拼接方法,其特征在于,所述式(1)中求解H至少需要四对匹配点,为了得到更加稳定的结果会用到多于四对的特征匹配,此时该式变为超定的,将最小二乘解作为该式的解,得到方程的最小二乘解可对A使用SVD分解,A的最小的奇异值对应的右奇异向量即为h的解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211547399.6A CN115841422A (zh) | 2022-12-05 | 2022-12-05 | 基于金字塔结构超分辨率网络的图像拼接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211547399.6A CN115841422A (zh) | 2022-12-05 | 2022-12-05 | 基于金字塔结构超分辨率网络的图像拼接方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115841422A true CN115841422A (zh) | 2023-03-24 |
Family
ID=85577999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211547399.6A Pending CN115841422A (zh) | 2022-12-05 | 2022-12-05 | 基于金字塔结构超分辨率网络的图像拼接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841422A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116934591A (zh) * | 2023-06-28 | 2023-10-24 | 深圳市碧云祥电子有限公司 | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 |
CN117011137A (zh) * | 2023-06-28 | 2023-11-07 | 深圳市碧云祥电子有限公司 | 基于rgb相似度特征匹配的图像拼接方法、装置及设备 |
-
2022
- 2022-12-05 CN CN202211547399.6A patent/CN115841422A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116934591A (zh) * | 2023-06-28 | 2023-10-24 | 深圳市碧云祥电子有限公司 | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 |
CN117011137A (zh) * | 2023-06-28 | 2023-11-07 | 深圳市碧云祥电子有限公司 | 基于rgb相似度特征匹配的图像拼接方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115841422A (zh) | 基于金字塔结构超分辨率网络的图像拼接方法 | |
CN106920224A (zh) | 一种评估拼接图像清晰度的方法 | |
CN113516693B (zh) | 一种快速通用的图像配准方法 | |
CN110070598A (zh) | 用于3d扫描重建的移动终端及其进行3d扫描重建方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN106355195A (zh) | 用于测量图像清晰度值的系统及其方法 | |
Su et al. | Super-resolution without dense flow | |
CN116934592A (zh) | 一种基于深度学习的图像拼接方法、系统、设备及介质 | |
CN113936117A (zh) | 基于深度学习的高频区域增强的光度立体三维重建方法 | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
Wang et al. | Efficient multi-branch dynamic fusion network for super-resolution of industrial component image | |
Zhang et al. | EDGAN: motion deblurring algorithm based on enhanced generative adversarial networks | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN114155406A (zh) | 一种基于区域级特征融合的位姿估计方法 | |
Sun et al. | A hybrid demosaicking algorithm for area scan industrial camera based on fuzzy edge strength and residual interpolation | |
Liu et al. | Ground control point automatic extraction for spaceborne georeferencing based on FPGA | |
Li et al. | An improved method for underwater image super-resolution and enhancement | |
CN116452556A (zh) | 基于交叉特征融合的金属膜片表面缺陷检测方法 | |
CN106570911B (zh) | 一种基于daisy描述子的脸部卡通画合成方法 | |
WO2023138764A1 (en) | Device and method for super resolution kernel estimation | |
CN114708315A (zh) | 一种基于深度虚拟对应点生成的点云配准方法及系统 | |
CN116503697B (zh) | 一种无监督多尺度多阶段的内容感知单应性估计方法 | |
WO2023155043A1 (zh) | 一种基于历史信息的场景深度推理方法、装置及电子设备 | |
Wang et al. | E-HANet: Event-based hybrid attention network for optical flow estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |