CN115841422A

CN115841422A - 基于金字塔结构超分辨率网络的图像拼接方法

Info

Publication number: CN115841422A
Application number: CN202211547399.6A
Authority: CN
Inventors: 樊凌雁; 彭义辉; 王洪波
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-03-24

Abstract

本发明公开了基于金字塔结构超分辨率网络的图像拼接方法，S11，使用Microsoft COCO生成一个图像拼接数据集；S12，通过数据加载器加载生成的图像拼接数据集；S13，数据加载器单次从图像拼接数据集中获取两张相对应的图像，将其送入特征提取网络，通过特征提取器获取图片的特征向量，一幅图像输出三个特征图；S14，由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换；S15，计算相关性，根据输入的不同，输出的相关性从全局到局部；S16，将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络，预测偏移量，预测出的偏移量与单应性相对应；S17，通过训练将求得最优参数使得损失函数最小。

Description

基于金字塔结构超分辨率网络的图像拼接方法

技术领域

本发明属于图像处理技术领域，涉及一种基于金字塔结构超分辨率网络的图像拼接方法。

背景技术

在计算机视觉领域，图像拼接是经典并且十分重要的研究方向。它的目的在于由两张或多张窄视野的图像自主生成一幅具有宽阔视野的图像。目前主流的方案有两大类：一类是传统方案，另一类则是基于深度学习的方案。两者的主要区别在于特征点提取方法。主流的流程为特征提取、图像配准、计算单应性矩阵、变形和融合。

传统方案一般会运用SIFT或者Harris等特征点检测方法检测到特征点后使用一个全局的单应性矩阵对图像进行缝合。以深度学习为基础的图像拼接仍然在发展当中，目前主流有基于特征点再计算单应性矩阵以及直接运用深度学习网络预测图像四个顶点的八个偏移从而确定对应的单应性两种方案。

由于传统的特征点检测方案一般只会运用一个单应性矩阵进行计算，因此容易产生重影、健壮性也不高。而深度学习方案很多时候是设计了特定的拼接情况。不能拼接任意视图中的图片。而自由拼接的深度学习方案在实际的应用中拼接质量并不能令人满意，尤其是在大基线场景下。其原因主要在于大基线场景下图片重叠率太低，特征距离过远而卷积的感受野过窄。

发明内容

本发明使用超分辨率方法加强图像拼接效果的深度学习网络。单应性估计阶段是深度学习进行图像拼接的重要阶段，但是当前提出的大部分深度学习网络普遍存在两个问题：首先是很多方法都只会使用最后一层卷积层得到的特征进行单应性的预测，这样就会浪费掉之前卷积得到的不同水平的特征，与此同时只使用单一尺度估计单应性矩阵也很难得到精确的结果。其次是在大基线的图像拼接场景下，目前提出的方法大部分效果都相对较差。因为需要匹配的特征在大基线场景下距离非常远，而卷积核的感受野受到卷积核的限制难以有效工作。

第一个问题可以通过多层金字塔网络结构提取图像特征解决，这样就可以输出多个尺度的特征。第二个问题本发明采用了超分辨的方法扩大了卷积核的感受野。

具体技术方案为包括以下步骤：

S1，使用大规模图片数据集训练金字塔结构的超分辨率神经网络模型；

S2，使用经过训练的神经网络模型，即S1得到的超分辨率神经网络模型，进行深度单应性预测；

其中，S1具体包括以下步骤：

S11，使用Microsoft COCO生成一个图像拼接数据集；

S12，将生成的图像拼接数据集送入特征提取网络，通过特征提取获取图片的特征向量；

S13，将两张图片送入特征提取网络，输出三个特征图F₄、F₃、F₂以进行下一步融合操作，其大小分别为

其中F为输入图片大小；

S14，由特征提取网络输出的三个特征图将会进行超分辨率转置卷积之后再进行融合操作转换为F′₄、F′₃、F′₂：

F′₄＝F₄，

F′₃＝T(F′₄)+F₃，

F′₂＝T(F′₃)+F₂，

其中，T代表步长为2的转置卷积操作；

S15，计算相关性，根据输入的不同，输出的相关性从全局到局部；

S16，将计算出的相关性分别送入一个由卷积层以及全连接层所构成的回归网络，预测偏移量，预测出的偏移量与单应性相对应；

S17，通过训练将求得最优参数使得损失函数最小。

优选地，所述S11中在拼接数据集的图片中添加随机扰动以及随机平移。

优选地，所述S11中生成50000张图片作为训练集，5000张图片作为测试集。

优选地，所述S13中特征提取网络包括八个卷积层和三个最大池化层，卷积层不改变特征图大小、只改变通道数，并且输入的两张图片所经过的卷积层的参数都是共享的，卷积层的通道数分别为64、64、128、128、256、256、512，每两个卷积层后紧跟一个最大池化层对特征进行降维以及压缩，每经过一个最大池化层图像的高和宽就变为之前的一半。

优选地，所述S15中计算相关性的公式为：

其中，

与

是在特征图

与

中二维空间位置。

优选地，所述S16中偏移量的计算公式为：

其中，

是从目标特征图以及参考特征图中估计偏移的操作，W是使用透视变换对特征图进行变换，i＝1，2，3；

最终的偏移量为：

Δ＝Δ₁+Δ₂+Δ₃。

优选地，所述S17中损失函数公式为：

其中，ω₁，ω₂，ω₃代表三层特征金字塔中每一层的参数，

代表真实偏移量。

优选地，所述S2具体包括以下步骤：

S21，使用训练好的卷积神经网络预测得到偏移量；

S22，使用DLT算法将预测出的偏移量转换为相对应的单应性矩阵；

S23，得到单应性矩阵后，使用单应性矩阵透视变化处理图像，两张图像实现图像配准以及拼接。

优选地，所述S22具体包括以下步骤：

S221，通过偏移量计算得到目标图像上的预测特征点；

S222，通过DLT算法计算单应性，公式为：

X′＝HX

其中，X′以及X分别是两张图片中的特征点集合；

是X′中特征点的坐标，

是X中特征点的坐标；H是一个3×3的矩阵：

h_i，i＝1，2，3，4，5，6，7，8，9代表待求解的未知参数，其有八个自由度，待求解的未知参数实际上有八个；

将(1)式展开，前两行分别被第三行相除，得到

-h₁x-h₂y-h₃+(h₇x+h₈y+h₉)u＝0

-h₄x-h₅y-h₆+(h₇x+h₈y+h₉)v＝0

整理为：

其中，

优选地，所述式(1)中求解H至少需要四对匹配点，为了得到更加稳定的结果会用到多于四对的特征匹配，此时该式变为超定的，将最小二乘解作为该式的解，得到方程的最小二乘解可对A使用SVD分解，A的最小的奇异值对应的右奇异向量即为h的解。

本发明至少具有以下有益效果：卷积神经网络的感受野由于机制原因收到限制，因此虽然当前在小基线的单应性方法中深度学习已经比传统方法效果更加优秀，但是在大基线的场景当中由于重叠的部分相对于整张图像比例太低因此仍然存在着诸多问题需要解决。本发明在特征金字塔结构特征网络的基础上用超分辨率方法解决大基线下情况图片重叠率过低导致的拼接效果不理想。一方面本发明采用特征金字塔输出多尺度特征，另一方面本发明使用超分辨率方法增大卷积神经网络的感受野从而改善深度学习方案图像拼接的效果。

附图说明

图1为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的步骤流程图；

图2为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的S1流程图；

图3为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的网络结构示意图；

图4为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的特征提取网络结构示意图；

图5为本发明实施例的基于金字塔结构超分辨率网络的图像拼接方法的回归网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，为本发明方法流程图，包括以下步骤：

参见图2和图3，网络的输入是一对图像，它们需要经过特征提取、特征融合、相关性计算、回归网络、DLT(Direct Linear Transform，直接线性变换)计算、透视变换一共六个步骤，具体包括以下步骤：

S11，使用Microsoft COCO生成一个图像拼接数据集；在拼接数据集的图片中添加随机扰动以及随机平移。具体实施例中，生成50000张图片作为训练集，5000张图片作为测试集；

其中F为输入图片大小；特征提取网络结构图参见图4，包括八个卷积层Conv和三个最大池化层Max Pooling，卷积层不改变特征图大小、只改变通道数，并且输入的两张图片所经过的卷积层的参数都是共享的，卷积层的通道数分别为64、64、128、128、256、256、512，每两个卷积层(Conv×2)后紧跟一个最大池化层对特征进行降维以及压缩，每经过一个最大池化层图像的高和宽就变为之前的一半。

F′₄＝F₄，

F′₃＝T(F′₄)+F₃，

F′₂＝T(F′₃)+F₂，

其中，T代表步长为2的转置卷积操作；

S15，计算相关性，根据输入的不同，输出的相关性从全局到局部；计算相关性的公式为：

其中，

与

是在特征图

与

中二维空间位置。

S16，将计算出的相关性分别送入一个由卷积层Conv以及全连接层Fully Connect所构成的回归网络(结构参见图5)，预测偏移量，预测出的偏移量与单应性相对应；偏移量的计算公式为：

其中，

最终的偏移量为：Δ＝Δ₁+Δ₂+Δ₃。

S17，通过训练将求得最优参数使得损失函数最小，损失函数公式为：

代表真实偏移量。

S2具体包括以下步骤：

S21，使用训练好的卷积神经网络预测得到偏移量；

S22具体包括以下步骤：

S221，通过偏移量计算得到目标图像上的预测特征点；

S222，通过DLT算法计算单应性，公式为：

X′＝HX

其中，X′以及X分别是两张图片中的特征点集合；

是X′中特征点的坐标，

是X中特征点的坐标；H是一个3×3的矩阵：

将(1)式展开，前两行分别被第三行相除，得到

-h₁x-h₂y-h₃+(h₇x+h₈y+h₉)u＝0

-h₄x-h₅y-h₆+(h₇x+h₈y+h₉)v＝0

整理为：

其中，

式(1)中求解H至少需要四对匹配点，为了得到更加稳定的结果会用到多于四对的特征匹配，此时该式变为超定的，将最小二乘解作为该式的解，得到方程的最小二乘解可对A使用SVD分解，A的最小的奇异值对应的右奇异向量即为h的解。

本发明使用超分辨率方法提升了拼接效果，采用特征金字塔结构由粗到细的预测单应性；大基线情况下出色拼接效果；相对于传统拼接方法更高的精度；具有出色的泛化能力和任意尺寸图像拼接能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，包括以下步骤：

其中，S1具体包括以下步骤：

S11，使用Microsoft COCO生成一个图像拼接数据集；

其中F为输入图片大小；

F′₄＝F₄,

F′₃＝T(F′₄)+F₃，

F′₂＝T(F′₃)+F₂，

其中，T代表步长为2的转置卷积操作；

S17，通过训练将求得最优参数使得损失函数最小。

2.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S11中在拼接数据集的图片中添加随机扰动以及随机平移。

3.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S11中生成50000张图片作为训练集，5000张图片作为测试集。

4.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S13中特征提取网络包括八个卷积层和三个最大池化层，卷积层不改变特征图大小、只改变通道数，并且输入的两张图片所经过的卷积层的参数都是共享的，卷积层的通道数分别为64、64、128、128、256、256、512，每两个卷积层后紧跟一个最大池化层对特征进行降维以及压缩，每经过一个最大池化层图像的高和宽就变为之前的一半。

5.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S15中计算相关性的公式为：

其中，

与

是在特征图

与

中二维空间位置。

6.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S16中偏移量的计算公式为：

其中，

最终的偏移量为：

Δ＝Δ₁+Δ₂+Δ₃。

7.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S17中损失函数公式为：

代表真实偏移量。

8.根据权利要求1所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S2具体包括以下步骤：

S21，使用训练好的卷积神经网络预测得到偏移量；

9.根据权利要求8所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述S22具体包括以下步骤：

S221，通过偏移量计算得到目标图像上的预测特征点；

S222，通过DLT算法计算单应性，公式为：

X′＝HX

其中，X′以及X分别是两张图片中的特征点集合；

是X′中特征点的坐标，

是X中特征点的坐标；H是一个3×3的矩阵：

h_i，i＝1,2,3,4,5,6,7,8,9代表待求解的未知参数，其有八个自由度，待求解的未知参数实际上有八个；

将(1)式展开，前两行分别被第三行相除，得到

-h₁x-h₂y-h₃+(h₇x+h₈y+h₉)u＝0

-h₄x-h₅y-h₆+(h₇x+h₈y+h₉)v＝0

整理为：

Ah＝0

其中，

h＝(h1 h2 h3 h4 h5 h6 h7 h8 h9)。

10.根据权利要求9所述的一种基于金字塔结构超分辨率网络的图像拼接方法，其特征在于，所述式(1)中求解H至少需要四对匹配点，为了得到更加稳定的结果会用到多于四对的特征匹配，此时该式变为超定的，将最小二乘解作为该式的解，得到方程的最小二乘解可对A使用SVD分解，A的最小的奇异值对应的右奇异向量即为h的解。