CN117437120A

CN117437120A - 一种端到端的基于深度学习的图像拼接方法

Info

Publication number: CN117437120A
Application number: CN202210799973.0A
Authority: CN
Inventors: 周洪飞; 张盛平
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2024-01-23

Abstract

本发明公开了一种端到端的基于深度学习的图像拼接方法，包括以下训练步骤：在第一阶段，预先训练好一个深度单应性变换网络。在第二阶段，将一组多视角图像输入到图像对齐变换模块，由深度单应性基线网络接收，并输出单应性变换矩阵；将单一性变换矩阵与输入的原始图像输入到空间转换器层中，该层允许对网络内的数据进行空间操作，从而将单应性变换后的图像进行最小空余的对齐，得到对齐后的图像；将变换后的一组图像先进行下采样，然后利用编解码器网络对拼接图像进行重构，学习图像拼接的变形规则，输出拼接图像；将对齐变换后的拼接图像输入到图像矩形化模块中，处理不规则的边界，首先通过一个编码器来提取图像特征，即堆栈简单的卷积池块，从输入中提取高级语义特征；输入到一个完全卷积结构的网格运动回归器，以基于规则网格预测每个顶点的水平和垂直运动；扭曲中间特征映射和网格运动，输入到残差渐进回归器，进而渐进地估计精确的网格运动；将最后将逐步迭代得到的精细网格运动指导原图进行扭曲，最终得到矩形图像。

Description

一种端到端的基于深度学习的图像拼接方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，尤其是一种端到端的基于深度学习的视频修复方法。

背景技术

随着智能手机、平板等移动智能设备的普及使用，图片的拍摄获取越来越便利。但是这些设备只能拍摄单幅图片，如果想要给别人展示内容更加丰富、视野更加宽广的图片，就需要使用图像拼接技术将多幅单张图片重叠拼合在一起来实现。图像拼接技术是其他很多图像处理技术的基础，是将多个存在区域重叠的图像拼接为一幅包括各个图像序列的大角度全景图像，而要拼接的图像则可以在不同的角度、不同的时刻或由不同的摄影机所拍摄。近些年来，图像处理方面的学者在图像拼接技术方面的研究也越来越深入，拼接效果和运行时间也逐渐有了改善和提升。

单应性变换在图像配准、图像拼接等任务中被广泛应用。随着深度学习的发展，用深度学习计算单应性变换的网络应运而生，从而实现了端到端的单应性矩阵的计算。但是经过单应性变换后的拼接图像存在不规则的图像边界，这与现实拍摄的真实图像存在差异。该问题常常通过后续的图像矩形化处理技术来解决，具体来说就是通过优化矩形化目标以扭曲拼接的图像来生成矩形图像。在图像单应性变换与图像矩形化这两步过程中，如果在前一过程中存在误差，将会造成最终的输出效果欠佳。因此提出一个端到端的基于深度学习的图像拼接框架，将图像单应性变换与矩形化两步骤进行联合训练，提高训练效率，减少训练误差，从而实现更高效、更真实的图像拼接效果。这也是图像拼接领域首个端到端的深度学习网络框架。

发明内容

本发明的目的是提供一种端到端的基于深度学习的图像拼接方法，通过构建一个基于深度学习的联合训练框架，将图像拼接中的单应性变换与矩形化两过程统一起来，实现端到端的图像拼接。经过训练，在给定多视角的多张图片后，该网络可以自动处理图像，最终输出拼接完成后的标准矩形图像，并在观感上取得较好的视觉效果。

为实现上述目的，本发明采用下述技术方案：

一种端到端的基于深度学习的图像拼接方法，包括以下步骤：

利用现有的数据集及图像拼接方法，收集并制作合适的图像拼接数据集，划分出训练集与测试集；

将训练集中的每一组多视角图像作为输入喂入网络进行训练，待损失降低到相对稳定的程度时，保存模型参数；

将测试集中的一组多视角图像送入训练好的模型中进行推理得出拼接结果。

进一步地，收集并选取合适的数据集，主要包括：

在先前的相关工作中，主要使用了UDIS-D数据集用于生成真实的拼接图像，在此数据集的基础上，又创建了用于图像矩形化的数据集DIR-D。在UDIS-D数据集中包含了从不同间隔时间的视频中提取的帧，即不同重叠率的样本图像。在DIR-D数据集中，选择了UDIS-D数据集中外推面积小于整个图像10％的图像，使用最先进的一个矩形化方法生成矩形图像，又经过矩形化逆操作和一系列筛选操作，最终得到三组图像：真实的矩形图像(R)、合成缝合图像(I)和扭曲矩阵(M)。

类似地，可以从UDIS-D和DIR-D数据集中选择图像来制作训练模型所需要的数据集。我们的数据集需要包含几一组真实的多视角图像(I)和作为标签的真实矩形图像(R)，其中多视角图像可以从UDIS-D进行选择，而矩形拼接图像可以通过最先进的矩形化方法进行生成，由于扭曲矩阵(M)在模型训练中隐式包含，所以数据集中无需给定。最终训练集中包含了5800张真实拼接图像及5800组共计12000余张多视角图像；测试集中则包含了约1300张多视角图像。

进一步地，训练模型的过程，主要包括：

首先，第一阶段训练，在合成数据集(缝合的MS-COCO)上训练了150轮的深度单应性变换网络，从而得到预训练的深度单应性变换模型。

接下来，第二阶段训练，训练完整的端到端模型，每次从输入端(输入多视角图像)到输出端会得到一个预测结果(输出拼接完成图像)，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递(反向传播)，每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束。训练的目标函数中包括：接缝损失、边界损失、网格损失和内容损失，其中，接缝损失主要用于指导对齐变换模块的训练，边界损失和网格损失则用于优化图像矩形化模块的参数，而内容损失同时强调了外观和语义感知的相似性。

进一步地，在测试集上进行评估时，包括：

我们选择使用平均FID、PSNR和SSIM三个主要指标对图像拼接的表现进行定量评估。具体来说，FID测量真实图像分布和生成图像分布之间的距离，距离越小代表生成的分布越贴近于真实分布，表示图像拼接效果越真实，此外，PSNR和SSIM也是面向失真的图像质量评估的常用指标。

本发明具有如下优点或有益效果：

本发明提供了一种端到端的基于深度学习的图像拼接方法，通过构建一个基于深度学习的联合训练框架，将图像拼接中的单应性变换与矩形化两过程统一起来，实现端到端的图像拼接，大大提高训练速度。从应用角度来说，用户在给定多视角的多张图片后，该网络可以自动处理图像，最终输出拼接完成后的标准矩形图像，并在图片质量上取得较好的视觉效果。

附图说明

图1是本发明端到端的基于深度学习的图像拼接模型架构图。

具体实施方式

如图1所示，一种端到端的基于深度学习的图像拼接方法，包括以下步骤：

S1.选取具有重叠部分的一组多视角图像，每组包含两张。将图像输入到图像对齐变换模块，由深度单应性基线网络接收，并输出单应性变换矩阵；

S2.单一性变换矩阵与与输入的原始图像输入到接下来的空间转换器(SpatialTransformer)层中，该层Transformer允许对网络内的数据进行空间操作，从而将单应性变换后的图像进行最小空余的对齐，得到对齐后的图像；

S3.将变换后的一组图像先进行下采样到256*256，然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构，学习图像拼接的变形规则，输出拼接图像；

S4.对齐变换后的拼接图像输入到图像矩形化模块中，处理不规则的边界，首先通过一个编码器来提取图像特征，即堆栈简单的卷积池块，从输入中提取高级语义特征；

S5.输入到一个完全卷积结构的网格运动回归器，以基于规则网格预测每个顶点的水平和垂直运动；

S6.扭曲中间特征映射和网格运动，输入到残差渐进回归器，进而渐进地估计精确的网格运动；

S7.将最后将逐步迭代得到的精细网格运动指导原图进行扭曲，最终得到矩形图像。

步骤S1中，省略了预先在合成数据集(缝合的MS-COCO)上训练150轮的深度单应性变换网络，所以图像直接输入到预训练好的深度单应性变换模型中，从而在构建好的数据集上训练端到端的模型。

步骤S2中，使用了拼接域Spatial Transformer，这是一个可学习的模块，它明确地允许对网络内的数据进行空间操作。我们将拼接域定义为缝合图像的最小边界矩形，在保证图像内容完整性的同时节省了最大的空间。在模型中，该层主要用于将输出的单应性变换后的图像进行对齐，同时可以克服相同分辨率图像对齐后会根据不同的重叠率输出不同分辨率的拼接图像的问题。在此过程中，通过使用内容掩模和接缝掩模来学习图像拼接的变形规则。采用内容掩模约束重构图像的特征接近扭曲图像，设计接缝掩模约束重叠区域的边缘保持自然和连续。

步骤S3中，当图像分辨率较高时，为了保证网络的接受域能够完全感知错位区域(特别是在高分辨率和大视差的情况下)，我们为拼接过程设计了一个低分辨率的分支。首先将扭曲的图像降采样到低分辨率，定义为256×256。然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构。卷积层的滤波器数分别设置为64、64、128、128、256、256、512、512、256、256、128、128、64、64和3。此外，采用了跳跃连接以相同分辨率连接低级和高级特性。

步骤S4中，通过堆栈简单的卷积池块，从输入中提取高级语义特征。形式上看，共采用了8个卷积层，其滤波器数分别设置为64、64、64、64、128、128、128和128。最大池化层在第2、第4和第6个卷积层之后使用。

步骤S5中，在特征提取后，利用自适应池化层来固定特征映射的分辨率。随后，我们设计了一个完全卷积结构作为网格运动回归器，基于规则网格预测每个顶点的水平和垂直运动。假设网格分辨率为U×V，则输出体积的大小为(U+1)×(V+1)×2。

步骤S6中，扭曲的结果可以再次看作是网络的输入，我们设计了一种剩余的渐进回归策略，通过渐进的方式来估计精确的网格运动。首先，我们不直接使用扭曲的图像作为一个新网络的输入，因为这将使计算复杂度增加一倍。相反，我们扭曲中间特征映射，在略微提高计算量的同时提高性能。然后，我们设计了两个结构相同的回归器，分别来预测主网格运动和残差网格运动。尽管它们共享相同的结构，但由于不同的输入特性，它们用于不同的任务。

步骤S7中，首先将两个回归的输出进行相加的拼接操作，再经过扭曲操作将图像转换为矩形。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种端到端的基于深度学习的图像拼接方法，其特征是，包括以下步骤：

选取具有重叠部分的一组多视角图像，每组包含两张。将图像输入到图像对齐变换模块，由深度单应性基线网络接收，并输出单应性变换矩阵；

单一性变换矩阵与与输入的原始图像输入到接下来的空间转换器(SpatialTransformer)层中，该层Transformer允许对网络内的数据进行空间操作，从而将单应性变换后的图像进行最小空余的对齐，得到对齐后的图像；

将变换后的一组图像先进行下采样到256*256，然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构，学习图像拼接的变形规则，输出拼接图像；

对齐变换后的拼接图像输入到图像矩形化模块中，处理不规则的边界，首先通过一个编码器来提取图像特征，即堆栈简单的卷积池块，从输入中提取高级语义特征；

输入到一个完全卷积结构的网格运动回归器，以基于规则网格预测每个顶点的水平和垂直运动；

扭曲中间特征映射和网格运动，输入到残差渐进回归器，进而渐进地估计精确的网格运动；

将最后将逐步迭代得到的精细网格运动指导原图进行扭曲，最终得到矩形图像。

2.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，选取具有重叠部分的一组多视角图像，每组包含两张。将图像输入到图像对齐变换模块，由深度单应性基线网络接收，并输出单应性变换矩阵，包括：

预先在合成数据集(缝合的MS-COCO)上训练150轮的深度单应性变换网络，所以图像直接输入到预训练好的深度单应性变换模型中，从而在构建好的数据集上训练端到端的模型。

3.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，将单一性变换矩阵与输入的原始图像输入到空间转换器层中，该层允许对网络内的数据进行空间操作，从而将单应性变换后的图像进行最小空余的对齐，得到对齐后的图像，包括：

该层主要用于将输出的单应性变换后的图像进行对齐，同时可以克服相同分辨率图像对齐后会根据不同的重叠率输出不同分辨率的拼接图像的问题。在此过程中，通过使用内容掩模和接缝掩模来学习图像拼接的变形规则。采用内容掩模约束重构图像的特征接近扭曲图像，设计接缝掩模约束重叠区域的边缘保持自然和连续。

4.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，将变换后的一组图像先进行下采样到256*256，然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构，学习图像拼接的变形规则，输出拼接图像，包括：

卷积层的滤波器数分别设置为64、64、128、128、256、256、512、512、256、256、128、128、64、64和3。此外，采用了跳跃连接以相同分辨率连接低级和高级特性。

5.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，对齐变换后的拼接图像输入到图像矩形化模块中，处理不规则的边界，首先通过一个编码器来提取图像特征，即堆栈简单的卷积池块，从输入中提取高级语义特征，包括：

共采用了8个卷积层，其滤波器数分别设置为64、64、64、64、128、128、128和128。最大池化层在第2、第4和第6个卷积层之后使用。

6.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，输入到一个完全卷积结构的网格运动回归器，以基于规则网格预测每个顶点的水平和垂直运动，包括：

设计了一个完全卷积结构作为网格运动回归器，基于规则网格预测每个顶点的水平和垂直运动。假设网格分辨率为U×V，则输出体积的大小为(U+1)×(V+1)×2。

7.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，扭曲中间特征映射和网格运动，输入到残差渐进回归器，进而渐进地估计精确的网格运动，包括：

设计了一种剩余的渐进回归策略，通过渐进的方式来估计精确的网格运动。残差渐进回归器与前面的网格运动回归器类结构相同，分别来预测主网格运动和残差网格运动。尽管它们共享相同的结构，但由于不同的输入特性，它们被用于不同的任务。

8.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法，其特征是，将最后将逐步迭代得到的精细网格运动指导原图进行扭曲，最终得到矩形图像，包括：

首先将两个回归的输出进行相加的拼接操作，再经过扭曲操作将图像转换为矩形。