CN117437120A - 一种端到端的基于深度学习的图像拼接方法 - Google Patents
一种端到端的基于深度学习的图像拼接方法 Download PDFInfo
- Publication number
- CN117437120A CN117437120A CN202210799973.0A CN202210799973A CN117437120A CN 117437120 A CN117437120 A CN 117437120A CN 202210799973 A CN202210799973 A CN 202210799973A CN 117437120 A CN117437120 A CN 117437120A
- Authority
- CN
- China
- Prior art keywords
- image
- motion
- images
- grid
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 230000009466 transformation Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000000750 progressive effect Effects 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000001788 irregular Effects 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000001373 regressive effect Effects 0.000 claims 3
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种端到端的基于深度学习的图像拼接方法,包括以下训练步骤:在第一阶段,预先训练好一个深度单应性变换网络。在第二阶段,将一组多视角图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵;将单一性变换矩阵与输入的原始图像输入到空间转换器层中,该层允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像;将变换后的一组图像先进行下采样,然后利用编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出拼接图像;将对齐变换后的拼接图像输入到图像矩形化模块中,处理不规则的边界,首先通过一个编码器来提取图像特征,即堆栈简单的卷积池块,从输入中提取高级语义特征;输入到一个完全卷积结构的网格运动回归器,以基于规则网格预测每个顶点的水平和垂直运动;扭曲中间特征映射和网格运动,输入到残差渐进回归器,进而渐进地估计精确的网格运动;将最后将逐步迭代得到的精细网格运动指导原图进行扭曲,最终得到矩形图像。
Description
技术领域
本发明涉及计算机视觉和模式识别技术领域,尤其是一种端到端的基于深度学习的视频修复方法。
背景技术
随着智能手机、平板等移动智能设备的普及使用,图片的拍摄获取越来越便利。但是这些设备只能拍摄单幅图片,如果想要给别人展示内容更加丰富、视野更加宽广的图片,就需要使用图像拼接技术将多幅单张图片重叠拼合在一起来实现。图像拼接技术是其他很多图像处理技术的基础,是将多个存在区域重叠的图像拼接为一幅包括各个图像序列的大角度全景图像,而要拼接的图像则可以在不同的角度、不同的时刻或由不同的摄影机所拍摄。近些年来,图像处理方面的学者在图像拼接技术方面的研究也越来越深入,拼接效果和运行时间也逐渐有了改善和提升。
单应性变换在图像配准、图像拼接等任务中被广泛应用。随着深度学习的发展,用深度学习计算单应性变换的网络应运而生,从而实现了端到端的单应性矩阵的计算。但是经过单应性变换后的拼接图像存在不规则的图像边界,这与现实拍摄的真实图像存在差异。该问题常常通过后续的图像矩形化处理技术来解决,具体来说就是通过优化矩形化目标以扭曲拼接的图像来生成矩形图像。在图像单应性变换与图像矩形化这两步过程中,如果在前一过程中存在误差,将会造成最终的输出效果欠佳。因此提出一个端到端的基于深度学习的图像拼接框架,将图像单应性变换与矩形化两步骤进行联合训练,提高训练效率,减少训练误差,从而实现更高效、更真实的图像拼接效果。这也是图像拼接领域首个端到端的深度学习网络框架。
发明内容
本发明的目的是提供一种端到端的基于深度学习的图像拼接方法,通过构建一个基于深度学习的联合训练框架,将图像拼接中的单应性变换与矩形化两过程统一起来,实现端到端的图像拼接。经过训练,在给定多视角的多张图片后,该网络可以自动处理图像,最终输出拼接完成后的标准矩形图像,并在观感上取得较好的视觉效果。
为实现上述目的,本发明采用下述技术方案:
一种端到端的基于深度学习的图像拼接方法,包括以下步骤:
利用现有的数据集及图像拼接方法,收集并制作合适的图像拼接数据集,划分出训练集与测试集;
将训练集中的每一组多视角图像作为输入喂入网络进行训练,待损失降低到相对稳定的程度时,保存模型参数;
将测试集中的一组多视角图像送入训练好的模型中进行推理得出拼接结果。
进一步地,收集并选取合适的数据集,主要包括:
在先前的相关工作中,主要使用了UDIS-D数据集用于生成真实的拼接图像,在此数据集的基础上,又创建了用于图像矩形化的数据集DIR-D。在UDIS-D数据集中包含了从不同间隔时间的视频中提取的帧,即不同重叠率的样本图像。在DIR-D数据集中,选择了UDIS-D数据集中外推面积小于整个图像10%的图像,使用最先进的一个矩形化方法生成矩形图像,又经过矩形化逆操作和一系列筛选操作,最终得到三组图像:真实的矩形图像(R)、合成缝合图像(I)和扭曲矩阵(M)。
类似地,可以从UDIS-D和DIR-D数据集中选择图像来制作训练模型所需要的数据集。我们的数据集需要包含几一组真实的多视角图像(I)和作为标签的真实矩形图像(R),其中多视角图像可以从UDIS-D进行选择,而矩形拼接图像可以通过最先进的矩形化方法进行生成,由于扭曲矩阵(M)在模型训练中隐式包含,所以数据集中无需给定。最终训练集中包含了5800张真实拼接图像及5800组共计12000余张多视角图像;测试集中则包含了约1300张多视角图像。
进一步地,训练模型的过程,主要包括:
首先,第一阶段训练,在合成数据集(缝合的MS-COCO)上训练了150轮的深度单应性变换网络,从而得到预训练的深度单应性变换模型。
接下来,第二阶段训练,训练完整的端到端模型,每次从输入端(输入多视角图像)到输出端会得到一个预测结果(输出拼接完成图像),与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束。训练的目标函数中包括:接缝损失、边界损失、网格损失和内容损失,其中,接缝损失主要用于指导对齐变换模块的训练,边界损失和网格损失则用于优化图像矩形化模块的参数,而内容损失同时强调了外观和语义感知的相似性。
进一步地,在测试集上进行评估时,包括:
我们选择使用平均FID、PSNR和SSIM三个主要指标对图像拼接的表现进行定量评估。具体来说,FID测量真实图像分布和生成图像分布之间的距离,距离越小代表生成的分布越贴近于真实分布,表示图像拼接效果越真实,此外,PSNR和SSIM也是面向失真的图像质量评估的常用指标。
本发明具有如下优点或有益效果:
本发明提供了一种端到端的基于深度学习的图像拼接方法,通过构建一个基于深度学习的联合训练框架,将图像拼接中的单应性变换与矩形化两过程统一起来,实现端到端的图像拼接,大大提高训练速度。从应用角度来说,用户在给定多视角的多张图片后,该网络可以自动处理图像,最终输出拼接完成后的标准矩形图像,并在图片质量上取得较好的视觉效果。
附图说明
图1是本发明端到端的基于深度学习的图像拼接模型架构图。
具体实施方式
如图1所示,一种端到端的基于深度学习的图像拼接方法,包括以下步骤:
S1.选取具有重叠部分的一组多视角图像,每组包含两张。将图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵;
S2.单一性变换矩阵与与输入的原始图像输入到接下来的空间转换器(SpatialTransformer)层中,该层Transformer允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像;
S3.将变换后的一组图像先进行下采样到256*256,然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出拼接图像;
S4.对齐变换后的拼接图像输入到图像矩形化模块中,处理不规则的边界,首先通过一个编码器来提取图像特征,即堆栈简单的卷积池块,从输入中提取高级语义特征;
S5.输入到一个完全卷积结构的网格运动回归器,以基于规则网格预测每个顶点的水平和垂直运动;
S6.扭曲中间特征映射和网格运动,输入到残差渐进回归器,进而渐进地估计精确的网格运动;
S7.将最后将逐步迭代得到的精细网格运动指导原图进行扭曲,最终得到矩形图像。
步骤S1中,省略了预先在合成数据集(缝合的MS-COCO)上训练150轮的深度单应性变换网络,所以图像直接输入到预训练好的深度单应性变换模型中,从而在构建好的数据集上训练端到端的模型。
步骤S2中,使用了拼接域Spatial Transformer,这是一个可学习的模块,它明确地允许对网络内的数据进行空间操作。我们将拼接域定义为缝合图像的最小边界矩形,在保证图像内容完整性的同时节省了最大的空间。在模型中,该层主要用于将输出的单应性变换后的图像进行对齐,同时可以克服相同分辨率图像对齐后会根据不同的重叠率输出不同分辨率的拼接图像的问题。在此过程中,通过使用内容掩模和接缝掩模来学习图像拼接的变形规则。采用内容掩模约束重构图像的特征接近扭曲图像,设计接缝掩模约束重叠区域的边缘保持自然和连续。
步骤S3中,当图像分辨率较高时,为了保证网络的接受域能够完全感知错位区域(特别是在高分辨率和大视差的情况下),我们为拼接过程设计了一个低分辨率的分支。首先将扭曲的图像降采样到低分辨率,定义为256×256。然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构。卷积层的滤波器数分别设置为64、64、128、128、256、256、512、512、256、256、128、128、64、64和3。此外,采用了跳跃连接以相同分辨率连接低级和高级特性。
步骤S4中,通过堆栈简单的卷积池块,从输入中提取高级语义特征。形式上看,共采用了8个卷积层,其滤波器数分别设置为64、64、64、64、128、128、128和128。最大池化层在第2、第4和第6个卷积层之后使用。
步骤S5中,在特征提取后,利用自适应池化层来固定特征映射的分辨率。随后,我们设计了一个完全卷积结构作为网格运动回归器,基于规则网格预测每个顶点的水平和垂直运动。假设网格分辨率为U×V,则输出体积的大小为(U+1)×(V+1)×2。
步骤S6中,扭曲的结果可以再次看作是网络的输入,我们设计了一种剩余的渐进回归策略,通过渐进的方式来估计精确的网格运动。首先,我们不直接使用扭曲的图像作为一个新网络的输入,因为这将使计算复杂度增加一倍。相反,我们扭曲中间特征映射,在略微提高计算量的同时提高性能。然后,我们设计了两个结构相同的回归器,分别来预测主网格运动和残差网格运动。尽管它们共享相同的结构,但由于不同的输入特性,它们用于不同的任务。
步骤S7中,首先将两个回归的输出进行相加的拼接操作,再经过扭曲操作将图像转换为矩形。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种端到端的基于深度学习的图像拼接方法,其特征是,包括以下步骤:
选取具有重叠部分的一组多视角图像,每组包含两张。将图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵;
单一性变换矩阵与与输入的原始图像输入到接下来的空间转换器(SpatialTransformer)层中,该层Transformer允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像;
将变换后的一组图像先进行下采样到256*256,然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出拼接图像;
对齐变换后的拼接图像输入到图像矩形化模块中,处理不规则的边界,首先通过一个编码器来提取图像特征,即堆栈简单的卷积池块,从输入中提取高级语义特征;
输入到一个完全卷积结构的网格运动回归器,以基于规则网格预测每个顶点的水平和垂直运动;
扭曲中间特征映射和网格运动,输入到残差渐进回归器,进而渐进地估计精确的网格运动;
将最后将逐步迭代得到的精细网格运动指导原图进行扭曲,最终得到矩形图像。
2.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,选取具有重叠部分的一组多视角图像,每组包含两张。将图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵,包括:
预先在合成数据集(缝合的MS-COCO)上训练150轮的深度单应性变换网络,所以图像直接输入到预训练好的深度单应性变换模型中,从而在构建好的数据集上训练端到端的模型。
3.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将单一性变换矩阵与输入的原始图像输入到空间转换器层中,该层允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像,包括:
该层主要用于将输出的单应性变换后的图像进行对齐,同时可以克服相同分辨率图像对齐后会根据不同的重叠率输出不同分辨率的拼接图像的问题。在此过程中,通过使用内容掩模和接缝掩模来学习图像拼接的变形规则。采用内容掩模约束重构图像的特征接近扭曲图像,设计接缝掩模约束重叠区域的边缘保持自然和连续。
4.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将变换后的一组图像先进行下采样到256*256,然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出拼接图像,包括:
卷积层的滤波器数分别设置为64、64、128、128、256、256、512、512、256、256、128、128、64、64和3。此外,采用了跳跃连接以相同分辨率连接低级和高级特性。
5.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,对齐变换后的拼接图像输入到图像矩形化模块中,处理不规则的边界,首先通过一个编码器来提取图像特征,即堆栈简单的卷积池块,从输入中提取高级语义特征,包括:
共采用了8个卷积层,其滤波器数分别设置为64、64、64、64、128、128、128和128。最大池化层在第2、第4和第6个卷积层之后使用。
6.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,输入到一个完全卷积结构的网格运动回归器,以基于规则网格预测每个顶点的水平和垂直运动,包括:
设计了一个完全卷积结构作为网格运动回归器,基于规则网格预测每个顶点的水平和垂直运动。假设网格分辨率为U×V,则输出体积的大小为(U+1)×(V+1)×2。
7.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,扭曲中间特征映射和网格运动,输入到残差渐进回归器,进而渐进地估计精确的网格运动,包括:
设计了一种剩余的渐进回归策略,通过渐进的方式来估计精确的网格运动。残差渐进回归器与前面的网格运动回归器类结构相同,分别来预测主网格运动和残差网格运动。尽管它们共享相同的结构,但由于不同的输入特性,它们被用于不同的任务。
8.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将最后将逐步迭代得到的精细网格运动指导原图进行扭曲,最终得到矩形图像,包括:
首先将两个回归的输出进行相加的拼接操作,再经过扭曲操作将图像转换为矩形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799973.0A CN117437120A (zh) | 2022-07-08 | 2022-07-08 | 一种端到端的基于深度学习的图像拼接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799973.0A CN117437120A (zh) | 2022-07-08 | 2022-07-08 | 一种端到端的基于深度学习的图像拼接方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437120A true CN117437120A (zh) | 2024-01-23 |
Family
ID=89554007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210799973.0A Pending CN117437120A (zh) | 2022-07-08 | 2022-07-08 | 一种端到端的基于深度学习的图像拼接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437120A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876647A (zh) * | 2024-03-13 | 2024-04-12 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
-
2022
- 2022-07-08 CN CN202210799973.0A patent/CN117437120A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876647A (zh) * | 2024-03-13 | 2024-04-12 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
CN117876647B (zh) * | 2024-03-13 | 2024-05-28 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114092330B (zh) | 一种轻量化多尺度的红外图像超分辨率重建方法 | |
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN101394573B (zh) | 一种基于特征匹配的全景图生成方法及系统 | |
CN110351511A (zh) | 基于场景深度估计的视频帧率上变换系统及方法 | |
CN111861961A (zh) | 单幅图像超分辨率的多尺度残差融合模型及其复原方法 | |
CN102243711B (zh) | 一种基于邻域嵌套的图像超分辨率重建方法 | |
CN110009573B (zh) | 模型训练、图像处理方法、装置、电子设备及存储介质 | |
CN104159026A (zh) | 一种实现360度全景视频的系统 | |
CN109300096A (zh) | 一种多聚焦图像融合方法及装置 | |
CN108921942A (zh) | 对图像进行2d转制3d的方法及装置 | |
CN108665415A (zh) | 基于深度学习的图像质量提升方法及其装置 | |
CN109801325A (zh) | 一种双目立体视觉系统获取视差图的方法及装置 | |
CN112017116A (zh) | 基于非对称卷积的图像超分辨率重建网络及其构建方法 | |
CN112507920A (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN117437120A (zh) | 一种端到端的基于深度学习的图像拼接方法 | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
CN115546162A (zh) | 一种虚拟现实图像质量评估方法及系统 | |
CN103226818B (zh) | 基于流形正则稀疏支撑回归的单帧图像超分辨率重建方法 | |
WO2023217138A1 (zh) | 一种参数配置方法、装置、设备、存储介质及产品 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN116740547A (zh) | 基于数字孪生的变电站目标检测方法、系统、设备及介质 | |
CN116823647A (zh) | 基于快速傅里叶变换和选择性注意力机制的图像补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |