CN115293971B - 图像拼接方法及装置 - Google Patents
图像拼接方法及装置 Download PDFInfo
- Publication number
- CN115293971B CN115293971B CN202211128208.2A CN202211128208A CN115293971B CN 115293971 B CN115293971 B CN 115293971B CN 202211128208 A CN202211128208 A CN 202211128208A CN 115293971 B CN115293971 B CN 115293971B
- Authority
- CN
- China
- Prior art keywords
- image
- camera
- images
- features
- spliced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4038—Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
本申请实施例提供一种图像拼接方法及装置,应用于电子设备,电子设备具有第一摄像头和第二摄像头,第二摄像头为可动摄像头,第二摄像头在不同位姿的视角包含在第一摄像头的视角范围内,第二摄像头的分辨率高于第一摄像头的分辨率,第二摄像头拍摄的图像的尺寸大于第一摄像头拍摄的图像的尺寸。响应于拍摄操作,通过第一摄像头拍摄第一图像,并通过第二摄像头拍摄多幅第二图像,拼接多幅第二图像,得到第一拼接图像,基于第一图像、第一拼接图像、以及第一拼接图像的边缘,得到拼接图像。拼接图像具有更高的清晰度,且能消除拼接图像的接缝处的失真和伪影。
Description
技术领域
本申请涉及电子信息技术领域,尤其涉及一种图像拼接方法及装置。
背景技术
图像拼接可以理解为将多幅图像拼接为一幅图像。电子设备中运行的相机应用的全景拍摄功能,将多幅不同视角的图像拼接为一幅图像,是图像拼接功能常见的应用场景。
电子设备的图像拼接功能还有改善的空间。
发明内容
本申请提供了一种图像拼接方法及装置,目的在于解决如何改善图像拼接功能的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请的第一方面提供一种图像拼接方法,应用于电子设备,电子设备具有第一摄像头和第二摄像头,第二摄像头为可动摄像头,第二摄像头在不同位姿的视角包含在第一摄像头的视角范围内,第二摄像头的分辨率高于第一摄像头的分辨率,第二摄像头拍摄的图像的尺寸大于第一摄像头拍摄的图像的尺寸。所述方法包括:响应于拍摄操作,通过第一摄像头拍摄第一图像,并通过第二摄像头拍摄多幅第二图像,拼接多幅第二图像,得到第一拼接图像,基于第一图像、第一拼接图像、以及第一拼接图像的边缘,得到第一图像与多幅第二图像的拼接图像。因为第二摄像头的分辨率高于第一摄像头的分辨率,且拍摄的图像的尺寸大于第一摄像头拍摄的图像的尺寸,所以第二图像比第一图像具有更高的清晰度,又因为第二摄像头在不同位姿的视角包含在第一摄像头的视角范围内,所以通过拼接第二图像得到的第一拼接图像与第一图像包含相同的对象,可以看作将第一图像分区域进行放大且提高分辨率的图像,但第一拼接图像中可能存在因拼接而导致的在第二图像接缝处的失真和伪影,因此,基于第一图像、第一拼接图像和第一拼接图像的边缘再次进行拼接,因为第一图像能够提供各部分之间的平滑特征,第一拼接图像的边缘能够强化第一拼接图像中的接缝特征,所以有利于消除第一拼接图像的接缝处的失真和伪影,综上所述,第一方面提供的图像拼接方法能够改善拼接图像的质量。
在一些实现方式中,基于第一图像、第一拼接图像、以及第一拼接图像的边缘,得到第一图像与多幅第二图像的拼接图像,包括:提取第一拼接图像的边缘在多尺度分辨率下的特征,得到多尺度边缘特征,至少基于目标图像在多尺度分辨率下的特征以及多尺度边缘特征,得到多尺度图像特征,目标图像基于第一图像和第一拼接图像获得,融合多尺度边缘特征以及多尺度图像特征,得到融合特征,基于融合特征得到拼接图像。在多尺度分辨率下的边缘特征和图像特征,有利于更为细致地消除接缝处的失真和伪影,从而得到更为自然的接缝处理效果。
在一些实现方式中,至少基于目标图像在多尺度分辨率下的特征以及多尺度边缘特征,得到多尺度图像特征,包括:基于目标图像在多尺度分辨率下的特征、多尺度边缘特征以及目标图像的权重信息,得到多尺度图像特征,权重信息包括通道权重信息和空间权重信息。从通道和空间两个维度设置权重,能够进一步增强重要特征的影响,减少非重要特征的影响,关注接缝处的重要特征从而进一步减少失真和伪影问题。
在一些实现方式中,基于第一图像、第一拼接图像、以及第一拼接图像的边缘,得到第一图像与多幅第二图像的拼接图像,包括:将第一图像的上采样图像与第一拼接图像连接,得到连接图像,将连接图像以及第一拼接图像的边缘输入拼接模型,得到拼接模型输出的第一图像与多幅第二图像的拼接图像,拼接模型通过学习标签图像的边缘特征、内容特征以及内容一致性特征获得。从不同维度训练得到的拼接模式,具有更优的性能,能够得到更为平滑自然的接缝效果。
在一些实现方式中,通过第二摄像头拍摄多幅第二图像,包括:通过第二摄像头以不同的位姿拍摄多幅第二图像。拼接多幅第二图像,得到第一拼接图像,包括:基于第二摄像头拍摄第二图像的位姿,获取多幅第二图像之间的位置关系,基于位置关系,拼接多幅第二图像,得到第一拼接图像。基于位置获得位置关系再基于位置关系进行拼接,有利于得到与第一图像包括的对象相同的第一拼接图像。
在一些实现方式中,基于第二摄像头的拍摄第二图像的位姿,获取多幅第二图像之间的位置关系,包括:获取第二摄像头在位姿的内参,基于内参中的主点坐标之间的位置关系,获取多幅第二图像之间的位置关系,以较为便利地获得较为准确的第二图像之间的位置关系。
在一些实现方式中,通过第二摄像头拍摄多幅第二图像,包括:通过第二摄像头以不同的位姿拍摄多幅第二图像。拼接多幅第二图像,得到第一拼接图像,包括:基于第二摄像头拍摄第二图像的位姿,查询相邻的第二图像,对相邻的第二图像进行扭曲对齐,拼接经过扭曲对齐的第二图像,得到第一拼接图像。扭曲对齐有利于消除第一拼接图像中接缝处的失真和伪影。
在一些实现方式中,对相邻的第二图像进行扭曲对齐,包括:基于第二摄像头拍摄相邻的第二图像的位姿的内参和外参,获得相邻的第二图像之间的单应矩阵,基于单应矩阵对相邻的第二图像进行扭曲对齐。基于内参和外参进行的扭曲对齐,具有较高的便利性和准确性。
本申请的第二方面提供一种电子设备,包括:一个或多个处理器,以及一个或多个存储器,存储器存储有一个或多个程序,当一个或者多个程序被处理器执行时,使得电子设备执行本申请的第一方面提供的图像拼接方法。
本申请的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行本申请的第一方面提供的图像拼接方法。
附图说明
图1为手机在全景拍摄模式进行拍摄的示例:
图2为实现本申请实施例提供的图像拼接方法的装置的结构示例图;
图3为实现本申请实施例提供的图像拼接方法的流程图;
图4为RefineNet模块的具体结构示例图;
图5为CBAM的结构示例图;
图6为FusionBlock的具体结构示例图;
图7所示为对图4所示模块进行训练的示例图;
图8为本申请实施例提供的图像拼接方法中获得的图像的示例图;
图9为本申请实施例提供的电子设备的结构示例图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例涉及的多个,是指大于或等于两个。需要说明的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
图1为用户使用手机中运行的相机应用(以下简称为“相机”)拍摄全景图像的示例:在拍摄全景图像的过程中,相机的界面显示指示箭头01以及指示文字“请将箭头保持在中心线上”02,以提示用户移动手机,以使得摄像头拍摄不同视角的图像。在全景拍摄结束后,手机获得由多幅图像拼接得到的全景图像。
发明人在研究的过程中发现,在电子设备中实现的图像拼接功能存在以下缺点:
1、用于拼接的多幅图像不便于获取。
结合图1所示,用于拼接的多幅图像需要用户手动获取,即使能够向用户提供提示信息,但还是需要用户具备一定的操控能力,因此便利性较低。
2、用于拼接的多幅图像的质量有待提高。
结合1,即使能够向用户提供提示信息,但还是难以避免用户操作失误,例如,用户不能保持手机沿着箭头移动,而会出现上下抖动,所以拍摄的多幅图像的边缘不能够水平对齐,因此质量有待提高。
3、拼接得到的图像的质量有待提高。
第一方面,因为传统的图像拼接算法的局限性,所以拼接得到的图像中不同图像之间的接缝处存在伪影和失真。第二方面,受限于拍摄水平,有可能拍摄的多幅图像的边缘不能够对齐,所以会进一步加重拼接得到的图像中不同图像之间的接缝处存在伪影和失真。第三方面,现有的图像拼接能够获得视角更大的全景图像,但却无法通过图像拼接实现图像清晰度的提升。
为了解决上述问题,本申请的实施例中,电子设备上设置有主摄像头和扫描相机(Scan Camera)匹配的摄像头。Scan Camera匹配的摄像头可以理解为可动摄像头。“可动”包括但不限于以下至少一种情况:
1、在电子设备屏幕所在平面的平行平面中,发生任意方向的移动。例如,在手机中与手机屏幕平行的后壳上设置的轨道上进行移动。可以理解的是,轨道的形状包括但不限于弧形以及直线型等。
2、相对于固定轴进行转动,例如,在手机的外壳上设置有摄像头的固定轴,摄像头可相对于固定轴进行转动。
可以理解的是,基于可动摄像头,无需用户手动拍摄多幅用于拼接的图像,而是电子设备通过控制可动摄像头移动和/或转动,拍摄多幅用于拼接的图像。因为避免了手动操作,所以能够提高获取多幅图像的便利性以及多幅图像的质量。
发明人在研究的过程中发现,要提高清晰度,需要从与清晰度相关的分辨率和图像尺寸入手,通常,既提高分辨率又增加图像的尺寸,能够获得较高的清晰度。
因此,除了可动之外,可动摄像头还具有以下特性:
在不同位姿的视角包含在主摄像头的视角范围内,分辨率高于主摄像头的分辨率,并且拍摄的图像的尺寸高于主摄像头拍摄的图像的尺寸。
视角范围包含在主摄像头的视角范围内,则表示在将电子设备对准某个(些)对象拍摄时,可动摄像头无论以何种位姿拍摄图像,拍摄的图像均为主摄图拍摄的图像的一部分。
因为仅提高分辨率或图像尺寸至一定程度,图像的清晰度反而下降,所以,可动摄像头不仅分辨率高于主摄像头,拍摄的图像的尺寸也大于主摄像头拍摄的图像的尺寸。
综上所述,可动摄像头为小视角范围且高清晰度的摄像头,并且,在将电子设备对准某个(些)对象拍摄时,可动摄像头在任意位姿拍摄的图像,可以看作主摄像头拍摄的图像的一部分的放大图像。
发明人在研究的过程中还发现,可动摄像头的上述配置,虽然能够得到分辨率较高且尺寸较大的图像,但因为是主摄像头拍摄的图像的一部分的放大图像,所以还需要对可动摄像头拍摄的多幅图像进行拼接,得到完整的图像,但拼接会导致图像的接缝处存在失真和伪影。
所以,除了硬件的改进之外,本申请实施例还提供一种图像拼接方法,结合深度卷积网络和主摄图、多幅副摄图以及标定信息来改善拼接图像的质量,特别是解决接缝处的伪影和失真问题。
综上所述,本申请实施例提供的图像拼接方法,应用在电子设备,电子设备具有主摄像头以及副摄像头,副摄像头为可动摄像头。在某些实现方式中,为了获得分辨率更高的拼接图像,副摄像头的分辨率高于主摄像头的分辨率。
可以理解的是,预先在相机中设置一种新的拍摄模式,例如高清模式,在用户在高清模式下进行拍摄操作时,电子设备通过主摄像头拍摄主摄图,通过副摄像头拍摄副摄图,并通过以下实施例所述的图像拼接方法,通过拼接主摄图和副摄图得到清晰度更高的图像。
下面将对本申请实施例提供的图像拼接方法进行详细说明。为了便于说明,先对本申请的实施例涉及的名词进行解释:
主摄图:可以理解为主摄像头拍摄的图像。
副摄图:可以理解为可动摄像头拍摄的图像。结合上述对可动摄像头的说明,可动摄像头移动或转动到各个位姿(即位置和姿态),拍摄各幅副摄图。
标定信息:用于表示副摄图的位置关系。假设可动摄像头能够移动和/或转动到N个不同的位姿,则在N个位姿拍摄的图像,在最终的拼接图像上分布在不同的位置,标定信息用于表示这种位置关系。
以N=9为例,并假设9个位姿拍摄的副摄图在拼接图像中形成9宫格的关系,则标定信息表示9幅副摄图在9宫格中的位置。
图2为实现本申请实施例提供的图像拼接方法的装置的结构,图2所示的装置中包括:对齐模块、上采样模块、以及RefineNet模块。
结合图2所示的结构的图像拼接方法如图3所示,包括以下步骤:
S01、对齐模块获取各幅副摄图的标定信息。
标定信息用于表示副摄图的位置关系,因此能够通过标定信息确定各个副摄图之间的相对位置。
在某些实现方式中,基于可动摄像头在某一位姿的内参,确定该位置可动摄像头的标定信息。
内参是对相机物理特性的近似,是相机坐标系(X,Y,Z)到像素坐标系(u,v)的转换矩阵,将内参表示为K,则:
其中,主点(u0,v0)是相机主轴与像平面相交的点,也是图像的中心点,u0是横坐标,v0是纵坐标。(fx,fy)是归一化焦距,表示相机水平方向(x轴)和垂直方向(y轴)的焦距。
结合式(1)可以理解的是,副摄像头在不同位姿的内参不同。本实施例中,将任意一幅副摄图称为第一副摄图,则将拍摄第一副摄图时的副摄像头的内参中的主点(u0,v0)作为第一副摄图的标定信息。
可以理解的是,对齐模块能够获得每幅副摄图的标定信息。
S02、对齐模块基于标定信息,计算相邻的副摄图之间的单应矩阵。
可以理解的是,因为标定信息表示副摄图的位置关系,因此能够基于标定信息,确定相邻的副摄图。
单应(Homography)是射影几何中的概念,又称为射影变换。单应表示把一个射影平面上的点(三维齐次矢量)映射到另一个射影平面上,可以理解的是,单应能够把直线映射为直线,具有保线性质。总的来说,单应是关于三维齐次矢量的一种线性变换,可以用一个3×3的非奇异矩阵H表示:
如上所述,单应性表示从一个平面到另一个平面的投影映射,而一个二维平面上的点映射到摄像机成像仪上的映射就是平面单应性的例子,所以单应矩阵H可以用副摄像头的内外参计算得到:
H=K[R|t]=K[r1, r2, r3] (3)
内参的定义如前所述,外参包括旋转向量R=[r1, r2, r3]和平移向量t=[t1, t2,t3],用于确定副摄像头在某个三维空间中的位置和朝向。式(3)中,R为拍摄第一副摄图时的副摄像头的外参中的旋转向量,t为拍摄第一副摄图时的副摄像头的外参中的平移向量。
S03、对齐模块基于相邻的副摄图之间的单应矩阵,对相邻的副摄图进行扭曲(warp)对齐。
warp对齐可以理解为,对于相邻的两幅副摄图,基于两幅副摄图之间的H,将一幅副摄图进行warp。假设副摄图1和副摄图2是相邻的两幅副摄图,则可用单应矩阵H将两幅副摄图关联起来:
结合式(4),即H为从副摄图2变换至副摄图1所需的单应矩阵,在某些实现方式中,对相邻的副摄图1和副摄图2进行的warp对齐的方式为:基于式(4)中的H将副摄图2进行warp。warp得到的结果,与副摄图1在边缘实现了对齐。
可以理解的是,将任意两两相邻的副摄图称为一组副摄图,对于任意一组副摄图,均执行S02-S03,因此,每组副摄图之间均进行了warp对齐,所以,任意一组副摄图的边缘进行了对齐。
S04、对齐模块拼接经过扭曲对齐的相邻的副摄图,得到对齐拼接图像I s 。
可以理解的是,因为两两相邻的副摄图之间进行了初步的对齐,所以本步骤得到的对齐拼接图像中,两两相邻的副摄图的接缝处更为整齐和真实。
S05、上采样模块对主摄图R进行上采样,得到上采样主摄图R up 。
如前所述,为了得到分辨率更高的拼接图,副摄像头的分辨率高于主摄像头的分辨率,因此,为了实现不同分辨率的图像的拼接并且获得分辨率更高的拼接图像,本步骤中,将分辨率较低的主摄图R进行上采样。
S06、RefineNet模块对对齐拼接图像I s 与上采样主摄图R up 进行拼接,得到拼接图像。
可以理解的是,因为副摄像头的分辨率高于主摄像头的分辨率,所以经过对主摄图上采样后再拼接,能够得到分辨率较高的拼接图像。并且,因为副摄图的拼接图像的尺寸大于主摄图,所以最终的拼接图像的尺寸大于主摄图,因此,图3所示的拼接方法能够得到清晰度更高的图像。
如前所述,可动摄像头拍摄的副摄图经过拼接后,得到清晰度更高的图像I s ,但I s 中的接缝处可能存在失真和伪影。而主摄图是完整的图像,所以能够为I s 中的接缝处提供参考和约束,从而起到校正失真和伪影的作用。所以本步骤中对上采样主摄图R up 与对齐拼接图像I s ,得到最终的拼接图像。可以理解的是,最终的拼接图像的尺寸与副摄图的尺寸相同,分辨率为可动摄像头的分辨率,所以具有更高的清晰度。
下面将结合图4至图7,对RefineNet模块的拼接功能进行更详细的说明。
图4为RefineNet模块的具体结构,包括边缘变形分支网络1、图像变形分支网络2、连接模块3以及边缘提取模块4。
结合图4所示的结构,对对齐拼接图像I s 和上采样主摄图R up 进行拼接的流程包括以下步骤:
边缘提取模块4从对齐拼接图像I s 中提取边缘,得到边缘图像E。在某些实现方式中,边缘提取模块基于计算相邻像素差的方式提取边缘,如式(5):
式(5)中,G i,j 表示图像坐标为(i,j)的像素,G i-1,j 表示图像坐标为(i-1,j)的像素,G i,j-1 表示图像坐标为(i,j-1)的像素。
边缘变形分支网络1是一个编码器-解码器的网络结构,包含7个卷积子模块(图4中,以Conv+ReLu表示),分别记为11、12、……17。
边缘变形分支网络1的每个卷积子模块包括两个3*3的卷积层Conv、非线性激活函数层ReLU以及最大池化层(图4中未示出)。
基于图4所示的边缘变形分支网络1中7个卷积子模块的连接关系可知,11、12以及13提取的是边缘E的低层特征,而14-17基于底层特征提取的是高层特征。
在图4中,以不同尺度的方框表示卷积子模块输出的特征图像的分辨率的大小,方框的尺度越大表示输出的特征图像的分辨率越小。7个卷积子模块中14个卷积层Conv的卷积核数量分别是64,64,128,128,256,256,512,512,256,256,128,128,64,64。为了防止梯度消失问题和训练中信息的不平衡,采用跳过连接(skip-connect)来连接输出相同分辨率的低层特征和高层特征的卷积子模块。
基于边缘变形分支网络1的具体结构,可以理解的是,边缘变形分支网络1对副摄图的对齐拼接图像的边缘提取多尺度分辨率下的特征,得到多尺度边缘特征,从而可以通过缝合边缘来保持边缘连续性,减少重影和伪影。
连接模块3将上采样主摄图R up 与对齐拼接图像I s 进行连接,得到连接图像I R 。可以理解的是,将I s 与R up 连接为一个矩阵,得到I R 。
图像变形分支网络2也是一个编码器-解码器的网络结构,包含7个卷积子模块(即Conv+ReLu+CBAM)以及一个融合模块(FusionBlock)。7个卷积子模块分别记为21、22、……27。
图像变形分支网络2中的每个卷积子模块包括两个3*3的卷积层Conv、非线性激活函数层ReLU、最大池化层(图4中未示出)以及卷积块注意力层(CBAM)。
基于图4所示的图像变形分支网络2中7个卷积子模块的连接关系可知,21、22以及23提取的是连接图像I R 的低层特征,而24-27基于底层特征提取的是高层特征。
在图4中,以不同尺度的方框表示卷积子模块输出的特征图像的分辨率的大小,方框的尺度越大表示输出的特征图像的分辨率越小。7个卷积子模块中14个卷积层Conv的卷积核数量分别是64,64,128,128,256,256,512,512,256,256,128,128,64,64。为了防止梯度消失问题和训练中信息的不平衡,采用跳过连接(skip-connect)来连接输出相同分辨率的低层特征和高层特征的卷积子模块。
CBAM的结构如图5所示,包括:输入模块51、输出模块52、通道注意力模块53以及空间注意力模块54。
通道注意力模块53通过输入模块得到输入数据(即ReLu的输出数据),这里假设输入数据为H*W*C(C表示通道维度)的特征F。通道注意力模块53中的最大池化层(Maxpooling)531对特征F进行最大池化处理。通道注意力模块53中的平均池化层(Avgpooling)532对特征F进行平均池化处理。可以理解的是,Maxpooling531与Avgpooling531分别输出1*1*C的特征。两个1*1*C的特征通过卷积核大小为1*1的卷积子模块(即Conv+ReLu)533处理后输出C。C通过卷积核大小为1*1的卷积模块(即Conv)534的处理后输出C,C与C进行加法器535相加后输出特征2C。特征2C通过Sigmoid函数后得到通道权重系数M c ,乘法器536将M c 与特征F相乘,得到通道注意力模块输出的特征Chanel-Feature。
通道注意力模块53的输出Chanel-Feature也就是空间注意力模块54的输入,分别通过一个全局最大池化层541和全局平均池化层542得到两个H*W*1的特征,再通过连接模块543将它们在通道维度上进行连接,然后由卷积激活模块544经过一个卷积核大小是7*7的卷积核并使用激活函数Sigmoid,得到空间权重系数M s ,乘法器545将M s 与输入特征Chanel-Feature相乘,得到CBAM的最终输出特征。
通过该模块可以使用注意力机制来增加表现力,关注接缝处的重要特征从而减少失真和伪影问题。并且,分别从通道维度和空间维度分别获得注意力信息,能够进一步增强重要特征。
从图4可以看出,边缘变形分支网络1中的高层特征(即14-17的输出),分别输入图像变形分支网络2中,以将边缘特征作为图像拼接的约束信息,使得得到的拼接图像中的接缝在视觉上具有更自然的效果。
图6为FusionBlock的具体结构,包含3个卷积核大小是3*3的卷积层,卷积核数量都是64,以及一个1x1卷积核大小的卷积层,并采用Tanh激活函数。
图7所示为对图4所示的边缘变形分支网络1以及图像变形分支网络2的训练的示例图,如图7所示,从三个维度进行训练,即使用以下三个损失函数进行训练:
也就是说,通过学习标签图像的边缘特征、内容特征以及内容一致性特征,得到边缘变形分支网络1以及图像变形分支网络2。
可以理解的是,从边缘特征、内容以及内容一致性三个不同维度训练边缘变形分支网络1以及图像变形分支网络2,能够提高网络输出的拼接图像的准确性。
图8为在相机的“高清”拍摄模式下,用户进行拍摄操作后,手机通过主摄像头以及副摄像头拍摄的图像,以及基于拍摄的图像拼接得到的图像的示例。图8中的a为手机通过主摄像头拍摄的主摄图,可以理解的是,主摄图上的参考线的作用是为了便于对照副摄图与主摄图的位置关系,实际的主摄图上可以并不显示参考线。图8中的b和图8中的c为手机通过副摄像头拍摄的副摄图的示例。
基于如前所述的副摄像头的特性,副摄像头拍摄的图像为主摄像头拍摄的图像中的一部分的放大图像。例如,图8中的b所示的副摄图(中的对象)为主摄图的左下角图像块(中的对象)的放大图像(或对象),图8中的c所示的副摄图(中的对象)为主摄图的第二行第三列的图像块(中的对象)的放大图像(或对象)。使用上述实施例所述的图像拼接方法拼接图8中的a所示的主摄图、以及图8中的b和图8中的c所示的副摄图,得到图8中的d所示的拼接图像。可见,本申请实施例提供的图像拼接方法,能够在主摄像头的分辨率有限的情况下,通过副摄像头以及拼接算法得到分辨率更高的图像,并且,无需用户移动手机,能够获得更优的用户体验。
本申请实施例公开的图像拼接方法应用的电子设备,包括但不限于手机,平板电脑,桌面型、膝上型、笔记本电脑,超级移动个人计算机(Ultra-mobile PersonalComputer,UMPC),手持计算机,上网本,个人数字助理(Personal Digital Assistant,PDA),可穿戴电子设备,无人机,VR影像设备、虚拟现实设备等具有可动摄像头的电子设备。
图9为本申请实施例提供的一种电子设备的组成示例。以手机为例,电子设备可以包括处理器110,内部存储器120,显示屏130,摄像头140,天线1,天线2,移动通信模块150,无线通信模块160以及音频模块170等。
可以理解的是,本实施例示意的结构并不构成对该电子设备的具体限定。在另一些实施例中,该电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
内部存储器120可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器110通过运行存储在内部存储器110的指令,从而执行电子设备的各种功能应用以及数据处理。内部存储器120可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器120的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备的各种功能应用以及数据处理。
电子设备通过GPU,显示屏130,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏130和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏130用于显示图像,视频等。显示屏130包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oled,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏130,N为大于1的正整数。
电子设备可以通过ISP,摄像头140,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP 用于处理摄像头140反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,颜色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头140中。
摄像头140用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备可以包括1个或N个摄像头140,N为大于1的正整数。
摄像头140可以包括多种类型的摄像头,本申请的实施例中,包括但不限于:主摄像头以及副摄像头。副摄像头为可动摄像头。副摄像头的特性如前所述,这里不再赘述。
在某些实现方式中,可见光摄像头为电子设备的主摄像头。图4所示为主摄像头以及近红外摄像头的一些参数的示例。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样,电子设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
内部存储器120可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器120的指令,从而执行电子设备的各种功能应用以及数据处理。内部存储器120可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器120的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备的各种功能应用以及数据处理。
电子设备可以通过音频模块170,扬声器170A,麦克风170B以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐,或收听免提通话。
一些实施例中,扬声器170A可播放本申请实施例提及的带有特效的视频信息。
麦克风170B,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170B发声,将声音信号输入到麦克风170B。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
Claims (9)
1.一种图像拼接方法,其特征在于,应用于电子设备,所述电子设备具有第一摄像头和第二摄像头,所述第二摄像头为可动摄像头,所述第二摄像头在不同位姿的视角包含在所述第一摄像头的视角范围内,所述第二摄像头的分辨率高于所述第一摄像头的分辨率,所述第二摄像头拍摄的图像的尺寸大于所述第一摄像头拍摄的图像的尺寸,所述方法包括:
响应于拍摄操作,通过所述第一摄像头拍摄第一图像,并通过所述第二摄像头拍摄多幅第二图像;
拼接所述多幅第二图像,得到第一拼接图像;基于所述第一图像、所述第一拼接图像、以及所述第一拼接图像的边缘,得到所述第一图像与所述多幅第二图像的拼接图像;
其中,所述基于所述第一图像、所述第一拼接图像、以及所述第一拼接图像的边缘,得到所述第一图像与所述多幅第二图像的拼接图像包括:提取所述第一拼接图像的边缘在多尺度分辨率下的特征,得到多尺度分辨率下的边缘特征,至少基于目标图像在多尺度分辨率下的特征以及所述多尺度分辨率下的边缘特征,得到多尺度分辨率下的图像特征,所述目标图像基于所述第一图像和所述第一拼接图像获得,融合所述多尺度分辨率下的边缘特征以及所述多尺度分辨率下的图像特征,得到融合特征,基于所述融合特征得到所述拼接图像。
2.根据权利要求1所述的方法,其特征在于,所述至少基于目标图像在多尺度分辨率下的特征以及所述多尺度分辨率下的边缘特征,得到多尺度分辨率下的图像特征,包括:
基于目标图像在多尺度分辨率下的特征、所述多尺度分辨率下的边缘特征以及所述目标图像的权重信息,得到多尺度分辨率下的图像特征,所述权重信息包括通道权重信息和空间权重信息。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述基于所述第一图像、所述第一拼接图像、以及所述第一拼接图像的边缘,得到所述第一图像与所述多幅第二图像的拼接图像,包括:
将所述第一图像的上采样图像与所述第一拼接图像连接,得到连接图像;
将所述连接图像以及所述第一拼接图像的边缘输入拼接模型,得到所述拼接模型输出的所述第一图像与所述多幅第二图像的拼接图像,所述拼接模型通过学习标签图像的边缘特征、内容特征以及内容一致性特征获得。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述通过所述第二摄像头拍摄多幅第二图像,包括:
通过所述第二摄像头以不同的位姿拍摄多幅第二图像;
所述拼接所述多幅第二图像,得到第一拼接图像,包括:
基于所述第二摄像头拍摄所述第二图像的位姿,获取所述多幅第二图像之间的位置关系;
基于所述位置关系,拼接所述多幅第二图像,得到第一拼接图像。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二摄像头的拍摄所述第二图像的位姿,获取所述多幅第二图像之间的位置关系,包括:
获取所述第二摄像头在所述位姿的内参;
基于所述内参中的主点坐标之间的位置关系,获取所述多幅第二图像之间的位置关系。
6.根据权利要求1-2任一项所述的方法,其特征在于,所述通过所述第二摄像头拍摄多幅第二图像,包括:
通过所述第二摄像头以不同的位姿拍摄多幅第二图像;
所述拼接所述多幅第二图像,得到第一拼接图像,包括:
基于所述第二摄像头拍摄所述第二图像的位姿,查询相邻的所述第二图像;
对相邻的所述第二图像进行扭曲对齐;
拼接经过所述扭曲对齐的所述第二图像,得到所述第一拼接图像。
7.根据权利要求6所述的方法,其特征在于,所述对相邻的所述第二图像进行扭曲对齐,包括:
基于所述第二摄像头拍摄所述相邻的所述第二图像的位姿的内参和外参,获得所述相邻的所述第二图像之间的单应矩阵;
基于所述单应矩阵对所述相邻的所述第二图像进行扭曲对齐。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器;
所述存储器存储有一个或多个程序,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行权利要求1-7任一项所述的图像拼接方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-7任一项所述的图像拼接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211128208.2A CN115293971B (zh) | 2022-09-16 | 2022-09-16 | 图像拼接方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211128208.2A CN115293971B (zh) | 2022-09-16 | 2022-09-16 | 图像拼接方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115293971A CN115293971A (zh) | 2022-11-04 |
CN115293971B true CN115293971B (zh) | 2023-02-28 |
Family
ID=83833860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211128208.2A Active CN115293971B (zh) | 2022-09-16 | 2022-09-16 | 图像拼接方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293971B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881841A (zh) * | 2015-05-20 | 2015-09-02 | 南方电网科学研究院有限责任公司 | 基于边缘特征与点特征的航拍高压电力塔架图像拼接方法 |
WO2021249053A1 (zh) * | 2020-06-12 | 2021-12-16 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
CN114071010A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 一种拍摄方法及设备 |
WO2022083118A1 (zh) * | 2020-10-23 | 2022-04-28 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600193B2 (en) * | 2008-07-16 | 2013-12-03 | Varian Medical Systems, Inc. | Image stitching and related method therefor |
CN112672076A (zh) * | 2020-12-11 | 2021-04-16 | 展讯半导体(成都)有限公司 | 一种图像的显示方法和电子设备 |
CN114693760A (zh) * | 2020-12-25 | 2022-07-01 | 虹软科技股份有限公司 | 图像校正方法、装置及系统、电子设备 |
-
2022
- 2022-09-16 CN CN202211128208.2A patent/CN115293971B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881841A (zh) * | 2015-05-20 | 2015-09-02 | 南方电网科学研究院有限责任公司 | 基于边缘特征与点特征的航拍高压电力塔架图像拼接方法 |
WO2021249053A1 (zh) * | 2020-06-12 | 2021-12-16 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
CN114071010A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 一种拍摄方法及设备 |
WO2022083118A1 (zh) * | 2020-10-23 | 2022-04-28 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115293971A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11743416B2 (en) | Apparatus and methods for the storage of overlapping regions of imaging data for the generation of optimized stitched images | |
US10572982B2 (en) | Method and system of image distortion correction for images captured by using a wide-angle lens | |
US10789676B2 (en) | Image processing device, image processing method, and program | |
WO2018214365A1 (zh) | 图像校正方法、装置、设备、系统及摄像设备和显示设备 | |
US8345961B2 (en) | Image stitching method and apparatus | |
KR100796849B1 (ko) | 휴대 단말기용 파노라마 모자이크 사진 촬영 방법 | |
JP4513906B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記録媒体 | |
CN109474780B (zh) | 一种用于图像处理的方法和装置 | |
US20180176465A1 (en) | Image processing method for immediately producing panoramic images | |
JP2003178298A (ja) | 画像処理装置及び画像処理方法、記憶媒体、並びにコンピュータ・プログラム | |
EP3497668B1 (en) | Three hundred sixty degree video stitching | |
CN114078135A (zh) | 利用图像分割将复杂的3d对象嵌入到增强现实场景中 | |
CN110868541A (zh) | 视场融合方法及装置、存储介质、终端 | |
EP3886044A1 (en) | Robust surface registration based on parameterized perspective of image templates | |
CN111866523B (zh) | 全景视频合成方法、装置、电子设备和计算机存储介质 | |
TWI615808B (zh) | 全景即時影像處理方法 | |
CN114648552A (zh) | 等量矩形图像的立体对中的准确光流估计 | |
CN115293971B (zh) | 图像拼接方法及装置 | |
Popovic et al. | Design and implementation of real-time multi-sensor vision systems | |
US20230247292A1 (en) | Methods and apparatus for electronic image stabilization based on a lens polynomial | |
US11978177B2 (en) | Method and system of image processing of omnidirectional images with a viewpoint shift | |
WO2022115996A1 (zh) | 图像处理方法及设备 | |
CN113454980A (zh) | 全景拍摄方法、电子设备及存储介质 | |
CN117135420B (zh) | 图像同步方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |