CN116934591A - 多尺度特征提取的图像拼接方法、装置、设备及存储介质 - Google Patents
多尺度特征提取的图像拼接方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116934591A CN116934591A CN202310790153.XA CN202310790153A CN116934591A CN 116934591 A CN116934591 A CN 116934591A CN 202310790153 A CN202310790153 A CN 202310790153A CN 116934591 A CN116934591 A CN 116934591A
- Authority
- CN
- China
- Prior art keywords
- images
- feature
- spliced
- layer
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 title claims abstract description 44
- 230000009466 transformation Effects 0.000 claims abstract description 114
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种多尺度特征提取的图像拼接方法、装置、设备及存储介质,拼接方法包括:获取两个待拼接图像,基于四组特征提取器,对待拼接图像的特征进行逐层提取得到四层特征图;将位于底层的特征图进行正则化处理后计算特征全局相似性,并计算偏移量,估计出底层的两个待拼接图像的单应性变换矩阵,基于底层的单应性变换矩阵和其中一个图像的上一层的特征图,计算得到上一层的单应性变换矩阵,依次操作,直至得到最上层的单应性变换矩阵;基于最上层的单应性变换矩阵,将两个待拼接图像投影变换得到两个待配准图像并通过平均融合得到拼接结果。本发明利用多尺度提取图像特征,可以得到精度更高的单应性变换矩阵和融合图像。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种多尺度特征提取的图像拼接方法、装置、设备及存储介质。
背景技术
图像拼接是计算机视觉和图像处理领域的一个重要技术,它的目的是将多幅图像无缝地拼接在一起,形成一个更大的视场或更高分辨率的图像。它广泛应用于许多领域,包括但不限于医学影像、航天影像、无人机航拍、虚拟现实、全景拍摄等。
目前图像拼接技术主要分为传统拼接方法和基于深度学习的方法。传统的图像拼接技术主要依赖于特征点的检测、匹配和几何变换模型的估计。这些技术通常包括以下步骤:首先,通过特征点检测算法(如SIFT、SURF等)在每个图像中检测出特征点;然后,通过特征描述子,匹配不同图像中的相应特征点;最后,使用RANSAC等鲁棒性算法估计图像间的几何变换模型,进行图像的对齐和拼接。然而,这类方法在处理视角变化大、光照条件变化、内容复杂等问题时,可能会出现拼接误差。特别是在面对大基线、动态场景和光照变化等复杂情况时,由于特征点的匹配可能会出现错误,导致图像拼接的效果不佳。近年来,基于深度学习的方法被引入到图像拼接领域,由于其强大的自我学习和适应能力,显著提高了图像拼接的精度和效率。深度学习方法可以自动学习到从输入图像到输出拼接图像的映射,而不需要手动设计特征和匹配算法。基于深度学习的图像拼接通常使用卷积神经网络(CNN)或其他深度网络结构来自动学习图像的特征和变换模型。这些方法不仅可以处理复杂的光照和纹理变化,还能更好地处理大基线和动态场景下的图像拼接。然而,深度学习方法也存在一些限制。例如,当处理大基线的图像对时,深度学习模型的感受野可能无法覆盖足够的上下文信息,导致对齐效果不理想。此外,大部分现有的方法主要关注全局的图像对齐,忽视了在不同特征尺度下的精确投影变换,这可能会导致拼接结果的局部区域存在明显的接缝或者形变。
发明内容
鉴于以上技术问题,本发明提供了一种多尺度特征提取的图像拼接方法、装置、设备及存储介质,该方法主要是提供新型的图像拼接学习方法,然后,可以估计参考图像和目标图像在不同特征尺度下的精确投影变换,以提升拼接精度,为了解决感受野问题,为了解决感受野问题,本发明还采用了膨胀卷积,以获取更广泛的上下文信息,从而进一步提升图像拼接的效果,基于此,本发明旨在改善图像拼接的精度和鲁棒性,特别是在处理大基线和复杂环境的图像拼接任务时。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本发明的一方面,提出了一种多尺度特征提取的图像拼接方法,所述拼接方法包括:
获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
进一步的,在提取特征前,还包括:
对所述待拼接图像进行灰度化处理;
重构所述待拼接图像的尺寸,使得两个所述待拼接图像的尺寸相等。
进一步的,所述正则化为基于L2 Normalization的L2正则化。
进一步的,所述计算两个所述待拼接图像之间的特征全局相似性,包括:
根据余弦相似性定理,计算两个所述待拼接图像的同一层的所述特征图的相似性,在计算时,执行公式:
其中,x1、x2分别表示当前层的两个所述特征图中的相关位置;FA(x1)是x1的一维特征向量,FB(x2)是位置x2的一维特征向量;CV(x1,x2)是FA(x1)和FB(x2)的相似度,使得CV(x1,x2)越接近于1时,则使得两个所述待拼接图像的当前层的所述特征图的相似性越高。
进一步的,所述计算偏移量,包括:
计算一个所述待拼接图像相对于另一个所述待拼接图像的四个顶点的横偏移量和纵偏移量,预测得到预测八个坐标偏移。
进一步的,所述基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,包括:
对所述偏移量进行直接线性变换,计算得到所述单应性变换矩阵。
进一步的,在得到两个所述待配准图像后,对两个所述待配准图像进行双线性插值,得到光滑扭曲的所述待配准图像,并进行平均融合。
根据本公开的第二方面,提供一种多尺度特征提取的图像拼接装置,包括多尺度特征提取模块,用于获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
多尺度单应性估计模块,用于将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
图像融合模块,用于基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
根据本公开的第三方面,提供一种多尺度特征提取的图像拼接设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
基于本公开的第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述的图像拼接方法
本公开的技术方案具有以下有益效果:
1、基于残差结构,在进行特征提取的时候,可以更好融合提取到的图像特征信息,能提高特征提取的准确度;
2、基于膨胀卷积,针对感受野较小,对全局信息处理较差的情况,利用膨胀卷积具有较大感受野的性质,提高对全局信息提取的能力;
3、利用多尺度提取图像特征,可以更充分处理全局图像,提高对待拼接图像重合区域的识别,得到精度更高的单应性变换矩阵。
附图说明
图1为本说明书实施例中的一种多尺度特征提取的图像拼接方法的流程图;
图2为本说明书实施例中从COCO2014数据集中随机选取的原始图像的示意图;
图3A为本说明书实施例中随机选择的图像中生成的任意一组待拼接图像的示意图;
图3B为本说明书实施例中随机选择的图像中生成的任意一组待拼接图像的示意图;
图4为本说明书实施例中单应性变换矩阵计算过程流程图;
图5为本说明书实施例中特征提取器的结构框图;
图6为本说明书实施例中执行单应性变换矩阵计算过程的单应性估计器的结构框图;
图7为本说明书实施例中待拼接图像拼接过程流程图;
图8为本说明书实施例中一种多尺度特征提取的图像拼接装置的示意图;
图9为本说明书实施例中一种用于实现多尺度特征提取的图像拼接方法的终端设备;
图10为本说明书实施例中一种用于实现多尺度特征提取的图像拼接方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本说明书实施例提供一种多尺度特征提取的图像拼接方法,该方法的执行主体可以为终端设备,其中的终端设备可以如手机、平板电脑、个人计算机等。该方法具体可以包括以下步骤S200、S300、S400:
在步骤S200中,获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
在步骤S300中,将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
在步骤S400中,基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
具体地,为了辅助说明本说明书实施例中如何拼接图像,如图2-3B所示,从COCO2014数据集中生成需要用到的图像拼接数据集,将该图像拼接数据集称为Stitched-COCO,包括步骤S101~S103:
在步骤S101中,将COCO2014数据集作为原始数据集,由图1所示,随机选择一张图片用来生成一组待拼接图像,其中,待拼接图像的尺寸可以是任意大小。
在步骤S102,在COCO2014数据集中选择的图像上随机图像块中四个顶点的随机扰动[-ρ,ρ],添加随机平移,以模拟图像拼接中基线大、重叠低的特点。
在步骤S103,从步骤S102中处理后的图像随机裁出两块作为待拼接图像,如图3A和图3B所示。
在一实施方式中,在确定待拼接图像后,如图4所示,对待拼接图像进行特征提取,执行步骤S200,步骤S200具体包括步骤S201~S205:
在步骤S201中,对待拼接图像进行预处理,对输入的任意尺寸大小的待拼接图像A和B,经过灰度化处理,将尺寸为W*H*3的彩色图像转变为尺寸为W*H*1的灰度图像,如图4所示。灰度化可以降低计算复杂度,只使用单通道图像进行操作;灰度化可以消除彩色图片不同的色彩分布对图像拼接的干扰;灰度化可以提高图像拼接的准确度,因为灰度化后的图像具有较高的对比度和细节信息,使得拼接后的图像更加真实、自然。
在步骤S202中,将灰度化处理后的A、B图像尺寸重构为w*h*1,以方便后续处理。
在步骤S203中,将预处理好的图像输入到4组特征提取器中进行处理,4组特征提取器分别具有相同的结构,每组特征提取器权值共享,每个特征提取器为基于一个ResNet网络中的残差结构组成的。
具体的,如图5所示,残差结构主通道由卷积层、Relu激活函数层、卷积层组成;跳跃通道由一个膨胀卷积(Dilated Covolution)组成,膨胀卷积具有较大的感受野,能够更好的获得全局信息;主通道与跳跃通道相加之后,再通过一个Relu激活函数输入到下一步。
在步骤S204中,4组特征提取模块中各个卷积核的个数如下表1的特征提取参数所示,通过设定合适的填充像素数(padding),使得输入图像与输入图像具有相同大小的尺寸(宽度*高度)。
表1
基于该表1,卷积(Convolution)后的待拼接的图像尺寸为:
Hout=(Hin-kernel_size+2*padding)/stride+1;
Wout=(Win-kernel_size+2*padding)/stride+1;
膨胀卷积(Dilated Covolution)后的待拼接的图像尺寸为:
Hout=(Hin+2*padding-dilation*(kernel_size-1)-1)/stride+1;
Wout=(Win+2*padding-dilation*(kernel_size-1)-1)/stride+1;
其中,Hin和Win分别表示输入图像的高度和宽度;Hout和Wout分别表示输出图像的高度和宽度;kernel_size表示卷积核的大小;padding表示填充的像素数;stride表示卷积核移动的步长;dilation表示膨胀率;kernel_number表示卷积核个数,输出图像的通道数等于卷积核个数。
在步骤S205中,基于步骤S204的特征提取器进行每一层的特征提取后,如图4所示,其中一个所述待拼接图像的多尺度特征图表示为FA、另个所述待拼接图像的多尺度特征图表示为FB、/>
在一实施方式中,对待拼接图像进行特征提取后,需要估计出两个所述待拼接图像之间变化的单应性变换矩阵,即执行步骤S300,如图4所示,步骤S300具体包括步骤S310~S340:
在步骤S310中,将提取到的最后一层特征图和/>进行H估计,即进行单应性变换矩阵H的计算,具体地,H估计过程如图6所示,包括步骤S311~S315:
在步骤S311中,将提取到的最后一层特征图和/>进行L2 Normalization处理,L2 Normalization主要思想是对每个样本计算其L2范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后样本的L2范数等于1,从而加快数据的处理与运算。
在步骤S312中,L2 Normalization处理之后,将输出送给全局相关层,根据余弦相似性定理,计算两者的相似性,提升单应性变换矩阵的估计精度,具体来说:
其中,x1、x2分别表示当前层的两个所述特征图和/>中的相关位置;FA(x1)是特征图/>中位置x1的一维特征向量,FB(x2)是特征图/>中位置x2的一维特征向量;CV(x1,x2)是FA(x1)和FB(x2)的相似度,使得CV(x1,x2)越接近于1时,则使得两个待拼接图像的当前层的特征图/>和/>的相似性越高。
在步骤S313中,全局相关层之后,将输出送到回归网络中,其中相似度越高的特征图部分表示特征图越相似,该部分在回归网络中计算得到的特征误差更小。
在步骤S314中,将回归网络计算出的误差Δ进行直接线性变换计算,即在DLT模块中计算,计算出特征图和特征图/>两者的单应性变换矩阵H1。
其中,该回归网络可以由三个卷积层和两个完全连接层组成,以预测八个坐标偏移(Δi,i=1、2、3),分别是待拼接图像四个顶点的横偏移量、纵偏移量,从而能够确定每一步的单应性变换矩阵Hi(Hi,i=1、2、3和H)。
在步骤S320中,基于底层的单应性变换矩阵Hi和特征图计算得到变换特征图,然后基于变换特征图和另一个待拼接图像的上一层的特征图,计算得到上一层的单应性变换矩阵。具体的,包括如下步骤S321~S325:
在步骤S321中,根据步骤S314计算出的单应性变换矩阵H1,将特征图变换为变换特征图/>
在步骤S322中,将特征图和变换特征图/>进行H估计,重复步骤S310的操作,从而计算出由特征图/>和变换特征图/>得到的单应性变换矩阵H2;
在步骤S323中,根据步骤S322计算出的单应性变换矩阵H2,将特征图变换为变换特征图/>再将特征图/>和变换特征图/>进行H估计,重复步骤S310的操作,从而计算出由特征图/>和特征图/>得到的单应性变换矩阵H3;
在步骤S324中,根据步骤S323计算出的单应性变换矩阵H3,将特征图FB变换为变换特征图FBW,再将特征图FA和特征图FBW进行H估计,重复步骤S310的操作,从而计算出由特征图FA和特征图FBW得到的最终的单应性变换矩阵H。
在一实施方式中,计算出最终的单应性变换矩阵H后,对图像进行融合拼接,执行步骤S400,如图7所示,步骤S400具体包括步骤S410~S430:
在步骤S410中,将最终的单应性变换矩阵H,输入待拼接图像A和B,经过投影变换,得到待配准图像AH和BH,当中,对于待拼接图像A表示为:
对于待拼接图像B表示为:
其中,(x,y,z)是原始图像的齐次位置,(u,v)是变换后的同一坐标系下的位置。
在步骤S420中,将待配准图像AH和BH通过双线性插值,得到光滑扭曲的待配准图像,有利于接下来的图像融合。双线性插值的计算过程可以参考现有技术,本公开对此不作限制。
在步骤S430中,双线性插值后,对预配准的图像AH和BH进行平均融合,得到结构拼接结果。具体来说,重叠区域的像素值等于预配准的图像AH和BH的像素值之和,可以设置加权系数为0.5。
基于上述的实施例,提供了一种多尺度特征提取的图像拼接方法,该方法可以估计参考图像和目标图像在不同特征尺度下的精确投影变换,以提升拼接精度,为了解决感受野问题,为了解决感受野问题,采用了膨胀卷积,以获取更广泛的上下文信息,从而进一步提升图像拼接的效果,基于此,在处理大基线和复杂环境的图像拼接任务时,该实施例可以改善图像拼接的精度和鲁棒性。
基于同样的思路,如图9所示,本公开的示例性实施方式还提供了一种多尺度特征提取的图像拼接装置800,包括多尺度特征提取模块801,用于获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
多尺度单应性估计模块802,用于将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
图像融合模块803,用于基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
上述实施例提出了一种基于膨胀卷积的多尺度特征提取的图像拼接装置,包括多尺度特征提取模块、多尺度单应性估计模块、图像融合模块;多尺度特征提取模块引入了残差结构,在进行特征提取的时候,可以更好融合提取到的图像特征信息,能提高特征提取的准确度,还引入了膨胀卷积,利用膨胀卷积具有较大感受野的性质,提高对全局信息提取的能力,最后,利用多尺度提取到的图像特征,提高对代拼接图像重合区域的识别,从而得到精度更高的单应性变换矩阵;利用多尺度特征提取模块得到的单应性变换矩阵,将代拼接图像变换为待配准图像,经过双线性插值后,利用平局融合,获得拼接图象。
上述装置中各模块/单元的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
基于同样的思路,本说明书实施例还提供一种多尺度特征提取的图像拼接设备,如图9所示。
图像拼接设备可以为上述实施例提供的终端设备或服务器。
图像拼接设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元。存储在存储器902的应用程序可以包括一个或一个以上程序模块(图示未示出),这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。更进一步地,处理器901可以设置为与存储器902通信,在图像拼接设备上执行存储器902中的一系列计算机可执行指令。图像拼接设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上I/O接口(输入输出接口)905,一个或多个外部设备906(例如键盘、手绘板、蓝牙设备等)通信,还可与一个或一个以上使得用户能与该设备交互的设备通信,和/或与使得该设备能与一个或一个以上其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过I/O接口905进行。并且,设备还可以通过有线或无线接口904与一个或一个以上网络(例如局域网(LAN)通讯。
具体在本实施例中,图像拼接设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对图像拼接设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
基于同样的思路,本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图10所示,描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言一诸如Java、C++等,还包括常规的过程式程序设计语言一诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施方式的方法。
此外,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种多尺度特征提取的图像拼接方法,其特征在于,所述拼接方法包括:
获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
2.根据权利要求1所述的多尺度特征提取的图像拼接方法,其特征在于,在提取特征前,还包括:
对所述待拼接图像进行灰度化处理;
重构所述待拼接图像的尺寸,使得两个所述待拼接图像的尺寸相等。
3.根据权利要求1所述的多尺度特征提取的图像拼接方法,其特征在于,所述正则化为基于L2 Normalization的L2正则化。
4.根据权利要求1所述的多尺度特征提取的图像拼接方法,其特征在于,所述计算两个所述待拼接图像之间的特征全局相似性,包括:
根据余弦相似性定理,计算两个所述待拼接图像的同一层的所述特征图的相似性,在计算时,执行公式:
其中,x1、x2分别表示当前层的两个所述特征图中的相关位置;FA(x1)是x1的一维特征向量,FB(x2)是位置x2的一维特征向量;CV(x1,x2)是FA(x1)和FB(x2)的相似度,使得CV(x1,x2)越接近于1时,则使得两个所述待拼接图像的当前层的所述特征图的相似性越高。
5.根据权利要求1所述的多尺度特征提取的图像拼接方法,其特征在于,所述计算偏移量,包括:
计算一个所述待拼接图像相对于另一个所述待拼接图像的四个顶点的横偏移量和纵偏移量,预测得到预测八个坐标偏移。
6.根据权利要求1所述的多尺度特征提取的图像拼接方法,其特征在于,所述基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,包括:
对所述偏移量进行直接线性变换,计算得到所述单应性变换矩阵。
7.根据权利要求1所述的多尺度特征提取的图像拼接方法,其特征在于,在得到两个所述待配准图像后,对两个所述待配准图像进行双线性插值,得到光滑扭曲的所述待配准图像,并进行平均融合。
8.一种多尺度特征提取的图像拼接装置,包括:
多尺度特征提取模块,用于获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
多尺度单应性估计模块,用于将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
图像融合模块,用于基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
9.一种多尺度特征提取的图像拼接设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取两个待拼接图像,基于四组特征提取器,对所述待拼接图像的特征进行逐层提取,得到四层特征图,所述特征提取器为基于ResNet网络中的残差结构组成,所述残差结构的主通道由卷积层、Relu激活函数层、卷积层组成,其跳跃通道由膨胀卷组成;
将提取到的位于底层的所述特征图进行正则化处理后计算两个所述待拼接图像之间的特征全局相似性,并计算偏移量,基于所述偏移量,估计出底层的两个所述待拼接图像之间变化的单应性变换矩阵,基于底层的所述单应性变换矩阵和其中一个所述待拼接图像的上一层的所述特征图,计算得到变换特征图,基于所述变换特征图和另一个所述待拼接图像的上一层的所述特征图,计算得到上一层的所述单应性变换矩阵,依次操作,直至得到最上层的所述单应性变换矩阵;
基于最上层的所述单应性变换矩阵,将两个所述待拼接图像投影变换得到两个待配准图像,将两个所述待配准图像通过平均融合得到拼接结果。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的多尺度特征提取的图像拼接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790153.XA CN116934591A (zh) | 2023-06-28 | 2023-06-28 | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790153.XA CN116934591A (zh) | 2023-06-28 | 2023-06-28 | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116934591A true CN116934591A (zh) | 2023-10-24 |
Family
ID=88385520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310790153.XA Pending CN116934591A (zh) | 2023-06-28 | 2023-06-28 | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116934591A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876647A (zh) * | 2024-03-13 | 2024-04-12 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220932A (zh) * | 2017-04-18 | 2017-09-29 | 天津大学 | 基于词袋模型的全景图像拼接方法 |
WO2019214568A1 (zh) * | 2018-05-07 | 2019-11-14 | 清华大学深圳研究生院 | 一种基于深度的光场拼接方法 |
CN111709980A (zh) * | 2020-06-10 | 2020-09-25 | 北京理工大学 | 基于深度学习的多尺度图像配准方法和装置 |
CN114140623A (zh) * | 2021-12-10 | 2022-03-04 | 上海智能交通有限公司 | 一种图像特征点提取方法及系统 |
CN114972423A (zh) * | 2022-05-17 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 一种航拍视频运动目标检测方法及系统 |
CN115115522A (zh) * | 2022-08-15 | 2022-09-27 | 浙江工业大学 | 一种货架商品图像拼接方法及系统 |
CN115841422A (zh) * | 2022-12-05 | 2023-03-24 | 杭州电子科技大学 | 基于金字塔结构超分辨率网络的图像拼接方法 |
CN116012501A (zh) * | 2022-12-12 | 2023-04-25 | 大连民族大学 | 基于风格内容自适应归一化姿态引导的图像生成方法 |
CN116091314A (zh) * | 2022-12-30 | 2023-05-09 | 长春理工大学 | 一种基于多尺度深度单应性的红外图像拼接方法 |
-
2023
- 2023-06-28 CN CN202310790153.XA patent/CN116934591A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220932A (zh) * | 2017-04-18 | 2017-09-29 | 天津大学 | 基于词袋模型的全景图像拼接方法 |
WO2019214568A1 (zh) * | 2018-05-07 | 2019-11-14 | 清华大学深圳研究生院 | 一种基于深度的光场拼接方法 |
CN111709980A (zh) * | 2020-06-10 | 2020-09-25 | 北京理工大学 | 基于深度学习的多尺度图像配准方法和装置 |
CN114140623A (zh) * | 2021-12-10 | 2022-03-04 | 上海智能交通有限公司 | 一种图像特征点提取方法及系统 |
CN114972423A (zh) * | 2022-05-17 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 一种航拍视频运动目标检测方法及系统 |
CN115115522A (zh) * | 2022-08-15 | 2022-09-27 | 浙江工业大学 | 一种货架商品图像拼接方法及系统 |
CN115841422A (zh) * | 2022-12-05 | 2023-03-24 | 杭州电子科技大学 | 基于金字塔结构超分辨率网络的图像拼接方法 |
CN116012501A (zh) * | 2022-12-12 | 2023-04-25 | 大连民族大学 | 基于风格内容自适应归一化姿态引导的图像生成方法 |
CN116091314A (zh) * | 2022-12-30 | 2023-05-09 | 长春理工大学 | 一种基于多尺度深度单应性的红外图像拼接方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876647A (zh) * | 2024-03-13 | 2024-04-12 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
CN117876647B (zh) * | 2024-03-13 | 2024-05-28 | 大连理工大学 | 基于双目视觉和多尺度单应性回归的图像拼接方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
EP3716198A1 (en) | Image reconstruction method and device | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN110827200A (zh) | 一种图像超分重建方法、图像超分重建装置及移动终端 | |
US9824486B2 (en) | High resolution free-view interpolation of planar structure | |
CN107330439A (zh) | 一种图像中物体姿态的确定方法、客户端及服务器 | |
WO2022206020A1 (zh) | 图像场景深度的估计方法、装置、终端设备和存储介质 | |
US20240046557A1 (en) | Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model | |
CN111507333B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN113674146A (zh) | 图像超分辨率 | |
CN113470029B (zh) | 训练方法及装置、图像处理方法、电子设备和存储介质 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN112308866A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116934591A (zh) | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 | |
CN113793370A (zh) | 三维点云配准方法、装置、电子设备及可读介质 | |
Hutchcroft et al. | CoVisPose: Co-visibility pose transformer for wide-baseline relative pose estimation in 360∘ indoor panoramas | |
EP4292059A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN111612075A (zh) | 基于联合特征重组和特征混合的兴趣点、描述符提取方法 | |
CN117011137B (zh) | 基于rgb相似度特征匹配的图像拼接方法、装置及设备 | |
CN113610911A (zh) | 深度预测模型的训练方法及装置、介质和电子设备 | |
Polasek et al. | Vision UFormer: Long-range monocular absolute depth estimation | |
CN117237398A (zh) | 抠图方法、装置、电子设备及存储介质 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN116912467A (zh) | 图像拼接方法、装置、设备及存储介质 | |
CN116363561A (zh) | 一种时序动作定位方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |