CN113592927A - 一种结构信息引导的跨域图像几何配准方法 - Google Patents
一种结构信息引导的跨域图像几何配准方法 Download PDFInfo
- Publication number
- CN113592927A CN113592927A CN202110842272.6A CN202110842272A CN113592927A CN 113592927 A CN113592927 A CN 113592927A CN 202110842272 A CN202110842272 A CN 202110842272A CN 113592927 A CN113592927 A CN 113592927A
- Authority
- CN
- China
- Prior art keywords
- image
- geometric
- registration
- feature
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000009466 transformation Effects 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims description 39
- 238000011176 pooling Methods 0.000 claims description 37
- 238000010586 diagram Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 20
- 238000003709 image segmentation Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结构信息引导的跨域图像几何配准方法,包括获取针对同一区域从不同角度拍摄的源图像和目标图像,针对两种图像构建跨域图像几何配准网络,进行图像结构信息引导的特征提取,进行跨域图像几何配准网络训练形成跨域图像几何配准网络模型,将源图像和目标图像送入训练好的跨域图像几何配准网络模型中,获得源图像和目标图像之间的几何变换参数,根据几何变换参数对源图像进行几何变换和像素插值,实现源图像与目标图像处于同一坐标系下,从而完成跨域图像的全局配准;本发明利用图像对的结构信息来引导网络训练,以降低跨域图像特征差异的影响,提高跨域配准的准确度。
Description
技术领域
本发明涉及一种结构信息引导的跨域图像几何配准方法。
背景技术
图像配准是将不同时间、不同角度或不同传感器拍摄的同一目标的两幅或多幅图像进行对准的过程。给定源图像和目标图像,由于图像成像条件不同,图像在光照、对比度、尺度、旋转、灰度变化等方面可能有很大差异,图像配准的主要目的就是要克服这些困难,找到一个从源图像到目标图像的最佳空间几何变换,将两幅或多幅图像变换到同一坐标系下,使得变换后的源图像相对于某一相似度量函数来说与目标图像具有最大程度的相似性。
对于图像配准任务,一般包括特征提取、特征描述和特征匹配三个步骤。特征提取用来从图像中提取出关键点(或特征点、角点等);特征描述是用一组数学向量对特征点进行描述,表达特征点的语义内容,需要保证不同特征点之间描述向量不同,且相似关键点之间的差异尽可能小;特征匹配通过计算不同特征描述符向量之间的距离来判断特征点的相似度,常用的距离有欧式距离、汉明距离、余弦距离等。
传统的图像配准方法,如基于SIFT和ORB的特征点匹配方法,均是首先进行特征提取,然后进行特征匹配,两者通常是分开进行的。近年来,随着深度学习的兴起,基于深度卷积神经网络的方法在一系列困难的计算机视觉问题上取得了显著进展,例如图像分类、目标检测、人体姿态估计等。基于深度学习的图像配准方法利用卷积特征具有尺度不变性、保存图像纹理信息等优点,也取得了一定的进展,但仍有较大的提升空间。
在已有的图像配准方法中,公开号CN108537264A的《基于深度学习的异源图像匹配方法》将带标签(0,1)的异源图像对送入VGG网络得到特征图,特征图做差融合归一化后交替训练网络,将图像配准转换为一个简单的二分类问题;公开号CN109711444A的《一种新的基于深度学习的遥感影像配准方法》通过训练卷积神经网络由特征点得到特征向量,特征匹配和变换模型估计都是采用传统方法;公开号CN108346162A的《基于结构信息和空间约束的遥感图像配准方法》采用结构信息生成特征描述符,利用空间约束筛选匹配点对,基于匹配点对完成图像配置,采用传统计算方法计算效率较低,且无法解决跨域图像配准问题。
发明内容
本发明的目的是提出一种结构信息引导的跨域图像几何配准方法,采用语义分割网络提取跨域共享的结构语义特征,利用图像语义分割图进行中间监督,从而实现不同模态图像到语义空间的统一表达;采用注意力机制增强图像对的匹配能力,实现关键信息引导的匹配计算;直接预测输出图像对之间的几何变换参数,实现全局配准,降低了跨域图像特征差异的影响,提高了跨域配准的准确度。
为了实现上述目的,本发明的技术方案是:
一种结构信息引导的跨域图像几何配准方法,包括获取针对同一区域从不同角度、不同传感器拍摄的源图像和目标图像,针对两种图像构建跨域图像几何配准网络,进行图像结构信息引导的特征提取,进行跨域图像几何配准网络训练形成跨域图像几何配准网络模型,将源图像和目标图像送入训练好的跨域图像几何配准网络模型中,获得源图像和目标图像之间的几何变换参数,根据几何变换参数对源图像进行几何变换和像素插值,实现源图像与目标图像处于同一坐标系下,从而完成跨域图像的全局配准;其中:
所述跨域图像几何配准网络是用于图像配准的深度神经网络,包括结构信息引导的特征提取模块、特征匹配模块和几何参数回归模块,其中:
所述结构信息引导的特征提取模块是采用卷积神经网络将输入的源图像和目标图像转换为空间尺寸小于源图像和目标图像的特征图,所述转换是利用编码器-解码器结构的图像分割网络,一方面获得与输入图像同尺寸的语义分割图,另一方面在编码器最后一层连接两个卷积块来获得与输入图像对应的特征图;
所述特征匹配模块联合通道注意力和空间注意力来强调图像对特征图之间的相似部分,以增强匹配能力,通道注意力和空间注意力之间的结合方式是:先通道注意力,后空间注意力,包括:
(a)将特征图通过维度变换后进行矩阵相乘得到相关图,对相关图分别经过最大池化以及平均池化得到两个特征向量,然后使用一个共享的多层感知机进行通道注意力学习,分别得到两个特征向量通道注意力得分,最后通过求和以及Sigmoid函数得到通道注意力图;
(b)将所述相关图与所述通道注意力图逐元素相乘后得到一个通道注意力特征图,然后分别经过最大池化以及平均池化,在通道维度汇聚所有通道间的平均信息以及具有判别空间位置的通道信息,得到两个包含空间信息的注意力特征图,将得到的两个包含空间信息的注意力特征图在通道上进行拼接后,通过一个卷积核为7*7的卷积层以及Sigmoid函数得到空间注意力图;
(c)将通道注意力特征图与空间注意力图逐元素相乘后得到最终的联合通道注意力和空间注意力的特征相关图;
所述几何参数回归模块利用联合通道注意力和空间注意力的特征相关图预测几何变换参数。
方案进一步是:所述在编码器最后一层连接两个卷积块来获得与输入的源图像和目标图像对应的特征图,其中的卷积块是由一个3*3卷积和一个4*4最大池化层组成。
方案进一步是:所述几何参数回归模块由两个卷积块和一个全连接层堆叠组成,每个卷积块包含卷积层、批归一化层和ReLU激活函数,全连接层直接回归出几何变换参数。
方案进一步是:在所述图像分割网络中通过编码解码分别完成下采样和上采样操作,分别为:
(a)输入图像经过两个卷积核为3*3的卷积层,做一次最大池化,重复四次这个处理过程,将最后一次池化后的图像连续做两次卷积,结束下采样过程;
(b)在上采样过程中,先对上一层网络得到的图像进行反卷积,然后将这个图像与对应下采样过程中得到的同样维度的图像简单联合,联合后的图像进行两次卷积,然后再重复反卷积、图像联合、卷积的过程,重复四次后,将最终得到的图像用一个1*1的卷积核进行卷积,得到输入图像对应的语义分割图。
方案进一步是:所述特征匹配模块是卷积块的注意力模型CBAM,注意力模型CBAM插入在特征提取和几何参数回归的两个模块之间。
方案进一步是:所述几何变换参数设为6自由度的仿射变换矩阵。
方案进一步是:所述跨域图像几何配准网络训练时:首先通过预测语义分割图形成中间监督,中间监督为后续图像配准提供结构先验信息;然后利用预测的几何变换参数将源图像中的关键点变换到目标图像坐标系中,通过变换后关键点坐标与目标图像关键点坐标之间的差异来构建监督信号,以引导网络训练。
本发明的有益效果是:利用卷积神经网络,根据输入的图像对直接预测图像配准的几何变换参数,实现图像信息的全局利用和图像配准的全局变换,具有很好的鲁棒性和泛化能力。具体地,利用图像对的结构信息来引导网络训练,以降低跨域图像特征差异的影响,提高跨域配准的准确度;利用注意力机制产生的特征相关图作为量化目标图像和源图像的相似性指标,来强调图像对之间的相似部分并抑制不同部分,降低错误匹配情况,提高了对噪声的鲁棒性;利用语义分割和配准的联合约束在特征相关图上直接预测图像对的几何变换参数,能够良好地适用于跨域图像的全局配准。
本发明针对图像配准问题,利用神经网络来学习特征提取或特征描述,之后没有利用传统计算方法进行匹配。这种深度学习和传统计算方法相结合的方法对于相对单一的图像数据比较适用,但对于跨域图像会很不稳定,导致在实际场景中的鲁棒性和泛化能力较差。因为在跨域图像配准中,不同域图像在内容、灰度、纹理等方面存在较大差异,这就要求深度卷积神经网络提取图像特征后,选取合适的特征来度量图像对之间的相似度,同时综合图像整体信息进行全局配准,以降低噪声的干扰。因此,本发明是在深度卷积神经网络提取图像特征后,选取合适的特征来度量图像对之间的相似度,同时综合图像整体信息进行全局配准,以降低噪声的干扰,设计合理的网络模型来提升跨域图像配准的准确度。具有重要的实用价值和现实意义。
下面结合附图和实施例对本发明作一详细描述。
附图说明
图1结构信息引导的跨域图像几何配准处理流程图;
图2结构信息引导的跨域图像几何配准整体网络结构图;
图3结构信息引导的跨域图像几何配准结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本实施例的描述中,需要说明的是,术语“连接”、“置于”应做广义理解,例如“连接”可以是导线连接,也可以是机械连接;“置于”可以是固定连接放置,也可以是一体成形放置。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本实施例中的具体含义。
一种结构信息引导的跨域图像几何配准方法,利用语义分割网络生成语义分割图,并利用中间监督使所提取的特征具有丰富的结构化语义信息,实现不同模态图像到语义空间的统一表达;其次,在特征匹配阶段使用一种注意力机制来强调图像对之间相似部分,以强化正确匹配并抑制错误匹配;最后,利用输入图像对间的相关图来直接预测几何变换参数,能够更好地处理多模态图像、部分重合图像之间的全局配准。
所述方法包括获取针对同一区域从不同角度、使用不同传感器(例如不同摄像机)拍摄的源图像和目标图像,针对两种图像构建跨域图像几何配准网络,进行两个图像结构信息引导的特征提取,进行跨域图像几何配准网络训练形成跨域图像几何配准网络模型,将源图像和目标图像送入训练好的跨域图像几何配准网络模型中,获得源图像和目标图像之间的几何变换参数,根据几何变换参数对源图像进行几何变换和像素插值,实现源图像与目标图像处于同一坐标系下,从而完成跨域图像的全局配准;其中的所述像素插值使用的是双线性插值算法。
所述跨域图像几何配准网络是用于图像配准的深度神经网络,包括结构信息引导的特征提取模块、特征匹配模块和几何参数回归模块,其中:
所述结构信息引导的特征提取模块是采用卷积神经网络将输入的源图像和目标图像转换为空间尺寸小于源图像和目标图像的特征图,所述转换是利采用编码器-解码器结构的图像分割网络,一方面获得原图像和目标图像与输入图像同尺寸的语义分割图,另一方面在编码器最后一层连接两个卷积块获得与输入图像对应的特征图;
所述特征匹配模块是卷积块的注意力模型CBAM,注意力模型CBAM插入在特征提取和几何参数回归的两个模块之间;所述特征匹配模块联合通道注意力和空间注意力来强调图像对特征图之间的相似部分,以增强匹配能力,通道注意力和空间注意力之间的结合方式是:先通道注意力,后空间注意力,包括:
(a)将与输入图像对应的特征图通过维度变换后进行矩阵相乘得到相关图,对相关图分别经过最大池化以及平均池化得到两个特征向量,是基于最大池化以及平均池化的两个不同空间描述的特征向量,然后使用一个共享的多层感知机进行通道注意力学习,分别得到两个特征向量的通道注意力得分,最后通过逐元素求和以及Sigmoid函数得到通道注意力图;
(b)将所述相关图与所述通道注意力图逐元素相乘后得到一个通道注意力特征图,然后分别经过最大池化以及平均池化,在通道维度汇聚所有通道间的平均信息以及具有判别空间位置通道信息,得到两个包含空间信息的注意力特征图,将得到的两个包含空间信息的注意力特征图在通道上进行拼接后,然后通过一个卷积核为7*7的卷积层以及Sigmoid函数得到空间注意力图;
(c)将通道注意力特征图与空间注意力图逐元素相乘后得到最终的联合通道注意力和空间注意力的特征相关图;
所述几何参数回归模块利用联合通道注意力和空间注意力的特征相关图预测几何变换参数。
其中:所述在编码器最后一层连接两个卷积块来获得与输入的源图像和目标图像对应的特征图,其中的卷积块是由一个3*3卷积和一个4*4最大池化层组成。所述几何参数回归模块由两个卷积块和一个全连接层堆叠组成,每个卷积块包含卷积层、批归一化层和ReLU激活函数,全连接层直接回归出几何变换参数;所述几何变换参数设为6自由度的仿射变换矩阵。
方法中在所述图像分割网络中通过编码解码分别完成下采样和上采样操作,分别为:
(a)输入图像经过两个卷积核为3*3的卷积层,做一次最大池化,重复四次这个处理过程,将最后一次池化后的图像连续做两次卷积,结束下采样过程;
(b)在上采样过程中,先对上一层网络得到的图像进行反卷积,然后将这个图像与对应下采样过程中得到的同样维度的图像简单联合,联合后的图像进行两次卷积,然后再重复反卷积、图像联合、卷积的过程,重复四次后,将最终得到的图像用一个1*1的卷积核进行卷积,得到输入图像对应的语义分割图。其中:所述图像分割网络是使用Unet作为图像分割网络,最大池化是4*4。
方法中所述跨域图像几何配准网络训练时:首先通过预测语义分割图形成中间监督,中间监督为后续图像配准提供结构先验信息;然后利用预测的几何变换参数将源图像中的关键点变换到目标图像坐标系中,通过变换后关键点坐标与目标图像关键点坐标之间的差异来构建监督信号,以引导网络训练。
下面是对所述方的详细描述:
所述方法包含如下步骤:
步骤一、构建跨域图像几何配准网络。采用语义分割网络提取跨域共享的结构语义特征,利用图像语义分割图进行中间监督,从而实现不同模态图像到语义空间的统一表达;采用注意力机制增强图像对的匹配能力,实现关键信息引导的匹配计算;直接预测输出图像对之间的几何变换参数,实现全局配准。
步骤二、联合语义分割损失和配准损失训练跨域图像几何配准网络。构建跨域图像配准数据的训练集,包含图像对(源图像和目标图像)原图、语义分割图,以及若干配准关键点;利用语义分割图在网络模型的语义分割网络之后构造语义分割损失函数,引导特征提取模块学习更多的结构信息;在特征相关图上预测几何变换参数,根据预测的几何变换参数对源图像进行变换,通过比较变换后的源图像与目标图像在对应关键点上的误差来构造配准损失函数;联合语义分割损失函数和配准损失函数对跨域图像几何配准网络进行训练,最终获得跨域图像几何配准网络模型。
步骤三、利用跨域图像几何配准网络模型对跨域图像对进行配准。将包含源图像和目标图像的图像对输入到训练好的跨域图像几何配准网络模型中,依次得到对应的特征图和基于注意力机制的相关图,最终输出几何变换参数;采用得到的几何变换参数将源图像进行几何变换,实现源图像与目标图像的像素级配准。
在步骤一中,跨域图像几何配准网络是指用于图像配准的深度神经网络,包括结构信息引导的特征提取模块、注意力增强的特征匹配模块和几何参数回归模块。
结构信息引导的特征提取模块,使用卷积神经网络将输入的源图像A和目标图像B转换为空间尺寸更小的特征图,这里采用编码器-解码器结构的图像分割网络(如Unet),一方面获得与输入图像同尺寸的语义分割图,另一方面在编码器最后一层再连接两个卷积块来获得后续使用的特征,每个卷积块由一个3*3卷积和一个4*4最大池化层组成,最后得到特征图fA,fB∈Rd×h×w。
2)注意力增强的特征匹配模块,在特征提取和几何参数回归的两个模块之间插入一个注意力增强的特征匹配模块,该模块通过通道注意力机制学习每个通道的重要性,通过空间注意力机制更好地定位关联性特征的位置,联合通道注意力和空间注意力来强调图像对之间的相似部分,以增强匹配能力。具体地,
(a)将fA,fB∈Rd×h×w通过维度变换后进行矩阵相乘得到相关图fAB∈R(h×w)×h×w,分别经过最大池化(Maxpool)以及平均池化(Avgpool)得到两个特征向量;然后使用一个共享的多层感知机(MLP)进行通道注意力学习,分别得到两个通道注意力得分;最后通过求和以及Sigmoid函数得到最终的通道注意力图Mc(fAB):
即Mc(fAB)=σ((MLP(AvgPool(fAB)))+(MLP(MaxPool(fAB))))。
(b)将特征相关图fAB与通道注意力映射Mc(fAB)逐元素相乘后得到通道注意力特征f′AB,分别经过最大池化以及平均池化,在通道维度汇聚所有通道间的平均信息以及最具有判别性的通道信息;将得到的两个特征图在通道上进行拼接后,通过一个卷积层(conv)以及Sigmoid函数生成最终的空间注意力图Ms(f′AB):
即Ms(f′AB)=σ(conv([AvgPool(f′AB);MaxPool(f′AB)]))。
(c)将通道注意力特征f′AB与空间注意力图Ms(f′AB)逐元素相乘得到最终的联合通道注意力机制和空间注意力机制的特征相关图,记为f″AB。
所述步骤二中,模型训练时,首先通过预测语义分割图形成中间监督,为后续图像配准提供强大的结构先验信息;然后利用预测的几何变换参数将源图像中的关键点变换到目标图像坐标系中,通过变换后关键点坐标与目标图像关键点坐标之间的差异来构建监督信号,以引导网络训练。因此,网络训练的总损失函数为语义分割损失与配准损失之和,具体地,语义分割损失lmask为源图像语义分割损失lsource目标图像语义分割损失ltarget之和;配准损失函数为表示图像配准的关键点偏差,其中表示网络模型输出的几何变换参数,gi={(xi,yi)}为目标图像的关键点,为变换后图像的关键点,N表示关键点个数,d表示距离函数(如SmoothL1Loss)。总体损失函数为l=λmasklmask+λcallcal,其中λmask和λcal分别为语义分割损失和配准损失对应的权重。
所述步骤三中,通过将源图像和目标图像送入训练好的跨域图像几何配准网络模型中,获得图像对之间的几何变换参数这里结构信息引导的特征提取模块中的语义分割分支不再使用。根据对源图像进行几何变换和像素插值(如双线性插值算法),使源图像与目标图像处于同一坐标系下,从而完成跨域图像的全局配准。
上述方法可分为数据集构建、搭建网络、网络训练、模型使用四大部分,为了便于理解,下面结合说明书附图说明每部分的具体实施方式。
数据集构建:在搭建结构信息引导的跨域图像几何配准网络前,需要构建方法所用的跨域配准数据集并进行相应图像预处理,数据集包含图像对原图、对应的语义分割图以及若干配准关键点。
作为示例,这里使用的图像数据为光伏板跨域图像数据集,真实图像为无人机拍摄的493张实际场景图,分辨率为1920×1080,虚拟图像为虚拟仿真平台的475张采样图像,分辨率为2560×1440。语义分割图分别标注了每块光伏板,关键点采用部分光伏板边框的左上角和右下角,将数据集按照大约3:1进行训练集和测试集的划分,如图1所示,将真实图像作为源图像,虚拟图像作为目标图像,缩放至固定大小尺寸(如320×240),图1中右边的图像从上至下对应了左边的处理流程,图像的左侧图像是源图像,右侧图像是目标图像。本实施例涉及的卷积神经网络都是基于三维数据的,因此无需在维度上改变原始的图像,即:所述卷积神经网络是基于三维数据的卷积神经网络,在跨域图像几何配准过程中的源图像维度和目标图像维度保持不变。因为图像间的灰度分布是参差不一的,所以实施例对图像进行了归一化处理,对图像中的灰度值进行线性变换,将图像灰度值映射到区间(0,1)内。
搭建跨域图像几何配准网络:如图2所示,结构信息引导的跨域图像几何配准网络在总体结构上包括特征提取模块、特征匹配模块和几何参数回归模块。
特征提取模块采用编码器-解码器结构的图像分割网络,一方面获得与输入图像同尺寸的语义分割图,另一方面在编码器最后一层再连接两个卷积块来获得输入图像对应的特征。图像分割网络中的编码解码分别完成下采样和上采样操作:
(a)输入图像经过两个卷积核为3*3的卷积层,做一次最大池化,重复四次这个处理过程,将最后一次池化后的图像连续做两次卷积,结束下采样过程。
(b)在上采样过程中,先对上一层网络得到的图像进行反卷积,然后将这个图像与对应下采样过程中得到的同样维度的图像简单联合,联合后的图像进行两次卷积,然后再重复反卷积、图像联合、卷积的过程,重复四次后,将最终得到的图像用一个1*1的卷积核进行卷积,得到输入图像对应的语义分割图。
作为示例,使用Unet作为图像分割网络,每个卷积块由一个3*3卷积和一个4*4最大池化层组成。
特征匹配模块是一种结合了空间和通道注意力的网络,不仅考虑了不同通道的重要性,而且还考虑了同一通道的不同位置的重要性程度,极大地增强了图像对之间相似性特征的表达能力。通道注意力和空间注意力之间的结合方式是:先通道注意力,后空间注意力,计算公式为:
其中fAB表示特征进行矩阵相乘后的相关图;
Mc表示在通道维度上做注意力提取的操作;
Ms表示在空间维度上做注意力提取的操作;
f″AB表示的是最终基于注意力机制的特征相关图。
Mc和Ms的详细过程描述如下:
(a)首先利用最大池化和平均池化分别进行空间特征信息的学习,从而得到不同空间的两个特征向量,然后使用一个共享的多层感知机进行通道注意力学习,分别得到两个通道注意力得分,最后通过逐元素求和以及Sigmoid函数得到通道注意力图Mc。
(b)首先在通道维度上使用最大池化和平均池化,然后将两个汇集了通道信息的特征图进行拼接后,通过一个卷积核为7*7的卷积层以及Sigmoid函数生成最终的空间注意力图Ms。
作为示例,可使用卷积块的注意力模型CBAM作为特征匹配模块。
几何参数回归模块由两个卷积块和一个全连接层堆叠组成,每个卷积块包含卷积层、批归一化层和ReLU激活函数,全连接层直接回归出几何参数。
作为示例,可将几何变换参数设为6自由度的仿射变换矩阵。
跨域图像几何配准网络训练:将预处理后的图像对送入跨域图像几何配准网络,进行网络权重的训练,所用损失函数包括语义分割损失lmask和配准损失lcal。进一步地,表示两幅图像的重合度,其中,ypred表示用图像分割网络预测得到的结果图(如语义分割图M′A和M′B),ytrue表示真实的标签图(如语义分割标签MA和MB),ypred∩ytrue表示两幅图像重合部分的像素值,(ypred+ytrue)表示两幅图像的像素值之和,smooth是一个平滑参数,为防止出现由于分母为0导致出错的情况;表示图像配准的关键点偏差,其中表示网络模型输出的几何变换参数,gi={(xi,yi)}为目标图像的关键点,为变换后图像的关键点,N表示关键点个数,d表示距离函数(如SmoothL1Loss)。
利用构建好的数据集,使用深度学习框架,设置相应超参数,通过反向传播算法和梯度下降策略使损失函数值下降、模型收敛,最终得到训练好的结构信息引导的跨域图像几何配准网络模型。
作为示例,网络模型的损失函数分为两部分,即语义分割损失lmask和配准损失lcal,总损失函数为l=λmasklmask+λcallcal,其中λmask和λcal用来平衡两个损失,两者都设置为1,网络的优化方法选择随机梯度下降法,学习率大小为1e-4,优化器为Adam,权重衰减系数设置为1e-5,共训练200个epoch。
跨域图像几何配准网络模型使用:将构建好的源图像和目标图像送入训练好的跨域图像几何配准网络模型中,获得图像对间的几何变换参数,最后进行几何变换和像素插值将源图像映射到目标图像坐标系得到配准结果,此过程无需使用特征提取模块中的语义分割分支以及人工标注关键点。
作为示例,在得到6自由度的几何变换参数仿射变换矩阵后调用opencv函数中的cv2.warpAffine得到源图像的变换图像,为了更好的可视化跨域图像配准效果,将变换图像与目标图像融合得到图3所示的可视化结果,图3中的左边一列是三幅源图像,中间一列是对应的三幅目标图像,右边一列是三幅配准图像,是三幅源图像对应三幅目标图像的三幅变换图像。
本实施例针对图像配准问题,利用神经网络来学习特征提取或特征描述,之后没有利用传统计算方法进行匹配。这种深度学习和传统计算方法相结合的方法对于相对单一的图像数据比较适用,但对于跨域图像会很不稳定,导致在实际场景中的鲁棒性和泛化能力较差。因为在跨域图像配准中,不同域图像在内容、灰度、纹理等方面存在较大差异,这就要求深度卷积神经网络提取图像特征后,选取合适的特征来度量图像对之间的相似度,同时综合图像整体信息进行全局配准,以降低噪声的干扰。因此,本实施例正是在深度卷积神经网络提取图像特征后,选取合适的特征来度量图像对之间的相似度,同时综合图像整体信息进行全局配准,以降低噪声的干扰,设计合理的网络模型来提升跨域图像配准的准确度。具有重要的实用价值和现实意义。
Claims (7)
1.一种结构信息引导的跨域图像几何配准方法,包括获取针对同一区域从不同角度、不同传感器拍摄的源图像和目标图像,针对两种图像构建跨域图像几何配准网络,进行图像结构信息引导的特征提取,进行跨域图像几何配准网络训练形成跨域图像几何配准网络模型,将源图像和目标图像送入训练好的跨域图像几何配准网络模型中,获得源图像和目标图像之间的几何变换参数,根据几何变换参数对源图像进行几何变换和像素插值,实现源图像与目标图像处于同一坐标系下,从而完成跨域图像的全局配准;其特征在于,
所述跨域图像几何配准网络是用于图像配准的深度神经网络,包括结构信息引导的特征提取模块、特征匹配模块和几何参数回归模块,其中:
所述结构信息引导的特征提取模块是采用卷积神经网络将输入的源图像和目标图像转换为空间尺寸小于源图像和目标图像的特征图,所述转换是利用编码器-解码器结构的图像分割网络,一方面获得与输入图像同尺寸的语义分割图,另一方面在编码器最后一层连接两个卷积块来获得与输入图像对应的特征图;
所述特征匹配模块联合通道注意力和空间注意力来强调图像对特征图之间的相似部分,以增强匹配能力,通道注意力和空间注意力之间的结合方式是:先通道注意力,后空间注意力,包括:
(a)将特征图通过维度变换后进行矩阵相乘得到相关图,对相关图分别经过最大池化以及平均池化得到两个特征向量,然后使用一个共享的多层感知机进行通道注意力学习,分别得到两个特征向量通道注意力得分,最后通过求和以及Sigmoid函数得到通道注意力图;
(b)将所述相关图与所述通道注意力图逐元素相乘后得到一个通道注意力特征图,然后分别经过最大池化以及平均池化,在通道维度汇聚所有通道间的平均信息以及具有判别空间位置的通道信息,得到两个包含空间信息的注意力特征图,将得到的两个包含空间信息的注意力特征图在通道上进行拼接后,通过一个卷积核为7*7的卷积层以及Sigmoid函数得到空间注意力图;
(c)将通道注意力特征图与空间注意力图逐元素相乘后得到最终的联合通道注意力和空间注意力的特征相关图;
所述几何参数回归模块利用联合通道注意力和空间注意力的特征相关图预测几何变换参数。
2.根据权利要求1所述的配准方法,其特征在于,所述在编码器最后一层连接两个卷积块来获得与输入的源图像和目标图像对应的特征图,其中的卷积块是由一个 3*3 卷积和一个4*4 最大池化层组成。
3.根据权利要求1所述的配准方法,其特征在于,所述几何参数回归模块由两个卷积块和一个全连接层堆叠组成,每个卷积块包含卷积层、批归一化层和ReLU激活函数,全连接层直接回归出几何变换参数。
4.根据权利要求1所述的配准方法,其特征在于,在所述图像分割网络中通过编码解码分别完成下采样和上采样操作,分别为:
(a)输入图像经过两个卷积核为3*3的卷积层,做一次最大池化,重复四次这个处理过程,将最后一次池化后的图像连续做两次卷积,结束下采样过程;
(b)在上采样过程中,先对上一层网络得到的图像进行反卷积,然后将这个图像与对应下采样过程中得到的同样维度的图像简单联合,联合后的图像进行两次卷积,然后再重复反卷积、图像联合、卷积的过程,重复四次后,将最终得到的图像用一个1*1的卷积核进行卷积,得到输入图像对应的语义分割图。
5.根据权利要求1所述的配准方法,其特征在于,所述特征匹配模块是卷积块的注意力模型CBAM,注意力模型CBAM插入在特征提取和几何参数回归的两个模块之间。
6.根据权利要求1所述的配准方法,其特征在于,所述几何变换参数设为6自由度的仿射变换矩阵。
7.根据权利要求1所述的配准方法,其特征在于,所述跨域图像几何配准网络训练时:首先通过预测语义分割图形成中间监督,中间监督为后续图像配准提供结构先验信息;然后利用预测的几何变换参数将源图像中的关键点变换到目标图像坐标系中,通过变换后关键点坐标与目标图像关键点坐标之间的差异来构建监督信号,以引导网络训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110842272.6A CN113592927B (zh) | 2021-07-26 | 2021-07-26 | 一种结构信息引导的跨域图像几何配准方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110842272.6A CN113592927B (zh) | 2021-07-26 | 2021-07-26 | 一种结构信息引导的跨域图像几何配准方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592927A true CN113592927A (zh) | 2021-11-02 |
CN113592927B CN113592927B (zh) | 2023-12-15 |
Family
ID=78249681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110842272.6A Active CN113592927B (zh) | 2021-07-26 | 2021-07-26 | 一种结构信息引导的跨域图像几何配准方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592927B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850241A (zh) * | 2021-11-30 | 2021-12-28 | 城云科技(中国)有限公司 | 车窗抛物检测方法、装置及计算机程序产品、电子装置 |
CN114359355A (zh) * | 2021-12-24 | 2022-04-15 | 上海应用技术大学 | 遥感图像配准方法 |
CN114693755A (zh) * | 2022-05-31 | 2022-07-01 | 湖南大学 | 多模图像最大矩与空间一致性的非刚性配准方法及系统 |
CN117274778A (zh) * | 2023-11-21 | 2023-12-22 | 浙江啄云智能科技有限公司 | 基于无监督和半监督的图像搜索模型训练方法和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160374562A1 (en) * | 2013-03-15 | 2016-12-29 | LX Medical, Inc. | Tissue imaging and image guidance in luminal anatomic structures and body cavities |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
US20200034654A1 (en) * | 2018-07-30 | 2020-01-30 | Siemens Healthcare Gmbh | Deep Variational Method for Deformable Image Registration |
CN111832399A (zh) * | 2020-06-03 | 2020-10-27 | 东南大学 | 一种融合注意力机制的跨域道路航标配准算法 |
CN112699847A (zh) * | 2021-01-15 | 2021-04-23 | 苏州大学 | 基于深度学习的人脸特征点检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
-
2021
- 2021-07-26 CN CN202110842272.6A patent/CN113592927B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160374562A1 (en) * | 2013-03-15 | 2016-12-29 | LX Medical, Inc. | Tissue imaging and image guidance in luminal anatomic structures and body cavities |
US20200034654A1 (en) * | 2018-07-30 | 2020-01-30 | Siemens Healthcare Gmbh | Deep Variational Method for Deformable Image Registration |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111832399A (zh) * | 2020-06-03 | 2020-10-27 | 东南大学 | 一种融合注意力机制的跨域道路航标配准算法 |
CN112699847A (zh) * | 2021-01-15 | 2021-04-23 | 苏州大学 | 基于深度学习的人脸特征点检测方法 |
Non-Patent Citations (2)
Title |
---|
林茂: "基于改进的曲线傅里叶变换图像配准研究", 计算机仿真, vol. 28, no. 10 * |
董猛;吴戈;曹洪玉;景文博;于洪洋;: "基于注意力残差卷积网络的视频超分辨率重构", 长春理工大学学报(自然科学版), no. 01 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850241A (zh) * | 2021-11-30 | 2021-12-28 | 城云科技(中国)有限公司 | 车窗抛物检测方法、装置及计算机程序产品、电子装置 |
CN114359355A (zh) * | 2021-12-24 | 2022-04-15 | 上海应用技术大学 | 遥感图像配准方法 |
CN114359355B (zh) * | 2021-12-24 | 2023-08-01 | 上海应用技术大学 | 遥感图像配准方法 |
CN114693755A (zh) * | 2022-05-31 | 2022-07-01 | 湖南大学 | 多模图像最大矩与空间一致性的非刚性配准方法及系统 |
CN114693755B (zh) * | 2022-05-31 | 2022-08-30 | 湖南大学 | 多模图像最大矩与空间一致性的非刚性配准方法及系统 |
CN117274778A (zh) * | 2023-11-21 | 2023-12-22 | 浙江啄云智能科技有限公司 | 基于无监督和半监督的图像搜索模型训练方法和电子设备 |
CN117274778B (zh) * | 2023-11-21 | 2024-03-01 | 浙江啄云智能科技有限公司 | 基于无监督和半监督的图像搜索模型训练方法和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113592927B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533712B (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN113592927A (zh) | 一种结构信息引导的跨域图像几何配准方法 | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
WO2021175050A1 (zh) | 三维重建方法和三维重建装置 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN110503680A (zh) | 一种基于非监督的卷积神经网络单目场景深度估计方法 | |
CN112750198B (zh) | 一种基于非刚性点云的稠密对应预测方法 | |
CN113221647B (zh) | 一种融合点云局部特征的6d位姿估计方法 | |
CN111127401B (zh) | 一种基于深度学习的机器人立体视觉机械零件检测方法 | |
CN112365523A (zh) | 基于无锚点孪生网络关键点检测的目标跟踪方法及装置 | |
WO2023165361A1 (zh) | 一种数据处理方法及相关设备 | |
CN115588038A (zh) | 一种多视角深度估计方法 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN115375838A (zh) | 一种基于无人机的双目灰度图像的三维重建方法 | |
CN116486233A (zh) | 一种多光谱双流网络的目标检测方法 | |
CN117522990B (zh) | 基于多头注意力机制和迭代细化的类别级位姿估计方法 | |
WO2022208440A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
CN111539288B (zh) | 一种双手姿势的实时检测方法 | |
CN117133041A (zh) | 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 | |
CN112396167A (zh) | 一种外观相似度与空间位置信息融合的回环检测方法 | |
CN113534189A (zh) | 体重检测方法、人体特征参数检测方法及装置 | |
CN116091762A (zh) | 一种基于rgbd数据和视锥体的三维目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |